2026年1月31日,2025“智駕天梯榜”年度盛典重磅啟幕,智駕行業(yè)頂尖專家、企業(yè)高管、投資機構代表與車主代表齊聚一堂,共赴這場年度行業(yè)盛會。
地平線智能駕駛資深產品總監(jiān)劉文堯發(fā)表演講時表示,高階智駕系統(tǒng)的發(fā)展歷經規(guī)則系統(tǒng)、混合系統(tǒng)、全鏈路數(shù)據系統(tǒng)三個構型階段:
第一階段為基于研發(fā)工程師編寫規(guī)則代碼的規(guī)則系統(tǒng),雖能做出亮眼DEMO和視頻,但場景泛化能力弱,難以大規(guī)模落地;
第二階段是當前行業(yè)量產主流的混合系統(tǒng),各模塊依特定場景設計,新增場景需新增模塊,面對無預設的隨機場景時體驗與能力易遇瓶頸;
第三階段的全鏈路數(shù)據系統(tǒng)因 FSD V12落地迎來行業(yè)曙光,其入華版本V13讓行業(yè)切實感受到類人性的端到端智駕體驗,而從混合系統(tǒng)向該階段跨越需經歷極為痛苦的研發(fā)重構,此前積累的技術成果與經驗需徹底舍棄,原有問題要基于新架構重新破解,研發(fā)端需重新投入大量心力完成重構,才能實現(xiàn)該階段的量產落地。

以下為劉文堯演講實錄(略有刪減)
今天,地平線在城區(qū)輔助駕駛領域打拼的成果和經驗跟大家做一些分享。
首先,一提地平線大家想到的就是芯片,輔助駕駛領域的芯片,確實一直以來我們在行業(yè)當中其實屬于是隱藏在供應鏈之后的,比如說博世是Tier1的,地平線是隱藏在Tier1后面的供應商的角色,我們在不斷往臺前努力,從技術上我們提供更加全套的輔助駕駛的解決方案,我們叫HSD,這個技術其實也是花了非常非常多的時間和痛苦的打磨才能獲得今天這樣一個成果。
剛才龐老師在開場的時候有講到第一電動所做的年度的50人的評選,我們當初看到非常好的點就是它里面不單單是提到了很多行業(yè)當中的領導者、公司的老板,同時還提及了一些真正帶領一線研發(fā)的研發(fā)的負責人,其實這些人才是真正貢獻現(xiàn)在產品成果的最主要的主力軍,我也是希望可能將來第一電動能夠在更多的后面的評選當中挖掘出更多的在一線貢獻自己心血的研發(fā)人員,因為他們才是最辛苦的產品打造者。
HSD在去年年底,在星途ET5上正式首發(fā)量產,其實說來特別巧,不管是文遠韓總所說的他們量產的車,還是我們HSD量產的車型,都是在奇瑞星途車上做量產。更多的主機廠比如像奇瑞,更愿意開明地擁抱更多的新技術、新的冉冉升起的供應商,而不再迷信于說我就要自己把所有的東西打造出來。
還有一個特別重要的點,就是為什么我們會選擇跟奇瑞合作,地平線一直不覺得輔助駕駛就是城區(qū)的這種高級別的輔助駕駛的能力,是專屬于行業(yè)當中最高端的這些所謂的智能汽車的車型,這個技術本身,輔助駕駛技術其實就應該是偏功能型的、普惠型的技術,只要是它的能力足夠強了,每一個普通的用戶都會想去用,不應該是某些特定的價格段專屬的功能,所以我們一直希望將這樣的技術能夠普及到每一個用戶,都能夠去接觸到,都能夠去使用到。所以星途ET5和深藍的L06是地平線首發(fā)搭載的兩個車型,后面還會有更多的15萬級別的助力車型的落地。
我們一直在想,這個行業(yè)當中,在行業(yè)早期的行業(yè)當中,產品的好壞評價可能是行業(yè)當中的測試,可能是一些專業(yè)的媒體,隨著后邊越來越多的用戶能夠親身接觸到輔助駕駛的能力,用戶會有越來越多實際的行業(yè)體感,真正好壞的評價者不再是行業(yè)當中少數(shù)的權威人員,而應該是直播鏡頭前每一個真實的用戶,你們覺得這個產品好才是真的好,不應該只是屬于小眾的人群。所以我特別共鳴于龐老師開場的時候感謝每一個在線上或者在線下觀看我們直播內容的車主,還有用戶們,其實你們才是真正這些成果的評價者。
重點講一下我們是怎么一步步走到現(xiàn)在這個階段的,剛才龐老師也講了整個得分波動的幾個起伏,其實跟我們眼中整個技術的演進是有三個時代對應的。
▍高階智駕系統(tǒng)的三個構型發(fā)展階段
在輔助駕駛當中的第一個時代就是規(guī)則系統(tǒng)階段,HSD第一代的時候就是基于規(guī)則的產品形態(tài),所有大家能夠看到的一些當時的亮點場景其實都是由研發(fā)工程師自己寫的規(guī)則代碼驅動的,每一個場景有一套自己對應的規(guī)則。這樣一個產品可以做成比較好的DEMO和視頻,但是它很難做到大規(guī)模泛化,可能在某一個路段能跑,但是一旦在更泛化的場景當中就出現(xiàn)了問題。

所以,我們就進入到了第二個混合系統(tǒng)的時代,現(xiàn)在其實絕大部分行業(yè)當中已經量產的功能都還是處于混合系統(tǒng)的階段,我記得當時龐老師說了一個非常重要的點,當時增加難度的時候有一個很重要的點,不給大家公布道路路線,還有相關的信息,其實這里面很大的挑戰(zhàn)就是混合系統(tǒng)當中很難在不知道給定前提的情況下能夠獲得很好的體驗。因為所有的單獨的系統(tǒng)模塊可能都是根據一些特定場景的給定需求來設計的,每增加一個新的場景就要再增加一個新的模塊,一旦你給他一些隨機性的場景出現(xiàn),它的方法能力又迅速地陷入到了瓶頸當中。
所以我們真正看到的行業(yè)的曙光其實確實是FSDV12的落地,這里標的V13的核心原因是因為V13是真正第一個進入到中國市場的版本,當時大家其實對于真正一段式端到端的產品到底有什么樣的產品體驗的表現(xiàn),大家其實更多的是一種猜測或者是只能在網上看到北美的用戶體驗的一些視頻,真正能讓大家去感受到類人性的體驗還是V13入華的時候,我們其實也是在V12、V13中間這個時間點做出了決心,全面地用第三個全鏈路的數(shù)據系統(tǒng),或者是現(xiàn)在大家都在提的一段式端到端的思路來做這樣的產品研發(fā),這中間有一個非常痛苦的過程,在2和3之間有一個陰影標注的面積,很多人之前看這個圖的時候都不會注意到中間陰影區(qū)域,這個區(qū)域其實是非常非常難的,現(xiàn)在行業(yè)當中大家傳播的節(jié)奏非???,每到一個傳播的節(jié)點都想拋出一個新的名詞。
但是大家知道真正研發(fā)在做產品的時候,其實系統(tǒng)迭代的周期和他拿到一個新的算法架構的周期的時候需要經歷一個特別痛苦的重構的過程,標陰影的區(qū)域其實就是2到3有一個非常痛苦的重構過程,在第二階段當中取得的很多的技術成果、經驗的收益,其實你想要再重構到第三個階段的時候都需要把它完全拋棄掉,你曾經可能已經用第二個系統(tǒng)架構解決的問題,你需要用第三個系統(tǒng)重新再解一遍,重新跳到研發(fā)的坑和過程里面。我們也花了非常大的心力最后才達到了第三個階段的量產。
▍當前城區(qū)輔助駕駛系統(tǒng)基本仍處于混合式架構的范式階段
如果我們去整體看一下現(xiàn)在的,剛才提到的混合架構的問題的話,我們可以給它有兩個類型范式的總結,第一個是混合架構下一般就是兩段式的端到端,它的產品形態(tài)其實是由一個一段式的感知,輸出了感知結果以后,接入到一個縱向和橫向的模型當中,最后再將橫縱向的模型輸出做一個拼接,最后做到控車。

還有一種方式其實是一段式的端到端輸出的原始軌跡,但是由于沒有拿到最好的收益,它的原始軌跡出現(xiàn)了一定的瑕疵,所以需要加上橫向和縱向的后處理優(yōu)化,最后再去控制車輛。這兩種形態(tài)其實都會有一些共性的問題,第一個是大家看到藍色的模塊,都是不需要的模塊,模塊增多就會帶來系統(tǒng)響應時間變慢,系統(tǒng)響應時間變慢自然絲滑感就會下降。第二個是所有的模塊之間信息傳遞都是需要有人寫的規(guī)則的,來定義上一個模塊的輸入是什么,這個模塊的輸出又是什么,這些人寫的規(guī)則就會帶來信息傳遞過程當中的損失,比如說感知的模塊,所有的傳感器的信息進入之后,輸出的只不過是需要看到的分類,這個是車道線、這個是車、這個是人,一些重要的信息有可能在這個過程中被損失掉。
兩種路線其實都做了某種意義上橫縱向的分離,橫縱向的分離就會帶來一個問題,人在開車的時候其實同時一個腦控制我們的手和腳,橫向的手控制方向盤,縱向的腳控制油門和剎車,然后再去做拼接,有可能在復雜場景下出現(xiàn)橫向和縱向打架的情況,絲滑感不夠。
▍地平線HSD:國內首個真正一段式端到端
其實最本源的架構還是一段式的端到端,它解決的問題就是把我們剛才所說的時延的過高、橫縱向的分割全部解決掉,由于他本身的模型的架構很簡單,它就是通過傳感器的輸入,中間有一個模型,然后直接輸出一個橫縱向合在一起的控車的軌跡,所以說他才能夠真正做到足夠高的類人性。

重點提及了現(xiàn)在行業(yè)當中一段式端到端比較重要的場景特點,第一個就是不再有場景化分割的感覺,之前一些混合架構的系統(tǒng)大家可能會覺得說不同場景下這個車開的風格可能不一樣,有的場景下這個車會更激進一點,有的場景下更保守一點,但是用了一段式端到端之后,整個場景的隔離感是比較少的。第二個是控車風格更加像人,方向盤擺動的速度和縱向的剎車和油門的控制會更加細膩,更像人開的。第三個是防御性駕駛的特性,剛才其實我們也在韓總的視頻當中看到了一些他應對突發(fā)場景的能力,就是他不再是一種傳統(tǒng)主動安全的感覺,更像是輕易不會開到一個有風險的駕駛場景當中去的風格,更像人對于防御性預判的駕駛策略。
(播放視頻 略)我不想講太多技術性的東西,我們還是用視頻來看我們現(xiàn)在車型的場景能力。這個應該是在廣東深圳這種南方的非常復雜的場景當中,去體現(xiàn)一段式端到端的控車能力,重點看城區(qū)復雜場景下方向盤的穩(wěn)定性,還有它應對各種各樣復雜場景下響應的速度。
▍全場景可開:HSD漫游自主尋路
這個系統(tǒng)現(xiàn)在有一個很重要的特點,就是在非常復雜的場景下,它的響應速度很快,同時它的控車軌跡非常像人在開車的時候才會輸出的控車軌跡,所以不再是一個場景能否通過的問題,而是它通過的方式是否足夠像人一樣。大家可以想象一下我們作為用戶,現(xiàn)在所有的量產車都是L2級別輔助駕駛的功能定位,用戶在開車過程當中的心理活動就是坐在主駕位上將這個車輛的開車行為跟自己在這個場景當中的開車行為做對比,一旦這個對比是非常大的差異化的結果,這個用戶就會有非常大的恐慌感,很有可能這個用戶出現(xiàn)了幾次恐慌感以后,這個功能他就再也不敢用了。
所以我們?yōu)榱俗屗械挠脩裟軌蚋嗟赜闷饋磉@個功能,現(xiàn)在一個很重要的系統(tǒng)特性就是他要有足夠強的擬人性,這樣才能讓用戶跟這個功能產生足夠強的信任感。其實行業(yè)當中大家去講強化學習的時候一直喜歡提以前AlphaGo下圍棋的風格,也確實當時它是最早將強化學這個學習方式做驗證和突破的場景,但是有一個重要的點,下棋的方式在贏人類專家的時候所用的方式已經不再擬人了,是用了人可能都想象不到的下棋思路戰(zhàn)勝了人。
但是現(xiàn)在輔助駕駛所處的階段,由于我們的駕駛環(huán)境是人和輔助駕駛系統(tǒng)共存的情況,你想讓用戶有足夠強的信心,你想讓交通環(huán)境對你的系統(tǒng)有足夠強的接受度,擬人是最關鍵的,接下來短期內大家都要重點打磨這樣一個產品特性。其實我們現(xiàn)在已經看到了行業(yè)當中越來越多已經量產輔助駕駛的系統(tǒng)都在找城區(qū)當中擬人絲滑性產品體驗的感覺。
除了剛才說的擬人特性之外,還有一個很重要的產品的不一樣,就是我們所說的通用駕駛能力的打造,怎么體現(xiàn)?(播放視頻)我們的車型能夠在非結構化道路當中也能夠做行駛,沒有導航信息的情況下也能夠行駛。比如現(xiàn)在我們就是在山間的林間小道上行駛,沒有明顯的車道線,而且它也沒有明確的導航信息,就是在自主漫游地巡路,最后開到一個停車場里面,再從停車場的閘機出口開出去,這樣的方式就是現(xiàn)在的漫游模式,就是系統(tǒng)最底層駕駛能力的體現(xiàn)。
這個漫游模式我們在量產之前,跟我們的客戶溝通了非常非常長的時間,因為我們整個的星途ET5已經量產的車型,我們是沒有傳統(tǒng)意義上的ACC、ICA這樣的基礎輔助駕駛功能的,車輛就是兩種功能模式,開啟功能以后,你給導航就是NLA的情況,沒有導航的時候就是漫游的模式,漫游的模式在整體駕駛能力、通行能力,跟NLA基本是一致的,需要轉彎的時候也會去轉彎,該繞行的時候也會繞行,這就是基礎的通用駕駛能力的打造,用戶使用過程當中大家可以想象一下,如果在上車的時候還沒有決定我想去哪兒,可以先開啟這個功能,車輛先開起來,然后你再想好你的目的地,輸入之后就會生成NLA的模式,如果中途改目的地也不會降級到ICA或者ACC的功能模式,這才是真正的全場景的系統(tǒng)模式的內核。
剛才說的車端的端到端的控車系統(tǒng),現(xiàn)在行業(yè)大家都在提VLA、大語言模型,系統(tǒng)當中也用了,但是我們沒有用VLA這樣一個結構,我們所使用的其實是一個端到端+VOM并行的系統(tǒng)結構,在車端所跑的其實就是我們下面看到的端到端的模型,因為其實再怎么說,我們車端的算力能跑的就是小模型,大家不要盲目相信大模型這樣營銷的名詞,車端的算力能跑的就是小模型,就有點像真正在跟任何的大語言模型做溝通的時候,所謂推理的思維鏈,你問他一個問題,它還需要想非常長的時間,才能給你一個答案。
這個響應速度還是在一個云端這么大算力的情況下能夠提供的,可想而知,在車端有限算力的情況下,你還想讓它做非常復雜的推理,它的時延一定是非常長的,而且在輔助駕駛情況下能夠有非常好體驗的核心評價指標就是系統(tǒng)時延,所以我們的做法就是在車端要給他快速反應的端到端的系統(tǒng)控車,需要有深度思考和文字信息理解的放到云端的VOM模型當中,這個模型真正能夠給車端端到端提供的是在必要場景,必要情況下先驗式的、理解式的類似導航的信息。
接下來有兩個類似的場景,左邊就是可變車道的理解,這個理解其實云端的VOM會發(fā)揮作用,提前識別到可變車道指示牌的信息,接下來的路口怎么開、要停在哪兒,這個時候云端的VOM會給到端到端一個類似指引的導航信息,這樣做的好處,即使是云端VOM反應速度慢一點,也不影響車端控制的實時響應速度,這是并行的不打架的節(jié)奏。這是接下來行業(yè)當中,可能在現(xiàn)有時代算力下面主流的架構,我們不是說VLA沒有收益,而是真正想拿到收益需要更大的算力驅動,才能保證在低時延的情況下能夠跑得動這么大的模型。
▍AD開發(fā)范式的本質重構:從“做加法”到“做減法”
如果從整個的經驗上做總結,這個圖是我們這兩年多以來,做端到端最主要的心態(tài)和研發(fā)思路上的變化,左邊其實是有點像以前還是規(guī)則或者是混合系統(tǒng)階段開發(fā)的思路,我最早做媒體,后來去廠商做市場的工作,那個時候大家做產品的核心點就是我定義一個,我下一個版本的發(fā)布時間點,或者是一個節(jié)奏的目標,在這個點當中我們和產品一起共創(chuàng)我們有哪些新的功能,是現(xiàn)在行業(yè)當中的痛點,然后跟研發(fā)說能不能做,研發(fā)說能做,大家排一個時間點把這個功能做出來,或者沒做出來,發(fā)布會先發(fā)出去,后面這個功能再上線,它都是通過新增的場景來去牽引研發(fā)做開發(fā)的這樣一種研發(fā)思路,但是大家可以想,在老的系統(tǒng)范式下,系統(tǒng)上限其實是有限的,有點像左邊這棵樹的圖片,樹并不高,但是由于你在這個范式下面還需要有新的功能出來,所以在這個樹的高度下往外長很多的枝葉,每個枝葉都是小的單獨模塊。

現(xiàn)在一段式端到端的研發(fā)模式有點像右邊的開發(fā)邏輯,它不再是單點設計某些新的功能,現(xiàn)在跟研發(fā)提任何的系統(tǒng)功能可能都沒有辦法給我一個特別明確的一定能給出來的時間,因為他需要通過模型的不斷訓練、數(shù)據的不斷采集清洗,讓這個能力自己在模型上面長出來,而不是你正向設計,然后把它變成規(guī)則,然后再做開發(fā)這樣的邏輯,這樣的好處其實是系統(tǒng)基礎的能力,就是我們剛才說的通用駕駛能力在逐漸生長的,在這個生長的過程當中一些新的能力會自己涌現(xiàn)出來。比如說現(xiàn)在新的版本就會有的特性,在到達一個用戶導航目的地之后,車輛會主動靠右開,這個能力就不是正向的直接用規(guī)則寫出來的,而是它自己通過不斷地學習人類的駕駛風格自己學出來的風格。
這樣一個范式往后再去做優(yōu)化,它的思路其實相對來說也很簡單,會返璞歸真,不再是拼功能細枝末節(jié)的定義,其實就是在數(shù)據驅動的基礎的范式的基礎之上,然后有一個足夠強的研發(fā)的工程能力做保證,在這兩個基礎之上不斷地提升你的算力,提升你高質量數(shù)據的優(yōu)化和獲取的能力,然后去提升模型的尺寸。
我們以前一直所說的傳感器的硬件未來我們的判斷是會越來越標準化的,因為只有這樣的話才能夠把你整個的數(shù)據驅動的鏈路逐漸疊加起來,這也是我們對未來的一個判斷,其實我們相信現(xiàn)在,用戶真正開一小段時間,比如智駕開一圈,差異化的體感還不會那么強,但是如果真的有一天隨著范式的提升,我們的能力能達到10倍的提升,我們達到超過千的MPI了,那個時候用戶的體感可能會大大不一樣,他對這個系統(tǒng)的信任感就會再進一步提升,那個時候可能就真的有點像韓總給的預測,有可能看到L4或者超過人類安全屬性的四級的雛形的出現(xiàn)。
來源:第一電動網
作者:李艷嬌
本文地址:http://m.22xuexi.com/news/renwu/286544
文中圖片源自互聯(lián)網,如有侵權請聯(lián)系admin#d1ev.com(#替換成@)刪除。