小鵬VLA 2.0在3月19日將開(kāi)啟陸續(xù)推送,首批先推送全新P7 Ultra,再推送G7和X9。4月推送P7+、G9,G6等。同時(shí),VLA 2.0量產(chǎn)推送的版本是第四個(gè)大版本的第28個(gè)小版本,與之前的媒體試駕版不同(第二個(gè)大版本),但不會(huì)因?yàn)榱慨a(chǎn),把某些功能閹割掉。

第二代VLA對(duì)于小鵬來(lái)說(shuō)至關(guān)重要,是小鵬從L2邁向L4的關(guān)鍵一戰(zhàn)。那么,它相比之前有了哪些變化?解決了智駕行業(yè)哪些難題?它還有哪些問(wèn)題?

▍第二代VLA相比第一代有哪些變化?
小鵬第二代VLA(視覺(jué)-語(yǔ)言-動(dòng)作)核心是顛覆了傳統(tǒng)VLA智駕“視覺(jué)-語(yǔ)言-動(dòng)作”三段式架構(gòu),通過(guò)去顯式語(yǔ)言轉(zhuǎn)譯、端到端直接映射、物理世界因果推理實(shí)現(xiàn)技術(shù)突破,同時(shí)結(jié)合自研芯片算力、感知優(yōu)化等技術(shù)形成完整體系。
小鵬VLA 2.0的技術(shù)核心是構(gòu)建“視覺(jué)→隱式Token→動(dòng)作”的端到端架構(gòu),去掉傳統(tǒng)架構(gòu)中顯式的語(yǔ)言轉(zhuǎn)譯中間層,讓模型直接從視覺(jué)信號(hào)生成車輛動(dòng)作指令。它相比第一代有五大變化。
第一,核心架構(gòu)革新。最本質(zhì)突破是從“三段式語(yǔ)義轉(zhuǎn)譯”到“端到端直接映射”,傳統(tǒng)VLA(含小鵬第一代)采用視覺(jué)識(shí)別→語(yǔ)言轉(zhuǎn)譯→動(dòng)作生成三段式架構(gòu),視覺(jué)特征需先轉(zhuǎn)譯為自然語(yǔ)言(如“前方50米有行人橫穿”),再生成動(dòng)作,存在信息損耗、延遲高、語(yǔ)義誤判三大問(wèn)題。
VLA 2.0重構(gòu)為視覺(jué)→隱式Token→動(dòng)作的端到端架構(gòu),徹底去掉顯式語(yǔ)言轉(zhuǎn)譯層,視覺(jué)傳感器捕捉的路況直接轉(zhuǎn)化為模型內(nèi)部的隱式Token(非語(yǔ)言化的物理世界特征表征,無(wú)人工定義語(yǔ)義規(guī)則),隱式Token直接映射為方向盤(pán)、油門(mén)、剎車的連續(xù)動(dòng)作指令,模型內(nèi)部完成對(duì)物理世界的認(rèn)知,但不進(jìn)行語(yǔ)言化表達(dá)。相比第一代VLA,VLA 2.0系統(tǒng)響應(yīng)速度提升,端到端推理時(shí)延降至80ms。
第二,模型體系重構(gòu)。VLA 2.0采用云端超大規(guī)?;?車端輕量化蒸餾,并支持自演進(jìn)學(xué)習(xí),即VLA 2.0采用“云端訓(xùn)練-車端推理”的兩級(jí)模型架構(gòu),兼顧推理能力與車端實(shí)時(shí)性。
云端基座模型:720億參數(shù)超大規(guī)模模型,依托小鵬3萬(wàn)卡云端算力集群(10EFLOPS算力)訓(xùn)練,支持對(duì)抗訓(xùn)練、因果推理學(xué)習(xí),可推演未來(lái)駕駛場(chǎng)景,提升長(zhǎng)尾場(chǎng)景應(yīng)對(duì)能力;
車端蒸餾模型:幾十億參數(shù)輕量化模型,通過(guò)知識(shí)蒸餾保留云端模型90%以上的推理能力,同時(shí)適配車端算力限制,可在小鵬自研圖靈芯片上實(shí)現(xiàn)實(shí)時(shí)推理;
自演進(jìn)學(xué)習(xí)能力:模型無(wú)需大量人工標(biāo)注,通過(guò)學(xué)習(xí)真實(shí)世界的物理交互規(guī)律自主優(yōu)化決策,新場(chǎng)景可通過(guò)實(shí)車數(shù)據(jù)閉環(huán)快速適配,實(shí)現(xiàn)“數(shù)據(jù)驅(qū)動(dòng)自我進(jìn)化”。
第三,感知優(yōu)化。VLA 2.0的感知優(yōu)化核心是小鵬與北京大學(xué)聯(lián)合研發(fā)的FastDriveVLA視覺(jué)Token剪枝框架,解決了傳統(tǒng)VLA模型視覺(jué)Token過(guò)多、計(jì)算量高、無(wú)效信息干擾的問(wèn)題,實(shí)現(xiàn)“去繁從簡(jiǎn)”的高效感知。
剪枝架構(gòu)的核心技術(shù)點(diǎn)是利用ReconPruner即插即用剪枝器,基于MAE風(fēng)格像素重建訓(xùn)練,引入對(duì)抗性前景-背景重建策略,讓模型像人類司機(jī)一樣只聚焦核心駕駛信息(行人、車輛、交通標(biāo)識(shí)、障礙物等前景),自動(dòng)過(guò)濾無(wú)效背景信息(樹(shù)葉、光影、路面紋理等)。
第四,車端算力大幅提升。通過(guò)依托自研圖靈芯片(單顆750 TOPS)+全鏈路優(yōu)化,實(shí)現(xiàn)大模型車端部署。
第五,決策規(guī)劃層進(jìn)化。VLA 2.0并非簡(jiǎn)單的“感知-動(dòng)作”映射,而是構(gòu)建了具備因果推理能力的物理世界模型,讓智駕系統(tǒng)像人類司機(jī)一樣“理解路況、預(yù)判意圖”,而非單純識(shí)別障礙物。
模型能基于物理世界規(guī)律預(yù)判交通參與者的行為意圖,而非傳統(tǒng)算法的“僅識(shí)別障礙物并簡(jiǎn)單減速”,它是有場(chǎng)景理解能力,比如遇到窄路會(huì)車,它會(huì)先停車讓行,然后有了通行空間后再行駛。
同時(shí),它采用擴(kuò)散模型生成方向盤(pán)角度、油門(mén)/剎車力度的精細(xì)化連續(xù)控制指令,而非傳統(tǒng)的離散動(dòng)作(如轉(zhuǎn)向、加速、剎車),在無(wú)保護(hù)左轉(zhuǎn)、窄路會(huì)車、加塞避讓等場(chǎng)景中,動(dòng)作更貼近人類老司機(jī),銜接更平順。
▍第二代VLA解決了哪些問(wèn)題?
1、突破窄路通行難題

針對(duì)窄路通行的復(fù)雜場(chǎng)景,通過(guò)重構(gòu)底層架構(gòu),解決了雙車道右側(cè)停滿臨停車、左側(cè)電動(dòng)車和行人頻繁出現(xiàn)的難題,實(shí)現(xiàn)了既安全又流暢的通行。
在整個(gè)通行過(guò)程中,第二代VLA它是隱式的先去對(duì)周圍環(huán)境進(jìn)行3D建模,然后去嘗試?yán)斫庹麄€(gè)世界是什么樣,再去判斷自己的通行狀況到底能不能過(guò)去,最后再做出一個(gè)最舒適安全的選擇。所以在這個(gè)時(shí)候,可以看到它不僅僅通行距離是足夠的,而且并不會(huì)覺(jué)得特別緊張,因?yàn)樗俣瓤刂频暮芎?,慢慢的過(guò)去,同時(shí)也是走一步看一步。當(dāng)通行空間特別窄,過(guò)不去的時(shí)候,它會(huì)停下等,并不會(huì)一路特別猛的沖過(guò)去,最后把自己卡死。
2、窄路壓低矮臺(tái)階通行

在窄路會(huì)車時(shí),通行空間不夠,壓著右前方的低矮臺(tái)階通過(guò)。
因?yàn)樵诘诙鶹LA的眼里面,它不像傳統(tǒng)的智能駕駛一樣有感知。如果有感知,就要去識(shí)別可行駛區(qū)域或者道路。先去檢測(cè)道路的邊界,不可行駛區(qū)域。而在第二代VLA整套范式背后,是沒(méi)有這些概念的。當(dāng)一旦有規(guī)則,有檢測(cè)可行駛區(qū)域的邊界,它就會(huì)被壓在里面。這個(gè)時(shí)候一般的選擇會(huì)卡住不動(dòng),不知道干什么了。正常人是不會(huì)這么開(kāi)車的,他會(huì)判斷這個(gè)地方可行駛的可能性。然后判斷對(duì)車的底盤(pán),整體的安全性有沒(méi)有影響?比如說(shuō)遇到臺(tái)階,如果卡在那兒不動(dòng),不去讓行的話,其實(shí)有被刮蹭風(fēng)險(xiǎn)的。所以窄路會(huì)車時(shí)去借用一個(gè)還不算高的臺(tái)階,做一個(gè)通行空間的避讓,是最合理的選擇。第二代VLA會(huì)去嘗試?yán)斫庹麄€(gè)世界,通過(guò)COT去做推理,然后最終找到一個(gè)最合理的通行空間去往前走。
3、繞行開(kāi)門(mén)殺

智駕在處理突然發(fā)生的開(kāi)門(mén)殺場(chǎng)景中的技術(shù)難點(diǎn),一是對(duì)整個(gè)空間的把握要非常準(zhǔn)。一般傳統(tǒng)的意義上來(lái)說(shuō),智能駕駛會(huì)把一個(gè)車當(dāng)成一個(gè)矩形框來(lái)處理。當(dāng)你開(kāi)門(mén)的時(shí)候就會(huì)發(fā)現(xiàn)一個(gè)矩形框,上面多了一條,它一般會(huì)用一個(gè)多邊形去表示,而且還要去判斷開(kāi)門(mén)的整體速度以及是否還會(huì)從里面下來(lái)一個(gè)人。這種情況下去判斷邊界是很難的。另外一個(gè)難點(diǎn)是反應(yīng)速度需要非??欤旧鲜切∮?秒的時(shí)間,迅速的去做出一個(gè)繞行,然后再回去這樣一個(gè)動(dòng)作對(duì)。第二代VLA對(duì)處理這種突然發(fā)生的異常場(chǎng)景具有很強(qiáng)判斷能力,它不僅能做到很精準(zhǔn),而且做的非???。這是因?yàn)檐嚿砩系膫鞲衅鬏斎胄盘?hào)多,而且它的模型尺寸大,具有很強(qiáng)的思考能力,再加上執(zhí)行速度快,所以處理起來(lái)更絲滑。
4、識(shí)別減速帶

減速帶對(duì)于智能駕駛來(lái)說(shuō)是一個(gè)很難處理的問(wèn)題,因?yàn)樗x地面的高度并不高,通常又是一個(gè)平緩的過(guò)程,利用傳統(tǒng)的感知算法,是很難精確得到它的高度,所以更別說(shuō)根據(jù)高度去調(diào)整自己通過(guò)的速度。之前一般的做法是,在高精地圖上會(huì)把有減速帶的位置標(biāo)記出來(lái),這個(gè)地方有減速帶,高度是多少,應(yīng)該降速到多少,或者是另外一種只要是減速帶,就一定會(huì)減速,減到一個(gè)固定的值再去過(guò)。
第二代VLA的做法是并沒(méi)有明確的說(shuō)這里有一條減速帶或者是標(biāo)記出來(lái),也沒(méi)有做高精地圖。更多的是靠數(shù)據(jù)去驅(qū)動(dòng),當(dāng)整個(gè)模型看過(guò)上百萬(wàn)條不同的減速帶數(shù)據(jù)時(shí),它就會(huì)去理解這些減速帶的不同。所以核心還是有更多的數(shù)據(jù),這些數(shù)據(jù)來(lái)自于真實(shí)場(chǎng)景,而不是在一條大直路上不停的開(kāi)的單一場(chǎng)景。這樣它的泛化能力會(huì)得到很大的增強(qiáng)。這就是第二代VLA對(duì)不同的減速帶會(huì)做出不一樣反應(yīng)的原因。
5、避讓坑

它是怎么識(shí)別水坑的?其實(shí)這個(gè)就是得益于它使用的攝像頭,具有更多的色域, 它的色域和動(dòng)態(tài)范圍更大更寬,同時(shí)輸入信息更多,在配合上,攝像頭一般是800萬(wàn)甚至更高像素的輸入密度。所以它有更多的信號(hào)可以判斷當(dāng)前的路況,因?yàn)樵谶@里面它沒(méi)有一個(gè)可行駛區(qū)域的概念,它更多的還是判斷這個(gè)地方它真實(shí)的路況是什么?它的材質(zhì)是什么?所以見(jiàn)到水坑,如果數(shù)據(jù)足夠多的話,它就應(yīng)該知道見(jiàn)到這樣不可行駛的區(qū)域,要繞過(guò)去。而見(jiàn)到那些躲不過(guò)去的,選擇減速過(guò)去。
6、橫向避讓變道車輛

這個(gè)場(chǎng)景是一種時(shí)空聯(lián)合規(guī)劃,或者是橫縱,橫向和縱向同時(shí)去考慮。比如人去處理這種情況,會(huì)先看倒車鏡,看后面有沒(méi)有車,再看旁邊有沒(méi)有車,再去決定要不要超車,還是跟在后面。整個(gè)過(guò)程要考慮很多因素,要去看周圍的環(huán)境,同時(shí)考慮最小化風(fēng)險(xiǎn)。
另外,還有一個(gè)概念叫解空間。雖然解空間很大,但要同時(shí)去探索在橫向和縱向不同維度上的可行性。所以得益于一個(gè)大算力的芯片,加上一個(gè)更大的模型,它的好處就是能同時(shí)去探索很多種不同解的可能性,從中去挑選出一個(gè)對(duì)我們來(lái)說(shuō)最舒適最安全的解。
7、白天和夜晚的差距不大
第二代VLA白天和夜晚差距不大的原因主要是,小鵬從2024年更新視覺(jué)方案后,更換了新的傳感器,新的攝像頭具有更強(qiáng)的通光量,動(dòng)態(tài)范圍更大,給整個(gè)模型泛化性帶來(lái)了很好的基礎(chǔ)。
另一個(gè)是整個(gè)模型的端到端延遲很低,反應(yīng)速度快,可以在極端的情況下有更好的處理速度。比如說(shuō)打滑或者路面濕滑的情況下,車會(huì)更快的控制住,遇到暗光時(shí),還會(huì)像人類司機(jī)一樣主動(dòng)降速、小心行駛。
所以,在正常的工況下,不管是白天還是夜晚,第二代VLA還是有非常一致的表現(xiàn),不會(huì)存在巨大的差距。
▍第二代VLA還有哪些問(wèn)題?
1、園區(qū)和地庫(kù)的漫游
劉先明說(shuō)道,“目前,園區(qū)跟地庫(kù)的漫游,還沒(méi)有達(dá)到像城區(qū)一樣的驚艷程度。所以為了大家的體驗(yàn)和整體的使用性,我們還是決定在第一個(gè)版本的時(shí)候把它暫時(shí)的先停止推送。但是會(huì)在不久的下一個(gè)版本,給大家推送過(guò)去。”
2、不按導(dǎo)航路線行駛
第二代VLA偶爾會(huì)出現(xiàn)不按照導(dǎo)航路線走的問(wèn)題。
為什么呢?之前的導(dǎo)航規(guī)劃基本上都是靠規(guī)則來(lái)做的,就相當(dāng)于有一個(gè)上帝之手,先畫(huà)了一條線,比如最早的高精地圖,或者是非常接近于高精地圖的車道級(jí)導(dǎo)航,再或者是在特定的路口,如果看不見(jiàn),加一些提前畫(huà)好的路線,好比在鐵軌上開(kāi)車,肯定是不會(huì)錯(cuò)的。
而小鵬VLA 2.0是通過(guò)模型的迭代去解決問(wèn)題的,并沒(méi)上加入規(guī)則和高精地圖,所以偶爾會(huì)出現(xiàn)導(dǎo)航不準(zhǔn)的情況。即便如此VLA 2.0仍然沒(méi)有加入規(guī)則和高精地圖,而是通過(guò)數(shù)據(jù)去解決問(wèn)題,因?yàn)檫@樣以后只要有導(dǎo)航信息,就能地下開(kāi)、地面開(kāi),村路、山路、土路都能開(kāi)。
3、極端天氣
在面對(duì)暴雨、暴雪、沙塵暴等極端天氣時(shí),會(huì)導(dǎo)致VLA 2.0退出。首先這是因?yàn)槿魏蝹鞲衅鞯亩际俏锢順O限的,傳感器本身的物理性能是有上限的。
其次是,VLA 2.0是依賴于海量的訓(xùn)練數(shù)據(jù),所以它在什么情況下跑的好或者不好是取決于訓(xùn)練數(shù)據(jù)分布的。而它本身的訓(xùn)練數(shù)據(jù)又來(lái)自于所有車主每天正常開(kāi)的工況,包括雨天、雪天、黑夜等,但極端天氣的數(shù)據(jù)不多。
4、識(shí)別馬路上平躺的四個(gè)小孩子,有減速,但不能剎停


“馬路上平躺著四個(gè)小孩,從遠(yuǎn)處看就像減速帶一樣,第二代VLA識(shí)別后是有減速的,但是這個(gè)減速度不足以剎停。這個(gè)是一個(gè)真實(shí)的情況,也給了我們一個(gè)動(dòng)力,我們離做到完美還是有距離的。這個(gè)也是我們不停向前去解決這些問(wèn)題的一個(gè)原動(dòng)力。我們希望真的能做到,在任何的突發(fā)情況下都能有足夠的安全。所以我們希望能通過(guò)不停的迭代,讓這個(gè)事情做得越來(lái)越好,能真的有一天,不是開(kāi)始減速,而是真正能安全的讓這種事情都處理的很好?!眲⑾让髡f(shuō)道。
▍Ultra版和Max版有什么區(qū)別?
Max版本是面向L2的,但是它不是把所有場(chǎng)景都能解決,也不能把主要場(chǎng)景碰到的corner case都解決。而Ultra版本是一個(gè)面向L4的,是能夠千公里接管一次或者更少,Max版本則是百公里。
來(lái)源:第一電動(dòng)網(wǎng)
作者:張芳超
本文地址:http://m.22xuexi.com/carnews/xinche/291741
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。