3月17日,理想汽車發(fā)布了下一代自動駕駛基礎(chǔ)模型MindVLA-o1,這不僅僅是一個自動駕駛模型,也是一個正在逐漸進化的物理世界基礎(chǔ)模型。那么,它相比上一代有哪些變化?與小鵬VLA2.0又有什么不同?
理想智駕技術(shù)架構(gòu)的演進
在2023年之前,行業(yè)主流的智駕系統(tǒng)基本都是基于規(guī)則的系統(tǒng)架構(gòu),在這一階段包括兩類方案:一類是Map-Lite輕圖方案,另一類是Mapless無圖方案。輕圖方案快速實現(xiàn)了智駕可用區(qū)域的擴展,從輕圖到無圖,先驗信息完全去除,感知能力實現(xiàn)了統(tǒng)一,形成了兩段式的架構(gòu),但中間依然加入了很多人類的先驗策略。很多智駕方案的城市NOA量產(chǎn)系統(tǒng)都是在這樣的架構(gòu)基礎(chǔ)上不斷迭代和泛化。

而2024年開始,理想汽車在中國率先量產(chǎn)了端到端+VLM智駕雙系統(tǒng)架構(gòu),在這一架構(gòu)中,理想汽車是用一段式端到端模型來完成駕駛決策。同時,結(jié)合VLM語義理解,讓系統(tǒng)能夠更好的理解復(fù)雜場景和語義信息,而這一步是智駕系統(tǒng)第一次真正具備了跨場景、跨任務(wù)的理解能力。
從端到端+VLM到VLA的架構(gòu)變化
到了2025年,理想汽車進一步將端到端模型與VLM進行了深度融合,形成了VLA智駕系統(tǒng)。在這個VLA系統(tǒng)中,語義理解、語言交互、邏輯推理以及駕駛決策被統(tǒng)一整合到了一個新的模型框架中。在訓(xùn)練方法上,VLA從傳統(tǒng)的模仿學(xué)習(xí)逐步引入了強化學(xué)習(xí),讓模型在仿真環(huán)境中持續(xù)訓(xùn)練,能夠不斷的提升自我優(yōu)化和泛化。

在2024年量產(chǎn)的系統(tǒng)中,理想汽車采用了端到端+VLM雙系統(tǒng)架構(gòu),在這個架構(gòu)中端到端模型負責(zé)快速駕駛決策,VLM模型負責(zé)更高層次的語義理解和推理,兩者通過接口進行協(xié)作,通常把這種模式理解為快思考和慢思考的組合系統(tǒng)。
但是這種雙系統(tǒng)架構(gòu)存在著一些問題:空間理解、語言理解和行為決策仍然在不同的模型中進行交互和對齊。
因此,從2025年開始,理想汽車將這些能力統(tǒng)一到了同一個模型框架中——VLA模型。
在VLA的架構(gòu)下,視覺信息首先被編碼成了一個3D空間的token,語言理解由大模型進行推理,最終由統(tǒng)一的Action Policy(行動決策)生成駕駛軌跡。也就是說,空間理解、語言理解和行為決策被統(tǒng)一到了同一個模型的不同模塊中。在系統(tǒng)架構(gòu)的角度來看,這意味著智駕系統(tǒng)引入了語言思考的部分。而引入語言思考后帶來了三個非常關(guān)鍵的問題。
第一個是3D空間、語言思考和行為之間存在對齊效率不夠理想的問題。
在智駕系統(tǒng)中,模型需要同時完成三件事情,理解3D空間、進行語音層面的思考和推理、輸出具體的駕駛行為軌跡。如何讓這三個過程在同一個隱空間中高效對齊,是一件非常困難的事。
如果對齊的不夠好,就會出現(xiàn)兩類問題:第一,語義理解和行為出現(xiàn)了偏差。模型能夠理解場景,但最后生成的軌跡并不符合預(yù)期。第二,決策延遲。視覺、語言、行動之間的傳遞鏈路過長,導(dǎo)致反應(yīng)速度下降。
比如,當(dāng)車輛前方出現(xiàn)了一個行駛較慢的車輛時,系統(tǒng)不僅需要理解這個場景,還要快速推理,是立即變道,還是持續(xù)跟隨,而且變道的時候,速度應(yīng)該如何控制?如果空間理解、語言推理和行為決策的對齊效率不夠高,最后生成的軌跡可能就并不是最優(yōu)的。因此需要提升3D空間理解能力,讓語義和行為之間對齊精度和整體推理效率提升。
第二個是長尾場景的問題,在智駕中很多關(guān)鍵問題都來自極少發(fā)生的長尾場景,僅僅依靠真實數(shù)據(jù)的規(guī)模擴展,很難覆蓋這些場景,需要結(jié)合合成數(shù)據(jù),還有強化學(xué)習(xí)。通過仿真環(huán)境進行大規(guī)模的訓(xùn)練,才能讓系統(tǒng)真正具備泛化能力和魯棒性。
第三個是計算效率和系統(tǒng)成本問題。VLA模型往往包含大規(guī)模的語言能力,這會帶來非常高的計算和內(nèi)存開銷。在車端系統(tǒng)中,如何在有限的計算資源下運行VLA,是非?,F(xiàn)實的問題。理想汽車認為,未來的方向必須是軟硬協(xié)同的架構(gòu)設(shè)計。通過聯(lián)合優(yōu)化模型架構(gòu)、推理系統(tǒng)以及硬件能力,才能讓VLA真正在車端規(guī)?;涞亍?/p>
因此,為了解決這些問題,理想汽車提出了下一代統(tǒng)一架構(gòu)MindVLA-o1。MindVLA-o1是一個統(tǒng)一范式的VLA架構(gòu)模型。它圍繞著5個核心的設(shè)計原則來構(gòu)建。

第一,它具備原生多模態(tài)的MoE Transformer架構(gòu)。MindVLA-o1是一個原生多模態(tài)的Transformer。所謂原生多模態(tài)指的是模型設(shè)計之初,就統(tǒng)一將視覺、語言、行動三種模態(tài)進行訓(xùn)練,而不是像傳統(tǒng)的模型一樣,分別進行不同模態(tài)的訓(xùn)練,再在后期進行組合,這種設(shè)計可以讓模態(tài)在同一個表示空間中共同訓(xùn)練和對齊,從而獲得更高的效率和更強的泛化能力。
第二,原生3D的視覺tokenizer。這個設(shè)計的關(guān)鍵是3D視覺的空間編碼能力,引入了3DViT Encoder,用于對真實世界三維結(jié)構(gòu)進行直接建模。與傳統(tǒng)方法不同,它并不是簡單的將2D圖像和3D信息進行拼接,而是在編碼階段之間構(gòu)建3D的空間表示,這使得模型能夠更加自然的理解真實的物理世界的空間結(jié)構(gòu)。
第三,多模態(tài)的推理能力。除了視覺之外,依然保留了語言能力。語言模型在系統(tǒng)中承擔(dān)了幾個關(guān)鍵的角色,語義理解、常識知識、交互能力。同時在模型中引入了“系統(tǒng)2”的顯示推理能力,使模型在復(fù)雜的場景中進行更深層次的決策分析。
第四,隱式世界模型。通過Predictive Latent Word Model這個模塊,模型可以對未來的環(huán)境狀態(tài)進行預(yù)測。也就是模型不僅僅能理解當(dāng)前環(huán)境,還能在隱空間中模擬未來發(fā)生的可能情況,這個能力對于自動駕駛的決策非常關(guān)鍵。
第五,軟硬件協(xié)同設(shè)計和強化學(xué)習(xí)的閉環(huán)能力。在架構(gòu)設(shè)計之初,進行了軟硬件協(xié)同的設(shè)計,使得模型在車端計算資源下高效運行。
同時,整個系統(tǒng)采用了統(tǒng)一的MoE架構(gòu),非常適合閉環(huán)強化學(xué)習(xí)的訓(xùn)練。通過強化學(xué)習(xí),模型可以在訓(xùn)練中不斷優(yōu)化策略,持續(xù)提升方法能力。
MindVLA-o1系統(tǒng)是如何看的?

在自動駕駛中一個核心的問題是系統(tǒng)必須真正的理解三維物理世界,而不僅僅是2D圖像。因此,MindVLA-o1系統(tǒng)設(shè)計了一個自監(jiān)督的3DViT Encoder(3D視覺編碼器)。
在訓(xùn)練過程中,同時利用視覺和激光雷達的數(shù)據(jù),這兩種模態(tài)天然具備空間的對齊關(guān)系。激光雷達提供了準(zhǔn)確的三維幾何信息,視覺提供了豐富的語義信息。然后通過自監(jiān)督訓(xùn)練,模型可以在同一個表示空間中同時學(xué)習(xí)幾何結(jié)構(gòu)和語義信息。
而且在訓(xùn)練中引入了前饋的3DGS表示,在這個框架中,將場景分為了兩個部分:靜態(tài)環(huán)境用穩(wěn)定的3DGS進行建模,動態(tài)環(huán)境單獨建模其運動狀態(tài)。這樣模型不僅能夠理解當(dāng)前場景,還能預(yù)測未來的狀態(tài)變化。在這個訓(xùn)練過程中,還使用了下一幀預(yù)測作為自監(jiān)督的信號,同時也學(xué)習(xí)了深度信息、語義結(jié)構(gòu)與物體運動等等。
MindVLA-o1系統(tǒng)是如何思考的?

在很多復(fù)雜的駕駛場景中,自動駕駛不僅需要理解當(dāng)前環(huán)境,還需要預(yù)測未來可能發(fā)生的事情。人類在做決策時其實也是這樣,當(dāng)我們看到一個場景時,大腦不僅會理解當(dāng)前的畫面,還會在腦海中想象未來可能發(fā)生的情況。
比如,當(dāng)我們看到右側(cè)有一輛車準(zhǔn)備并線時,系統(tǒng)需要進行推理,這個車是否會切入當(dāng)前的車道。如果它真的并線了,我們應(yīng)該如何避讓?是減速、是剎車還是向左變道。
而為了做出更好的決策,系統(tǒng)必須能夠預(yù)判未來幾秒的場景變化。為了讓模型具備這種能力,MindVLA-o1系統(tǒng)引入了預(yù)測式的隱式世界模型。它的核心思想是讓模型在隱空間中模擬未來。如果直接生成未來真實的圖像,計算成本會非常高。
首先會把當(dāng)前的視覺輸入編碼成一組latent tokens,作為當(dāng)前場景的一個緊湊的表征,然后Word model會基于這些token預(yù)測未來的latent狀態(tài)。通過這種方式,模型可以在隱空間中高效的模擬未來場景的演化過程。
MindVLA-o1系統(tǒng)是如何生成駕駛軌跡的?

MindVLA-o1設(shè)計了Unified Action Generation模塊。這個模塊的核心部分,是使用了VLA-MoE架構(gòu),不同于傳統(tǒng)的通用語言模型的MoE,它引入了專門負責(zé)行動的Action Expert, 這些動作專家會從多個輸入中提取關(guān)鍵信息,比如3D場景的特征、導(dǎo)航目標(biāo)、駕駛指令,以及前面提到的多模態(tài)的推理思考,將其整合專注于生成高精度的駕駛軌跡??梢园阉斫鉃樵谶@些系統(tǒng)中,有一組經(jīng)驗豐富的駕駛專家,專門負責(zé)把復(fù)雜的認知轉(zhuǎn)化成具體的行動。
為了滿足智駕的實時性要求,理想汽車沒有采用傳統(tǒng)的自回歸的生成方式。傳統(tǒng)模型需要一個一個點的生成軌跡,而是采用了Parallel Decoding,也就是說所有軌跡點可以同時并行生成,大幅提升了軌跡的生成效率,尤其是在長時距的軌跡預(yù)測時。
那么并行生成軌跡如何保證質(zhì)量呢?為此理想汽車還引入了Discrete Diffusion的優(yōu)化方案,模型會通過N步的迭代,不斷對軌跡進行refine(改進),這有點類似于逐步去噪的過程。
最終,理想汽車得到的軌跡在空間上連續(xù)、在時間上穩(wěn)定,同時也能滿足車輛動力約術(shù)。因此,這一套軌跡生成的機制可以總結(jié)為三點,MoE保證了生成的專業(yè)性,Parallel保證了生成的速度,Diffusion保證了生成的軌跡精度。
MindVLA-o1系統(tǒng)是如何進行持續(xù)進化的?

在傳統(tǒng)的自動駕駛系統(tǒng)中,模型主要依賴于模仿學(xué)習(xí)。從人類的駕駛數(shù)據(jù)中持續(xù)學(xué)習(xí),但這樣的過程有一個明顯的限制,模型只能在已經(jīng)存在的數(shù)據(jù)中探索,而魯棒性大大降低。為了突破這一點,理想汽車構(gòu)建了一個閉環(huán)強化學(xué)習(xí)的框架。在這個框架中,模型不僅可以從真實數(shù)據(jù)中學(xué)習(xí),還可以在Word Simulator中不斷探索和優(yōu)化。也就是說,系統(tǒng)可以在模擬環(huán)境下不斷嘗試新的策略,根據(jù)反饋進行策略更新。
MindVLA-o1與小鵬VLA2.0又有什么不同?
小鵬VLA 2.0:去語言層、純端到端物理世界大模型,視覺→隱式表征→連續(xù)動作,完全拋棄顯式語言轉(zhuǎn)譯,視覺直接生成駕駛動作。而理想MindVLA-o1:保留語言層,視覺→語言理解→動作,但將視覺、語言、行動三種模態(tài)統(tǒng)一進行訓(xùn)練,而不是像傳統(tǒng)的模型一樣,分別進行不同模態(tài)的訓(xùn)練,在后期再進行組合,這種設(shè)計可以讓模態(tài)在同一個表示空間中共同訓(xùn)練和對齊。這是本質(zhì)的區(qū)別。
在決策方式上,小鵬VLA 2.0靠物理世界因果推理,直接輸出方向盤、油門、剎車連續(xù)控制,動作絲滑、無頓挫。而理想MindVLA-o1靠視覺和語言對齊后并行決策,更穩(wěn)定。
來源:第一電動網(wǎng)
作者:張芳超
本文地址:http://m.22xuexi.com/carnews/xinche/291977
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。