新車新車上市

理想MindVLA-o1基礎(chǔ)模型相比上一代有哪些變化，與小鵬VLA 2.0有什么不同？

第一電動張芳超 2026-03-18 19:46

3月17日，理想汽車發(fā)布了下一代自動駕駛基礎(chǔ)模型MindVLA-o1，這不僅僅是一個自動駕駛模型，也是一個正在逐漸進化的物理世界基礎(chǔ)模型。那么，它相比上一代有哪些變化？與小鵬VLA2.0又有什么不同？

理想智駕技術(shù)架構(gòu)的演進

在2023年之前，行業(yè)主流的智駕系統(tǒng)基本都是基于規(guī)則的系統(tǒng)架構(gòu)，在這一階段包括兩類方案：一類是Map-Lite輕圖方案，另一類是Mapless無圖方案。輕圖方案快速實現(xiàn)了智駕可用區(qū)域的擴展，從輕圖到無圖，先驗信息完全去除，感知能力實現(xiàn)了統(tǒng)一，形成了兩段式的架構(gòu)，但中間依然加入了很多人類的先驗策略。很多智駕方案的城市NOA量產(chǎn)系統(tǒng)都是在這樣的架構(gòu)基礎(chǔ)上不斷迭代和泛化。

圖片.png

而2024年開始，理想汽車在中國率先量產(chǎn)了端到端+VLM智駕雙系統(tǒng)架構(gòu)，在這一架構(gòu)中，理想汽車是用一段式端到端模型來完成駕駛決策。同時，結(jié)合VLM語義理解，讓系統(tǒng)能夠更好的理解復(fù)雜場景和語義信息，而這一步是智駕系統(tǒng)第一次真正具備了跨場景、跨任務(wù)的理解能力。

從端到端+VLM到VLA的架構(gòu)變化

到了2025年，理想汽車進一步將端到端模型與VLM進行了深度融合，形成了VLA智駕系統(tǒng)。在這個VLA系統(tǒng)中，語義理解、語言交互、邏輯推理以及駕駛決策被統(tǒng)一整合到了一個新的模型框架中。在訓(xùn)練方法上，VLA從傳統(tǒng)的模仿學(xué)習(xí)逐步引入了強化學(xué)習(xí)，讓模型在仿真環(huán)境中持續(xù)訓(xùn)練，能夠不斷的提升自我優(yōu)化和泛化。

圖片.png

在2024年量產(chǎn)的系統(tǒng)中，理想汽車采用了端到端+VLM雙系統(tǒng)架構(gòu)，在這個架構(gòu)中端到端模型負責(zé)快速駕駛決策，VLM模型負責(zé)更高層次的語義理解和推理，兩者通過接口進行協(xié)作，通常把這種模式理解為快思考和慢思考的組合系統(tǒng)。

但是這種雙系統(tǒng)架構(gòu)存在著一些問題：空間理解、語言理解和行為決策仍然在不同的模型中進行交互和對齊。

因此，從2025年開始，理想汽車將這些能力統(tǒng)一到了同一個模型框架中——VLA模型。

在VLA的架構(gòu)下，視覺信息首先被編碼成了一個3D空間的token，語言理解由大模型進行推理，最終由統(tǒng)一的Action Policy（行動決策）生成駕駛軌跡。也就是說，空間理解、語言理解和行為決策被統(tǒng)一到了同一個模型的不同模塊中。在系統(tǒng)架構(gòu)的角度來看，這意味著智駕系統(tǒng)引入了語言思考的部分。而引入語言思考后帶來了三個非常關(guān)鍵的問題。

第一個是3D空間、語言思考和行為之間存在對齊效率不夠理想的問題。

在智駕系統(tǒng)中，模型需要同時完成三件事情，理解3D空間、進行語音層面的思考和推理、輸出具體的駕駛行為軌跡。如何讓這三個過程在同一個隱空間中高效對齊，是一件非常困難的事。

如果對齊的不夠好，就會出現(xiàn)兩類問題：第一，語義理解和行為出現(xiàn)了偏差。模型能夠理解場景，但最后生成的軌跡并不符合預(yù)期。第二，決策延遲。視覺、語言、行動之間的傳遞鏈路過長，導(dǎo)致反應(yīng)速度下降。

比如，當(dāng)車輛前方出現(xiàn)了一個行駛較慢的車輛時，系統(tǒng)不僅需要理解這個場景，還要快速推理，是立即變道，還是持續(xù)跟隨，而且變道的時候，速度應(yīng)該如何控制？如果空間理解、語言推理和行為決策的對齊效率不夠高，最后生成的軌跡可能就并不是最優(yōu)的。因此需要提升3D空間理解能力，讓語義和行為之間對齊精度和整體推理效率提升。

第二個是長尾場景的問題，在智駕中很多關(guān)鍵問題都來自極少發(fā)生的長尾場景，僅僅依靠真實數(shù)據(jù)的規(guī)模擴展，很難覆蓋這些場景，需要結(jié)合合成數(shù)據(jù)，還有強化學(xué)習(xí)。通過仿真環(huán)境進行大規(guī)模的訓(xùn)練，才能讓系統(tǒng)真正具備泛化能力和魯棒性。

第三個是計算效率和系統(tǒng)成本問題。VLA模型往往包含大規(guī)模的語言能力，這會帶來非常高的計算和內(nèi)存開銷。在車端系統(tǒng)中，如何在有限的計算資源下運行VLA，是非?，F(xiàn)實的問題。理想汽車認為，未來的方向必須是軟硬協(xié)同的架構(gòu)設(shè)計。通過聯(lián)合優(yōu)化模型架構(gòu)、推理系統(tǒng)以及硬件能力，才能讓VLA真正在車端規(guī)?；涞亍?/p>

因此，為了解決這些問題，理想汽車提出了下一代統(tǒng)一架構(gòu)MindVLA-o1。MindVLA-o1是一個統(tǒng)一范式的VLA架構(gòu)模型。它圍繞著5個核心的設(shè)計原則來構(gòu)建。

圖片.png

第一，它具備原生多模態(tài)的MoE Transformer架構(gòu)。MindVLA-o1是一個原生多模態(tài)的Transformer。所謂原生多模態(tài)指的是模型設(shè)計之初，就統(tǒng)一將視覺、語言、行動三種模態(tài)進行訓(xùn)練，而不是像傳統(tǒng)的模型一樣，分別進行不同模態(tài)的訓(xùn)練，再在后期進行組合，這種設(shè)計可以讓模態(tài)在同一個表示空間中共同訓(xùn)練和對齊，從而獲得更高的效率和更強的泛化能力。

第二，原生3D的視覺tokenizer。這個設(shè)計的關(guān)鍵是3D視覺的空間編碼能力，引入了3DViT Encoder，用于對真實世界三維結(jié)構(gòu)進行直接建模。與傳統(tǒng)方法不同，它并不是簡單的將2D圖像和3D信息進行拼接，而是在編碼階段之間構(gòu)建3D的空間表示，這使得模型能夠更加自然的理解真實的物理世界的空間結(jié)構(gòu)。

第三，多模態(tài)的推理能力。除了視覺之外，依然保留了語言能力。語言模型在系統(tǒng)中承擔(dān)了幾個關(guān)鍵的角色，語義理解、常識知識、交互能力。同時在模型中引入了“系統(tǒng)2”的顯示推理能力，使模型在復(fù)雜的場景中進行更深層次的決策分析。

第四，隱式世界模型。通過Predictive Latent Word Model這個模塊，模型可以對未來的環(huán)境狀態(tài)進行預(yù)測。也就是模型不僅僅能理解當(dāng)前環(huán)境，還能在隱空間中模擬未來發(fā)生的可能情況，這個能力對于自動駕駛的決策非常關(guān)鍵。

第五，軟硬件協(xié)同設(shè)計和強化學(xué)習(xí)的閉環(huán)能力。在架構(gòu)設(shè)計之初，進行了軟硬件協(xié)同的設(shè)計，使得模型在車端計算資源下高效運行。

同時，整個系統(tǒng)采用了統(tǒng)一的MoE架構(gòu)，非常適合閉環(huán)強化學(xué)習(xí)的訓(xùn)練。通過強化學(xué)習(xí)，模型可以在訓(xùn)練中不斷優(yōu)化策略，持續(xù)提升方法能力。

MindVLA-o1系統(tǒng)是如何看的？

圖片.png

在自動駕駛中一個核心的問題是系統(tǒng)必須真正的理解三維物理世界，而不僅僅是2D圖像。因此，MindVLA-o1系統(tǒng)設(shè)計了一個自監(jiān)督的3DViT Encoder（3D視覺編碼器）。

在訓(xùn)練過程中，同時利用視覺和激光雷達的數(shù)據(jù)，這兩種模態(tài)天然具備空間的對齊關(guān)系。激光雷達提供了準(zhǔn)確的三維幾何信息，視覺提供了豐富的語義信息。然后通過自監(jiān)督訓(xùn)練，模型可以在同一個表示空間中同時學(xué)習(xí)幾何結(jié)構(gòu)和語義信息。

而且在訓(xùn)練中引入了前饋的3DGS表示，在這個框架中，將場景分為了兩個部分：靜態(tài)環(huán)境用穩(wěn)定的3DGS進行建模，動態(tài)環(huán)境單獨建模其運動狀態(tài)。這樣模型不僅能夠理解當(dāng)前場景，還能預(yù)測未來的狀態(tài)變化。在這個訓(xùn)練過程中，還使用了下一幀預(yù)測作為自監(jiān)督的信號，同時也學(xué)習(xí)了深度信息、語義結(jié)構(gòu)與物體運動等等。

MindVLA-o1系統(tǒng)是如何思考的？

圖片.png

在很多復(fù)雜的駕駛場景中，自動駕駛不僅需要理解當(dāng)前環(huán)境，還需要預(yù)測未來可能發(fā)生的事情。人類在做決策時其實也是這樣，當(dāng)我們看到一個場景時，大腦不僅會理解當(dāng)前的畫面，還會在腦海中想象未來可能發(fā)生的情況。

比如，當(dāng)我們看到右側(cè)有一輛車準(zhǔn)備并線時，系統(tǒng)需要進行推理，這個車是否會切入當(dāng)前的車道。如果它真的并線了，我們應(yīng)該如何避讓？是減速、是剎車還是向左變道。

而為了做出更好的決策，系統(tǒng)必須能夠預(yù)判未來幾秒的場景變化。為了讓模型具備這種能力，MindVLA-o1系統(tǒng)引入了預(yù)測式的隱式世界模型。它的核心思想是讓模型在隱空間中模擬未來。如果直接生成未來真實的圖像，計算成本會非常高。

首先會把當(dāng)前的視覺輸入編碼成一組latent tokens，作為當(dāng)前場景的一個緊湊的表征，然后Word model會基于這些token預(yù)測未來的latent狀態(tài)。通過這種方式，模型可以在隱空間中高效的模擬未來場景的演化過程。

MindVLA-o1系統(tǒng)是如何生成駕駛軌跡的？

圖片.png

MindVLA-o1設(shè)計了Unified Action Generation模塊。這個模塊的核心部分，是使用了VLA-MoE架構(gòu)，不同于傳統(tǒng)的通用語言模型的MoE，它引入了專門負責(zé)行動的Action Expert，這些動作專家會從多個輸入中提取關(guān)鍵信息，比如3D場景的特征、導(dǎo)航目標(biāo)、駕駛指令，以及前面提到的多模態(tài)的推理思考，將其整合專注于生成高精度的駕駛軌跡?？梢园阉斫鉃樵谶@些系統(tǒng)中，有一組經(jīng)驗豐富的駕駛專家，專門負責(zé)把復(fù)雜的認知轉(zhuǎn)化成具體的行動。

為了滿足智駕的實時性要求，理想汽車沒有采用傳統(tǒng)的自回歸的生成方式。傳統(tǒng)模型需要一個一個點的生成軌跡，而是采用了Parallel Decoding，也就是說所有軌跡點可以同時并行生成，大幅提升了軌跡的生成效率，尤其是在長時距的軌跡預(yù)測時。

那么并行生成軌跡如何保證質(zhì)量呢？為此理想汽車還引入了Discrete Diffusion的優(yōu)化方案，模型會通過N步的迭代，不斷對軌跡進行refine（改進），這有點類似于逐步去噪的過程。

最終，理想汽車得到的軌跡在空間上連續(xù)、在時間上穩(wěn)定，同時也能滿足車輛動力約術(shù)。因此，這一套軌跡生成的機制可以總結(jié)為三點，MoE保證了生成的專業(yè)性，Parallel保證了生成的速度，Diffusion保證了生成的軌跡精度。

MindVLA-o1系統(tǒng)是如何進行持續(xù)進化的？

圖片.png

在傳統(tǒng)的自動駕駛系統(tǒng)中，模型主要依賴于模仿學(xué)習(xí)。從人類的駕駛數(shù)據(jù)中持續(xù)學(xué)習(xí)，但這樣的過程有一個明顯的限制，模型只能在已經(jīng)存在的數(shù)據(jù)中探索，而魯棒性大大降低。為了突破這一點，理想汽車構(gòu)建了一個閉環(huán)強化學(xué)習(xí)的框架。在這個框架中，模型不僅可以從真實數(shù)據(jù)中學(xué)習(xí)，還可以在Word Simulator中不斷探索和優(yōu)化。也就是說，系統(tǒng)可以在模擬環(huán)境下不斷嘗試新的策略，根據(jù)反饋進行策略更新。

MindVLA-o1與小鵬VLA2.0又有什么不同？

小鵬VLA 2.0：去語言層、純端到端物理世界大模型，視覺→隱式表征→連續(xù)動作，完全拋棄顯式語言轉(zhuǎn)譯，視覺直接生成駕駛動作。而理想MindVLA-o1：保留語言層，視覺→語言理解→動作，但將視覺、語言、行動三種模態(tài)統(tǒng)一進行訓(xùn)練，而不是像傳統(tǒng)的模型一樣，分別進行不同模態(tài)的訓(xùn)練，在后期再進行組合，這種設(shè)計可以讓模態(tài)在同一個表示空間中共同訓(xùn)練和對齊。這是本質(zhì)的區(qū)別。

在決策方式上，小鵬VLA 2.0靠物理世界因果推理，直接輸出方向盤、油門、剎車連續(xù)控制，動作絲滑、無頓挫。而理想MindVLA-o1靠視覺和語言對齊后并行決策，更穩(wěn)定。

來源：第一電動網(wǎng)

作者：張芳超

本文地址：http://m.22xuexi.com/carnews/xinche/291977

返回第一電動網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。

贊25

分享到：

發(fā)表評論

新聞推薦

選擇車型
上牌城市	購車城市
姓名
手機號
驗證碼
	xxx

真人一进一出抽搐大尺度视频,真人一进一出抽搐大尺度视频,久久综合一色综合久久88,在线视频网友自拍,无码人妻丰满熟妇88AV,可以免费在线观看的av毛片,一区二区三区四区少妇,欧美一区二区三区系列,国语肏农村妇女实拍录像

電動汽車

理想MindVLA-o1基礎(chǔ)模型相比上一代有哪些變化，與小鵬VLA 2.0有什么不同？

真人一进一出抽搐大尺度视频,真人一进一出抽搐大尺度视频,久久综合一色综合久久88,在线视频 网友自拍,无码人妻丰满熟妇88AV,可以免费在线观看的av毛片,一区二区三区四区少妇,欧美一区二区三区系列,国语肏农村妇女实拍录像

理想MindVLA-o1基礎(chǔ)模型相比上一代有哪些變化，與小鵬VLA 2.0有什么不同？

真人一进一出抽搐大尺度视频,真人一进一出抽搐大尺度视频,久久综合一色综合久久88,在线视频网友自拍,无码人妻丰满熟妇88AV,可以免费在线观看的av毛片,一区二区三区四区少妇,欧美一区二区三区系列,国语肏农村妇女实拍录像

理想MindVLA-o1基礎(chǔ)模型相比上一代有哪些變化，與小鵬VLA 2.0有什么不同？