英偉達(dá)機(jī)器人主管“銳評(píng)”VLA，大佬博弈世界模型路線

第一電動(dòng)大牛作者 NE時(shí)代 2025-12-30 16:01

一邊開源押注，一邊公開存疑？

近日，英偉達(dá)機(jī)器人主管Jim Fan在社交媒體上發(fā)表了對具身智能機(jī)器人領(lǐng)域的年度“銳評(píng)”。

“當(dāng)業(yè)界普遍為“氛圍編程”（vibe coding）熱潮感到興奮之時(shí)，恰逢歲末年初的佳節(jié)節(jié)點(diǎn)，我想借此機(jī)會(huì)，分享對機(jī)器人這一尚處蠻荒探索階段領(lǐng)域的些許思考與焦慮?！?/p>

以下，便是Jim Fan在2025年深耕機(jī)器人領(lǐng)域所收獲的三條核心經(jīng)驗(yàn)與教訓(xùn)：

一、硬件發(fā)展超前于軟件能力，可靠性制約迭代效率

當(dāng)下，我們已然見證了Optimus、e-Atlas、Figure、Neo、G1等一系列具備精湛工程水準(zhǔn)的機(jī)器人產(chǎn)品問世。即便如此，當(dāng)前最先進(jìn)的人工智能技術(shù)，仍未能充分釋放這些前沿硬件的全部潛能——機(jī)器人本體的機(jī)能上限，顯著高于其“大腦”的指令輸出能力。

更為關(guān)鍵的是，維持這些機(jī)器人的穩(wěn)定運(yùn)行，往往需要一整支專業(yè)運(yùn)維團(tuán)隊(duì)的支撐。

與人類不同，機(jī)器人不具備自我修復(fù)能力，過熱、電機(jī)故障、各類非常規(guī)固件問題等故障場景，每日都在實(shí)踐中反復(fù)出現(xiàn)。一旦故障發(fā)生，往往會(huì)造成不可逆的損失，且難以通過簡單干預(yù)實(shí)現(xiàn)恢復(fù)。在這一過程中，唯一得以增長的，便是從業(yè)者的耐心。

二、機(jī)器人領(lǐng)域基準(zhǔn)測試體系仍深陷混亂

在大模型領(lǐng)域，MMLU、SWE-Bench等基準(zhǔn)測試已成為行業(yè)共識(shí)，成為衡量技術(shù)水平的通用標(biāo)尺。

但這一成熟范式，尚無法直接遷移至機(jī)器人領(lǐng)域。從硬件平臺(tái)的選型、任務(wù)目標(biāo)的定義、評(píng)分標(biāo)準(zhǔn)的設(shè)定，到模擬器的搭建與真實(shí)場景的部署，整個(gè)行業(yè)尚未形成統(tǒng)一的規(guī)范與共識(shí)。

在此背景下，幾乎所有從業(yè)者都宣稱自身技術(shù)達(dá)到“最先進(jìn)水平”（SOTA），但這一“最先進(jìn)水平”的定義，往往是為適配每次技術(shù)發(fā)布而臨時(shí)設(shè)定的基準(zhǔn)。

更普遍的現(xiàn)象是，多數(shù)從業(yè)者會(huì)從數(shù)十次甚至上百次的嘗試中，篩選出效果最優(yōu)的演示樣本（demo）用于對外發(fā)布。

展望2026年，機(jī)器人領(lǐng)域必須打破這一亂象，不再將可復(fù)現(xiàn)性與科學(xué)規(guī)范置于次要地位，推動(dòng)行業(yè)朝著更嚴(yán)謹(jǐn)、更有序的方向發(fā)展。

三、基于VLM的VLA路線或非最優(yōu)解

VLA（視覺-語言-動(dòng)作模型）已成為當(dāng)前機(jī)器人大腦方案的主流選擇，其核心實(shí)現(xiàn)邏輯是：基于預(yù)訓(xùn)練的VLM（視覺-語言模型）檢查點(diǎn)，接入動(dòng)作生成模塊。

但深入剖析后不難發(fā)現(xiàn)，這一技術(shù)路線存在先天局限。VLM模型在訓(xùn)練過程中，過度針對視覺問答等“爬坡式”基準(zhǔn)測試進(jìn)行優(yōu)化，這直接導(dǎo)致了兩個(gè)核心問題：

其一，VLM模型中的大部分參數(shù)，主要服務(wù)于語言理解與知識(shí)處理任務(wù)，而非適配物理世界的交互需求；

其二，為適配問答任務(wù)對高級(jí)語義理解的需求，視覺編碼器被主動(dòng)調(diào)校為舍棄低級(jí)視覺細(xì)節(jié)——但對于機(jī)器人靈巧操作而言，這些細(xì)微的視覺細(xì)節(jié)恰恰是決定任務(wù)成敗的關(guān)鍵。

基于這一邏輯，VLA的性能提升，并不具備隨VLM參數(shù)規(guī)模增加而同步提升的合理性，核心癥結(jié)在于預(yù)訓(xùn)練目標(biāo)與機(jī)器人的實(shí)際需求存在根本性錯(cuò)配。相較之下，視頻世界模型更符合機(jī)器人策略學(xué)習(xí)的預(yù)訓(xùn)練目標(biāo)，這一判斷已成為我深耕領(lǐng)域后的堅(jiān)定認(rèn)知。

針對此番“銳評(píng)”，也有網(wǎng)友表示質(zhì)疑。

一網(wǎng)友認(rèn)為，若視頻世界模型是更優(yōu)的預(yù)訓(xùn)練目標(biāo)，為何Helix、GR00T N1及π0等模型仍以VLM（視覺語言模型）為骨干網(wǎng)絡(luò)進(jìn)行構(gòu)建，并成功交付實(shí)際成果？與此同時(shí)，世界模型方法為何主要應(yīng)用于策略評(píng)估與合成數(shù)據(jù)生成場景，而非直接用于運(yùn)動(dòng)控制任務(wù)的執(zhí)行？此外，關(guān)于“硬件瓶頸限制迭代速度”的觀點(diǎn)，似乎同樣適用于各類預(yù)訓(xùn)練方案——除非機(jī)器人數(shù)據(jù)缺口這一核心問題得到解決。

Jim Fan回答道，上述提及的Helix、GR00T N1及π0均為2025年推出的模型，對于更貼合視頻世界模型預(yù)訓(xùn)練目標(biāo)的技術(shù)方案，可期待2026年下一代大型模型的表現(xiàn)。

01.

英偉達(dá)：物理AI戰(zhàn)略下的智駕VLA布局

Jim Fan的銳評(píng)精準(zhǔn)戳中了當(dāng)前機(jī)器人領(lǐng)域的核心爭議與痛點(diǎn)，尤其是關(guān)于VLA技術(shù)路線的優(yōu)劣之爭，成為行業(yè)關(guān)注的焦點(diǎn)。

值得注意的是，就在業(yè)界圍繞這一爭議展開討論之際，英偉達(dá)近日開源最新自動(dòng)駕駛VLA模型Alpamayo-R1，這一動(dòng)作不僅是全球首個(gè)面向智能駕駛的開源VLA模型發(fā)布，也是其汽車事業(yè)部負(fù)責(zé)人吳新宙入職后的首份智駕領(lǐng)域答卷。

更核心的是，這也印證了黃仁勛此前提及的英偉達(dá)在物理AI賽道的戰(zhàn)略布局：在計(jì)算基礎(chǔ)設(shè)施之外，打造鏈接AI與物理世界的底層“安卓”生態(tài)，覆蓋機(jī)器人、自動(dòng)駕駛等核心場景。

從行業(yè)影響來看，此次開源意味著AI巨頭英偉達(dá)正式加入VLA技術(shù)路線，為VLA陣營注入重量級(jí)力量。

此次開源內(nèi)容包含VLA架構(gòu)及100TB數(shù)據(jù)集（覆蓋美國、歐盟多國道路數(shù)據(jù)，不含中國數(shù)據(jù)），向全球開發(fā)者開放了其相關(guān)技術(shù)方法論。

但需明確的是，英偉達(dá)尚未實(shí)現(xiàn)VLA技術(shù)的商業(yè)化落地，此次開源更多是技術(shù)思路的示范，并非可直接應(yīng)用的成熟VLA方案，開源架構(gòu)的商業(yè)化價(jià)值仍有限。

技術(shù)層面，Alpamayo-R1雖歸屬VLA模型范疇，但與業(yè)內(nèi)主流的“端到端+大語言模型外掛”VLA存在本質(zhì)區(qū)別，其核心是原生多模態(tài)模型，基座源于英偉達(dá)年初CES發(fā)布的Cosmos基礎(chǔ)世界模型中的Cosmos Reason。

作為鏈接AI與物理世界的“中間層”，Cosmos本質(zhì)是“通才”型世界模型，為千行百業(yè)提供基礎(chǔ)物理AI“安卓”模板，而Alpamayo-R1正是Cosmos AI推理模型的擴(kuò)展，核心能力在于通過思維鏈推理理解視頻數(shù)據(jù)。

具體來看，Alpamayo-R1的預(yù)訓(xùn)練依托Chain of Causation“因果鏈”（CoC）數(shù)據(jù)集展開，其基座模型Cosmos的訓(xùn)練則采用擴(kuò)散模型與自回歸模型兩種方法：前者包含“文本到世界生成預(yù)訓(xùn)練”“頻到世界生成預(yù)訓(xùn)練”，后者涵蓋“下一個(gè)token生成”“文本條件的視頻到世界生成”。

這一技術(shù)路徑也契合黃仁勛多次強(qiáng)調(diào)的物理AI核心邏輯——構(gòu)建AI與物理世界的“中間層”，讓缺乏強(qiáng)AI算法能力的企業(yè)與個(gè)人，也能借助強(qiáng)大基座模型和工具打造專屬產(chǎn)品。

總的來看，Alpamayo-R1的開源并非單純的技術(shù)輸出，而是英偉達(dá)物理AI戰(zhàn)略在智能駕駛領(lǐng)域的具體落地，標(biāo)志著其在計(jì)算基礎(chǔ)設(shè)施之外，進(jìn)一步向自動(dòng)駕駛等物理AI場景的底層生態(tài)延伸，試圖構(gòu)建覆蓋千行百業(yè)的物理AI基礎(chǔ)體系。

然而，這與前文Jim Fan提及的機(jī)器人領(lǐng)域“基于VLM的VLA路線或非最優(yōu)解”的觀點(diǎn)有所出入。

02.

宇樹王興興：VLA是相對“傻瓜式”的架構(gòu)

一邊是英偉達(dá)智駕押注VLA的實(shí)踐探索，一邊是Jim Fan對該路線的存疑。而在這場爭議中，宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興和Jim Fan的觀點(diǎn)高度一致。

在2025世界機(jī)器人大會(huì)主論壇上，王興興發(fā)表主旨演講，拋出核心論斷：當(dāng)前智能體機(jī)器人整機(jī)硬件已能滿足需求，行業(yè)最關(guān)鍵的挑戰(zhàn)并非數(shù)據(jù)而是模型問題，機(jī)器人大模型的臨界點(diǎn)或?qū)⒃谖磥?-5年到來。

王興興指出，現(xiàn)階段人形機(jī)器人硬件、靈巧手整機(jī)等核心硬件雖未達(dá)到完美成熟的狀態(tài)，但已能適配當(dāng)前發(fā)展階段的使用需求。

未來硬件領(lǐng)域的核心發(fā)展方向?qū)⒓杏谌齻€(gè)維度：一是持續(xù)完善硬件細(xì)節(jié)設(shè)計(jì)，提升產(chǎn)品體驗(yàn)；二是著力降低制造成本，為規(guī)?；瘧?yīng)用鋪路；三是增強(qiáng)設(shè)備的使用壽命與運(yùn)行可靠性，夯實(shí)商業(yè)化基礎(chǔ)。

在王興興看來，機(jī)器人大模型是當(dāng)前及未來限制智能體機(jī)器人（尤其是人形機(jī)器人）大規(guī)模應(yīng)用的最大阻礙。在9月的2025 外灘大會(huì)上，王興興再次強(qiáng)調(diào)，現(xiàn)有的硬件（甚至一兩年前的硬件）足夠用，核心問題是AI模型能力不足，無法充分利用硬件（比如難用好靈巧手，數(shù)據(jù)采集及實(shí)現(xiàn)靈巧動(dòng)作具挑戰(zhàn)性）。

從發(fā)展進(jìn)度來看，當(dāng)前機(jī)器人大模型的發(fā)展階段類似ChatGPT發(fā)布前1-3年的狀態(tài)——業(yè)界已明確大致的技術(shù)方向與路線，但尚未有成熟的落地成果。

他明確了機(jī)器人大模型“ChatGPT時(shí)刻”的臨界點(diǎn)標(biāo)志：機(jī)器人能在完全陌生的環(huán)境中精準(zhǔn)聽懂指令并流暢完成任務(wù)。具體場景包括比如在全新會(huì)場中完成“向指定觀眾傳遞水瓶”，或在陌生房間內(nèi)按指令整理環(huán)境等。

王興興預(yù)判，這一臨界點(diǎn)最快1-2年可實(shí)現(xiàn)，慢則需要3-5年。

針對行業(yè)普遍關(guān)注的數(shù)據(jù)問題，王興興提出不同看法：當(dāng)前全球?qū)?shù)據(jù)的關(guān)注度偏高，反而忽視了更核心的模型問題，這也是機(jī)器人尚未達(dá)到上述臨界點(diǎn)的關(guān)鍵原因。

王興興認(rèn)為，數(shù)據(jù)存在采集、質(zhì)量、類型、規(guī)模無標(biāo)準(zhǔn)的問題，現(xiàn)在還處于比較模糊的階段；需提高數(shù)據(jù)利用率，讓模型本身對數(shù)據(jù)的理解能力更強(qiáng)，可識(shí)別高價(jià)值數(shù)據(jù)，比如說語言模型需特征性的數(shù)據(jù)而非單純看量。

對于當(dāng)前熱門的具身智能模型——VLA模型，王興興持懷疑態(tài)度。他認(rèn)為該模型實(shí)用性存在明顯局限，屬于相對“傻瓜式架構(gòu)”，在與真實(shí)世界交互時(shí)存在數(shù)據(jù)質(zhì)量不足的問題；即便疊加RL（強(qiáng)化學(xué)習(xí)）技術(shù)，其架構(gòu)仍需進(jìn)一步升級(jí)優(yōu)化。

與之相對，王興興認(rèn)為“世界模型”是更值得關(guān)注的技術(shù)路線，甚至可能比VLA模型更快落地。

世界模型被視為邁向通用人工智能（AGI）的重要階梯，核心價(jià)值在于通過學(xué)習(xí)環(huán)境的時(shí)空動(dòng)態(tài)，實(shí)現(xiàn)對未來狀態(tài)的預(yù)測及自身行動(dòng)后果的評(píng)估。

以谷歌DeepMind發(fā)布的第三代通用世界模型Genie 3為例，其可為機(jī)器人等智能體提供低成本虛擬訓(xùn)練環(huán)境，支持復(fù)雜任務(wù)的長時(shí)程模擬。

此外，王興興還指出，當(dāng)前機(jī)器人存在“學(xué)習(xí)新技能需從頭訓(xùn)練、無法復(fù)用舊知識(shí)”的痛點(diǎn)，亟需實(shí)現(xiàn)類似大模型的持續(xù)學(xué)習(xí)能力。

“如今多模態(tài)的融合不太理想，盡管單純的語言或多模態(tài)模型表現(xiàn)優(yōu)異?！蓖跖d興補(bǔ)充道，但在機(jī)器人領(lǐng)域，用語言或圖像、視頻生成內(nèi)容來控制機(jī)器人仍存在重大挑戰(zhàn)。

王興興總結(jié)了未來2-5年智能機(jī)器人技術(shù)的三大發(fā)展重心：其一，構(gòu)建統(tǒng)一的端到端智能機(jī)器人大模型，突破核心技術(shù)瓶頸；其二，攻堅(jiān)更低成本、更高壽命的硬件產(chǎn)品，并實(shí)現(xiàn)超大批量制造，推進(jìn)規(guī)?；涞兀黄淙?，搭建低成本、大規(guī)模的算力體系，尤其要發(fā)力分布式算力領(lǐng)域。

03.

寫在最后

“VLA就是自動(dòng)駕駛最好的模型方案?！崩硐胱詣?dòng)駕駛負(fù)責(zé)人朗咸朋表達(dá)了與王興興、Jim Fan 看法不一致的觀點(diǎn)，他強(qiáng)調(diào)具身智能最終拼的是整體的系統(tǒng)能力。

朗咸朋解釋，理想的VLA本質(zhì)是生成式模型，區(qū)別于生成文本Token的傳統(tǒng)生成式模型，其生成的是軌跡與控制信號(hào)。從用戶反饋來看，該VLA在部分場景下已呈現(xiàn)出對物理世界的認(rèn)知涌現(xiàn)，具體體現(xiàn)為擬人化行為表現(xiàn)優(yōu)異。

針對世界模型與VLA的對比，朗咸朋指出，世界模型更適合扮演“考場”角色——用于仿真環(huán)境構(gòu)建與強(qiáng)化訓(xùn)練，而非作為“考生”直接部署于車端。

核心原因在于世界模型的算力需求遠(yuǎn)高于VLA，這決定了其更適配云端場景，可用于數(shù)據(jù)生成、高逼真度仿真測試及強(qiáng)化訓(xùn)練。他同時(shí)透露，理想汽車已在云端應(yīng)用世界模型，規(guī)模達(dá)數(shù)E flops級(jí)別。

另外，真實(shí)數(shù)據(jù)被朗咸朋視為理想研發(fā)VLA的核心底氣。目前理想已構(gòu)建起由數(shù)百萬輛車組成的閉環(huán)數(shù)據(jù)體系，為VLA的落地實(shí)現(xiàn)與持續(xù)優(yōu)化提供了關(guān)鍵支撐。

關(guān)于VLA的未來應(yīng)用，朗咸朋透露，該技術(shù)不僅將服務(wù)于當(dāng)前的理想汽車，還將延伸至未來的汽車類具身機(jī)器人領(lǐng)域。不過，兩者是否會(huì)采用同一套技術(shù)架構(gòu)，他并未給出明確答案。

可以預(yù)見的是，Jim Fan的銳評(píng)與行業(yè)內(nèi)的實(shí)踐探索相互印證，清晰揭示了當(dāng)前具身智能機(jī)器人領(lǐng)域的核心矛盾與發(fā)展瓶頸。硬件的相對成熟與軟件的滯后性、技術(shù)路線的分歧與基準(zhǔn)體系的缺失，共同構(gòu)成了行業(yè)前進(jìn)路上的主要障礙。

未來數(shù)年內(nèi)，隨著世界模型等新興技術(shù)路線的探索深入、統(tǒng)一基準(zhǔn)體系的逐步構(gòu)建以及端到端機(jī)器人大模型的持續(xù)突破，具身智能機(jī)器人領(lǐng)域或?qū)⒂瓉韽男U荒探索到有序發(fā)展的關(guān)鍵轉(zhuǎn)折。

至于VLA是“最優(yōu)解”還是“過渡品”？這場關(guān)乎技術(shù)路線選擇與行業(yè)生態(tài)構(gòu)建的探索，不僅將決定相關(guān)企業(yè)的競爭格局，更將深刻影響人工智能與物理世界交互的最終形態(tài)。

來源：第一電動(dòng)網(wǎng)

作者：NE時(shí)代

本文地址：http://m.22xuexi.com/kol/282492

返回第一電動(dòng)網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。