一邊開源押注,一邊公開存疑?
近日,英偉達(dá)機(jī)器人主管Jim Fan在社交媒體上發(fā)表了對具身智能機(jī)器人領(lǐng)域的年度“銳評(píng)”。
“當(dāng)業(yè)界普遍為“氛圍編程”(vibe coding)熱潮感到興奮之時(shí),恰逢歲末年初的佳節(jié)節(jié)點(diǎn),我想借此機(jī)會(huì),分享對機(jī)器人這一尚處蠻荒探索階段領(lǐng)域的些許思考與焦慮?!?/p>

以下,便是Jim Fan在2025年深耕機(jī)器人領(lǐng)域所收獲的三條核心經(jīng)驗(yàn)與教訓(xùn):
一、硬件發(fā)展超前于軟件能力,可靠性制約迭代效率
當(dāng)下,我們已然見證了Optimus、e-Atlas、Figure、Neo、G1等一系列具備精湛工程水準(zhǔn)的機(jī)器人產(chǎn)品問世。即便如此,當(dāng)前最先進(jìn)的人工智能技術(shù),仍未能充分釋放這些前沿硬件的全部潛能——機(jī)器人本體的機(jī)能上限,顯著高于其“大腦”的指令輸出能力。
更為關(guān)鍵的是,維持這些機(jī)器人的穩(wěn)定運(yùn)行,往往需要一整支專業(yè)運(yùn)維團(tuán)隊(duì)的支撐。
與人類不同,機(jī)器人不具備自我修復(fù)能力,過熱、電機(jī)故障、各類非常規(guī)固件問題等故障場景,每日都在實(shí)踐中反復(fù)出現(xiàn)。一旦故障發(fā)生,往往會(huì)造成不可逆的損失,且難以通過簡單干預(yù)實(shí)現(xiàn)恢復(fù)。在這一過程中,唯一得以增長的,便是從業(yè)者的耐心。
二、機(jī)器人領(lǐng)域基準(zhǔn)測試體系仍深陷混亂
在大模型領(lǐng)域,MMLU、SWE-Bench等基準(zhǔn)測試已成為行業(yè)共識(shí),成為衡量技術(shù)水平的通用標(biāo)尺。
但這一成熟范式,尚無法直接遷移至機(jī)器人領(lǐng)域。從硬件平臺(tái)的選型、任務(wù)目標(biāo)的定義、評(píng)分標(biāo)準(zhǔn)的設(shè)定,到模擬器的搭建與真實(shí)場景的部署,整個(gè)行業(yè)尚未形成統(tǒng)一的規(guī)范與共識(shí)。
在此背景下,幾乎所有從業(yè)者都宣稱自身技術(shù)達(dá)到“最先進(jìn)水平”(SOTA),但這一“最先進(jìn)水平”的定義,往往是為適配每次技術(shù)發(fā)布而臨時(shí)設(shè)定的基準(zhǔn)。
更普遍的現(xiàn)象是,多數(shù)從業(yè)者會(huì)從數(shù)十次甚至上百次的嘗試中,篩選出效果最優(yōu)的演示樣本(demo)用于對外發(fā)布。
展望2026年,機(jī)器人領(lǐng)域必須打破這一亂象,不再將可復(fù)現(xiàn)性與科學(xué)規(guī)范置于次要地位,推動(dòng)行業(yè)朝著更嚴(yán)謹(jǐn)、更有序的方向發(fā)展。
三、基于VLM的VLA路線或非最優(yōu)解
VLA(視覺-語言-動(dòng)作模型)已成為當(dāng)前機(jī)器人大腦方案的主流選擇,其核心實(shí)現(xiàn)邏輯是:基于預(yù)訓(xùn)練的VLM(視覺-語言模型)檢查點(diǎn),接入動(dòng)作生成模塊。
但深入剖析后不難發(fā)現(xiàn),這一技術(shù)路線存在先天局限。VLM模型在訓(xùn)練過程中,過度針對視覺問答等“爬坡式”基準(zhǔn)測試進(jìn)行優(yōu)化,這直接導(dǎo)致了兩個(gè)核心問題:
其一,VLM模型中的大部分參數(shù),主要服務(wù)于語言理解與知識(shí)處理任務(wù),而非適配物理世界的交互需求;
其二,為適配問答任務(wù)對高級(jí)語義理解的需求,視覺編碼器被主動(dòng)調(diào)校為舍棄低級(jí)視覺細(xì)節(jié)——但對于機(jī)器人靈巧操作而言,這些細(xì)微的視覺細(xì)節(jié)恰恰是決定任務(wù)成敗的關(guān)鍵。
基于這一邏輯,VLA的性能提升,并不具備隨VLM參數(shù)規(guī)模增加而同步提升的合理性,核心癥結(jié)在于預(yù)訓(xùn)練目標(biāo)與機(jī)器人的實(shí)際需求存在根本性錯(cuò)配。相較之下,視頻世界模型更符合機(jī)器人策略學(xué)習(xí)的預(yù)訓(xùn)練目標(biāo),這一判斷已成為我深耕領(lǐng)域后的堅(jiān)定認(rèn)知。
針對此番“銳評(píng)”,也有網(wǎng)友表示質(zhì)疑。
一網(wǎng)友認(rèn)為,若視頻世界模型是更優(yōu)的預(yù)訓(xùn)練目標(biāo),為何Helix、GR00T N1及π0等模型仍以VLM(視覺語言模型)為骨干網(wǎng)絡(luò)進(jìn)行構(gòu)建,并成功交付實(shí)際成果?與此同時(shí),世界模型方法為何主要應(yīng)用于策略評(píng)估與合成數(shù)據(jù)生成場景,而非直接用于運(yùn)動(dòng)控制任務(wù)的執(zhí)行?此外,關(guān)于“硬件瓶頸限制迭代速度”的觀點(diǎn),似乎同樣適用于各類預(yù)訓(xùn)練方案——除非機(jī)器人數(shù)據(jù)缺口這一核心問題得到解決。
Jim Fan回答道,上述提及的Helix、GR00T N1及π0均為2025年推出的模型,對于更貼合視頻世界模型預(yù)訓(xùn)練目標(biāo)的技術(shù)方案,可期待2026年下一代大型模型的表現(xiàn)。
01.
英偉達(dá):物理AI戰(zhàn)略下的智駕VLA布局
Jim Fan的銳評(píng)精準(zhǔn)戳中了當(dāng)前機(jī)器人領(lǐng)域的核心爭議與痛點(diǎn),尤其是關(guān)于VLA技術(shù)路線的優(yōu)劣之爭,成為行業(yè)關(guān)注的焦點(diǎn)。
值得注意的是,就在業(yè)界圍繞這一爭議展開討論之際,英偉達(dá)近日開源最新自動(dòng)駕駛VLA模型Alpamayo-R1,這一動(dòng)作不僅是全球首個(gè)面向智能駕駛的開源VLA模型發(fā)布,也是其汽車事業(yè)部負(fù)責(zé)人吳新宙入職后的首份智駕領(lǐng)域答卷。

更核心的是,這也印證了黃仁勛此前提及的英偉達(dá)在物理AI賽道的戰(zhàn)略布局:在計(jì)算基礎(chǔ)設(shè)施之外,打造鏈接AI與物理世界的底層“安卓”生態(tài),覆蓋機(jī)器人、自動(dòng)駕駛等核心場景。
從行業(yè)影響來看,此次開源意味著AI巨頭英偉達(dá)正式加入VLA技術(shù)路線,為VLA陣營注入重量級(jí)力量。
此次開源內(nèi)容包含VLA架構(gòu)及100TB數(shù)據(jù)集(覆蓋美國、歐盟多國道路數(shù)據(jù),不含中國數(shù)據(jù)),向全球開發(fā)者開放了其相關(guān)技術(shù)方法論。
但需明確的是,英偉達(dá)尚未實(shí)現(xiàn)VLA技術(shù)的商業(yè)化落地,此次開源更多是技術(shù)思路的示范,并非可直接應(yīng)用的成熟VLA方案,開源架構(gòu)的商業(yè)化價(jià)值仍有限。
技術(shù)層面,Alpamayo-R1雖歸屬VLA模型范疇,但與業(yè)內(nèi)主流的“端到端+大語言模型外掛”VLA存在本質(zhì)區(qū)別,其核心是原生多模態(tài)模型,基座源于英偉達(dá)年初CES發(fā)布的Cosmos基礎(chǔ)世界模型中的Cosmos Reason。
作為鏈接AI與物理世界的“中間層”,Cosmos本質(zhì)是“通才”型世界模型,為千行百業(yè)提供基礎(chǔ)物理AI“安卓”模板,而Alpamayo-R1正是Cosmos AI推理模型的擴(kuò)展,核心能力在于通過思維鏈推理理解視頻數(shù)據(jù)。
具體來看,Alpamayo-R1的預(yù)訓(xùn)練依托Chain of Causation“因果鏈”(CoC)數(shù)據(jù)集展開,其基座模型Cosmos的訓(xùn)練則采用擴(kuò)散模型與自回歸模型兩種方法:前者包含“文本到世界生成預(yù)訓(xùn)練”“頻到世界生成預(yù)訓(xùn)練”,后者涵蓋“下一個(gè)token生成”“文本條件的視頻到世界生成”。
這一技術(shù)路徑也契合黃仁勛多次強(qiáng)調(diào)的物理AI核心邏輯——構(gòu)建AI與物理世界的“中間層”,讓缺乏強(qiáng)AI算法能力的企業(yè)與個(gè)人,也能借助強(qiáng)大基座模型和工具打造專屬產(chǎn)品。
總的來看,Alpamayo-R1的開源并非單純的技術(shù)輸出,而是英偉達(dá)物理AI戰(zhàn)略在智能駕駛領(lǐng)域的具體落地,標(biāo)志著其在計(jì)算基礎(chǔ)設(shè)施之外,進(jìn)一步向自動(dòng)駕駛等物理AI場景的底層生態(tài)延伸,試圖構(gòu)建覆蓋千行百業(yè)的物理AI基礎(chǔ)體系。
然而,這與前文Jim Fan提及的機(jī)器人領(lǐng)域“基于VLM的VLA路線或非最優(yōu)解”的觀點(diǎn)有所出入。
02.
宇樹王興興:VLA是相對“傻瓜式”的架構(gòu)
一邊是英偉達(dá)智駕押注VLA的實(shí)踐探索,一邊是Jim Fan對該路線的存疑。而在這場爭議中,宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興和Jim Fan的觀點(diǎn)高度一致。
在2025世界機(jī)器人大會(huì)主論壇上,王興興發(fā)表主旨演講,拋出核心論斷:當(dāng)前智能體機(jī)器人整機(jī)硬件已能滿足需求,行業(yè)最關(guān)鍵的挑戰(zhàn)并非數(shù)據(jù)而是模型問題,機(jī)器人大模型的臨界點(diǎn)或?qū)⒃谖磥?-5年到來。

王興興指出,現(xiàn)階段人形機(jī)器人硬件、靈巧手整機(jī)等核心硬件雖未達(dá)到完美成熟的狀態(tài),但已能適配當(dāng)前發(fā)展階段的使用需求。
未來硬件領(lǐng)域的核心發(fā)展方向?qū)⒓杏谌齻€(gè)維度:一是持續(xù)完善硬件細(xì)節(jié)設(shè)計(jì),提升產(chǎn)品體驗(yàn);二是著力降低制造成本,為規(guī)?;瘧?yīng)用鋪路;三是增強(qiáng)設(shè)備的使用壽命與運(yùn)行可靠性,夯實(shí)商業(yè)化基礎(chǔ)。
在王興興看來,機(jī)器人大模型是當(dāng)前及未來限制智能體機(jī)器人(尤其是人形機(jī)器人)大規(guī)模應(yīng)用的最大阻礙。在9月 的2025 外灘大會(huì)上,王興興再次強(qiáng)調(diào),現(xiàn)有的硬件(甚至一兩年前的硬件)足夠用,核心問題是AI模型能力不足,無法充分利用硬件(比如難用好靈巧手,數(shù)據(jù)采集及實(shí)現(xiàn)靈巧動(dòng)作具挑戰(zhàn)性)。
從發(fā)展進(jìn)度來看,當(dāng)前機(jī)器人大模型的發(fā)展階段類似ChatGPT發(fā)布前1-3年的狀態(tài)——業(yè)界已明確大致的技術(shù)方向與路線,但尚未有成熟的落地成果。
他明確了機(jī)器人大模型“ChatGPT時(shí)刻”的臨界點(diǎn)標(biāo)志:機(jī)器人能在完全陌生的環(huán)境中精準(zhǔn)聽懂指令并流暢完成任務(wù)。具體場景包括比如在全新會(huì)場中完成“向指定觀眾傳遞水瓶”,或在陌生房間內(nèi)按指令整理環(huán)境等。
王興興預(yù)判,這一臨界點(diǎn)最快1-2年可實(shí)現(xiàn),慢則需要3-5年。
針對行業(yè)普遍關(guān)注的數(shù)據(jù)問題,王興興提出不同看法:當(dāng)前全球?qū)?shù)據(jù)的關(guān)注度偏高,反而忽視了更核心的模型問題,這也是機(jī)器人尚未達(dá)到上述臨界點(diǎn)的關(guān)鍵原因。
王興興認(rèn)為,數(shù)據(jù)存在采集、質(zhì)量、類型、規(guī)模無標(biāo)準(zhǔn)的問題,現(xiàn)在還處于比較模糊的階段;需提高數(shù)據(jù)利用率,讓模型本身對數(shù)據(jù)的理解能力更強(qiáng),可識(shí)別高價(jià)值數(shù)據(jù),比如說語言模型需特征性的數(shù)據(jù)而非單純看量。
對于當(dāng)前熱門的具身智能模型——VLA模型,王興興持懷疑態(tài)度。他認(rèn)為該模型實(shí)用性存在明顯局限,屬于相對“傻瓜式架構(gòu)”,在與真實(shí)世界交互時(shí)存在數(shù)據(jù)質(zhì)量不足的問題;即便疊加RL(強(qiáng)化學(xué)習(xí))技術(shù),其架構(gòu)仍需進(jìn)一步升級(jí)優(yōu)化。
與之相對,王興興認(rèn)為“世界模型”是更值得關(guān)注的技術(shù)路線,甚至可能比VLA模型更快落地。
世界模型被視為邁向通用人工智能(AGI)的重要階梯,核心價(jià)值在于通過學(xué)習(xí)環(huán)境的時(shí)空動(dòng)態(tài),實(shí)現(xiàn)對未來狀態(tài)的預(yù)測及自身行動(dòng)后果的評(píng)估。
以谷歌DeepMind發(fā)布的第三代通用世界模型Genie 3為例,其可為機(jī)器人等智能體提供低成本虛擬訓(xùn)練環(huán)境,支持復(fù)雜任務(wù)的長時(shí)程模擬。
此外,王興興還指出,當(dāng)前機(jī)器人存在“學(xué)習(xí)新技能需從頭訓(xùn)練、無法復(fù)用舊知識(shí)”的痛點(diǎn),亟需實(shí)現(xiàn)類似大模型的持續(xù)學(xué)習(xí)能力。
“如今多模態(tài)的融合不太理想,盡管單純的語言或多模態(tài)模型表現(xiàn)優(yōu)異?!蓖跖d興補(bǔ)充道,但在機(jī)器人領(lǐng)域,用語言或圖像、視頻生成內(nèi)容來控制機(jī)器人仍存在重大挑戰(zhàn)。
王興興總結(jié)了未來2-5年智能機(jī)器人技術(shù)的三大發(fā)展重心:其一,構(gòu)建統(tǒng)一的端到端智能機(jī)器人大模型,突破核心技術(shù)瓶頸;其二,攻堅(jiān)更低成本、更高壽命的硬件產(chǎn)品,并實(shí)現(xiàn)超大批量制造,推進(jìn)規(guī)?;涞兀黄淙?,搭建低成本、大規(guī)模的算力體系,尤其要發(fā)力分布式算力領(lǐng)域。
03.
寫在最后
“VLA就是自動(dòng)駕駛最好的模型方案?!崩硐胱詣?dòng)駕駛負(fù)責(zé)人朗咸朋表達(dá)了與王興興、Jim Fan 看法不一致的觀點(diǎn),他強(qiáng)調(diào)具身智能最終拼的是整體的系統(tǒng)能力。
朗咸朋解釋,理想的VLA本質(zhì)是生成式模型,區(qū)別于生成文本Token的傳統(tǒng)生成式模型,其生成的是軌跡與控制信號(hào)。從用戶反饋來看,該VLA在部分場景下已呈現(xiàn)出對物理世界的認(rèn)知涌現(xiàn),具體體現(xiàn)為擬人化行為表現(xiàn)優(yōu)異。
針對世界模型與VLA的對比,朗咸朋指出,世界模型更適合扮演“考場”角色——用于仿真環(huán)境構(gòu)建與強(qiáng)化訓(xùn)練,而非作為“考生”直接部署于車端。
核心原因在于世界模型的算力需求遠(yuǎn)高于VLA,這決定了其更適配云端場景,可用于數(shù)據(jù)生成、高逼真度仿真測試及強(qiáng)化訓(xùn)練。他同時(shí)透露,理想汽車已在云端應(yīng)用世界模型,規(guī)模達(dá)數(shù)E flops級(jí)別。
另外,真實(shí)數(shù)據(jù)被朗咸朋視為理想研發(fā)VLA的核心底氣。目前理想已構(gòu)建起由數(shù)百萬輛車組成的閉環(huán)數(shù)據(jù)體系,為VLA的落地實(shí)現(xiàn)與持續(xù)優(yōu)化提供了關(guān)鍵支撐。

關(guān)于VLA的未來應(yīng)用,朗咸朋透露,該技術(shù)不僅將服務(wù)于當(dāng)前的理想汽車,還將延伸至未來的汽車類具身機(jī)器人領(lǐng)域。不過,兩者是否會(huì)采用同一套技術(shù)架構(gòu),他并未給出明確答案。
可以預(yù)見的是,Jim Fan的銳評(píng)與行業(yè)內(nèi)的實(shí)踐探索相互印證,清晰揭示了當(dāng)前具身智能機(jī)器人領(lǐng)域的核心矛盾與發(fā)展瓶頸。硬件的相對成熟與軟件的滯后性、技術(shù)路線的分歧與基準(zhǔn)體系的缺失,共同構(gòu)成了行業(yè)前進(jìn)路上的主要障礙。
未來數(shù)年內(nèi),隨著世界模型等新興技術(shù)路線的探索深入、統(tǒng)一基準(zhǔn)體系的逐步構(gòu)建以及端到端機(jī)器人大模型的持續(xù)突破,具身智能機(jī)器人領(lǐng)域或?qū)⒂瓉韽男U荒探索到有序發(fā)展的關(guān)鍵轉(zhuǎn)折。
至于VLA是“最優(yōu)解”還是“過渡品”?這場關(guān)乎技術(shù)路線選擇與行業(yè)生態(tài)構(gòu)建的探索,不僅將決定相關(guān)企業(yè)的競爭格局,更將深刻影響人工智能與物理世界交互的最終形態(tài)。
來源:第一電動(dòng)網(wǎng)
作者:NE時(shí)代
本文地址:http://m.22xuexi.com/kol/282492
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。