“(人形機器人公司)真正重要的是同時做硬件和AI,而且要讓它們能夠很好地整合在一起。”近期一場對話中,美國當紅人形機器人公司Figure AI創始人布雷特·阿德考克(Brett Adcock)強調,軟硬件一體,不可偏廢。
阿德考克還談及,中國的機器人公司關注硬件,但不在乎AI。實際上,同步發力AI與硬件,正在成為中國頭部人形機器人企業的戰略選擇。
3月10日,智元合伙人、具身業務部總裁、研究院執行院長姚卯青接受采訪時說,人形機器人賽道上,“偏科”的公司較多。有些公司特別擅長算法,但硬件制造能力較弱,這會嚴重限制對算法研發的驗證;另有大量機器人本體公司,對AI投入比較受限。智元則追求硬件和AI的完整布局,這是一家2023年2月在上海注冊成立的人形機器人“獨角獸”公司。
的確有中國的機器人公司把重心置于硬件。去年8月,宇樹科技創始人王興興受訪時表示,具身智能大模型的研發太燒錢,宇樹科技對此選擇謹慎投入。之所以態度保守,也是考量到機器人具身模型的技術路線目前仍不像大語言模型那么清晰,不能在技術路線模糊的時候亂投入。但王興興補充強調,宇樹科技依然會繼續關注和研發具身智能大模型,因為硬件為AI服務,一旦對具身智能模型缺乏了解,很難做出好的人形機器人本體。
相較于宇樹科技在具身智能大模型上的審慎心態,姚卯青稱,智元把具身智能研發作為公司的戰略級投入領域。
“機器人公司如果不做大模型,那是沒有未來的。沒有智能化,就沒有作業能力。”姚卯青認為,AI能力將來一定是區分機器人產品競爭力的關鍵因素,就像當前的新能源汽車和手機等終端一樣,隨著硬件方案逐漸趨于一致,供應鏈高度整合,“最后比拼的一定是AI能力”。

智元的人形機器人。圖:智元公司
3月10日,智元發布首個通用具身基座大模型GO-1。據公司介紹,這款具身智能模型最大的創新在于架構變化。智元GO-1提出了Vision-Language-Latent-Action (ViLLA) 架構,該架構由VLM(多模態大模型)+ MoE(混合專家模型)組成。
,VLM利用海量互聯網純文本與圖文數據的學習中,幫助機器人理解通用知識和場景。MoE則由兩組“專家”組成:Latent Planner(隱式規劃器)借助大量的人類和其他機器人本體的操作數據,獲得通用的動作理解能力;Action Expert(動作專家)則借助仿真數據和真機采集的數據,獲得精細的動作執行能力。
“構建了從通用場景感知、指令理解、動作理解到動作最終執行的全鏈條。”姚卯青用人類學習乒乓球的進階過程類比說,VLM之于機器人的作用,好比上乒乓球的基礎理論課,從圖文指導中形成對乒乓球招式的初步理解。Latent Planner(隱式規劃器)的角色,類似于給初學者觀看乒乓球世界冠軍打比賽的炫酷視頻。Action Expert(動作專家)利用仿真數據,好比使用發球機進行模擬學習;利用真機數據的訓練,則如同請乒乓球教練手把手示教。

具身智能模型的四類訓練數據。圖:智元公司
智元具身研究中心常務主任任廣輝表示,目前市場上的具身智能模型存在諸多落地難題。比如,以斯坦福的ACT為代表的具身智能小模型,沒有利用大規模的圖文和操作視頻訓練,技能單一且無法學習新技能;基于視覺-語言-動作多模態大模型(Vision-Language-Action,VLA)構建的具身智能模型,雖然學習了大量圖文數據,具備場景感知和指令理解能力,但未有利用到大規模的人類和和其他機器人本體的操作視頻數據,缺少了一個重要的數據來源,導致迭代的成本更高。
智元發布的實驗數據顯示,相比已有的最優模型,GO-1的成功率提高了32%,從46%提升至78%。
“GO-1大模型將使機器人向著具備通用智能的自主體發展。”智元方面稱,GO-1具備更強的泛化能力,降低了具身模型的使用門檻。而且,這款具身智能模型搭配一整套數據回流系統,用于反饋場景測試中的錯誤數據,公司再將其列入后續的模型訓練,實現模型迭代。
智元還在尋求和頭部大模型公司來開發具身智能模型。2月下旬,階躍星辰宣布與智元達成戰略合作,共同探索AI+具身機器人應用場景。據智元介紹,后續雙方的合作,圍繞階躍的多模態、推理和訓練等底層平臺能力展開,將其賦能到機器人上。
當前,開發具身智能大模型的數據采集路線也存在分歧。銀河通用等公司傾向于合成數據,但許多公司仍視真機數據為解決數據瓶頸的重要手段。為此,智元在上海專門建設了一座數據采集工廠,投放近百臺機器人,日均采集3萬至5萬條真機數據。另外,智元還針對工業場景開展概念驗證項目(POC),前往工廠實地采集數據。
2025年被業內視為“量產元年”。1月初,智元宣布已累計下線1000臺通用具身機器人。,雙足人形機器人731套,輪式通用機器人269套。姚卯青透露,千臺機器人中,有數百臺出貨給客戶,其余的作為研發樣機。
姚卯青預估,今年公司的出貨量會達到數千臺的規模,而營收相較去年會實現數倍的增長,推進科研教育、服務業等場景的布局。
采寫:南都記者 楊柳