當大模型還在數字世界"紙上談兵",具身智能已悄然打響一場關于"物理數據"的靜默戰爭。這不是算法的較量,而是關乎百萬小時真實交互數據的軍備競賽——誰掌握了高質量、多模態的物理世界數據,誰就握住了通往通用人工智能(AGI)的鑰匙。
2026年4月,上海浦東的智元機器人數據采集工廠里,上百臺人形機器人正在"冰球場"式的布局中同步訓練。數據采集員操控機械臂完成抓取飲品杯、裝袋、打包吸管的動作,每天重復約200次,只為采集一條有效軌跡數據。這一幕,正是具身智能產業"數據饑渴"的縮影。
一、數據荒漠:具身智能的阿喀琉斯之踵
具身智能正站在歷史性拐點。2025年,ZG次將"具身智能"寫入政府工作報告;2026年4月,智元合作伙伴大會吸引30多個和地區的2500余名嘉賓參會,空中客車高J副總裁格雷格·翁巴赫驚嘆:"ZG有超過150家企業在研發具身智能機器人"。
然而,繁榮表象下暗藏致命瓶頸。行業共識認為,實現具身智能的"涌現"能力至少需要百萬小時來自真實世界的物理交互數據,目前積累的數量尚不足5%(白皮書數據)。這種數據稀缺性,與當年大語言模型(LLM)訓練時互聯網文本數據的豐沛形成鮮明對比。
更嚴峻的是數據獲取的"不可能三角":精度、規模、成本三者難以兼得。真機遙操作數據精度Z高,但成本呈指數J上升——據科創板日報報道,光是"倒牛奶"這一個動作就可能需要采集近百條訓練數據,而真實場景采集時,一小時僅能采集20條有效軌跡數據,且存在30%的行為偏差。相比之下,互聯網視頻數據規模龐大卻缺乏物理真實性,合成數據成本低卻面臨"仿真到現實"(Sim2Real)的遷移鴻溝。
帕西尼感知科技創始人許晉誠指出:"當前具身智能所能使用的數據量僅為大語言模型的幾百分之一"。這種數量J的差距,構成了具身智能發展的"數據鴻溝"。
二、三條數據路線的"金字塔"博弈
遙操作數據當前占據金字塔D端。2024年9月,智元機器人在上海張江啟用行業個數據采集工廠,占地4000平方米,分割為家居、餐飲、工業等不同主題場景,每日超100臺機器人同步訓練,單機單日可產生上萬條高質量軌跡數據。2025年,智元開源了百萬真機數據集AgiBot World,覆蓋80余種日常生活技能,長程數據規模較Google的Open X-Embodiment高出10倍,場景覆蓋面擴大100倍。
但真機遙操作的瓶頸同樣明顯。韓國企業Robotis為挑戰智元,選擇在烏茲別克斯坦建設11萬平方米的數據工廠,利用當地成本優勢降低采集成本。這揭示了一個殘酷現實:純遙操作路徑在經濟和工程上均不可持續。
動作捕捉數據正在崛起為"中間路線"。2024年斯坦福大學李飛飛團隊發布的DexCap系統,通過可穿戴的相機背心和手套上的SLAM相機,以低成本、抗遮擋方式采集高質量3D手部運動數據。國內諾亦騰推出的PN Studio系統,使用航天J傳感器標定方式,能在1000平方米范圍內實現Z多5人全身和手指的動作捕捉。2025年,諾亦騰在深圳龍華區揭牌運營機器人跨本體數據工廠,推進"無本體數據采集"的規;獙鞲衅髦苯哟┐髟诓僮髡呱砩,實現數據采集與機器人本體解耦。
更具顛覆性的是無本體數據采集。2024年斯坦福大學提出的UMI(Universal Manipulation Interface)框架,確立了"手持夾爪+GoPro手腕攝像頭"的核心范式,讓人類手部成為"通用的數據接口"。國內初創公司鹿明機器人推出的FastUMI Pro,將單條數據采集時間從50秒縮短至10秒,綜合成本降至傳統方法的五分之一。
合成數據則是規;A訓練的"終極答案"。NVIDIA推出的MimicGen方案,僅需5次人類演示即可生成1000個雙手靈巧任務演示;銀河通用基于十億量J仿真數據,發布了個全仿真預訓練具身大模型GraspVLA。然而,合成數據面臨物理保真度難題——軟體形變、復雜摩擦、細顆粒物學等現象,傳統剛體物理引擎難以準確模擬(白皮書第4章)。
三、Scaling Law初現:數據規模正在重塑競爭格局
2026年初,具身智能領域迎來"Scaling Law"的初步驗證。
Generalist AI發布的GEN-1模型,將數據規模推向50萬小時真實世界操作數據,模型性能和任務成功率從64%大幅提升至99%。這一躍遷印證了:與LLM類似,具身智能模型能力同樣隨數據規模增長而涌現。
更具標志性的是觸覺數據的突破。戴盟科技發布的Daimon-Infinity數據集,包含觸覺、視覺、動作軌跡及語音文本等多模態信息,其中1萬小時數據已面向行業開源。實測表明,觸覺數據的引入能顯著降低模型訓練對數據規模的依賴——相比視覺信息,觸覺能直接感知接觸關系與物體特性,避免多視角采集帶來的冗余與遮擋。
北京石景山區投用的全國Z大人形機器人訓練基地,更讓機器人掌握"頭發絲J"的觸覺感知——0.01牛的力度識別精度,相當于一根頭發絲輕輕落在手指上的壓力。
然而,數據規模的擴張并非簡單的"堆量"。智元機器人提出的ADC(對抗數據采集)模式,通過增加數據的信息密度和多樣性,以20%的數據量達到傳統方案2.7倍的效果。配合"HIL-SERL"強化學習系統,機器人能在真實世界中1-2.5小時內學會多種高精度、靈巧操作任務,成功率接近100%。
四、自動駕駛的鏡鑒:從"高精地圖"到"數據飛輪"
具身智能的數據困境,與自動駕駛的發展歷程驚人相似。
自動駕駛早期依賴高精地圖——將"實時理解環境"簡化為"在已知地圖定位",雖加速技術落地,卻帶來路徑依賴:制作成本高、鮮度維護難、泛化能力受限(白皮書第3章)。Z終,行業轉向"影子模式"——利用量產車在日常行駛中實時回傳數據,經云端融合處理,實現動態更新。
這一轉變對具身智能的啟示深刻:真正的智能體現在對未知環境的適應,而非對預采數據的記憶。然而,具身智能面臨更嚴峻的"冷啟動"困境——自動駕駛可與汽車銷售同步啟動數據采集,而機器人尚未大規模進入真實場景,數據飛輪在啟動前是斷裂的。
破解之道在于"仿真優先,真機驗證"的混合范式。自動駕駛的工程化實踐表明,云端并行仿真可在數小時內完成相當于數百萬公里路測的場景覆蓋,實現算法版本的快速迭代。NVIDIA Cosmos平臺提供預訓練的生成式世界基礎模型,開發者可直接生成合成數據或微調使用,加速物理AI系統開發。
國內流形空間(Manifold AI)d創的WMA(World Model Action)路線,以世界模型作為機器人的基礎模型,自研通用空間世界模型WorldScape,具備"推理想象-行動"三位一體能力,已在無人機領域實現落地突破。
五、商業化前夜:數據驅動的漸進式演進
具身智能的"GPT-3.5時刻"尚未到來,但商業化路徑已日漸清晰。
D一階段:少量數據構建原型能力。當前多數企業處于此階段,利用數十至數百條高質量演示數據,訓練機器人掌握特定結構化任務。然而,a16z的深度洞察指出:實驗室里95%成功率的策略,一旦進入真實倉庫,光照、背景、視角、物體材質發生變化,成功率可能迅速跌至60%(白皮書第5章)。
第二階段:聚焦場景,大量數據驅動迭代。國內已建成或計劃在建的具身智能訓練場達20余家,其中10家公開披露的訓練場總面積超過4萬平方米。上海張江"麒麟"訓練場、北京石景山觸覺感知數訓中心、天津帕西尼超J數據工廠(年產近2億條數據),正形成覆蓋制造業、物流、家居等垂直場景的數據基礎設施。
第三階段:海量數據實現高階功能閉環。未來"云-邊-端"協同架構下,云端將利用大規模算力進行持續技能訓練,邊緣側承擔實時協同與隱私計算,機器人本體成為標準化通用移動計算平臺。商業模式也將從一次性硬件銷售,轉向"智能即服務"的訂閱模式——用戶像在應用商店購買軟件一樣,按需訂閱機器人技能(白皮書第5章)。
六、投資啟示:在數據洪流中錨定價值
從數據視角審視,具身智能產業呈現五大投資機會:
1. 感知技術創新:觸覺傳感器、靈巧手等多模態感知設備,正從"被動采集"走向"感算一體"。帕西尼DexH13靈巧手集成近2000顆自研高精度觸覺傳感器,實現15種多維觸覺感知。
2. 數據采集與治理:覆蓋采集、清洗、標注、存儲的全生命周期管理體系,是推動行業標準化的底層基建。簡智機器人實現"采集完成后2小時內新鮮數據送達模型"的目標,需要系統性工程能力支撐。
3. 垂直場景解決方案:工業精密裝配、倉儲柔性物流等領域,已展現清晰商業化前景。德馬科技與智元合作搭建的物流數據采集工廠,正構建可持續迭代的"數據-模型-場景"技術閉環。
4. 真機失敗數據的價值:被忽視的負面樣本對模型能力提升至關重要。智元ADC模式證明,對抗性數據能以更少樣本實現更強效果。
5. 世界模型的長期潛力:螞蟻靈波發布的LingBot-VA模型,創"邊推演、邊行動"框架,在LIBERO基準測試中任務成功率達98.5%。盡管仍需耐心,世界模型被視為通往具身"GPT-3.5時刻"的潛在路徑。
七、數據即權力,物理即未來
站在2026年的門檻回望,具身智能正在重演大語言模型的"數據故事"——從稀缺到豐沛,從昂貴到普惠,從封閉到開源。但這一次,戰場從數字比特轉向物理原子,數據從文本 token 變為多模態的"狀態-動作-反饋"軌跡。
這不是一場短跑,而是一場以五年、十年為尺度的馬拉松。正如國際先進技術應用推進中心(深圳)發布的白皮書所言:"發展具身智能是多領域融合的系統性工程,數據是跨領域的真實樞紐,貫穿全部鏈條"。
當智元的數據采集工廠每天產出上萬條數據,當帕西尼的天津超J工廠年產近2億條多模態數據,當Generalist AI驗證50萬小時數據的Scaling Law——我們看到的不僅是技術的進步,更是一個關于"如何教會機器理解物理世界"的宏大敘事正在展開。
數據即權力,物理即未來。在這場靜默的數據戰爭中,Z終的贏家不屬于技術Z先進者,而屬于那些能深刻理解產業節奏、準確定位數據生態位,并構建起持續迭代能力的企業。

![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 具身智能教育機器人 智能配送機器人 導覽機器人 |