“困在数据里的具身智能。

今年春晚，一群机器人在台上整齐划一地翻跟头、打功夫，动作行云流水。这震撼的表演看得人热血沸腾。

但聚光灯之外，一个本质问题始终没有解决：这更像是一场精心排练的“机械舞”，而不是我们真正期待的“智能”。

换个环境，让这些机器人去拧个瓶盖、拿个杯子、叠件衣服——大概率会当场翻车。

问题出在哪？

没有真实世界的数据

具身智能只能是幻觉

过去几年具身智能硬件的进步堪称惊人。双足行走、关节扭矩控制、电机响应速度、传感器精度……宇树、智元、特斯拉等玩家已经将工程能力推到了一个新高度。

硬件的快速进步正在扫清过去的障碍，但一个新的、更深层的制约因素正在浮出水面——数据。

当人们谈到具身智能的时候，往往只把焦点放在那个漂亮的外形上。事实上，除了本体，具身智能还需要三大核心要素：数据、模型与场景。

其中，数据尤为关键。它直接决定了智能能不能“涌现”，能力能不能“泛化”。

正如黄仁勋在CES上那句一针见血的话：“没有真实世界的数据，具身智能只能是幻觉。”

这句话点出了一个残酷的现实：眼下真正卡住脖子的，是那些来自物理世界、承载着真实交互经验的珍贵数据——而这类数据，恰恰是最稀缺的。

为什么具身智能会缺数据？

海天瑞声董事会秘书张哲一语道破：“大模型时代，相当一大部分数据来自互联网。文字、图片、视频，都是人类智慧的数字化沉淀，已经在网上堆积了几十年。GPT-4训练用的数据量级是万亿词元，这些数据俯拾皆是。它需要的是与物理世界交互的数据……这些数据，互联网上没有现成的，需要依赖大规模的采集和标注。”

但这些数据的采集和标注又极为困难。

张哲举了一个拧瓶盖的例子。对人类来说，这是近乎本能的操作。但对机器人而言，这是一个涉及感知、决策、执行、验证的完整闭环，每一个环节都涉及数据的采集和标注工作：

“感知”：机器人“眼”里只有像素点。它需要海量图像数据才能将这一堆像素与“瓶子”的概念关联起来，判断其材质是玻璃还是塑料，则更需要触觉传感器的反馈。

“决策”：该往左拧还是往右拧、用多大的力度抓取、发力点选在哪个位置，机器人没有天生的直觉，只能从海量数据中学习最优路径，精准把控力度和角度，稍有偏差就会失败。

“执行”：执行过程中，触觉需实时反馈，算法需实时处理，电机需实时响应。任何一个环节的微小延迟，都可能导致瓶子滑落。

“验证”：对机器人而言，成功需要一个明确、可量化的信号：是听到“咔”的一声，还是看到瓶盖离开瓶身？不同的定义，将导向完全不同的训练结果。

可以看到，一个小小的拧瓶盖动作，就对数据的量级、精度、全面性提出了极高要求。

这背后反映出具身智能底层技术逻辑导致的数据困境。

对人类来说，我们是真正理解了“拧”这个动作的本质，机器人则是背下了“拧矿泉水瓶”这道题。对AI而言，无论参数规模多大，本质上仍是对数据模型的高度拟合，其行为模式只是在计算“下一个词元”或“下一个动作”的概率分布。

这种根本上的不同，注定了具身智能的数据采集，注定复杂、繁琐、成本高昂。

产业界的突围：

四大数据供给路径

面对数据短缺的燃眉之急，产业界没有停滞不前，正探索多条数据供给路径，各路径各有侧重、互为补充。

路径一：真机遥采

这是目前公认质量最高的数据来源。由人类穿戴遥操设备或使用VR设备，远程操控机器人执行任务，记录下视觉、关节角度和力矩数据。这种“手把手”的教学，能够保留人类在复杂环境中的决策过程，精度极高。

近日，记者参访了海天瑞声位于北京的一处具身智能数据训练中心，这里地处繁华地段，整栋写字楼里，有好几层都专门用于具身智能数据采集。

现场颇为壮观——单臂、多臂、人形、四足……几十台形态各异的机器人，配备头环式、夹爪式采集设备，动捕服、动捕手套及遥操驾舱等专业装备，在数采师的操作下，一遍遍抓取桌上的各类物品，浇花、拧瓶盖、开门、拿杯子，仿佛在教一个个初生的婴儿认识世界。

每一个看似简单的动作，都要重复成百上千次。有趣的是，现场不时能看到浇花的机器人把水洒偏，抓起的物件也偶尔滑落——这正是“学习”的常态：失败本身，也是数据。

据海天瑞声具身智能业务负责人张金介绍说，这些机器人可以在家居、餐饮、工业、办公等多个真实场景中完成复杂操作，从而积累海量真实交互数据。

张金进一步解释说：“具身智能的最终目标是让机器人干各种各样的活，比如进入家居环境，帮人洗衣服、扫地、做饭。我们要做的就是帮助机器人找到最佳实现路径。所以我们觉得，就像汽车行业有供应链一样，未来具身智能企业，都需要一个庞大的数据基地作为支撑。”

路径二：灵巧手采集数据

通过触觉传感器精准记录人手精细动作，为精密装配、柔性物体操控等任务提供关键数据。比如，灵巧智能DexCanvas数据，汇聚了22类人手操作模式、超1000小时真人多模态演示数据，驱动五指灵巧操作模型。

路径三：仿真合成数据

通过生成可交互的三维合成数据，支持机器人进行空间行动、避障、抓取及紧急制动等任务的仿真训练。虽然仿真数据存在域差异（即仿真数据与真实数据在纹理、物理响应上存在差异）的挑战，但速度快、规模大、成本低的优势，是其成为补充具身智能数据缺口不可或缺的一环。

路径四：人类视频数据

过让机器人观看、学习大量的视频，掌握各类技能。这个路线以特斯拉为代表，它的好处是能够跨越机械层面的障碍，大幅降低了数据采集的成本。但在技术实现上尚处于探索阶段——如何从二维视频中还原三维动作、如何将观察到的动作映射到机器人本体，都是待解的难题。

当下，这四条路径正在慢慢走向融合，多源数据互补共用，逐渐构建起更完整、更高效的数据供给生态。

在张金看来，未来理想的方案是“一份数据，所有本体通用”，但短期内现实无法实现。当下的应对之策，只能是“全面布局，跟随发展”——既做真机采集，也做灵巧手采集；既探索VR遥控方案，也尝试动捕和外骨骼方案。每家企业的发展阶段不同，技术路线不同，数据需求也存在差异。作为数据供给商，要用发展的眼光看待趋势的变化，在不确定性中保持覆盖的广度与响应的敏捷。

然而，一个更深层的问题也随之浮出水面：即便数据供给的“量”在快速扩张，我们是否就能自然抵达通用具身智能的彼岸？答案恐怕并不乐观。因为数据采集只是起点，从数据生产到能力泛化的全链路中，还横亘着更棘手的系统性障碍。

更深层的困境：数据只是表象，更大的挑战在于系统性的割裂

先看数据生产环节

数据生产的第一步，就埋下了割裂的种子。

首当其冲的是机器人硬件的异构问题。手部是五指还是三指？关节采用旋转执行器还是线性执行器？传感器是分布式布局还是集成式模组？具身智能在硬件形态上还处于百家争鸣的阶段。当硬件路线没有走向收敛之前，同一个动作采集出来的数据，用在A机器人和B机器人的效果差异极大。而且当前的数据采集方式与硬件方案是强绑定的，不仅不同产品之间无法复用，一旦某款硬件方案被市场淘汰，与之绑定的数据资产也将随之贬值甚至归零。

与此同时，数据采集的各项技术路线也尚未收敛。张金举了一个例子：“就拿触觉传感器来说，电磁方案、柔性电极方案各有优劣，主流技术路线迟迟没有定型，直接导致数据采集的底层标准无法统一，采集出来的数据格式、参数各不相同。”

张金进一步指出，“分体式采集方式”也存在一定问题。受历史技术路径影响，市面上绝大多数机器人研发，都把行走、移动这类运动控制，和抓取、操作这类任务执行，拆分成两个独立模块，用不同的团队，用不同方式采集数据，甚至在完全不同的环境里训练。

我们知道，现实世界中的任务从来不是割裂的。人类可以一边走路一边玩手机，可以在奔跑时接过一瓶水。这种“全身协同”的能力，是通用智能的基石。而当前“分体式”的数据采集与训练模式，会使得机器人无法真正学会全身协同。

他认为：“未来，全身运动与操作任务必然走向统一采集、统一训练。这不仅关乎动作的连贯性，更关乎能力的自然迁移：只有全身协同，才能真正适应动态变化的现实世界。”

再看资产沉淀和流通环节

采集到数据只是第一步，如何把零散的数据，变成可复用、可流通、有价值的核心资产，更是一道难关。

标准的缺失无疑是一个重要因素。从传感器接口、数据格式，到标注规范、安全协议，全行业都没有统一准则，各家企业、各个科研机构都在“闭门造车”，用自己的一套体系采集、存储数据。再加上商业竞争考量，企业都把数据视为核心机密，不愿对外开放共享，进一步加剧了生态封闭。

没有开放共享的数据，模型就难以全面进化；没有持续进化的算法模型，机器人进化迭代的速度和效果就会大打折扣。

最后看能力泛化环节

然而，即便数据被生产出来、沉淀为资产，我们仍然面临最后一公里的难题——能力泛化。

真实世界从来不是实验室里可控、稳定的理想环境，而是光照多变、物体各异、布局灵活的复杂空间。当一个在理想条件下训练出的机器人，闯入到一个陌生的开放场景中，就会手足无措。

究其原因，就是采集的数据、模型、机器本体和单一场景的深度绑定，模型只能在碎片化的任务里反复学习，很难让机器人掌握跨场景的通用能力。在厨房里能流畅完成的抓取动作，换到仓库、办公室，机器人可能就会失灵。

这些问题交织在一起，反映出当前具身智能数据生态面临的深层困境：并非某个单一环节出了毛病，而是本该在数据、模型、硬件和场景之间环环相扣、顺畅流转的价值链，在多个关键节点存在阻碍。

国家级布局

数据标注上升为国家战略

面对这种系统性、全链路的行业难题，单靠企业自发摸索远远不够，国家层面的顶层设计和强力推动，成了破局关键。2024年，国内首个具身智能数据行业标准——《人工智能具身智能数据采集规范》发布。首次为物理交互数据的格式、质量与安全提供了指导性框架。这意味着，“数据标准化”已上升为顶层战略。

同时，国家层面加快布局，正在将数据供给推向规模化、标准化、专业化。从建设主体看，国家级数据训练场、行业级开源社区与企业级数据开发平台协同发力，具身智能数据开发生态向纵深发展。

在国家级层面，“2+N”的数据生产体系正在成型。北京与上海已建成两个国家级具身智能训练场；河南、江苏、深圳等地也在积极推进人形机器人创新中心的分训练场建设。

在国家级层面之外，企业侧的布局也在同步推进。机器人本体企业和技术服务平台也在加速数据研发与服务落地：智元机器人发布了真机数据 AgiBotWorld，宇树科技推出了G1机器人操作数据。而像海天瑞声这样的技术服务平台，正通过数据采集平台、仿真工具和标注服务，为行业提供关键支撑。

“从去年开始，包括今年会更明显，公共数据要素产业化带来的央国企、地方国资的需求开始增多。”海天瑞声张哲表示，“正如国家发展改革委党组成员、国家数据局局长刘烈宏近期表示，今年是‘十五五’开局之年，也是数据要素价值释放年，我觉得这个势头才刚刚启动，未来五年会加强。既有顶层政策驱动，也有全国多地国资主体在AI数据方向变得更积极、投入更多。”

他补充道：“我们与很多地方政府合作，打造数据训练和标注基地。我们能提供的能力有几个点：第一是高质量，数据质量控制很重要；第二是稳定的供给，一旦业务进入稳定期，供给的稳定性至关重要；第三是能够配合客户的变化，客户不可能一成不变，今天重点做家居，明天可能做厨房，后天做工业，这种变化我们要有能力帮他们解决，就像传统生产线要能转产一样。”

这些举措大幅增加了数据的供给规模。数据规模的扩张正在成为衡量行业进度的显性指标。去年，模型训练数据大约在几万小时级别；今年，行业目标已经提升到几十万到百万小时级。在此背景下，数据产能正迅速成为核心竞争指标。客户对数据服务商的考核，已经从“能不能做”转向“一个月能产出多少小时数据”——1万小时还是10万小时，正在成为衡量服务能力的关键标尺。

当下，我们正站在一个关键的临界点上。硬件的进化在加速，资本的涌入在提速，国家战略的布局也已清晰。但真正决定具身智能能否从“表演”走向“通用”的，不光取决于采集数据的“量”有多大，更依赖于我们能否打通从生产、沉淀到泛化的良好数据生态。唯有在这样扎实的数据基础之上，模型、硬件等要素才能齐头并进、互相催化，真正形成良性循环，加速通用具身智能时代的到来。

同顺号-创作平台