| 0人浏览 | 2026-03-26 18:42 |
“困在数据里的具身智能。
今年春晚,一群机器人在台上整齐划一地翻跟头、打功夫,动作行云流水。这震撼的表演看得人热血沸腾。
但聚光灯之外,一个本质问题始终没有解决:这更像是一场精心排练的“机械舞”,而不是我们真正期待的“智能”。
换个环境,让这些机器人去拧个瓶盖、拿个杯子、叠件衣服——大概率会当场翻车。
问题出在哪?
没有真实世界的数据
具身智能只能是幻觉
过去几年具身智能硬件的进步堪称惊人。双足行走、关节扭矩控制、电机响应速度、传感器精度……宇树、智元、特斯拉等玩家已经将工程能力推到了一个新高度。
硬件的快速进步正在扫清过去的障碍,但一个新的、更深层的制约因素正在浮出水面——数据。
当人们谈到具身智能的时候,往往只把焦点放在那个漂亮的外形上。事实上,除了本体,具身智能还需要三大核心要素:数据、模型与场景。
其中,数据尤为关键。它直接决定了智能能不能“涌现”,能力能不能“泛化”。
正如黄仁勋在CES上那句一针见血的话:“没有真实世界的数据,具身智能只能是幻觉。”
这句话点出了一个残酷的现实:眼下真正卡住脖子的,是那些来自物理世界、承载着真实交互经验的珍贵数据——而这类数据,恰恰是最稀缺的。
为什么具身智能会缺数据?
海天瑞声董事会秘书张哲一语道破:“大模型时代,相当一大部分数据来自互联网。文字、图片、视频,都是人类智慧的数字化沉淀,已经在网上堆积了几十年。GPT-4训练用的数据量级是万亿词元,这些数据俯拾皆是。它需要的是与物理世界交互的数据……这些数据,互联网上没有现成的,需要依赖大规模的采集和标注。”
但这些数据的采集和标注又极为困难。
张哲举了一个拧瓶盖的例子。对人类来说,这是近乎本能的操作。但对机器人而言,这是一个涉及感知、决策、执行、验证的完整闭环,每一个环节都涉及数据的采集和标注工作:
“感知”:机器人“眼”里只有像素点。它需要海量图像数据才能将这一堆像素与“瓶子”的概念关联起来,判断其材质是玻璃还是塑料,则更需要触觉传感器的反馈。
“决策”:该往左拧还是往右拧、用多大的力度抓取、发力点选在哪个位置,机器人没有天生的直觉,只能从海量数据中学习最优路径,精准把控力度和角度,稍有偏差就会失败。
“执行”:执行过程中,触觉需实时反馈,算法需实时处理,电机需实时响应。任何一个环节的微小延迟,都可能导致瓶子滑落。
“验证”:对机器人而言,成功需要一个明确、可量化的信号:是听到“咔”的一声,还是看到瓶盖离开瓶身?不同的定义,将导向完全不同的训练结果。
可以看到,一个小小的拧瓶盖动作,就对数据的量级、精度、全面性提出了极高要求。
这背后反映出具身智能底层技术逻辑导致的数据困境。
对人类来说,我们是真正理解了“拧”这个动作的本质,机器人则是背下了“拧矿泉水瓶”这道题。对AI而言,无论参数规模多大,本质上仍是对数据模型的高度拟合,其行为模式只是在计算“下一个词元”或“下一个动作”的概率分布。
这种根本上的不同,注定了具身智能的数据采集,注定复杂、繁琐、成本高昂。
产业界的突围:
四大数据供给路径
面对数据短缺的燃眉之急,产业界没有停滞不前,正探索多条数据供给路径,各路径各有侧重、互为补充。
路径一:真机遥采
这是目前公认质量最高的数据来源。由人类穿戴遥操设备或使用VR设备,远程操控机器人执行任务,记录下视觉、关节角度和力矩数据。这种“手把手”的教学,能够保留人类在复杂环境中的决策过程,精度极高。
近日,记者参访了海天瑞声位于北京的一处具身智能数据训练中心,这里地处繁华地段,整栋写字楼里,有好几层都专门用于具身智能数据采集。
现场颇为壮观——单臂、多臂、人形、四足……几十台形态各异的机器人,配备头环式、夹爪式采集设备,动捕服、动捕手套及遥操驾舱等专业装备,在数采师的操作下,一遍遍抓取桌上的各类物品,浇花、拧瓶盖、开门、拿杯子,仿佛在教一个个初生的婴儿认识世界。
每一个看似简单的动作,都要重复成百上千次。有趣的是,现场不时能看到浇花的机器人把水洒偏,抓起的物件也偶尔滑落——这正是“学习”的常态:失败本身,也是数据。
据海天瑞声具身智能业务负责人张金介绍说,这些机器人可以在家居、餐饮、工业、办公等多个真实场景中完成复杂操作,从而积累海量真实交互数据。
张金进一步解释说:“具身智能的最终目标是让机器人干各种各样的活,比如进入家居环境,帮人洗衣服、扫地、做饭。我们要做的就是帮助机器人找到最佳实现路径。所以我们觉得,就像汽车行业有供应链一样,未来具身智能企业,都需要一个庞大的数据基地作为支撑。”
路径二:灵巧手采集数据
通过触觉传感器精准记录人手精细动作,为精密装配、柔性物体操控等任务提供关键数据。比如,灵巧智能DexCanvas数据,汇聚了22类人手操作模式、超1000小时真人多模态演示数据,驱动五指灵巧操作模型。
路径三:仿真合成数据
通过生成可交互的三维合成数据,支持机器人进行空间行动、避障、抓取及紧急制动等任务的仿真训练。虽然仿真数据存在域差异(即仿真数据与真实数据在纹理、物理响应上存在差异)的挑战,但速度快、规模大、成本低的优势,是其成为补充具身智能数据缺口不可或缺的一环。
路径四:人类视频数据
过让机器人观看、学习大量的视频,掌握各类技能。这个路线以特斯拉为代表,它的好处是能够跨越机械层面的障碍,大幅降低了数据采集的成本。但在技术实现上尚处于探索阶段——如何从二维视频中还原三维动作、如何将观察到的动作映射到机器人本体,都是待解的难题。
当下,这四条路径正在慢慢走向融合,多源数据互补共用,逐渐构建起更完整、更高效的数据供给生态。
在张金看来,未来理想的方案是“一份数据,所有本体通用”,但短期内现实无法实现。当下的应对之策,只能是“全面布局,跟随发展”——既做真机采集,也做灵巧手采集;既探索VR遥控方案,也尝试动捕和外骨骼方案。每家企业的发展阶段不同,技术路线不同,数据需求也存在差异。作为数据供给商,要用发展的眼光看待趋势的变化,在不确定性中保持覆盖的广度与响应的敏捷。
然而,一个更深层的问题也随之浮出水面:即便数据供给的“量”在快速扩张,我们是否就能自然抵达通用具身智能的彼岸?答案恐怕并不乐观。因为数据采集只是起点,从数据生产到能力泛化的全链路中,还横亘着更棘手的系统性障碍。
更深层的困境:数据只是表象,更大的挑战在于系统性的割裂
先看数据生产环节
数据生产的第一步,就埋下了割裂的种子。
首当其冲的是机器人硬件的异构问题。手部是五指还是三指?关节采用旋转执行器还是线性执行器?传感器是分布式布局还是集成式模组?具身智能在硬件形态上还处于百家争鸣的阶段。当硬件路线没有走向收敛之前,同一个动作采集出来的数据,用在A机器人和B机器人的效果差异极大。而且当前的数据采集方式与硬件方案是强绑定的,不仅不同产品之间无法复用,一旦某款硬件方案被市场淘汰,与之绑定的数据资产也将随之贬值甚至归零。
与此同时,数据采集的各项技术路线也尚未收敛。张金举了一个例子:“就拿触觉传感器来说,电磁方案、柔性电极方案各有优劣,主流技术路线迟迟没有定型,直接导致数据采集的底层标准无法统一,采集出来的数据格式、参数各不相同。”
张金进一步指出,“分体式采集方式”也存在一定问题。受历史技术路径影响,市面上绝大多数机器人研发,都把行走、移动这类运动控制,和抓取、操作这类任务执行,拆分成两个独立模块,用不同的团队,用不同方式采集数据,甚至在完全不同的环境里训练。
我们知道,现实世界中的任务从来不是割裂的。人类可以一边走路一边玩手机,可以在奔跑时接过一瓶水。这种“全身协同”的能力,是通用智能的基石。而当前“分体式”的数据采集与训练模式,会使得机器人无法真正学会全身协同。
他认为:“未来,全身运动与操作任务必然走向统一采集、统一训练。这不仅关乎动作的连贯性,更关乎能力的自然迁移:只有全身协同,才能真正适应动态变化的现实世界。”
再看资产沉淀和流通环节
采集到数据只是第一步,如何把零散的数据,变成可复用、可流通、有价值的核心资产,更是一道难关。
标准的缺失无疑是一个重要因素。从传感器接口、数据格式,到标注规范、安全协议,全行业都没有统一准则,各家企业、各个科研机构都在“闭门造车”,用自己的一套体系采集、存储数据。再加上商业竞争考量,企业都把数据视为核心机密,不愿对外开放共享,进一步加剧了生态封闭。
没有开放共享的数据,模型就难以全面进化;没有持续进化的算法模型,机器人进化迭代的速度和效果就会大打折扣。
最后看能力泛化环节
然而,即便数据被生产出来、沉淀为资产,我们仍然面临最后一公里的难题——能力泛化。
真实世界从来不是实验室里可控、稳定的理想环境,而是光照多变、物体各异、布局灵活的复杂空间。当一个在理想条件下训练出的机器人,闯入到一个陌生的开放场景中,就会手足无措。
究其原因,就是采集的数据、模型、机器本体和单一场景的深度绑定,模型只能在碎片化的任务里反复学习,很难让机器人掌握跨场景的通用能力。在厨房里能流畅完成的抓取动作,换到仓库、办公室,机器人可能就会失灵。
这些问题交织在一起,反映出当前具身智能数据生态面临的深层困境:并非某个单一环节出了毛病,而是本该在数据、模型、硬件和场景之间环环相扣、顺畅流转的价值链,在多个关键节点存在阻碍。
国家级布局
数据标注上升为国家战略
面对这种系统性、全链路的行业难题,单靠企业自发摸索远远不够,国家层面的顶层设计和强力推动,成了破局关键。2024年,国内首个具身智能数据行业标准——《人工智能 具身智能数据采集规范》发布。首次为物理交互数据的格式、质量与安全提供了指导性框架。这意味着,“数据标准化”已上升为顶层战略。
同时,国家层面加快布局,正在将数据供给推向规模化、标准化、专业化。从建设主体看,国家级数据训练场、行业级开源社区与企业级数据开发平台协同发力,具身智能数据开发生态向纵深发展。
在国家级层面,“2+N”的数据生产体系正在成型。北京与上海已建成两个国家级具身智能训练场;河南、江苏、深圳等地也在积极推进人形机器人创新中心的分训练场建设。
在国家级层面之外,企业侧的布局也在同步推进。机器人本体企业和技术服务平台也在加速数据研发与服务落地:智元机器人发布了真机数据 AgiBotWorld,宇树科技推出了G1机器人操作数据。而像海天瑞声这样的技术服务平台,正通过数据采集平台、仿真工具和标注服务,为行业提供关键支撑。
“从去年开始,包括今年会更明显,公共数据要素产业化带来的央国企、地方国资的需求开始增多。”海天瑞声张哲表示,“正如国家发展改革委党组成员、国家数据局局长刘烈宏近期表示,今年是‘十五五’开局之年,也是数据要素价值释放年,我觉得这个势头才刚刚启动,未来五年会加强。既有顶层政策驱动,也有全国多地国资主体在AI数据方向变得更积极、投入更多。”
他补充道:“我们与很多地方政府合作,打造数据训练和标注基地。我们能提供的能力有几个点:第一是高质量,数据质量控制很重要;第二是稳定的供给,一旦业务进入稳定期,供给的稳定性至关重要;第三是能够配合客户的变化,客户不可能一成不变,今天重点做家居,明天可能做厨房,后天做工业,这种变化我们要有能力帮他们解决,就像传统生产线要能转产一样。”
这些举措大幅增加了数据的供给规模。数据规模的扩张正在成为衡量行业进度的显性指标。去年,模型训练数据大约在几万小时级别;今年,行业目标已经提升到几十万到百万小时级。在此背景下,数据产能正迅速成为核心竞争指标。客户对数据服务商的考核,已经从“能不能做”转向“一个月能产出多少小时数据”——1万小时还是10万小时,正在成为衡量服务能力的关键标尺。
当下,我们正站在一个关键的临界点上。硬件的进化在加速,资本的涌入在提速,国家战略的布局也已清晰。但真正决定具身智能能否从“表演”走向“通用”的,不光取决于采集数据的“量”有多大,更依赖于我们能否打通从生产、沉淀到泛化的良好数据生态。唯有在这样扎实的数据基础之上,模型、硬件等要素才能齐头并进、互相催化,真正形成良性循环,加速通用具身智能时代的到来。
-
me_****70395897感谢科普,原来具身智能的数据采集这么复杂今天19:43 2楼
-
0
-
1
-
TOP
