本文作者:访客

数据狂魔醒醒!模型才是机器人真瓶颈

访客 2025-08-11 13:00:06 37027
数据狂魔醒醒!模型才是机器人真瓶颈摘要: 2025年世界机器人大会上,宇树科技创始人王兴兴抛出一个反共识观点:限制机器人产业爆发的核心不是数据不足,而是模型架构的...

2025年世界机器人大会上,宇树科技创始人王兴兴抛出一个反共识观点:限制机器人产业爆发的核心不是数据不足,而是模型架构的落后——这犹如一盆冷水,浇在疯狂收集数据的机器人厂商头上。

北京亦庄,2025世界机器人大会主论坛现场,宇树科技CEO王兴兴站在演讲台前,面对全球机器人产业精英,抛出了一个观点:“目前全球范围内,大家对机器人数据这个问题关注度有点太高了。”

在他看来:“现在最大的问题其实是模型问题,而不是数据问题。”

会场内一阵低声议论。在OpenAi成功范式影响下,全球机器人产业正疯狂收集数据,各地机器人数采中心如雨后春笋般涌现。王兴兴的论断犹如一盆冷水,泼在了整个行业的发展思路上。

当硬件够用,Ai掉队

2025年,机器人产业正迎来前所未有的繁荣景象。先是智元机器人以大手笔入主上纬新材,引发“借壳上市”的猜测,股价连续涨停10次,每次涨幅达20%,刷新了A股市场的纪录;随后,宇树科技年内四次传出IPO消息,直至中国证监会公布其上市辅导备案报告,IPO的悬念终于尘埃落定。

在近日开幕的世界机器人大会展厅内,灵活舞动的人形机器人随处可见,展台前观众络绎不绝。超过150款人形机器人同台亮相,创下了国内有史以来最大规模的人形机器人集体展示纪录。

数据狂魔醒醒!模型才是机器人真瓶颈

王兴兴在演讲中透露,今年上半年,机器人行业增速惊人,整机及零部件厂商的平均增长率达到了50%-100%,这一增速在行业历史上极为罕见。

在这场行业狂奔的背后,是资本热潮的涌动。据盖世汽车不完全统计,截至8月7日,今年该领域已发生超过百起融资事件,累计融资金额接近300亿元(未披露的融资额未纳入统计)。相比之下,去年全年共发生72起融资事件,累计融资金额约为130.23亿元。今年以来的投资数量和金额已远超去年全年数据。

然而繁荣背后暗藏隐忧。王兴兴指出一个关键矛盾:“机器人硬件性能虽然还不够好,但目前是够用的。目前最大的挑战还是具身智能的AI完全不够用。这也是限制人形机器人大规模应用的最大点。”

这一判断得到产业数据的佐证。今年以来,从机器人首登央视春晚跳舞,到全球首个机器人半程马拉松“洋相百出”、即将开幕的全球首届人形机器人运动会,再到本届世界机器人大会和全国大学生机器人大赛等密集活动,人形机器人在表演、格斗等娱乐场景大放异彩,但在真正需要“干活”的工业场景,应用深度仍然有限。

数据狂魔醒醒!模型才是机器人真瓶颈

“机器人的应用场景究竟为何?没有找准这一定位,就很难针对性的做技术突破。”在与某位业内技术大拿沟通时,他如是向盖世汽车坦言,是单纯陪伴,还是家务助手,抑或需要更精密操作,这些都需要不同的技术实现。

而在王兴兴看来,很多技术的进步是需要时间的,当下马上让一个机器人去家里干点有实际价值的活还不太现实,如果只是做个Demo(演示)或者示例是没问题的。“我们去年就跟汽车工厂合作,在工厂落地部署机器人,但是真正让机器人产生比较大的价值,当下是不太现实的。”正如早期电脑诞生时,也同样不具备普适性、实用性。

“当前这个时点有点像ChatGPT出来之前的1到3年,”王兴兴如此比喻机器人大模型的发展阶段,“整个业界已经发现了类似的方向以及技术路线,但是没人把它做出来。”

具身智能大模型的滞后已成为制约机器人真正“干活”的核心挑战。当硬件准备就绪,AI大脑却跟不上,这场产业革命的步伐因此被拖慢。

VLA遇冷,世界模型崛起

面对具身智能的模型瓶颈,全球科研团队正探索不同技术路径。其中VLA+RL(视觉-语言-动作模型+强化学习)路线获得了众多顶尖机构的青睐,被视为通向通用机器人智能的可行之路。

那么什么是VLA呢?简单来说,这类模型旨在将视觉感知、语言理解和物理动作融为一体,让机器人能够听懂人的指令(“把桌子上的苹果拿给我”),看懂当前的环境(识别出哪个是苹果、哪个是桌子),并自主生成一系列动作来完成任务。可以说,VLA正是未来通用机器人的“大脑”。

2023年7月,谷歌DeepMind就曾基于VLA架构推出RT-2模型,通过整合大语言模型与多模态数据训练,赋予机器人执行复杂任务的能力。其任务准确率较初代模型提升近一倍(从32%至62%),突破性地实现了垃圾分类等场景的零样本学习。

随后,VLA的理念很快被汽车公司关注,快速应用于汽车智能驾驶领域,如果说2024年“端到端”是智能驾驶领域最火的词汇,那么2025年非“VLA“莫属。小鹏汽车、理想汽车等公司都发布了各自的VLA方案。

但相较于智能驾驶汽车动辄百亿参数、近千TOPS算力的海量数据,仍处于量产初期的机器人训练数据集的参数量也大多只有100万至300万之间。更遑论机器人应用场景的多模态感知更丰富、执行动作更复杂、传感器数据更微观。

数据狂魔醒醒!模型才是机器人真瓶颈

“我个人感觉,包括我们公司目前尝试下来,VLA+RL还是不够的。”王兴兴在大会上直言:

他点出关键问题:VLA模型在对真实世界交互时数据质量不足,即使在强化学习的加持下,该模型架构仍需继续升级优化。这一判断揭示了当前机器人学习效率低下的核心原因——用错误的方法处理再多数据也难有突破。

在VLA路线遭遇挑战的同时,另一种技术路径正在崭露头角:“世界模型”作为通向通用人工智能(AGI)的重要阶梯,正吸引越来越多研究者的目光。

这种模型通过学习环境的时空动态,不仅能预测未来状态,还能评估自身行动的后果。

谷歌DeepMind于8月6日发布的第三代通用世界模型Genie 3成为大会热议话题。该系统能为机器人提供低成本虚拟训练环境,支持复杂任务的长时程模拟。王兴兴特别指出:“世界模型可能会比VLA模型更快落地,这一路线值得关注。”

世界模型的优势在于大幅降低训练成本。传统机器人训练需要大量物理试错,既耗时又耗资源;而高质量的世界模型能构建逼真的虚拟环境,使机器人在进入真实场景前已积累丰富“经验”。

另一个关键挑战是知识复用问题。王兴兴指出:“机器人学习新技能需从头训练,无法复用旧知识,亟需实现类似大模型的持续学习能力。” 这导致当前机器人技能学习效率低下,与人类举一反三的学习能力形成鲜明对比。

具身智能领域的“小样本高泛化”新范式成为突破方向。业内专家正研发通过少量数据训练出高算法能力的模型,而非依赖纯数据驱动,这将大幅提升机器人的适应能力和学习效率。

何时跨越“可用”到“好用”

面对未来2-5年的关键发展期,王兴兴清晰勾勒出智能机器人技术的三大重心:统一端到端智能机器人大模型、低成本高寿命硬件及超大批量制造、低成本大规模算力。这三大支柱将共同支撑机器人产业实现从“可用”到“好用”的关键跨越。

在硬件领域,降本增效已取得显著进展。宇树科技通过材料创新与模块化设计,已将人形机器人核心部件成本降低40%;同时,通过仿生关节设计,将关键部件寿命提升至3万小时以上。这些突破为人形机器人规模化商用奠定基础。

分布式算力网络将成为破解机器人算力瓶颈的关键。王兴兴指出,人形机器人本体算力有限,峰值功耗约100瓦,仅相当于几部手机的算力。“通过联邦学习实现多机器人数据共享,我们预计2027年将单台机器人训练成本降低至万元级。” 这一预测意味着机器人训练成本将迎来断崖式下降,为大规模部署扫清障碍。

数据狂魔醒醒!模型才是机器人真瓶颈

王兴兴预测:“未来几年,全行业人形机器人出货量每年翻番都是有保证的。如果有更大的技术突破,甚至可能未来2-3年突然一年出货几十万台,甚至上百万台也有可能。” 这一爆发式增长将首先在工业场景显现,而汽车制造业有望成为最大受益者。

行业生态建设也在加速。杭州具身智能应用中试基地近期启动,整合宇树科技“最优本体”与华为、阿里云等“最强大脑”,打造 “算力+数据+模型+场景应用”生态,加速具身智能在工业领域的规模化落地。

机器人产业的“ChatGPT时刻”何时到来?王兴兴给出的预测是:最快未来1-2年,最慢3-5年。那个临界点的标志简单而直观——当一个人形机器人被带到陌生会场,能听懂“把这瓶水带给某位观众”的随机指令,并流畅完成任务,便宣告了机器人智能时代的真正开启。

阅读
分享