数据狂魔醒醒！模型才是机器人真瓶颈

访客 2025-08-11 13:00:06 37027

默认

摘要： 2025年世界机器人大会上，宇树科技创始人王兴兴抛出一个反共识观点：限制机器人产业爆发的核心不是数据不足，而是模型架构的...

2025年世界机器人大会上，宇树科技创始人王兴兴抛出一个反共识观点：限制机器人产业爆发的核心不是数据不足，而是模型架构的落后——这犹如一盆冷水，浇在疯狂收集数据的机器人厂商头上。

北京亦庄，2025世界机器人大会主论坛现场，宇树科技CEO王兴兴站在演讲台前，面对全球机器人产业精英，抛出了一个观点：“目前全球范围内，大家对机器人数据这个问题关注度有点太高了。”

在他看来：“现在最大的问题其实是模型问题，而不是数据问题。”

会场内一阵低声议论。在OpenAi成功范式影响下，全球机器人产业正疯狂收集数据，各地机器人数采中心如雨后春笋般涌现。王兴兴的论断犹如一盆冷水，泼在了整个行业的发展思路上。

当硬件够用，Ai掉队

2025年，机器人产业正迎来前所未有的繁荣景象。先是智元机器人以大手笔入主上纬新材，引发“借壳上市”的猜测，股价连续涨停10次，每次涨幅达20%，刷新了A股市场的纪录；随后，宇树科技年内四次传出IPO消息，直至中国证监会公布其上市辅导备案报告，IPO的悬念终于尘埃落定。

在近日开幕的世界机器人大会展厅内，灵活舞动的人形机器人随处可见，展台前观众络绎不绝。超过150款人形机器人同台亮相，创下了国内有史以来最大规模的人形机器人集体展示纪录。

王兴兴在演讲中透露，今年上半年，机器人行业增速惊人，整机及零部件厂商的平均增长率达到了50%-100%，这一增速在行业历史上极为罕见。

在这场行业狂奔的背后，是资本热潮的涌动。据盖世汽车不完全统计，截至8月7日，今年该领域已发生超过百起融资事件，累计融资金额接近300亿元（未披露的融资额未纳入统计）。相比之下，去年全年共发生72起融资事件，累计融资金额约为130.23亿元。今年以来的投资数量和金额已远超去年全年数据。

然而繁荣背后暗藏隐忧。王兴兴指出一个关键矛盾：“机器人硬件性能虽然还不够好，但目前是够用的。目前最大的挑战还是具身智能的AI完全不够用。这也是限制人形机器人大规模应用的最大点。”

这一判断得到产业数据的佐证。今年以来，从机器人首登央视春晚跳舞，到全球首个机器人半程马拉松“洋相百出”、即将开幕的全球首届人形机器人运动会，再到本届世界机器人大会和全国大学生机器人大赛等密集活动，人形机器人在表演、格斗等娱乐场景大放异彩，但在真正需要“干活”的工业场景，应用深度仍然有限。

“机器人的应用场景究竟为何？没有找准这一定位，就很难针对性的做技术突破。”在与某位业内技术大拿沟通时，他如是向盖世汽车坦言，是单纯陪伴，还是家务助手，抑或需要更精密操作，这些都需要不同的技术实现。

而在王兴兴看来，很多技术的进步是需要时间的，当下马上让一个机器人去家里干点有实际价值的活还不太现实，如果只是做个Demo（演示）或者示例是没问题的。“我们去年就跟汽车工厂合作，在工厂落地部署机器人，但是真正让机器人产生比较大的价值，当下是不太现实的。”正如早期电脑诞生时，也同样不具备普适性、实用性。

“当前这个时点有点像ChatGPT出来之前的1到3年，”王兴兴如此比喻机器人大模型的发展阶段，“整个业界已经发现了类似的方向以及技术路线，但是没人把它做出来。”

具身智能大模型的滞后已成为制约机器人真正“干活”的核心挑战。当硬件准备就绪，AI大脑却跟不上，这场产业革命的步伐因此被拖慢。

VLA遇冷，世界模型崛起

面对具身智能的模型瓶颈，全球科研团队正探索不同技术路径。其中VLA+RL（视觉-语言-动作模型+强化学习）路线获得了众多顶尖机构的青睐，被视为通向通用机器人智能的可行之路。

那么什么是VLA呢？简单来说，这类模型旨在将视觉感知、语言理解和物理动作融为一体，让机器人能够听懂人的指令（“把桌子上的苹果拿给我”），看懂当前的环境（识别出哪个是苹果、哪个是桌子），并自主生成一系列动作来完成任务。可以说，VLA正是未来通用机器人的“大脑”。

2023年7月，谷歌DeepMind就曾基于VLA架构推出RT-2模型，通过整合大语言模型与多模态数据训练，赋予机器人执行复杂任务的能力。其任务准确率较初代模型提升近一倍（从32%至62%），突破性地实现了垃圾分类等场景的零样本学习。

随后，VLA的理念很快被汽车公司关注，快速应用于汽车智能驾驶领域，如果说2024年“端到端”是智能驾驶领域最火的词汇，那么2025年非“VLA“莫属。小鹏汽车、理想汽车等公司都发布了各自的VLA方案。

但相较于智能驾驶汽车动辄百亿参数、近千TOPS算力的海量数据，仍处于量产初期的机器人训练数据集的参数量也大多只有100万至300万之间。更遑论机器人应用场景的多模态感知更丰富、执行动作更复杂、传感器数据更微观。

“我个人感觉，包括我们公司目前尝试下来，VLA+RL还是不够的。”王兴兴在大会上直言：

他点出关键问题：VLA模型在对真实世界交互时数据质量不足，即使在强化学习的加持下，该模型架构仍需继续升级优化。这一判断揭示了当前机器人学习效率低下的核心原因——用错误的方法处理再多数据也难有突破。

在VLA路线遭遇挑战的同时，另一种技术路径正在崭露头角：“世界模型”作为通向通用人工智能（AGI）的重要阶梯，正吸引越来越多研究者的目光。

这种模型通过学习环境的时空动态，不仅能预测未来状态，还能评估自身行动的后果。

谷歌DeepMind于8月6日发布的第三代通用世界模型Genie 3成为大会热议话题。该系统能为机器人提供低成本虚拟训练环境，支持复杂任务的长时程模拟。王兴兴特别指出：“世界模型可能会比VLA模型更快落地，这一路线值得关注。”

世界模型的优势在于大幅降低训练成本。传统机器人训练需要大量物理试错，既耗时又耗资源；而高质量的世界模型能构建逼真的虚拟环境，使机器人在进入真实场景前已积累丰富“经验”。

另一个关键挑战是知识复用问题。王兴兴指出：“机器人学习新技能需从头训练，无法复用旧知识，亟需实现类似大模型的持续学习能力。” 这导致当前机器人技能学习效率低下，与人类举一反三的学习能力形成鲜明对比。

具身智能领域的“小样本高泛化”新范式成为突破方向。业内专家正研发通过少量数据训练出高算法能力的模型，而非依赖纯数据驱动，这将大幅提升机器人的适应能力和学习效率。

何时跨越“可用”到“好用”

面对未来2-5年的关键发展期，王兴兴清晰勾勒出智能机器人技术的三大重心：统一端到端智能机器人大模型、低成本高寿命硬件及超大批量制造、低成本大规模算力。这三大支柱将共同支撑机器人产业实现从“可用”到“好用”的关键跨越。

在硬件领域，降本增效已取得显著进展。宇树科技通过材料创新与模块化设计，已将人形机器人核心部件成本降低40%；同时，通过仿生关节设计，将关键部件寿命提升至3万小时以上。这些突破为人形机器人规模化商用奠定基础。

分布式算力网络将成为破解机器人算力瓶颈的关键。王兴兴指出，人形机器人本体算力有限，峰值功耗约100瓦，仅相当于几部手机的算力。“通过联邦学习实现多机器人数据共享，我们预计2027年将单台机器人训练成本降低至万元级。” 这一预测意味着机器人训练成本将迎来断崖式下降，为大规模部署扫清障碍。

王兴兴预测：“未来几年，全行业人形机器人出货量每年翻番都是有保证的。如果有更大的技术突破，甚至可能未来2-3年突然一年出货几十万台，甚至上百万台也有可能。” 这一爆发式增长将首先在工业场景显现，而汽车制造业有望成为最大受益者。

行业生态建设也在加速。杭州具身智能应用中试基地近期启动，整合宇树科技“最优本体”与华为、阿里云等“最强大脑”，打造 “算力+数据+模型+场景应用”生态，加速具身智能在工业领域的规模化落地。

机器人产业的“ChatGPT时刻”何时到来？王兴兴给出的预测是：最快未来1-2年，最慢3-5年。那个临界点的标志简单而直观——当一个人形机器人被带到陌生会场，能听懂“把这瓶水带给某位观众”的随机指令，并流畅完成任务，便宣告了机器人智能时代的真正开启。

标签：机器人模型

海报

阅读

相关推荐

宇树王兴兴：机器人为什么没大规模应用

小鹏汽车7月新增86座自营充电站

数据狂魔醒醒！模型才是机器人真瓶颈

丰田第一财季净利润下降37%

李想回应理想汽车被黑

特斯拉也不“体面”了？

60天账期承诺，打破传统or埋下新隐患？

吉利汽车研究院与TE联合实验室挂牌