逐际张巍:人形机器人不进工厂,具身不堆真机数据丨具身系列

本文主要描述了逐际公司的创始人张巍对于人形机器人和具身智能的看法以及公司的相关计划。张巍强调了人形机器人和具身智能的重要性,并指出这是一个充满未知和需要快速迭代的新兴市场。他提到了公司的主要目标是服务创新者,提供机器人本体和AI软件工具,帮助他们实现机器人的落地应用。同时,他也谈到了公司在寻找具身模型工业母机的解决方案,以提高模型的生产效率。他认为现阶段最重要的是让具身模型泛化,而不是针对具体场景去提升效率和稳定性。此外,他还谈到了行业的变化和公司未来的计划,包括初步跑通服务创新者的商业闭环,构建符合新AI时代的新型组织等。

晚点LatePost,2025-02-17 13:53:04



“如果堆数据、堆算力就能领先,这里没有创业公司什么事了。”

文丨李梓楠

编辑丨程曼祺

2022 年 10 月的 AI Day ,马斯克站在浑身裸露着线束的 Optimus 原型机边上说,人形机器人产业会是人类历史上规模最大的制造业。

在 Optimus 亮相前的 5 个月,逐际动力成立于中国深圳。这之前,逐际创始人张巍在美国待了 16 年,他在普渡大学电气与计算机工程系获得博士学位,后在加州伯克利担任博士后研究员,于 2017 年成为美国俄亥俄州立大学终身教授。

一般在美国拿到终身教职的人,不会轻易离开,而张巍则在不久后回国,他说原因很简单,“不想在国外待一辈子”。

从教授到创业者的转型,在张巍眼中也自然而简单:那时他意识到,机器人未来可能只有 10% 的进步会来源于原始学术创新,剩下的 90% 都要靠工程实现,在工业界能做的事比在学界更多。

大部分人形机器人和具身智能公司致力于提供软硬一体的机器人产品,而在创立逐际前,尝试过 “进工厂” 落地的张巍现在选择了一个独特的定位:做具身智能工具公司——把机器人本体和 AI 软件工具提供给想在具体行业和场景落地的具身应用创新者,他们可能是深耕行业已久的集成商,可能是有智能机器人需求的客户本身,也可能是爱折腾的个人开发者。

当用具身基础工具提供商的视角来检视行业,张巍认为,行业现在最缺,且价值最大的是人形机器人小脑和具身大脑——小脑和本体配合,解决机器人全身控制和全地形移动问题;大脑则解决机器人泛化问题,让机器人学会做更多事。

其中,大脑不好是当前人形机器人没法应用的核心;做出大脑的关键是找到高效生产具身智能模型的方式,他称之为寻找具身智能领域的 “工业母机”。机器人公司的竞争,本质就是生产具身智能模型的方法和效率的竞争。

逐际刚在上周五(2 月 14 日)发布了基于视频生成大模型的具身操作算法(LimX VGM)。用人类操作的视频数据,而非依赖机器人真机数据,正是逐际找到的提高模型生产效率的重要方式。

为解决小脑和全地形移动瓶颈,逐际则陆续推出了双足机器人、全尺寸人形机器人等研发成果。

具身大脑的研发是一场现在还看不到清晰跑道的比赛:技术方法尚未收敛,一批具身智能公司正践行他们相信的攀爬路线。有公司用更聪明的遥操方式采集真机数据;有公司 all in 仿真;也有特斯拉等大公司计划直接生产数千台机器人丢到工厂里干活。

有分歧与不确定性的地方,往往风险与机会并存,人形机器人尚不是大公司能充分发挥资源优势的领域: “如果堆数据、堆算力就能领先,这里没有创业公司什么事了。” 张巍说,这是逐际的机会所在。

逐际不是做 “腿” 的公司

晚点:2024 年的云栖大会上,你和宇树科技王兴兴、银河通用王鹤、星动纪元陈建宇等具身智能从业者聊 “人形机器人” 应该看什么门道,王鹤说机器手和操作能力重要,你说 “好不好先看腿”,不少人认为逐际是一家想从移动能力切入通用机器人的公司,为什么这么选择?

张巍:这是个误解。我们不局限于移动能力,我们是哪个部分做出来价值最大,做哪个。

任何形态机器人的主要价值有三个部分:本体、小脑、大脑。小脑往往和本体形态紧密耦合,做运动控制;而大脑则需要更多智能,能感知环境、理解任务和完成复杂任务。

带 “双腿” 的人形机器人和它的运控 “小脑” 是当前最值得投入研发的硬件形态,人形机器人的全地形移动和全身控制能力是最近 AI 技术变革后,技术路线才开始收敛的方向,还没有很好用的产品(不是 demo)。就是马斯克说的,物理上可以实现,现实中还没有,又是未来必要的。

而价值更大的 “机器人大脑” 则还没有收敛。我认为,机器人大脑由要完成的任务决定,所以是多种多样的,并不是一个大而全的模型,而是由很多不同的具身模型连接而成,和任务高度耦合。

晚点:这个观点是主流还是非主流?比如李想认为,机器人上的模型未来会统一为一个 VLA 模型(Vision-Language-Action Model,视觉语言动作模型) 。

张巍:并不矛盾,只是定义的区别。“端到端” 是一个特别容易让人产生幻觉的词。

其实,任何一个功能模块,只要输入输出数据足够多,都能训练出一个端到端的模型来完成。端到端模型依靠的是端到端数据,而数据又取决于模块的任务场景与目标,单一任务容易做到端到端,多任务更适合能力组合。比如机器人行走和手里玩魔方应该是不同的技能模型,当然也可以囊括在一个所谓的端到端大模型中被任务分别激活。大模型落地中用到的 MoE(混合专家模型)技术和 AI Agent(智能体)技术,都是小模型组合的例子。

晚点:要同时做多个具身模型,逐际作为创业公司能搞定吗?

张巍:关键是找到正确的生产模型的方式,我们称为具身模型的 “工业母机”,也就是生产模型的一套方法和工具链。我认为这才是现在通用机器人最缺的东西。

我强调模型母机的重要性,是因为目前行业还主要关注具身模型的性能指标,而我认为更重要的其实是生产模型的 “工业母机” 的评价指标,也就是模型生产效率,而不是具体的具身模型本身。

晚点:具身模型的 “工业母机” 要怎么做?

张巍:我们和主流做法不一样,我们不追求堆数据来提升性能

原则上讲,任何能 “生产” 具身模型的流程方法都算是模型的 “工业母机”。目前比较流行的端到端真机数据方案也是一类模型母机:只要真机数据足够多,就可以完成具身任务,而且数据越多、泛化性能越好。但这种方法效率太低,训练成本太高——现在没有谁能以商业上可接受的成本获得机器人所需的足够数据,大公司都承担不起。

所以我们追求 “数据-性能” 转化率——以更低的数据成本训练出性能更好的具身模型。这个方法业内还没有收敛,如果已经收敛,其实就没有创业公司的机会了,就 game over 了,因为那会变成拼资源的游戏。

晚点:各公司都在努力提升 “数据-性能” 转化率,比如有公司 all in 仿真和合成数据,也有公司在努力提升遥操获得真机数据的效率。逐际的特点是什么?

张巍:现在机器人有三类主要数据:

一是大家最着迷的真机数据,就是让机器人自己去运动然后收集数据。这类数据少、贵,而且机器人换个硬件形态,数据可用性就会降低,比如摄像头角度一变,数据就没法直接用了。

二是仿真数据,本质是靠建模。

三是互联网上的文字、图像和视频数据。

这三个我认为缺一不可,都得用。其中,用好互联网图片和视频数据,对提升数据性能转化率有很大潜力。

晚点:但视频数据的一个问题是精度不够,而且视频里缺一些真实物理世界的数据维度,比如物体的重量,拿住时的摩擦力,不同材质的触感等。

张巍:现在还不需要考虑这个问题,因为机器人触觉传感器还不成熟,有效触觉数据太少。

我们反而认为互联网数据是个机会,利用现在越来越好的视频生成和理解技术,我们现在能以更低成本获得更多操作数据和一流的操作决策能力;光生成 2D 视频不够,我们还生成带深度信息的视频,这样才能让机器人形成空间智能;我们还把算法和本体形态解耦,只用人类操作的视频数据就可以训练具身模型——比如拿杯子这个动作,这个动作在互联网视频里有很多,哪需要去真机采集?虽然很多人觉得这些视频质量不行,没法用,但我们认为这反而是个机会,我们已初步试过了,觉得挺有希望。

晚点:仿真也是真机数据之外的提效方式,你怎么看仿真的重要性,逐际有什么实践?

张巍:你可以把仿真数据叫 “模型数据”。模型本质上是对已有人类知识和数据的压缩。无论牛顿定律还是大语言模型,都是一种模型。只是牛顿把运动这些数据压缩得比较极致,微分方程,几个符号就够了;而现在找到了语言这类离散数据的压缩方式,把模型存在了一个 neural network(神经网络)里。所以仿真的本质就是对物理世界建模。

我们也很重视仿真,我们不研发仿真器本身,更多关注 Real2Sim2Real (现实到模拟到现实)的能力。这能帮助我们构建真实场景和环境感知信息,然后通过强化学习来训练机器人完成操作任务。我们认为,仿真 +RL(强化学习)的方案生产模型的效率潜在会远远高于端到端方案。

服务机器人行业创新者,不进工厂

晚点:你之前说,现阶段最重要的是让具身模型 “泛化”,而不是针对具体场景去提升效率、稳定性,但你们最开始做过四足机器狗进工厂的巡检场景,为什么有从服务具体场景到追求泛化的变化?

张巍:最早是通过场景来迭代技术。后来我们对场景与具身技术的关系有了更深的理解,对我们的定位也更清楚了,我们不直接做解决方案,而是做标准化机器人产品和所需要的 AI 工具链,来帮助集成商在各个场景中落地。



逐际人形CL-1全身运动控制,完成搬箱子。来源:逐际动力。

晚点:逐际明确不进工厂的决策过程是怎样的?

张巍:这个没有对错,是我们根据自身特点的一个选择。

主要两个原因,一是技术优势与场景需求不匹配。这次大模型引发的技术变革的关键是 “泛化” 能力,而工厂落地需要的是可靠性、高效率、高精度,这些都不是具身智能技术的优势,有些反而是弱点。而且工厂里,现在跟人形机器人配套的很多东西都是缺的,生态环境也不支持落地。

还有就是人形的形态,无论轮式双臂还是双足人形,都不是解决工厂场景的最佳选择。就算未来具身算法进步了,可以让机器人拧螺丝了,也没必要用人形来拧,传统机械臂,甚至专机 +AI 都会更高效。

另一个是工厂场景和我们的创业目标不匹配,我上一次创业的公司是专注工业场景落地的,那些人太值得 respect。你得真的热爱这个场景,在里面积累大量行业 know how 才可能真正做好这件事,而且创业公司只能专注解决一个场景,我觉得在当前阶段进工厂和发展通用机器人技术是矛盾的。

晚点:那你们的客户是谁?

张巍:我们定位是具身智能工具公司,提供机器人本体和 AI 软件工具,服务想在各行各业落地的具身智能具体应用的创新者,做具身智能行业的英伟达。

我看之前黄仁勋接受采访说,他们最近十年把计算成本下降了 100 万倍,这个特别好,英伟达做到了这件事,才会有各种 AI 应用的落地,他本质是在服务创新者,我们也想做类似的事。

我们有两个目标主要,让创新者更高效地创新,和让更多人成为创新者。可以说 AI 的发展主要得益于工具的丰富,然而机器人领域的创新涉及到软硬结合,还有太多痛点需要解决。

晚点:这是一家创业公司可以做成的事情吗?英伟达最初也是针对游戏等具体场景的,后来才慢慢变成更多领域的创新基础设施。

张巍:英伟达在转型 AI 计算的时候,黄仁勋说 “市场为零”,那时英伟达也不是一个很大的公司,其它更大的公司看不懂,也不愿意做这个方向。

英伟达做成这件事的关键是,它是 AI 创新里关键的推动者和效率的提升者,同时理解 AI 技术研发和创新者的需求,然后指导英伟达自己的硬件迭代。我们在具身领域做类似的事,比芯片的门槛要低,但涉及的链条更多,需要对大模型技术创新、人形机器人设计、传统机器人算法设计、机器人落地流程都有深入理解。

这是一个充满未知、需要快速迭代的新兴市场,这涉及很多跨领域的新兴技术,很多事需要被重新定义,所以才是创业公司的机会。

晚点:更具体来说,你们现阶段的主要客户会和宇树的人形机器人一样是高校、科研机构和实验室吗?

张巍:你觉得英伟达向谁收钱?服务创新者,不等于就是只卖给高校。做大模型训练和应用的公司也需要 GPU,甚至喜欢折腾的技术人员也会买个 4090(英伟达的一款消费级 GPU) 来试一些算法。只要具身智能一直在发展,我们能够显著加速创新和规模,就能创造商业价值。

晚点:这种服务未来的市场规模能有多大?

张巍:这个我预测不准,规模预测更适用于成熟行业。但比较确定的是,具身智能是对所有传统行业的范式颠覆,会重塑整个制造业、服务业和生活的方方面面,每个细分市场的规模都很可观,而且行业不会是一家独秀,而是百花齐放。

我们更关心什么能推动变革。我看到的是一个 “具身工具 + 创新者” 的未来,就像现在不懂编程的人也可以用 AI 创造内容,甚至用 cursor 等工具来开发应用程序一样。具身落地更复杂,对工具的需求更复杂,我们希望解决这个痛点,让具身创新变得简单和高效。

晚点:那么你们现在主要卖的东西是什么?

张巍:我们是具身工具链公司,长期看,我们的产品会包括机器人本体,和一系列软硬件工具链,包括数据收集、处理、训练和部署等。

目前我们还处于初创阶段,所以从稀缺的两足和人形本体入手。去年发布了多形态双足机器人 TRON 1,支持创新者开发各类强化学习和移动算法,同时我们发现园区巡检、网红跟拍、建筑业数字化监控的初创团队和公司也对它也有很强的需求,当然我们也需要在成本、开发体验方面不断提升。

我们的人形机器人本体比较有特点,但还处于预研阶段,还没正式卖,希望 25 年能推出针对开发者真正好用的全尺寸人形机器人。



逐际的人形机器人从俯趴到站立,这需要下肢关节具备更大的活动范围,以及腰部和腿部的稳定协同。2025 年,逐际即将迭代新的全尺寸人形机器人。来源:逐际动力。

晚点:你觉得你们现在这个落地路径的风险可能是什么?

张巍:挑战在于,我们既要懂最前沿的技术,能判断趋势,又要有很强的产品思维能力,把行业的共性需求挖出来。上到你对 AI 最前沿技术的了解,下到怎么提升机器人减速器性能,都得知道。

还有一点是,面对人形机器人这种新物种,怎么构建新型的组织,让公司做事更高效。你同时在管工厂和一堆 AI 创新者,这俩完全不同。我自己把这个定义成顶级 AI 能力和顶级制造能力的结合。

晚点:当年 AI 四小龙一开始也想做技术平台和技术工具供应商,自己不进入具体场景。但后来他们反思,当年正是因为和最终客户不够贴近,导致技术扩散后被替代:比如本来一些用商汤、旷视算法的公司,后来自建了内部团队来做 AI。

张巍:我们和他们不同,很多 AI 公司的能力偏软件,可复制性和替代性太强了。英伟达厉害是因为它做的是软硬结合的事,而且它真正找到了底层的共性需求。

一个公司的价值在于找没找到行业里发展的最大痛点,然后用自己的优势和组织能力解决痛点。剩下的事情不用担心,创造价值就够了。

晚点:现阶段已在进入工厂、零售等场景的具身智能公司,它们能建立更好的场景认知和商业关系,而逐际侧重攻克具身模型和泛化问题,会不会到时客户都被占光了?

张巍:我们的客户不是工厂或零售店,我们服务的是做集成和解决方案的创新者,集成商和你提到的那些具身公司才是潜在的竞争关系,我们的使命是让集成商能拥有最好和最高效的具身模型开发与应用能力。所以,我们的客户和其它具身公司的客户不是一群人,不存在被 “抢光” 的情况。

找到底层共性需求并解决,才有长期竞争力

晚点:你创立逐际的 2022 年,当时还没有这波机器人创业热潮。为什么那时就选择创业做机器人?

张巍:我比较简单,我一直做这个行业,我的思考是:这个行业到了什么阶段?如果你希望继续创造价值,你要怎么做?

2019 年时,我觉得机器人领域发展到了硬件迭代变得很关键的时期,国外的速度太慢了,中国有做硬件的优势,所以想回国。同时我也意识到,这个行业到了一个节点,可能只有 10% 的新价值是来自原始学术创新,90% 来自工程实现;光在学校写论文已经没什么用了,要创业才能最大程度推动机器人进步。

晚点:你们在 Optimus 亮相和大语言模型热炒前就开始做具身智能,后来又经历行业大火,前后对比感到了怎样的水温变化?

张巍:投资人的想法没什么变化,只是关注机器人的投资人变多了。比如明势资本是 2022 年看到我的 paper,主动找过来的。现在是更多人开始追这个事,变热闹了,这也不好。

晚点:为什么市场热闹反而不好?

张巍:整个行业都有点过热。初创企业早期需要很有耐心地去做积累。现在就是呼啦都整的,人变得浮躁了。

2023 年到现在,中国有很多人形机器人产品出现,至少你能看到的样式是很多的。我们会说,可能不是特别专门研究这个的人,都能做出一个还可以的样子。但是不知道做出来用在哪,只能在平地上走两步,功能还是有限。

我管它叫 “大炼机器人” 行为,这对真正想造机器人的人反而不太好做。

晚点:特斯拉说他们今年会生产几千台机器人,送到工厂里收集数据,你怎么看他们的计划?

张巍:那是马斯克有钱,我要是他我会更激进。他在人形本体方面的超前投入我觉得是有价值的,市面上眼花缭乱的人形看着挺多,但大多数都只能算是原型机。Optimus 的工程化水平还是最领先的,尤其是灵巧手方面的积累。

但是生产几千台去工厂收数据,我并不是很认同,具身大脑方面的技术方案还没收敛,还没到需要 scale 的阶段,这方面我倾向于小步快跑,找技术开关。比如,如果我们基于视频生成大模型的具身操作算法验证了 scaling law,那么堆真机收数据就意义不大了。

晚点:我们之前和机器人供应商聊,也好奇一个问题,像特斯拉,他们怎么定义这些供应商是否达到了他们的要求。

张巍:这个他们肯定有明确的流程,只是人形很多零部件技术方案不成熟,需要和供应商深入沟通。新技术初期,供应商本质上是公司研发的一部分,可以认为是某种意义上外协研发,是需要按照研发方式来管理的,不能一开始就按照成熟量产供应链来管理。

晚点:2025 年,行业可能会发生什么变化?你们 2025 年的计划是什么?

张巍:2025 年 AI 方面最大增量是 Agent,我个人觉得 Agent 是真正让大模型技术落地的最佳方式。

具身领域会有更多人入局,会对技术开始祛魅。记得我们刚开始看到 ChatGPT 时,感到无比惊艳,到现在发现基本都能搞出来个 Chatbot。人形机器人也是一样,会出来更多人形机器人。行业会开始对花哨的技术 demo 麻木,开始关注产品和商业化。

我们 2025 年最重要的目标是初步跑通服务创新者的商业闭环,和构建符合新 AI 时代的新型组织。产品和技术方面希望能推出面向创新者、真正好用的人形机器人产品,并找到效率更高的具身模型 “工业母机”。

题图来源:张巍和逐际的人形机器人 demo。