陈建宇:要实现万亿级市场,核心是打造上限更高、更通用的机器人
创业邦,2026-01-19 18:41:17
![]()
让机器人像人一样,快速学习并适应各类新场景,触达更广阔的市场。
机器人,被视为下一个万亿级智能终端。但为何有数十年历史的机器人产业,其市场规模至今远未达到预期?其核心原因,在于现有机器人大多只能适配一个场景、一个任务,极大地限制了其规模化应用的可能。
在第18届创业邦年会暨创业邦100未来独角兽大会上,星动纪元创始人陈建宇给出了破局路径:打造“上限更高、更通用的机器人”——让机器人像人一样有聪明的大脑和好用的身体,能够快速学习并适应各类新场景。这样才能使得机器人触达更广阔的市场。
以下是陈建宇在大会上的演讲实录,由创业邦整理。
![]()
打造通用机器人,
成为下一个智能终端
现在行业已经形成共识,机器人未来一定可以催生出万亿级的市场。
首先,机器人可以产生非常巨大的生产力,而整个生产力和劳动力加起来,可以达到所有GDP一半的体量;同时机器人会成为未来继个人电脑、手机、智能汽车之后的下一个智能终端。
怎样打造?非常重要的点是需要打造上限更高、更通用的机器人。机器人的历史很长,不管工业还是生活,我们已经看到各类各样的机器人在落地,但是现在机器人的总量和市场远小于预期,非常重要的点是现在机器人比较专业化,一款机器人只能适配基本一种场景和一个任务,要做新的场景和任务,要重新研发整个硬件和软件,让机器人的大脑和身体协同发展。
我们希望做相对通用的机器人,希望它像人一样,通用适配到各类场景,这样才能最终达到想要的市场。围绕这样的目标,我们专注于这方面的研发,并且在人形机器人全身灵巧操作的软硬一体、全栈自研上实现阶段性进展和突破。
我们研发了比较通用的人形机器人,具备双灵巧手和双足形态,并且所有软件,包括通用端到端的具身大脑、小脑运控模型,再到硬件本体、零部件、关节、电机和灵巧手,都是一体化自主研发。
![]()
星动STAR1在工厂车间大显身手
不同形态通用的机器人本体,搭载具身模型,又可以用到各种各样不同的场景里。因为模型是通用的设计,所以跟具体某个场景无关,没有针对任何场景做任何特定的设计,我们需要的是数据反馈。现在也在几个重要的场景下,形成大脑本体+场景数据的反馈,在商业化落地的同时,也在持续增强模型的能力。
![]()
具身模型的三次进化,
走向自我学习
我们非常重视具身模型的创新研究,可以总结为三个阶段:基于VLM的分频VLA模型、融合世界模型的VLA模型、融合强化学习的VLA模型。
首先是基于“VLM的分频VLA”,这是现代比较主流的范式。在全球范围内,我们是这条路线最早的提出者、实现者。在2024年发表了相应论文Hirt,是全球首个完整的机器人VLA模型。
我们首次提出Action形态,可以实现端到端的训练,使模型达到比较好的柔顺性和运行的速度。仅通过视觉的输入,每秒钟就可以完成数十次从感知到决策和规划的闭环。
例如,在抓取药盒的任务中,机器人可以从杂乱的物品里找到药盒,同时双臂协同进行扫码动作。即使在距离较远的地方,机器人也会自动调整姿态,最终实现相应的效果。
![]()
刚才提到的方法是基于VLM的VLA模型,仍然有缺陷和不足。因此,我们通过技术改进,来到第二阶段的“世界模型”。
为什么要进行改进?此前的方法纯粹是在模仿人类的动作。人类怎么做,机器人就模仿怎么做。这样使得机器人的动作倾向于条件反射式,没有自己的思考。而且,这种方法要依赖大规模数据,如果超脱数据范围之外,行为就比较难以呈现。
人类之所以会思考,是因为能在脑内构建世界模型,这是对物理世界的常识性认知,对各种各样的场景有快速的预判。比如,一瓶水在桌子的边缘,会担心稍不注意掉下去,把杯子摔碎;如果开车到入口,可能会预判冲出来一辆车或者行人,造成一些交通事故。
因为有了预判,就知道在开车的时候,在入口要减速或者停下避免危险,知道杯子在桌子边缘,可能想要伸手或者往里面推。有了这样的世界模型能力,可以帮助你更好进行预判和更好进行举一反三的能力,这种能力在此前模型是没有的。
除此之外,世界模型还可以做对未来准确的预判和预测,可以帮助你更好进行行为决策。
围绕这样的思想,我们也做了系列工作,包括2025年发表论文,把大规模的互联网视频数据加入进来做预训练,大大增强了它的泛化性能。
2025年11月,我们跟Physical Intelligence的联合创始人一起联合发表论文。Physical Intelligence是全球公认的最好的一家具身大脑公司,我们跟他们一起,联合做了关于世界模型的工作Ctrl-world,发现通过引入世界模型,可以在他们当时最先进的模型上、下游任务再提升45%的性能。
这个具身模型,能够通过观察真实世界场景,预测接下来机械臂的驱动轨迹,以及与物体交互所产生的细腻物理效果。比如,当机械臂夹起毛巾时,模型不仅预测了手臂的动作,还模拟出了毛巾因被抓取而产生的褶皱和形态变化。
这种非常复杂细腻的物理细节,它也能够捕捉的非常精准,几乎看不出来与真实物理现象的区别,这样的能力帮助我们做各种各样的行为操作,这些是最后训出来的模型结果。
最后是第三阶段,基于“强化学习”模型,机器人自主强化、自主探索试错,自己增强性能。这里是有一个端到端的神经网络,持续不断地去做推理,并且频率非常高,一秒钟有几十赫兹,实现感知到最后控制的闭环。
![]()
让技术创造真实价值
有了聪明的“大脑”,还需要一副强大的“身体”来配合。
在硬件层面,我们完全自主研发了核心部件包括灵巧手、电机、减速器、驱动器等。基于这些技术,我们形成了一系列的产品矩阵,让我们的技术有了具体的形态。
首先是我们的双足人形机器人星动L7,它身高1.7米,拥有55个自由度。它是跳高、跳远世界纪录的保持者、同时还拥有双臂灵巧操作能力,完成各种复杂的任务,做到手脚协同。
![]()
双足人形机器人星动L7
其次,我们还有针对服务场景设计的轮式机器人星动Q5。它的外形设计得比较纤细、优美,同样具备七自由度的双臂和五指灵巧手,可以灵活地完成下蹲拾取物品等精细操作。
我们的机器人之所以已经能在真实场景干活,得益于我们自研的通用灵巧手。它采用全直驱方案,响应速度快,每秒钟能点击鼠标10次;同时力量强,单手能拎起25公斤的重物;精度也高,能够稳稳捏起一块豆腐。并且,我们还让它具备了出色的抗冲击性,以适应真实的工业环境。
我们深知,再好的技术,如果不能落地,那就没有意义。在商业化方面,我们采取双线并行策略。
一方面,我们面向终端场景,直接提供从模型、硬件到软件的全套解决方案。我们已经在工业、物流等场景成功落地,与顺丰、海尔、联想等合作。这种模式最大的好处是,我们可以通过这些真实场景获得宝贵的数据反馈,这些数据又会反过来持续优化我们模型的能力,形成一个良性的飞轮。
另一方面,我们也把在开发过程中的工具链,以API的形式,提供给其他的企业和高校用户。我们很清楚,单靠我们自己不可能覆盖所有的应用场景。通过开放工具,我们可以赋能更多的合作伙伴,大家一起来探索和定义机器人的未来。目前,全球市值Top10的科技巨头中,已经有9家成为了我们的客户,这也从侧面印证了我们技术工具的价值。
以上是我的分享,谢谢!