探索具身智能新上限,模力社区入驻企业蚂蚁灵波科技开源四款模型
上观新闻,2026-02-03 12:59:05
2026年被业界视为具身智能元年,但在机器人真正融入现实应用的过程中,仍面临着具身智能模型泛化能力与部署效率的双重挑战。真正的"具身智能",应是能够全面自主决策与行动的通用机器人,其基础在于对物理世界的深入理解。
近日,作为蚂蚁集团拓展具身智能和机器人业务的主要载体,张江“模力社区”企业——蚂蚁灵波科技连续四天发布并开源四款具身智能领域模型:空间感知模型lingbot-depth、具身大模型lingbot-vla、世界模型lingbot-world、具身世界模型lingbot-va,为推动具身智能发展提供了重要的智能基座能力。
lingbot-depth是一个面向真实场景的深度补全模型,其核心突破点在于让机器人"看清"物理世界。据悉,目前,蚂蚁灵波科技已与奥比中光达成战略合作伙伴关系,将基于lingbot-depth模型推出新一代深度相机,依托gemini 330系列相机提供的芯片级3d数据,进一步通过技术协同、生态共建,为机器人处理各行各业极端场景、走向真正落地提供强大的技术支撑。
作为一款面向真实机器人操作场景的“智能基座”,lingbot-vla实现了跨本体、跨任务泛化能力。在上海交通大学开源的具身评测基准gm-100测试和 robotwin 2.0仿真基准评测中,均超越 pi0.5,实现了从虚拟仿真到真实落地的全方位性能领跑。此次lingbot-vla开源不仅提供了模型权重,还同步开放了包含数据处理、高效微调及自动化评估在内的全套代码库。这一举措大幅压缩了模型训练周期,降低了商业化落地的算力与时间门槛,助力开发者以更低成本快速适配自有场景,模型实用性大幅提升。
lingbot-world则是一个专为交互式世界模型设计的开源框架,致力于提供高保真、可控制且逻辑一致的模拟环境。通过从大规模游戏环境中学习物理规律与因果关系,lingbot-world实现了与生成世界的实时交互。在视频质量、动态程度、长时序一致性与交互能力等关键指标上,均展现出业界领先的性能,为具身智能、自动驾驶及游戏开发领域,提供了一个高保真、高动态、可实时操控的“数字演练场”。效果媲美谷歌世界模型genie3。该模型发布首日即冲上海外社交平台x科技热榜第一位,引发了海外开发者的热烈讨论,随后google也宣布发布其在线世界模型平台。
lingbot-va是全球首个自回归视频-动作世界模型,将大规模视频生成模型与机器人控制深度融合,模型在生成“下一步世界状态”的同时,直接推演并输出对应的动作序列,使机器人能够像人一样“边推演、边行动”。在真机评测中,lingbot-va 展现出对复杂物理交互的强适应能力。在多项高难度挑战,仅需30~50条真机演示数据即可完成适配,且任务成功率相较业界标杆pi0.5平均提升20%。
随着蚂蚁灵波科技系列连续发布四款具身领域大模型,蚂蚁集团的agi战略实现了从数字世界到物理智能的关键延伸,这标志着其“基础模型-通用应用-实体交互”的全栈路径已然清晰。蚂蚁集团表示,正通过inclusionai社区将旗下基础大模型百灵、具身智能灵波等模型全部开源,和全球开发者、行业伙伴共建、共同探索agi上限。
上观号作者:浦东观察