CES 2026 | NVIDIA TensorRT Edge-LLM 加速汽车与机器人领域的 LLM 和 VLM

车东西,2026-01-13 14:32:05


大语言模型(LLM)与多模态推理系统正迅速突破数据中心的局限。越来越多的汽车与机器人领域的开发者希望将对话式 AI 智能体、多模态感知系统和高级规划功能直接部署在端侧,因为在这些场景中,低延迟、高可靠性以及离线运行能力至关重要。

本文介绍了 NVIDIA TensorRT Edge-LLM——一个用于 LLM 和视觉语言模型(VLM)推理的新型开源 C++ 框架,旨在满足日益增长的高性能边缘端推理需求。该框架专为嵌入式汽车平台 NVIDIA DRIVE AGX Thor 及机器人平台 NVIDIA Jetson Thor 上的实时应用而打造。该框架已在 GitHub 上随 NVIDIA JetPack 7.1 版本发布并开源。

TensorRT Edge-LLM 依赖项很少,专为实现量产级边缘端应用部署而设计。其精简轻量化的设计专注于嵌入式场景的特定功能,能够显著降低框架的资源占用。

此外,TensorRT Edge-LLM 所具备的先进功能——如 EAGLE-3 投机采样、NVFP4 量化支持以及分块预填充技术,能够满足高要求的实时应用场景所需的前沿的性能需求。


图 1. 与主流 LLM 和 VLM 推理框架 vLLM 相比,TensorRT Edge-LLM 性能表现卓越

面向实时边缘端应用的 LLM 与 VLM 推理:TensorRT Edge-LLM 旨在满足并优先处理嵌入式场景的特定需求,为嵌入式 LLM 和 VLM 的推理提供坚实基础。

TensorRT Edge-LLM 在汽车行业的落地应用:合作伙伴已开始将 TensorRT Edge-LLM 作为其车用 AI 产品的基础,其中博世、中科创达和 MediaTek 等企业在 CES 2026 上展示了其相关技术。