学习DeepSeek创新思路，商汤绝影智驾方案跨越式演进

澎湃新闻记者陈华

2025-02-24 15:56

汽车圈 >

2月22日，2025全球开发者先锋大会（GDC）在沪举办期间，商汤绝影CEO、商汤科技联合创始人、首席科学家王晓刚发布行业首个“与世界模型协同交互的端到端自动驾驶路线R-UniAD”。

据悉，这一路线通过构建世界模型生成在线交互的仿真环境，以此进行端到端模型的强化学习训练。它与受到市场关注的DeepSeek技术创新思路同归一源：从模仿学习向强化学习升级演进，从而实现端到端自动驾驶超越人类的驾驶表现。

据介绍，端到端的自动驾驶本质是通过海量的高质量人类驾驶数据，来实现最佳的“模仿”驾驶效果。然而，受限于高质量场景数据的稀缺性和驾驶数据质量的参差不齐，端到端智驾方案要达到人类驾驶能力的天花板并不容易，动辄千万Clips的高质量数据回流形成了规模门槛。

而引发关注的DeepSeek-R1基于纯强化学习的关键创新，通过少量高质量数据的冷启动，模型进行多阶段的强化学习训练，有效降低大模型训练的数据规模门槛，同时也让尺度定律得以延续，为模型变得更大更强铺平了道路。更重要的是，强化学习能够让大模型自行涌现出长思维链能力，显著提升推理效果，甚至可能具备超越人类的思维能力。

王晓刚表示，强化学习的技术创新也同样可以迁移到端到端自动驾驶领域。

正是基于强化学习，商汤绝影提出“与世界模型协同交互的端到端技术路线”。具体分为三个阶段，首先是依靠冷启动数据通过模仿学习进行云端的端到端自动驾驶大模型训练；然后基于强化学习，让云端的端到端大模型与世界模型协同交互，持续提升端到端模型的性能；最后云端大模型通过高效蒸馏的方式，实现高性能端到端自动驾驶小模型的车端部署。

据介绍，能够生成高保真的场景数据、保证长时推演一致性、并支持在线交互的强大世界模型是R-UniAD的核心基石。相比其他竞争者，商汤绝影的优势在于，其既拥有大装置算力基础设施，又有云端自动驾驶大模型。

而基于UniAD端到端自动驾驶方案和“开悟”世界模型，商汤绝影R-UniAD将通过强化学习加速智驾跨越式演进。在4月即将到来的上海车展上，商汤绝影将发布R-UniAD端到端自动驾驶方案，并完成实车部署。而商汤绝影的量产端到端智驾方案预计将在年底交付，“开悟”世界模型也正式用于数据生产，抢占新技术路线的先机。