一览众山小原创团队/成嘉琪、林中朴
陈汝淇、潘燊、傅敏
编辑/众山小 排版/众山小
文献/张冉 校核/众山小
在2026年CES上,英伟达开源自动驾驶推理模型Alpamayo-R1(AR1),表面是一次技术开放,实则是一场关于“自动驾驶如何思考”的范式争夺。与端到端黑盒模型不同,AR1用“原子决策+因果链(CoC)”重构驾驶逻辑,把复杂路况拆解为可组合、可解释的基本决策单元,让自动驾驶第一次具备“说清楚自己为什么这么开”的能力。
文章深入拆解了AR1的技术结构:从纵向/横向15类原子决策,到反应式与主动式场景的统一建模,再到“用大模型教大模型”的训练范式,展示了其在可解释性、泛化能力与工程落地之间的精妙平衡。同时,作者冷静指出:真正的考验不在标准工况,而在异形路口、施工遮挡等非标长尾场景。更重要的是,这次开源背后隐藏着英伟达的产业阳谋——通过模型、仿真与数据集定义事实标准,复制“安卓时刻”,实现软件开源、硬件锁定、生态收割。文章进一步将视角推向社会层面,讨论可解释自动驾驶对事故取证、监管、人机信任乃至城市空间结构的深远影响,并提出终极追问:当技术给出所有选项,城市与未来,该由谁来驾驶?
我们为您提供推理模型原文,请后台留言下载。
2026年国际消费电子展(CES),英伟达投下了一枚深水炸弹。不仅是因为其开源了首个自动驾驶推理模型——Alpamayo-R1(以下简称AR1),更因为它随之开放了配套的仿真环境与数据集,并迅速拉拢Uber、文远知行等巨头组建了生态联盟。
黄仁勋将这一刻定义为自动驾驶时代的10年倒计时开始。
图一、黄仁勋在2026 CES上开源物理AI全栈平台
在喧嚣的新闻通稿与市场的狂欢中,一个叙事正在被构建:自动驾驶似乎终于要告别端到端(End-to-End)的直觉黑盒,迎来逻辑推理的曙光。然而,我们需要透过这层滤镜看到更复杂的图景。这不仅是一次技术的开源,更是一场关于自动驾驶系统如何思考的定义权争夺战。英伟达不仅仅是想送出一套免费软件,它是想为物理世界的AI交互制定一套无法绕过的工业标准。
AR1是英伟达开发的视觉-语言-动作(Vision-Language-Action,VLA)自动驾驶模型,其核心创新在于将结构化因果推理机制深度整合于自动驾驶决策流程中。该模型通过多模态传感器输入(Vision)获取环境状态,生成符合驾驶场景逻辑的结构化语言(Language)推理链,最终输出动态可行的控制指令(Action)。与“黑箱”式端到端模型不同,AR1在轨迹规划前显式构建“观测-决策-因果”三元推理框架,系统性地阐述场景关键要素、具体驾驶行为及其内在因果关联,这不仅赋予了系统处理长尾场景的鲁棒性,更为自动驾驶装上了一个具备人类推理能力、可审阅的“白盒大脑”。
传统自动驾驶“if-else”式方案难以适应无限的动态路况,而纯端到端模型又缺乏解释性。AR1通过因果链数据,走出了一条中间路线:以原子化决策(Atomic Decisions)为基础, AR1不搞场景穷举,而是将驾驶动作拆解为标准化的“积木”:通过“驾驶动作、环境对象、场景类型”三层规则化设计,将复杂环境拆解为标准化基本元素。
AR1模型将动作元素的拆解为7个纵向动作和8个横向动作,供15个“原子决策”。纵向动作包含加速、减速、避让、停车、跟车、寻隙、匀速;横向动作包含车道保持、变道、小幅越线、汇入、汇出、避障等。任何复杂的驾驶行为都只是横、纵向动作的组合,如高速汇入是“纵向寻隙+横向汇入”的组合。这既避免了动作描述的模糊,又保证了泛化能力和可解释性。对于交通工程学科而言,这意味着微观层面的车辆行为有了一套优雅的描述工具。
同时,AR1将交通环境要素标准化为静态设施、动态对象、意图约束、环境约束类及不确定性类等关键构件;将所有场景规则化为“反应式(Reactive)”与“主动式(Proactive)”两大类,形成闭环覆盖。反应式场景对应“外部环境突发刺激→即时决策响应”,核心特征是触发紧急、时间窗口短,如避让行人横穿、前车加塞、红灯停车等,聚焦“被动应对”需求;主动式场景对应“预判路网状态/自身意图→提前准备决策”,核心特征是触发渐进、时间跨度长,如过弯道减速准备、变道寻隙、高速汇流预判等,聚焦“主动规划”需求。
针对现实中复杂的混合工况(如校门口:既要预判放学人流,又要应对突发冲出的儿童),AR1的“原子决策+开放因子”架构提供了比传统规则更灵活的解题思路。
结构化规则虽然清晰,但人工标注成本高昂,难以拓展。AR1采用了“教师-学生”协同训练范式,利用大模型的通识能力解决数据与先验知识问题。其中:
·Cosmos-Reason(物理老师):基于Qwen2.5-V预训练,提供基础的视觉理解与物理常识,让模型“看懂”环境。
·GPT-5(出题老师):辅助生成CoC数据,自动构建初版因果推理文本,大幅提升标注效率。
大型推理模型(阅卷老师): 在强化学习阶段充当Critic,对AR1的推理质量与动作一致性打分,通过奖惩机制优化逻辑。
这种由通用大模型向垂类模型“蒸馏”知识的路径,也为未来引入专业交通工程大模型(Traffic LLM)提供了想象空间。
AR1目前在学术界的开环/闭环测试中表现优异,但自动驾驶的真正障碍在非标长尾场景:
·异形路口:如不规则环岛、多路交汇无标线路口,极度依赖路权博弈;
·信号盲区:隧道、高架下GPS漂移频发,考验感知与推断的连续性;
·视距受限:施工围挡后临时围挡、流动施工人员等动态变量组合,常规模型难以快速适配。
这些场景正是同类模型与量产车的能力短板,也是检验AR1价值的关键。唯有在这类场景中开展针对性验证,才能充分验证其“原子决策+开放因子”框架的适配性。这种聚焦痛点场景的验证,才能明确自动驾驶系统的落地边界与优势,而非仅停留在标准工况的性能比拼。
在公众和普通开发者的视野里,自动驾驶的技术演进长期被笼罩在感知迷雾中。端到端模型(E2E)像是一个凭借直觉驾驶的老司机,你给它看路况(输入),它直接打方向盘(输出)。它可能开得很好,但外界难以知晓它为什么这么开。这种不可知性,一直是横亘在技术落地与公众信任之间的一道鸿沟。
AR1的发布,在传播层面象征着一次范式革命。它向公众展示了一种可能性:自动驾驶不再是一个简单的输入输出映射函数,而是一个具备思维链(Chain of Thought)的智能体。通过对推理过程的白盒化,AR1让开发者能够直观地审视模型在复杂动态环境下的决策机理。这种全栈技术的开放,实质上是在公共技术领域为自动驾驶的安全验证提供了一个标准化的高水平物理底座。
然而,客观地看,AR1虽有诸多亮点,但并未在算法原理上带来划时代的突破。视觉语言模型(VLM)与VLA技术,Waymo早在2024年就撰文展示了利用Gemini大模型理解复杂场景的能力;2025年更是被中国业内视为VLA上车的元年,小鹏、理想等辅助驾驶头部玩家均有布局。
图七、Waymo自动驾驶框架:借助Gemini广泛的世界知识将视觉语言模型嵌入提升系统对复杂场景的理解能力与轨迹生成能力
开源方面,自动驾驶领域的开源与共享本就是推动行业进步的传统动力。早在2019年,Waymo就推出了开放数据集,并不断扩充极端罕见场景数据,为全球研究人员提供了宝贵的素材;在国内,百度Apollo、商汤(联合上海人工智能实验室)等均开源过自动驾驶模型,培育了大量开发者。英伟达的开源是这一文化的延伸。
但英伟达的开源依然对行业具有深远影响。此前的开源更多集中在数据或基础框架,而AR1是直接开源了一个经过验证的、具备高级推理能力的成品模型。从此,自动驾驶的研发模式在行业普及层面将发生改变:哪怕是中小玩家,也不再仅仅关注结果上车是否撞了,而是开始有能力审查车是怎么想的。
如果说技术上的开源是英伟达的面子,那么商业上的围猎则是它的里子。
英伟达正在从卖铲子(销售GPU)转向包工程(提供全套方案)。就像谷歌没有发明触屏手机,却通过开源Android定义了移动互联网的生态一样,英伟达试图成为自动驾驶领域的安卓。
如前所述,通过降低门槛,消除准入障碍,AR1为大量无力自研全栈算法的中腰部车企和初创公司,提供了一张免费的高级入场券。之后便是试图锁定硬件。天底下没有免费的午餐,要流畅运行这套复杂的推理模型和高保真仿真环境,最好的硬件选择就是英伟达的芯片。这是典型的软件开源,硬件收税。
更重要的是标准的确立。自动驾驶落地的最大阻碍是如何证明安全。此前各家车企各说各话,没有统一的考试标准。英伟达通过开源仿真工具AlpaSim和数据集,试图定义一套公认的测试标准。一旦这套基于CoC因果链的验证体系成为监管部门认可的事实基准,采用英伟达方案将是获得上路许可的最短路径。这种“标准霸权”是其拓展汽车业务边界的核心驱动力。
AR1的发布,标志着行业竞争逻辑的彻底改变。过去比拼的是谁的参数大、谁的里程多,这是一种重资产的肉搏。现在比拼的是谁能基于开源底座,更快地在Robotaxi、干线物流、港口自动化等垂直场景落地。这种模式打破了特斯拉式全栈闭环的优势。英伟达通过构建包含Uber、文远知行在内的庞大联盟,利用全球开发者的集体智慧来对抗闭源阵营的封闭。
当行业拥有了统一的推理模型和仿真环境,将一定程度上消除“重复造轮子”的内耗。全球数万名研发工程师不再需要浪费时间去编写基础代码,而是可以直接进入“长尾场景”的攻坚。这种研发重心的上移,将使自动驾驶技术的成熟曲线从线性增长变为指数级爆发。:
通过开源数据集降低了路测成本,通过仿真工具缩短了验证周期。在产业协同的背景下,自动驾驶从“技术演示”转向“规模化盈利”的进程被极大地推前,这就是“10年倒计时”能够从口号变为现实的底层产业逻辑。
技术从来不是孤立存在的。以AR1为代表的可解释自动驾驶系统,其价值远远溢出了技术层面,有可能重塑法律、监管以及人机关系。
以深度学习为基础自动驾驶系统的事故溯因从来都是老大难。现有的取证手段依赖交警现场勘查和碎片化的行车记录仪,往往只能看到碰撞的结果,而无法还原系统在想什么。在面临“电车难题”式的事故时,因果链断裂,决策无标准,导致司法溯源极其困难。AR1的CoC框架为解决这一难题提供了黑匣子级别的数字证据。因为它的决策过程是结构化的,我们不仅能看到车撞了,还能回溯到撞击前2秒:感知层是否识别到了行人?决策层为什么没刹车?执行层指令是否下达?
这种过程导向的取证能力,让事故调查从猜谜变成了阅卷。它既为模型优化提供了高质量样本,更为法律责任的认定提供了坚实的技术抓手。
在自动驾驶的过渡期,最大的风险来自人机互信危机。人类司机往往看不懂AI车的行为——它为什么在这里突然减速?为什么那里不敢变道?这种过度谨慎常导致后车追尾。当AR1让决策透明化后,人机关系将发生质变。交通管理部门可以像审查人类驾照一样,审查AI的决策逻辑是否符合交通法规,而不是只看它跑了多少公里未脱离工况。未来的座舱交互甚至可能会告诉乘客:检测到前方路面结冰,系统决定提前减速。这种透明度能极大降低乘客的恐慌感,建立真正的信任。甚至乘客可通过自然语言把自身决策链反馈给系统,让系统行为更符合用户习惯。
对于城市和交通设计者而言,AR1为代表的推理模型不仅仅是一个驾驶模型,更是一个高级的驾驶认知模拟器。
传统的交通仿真只能模拟交通流,看哪里会堵。而引入“类AR1”系统后,设计者可以深入到驾驶认知层面:这个新设计的复杂路口,是否会让AI司机感到困惑?这个交通标志的位置,是否容易被算法忽略?这让城市交通基础设施在设计阶段就能进行AI友好性测试,避免了建成后才发现不合理的资源浪费和交通风险。
图十一、可推理自动驾驶系统有望成为城市交通的设计助手
当我们把视野拉得更远,自动驾驶对社会的影响远比不用自己开车要深远得多。它是一把锋利的双刃剑,既可能切割出城市乌托邦,也可能雕刻出赛博朋克。
你想过吗?你的私家车,其实90%以上的时间是在车位上吃灰的。为了伺候这些钢铁盒子,城市核心区被迫割让出大量宝贵空间。如果是共享自动驾驶(SAV)成为主流,车辆送完你就能立刻去接下一单,城市对停车位的需求理论上将减少90%。想象一下,写字楼下的地下车库被改造成了仓储中心或数据中心,路边的停车带变成了加宽的绿道、咖啡外摆区或微型花园。这不仅仅是空间的物理释放,更是城市活力的回归,是让城市从以车为本回归到以人为本的契机。
剧本的另一种打开方式是杰文斯悖论:当技术进步提高了效率,导致资源成本降低,资源消耗将反而激增。在交通领域就是诱导需求。
如果私人自动驾驶(PAV)占据主导。你可以在车里睡觉、看电影、开会,通勤不再痛苦。于是,人们对通勤距离的忍受度会无限拉长。这将导致城市蔓延(Urban Sprawl)加剧,人们搬到几十公里外的郊区,享受低价大房子将成为理性选择。城市将被拉伸成一张巨大而松散的煎饼,职住分离进一步加剧,原本紧凑的社区生活可能被再次打散,公共交通的高效率也将因需求分散而瓦解。
图十三、自动驾驶(私人V.S.共享)对城市发展的不同影响
屠龙少年终变恶龙,原本似乎能提高交通效率的技术,可能反而将制造史上最大的拥堵。
英伟达的开源交出了一把钥匙,这把钥匙通向一个算法可解释、标准可统一、生态可协同的新阶段。
但技术只负责提供选项,不负责筛选未来。这辆通往未来的车,是驶向高效安全的共享乌托邦,还是驶向拥堵冷漠的私有赛博朋克?是构建一个以人为本的城市,还是一个被机器逻辑统治的数据荒原?现在,代码已经开源,但方向盘,仍然握在我们人类自己手中。
我们为您提供本文英文原文报告:
1、Alpamayo-R1:连接推理与动作预测,面向长尾场景的泛化自动驾驶
请联系我们微信号@Citipedia
或电邮daizongliu@qq.com索取
【一览众山小-可持续城市与交通】
我们 |作为独立的专业志愿者团体
秉承 | 专业理想与价值观
信守 | 非营利原则
愿景 | 帮助中国城市可持续发展
关注 | 城市、交通、AI与气候领域深度文章
伙伴 | 遍布全球1200名专业志愿者网络
发表 | 近5000篇原创专业译文
粉丝 | 12年来共有13万人一直关注我们
欢迎加入 | 后台留言关键词“志愿者”了解
2014-2026 © 转载请注明:
转载自公众号“一览众山小-可持续城市与交通”