当前位置：首页>安卓APP>做机器人的「安卓」,为何要绕开端到端VLA?|对话CMU科学家张楫

做机器人的「安卓」,为何要绕开端到端VLA?|对话CMU科学家张楫

2026-03-29 19:31:44

CMU科学家、矢量科技首席科学家张楫

要落地，不能只讲性感的故事。

作者 /Oriana

新物种 Sinovum 设立了「视界线（Event Horizon）」对谈栏目。

视界线，是黑洞的边缘——一旦跨过，既有规则将不再适用，变化变得不可逆。我们借用这个概念，关注那些已经越过“临界点”的技术与企业：方向开始收敛，选择正在锁定，新的规则正在形成。

我们关心的是：在巨大的不确定性面前，他们如何看见未来？又如何以一个个关键判断为支点，推动整个行业越过那道无形的边界？

故事，正在视界线上发生。而「新物种」将成为忠实的记录者，与你一同见证。

以下是该系列的第 11 篇。

从最底层架构开始

张楫是在视频里看到自己获得RSS 2024「时间检验奖」的。

屏幕那端，荷兰代尔夫特理工大学的报告厅坐了一多半人。他远程做了一个二十分钟的talk，然后主持人念出颁奖词：

“LOAM（Lidar Odometry and Mapping）算法因其在激光雷达里程计与建图领域的开创性工作，该论文提出的方法在过去十年中深刻影响了机器人状态估计与实时三维建图的研究方向，其开源代码被广泛采用，并成功推动了从学术研究到工业应用的转化。”

时间检验奖（Test of Time Award），奖如其名，它颁给那些十年前发表，至今仍被反复提及和使用的高影响力论文。

LOAM的核心贡献是一种双线程架构——一个轻量级前端负责实时里程计，一个高精度后端负责建图，首次实现了三维激光雷达的实时定位与建图。这一设计后来被数十个激光SLAM系统沿用，包括MIT团队开发的LEGO-LOAM、LIO-SAM等多传感器融合版本。

在被称为“SLAM（同步定位与建图）和自动驾驶驾驶领域「试金石」”的KITTI里程计榜单上，这个不限传感器、不限年份的公开竞赛中，发表于2014年的激光方法LOAM，在视觉方法占据前两名的情况下，仍能守住第三的位置，十年未跌出前三；产业应用同样证明了它的价值，LOAM算法被广泛应用于无人地面车辆、自动驾驶、港口AGV、建筑机器人等领域。

“十年之后再看，它已经不是最热的东西了。”张楫语气平淡，“这个奖也相当于是给它画上一个句号，说这事在历史上发生了，现在该翻页了。”

张楫在RSS 2024上的远程分享

颁奖这一年，距他第一次创业已经过去十年。

2015年，LOAM发布的一年后，张楫在 CMU（卡耐基梅隆大学）的博士导师 Sanjiv Singh 提议一起创业。那时自动驾驶正热，三维激光雷达技术是里面较关键的一环。Sanjiv 本身就有创业经验，手上还经营着另一家无人机导航公司，张楫也去帮过忙。商量了几次，二人决定一起创办 Kaarta，把三维建图技术商业化。

Kaarta 做的产品以测绘设备为主，把算法集成在硬件上打包成方案进行建图、测绘。因为技术新，前两年订单还不错，陆陆续续卖了几十台出去，实现了收支平衡；但受疫情与产品定位等因素的影响，Kaarta 逐渐走下坡路。

2019年秋，张楫回归CMU担任Systems Scientist，并开始主导一系列自主导航算法的研发。他带队获得过 DARPA 地下挑战赛的“探索最多区域奖”；其2021年发布的 TARE 算法甚至在同一年斩获“最佳论文”和“最佳系统论文”的双料认可；2024年，LOAM获得时间检验奖；截至发稿日期，张楫的谷歌学术引用量已接近1万。

DARPA Challenge 现场

学术界的答卷十分漂亮，但张楫并不打算只在此扎根。在CMU这些年，他一直在关注各类创业机会，却迟迟未动身。

直到2025年底，张楫和学生林郑直决定一起创办矢量科技，目标是做“通用机器人时代的安卓”。

林郑直的经历横跨自动驾驶与机器人两界，在地平线负责决策规划，在TerraClear主导真实环境系统落地，在Dimensional历练从0到1的产品化能力。在张楫团队参与语义导航前沿研究时，师生二人的创业想法逐步收敛，决定组队。

这个时间点下场做具身智能公司，确实不算早。

但张楫有自己的判断。第一次创业，他把技术封装进硬件，做成一款产品，卖一台是一台——这个模式风险高，抗波动能力弱。后来的教训让他想明白一件事：与其做一套只能卖给特定客户的硬件，不如做一套能跑在各种硬件上的系统。

“通用”，这是他反复提到的词。市面上的机器人平台，轮式的、足式的、人形的，都能跑他们的系统架构。试了一个不行，还有别的；一个应用没跑通，还有下一个。面铺得大，抗风险的能力就强。

这是他从十年前那个“从最底层开始”的决定里，一路走下来的答案。LOAM是他最早打下的地基，后来有了规划、避障、探索，有了环境理解、语言指令理解，每做一个模块，就集成进系统里，慢慢搭起一套完整的架构。

现在他要带着这套架构，回到十年前出发的地方。不算早，但他一步一步走到今天，等的可能就是这个时候。

01.

收获十年前播下的种子

新物种：在RSS 2024上，LOAM 算法获得了时间检验奖，你有预想过吗？这个idea最早是怎么诞生的？

张楫：的确没有预想到。2013年时三维激光雷达刚出来，用的人不多。SLAM还活在二维世界里，三维的没有实时，只能把数据采回去离线处理，采集时也要走走停停，往前走一步，停下来，再走一步。

有天下午我跟着师兄去做无人机测试。师兄在做上层规划时集成了开源的算法，无人机飞起来，很快状态估计就不行了，降下来；上去调SLAM，调好了再飞起来；好不容易SLAM稳定了，再调上层的规划，SLAM又不行了，就这样反反复复。

我看到这个情形，认为下层如果没有稳定的SLAM，隔空去做上层规划简直太头疼了，所以也不用多想，就从最下面来吧，就先拿刚出来的三维的试试，做一个实时的三维 SLAM。

LOAM算法就是这样开始的。它有两层，前面一层是里程计前端，很快，10Hz更新。后面一层是建图，计算量大很多，1Hz更新。我先自己写了一个前端，跑起来之后效果不是很好，有漂移、不太准，但确实做到了实时，于是在后面又加了一层建图，相当于把数据拿过来重新处理一次。所以 LOAM 最大的特点就是双层结构，前面一层快、轻量级，后面一层跑得慢一些，但把持着精度。

新物种：做 LOAM 算法给你带来了哪些启发？

张楫：我觉得LOAM是我们一整套工作的起点。SLAM是最底层的building block，做状态估计和建图的基础。

现在回头看，我们已经有一套完整的系统了。做完SLAM，我们一步步做上层的规划、避障、探索。大概从13、14年的激光SLAM开始，后面做规划、探索，现在做环境理解、人的语言指令理解。每做一个模块就集成进去，慢慢搭起了一套完整的系统。

新物种：博士毕业后，你曾跟导师Sanjiv一起创立了Kaarta，把三维激光雷达的技术商业化。那段4年的创业经历里，你有哪些收获呢？

张楫：Kaarta 其实带来的更多是经验教训。现在回头看，我们前两年业务还可以，基本能收支平衡。我们做的是测绘设备，和工地上架三脚架那种是一类，用技术去建图、测绘。因为技术新，前两年订单还不错，卖了几十台出去，每台卖得不便宜，赚的钱将将够养活自己。后来疫情来了，订单大幅下降，又引进了一些投资，外面有声音进来，一步步就不行了。

那次是把公司做成了硬件公司，把所有技术封装到设备里，靠卖硬件盈利。模式挺传统的，拿一笔投资，把产品做出来卖出去，赚了钱再做更多设备，一点点滚。后来没做成，原因很多，跟疫情有关，跟在美国做也有关系。在美国做这个本身竞争力不强，要是在国内可能会好很多。不过这也让我的创业理念发生了转变，需要更关注健康的商业模式、更强调“通用”。

新物种：你当时重返学术界，是因为上一段创业画上了句号吗？除了带领了一系列自主导航算法的工作，也有参加DARPA Challenge。

张楫：准确来说我当时也没有完全离开学校，一直两边都在。后来那边经营得不是太好，我就回来了。

DARPA Challenge 是大概五年前的事了。当时我们这套系统快要搭好，相当于给学校团队提供技术，运用其中部分模块参加了比赛。它是地下挑战赛，在一个比较难处理的地形环境里，路面不平整，有各种各样的障碍物、水，各类机器人需要在地下做探索、找东西。它主要考察的是机器人系统整合起来的整体能力。当时运用了多辆车、波士顿动力的机器狗以及无人机，也算是有收获，获得了“探索最多区域奖”。

02. 机器人的安卓

新物种：你回到CMU后在学术上有不少成果，为什么会在这个时间点决定再次创业呢？是和林郑直一拍即合了？

张楫：也不是一下就一拍即合。

我们的想法比较接近，聊了几次，觉得这东西有希望，大概能做成。我们这边创业风气一直挺强，从我导师那辈就开始。我回学校之后也一直在关注创业机会，不是说做学术就不管这个了，也有学生出去创业，但跟我兴趣不太对得上——比如有人去做生物实验室的机器人，拿试管试管贴标签等，也很有意义，但不是我特别想做的。

我和Alex（林郑直）一开始想法不太一样，但在推进研究项目的过程中，idea不断地迸发碰撞，逐步在去年年底、今年年初收敛到一起，就决定来创业，抓住通用的“核心系统框架与泛化能力层”这个核心亮点尝试。

新物种：刚刚你提到了创业理念的变化，能展开讲讲吗？

张楫：我之前的思路跟我第一次创业有关——拿一笔投资，快速把技术做成产品，卖出去，赚了钱再养团队、做更多产品。这套模式压力很大，从公司运营的角度，太多环节可能出问题。我上一家公司就是这样，很多事不是你能掌控的，市场本身就有风险。

那次没做成，回学校之后，我一直对这个模式印象不太好。一个公司要做下来，每一步都要走对——任何一个环节出问题，可能就下台阶了，一步一个台阶就越来越往下走。所以那之后我觉得风险太大，一直没再尝试。

而我们现在的目标是做一套通用系统框架。具体来说，我们不是做操作系统，而是做一套可复用的“基础能力框架+系统调度层”。

既然是通用的，就可以跟市面上各种硬件平台结合，也可以自己设计硬件，和硬件公司合作或者OEM都可以，风险就低很多。试了一个不行还有别的，每个平台背后都有自己的应用。我们称之为“机器人的安卓”，就像安卓在各家出的硬件上都可以跑，我们的系统也是在各种硬件平台上和应用上面都可以。

回想之前失败的经历，我觉得这样操作抗风险能力会强很多——面铺得大，抵抗问题的能力增强，风险自然就低了。

新物种：TARE 和 FAR Planner 这两个算法是你们这套框架的核心吗？这套开源了三年的导航系统具体由哪些部分组成？

张楫：它们其实是其中两个模块，一个做长距离路径规划，一个做探索。但我们是一套完整的架构。

最下面是状态估计和建图，这是基础。往上是中间层，有避障、地形通过性分析、轨迹跟踪控制这些基本模块。再往上，有全局规划、探索，还有语义层面的环境理解，我们现在也在尝试让人理解语言指令。另外也包括手臂操作的部分。从底层到上层，大概就是这样一套系统。

TARE项目链接：https://www.cmu-exploration.com

新物种：所以你们是聚焦导航，但也做更精细一点的Manipulation（操作），或者Locomotion（运动控制）？

张楫：Locomotion我们不太会去做，倾向于用硬件厂商自己开发的——像宇树，它对自己的平台最了解，所以我们用硬件自带的。

导航是我们的强项。这套系统大概花了十年，以及是 DARPA 地下挑战赛之后做完整的，这几年又在各个平台上测过。轮式、足式、人形都跑了，轮式里面又分好多种：两个主动轮的、四个轮子不能转向的、六轮越野车、前轮转向的汽车、后轮转向的叉车——各种各样都部署过。

这套导航系统是我们自己开发的，但从公司的角度，我们会把它长成一套通用、完整的系统框架。这里面也包括操作，虽然不是我们最传统的强项，但已经在做了。最通用的部分就是导航，一般的系统开发出来只能适配一两种硬件平台，我们能跑在各种硬件上面。再往上，像手臂的操作，相对也能做到通用。所以整个架构是比较通用的。

03. 要落地，不要性感

新物种：你们走的是分层的技术路线？现在不少公司讲的故事是端到端、VLA大模型这类比较sexy的，你是认为多模型滚动落地的方式更高效和更现实吗？

张楫：的确，我们是一套完整的系统架构，AI 的部分是通过架构来部署的。

现在一个大模型直接部署到机身上，最大的问题是泛化。它在有限的场景里做一两个动作，可以很丝滑。但真要泛化到能落地应用的级别，就不稳定了——首先很难覆盖那么多场景，就算覆盖了，每个场景的功能也不一定能保证。

我们的想法是，通过这套通用的系统架构去调度模型，不要求它泛化范围那么大。它不需要自己撑起整个应用，因为系统本身有调度能力。我们只需要它在某一两件事上做得很稳定、很丝滑，就可以了。这相当于把门槛降下来——大部分模型不需要大范围泛化，就能集成进系统里受调度去落地。

模型泛化本身是件耗时耗力的事，需要采闭环的、人遥操的数据，过程漫长又昂贵。而且不光是数据量的问题，让一个模型在各个场景做各种事都稳定，本身就是技术难题。我们的想法是，通过系统架构给模型一个机会——在它还没完美泛化的时候，只要擅长做一两件事，做得稳定，就能发挥作用，这样可以让模型提早落地。

这样更现实，落地也快很多。如果指望模型靠数据采集慢慢训练，那是很遥远的事。有些人说已经很近了，但我觉得并没有。就算真能成，也需要相当漫长的时间。

新物种：既然聊到数据了，我也问一下这方面的问题。你们的数据偏好是什么？是更注重真机数据，还是互联网视频或者仿真数据？

张楫：我们的重点在于分类与按需选择。从系统框架来讲，这也是降低门槛的一个途径。

用端到端模型训练需要大量数据，但有了我们这套系统去调度任务，很多相对简单的事，并不需要用遥操系统采回的高级数据去训练。甚至网上训练的语义分割模型——那种从网络图片标定来的传统CV模型——也可以集成进来，发挥很大作用。

比如抓一个像盒子那样规则的物体，用网络图片训练的视觉模型，加上一点操控算法，就能做得很好。而遥操系统训练出来的模型，优势在于更高级的任务：一连串动作要联系起来，像打开瓶子需要两只手配合。那种确实需要遥操数据。

但日常任务里，不是所有事都那么高级。大部分相对简单，不需要走繁琐的遥操训练流程。每个模型在这个系统里都有自己的角色。

相反，当你手上只有一个庞大的高级模型，要让它泛化到任何场景做任何事，才真的需要海量的遥操数据。而从系统架构的角度，它可以集成不同的模型，一些简单的操作，完全可以用网络图片训练的模型来调度。这样，不是所有任务都需要遥操数据去训练，成本和落地时间都能大幅降低。

新物种：这样子会不会产生另外一个问题，就是比较难去解决那些长程的、复杂的操控任务？

张楫：那些复杂的任务，确实还是需要通过遥操中心去采数据。我说这样可以降低落地门槛，意思是——当它们还没泛化到那么完美的时候，就已经能达到落地使用的要求了。相当于门槛被大幅降低，在它本身还没那么成熟的阶段，就可以开始被使用。这在商业上，在技术发展上，都是比较有意义的一步。而且一旦用起来，真实场景的数据回流，反过来也能加速模型侧的迭代。

新物种：那你们为什么更关注像巡检、配送这些比较枯燥的任务？选择这些场景有什么特点或共性？

张楫：说是比较枯燥，其实是市场上需求比较大的任务。机器人的大部分应用，可以分成这么几类，包括导航和移动物体。我们其实是想要提供这些比较基本的功能。

但“基本功能”并不是说“简单功能”。现实中大部分机器人应用就是“导航+抓取+空间语义理解”这几个基本能力的排列组合，我们把这些building blocks做稳做通用，开发者拿去组合就能出应用，甚至包括我刚才说的在生物实验室里拿试管——那也是导航加抓取。当然可能也需要适当改造环境，比如在试管上贴个标记，让它能认识。

新物种：那你认为2026年具身智能的关键词会是什么？

张楫：我觉得今年具身智能的关键词是“落地”。在真实的应用中稳定运行，在用户的手上以及不同的应用场景、硬件平台中使用。

- End -

-往期推荐-

专访谱乐AI CTO吴杰：不做模型，做AI音乐的“水电站”

不融资的办公agent，跑出千万美元ARR｜对话Kuse CTO徐雨豪

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

从最底层架构开始

02.

机器人的安卓

03.

要落地，不要性感

做机器人的「安卓」,为何要绕开端到端VLA?|对话CMU科学家张楫

最新文章

热门文章

随机文章

做机器人的「安卓」,为何要绕开端到端VLA?|对话CMU科学家张楫

从最底层架构开始

02.

机器人的安卓

03.

要落地，不要性感

安卓手机部署 OpenClaw【龙虾】保姆级教程

扬程数字人系统|安卓与Windows差异详解

最新文章

热门文章

随机文章