再次来到 VLA 的巴别塔/StarVLA 初版技术报告 • Axi's Blog

前言#

StarVLA 自去年的发布以来，在社区的自发宣传之下，我们逐渐拥有了 1.5K 的 star，并且慢慢发展为 VLA 领域开源工作中的中坚力量。在经过了相当长一段时间的思考和探索之后，starVLA 的故事还在继续，我们做了相当多的实验，重构了一些代码，并且整理了一直以来的结论，形成了第一版的技术报告。

starVLA 是一个全栈的 VLA Infra 框架，从训练模型到 Benchmark 测试再到真机部署；starVLA 提供了通用的框架，无论是 VLM-VLA（也就是我们常说的狭义上的 VLA）还是 WM-VLA（现在更多称之为 WAM 或者 VA）都可以在其中自由地训练；starVLA 提供了更加 simple yet effective 的 baseline，可以成为无论是企业还是学界更好的 starting point，当然，我们也可以 VL-cotraining，可以跨本体混训，也在和 RLinf 合作支持 RL；starVLA 也具有相当不错的运行效率，技术报告中我们展示了我们的训练效率，相较于已知的几个同类框架可以更好（btw 这些框架的作者也是我们的好朋友们，peace and love），与此同时我们也很高兴可以看到诸如 ai2 的 vla-eval 也支持 starVLA 的评测，使得在原生 starVLA 评测相当优异的灵活性基础上进一步提升了效率……

starVLA 故事的开始来自于几位主创的发起，但是 starVLA 的今天离不开社区里面的每一位成员，无论是重大的支持，简单的 PR，还是更多的在通过使用以及部署的大家，你们都在帮助我们拓宽着 starVLA 的边界。starVLA 具有一个长期维护的 author list 以及一个长期发展的愿景，以往的社区贡献者以及未来的，都会在我们的作者列表中～

统一的巴别塔#

伴随着具身智能逐渐成为当下 AI 领域的中的热点之一，我们很高兴可以看到各种方法、结构以及设计百花齐放。一些新名词被提出，从一开始的 VLA，在此基础上添加的诸多表征学习以及更多 perception 输入版本的 VLA，之后的双系统，然后再到 WAM 以及 VA，技术名词迭代的背后是技术路线的更新，而无论是实验室还是企业，去追逐当下热点总是无比现实且不得不做的选择。

然而从制作一个更加通用的 codebase 的角度，我们似乎找到了其中的统一点。事实上，训练模型，究其根本而言就是使用一个 trainer，将包含一些信息的数据输入到模型之中，并且求出损失，然后反向传播，并且加以优化。

那么对于 VLA 领域来说，这里的输入显然必须要包括视觉输入，用来实时感知环境，我们可以称之为 V；同时，语言也是必不可少的，毕竟我们希望搭建一个更加通用的模型，自然需要有一种途径来输入我们的意图信息，当然，这些信息可能也会用其他的形式来表示，比如说 goal image 的 token，但是从本质上，它们都包含了一定程度的语义信息，姑且可以称之为 L；而最后模型必不可少的必然是包含对于机器人的控制信号输出，也就是 Action。由此我们可以得到一种更加广义的 VLA 范式的概括，无论是基于 VLM 还是 World Model，它们本质上都享有一些共性的输入以及输出形式。

只不过在此基础上，如果你需要预测未来，那么对于输出可能要加上额外的 vision 监督；如果你需要进行 planning 或者 reasoning，那么输出中可能包含了更多的 language 信息；与此同时，如果你依赖于触觉或者深度信息，那么自然在输入上可能也会多出一些内容。在这些内容的基础之上，最后我们可能才会开始考虑对于模型结构上的替换。

事实上，从范式上来说，当我们不基于 World Model 去搭建模型，使用某些 token 来预测未来的范式，早在去年甚至更久以前就已经广泛出现了，只是那时候基于 VLM 的学习似乎并不是完全有效的，同时一些来自于 world model 的范式也没有被大量应用在 VLA 之中。在技术报告中，我们将目前主流的 VLA 以及 WAM 范式变体为 VL-LA 以及 VL-VA 以表示它们本质的形式，而从实现上，也可以称之为 VLM-VLA 以及 WM-VLA。

在此基础之上，我们也就只需要搭建合理的 dataloader 就可以让一切正常地运行了，我们也是如此去实现的。因此在不久的将来，我们可以看到基于 Cosmos 以及 Wan 的模型作为 baseline 出现在我们的更多汇报之中。值得一提的是，它们的性能看上去也都相当不错。

未来的事#

在一个日新月异的领域中，一次暂时的汇总固然是令人欣喜的。我们很高兴为社区带来我们最新的成果，以及更多的重构和功能更新，但是这绝非一个终点，一直以来 starVLA都会作为一个开源项目去持续维护，我们会在未来看到更多的技术报告，更多基于 starVLA 框架的探索，以及持续地将易于上手的特点继续优化，并且和社区中的更多组织和项目形成更广大的生态。

26 年显然又是一个加速发展的年份，有那么多事情等待我们去做，无论是更好的 WM-VLA，还是说如何利用 human data, 又或者怎么进行长程的操作，如何把记忆功能实现得更好，怎么在 VLA 之上搭建一个更加稳定运行的 Agentic框架，无数的问题和想法在我们的面前盘旋，而我们迫不及待将他们介绍给你们了，在由 starVLA 搭建的基石之上，我们希望看到更加快速的迭代。

至于现在，至少是一个暂时的逗号，我们可以停下来看一看这段时间以来取得的成果。一些更多的实验会在另一篇论文中在最近放出，一些看过的朋友都在相当程度上表达了对于我们大量实验以及分析得到的 takeaway 的喜爱。无论如何，这是下一个正式版本了，希望你们喜欢。

官网starvla.github.io

GitHub 仓库github.com/starVLA/starVLA

文档starvla.github.io/docs

技术报告arxiv.org/abs/2604.05014