周记 Week52 • Axi's Blog

这已经是很久之后才写的一篇周记了，本来以为这次会很快就记录下来。现实却没想象中那么顺利。

夏令营#

我记录的这周的前一个周末，我参加了 AILAB 的夏令营，活动一直持续到了这周的周一。周一是面试，面试的老师基本上都是我平时就认识的老师，加上前一天还有一个和老师们线下见面的交流活动，也算是提前联络了一下关系。

面试过程中主要介绍的是我在这个实验室里做过的项目。说实话，没什么需要特别解释的细节，因为即便我说得不清楚，老师们其实都知道这些事是我做的——从项目建立之初到现在的整个演进过程，大家都看在眼里，也就不会怀疑答不上来是我套用别人的内容什么的，更何况其实我这边回答的还是很流畅。基本上，我完成了绝大多数核心内容。

最后老师们问了几个和领域相关的问题，比如对未来发展的看法、有什么计划之类的。因为没提前准备，我就干脆随便说了一下。我现在最看重的还是具身智能方向中，如何实现指令跟随级别的泛化能力。因为让一个机器人执行特定精细操作，其实从任务设计上并不是难事，关键是怎么让一个机器人，像 VLM 模型那样进行泛化，这是目前的关键问题。

现在行业内的瓶颈还是数据为主的问题，要么靠人工构造数据，要么从 VLM 这样的模型里迁移泛化能力，这两条路线其实都在探索中。不过目前在底层建模这块，我们改用的是业内顶尖 VLM 模型的 Transformer 权重，虽然模型本身能力很强，但在我们的场景中并没有表现出很好的迁移能力，反而像是学了两个毫无 overlap 的技能：一个是语言，一个是动作。我其实认为这本质上是因为改变了模型本身的 Encoder，导致其实模型被迫去学习了新的分布，也就不具有之前的迁移能力了。假如说设计一种 Encoder frozen 的架构，或许就可以好很多。

琐事#

夏令营结束后我就回学校处理了一些事务，包括继续推进之前 ECCV 报销的流程。只能说各种审批、盖章周期都很久，毕竟出去开会甚至已经是去年这个时候的事了，现在才刚刚走完流程。好在问题不大，不然这笔钱可能还得让之前课题组的老师来报销，那样就太麻烦了。虽然我现在和那边的老师关系还不错，但当初从那个课题组离开的时候，多少还是有点小小的不愉快。

回到西安办完事后，我又参加了学校组织的一个线下专业实习动员会。之后就继续搞科研了。

这周的工作主要围绕着 GenManip 框架的扩展。之前 GenManip 支持的是通用抓取，因此可以在一个几万个物体的大规模数据集上做 scaling 实验。虽然效果不错，但一些 concerns 依然是可能会带来比较多的不确定性。比如说目前的 grasp proposal 使用的是 AnyGrasp，从好的方面想，是提供了更 diversity 的 grasp pose，但是另一方面，更随机的内容必然也会更不好学，因此我们准备引入更多新的 feature，让它可以退回成其他那些做数据生成的系统，也就是手动的纯 step by step 的 design。

在当前的框架中，扩展这些功能其实并不复杂，很多逻辑可以写成类似 script 或 config 的形式，简单设定后就能跑起来了。这部分就是我下周要完成的工作。

说到底，这周其实一直都在奔波。因为上周末刚到上海，周中又回西安办事，然后又回到上海，光是路费就花了不少。接下来的日子会稍微平淡一点，毕竟课内任务已经都完成了，可以安心把精力投入到科研上。当然，学习还是得继续，这点没办法逃避。