Axi's Blog
周记 Week52Blur image

这已经是很久之后才写的一篇周记了,本来以为这次会很快就记录下来。现实却没想象中那么顺利。

夏令营#

我记录的这周的前一个周末,我参加了 AILAB 的夏令营,活动一直持续到了这周的周一。周一是面试,面试的老师基本上都是我平时就认识的老师,加上前一天还有一个和老师们线下见面的交流活动,也算是提前联络了一下关系。

面试过程中主要介绍的是我在这个实验室里做过的项目。说实话,没什么需要特别解释的细节,因为即便我说得不清楚,老师们其实都知道这些事是我做的——从项目建立之初到现在的整个演进过程,大家都看在眼里,也就不会怀疑答不上来是我套用别人的内容什么的,更何况其实我这边回答的还是很流畅。基本上,我完成了绝大多数核心内容。

最后老师们问了几个和领域相关的问题,比如对未来发展的看法、有什么计划之类的。因为没提前准备,我就干脆随便说了一下。我现在最看重的还是具身智能方向中,如何实现指令跟随级别的泛化能力。因为让一个机器人执行特定精细操作,其实从任务设计上并不是难事,关键是怎么让一个机器人,像 VLM 模型那样进行泛化,这是目前的关键问题。

现在行业内的瓶颈还是数据为主的问题,要么靠人工构造数据,要么从 VLM 这样的模型里迁移泛化能力,这两条路线其实都在探索中。不过目前在底层建模这块,我们改用的是业内顶尖 VLM 模型的 Transformer 权重,虽然模型本身能力很强,但在我们的场景中并没有表现出很好的迁移能力,反而像是学了两个毫无 overlap 的技能:一个是语言,一个是动作。我其实认为这本质上是因为改变了模型本身的 Encoder,导致其实模型被迫去学习了新的分布,也就不具有之前的迁移能力了。假如说设计一种 Encoder frozen 的架构,或许就可以好很多。

琐事#

夏令营结束后我就回学校处理了一些事务,包括继续推进之前 ECCV 报销的流程。只能说各种审批、盖章周期都很久,毕竟出去开会甚至已经是去年这个时候的事了,现在才刚刚走完流程。好在问题不大,不然这笔钱可能还得让之前课题组的老师来报销,那样就太麻烦了。虽然我现在和那边的老师关系还不错,但当初从那个课题组离开的时候,多少还是有点小小的不愉快。

回到西安办完事后,我又参加了学校组织的一个线下专业实习动员会。之后就继续搞科研了。

这周的工作主要围绕着 GenManip 框架的扩展。之前 GenManip 支持的是通用抓取,因此可以在一个几万个物体的大规模数据集上做 scaling 实验。虽然效果不错,但一些 concerns 依然是可能会带来比较多的不确定性。比如说目前的 grasp proposal 使用的是 AnyGrasp,从好的方面想,是提供了更 diversity 的 grasp pose,但是另一方面,更随机的内容必然也会更不好学,因此我们准备引入更多新的 feature,让它可以退回成其他那些做数据生成的系统,也就是手动的纯 step by step 的 design。

在当前的框架中,扩展这些功能其实并不复杂,很多逻辑可以写成类似 script 或 config 的形式,简单设定后就能跑起来了。这部分就是我下周要完成的工作。

说到底,这周其实一直都在奔波。因为上周末刚到上海,周中又回西安办事,然后又回到上海,光是路费就花了不少。接下来的日子会稍微平淡一点,毕竟课内任务已经都完成了,可以安心把精力投入到科研上。当然,学习还是得继续,这点没办法逃避。

周记 Week52
https://axi-blog.pages.dev/blog/week-52
Author 阿汐
Published at July 7, 2025
Comment seems to stuck. Try to refresh?✨