Axi's Blog
周记 Week59Blur image

前言#

继上周把全部的 IROS Challenge 相关的内容都做完了之后,这周可以说基本上都恢复了摆烂的节奏,重启了大量的论文阅读,以及 Blog 的构建,同时也正在思考下一个计划,一个能让我做下一个一年的事情。

科研#

所以说还是说回到科研的事情,基本上 IROS 这边已经彻底没有我需要负责的事情了,也就是假如说还有一些 Bug 的修复,或者是一些小功能的添加,我或许可以帮上忙。

这一周重启了大量的论文阅读,读者应该不难看到我的 Blog 里面如今又已经充满了各种的 Paper Reading 的内容,当然,本阶段依然是以 Embodied AI 的领域内容为主,而且主要是 Manipulation,后面应该会逐渐多读一些其他的内容,比如说 MLLM 和 Unified Model 的相关内容,当然还有 GenAI 相关的。当下来看似乎 World Model 很火,应该后面也会有一些想法。

为了加快我的 Paper 阅读的速度,以及浏览的市面上大多数的如 papers.cool 这样的网站之后,我沮丧地发现了目前貌似大家对于 CS.RO 分区的内容并不是很关注,大家都会推送诸如 CS.AI 以及 CS.CV 的内容,也就能覆盖我需要阅读的 MLLM 的内容,但是除此之外,Robotics 的内容却没有人做。因为之前做过一些 Arxiv 相关统计的内容,加上 Cursor 大显神威,因此我也是再次重启 Vibe Coding,花了几天写好了 Arxiv Reader 这个项目,也就是一个可以使用 GPT API 以及 Gmail 的 SMTP 去每日推送 Paper 邮件的项目,顺带一提,也已经开源,欢迎大家使用。我现在订阅了 CS.AI, CS.CV, CS.RO 三个分区,假如有领域兴趣相同的读者,也可以把自己的 email 发给我,我把大家加入到推送列表中。

axi404 / ArxivReader

Waiting for api.github.com...

???
???
???
?????

当然,顺带一提,因为写 Paper Reading,我一般喜欢附上一些插图,为了保证我本身 Blog 仓库的轻量化,这自然就不可避免需要一个图床,之前基于 Vercel 和 Github 的图床基于 PicX 搭建,但是因为不想滥用公共资源,因此也已经废弃。

XPoet / picx

Waiting for api.github.com...

???
???
???
?????

于是也是基于 Cloudflare 的 R2 服务搭建了一个自己的图床,毕竟 Cloudflare 的 R2 几乎就是免费,10 GB 的存储加上不限流量而是按照访问次数计算,免费额度巨大,一个月根本用不完。这个项目叫做 astro-r2,我也进行了开源。

axi404 / astro-r2

Waiting for api.github.com...

???
???
???
?????

同时,Paper reading 的内容目前我感觉还是有一些流水线了,有的东西写的太过于简略,以至于基本上是完全给我自己看的,按照费曼学习法的原理来说,还是更详细地写出来会好一些。

同时我也在写一些更加严肃的博客内容,也就是成主题的自己的思考,目前一个系列应该叫做具身十日谈,第一期讲解了 数据与仿真器,已经写好了,欢迎大家去看。同时下一个选题大概率是 VLM 融入 VLA 的路线之争。这些内容应该也还是会反复打磨。

以及说起来之前的 Isaac 101 系列,现在发现制作起来非常的麻烦,因为有的时候需要引入一些动图,但是本身 Ubuntu 如 PixPin 一样好用的截图工具并不多,而目前笔记本的小屏幕来回切屏又格外折磨,应该会等到回到西交之后,用更好的设备去制作。

目前算是已经是有了一些初步的 VLA 相关的 Idea,对于仿真中的旅程,主线可能也会暂时停止,相关的看法也可以看我的第一期具身十日谈。简单来说,仿真本身确实很强大,能做到很多的东西,但是我目前所作的,生成泛化的 Pick and Place 数据,已经是能为打通 VLA 的 VLM 与 A 的 Gap 的最好性价比了,进一步的 1 DOF Articulation 数据的泛化生成本身也会完善,但是诸如仿真也可以做软体做叠衣服做流体,但是本身这些内容看上去变得复杂了,不过本身作为 researcher 在编程的时候,本身还是基于诸如 Isaac 的库去搭建,本身并不能帮助我的个人能力更进一步,而是一个庞大的 incremental 工作,应该会借助实验室的资源来慢慢推进了。

现在的问题变成了,我有高质量的数十万 rich annotation 的大量 diverse 的仿真数据,应该如何去利用这些数据,来构建一个更好的 VLA 模型,这应该是一个非常有趣的问题,也是我接下来一段时间的思考方向,甚至说证明 sim2sim 的有效性,而将 real2real 的问题推给业界,在成果足够 solid 的情况下也是可行的,至于自己 sim2real 甚至 (sim+real)2real,也就只能看运气了。目前的 Idea 相当有趣,但是能否妙手偶得之,还未可知也。

发散的思维说回,在工作量上,这周还是挂了一些数据的,并且做好了 grasp pose proposal 更优雅的解决方案,来自同实验室非常厉害的师兄。相较于目前市面上很多使用 GraspNet 或者 AnyGrasp,甚至比如说 NV 的 GraspGen,基本上都是使用模型,而这些模型的 GT,都来自于几个 GraspPose 的数据集,那些 ground truth 的生成方式被复现,并且用于管线,一方面不需要实时运算,一方面 Pose 也可以更加精准。

internrobotics / internmanip

Waiting for api.github.com...

???
???
???
?????

至于上文提到的 Idea,在和 mentor 聊过之后,打算搭建一套自己的 VLA 框架,而因为 Lab 这边的 InternManip 本身就包含了训练框架,从 GR00T 的代码中解耦而来,因此准备 Diff 一波,确保没有问题之后就开始在 InternManip 里面搭建自己的模型。毕竟 InternManip 在一段时间内还会是中心主推的框架,因此比如说一键测试或者类似的东西,还是可以让我的工作流程加速。假如可以顺手多 contribute 一些代码到 InternManip 里面也是何乐而不为。

NVIDIA / Isaac-GR00T

Waiting for api.github.com...

???
???
???
?????

生活#

无事发生,依然和乐小姐煲电话粥,我大概还有三周回到学校,完成最后未竟的事业,完成保研流程,想她。

周记 Week59
https://axi-blog.pages.dev/blog/week-59
Author 阿汐
Published at August 17, 2025
Comment seems to stuck. Try to refresh?✨