乘凉，我的保研经验贴 • Axi's Blog

前言#

一直以来都有一些同学向我询问保研经验贴的事情，因为各种事情的耽搁，反正是拖延了一段时间，但是细想下来，一直拖延似乎也不是办法。保研已经过去了，就像过去的三年时间一样，一些故事还在继续，一些故事也是时候需要划上一个句号了，综上，还是写下了这一篇经验贴。

不过对于大多数的读者来说，可能这篇经验贴会让大家失望，我不打算讲什么经验，虽然并非是我自私，而是之前的博客致新生的你已经将大部分的内容讲完了，因此这篇博客还是简单回顾下，这段时间以来都发生了什么，希望读者看后也可以从中有所收获。

过去的事#

这实际上是一段相当无趣的故事，毕竟简短来说，我从大一开始就决定了我想要去的实验室，之后两度辗转，在本校实习之后前往 SHAILAB，几乎就已经锁定了 Offer，接下来更多的时间反而是在做一些有趣的事情，而非保研。接下来从起点开始从头说起。

故事可能要从高中讲起，因为学校秉承的素质教育，早在高中时期我就接触了 RoboMaster 比赛。讲实话，当下回头来看，这个比赛其实相当无聊，使用 DJI 提供的 RoboMaster S1 机器人套组，使用神似 Scratch 的图形化编程来写一些巡线以及识别的程序，然后打比赛。比赛说是机器人比赛，其实贯彻了 RM 的基本理念，也就是对抗游戏，类似 FPS。机器人有压控的装甲板，并且可以发射水弹，从此可以计算血量，之后在一系列的规则加持下，就成为了对抗以及推塔的竞技比赛了。

这些比赛讲实话没有给我什么技术沉淀，但是让我记住了这个比赛，以至于到了大学，提前学完了高数线代的我百无聊赖，打算找一些机器人比赛参加，第一时间就找到了学校的 RoboMaster 队伍。

对于本来也不是很愿意和别人主动交流的我来说，这可能是一个影响深远的决定，彼时正值口罩时期，本来也不需要去线下上课，而是在学校上着网课，于是我就在 RM 的实验室里一边写程序，一边听着课。时间在口罩和核酸排队中匆匆过去，在回过神来的时候，确实已经和舍友们都算不上熟络了。

我可能相对更加喜欢 technical 的内容，这与大多数的同做科研的朋友们可能并不是很相似，究其根本可能还是因为科研本身也不是因为什么崇高的理想才去做的，而是因为相对来说更加有趣一些。RM 的前前任视觉组组长 WJH 学长，虽然事实上在当时以及之后也没有很多的交流，但是还是有效帮助我打破了信息差。一方面，当时意外考得比较好的我了解了绿群，从而开始了保研之路；另一方面，也是在当时开始了解了科研，从之前广泛学习 Machine Learning 以及 Traditional CV 到开始聚焦于科研领域，当时的我确实叹为观止，原来之前的道路背后居然有着这番光景。

接下来就开始了在 Deep Learning 中广泛的学习，其中最令我印象深刻的还是 Diffusion 的过程，后续还甚至艰难地推导了一遍 Score-based Diffusion。本校的老师很少有做 GenAI 方向，现在想来大概率也是因为算力问题，XJTU 虽然「贵为」 C9，但是事实上大西北前不着村后不着店。我在本校接触的算力，大多数也以混用的四卡 2080Ti 以及 3090 为主。当时我找到了本校的周老师，还是因为看到其 scholar 中包含了一些 inpainting 领域的论文，心想能否做些相关的内容。

实际上事与愿违，周老师其实更多做的是相关多目标检测的 topic，也是打算在医学领域安排一些注意力，于是让我看一篇半监督医学影像分割方面的论文。当天吩咐完任务之后我就复现了论文，然后尝试自己进行了一些修改，在此之后也是进行了若干次组会，忽然间一个 idea 涌上心头，于是有了这篇论文 PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation ↗。验证了 Idea 确实 work 之后，接下来就是一系列紧张的对比以及消融实验，最后投稿了 CVPR 2024，不过因为赶稿，确实犯下了不少的粗心失误，不出意外被拒稿了。

回看第一段科研经历，其实大多数时候的 coding 以及探索都是自己进行，然后主动找老师进行 meeting，来看下接下来是不是有什么需要修改的内容，而没有前辈引路。好在之后再打磨，然后转投 ECCV 2024，还是遇到了心软审稿人，最后 443 初分，然后在 rebuttal 之后拿到了 554，虽然说貌似 meta reviewer 不是很喜欢，但是依然是中稿了。

在当时 ECCV 2024 的期间，事实上我还在进行周老师课题组中继续进行另一个关于所谓 meta learning 的工作，尝试投稿了 ICLR 2025 之后便不再进行。

在医学影像中受限于沉没成本而摸爬滚打了一年之后，我最终还是决定跳出自己的舒适区。一方面，半监督医学影像某种程度上依然是一个伪命题，我们的优化限于使用五张 labelled data 超过使用 80 张 labelled data 的效果，这种 limited data 的实验条件显然和更广泛的半监督领域 leverage 大量 unlabelled data 的思想相左；另一方面，一些 hack 的现象也是令人哭笑不得，诸如单纯换了 K-fold 之后模型性能就下降 10 个点，此类现象层出不穷。

在向朋友们进行了请教之后，对于将来从事的领域，我大概也有了两个选择。在经典二择，选择 MLLM 还是 Embodied AI 中，因为早些年一直都在进行机器人领域的探索，于是选择了如今看来可能泡沫更大的 EAI，义无反顾地前往了大一时候 WJH 学长和我聊起科研的时候就向我提起过的 SHAILAB。当时我的印象十分深刻，实习工资一天三百，还有单人间的多人套间公寓，满足生活需要之后岂不是可以更加自由地探索技术以及科研了？虽然当下来看，这些待遇在若干相似联培中已经不是最具竞争力的，但是好歹也算是白月光。

带着这篇 ECCV，我申请了 SHAILAB 具身智能中心（当时还是 OpenRobotLab）的实习，在和庞江淼老师套瓷了之后，经过了两轮实际上算是聊天的面试，就进入了如今 mentor 伦哥的麾下，在大二暑假进行了线下实习，并且在之后转到线上。大概从这时候起，其实也就算是锁定了 offer 了。

其实这是一个很有意思的事情，实际上我没有什么波澜壮阔的面试经历，大概是在恰当的时候，在运气的推波助澜之下，获得了稳定的Offer。要是想从其中进行一些复盘，大概我们可以得到的结论是，积极探索，趁早开始做自己认为对的事，永远对知识保持兴趣。

当然另一方面，对于一些同学来说，我的去向已经足够好，从中学习我做对了什么，已经可以带来不错的提升，但是对于另外一些人来说，他们想去更远的地方，因此不妨再仔细思考一下，在这一过程中，我有哪里做得还不够好。

一方面一定在于不要给自己设限。大一上学期结束的时候，也算是因为运气，恰好成绩不错，考到了年级第二，加上第一学期事实上已经学过了传统计算机视觉以及机器学习的大多数内容，并且刷了一遍李沐的 d2l，其实可以直接申请外校很好的课题组。从后面和我接触的低年级同学来看，相似的 bg 已经可以申请清北非常厉害的 ap 组，从而省去在本校科研获取论文当作跳板的环节。在自己手中尚且存有优势的时候，勇敢跳出自己的舒适区，抛下沉默成本，去做自己真正相信更正确的事情，而不是自欺欺人，这实际上很重要。

另一方面则是在于没有明确的指引。在这里再再再次给自己写的博客，致新生的你，打个广告。当然，无论这篇博客是否对你有帮助，甚至你并不是从事这个领域的读者，依然成立的要点是在于多去向别人请教，了解更加清晰而且正确的路线，省去试错的时间。乔布斯的一次大学演讲中提到自己早期在书法上的积累，在后续的字体设计中起到了作用，然而一个悲伤的事实是，在内卷节奏不断加速的现在，假如你还不能处于一个安稳的科研环境，那么现在绝非是后期而爆发的时候，而是要尽可能的加速。

在之后的保研故事就显得平平无奇了，到了 AILAB 的夏令营期间，在 hr（还是说叫 ur 之类的岗位）的提醒下报名，然后线下参加了笔试和面试。

值得称道的是，在 AILAB 的夏令营，也是进行了我的唯一一次和绿群群 u 的面基，当天一起去吃了火锅，但是只能说运气不佳，那天选择的海底捞麻酱一股怪味，或者说上海的麻酱大多如此，实在是糟糕。

当天晚上向久经沙场的群 u 请教了机试的心得，传授给我了代码随想录的刷题列表，并且着重学习了 dp，搞定了状态转移方程，并且定下了使用 Python 从而放弃卡时长题目的方法，好在最后的题目还算仁慈，也是成功 AK。

之后参加上交的 CS 的夏令营，也基本上没什么悬念，面试基本上就是在和老师聊天，后续听说只要入营就一定是优营，倒也就不奇怪了。

科研的路#

说完保研，也是简单再说一下科研，尽管说貌似并不是这篇应该讲的正式内容，但是毕竟保研的路还是和一直以来做的科研紧密相关，所以也可以简单聊一聊。

我其实已经很久没有从科研中获取本质的乐趣了，而是一直在一种内耗中，尝试去寻找更大的价值。

在长时间的竞争之后，我逐渐发现超越我认识的每一个人，甚至大多数人，都是一件不切实际的事情，遂放弃了 peer pressure，并且丧失了 paper 焦虑，但是失去了这些焦虑的推动，一种更大的徘徊在不远之后的日子的阴影开始笼罩了我：假如说从事我目前所在的领域并且读博是一件必须要做的事情，花费了五年时间之后，我究竟是否真正完成了一些事情，改变了某些领域，或者对某些领域的某些人带来了影响？

在 SHAILAB 的第一段项目的阶段性产出是一篇叫做 GenManip 的论文，在投稿了 CVPR2025 之后以 5442 遗憾获得了 poster，大概原因是 rebuttal 期间漏掉了一些问题，导致 3 分审稿人降分。

GenManip 的初衷其实相当明确，在去年的当下，我们看到了一些模块化的方法开始出现，比如说 CoPA 以及 MOKA，并且认为在短时间内由端到端模型实现通用的操作智能还是不现实的，因此推断使用大模型进行推理并且实现的分层式架构以及双系统可能是未来的一个趋势，因此在仿真中制作一个对应的 Benchmark 是比较有价值的。

我们使用了 Isaac Sim 作为仿真器，并且搭建了一套根据 scene graph 来验证是否成功或者生成使用 layout 的算法，这套算法相当 naive，但是好在有效。在这套内容的基础上，我们搭建了模块化的方法，并且意识到了这套方法可以用来收集数据。

本身 CVPR 的内容还算收敛，关于如何搭建 Benchmark，批量生成，以及我们的实验结果，但是在此过程中，我开始投身于我认为很有价值的内容，也就是数据生成。

在短期之内，具身智能领域贫瘠的数据依然是限制其智能程度的一个重大缺口，而从仿真出发对于数据的研究。最次的角度来说，sim2sim 具有更低的成本，可以快速生成大量的数据，研究模型在 in-domain 上的规律，仿真对于变量更加可控，可以为 real2real 的模型迭代提供超前的 insight；而假如可以打破 sim2real 的 gap，这甚至是唯二不需要人工参与的数据飞轮（另一个是 world model 的视频生成）。

而长期来看，假如任何备受关注的领域，最后的发展方向都是沿着 scaling law 进行探索，对于具身这一包含大量 technical 细节的长链路领域，自己走通数据-模型-实验的闭环，确保自己对于真机以及仿真都具有足够的工程能力以及 insight，这也是必不可少的。

使用 skill set 的方式实现泛化的数据生成是可能的，至少对于大多数场景并不需要过分的 hardcode，GenManip 在投稿之后的后续开发一直聚焦于此，并且做出了很多的改进以及完善，说起来在内部迭代之后，最近可能也要进行更正式的完全开源。

在此之前，我们基于 GenManip 已经产出了大规模的 scaling up pick-and-place 数据集 InternData-M1 ↗，Evaluation 部分 contribute 给了 InternManip ↗，一个 all in one 的 manipulation 训测一体工具链，而 well-designed 的十个双臂上的任务也作为我们 IROS Workshop ↗ 的 Manipulation 赛道赛题存在。

GenManip 在内部的迭代中从用户的角度出发，从而设计了一套 Config，可以进行定制化的 Layout 设计到 Object Scaling，可以简单改动就提高数据的 horizon 长度；而假如说想要快速设计数据生成任务，也可以在三分钟内完成，并且在之后会支持 Articulation object 的 general scaling 的支持。这一方面的算法实现事实上早在今年年初笔者就已经有了雏形，而论文 ArticuBot 也用类似的发表了论文，被撞车让我失去了紧迫感，一拖再拖。

一个有趣的视角是从长期主义出发。过去的一年，我都在进行仿真以及数据生成的工作，直到今年上半年也并没有过多的论文产出，但是一个简单的事实是，只要你做的事情是必要的，那么就会被其他人需要，合作以及更多的内容也就纷至沓来，因此读者不难在这段时间实验室具身智能中心的一些成果中看到我的身影，比如说，欢迎关注我们 InternVLA-M1 ↗ 的技术报告。

事实上，在写下这段文字的时候，我自身依然处于一定的焦虑以及困扰之中，在科研的道路上，我远远称不上一个 senior 的 researcher，而是相当 junior，甚至可能连合格的 researcher 也还差得远。

仿真的道路不是可以一直进行下去的，至少 general scaling 是这样的。伴随着技术的发展，对于软体及流体的仿真会越来越真实，渲染的质量也会越来越高，sim2real 的 gap 会越来越低，但是 general action scaling 是有极限的。对于 pick-and-place 以及 1-dof articulation 来说，我可以确信他们有一个通用的算法可以适用于绝大多数的物体以及场景，但是当我们将目光放到软体在内的一系列操作中，general 的成本会变得越来越大，并且 corner case 也会越来越多，这意味着时间成本，以及对于精通仿真的高级人才缺口。

从成本的角度来看，只有深耕于仿真以及数据生成这一领域的人才能写出相对更加 general 的 skill；现如今支持数据采集的大多数 Benchmark，大多数都是通过单任务的 hardcode 实现，这降低了 engineer 的技术栈要求，并且在降低了项目管理难度的同时增大了开发的并行度（可以一人一个 skill）；而在资本入局的当下，大量的数据工厂开始建立，需要的成本变得更低，对于劳动力的培训需求也更小，即将成为不可阻挡的未来。

似乎是时候从数据和测评中脱身出来，带着目前的理解前往模型领域了，然而比起一篇或许可以中稿的论文，实际上现在往往困扰我的是，这篇论文所选择的路线是否值得我的下一个一年，是否像是上一个一年一样，即使我回头去看，也依然是有必要以及有价值的。

这个问题也同样留给读者，假如说你和我一样处于 junior 的阶段，并且想要长期从事科研，你现在在做的事情是否值得你的一年时间，而不是一个审稿周期，而假如说放眼整个博士生涯，这件事情又该是什么。

尾声#

行文至此，也是时候给一切画上一个句号了，保研结束对我来说只是一切的开始，对于过去现在或者将来的读者们来说应该也是如此。

转眼间已经三年过去，经历了多少个日夜之后，下一条路又在哪里？这是一个问题。