

前言#
在 ICLR 投稿之后,我因为长久以来的积劳成疾大病了一场,同时带来的问题也有心理上的低迷,以及对于科研激情的丧失。这其实并不是一个短期导致的问题,也不是出于某种来自科研长久以来的挫折。在和好友交流了之后,我也感觉是时候再次振作起来,所以决定写下来我的所思所想,然后再次出发。
事实其实是反直觉的,在去年的 CVPR 中稿之后,我一直在 GenManip 的基础上进行进一步的开发以及改进,解决数据问题是当下 VLA 最为重要的事情,而我们搭建了一个 Scalable 的框架。我也有着若干的合作,可以确保持续的论文产出;当然,也有一些内容可以沿着我为自己规划的主线继续探索。
然而遗憾的是,无论一切如何顺利地发展,问题依然在那里。任何一个深谙深度学习发展历史的人都会清晰地意识到,人工智能的黄金时代已经过去了,不再会有在这条漫长道路上的 milestone,不再会有下一个 Kaiming He 式的人物出现,即使是对于领域内具有短期卓越成果的论文,也仅仅是漫长线条上的一个点,而无数个这样的点组成的路线则通向了低垂果实之后的黑暗。
AGI 泡沫#
在 2022 年的现在,那时候 ChatGPT 刚刚横空出世,Scaling Law 向世人展现了它的威力。绝大多数的人都相信这条道路向人们揭示了通向终点的道路。
每个人都相信,不久之后,伴随着数据、模型设计以及算力的提升,AGI 就在这条道路的终点等待着我们。然而伴随着规模的扩大,提升则不再显著,之后 RL 出现,带来了更多的 Scaling 维度,下一次竞赛开始了。不过这就好似木桶原理一样,我们发现了其他的短板,并且可以在补全的过程中让模型变得更好,但是残酷的是,我们会清晰的意识到,这终究是一个木桶,而非一条无限延伸的道路。
模型的性能一直在提升,这是一件从 Benchmark 指标上就可以看出来的事情。伴随着不断的改进方法的提出,越来越多的数据的注入,无论是工业界还是学界,似乎一切都还是积极的模样。我承认这种现象的存在,但是在大家感慨这些领域内的进步和发展如此之快的同时,AI 却开始逐渐显露疲态,那些主干的方向停滞不前,Vibe Coding 在为不懂程序的人产出缺乏结构性并且滥用面向对象的屎山,我们开始发展新的领域并且从中定义新的问题。
当然,模型能力方面的问题,Researcher 自然有很多话可以说。这些问题可能来自于幻觉,某些可信领域的问题,某些数据的 imbalance,但是后人的智慧、某种训练范式、Scaling Law,他们能解决这些问题。不过这一问题确实也只是泡沫的冰山一角,毕竟从事实上来说,没有人能否认现如今 AI,尤其是 GenAI,已经完全重塑了这个社会的模样。没有人可以想象一个没有 AI 的世界,并且忍受那种下降的效率。然而一个更大的问题,一个在业界头顶的乌云,便是应用场景。
假如说 LLM 的用处是 Coding Agent,然而依然并不能成功解决一些真正困难的编程问题;AIGC 可以生成图片或者视频,沦为短视频中的素材;WM 的投入可以生成逼真的视频,然后被投入到自动驾驶和具身智能中,那么究竟如何能够配得上市场的期待。Kimi 的 OK Computer 最近发布之后又有一系列的推广,但是展示的用例依然是编程或者制作 PPT,又或者某些其实没有实际价值的数据分析。科研这条道路对于研究者是令人兴奋的,探索未知并且理解模型、数据与表征的奥秘,然而对于市场,这一切都显得如此的苍白。
AI 最美好的时代就是它的前景还处于一种微妙的朦胧感的时代。对于科研工作者来说,这种朦胧感意味着探索未知,设计新的算法解决新的问题;而对于投资人来讲,这种朦胧感搭配上现如今蓬勃生机的发展,带来了对于价值的美好畅想。然而一个糟糕的事情是某种自掘坟墓,似乎有些像是程序员热衷于开源最后将自己优化掉的幽默段子。越深入研究,一切就开始失去它的神秘感,而伴随着揭开这层神秘的面纱,这意味着科研工作者了解了这是什么,投资人理解了似乎这能做到什么,然后你需要兑现这些投资带来的期望的价值。
他们在你身上压下了筹码,现在轮到了你出牌,然而你手上什么都没有。这是一个自我消亡的泡沫。
垃圾时间#
时间回到半年前,大家在积极地讨论 o-series,那时候 Deepseek-R1 横空出世,将 RL 这一经久不衰的命题再次放到了聚光灯下。OpenAI 的姚顺雨写了一篇 Blog,叫做 The Second Half,AI 的下半场,RL finally generalize,关键在于如何定义问题。不过事实上对于一切来说,或许下半场已经提前结束了,其实早已经进入了比赛的垃圾时间。
一些读者可能会赞同,架构已死。一些结构会带来少数的新 feature,带来一些领域中的提升,但是同样的问题是显著的。在 Transformer 出现并且发展之后,人工智能领域最核心的思想之一就已经出现,即 Fusion。在何种表征中,又或者是什么空间下,使用什么结构对于什么信息进行 Fusion,导致解决了什么问题,这就是当下的主基调。架构的改变可以带来效率的提升,性能的量变,但是本质不变。
平庸的论文提出方法,优秀的论文提出问题,这是当下科研的常态,也是每一个 Senior 的共识。我们只需要敏锐察觉到问题所在,并且尝试用一个简单且有效的方法解决掉,就可以算是大功一件了。然而另一个令人沮丧的共识是,假如说你对于自己熟悉的领域,在缜密的思考之后罗列了那些存在的关键问题,你会惊讶的发现,大多数的论文,那些看上去还不错、没有通过对于方法进行排列组合进行 A+B 的论文,最后开始对于问题进行排列组合。
于是我们应该从哪里找到出路,那些最为前沿的阵线,那么就去业界看看吧。不过,同样唏嘘的是,大多数时候,业界的更多算力的迭代之后也只是改变了领域内不同问题的权重。我们需要优先关注某些问题,但是问题的总数没有变多,也没有变少。因此我们只需要等待,等待算力的提升以及数据的增加,等待规模化的流程遍历全部的问题,然后答案留下,假如没有新的关键问题出现,那么一切的结束其实只是时间问题。你参与其中,或许稍有加速,但无论你是否在,结果都已经注定。
比赛其实已经进入了垃圾时间。
结语#
大多数参与到 AI 科研中的 Researcher,一定在某个阶段会认为自己的存在是可以改变一些事情的,但是当问题的解决变得清晰起来,解决问题的人倒是开始变得迷茫了。或许就像是 Pink Floyd 在他们的专辑《The Dark Side of the Moon》中唱到的那样。
“There is no dark side of the moon really. Matter of fact it’s all dark.”
不过还是姑且 Dive into the dark,然后享受这个过程吧。