saining talk小记

Shengtao Yao

2026-03-21

research

有幸之前上过saining老师的课，看了saining老师的talk，收获颇菲，我总结一些主要的收获：

学术界和工业界。

不同之处：

学术界能有自由定义自己的问题，这个是学术界最大的优势。但是产业界往往要满足投资者的期待，所以是解决当前问题为主；而在强竞争的环境下面，大公司会为了追赶benchmark而失去定义问题的能力。

类似之处：

一些对问题的独特理解会push很多对一个问题有一致理解的researcher到一起，形成蜂群效应，我觉得这是researcher的生态。

好researcher的一些心法

能定义一个好的问题，而往往能定义一个好的问题都几乎都是一个好的paper，因为好的问题一般都值得被解决。
能随时搭出好的脚手架，上能推公式下能写代码的，以便于克服问题。一个例子是搭tpu的infra。
要沉得下心来。因为沮丧是大多数的时间。不论因为是没有灵感和成就感；因为一些挫折（infra搭不好）；还是因为不追风头别大多数质疑；简简单单就放弃是增加context switching的时间，也不能让你做出独特的工作。
相信自己的前提是足够的阅历（在research的角度来看就是对足够多的paper有自己独特的理解），除此之外就是勇气去做了。
一个好的项目应该是bottom up而不是top down：应该先从兴趣出发开始玩，后面慢慢把experiments bulid起来之后再立项目，迎头直接追赶一个“结果”往往不是好的工作。
不论是产业界产出一个好的模型产品还是学术界遇到的技术问题几乎都是不可预测的，这往往也是最有趣的有价值的问题。
时时刻刻都要思考问题，想一些有趣的问题，就像品红酒一样。

一些tecnical的：

对world model的看法/直觉就是predictor会非常小。直觉在于人思考和处理信息的带宽较小和接受信息的带宽非常大。
JEPA是一套认知体系，而非某种具体架构，详细可以看A Path Towards Autonomous Machine Intelligence这篇论文，是yann的一个观点性的论文。
AMI就是focus在world model的pretraining，输入信号先从视频开始，后面加入更多的模态，至于后面的产出，那是后面的问题。
1. 一篇好的paper也可以是阐述好了一件事情，比如说cambrian，convnext这种对中间模块做足了abalation study的工作。
看完被安利了representation learning这个领域，倒不是说是安利，是把自己的目光放到学习一solid represetnation上面。因为想象一下，如果有一个方法能证明某种方法可以训练一个绝对robust的representation，那么后面的downstream tasks是一个非常轻松解决的问题。
宣传的base model有点silver bullet的感觉，愿景不是一般的大。

一些有趣的：

kaiming居然是mmo和炉石玩家？
podcast真的是好东西；旅行也是一个好东西，就和沐浴一样，都是一个隔绝外界噪声的时候能够去想明白很多事情的时刻。在旅行的过程中没有繁琐学业和工作沟通的杂事；飞机上没网的时候就是听完很多podcast的最好时机
学界也不是终点，为了impact要多多思考是不是去业界会是一个更好的选择，即使是saining
阅读习惯：一些好书老早就想看了，经过安利打算捡起来了，比如GEB，比如叔本华以及其他一些泛泛的哲学等。

对我个人的一些启发

在看这个talk的时候我正在vacation，一个朋友特别喜欢cue我的处世性格 — 我会习惯性的迎合他人。这件事情其实不太好，特别不真实而且虚伪。而yann给了一个非常好的范例。从上课和X上yann我感觉是那种即使一万个人说他不对他也不会轻易动摇自己观点的人。我喜欢谈论一些偏有客观答案的话题，除了自己喜欢的事情一点都不像碰的人，我觉得就是这样，没必要改了。我没跟yann有过交流，但是听过不少他的talk和上过课，毕竟作为上个寒冬的幸存者，我还是非常信服他的话的。
要有自己独特的taste，一种广义的美感的认知。不光光是美观层面上，更有一种research独有的心里的一团火，而不是追热点。
一些终极问题：比如说vision最终极的问题是什么？必然有一部分要加上对于（时序 + 空间）的理解？我一开始对visoin的理解非常简单，就是根据downstream的task去设计inductive bias的架构。
破除了一些幻想：之前总是对Seedance和Sora有不可一世的幻想，特别是看了一些paper之后更是被吹的神乎其神，看不清本质。
1. Seedance/Sora/Genie的效果不错但是作为world sim还是差一点意思，因为我总是觉得它是一个fundamentally flawed环境，而在这个上面训练的policy是一个fundamentally flawed policy。所以不要总是被宣传的视频和paper中华丽的辞藻迷了眼，还是以第一性原理为主，focus在复现的结果上。
坚定方向：这是一个AI的黄金时代。自己思想火花绽放最绚丽的时刻，希望能为ai事业添砖加瓦。
1. ai产生兴趣一方面是它技术本身很有趣，这是我遇到一个人就会跟他解释的东西；
2. ai是文明放大器，它的impact真的很大。比如说ai可以去做pde求解，找蛋白质，找细胞，是一个好的脚手架，最后甚至加上脑机增强人脑子的能力。目前来讲ai似乎是文明进化的一条重要的道路，是人类做meta learning的一个重要的部件，而不是人类本身主动去做一些科学研究。
3. 在四年时间里和大大小小专业的人都有交流畅谈，但是跟做ai的人交流起来，或者说，跟有工程师和研究员心态，和想要用理性思维去聊一个具体问题的朋友们聊天起来还是更加顺畅和享受一些。