001:一位研究生在读的”reward hacker“关于学习的困惑

【来访者个人档案】

身份: 研究生在读,大模型方向实习生

自述: “我是个 Reward Hacker,为了面试通过,我刷题、背八股,但我心里慌。


2025 年 1 月 2 日,昨天发完小红书后,今天迎来了第一位小伙伴。

第一位小伙伴(我们后面称他为 F 同学)就和我想象中的不一样,我本来以为他会问关于大模型和相关工作的问题,没想到他更加关注的居然是 ”学习“ 问题。他看的博客是《Hybrid LLM 之 Gated DeltaNet | 长琴》。

关于学习的困惑

F 同学目前正在实习,应该是还不错的机构。我们的对话从他最近的一个困惑开始。F 同学的组长让他去调研一个框架,但组长自己也不知道这个框架,F 同学感到没有人手把手指引,和自己想象的不太一样,压力很大,不知道从何做起。

顺便就引出了他关于学习的第一个问题:面对一个知识点,如何进一步深入学习?他发现自己现在习惯阅读别人解读的文章、视频,或者把论文丢给 AI 让 AI 输出结果,要自己看却有点看不下去。

紧接着是第二个问题:如何学习一个框架,他发现看了 README 的基本用法后就不知道后面怎么去学了,好像也没有地方去找更多其他用法或者高级用法。

面向工作学习

这里有个背景,F 同学也是中间转行到大模型方向,之前本来是要做后端的,但大模型实在太火爆了。虽然谈不上多喜欢,但给的多啊。他为找工作做了很多准备(包括代码、知识点等),取得了很好的成绩,不过他谦虚地称自己是 reward hacker——面向面试和找工作的学习。

虽然我还没有聊过很多人,但据已经了解到的信息,像 F 同学这样冲着 ”大模型工资高“ + ”面向找工作学习“ 的同学应该不在少数。

听到他这么说,其实我本想聊聊类似 ”要找到自己喜欢做的、热爱的事业“ 之类的话题,但转念一想,再丰满的理想也得面对现实啊。况且,理想这东西又岂是一时半会能想出来的。如果本来就有坚定的理想,那还找我聊什么,还能有什么困惑。再说,理想也不是一下就明朗的,还不得随着经历和阅历的增加逐步清晰的?

所以,我非常赞同他目前的这种选择,这是当下对他来说理性的最优选择,除非真的是非常讨厌这个方向。F 同学可能也并不一定喜欢这个方向,但他至少不讨厌、不厌恶,这已经很好了。

进入职场与长期主义

心态调整

回复问题之前,我首先提示了一个心态问题——即便老师都未必能手把手教你,又怎么能期待同事呢?其实 F 同学的这种感受我在刚入行时也经历过。后来才慢慢意识到,在职场上,能遇到这样的那是运气,遇不到才是正常现象。大家都很忙,metor 也有大量自己的工作要做,他能在方向和关键点上指点一下就已经相当不错了。及早把心态调整到位,反而能把主动权抓回自己手里。

关于知识点学习

其实,怎么说,我虽然也有一定的自学能力(经济学工作几年后转行),但肯定比不上清北的同学,智商也就中等水平,也给不出什么建议。我只是跟他分享了我当时并保持至今的一些做法,看看是否能对他有所启发。

  • 首先是读第一手资料。这是我保持至今的习惯,几乎不读任何别人写的解读类文章。只有当自己阅读完一手资料(一般是论文)之后,才会看情况是否要去阅读其他资料。另外,我也很少读中文社区的资料,不过大模型时代中文社区感觉比英文社区要好。
  • 其次是一开始要有耐心,去积攒自己的“点”。F 同学谈到自己看到一个知识点可能没有很多想法,只是把别人的解读读完感觉好像就没了。这是正常的,刚开始的知识都是零散的,只有你不断地积累,才能慢慢连点成线,以线扩面,形成体系。这是一个逐步构建自己知识体系的过程。其实,这个认知我早就有了,但前几年真的是无奈,盲点太多了,根本连不起线。大家看我前几年的博客就知道了。
  • 最后是谨慎接受碎片化输入、标题党(几分钟搞懂 XX)教程或小白教程。我自己是不刷抖音的,也很少刷社交媒体,刚刚说了,二手资料都很少看。如果确实要系统学习某个东西,我会找卡内基梅隆、MIT、斯坦福等学校的相关课程(比如陈天奇的《深度学习系统》)。这可能是我个人的一个“笨办法”——只啃一手资料。我也知道短视频和通俗解读有时候很诱人,但对于构建知识体系来说,它们像是零食,好吃但不管饱。

关于框架使用学习

我的回复比较简单,直接去用。我自己是这样,除了写相关教程或者系统研究,从没有专门学习过某个框架。一般的做法是看一下基本用法,然后就开始用了,遇到问题再去查,查不到就去看源码(这个是我最喜欢的方式,比任何文档和答案都清晰,一目了然)。包括编程也是,大部分语言都是找本书大概看下语法后就直接上手写了。

其实就是第一门语言比较磕磕碰碰,第二种以后就比较快了。这和工具一样,你脑子是清晰的,只是不知道怎么用这个框架或语言表达而已,用一下就会了。我举了骑自行车、游泳和学开车的例子,你不需要知道摩擦力、前后轮驱动原理这些知识,你只是在“用”它,去用就可以了。

不过如果是学习一个框架或语言本身,那是不一样的。以框架为例,我的建议是:首先把一个例子跑起来,然后研究输入输出、每一个指标的意义、每一个参数的用法和含义、关键模块背后的设计思想等等。这能极大提升自己对框架和相关算法的理解,这远比跑完一组实验、跑出一个结果更重要。

尾声

聊完问题,我们还聊了一些其他的,比如为什么现在年轻人精神压力这么大,比如如何更好地面对越来越浮躁的社会等等,我也向他说明了我做这件事的初衷(这个后面会专门写一篇聊一下)。我们大概是五五开吧,可能他比我说的稍微多一点点,其实我应该更克制一点。

总之,祝福 F 同学,希望他能健康、快乐,走出自己精彩的人生!


💡 共鸣时刻

学习是手段,其背后的目的是我们都渴望成长,
但首当其冲的现实是我们得找到一个好工作。

F 同学不是一个人,我们很多人都是那个 “Reward Hacker”。

其实无论是沉不下心也好、急功近利也罢,
都是我们面对压力时的自我救赎啊。