LLM、强化、蒸馏讨论

2025年2月26日下午,Datawhale Paper群突然开启了一番关于AI相关的讨论,涉及成员主要包括:X、Y、D、S、M、A和C。我觉得内容相当有意思,因此记录在案备查。

其中对我个人印象比较深的几个观点:

  • X提出的新的大模型训练范式:预训练,long-cot, sft(long2short)。可以理解为先用大规模语料预训练学习知识,然后用少量SFT或RL(可以一起用)提升long-cot,然后再做SFT使其根据情况自动选择long或short。
  • 关于如何让模型自动选择思考长度(或不思考)的讨论,X认为主要靠强化,只是奖励这块需要涉及,就是是否需要思考,问题的难易,需要有个奖励来控制、设计。集成和自适应prm都是挺好的点,其实现在的重心就是什么样的奖励和怎么自动奖励。
  • 关于蒸馏分布的讨论。蒸馏之前做的不多,没想过这么细,不过如何桥接教师和学生的讨论确实有启发。

对讨论结果分别使用DeepSeek和DeepSeek-R1进行了整理,前者相对比较忠于讨论内容,后者则更加抽象有高度一些,各有优势。

DeepSeek总结

在这次讨论中,参与者们围绕AI发展的多个前沿方向展开了深入的交流,主要涉及以下几个方面:

1. 模型训练与优化

  • X 提出了使用美股数据进行RAG(Retrieval-Augmented Generation)训练的设想,认为这可以作为一种连续的奖励机制。他还提到了通过输入的概率分布(ppl)来控制模型的“快慢思考”策略,这是一种工程上的技巧。
  • C 希望模型能够自主选择“快”或“慢”的思考模式,而不是通过外部控制。
  • YM 讨论了如何通过强化学习或直接偏好优化(DPO)来让模型自主判断思考的长度。
  • D 提到他们之前在RAG上做过类似的工作,通过判断模型的知识边界来决定是否触发RAG。
  • XD 进一步讨论了模型分布对齐的问题,认为这是模型训练中的本质问题,尤其是在强监督模型和待训练模型之间存在较大分布差异时,直接训练会导致模型遗忘已有知识。他们提到了一种通过复述强监督模型输出来对齐分布的方法。

2. 模型蒸馏与分布对齐

  • XD 讨论了模型蒸馏的挑战,特别是如何在不损失性能的情况下对齐强模型和弱模型的分布。他们认为,直接让弱模型复述强模型的输出虽然有效,但不够优雅。
  • S 提到他们通过引入一个中间桥接模型来加速蒸馏过程,并提到这种方法虽然有效,但成本较高。
  • X 认为,最好的方法应该符合直觉和本质,提到O1(可能指某种优化方法)的出现让他对模型训练的本质有了更深的理解。

3. 多模态模型

  • XS 讨论了多模态模型的挑战,特别是如何将视觉信息与语言模型结合。他们认为,当前的多模态模型还处于表征阶段,学习难度较大,因为输入信息量(如图片)与输出信息量(如简短答案)之间的差距太大。
  • D 提到多模态模型在简单任务(如数椅子)上的表现不佳,认为这可能是因为评测集不够完善。
  • X 认为,多模态模型可以通过引入long-cot(长链推理)作为桥接,来提升性能。

4. Agent与多智能体系统

  • XS 讨论了多智能体系统的复杂性,认为当前的Agent系统还比较粗暴,工程落地的难度较大。他们提到,随着Agent数量的增加,系统的复杂性会显著增加。
  • C 认为,未来的多智能体系统可能会借鉴蚁群和进化算法,探索群体智能的合作与竞争模式。
  • X 认为,当前的多智能体系统还处于早期阶段,思路不够清晰,更多是在讲故事。

5. 世界建模与常识推理

  • C 提出了一个关于“世界常识”的问题,认为当前的AI模型缺乏对基本常识的理解,比如知道自己有脚并能走路。他认为这是AI发展的一个重要挑战。
  • D 提到他们做过一些诚实性微调的工作,试图让模型知道自己知道或不知道的内容,但承认这还不足以解决世界常识的问题。

6. 未来展望

  • SC 对未来的AI发展充满期待,认为五年后的AI将会翻天覆地。他们希望看到更多关于世界建模和多智能体系统的突破。

总结

  • 模型训练与优化:讨论了如何通过RAG、强化学习、分布对齐等方法优化模型训练,特别是如何让模型自主选择思考模式。
  • 模型蒸馏与分布对齐:探讨了如何在不损失性能的情况下对齐强模型和弱模型的分布,认为当前的方法虽然有效但不够优雅。
  • 多模态模型:讨论了多模态模型的挑战,特别是如何将视觉信息与语言模型结合,认为当前的多模态模型还处于早期阶段。
  • Agent与多智能体系统:认为当前的多智能体系统还比较粗暴,未来的发展方向可能包括群体智能和进化算法。
  • 世界建模与常识推理:提出了AI在理解世界常识方面的挑战,认为这是未来需要突破的方向。
  • 未来展望:对AI的未来发展充满期待,认为五年后AI将会取得巨大进步。

DeepSeek-R1总结


1. 长链思维(Long-CoT)与模型自我调节

  • 核心方向:如何让模型自主选择快思考(直出答案)或慢思考(复杂推理),并优化训练策略。
  • 观点
    • X
      • 提出用输入文本的困惑度(PPL)动态控制快慢思考的触发,类似人类“快慢思考”机制。
      • 强调强化学习(RL)是核心,需设计奖励函数(如是否需要思考、问题难易度)。
      • 认为集成自适应PRM(偏好奖励模型)是关键突破点。
    • D
      • 在RAG中实践过类似机制,根据模型知识边界判断是否触发检索(诚实直出 vs 不诚实检索)。
    • S
      • 提出通过中间模型(如大尺寸桥接模型)复述强监督模型的输出,对齐分布以提升小模型性能。

2. 知识迁移与分布对齐

  • 核心方向:解决强弱模型间分布差异导致的训练不稳定问题。
  • 观点
    • D
      • 通过让待训练模型复述强监督模型的输出,映射到自身分布,缓解遗忘问题(类似“知识复述”)。
      • 指出静态分布采样可能损失性能,需动态检测可激活的知识分布。
    • X
      • 认为当前方法(如桥接模型)有效但不够优雅,本质是分布对齐问题。
      • 提出更简单的蒸馏技巧(如概率蒸馏 vs 数据蒸馏),并认为DeepSeek的“Long→Short”内化路径是更优解。
    • S
      • 实验验证桥接模型(如Qwen-72B复述后迁移到Qwen-1.5B)可加速收敛,但成本较高。

3. 多模态应用与挑战

  • 核心方向:多模态模型当前局限与改进方向。
  • 观点
    • X & S
      • 多模态任务(如数椅子)表现差,因输入信息量(图像)与输出(短文本)差异过大,学习难度高。
      • 评测标准不完善,需构建强逻辑属性的评测集。
    • C
      • 多模态仍处于表征阶段,需类似NLP的Long-CoT桥接(如图片→长推理→答案)。
    • Y
      • 建议借鉴NLP技术(如强化学习、分布对齐)直接套用,但需解决模态间分布度量问题(如推土机距离)。

4. 多智能体系统与研究方向

  • 核心方向:Agent群体的协作、对抗与扩展性。
  • 观点
    • C & S
      • 当前Agent流程固定死板,需探索群体行为(如蚁群、进化策略)和动态合作模式。
      • Scaling需定义清楚(数量扩展 vs 能力扩展),工程落地难度大。
    • X
      • 多Agent研究仍处于早期,需借鉴多智能体强化学习(MARL),但思路尚不清晰。
    • D
      • 群体可能产生新合作/竞争模式,但小模型(如1.5B/7B)易导致混乱。

5. 模型自我认知与知识边界

  • 核心方向:模型对自身知识边界的感知与诚实性。
  • 观点
    • C
      • 模型缺乏“世界常识”(如知道自己有“脚”能走),需结合RAG查询外部状态。
    • D
      • 通过线性概率层(Linear Prob)微调模型诚实性,效果显著。
    • X
      • 未来需构建更优雅的自我评估机制(如能量模型),直接建模知识边界。

6. 扩展性(Scaling)与优化

  • 核心方向:模型与任务规模的扩展瓶颈。
  • 观点
    • X & S
      • Scaling需关注分布对齐(如桥接模型选择)和训练稳定性。
      • Agent数量扩展需结合动态路由(如适配不同桥接模型)。
    • Y
      • 多模态任务需端到端优化,但当前方案仍依赖转化器(如CLIP)。

总结

  • 核心议题
    1. 模型自我调节:通过强化学习与分布对齐优化快慢思考机制。
    2. 知识迁移:桥接模型与复述策略缓解强弱模型差异。
    3. 多模态瓶颈:输入-输出信息量差异与评测标准缺失。
    4. Agent方向:群体协作、进化策略与工程落地挑战。
  • 未来方向
    • 更优雅的分布对齐方法(如连续桥接、自适应路由)。
    • 多模态端到端推理(如Long-CoT桥接图片与文本)。
    • 结合经典理论(如能量模型、博弈论)解决自我认知与群体协作问题。

原始对话记录

观点不一定正确,请谨慎参考。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
X:
其实想想,拿美股训练带RAG的long-cot也挺刺激的
天然的连续奖励
快慢思考trick方法有个想法
通过输入的ppl去控制快慢是否触发
算工程上的

C:
我想让模型自己内部选择快或者慢

Y:
额外学token?

C:
不是 根据上下文自己判断

Y:
这个应该怎么学?强化学习还是直接dpo?

M:
给think length 做个reward 判断

X:
嗯,我这个就是trick,可以做噱头
实际做到这点需要做long2short,内化推理的路
主要靠强化
只是奖励这块需要涉及,就是是否需要思考,问题的难易,需要有个奖励来控制 设计
另外,集成和自适应prm都是挺好的点
其实现在的重心就是什么样的奖励和怎么自动奖励

Y:
自动奖励,感觉用ref做是不是方便一些?

X:
是的,其实是work的
但不够好
中间还有很多工作要做

D回复X的“通过输入的ppl去控制快慢是否触发”:
这个我们之前在rag上做过类似的事情,判断模型内在的知识边界看成不诚实,诚实就直出,不诚实就rag

X:
嗯嗯,就是个trick,可以吹实现类o3

D:
不过r1这个工作,最近又找人聊了一下,最本质的motivation还是在之前的强弱supervisor上,又关注到distribution shift(这个还是在llama2里提的),所以有了第一阶段,按照base自己的distribution激活能力然后选自己认可的数据的过程

X:
是的,就是个最适合分布的sft数据生成

D:
在蒸馏、sft、RLHF都会考虑,如果强监督模型和待训练模型存在输出上较大的分布差异。那直接去训是会导致训练不稳定的。具体来说就是会遗忘自己本身的一些知识,来学习、兼容强监督模型的分布。我们今年有篇投ACL的论文就是解决这个问题的。具体来说就是用待训练模型复述强监督模型的输出,等于是将强监督模型的分布映射到待训练模型输出分布,同时映射后的回复质量跟强监督模型本身质量一致。这个确实效果很好

X:
哈哈哈,就是这个就是为什么概率蒸馏比不过数据蒸馏的原因
在这个上面其实就有点去做
从这个本质去思考现在的大模型训练,就可以很容易理解后面路怎么走
我觉得这东西o1出来之后就很直觉了
但这个工作有点就是强解决
不是很优雅
其实这个有很简单的思路

D:
先证明一个work,后续应该还会迭代

A:
比如在system prompt添加深入思考或者简单思考
集成到moe上呢
这个思路可行不

Y回复X“不是很优雅”:
我感觉这个还蛮直觉的
有种内化的过程在

X:
他们提的本质问题是对的,但解决方法太强行

D:
因为r1第一阶段激活的知识其实也是强行的,然后v3按照自己的分布做采样,其实可能损失了一部分性能。就是需要有一些检测分布(或者说检测可激活分布)的手段。r1是静态分布采样的,复述一遍是用可激活分布采样的,因为post training就挺trick的,也不知道哪些数据有用,得让模型自己过一遍,但是过的顺序和组合又会影响过一遍的过程

X:回复A“比如在system prompt添加深入思考或者简单思考”:
这个太工程了,正统路不会这么走

D:
(过一遍是指要让模型学一遍,不是指推理一遍,我们之前发现sft虽然在知识空间是在做扰动,但是确实激活出知识了)

X:
这是两个工作,r1的工作是找到符合当前预训练模型的最优longcot
他这个工作是针对不一致模型分布,怎么去做分布一致数据,但他的解决让一个模型去模拟另一个模型分布

S:
哈哈哈哈,我也做过一些实验,确实加个桥接模型复诉加快了gpro和sft的收敛以及精度
就是让个中间态的模型复诉了一遍r1的longcot,然后再迁移sft到小模型上。再进行grpo,一个小demo的实验

X:
所以不优雅

S:
确实不优雅
或者说太直观想到了,而且成本蛮高的

X:
是的,这个肯定有效,但不是最优解
很可惜
r1是同一个模型的不同阶段,他那个已经快近似最优解了,是在本质上解决这个问题

Y:
我的理解不是模型A生成数据, 模型B用自己的话说一遍,然后用这个数据继续训模型b?

S:
但b用自己话说一遍,maybe会丢失很多内容
B的能力和A往往有很大差距

X:
两个思路的创新度在我看来差别是有的,一个是补丁级别,一个是通用方法论
但他提的关键性问题没有错,而且是本质问题,我估摸也就是因为要发论文
所以估计肯定还有留很多后续

X:
是的,所以就是我说的,为什么蒸馏logit反而效果差
原理就是这个

D:
不过就是很难判断

X:
但这里其实就有一个很简单的蒸馏trick可以做
但不知道有没有人发

D:
弱模型是 能力差 还是 他其实有一套自己的逻辑,比较轴,没想出来(但是稍微一激活其实能想出来)

Y:
还得看模型能力,如果对齐的能力差不多,效果应该会不错

X:
其实就是分布

Y:
加入博弈的思想吗?

D:
[旺柴] 俩变量,先固定一个变量是吧,我监督我儿子

Y:
资源消耗又会增加好多哦,羡慕你们大显存的

X:
哈哈哈,其实就是和他一样,想办法把强弱拉到同一个分布,再精细就好
但其实应该拉到强的分布
拉到弱的,理论上其实就把上限打低了

S:
我是加了个学生模型的大尺寸桥接模型
作为分布的过度

X:
嗯嗯,做好桥接是很重要

Y:
这么找到桥梁呢?

S:
比如qwen1.5b我就找qwen-72b

D:
学生模型的大尺寸模型 这就是桥梁了
但很naive

S:
然后避免精度下降,桥接模型我让他进行了进一步推理增强的prompt

X:
这块我觉得是很好做工作的
好多点呢
哈哈哈,很多东西都是大道至简

Y:
计算机领域都是大道至简
复杂的都会被淘汰

X:
是的,我觉得最好的方法一定够符合直觉和本质
所以o1出来后我是觉得真的路都通了,训练的本质都在眼前
以前想不通的,一瞬间全想明白了

D:
感觉还能继续做,比如最naive的桥接方式是不是可以从7b 14b 过渡到72b,这种离散采样的桥接,又或者对这些离散桥接进行进一步激活得到连续的桥接

S:
如果这个过程能用ppo就好了

X:
work的,甚至可以做的更简单
要用ppo就可以分两阶段

D:
不过确实不是很优美,感觉这种publish还是得找高手讨论一下,可能有一个更简单的实现,类似于ppo监督模型做点改造

X:
你会发现你做的工作其实和deepseek就很像
大家本质都是在解决分布问题
最后殊途同归

Y:
那是不是可以再想想Lecun的能量模型?

X:
那个就是我和你讨论的,大模型训练拒识问题

S:
嗯嗯是的,其实我觉得手搓成一个ppo,把reference改进一下用longcot的模型,去掉kl,加别的限制来决定long or short不错

S:
不过和deepseek路线好像啊

X:
哈哈哈,因为本质上你们都是在解决分布问题
只是一个分布差异不大的情况下,一个分布基本不一致的情况下

S:
先对齐分布训练个longcot的sft模型。然后再用ppo内化cot,同时解决long2short

X:
你和他的差别,就是你需要先把分布拉的比较一致
然后后面你就可以套ds的东西了
所以我觉得大模型训练范式就是 预训练,long-cot, sft(long2short)
只是数据怎么生成和怎么训之类的

S:
对的对的,我觉得桥接模型的选择很重要[旺柴]
这里面加点算法选择就无敌了

S:
其实看模型分布的文章有很多metrics可以衡量的
做个路由选择适合的桥接模型[旺柴]

X:
哈哈哈,是的,我今天刚看用gan里面来做的
这个其实你可以多看点gan那块的

Y:
多模态应该这么做呢?

X:
他们的问题就是度量分布距离

S:
wd距离是吧
推土距离

X:
多模态也简单呀,以前你们是图片到答案,现在都有long-cot做桥接了,一堆论文可以水
我觉得多模态应该很兴奋呀,nlp出什么,你们都可以直接套公式,是我我都开心坏了

S:
多模态蛮多卷的,现在好多工作都做这个。
所以超卷

X:
[旺柴]比速度了

S:
得手速很快

Y:
比大模型LLM这块好一些
任务多

X回复S“wd距离是吧”:
嗯,所以他那边解决这个得所有idea,你都可以套,一堆论文可以写

S:
yesyes,可以的不错不错,还得头脑风暴一下

X:
我其实就想,扩散怎么加到这一套大模型里和强化怎么到扩散
[捂脸]所以感觉现在学术是资源不够,其实能做的东西比以前真的多了很多

D:
不过多模态模型,我最近试了一些
不懂他们为啥不会数椅子
就给一张这种图,问有几个椅子,目前所有的模型都答错了

S:
多模态的评测做的不太行说实话

X:
[旺柴]这个llm为什么之前端到端知识错误很严重一样

S :
没有很强的逻辑属性的评测集[旺柴],可以搞一个群友

X:
学习空间太离谱了,图片那么大的一个输入信息量级,答案是一个那么短的输出
这让模型学习难度太高
感觉o1出来之后,以前觉得很难想通的东西,现在都好解释
现在的多模态,其实不是端到端的
[破涕为笑]感觉应该大部分都是转化器把

D:
主要是也没特别离谱的遮挡需要空间推理,纯数数

C:
多模态还处在表征阶段

X:
其实这边除了多模态
还有各种agent
所以多agent集成训练怎么训
也就是之前的多智能体强化学习
估计会提上日程

H:
现在的agent还很粗暴。

S:
多智能体很难搞

X:
是的,挺难做

S:
我现在在做agent scaling下的的合作和对抗评测

C:
对,原来强化搞agent的那一套,以后估计会重新冒出来。包括世界知识这一块。

S:
scaling这个事情很难说明白说实话

D:
agent 也能scaling了?

S:
agent的pipeline设置太不优雅了,很固定死
主要是定义不清楚什么是multiagent scaling

C:
没错
什么是agent的scaling
这种说不定可以往蚁群和进化方向尝试,agent这个空间太大了

S:
现在scaling很多研究agent数量上的扩展,得到一些小世界的规律。类似推特网络用户agent交流

X回复C“什么是scaling”:
是的,然后这个反过来又可以用多智能体反向优化单智能体

D回复C“这种说不定可以往蚁群和进化方向尝试,agent这个空间太大了”:
哦哦,我开始想的是agent数量和参数大小。更进一步是说群体之间会产生一些新的合作或者竞争模式吗?然后agent会在这个过程中本身也有能力的进步?

X:
后面就是对抗逐步飞升

S:
但是问题是,这些agent就像人一样,如果很多都太笨1.5B模型,7B模型,放在这个网络中就会变得混乱不堪。

A:
agent也有scaling?

S:
有的

X:
这个肯定

S:
但都是数量上的scaling

X:
其实我感觉小模型应该现在还没训好

Y回复C“这种说不定可以往蚁群和进化方向尝试,agent这个空间太大了”:
之前已经有了
去年我看了不少讲这里的
但是都比较故事会

S:
是的

D:
《西部世界》

S:
但是没有得到有用的结论
都是小世界规律,抽象的一匹

C:
哈哈,好多可以探索的方向,

A:
agent的数量越多,工程落地的难度会不会越多

X:
但现在多agent不建议碰

Y:
basemodel决定一切

X:
思路还没清楚,只能讲故事

Y:
现在搞agent很痛苦
怀疑人生

C:
先把多模态搞好,agent会更好一些

S:
是的,我年前想做的工作和snakebench很想

A:
就是每个环节的agent的输出准确率是95%,多串几个就导致没办法落地

S:
https://mp.weixin.qq.com/s/Iyk7YtfA348n4e62Sk1kNQ
就是这个,我想做个有意思的 评测

C:
这个有点像内存炸弹
我之前玩儿过类似的:
https://yam.gift/2024/04/08/NLP/2024-04-08-LLM-Colosseum/
之前看过一些世界建模的,目前还没看到进一步的成果,

X:
哈哈哈,我都不考虑多模态,大模型集成学习先搞定

C:
让模型知道自己知道或不知道,这个问题比较难解决

S:
知识边界吗
有很多文章了
主要是评测多
解决方案我没怎么看

C:
不准确,我指的是“世界常识”

S:
world model那哈哈哈哈
太难啦
想快点看到五年后AI是怎么样的
应该已经翻天覆地了

C:
哈哈,就是这个,一直没看到突破的,基本还在游戏世界或局部范围

D回复C“让模型知道自己知道或不知道,这个问题比较难解决”:
这个有的
我们之前也做了一版,诚实性微调的工作基本都在做这个
最简单就是给个linear prob做指示器,效果挺好的

C:
不完全是边界。举个例子,人生来就知道自己有脚,可以走路跑步,但是ai不行。它不知道自己有脚能走。

D:
啊确实,我没想过这个问题,感觉好像可以rag查一下设备状态来知道