2025年2月26日下午,Datawhale Paper群突然开启了一番关于AI相关的讨论,涉及成员主要包括:X、Y、D、S、M、A和C。我觉得内容相当有意思,因此记录在案备查。
其中对我个人印象比较深的几个观点:
- X提出的新的大模型训练范式:预训练,long-cot, sft(long2short)。可以理解为先用大规模语料预训练学习知识,然后用少量SFT或RL(可以一起用)提升long-cot,然后再做SFT使其根据情况自动选择long或short。
- 关于如何让模型自动选择思考长度(或不思考)的讨论,X认为主要靠强化,只是奖励这块需要涉及,就是是否需要思考,问题的难易,需要有个奖励来控制、设计。集成和自适应prm都是挺好的点,其实现在的重心就是什么样的奖励和怎么自动奖励。
- 关于蒸馏分布的讨论。蒸馏之前做的不多,没想过这么细,不过如何桥接教师和学生的讨论确实有启发。
对讨论结果分别使用DeepSeek和DeepSeek-R1进行了整理,前者相对比较忠于讨论内容,后者则更加抽象有高度一些,各有优势。