少量高质量数据SFT激活LLM推理能力

本文介绍两篇最新的用少量高质量数据SFT激活LLM推理能力的研究,分别是LIMO和s1。众所周知,一般说到SFT,尤其是参数比较大的模型,都是需要大量数据的;再加上推理任务本身又比较复杂,所需的数据可能更多。但这两篇文章的结论有点颠覆认知。这里的核心是:LLM本身需要具备如此能力,才有可能通过少量高质量数据SFT激活,否则可能难以见效。随着R1的出现,后训练算是彻底发生改变了。

More

DeepSeek R1:新范式、新纪元

本文是2025年2月15日《2025 iFLYTEK 开发者TALK 杭州站《DeepSeek深度技术解析》分享的文字版,PPT可以在这里找到。由于时间关系,实际分享是本文的简化版。文字内容是近半个月陆陆续续记录的一些阅读笔记和思考,中途接到分享邀请(还好有点积累,不然怕是难顶doge),成稿于分享后。

距离2022年底ChatGPT发布开启LLM时代才过去两年多一点时间,刚进入2025年,DeepSeek-R1就将LLM真正推向了深度思考时代。

两年多的高速发展,前所未有的按周迭代,如今想来都一阵恍惚。2023年是LLM最快速发展的一年,被称为LLM元年,新的开发范式出现(感兴趣的读者可以关注HuggingLLM),全民AI浪潮涌现。2024年,基于LLM的应用已经开始成熟,Agent百花齐放,进入元年,各种应用层出不穷,一个人公司成为可能。

当我们以为LLM基本就这样按部就班向”应用“时,R1出现了,它发迹于OpenAI-o1,但超越了o1。关于o1,我的观点和OpenAI前首席研究官Bob的观点一致:它的目标是解决复杂问题,大多数人日常工作中并不会遇到需要o1的需求(可以参考关于AI前沿的思考)。但是R1提升了LLM的整体能力,让模型真正在推理时进行自我反思和验证,这当然适用于复杂问题,但日常工作很多场景也能受益,AI更加像人。我觉得这是R1对整个行业的贡献,其作用不亚于ChatGPT的发布。

More

我为什么做开源?

开源到书籍

从《ChatGPT原理与应用开发》这本书开始吧,它获得了异步2024年影响力图书。这本身是一个开源项目HuggingLLM,当时(23年4月)的初衷很简单,就是想帮助更多的中小企业使用AI,让非算法的工程师也能借助AI实现算法相关功能和服务。另外,本书另一位作者玉琳说网上太多智商税的课程了,觉得我们应该做点什么,于是一拍即合就有了这个项目。但具体开始做的时候,我觉得还是应该有一些创新,并且内容的生命力尽量持久些。思来想去,再结合市场调研结果,决定以NLP算法常见任务为导向,通过借助LLM让普通程序员也能做NLP算法工程师的工作。同时内容尽量保持实战性,代码可直接复用到工作环境。这是从NLP范式角度展开的一本书,是最大的创新点,同时范式是不容易改变的,也保证了书籍的生命力。

书籍出版后,其实还是有点担心的,我当时对这本书的评价是有一定价值,但整体质量其实一般。不过有一点我觉得是好的,就是到现在为止书的框架依然是正确的,且目测会在很长一段时间内仍然有效。后来微信读书评价果然还可以,有评价说看得出作者在NLP领域浸淫多年,这是不错的,有些东西光眼看不经历实际项目是没用的。其实我当时还看了微信读书的基本同类型书,有些书质量不错,但也有些拼凑感很重,都是网上到处整理的资料,果然,这些书的评论里就有不少人提到了,看来读者的眼睛是雪亮的。说回本书,其实我觉得整体还是太粗糙了,毕竟时间点紧,没太多时间打磨,内容呢也比较简单,是真的非常简单,毕竟是给非行业人士看的。我都跟业内人说你们别看,太简单了,不要浪费时间,当然更不要买,网上都有全书电子稿。

More

实时语音交互场景下RAG的机遇和挑战

这是2025年1月4日笔者受邀参加Zilliz举办的【向心力】系列会议《中美AI应用与落地分享》专场中的演讲,特此记录。

本文与演讲不完全相同,但核心内容一致。其中涉及到的内容还比较新,观点不一定准确,供参考交流。

这次分享的题目是《实时语音交互场景下RAG的机遇和挑战》,内容主要包括四个方面:主题引入、实时语音交互与RAG的结合、面临的技术挑战和未来的机遇与发展方向。

More

预训练(0):无处安放的躁动之心

背景

这个系列打算开始做一个预训练小模型,Size暂定在1.5B。这个念头源于和几个朋友的一次聚餐,当时聊到了Scale Law,以及小模型,有两个观点促使了笔者做这个决定。

  • 小模型,在智能和一些大模型相媲美的时候是有意义的。
  • Scale Law不光表现在模型层面,也表现在数据层面。

More