长琴
...
→
菜单
跳至内容
首页
导览
简历
好玩
大神
观点
项目
存档
2025
RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析
所爱隔山海,山海亦可平
Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么?
DeepSeekV3.2后训练:稳定压倒一切
DeepSeekMath-V2自我验证:搞数据的风吹到了奖励模型
两处容易踩的坑:LLM 消息数组与字典工具的隐藏副作用
Hybrid LLM 之 Gated DeltaNet
Reward建模新范式:无验证器RL与Reference的妙用
子非我,安知我不知鱼之乐——AI、人类与意识的边界
Reinforce++和它的KL Loss选择
Hybrid LLM 之 Gated Attention
记一次诡异的 FD 泄露:躲在暗处的猴子补丁
GRPO“又一背锅侠”:Clip的各种拉扯
GRPO“第一背锅侠”Token Level X2:GTPO双“T”傍地走
GRPO“第一背锅侠”Token Level X:DAPO/DrGRPO与GSPO/GMPO的殊途同归
群聊中的AGI拼图:GPT-5发布后关于全模态、推理、世界模型与实时学习的思考
关于gpt-oss那些值得关注的点
重识LLM法则:上下文工程与数据进化
GiGPO:双层级优势函数驱动的Agent强化学习新范式
解锁模型潜能:Reward 数据如何塑造与激发 LLM 的推理策略
激活诱导LLM指令跟随
60小时备考高架擦边过经验
指令跟随近期工作梳理(2025年上半年)
GRPO优化在继续——CISPO和熵
Reward Model建模
从Voila看语音端到端发展
R1后范式最佳实践:Seed-Thinking和Qwen3
Yarz-Logic:R1-Zero相关实验报告
VAPO:基于价值方法的新突破
R1相关:R1-Zero的进一步理解和探索
异曲同工之妙的DrGRPO——DAPO几乎同时出现的又一GRPO优化!
DAPO:为GRPO的锦上加四点花
DeepSeek R1后应用、职业与行业影响——2025年梳理
DeepSeek R1后LLM新范式
OMNI论文速览(2025)
R1相关:DPO数据选择与DPO等RL算法
预训练:NTP和Scaling Law
LLM、强化、蒸馏讨论
R1相关:RL数据选择与Scaling
R1相关:少量高质量数据SFT激活LLM推理能力
DeepSeek R1深度技术解析及其影响
我为什么做开源?
实时语音交互场景下RAG的机遇和挑战
预训练:无处安放的躁动之心