长琴
...
→
菜单
跳至内容
首页
导览
简历
好玩
大神
观点
资源
存档
2025
DeepSeekMath-V2自我验证:搞数据的风吹到了奖励模型
Reward建模新范式:无验证器RL与Reference的妙用
解锁模型潜能:Reward 数据如何塑造与激发 LLM 的推理策略
Reward Model建模