长琴
...
→
菜单
跳至内容
首页
导览
简历
好玩
大神
观点
资源
存档
2025
RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析
Reward建模新范式:无验证RL——当模型只能相信自己,会发生什么?
Reward建模新范式:无验证器RL与Reference的妙用
R1后范式最佳实践:Seed-Thinking和Qwen3
DeepSeek R1后LLM新范式
DeepSeek R1深度技术解析及其影响