长琴
...
→
菜单
跳至内容
首页
导览
简历
好玩
大神
观点
资源
存档
2025
DeepSeek R1后LLM新范式
R1相关:DPO数据选择与DPO等RL算法
R1相关:RL数据选择与Scaling
R1相关:少量高质量数据SFT激活LLM推理能力
DeepSeek R1深度技术解析及其影响
2024
Tiny LLM Continual Pre-training:RHO-1
LLM Continual Pre-training:Ziya2