2025

DeepSeek R1后LLM新范式

R1相关：DPO数据选择与DPO等RL算法

R1相关：RL数据选择与Scaling

R1相关：少量高质量数据SFT激活LLM推理能力

DeepSeek R1深度技术解析及其影响

2024

Tiny LLM Continual Pre-training：RHO-1

LLM Continual Pre-training：Ziya2