长琴
...
→
菜单
跳至内容
首页
导览
简历
好玩
大神
观点
资源
存档
2026
TRPO深度拆解:为什么做后训练应该读懂TRPO
COPO:基于认知模式的 Step-Level Agentic RL 优化
LLM 的下一步:从“会答”到“会想”——Planning as Data 与思考范式重构
探寻实时学习新路径:挖掘极致高效的“子空间微调”
RL新范式:从经验到更高质量数据——我们不再训练模型,而是在制造数据
Training-Free RL:当“训练”不再更新参数,而是更新上下文
从 OpenClaw 再谈 AI Coding:我们还剩下什么
Roleplay AI 观察:从 C.AI 到 Talkie,产品、数据、模型与情感需求
DLM 漫谈:并行不是重点,模式才是 —— 从 ARM 到 DLM 的 LLM 第二曲线
从 FlashAttention 到 Streaming Reduction:如何把“全局算子”改写成可分块计算
【聆听·微光】006:一位传统企业中层管理在AI转型升级中的“蜀道”
通向 AGI 的技术路径:多模态、强化学习与新架构的交汇点——结合近期研究者访谈的一些技术判断与个人思考
MoE RL 训练不稳定性再思考:训推不一致,还是采样噪声?
为了让AI干活儿,我竭尽所能——我的 Vibe Coding 认知升级之路
稳定压倒一切:MoE RL 训推不一致问题及解决策略
【聆听·微光】004:一位算法后端开发工程师的AI转型之路
LLM 强化的“炼金术”:主流开源模型的 RL 优化策略赏析
【聆听·微光】003:一位对工作迷茫的程序员的觉醒时刻
【聆听·微光】002:一位普通院校硕士研究生的毕业之际
从平面国到硅世界:当文明被困在自己的维度里
【聆听·微光】001:一位研究生在读的”reward hacker“关于学习的困惑
聆听·微光
以 AI Coding 之管窥探世界之变
站在 30-40 岁的档口