TL;DR
本文系统梳理了让LLM"先规划再回答"的各类方法,从数据构造(结构化中间表示、层次抽象)、机制设计(注意力对齐、思维 token 注入)到认知启发(ACT-R分层、元思维进化)逐层深入,最后追问"规划的本质",指出显式token规划存在局限,潜在空间(latent)规划或许更接近真正的思考——非线性、可中断、全局感知。
当 reasoning 成为一种数据格式后,下一个很自然的想法就是 “如何 reasoning”,由此引出的做法可谓是五花八门。本文就尝试从这一角度进行梳理,探讨「如何思考(规划)」,或者等价于「如何构造思考数据」。毕竟,重点一直都是「搞数据」和「搞高质量数据」。
注意,思考和规划大多数时候是一个意思,但规划多了一点显式约束的意思,思考过程也隐含了规划信号。