背景:CoT链式推理的"伪推理"危机
过去两年,思维链(Chain-of-Thought, CoT)推理成为了大语言模型解决复杂问题的标准范式。然而2025年底至2026年初的一系列研究指出:CoT推理本质上是"语言层面的伪推理"。
HRM架构:潜空间中的"求解→更新→再求解"
HRM(Hidden Recursive Model)架构的核心创新在于:将推理过程从"语言输出空间"转移至"模型内部状态空间"。
| 维度 | CoT链式推理 | HRM潜空间推理 |
|---|---|---|
| 推理载体 | 生成的文本token | 模型内部隐藏状态 |
| 计算效率 | 低(逐个token生成) | 高(并行状态更新) |
| 推理深度 | 受限于上下文长度 | 可递归任意深度 |
HRM-Text:训练成本仅1500美元
HRM-Text的训练成本约为1500美元,核心原因是:参数量小(1B)、数据效率高、训练时间短(8张H100上约48小时)。
评测总结
HRM-Text的出现,为AI推理研究开辟了一条全新的技术路线。它证明了"在潜空间中完成推理"不仅是理论可行的,而且可以在极低成本下实现具有竞争力的性能。