type
status
date
slug
summary
tags
category
icon
password
小型神经网络打破常规:TRM 模型以极简参数实现复杂推理突破
在人工智能领域,主流观点一直强调“大模型才是王道”。各大科技公司纷纷砸下重金开发参数规模动辄上亿甚至上千亿的大型语言模型。然而,来自三星 SAIL 蒙特利尔的研究人员 Alexia Jolicoeur-Martineau 提出了一个截然不同的思路。他所主导设计的 Tiny Recursive Model(TRM),用一种高效策略颠覆了传统认知。
TRM 只有 700 万参数,还不到目前主流语言模型参数量的 0.01%。即便如此,它依然在 ARC-AGI 这类高难度推理任务基准上取得了新的领先成绩。这项研究为 AI 能力提升开辟了一条更可持续、资源占用更少的新路。

算法瓶颈与结构创新

尽管大型语言模型在文本生成方面能力强大,面对需多步骤逻辑推演的问题时,它们却容易出错。因为输出是逐字生成的,一旦前期推理出现偏差,整体答案就可能完全失效。
为了改善这一状况,学术界引入了诸如“Chain-of-Thought”这样的方法,鼓励模型分步思考。可这类方案不仅计算开销大,还需要大量优质训练数据支撑,而这些数据并不总是现成可用。即便是改进之后,模型在纯逻辑类问题上依旧表现有限。
三星团队借鉴了最近提出的 Hierarchical Reasoning Model(HRM),它尝试通过两个小型神经网络交叉迭代来完善答案。虽然思路新颖,但由于借鉴了复杂的生物学理论和数学定理,其实用性也受到一定限制。
TRM 更进一步地简化了流程。它 只用一个轻量级网络,通过对问题、初始答案猜测和推理线索的不断循环优化,来自我修正推理路径与最终结果。模型首先分析潜在推理过程,在此基础上更新答案预测。这一递归过程最多重复 16 次,以最少的参数完成高质量结果输出。
研究发现,使用 仅两层 的微型网络反而优于更多层的设计。更小的网络有助于避免过拟合,从而在特定任务上具备更强泛化能力。
此外,TRM 的训练机制也更加实际。它摒弃了 HRM 中关于函数收敛性的理论假设,转而采用更直接的 全程反向传播训练方式。这种转换在 Sudoku-Extreme 基准测试中带来显著提升,准确率从 56.5% 大幅跃升至 87.4%

轻量化模型挑战主流表现

TRM 在多个复杂推理基准测试中都交出了亮眼成绩单:
  • Sudoku-Extreme:仅使用 1000 条训练数据,TRM 就实现了 87.4% 的测试准确率,远高于 HRM 的 55%
  • Maze-Hard:在 30×30 的迷宫中规划最长路径,TRM 取得 85.3% 成功率,领先 HRM 的 74.5%
  • ARC-AGI:该测试旨在评估 AI 的类人推理能力。TRM 虽然只有 700 万参数,却在 ARC-AGI-1 上获得 44.6% 准确率,在 ARC-AGI-2 上达到 7.8%,不仅超过了 2700 万参数的 HRM,也强于多数参数量巨大的主流 LLM。作为对比,Gemini 2.5 Pro 在 ARC-AGI-2 的准确率仅 4.9%
训练过程同样轻巧高效。原先用于判断模型何时终止当前推理的机制 ACT(Adaptive Computation Time)经过优化,移除了每轮迭代中二次前向传播的需求。这不仅降低了训练成本,对模型泛化能力几乎没有负面影响。

小而精的未来路径

三星这项研究成果有力回应了 AI 领域普遍信奉的“参数越多越智能”的理念。它清晰展示了通过构建具备 自我迭代与纠错能力 的模型结构,小型网络也能够应对高难度任务,为资源受限场景下的 AI 应用提供了切实可行的方向。
Google Cloud全新Gemini Enterprise发布:AI代理一键提升企业效率40%!仅凭一张照片,秒生成逼真3D场景!SceneGen颠覆全流程建模!
Loading...