为什么 LLM 难以直接复刻 AlphaGo 的树搜索奇迹？

当前大语言模型（LLM）正处于快速发展的状态，但在强化学习阶段面对长逻辑轨迹时，却面临着「信用分配」困难与梯度方差暴增等难题。相比之下， AlphaGo 通过 MCTS，成功高保真地摊销了复杂的搜索空间。基于此，Eric Jang 指出，由于语言生成空间规模极其庞大且极度开放，传统的 MCTS 难以直接套用于 LLM 。但他从中提取出了关于大模型演进的洞察，他指出，LLM 可以在没有显式树状结构的情况下，通过算力置换将推理搜索打包内化进前向传播中。

01. 多模态 RAG 为什么要重写检索对象？「信用分配」难题如何使 LLM 的强化学习效率受限？

AlphaGO 对 AI 的下一步发展有哪些启示？前1X Ai副总裁在休假时有哪些感悟？ …

02 . 「在哪里检索」才是 RAG 面对企业知识库的关键挑战？为什么不能直接把 AlphaGo 的 MCTS 抄到 LLM 里？

围棋与语言生成在搜索空间上的差异如何阻碍 MCTS 直接套用于 LLM？语言推理中间态价值评估的不可靠性如何阻碍树搜索机制在 LLM 中的落地？ …

03 . RAG 的重点如何从来源链接走向可核验证据？放弃显式树搜索后，LLM 如何实现自我进化？

放弃显式树搜索后，LLM 如何通过算力置换将复杂推理能力打包内化进前向传播？冷启动阶段的极低通过率在如何浪费无模型 RL 的算力？ …

「信用分配」难题如何使 LLM 的强化学习效率受限？

1、近日，前 1X Technologies AI 副总裁、前 Google DeepMind 机器人研究科学家 Eric Jang 接受了 Dwarkesh Patel 的访谈，分享了他在近期休假中，重构、优化、破解 AlphaGo 的感悟，并分析了 AlphaGo 对人工智能研发的启示。

2、通过近期的研究，Eric Jang 认为 AlphaGo 是意义深远的，这是因为 AlphaGo 用一个仅仅 10 层左右的神经网络，能够极其高保真地「摊销（Amortize）」原本被认为是计算上几乎无法解决的搜索问题。

3、Eric Jang 解释道，AlphaGo 的高效运行逻辑并非依赖算力的暴力破解，而是将神经网络与蒙特卡洛树搜索（MCTS）进行了深度融合。

① 在一轮完整的搜索循环中，算法会依赖价值网络（Value Network）对当前局面进行胜率预盘，从而提前截断 MCTS 展开的搜索深度。

② 其次是利用策略网络（Policy Network）评估并建议高潜力的落子位置，从而大幅度剪枝 MCTS 的搜索广度。

③ 通过这种机制，发散且不可控的决策树得以收敛，最终内化为神经网络一次快速且稳定的前向传播（Forward Pass）。

4、与 AlphaGo 的精确控制相比，Eric Jang 从数理逻辑指出，当前 LLM 依赖的策略梯度（Policy Gradient）强化学习在面对长逻辑轨迹时，会面临极高的梯度方差。

① Eric 强调，如果采用多步强化学习，通过交叉相乘计算梯度方差时，会产生一个随时间步长 T 呈二次方增长的项。

② 同时，若试图在每个特定 Token 上分配奖励，各个项的交叉相乘会产生复杂的交互效，从而引信用分配（Credit Assignment）难题，即如何将整个回合（Episode）的信用精确归因到所有不同的项上。

5、由于在 LLM 的生成中，当前的奖励通常在整段序列生成完毕后才出现，为了规避上述难题，当前的 LLM RL 实际上是将整段长序列作为一个单一动作（即 T=1）来处理。

① Eric 解释道，如果将问题分解为多步，在计算过程中会在动作之间引入相关性，从而进一步放大方差。因此，LLM 采用 T=1 的设定，将整个序列的对数概率视为单个 Token 概率之和。

② 尽管如此，在 T=1 的情况下，naive REINFORCE estimator 依然保留了较高、高的梯度方差。这导致模型在面对零梯度的失败样本时无法进行有效训练，必须依赖将样本量级提升至数百万次，才能在海量的中性标签中提取到有意义的监督信号。

6、针对上述无模型强化学习（Model-free RL）试图解决的「信用分配」困境，AlphaGo 成功的原因在于其 MCTS 机制采取了不同的路径，它不再试图基于最终的胜负来进行信用分配，而是致力于为模型走过的任何一个给定动作「改进标签」。

① Eric 指出，只要具备一个优秀的价值函数，MCTS 的树搜索就能给出一个比初始猜测更好的结果。它充当了「更好的教师」，通过对智能体尚未访问过的轨迹进行前向规划，为每一步提供严格更优的行动标签。

② 无论是 MCTS，还是在无法进行完美树搜索的复杂游戏（如星际争霸）中所采用的神经虚拟自我对弈（NFSP）或 Q-learning，都是通过搜索或最佳响应策略，用更好的动作去「重新标记」状态。这种机制绕开了在长轨迹中进行信用分配的难题，将策略提升转化为了利用更好标签进行强监督的过程。

为什么不能直接把 AlphaGo 的 MCTS 抄到 LLM 里？

1、既然 MCTS 在围棋中表现优异，那么能否直接将其应用到 LLM 中？针对这一问题，Eric Jang 指出了两种任务的差异，认为直接将 MCTS 机制套用到 LLM 中必然面临极大的不适应…

关注👇🏻 「机器之心PRO会员」，前往「收件箱」查看完整解读

]article_adlist–>

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->

            <!-- 非定向300*250按钮  end -->
        </div>

Source link

相关推荐

近期文章