
当前大语言模型(LLM)正处于快速发展的状态,但在强化学习阶段面对长逻辑轨迹时,却面临着「信用分配」困难与梯度方差暴增等难题 。相比之下, AlphaGo 通过 MCTS,成功高保真地摊销了复杂的搜索空间。基于此,Eric Jang 指出,由于语言生成空间规模极其庞大且极度开放,传统的 MCTS 难以直接套用于 LLM 。但他从中提取出了关于大模型演进的洞察,他指出,LLM 可以在没有显式树状结构的情况下,通过算力置换将推理搜索打包内化进前向传播中。
目录
01. 多模态 RAG 为什么要重写检索对象? 「信用分配」难题如何使 LLM 的强化学习效率受限?
AlphaGO 对 AI 的下一步发展有哪些启示?前1X Ai副总裁在休假时有哪些感悟? …
02 . 「在哪里检索」才是 RAG 面对企业知识库的关键挑战? 为什么不能直接把 AlphaGo 的 MCTS 抄到 LLM 里?
围棋与语言生成在搜索空间上的差异如何阻碍 MCTS 直接套用于 LLM? 语言推理中间态价值评估的不可靠性如何阻碍树搜索机制在 LLM 中的落地? …
03 . RAG 的重点如何从来源链接走向可核验证据? 放弃显式树搜索后,LLM 如何实现自我进化?
放弃显式树搜索后,LLM 如何通过算力置换将复杂推理能力打包内化进前向传播?冷启动阶段的极低通过率在如何浪费无模型 RL 的算力? …
「信用分配」难题如何使 LLM 的强化学习效率受限?
1、近日,前 1X Technologies AI 副总裁、前 Google DeepMind 机器人研究科学家 Eric Jang 接受了 Dwarkesh Patel 的访谈,分享了他在近期休假中,重构、优化、破解 AlphaGo 的感悟,并分析了 AlphaGo 对人工智能研发的启示。
2、通过近期的研究,Eric Jang 认为 AlphaGo 是意义深远的,这是因为 AlphaGo 用一个仅仅 10 层左右的神经网络,能够极其高保真地「摊销(Amortize)」原本被认为是计算上几乎无法解决的搜索问题。
3、Eric Jang 解释道,AlphaGo 的高效运行逻辑并非依赖算力的暴力破解,而是将神经网络与蒙特卡洛树搜索(MCTS)进行了深度融合。
① 在一轮完整的搜索循环中,算法会依赖价值网络(Value Network)对当前局面进行胜率预盘,从而提前截断 MCTS 展开的搜索深度。
② 其次是利用策略网络(Policy Network)评估并建议高潜力的落子位置,从而大幅度剪枝 MCTS 的搜索广度。
③ 通过这种机制,发散且不可控的决策树得以收敛,最终内化为神经网络一次快速且稳定的前向传播(Forward Pass)。
4、与 AlphaGo 的精确控制相比,Eric Jang 从数理逻辑指出,当前 LLM 依赖的策略梯度(Policy Gradient)强化学习在面对长逻辑轨迹时,会面临极高的梯度方差。
① Eric 强调,如果采用多步强化学习,通过交叉相乘计算梯度方差时,会产生一个随时间步长 T 呈二次方增长的项。
② 同时,若试图在每个特定 Token 上分配奖励,各个项的交叉相乘会产生复杂的交互效,从而引信用分配(Credit Assignment)难题,即如何将整个回合(Episode)的信用精确归因到所有不同的项上。
5、由于在 LLM 的生成中,当前的奖励通常在整段序列生成完毕后才出现,为了规避上述难题,当前的 LLM RL 实际上是将整段长序列作为一个单一动作(即 T=1)来处理。
① Eric 解释道,如果将问题分解为多步,在计算过程中会在动作之间引入相关性,从而进一步放大方差。因此,LLM 采用 T=1 的设定,将整个序列的对数概率视为单个 Token 概率之和。
② 尽管如此,在 T=1 的情况下,naive REINFORCE estimator 依然保留了较高、高的梯度方差。这导致模型在面对零梯度的失败样本时无法进行有效训练,必须依赖将样本量级提升至数百万次,才能在海量的中性标签中提取到有意义的监督信号。
6、针对上述无模型强化学习(Model-free RL)试图解决的「信用分配」困境,AlphaGo 成功的原因在于其 MCTS 机制采取了不同的路径,它不再试图基于最终的胜负来进行信用分配,而是致力于为模型走过的任何一个给定动作「改进标签」。
① Eric 指出,只要具备一个优秀的价值函数,MCTS 的树搜索就能给出一个比初始猜测更好的结果。它充当了「更好的教师」,通过对智能体尚未访问过的轨迹进行前向规划,为每一步提供严格更优的行动标签。
② 无论是 MCTS,还是在无法进行完美树搜索的复杂游戏(如星际争霸)中所采用的神经虚拟自我对弈(NFSP)或 Q-learning,都是通过搜索或最佳响应策略,用更好的动作去「重新标记」状态。这种机制绕开了在长轨迹中进行信用分配的难题,将策略提升转化为了利用更好标签进行强监督的过程。
为什么不能直接把 AlphaGo 的 MCTS 抄到 LLM 里?
1、既然 MCTS 在围棋中表现优异,那么能否直接将其应用到 LLM 中?针对这一问题,Eric Jang 指出了两种任务的差异,认为直接将 MCTS 机制套用到 LLM 中必然面临极大的不适应…
关注👇🏻 「机器之心PRO会员」,前往「收件箱」查看完整解读

]article_adlist–>
<!-- 非定向300*250按钮 17/09 wenjing begin -->
<!-- 非定向300*250按钮 end -->
</div>