今日快讯|国产精品黄片毛片_社会新闻

首页 >新闻 >社会新闻

如何优化测试时盘算？解决「元强化学习」问题

2025-02-14 01:57:53

来源：

猫眼影戏

作者：

颜雯

手机检察

　　猫眼影戏记者李晓旭报道P6F9A2Y5R3B1T0V4X8W

选自ml.cmu.edu 作者：Amrith Setlur、Yuxiao Qu 等机械之心编译优化大模型的测试时盘算是提升模型安排效率和节省盘算资源的要害一环。前段时间，黄仁勋在 CES 2025 的演讲中把测试时 Scaling 形容为大模型生长的三条曲线之一。如何优化测试时盘算成为业界关注的重要课题。到目前为止，革新大型语言模型 (LLM) 的主要战略是使用越来越多的高质量数据进行监督微调 (SFT) 或强化学习 (RL)。不幸的是，这种扩展形式似乎很快就会遇到瓶颈，预训练的扩展定律会趋于稳定，有报告称，用于训练的高质量文本数据可能在 2028 年耗尽，特别是关于更困难的任务，例如解决推理问题，这似乎需要将目今数据扩展约 100 倍才华看到任何显著的革新。LLM 在这些困难任务中的问题上的目今体现仍然不尽如人意。因此，迫切需要数据高效的要领来训练 LLM，这些要领可以逾越数据扩展并解决更庞大的挑战。在这篇文章中，我们将讨论这样一种要领：通过改变 LLM 训练目标，我们可以重用现有数据以及更多的测试时盘算来训练模型以做得更好。博客地点：https://blog.ml.cmu.edu/2025/01/08/optimizing-llm-test-time-compute-involves-solving-a-meta-rl-problem/ 图 1：训练模型以优化测试时盘算并学习「如何发明」正确谜底，而不是学习输出「什么谜底」的古板学习范式。目今训练模型的主要原则是监督它们为输入爆发特定的输出。例如，监督微调实验匹配给定输入的直接输出 token，类似于模仿学习，而 RL 微调训练响应以优化奖励函数，该函数通常应该在 oracle 响应上取最高值。无论哪种情况，我们都在训练模型以爆发它可以体现的 y* 的最佳近似值。从笼统上讲，这种范式训练模型以爆发单个输入输出映射，当目标是直接解决给定漫衍中的一组类似盘问时，这种要领很有效，但无法发明漫衍外盘问的解决计划。牢固的、一刀切的要领无法有效适应任务的异质性。我们更希望有一个强大的模型，它能够通过实验多种要领并在差别水平上寻求信息，或者在无法完全解决问题时表达不确定性，从而推广到新的、未见过的问题。我们如何训练模型来满足这些要求？学习「如何回覆」为了解决上述问题，一个新想法是允许模型在测试时使用盘算资源来寻找「元（meta）」战略或算法，这些战略或算法可以资助它们理解「如何」得出一个好的谜底。实现能够付与模型系统性程序运行能力的元战略，应该能够使其在测试时外推和泛化到差别庞漂后的输入盘问。例如，如果一个模型被教了柯西 - 施瓦茨不等式的寄义，它就应该能够在简单和困难的证明问题上在适当的时候运用它；痪浠八，给定一个测试盘问，我们希望模型能够执行包括多个基本推理办法的战略，这可能需要消耗更多的 token。图 2 展示了解决一个给定问题的两种差别战略的例子。我们如何训练模型来做到这一点呢？我们将把这个目标形式化为一个学习问题，并通过元强化学习的思路来解决它。图 2: 展示了两种算法及其各自生成的 token 流示例。将学习「如何做」形式化为一个目标关于每个问题 x∈X，假设我们有一个奖励函数 r (x,?):Y?{0,1}, 可以针对任何输出 token 流 y 进行盘问。例如，关于数学推理问题 x，其 token 输出流为 y，奖励 r (x,y) 可以是检查某个 token 子序列是否包括正确谜底的函数。我们只获得了训练问题数据集 D_train, 因此也只有奖励函数荟萃 {r (x,?):x∈D_train}。我们的目标是在事先未知的测试问题漫衍 P_test 上获得高奖励。测试问题的难度可能与训练问题差别。关于未知的测试问题漫衍 P_test 和有限的测试时盘算预算 C，我们可以从训练问题数据集 D_train 中学习一个算法 A∈A_C (D_train), 这个算法属于推理盘算受限的测试时算法类 A_C。这个类中的每个算法都以问题 x～P_test 作为输入，并输出一个 token 流。在图 2 中，我们给出了一些例子来资助理解这个 token 流可以是什么。例如，A_θ(x) 可能首先包括针对问题 x 的某些实验 token，然后是一些用于预测实验正确性的验证 token，如果验证为不正确，接着是对初始实验的一些革新，所有这些都以「线性」方法串联在一起。另一个算法 A_θ(x) 可能是以线性方法模拟某种启发式引导搜索算法。算法类 A_C (D_train) 将由上述所有可能的 A_θ(x) 爆发的下一个 token 漫衍组成。注意，在这些例子中，我们希望使用更多的 token 来学习一个通用但可泛化的程序，而不是去推测问题 x 的解决计划。我们的学习目标是学习由自回归大语言模型参数化的 A_θ(x)。我们将这整个流 (包括最终谜底) 称为响应 y～A_θ(x)。算法 A_θ(x) 的效用由奖励 r (x,y) 权衡的平均正确性给出。因此，我们可以将学习算法表述为解决以下优化问题：将 (Op-How) 解释为元强化学习问题接下来的问题是：我们如何解决由语言模型参数化的、在盘算受限算法类 A_c 上的优化问题 (Op-How)？显然，我们既不知道测试问题的结果，也没有任何监督信息。因此，盘算外部期望是徒劳的。对问题 x 推测最佳可能响应的「标准」大语言模型战略似乎也不是最优的，因为如果充分利用盘算预算 C，它可能会做得更好。主要思路是优化 (Op-How) 的算法 A_θ(x)∈A_c，类似于强化学习中的自适应战略，它使用特另外 token 预算来实现某种算法战略来解决输入问题 x。有了这个联系，我们可以从类似问题通常的解决方法中获得启发：通过元学习的视角来看待 (Op-How)，具体来说是元强化学习：「元」是因为我们希望学习算法而不是直接回覆给定问题，而「强化学习」是因为 (Op-How) 是一个奖励最大化问题。一个很是简短的元强化学习入门通常，强化学习训练一个战略来最大化马尔可夫决策历程 (MDP) 中的给定奖励函数。相比之下，元强化学习问题设定假设可以会见任务漫衍 (每个任务都有差别的奖励函数和动态特性)。在这种设定下，目标是在来自训练漫衍的任务上训练战略，使其能够在从相同或差别测试漫衍抽取的测试任务上体现良好。别的，这种设定不是凭据战略在测试任务上的零样本体现来评估它，而是让它通过在测试时执行几个「训练」回合来适应测试任务，在执行这些回合之后再评预战略。那么解决 (Op-How) 就对应着找到一个战略，该战略能够在盘算预算 C 内快速适应测试问题 (或测试状态) 的漫衍。从认知 POMDP 的视角来看这种测试时泛化的看法是另一种方法，这是一个将在 M_x 族上学习战略视为部分视察强化学习问题的结构。这个视角提供了另一种引发自适应战略和元强化学习需求的方法：关于那些有强化学习配景的人来说，解决 POMDP 等同于运行元强化学习这一点应该缺乏为奇。因此，通过解决元强化学习目标，我们正在寻求这个认知 POMDP 的最优战略并实现泛化。适应性战略如何适应测试问题？在元强化学习中，关于每个测试 MDP M_x，战略 A_θ 在通过 A_θ 生成最终响应进行评估之前，可以通过消耗测试时盘算来获取信息。在元强化学习术语中，获得的关于测试 MDP M_x 的信息可以被视为在测试问题 x 引发的 MDP 上收集「训练」回合的奖励，然后再在测试回合上进行评估。注意，所有这些回合都是在模型安排后执行的。因此，为了解决 (Op-How)，我们可以将来自 A_θ(x) 的整个 token 流视为分成几个训练回合的流。为了优化测试时盘算，我们需要确保每个回合都能提供一些信息增益，以便在测试 MDP M_x 的后续回合中体现更好。如果没有信息增益，那么学习 A_θ(x) 就退化为一个标准的强化学习问题 —— 只是盘算预算更高 —— 这样就不清楚学习「如何做」是否有用。可以获得什么样的信息？虽然，如果 token 流中涉及外部接口，我们可以获得更多信息。可是，如果不涉及外部工具，我们是否在利用免费午餐？我们指出不是这种情况，在 token 流进行历程中不需要涉及外部工具也能获得信息。流中的每个回合都可以有意义地增加更多信息，也就是说，我们可以将消耗更多的测试时盘算视为从模型对最优解的后验近似 P (?|x,θ) 中采样的一种方法，其中每个回合 (或输出流中的 token) 都在革新这个近似。因此，显式地调解先前生成的 token 可以提供一种盘算可行的方法，用牢固巨细的大语言模型来表征这个后验。综上所述，当被视为元强化学习问题时，A (?|?) 成为一个历史条件 (「自适应」) 战略，通过在给定测试问题上花费最多 C 的盘算来优化奖励 r。图 3：智能体 - 情况交互协议。图源：https://arxiv.org/pdf/1611.02779 学习自适应战略的元强化学习图 4：A_θ(x) 的响应包括一串 token。我们如何解决这样一个元强化学习问题？也许解决元强化学习问题最明显的要领是接纳黑盒元强化学习要领。这将涉及最大化输出轨迹 A_θ(x) 中想象的「episodes」的奖励总和。例如，如果 A_θ(x) 对应于使用自我纠正战略，那么每个 episode 的奖励将对轨迹中泛起的单个响应进行评分。如果 A_θ(x) 划定了一种在生成和生成验证之间交替的战略，那么奖励将对应于生成和验证的乐成。然后我们可以优化：一般情况下，输出 token 流可能无法清晰地分成生成和验证片段。在这种情况下，可以考虑元强化学习问题的更笼统形式，直接使用信息增益的某种预计作为奖励。可以通过多轮强化学习要领来解决 (Obj-1) 和 (Obj-2)。实际上，只要能够使用某种执行按期在线战略采样的强化学习算法来解决优化问题，强化学习要领的选择 (基于价值照旧基于战略) 可能并不重要。我们还可以考虑另一种制定元强化学习训练目标的要领：只优化测试回合获得的奖励，而不是训练回合的奖励，从而制止量化信息增益的需要。

??时事1：邪恶漫画大全无意鸟

??02月14日,数读中国 | 我国社会物流成本水平总体保持下降态势,

　　“真是一件可怕的宝具！”小不点喜悦，将宝剪捡了起来，持在手中，翻过来掉已往的看。

,免费看黄的网站免费看。

??02月14日,广东珠海斗门区一居民楼发生倒塌 4人被困,

　　农村网站是一个让您展示自我的舞台，更是众多网友们交流经验，取长补短的平台。我们愿意通过现代化的信息网络手段，增进我村党务、村务果真。我们将依托政策和科技层面的支撑，提高村民获取信息的能力和要领，为您提供最新的农产品资讯平台，将绿色食品完美的泛起在你面前。让您不但能在网站上拥有一对一的产销信息，获得最人性化的效劳方法，更有享受我村组织的各项运动的优先权及更多的优惠政策。

,窝窝看看A 黄,别插进来,我是你妈。,私库旧版本在线。

??时事2：A级毛片在线高清全免费视频

??02月14日,“西湖遇见敦煌”书香艺术空间开启两大文化符号相遇,

　　(五)建立市民广泛加入机制，解决旧城革新征地难、拆迁难的问题。要加速都会生长，就必须加速老城区的革新，特别是历史文化名城；ぜ苹岳铣乔母镄潞徒ㄉ杼岢隽烁咭，这是一项政治任务。而要将历史文化名城打造得饱满起来、生动起来，就一定涉及到征地拆迁。在这方面，国家的政策越来越严格，拆迁的难度越来越大，做群众事情的难度也越来越大。这就需要我们有效破解这一难题。一要树立最大限度；と褐谡崩娴睦砟。我们建设历史文化名城基础目的是为了让老黎民生活得更幸福，因此在征地拆迁和都会建设时，要把；と褐诘恼崩娣旁诘谝晃。只有树立这样的理念，我们事情的安排安排、推进步伐才华做得更好一些，矛盾才华更少一些。二要建立群众广泛加入的拆迁机制。都会拆迁革新关于大大都市民来讲是受益的，对拆迁户也是受益的，但要把拆迁事情做好，必须让宽大群众特别是拆迁工具加入进来，实行政策果真、赔偿标准果真、利益分派果真，接受群众监督。同时，让群众自己教育自己，自己解决自己的问题。降低拆迁中的矛盾对立，最大限度地实现和谐拆迁。三要增强对群众的思想教育事情。我们都说拆迁难，究竟难在哪里?难在思想教育不到位，难在能做、愿意做深入细致的群众事情的干部太少，这是我们拆迁难的一个重要原因。原理讲不清、利益说不明，只是希望通过发一个通告来解决问题，事情要领简单，导致矛盾激化。要做好拆迁事情，我们的各级组织和干部要把做群众思想教育事情摆在突出位置，做到以政策服人、以理服人、以情感人。四要形成依法攻击滋扰都会建设违法行为的协力。都会拆迁革新中的难中之难是一些钉子户，是一些借都会拆迁革新之机敲国家竹杠、漫天要价、无理取闹的人。这些人的违法行为不但影响市容市貌，影响了都会建设进程，并且也损害了绝大大都群众的基础利益。因此，我们既要有群众利益最大化的理念、有依法行政的作为，还要有依法处理违纪违法行为的手段和能力。在这方面最主要的是靠多部分联动，形成强大协力，努力通过执法的手段切实解决征地拆迁中保存的矛盾和问题。

,名优馆app官网入口下载,真人抽搐一进一出免费观看,日本2021不卡黄色网站。

??02月14日,优化海南自贸港营商环境海口海关促贸易便利化,

　　如今，你们已经站在了人生的第一个转折点上，迎接人生的第一次挑战。希望你们正确面对中考，拿出你的勇气与自信，坦然面对，冷静应战，从容应付。不急、不躁、坚持良好的心态。面对中考，我们要有“一览众山小”的自豪，有曹操“东临碣石，以观沧海”的从容与自信，有毛泽东“胜似闲庭信步”的心境。考场上，要坚持做到“两耳不闻窗外事”，要“咬定青山不松开，任尔工具南冬风”；考场下来，要有“已往的就让他已往”的潇洒。总之，希要有美意情，美意态，态度决定一切！

,视频一区二区精品区免费,欧美精品视频在线免费观看,免费看性虐视频网站大全。

??时事3：十大夜间禁用黄色网站大全

??02月14日,昆明邮局海关查获新型毒品LSD片状物10片,

　　1、全场签订森林资源管护目标责任书，并于石油勘探区队签订森林资源管护责任书。2、准时落实完成局下达的各项森林资源；ぷㄏ钚卸，在各项专项行动中未发明破坏森林资源行为及案件。3、我们不但落实好局安排的各项专项行动，并按期、未必期组织场林政稽察人员对全场辖区巡查巡护，发明问题实时处理，把一切破坏森林资源的违法行为消灭在萌芽状态。4、安排林政稽察人员在重要地段、各大沟口加大巡查力度及夜查、炮楼检查站要增强24小时值班带班制度，值班明确责任，夜间值班由一名副场长带班，谁值班带班泛起问题谁卖力，层层落实了责任，确保了森林资源宁静。5、在人流量大醒目所在制作森林资源管护宣传横幅。

,欧美性爱视频开干,人体艺术欣赏五月天久久,免费性爱小视频。

??02月14日,中方坚决反对任何“台独”分子以任何名义窜访中国的建交国,

　　在接下来日子里，石村的孩子们都很努力，高昂向上，苦修骨文，锤炼血气，一个个都壮的跟凶兽般。

,军人边走边吮她的花蒂a,黄篇大全免费进入在线观看视频,嘿咻视频免费。

??时事4：s-cute系列

??02月14日,水利部印发《水利建设市场经营主体信用信息管理办法》,

　　破旧的第二祖地，地处荒芜的边疆，只有那些犯了大错、惹了大祸的族人才会被发配到此。

,女人自慰冒白浆,99精品热视频只有精品16,罗志祥代言app下载入口。

??02月14日,天津多举措推动基层健康发展提升群众就医安全感,

　　突然，还未容他动，远处的山林像是山洪暴发了一般，兽吼声不绝，震耳欲聋，向着这里攻击而来。

,导航啦下载app,毛片无毒不卡,亚洲激情文学。

【湖北赤壁联手武汉大学打造国内首个“遥感小镇”】

【李钧任陕西省副省长】

责编：李建华

审核：阿汤哥

责编：李国胜

尊龙人生就是博

如何优化测试时盘算？解决「元强化学习」问题