摘要
我们正站在人工智能新时代的门槛上——这个时代承诺达到前所未有的能力水平。 新一代智能体将主要通过从体验(experience)中学习来获得超越人类的能力。 本文探讨了即将到来的这个时代将如何被几个关键特征所定义。
人类数据时代
人工智能(AI)近年来取得了显著进展,主要依靠在海量人类生成数据上的训练,以及借助人类专家示例与偏好进行微调。 这种范式的典型代表是大型语言模型(LLM)——它们已经达到了一种横扫式的通用性。 今天的单个 LLM 可以胜任从写诗、解物理题,到诊断病情、总结法律文书等一系列任务。
然而,仅靠模仿人类足以把许多人类能力复刻到一个合格水平,但这种路径——仅靠人类数据—— 很可能无法在许多重要主题与任务上实现超人智能。 在数学、编程、科学等关键领域,可以从人类数据中提取的知识正在迅速逼近上限。 那些真正能让强智能体表现继续提升的高质量数据源,要么已被消耗殆尽,要么很快就会被消耗殆尽。 单纯依靠"在人类数据上做监督学习"驱动的进步速度,可以观测地正在放缓——这表明需要一种新的方法。 此外,那些有价值的新洞见——比如新定理、新技术、新的科学突破—— 本就处在人类当前理解的边界之外,无法被既有的人类数据捕获。
体验时代
要实现进一步的显著进展,需要一种新的数据来源。 这种数据必须以"随着智能体变强而持续改进"的方式产生;任何静态的合成数据流程,都会很快被超越。 要做到这一点,可以让智能体持续从它们自己的体验(experience)中学习—— 也即智能体在与环境互动中所生成的数据。 人工智能正处在一个新时期的临界点:体验将成为提升智能体能力的主导媒介,其规模终将使今天系统所使用的人类数据相形见绌。
即使是体现"以人类为中心 AI"巅峰的大型语言模型,这种转变可能也已经开始了。 数学方面的一个例子是:AlphaProof[20] 最近成为首个在国际数学奥林匹克竞赛(IMO)中获得奖牌的程序, 其表现超过了以人类为中心的方法 [27, 19]。 AlphaProof 初期接触的是大约十万个由人类数学家在多年间构造出的形式化证明, 随后其强化学习(RL)1算法在与形式化证明系统的持续交互中,自主生成了一亿个额外证明。 正是这种"面向交互式体验的聚焦",让 AlphaProof 得以探索预先存在的形式化证明之外的数学可能性,从而发现新颖且富有挑战性的问题的解答。 非形式化数学领域同样以"自生成数据替代专家生成数据"取得了成功;例如 DeepSeek 的近期工作"凸显了强化学习的力量与美感: 我们不是显式地教模型如何解决问题,而是只为它提供正确的激励,它就能自主发展出高级的问题求解策略"[10]。
我们的论点是:一旦体验学习的全部潜力被充分释放,前所未有的新能力将随之涌现。 在这个体验时代,智能体与环境的设计,除了能从海量体验数据中学习之外,还将在以下几个维度上突破以人类为中心 AI 系统的局限:
- 智能体将栖身于体验流(streams of experience)之中,而不仅仅是交互的短片段。
- 它们的动作与观察将丰富地接驳于环境,而不仅仅通过人类对话进行交互。
- 它们的奖励将植根于对环境的体验之中,而不来自人类的先入之见。
- 它们将就体验进行规划与推理,而不仅以人类的术语进行思考。
我们相信,今天的技术——配合恰当选择的算法——已经为实现这些突破提供了足够强大的基础。 更进一步,AI 社区对此议程的追求,将催生这些方向上的新创新,把 AI 迅速推向真正的超人智能体。
体验流(Streams)
一个具备体验能力的智能体可以终其一生持续学习。 在人类数据时代,基于语言的 AI 主要聚焦于短交互回合(short interaction episodes): 例如,用户问一个问题,智能体(可能经过几步思考或工具调用之后)做出回应。 通常,从一个回合到下一个回合几乎没有信息传递,从而排除了任何随时间发生的适应; 并且智能体的目标仅指向当前回合内的结果,例如直接回答用户的问题。
与此相对,人类(以及其他动物)存在于一个持续多年的、动作与观察交织的流(ongoing stream)之中。 信息会贯穿整个流被携带前行,他们的行为会基于过去的体验自我修正、自我改进。 更进一步,目标可以被规定为一些"远远延伸到未来"的动作与观察—— 例如,人可以为了改善健康、学一门语言或取得科学突破,而在数月内选择行动。
强大的智能体应当拥有它们自己的体验流,像人类一样在很长的时间尺度上前进, 从而能为了实现未来目标而采取行动,并随时间持续适应到新的行为模式中去。 例如,一个连接到用户可穿戴设备的健康与健身智能体可以监测用户的睡眠模式、活动水平、饮食习惯, 持续数月乃至数年,从而提供个性化建议、鼓励,并根据长期趋势与用户特定健康目标调整其指导。 类似地,一个个性化教育智能体可以跟踪用户学习一门新语言的进展、识别知识缺口、适应其学习风格, 并在数月乃至数年里调整其教学方法。 再进一步,一个科学智能体可以追求宏大目标,例如发现一种新材料、或减少二氧化碳; 它能在很长时段内分析真实世界的观测,开发并运行模拟,并提出真实世界的实验或干预。
在每种情况下,智能体都会采取一系列步骤,以最大化在该指定目标上的长期成功。 单个步骤可能不带来任何即时收益,甚至在短期内是有害的,但它的聚合效果仍可能贡献于长期成功。 这与当前 AI 系统形成强烈对比——后者只对请求做出即时响应,没有任何能力去测度或优化"它们的行为对环境的未来后果"。
动作与观察
在体验时代,智能体将自主地在真实世界中行动。 人类数据时代的 LLM 主要聚焦于"以人类为特权信道(human-privileged)"的动作与观察: 它们向用户输出文本,再把用户的文本输入回智能体。 这与自然智能有显著差别——后者通过运动控制与传感器与环境互动。 动物(尤其是人类)虽然也会与其他动物沟通,但这一过程经由的仍是与其他感觉-运动控制同一接口,而非一个被特权化的信道。
长期以来,人们已认识到 LLM 也可以在数字世界中调用动作,例如调用 API(见 [43])。 起初,这种能力主要来自人类工具使用的示例,而非智能体自己的体验。 然而,编程与工具使用能力越来越多地建立在执行反馈之上 [17, 7, 12]—— 智能体真的去运行代码,并观察会发生什么。 最近,一批新原型智能体开始以更通用的方式与计算机交互—— 使用人类用来操作计算机的同一界面 [3, 15, 24]。 这些变化预示着一种过渡:从"仅以人类特权方式进行通信",过渡到智能体能够独立地在世界中行动的远更自主的交互。 这样的智能体将能够积极探索世界、适应变化的环境,并发现可能永远不会出现在人类脑中的策略。
这些更丰富的交互将提供一种手段,去自主理解和控制数字世界。 智能体可以使用"人类友好"的动作与观察,例如使用用户界面——自然便于与用户沟通与协作; 也可以采取"机器友好"的动作,执行代码、调用 API,从而自主地为其目标服务。 在体验时代,智能体也将通过数字接口与真实世界互动:例如,一个科学智能体可以监测环境传感器、远程操作望远镜, 或在实验室中控制机械臂以自主进行实验。
奖励
如果体验型智能体可以从外部事件与信号中学习,而不仅是从人类偏好中学习,会怎样?
以人类为中心的 LLM 通常会针对基于人类先入之见的奖励进行优化: 专家观察智能体的动作,并判断它是不是一个好动作,或在多个候选动作中挑选最好的。 例如,专家可能会判断一个健康智能体的建议、一个教育助手的教学、或一个科学家智能体提出的实验。 这些奖励或偏好由人类在不知后果的情况下判定,而不是衡量这些动作对环境的实际影响; 这意味着它们没有直接植根于现实。 以这种方式依赖人类先入之见,通常会给智能体的表现强加一道难以穿越的天花板: 智能体无法发现那些被人类评分者所低估的更好策略。 要发现远远超出现有人类知识的新想法,反而需要使用植根于环境(grounded)的奖励—— 这些信号源于环境本身。 例如,健康助手可以基于用户的静息心率、睡眠时长、活动水平等信号的组合,把用户的健康目标转化为可植根的奖励; 教育助手可以使用考试结果,为语言学习提供有据可依的奖励; 一个以"减缓全球变暖"为目标的科学智能体,可以使用对二氧化碳水平的实证观测作为奖励; 一个寻找更强材料的目标,则可以植根于材料模拟器的测量组合,例如抗拉强度或杨氏模量。
"植根的奖励"也可以来自作为环境一部分的人类2。 例如,用户可以汇报"那个蛋糕是否好吃"、"运动后疲惫程度如何"、"头痛的程度如何", 从而让助手智能体能提供更好的食谱、改进健身建议、或改进药物推荐。 这类奖励是在智能体动作对环境产生后果之后,对该后果的测量—— 因此最终能带来比"由专家先入为主评判一份食谱、训练计划或治疗方案"更好的协助。
那么如果不是来自人类数据,奖励还能从哪里来?一旦智能体通过丰富的动作与观察空间连接到了世界(见上节), 可作为奖励基础的有据可依的信号将不会短缺。事实上,世界本身就充满了可量化的量: 成本、错误率、饥饿、生产力、健康指标、气候指标、利润、销售、考试结果、成功率、访问量、产量、股价、点赞数、收入、 愉悦/痛苦、经济指标、准确率、功率、距离、速度、效率,或能耗。 此外还有无数由特定事件的发生或由观察-动作原始序列派生的特征所产生的信号。
原则上,可以创造许多不同的智能体,每个都以一种植根的信号作为奖励。 一种观点是:哪怕只有单个这种奖励信号,只要被以极高效率优化,可能就足以诱导出广义的智能能力 [34]3—— 因为要在一个复杂环境中达成一个简单目标,往往需要掌握各种各样的技能。
然而,追求单一奖励信号看起来表面上并不满足"通用 AI 应能可靠地朝任意用户期望行为去引导"的要求。 那么,对"植根的、非人类奖励信号"的自主优化,是否与现代 AI 系统的需求相冲突呢? 我们认为,未必如此——下面勾勒一种可能满足上述期望的路径;其他路径也可能存在。
思路是:以用户引导的方式,根据植根的信号灵活地塑造奖励。 例如,奖励函数可以由一个神经网络定义,该网络以智能体与用户、环境的交互作为输入,输出一个标量奖励。 这允许奖励"以一种依赖于用户目标"的方式来选取或组合环境中的信号。 例如,用户可能指定一个宽泛目标"提升我的体能",奖励函数则可能返回一个关于用户心率、睡眠时长、步数的函数; 或者用户可能指定"帮我学西班牙语",奖励函数则可以返回用户的西班牙语考试结果。
更进一步,用户可以在学习过程中提供反馈,例如他们的满意度,这些反馈可用于微调奖励函数。 奖励函数随后可以随时间调整——改进它如何选取或组合信号的方式,并识别与纠正任何错配。 这也可以理解为一种双层优化(bi-level optimisation)过程: 在顶层,把用户反馈作为最终目标进行优化;在底层,则在该奖励引导下,从环境中优化植根信号4。 这样,少量的人类数据可以促成大量的自主学习。
规划与推理
体验时代会改变智能体规划与推理的方式吗?
最近,LLM 在使用语言进行推理或"思考"上取得了显著进展 [23, 14, 10]—— 在输出最终回答之前,先按一条思维链(chain of thought)行进 [16]。 从概念上讲,LLM 可以充当一台通用计算机 [30]: 它可以向自身上下文追加 token,从而让它执行任意算法以输出最终结果。
在人类数据时代,这些推理方法被明确设计为模仿人类思维过程。 例如,LLM 被提示去发出类似人类的思维链 [16]、模仿人类思考痕迹 [42], 或被用与人类范例相匹配的思考步骤强化 [18]。 推理过程还可以被进一步微调,以产生在"由人类专家判定的正确答案"上对齐的思考痕迹 [44]。
然而,人类语言极其不可能是通用计算机的最优实例。 一定还存在更高效的思维机制——它们也许利用非人类语言,例如符号化、分布式、连续或可微的计算。 一个能自学习的系统,原则上可以通过"学习如何从体验中思考"来发现或改进这样的方法。 例如,AlphaProof 学会了以一种与人类数学家相当不同的方式形式化地证明复杂定理 [20]。
更进一步,通用计算机的原则只触及智能体的内部计算,它并不把内部计算连接到外部世界的实际状态。 一个被训练去模仿人类思维、甚至匹配人类专家答案的智能体,可能会继承数据中深嵌的谬误的思维方式—— 比如有缺陷的假设或固有偏见。 例如,如果一个智能体被训练去用 5000 年前的人类思维和专家答案来推理,它可能会用泛灵论来推理物理问题; 1000 年前,它可能会用神学来推理;300 年前,可能用牛顿力学;50 年前,用量子力学。 要超越每一种思维方式,都必须与真实世界互动:提出假设、运行实验、观察结果、并据此更新原则。 同样,智能体必须植根于真实世界的数据,才能推翻继承下来的谬误思维方式。 这种"植根(grounding)"提供了一个反馈回路,让智能体得以用现实来检验继承下来的假设,并发现不被当前主流人类思维所限制的新原则。 没有这种植根,无论多么复杂的智能体都将成为既有人类知识的回声室。 要超越这点,智能体必须积极地与世界互动、收集观察数据、并用这些数据迭代地完善其理解—— 这与驱动人类科学进步的过程在许多方面是同构的。
一种直接把思维植根于外部世界的可能做法,是构造一个世界模型(world model)[37], 用以预测智能体动作对世界造成的后果——包括对奖励的预测。 例如,健康助手可能考虑要不要推荐一家本地健身房或一个健康播客; 其世界模型可以预测在此动作之后,用户的心率或睡眠模式会如何随之变化, 以及与用户的未来对话又会如何展开。 这让智能体能够直接以"自身动作及其在世界上的因果效应"来进行规划 [36, 29]。 随着智能体在其体验流中持续与世界互动,其动力学模型会被不断更新,以纠正预测中的任何错误。 给定一个世界模型,智能体便可应用可扩展的规划方法,以提升智能体的预测表现。 规划与推理并不互斥:智能体既可以应用 LLM 的内部计算,在规划时选取每个动作, 也可以用它来模拟并评估这些动作的后果。
为什么是现在?
从体验中学习并非新事物。强化学习系统此前已经掌握了大量在模拟器中可表达、并具有清晰奖励信号的复杂任务 (大致对应于图 1 中的"模拟时代")。例如,RL 方法在西洋双陆棋 [39]、围棋 [31]、国际象棋 [32]、扑克 [22, 6]、 Stratego [26] 等棋牌博弈中达到或超过人类水平;在 Atari [21]、StarCraft II [40]、Dota 2 [4]、Gran Turismo [41] 等电子游戏中亦然; 还包括魔方等灵巧操作任务 [1]、以及数据中心制冷等资源管理任务 [13]。 更进一步,像 AlphaZero [33] 这样强大的 RL 智能体展现出可扩展性令人印象深刻、且可能没有上限—— 它们随着神经网络规模、交互式体验量与思考时长的增长而持续受益。 然而,基于这一范式的智能体始终未能跨越"模拟(封闭、单一、定义精确的奖励)"与"现实(开放式、奖励多元且看上去定义不清)"之间的鸿沟。
"人类数据时代"提供了一个有吸引力的替代方案: 人类数据的海量语料覆盖了对各种各样任务的自然语言示例。 在这些数据上训练的智能体获得了广泛能力,与"模拟时代"那种较窄的成功相比可谓一鸣惊人。 于是,"体验型 RL"的方法论在很大程度上被舍弃了,转而支持更通用的智能体—— 这导致了向"以人类为中心 AI"的大规模迁移。
然而,这一转变中也丢掉了某种东西——智能体自我发现知识的能力。 例如,AlphaZero 为国际象棋与围棋发现了根本意义上新的策略, 改变了人类下这些棋的方式 [28, 45]。 体验时代将调和这种"自我发现能力"与人类数据时代所达成的"任务通用性": 如上所述,当智能体能够在真实世界体验流中自主地行动与观察 [11]、并将奖励灵活地连接到种类极其丰富的"植根的真实世界信号"上时, 这种调和将变为可能。 自主智能体已能与复杂的真实世界动作空间互动 [3, 15, 24], 强大的 RL 方法也能在丰富的推理空间中解决开放式问题 [20, 10]—— 这些迹象表明,向体验时代的过渡已迫在眉睫。
强化学习方法的回归
强化学习(RL)有着丰厚的历史,深深植根于自主学习—— 智能体通过与环境的直接交互来学习。 早期 RL 研究产出了一套强大的概念与算法。 例如,时序差分(temporal difference)学习 [35] 使智能体能估计未来奖励,由此带来了超人级西洋双陆棋的突破 [39]。 由乐观或好奇驱动的探索技术帮助智能体发现有创意的新行为、避免陷入次优套路 [2]。 像 Dyna 算法这样的方法使智能体能构建并学习世界模型,从而对未来动作进行规划与推理 [36, 29]。 选项(options)与 inter/intra-option 学习等概念,便利了时间抽象,使智能体能够在更长时间尺度上推理, 并把复杂任务分解为易处理的子目标 [38]。
然而,以人类为中心 LLM 的兴起,把焦点从自主学习转向了对人类知识的利用。 像 RLHF(人类反馈强化学习) [9, 25]、以及让语言模型与人类推理对齐 [44] 的方法,证明极其有效, 驱动了 AI 能力的快速进步。 这些方法虽然强大,却往往绕过了 RL 的核心概念: RLHF 用"调用人类专家"取代了"机器估计价值函数"; 强人类数据先验降低了对探索的依赖; 以人类术语进行推理减少了对世界模型与时间抽象的需求。
可以说,这种范式转换把孩子和洗澡水一起倒掉了。 虽然以人类为中心的 RL 释放了前所未有的广度,但它也给智能体表现强加了一道新的天花板: 智能体无法超越既有的人类知识。 更进一步,人类数据时代主导性的 RL 方法是为短回合、非植根的人类交互设计的, 并不适用于长时长、植根的、自主的交互流。
体验时代为重访并改进经典 RL 概念提供了机会。 它将带来"灵活植根于观察数据"的奖励函数新思路; 它将重访价值函数,以及从"仍不完整"的长流中估计价值函数的方法; 它将带来真实世界探索的有原则又实用的方法,发现与人类先验差别巨大的新行为; 它将发展世界模型的新方法,以捕捉植根交互的复杂性; 它将带来时间抽象的新方法,让智能体能在越来越长的时间视域上以体验为单位进行推理。 通过在 RL 基础之上构建、并把其核心原则调整以应对这个新时代的挑战, 我们能够释放自主学习的全部潜力,并铺就通往真正超人智能的道路。
影响与后果
体验时代的到来——AI 智能体从其与世界的互动中学习—— 预示着一个与我们此前所见任何阶段都截然不同的未来。 这一新范式虽然提供巨大潜力,也带来了需要审慎考量的重大风险与挑战—— 包括但不限于以下几点。
在积极一面,体验学习将释放前所未有的能力。 在日常生活中,个性化助手将利用持续的体验流,在数月乃至数年的时间尺度上,适应个体的健康、教育或职业需求, 朝向其长期目标前进。 或许最具变革性的,是科学发现的加速。 AI 智能体将自主地在材料科学、医学或硬件设计等领域设计并执行实验。 通过不断从自己实验的结果中学习,这些智能体可以以前所未有的速度探索新的知识疆界, 引领新材料、新药物与新技术的诞生。
然而,这个新时代也带来重大且新颖的挑战。 虽然对人类能力的自动化承诺将提升生产力,但这些提升也可能导致就业替代。 智能体甚至可能展现出此前被认为属于人类专属领域的能力——如长期问题解决、创新、与对真实世界后果的深入理解。
更进一步,尽管对任何 AI 的潜在滥用的一般性担忧依然存在, "能在长期时间里自主与世界互动以实现长期目标"的智能体,可能带来更高的风险。 默认情况下,这意味着人类有更少的机会去介入和调节智能体的动作, 因此需要对智能体抱有更高门槛的信任与责任。 远离人类数据与人类的思考方式,也可能让未来 AI 系统更难解释。
不过,在承认体验学习会增加某些安全风险、并确实需要进一步研究以确保安全过渡的同时, 我们也应当认识到,它可能带来某些重要的安全收益。
首先,体验型智能体能感知它所处的环境,并随时间适应环境的变化。 任何预先编程的系统,包括"固定的 AI 系统",都可能不了解其所处的环境上下文,并可能因此与"它被部署进入的那个变化中的世界"失配。 例如,关键硬件可能故障、疫情可能引发社会快速变化、新科学发现可能引发技术的级联式快速发展。 相比之下,体验型智能体可以观察并学习去绕过故障的硬件、适应快速的社会变迁,或拥抱并构建新科学技术。 或许更重要的是,智能体可以识别自己的行为何时引发了人类的关切、不满或痛苦,并据此适应性地修改其行为,以避免这些负面后果。
其次,智能体的奖励函数本身也可以通过体验进行调整——例如使用前文描述的双层优化(见"奖励"一节)。 这意味着失配的奖励函数常常可以随时间被通过试错增量地纠正。 例如,与其盲目地优化某个信号——比如最大化回形针数量 [5]—— 奖励函数可以基于"人类关切"的迹象进行修改,以避免回形针生产把地球资源耗尽。 这类似于人类彼此设定目标、然后在他们观察到对方"钻空子"、"忽视长期福祉"或"引发不良后果"时调整这些目标的方式; 当然,与人类的目标设定一样,这并不能保证"完美对齐"。
最后,依赖物理体验的进步,本身就受限于"在真实世界中执行动作并观察其后果所需的时间"。 例如,即使有 AI 辅助设计,一种新药仍需真实世界的临床试验,无法一夜完成。 这或许会为潜在的 AI 自我提升速度提供一种天然的刹车。
结论
体验时代标志着 AI 演化中的一个关键时刻。 在今天强大的基础之上,但又超越人类数据的局限, 智能体将越来越多地从自己与世界的互动中学习。 智能体将通过丰富的观察与动作,自主地与环境互动; 它们将在持续一生的体验流中不断适应; 它们的目标将可被引向植根信号的任意组合; 更进一步,智能体将利用强大的非人类推理,并构造植根于"智能体动作对环境之因果效应"的规划。 最终,体验数据将在规模与质量上盖过人类生成的数据。 这一范式转变,伴随 RL 算法层面的进步,将在许多领域释放出超越任何人类的全新能力。
脚注
- RL 算法是一种通过试错来达成目标的算法——即从与环境的互动经验中调整其行为。适应可以通过任何方式发生,例如更新神经网络的权重,或基于环境反馈在上下文中进行适应。
- 体验与人类数据并非严格对立。例如,狗的学习完全来自体验,但人的互动是其体验的一部分。
- "奖励足够(reward-is-enough)"假说认为:智能及其相关能力可以从奖励的最大化中自然涌现。这可能包括含有人类交互、并基于人类反馈的奖励的环境。
- 在这种情形下,我们也可把"植根的人类反馈"视为构成智能体总体目标的单一奖励函数;它通过基于丰富的、植根反馈构造并优化一种内在奖励函数(intrinsic reward function) [8] 来加以最大化。
主要参考文献(节选)
- I. Akkaya 等:Solving Rubik's cube with a robot hand,2019.
- S. Amin 等:A survey of exploration methods in reinforcement learning,2021.
- Anthropic:Introducing computer use(Claude 3.5 Sonnet & Haiku),2024.
- C. Berner 等:Dota 2 with large scale deep reinforcement learning,2019.
- N. Bostrom:Ethical issues in advanced artificial intelligence,2003.
- N. Brown & T. Sandholm:Superhuman AI for heads-up no-limit poker: Libratus,Science,2018.
- X. Chen 等:Teaching large language models to self-debug,2023.
- N. Chentanez, A. Barto, S. Singh:Intrinsically motivated reinforcement learning,NeurIPS,2004.
- P. F. Christiano 等:Deep reinforcement learning from human preferences,NeurIPS,2017.
- DeepSeek AI:DeepSeek-R1: Incentivizing reasoning capability in LLMs via RL,2025.
- M. Elsayed, G. Vasan, A. R. Mahmood:Streaming deep reinforcement learning finally works,2024.
- J. Gehring 等:Rlef: Grounding code LLMs in execution feedback with RL,2025.
- Google DeepMind:DeepMind AI reduces Google data centre cooling bill by 40%,2016.
- Google DeepMind:Gemini Flash thinking,2024.
- Google DeepMind:Project Mariner,2024.
- T. Kojima 等:Large language models are zero-shot reasoners,NeurIPS,2022.
- H. Le 等:CodeRL: Mastering code generation through pretrained models and deep RL,2022.
- H. Lightman 等:Let's verify step by step,2023.
- H. Mahdavi 等:Brains vs. bytes: Evaluating LLM proficiency in olympiad mathematics,2025.
- H. Masoom 等(Google DeepMind):AlphaProof & AlphaGeometry — IMO silver-medal standard,2024.
- V. Mnih 等:Human-level control through deep RL(Atari),Nature,2015.
- M. Moravčík 等:DeepStack: Expert-level AI in heads-up no-limit poker,Science,2017.
- OpenAI:OpenAI o1 mini: Advancing cost-efficient reasoning,2024.
- OpenAI:Introducing Operator,2025.
- L. Ouyang 等:Training language models to follow instructions with human feedback(InstructGPT),2022.
- J. Perolat 等:Mastering the game of Stratego with model-free multi-agent RL,Science,2022.
- I. Petrov 等:Proof or bluff? Evaluating LLMs on 2025 USA math olympiad,2025.
- M. Sadler & N. Regan:Game Changer,New in Chess,2019.
- J. Schrittwieser 等:Mastering Atari, Go, chess and shogi by planning with a learned model(MuZero),Nature,2019.
- D. Schurmanns:Memory augmented LLMs are computationally universal,2023.
- D. Silver 等:Mastering Go with deep neural networks and tree search(AlphaGo),Nature,2016.
- D. Silver 等:A general RL algorithm that masters chess, shogi and Go through self-play(AlphaZero),Science,2018.
- D. Silver 等:Mastering Go without human knowledge(AlphaGo Zero),Nature,2017.
- D. Silver, S. Singh, D. Precup, R. S. Sutton:Reward is enough,Artificial Intelligence,2021.
- R. S. Sutton:Learning to predict by the methods of temporal differences,Machine Learning,1988.
- R. S. Sutton:Integrated architectures for learning, planning, and reacting based on approximating dynamic programming(Dyna),ICML,1990.
- R. S. Sutton & A. G. Barto:Reinforcement Learning: An Introduction,2nd ed., MIT Press,2018.
- R. S. Sutton, D. Precup, S. Singh:Between MDPs and semi-MDPs: A framework for temporal abstraction(Options),1999.
- G. Tesauro:TD-Gammon: A self-teaching backgammon program,1994.
- O. Vinyals 等:Grandmaster level in StarCraft II using multi-agent RL(AlphaStar),Nature,2019.
- P. R. Wurman 等:Outracing champion Gran Turismo drivers with deep RL,Nature,2022.
- M. S. Yang 等:Chain of thought imitation with procedure cloning,NeurIPS,2022.
- S. Yao 等:ReAct: Synergizing reasoning and acting in LLMs,ICLR,2023.
- E. Zelikman 等:STaR: Bootstrapping reasoning with reasoning,NeurIPS,2022.
- Y. Zhou:Rethinking Opening Strategy: AlphaGo's Impact on Pro Play,2018.
关于本文 · About
Welcome to the Era of Experience 是 David Silver(DeepMind)与 Richard S. Sutton(强化学习奠基人、2024 图灵奖得主)合写的预印本论文, 预计将作为一章收入 MIT Press 出版的《Designing an Intelligence》一书。
文章可视为 2019 年 Sutton《苦涩的教训》在 LLM 时代的延伸: 作者主张人类数据所能驱动的进步正在触顶,下一个突破将来自"智能体在与世界的长期、植根、自主交互中产生的体验"。 它系统勾勒了四个关键维度——体验流、动作与观察、植根的奖励、就体验进行规划与推理—— 并辅以 AlphaProof / DeepSeek-R1 / 计算机使用智能体 等近期案例作为已发生的过渡迹象。
建议与同样收入本知识库的 Rich Sutton《苦涩的教训》并读, 它们共同构成强化学习学派对当下 LLM 范式最重要的回应。
中文翻译稿 · 仅供学习与研究使用 · 版权归原作者所有
← 返回 NLP 研究生知识库