苦涩的教训（The Bitter Lesson）· 中文翻译

译者按：这是强化学习奠基人 Rich Sutton 在 2019 年发表的短文，被誉为 AI 领域近十年最具影响力的反思之一。它用一句话概括了 70 年人工智能研究的核心规律：长远来看，能够利用算力的通用方法终将胜过依赖人类知识的精巧设计。在 LLM 与"规模即一切"（scaling is all you need）成为主流叙事的今天，重读此文别有意味。

从七十年的人工智能研究中，我们能读到的最大教训是：能够利用算力（computation）的通用方法，最终是最有效的，而且优势巨大。其根本原因是摩尔定律——或者更确切地说，是"单位计算成本以指数方式持续下降"这一更普遍的规律。绝大多数 AI 研究都是在假定可用算力恒定的前提下进行的（在这种假定下，借助人类知识几乎是提升性能的唯一手段）。然而，只要把时间尺度稍稍拉长，超出一个典型科研项目的周期，海量更多的算力总会到来，几乎是必然的。研究者为了在短期内取得改进，往往诉诸他们对该领域的人类知识；可从长远看，唯一真正重要的，是对算力的利用。这两条路径并非天然对立，但在实践中却往往此消彼长。花在一条路上的时间，就是另一条路上没有花的时间。人们对某种路径会形成心理上的投入承诺，而"植入人类知识"的做法又往往会让方法变得复杂、变得难以从通用算力中获益。 AI 研究史上，研究者们一再后知后觉地领教这一苦涩的教训，回顾其中几个最显著的例子，颇具启发。

在计算机国际象棋中，1997 年击败世界冠军卡斯帕罗夫的方法，依靠的是大规模、深层次的搜索。彼时，大多数研究者对此感到沮丧，因为他们一直在追求"利用对国际象棋特殊结构的人类理解"的方法。当一种更简单的、基于搜索并辅以专用硬件和软件的方案被证明远远更有效时，那些以人类知识为基础的研究者并没有坦然认输。他们说："蛮力搜索"也许这次赢了，但它不是一种通用策略，而且人类下棋也不是这样下的。他们希望以人类输入为基础的方法获胜，而当事实并非如此时，他们感到失望。

在计算机围棋中，类似的剧情再次上演，只是推迟了大约二十年。起初，研究者们投入巨大精力试图绕开搜索——他们试图利用人类知识或围棋本身的特殊结构。但当搜索被以足够大的规模有效应用之后，所有那些努力都变得无关紧要，甚至适得其反。同样重要的是自我对弈学习——通过自我对弈学到一个价值函数（这在很多其他棋类游戏，乃至国际象棋中都很重要；不过在 1997 年首次击败世界冠军的那个程序中，学习并未扮演重要角色）。自我对弈学习，以及一般意义上的学习，与搜索一样，都能把海量算力调动起来加以利用。 搜索与学习，是 AI 研究中最重要的两类、能够吃下海量算力的技术。在计算机围棋中，正如在计算机国际象棋中一样，研究者的最初努力都用在了"利用人类理解（从而减少所需搜索）"上，直到很久之后，转而拥抱搜索与学习，才取得了更大的成功。

在语音识别中也是同样的故事。1970 年代，DARPA 资助了一场早期竞赛。参赛方法中，有一大堆充分利用人类知识的"特殊方法"——关于词汇的知识、关于音素的知识、关于人类发声道的知识等等。另一边，则是更具统计性质、需要更多算力的新方法——以隐马尔可夫模型（HMM）为代表。结果，统计方法压倒了基于人类知识的方法。这一胜利在接下来的几十年间，逐步引发了整个自然语言处理领域的根本变化——统计与算力主导了这个领域。近年深度学习在语音识别中的崛起，正是这条一致方向上的最新一步：深度学习方法对人类知识的依赖更少，使用的算力更多，并配合海量训练集上的学习，产出了大幅领先的语音识别系统。像在棋类游戏中一样，研究者总试图让系统"按他们以为自己脑子里的方式工作"——把这些知识塞进系统—— 但事实证明，这种做法终究是反生产力的，是研究者时间的巨大浪费；与此同时，得益于摩尔定律，海量算力来了，并且人们找到了善用它的办法。

在计算机视觉中，模式是一样的。早期方法把视觉理解为：寻找边缘、寻找广义圆柱体（generalized cylinders），或借助 SIFT 特征等等。今天这些方法都已被抛弃。现代深度学习神经网络只用到卷积和某些不变性的概念，效果就要好得多。

这是一条重大的教训。作为一个领域，我们仍未彻底学会它，因为我们一再犯同样的错误。要看清这一点，并有效地抵抗它的诱惑，我们必须理解这些错误的吸引力。我们必须学会这一苦涩的教训：把"我们以为自己是怎么思考的"植入系统，长远来看并不奏效。这一苦涩教训基于以下历史观察：

（1）AI 研究者们常常试图把知识嵌入到他们的智能体中；
（2）这种做法在短期内总会有所帮助，并让研究者本人感到欣慰；
（3）但长期来看，它会触顶停滞，甚至阻碍进一步的进步；
（4）真正的突破，最终来自一种相反的路径——通过搜索与学习来扩大算力规模。

最终的成功带着苦涩，并且常常没有被完全消化——因为它的胜出对象，是一种被偏爱的、以人类为中心的方法。

从苦涩教训中应当汲取的第一点是：通用方法的巨大威力——那些即使可用算力变得非常庞大，也能持续随算力扩展的方法。看起来能够以这种方式无止境扩展的两类方法是：搜索与学习。

第二点应当从苦涩教训中汲取的更普遍的道理是：心智的实际内容是极其复杂、无可救药地复杂的；我们应当停止试图找到那些关于心智内容的"简单方式"—— 例如关于空间、关于物体、关于多智能体、关于对称性的简单思考方式。所有这些都是那个任意的、内在复杂的外部世界的一部分。它们不应被作为先验植入到系统中，因为其复杂性没有尽头；我们应该植入的，只是那些能够发现并捕获这种任意复杂性的元方法。这些方法的关键之处在于：它们能找到好的近似——但寻找近似的工作，应该由这些方法来做，而不是由我们来做。我们想要的，是能像我们一样去发现的 AI 智能体，而不是装着"我们已经发现了什么"的智能体。把我们的发现作为先验植入进去，只会让我们更难看清"发现这个过程本身"是如何能够进行的。

关于本文 · About

The Bitter Lesson 是强化学习奠基人 Rich Sutton 于 2019 年 3 月 13 日发表于个人博客的短文，原文地址：incompleteideas.net/IncIdeas/BitterLesson.html。

文章虽短，却以惊人的清晰度归纳了 AI 七十年史的一条主线—— 能够利用算力的通用方法（典型代表是搜索与学习），长期来看会击败一切试图把人类领域知识硬编码进系统的做法。该论断在 GPT、AlphaGo、AlphaZero 等"算力暴力美学"路径接连胜出之后，已成为业界共识级的方法论参照。

建议与同样收入本知识库的 David Silver & Richard Sutton《欢迎进入体验时代》一文并读：后者可视为 Sutton 在 LLM 时代对苦涩教训的延伸与升级。

中文翻译稿 · 仅供学习与研究使用 · 版权归原作者所有
← 返回 NLP 研究生知识库