外部精选 · 中文翻译稿

苦涩的教训

Rich Sutton(理查德 · 萨顿)

2019 年 3 月 13 日

The Bitter Lesson AI 研究方法论 英文原文 ↗ ← 返回知识库
译者按:这是强化学习奠基人 Rich Sutton 在 2019 年发表的短文,被誉为 AI 领域近十年最具影响力的反思之一。 它用一句话概括了 70 年人工智能研究的核心规律:长远来看,能够利用算力的通用方法终将胜过依赖人类知识的精巧设计。 在 LLM 与"规模即一切"(scaling is all you need)成为主流叙事的今天,重读此文别有意味。

从七十年的人工智能研究中,我们能读到的最大教训是:能够利用算力(computation)的通用方法,最终是最有效的,而且优势巨大。 其根本原因是摩尔定律——或者更确切地说,是"单位计算成本以指数方式持续下降"这一更普遍的规律。 绝大多数 AI 研究都是在假定可用算力恒定的前提下进行的(在这种假定下,借助人类知识几乎是提升性能的唯一手段)。 然而,只要把时间尺度稍稍拉长,超出一个典型科研项目的周期,海量更多的算力总会到来,几乎是必然的。 研究者为了在短期内取得改进,往往诉诸他们对该领域的人类知识;可从长远看,唯一真正重要的,是对算力的利用。 这两条路径并非天然对立,但在实践中却往往此消彼长。花在一条路上的时间,就是另一条路上没有花的时间。 人们对某种路径会形成心理上的投入承诺,而"植入人类知识"的做法又往往会让方法变得复杂、变得难以从通用算力中获益。 AI 研究史上,研究者们一再后知后觉地领教这一苦涩的教训,回顾其中几个最显著的例子,颇具启发。

计算机国际象棋中,1997 年击败世界冠军卡斯帕罗夫的方法,依靠的是大规模、深层次的搜索。 彼时,大多数研究者对此感到沮丧,因为他们一直在追求"利用对国际象棋特殊结构的人类理解"的方法。 当一种更简单的、基于搜索并辅以专用硬件和软件的方案被证明远远更有效时,那些以人类知识为基础的研究者并没有坦然认输。 他们说:"蛮力搜索"也许这次赢了,但它不是一种通用策略,而且人类下棋也不是这样下的。 他们希望以人类输入为基础的方法获胜,而当事实并非如此时,他们感到失望。

计算机围棋中,类似的剧情再次上演,只是推迟了大约二十年。 起初,研究者们投入巨大精力试图绕开搜索——他们试图利用人类知识或围棋本身的特殊结构。 但当搜索被以足够大的规模有效应用之后,所有那些努力都变得无关紧要,甚至适得其反。 同样重要的是自我对弈学习——通过自我对弈学到一个价值函数(这在很多其他棋类游戏,乃至国际象棋中都很重要; 不过在 1997 年首次击败世界冠军的那个程序中,学习并未扮演重要角色)。 自我对弈学习,以及一般意义上的学习,与搜索一样,都能把海量算力调动起来加以利用。 搜索与学习,是 AI 研究中最重要的两类、能够吃下海量算力的技术。 在计算机围棋中,正如在计算机国际象棋中一样,研究者的最初努力都用在了"利用人类理解(从而减少所需搜索)"上, 直到很久之后,转而拥抱搜索与学习,才取得了更大的成功。

语音识别中也是同样的故事。1970 年代,DARPA 资助了一场早期竞赛。 参赛方法中,有一大堆充分利用人类知识的"特殊方法"——关于词汇的知识、关于音素的知识、关于人类发声道的知识等等。 另一边,则是更具统计性质、需要更多算力的新方法——以隐马尔可夫模型(HMM)为代表。 结果,统计方法压倒了基于人类知识的方法。 这一胜利在接下来的几十年间,逐步引发了整个自然语言处理领域的根本变化——统计与算力主导了这个领域。 近年深度学习在语音识别中的崛起,正是这条一致方向上的最新一步: 深度学习方法对人类知识的依赖更少,使用的算力更多,并配合海量训练集上的学习, 产出了大幅领先的语音识别系统。 像在棋类游戏中一样,研究者总试图让系统"按他们以为自己脑子里的方式工作"——把这些知识塞进系统—— 但事实证明,这种做法终究是反生产力的,是研究者时间的巨大浪费; 与此同时,得益于摩尔定律,海量算力来了,并且人们找到了善用它的办法。

计算机视觉中,模式是一样的。早期方法把视觉理解为:寻找边缘、寻找广义圆柱体(generalized cylinders), 或借助 SIFT 特征等等。今天这些方法都已被抛弃。 现代深度学习神经网络只用到卷积和某些不变性的概念,效果就要好得多。

这是一条重大的教训。作为一个领域,我们仍未彻底学会它,因为我们一再犯同样的错误。 要看清这一点,并有效地抵抗它的诱惑,我们必须理解这些错误的吸引力。 我们必须学会这一苦涩的教训:把"我们以为自己是怎么思考的"植入系统,长远来看并不奏效。 这一苦涩教训基于以下历史观察:

(1)AI 研究者们常常试图把知识嵌入到他们的智能体中;
(2)这种做法在短期内总会有所帮助,并让研究者本人感到欣慰;
(3)但长期来看,它会触顶停滞,甚至阻碍进一步的进步;
(4)真正的突破,最终来自一种相反的路径——通过搜索与学习来扩大算力规模。

最终的成功带着苦涩,并且常常没有被完全消化——因为它的胜出对象,是一种被偏爱的、以人类为中心的方法。

从苦涩教训中应当汲取的第一点是:通用方法的巨大威力——那些即使可用算力变得非常庞大,也能持续随算力扩展的方法。 看起来能够以这种方式无止境扩展的两类方法是:搜索学习

第二点应当从苦涩教训中汲取的更普遍的道理是:心智的实际内容是极其复杂、无可救药地复杂的; 我们应当停止试图找到那些关于心智内容的"简单方式"—— 例如关于空间、关于物体、关于多智能体、关于对称性的简单思考方式。 所有这些都是那个任意的、内在复杂的外部世界的一部分。它们不应被作为先验植入到系统中,因为其复杂性没有尽头; 我们应该植入的,只是那些能够发现并捕获这种任意复杂性的元方法。 这些方法的关键之处在于:它们能找到好的近似——但寻找近似的工作,应该由这些方法来做,而不是由我们来做。 我们想要的,是能像我们一样去发现的 AI 智能体,而不是装着"我们已经发现了什么"的智能体。 把我们的发现作为先验植入进去,只会让我们更难看清"发现这个过程本身"是如何能够进行的。

关于本文 · About

The Bitter Lesson 是强化学习奠基人 Rich Sutton 于 2019 年 3 月 13 日发表于个人博客的短文, 原文地址:incompleteideas.net/IncIdeas/BitterLesson.html

文章虽短,却以惊人的清晰度归纳了 AI 七十年史的一条主线—— 能够利用算力的通用方法(典型代表是搜索与学习),长期来看会击败一切试图把人类领域知识硬编码进系统的做法。 该论断在 GPT、AlphaGo、AlphaZero 等"算力暴力美学"路径接连胜出之后,已成为业界共识级的方法论参照。

建议与同样收入本知识库的 David Silver & Richard Sutton《欢迎进入体验时代》一文并读: 后者可视为 Sutton 在 LLM 时代对苦涩教训的延伸与升级。

中文翻译稿 · 仅供学习与研究使用 · 版权归原作者所有
← 返回 NLP 研究生知识库