"Those who cannot remember the past are condemned to repeat it." — George Santayana, 1905
2026 年的今天,NLP 研究生很容易陷入一种错觉:以为 Transformer、GPT、RLHF 这些技术是"从天而降"的圣物。打开 arXiv,所有论文似乎都从 2017 年的 Attention is All You Need 开始引用;打开任何 LLM 教程,第一章必定是 Self-Attention 公式 $\text{softmax}(QK^\top/\sqrt{d_k})V$。然而 Manning 教授在 CS224N 开篇连续 57 张幻灯片讲历史,并非情怀,而是方法论。
本教材有三个目的:
本教材采用 "历史叙事 + 技术推导" 双轨写作:
我们将按时间顺序展开,但每个时代都会插入"现代回响"小节——指出该时代的核心思想如何在 2026 年的 LLM 中重新出现。读完后你会意识到:NLP 的历史不是线性进步,而是螺旋上升——每一次"新"方法都是对旧问题的重新表述。
Manning 在 Dædalus 期刊 2022 年春季号的署名文章 Human Language Understanding & Reasoning 中正式确立了 NLP 的四时代划分。这个划分已成为学界共识——它的分水岭不是按技术热门程度,而是按研究范式的根本断裂。
机器翻译萌芽 + 神经网络第一波 + 符号 AI 雏形。技术幼稚但思想完整:Weaver 提出 MT 的密码学视角,McCulloch–Pitts 给出神经网络数学定义,Rosenblatt 造出第一台学习机。失败的根源是算力不足(IBM 701 仅有 4 KB 内存)和语言学认知不足。
Winograd SHRDLU、LUNAR、SHRDLU 等"玩具世界"系统在受限领域达到惊人理解水平。形式文法(CFG、LFG、HPSG)和组合语义(Montague Grammar)在理论上臻于完美。但知识获取瓶颈(手写规则不可扩展)和词汇语义模糊性使系统无法走出实验室,催生第一次 AI 寒冬。
语音识别先行——IBM 的 Jelinek 团队用 HMM + n-gram 击败所有符号系统。Penn Treebank(1993)开启监督学习范式。IBM 模型 1–5 重写 MT。Naive Bayes、HMM、PCFG、CRF、MaxEnt、SVM、LDA 构成"统计 NLP 工具箱"。Jelinek 的名言"每开除一个语言学家,性能就上升"标志了思想转向。
2013 Word2Vec → 2014 Seq2Seq → 2015 Attention → 2017 Transformer → 2018 BERT/GPT → 2020 GPT-3 → 2022 ChatGPT → 2024 reasoning models。核心思想是"用一个端到端可微分网络替代所有手工特征"。子时代细分:4a 神经 NLP (2013–2021) 与 4b LLM 时代 (2022–现在)。
Manning 在幻灯片 #2 中强调了一个常被忽视的事实:
"NLP / Computational Linguistics 与 AI / Neural Networks 是只是有些纠缠 (only somewhat entwined) 的两个领域。"
这两条主线的差异在 1956 年 Dartmouth Conference 之后就已显现。理解差异是理解学界派别的钥匙:
| 维度 | NLP / CL 派 | AI / NN 派 |
|---|---|---|
| 核心学术 home | ACL (1962 创立) | NeurIPS / ICML / AAAI |
| 起源问题 | 机器翻译、语法形式化 | 通用智能、模式识别 |
| 代表人物 | Chomsky, Joshi, Kay, Manning | Minsky, McCarthy, Rumelhart, Hinton, LeCun |
| 方法论根 | 语言学 + 概率论 | 认知心理学 + 神经科学 + 优化 |
| 对"语言"的态度 | 语言是研究对象 | 语言是测试 AI 的工具 |
| 2013 之前的状态 | 主导 ACL/EMNLP | 边缘化,被 SVM/GP 压制 |
| 2013 之后的状态 | 被深度学习"殖民" | 合并所有 NLP 任务到 LLM |
很多 2026 年的"NLP 新生"实际上完全没有语言学训练,他们的 NLP 知识等于"PyTorch + HuggingFace + transformer"。这没问题——但读这本教材时请意识到:Era 1–3 的研究者具备而你可能缺乏的能力包括:句法树手工标注、Penn Treebank 的标签体系、范畴语法 (CCG)、HPSG 的特征结构、统计显著性检验。如果你打算做严肃的 NLP 研究(非 LLM 应用),这些是 hidden curriculum。
所有 NLP 教科书都从 Warren Weaver 的 1947 年私信讲起,但很少有人解释他为何重要。Weaver 是数学家、工程师,二战时期任美国国防研究委员会 (OSR&D) 主席——这个委员会指挥了曼哈顿计划在内的所有战时科研。战后他在 Rockefeller Foundation 担任科学资助主管,同时与 Shannon 合著《信息论入门》(Shannon & Weaver 1949)。他是同时掌握资金和数学的人。
1947 年 3 月,他在给 Norbert Wiener 的信中写道:
"Also knowing nothing official about, but having guessed and inferred considerable about, the powerful new mechanized methods in cryptography—methods which I believe succeed even when one does not know what language has been coded—one naturally wonders if the problem of translation could conceivably be treated as a problem in cryptography. When I look at an article in Russian, I say: 'This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.'" — Warren Weaver, March 1947
这段话是整个 NLP 50 年的方法论种子——它本质上预言了:
Weaver 的"翻译即解码"思想沉睡了 43 年,直到 1990 年 IBM 的 Brown 等人重新发现:
$$\hat{e} = \arg\max_e P(e\mid f) = \arg\max_e P(f\mid e)\,P(e)$$
这就是 SMT 的 fundamental equation——Weaver 在 1947 年用自然语言描述的东西,被 IBM 团队用 Bayes 公式严格化。
但 Wiener 的回信泼了冷水——这一段同样关键:
"...as to the problem of mechanical translation, I frankly am afraid that the [semantic] boundaries of words in different languages are too vague... to make any quasi-mechanical translation scheme very hopeful." — Norbert Wiener, April 1947
Wiener 提出了 NLP 至今未完全解决的核心难题——词汇的语义边界模糊。中文的"打"对应英文的 hit / play / type / make / pump / fight... 在 80 年后的 2026 年,即便 GPT-4 也偶尔翻错"我打了一盆水"为"I hit a basin of water"。Wiener 是对的,但他低估了统计学如何能驯服这种模糊性。
Shannon 1948 年的 A Mathematical Theory of Communication 给出了噪声信道的标准图(我们将在 4.2 节展开数学):
1954 年 1 月 7 日,IBM 总部 (Madison Avenue 590) 公开演示了人类历史上第一个机器翻译系统。这次演示由 Leon Dostert (Georgetown 教授) 与 Cuthbert Hurd (IBM 应用科学部主任) 联合主办。配置:
《纽约时报》以头版标题报道:"Russian Is Turned Into English By a Fast Electronic Translator",并预言"几年内全自动翻译将解决科学技术领域所有交流问题"。
这次演示是精心策划的——49 个测试句子全部经过反复调试,覆盖政治、法律、化学、军事等 7 个领域。系统对所有未在词表中的词完全无能。这是 AI 历史上第一次"演示驱动型炒作",模式在后续 70 年反复出现:1968 Shakey 机器人、1985 第五代计算机、2015 IBM Watson、2023 ChatGPT GPT-4 演示...
1943 年,神经生理学家 Warren McCulloch (1898–1969) 与天才自学逻辑学家 Walter Pitts (1923–1969) 在伊利诺伊大学发表了 A Logical Calculus of Ideas Immanent in Nervous Activity(《神经活动中思想内在的逻辑演算》),开启了神经网络的数学时代。
这篇论文的核心贡献是:把生物神经元抽象为二元逻辑单元。McCulloch–Pitts 神经元定义如下:
给定输入 $x_1, x_2, \ldots, x_n \in \{0,1\}$,权重 $w_1, \ldots, w_n \in \mathbb{R}$,阈值 $\theta \in \mathbb{R}$,输出为:
$$ y = \mathbb{1}\!\left(\sum_{i=1}^{n} w_i x_i > \theta\right) = \mathbb{1}\!\left(\mathbf{w}^\top \mathbf{x} - \theta > 0\right) $$其中 $\mathbb{1}(\cdot)$ 是 Heaviside 阶跃函数。
论文证明了一个惊人结论:仅用 McCulloch–Pitts 神经元构成的网络,可以实现任何 Turing-computable 函数。具体地:
Heaviside 函数 $\mathbb{1}(z > 0)$ 的导数几乎处处为 0:
$$\frac{d}{dz}\mathbb{1}(z>0) = \delta(z) \quad\text{(Dirac delta)}$$
这导致 McCulloch–Pitts 神经元无法通过梯度下降学习权重 $w_i$。所有 $w_i$ 必须人工设定。这一缺陷被 25 年后 Werbos (1974) 和 Rumelhart et al. (1986) 用 sigmoid + 反向传播解决。
论文背后的故事极具戏剧性。Pitts 12 岁离家出走(因父亲要他辍学打工),15 岁自学读完 Russell & Whitehead 的《数学原理》并写信指出错误,Russell 邀请他到剑桥(他没去)。后来流浪到芝加哥大学旁听 Russell 的课,认识 McCulloch。1943 论文发表时 Pitts 才 20 岁。1952 年 Wiener 在 MIT 因家庭矛盾突然与他断绝关系,Pitts 此后陷入酗酒,1969 年 46 岁去世。Manning 在 slides #12 加了一颗星号 (*) ——这是对 Pitts 的悼念。
1957 年,康奈尔航空实验室的心理学家 Frank Rosenblatt 在 McCulloch–Pitts 神经元基础上做出关键突破——引入学习算法。他的 Mark I Perceptron 是一台真实的硬件机器,重达数吨,使用电位器作为可调权重。
感知机的革命性在于学习规则:
给定训练样本 $(\mathbf{x}_t, d_t)$,$d_t \in \{0,1\}$ 为标签,当前预测 $y_t = \mathbb{1}(\mathbf{w}_t^\top \mathbf{x}_t > 0)$,权重更新:
$$ \mathbf{w}_{t+1} = \mathbf{w}_t + \alpha \,(d_t - y_t)\, \mathbf{x}_t $$其中 $\alpha > 0$ 为学习率。
注意这条规则的几何意义:
Rosenblatt 没有给出收敛性证明,但 1962 年 Novikoff 证明了惊人结论:
若训练集线性可分,存在间隔 $\gamma > 0$ 且最大范数 $R = \max_t \|\mathbf{x}_t\|$,则感知机最多在 $(R/\gamma)^2$ 步内收敛到一个零错误解。
这是机器学习史上第一个收敛性定理,奠定了统计学习理论的基础。
1958 年 7 月 8 日,《纽约时报》头版报道:"NEW NAVY DEVICE LEARNS BY DOING — Psychologist Shows Embryo of Computer Designed to Read and Grow Wiser",并写道:
"The Navy revealed the embryo of an electronic computer today that it expects will be able to walk, talk, see, write, reproduce itself and be conscious of its existence."
这段话在 2026 年读来令人发笑——但请注意:把"GPT-3 will be conscious"换上去,正是 2020 年代媒体的语气。AI 炒作模式 60 年没变。
Marvin Minsky 与 Seymour Papert 1969 年的著作 Perceptrons: An Introduction to Computational Geometry 证明:
不存在权重 $\mathbf{w} \in \mathbb{R}^2$ 和阈值 $\theta$ 使得:
$$ \begin{aligned} \mathbb{1}(w_1 \cdot 0 + w_2 \cdot 0 > \theta) &= 0 \\ \mathbb{1}(w_1 \cdot 0 + w_2 \cdot 1 > \theta) &= 1 \\ \mathbb{1}(w_1 \cdot 1 + w_2 \cdot 0 > \theta) &= 1 \\ \mathbb{1}(w_1 \cdot 1 + w_2 \cdot 1 > \theta) &= 0 \end{aligned} $$证明:前两个方程要求 $w_2 > \theta \geq 0$;第三、第四个方程要求 $w_1 > \theta$ 但 $w_1 + w_2 \leq \theta$。两者矛盾。∎
这本书的实际影响远超数学结论本身——它给资助机构(ARPA)一个停止资助神经网络研究的理由。此后NN 研究在 NLP 中沉睡 25 年,直到 2003 年 Bengio 等人才在主流 NLP 会议重新发表神经语言模型。
多层感知机(MLP)可以轻松学会 XOR——只需 2 个隐藏单元。Minsky & Papert 在书中明确知道这一点,但他们认为"训练多层网络的算法不可能存在"。反向传播 (1986) 证明他们错了。这件事告诉研究生:"不可能性证明"几乎总是对某个具体模型的,而非对问题本身的。
1956 年夏,John McCarthy(28 岁,Dartmouth 数学系助理教授)召集了 10 位科学家在新罕布什尔的 Dartmouth College 开了 8 周研讨会。提案书(McCarthy, Minsky, Rochester, Shannon 1955)是 AI 历史上最重要的文档之一,开篇就写:
"The study is to proceed on the basis of the conjecture that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it."
McCarthy 在此首次使用 "Artificial Intelligence" 一词(取代当时主流的 "Cybernetics")。出席者包括:
Dartmouth 之后,AI 分裂成两个互相鄙视的阵营:
| 维度 | 符号 AI (Symbolic) | 控制论 / 联结主义 (Cybernetics) |
|---|---|---|
| 代表人物 | Minsky, McCarthy, Newell, Simon | Wiener, Rosenblatt, McCulloch |
| 核心信念 | "思维 = 符号操作 (Physical Symbol System Hypothesis)" | "思维 = 反馈与控制系统" |
| 方法 | LISP, Prolog, 知识库, 推理引擎 | 神经网络, 感知机, 反馈环 |
| 研究中心 | MIT, Stanford, CMU | Cornell, Berkeley, 早期 MIT |
| 资助来源 | DARPA, ONR | ONR, Air Force |
| 1969 后 | 主导 AI 直到 1985 | 沉睡到 2006 |
这是符号派的核心信仰,1976 年 ACM Turing 奖演讲中明确表述:
"A physical symbol system has the necessary and sufficient means for general intelligent action."
翻译:智能 = 对符号的操作。语言是符号系统,因此 NLP = 符号操作问题。这个立场在 1970–1990 主导 NLP 学界,催生了 SHRDLU、LUNAR、CHAT-80 等系统(第三章详述)。
Manning 在 slides #40 给出一个关键判断:
这就是为什么 2026 年 LLM 用的是 Transformer(连续向量空间)而非 Prolog(离散符号)。但 LLM 的训练数据仍然是符号文本——符号系统从模型本身退到了输入端。
NLP 历史叙事常忽略 IR (Information Retrieval),但 IR 给 NLP 贡献了评估方法论——这是更持久的遗产。
1945 年 7 月,The Atlantic 杂志刊登 Bush 的 As We May Think。Bush 时任 OSR&D 主席(指挥曼哈顿计划),文章预言一种叫 memex 的桌面设备:
"Consider a future device for individual use, which is a sort of mechanized private file and library. ...A memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory."
Memex 的设计要点(用 1945 年的微缩胶片技术实现):
这一愿景在 1989 Tim Berners-Lee 的 WWW、1998 Google PageRank、2022 RAG 系统中逐步实现。2026 年 LLM + RAG 完整实现了 Memex 愿景——你问任何问题,模型从私人知识库中检索并整合回答。
另一个关键人物是 Cranfield Aeronautics 学院图书馆员 Cyril Cleverdon。他做了一件听起来枯燥但意义深远的事——发明 benchmark test:
F1 由 van Rijsbergen 1979 年加入,成为综合指标:$F_1 = \frac{2 \cdot P \cdot R}{P + R}$
NLP 中所有"benchmark"都是 Cranfield 范式的后代:
但 2024 年后出现"benchmark 死亡"问题:GPT-4 把 MMLU 刷到 86%,剩 14% 主要是标注噪声。这是 Cranfield 范式 70 年后的内在矛盾——当模型超越人类标注者,benchmark 失去信号。
1956–1966 这十年是 MT 研究的黄金期。美国、苏联、英国、以色列、意大利相继投入,仅美国 ARPA 一家就投入约 20M 美元 (按今日货币约 200M 美元)。但 1966 年 ALPAC (Automatic Language Processing Advisory Committee) 报告给所有项目判了死刑:
"There is no immediate or predictable prospect of useful machine translation. [...] The committee indicates that there is no emergency in the field of translation."
ALPAC 的发现包括:
ALPAC 报告导致美国 MT 资助断崖式下跌,引发第一次 NLP 寒冬 (1966–1980)。但它也间接催生了:
同年,MIT 的 Joseph Weizenbaum 发表 ELIZA——一个用模板匹配模拟 Rogerian 心理治疗师的聊天程序。代码极简(约 200 行 SLIP/MAD-SLIP),核心是关键词替换 + 反问句生成。
用户: Men are all alike.
ELIZA: In what way?
用户: They're always bugging us about something or other.
ELIZA: Can you think of a specific example?
用户: Well, my boyfriend made me come here.
ELIZA: Your boyfriend made you come here?
用户: He says I'm depressed much of the time.
ELIZA: I am sorry to hear that you are depressed.
Weizenbaum 本人对 ELIZA 引发的反应感到震惊——他的秘书在跟 ELIZA 聊了几分钟后请他离开房间,因为对话太私密。这种现象后被命名为 ELIZA 效应:人类倾向于把任何文本输出投射上人格。
ChatGPT 引发的"AI 男友"、"AI 心理咨询师"、"AI 灵魂伴侣"等现象,本质上是 ELIZA 效应在 LLM 时代的放大。Weizenbaum 1976 年的著作 Computer Power and Human Reason 警告:不应把人类决策(特别是涉及尊严的决策)外包给机器。这是 NLP 伦理学的源头。
1972 年,Terry Winograd 在 MIT 完成博士论文,导师是 Seymour Papert(《Perceptrons》合著者)。SHRDLU 名字取自 ETAOIN SHRDLU——英文字母频率排序前 12 位的次序,这是 Linotype 排版机的传统排列。
SHRDLU 在"积木世界"(blocks world)中工作:一张虚拟桌面上有不同颜色、形状的方块和金字塔,用户用英文指令操控机械臂:
Person: Pick up a big red block.
Computer: OK.
Person: Find a block which is taller than the one you are holding and put it into the box.
Computer: By "it", I assume you mean the block which is taller than the one I am holding.
Computer: OK.
Person: What does the box contain?
Computer: The blue pyramid and the blue block.
Person: How many blocks are not in the box?
Computer: Four of them.
Person: Is at least one of them narrower than the one I told you to pick up?
Computer: Yes, the red cube.
Person: Is it supported?
Computer: Yes, by the table.
Person: Can the table pick up blocks?
Computer: No.
Person: Can a pyramid be supported by a block?
Computer: Yes.
Person: Can a pyramid support a pyramid?
Computer: I don't know.
SHRDLU 的核心架构由三部分组成:
SHRDLU 在 1972 年是 NLP 的奇迹,原因有三:
Winograd 在 1980 年代彻底放弃 NLP 研究,转向人机交互(HCI),并写了一本对符号 AI 极尽批判的书 Understanding Computers and Cognition (1986)。他给学生的总结是:
"积木世界扩展到真实世界——失败了。每加一个新概念,规则数量爆炸。我们以为再加 10 倍人力就能造出能看懂报纸的系统,但实际上需要 1000 倍。"
这就是 combinatorial explosion(组合爆炸)问题——任何手工规则系统在 ~10⁴ 规则后失控。这一教训直到 Era 4 才被深度学习用"数据替代规则"解决。
1970–1990 是形式文法的黄金时代。研究者尝试用越来越精细的数学结构刻画自然语言。我们快速过一下主要文法形式:
Chomsky 在 Syntactic Structures 中定义了文法层次:
| 类型 | 名称 | 形式 | 识别器 |
|---|---|---|---|
| 0 | 无限制文法 | $\alpha \to \beta$ | Turing 机 |
| 1 | 上下文相关 | $\alpha A \beta \to \alpha \gamma \beta$ | 线性有界自动机 |
| 2 | 上下文无关 (CFG) | $A \to \alpha$ | 下推自动机 |
| 3 | 正则 | $A \to aB$ 或 $A \to a$ | 有限状态机 |
典型英语 CFG 片段:
S → NP VP
NP → Det N | Det Adj N | NP PP
VP → V NP | V NP PP
PP → P NP
Det → the | a | an
N → cat | dog | table | apple
V → saw | ate | put
Adj → red | big
P → on | with
Chomsky 在书中证明:英语不是正则语言(因为存在嵌套依赖如 "the cat the dog the rat bit chased ran away")。后来 Shieber 1985 证明瑞士德语和 Bambara 语不是上下文无关语言——需要 mildly context-sensitive grammars (如 TAG, CCG)。
LFG 把句法分成两个层次:
例如 "John saw Mary" 的 f-structure:
[ PRED 'see(SUBJ, OBJ)'
SUBJ [ PRED 'John' NUM sg PERS 3 ]
OBJ [ PRED 'Mary' NUM sg PERS 3 ]
TENSE past ]
HPSG 把所有语言信息统一到有类型的特征结构 (typed feature structure)中,用 unification(合一)组合:
给定两个特征结构 $F_1, F_2$,它们的合一 $F_1 \sqcup F_2$ 是包含两者所有信息的最小公共结构,若信息冲突则失败:
$$ \begin{bmatrix} \text{NUM} & sg \\ \text{PERS} & 3 \end{bmatrix} \sqcup \begin{bmatrix} \text{NUM} & sg \\ \text{GEN} & m \end{bmatrix} = \begin{bmatrix} \text{NUM} & sg \\ \text{PERS} & 3 \\ \text{GEN} & m \end{bmatrix} $$但 $\begin{bmatrix} \text{NUM} & sg \end{bmatrix} \sqcup \begin{bmatrix} \text{NUM} & pl \end{bmatrix} = \bot$(合一失败)。
Martin Kay(Stanford / Xerox PARC)是 unification grammars 的主要推动者。Kay 后来与 Pereira、Shieber 等人形成 Stanford 的 unification 学派。
1970 年,UCLA 哲学家 Richard Montague 发表 Universal Grammar,提出震撼语言学界的论点:
"There is in my opinion no important theoretical difference between natural languages and the artificial languages of logicians; indeed, I consider it possible to comprehend the syntax and semantics of both kinds of languages within a single natural and mathematically precise theory."
Montague 的核心思想:句法规则与语义规则一一对应 (rule-to-rule hypothesis)。每个 CFG 规则 $A \to B\,C$ 对应一个语义合成函数 $\llbracket A \rrbracket = f(\llbracket B \rrbracket, \llbracket C \rrbracket)$。语义用 typed lambda calculus 表示。
Manning slides #28 给出了一个经典推导。设论域包含 apple、red、table、on 等谓词,定义型 (types):
词条赋型:
| 词 | 语义 | 类型 |
|---|---|---|
| apple | $\lambda x.\,\text{apple}(x)$ | $\langle e, t\rangle$ |
| red | $\lambda P.\,\lambda x.\,P(x) \wedge \text{red}(x)$ | $\langle\langle e,t\rangle, \langle e,t\rangle\rangle$ |
| the | $\lambda P.\,\iota P$ | $\langle\langle e,t\rangle, e\rangle$ |
| on | $\lambda y.\,\lambda x.\,\text{on}(x,y)$ | $\langle e, \langle e, t\rangle\rangle$ |
| is | $\lambda P.\,P$ | identity |
组合过程(β-reduction):
这就是组合语义的胜利——从 5 个词的小词典出发,机械地推导出完整逻辑形式。1970–1990 几乎所有 NLP 语义研究都用这套框架。
问题:把句子翻译成一阶逻辑后,下一步呢?
Montague Grammar 给了语义"完美的表示",但表示之后的推理无人能解。这是符号 AI 的根本困境。
Manning slides #29–30 重点介绍了 Peter Norvig 1986 年的博士论文 A Unified Theory of Inference for Text Understanding (UC Berkeley)。Norvig 后来成为 Google Research Director、Stanford AI 教科书作者,但他的博士论文极少被引用——这是 NLP 历史的一个遗珠。
Norvig 处理的故事:
"In a poor fishing village built on an island not far from the coast of China, a young boy named Chang Lee lived with his widowed mother. Every day, little Chang bravely set off with his net, hoping to catch a few fish from the sea, which they could sell and have a little money to buy bread."
系统需要回答 6 类推断问题:
这是 1986 年的工作,但所有这些任务在 2026 年 LLM 中仍是基准任务——只是从手工规则变成了 in-context learning。
Norvig 1986 的 4 类推断 vs 2024 LLM 的 chain-of-thought:
当你看 GPT-4 解题轨迹,本质上仍在做 Norvig 1986 定义的这 4 件事。区别在于:Norvig 写了 5 万行 LISP 规则,GPT-4 从 15 万亿 token 训练数据中自动获得这些能力。
| 系统 | 年代 | 作者 | 领域 | 核心技术 |
|---|---|---|---|---|
| SHRDLU | 1972 | Winograd | 积木世界 | PROGRAMMAR + MICRO-PLANNER |
| LUNAR | 1973 | Woods | Apollo 月岩样本 QA | ATN parser + 谓词逻辑 |
| SOPHIE | 1975 | Brown 等 | 电路故障诊断教学 | 定性物理 + NL 接口 |
| REL | 1975 | Thompson | 关系数据库 NL 查询 | 语义文法 |
| LIFER | 1978 | Hendrix | 军事数据库 | 语义文法 + 子语言 |
| SAM / PAM | 1978 | Schank | 故事理解 | Scripts & Plans |
| CHAT-80 | 1980 | Warren & Pereira | 地理问答 | DCG (Prolog) |
| BORIS | 1982 | Lehnert | 叙事理解 | Memory Organization Packets |
| TEAM | 1985 | Grosz 等 | 对话理解 | 话语结构 + 计划识别 |
Fernando Pereira 和 David Warren 提出 DCG,把 CFG 直接编码为 Prolog 子句。例如 S → NP VP 写作:
s(S0, S) :- np(S0, S1), vp(S1, S).
np(S0, S) :- det(S0, S1), n(S1, S).
vp(S0, S) :- v(S0, S1), np(S1, S).
det([the|S], S).
det([a|S], S).
n([dog|S], S).
n([cat|S], S).
v([saw|S], S).
v([ate|S], S).
这是语法即程序思想的完美实现——一行 Prolog 既是文法又是解析器。CHAT-80 用这个思想造出能回答地理问题的系统:"Which countries border China?"
1980 年代中期,所有这些系统遇到同样的天花板。失败原因可归纳为四点:
Manning slides #31 给出了 NLP 1970–1980 时间线,但加了一句关键注脚:"But symbolic AI hit the wall: 'AI winter'"。1985–1992 是 NLP 的低谷,资金紧缩,学生转行。但正是在这个低谷中,统计方法悄悄从语音识别领域走过来——这就是下一章的故事。
统计 NLP 的全部数学工具——n-gram、HMM、噪声信道、最大熵、PCFG、CRF——都可以追溯到 Claude Shannon 1948 年的论文 A Mathematical Theory of Communication(贝尔系统技术期刊)。这篇 79 页的文章奠定了:
Shannon 论文第 II.3 节做了一个划时代实验——用字符级 / 词级 n-gram 模型生成英文文本。这是历史上第一个语言模型。Shannon 手算的结果:
| 模型 | 样本输出 |
|---|---|
| 0-order (均匀) | XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD |
| 1-order (字符) | OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA |
| 2-order (双字符) | ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D |
| 3-order (三字符) | IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES |
| 1-order (词级) | REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL |
| 2-order (双词) | THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD |
Shannon 估计英文的每字符熵为 1.0–1.7 bit(实际语言学测量约 1.3 bit/字符)。这个数字至今是评估 LLM 的标尺——GPT-4 在标准基准上达到约 0.7 bit/byte,已超越 Shannon 的人类估计。
2026 年 LLM 的 perplexity(困惑度)就是 Shannon 熵的指数化:
$$\text{PP}(W) = 2^{H(W)} = 2^{-\frac{1}{N}\sum_{i=1}^N \log_2 p(w_i \mid w_{<i})}$$
当 perplexity 从 GPT-2 的 ~40 降到 GPT-4 的 ~5(C4 测试集),其实就是每个 token 的不确定性从 5.3 bit 降到 2.3 bit——直接逼近 Shannon 估计的英文下界。
Weaver 1947 年的直觉,由 1990 年 IBM 团队 (Brown, Cocke, Della Pietra, Della Pietra, Jelinek, Lafferty, Mercer, Roossin) 严格化为噪声信道翻译模型。设 $f$ = 法语句子(观察),$e$ = 英语句子(待恢复):
分两个子问题:
初学者常困惑:为什么 $P(f \mid e)$ 而非直接学 $P(e \mid f)$?答案是 解耦关注点:
这是 1990 年代 SMT 击败规则 MT 的核心智慧。直到 2014 年 Sutskever 的 NMT 才回到 $P(e \mid f)$ 的直接建模。
语言模型的目标:估计 $P(w_1, w_2, \ldots, w_n)$。链式法则给出:
但 $P(w_i \mid w_1, \ldots, w_{i-1})$ 的条件维度随 $i$ 增长,无法估计。Markov 1913 提出近似——Markov 假设:
$N=1$ unigram, $N=2$ bigram, $N=3$ trigram, $N=4$ 4-gram...
对 trigram,从语料数 $C(\cdot)$:
$$P_{\text{MLE}}(w_i \mid w_{i-2}, w_{i-1}) = \frac{C(w_{i-2}, w_{i-1}, w_i)}{C(w_{i-2}, w_{i-1})}$$语料中不出现的 trigram 概率为 0,导致整句概率为 0。平滑方法(按时间顺序):
| 方法 | 提出者 | 核心思想 |
|---|---|---|
| Laplace (add-1) | — | 分子+1, 分母+V (太粗糙) |
| Add-k | Lidstone | 分子+k, 调参 |
| Good-Turing | Good 1953 | 用出现 r+1 次的事件数估计出现 r 次的真实概率 |
| Katz backoff | Katz 1987 | 未见 trigram → 回退到 bigram → unigram |
| Kneser-Ney | Kneser & Ney 1995 | 低阶概率基于上下文多样性而非频率(state-of-art 直到 2014) |
| Modified KN | Chen & Goodman 1998 | 多个折扣参数,工程最优 |
Kneser-Ney 的关键洞察:单词 "Francisco" 频率不低,但几乎只在 "San Francisco" 中出现——它的"上下文多样性"低,回退到 unigram 时应给低概率。这一思想在 2017 年仍是 SRILM、KenLM 等工业级 LM 的基础。
Manning slides #36 给了一个绝佳的 Bayes 应用——拼写纠错。考虑句子:
"She is a stellar and versatile acress whose combination of sass and glamour attracts..."
"acress" 不是合法英文词。可能纠正:actress / across / cress / caress / acres。如何选?
其中 $w$ = 观察到的错词,$c$ = 候选纠正。
但仅看候选词的先验不够——上下文很重要。"versatile actress whose" vs "versatile across whose",哪个更可能?
用 trigram 联合估计(Manning slides 实数):
| 条件概率 | 值 |
|---|---|
| $P(\text{actress} \mid \text{versatile})$ | 0.0019 |
| $P(\text{across} \mid \text{versatile})$ | 0.000092 |
| $P(\text{whose} \mid \text{actress})$ | 0.0043 |
| $P(\text{whose} \mid \text{across})$ | 0.000026 |
联合概率:
actress 比 across 概率高 3400 倍——选 actress。这就是 Google Search "Did you mean...?" 的基础算法 (2001–2015)。
HMM 是 NLP 的瑞士军刀——POS tagging、NER、对齐、语音识别全靠它。模型由 5 元组定义 $(\Sigma, Q, A, B, \pi)$:
Viterbi 算法时间复杂度 $O(T \cdot |Q|^2)$——用于词性标注,$T$ = 句长,$|Q|$ = 45 (Penn Treebank tag set),秒级。
给每条 CFG 规则配权重 $P(A \to \alpha)$,满足 $\sum_\alpha P(A \to \alpha) = 1$。整个解析树的概率:
CKY 算法(Cocke-Younger-Kasami,三人独立发现)用动态规划在 $O(n^3 |G|)$ 时间内找最优树。Charniak (2000)、Collins (1997, 1999, 2003) 等的 lexicalized PCFG 是 2014 年神经分析器出现前的 SOTA。
HMM 的局限:生成式建模 $P(O, Q)$,需要假设观察独立。CRF 反过来——判别式建模 $P(Q \mid O)$,可任意添加特征:
其中 $f_k$ 是任意特征函数(如"前一个标签是 NNP 且当前词大写"),$\lambda_k$ 是学到的权重,$Z(\mathbf{x})$ 是归一化常数。
CRF 在 NER、chunking、句法分析 chunking 等任务上 2001–2014 全面击败 HMM。最有名的实现是 Andrew McCallum 的 MALLET 和 CRFsuite。
1993 年,University of Pennsylvania 的 Mitchell Marcus 团队发布 Penn Treebank (PTB)——4.5M 词的华尔街日报语料,每个词标注 POS,每句标注完整句法树。这是 NLP 历史的转折点。
PTB 的影响:
1980 年代末,IBM Watson Research 的 Fred Jelinek(语音识别教父)有一句 NLP 史最常被引用的话:
"Every time I fire a linguist, the performance of our speech recognizer goes up." (每开除一个语言学家,语音识别性能就上升)
Jelinek 后来澄清这是同事 Bob Mercer 说的玩笑话,但它精准捕捉了 1990 年代的 zeitgeist——"数据+概率"赢过"理论+规则"。这是 Era 3 全部精神的浓缩。
1990–1993 年,IBM 团队发表 The Mathematics of Statistical Machine Translation: Parameter Estimation(Brown et al. 1993,Computational Linguistics 经典)。该论文定义了 5 个翻译模型,复杂度逐级递增:
| 模型 | 建模内容 | 参数 |
|---|---|---|
| Model 1 | 词翻译概率,对齐均匀 | $P(f_j \mid e_{a_j})$ |
| Model 2 | + 绝对位置对齐 | + $a(j \mid i, l, m)$ |
| Model 3 | + fertility(一对多) | + $n(\phi \mid e)$ |
| Model 4 | + 相对位置畸变 | 更细对齐 |
| Model 5 | + 防冲突约束 | 无重叠位置 |
关键:所有模型用 EM 算法学习,不需要平行句对的词级对齐——只要句子级对齐。Model 1 的对齐期望(E 步):
$$P(a_j = i \mid f, e) = \frac{P(f_j \mid e_i)}{\sum_{i'} P(f_j \mid e_{i'})}$$2003 年 Och & Ney 引入 phrase-based SMT,把词级对齐扩展到短语级。Moses 工具包 (2007) 成为开源 SMT 标准,统治 MT 工业直到 2014 NMT 出现。
2000 年代是统计 NLP 的"工业化"十年:
Brants, Popat, Xu, Och, Dean (Google) 2007 发表 Large Language Models in Machine Translation,训练了一个 2 万亿词、5-gram 的语言模型——这是 "LLM" 一词第一次以现代含义出现。论文核心发现:
"More data trumps better algorithms."
这句话后来被 Norvig 总结为"The Unreasonable Effectiveness of Data"(2009),并启发了 Rich Sutton 2019 年的 The Bitter Lesson——AI 60 年的核心教训是:只有可被计算缩放的方法最终胜出,所有内嵌人类知识的方法都会被淘汰。
Brants et al. 2007 的 2 万亿词模型用了 1500 台服务器、3 周训练,1.5 GB 内存压缩。GPT-3 (2020) 训练在 15 万亿词上,用了 ~3.14×10²³ FLOPs,1750 亿参数。13 年间数据量 7.5×,参数量 100,000×,计算量 1,000,000× —— 这就是缩放律。
深度学习的复活有明确的三连击节点:
| 声学模型 | RT03S FSH 词错率 | Hub5 SWB 词错率 |
|---|---|---|
| Traditional GMM (Dahl 2012) | 27.4 | 23.6 |
| Deep Learning (Dahl 2012) | 18.5 (−33%) | 16.1 (−32%) |
| Deep Learning (Saon 2017) | 8.0 (−71%) | 5.5 (−77%) |
2013 年起,NLP 学界开始 "all in" 深度学习。但NLP 比图像和语音晚 1–2 年——因为文本是离散符号,缺乏自然的向量表示。这一空白由 Word2Vec 填补。
词向量的哲学基础是分布假设(Distributional Hypothesis):
"You shall know a word by the company it keeps." — J. R. Firth, 1957
同期还有 Zellig Harris (Chomsky 的导师) 1954 的论文 Distributional Structure:
"Difference of meaning correlates with difference of distribution."
意思是:词的语义可以通过它在文本中的上下文分布来表征。如果两个词出现在相似的上下文中(如 cat 和 dog 都跟 pet, animal, fur 共现),它们就应该有相似的语义表示。
Manning slides #44 用了一个例子:
any devices with a web browser, from laptops and tablets to smart phones
Users can download it for home computers or laptops from Microsoft Update website
"laptops" 周围的词(devices, web browser, tablets, smart phones, home computers, Microsoft Update)就代表了 "laptops" 的语义。
1990 年代已有基于分布假设的方法:
但这些方法不可扩展——共现矩阵 $|V| \times |V|$,$|V|=10^5$ 时矩阵约 10⁵×10⁵ = 100 亿元素。Word2Vec 的突破是用神经网络隐式学习等价的低维空间。
2013 年 1 月与 9 月,Tomáš Mikolov 等(当时在 Google)连发两篇神文:
Word2Vec 有两个变体:CBOW (从上下文预测中心词) 和 Skip-gram (从中心词预测上下文)。研究生更应理解 Skip-gram + 负采样 (SGNS)。
对长度 $T$ 的语料,每个词 $w_t$ 用窗口大小 $c$:
条件概率用 softmax 定义:
$$ P(w_O \mid w_I) = \frac{\exp(\mathbf{v}'_{w_O}{}^\top \mathbf{v}_{w_I})}{\sum_{w=1}^{|V|} \exp(\mathbf{v}'_w{}^\top \mathbf{v}_{w_I})} $$其中 $\mathbf{v}_w$ 是输入向量("中心词"角色),$\mathbf{v}'_w$ 是输出向量("上下文词"角色)。
问题:分母对全词表求和,$|V|=10^5$ 时每步反向传播极慢。
Mikolov 2013b 的核心技巧:把多分类问题转化为二分类——对每个正样本 $(w_I, w_O)$,从噪声分布 $P_n(w)$ 采 $k$ 个负样本,目标变为:
其中 $\sigma(x) = 1/(1+e^{-x})$ 是 sigmoid,$P_n(w) \propto U(w)^{3/4}$ 是 unigram 分布的 3/4 次幂(平滑稀有词)。$k \in [5, 20]$ 即可。
训练完后,向量空间展现惊人代数结构:
vec("king") − vec("man") + vec("woman") ≈ vec("queen")
vec("Paris") − vec("France") + vec("Italy") ≈ vec("Rome")
vec("walking") − vec("walked") + vec("swam") ≈ vec("swimming")
这是线性可分语义(linear semantic compositionality) 的奇迹。Mikolov et al. 2013b 在 19,544 个类比题上 (Google analogy test) 达到 53.3% 准确率,远超 LSA。
2014 年 Stanford 团队 (Pennington, Socher, Manning) 发表 GloVe (Global Vectors),从另一角度推导词向量。
核心观察:词关系的语义信息编码在共现比率中。考虑词 ice, steam,探针词 solid:
| 探针 k | $P(k\mid \text{ice})$ | $P(k\mid \text{steam})$ | 比率 |
|---|---|---|---|
| solid | 1.9×10⁻⁴ | 2.2×10⁻⁵ | 8.9 |
| gas | 6.6×10⁻⁵ | 7.8×10⁻⁴ | 0.085 |
| water | 3.0×10⁻³ | 2.2×10⁻³ | 1.36 |
| fashion | 1.7×10⁻⁵ | 1.8×10⁻⁵ | 0.96 |
比率 8.9 表明 solid 偏向 ice,比率 0.085 表明 gas 偏向 steam——这种结构应被向量捕获。GloVe 最终目标:
其中 $X_{ij}$ 是 $i, j$ 共现次数,$f$ 是平滑权重函数。
GloVe vs Word2Vec:
词向量解决了"词的表示",但句子的表示需要序列模型。1980 年代的 Elman RNN 重新成为主角。
反向传播时间 (BPTT) 中,损失对早期参数的梯度是 Jacobi 矩阵的连乘:
$$\frac{\partial \mathcal{L}_t}{\partial \mathbf{W}} = \sum_{k=1}^t \frac{\partial \mathcal{L}_t}{\partial \mathbf{h}_t} \left(\prod_{j=k+1}^t \frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}}\right) \frac{\partial \mathbf{h}_k}{\partial \mathbf{W}}$$每个 $\frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}} = \mathbf{U}^\top \text{diag}(\tanh'(\cdot))$。若 $\mathbf{U}$ 谱半径 $\rho(\mathbf{U}) < 1$,连乘指数衰减——梯度消失。若 $\rho(\mathbf{U}) > 1$,指数增长——梯度爆炸。Pascanu et al. 2013 给出严格分析。
LSTM 引入细胞状态 (cell state) $\mathbf{c}_t$ 和三个门 (gate):
关键:细胞状态 $\mathbf{c}_t$ 通过加法更新($+\mathbf{i}_t \odot \tilde{\mathbf{c}}_t$),梯度可以线性传播——避开了 tanh 的导数压缩问题。
GRU 把 LSTM 的 3 个门简化为 2 个:
性能与 LSTM 相近,参数少 25%,训练快。许多 2015–2017 的 NMT 系统用 GRU。
2014 年 NLP 经历了三篇里程碑论文:
Sutskever et al. 2014 用 4 层 LSTM (1000 单元) 在 WMT'14 英法翻译上 BLEU 34.8 (rerank 集成后 36.5),击败 phrase-based SMT (BLEU 33.3)。这是 NMT 工业崛起的开始。
Bahdanau, Cho, Bengio 2014/2015 指出:把整句压成一个向量是愚蠢的——人翻译时也是边读边译,关注当前需要的部分。他们引入 attention 机制:
在解码时刻 $t$,对编码器隐状态 $\mathbf{h}_1, \ldots, \mathbf{h}_T$ 计算注意力分数:
$$ e_{ti} = \mathbf{v}_a^\top \tanh(\mathbf{W}_a \mathbf{s}_{t-1} + \mathbf{U}_a \mathbf{h}_i) $$ $$ \alpha_{ti} = \frac{\exp(e_{ti})}{\sum_{j=1}^T \exp(e_{tj})} $$ $$ \mathbf{c}_t = \sum_{i=1}^T \alpha_{ti} \mathbf{h}_i $$这个动态的 $\mathbf{c}_t$ 替代固定向量 $\mathbf{c}$。
结果:长句翻译 BLEU 大涨,30+ 词的句子上比无 attention 高 5-7 BLEU。"Attention 是 Seq2Seq 救星"——这一思想 3 年后被 Vaswani 等推到极致。
2017 年 6 月,Google Brain 团队 (Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin) 发表 Attention Is All You Need。论文标题颇有挑衅意味——完全抛弃 RNN 和 CNN,只用 attention 构造 NMT 模型。
核心创新点:
其中 $Q \in \mathbb{R}^{n \times d_k}$, $K \in \mathbb{R}^{m \times d_k}$, $V \in \mathbb{R}^{m \times d_v}$。
除以 $\sqrt{d_k}$ 的数学缘由:假设 $Q, K$ 各分量独立 $\sim \mathcal{N}(0,1)$,则点积 $q^\top k = \sum_{i=1}^{d_k} q_i k_i$ 的方差为 $d_k$,标准差为 $\sqrt{d_k}$。$d_k$ 大时点积取极端值,softmax 退化为 one-hot,梯度消失。除以 $\sqrt{d_k}$ 恢复单位方差。
Transformer 的细节我们已在另一本教材 《Attention 与 Transformer 完全指南》中详述。这里只强调历史意义:
不是因为它精度高(NMT 上只比 LSTM 高 1-2 BLEU),而是因为它可以缩放:
没有 Transformer,就没有 LLM。它是 Sutton "苦涩教训"的完美体现——简单但可缩放的方法终将胜出。
2018 年是 NLP 的"预训练元年",四个里程碑相继出现:
| 模型 | 团队 | 架构 | 预训练目标 | 参数 |
|---|---|---|---|---|
| ELMo (Feb) | AllenAI (Peters et al.) | 双向 LSTM | 双向 LM | 94M |
| ULMFiT (May) | fast.ai (Howard & Ruder) | AWD-LSTM | 单向 LM + 三阶段微调 | ~30M |
| GPT-1 (Jun) | OpenAI (Radford et al.) | Transformer Decoder | 自回归 LM | 117M |
| BERT (Oct) | Google (Devlin et al.) | Transformer Encoder | MLM + NSP | 340M (Large) |
BERT 的关键创新——"完形填空"目标:
原句: The man went to the store and bought a gallon of milk.
输入: The man went to the [MASK] and bought a gallon of [MASK].
任务: 预测 [MASK] 位置的词 (store, milk)
BERT 把 15% 的 token 掩码:80% 替换为 [MASK],10% 替换为随机词,10% 保持不变。这种"加噪 + 重建"思想就是 denoising autoencoder,源头可追溯到 Vincent et al. 2008。
2018 之前:每个 NLP 任务从零训练自己的模型。
2018 之后:在大规模无标签语料上预训练通用表示,再针对具体任务微调。
这套范式在 2019–2020 横扫所有 NLP benchmark——GLUE, SuperGLUE, SQuAD, CoNLL-NER 等。但它有一个隐含假设:每个下游任务需要单独微调一份模型权重。这一假设被 GPT-3 打破。
Manning slides #51 给出语言模型 110 年的微缩史:
Manning slides #53 用三个红色框总结了 LLM 从 1998–2020 的缓慢突破:
三个瓶颈被依次突破:
2020 年 Kaplan et al. (OpenAI) 发表 Scaling Laws for Neural Language Models,给出震撼业界的经验定律:
测试损失 $L$ 是参数量 $N$、数据量 $D$、计算量 $C$ 的幂律函数:
$$L(N) \approx (N_c/N)^{\alpha_N}, \quad \alpha_N \approx 0.076$$ $$L(D) \approx (D_c/D)^{\alpha_D}, \quad \alpha_D \approx 0.095$$ $$L(C) \approx (C_c/C)^{\alpha_C}, \quad \alpha_C \approx 0.050$$给定算力预算 $C$,最优分配为 $N \propto C^{0.73}$, $D \propto C^{0.27}$(参数比数据增长快)。
2022 年 DeepMind 的 Hoffmann et al. 发表 Training Compute-Optimal Large Language Models (Chinchilla 论文),挑战 Kaplan 结论:
给定算力预算 $C$,最优分配为 $N \propto C^{0.5}$, $D \propto C^{0.5}$——参数与数据同速增长。
具体地:每参数应配 ~20 个 token。GPT-3 175B 应配 3500B token,但实际只用了 300B token——训练严重不足!
DeepMind 据此训练了 70B 参数的 Chinchilla(1.4T token),在所有任务上击败 GPT-3 175B。这一发现彻底改写了 LLM 训练 playbook:
2024–2025 业界普遍超 Chinchilla 比例(30:1 甚至 100:1),因为推理阶段省钱比训练时省钱更重要——小模型多 token 训练得到的"过训练 (overtrained)"模型,在推理时性能/成本比最优。
2020 年 5 月,OpenAI 发表 Language Models are Few-Shot Learners (Brown et al., NeurIPS 2020 best paper)。GPT-3 的 1750 亿参数本身不是亮点,真正震撼的是 in-context learning:
用户:
将以下英文翻译成法文:
sea otter => loutre de mer
peppermint => menthe poivrée
plush giraffe => girafe en peluche
cheese =>
GPT-3:
fromage
GPT-3 没有为这个任务做任何参数更新——它纯粹从提示中学会任务。这种"提示即程序"的能力被称为 in-context learning。
Wei et al. 2022 (Google) 发表 Emergent Abilities of Large Language Models,发现某些能力(如多步算术、逻辑推理)在小模型上几乎是随机水平,但过某个临界规模后突然出现。例如:
但 Schaeffer et al. 2023 (NeurIPS) 提出反论 Are Emergent Abilities of Large Language Models a Mirage? ——他们认为"涌现"是评测指标非连续性的结果,换成连续指标(log-likelihood)则平滑。这一争议至 2026 年未平息。
2022 年 3 月,OpenAI 发表 Training Language Models to Follow Instructions with Human Feedback (Ouyang et al., InstructGPT 论文),定义了三阶段对齐流程:
$r_\phi$ 是奖励模型,$\beta$ 控制 KL 惩罚强度。
2022 年 11 月 30 日,OpenAI 在 GPT-3.5 上应用 RLHF + dialog 数据微调,推出 ChatGPT。5 天用户破百万,2 个月破亿——史上增长最快的消费应用。
2023 年 Rafailov et al. (Stanford) 发表 Direct Preference Optimization,证明 RLHF 等价于一个监督学习目标:
其中 $y_w$ 是人类偏好的回答,$y_l$ 是不偏好的回答。无需训练 RM,无需 PPO,训练稳定性大幅提升。
2024 后 DPO 及其变体 (IPO, KTO, ORPO, SimPO) 几乎取代了原始 PPO RLHF。
| 模型 | 厂商 | 发布年 | 参数估计 | 特点 |
|---|---|---|---|---|
| GPT-4 | OpenAI | 2023.03 | ~1.7T (MoE) | 多模态, 强推理 |
| Claude 2/3/3.5 | Anthropic | 2023–2024 | 未公开 | 200K context, Constitutional AI |
| Gemini 1/1.5/2 | 2023–2024 | 未公开 (MoE) | 原生多模态, 2M token context | |
| Llama 2/3/4 | Meta | 2023–2025 | 7B–405B | 开源, 工业部署主力 |
| Mistral / Mixtral | Mistral AI | 2023–2024 | 7B–8x22B | MoE 开源 |
| DeepSeek V3 / R1 | DeepSeek | 2024–2025 | 671B (MoE, 37B 激活) | 开源, GRPO 推理训练 |
| OpenAI o1 / o3 | OpenAI | 2024–2025 | 未公开 | CoT-RL 推理, 测试时计算缩放 |
| Claude Opus 4.7 | Anthropic | 2026 | 未公开 | 1M context, 代理任务 SOTA |
Harvard Business School 的 Dell'Acqua 等人与 Boston Consulting Group 合作,让 758 位顾问完成 18 项任务,部分使用 GPT-4:
| 指标 | 不用 AI | 用 GPT-4 |
|---|---|---|
| 完成任务数 | baseline | +12.2% |
| 完成速度 | baseline | +25.1% |
| 质量评分 | baseline | +40% |
关键发现:
Chakrabarty, Laban, Agarwal, Muresan, Wu 2023 (Art or Artifice? Large Language Models and the False Promise of Creativity) 用 Torrance Test of Creative Writing (TTCW) 评估 48 个故事:
Manning 用这个数据告诉学生:"2023 年 GPT-4 在创意写作上远未达到职业人类水平"。这与媒体宣传的"AI 即将替代作家"形成鲜明对比。
到 2026 年 5 月,o1/Claude Opus 4.7/Gemini 2 等更强模型出现,创意写作差距已显著缩小(约 1.5-3×),但未消失。当前 LLM 在长篇叙事的结构一致性、人物弧光、风格独特性上仍弱于职业作家——这些是 NLP 研究生 2026 年的活跃研究方向。
把 1940–2026 的 NLP 史浓缩为 10 条研究方法论原则,供你立志成为优秀研究者时回顾:
NLP 历史的螺旋上升路径告诉我们:没有任何技术是终极的。Weaver 的密码学比喻、McCulloch–Pitts 的神经元、Shannon 的熵、Firth 的分布假设、Bahdanau 的 attention——这些种子在不同时代以不同形态发芽。
愿你在 2030、2040 的回顾文献中,读到自己今天工作的影子。