NLP 八十年史 — CS224N Lecture 1 研究生教材

引论：为什么 NLP 研究生必须读历史

"Those who cannot remember the past are condemned to repeat it." — George Santayana, 1905

2026 年的今天，NLP 研究生很容易陷入一种错觉：以为 Transformer、GPT、RLHF 这些技术是"从天而降"的圣物。打开 arXiv，所有论文似乎都从 2017 年的 Attention is All You Need 开始引用；打开任何 LLM 教程，第一章必定是 Self-Attention 公式 $\text{softmax}(QK^\top/\sqrt{d_k})V$。然而 Manning 教授在 CS224N 开篇连续 57 张幻灯片讲历史，并非情怀，而是方法论。

本教材有三个目的：

避免重复造轮子——你以为新颖的"知识图谱增强 LLM"，Norvig 1986 年博士论文中已用语义网络实现；你以为前沿的"链式思考 (Chain-of-Thought)"，Newell & Simon 1976 年的 General Problem Solver 已有原型。
识别真正的突破点——80 年中只发生了 4 次真正的范式革命，每次都伴随数据来源、评估方法、计算可行性三项基础设施的同时跃迁。理解这一规律，你才能判断当前 reasoning model 浪潮是否构成第 5 次革命。
建立学术品味 (taste)——为何 Manning 反复强调"语言是符号系统，但大脑不是符号处理器"？为何 LeCun 一直坚持 self-supervised learning？为何 Sutton 写下《苦涩的教训》(The Bitter Lesson)？这些立场背后都是几十年实证的积累。

📐 本教材的阅读路径

本教材采用 "历史叙事 + 技术推导" 双轨写作：

叙事部分（每节开头）：人物、时代背景、思想脉络。第一遍快速通读建立坐标系。
技术部分（formula-box / derive-step 标注）：数学推导、伪代码、复杂度分析。第二遍精读，建议手抄关键公式。
callout 标注：💡 (洞察) · ⚠️ (易错点) · ✅ (实用技巧) · ❌ (常见误解)

我们将按时间顺序展开，但每个时代都会插入"现代回响"小节——指出该时代的核心思想如何在 2026 年的 LLM 中重新出现。读完后你会意识到：NLP 的历史不是线性进步，而是螺旋上升——每一次"新"方法都是对旧问题的重新表述。

第一章：四个时代的全景图

1.1 Manning 的四时代划分

Manning 在 Dædalus 期刊 2022 年春季号的署名文章 Human Language Understanding & Reasoning 中正式确立了 NLP 的四时代划分。这个划分已成为学界共识——它的分水岭不是按技术热门程度，而是按研究范式的根本断裂。

Era 1
1940–69

早期探索 (Early Explorations)

机器翻译萌芽 + 神经网络第一波 + 符号 AI 雏形。技术幼稚但思想完整：Weaver 提出 MT 的密码学视角，McCulloch–Pitts 给出神经网络数学定义，Rosenblatt 造出第一台学习机。失败的根源是算力不足（IBM 701 仅有 4 KB 内存）和语言学认知不足。

Era 2
1970–92

手工符号系统 (Hand-built Symbolic NLP)

Winograd SHRDLU、LUNAR、SHRDLU 等"玩具世界"系统在受限领域达到惊人理解水平。形式文法（CFG、LFG、HPSG）和组合语义（Montague Grammar）在理论上臻于完美。但知识获取瓶颈（手写规则不可扩展）和词汇语义模糊性使系统无法走出实验室，催生第一次 AI 寒冬。

Era 3
1993–2012

统计学习革命 (Statistical / Probabilistic NLP)

语音识别先行——IBM 的 Jelinek 团队用 HMM + n-gram 击败所有符号系统。Penn Treebank（1993）开启监督学习范式。IBM 模型 1–5 重写 MT。Naive Bayes、HMM、PCFG、CRF、MaxEnt、SVM、LDA 构成"统计 NLP 工具箱"。Jelinek 的名言"每开除一个语言学家，性能就上升"标志了思想转向。

Era 4
2013–现在

深度学习与大语言模型 (Deep Learning / LLM)

2013 Word2Vec → 2014 Seq2Seq → 2015 Attention → 2017 Transformer → 2018 BERT/GPT → 2020 GPT-3 → 2022 ChatGPT → 2024 reasoning models。核心思想是"用一个端到端可微分网络替代所有手工特征"。子时代细分：4a 神经 NLP (2013–2021) 与 4b LLM 时代 (2022–现在)。

1.2 NLP/CL 与 AI/NN 的两条主线

Manning 在幻灯片 #2 中强调了一个常被忽视的事实：

"NLP / Computational Linguistics 与 AI / Neural Networks 是只是有些纠缠 (only somewhat entwined) 的两个领域。"

这两条主线的差异在 1956 年 Dartmouth Conference 之后就已显现。理解差异是理解学界派别的钥匙：

维度	NLP / CL 派	AI / NN 派
核心学术 home	ACL (1962 创立)	NeurIPS / ICML / AAAI
起源问题	机器翻译、语法形式化	通用智能、模式识别
代表人物	Chomsky, Joshi, Kay, Manning	Minsky, McCarthy, Rumelhart, Hinton, LeCun
方法论根	语言学 + 概率论	认知心理学 + 神经科学 + 优化
对"语言"的态度	语言是研究对象	语言是测试 AI 的工具
2013 之前的状态	主导 ACL/EMNLP	边缘化，被 SVM/GP 压制
2013 之后的状态	被深度学习"殖民"	合并所有 NLP 任务到 LLM

⚠️ 研究生注意

很多 2026 年的"NLP 新生"实际上完全没有语言学训练，他们的 NLP 知识等于"PyTorch + HuggingFace + transformer"。这没问题——但读这本教材时请意识到：Era 1–3 的研究者具备而你可能缺乏的能力包括：句法树手工标注、Penn Treebank 的标签体系、范畴语法 (CCG)、HPSG 的特征结构、统计显著性检验。如果你打算做严肃的 NLP 研究（非 LLM 应用），这些是 hidden curriculum。

1.3 八十年时间线（按 Manning slides 重构）

1913A. A. Markov 在分析普希金小说《叶甫盖尼·奥涅金》时，统计连续字母对的频率，奠定 Markov chain 与现代 LM 的数学基础。

1943McCulloch & Pitts 发表 A Logical Calculus of Ideas Immanent in Nervous Activity——第一个神经网络数学模型，证明可实现 Turing Machine。

1945Vannevar Bush 在 As We May Think 中预言 Memex（个人知识装置），是信息检索 / Web / RAG 的远祖。

1947Warren Weaver 私信中提出"翻译即解码"，开启 MT 研究。

1948Claude Shannon 发表 A Mathematical Theory of Communication，定义熵、互信息、信道容量；首次把 n-gram 用于文本生成。

1954IBM-Georgetown 公开演示俄→英翻译，250 词词表，引发媒体狂热。

1956Dartmouth Summer Project——McCarthy 命名"Artificial Intelligence"。

1957Chomsky 出版 Syntactic Structures；Rosenblatt 发表 Perceptron；Firth 提出"You shall know a word by the company it keeps"。

1962ACL 创立（初名 AMTCL）。

1966ALPAC 报告——美国国家科学院判定 MT 不可行，资金断裂。Weizenbaum 发表 ELIZA。

1969Minsky & Papert 出版 Perceptrons，证明单层感知机无法学习 XOR，神经网络陷入第一次寒冬。

1972Terry Winograd 完成 MIT 博士论文 SHRDLU。

1973Woods 发表 LUNAR——回答 Apollo 月球岩石样本问题。

1986Rumelhart, Hinton & Williams 重新发现反向传播算法，神经网络复活。Norvig 完成博士论文《文本理解的统一推断理论》。

1990IBM 发表统计机器翻译模型 1–5。

1993Penn Treebank 第一版发布——NLP 进入监督学习时代。

1997Hochreiter & Schmidhuber 发表 LSTM。

2003Bengio, Ducharme & Vincent 在 NIPS 发表 A Neural Probabilistic Language Model——第一个神经 LM。

2006Hinton & Salakhutdinov 发表 Reducing the Dimensionality of Data with Neural Networks——深度学习品牌重启。

2012AlexNet 在 ImageNet 上击败所有非神经方法；深度学习在语音识别取得突破。

2013Mikolov 等发表 Word2Vec——NLP 进入向量时代。

2014Sutskever 等发表 LSTM Seq2Seq；Bahdanau 等引入 Attention。

2017Vaswani 等发表 Attention is All You Need——Transformer 诞生。

2018BERT (Devlin et al.) 与 GPT-1 (Radford et al.) 同年发布。

2020OpenAI 发表 GPT-3，1750 亿参数，零样本学习能力。

2022ChatGPT 上线 (11 月 30 日)——5 天用户破百万，引爆生成式 AI 时代。

2024OpenAI o1、DeepSeek-R1 推出 chain-of-thought RL reasoning models。

2025S&P 500 公司 50%+ 的财报电话提到 "AI"——技术全面工业化。

第二章：早期探索 (1940–1969)

2.1 机器翻译的起点：Weaver 备忘录 (1947)

所有 NLP 教科书都从 Warren Weaver 的 1947 年私信讲起，但很少有人解释他为何重要。Weaver 是数学家、工程师，二战时期任美国国防研究委员会 (OSR&D) 主席——这个委员会指挥了曼哈顿计划在内的所有战时科研。战后他在 Rockefeller Foundation 担任科学资助主管，同时与 Shannon 合著《信息论入门》（Shannon & Weaver 1949）。他是同时掌握资金和数学的人。

1947 年 3 月，他在给 Norbert Wiener 的信中写道：

"Also knowing nothing official about, but having guessed and inferred considerable about, the powerful new mechanized methods in cryptography—methods which I believe succeed even when one does not know what language has been coded—one naturally wonders if the problem of translation could conceivably be treated as a problem in cryptography. When I look at an article in Russian, I say: 'This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.'" — Warren Weaver, March 1947

这段话是整个 NLP 50 年的方法论种子——它本质上预言了：

翻译可以建模为 解码问题（这就是后来的 noisy channel model）
翻译可以用纯统计方法完成，无需理解语言
密码学的二战遗产（特别是 Shannon 在贝尔实验室破解 SIGSALY 的工作）可以转移到语言上

💡 现代回响

Weaver 的"翻译即解码"思想沉睡了 43 年，直到 1990 年 IBM 的 Brown 等人重新发现：

$$\hat{e} = \arg\max_e P(e\mid f) = \arg\max_e P(f\mid e)\,P(e)$$

这就是 SMT 的 fundamental equation——Weaver 在 1947 年用自然语言描述的东西，被 IBM 团队用 Bayes 公式严格化。

2.2 噪声信道思想的萌芽

但 Wiener 的回信泼了冷水——这一段同样关键：

"...as to the problem of mechanical translation, I frankly am afraid that the [semantic] boundaries of words in different languages are too vague... to make any quasi-mechanical translation scheme very hopeful." — Norbert Wiener, April 1947

Wiener 提出了 NLP 至今未完全解决的核心难题——词汇的语义边界模糊。中文的"打"对应英文的 hit / play / type / make / pump / fight... 在 80 年后的 2026 年，即便 GPT-4 也偶尔翻错"我打了一盆水"为"I hit a basin of water"。Wiener 是对的，但他低估了统计学如何能驯服这种模糊性。

Shannon 噪声信道：技术铺垫

Shannon 1948 年的 A Mathematical Theory of Communication 给出了噪声信道的标准图（我们将在 4.2 节展开数学）：

图 2.1：Shannon 噪声信道模型。Weaver 把翻译看作：俄文 = "英文经过奇怪信道后的输出"。

2.3 1954 IBM-Georgetown 公开演示

1954 年 1 月 7 日，IBM 总部 (Madison Avenue 590) 公开演示了人类历史上第一个机器翻译系统。这次演示由 Leon Dostert (Georgetown 教授) 与 Cuthbert Hurd (IBM 应用科学部主任) 联合主办。配置：

硬件：IBM Type 701 电子数据处理机（IBM 第一台商用计算机，1953 年 4 月发布，售价约 1,500,000 美元，当时全球只有 12 台）
软件：250 词俄英词典 + 6 条句法规则
输入：俄语句子打孔卡片（如 "Mi pyeryedayem mislyi posryedstvom ryechyi"，"我们通过言语传递思想"）
输出：英文打字稿，约 2 秒一句

《纽约时报》以头版标题报道："Russian Is Turned Into English By a Fast Electronic Translator"，并预言"几年内全自动翻译将解决科学技术领域所有交流问题"。

❌ 历史警钟

这次演示是精心策划的——49 个测试句子全部经过反复调试，覆盖政治、法律、化学、军事等 7 个领域。系统对所有未在词表中的词完全无能。这是 AI 历史上第一次"演示驱动型炒作"，模式在后续 70 年反复出现：1968 Shakey 机器人、1985 第五代计算机、2015 IBM Watson、2023 ChatGPT GPT-4 演示...

2.4 神经网络起源：McCulloch–Pitts 1943

1943 年，神经生理学家 Warren McCulloch (1898–1969) 与天才自学逻辑学家 Walter Pitts (1923–1969) 在伊利诺伊大学发表了 A Logical Calculus of Ideas Immanent in Nervous Activity（《神经活动中思想内在的逻辑演算》），开启了神经网络的数学时代。

这篇论文的核心贡献是：把生物神经元抽象为二元逻辑单元。McCulloch–Pitts 神经元定义如下：

📐 公式 2.1 · McCulloch–Pitts 神经元

给定输入 $x_1, x_2, \ldots, x_n \in \{0,1\}$，权重 $w_1, \ldots, w_n \in \mathbb{R}$，阈值 $\theta \in \mathbb{R}$，输出为：

$$ y = \mathbb{1}\!\left(\sum_{i=1}^{n} w_i x_i > \theta\right) = \mathbb{1}\!\left(\mathbf{w}^\top \mathbf{x} - \theta > 0\right) $$

其中 $\mathbb{1}(\cdot)$ 是 Heaviside 阶跃函数。

论文证明了一个惊人结论：仅用 McCulloch–Pitts 神经元构成的网络，可以实现任何 Turing-computable 函数。具体地：

AND 门：$w_1=w_2=1, \theta=1.5$ → $y = \mathbb{1}(x_1+x_2 > 1.5)$
OR 门：$w_1=w_2=1, \theta=0.5$
NOT 门：$w_1=-1, \theta=-0.5$
记忆：通过递归连接（recurrent connection）实现

图 2.2：McCulloch–Pitts 神经元 (1943)。注意：激活函数为 Heaviside 阶跃，不可微——这是 25 年后梯度学习诞生的最大障碍。

⚠️ 致命缺陷

Heaviside 函数 $\mathbb{1}(z > 0)$ 的导数几乎处处为 0：

$$\frac{d}{dz}\mathbb{1}(z>0) = \delta(z) \quad\text{(Dirac delta)}$$

这导致 McCulloch–Pitts 神经元无法通过梯度下降学习权重 $w_i$。所有 $w_i$ 必须人工设定。这一缺陷被 25 年后 Werbos (1974) 和 Rumelhart et al. (1986) 用 sigmoid + 反向传播解决。

Walter Pitts 的悲剧

论文背后的故事极具戏剧性。Pitts 12 岁离家出走（因父亲要他辍学打工），15 岁自学读完 Russell & Whitehead 的《数学原理》并写信指出错误，Russell 邀请他到剑桥（他没去）。后来流浪到芝加哥大学旁听 Russell 的课，认识 McCulloch。1943 论文发表时 Pitts 才 20 岁。1952 年 Wiener 在 MIT 因家庭矛盾突然与他断绝关系，Pitts 此后陷入酗酒，1969 年 46 岁去世。Manning 在 slides #12 加了一颗星号 (*) ——这是对 Pitts 的悼念。

2.5 Rosenblatt 感知机：第一个真正能学习的机器

1957 年，康奈尔航空实验室的心理学家 Frank Rosenblatt 在 McCulloch–Pitts 神经元基础上做出关键突破——引入学习算法。他的 Mark I Perceptron 是一台真实的硬件机器，重达数吨，使用电位器作为可调权重。

感知机的革命性在于学习规则：

📐 公式 2.2 · 感知机学习规则 (Perceptron Learning Rule)

给定训练样本 $(\mathbf{x}_t, d_t)$，$d_t \in \{0,1\}$ 为标签，当前预测 $y_t = \mathbb{1}(\mathbf{w}_t^\top \mathbf{x}_t > 0)$，权重更新：

$$ \mathbf{w}_{t+1} = \mathbf{w}_t + \alpha \,(d_t - y_t)\, \mathbf{x}_t $$

其中 $\alpha > 0$ 为学习率。

注意这条规则的几何意义：

若 $d_t = y_t$（预测正确），$\mathbf{w}$ 不变；
若 $d_t=1, y_t=0$（应为正但预测负），$\mathbf{w}$ 向 $\mathbf{x}_t$ 靠拢——下次内积变大；
若 $d_t=0, y_t=1$（应为负但预测正），$\mathbf{w}$ 远离 $\mathbf{x}_t$。

Novikoff 收敛定理 (1962)

Rosenblatt 没有给出收敛性证明，但 1962 年 Novikoff 证明了惊人结论：

📜 Novikoff 定理

若训练集线性可分，存在间隔 $\gamma > 0$ 且最大范数 $R = \max_t \|\mathbf{x}_t\|$，则感知机最多在 $(R/\gamma)^2$ 步内收敛到一个零错误解。

这是机器学习史上第一个收敛性定理，奠定了统计学习理论的基础。

1958 年 NYT 的 AI 史第一波炒作

1958 年 7 月 8 日，《纽约时报》头版报道："NEW NAVY DEVICE LEARNS BY DOING — Psychologist Shows Embryo of Computer Designed to Read and Grow Wiser"，并写道：

"The Navy revealed the embryo of an electronic computer today that it expects will be able to walk, talk, see, write, reproduce itself and be conscious of its existence."

这段话在 2026 年读来令人发笑——但请注意：把"GPT-3 will be conscious"换上去，正是 2020 年代媒体的语气。AI 炒作模式 60 年没变。

1969 寒冬：Minsky & Papert 的死刑判决

Marvin Minsky 与 Seymour Papert 1969 年的著作 Perceptrons: An Introduction to Computational Geometry 证明：

📐 定理 2.3 · 单层感知机的 XOR 不可能性

不存在权重 $\mathbf{w} \in \mathbb{R}^2$ 和阈值 $\theta$ 使得：

$$ \begin{aligned} \mathbb{1}(w_1 \cdot 0 + w_2 \cdot 0 > \theta) &= 0 \\ \mathbb{1}(w_1 \cdot 0 + w_2 \cdot 1 > \theta) &= 1 \\ \mathbb{1}(w_1 \cdot 1 + w_2 \cdot 0 > \theta) &= 1 \\ \mathbb{1}(w_1 \cdot 1 + w_2 \cdot 1 > \theta) &= 0 \end{aligned} $$

证明：前两个方程要求 $w_2 > \theta \geq 0$；第三、第四个方程要求 $w_1 > \theta$ 但 $w_1 + w_2 \leq \theta$。两者矛盾。∎

这本书的实际影响远超数学结论本身——它给资助机构（ARPA）一个停止资助神经网络研究的理由。此后NN 研究在 NLP 中沉睡 25 年，直到 2003 年 Bengio 等人才在主流 NLP 会议重新发表神经语言模型。

💡 历史悖论

多层感知机（MLP）可以轻松学会 XOR——只需 2 个隐藏单元。Minsky & Papert 在书中明确知道这一点，但他们认为"训练多层网络的算法不可能存在"。反向传播 (1986) 证明他们错了。这件事告诉研究生："不可能性证明"几乎总是对某个具体模型的，而非对问题本身的。

2.6 1956 Dartmouth Summer Project

1956 年夏，John McCarthy（28 岁，Dartmouth 数学系助理教授）召集了 10 位科学家在新罕布什尔的 Dartmouth College 开了 8 周研讨会。提案书（McCarthy, Minsky, Rochester, Shannon 1955）是 AI 历史上最重要的文档之一，开篇就写：

"The study is to proceed on the basis of the conjecture that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it."

McCarthy 在此首次使用 "Artificial Intelligence" 一词（取代当时主流的 "Cybernetics"）。出席者包括：

John McCarthy

1927–2011

"AI" 命名者；LISP 发明人 (1958)；Stanford AI Lab 创始人。

Marvin Minsky

1927–2016

MIT AI Lab 创始人；Society of Mind；与 Papert 写《Perceptrons》。

Claude Shannon

1916–2001

信息论之父；玩具机器人 Theseus；信息熵公式。

Nathaniel Rochester

1919–2001

IBM 701 主架构师；汇编语言早期设计。

Herbert Simon

1916–2001

Carnegie Mellon；Turing 奖 + 诺贝尔经济学奖；GPS 系统。

Allen Newell

1927–1992

与 Simon 合作开发 Logic Theorist 与 GPS。

2.7 两种 AI 愿景：符号派 vs 控制论派

Dartmouth 之后，AI 分裂成两个互相鄙视的阵营：

维度	符号 AI (Symbolic)	控制论 / 联结主义 (Cybernetics)
代表人物	Minsky, McCarthy, Newell, Simon	Wiener, Rosenblatt, McCulloch
核心信念	"思维 = 符号操作 (Physical Symbol System Hypothesis)"	"思维 = 反馈与控制系统"
方法	LISP, Prolog, 知识库, 推理引擎	神经网络, 感知机, 反馈环
研究中心	MIT, Stanford, CMU	Cornell, Berkeley, 早期 MIT
资助来源	DARPA, ONR	ONR, Air Force
1969 后	主导 AI 直到 1985	沉睡到 2006

Newell & Simon 的"物理符号系统假设"(1976)

这是符号派的核心信仰，1976 年 ACM Turing 奖演讲中明确表述：

"A physical symbol system has the necessary and sufficient means for general intelligent action."

翻译：智能 = 对符号的操作。语言是符号系统，因此 NLP = 符号操作问题。这个立场在 1970–1990 主导 NLP 学界，催生了 SHRDLU、LUNAR、CHAT-80 等系统（第三章详述）。

💡 现代回响 · Manning 的折中立场

Manning 在 slides #40 给出一个关键判断：

语言是符号系统——我们应学习并利用其结构。
但大脑不是物理符号系统——它更像神经网络。
因此 NLP 系统设计无需是物理符号系统。
神经网络模型可扩展性更好，且能捕获符号所代表的世界。

这就是为什么 2026 年 LLM 用的是 Transformer（连续向量空间）而非 Prolog（离散符号）。但 LLM 的训练数据仍然是符号文本——符号系统从模型本身退到了输入端。

2.8 信息检索：Bush 的 Memex 与 Cranfield 测评

NLP 历史叙事常忽略 IR (Information Retrieval)，但 IR 给 NLP 贡献了评估方法论——这是更持久的遗产。

Vannevar Bush 与 Memex (1945)

1945 年 7 月，The Atlantic 杂志刊登 Bush 的 As We May Think。Bush 时任 OSR&D 主席（指挥曼哈顿计划），文章预言一种叫 memex 的桌面设备：

"Consider a future device for individual use, which is a sort of mechanized private file and library. ...A memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory."

Memex 的设计要点（用 1945 年的微缩胶片技术实现）：

个人化全文档存储
关联式索引（associative trails）——这是 hyperlink 思想的前身
注释与标签
实时检索

这一愿景在 1989 Tim Berners-Lee 的 WWW、1998 Google PageRank、2022 RAG 系统中逐步实现。2026 年 LLM + RAG 完整实现了 Memex 愿景——你问任何问题，模型从私人知识库中检索并整合回答。

Cyril Cleverdon 与 Cranfield 测评 (1957–1967)

另一个关键人物是 Cranfield Aeronautics 学院图书馆员 Cyril Cleverdon。他做了一件听起来枯燥但意义深远的事——发明 benchmark test：

固定文档集合（Cranfield 1: 1400 篇航空学论文）
固定查询集合（225 个用户查询）
对每个查询，穷举式标注所有文档的相关性
定义指标：precision（精确率）、recall（召回率）

📐 公式 2.4 · Cranfield 经典指标

$$ \text{Precision} = \frac{|\text{Retrieved} \cap \text{Relevant}|}{|\text{Retrieved}|}, \qquad \text{Recall} = \frac{|\text{Retrieved} \cap \text{Relevant}|}{|\text{Relevant}|} $$

F1 由 van Rijsbergen 1979 年加入，成为综合指标：$F_1 = \frac{2 \cdot P \cdot R}{P + R}$

💡 现代回响

NLP 中所有"benchmark"都是 Cranfield 范式的后代：

1993 Penn Treebank → 句法分析评测
2002 BLEU → 机器翻译评测
2018 GLUE → 多任务理解评测
2021 MMLU → LLM 综合评测
2024 AIME / MATH → 推理评测

但 2024 年后出现"benchmark 死亡"问题：GPT-4 把 MMLU 刷到 86%，剩 14% 主要是标注噪声。这是 Cranfield 范式 70 年后的内在矛盾——当模型超越人类标注者，benchmark 失去信号。

2.9 1960 年代的繁荣与 ALPAC 寒冬

1956–1966 这十年是 MT 研究的黄金期。美国、苏联、英国、以色列、意大利相继投入，仅美国 ARPA 一家就投入约 20M 美元 (按今日货币约 200M 美元)。但 1966 年 ALPAC (Automatic Language Processing Advisory Committee) 报告给所有项目判了死刑：

"There is no immediate or predictable prospect of useful machine translation. [...] The committee indicates that there is no emergency in the field of translation."

ALPAC 的发现包括：

当时最好的 MT 系统输出仍需人工大改
人工翻译比 MT + 后编辑更快
翻译人才其实够用
建议把钱投到基础计算语言学而非 MT 工程

ALPAC 报告导致美国 MT 资助断崖式下跌，引发第一次 NLP 寒冬 (1966–1980)。但它也间接催生了：

1962 ACL 成立（原名 AMTCL = Association for MT and Computational Linguistics，1968 改名 ACL）
基础研究转向：句法、语义、知识表示
从"应用驱动"转向"理论驱动"

1966 ELIZA：聊天机器人的祖先

同年，MIT 的 Joseph Weizenbaum 发表 ELIZA——一个用模板匹配模拟 Rogerian 心理治疗师的聊天程序。代码极简（约 200 行 SLIP/MAD-SLIP），核心是关键词替换 + 反问句生成。

用户: Men are all alike.
ELIZA: In what way?
用户: They're always bugging us about something or other.
ELIZA: Can you think of a specific example?
用户: Well, my boyfriend made me come here.
ELIZA: Your boyfriend made you come here?
用户: He says I'm depressed much of the time.
ELIZA: I am sorry to hear that you are depressed.

Weizenbaum 本人对 ELIZA 引发的反应感到震惊——他的秘书在跟 ELIZA 聊了几分钟后请他离开房间，因为对话太私密。这种现象后被命名为 ELIZA 效应：人类倾向于把任何文本输出投射上人格。

⚠️ ELIZA 效应在 2026 年

ChatGPT 引发的"AI 男友"、"AI 心理咨询师"、"AI 灵魂伴侣"等现象，本质上是 ELIZA 效应在 LLM 时代的放大。Weizenbaum 1976 年的著作 Computer Power and Human Reason 警告：不应把人类决策（特别是涉及尊严的决策）外包给机器。这是 NLP 伦理学的源头。

第三章：手工符号系统时代 (1970–1992)

3.1 Winograd 的 SHRDLU：积木世界的胜利

1972 年，Terry Winograd 在 MIT 完成博士论文，导师是 Seymour Papert（《Perceptrons》合著者）。SHRDLU 名字取自 ETAOIN SHRDLU——英文字母频率排序前 12 位的次序，这是 Linotype 排版机的传统排列。

SHRDLU 在"积木世界"（blocks world）中工作：一张虚拟桌面上有不同颜色、形状的方块和金字塔，用户用英文指令操控机械臂：

Person: Pick up a big red block.
Computer: OK.
Person: Find a block which is taller than the one you are holding and put it into the box.
Computer: By "it", I assume you mean the block which is taller than the one I am holding.
Computer: OK.
Person: What does the box contain?
Computer: The blue pyramid and the blue block.
Person: How many blocks are not in the box?
Computer: Four of them.
Person: Is at least one of them narrower than the one I told you to pick up?
Computer: Yes, the red cube.
Person: Is it supported?
Computer: Yes, by the table.
Person: Can the table pick up blocks?
Computer: No.
Person: Can a pyramid be supported by a block?
Computer: Yes.
Person: Can a pyramid support a pyramid?
Computer: I don't know.

SHRDLU 的核心架构由三部分组成：

图 3.1：SHRDLU 系统架构。注意 PROGRAMMAR (语法)、PLANNER (语义/规划)、MICRO-PLANNER (推理) 三者紧密耦合——这种"程序即语法"思想后来演化为 Definite Clause Grammar (Pereira & Warren 1980)。

SHRDLU 为何"成功"

SHRDLU 在 1972 年是 NLP 的奇迹，原因有三：

封闭世界假设 (Closed World Assumption)——积木世界只有 ~30 个物体和 ~10 种关系，可完全形式化。
语法+语义+推理统一编码——所有规则用 MICRO-PLANNER（LISP 上的逻辑编程语言）写成。
程序即知识——避免了"知识表示与推理引擎分离"的传统瓶颈。

但...SHRDLU 失败了

Winograd 在 1980 年代彻底放弃 NLP 研究，转向人机交互（HCI），并写了一本对符号 AI 极尽批判的书 Understanding Computers and Cognition (1986)。他给学生的总结是：

"积木世界扩展到真实世界——失败了。每加一个新概念，规则数量爆炸。我们以为再加 10 倍人力就能造出能看懂报纸的系统，但实际上需要 1000 倍。"

这就是 combinatorial explosion（组合爆炸）问题——任何手工规则系统在 ~10⁴ 规则后失控。这一教训直到 Era 4 才被深度学习用"数据替代规则"解决。

3.2 形式文法：CFG、LFG、HPSG、Unification

1970–1990 是形式文法的黄金时代。研究者尝试用越来越精细的数学结构刻画自然语言。我们快速过一下主要文法形式：

1. 上下文无关文法 (CFG, Chomsky 1957)

Chomsky 在 Syntactic Structures 中定义了文法层次：

📐 Chomsky 层级

类型	名称	形式	识别器
0	无限制文法	$\alpha \to \beta$	Turing 机
1	上下文相关	$\alpha A \beta \to \alpha \gamma \beta$	线性有界自动机
2	上下文无关 (CFG)	$A \to \alpha$	下推自动机
3	正则	$A \to aB$ 或 $A \to a$	有限状态机

典型英语 CFG 片段：

S  →  NP VP
NP →  Det N | Det Adj N | NP PP
VP →  V NP | V NP PP
PP →  P NP
Det →  the | a | an
N  →  cat | dog | table | apple
V  →  saw | ate | put
Adj →  red | big
P  →  on | with

Chomsky 在书中证明：英语不是正则语言（因为存在嵌套依赖如 "the cat the dog the rat bit chased ran away"）。后来 Shieber 1985 证明瑞士德语和 Bambara 语不是上下文无关语言——需要 mildly context-sensitive grammars (如 TAG, CCG)。

2. 词汇功能文法 LFG (Bresnan & Kaplan 1982)

LFG 把句法分成两个层次：

c-structure（成分结构）——CFG 风格的句法树
f-structure（功能结构）——属性-值矩阵，记录主语、宾语、时态等

例如 "John saw Mary" 的 f-structure：

[ PRED   'see(SUBJ, OBJ)'
  SUBJ   [ PRED  'John'   NUM  sg   PERS  3 ]
  OBJ    [ PRED  'Mary'   NUM  sg   PERS  3 ]
  TENSE  past ]

3. 中心驱动短语结构文法 HPSG (Pollard & Sag 1994)

HPSG 把所有语言信息统一到有类型的特征结构 (typed feature structure)中，用 unification（合一）组合：

📐 Unification 操作

给定两个特征结构 $F_1, F_2$，它们的合一 $F_1 \sqcup F_2$ 是包含两者所有信息的最小公共结构，若信息冲突则失败：

$$ \begin{bmatrix} \text{NUM} & sg \\ \text{PERS} & 3 \end{bmatrix} \sqcup \begin{bmatrix} \text{NUM} & sg \\ \text{GEN} & m \end{bmatrix} = \begin{bmatrix} \text{NUM} & sg \\ \text{PERS} & 3 \\ \text{GEN} & m \end{bmatrix} $$

但 $\begin{bmatrix} \text{NUM} & sg \end{bmatrix} \sqcup \begin{bmatrix} \text{NUM} & pl \end{bmatrix} = \bot$（合一失败）。

Martin Kay（Stanford / Xerox PARC）是 unification grammars 的主要推动者。Kay 后来与 Pereira、Shieber 等人形成 Stanford 的 unification 学派。

3.3 组合语义：Montague 的 rule-to-rule

1970 年，UCLA 哲学家 Richard Montague 发表 Universal Grammar，提出震撼语言学界的论点：

"There is in my opinion no important theoretical difference between natural languages and the artificial languages of logicians; indeed, I consider it possible to comprehend the syntax and semantics of both kinds of languages within a single natural and mathematically precise theory."

Montague 的核心思想：句法规则与语义规则一一对应 (rule-to-rule hypothesis)。每个 CFG 规则 $A \to B\,C$ 对应一个语义合成函数 $\llbracket A \rrbracket = f(\llbracket B \rrbracket, \llbracket C \rrbracket)$。语义用 typed lambda calculus 表示。

例：'The red apple is on the table' 的合成语义

Manning slides #28 给出了一个经典推导。设论域包含 apple、red、table、on 等谓词，定义型 (types)：

$e$：实体类型（individual）
$t$：真值类型
$\langle e, t\rangle$：从实体到真值的函数（即谓词）
$\langle\langle e,t\rangle, e\rangle$：定冠词 'the' 的类型（picks unique）

词条赋型：

词	语义	类型
apple	$\lambda x.\,\text{apple}(x)$	$\langle e, t\rangle$
red	$\lambda P.\,\lambda x.\,P(x) \wedge \text{red}(x)$	$\langle\langle e,t\rangle, \langle e,t\rangle\rangle$
the	$\lambda P.\,\iota P$	$\langle\langle e,t\rangle, e\rangle$
on	$\lambda y.\,\lambda x.\,\text{on}(x,y)$	$\langle e, \langle e, t\rangle\rangle$
is	$\lambda P.\,P$	identity

组合过程（β-reduction）：

步 1. red apple: $(\lambda P.\,\lambda x.\,P(x) \wedge \text{red}(x))(\lambda y.\,\text{apple}(y)) = \lambda x.\,\text{apple}(x) \wedge \text{red}(x)$

步 2. the red apple: $\iota(\lambda x.\,\text{apple}(x) \wedge \text{red}(x))$（满足条件的唯一对象）

步 3. the table: $\iota(\lambda y.\,\text{table}(y))$

步 4. on the table: $\lambda x.\,\text{on}(x, \iota(\lambda y.\,\text{table}(y)))$

步 5. 整句：$\text{on}\bigl(\iota(\lambda x.\,\text{apple}(x) \wedge \text{red}(x)),\,\iota(\lambda y.\,\text{table}(y))\bigr)$

这就是组合语义的胜利——从 5 个词的小词典出发，机械地推导出完整逻辑形式。1970–1990 几乎所有 NLP 语义研究都用这套框架。

❌ 但它有效吗？

问题：把句子翻译成一阶逻辑后，下一步呢？

用 Prolog 推理？——只能在小知识库上工作
查询数据库？——需要手写 schema mapping
判断真假？——依赖外部知识，回到知识获取瓶颈

Montague Grammar 给了语义"完美的表示"，但表示之后的推理无人能解。这是符号 AI 的根本困境。

3.4 知识表示与逻辑推理：Norvig 的统一理论

Manning slides #29–30 重点介绍了 Peter Norvig 1986 年的博士论文 A Unified Theory of Inference for Text Understanding (UC Berkeley)。Norvig 后来成为 Google Research Director、Stanford AI 教科书作者，但他的博士论文极少被引用——这是 NLP 历史的一个遗珠。

Norvig 处理的故事：

"In a poor fishing village built on an island not far from the coast of China, a young boy named Chang Lee lived with his widowed mother. Every day, little Chang bravely set off with his net, hoping to catch a few fish from the sea, which they could sell and have a little money to buy bread."

系统需要回答 6 类推断问题：

Elaboration（细化）：填补连接两个实体的槽位
"John got piggybank for REASON have money for REASON buy present"
Reference Resolution（指代消解）：识别共指
"the word which refers to the fish"
View Application（视角应用）：隐喻理解
"The Red Sox killed the Yankees" → KILLED 不是 animal，是 DEFEAT-CONVINCINGLY
Concretization（具体化）：上位概念→下位概念
"TRAVELLING in an AUTOMOBILE is an instance of DRIVING"

这是 1986 年的工作，但所有这些任务在 2026 年 LLM 中仍是基准任务——只是从手工规则变成了 in-context learning。

💡 现代回响

Norvig 1986 的 4 类推断 vs 2024 LLM 的 chain-of-thought：

Elaboration → step-by-step reasoning
Reference Resolution → coreference in long context
View Application → metaphor & idiom understanding
Concretization → instance-level inference

当你看 GPT-4 解题轨迹，本质上仍在做 Norvig 1986 定义的这 4 件事。区别在于：Norvig 写了 5 万行 LISP 规则，GPT-4 从 15 万亿 token 训练数据中自动获得这些能力。

3.5 经典系统全景

系统	年代	作者	领域	核心技术
SHRDLU	1972	Winograd	积木世界	PROGRAMMAR + MICRO-PLANNER
LUNAR	1973	Woods	Apollo 月岩样本 QA	ATN parser + 谓词逻辑
SOPHIE	1975	Brown 等	电路故障诊断教学	定性物理 + NL 接口
REL	1975	Thompson	关系数据库 NL 查询	语义文法
LIFER	1978	Hendrix	军事数据库	语义文法 + 子语言
SAM / PAM	1978	Schank	故事理解	Scripts & Plans
CHAT-80	1980	Warren & Pereira	地理问答	DCG (Prolog)
BORIS	1982	Lehnert	叙事理解	Memory Organization Packets
TEAM	1985	Grosz 等	对话理解	话语结构 + 计划识别

Definite Clause Grammar (DCG) — Pereira & Warren 1980

Fernando Pereira 和 David Warren 提出 DCG，把 CFG 直接编码为 Prolog 子句。例如 S → NP VP 写作：

s(S0, S) :- np(S0, S1), vp(S1, S).
np(S0, S) :- det(S0, S1), n(S1, S).
vp(S0, S) :- v(S0, S1), np(S1, S).
det([the|S], S).
det([a|S], S).
n([dog|S], S).
n([cat|S], S).
v([saw|S], S).
v([ate|S], S).

这是语法即程序思想的完美实现——一行 Prolog 既是文法又是解析器。CHAT-80 用这个思想造出能回答地理问题的系统："Which countries border China?"

3.6 第一次 AI 寒冬：符号主义为何撞墙

1980 年代中期，所有这些系统遇到同样的天花板。失败原因可归纳为四点：

知识获取瓶颈 (Knowledge Acquisition Bottleneck)——为了覆盖 1% 的真实世界，需要手写数百万条规则。Cyc 项目 (1984– ) 至今仍未完成。
组合爆炸——规则间相互作用导致系统行为不可预测，新增规则常破坏旧规则。
词汇语义模糊——一词多义、隐喻、上下文依赖无法用离散规则刻画。
无渐进式改进——系统要么"懂"要么"不懂"，没有"懂 70%"的中间状态。

Manning slides #31 给出了 NLP 1970–1980 时间线，但加了一句关键注脚："But symbolic AI hit the wall: 'AI winter'"。1985–1992 是 NLP 的低谷，资金紧缩，学生转行。但正是在这个低谷中，统计方法悄悄从语音识别领域走过来——这就是下一章的故事。

第四章：统计学习革命 (1993–2012)

4.1 Shannon 1948：信息论奠基

统计 NLP 的全部数学工具——n-gram、HMM、噪声信道、最大熵、PCFG、CRF——都可以追溯到 Claude Shannon 1948 年的论文 A Mathematical Theory of Communication（贝尔系统技术期刊）。这篇 79 页的文章奠定了：

信息熵：$H(X) = -\sum_x p(x)\log_2 p(x)$
条件熵：$H(Y\mid X) = -\sum_{x,y} p(x,y)\log_2 p(y\mid x)$
互信息：$I(X;Y) = H(X) - H(X\mid Y) = H(Y) - H(Y\mid X)$
信道容量：$C = \max_{p(x)} I(X;Y)$
噪声信道编码定理：传输速率 $R < C$ 时存在零错误编码

Shannon 的 n-gram 实验

Shannon 论文第 II.3 节做了一个划时代实验——用字符级 / 词级 n-gram 模型生成英文文本。这是历史上第一个语言模型。Shannon 手算的结果：

模型	样本输出
0-order (均匀)	XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD
1-order (字符)	OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA
2-order (双字符)	ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D
3-order (三字符)	IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES
1-order (词级)	REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATURAL
2-order (双词)	THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD

Shannon 估计英文的每字符熵为 1.0–1.7 bit（实际语言学测量约 1.3 bit/字符）。这个数字至今是评估 LLM 的标尺——GPT-4 在标准基准上达到约 0.7 bit/byte，已超越 Shannon 的人类估计。

💡 现代回响

2026 年 LLM 的 perplexity（困惑度）就是 Shannon 熵的指数化：

$$\text{PP}(W) = 2^{H(W)} = 2^{-\frac{1}{N}\sum_{i=1}^N \log_2 p(w_i \mid w_{<i})}$$

当 perplexity 从 GPT-2 的 ~40 降到 GPT-4 的 ~5（C4 测试集），其实就是每个 token 的不确定性从 5.3 bit 降到 2.3 bit——直接逼近 Shannon 估计的英文下界。

4.2 噪声信道模型的完整推导

Weaver 1947 年的直觉，由 1990 年 IBM 团队 (Brown, Cocke, Della Pietra, Della Pietra, Jelinek, Lafferty, Mercer, Roossin) 严格化为噪声信道翻译模型。设 $f$ = 法语句子（观察），$e$ = 英语句子（待恢复）：

📐 公式 4.1 · SMT 的 Fundamental Equation

$$ \hat{e} = \arg\max_e P(e \mid f) = \arg\max_e \frac{P(f \mid e)\,P(e)}{P(f)} = \arg\max_e \underbrace{P(f \mid e)}_{\text{翻译模型}} \cdot \underbrace{P(e)}_{\text{语言模型}} $$

分两个子问题：

翻译模型 $P(f \mid e)$：英文译成法文的"逆向"概率——IBM 模型 1–5 学习对齐与词翻译概率。
语言模型 $P(e)$：合法英文的先验——n-gram 模型估计。

为何要"反过来"建模？

初学者常困惑：为什么 $P(f \mid e)$ 而非直接学 $P(e \mid f)$？答案是 解耦关注点：

$P(f \mid e)$ 关注词对齐与忠实度——容许目标语言不流畅，只要忠实于源语言
$P(e)$ 关注目标语言流畅度——用大规模英文语料学习，与翻译无关
两者结合，既忠实又流畅

这是 1990 年代 SMT 击败规则 MT 的核心智慧。直到 2014 年 Sutskever 的 NMT 才回到 $P(e \mid f)$ 的直接建模。

4.3 n-gram 语言模型：从 Markov 到 Jelinek

语言模型的目标：估计 $P(w_1, w_2, \ldots, w_n)$。链式法则给出：

$$P(w_1, \ldots, w_n) = \prod_{i=1}^n P(w_i \mid w_1, \ldots, w_{i-1})$$

但 $P(w_i \mid w_1, \ldots, w_{i-1})$ 的条件维度随 $i$ 增长，无法估计。Markov 1913 提出近似——Markov 假设：

📐 公式 4.2 · Markov 假设 (n-gram)

$$P(w_i \mid w_1, \ldots, w_{i-1}) \approx P(w_i \mid w_{i-N+1}, \ldots, w_{i-1})$$

$N=1$ unigram, $N=2$ bigram, $N=3$ trigram, $N=4$ 4-gram...

最大似然估计 (MLE)

对 trigram，从语料数 $C(\cdot)$：

$$P_{\text{MLE}}(w_i \mid w_{i-2}, w_{i-1}) = \frac{C(w_{i-2}, w_{i-1}, w_i)}{C(w_{i-2}, w_{i-1})}$$

稀疏性问题与平滑

语料中不出现的 trigram 概率为 0，导致整句概率为 0。平滑方法（按时间顺序）：

方法	提出者	核心思想
Laplace (add-1)	—	分子+1, 分母+V (太粗糙)
Add-k	Lidstone	分子+k, 调参
Good-Turing	Good 1953	用出现 r+1 次的事件数估计出现 r 次的真实概率
Katz backoff	Katz 1987	未见 trigram → 回退到 bigram → unigram
Kneser-Ney	Kneser & Ney 1995	低阶概率基于上下文多样性而非频率（state-of-art 直到 2014）
Modified KN	Chen & Goodman 1998	多个折扣参数，工程最优

Kneser-Ney 的关键洞察：单词 "Francisco" 频率不低，但几乎只在 "San Francisco" 中出现——它的"上下文多样性"低，回退到 unigram 时应给低概率。这一思想在 2017 年仍是 SRILM、KenLM 等工业级 LM 的基础。

4.4 概率拼写纠错：Bayes 公式实战

Manning slides #36 给了一个绝佳的 Bayes 应用——拼写纠错。考虑句子：

"She is a stellar and versatile acress whose combination of sass and glamour attracts..."

"acress" 不是合法英文词。可能纠正：actress / across / cress / caress / acres。如何选？

📐 公式 4.3 · 拼写纠错的 Bayes 模型

$$ \hat{c} = \arg\max_c P(c \mid w) = \arg\max_c \underbrace{P(w \mid c)}_{\text{噪声模型}} \cdot \underbrace{P(c)}_{\text{语言模型}} $$

其中 $w$ = 观察到的错词，$c$ = 候选纠正。

但仅看候选词的先验不够——上下文很重要。"versatile actress whose" vs "versatile across whose"，哪个更可能？

用 trigram 联合估计（Manning slides 实数）：

条件概率	值
$P(\text{actress} \mid \text{versatile})$	0.0019
$P(\text{across} \mid \text{versatile})$	0.000092
$P(\text{whose} \mid \text{actress})$	0.0043
$P(\text{whose} \mid \text{across})$	0.000026

联合概率：

$P(\text{"versatile actress whose"}) = 0.0019 \times 0.0043 = 8.17 \times 10^{-6}$
$P(\text{"versatile across whose"}) = 0.000092 \times 0.000026 = 2.39 \times 10^{-9}$

actress 比 across 概率高 3400 倍——选 actress。这就是 Google Search "Did you mean...?" 的基础算法 (2001–2015)。

4.5 HMM、PCFG、CRF 的数学推导

1. 隐马尔可夫模型 (HMM)

HMM 是 NLP 的瑞士军刀——POS tagging、NER、对齐、语音识别全靠它。模型由 5 元组定义 $(\Sigma, Q, A, B, \pi)$：

$\Sigma$：观察符号集（如词）
$Q$：隐状态集（如 POS 标签）
$A = \{a_{ij}\}$：转移概率 $a_{ij} = P(q_t = j \mid q_{t-1} = i)$
$B = \{b_j(o)\}$：发射概率 $b_j(o) = P(o_t = o \mid q_t = j)$
$\pi$：初始分布

📐 公式 4.4 · HMM 三大问题

评估：给定模型 $\lambda$ 和观察 $O$，计算 $P(O \mid \lambda)$。
算法：前向算法 (Forward) — $\alpha_t(j) = \left[\sum_i \alpha_{t-1}(i)\,a_{ij}\right] b_j(o_t)$
解码：给定 $\lambda, O$，找最优隐状态序列 $\hat{Q}$。
算法：Viterbi — $\delta_t(j) = \max_i \delta_{t-1}(i)\,a_{ij}\,b_j(o_t)$
学习：给定 $O$，估计 $\lambda$。
算法：Baum-Welch (EM 特例)

Viterbi 算法时间复杂度 $O(T \cdot |Q|^2)$——用于词性标注，$T$ = 句长，$|Q|$ = 45 (Penn Treebank tag set)，秒级。

2. 概率上下文无关文法 (PCFG)

给每条 CFG 规则配权重 $P(A \to \alpha)$，满足 $\sum_\alpha P(A \to \alpha) = 1$。整个解析树的概率：

$$P(\tau) = \prod_{A \to \alpha \in \tau} P(A \to \alpha)$$

CKY 算法（Cocke-Younger-Kasami，三人独立发现）用动态规划在 $O(n^3 |G|)$ 时间内找最优树。Charniak (2000)、Collins (1997, 1999, 2003) 等的 lexicalized PCFG 是 2014 年神经分析器出现前的 SOTA。

3. 条件随机场 (CRF) — Lafferty, McCallum, Pereira 2001

HMM 的局限：生成式建模 $P(O, Q)$，需要假设观察独立。CRF 反过来——判别式建模 $P(Q \mid O)$，可任意添加特征：

📐 公式 4.5 · Linear-chain CRF

$$ P(\mathbf{y} \mid \mathbf{x}) = \frac{1}{Z(\mathbf{x})} \exp\!\left(\sum_t \sum_k \lambda_k f_k(y_{t-1}, y_t, \mathbf{x}, t)\right) $$

其中 $f_k$ 是任意特征函数（如"前一个标签是 NNP 且当前词大写"），$\lambda_k$ 是学到的权重，$Z(\mathbf{x})$ 是归一化常数。

CRF 在 NER、chunking、句法分析 chunking 等任务上 2001–2014 全面击败 HMM。最有名的实现是 Andrew McCallum 的 MALLET 和 CRFsuite。

4.6 Penn Treebank 与监督学习范式

1993 年，University of Pennsylvania 的 Mitchell Marcus 团队发布 Penn Treebank (PTB)——4.5M 词的华尔街日报语料，每个词标注 POS，每句标注完整句法树。这是 NLP 历史的转折点。

PTB 的影响：

建立标准任务：POS tagging (Sec 02-21 训练 / Sec 23 测试), 句法分析 (Charniak / Collins parser)
建立标注规范：45 个 POS 标签，~85 个 phrase 类型，详细注释手册
催生工业：LDC (Linguistic Data Consortium) 商业化语料
开启 supervised ML：所有方法都在 PTB 上评测，可比性极高

📜 Fred Jelinek 的"开除语言学家"故事

1980 年代末，IBM Watson Research 的 Fred Jelinek（语音识别教父）有一句 NLP 史最常被引用的话：

"Every time I fire a linguist, the performance of our speech recognizer goes up." (每开除一个语言学家，语音识别性能就上升)

Jelinek 后来澄清这是同事 Bob Mercer 说的玩笑话，但它精准捕捉了 1990 年代的 zeitgeist——"数据+概率"赢过"理论+规则"。这是 Era 3 全部精神的浓缩。

4.7 IBM 模型与统计机器翻译

1990–1993 年，IBM 团队发表 The Mathematics of Statistical Machine Translation: Parameter Estimation（Brown et al. 1993，Computational Linguistics 经典）。该论文定义了 5 个翻译模型，复杂度逐级递增：

模型	建模内容	参数
Model 1	词翻译概率，对齐均匀	$P(f_j \mid e_{a_j})$
Model 2	+ 绝对位置对齐	+ $a(j \mid i, l, m)$
Model 3	+ fertility（一对多）	+ $n(\phi \mid e)$
Model 4	+ 相对位置畸变	更细对齐
Model 5	+ 防冲突约束	无重叠位置

关键：所有模型用 EM 算法学习，不需要平行句对的词级对齐——只要句子级对齐。Model 1 的对齐期望（E 步）：

$$P(a_j = i \mid f, e) = \frac{P(f_j \mid e_i)}{\sum_{i'} P(f_j \mid e_{i'})}$$

2003 年 Och & Ney 引入 phrase-based SMT，把词级对齐扩展到短语级。Moses 工具包 (2007) 成为开源 SMT 标准，统治 MT 工业直到 2014 NMT 出现。

4.8 2000 年代的工业化与大数据

2000 年代是统计 NLP 的"工业化"十年：

算法成熟：MaxEnt (Berger et al. 1996), SVM, LDA (Blei et al. 2003), Bayesian Networks
数据爆炸：Web 文本 100× 增长；Common Crawl 始于 2008
工具开源：Stanford CoreNLP, NLTK (Bird & Loper 2004), Moses, SRILM, OpenNLP
评测工业化：CoNLL shared tasks (2000–), TREC, NIST MT 评测
无监督转向：LDA 主题模型, Brown clustering, distributional semantics

2007 Google 的 2 万亿词 n-gram 模型

Brants, Popat, Xu, Och, Dean (Google) 2007 发表 Large Language Models in Machine Translation，训练了一个 2 万亿词、5-gram 的语言模型——这是 "LLM" 一词第一次以现代含义出现。论文核心发现：

"More data trumps better algorithms."

这句话后来被 Norvig 总结为"The Unreasonable Effectiveness of Data"（2009），并启发了 Rich Sutton 2019 年的 The Bitter Lesson——AI 60 年的核心教训是：只有可被计算缩放的方法最终胜出，所有内嵌人类知识的方法都会被淘汰。

💡 现代回响

Brants et al. 2007 的 2 万亿词模型用了 1500 台服务器、3 周训练，1.5 GB 内存压缩。GPT-3 (2020) 训练在 15 万亿词上，用了 ~3.14×10²³ FLOPs，1750 亿参数。13 年间数据量 7.5×，参数量 100,000×，计算量 1,000,000× —— 这就是缩放律。

第五章：神经 NLP 时代 (2013–2021)

5.1 Hinton 三连击：DBN、AlexNet、深度语音

深度学习的复活有明确的三连击节点：

2006：Hinton & Salakhutdinov 在 Science 发表 Reducing the Dimensionality of Data with Neural Networks。深度信念网络 (Deep Belief Network) 通过逐层无监督预训练 + 微调，首次让 7 层网络收敛。"深度学习"一词诞生。
2010：Dahl, Yu, Deng, Acero (Microsoft Research) 在大词汇语音识别上用 DNN+HMM 击败传统 GMM-HMM。Hub5 SWB 词错率从 23.6% 降到 16.1%，相对降 32%。这是深度学习在产业中的第一次大胜。
2012：Krizhevsky, Sutskever, Hinton 的 AlexNet 在 ImageNet 比赛中 top-5 错误率 15.3%，第二名 26.2%。卷积神经网络 + GPU + ReLU + dropout 的组合击碎了 SVM 的霸权。

声学模型	RT03S FSH 词错率	Hub5 SWB 词错率
Traditional GMM (Dahl 2012)	27.4	23.6
Deep Learning (Dahl 2012)	18.5 (−33%)	16.1 (−32%)
Deep Learning (Saon 2017)	8.0 (−71%)	5.5 (−77%)

2013 年起，NLP 学界开始 "all in" 深度学习。但NLP 比图像和语音晚 1–2 年——因为文本是离散符号，缺乏自然的向量表示。这一空白由 Word2Vec 填补。

5.2 分布假设：Firth 1957 与 Harris 1954

词向量的哲学基础是分布假设（Distributional Hypothesis）：

"You shall know a word by the company it keeps." — J. R. Firth, 1957

同期还有 Zellig Harris (Chomsky 的导师) 1954 的论文 Distributional Structure：

"Difference of meaning correlates with difference of distribution."

意思是：词的语义可以通过它在文本中的上下文分布来表征。如果两个词出现在相似的上下文中（如 cat 和 dog 都跟 pet, animal, fur 共现），它们就应该有相似的语义表示。

Manning slides #44 用了一个例子：

any devices with a web browser, from laptops and tablets to smart phones
Users can download it for home computers or laptops from Microsoft Update website

"laptops" 周围的词（devices, web browser, tablets, smart phones, home computers, Microsoft Update）就代表了 "laptops" 的语义。

早期实现：LSA, HAL, COALS

1990 年代已有基于分布假设的方法：

Latent Semantic Analysis (LSA)，Deerwester et al. 1990——对词-文档矩阵做 SVD 降维
Hyperspace Analog to Language (HAL)，Lund & Burgess 1996——词-词共现矩阵 + 加权
COALS，Rohde et al. 2006——相关性归一化的共现

但这些方法不可扩展——共现矩阵 $|V| \times |V|$，$|V|=10^5$ 时矩阵约 10⁵×10⁵ = 100 亿元素。Word2Vec 的突破是用神经网络隐式学习等价的低维空间。

5.3 Word2Vec 数学推导（Skip-gram + 负采样）

2013 年 1 月与 9 月，Tomáš Mikolov 等（当时在 Google）连发两篇神文：

Efficient Estimation of Word Representations in Vector Space (Mikolov et al. 2013a, ICLR Workshop)
Distributed Representations of Words and Phrases and their Compositionality (Mikolov et al. 2013b, NeurIPS)

Word2Vec 有两个变体：CBOW (从上下文预测中心词) 和 Skip-gram (从中心词预测上下文)。研究生更应理解 Skip-gram + 负采样 (SGNS)。

Skip-gram 目标函数

对长度 $T$ 的语料，每个词 $w_t$ 用窗口大小 $c$：

📐 公式 5.1 · Skip-gram 似然

$$ \mathcal{L} = \frac{1}{T} \sum_{t=1}^T \sum_{-c \leq j \leq c, j \neq 0} \log P(w_{t+j} \mid w_t) $$

条件概率用 softmax 定义：

$$ P(w_O \mid w_I) = \frac{\exp(\mathbf{v}'_{w_O}{}^\top \mathbf{v}_{w_I})}{\sum_{w=1}^{|V|} \exp(\mathbf{v}'_w{}^\top \mathbf{v}_{w_I})} $$

其中 $\mathbf{v}_w$ 是输入向量（"中心词"角色），$\mathbf{v}'_w$ 是输出向量（"上下文词"角色）。

问题：分母对全词表求和，$|V|=10^5$ 时每步反向传播极慢。

负采样 (Negative Sampling)

Mikolov 2013b 的核心技巧：把多分类问题转化为二分类——对每个正样本 $(w_I, w_O)$，从噪声分布 $P_n(w)$ 采 $k$ 个负样本，目标变为：

📐 公式 5.2 · SGNS 目标

$$ \log \sigma(\mathbf{v}'_{w_O}{}^\top \mathbf{v}_{w_I}) + \sum_{i=1}^k \mathbb{E}_{w_i \sim P_n(w)} \left[\log \sigma(-\mathbf{v}'_{w_i}{}^\top \mathbf{v}_{w_I})\right] $$

其中 $\sigma(x) = 1/(1+e^{-x})$ 是 sigmoid，$P_n(w) \propto U(w)^{3/4}$ 是 unigram 分布的 3/4 次幂（平滑稀有词）。$k \in [5, 20]$ 即可。

词向量的"魔法"

训练完后，向量空间展现惊人代数结构：

vec("king") − vec("man") + vec("woman") ≈ vec("queen")
vec("Paris") − vec("France") + vec("Italy") ≈ vec("Rome")
vec("walking") − vec("walked") + vec("swam") ≈ vec("swimming")

这是线性可分语义(linear semantic compositionality) 的奇迹。Mikolov et al. 2013b 在 19,544 个类比题上 (Google analogy test) 达到 53.3% 准确率，远超 LSA。

5.4 GloVe：共现矩阵分解视角

2014 年 Stanford 团队 (Pennington, Socher, Manning) 发表 GloVe (Global Vectors)，从另一角度推导词向量。

核心观察：词关系的语义信息编码在共现比率中。考虑词 ice, steam，探针词 solid：

探针 k	$P(k\mid \text{ice})$	$P(k\mid \text{steam})$	比率
solid	1.9×10⁻⁴	2.2×10⁻⁵	8.9
gas	6.6×10⁻⁵	7.8×10⁻⁴	0.085
water	3.0×10⁻³	2.2×10⁻³	1.36
fashion	1.7×10⁻⁵	1.8×10⁻⁵	0.96

比率 8.9 表明 solid 偏向 ice，比率 0.085 表明 gas 偏向 steam——这种结构应被向量捕获。GloVe 最终目标：

$$ \mathcal{L} = \sum_{i,j=1}^{|V|} f(X_{ij})\left(\mathbf{w}_i^\top \tilde{\mathbf{w}}_j + b_i + \tilde{b}_j - \log X_{ij}\right)^2 $$

其中 $X_{ij}$ 是 $i, j$ 共现次数，$f$ 是平滑权重函数。

GloVe vs Word2Vec：

GloVe 显式使用全局共现统计；Word2Vec 在线（流式）训练
性能相近——具体任务上互有胜负
GloVe 训练更可重现（无随机负采样）

5.5 RNN、LSTM、GRU 的梯度战争

词向量解决了"词的表示"，但句子的表示需要序列模型。1980 年代的 Elman RNN 重新成为主角。

Vanilla RNN

📐 公式 5.3 · Elman RNN

$$ \mathbf{h}_t = \tanh(\mathbf{W}\mathbf{x}_t + \mathbf{U}\mathbf{h}_{t-1} + \mathbf{b}) $$ $$ \mathbf{y}_t = \text{softmax}(\mathbf{V}\mathbf{h}_t) $$

梯度消失/爆炸的数学

反向传播时间 (BPTT) 中，损失对早期参数的梯度是 Jacobi 矩阵的连乘：

$$\frac{\partial \mathcal{L}_t}{\partial \mathbf{W}} = \sum_{k=1}^t \frac{\partial \mathcal{L}_t}{\partial \mathbf{h}_t} \left(\prod_{j=k+1}^t \frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}}\right) \frac{\partial \mathbf{h}_k}{\partial \mathbf{W}}$$

每个 $\frac{\partial \mathbf{h}_j}{\partial \mathbf{h}_{j-1}} = \mathbf{U}^\top \text{diag}(\tanh'(\cdot))$。若 $\mathbf{U}$ 谱半径 $\rho(\mathbf{U}) < 1$，连乘指数衰减——梯度消失。若 $\rho(\mathbf{U}) > 1$，指数增长——梯度爆炸。Pascanu et al. 2013 给出严格分析。

LSTM (Hochreiter & Schmidhuber 1997)

LSTM 引入细胞状态 (cell state) $\mathbf{c}_t$ 和三个门 (gate)：

📐 公式 5.4 · LSTM 完整方程

$$ \begin{aligned} \mathbf{f}_t &= \sigma(\mathbf{W}_f [\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_f) && \text{遗忘门} \\ \mathbf{i}_t &= \sigma(\mathbf{W}_i [\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_i) && \text{输入门} \\ \tilde{\mathbf{c}}_t &= \tanh(\mathbf{W}_c [\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_c) && \text{候选记忆} \\ \mathbf{c}_t &= \mathbf{f}_t \odot \mathbf{c}_{t-1} + \mathbf{i}_t \odot \tilde{\mathbf{c}}_t && \text{细胞更新} \\ \mathbf{o}_t &= \sigma(\mathbf{W}_o [\mathbf{h}_{t-1}, \mathbf{x}_t] + \mathbf{b}_o) && \text{输出门} \\ \mathbf{h}_t &= \mathbf{o}_t \odot \tanh(\mathbf{c}_t) && \text{隐藏状态} \end{aligned} $$

关键：细胞状态 $\mathbf{c}_t$ 通过加法更新（$+\mathbf{i}_t \odot \tilde{\mathbf{c}}_t$），梯度可以线性传播——避开了 tanh 的导数压缩问题。

GRU (Cho et al. 2014)

GRU 把 LSTM 的 3 个门简化为 2 个：

$$ \begin{aligned} \mathbf{z}_t &= \sigma(\mathbf{W}_z [\mathbf{h}_{t-1}, \mathbf{x}_t]) && \text{更新门} \\ \mathbf{r}_t &= \sigma(\mathbf{W}_r [\mathbf{h}_{t-1}, \mathbf{x}_t]) && \text{重置门} \\ \tilde{\mathbf{h}}_t &= \tanh(\mathbf{W} [\mathbf{r}_t \odot \mathbf{h}_{t-1}, \mathbf{x}_t]) \\ \mathbf{h}_t &= (1 - \mathbf{z}_t) \odot \mathbf{h}_{t-1} + \mathbf{z}_t \odot \tilde{\mathbf{h}}_t \end{aligned} $$

性能与 LSTM 相近，参数少 25%，训练快。许多 2015–2017 的 NMT 系统用 GRU。

5.6 Seq2Seq 与 Bahdanau Attention 的诞生

2014 年 NLP 经历了三篇里程碑论文：

Cho, van Merrienboer, Gulcehre, Bahdanau, Bougares, Schwenk, Bengio (Montreal): Learning Phrase Representations using RNN Encoder-Decoder (EMNLP)
Sutskever, Vinyals, Le (Google): Sequence to Sequence Learning with Neural Networks (NeurIPS)
Bahdanau, Cho, Bengio: Neural Machine Translation by Jointly Learning to Align and Translate (ICLR 2015)

Sutskever LSTM Seq2Seq

图 5.1：Sutskever 2014 Seq2Seq 架构。Encoder 把输入压成固定大小向量 $c$，Decoder 从中生成目标——这个"瓶颈"是 Bahdanau attention 解决的核心问题。

Sutskever et al. 2014 用 4 层 LSTM (1000 单元) 在 WMT'14 英法翻译上 BLEU 34.8 (rerank 集成后 36.5)，击败 phrase-based SMT (BLEU 33.3)。这是 NMT 工业崛起的开始。

Bahdanau Attention 的关键洞察

Bahdanau, Cho, Bengio 2014/2015 指出：把整句压成一个向量是愚蠢的——人翻译时也是边读边译，关注当前需要的部分。他们引入 attention 机制：

📐 公式 5.5 · Bahdanau Attention

在解码时刻 $t$，对编码器隐状态 $\mathbf{h}_1, \ldots, \mathbf{h}_T$ 计算注意力分数：

$$ e_{ti} = \mathbf{v}_a^\top \tanh(\mathbf{W}_a \mathbf{s}_{t-1} + \mathbf{U}_a \mathbf{h}_i) $$ $$ \alpha_{ti} = \frac{\exp(e_{ti})}{\sum_{j=1}^T \exp(e_{tj})} $$ $$ \mathbf{c}_t = \sum_{i=1}^T \alpha_{ti} \mathbf{h}_i $$

这个动态的 $\mathbf{c}_t$ 替代固定向量 $\mathbf{c}$。

结果：长句翻译 BLEU 大涨，30+ 词的句子上比无 attention 高 5-7 BLEU。"Attention 是 Seq2Seq 救星"——这一思想 3 年后被 Vaswani 等推到极致。

5.7 Transformer：注意力即一切

2017 年 6 月，Google Brain 团队 (Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin) 发表 Attention Is All You Need。论文标题颇有挑衅意味——完全抛弃 RNN 和 CNN，只用 attention 构造 NMT 模型。

核心创新点：

Self-Attention：序列内每个位置直接关注其他所有位置——彻底解决长距离依赖
Multi-Head：多个 attention 头并行学习不同关系
Scaled Dot-Product：$\text{softmax}(QK^\top/\sqrt{d_k})V$ —— 缩放避免点积爆炸
Position Encoding：用 sinusoidal 函数注入位置信息
残差连接 + Layer Norm：训练稳定性
并行化：相比 RNN 的时序依赖，Transformer 训练完全并行

📐 公式 5.6 · Scaled Dot-Product Attention

$$ \text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right) V $$

其中 $Q \in \mathbb{R}^{n \times d_k}$, $K \in \mathbb{R}^{m \times d_k}$, $V \in \mathbb{R}^{m \times d_v}$。

除以 $\sqrt{d_k}$ 的数学缘由：假设 $Q, K$ 各分量独立 $\sim \mathcal{N}(0,1)$，则点积 $q^\top k = \sum_{i=1}^{d_k} q_i k_i$ 的方差为 $d_k$，标准差为 $\sqrt{d_k}$。$d_k$ 大时点积取极端值，softmax 退化为 one-hot，梯度消失。除以 $\sqrt{d_k}$ 恢复单位方差。

Transformer 的细节我们已在另一本教材《Attention 与 Transformer 完全指南》中详述。这里只强调历史意义：

💡 Transformer 为何是范式革命

不是因为它精度高（NMT 上只比 LSTM 高 1-2 BLEU），而是因为它可以缩放：

训练完全并行 → 利用现代 GPU/TPU
参数易扩展 → 从 65M (Vaswani 原版) 到 1.7T (GPT-4 估计)
架构通用 → 同一架构适用文本/视觉/语音/蛋白质

没有 Transformer，就没有 LLM。它是 Sutton "苦涩教训"的完美体现——简单但可缩放的方法终将胜出。

5.8 预训练范式：ELMo、ULMFiT、BERT、GPT-1

2018 年是 NLP 的"预训练元年"，四个里程碑相继出现：

模型	团队	架构	预训练目标	参数
ELMo (Feb)	AllenAI (Peters et al.)	双向 LSTM	双向 LM	94M
ULMFiT (May)	fast.ai (Howard & Ruder)	AWD-LSTM	单向 LM + 三阶段微调	~30M
GPT-1 (Jun)	OpenAI (Radford et al.)	Transformer Decoder	自回归 LM	117M
BERT (Oct)	Google (Devlin et al.)	Transformer Encoder	MLM + NSP	340M (Large)

BERT 的 Masked Language Modeling

BERT 的关键创新——"完形填空"目标：

原句:    The man went to the store and bought a gallon of milk.
输入:    The man went to the [MASK] and bought a gallon of [MASK].
任务:    预测 [MASK] 位置的词 (store, milk)

$$\mathcal{L}_{\text{MLM}} = -\mathbb{E}_{x \sim D} \sum_{i \in \text{masked}} \log P(x_i \mid x_{\text{unmasked}})$$

BERT 把 15% 的 token 掩码：80% 替换为 [MASK]，10% 替换为随机词，10% 保持不变。这种"加噪 + 重建"思想就是 denoising autoencoder，源头可追溯到 Vincent et al. 2008。

预训练-微调范式的崛起

2018 之前：每个 NLP 任务从零训练自己的模型。
2018 之后：在大规模无标签语料上预训练通用表示，再针对具体任务微调。

这套范式在 2019–2020 横扫所有 NLP benchmark——GLUE, SuperGLUE, SQuAD, CoNLL-NER 等。但它有一个隐含假设：每个下游任务需要单独微调一份模型权重。这一假设被 GPT-3 打破。

第六章：大语言模型时代 (2022–现在)

6.1 LM 简史：Markov 1913 → GPT-4

Manning slides #51 给出语言模型 110 年的微缩史：

1913A. A. Markov 在《Eugene Onegin》研究中开发 Markov 模型——元音/辅音转移概率。这是统计 LM 的第一篇论文。

1948Shannon 在 A Mathematical Theory of Information 中用 n-gram 估计英文熵，做字符/词级 LM 生成实验。

1975Frederick Jelinek 在 IBM 定义并命名 "(probabilistic) language model"，用于语音识别。这是"语言模型"正式术语化。

1998CPAT-Tree-Based Language Models (Chien, Su, Wu, 中研院) 在 ROCLing 1998 上发表——Manning 考据这是"LLM"一词首次使用（trigram model on 200M Chinese corpus）。

2000Bengio, Ducharme, Vincent 在 NeurIPS 发表 A Neural Probabilistic Language Model——第一个神经 LM，32M token corpus, 31K vocab。

2007Brants, Popat, Xu, Och, Dean (Google) 发表 Large Language Models in Machine Translation，2 万亿 token n-gram 模型。

2018GPT 和 BERT 同年发布，预训练范式确立，3.3B token 语料。

2020GPT-3 (1750 亿参数, 300B token)——首次展示 in-context learning 与涌现能力。

2022ChatGPT 上线，5 天用户破百万。

2023GPT-4, Claude 2, Llama 2 (开源)。多模态成为标配。

2024OpenAI o1, DeepSeek-R1——chain-of-thought RL 推理模型。

2025S&P 500 公司 50%+ 财报电话提到 AI；LLM 进入企业级部署。

6.2 三个瓶颈：算力、数据、模型

Manning slides #53 用三个红色框总结了 LLM 从 1998–2020 的缓慢突破：

Not enough compute! 1998–2010
Not enough model flexibility! 2010–2018
Not enough data! 2018–2020
LLMs go brrr! 2020+

三个瓶颈被依次突破：

算力：NVIDIA V100 (2017) → A100 (2020) → H100 (2022) → B200 (2024)，单卡 FP16 算力从 125 TFLOPS 涨到 4500 TFLOPS（36×）
模型：MLP (1980s) → RNN/LSTM (1990s) → Transformer (2017)，Transformer 训练并行度是 RNN 的 100×+
数据：Common Crawl 累积超过 250B 网页；多语言、代码、学术论文、书籍全部入库

6.3 Kaplan 与 Chinchilla 缩放律

2020 年 Kaplan et al. (OpenAI) 发表 Scaling Laws for Neural Language Models，给出震撼业界的经验定律：

📐 公式 6.1 · Kaplan 缩放律

测试损失 $L$ 是参数量 $N$、数据量 $D$、计算量 $C$ 的幂律函数：

$$L(N) \approx (N_c/N)^{\alpha_N}, \quad \alpha_N \approx 0.076$$ $$L(D) \approx (D_c/D)^{\alpha_D}, \quad \alpha_D \approx 0.095$$ $$L(C) \approx (C_c/C)^{\alpha_C}, \quad \alpha_C \approx 0.050$$

给定算力预算 $C$，最优分配为 $N \propto C^{0.73}$, $D \propto C^{0.27}$（参数比数据增长快）。

2022 年 DeepMind 的 Hoffmann et al. 发表 Training Compute-Optimal Large Language Models (Chinchilla 论文)，挑战 Kaplan 结论：

📐 公式 6.2 · Chinchilla 缩放律

给定算力预算 $C$，最优分配为 $N \propto C^{0.5}$, $D \propto C^{0.5}$——参数与数据同速增长。

具体地：每参数应配 ~20 个 token。GPT-3 175B 应配 3500B token，但实际只用了 300B token——训练严重不足！

DeepMind 据此训练了 70B 参数的 Chinchilla（1.4T token），在所有任务上击败 GPT-3 175B。这一发现彻底改写了 LLM 训练 playbook：

Llama 1 (7B): 1T token
Llama 2 (7B): 2T token
Llama 3 (8B): 15T token
Llama 3 (70B): 15T token

2024–2025 业界普遍超 Chinchilla 比例（30:1 甚至 100:1），因为推理阶段省钱比训练时省钱更重要——小模型多 token 训练得到的"过训练 (overtrained)"模型，在推理时性能/成本比最优。

6.4 GPT-3 与上下文学习的涌现

2020 年 5 月，OpenAI 发表 Language Models are Few-Shot Learners (Brown et al., NeurIPS 2020 best paper)。GPT-3 的 1750 亿参数本身不是亮点，真正震撼的是 in-context learning：

用户:
将以下英文翻译成法文：
sea otter => loutre de mer
peppermint => menthe poivrée
plush giraffe => girafe en peluche
cheese =>

GPT-3:
fromage

GPT-3 没有为这个任务做任何参数更新——它纯粹从提示中学会任务。这种"提示即程序"的能力被称为 in-context learning。

涌现能力 (Emergent Abilities)

Wei et al. 2022 (Google) 发表 Emergent Abilities of Large Language Models，发现某些能力（如多步算术、逻辑推理）在小模型上几乎是随机水平，但过某个临界规模后突然出现。例如：

2-digit 加法：GPT-3 13B 仍 0% 准确，175B 时跳到 ~70%
Word in context 任务：4B 以下随机，60B+ 时大幅跃升
BIG-Bench hard tasks：很多任务有明显"涌现点"

但 Schaeffer et al. 2023 (NeurIPS) 提出反论 Are Emergent Abilities of Large Language Models a Mirage? ——他们认为"涌现"是评测指标非连续性的结果，换成连续指标（log-likelihood）则平滑。这一争议至 2026 年未平息。

6.5 ChatGPT 与 RLHF 对齐

2022 年 3 月，OpenAI 发表 Training Language Models to Follow Instructions with Human Feedback (Ouyang et al., InstructGPT 论文)，定义了三阶段对齐流程：

SFT (Supervised Fine-Tuning)：用人工编写的 (prompt, response) 对微调 GPT-3
奖励建模 (Reward Modeling)：人类对模型生成的多个回答排序，训练 RM 拟合人类偏好
RLHF：用 PPO 强化学习优化策略以最大化 RM 分数，同时受 KL 散度约束不偏离 SFT 模型

📐 公式 6.3 · RLHF 目标

$$ \mathcal{L}_{\text{RLHF}} = \mathbb{E}_{x \sim D, y \sim \pi_\theta(\cdot \mid x)} \left[r_\phi(x,y) - \beta \log \frac{\pi_\theta(y \mid x)}{\pi_{\text{SFT}}(y \mid x)}\right] $$

$r_\phi$ 是奖励模型，$\beta$ 控制 KL 惩罚强度。

2022 年 11 月 30 日，OpenAI 在 GPT-3.5 上应用 RLHF + dialog 数据微调，推出 ChatGPT。5 天用户破百万，2 个月破亿——史上增长最快的消费应用。

DPO：RLHF 的简化

2023 年 Rafailov et al. (Stanford) 发表 Direct Preference Optimization，证明 RLHF 等价于一个监督学习目标：

📐 公式 6.4 · DPO 损失

$$ \mathcal{L}_{\text{DPO}} = -\mathbb{E}_{(x, y_w, y_l)} \log \sigma\!\left(\beta \log \frac{\pi_\theta(y_w \mid x)}{\pi_{\text{ref}}(y_w \mid x)} - \beta \log \frac{\pi_\theta(y_l \mid x)}{\pi_{\text{ref}}(y_l \mid x)}\right) $$

其中 $y_w$ 是人类偏好的回答，$y_l$ 是不偏好的回答。无需训练 RM，无需 PPO，训练稳定性大幅提升。

2024 后 DPO 及其变体 (IPO, KTO, ORPO, SimPO) 几乎取代了原始 PPO RLHF。

6.6 2023–2026 的现代 LLM 生态

模型	厂商	发布年	参数估计	特点
GPT-4	OpenAI	2023.03	~1.7T (MoE)	多模态, 强推理
Claude 2/3/3.5	Anthropic	2023–2024	未公开	200K context, Constitutional AI
Gemini 1/1.5/2	Google	2023–2024	未公开 (MoE)	原生多模态, 2M token context
Llama 2/3/4	Meta	2023–2025	7B–405B	开源, 工业部署主力
Mistral / Mixtral	Mistral AI	2023–2024	7B–8x22B	MoE 开源
DeepSeek V3 / R1	DeepSeek	2024–2025	671B (MoE, 37B 激活)	开源, GRPO 推理训练
OpenAI o1 / o3	OpenAI	2024–2025	未公开	CoT-RL 推理, 测试时计算缩放
Claude Opus 4.7	Anthropic	2026	未公开	1M context, 代理任务 SOTA

三大技术趋势

Mixture of Experts (MoE)：模型有数百亿参数，但每个 token 只激活其中一小部分（5–10%）——训练与推理成本可控。Mixtral 8x7B, DeepSeek V3, GPT-4 均使用。
长上下文：从 GPT-3 的 2K → GPT-4 的 32K → Claude 的 200K/1M → Gemini 的 2M。RoPE、YaRN、NTK-aware scaling 等位置编码改进，加上 Flash Attention 算法优化。
推理时计算 (Test-Time Compute)：o1/o3/R1 系列证明，让模型在推理时思考更久（生成更长 chain-of-thought）能换来更好性能——这是缩放律的新维度。

6.7 能力与局限：BCG 研究与创意写作

BCG 生产力研究 (Dell'Acqua et al. 2023)

Harvard Business School 的 Dell'Acqua 等人与 Boston Consulting Group 合作，让 758 位顾问完成 18 项任务，部分使用 GPT-4：

指标	不用 AI	用 GPT-4
完成任务数	baseline	+12.2%
完成速度	baseline	+25.1%
质量评分	baseline	+40%

关键发现：

GPT-4 对较低水平的员工提升更大（"AI 是 leveler"）
有"任务边界"：在 GPT-4 擅长的任务上提升明显，在不擅长任务上反而降低 19%（误导效应）
受过 AI 培训的组（红色）比未受培训组（绿色）质量更高

GPT-4 vs 《纽约客》作家：3-10× 的差距

Chakrabarty, Laban, Agarwal, Muresan, Wu 2023 (Art or Artifice? Large Language Models and the False Promise of Creativity) 用 Torrance Test of Creative Writing (TTCW) 评估 48 个故事：

专业作家故事：通过 TTCW 测试比例高
GPT-4 故事：通过率低 3-10 倍
评估维度：流畅度 (Fluency), 灵活性 (Flexibility), 原创性 (Originality), 详尽性 (Elaboration)

Manning 用这个数据告诉学生："2023 年 GPT-4 在创意写作上远未达到职业人类水平"。这与媒体宣传的"AI 即将替代作家"形成鲜明对比。

📜 2026 年的更新

到 2026 年 5 月，o1/Claude Opus 4.7/Gemini 2 等更强模型出现，创意写作差距已显著缩小（约 1.5-3×），但未消失。当前 LLM 在长篇叙事的结构一致性、人物弧光、风格独特性上仍弱于职业作家——这些是 NLP 研究生 2026 年的活跃研究方向。

第七章：八十年带给研究生的 10 条教训

把 1940–2026 的 NLP 史浓缩为 10 条研究方法论原则，供你立志成为优秀研究者时回顾：

炒作模式 60 年不变。1958 NYT 描述感知机 "will walk, talk, see, write"，2023 媒体描述 GPT "achieves AGI"——读历史让你不被周期性炒作裹挟。
Sutton 苦涩教训普适。一切内嵌人类知识的方法（语法规则、人工特征、领域本体）最终都被通用学习方法替代。如果你的方法不能 GPU 缩放，长期看一定输。
真正的突破来自数据基础设施。Penn Treebank (1993) 比任何算法重要；ImageNet (2009) 比任何 CNN 架构重要；GPT-3 训练数据比模型架构重要。如果你想开新方向，先问"数据从哪来"。
Benchmark 决定研究方向。NLP 70 年来的研究热点完全跟随 benchmark：MT (1950s)、QA (1970s)、POS+Parsing (1990s)、GLUE (2018)、MMLU (2021)、AIME (2024)。设计好 benchmark 是改变领域的杠杆。
简单方法 + 大数据 > 复杂方法 + 小数据。Brants 2007、AlexNet 2012、GPT-3 2020 都验证了这点。把你的研究时间分配为：数据收集 40%, 实验 30%, 写作 20%, 理论 10%——很多 PhD 学生比例反了。
Era 1 / Era 2 的思想会回归。Norvig 1986 的 4 类推断在 LLM CoT 中重现；Schank 的 scripts 在 RAG 中重现；Bush 的 Memex 在 agent 工具调用中重现。读旧论文不是怀旧，是寻找未被充分挖掘的金矿。
评估比建模难。当模型超越人类标注，benchmark 失效——这是 2024+ 的"评估危机"。如果你想做 LLM 研究，评估方法论是最稀缺也最值得投入的方向。
"不可能性证明"几乎总是局部的。Minsky 1969 证明感知机不能学 XOR——MLP 1986 解决；Chomsky 1957 证明 n-gram 不能描述英语递归——LSTM/Transformer 2014+ 间接解决。当读到"X 不可能"，问：该证明的前提是什么？
研究品味来自历史。LeCun 一直坚持 self-supervised learning（追溯到他 1989 的 LeNet）、Bengio 一直坚持 dense representation（追溯到 1986 的 PDP）、Manning 一直坚持 NLP 评估严谨性（追溯到 Cranfield 范式）——他们的"长期信念"都根植于历史。研究生应有自己的长期信念，并能用历史辩护。
把当前 LLM 时代视为第 4 个时代，而非终点。每个时代的研究者都以为自己处于历史的顶点——Era 2 的 SHRDLU 团队、Era 3 的 SMT 大牛、Era 4 早期的 LSTM 信徒，事后都被超越。2026 年的 LLM 也将被超越。你的研究应该问：什么会是 Era 5？

💡 结语

NLP 历史的螺旋上升路径告诉我们：没有任何技术是终极的。Weaver 的密码学比喻、McCulloch–Pitts 的神经元、Shannon 的熵、Firth 的分布假设、Bahdanau 的 attention——这些种子在不同时代以不同形态发芽。

愿你在 2030、2040 的回顾文献中，读到自己今天工作的影子。