自然语言处理(NLP)是人工智能(AI)的重要组成部分,它建模人们如何共享信息。 近年来,深度学习方法在许多 NLP 任务上取得了很高的性能。 在本课程中,学生将系统学习面向 NLP 的前沿神经网络方法。

授课教师

课程团队

Swati Dube Batra(课程经理顾问)

课程安排

课程内容

本课程讲什么?

自然语言处理(NLP),也称计算语言学,是信息时代最重要的技术之一。 NLP 应用无处不在,因为人们几乎通过语言交流一切:网络搜索、广告、电子邮件、客户服务、语言翻译、虚拟代理、医疗报告、政治等。 在 2010 年代,深度学习(或神经网络)方法在许多不同的 NLP 任务上取得了很高的性能,它们使用单一的端到端神经模型,不再需要传统的、面向特定任务的特征工程。 到 2020 年代,ChatGPT 等大语言模型的规模化带来了惊人的进一步进展。 在本课程中,学生将系统学习 NLP 深度学习的基础知识,以及大语言模型(LLM)的最新前沿研究。 通过课堂、作业和期末项目,学生将学习使用 PyTorch 框架设计、实现并理解自己的神经网络模型所需的技能。

“选这门课吧。CS221 教会我算法,CS229 教会我数学,CS224N 教会我如何编写机器学习模型。” - 一位 CS224N 学生在 Carta 上的评价

往年课程

下面列出了往年课程网站归档和学生项目报告。免责声明:作业每年都会变化;请不要做往年的作业!

CS224N 课程网站: 2025 年冬季 / 2024 年春季 / 2024 年冬季 / 2023 年冬季 / 2022 年冬季 / 2021 年冬季 / 2020 年冬季 / 2019 年冬季 / 2018 年冬季 / 2017 年冬季 / 2015 年秋季 / 2014 年秋季 / 2013 年秋季 / 2012 年秋季 / 2011 年秋季 / 2011 年冬季 / 2010 年春季 / 2009 年春季 / 2008 年春季 / 2007 年春季 / 2006 年春季 / 2005 年春季 / 2004 年春季 / 2003 年春季 / 2002 年春季 / 2000 年春季
CS224N 课程录像: 2024 年春季 / 2023 年冬季 / 2021 年冬季 / 2019 年冬季 / 2017 年冬季
CS224N 报告: 2024 年冬季 / 2023 年冬季 / 2022 年冬季 / 2021 年冬季 / 2020 年冬季 / 2019 年冬季 / 2018 年冬季 / 2017 年冬季 / 2015 年秋季及更早
CS224d 报告: 2016 年春季 / 2015 年春季

先修要求

参考书目

以下书籍很有用,但都不是必读。它们都可以在线免费阅读。

如果你没有神经网络背景但仍想选修本课程,以下书籍可能有助于补充背景知识:


课程作业

免责声明:课程作业安排暂定,可能会调整!

作业(48%)

本课程有四次周作业,将同时提升你的理论理解和实践技能。所有作业都包含书面问题和编程部分。在办公时间中,助教可以查看学生第 1、2 次作业的代码,但不会查看第 3、4 次作业的代码。

期末项目(49%)

期末项目让你有机会把新学到的技能应用到一个深入项目中。 学生有两个选择:默认期末项目(完成一个预设任务,即实现一个极简版 GPT-2)或自选期末项目(选择一个涉及人类语言和深度学习的自定义项目)。两类项目示例可见 2024 年春季网站注意:无论是默认项目还是自选项目,助教都不能查看学生代码。2024 年春季的默认期末项目基于 BERT,现在已替换为 GPT-2。

重要信息

实际事项

课堂参与(3%)

我们感谢大家积极参与课程!获得参与分的方式有多种,总分上限为 3%:

迟交天数

重新评分请求

如果你认为某次作业应获得更高分数,可以在成绩发布后 3 天内通过 Gradescope 提交重新评分请求。 请求应简要说明你认为原评分不公平的原因。 你的助教会尽快重新评估你的作业并给出决定。 如果你仍不满意,可以请求由授课教师重新评分。 免责声明:除你请求复核的具体题目外,课程团队保留重新评分整份作业的权利。提交重新评分请求需自行承担风险。

学分/无学分选课

如果你以学分/无学分方式选修本课,你的评分方式与注册字母成绩的学生相同。唯一不同的是,只要你的表现达到 C- 标准,最终成绩会记为 CR。

欢迎所有学生

我们致力于尽己所能促进公平,并创造一个包容性的学习环境,积极重视 CS224N 中每个人在背景、身份和经历方面的多样性。我们也知道自己有时会出错。如果你注意到我们可以做得更好的地方,希望你告诉课程团队成员。

身心健康

如果你正在经历个人、学业或人际关系问题,并希望与受过训练且有经验的人交流,请联系校内的 Counseling and Psychological Services(CAPS)。CAPS 是大学面向学生心理健康与福祉的咨询中心。你可以拨打 650-723-3785 预约 CAPS 电话评估,或通过 Vaden 网站访问 VadenPatient 门户预约。

旁听课程

一般而言,如果旁听者是斯坦福社区成员(注册学生、正式访问者、职员或教师),我们欢迎旁听。如果你有兴趣,请发邮件至 cs224n-staff-win2526@cs.stanford.edu。如果你希望真正掌握课程内容,我们强烈建议旁听者完成所有作业。不过,由于选课人数较多,我们无法为未正式选课学生的作业评分。

有记录残障的学生

我们认为每个人的学习方式都不同,课程组织也必须以不同方式适应每位学生。我们致力于确保所有正式选课学生都能充分参与本课程。 如果你因残障需要学业便利安排,应向 Office of Accessible Education(OAE) 发起请求。 OAE 会评估请求、建议便利安排,并为教师准备信函。学生应尽快联系 OAE,并且无论如何都应在作业截止时间前联系,因为协调便利安排需要及时通知。学生还应尽快将便利安排信函发送至课程团队邮件列表(cs224n-staff-win2526@cs.stanford.edu),或在 Ed 上发布私密帖。

小组项目的 OAE 便利安排:OAE 便利安排不会扩展到协作作业。

AI 工具政策

学生必须独立提交 CS224N 作业解答。允许与 Co-Pilot、ChatGPT 等生成式 AI 工具合作,将其视为解题过程中的协作者。但是,直接索取答案或复制解答,无论来源是同伴还是外部资源,都被严格禁止。

使用 AI 工具实质性完成作业或考试将被视为违反荣誉准则。 更多细节请参见生成式 AI 政策指南

性暴力

经历过性暴力或正在从性暴力中恢复的学生可以获得学业便利安排。如果你希望与保密资源交流,可以预约 Confidential Support Team,或拨打其 24/7 热线:650-725-9955。Counseling and Psychological Services 也提供保密咨询服务。非保密资源包括负责调查和便利安排的 Title IX Office,以及提供康复项目的 SARA Office。学生也可以直接与教学团队沟通以安排便利措施。请注意,大学员工(包括教授和助教)必须向 Title IX Office 报告他们所知的性暴力或亲密关系暴力、跟踪和性骚扰事件。学生可在此了解更多信息:https://vaden.stanford.edu/sexual-assault


课程日程

更新后的课程幻灯片会在每次课前不久发布在这里。大多数课程的讲义会在课后几天上传。讲义(大约覆盖课程前半部分内容)会提供课堂之外的补充细节。

免责声明:课程日程暂定,可能会调整!
免责声明:作业会变化;请不要做旧作业。完成去年作业不会获得任何分数。

日期 主题 课程资料 事件 截止时间
第 1 周

1 月 6 日 周二
NLP 历史
[介绍幻灯片] [历史幻灯片]
建议阅读:
  1. Human Language Understanding & Reasoning
作业 1 发布
[代码]
1 月 8 日 周四 词向量
[幻灯片] [讲义 1] [讲义 2]
建议阅读:
  1. Efficient Estimation of Word Representations in Vector Space(原始 word2vec 论文)
  2. Distributed Representations of Words and Phrases and their Compositionality(负采样论文)
  3. GloVe: Global Vectors for Word Representation(原始 GloVe 论文)
  4. Improving Distributional Similarity with Lessons Learned from Word Embeddings
  5. Evaluation methods for unsupervised word embeddings
补充阅读:
  1. A Latent Variable Model Approach to PMI-based Word Embeddings
  2. Linear Algebraic Structure of Word Senses, with Applications to Polysemy
  3. On the Dimensionality of Word Embedding
1 月 9 日 周五 Python 复习课
[幻灯片] [Colab]
时间 1:30pm-2:50pm
地点 NVIDIA Auditorium
第 2 周

1 月 13 日 周二
反向传播与神经网络基础
[幻灯片] [讲义]
建议阅读:
  1. 矩阵微积分讲义
  2. 微分学复习
  3. CS231n 网络架构讲义
  4. CS231n 反向传播讲义
  5. Derivatives, Backpropagation, and Vectorization
  6. Learning Representations by Backpropagating Errors(Rumelhart 等人的开创性反向传播论文)
补充阅读:
  1. Yes you should understand backprop
  2. Natural Language Processing (Almost) from Scratch
作业 2 发布
[代码]
[说明文档]
[LaTeX 模板]
作业 1 截止
1 月 15 日 周四 语言模型与 RNN
[幻灯片] [讲义]
建议阅读:
  1. Learning long-term dependencies with gradient descent is difficult(最早讨论梯度消失的论文之一)
  2. On the difficulty of training Recurrent Neural Networks(梯度消失问题的证明)
  3. Vanishing Gradients Jupyter Notebook(前馈网络演示)
  4. Attention Is All You Need
1 月 16 日 周五 PyTorch 教程课
[Colab]
时间 1:30pm-2:50pm
地点 NVIDIA Auditorium
第 3 周

1 月 20 日 周二
Transformer
[幻灯片] [讲义]
建议阅读:
  1. Attention Is All You Need
  2. The Illustrated Transformer
  3. Transformer(Google AI 博客文章)
  4. Layer Normalization
  5. Image Transformer
  6. Music Transformer: Generating music with long-term structure
  7. Jurafsky and Martin 第 9 章(The Transformer)
1 月 22 日 周四 期末项目:自选与默认;实践建议
[幻灯片]
建议阅读:
  1. Practical MethodologyDeep Learning 书中章节)
作业 3 发布
[代码]
[说明文档]
[LaTeX 模板]
作业 2 截止
第 4 周

1 月 27 日 周二
预训练(规模化、系统、数据)
[幻灯片]
建议阅读:
  1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
  2. Contextual Word Representations: A Contextual Introduction
  3. The Illustrated BERT, ELMo, and co.
  4. Jurafsky and Martin 第 10 章(Masked Language Models)
  5. The Llama 3 Herd of Models
1 月 29 日 周四 后训练(RLHF、SFT、DPO) [幻灯片] 建议阅读:
  1. Aligning language models to follow instructions
  2. Scaling Instruction-Finetuned Language Models
  3. AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback
  4. How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
  5. Direct Preference Optimization: Your Language Model is Secretly a Reward Model
项目提案 发布
[说明文档]

默认期末项目 发布
[说明文档]
第 5 周

2 月 3 日 周二
高效适配(Prompting + PEFT)
[幻灯片]
建议阅读:
  1. Language Models are Few-Shot Learners
  2. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
  3. The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
  4. LoRA: Low-Rank Adaptation of Large Language Models
  5. Parameter-Efficient Transfer Learning for NLP
2 月 5 日 周四 智能体、工具使用与 RAG
[幻灯片]
建议阅读:
  1. ReAct: Synergizing Reasoning and Acting in Language Models
  2. Language Agents: Foundations, Prospects, and Risks
  3. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
  4. Toolformer: Language Models Can Teach Themselves to Use Tools
作业 4 发布
[代码]
[说明文档]
[LaTeX 模板]
作业 3 截止
2 月 6 日 周五 Hugging Face Transformers 教程课
[幻灯片] [Colab]
时间 1:30pm-2:50pm
地点 NVIDIA Auditorium
第 6 周

2 月 10 日 周二
基准测试与评估 [幻灯片] 建议阅读:
  1. Challenges and Opportunities in NLP Benchmarking
  2. Measuring Massive Multitask Language Understanding
  3. Holistic Evaluation of Language Models
  4. AlpacaEval
项目提案与导师表 截止
2 月 12 日 周四 推理 1
[幻灯片]
建议阅读:
  1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
  2. Self-Consistency Improves Chain of Thought Reasoning in Language Models
  3. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  4. DAPO: An Open-Source LLM Reinforcement Learning System at Scale
第 7 周

2 月 17 日 周二
推理 2
[幻灯片]
建议阅读:
  1. Let's Verify Step by Step
  2. Fast Inference from Transformers via Speculative Decoding
  3. Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
  4. RoFormer: Enhanced Transformer with Rotary Position Embedding
项目里程碑 发布 [说明文档] 期末项目提案 返还
2 月 19 日 周四 嘉宾讲座:分词与多语言性(讲者:Julie Kallini) [幻灯片] 建议阅读:
  1. Jurafsky & Martin 第 2 章
  2. Neural Machine Translation of Rare Words with Subword Units
  3. Unsupervised Cross-lingual Representation Learning at Scale
  4. Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models
作业 4 截止
第 8 周

2 月 24 日 周二
嘉宾讲座:可解释性(讲者:Been Kim 建议阅读:
  1. Because we have LLMs, we Can and Should Pursue Agentic Interpretability
  2. The Pareto Frontier of Human-Centered AI
  3. Bridging the human–AI knowledge gap through concept discovery and transfer in AlphaZero
  4. We Can't Understand AI Using our Existing Vocabulary
  5. Neologism Learning for Controllability and Self-Verbalization
期末项目报告说明 发布
[说明]
2 月 26 日 周四 NLP 的社会与广泛影响(风险)
[幻灯片]
期末项目里程碑 截止
2 月 27 日 周五
课程退课截止时间
第 9 周

3 月 3 日 周二
嘉宾讲座:多模态(讲者:Luke Zettlemoyer
建议阅读:
  1. Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models
  2. Chameleon: Mixed-Modal Early-Fusion Foundation Models
  3. Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
  4. Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models
可选阅读:
  1. Scaling Laws for Generative Mixed-Modal Language Models
  2. Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning
  3. Retrieval Augmented Multimodal Language Modeling
  4. LMFusion: Adapting Pretrained Language Models for Multimodal Generation
  5. OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows
  6. Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models
  7. Reconstruction Alignment Improves Unified Multimodal Models
期末项目里程碑 返还
3 月 5 日 周四 嘉宾讲座:Tinker and LoRA Without Regret(讲者:John Schulman
第 10 周

3 月 10 日 周二
2026 年 NLP 开放问题 [幻灯片]
3 月 12 日 周四 无课程 期末项目 截止
3 月 16 日 周一 期末项目海报展示 时间 12:15pm-3:15pm
地点 AOERC
所有在校学生必须线下参加!
[打印指南]

赞助方

感谢各位赞助方对 CS224N 的慷慨支持。

Microsoft Atlassian Jane Street
NeoCognition Pi Network Tola Capital
Modal Google Cloud Platform Qwen Kimi