note

一、引言

语言模型最初是在信息理论的背景下研究的，可以用来估计英语的熵。
- 熵用于度量概率分布： H ( p ) = ∑ x p ( x ) log ⁡ 1 p ( x ) . H(p) = \sum_x p(x) \log \frac{1}{p(x)}. H(p)=x∑p(x)logp(x)1.
- 熵实际上是一个衡量将样本 x ∼ p x∼p x∼p 编码（即压缩）成比特串所需要的预期比特数的度量。举例来说，“the mouse ate the cheese” 可能会被编码成 “0001110101”。熵的值越小，表明序列的结构性越强，编码的长度就越短。直观地理解， log ⁡ 1 p ( x ) \log \frac{1}{p(x)} logp(x)1 可以视为用于表示出现概率为 p ( x ) p(x) p(x)的元素 x x x的编码的长度。
- 交叉熵H(p,q)上界是熵H§： H ( p , q ) = ∑ x p ( x ) log ⁡ 1 q ( x ) . H(p,q) = \sum_x p(x) \log \frac{1}{q(x)}. H(p,q)=x∑p(x)logq(x)1.，所以可以通过构建一个只有来自真实数据分布 p p p的样本的（语言）模型 q q q来估计 H ( p , q ) H(p,q) H(p,q)
N-gram模型在计算上极其高效，但在统计上效率低下。
神经语言模型在统计上是高效的，但在计算上是低效的。
大模型的参数发展：随着深度学习在2010年代的兴起和主要硬件的进步（例如GPU），神经语言模型的规模已经大幅增加。以下表格显示，在过去4年中，模型的大小增加了5000倍。

[1] 斯坦福大学CS324课程：https://stanford-cs324.github.io/winter2022/lectures/introduction/#a-brief-history
[2] CS224N lecture notes on language models