roman_日积跬步-终至千里

roman_日积跬步-终至千里

本文关键词:

 

一. AI中大语言模型的位置与技术发展

1. 从AI到Transformer

机器学习与深度学习

 

Transformer理解文本并回答文本

如下图:从AI到Transformer的嵌套技术集合
【大模型应用极简开发入门(1)】LLM概述:LLM在AI中所处位置、NLP技术的演变、Transformer与GPT、以及GPT模型文本生成逻辑-LMLPHP

 

2. NLP:自然语言处理

NLP自然语言处理(Natural Language Processing是AI的一个子领域,专注于使计算机能够处理、解释和生成人类语言。

现代NLP解决方案基于ML算法。NLP的目标是让计算机能够处理自然语言文本。它关注的是使计算机能够理解和处理人类语言的能力,包括语言的语法、语义、语用等方面。NLP应用广泛,涉及文本处理、语音识别、机器翻译、对话系统等各种任务。

NLP的能力如下:

 

3. LLM大型语言模型:NLP的一种特定技术

3.1. LLM定义

LLM是试图完成文本生成任务的一类ML模型。LLM使计算机能够处理、解释和生成人类语言,从而提高人机交互效率。

 

LLM的学习过程

2023年发布的一些现代语言模型非常庞大,并且已经在大量文本上进行了训练,因此它们可以直接执行大多数NLP任务,如文本分类、自动翻译、问题回答等。GPT-4和ChatGPT是在文本生成任务上表现出色的LLM。

 

3.2. LLM的技术发展

LLM的发展可以追溯到几年前。它始于简单的语言模型,如n-gram模型

3.2.1. n-gram模型

n-gram模型能够通过使用词频根据前面的词预测句子中下一个词,但在理解上下文和语法不够优秀,会生成不连贯的文本。

 

3.2.2. RNN与LSTM

循环神经网络和长短期记忆网络,是比n-gram更先进的学习算法,能够学习更长的序列,能够更好的分析上下文,但处理数据时效率不佳,具体描述如下:

 

二. Transformer在LLM中脱颖而出

1. Transformer架构能力

Transformer架构能够处理长文本并记住上下文,且具备高效处理和编码上下文能力。

 

2. 注意力机制

注意力机制:在任务的每个步骤中关注最相关的词

 

2.1. 交叉注意力

为了说明这一点,让我们以一个简单的句子翻译任务为例。

在这个例子中,让我们专注于生成法语单词ensoleillé,它对应原句中的sunny。对于这个预测任务,交叉注意力模块会更关注英语单词sunny和weather,因为它们都与ensoleillé 相关。

(为什么要专注于这两个词?因为两个相关的词?)

通过关注这两个单词,交叉注意力模块有助于模型为句子的这一部分生成准确的翻译结果,如图所示。

【大模型应用极简开发入门(1)】LLM概述:LLM在AI中所处位置、NLP技术的演变、Transformer与GPT、以及GPT模型文本生成逻辑-LMLPHP

 

2.2. 自注意力机制

自注意力机制:评估(how ing)句子中更重要的词,并构建出新概念,实现对句子的理解。

来看一个更具体的例子。

 

3. Transformer的并行化

Transformer的并行化可以同时处理输入文本的多个部分,从而提高计算速度和训练速度。所以并行处理能力与GPU完美结合。具体描述如下:

 

4. Transformer架构与GPT模型

Transformer架构设计来源《Attention Is All You Need》,标准架构有:编码器(处理输入文本,设别有价值的特征,生成有意义的文本表示)和 解码器(输出)。

 

GPT模型:仅仅依靠解码器内部的自注意力机制来生成上下文感知的表示和预测结果。

也就是说,GPT仅依赖解码器内部的自注意力机制来生成上下文感知的表示和预测结果

 

如下图展示了NLP技术的演变历程。

【大模型应用极简开发入门(1)】LLM概述:LLM在AI中所处位置、NLP技术的演变、Transformer与GPT、以及GPT模型文本生成逻辑-LMLPHP

 

三、GPT模型文本生成逻辑:标记化和预测

GPT模型接收一段提示词作为输入,然后生成一段文本作为输出。这个过程被称为文本补全

GPT模型是如何根据输入的提示词构建输出文本的 ? 这主要是一个概率问题。

 
具体生成步骤如下

1. 文本分词器:文字标记与关系梳理

a. 输入拆分成标记

理解标记与词长的一条经验法则是,对于英语文本,100个标记大约等于75个单词(ing)。几乎每个语言模型都配有自己的分词器。

 

b. 解析标记关系(how ing)

 

2. 预测标记生成完整句子

通过提示词的上下文作为整体得出后续概率最高的标记,然后重复得出后续最高概率标记模,最终生成完整的句子。
 

标记预测基本逻辑

 

具体过程描述

如图:GPT逐个标记地补全文本,整个过程是迭代式的。
【大模型应用极简开发入门(1)】LLM概述:LLM在AI中所处位置、NLP技术的演变、Transformer与GPT、以及GPT模型文本生成逻辑-LMLPHP

 
参考:《大模型应用极简开发入门》

04-21 05:05