使用 Python 进行自然语言处理第 4 部分:文本表示

一、说明         本文是我系列文章的第四篇,涵盖了我在 2023 年 3 月为 WomenWhoCode 数据科学跟踪活动提供的会议。早期的文章在这里:第 1 部分(涵盖 NLP 简介)、第 2 部分(涵盖 NLTK 和 SpaCy 库)、第 3 部分(涵盖文本预处理技术) 二、文本表示 文本数据以字母、单词、符号、数字或所有这些的集合的形式存在。例如“印度”、“”、“Covid19”等。在将机器学...

自然语言处理(NLP)—— 生成式模型和判别式模型

        生成式模型和判别式模型是机器学习领域两大类模型,它们在自然语言处理、计算机视觉等领域都有广泛的应用。理解这两类模型的区别对于选择正确的模型来解决特定问题非常重要。 1. 生成式模型 (Generative Models)         生成式模型旨在学习数据的联合概率分布\(P(X, Y)\),即同时模拟观测数据\(X\)和标签\(Y\)的分布。通过这种方式,生成式模型不仅能够判断给定输入的...

自然语言处理(NLP)

自然语言处理(NLP)技术是研究和开发使计算机能够理解和处理人类语言的方法。下面是几个例子说明NLP技术的应用: 语音识别:语音识别技术允许计算机将人类的口头语言转换为机器可理解的文本。例如,智能助理如Siri和Alexa可以通过语音识别技术与用户交互。 机器翻译:机器翻译技术用于将一种语言的文本自动翻译成另一种语言。谷歌翻译就是一个运用了机器翻译技术的例子。 文本分类:文本分类技术可以自动将文本分类到不同...

自然语言处理】【大模型】BitNet:用1-bit Transformer训练LLM

论文地址:https://arxiv.org/pdf/2310.11453.pdf 一、简介 ​ 语言模型的规模不断扩大,这对部署带来了巨大的挑战。本文设计了一种可扩展且稳定的1-bit Transformer架构来实现大语言模型,称为BitNet。具体来说,使用BitLinear作为标准nn的替代品。实验结果表明BitNet能够显著减少存储占用和能力消耗,并且与最先进的8-bit量化和FP16 Trans...

自然语言处理(NLP)——使用Rasa创建聊天机器人

1 基本概念 1.1 自然语言处理的分类         IR-BOT:检索型问答系统         Task-bot:任务型对话系统         Chitchat-bot:闲聊系统 1.2 任务型对话Task-Bot:task-oriented bot         这张图展示了一个语音对话系统(或聊天机器人)的基本组成部分和它们之间的工作流程。这个系统可以接受语音信号作为输入,输出文本响应,并且它...

自然语言处理-工具篇】spaCy<2>--模型的使用

前言         之前已经介绍了spaCy的安装,接下来我们要通过下载和加载模型去开始使用spaCy。 下载模型         经过训练的 spaCy 管道可以作为 Python 包安装。这意味着它们是应用程序的一个组件,就像任何其他模块一样。可以使用 spaCy download的命令安装模型,也可以通过将 pip 指向路径或 URL 来手动安装模型。 # Download best-matchin...

自然语言处理】P4 神经网络基础 - 激活函数

目录 激活函数SigmoidTanhReLUSoftmax 本节博文介绍四大激活函数,Sigmoid、Tanh、ReLU、Softmax。 激活函数 为什么深度学习需要激活函数? 博主认为,最重要的是 引入非线性。 神经网络是将众多神经元相互连接形成的网络。如果神经元没有激活函数,那么网络模型都将退化成为线性模型,从而失去了处理非线性问题的能力。非线性问题,如视觉识别、语音识别、图像识别等等。 当神经网络具...

自然语言处理】P3 spaCy 与 NLTK(分词、词形还原与词干提取)以及 Porter 和 Snowball

目录 准备工作spaCyNLTK 文本分词spaCyNLTK 词形还原spaCyNLTK 词干提取PorterSnowball stemmers 在自然语言处理(NLP)中,文本分词是将文本拆分为单词或词组的过程,这是理解文本含义和结构的基础。Python中两个流行库——spaCy和NLTK(Natural Language Toolkit),都提供了分词功能。下面将详细介绍如何使用这两个库进行文本分词等操...

自然语言处理】P2 PyTorch 基础 - 张量

目录 安装 PyTorch张量创建张量操作张量索引、切片、联合操作 CUDA张量 本系列博文我们将使用 PyTorch 来实现深度学习模型等。PyTorch 是一个开源的、社区驱动的深度学习框架。拥有强大的工具和库生态系统,包含 TorchVision(用于图像处理)、TorchText(用于文本处理)、TorchAudio(用于音频处理)等。 安装 PyTorch 网址:https://pytorch.o...

自然语言处理】P1 对文本编码(One-Hot 与 TF-IDF)

目录 独热表示(One-hot)TF-IDF此外 对文本编码,目标是将自然语言文本表示为向量,从而便于继续处理和分析文本数据。三种常用对文本编码方法如下: 独热表示(One-hot) 独热表示(One-hot encoding)将句子中的每个单词转换为一个固定长度的二进制向量,其中每个向量表示句子中单词的独热编码。这个过程通常包括建立词库、独热编码两个步骤: # 以这两个句子建立独热表示:Time fli...
© 2024 LMLPHP 关于我们 联系我们 友情链接 耗时0.009861(s)
2024-04-26 05:42:44 1714081364