参考论文信息

  论文名称:《融合注意力与CorNet的多标签文本分类》

  发布期刊:《西北大学学报(自然科学版)》

  期刊信息:CSCD扩展
【多标签文本分类】《融合注意力与CorNet的多标签文本分类》-LMLPHP

[0] 摘要

  目前文本分类存在问题:只关注文本本身的信息,忽略了标签的信息。

  为了解决这个问题:论文提出使用来编码标签信息,然后使用 来强化标签与文本的语义联系,最后,得到最终编入了标签信息的文本向量。

  论文最后使用增强标签预测概率。

[1] 相关工作

  论文介绍多标签文本分类算法的历史:机器学习算法和深度学习算法。

  机器学习算法有BR、CC、ML-DT、SVM、KNN等老算法;

  深度学习算法有CNN系列、RNN系列模型,比如CNN、LSTM、LSTM_Attention、Seq2Seq、SGM、CNN-RNN等。

  最后,还介绍了LSAN、GCN等会用到标签信息的模型。

[2] 模型

  模型图如下:
【多标签文本分类】《融合注意力与CorNet的多标签文本分类》-LMLPHP
  该模型主要分为6个部分:

  1、嵌入层+LSTM层
  2、多标签注意力层
  3、图注意力网络
  4、“文本 -标签”注意力机制
  5、自适应融合机制
  6、CorNet模块

  

  论文使用的是Glove预训练词向量作为embedding层,然后输入到Bi-LSTM层得到文本表示。

  

  论文原文写的是:多标签文本可以由多个标签标记,每个标签对应的最相关文本是不同的。通过多标签注意力机制计算每个标签对应的文本向量hi的线性组合,可以有效地表示文本的重要程度。

  论文给的小标题“多标签注意力层”比较让人困惑,似乎这里用了标签的信息?看原文的意思是用了,但是看他贴的公式并没有用,而且我也想象不到怎么使用标签信息。

  

  图注意力网络GAT是比较火的一种图神经网络,不再介绍。

  它的输入是标签嵌入,输出是经过注意力机制后的标签向量。

  

  强化标签之间的语义联系,将标签语义信息与文本上下文语义信息进行交互,获得基于标签语义的文本特征表示。

  论文的做法是,把 的输出与 的输出相乘。

  

  自适应融合机制是把 的输出与 ** ** 的输出加权相乘,得到最终的文本表示。

【多标签文本分类】《融合注意力与CorNet的多标签文本分类》-LMLPHP
  公式13有点疑惑, β \beta β γ \gamma γ不应该是公式12的输出嘛?怎么会相加等于1?用Softmax处理一下可以做好,但是论文没有提。

  

  CorNet模块能够学习标签相关性,使用相关性知识增强原始标签预测,并输出增强的标签预测。

11-19 07:15