环境

  • python 3.6.8
  • paddlepaddle-gpu 2.3.0
  • numpy 1.19.5

一、CBOW 概念

PGL 系列(四)词向量 CBOW-LMLPHP

 CBOW:通过上下文的词向量推理中心词

  • CBOW中,先在句子中选定一个中心词,并把其它词作为这个中心词的上下文。
  • 如 上图 CBOW所示,把“spiked”作为中心词,把“Pineapples、are、and、yellow”作为中心词的上下文。在学习过程中,使用上下文的词向量推理中心词,这样中心词的语义就被传递到上下文的词向量中,如“spiked → pineapple”,从而达到学习语义信息的目的。
  • 一般来说,CBOW比Skip-gram训练速度快,训练过程更加稳定,原因是 CBOW 使用 上下文方式进行训练,每个训练step会见到更多样本。

二、算法原理

PGL 系列(四)词向量 CBOW-LMLPHP

12-22 06:33