Closed. This question needs to be more focused。它当前不接受答案。
                            
                        
                    
                
                            
                                
                
                        
                            
                        
                    
                        
                            想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
                        
                        2年前关闭。
                                                                                            
                
        
我正计划建立性别分类器。我知道两个流行的模型是tf-idf和word2vec。
尽管tf-​​idf专注于单词在文档中的重要性以及文档的相似性,而word2vec则更多地关注单词之间的关系以及它们之间的相似性。

但是,主题似乎都不适合构建用于性别分类的矢量特征。是否有其他适合该任务的替代矢量化模型?

最佳答案

是的,w2v还有另一种选择:GloVe

GloVe代表全局矢量嵌入。
作为以前使用过该技术取得良好效果的人,我建议使用GloVe。

GloVe不仅通过查看局部窗口,而且考虑更大的宽度(大于30的大小)来优化训练神经词的嵌入,从而将更深层次的语义嵌入到嵌入中。

使用手套,可以很容易地建立诸如以下的关系的模型:X[man] - X[woman] = X[king] - X[queen],这些都是矢量。

python - 我应使用哪种方法将单词转换为机器学习应用程序的功能?-LMLPHP

鸣谢:GloVe GitHub页面(在下面链接)。

您可以训练自己的GloVe嵌入,也可以使用其重新训练的模型。即使对于特定领域,通用模型似乎也可以很好地运行,尽管如果您自己训练模型,将会从模型中获得更多收益。请查看GitHub页面以获取有关如何训练自己的模型的说明。这很容易。

补充阅读:


GloVe: Global Vectors for Word Representation
GloVe repository

09-08 11:53