This question already has an answer here:
Spark MLlib LDA, how to infer the topics distribution of a new unseen document?
                                
                                    (1个答案)
                                
                        
                                2年前关闭。
            
                    
我在推断新文档的主题分布时遇到一些问题。
实际上,我正在使用Spark 2.2.0,并且我已经训练了LDA模型
val lda = new LDA().setK(5).setMaxIterations(24)
如何推断新文档的主题?

最佳答案

只有LocalLDAModel可以对新文档评分,因此需要先将模型转换为该文档:

val localLda = lda.toLocal


然后对于单个文档:

val document: Vector = ???
localLda.topicDistribution(document)


或多个文件:

val documents: RDD[(Long, Vector)] = ???
localLda.topicDistributions(documents)

关于scala - 带 Spark 的LDA模型,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45545058/

10-12 18:58