摘要

知识图(KG)对于web上的多个应用都是至关重要的,包括信息检索、推荐系统和元数据注释。

无论它们是由领域专家手工构建的还是使用自动管道构建的,kg通常都是不完整的。为了解决这个问题,有大量的工作建议使用机器学习通过预测新的链接来补全这些图。最近的工作已经开始探索使用知识图中可用的文本描述来学习实体的向量表示,以便进行链接预测。然而,这些为链接预测学习的表示在多大程度上推广到其他任务还不清楚。考虑到学习这种表示的成本,这一点很重要。理想情况下,我们更喜欢在转移到另一个任务时不需要再次训练的表示,同时保留合理的性能。

因此,在这项工作中,我们提出了一个通过链接预测目标学习的实体表示的整体评估协议。我们考虑了归纳链接预测和实体分类任务,其中涉及到训练中未见的实体。我们还考虑了面向实体搜索的信息检索任务。我们基于预训练的语言模型对体系结构进行了评估,该模型对训练期间未观察到的实体表现出很强的泛化能力,并且优于相关的最新方法(在链接预测中平均提高22%的MRR)。我们进一步提供的证据表明,学习到的表征可以很好地转移到其他任务,而无需进行微调。在实体分类任务中,与同样使用预训练模型的基线相比,我们获得了16%的平均精确度改进。在信息检索任务中,对于自然语言查询,我们在NDCG@10中获得了高达8.8%的显著改进。因此,我们表明学习到的表示不受kg特定任务的限制,并且具有比先前工作评估的更大的泛化属性。

https://github.com/dfdazac/blp

1.介绍

知识图提供了一种结构化的方式,以实体和实体之间的关系的形式表示信息[12]。它们已经成为Web中各种任务的中心,包括信息检索[6,13]、问题回答[19,43]和信息提取[4,14,26]。这些任务中的许多都可以从实体和关系的分布式表示中受益,也称为嵌入。

10-31 10:23