1 引言

知识图谱是一个包含很多技术内容的知识体系,总的来说,是处理关联的知识,核心是数据,但强调了数据之间的关联关系。简单来看,可以认为是数据库或知识库,和语义网有着千丝万缕的联系。知识图谱是由谷歌首先提出来的,用于优化它的搜索能力,之后,获得了蓬勃的发展,研究的人也越来越多。

知识图谱的出现,不是一蹴而就的,有一个缓慢演进的过程,包括现在,也还在发展中。知识图谱的发展,可以从多个方面进行阐述,比如开放链接数据的思想,知识表示,知识推理,知识存储等,伴随着信息技术特别是人工智能技术的发展,知识图谱不断融合新的技术,不断发展和完善。此处主要讲述知识图谱理论的形成过程。

2 信息机器Memex

1945年,一个美国科学家Vannevar Bush在《大西洋月刊》上发表了一篇文章《As We May Think》,提出一种信息机器的构想,就像下图中的样子。

知识图谱学习与实践(1)——知识图谱的演化过程-LMLPHP

在Bush博士的设想中,这种机器还可以与图书馆联网。通过某种机制,将图书馆收藏的胶卷,自动装载到本地机器上。因此,只通过这一个机器,就可以实现海量的信息检索。他将这种机器命名为Memex,也就是“memory extender”这两个单词词首的组合,意思是“记忆的延伸”。

文中描述了对这种机器的设想,“Wholly new forms of encyclopedias will appear, ready-made with a mesh of associative trails running through them, ready to be dropped into the memex and there amplified.”

这个设想的影响非常大,后来许多早期的计算机论文中都提到了这个机器。然后,文中关于信息切换的描述,直接启发了“超文本协议”(hypertext)的发明。现在,我们在互联网上不同的链接之间跳转,其源头都可以追溯到这篇文章。

3 以超链接为主的WEB

1989年3 月,蒂姆·伯纳·李爵士(Tim Berners-Lee)向CERN递交了一份立项建议书,建议采用超文本技术(Hypertext)把CERN内部的各个实验室连接起来,在系统建成后,将可能扩展到全世界。

 知识图谱学习与实践(1)——知识图谱的演化过程-LMLPHP

在建议书中,有一段话以超文本为核心的web,比利用层级结构的方式,更容易让热接受和传播。

This is why a "web" of notes with links (like references) between them is far more useful than a fixed hierarchical system. When describing a complex system, many people resort to diagrams with circles and arrows. Circles and arrows leave one free to describe the interrelationships between things in a way that tables, for example, do not. The system we need is like a diagram of circles and arrows, where circles and arrows can stand for anything.

文中说明了超文本利用圆圈和箭头可以自由的描述任何事物,比使用层级结构的表格要灵活的多,特别是描述复杂系统,作用更加突出,这就是超文本的作用。这个思想也是现在比较流行的思维导图的核心思想,利用发散思维,建立联系。

4 以链接数据为核心的语义网

        语义网的概念也是由万维网联盟的蒂姆在1998年提出,它的核心是通过给万维网上的文档 (如:HTML文档、XML文档)添加能够被计算机所理解的语义“元数据”(外语:Meta data),从而使整个互联网成为一个通用的信息交换媒介。

语义网不同于现在WWW,现有的WWW是面向文档而语义网则面向文档所表示的数据,而语义网更重视于计算机“理解与处理”,并且具有一定的判断、推理能力。

2006年蒂姆·伯纳斯-李在普林斯顿大学演讲和后期接受媒体采访时公开表示,他最初将这种智能网络命名为语义网或许不够贴切,也许更准确的名称应该是数据网(外语:Data Web)。

 知识图谱学习与实践(1)——知识图谱的演化过程-LMLPHP

5 谷歌知识图谱,things, not strings

链接数据不断积累,数据量以几何量级增长,如何更好的使用这些数据,搜索引擎公司Google提出了知识图谱的概念。辛格博士曾经说过,The world is not made of strings , but is made of things. 

知识图谱的提出,目的在于更好的利用开放链接数据,将搜索字符串变为搜索真实世界中的事物,将一个事物通过内部特征(属性)和外部联系(关系),立体的呈现在人们面前,将知识图谱看作一张以关联关系为主的巨大图谱,图谱中,点代表客观事物,边代表了事物的属性或关系。

知识图谱学习与实践(1)——知识图谱的演化过程-LMLPHP

6 结语

在知识图谱的演进过程中,还有很多思想和技术起到了非常大的作用,比如本体论,本来是哲学中的概念,被引入到知识图谱中,用来指导知识表示,使得知识图谱的知识表示更加规范,能够为计算机所理解,在知识图谱发展中起到了不可或缺的作用。

07-07 09:45