观点 Angie 发布于 2018-01-17 要说 2018 年最先火起来的一个词,"撒币" 认了第二,可没词敢认第一了,各位大佬们忙着在各个直播类 APP 疯狂 "撒币",我们困于答题游戏里无法自拔.
答题游戏里的题目大多不难,但涉及范围很广,常识,文学,数学,物理,化学,电视剧,动漫等等.
有不少人答题的时候,身边守着好几个助攻,A 负责算出 535+679 的结果,B 负责回答海绵宝宝住的房子是什么形状.
就算是这样,最后还是败在了 "长城到底有多长" 这样的问题上.对于此,很多人调侃说为什么不能多长一个脑袋.
其实大家大可不必这样说,就着答题游戏的热度,今天晚上我给大家介绍一项不怎么被提起,但可以让大家在游戏里百战百胜的 AI 能力—- 知识图谱.
01,知识图谱是什么?
知识图谱(KnowledgeGraph/Vault)又称为科学知识图谱,在 2012 年由谷歌宣布提出,开始只是作为谷歌世界知识库的名称,后来因为这个名词太深入人心,便被泛指各种大规模世界知识库或领域知识库.
说简单点,知识图谱就是一张由知识点相互连接而成的语义网络,举个小栗子,提到圣人孔子,我们会想到他处于东周春秋末期,会想到他曾写过《论语》,《春秋》,会想到他所倡导的儒家思想,由此还会想到他的徒弟颜回......
把这一系列画出来,就是一张最简单的知识图谱
如图所示,通常我们会把图 1 中人物,作品,地点,称为知识图谱中的实体,每个实体可以拥有不同属性,比如师徒,好友等.
通过实体的属性可以将不同的实体建立关联关系,例如:
孔子(实体)—师徒(属性)—颜回(实体)
孔子(实体)—- 作品(属性)—-《论语》(实体)
这些就是知识图谱中的信息抽取,包括实体抽取 (NER),关系抽取,属性抽取.
构建一张完整的知识图谱,除了信息抽取之外,多源知识的自动融合和知识加工同样不必可少.
怎么理解?先来说说多源知识的自动融合,还是来举个小栗子,大部分人应该都认识张学友,他不仅是个歌手,也是个演员,我们很容易理解唱《吻别》的张学友,和出演《男人四十》的张学友,是同一个人.
但机器可能没那么容易就判断电影数据里的张学友,就是音乐数据里的张学友.
因为电影数据和音乐数据属于不同的数据源,这时候就需要多源知识的自动融合,将不同数据源的相同实体用自动华算法将其聚类.
知识加工其实包含 2 个方面,一是面向知识的表示学习,一是知识的应用.
说简单点,就是机器通过信息抽取和知识融合,已经搜集到了关于张学友非常详尽的知识,也分清楚了唱《吻别》的张学友,就是出演《男人四十》的张学友.
当我们开始在网上搜索《吻别》这首歌曲时,出现张学友演唱的吻别,这个从后端计算到前端呈现的过程,就是知识加工,这一个完整的循环就是知识图谱.
没有完全弄懂的人,可以现搜一下 "长城有多长" 这个问题,出现的 "21196.18 千米" 这个精确答案,就是知识图谱.
图片来自于刘知远老师《知识图谱的构建技术综述》一文
02,知识图谱带你捡币带你飞
说完了知识图谱,相信很多人对其容纳的知识广度和深度都有了不一样的认知.
但现在如果把知识图谱伪装成 AI 选手,让它参与答题,那么依旧不能成功捡币.
看到这里,可能很多人就要问了,我把知识图谱说的那样腻害,为啥还不能成功捡币呢?
主要原因有以下 2 点:
a, 数据库的及时更新
这一点用通俗的话来讲,叫做追热点.比如我们能够及时接收并轻易接受 "撒币" 这个词,并沉醉于这类答题游戏.
我们接受这个新词,玩这个新游戏的时候,就是在随时随地的更新我们的知识储备.
但机器不行,目前大部分机器更新数据库都需要人类的辅助,因为这一天然劣势,可能会让机器在应对最新的题目时出错.
不过好在这一劣势,正在被机器学习和大数据技术的快速发展给弥补起来,机器学习让机器能够实时吸收和容纳新的知识,由大数据承载再实时反馈给用户.
b, 自然语音理解和处理
我们能够轻易理解 "妈妈的妈妈的丈夫" 是外公,但机器理解起来可能就没那么容易了,通过相关语言,推断出实体与实体之间的关系,是目前知识图谱研究的一大难点.
当然自然语音理解这一难点,并不仅仅存在于知识图谱中.
好啦,今天关于知识图谱的内容分享就到这里了,希望对你有所帮助~
来源: http://www.jianshu.com/p/bae8971d2915