知识图谱能够把复杂的知识领域通过语义匹配, 数据挖掘信息处理知识计量和图形绘制显示出来, 揭示知识领域的动态发展规律, 为研究和决策提供切实的有价值的参考
因此, 当知识图谱应用于信息资产安全威胁的发现与分析时, 能够显著提升发现资产安全威胁的效率和准确率, 为企业安全人员的威胁分析提供决策依据
本次雷锋网硬创公开课, 北京数字观星科技有限公司创始人郭亮分享了如何利用知识图谱, 对企业信息资产面临的安全威胁, 进行构建绘制挖掘以及分析的实践经验
嘉宾介绍
郭亮, 北京数字观星科技有限公司创始人, 超过 20 年大型业务信息系统安全运营管理经验, 曾担任过国家发改委多个重大技术专项课题的技术负责人
演讲提要
以下为雷锋网该演讲提要, 要想获取完整内容, 请移步视频回放区: http://www.mooc.ai/course/443/learn#lesson/2420
一知识图谱的相关概念和构建
1. 知识图谱
Google 于 2012 年首先提出了知识图谱 (Knowledge Graph) 概念, 目的在于描述真实世界中存在的各种实体概念, 以及它们之间的关联关系, 大幅改善搜索体验
本质上, 知识图谱旨在描述真实世界中存在的各种实体或概念及其关系, 其构成一张巨大的语义网络图, 节点表示实体或概念, 边则由属性或关系构成
知识是一个内涵非常丰富的概念; 知识广泛存在于社会各个领域科学知识图谱广义上包括: 生物的基因图谱教育教学中的认知地图探索太空的天体图描绘地形的 GIS 模拟人脑的神经网络图各种金属图谱等
知识图谱是以科学知识为对象, 显示学科的发展进程与结构关系的一种图形, 具有图和谱的双重性质与特征
2. 知识图谱的 3 种节点:
实体: 指的是具有可区别性且独立存在的某种事物如某一个人某一个城市某一种植物等某一种商品等等世界万物有具体事物组成, 此指实体如图 1 的中国美国日本等, 实体是知识图谱中的最基本元素, 不同的实体间存在不同的关系
语义类(概念): 具有同种特性的实体构成的集合, 如国家民族书籍电脑等 概念主要指集合类别对象类型事物的种类, 例如人物地理等
内容: 通常作为实体和语义类的名字描述解释等, 可以由文本图像音视频等来表达
基于上述定义基于三元组是知识图谱的一种通用表示方式, 即, 其中, 是知识库中的实体集合, 共包含 | E | 种不同实体; 是知识库中的关系集合, 共包含 | R | 种不同关系; 代表知识库中的三元组集合三元组的基本形式主要包括 (实体 1 - 关系 - 实体 2) 和(实体 - 属性 - 属性值)等
每个实体 (概念的外延) 可用一个全局唯一确定的 ID 来标识, 每个属性 - 属性值对 (attribute-value pair,AVP) 可用来刻画实体的内在特性, 而关系可用来连接两个实体, 刻画它们之间的关联如下图 1 的知识图谱例子所示, 中国是一个实体, 北京是一个实体, 中国 - 首都 - 北京 是一个 (实体 - 关系 - 实体) 的三元组样例北京是一个实体 , 人口是一种属性 2069.3 万是属性值北京 - 人口 - 2069.3 万构成一个 (实体 - 属性 - 属性值) 的三元组样例
3. 知识图谱的构建
包括 3 个步骤:
信息抽取, 即从各种类型的数据源中提取出实体 (概念) 属性以及实体捡的相互关系, 在此基础上形成本体化的知识表达
知识融合, 在获得新知识后, 需要对其进行整合, 以消除矛盾和歧义, 比如某些实体可能有多种表达, 某个特定称谓也许对应于多个不同的实体等
知识加工, 对于经过融合的新知识, 需要经过质量评估之后(部分需要人工参与甄别), 才能将合格的部分加入到知识库中, 以确保知识库的质量, 新增数据之后, 可以进行知识推理拓展现有知识得到新知识
4. 知识样本数据的获取
传统静态知识
来源: http://www.tuicool.com/articles/bi6RFnb