开发者社区> 知与谁同> 正文

《中国人工智能学会通讯》——6.11 链接数据技术

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第6章,第6.11节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
+关注继续查看
福利推荐:阿里云、腾讯云、华为云等大品牌云产品全线2折优惠活动来袭,4核8G云服务器899元/3年,新老用户共享优惠,点击这里立即抢购>>>

6.11 链接数据技术

数据链接的建立涉及多个方面,包括数据资源标识、资源描述模型、词汇与本体定义、链接数据格式、自动链接抽取、链接预测等。

资源标识
资源标识是构建数据链接的第一步。LOD 要求每个实体资源都要用类似于网页 URL 一样的 HTTPURI(Unified Resource Identifier) 来进行标识。但与维护传统网页之间的链接不同,一个网站的数据集中通常有数量巨大的实体资源。要维护不同数据集之间的 URI 链接,将带来巨大的工作量。

Schema.org 鼓励采用一种称为基于描述的引用(Reference by Description)的方式实现资源的标识和相互引用[18] 。Guha 认为人们之间交流信息时,通常基于实体的描述而非 ID 来区分实体。例如,当你介绍一个人时,常用“这位是著名作家张三”和“那位是某公司 CEO 张三”等来进行区分,而不是通过一个 ID 来介绍。因此,Schema.org 只要求少量的资源拥有 URIs,并鼓励数据发布者为资源增加尽可能多的额外描述。这些描述可以进一步被各种自动实体消解和实体对齐技术所使用,来实现更加自动的资源引用和数据链接[21] 。

资源描述框架
建立数据链接需要有统一的数据描述模型。语义网设计了自己的基本数据模型,称为 RDF(Resource Description Framework)。RDF 本质上是有向标记图(Directed Labeled Graph)。关于资源的任何一项描述都简化为一个包含主谓宾(Subject, Predicate, Object)的三元组陈述。每个 Predicate 为资源增加一条属性描述或链接至其他资源[22] 。

在很多具体的实践中,RDF 的设计并非全部可取,但其强调以图模型为基础,以数据链接为中心,属性不必从属于特定类,允许多方动态新增描述等,都是针对互联网开放性的合理设计。

词汇与本体定义
描述数据需要词汇和术语。语义网借鉴了传统知识表示,如框架系统、描述逻辑等方法,制定了OWL 等本体描述语言[23] 。OWL 在生物医学等对知识表示能力要求高的特定领域有较多的应用,但在构建开放域知识库方面,其众多的表达构件在一个开放的互联网环境下面,难以迅速扩展。

Schema.org 是公共词汇标准化方面较为成功的实践。Schema.org遵循“增量复杂”(IncrementalComplexity)和自底向上的控制原则。通常从一个最简单的词汇集开始,在各网站得到应用后,再根据需求逐步扩增表达能力。

链接数据格式
在 链 接 数 据 的 发 布 格 式 方 面, 常 用 的 包括 RDFa(RDF in Attributes) [13] 、JSON-LD(JavaScript Object Notation for Linked Data) [14]和 HTML Microdata [15] 。 RDFa 用于在 XHTML 文档嵌入语义标签,这些语义标签可以被抽取成 RDF三元组描述,用于后续处理。JSON-LD 则适合于在基于 Javascript 插件的网页中嵌入语义和链接数据。Microdata 微数据作为 HTML5 的一部分,也可用来在网页中增加语义标注,其设计比 RDFa 更为简化。谷歌知识图谱同时支持这三种链接数据发布格式。

自动链接抽取
平行于语义网的发展,怎样从海量 Web 文本中自动提取结构化数据一直是自然语言处理领域关注的重点,较为有代表性的工作如 NELL [24] 、DeepDive [25] 、OpenIE [26] 。文本也是扩展和补全当前很多知识图谱的主要来源之一[27-29] 。从主要技术思路上区分,可分为基于先验本体和基于语法结构两种主要的不同方法。第一种方法需要预先设定抽取的关系和实体类型,再迭加远监督(Distant Supervision) [30] 或弱监督的方法,采用已有的数据链接关系作为标记数据,典型的如 Deepdive [24] 、YAGO [31] 以及各种参加 TAC-KBP 的属性框填充竞赛的系统[32]等。另外一种方法通常被称为开放信息抽取(Open InformationExtraction)。这种方法主要基于句子和语法结构 的 分 析, 把 句 子 化 简 为 三 元组,比较典型的工作如 Ollie [33]和 Standford 结 合 自 然 逻 辑 的OpenIE [26] 等。

链接预测
链接预测是指基于已有的链接关系来预测发现新的链接关系。这也是当前知识图谱技术研究的一个热点。根据所使用技术方法的不同,可以分为图特征模型、表示学习和统计关系学习三类。

基于图特征模型的链接预测通过图结构的相似性来预测节点间可能存在的关系。从测量结构相似度时所使用的指标出发,传统的链接预测又可以被分为局部方法、准局部方法和全局方法[34] 。局部方法经常会使用邻居节点的相似性[35] ,全局方法通常会考虑实体间所有的路径来作为指标[36] ,而准局部方法事实上是在上述两者之间作了一个折衷,兼顾预测的准确性和计算的复杂度。由于知识图谱需要处理的是有类型的语义链接(typed links),知识图谱的链接预测比传统更加复杂。目前在针对知识图谱的链接预测中比较流行的图特征模型包括归纳逻辑编程(如 AMIE [37] )、路径排序算法 PRA(随机游走算法的扩展) [38] 和子图特征抽取算法SFE [39] 等。

表示学习源于机器学习领域,它是对数据的一种特定表达,成功地应用在自然语言处理、语音识别等多个方面[40] 。当前,表示学习方法被广泛地应用于知识图谱的链接预测中。表示学习旨将链接数据中的实体和关系通过学习过程表示为实值向量。其过程通常包含实值向量的初始化、学习目标的定义、模型参数和实值向量的学习等步骤。主要的方法包括双线性模型、多层感知机模型、张量神经网络模型和距离模型等,如表 1 所示,其中 e i ,e j ,r k 分别代表两个实体和一个关系的实体向量表示。

表 1 基于表示学习的链接预测方法
image

事实上,图特征模型通常和表示学习方法一起使用,起到相互补充的作用,前者可以更好地表达局部的图模式,而后者能学习到全局的模式,典型工作如 PTransE [51] 和各种组合模型等[52-53] 。

基于统计关系学习的链接预测旨在同时利用链接数据中的统计信息和逻辑依赖性来预测实体间的关系。马尔可夫随机域(MRF)是一种传统的用于链接关系学习的概率图模型[54] ,而概率软逻辑(PSL)是最近被广泛研究的可以用来预测实体关系的统计关系学习方法[55] 。前者通过将模板应用到实体集合以生成马尔可夫随机域的图,最终实现实体关系的推理;后者融合统计信息和逻辑依赖,即将链接数据中对实体的本体限制转化为有权重的规则,并能通过一种凸优化方法有效地解决其中的概率推理,解决传统的马尔可夫逻辑网络(MLN)所遇到的可扩展性问题。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
人工智能如何改变生物技术?
机器学习和人工智能席卷了世界,改变了人们的生活和工作方式。这些领域的进步引发了赞扬和批评。众所周知,AI和ML在广泛的领域中提供了多种应用和优势。
28 0
改变人工智能和机器人技术未来的主要趋势
工业行业面临着重大的颠覆风险,尽管工业流程已经广泛自动化,但人工智能可能有助于改进工业机器人。虽然人工智能和机器人技术有许多潜在用途,但目前仍有一些应用需要注意。
31 0
《知识图谱、人工智能技术在大数据新能源 建设中的应用》电子版地址
知识图谱、人工智能技术在大数据新能源 建设中的应用
35 0
设计人工智能产品:技术可能性、用户合意性、商业可行性
随着机器学习逐渐成为数字化产品的主流,了解机器学习的基础知识对许多产品经理来说变得越来越重要。今天的产品人员是一个相当多样化的群体。对于一些人来说,重点主要放在用户体验上(例如,如果主要价值主张围绕着一个杀手级的 UI),而另一些人已经在设计需要深入理解数据和代码的产品。 理解机器学习对于频谱的两端都是必要的——只是原因略有不同。对于以 UI 为中心的产品和 PM,模糊逻辑和机器学习功能将从根本上改变用户与产品的交互方式。因此,这些特征的呈现变得非常重要。另一方面,管理 API 或技术平台的产品经理会更关心 AI 算法是如何集成的。
42 0
聚焦云计算、大数据、人工智能等开源技术,这场开源开发者的盛会不容错过!
聚焦云计算、大数据、人工智能等开源技术。大咖云集,这场开源开发者的盛会等你来探索!
72 0
医疗健康行业如何应对人工智能与数字技术的挑战
近年来,科技行业的各个领域都取得了巨大进步,包括人工智能、语音识别、云计算和移动计算、物联网(IoT)和可穿戴设备。许多领域都利用了这些趋势,改进了它们为客户提供的服务和应用程序。
58 0
人工智能技术和创意如何在营销中交织在一起
人工智能最重要的应用之一是营销。人工智能可以帮助自动化许多营销实践,并让公司从他们的努力中获得更多价值。
65 0
人工智能公平技术对于挽救生命具有重大意义
弗吉尼亚理工大学计算机科学教授Daphne Yao希望提高机器学习模型在医疗应用中的预测精度。不准确的
34 0
人工智能:2020的十大进展+2021 年十大技术趋势
人工智能:2020的十大进展+2021 年十大技术趋势
175 0
2022 年下半年数据和人工智能技术预测
当我们从 2022 年展会的中场休息中脱颖而出时,是时候盘点一下我们今年在大数据、高级分析和人工智能方面取得的进展,并评估我们接下来可能会走向何方。
54 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
视觉AI能力的开放现状及ModelScope实战
立即下载
通用多模态AI构建
立即下载
阿里云AI产品必知必会系列电子书
立即下载


http://www.vxiaotou.com