知识 图谱 综述(2021.4)

论文地址：A Survey on Knowledge Graphs: Representation, Acquisition, and Applications

知识图谱综述(2021.4)

摘要
1.简介
2.概述
3.知识表示学习(KRL)
3.1 表示空间

3.1.1 点空间
3.1.2 复向量空间
3.1.3 高斯分布
3.1.4 流形和群
3.2 评分函数
3.2.1 基于距离的评分函数
3.2.2 基于语义匹配的评分函数
3.3 编码模型
3.3.1 线性模型
3.3.2 因式分解
3.3.3 传统神经网络
3.3.4 卷积神经网络
3.3.5 循环神经网络
3.3.6 Transformer系列网络
3.3.7 图神经网络
3.4 嵌入辅助信息
3.4.1 文本描述
3.4.2 类型信息
3.4.3 视觉信息
3.4.4 不确定信息
4.知识获取
4.1 知识图谱补全(KGC)

4.1.1 基于嵌入的方法
4.1.2 关系路径推理
4.1.3 基于强化学习的路径查找
4.1.4 基于规则的推理
4.1.5 元关系学习
4.1.6 三重分类
4.2 实体发现
4.2.1 实体识别
4.2.2 实体类型
4.2.3 实体消歧
4.2.4 实体对齐(EA)
4.3 关系提取
4.3.1 神经关系提取
4.3.2 注意力机制
4.3.3 图卷积网络(GCNs)
4.3.4 对抗训练
4.3.5 强化学习(RL)
4.3.6 其他进展
4.3.7 联合实体和关系提取
5.时间知识图谱
5.1 时间信息嵌入
5.2 动态实体
5.3 时间关系依赖
5.4 时间逻辑推理
6.知识感知应用
6.1 语言表示学习
6.2 基于知识图谱的问答(KG-QA)
6.2.1 单事实QA
6.2.2 多跳推理
6.3 推荐系统
7.未来方向
7.1 复杂推理
7.2 统一框架
7.3 可解释性
7.4 可扩展性
7.5 知识聚合
7.6 自动构造和动态构造
7.6.1 自动构造
7.6.2 动态构造

摘要

人类知识提供了对世界的正式理解。表示实体之间结构关系的知识图谱已成为认知和人类智能领域日益流行的研究方向。在本次回顾中，我们对知识图谱进行了全面回顾，涵盖了以下总体研究主题：1)知识图谱表示学习，2)知识获取和完成，3)时间知识图谱，以及4)知识感知应用，并总结了最近的突破和展望方向，以便将来的研究。

我们针对这些主题提出了一个完整的分类和新的分类法。知识图谱嵌入从表示空间、评分函数、编码模型和辅助信息四个方面进行组织。对于知识获取，特别是知识图谱的完成，综述了嵌入方法、路径推理和逻辑规则推理。我们进一步探讨几个新兴话题

1.简介

知识图谱是事实的结构化表示，由实体、关系和语义描述组成。

语义是对实体的描述

当知识图谱涉及到形式语义时，它可以作为对事实进行解释和推理的知识库。知识库和知识图谱的区别在于知识库由三元组(head,relation,tail)构成，而知识图谱类似于ER图，结点(node)表示实体，边(edge)表示关系。

2.概述

本文从四个方面回顾了知识图谱的研究: 知识表示学习(KRL)、知识获取、时间知识图谱和知识感知应用。

知识表示学习(KRL): 也称作知识图谱嵌入(KGE)、多关系学习和统计关系学习。目前基于知识图谱的研究的最新进展大多侧重于KRL，KRL的方法是将实体和关系映射到低维向量，同时捕获它们的语义。在本文中，对于知识表示学习(KRL)，我们进一步将其划分为:

表示空间

表示实体和关系

评分函数

衡量事实的合理性

编码模型

对事实的语义交互建立模型

嵌入辅助信息

外部信息

知识获取: 知识获取旨在从非结构化文本和其他结构化或半结构化源中构建知识图谱，完成现有的知识图谱，发现和识别实体和关系。构建良好的大规模知识图谱可用于许多下游应用程序，并通过常识推理为知识感知模型提供支持。知识获取的主要任务包括KGC、实体识别和关系抽取等其他面向实体的获取任务。

具体的知识获取任务包括:

扩展现有知识图谱

实体识别/获取/发现: 用于从文本中发现面向实体的新知识。具体的任务分为实体识别、消除歧义、实体类型、和实体对齐
关系提取: 用于从文本中发现面向关系的新知识。关系提取模型利用注意力机制、图卷积网(GCN)、对抗学习、强化学习、深度残差网络和迁移学习

时间知识图谱: 时间知识图谱包含用于表示学习的时间信息。分为四个研究领域:

知识感知应用: 知识感知应用包含:

它们注入知识以改进表示学习。目前，知识感知模型的研究主要得益于异构信息、丰富的知识表示本体和知识表示语义，以及多语言知识的集成。

3.知识表示学习(KRL)

开发一个新的KRL模型是要回答以下四个问题: 1)选择哪个表示空间; 2)如何测量特定空间中元组的合理性; 3)使用哪种编码模型来建模关系交互; 4)是否利用辅助信息。

3.1 表示空间

表示学习的关键问题: 学习实体和关系的低维分布式嵌入

表示空间在编码实体的语义信息和捕获关系属性方面起着至关重要的作用。在开发表示学习模型时，应仔细选择和设计适当的表示空间，以匹配编码方法的性质并平衡表现力和计算复杂度。

常用方法: 实值点空间(包括向量、矩阵和张量空间)。同时也使用了其他类型的空间，如复向量空间、高斯空间和流形

3.1.1 点空间

点态欧氏空间被广泛应用于表示实体和关系，在向量或矩阵空间中投影关系嵌入，或捕获关系交互。

Trans类和NTN、HAKE均为基于距离的评价函数，而HolE和ANALOGY是基于语义匹配的评价函数。

TransE(Translating Embeddings for Modeling Multi-relational Data): TransE表示d维向量空间中的实体和关系，即\(h,t,r∈R_d\)，并使嵌入遵循平移原则\(h+r≈t\)

L1范数: 假设X是n维的特征\(X=(x_1,x_2,x_3···x_n)\)，\(||X||_1=\sum_i^n{|x_i|}\)

L1损失函数: 也被称为最小绝对值偏差(LAD)，绝对值损失函数(LAE)。总的说来，它是把目标值\(y_i\)与估计值\(f(x_i)\)的绝对差值的总和最小化

L2范数: 假设X是n维的特征\(X=(x_1,x_2,x_3···x_n)\)，\(||X||_2=\sqrt{\sum_i^n{x_i^2}}\)

L2范数损失函数: 也被称为最小平方误差(LSE)。它是把目标值\(y_i\)与估计值\(f(x_i)\)的差值的平方和最小化。一般回归问题会使用此损失，因为采用平方形式个别异常离群点对次损失影响较大，所以L2对于异常样本比L1更加敏感，鲁棒性更差。

TransE损失函数使用了负抽样(将head实体或tail实体替换为三元组中的随机实体)的max-margin函数，使用距离来表示得分。\(L(y,y')=max(0,margin-y+y')\)，其中y是正样本的得分，y'是负样本的得分，损失函数也可表示为\(L(h,r,t)=max(0，d_{pos}-d_{neg}+margin)\)，其中\(d=||(head+relation)-tail||\)，然后使损失函数值最小化。
但是这个模型只能处理一对一的关系，不适合一对多/多对一关系。例如，有两个知识(skytree，location，tokyo)和(gundam，location，tokyo)。经过训练，"sky tree"实体向量将非常接近"gundam"实体向量。但实际上它们没有这样的相似性

TransH(Knowledge Graph Embedding by Translating on Hyperplanes): TransH的目标是处理一对多/多对一/多对多关系，并且不增加模式的复杂性和训练难度，其基本思想是将关系解释为超平面上的转换操作。每个关系都有两个向量，超平面的范数向量(Wr)和超平面上的平移向量(dr)

TransR(Learning Entity and Relation Embeddings for Knowledge Graph Completion): TransR进一步为实体和关系引入了分离空间，以解决实体和关系的单一空间不足的问题。作者通过投影矩阵\(Mr∈R^{k×d}\)把实体\((h,t∈R^k)\)投影到关系空间\((r∈R^d)\)

TransD: TransD通过投影向量\(h_p,t_p,r_p∈R^n\)构建动态映射矩阵\(M_{rh}=r_ph_p^T+I\)和\(M_{rt}=r_pt_p^T+I\)

NTN(Reasoning With Neural Tensor Networks for Knowledge Base Completion): NTN通过双向线性张量神经层跨越多个维度对实体进行建模。头部和尾部\(h^T\hat{M}t\)之间的关系交互被当作为表示为\(\hat{M}∈R^{d×d×k}\)的张量

HAKE(Learning Hierarchy-Aware Knowledge Graph Embeddings forLink Prediction): HAKE不使用笛卡尔坐标系，而是通过将实体映射到极坐标系来捕获语义层次，即实体分别在模数和相位部分嵌入\(e_m∈R^d\)和\(e_p∈[0,2π)^d\)。

HolE(Holographic Embeddings): 即全息嵌入，是使用普通向量空间的语义匹配模型。为了捕获关系数据中的有效交互并高效计算，HolE引入了嵌入的循环相关以学习组合表示，它可以解释为压缩张量积。通过将扰动全息合成算子定义为p(a，b，c)=(c◦a)*b(其中c是一个固定向量)，使得扩展全息嵌入模型HolEx内插了HolE和全张量积方法。它可以看作是扰动空穴的线性级联。在频域中进行傅里叶变换的HolE可以视为复向量空间CompleEx的特例，它连接了全息嵌入和复杂嵌入。

ANALOGY(Analogical inference for multi-relational embeddings): 使用关系投影矩阵的语义匹配模型。ANALOGY专注于多关系推理，为关系数据的类比结构建模。它的评价函数定义为:\(f_r(h,t)=h^TM_rt\)，其中关系矩阵在线性映射中被约束为正规矩阵以便类比推理，即\(M_r^TM_r=M_rM_r^T\)

3.1.2 复向量空间

嵌入复杂向量空间可以有效地模拟不同的关系连接模式，尤其是对称/反对称模式。向量表示为实向量+虚向量，例如\(h=Re(h)+iIm(h)\)

ComplEx

RotatE

QuatE

3.1.3 高斯分布

高斯分布即正态分布，高斯嵌入可以表达实体和关系的不确定性，以及多关系语义。

KG2E

平移距离

不对称KL散度和对称期望似然

3.1.4 流形和群

流形和群通过放宽逐点嵌入，流形空间比逐点欧几里得空间具有优势

基于平移距离

3.2 评分函数

评分函数用于衡量事实的合理性，旨在学习函数Eθ(x)(参数为以x为输入的θ)，并确保正类样本的分数高于负类样本。本文采用评分函数的术语进行统一。有两种典型的评分函数即基于距离和基于语义相似性的函数

3.2.1 基于距离的评分函数

TransR，TransH，TransD同表示空间

TransA使用马氏距离实现自适应的度量学习

TransF和之前使用加法得分函数的方法不同，它放松了严格的平移，并使用点积\(f_r(h,t)=(h+r)^Tt\)作为评价函数

ITransF是为了平衡头部和尾部的约束而进一步提出的一种灵活的平移评分函数。它通过稀疏注意向量学习关系和概念之间的关联，实现了隐藏概念的发现和统计强度的传递，评分函数定义为\(f_r(h,t)=||α_r^H·D·h+r-α_r^T·D·t||_e\)

其中\(D∈R^{n×d×d}\)是实体和关系的叠加概念投影矩阵。\(α^H_r,α^T_r∈[0,1]^n\)是由稀疏softmax计算的注意向量

TransAt将关系注意力机制与平移嵌入相结合

TransMS通过非线性函数和线性偏差向量传递多向语义，评分函数为\(f_r(h,t)=||-tanh(t◦r)◦h+r-tanh(h◦r)◦t+α·(h◦t)||_{e_{1/2}}\)

高斯空间中的KG2E也使用基于平移距离的评分函数，KG2E使用两种评分方法，即不对称KL散度和对称期望似然
流形中的ManifoldE也使用基于平移距离的评分函数，ManifoldE的评分函数定义为\(f_r(h,t)=||M(h,r,t)-D_r^2||^2\)，其中M是流形函数，\(D_r\)是关系特定的流形参数

3.2.2 基于语义匹配的评分函数

基于语义匹配的评分函数通常计算语义相似度，采用组合算子。

HolE和ANALOGY同表示空间

SME建议在语义上匹配(h,r)和(r,t)实体关系对的单独组合。它的评分函数由两种匹配块定义:线性块和双线性块，即\(f_r(h,t)=g_{left}(h,r)^Tg_{right}(r,t)\)，

其中，\(g_{left}(h,t)=M_{l,1}h^T+M_{l,2}r^T+b_l^T\)为线性匹配块定义；\(g_{ledt}(h,t)=(M_{l,1}h^T)◦(M_{l,2}r^T)+b_l^T\)为双线性匹配块定义。

DistMult通过将关系矩阵Mr限制为多关系表示学习的对角线，提出了一个简化的双线性公式，定义为\(f_r(h,t)=h^Tdiag(M_r)t\)

类比嵌入框架通过限制嵌入维数和评分函数，可以恢复或等价地获得DistMult、CompleEx和HolE等多个模型。

CrossE通过相互作用矩阵\(C∈R^{n_r×d}\)引入了交叉相互作用，用于模拟实体和关系之间的双向交互。通过查找交互矩阵\(c_r=x_r^TC\)来获得关系特定的交互。通过将交互表示和匹配与尾部嵌入相结合，将评分函数定义为\(f(h,r,t)=σ(tanh(c_r◦h+c_r◦h◦r+b)t^T)\)

TorusE: 具有组表示，同时法也遵循语义匹配原则，评分函数定义为：\(min_{([h]+[r])×[t]}||x-y||_i\)

DihEdral具有组表示，同时法也遵循语义匹配原则，通过将2L关系建模为组元素，DihEdral的评分函数定义为组成部分的总和:\(f_r(h,t)=h^TRt=\sum^L_{l=1}h^{(l)T}R^{(l)}t^{(l)}\)，(其中，关系矩阵R被定义为以块对角线形式，即\(R^{(l)}∈D_K\);而实体被嵌入到实值空间，即\(h^{(l)}∈R^2,t^{(l)}∈R^2\)

神经网络通过匹配实体和关系的语义相似性，用非线性神经激活和更复杂的网络结构对关系数据进行编码。

3.3 编码模型

编码模型，尤其是神经网络，在实体和关系的交互建模中起着至关重要的作用。双线性模型也备受关注，一些张量分解也可以看作是这一族。

本节介绍通过特定模型架构对实体和关系的交互进行编码的模型，包括线性/双线性模型、分解模型和神经网络。

线性模型通过将头部实体投影到靠近尾部实体的表示空间中，将关系表述为线性/双线性映射。

分解旨在将关系数据分解为低秩矩阵以进行表示学习。

神经网络通过匹配实体和关系的语义相似性，对具有非线性神经激活和更复杂网络结构的关系数据进行编码。

3.3.1 线性模型

线性/双线性模型通过将线性运算或双线性变换运算作为方程式来编码实体和关系的交互:\(g_r(h,t)=M_r^T\left(\begin{matrix} h \\ t \end{matrix}\right)\)

多个线性模型的集成可以通过实验提高预测性能。

线性/双线性编码的规范方法包括:

4)双线性族中的嵌入模型，如RESCAL、DistMult、HolE和ComplEx，可以在一定的约束条件下从一个转换为另一个。

3.3.2 因式分解

因式分解方法将KRL模型表述为三向张量X分解。张量分解的一般原理可以表示为\(X_{hrt}≈h^TM_rt\)，组合函数遵循语义匹配模式。

RESCAL是针对知识图谱张量的每个关系切片上提出的三向秩-r分解算法。对于m个关系的第k个关系，X的第k个切片被分解为\(X_k≈AR_kA^T\)

线性代数: 奇异值分解: 任何一个m×n的矩阵A都可以表示为:\(A=U_{m×m}Σ_{m×n}V_{n×n}\)，特别的，当A为n×n的矩阵，则\(A=QΣQ^T\)，其中Q为n×n的正交矩阵，Σ是A的特征值降序排序对应的特征向量矩阵

LFM是一个双线性结构化潜在因子模型，它通过分解\(R_k=\sum^d_{d=1}α_i^ku_iv_i^T\)来扩展RESCAL，以便有效地处理实体的属性。(即\(A=U_{m×m}Σ_{m×n}V_{n×n}=U_{m×m}(\sum^d_{d=1}α_i^ku_iv_i^T)(V_{n×n}\))

TuckER是三向Tucker张量分解，它通过输出核心张量和嵌入实体和关系的向量来学习嵌入

LowFER是一种多模态分解双线性池化机制，可以更好地融合实体和关系。它推广了TuckER 模型，并且在低秩近似下计算效率很高

3.3.3 传统神经网络

用于编码语义匹配的神经网络已经表现出了优越的预测性能。它们通常将实体或关系或两者都输入深度神经网络并计算语义匹配分数。代表性的神经模型包括多层感知器(MLP)、神经张量网络(NTN)和神经关联模型(NAM)(具有线性/双线性块的编码模型也可以使用神经网络建模，例如SME)。

将实体嵌入作为

输入

3.3.4 卷积神经网络

卷积神经网络: CNN用于学习深度表达特征。

3.3.5 循环神经网络

基于MLP和CNN的模型主要学习三元级表示。相比之下，循环网络可以捕获知识图谱中的长期依赖关系。在关系路径上提出基于RNN的模型，以分别学习没有实体信息和有实体信息的向量表示。

RSN设计了一种循环跳过机制，通过区分关系和实体来增强语义表示学习。通过随机游走生成具有交替顺序的实体和关系的关系路径\((x_1，x_2，···，x_T)\)，并进一步用于计算循环隐藏状态\(h_t=tanh(W_hh_{t-1}+W_xx_t+b)\)，跳过运算符即为\(h_t^{'}=\begin{cases} h_t \quad x_t∈ε \\ S_1h_t+S_2x_{t-1} \quad x_t∈R \end{cases}\)，其中\(S_1\)和\(S_2\)是权重矩阵

3.3.6 Transformer系列网络

Transformer: 基于Transformer的模型促进了上下文化文本表示学习。

预训练

3.3.7 图神经网络

引入图神经网络(GNN)用于在encoder-decoder框架下学习连接结构

3.4 嵌入辅助信息

多模态嵌入将文本描述、类型约束、关系路径和视觉信息等外部信息与知识图谱本身结合起来，以促进更有效的知识表示。

3.4.1 文本描述

知识图谱中的实体把文本描述表示为\(D=<w1,w2,···,wn>\)，并提供补充语义信息。KRL和文本描述的难点是在同一空间中嵌入结构化知识和非结构化文本信息。

有两种对齐模型，通过引入实体名称和维基百科锚点来对齐实体空间和词空间:

当将KGE与文本描述相结合时，联合损失函数被广泛应用，例如三分量损失: \(L=L_K+L_T+L_A\)，其中\(L_K\)是知识模型、\(L_T\)是文本模型和\(L_A\)是对齐模型。

SSP使用文本描述中嵌入特定损失\(L_{embed}\)和主题特定损失\(L_{topic}\)的双分量目标函数 \(L=L_{embed}+μL_{topic}\)，通过参数μ进行权衡。

3.4.2 类型信息

实体用分层的类或类型表示，因此用语义类型表示关系。

3.4.3 视觉信息

视觉信息(例如实体图像)可用于丰富KRL。

3.4.4 不确定信息

与经典的确定性知识图谱嵌入相比，不确定嵌入模型旨在捕获表示关系事实可能性的不确定性。

置信度分数

4.知识获取

本节回顾了不完全知识图谱的知识补全和从纯文本获取的知识。

知识获取旨在从非结构化文本和其他结构化或半结构化源中构建知识图谱，完成现有的知识图谱，发现和识别实体和关系。构建良好的大规模知识图谱可用于许多下游应用程序，并通过常识推理为知识感知模型提供支持。

知识获取的主要任务包括知识图谱补全(KGC)、实体识别和关系抽取等其他面向实体的获取任务。

4.1 知识图谱补全(KGC)

由于知识图谱的不完全性，KGC被开发用于向知识图谱添加新的三元组。知识图谱补全主要是完成现有实体之间缺失的链接，或推断给定实体和关系查询的实体。典型的子任务包括链接预测、实体预测和关系预测。 KGC的初步研究侧重于学习用于三重预测的低维嵌入，即基于嵌入的方法。但是其很难捕捉到多步骤关系。因此，最近的工作转向探索多步骤关系路径并结合逻辑规则，分别称为关系路径推理和基于规则的推理

4.1.1 基于嵌入的方法

KGC可以使用上述KRL方法(TransE、TransH、TransR、HolE和RGCN)和带有文本信息的联合学习方法如DKRL。以实体预测为例，基于嵌入的排序方法首先根据现有的三元组学习嵌入向量，通过将尾部实体或头部实体替换为每个实体e∈ε，这些方法计算所有候选实体的得分，并对前k个实体进行排名，但基于嵌入的方法很难捕捉到多步骤关系。

4.1.2 关系路径推理

实体和关系的基于嵌入的模型在一些基准测试中获得了显着的性能，但它只停留在个体关系层面，忽略了知识图谱的符号性，缺乏可解释性，无法对复杂的关系路径进行建模。因此，关系路径推理选择利用图结构上的路径信息。

随机游走推理

最大似然分类

4.1.3 基于强化学习的路径查找

通过将实体对之间的路径查找表示为顺序决策(尤其是马尔可夫决策过程(MDP))，将深度强化学习(RL)引入到多跳推理中。但是，路径搜索和神经路径在大尺度图上进行遍历时，它们会出现连通性不足的问题。

奖励函数

表III总结了各种方法的MDP环境和策略网络，其中MINERVA、M-Walk和CPL使用二进制奖励函数，其余使用软奖励函数。对于策略网络，DeepPath使用全连接网络，CPL的提取器使用CNN，其余使用RNN

4.1.4 基于规则的推理

为了更好地利用知识的符号性质，KGC的另一个研究方向是逻辑规则学习。符号和嵌入的混合方法结合了基于规则的推理，克服了知识图谱的稀疏性，提高了嵌入的质量，促进了高效的规则注入，并诱导出可解释的规则。规则由head和body通过head <- body的形式定义。例如，头部是一个最小单元，即具有可变主客体的事实，而身体可以是一组原子。例如，给定关系sonOf、hasChild和gender，以及实体X和Y，逻辑编程的反形式规则如下: (Y,sonOf,X) <- (X,hasChild,Y) ∩ (Y,gender,Male)

将逻辑规则注入嵌入

4.1.5 元关系学习

知识图谱的关系中存在长尾现象。同时，现实世界的知识场景是动态的，通常会获得看不见的三元组。新场景称为元关系学习或少样本关系学习，模型需要用很少的样本来预测新的关系事实。

元关系学习的新兴方向旨在学习在低资源环境中对不可见关系的快速适应。

4.1.6 三重分类

三重分类：三重分类是确定测试数据中的事实是否正确(这通常被认为是一个二元分类问题)。

4.2 实体发现

实体发现从文本中获取面向实体的知识，并在知识图谱之间融合知识。本节把基于实体的知识获取分为4个细分的任务，即实体识别、实体类型、实体消歧和实体对齐。我们将它们统称为实体发现，因为它们都在不同的设置下探索与实体相关的知识。

4.2.1 实体识别

实体识别也称为命名实体识别(NER)，当针对特定命名的实体时，可以当作是在文本中标记实体

很常用的是序列到序列的神经架构

4.2.2 实体类型

实体类型: 实体类型包括粗粒度类型和细粒度类型，其中后者使用树结构类型类别，通常被视为多类和多标签分类。

实体类型化讨论了有噪声的类型标签和零样本类型化

4.2.3 实体消歧

实体消歧或实体链接是将实体别名链接到知识图谱中的相应实体的统一任务。例如，爱因斯坦在 1921年获得诺贝尔物理学奖，"爱因斯坦"的实体别名应该与阿尔伯特·爱因斯坦的实体联系起来

4.2.4 实体对齐(EA)

前面所述的几种任务涉及从文本或单个知识图谱中发现实体，而实体对齐(EA)旨在融合各种知识图谱之间的知识。例如，给定\(ε_1\)和\(ε_2\)作为两个不同知识图谱的两个不同实体集，EA就是找一个对齐集A={\((e_1,e_2)∈ε_1×ε_2|e_1≡e_2\)}。在实践中，会给出一小组对齐种子(即同义实体出现在不同的知识图谱中)来开始对齐过程(如图8b左框所示)，实体消歧和对齐学习进行统一嵌入，用来解决对齐种子数量有限问题的迭代对齐模型。

迭代对齐中的错误累积

4.3 关系提取

关系提取是通过从纯文本中提取未知的关系事实并将其添加到知识图谱中来自动构建大规模知识图谱的关键任务。

近年来，特定语言知识的增长推动了跨语言知识整合的研究。在远程监督的假设下，关系提取后会存在噪声，特别是在不同领域的文本语料中。因此，弱监督关系提取必须减轻噪声标记的影响。

远程监督(也称为弱监督或自我监督)由于缺乏标记的关系数据，通过假设包含相同实体别名的句子在监督下可能表达相同的关系，进而使用启发式匹配来创建训练数据的关系数据库。

有人因此对具有文本特征的关系分类采用了远程监督，包括词汇和句法特征、命名实体标签和连接特征。传统方法高度依赖特征工程。最近的一种方法是探索特征之间的内在相关性

深度神经网络正在改变知识图谱和文本的表示学习。

4.3.1 神经关系提取

本节回顾了神经关系提取(NRE)的最新进展，概述如图9所示。当前的NRE基本都集成了RL。

4.3.2 注意力机制

注意力机制的许多变体与CNN相结合，包括用于捕获单词语义信息的词元级注意力和对多个实例的用于减轻噪声实例影响的选择性注意力。

注意力机制通过对实例的软选择来减少噪声模式

4.3.3 图卷积网络(GCNs)

图卷积网络(GCNs)用于编码句子上的依赖树或学习知识图谱嵌入的各类函数方法，以便利用关系知识进行句子编码。

4.3.4 对抗训练

对抗训练: 对抗训练(AT)用于在MIML学习设置下为基于CNN和RNN的关系提取的词嵌入添加对抗噪声。

DSGAN通过学习句子级正类样本的生成器和最小化生成器正类概率的鉴别器，来对远程监督关系提取进行去噪。

4.3.5 强化学习(RL)

通过使用策略网络训练实例选择器，RL已被集成到神经关系提取中。基于RL的NRE的优点是关系提取器与模型无关。因此，它可以很容易地适应任何神经架构以进行有效的关系提取。基于强化学习的方法将实例选择制定为硬决策(非是即否)。另一个原则是学习尽可能丰富的表现形式。

4.3.6 其他进展

深度学习的其他进展也应用于神经关系提取

迁移学习

4.3.7 联合实体和关系提取

传统的关系提取模型采用管道方法，首先提取实体别名，然后对关系进行分类。然而，管道方法可能会导致错误积累。多项研究表明，联合学习的性能优于传统的管道方法

联合模型可以通过捕捉实体和关系的相互作用来减少错误积累

5.时间知识图谱

目前对知识图谱的研究多集中在静态知识图谱上，知识图谱的事实不随时间变化，对知识图谱的时间动态研究较少。然而，时间信息非常重要，因为结构化的知识只在特定的时间段内成立，事实的演变遵循时间序列。

近年来的研究开始将时间信息引入KRL和KGC中，与以往的静态知识图谱不同，我们将其称为时间知识图谱。

当前有大量的研究关于学习时间嵌入和关系嵌入。动态网络嵌入的相关模型也启发了时间知识图谱嵌入。例如，捕获"时间-拓扑"结构并同时学习"时间-特征"相互作用的时间图注意力(TGAT)网络可能有助于保存知识图谱的时间感知关系

5.1 时间信息嵌入

将三元组扩展为时间四元组

τ提供关于事实保持时间的额外时间信息

5.2 动态实体

真实世界的事件改变实体的状态，从而影响相应的关系。

历时

5.3 时间关系依赖

在时间轴的关系链中存在时间依赖，如wasBorn → IngraduateFrom → workAt → diedIn

编码关系的时间顺序(比如时间顺序关系对

)的非对称矩阵。

5.4 时间逻辑推理

时间逻辑推理: 逻辑规则也被用来研究时间推理。

软逻辑

不确定

6.知识感知应用

丰富的结构化知识对人工智能应用非常有用。然而，如何将这些符号知识集成到现实应用程序的计算框架中仍然是一个挑战。

知识图谱的应用包括两个方面: 1)KG内应用，如链接预测和命名实体识别; 2) KG外应用，包括关系提取和更下游的知识感知应用，如问题回答和推荐系统。本节介绍几种基于深度神经网络的知识驱动方法及其在自然语言处理和推荐中的应用。

6.1 语言表示学习

6.2 基于知识图谱的问答(KG-QA)

基于知识图谱的问答(KG-QA)用来自知识图谱的事实回答自然语言问题。基于神经网络的方法在分布式语义空间中表示问题和答案，有些方法还进行符号知识注入，用于常识推理。

6.2.1 单事实QA

单事实QA也叫简单的事实QA，将知识图谱作为外部智力来源，主要是回答一个涉及单个知识图谱事实的简单问题。

启发式

6.2.2 多跳推理

多跳推理要处理复杂的多跳关系，需要更专门的设计，能够进行多跳常识推理。

6.3 推荐系统

推荐系统将知识图谱作为外部信息，促使推荐系统具有常识推理能力，具有解决稀疏性问题和冷启动问题的潜力。

7.未来方向

为了解决知识表示及其相关应用的挑战，已经进行了许多工作。然而，仍有几个令人生畏的尚未解决的问题和充满希望的未来方向。

7.1 复杂推理

知识表示和推理的数值计算需要一个连续的向量空间来捕获实体和关系的语义。

关系路径

符号逻辑

循环关系路径编码

基于GNN的消息传递知识图谱

基于强化学习的寻路和推理等

逻辑规则与嵌入的结合

马尔可夫逻辑网络与KGE相结合

利用概率推理来获取不确定性

领域知识的有效嵌入

7.2 统一框架

知识图谱上的几种表示学习模型已经被验证为等价。

对于具有特定约束的链接预测

统一视图

模型之间的联系

相互关注的联合学习框架

7.3 可解释性

知识表示和注入的可解释性是知识获取和现实应用的一个重要问题。可解释性可以说服人们相信预测。因此，应该进一步研究可解释性和提高预测知识的可靠性。

注意力可视化

基于嵌入的路径搜索生成链接预测的解释

黑盒神经模型和符号推理

合并逻辑规则

7.4 可扩展性

可扩展性在大规模知识图谱(比如超过一百万个实体)中至关重要。计算效率和模型表达之间需要权衡。

用循环相关运算来简化张量积

高效的规则归纳

7.5 知识聚合

全局知识的聚合是知识感知应用的核心。

联合建模

神经体系结构