这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
随着生物医学文献的迅速扩充,生物医学信息的提取越来越受到研究者的关注。其中,两个实体之间的关系提取是一个长期的研究课题。
本研究旨在执行生物医学自然语言处理研讨会2019开放共享任务的2个多类关系提取任务:细菌-生物群关系提取(BB-rel)任务和植物种子发育二元关系提取(SeeDev-binary)任务。从本质上讲,这两个任务旨在从生物医学文本中提取带注释的实体对之间的关系,这是一个具有挑战性的问题。
传统的研究方法采用基于特征或基于核的方法,取得了较好的效果。对于这些任务,我们提出了一个基于几个分布式特征组合的深度学习模型,例如特定领域的词嵌入、词性嵌入、实体类型嵌入、距离嵌入和位置嵌入。采用多头注意机制提取整句的整体语义特征。同时,在语法依赖图中引入依赖类型特征和连接2个候选实体的最短依赖路径,丰富了特征表示。
实验结果表明,该模型具有良好的生物医学关系提取性能
我们证明了多头注意机制可以学习不同表示子空间和不同位置的相关句法和语义特征,从而提取综合特征表示。此外,句法依赖特征可以通过学习生物医学文本中实体之间的依赖关系来提高模型的性能。
信息提取[
生物医学自然语言处理工作坊-开放共享任务(BioNLP-OST)系列[
一系列创新系统取得了良好的效果,积极推动了生物医学IE的发展。例如,在BB-rel和SeeDev-binary任务中,传统的关系提取模型主要基于基于特征的[
完整句子的分布特征的组合应用是生物医学关系提取中最常用的方法[
在我们提出的模型中,我们还集成了基于语法依赖图的最短依赖路径和依赖类型特征作为输入特征之一,该方法已被多项研究证明是有效的[
本文引入DL模型来解决2个生物医学关系提取任务:SeeDev-binary和BB-rel。我们结合多个分布式特征和一个多头注意机制,自动从长而复杂的句子中提取全局语义特征。依赖语法的特征也被集成到模型中。由于连接两个实体的最短依赖路径短而简洁,我们应用CNN来学习其特征。我们进行了大量的实验,我们的方法取得了成功
BB-rel任务进行3次[
SeeDev任务[
在本节中,我们将详细描述我们提出的用于2个生物医学关系提取任务的模型。整体架构显示在
该模型具有基于特征组合和多头注意的全局语义特征和句法依赖特征。Dist_1:句子中第一个实体对应的距离嵌入;Dist_2:对应句子中第二个实体的距离嵌入;实体类型:实体类型嵌入;词性嵌入;词:词嵌入。
在数据预处理阶段,我们使用tee [
BB-rel和SeeDev-binary任务是关系提取任务,它们检测生物医学文本中2个注释实体之间是否存在关系以及存在什么关系。例如,在句子“青霉素抗性的百分比。
在BB-rel和SeeDev-binary任务的训练和验证集中,只有积极的实例被标记。但是,在预测阶段,两个候选实体之间可能没有关系;因此,在训练阶段有必要手工构造反例。将生物医学文本划分为句子后,我们列举句子中的每个实体对,并将未标记的实例判断为无关系实例。由于SeeDev-binary和BB-rel任务的生物医学关系提取受到规则约束,某些实体类型之间必须没有关系。例如,在BB-rel任务中,实体之间必须没有生物医学关系
在这两个任务的数据集中,一个关系的实体不仅出现在同一个句子中(intrsentence),而且一个关系的实体可能出现在不同的句子中(intersentence),这对于生物医学的关系提取任务是一个很大的挑战[
我们的方法通过结合多个分布式特征和多头注意机制,从完整的句子中提取全局语义特征。我们的模型中集成了领域特定词嵌入、POS嵌入、实体类型嵌入、距离嵌入和PE。
词嵌入是一种常用的分布式表示模型,它将丰富的语义信息编码为向量。一个完整句子的顺序
不同类型实体的组合对于某些关系具有不同的概率;因此,实体类型是预测的一个重要因素[
距离序列分为2个链,即当前单词到2个候选实体的距离。在我们的方法中,相对距离[
由于我们使用多头注意力模型来处理一系列分布特征的组合,而不使用任何时间序列模型,因此我们必须向模型中注入一些单词的绝对位置信息;因此,我们参考Vaswani等人的研究[
最后,将一系列分布式特征进行串联,并且每个词
近年来,一系列基于注意力的模型被应用于关系抽取任务,并取得了显著的成功[
缩放点积注意和多头注意的总体结构如图所示
注意权重向量
通过乘以注意力权重向量
因此,每个通道的注意头是的级联矩阵
进一步,我们将最后一个维度的多个注意头进行拼接,得到整个句子的多头注意特征,如式8所示。
与变压器模型类似,我们也在多头注意力模型后面使用了全连接神经网络,并使用了残差连接,如图所示
缩放点积注意函数(左)。多头注意由数个比例点积注意(右)组成。Concat:连接;凯西:关键;Matmul:矩阵乘法;问:查询;V:价值。
基于连接两个候选实体的最短依赖路径和依赖关系图中的依赖关系类型,生成所提出的DL模型的语法依赖关系特征。最短依赖关系路径包含与描述提取相关的最重要的术语,并已多次成功应用于关系提取[
在本例中,与的最短依赖路径的序列
为了从依赖项路径和依赖项类型了解语法依赖项的局部特征,LSTM [
表型实体“Enterococcus”与表型实体“革兰氏阳性”的句法依赖实例实线是实体依赖关系,虚线是无关的依赖关系。副词:状语修饰语;形容词修饰词;警察:连系动词;依据:决定因素;Nsubj:名义主语;Prep_of:介词。
在输出层,我们将句子的全局语义特征向量和句法依赖特征向量连接起来,以获得实例的高质量特征表示。此外,dropout算法[
这两个任务包括训练集、验证集和测试集。在训练阶段,以多分类交叉熵为目标函数,自适应矩估计优化算法[
2个生物医学关系提取任务的数据集相对较小,DL模型具有较多的训练参数。因此,模型的初始随机状态可能会对模型的最终性能产生重大影响,并通过预实验验证了这一点。为了减少初始化状态对模型的影响,使用10个不同的随机初始化来评估模型,即用不同的随机种子训练相同的模型结构。最后,用最好的模型
通过预实验和基于验证集的评估,确定了模型的超参数。领域特定词嵌入、POS嵌入、实体型嵌入、距离嵌入、PE嵌入和依赖型嵌入的维数分别为200、200、200、100、200和200,并在训练阶段对嵌入矩阵进行微调。对于多头注意机制,我们采用单层多头注意模型,采用8个平行注意头,每个注意头线性层中的单元数与输入相同。为了提取句法依赖特征,卷积层数为1,过滤器数为128,窗口大小为2、3和4。此外,实验中采用LSTM模型,隐藏单元的输出维数设置为128。对于全局语义特征和句法依赖特征的组合,退出率为0.5。批处理大小设置为8。最后,我们使用DL框架Pytorch [
这项工作中使用的数据集和方法是公开的,不涉及任何伦理或道德问题。
我们在BB-rel和SeeDev-binary任务数据集上进行了一系列实验,以评估我们提出的方法。
BioNLP-OST 2019中的BB-rel任务与之前的版本有很大不同,后者集成了新的实体类型
我们使用测试集的预测来评估基于web的评估服务的方法[
seedev -二进制任务语料库是一组87段,来自20篇关于种子开发的完整文章
seedev -二进制文件也适用于基于web的评估服务。与SeeDev-binary 2016相比,任务组织者增加了新的评估指标,以强调生物医学贡献。评价指标是所有关系的全局结果、句内关系的结果和类型聚类,每个类型聚类都具有精度、查全率和
详细统计细菌-生物群落任务数据集的关系提取。测试集的统计信息为none,因为组织者还没有在测试集上发布注释的关系。
类别 | 训练集 | 验证设置 | 测试集 |
总计 | 1996 | 1040 | 1414 |
Lives_in | 659 | 377 | 没有一个 |
展品 | 284 | 140 | 没有一个 |
现场直播和展览 | 943 | 517 | 没有一个 |
Nonrelation | 1053 | 523 | 没有一个 |
详细统计了提取植物种子发育任务数据集的二元关系。测试集中的关系数为none,因为预处理后无法确定关系数。
类别 | 训练集 | 验证设置 | 测试集 |
总计 | 18997年 | 8955 | 12737年 |
所有的关系 | 1508 | 746 | 没有一个 |
Nonrelation | 17489年 | 8209 | 没有一个 |
在BB-rel任务中,我们使用了基于多头注意机制和句法依赖特征的DL模型来检测生物医学关系。我们提出的方法最终得到了一个
在SeeDev-binary任务中,我们提出的方法实现了一个
在SeeDev-binary任务中,通过聚类的结果也是重要的评估指标
详细的结果,我们的方法在测试集的关系提取细菌-生物群任务。
类别 | 精度 | 回忆 |
|
现场直播和展览 | 69.50 | 62.05 |
|
Lives_In | 69.38 | 56.64 | 62.36 |
Lives_In (intrasentence) | 69.75 | 68.27 | 69.00 |
展品 | 69.77 | 77.92 | 73.62 |
展品(intrasentence) | 70.18 | 86.96 | 77.67 |
一个最后一个
本方法与其他系统在细菌-生物群关系提取任务中的结果比较。
模型 | 精度 | 回忆 |
|
whunlp [ |
62.94 |
|
|
AliAI [ |
68.20 | 62.01 | 64.96 |
Yuhang_Wu [ |
55.10 | 67.03 | 60.49 |
基线( |
52.54 | 80.13 | 63.47 |
我们的模型 |
|
62.05 | 65.56 |
一个最大结果以斜体显示。
详细介绍了该方法在植物种子发育任务二元关系提取测试集上的结果。
二元关系类型 | 精度 | 回忆 |
|
Exists_In_Genotype | 40.59 | 32.28 | 35.96 |
Occurs_In_Genotype | 0 | 0 | 0 |
Exists_At_Stage | 50.00 | 10.00 | 16.67 |
Occurs_During | 0 | 0 | 0 |
Is_Localized_In | 38.16 | 46.77 | 42.03 |
Is_Involved_In_Process | 0 | 0 | 0 |
Transcribes_Or_Translates_To | 0 | 0 | 0 |
Is_Functionally_Equivalent_To | 60.94 | 55.71 | 58.21 |
Regulates_Accumulation | 66.67 | 25.00 | 36.36 |
Regulates_Development_Phase | 22.86 | 41.56 | 29.49 |
Regulates_Expression | 24.65 | 50.72 | 33.18 |
Regulates_Molecule_Activity | 0 | 0 | 0 |
Regulates_Process | 40.04 | 64.71 | 49.47 |
Regulates_Tissue_Development | 0 | 0 | 0 |
Composes_Primary_Structure | 60.00 | 37.50 | 46.15 |
Composes_Protein_Complex | 50.00 | 66.67 | 57.14 |
Is_Protein_Domain_Of | 26.09 | 19.35 | 22.22 |
Is_Member_Of_Family | 27.78 | 52.33 | 36.29 |
Has_Sequence_Identical_To | 100.00 | 47.73 | 64.62 |
Interacts_With | 80.00 | 14.81 | 25.00 |
Binds_To | 30.77 | 12.50 | 17.78 |
Is_Linked_To | 0 | 0 | 0 |
所有的关系 | 34.75 | 42.02 |
|
一个最后一个
植物种子发育任务二元关系提取方法与其他系统的结果比较。
模型 | 所有的关系 | Intrasentence关系 | |||||
|
精度 | 回忆 |
|
精度 | 回忆 |
|
|
MIC-CIS [ |
27.45 |
|
37.38 | 29.45 |
|
37.88 | |
YNU-junyi [ |
27.25 | 45.83 | 34.18 | 27.25 | 47.56 | 34.65 | |
我们的方法 |
|
42.02 |
|
|
43.61 |
|
一个最大结果以斜体显示。
的比较
模型 | 所有 | 比较 | 函数 | 监管 | 基因的调控 | 组成成员 | 交互 |
MIC-CIS [ |
37.38 | 47.92 | 17.39 | 34.78 | 33.84 |
|
|
YNU-junyi [ |
34.18 |
|
25.00 | 34.21 | 23.00 | 34.68 | 21.87 |
我们的方法 |
|
49.68 |
|
|
|
32.72 | 22.02 |
一个最大结果以斜体显示。
在本节中,我们构建了消融实验来分析多头注意机制的有效性和句法依赖特征。为避免单一模型的不稳定性,取均值
与传统的CNN、BiLSTM和加性注意模型相比,我们首先分析了多头注意机制在完整句子全局语义特征提取中的有效性[
从表中可以看出,前2行是单独使用CNN或BiLSTM模型提取句子特征表示的结果,其中BiLSTM模型的结果略好。一个可能的解释是,实例中的句子长度一般比较大,CNN模型只能处理窗口信息,依靠池化操作来总结句子的整体结构。然而,BiLSTM模型更适合于序列建模和使用双向记忆网络编码较长的序列信息。然后将它们与一个附加注意力模型结合起来。与单独的CNN和LSTM模型相比,注意力模型的应用有所提高
最后,在不使用CNN和递归神经网络结构的情况下,将多头注意力机制引入模型中,得到了最优结果。的意思是
均值比较
全局语义特征 | BB-rel | SeeDev-binary | ||||
|
最低一个 | 最大b | 意思是(SD) | 最低一个 | 最大b | 意思是(SD) |
美国有线电视新闻网c | 57.26 | 63.26 | 60.35 (2.11) | 31.67 | 35.85 | 33.61 (1.33) |
BiLSTMd | 57.89 | 63.80 | 60.80 (1.88) | 32.39 | 36.28 | 34.02 (1.53) |
CNN-attention | 59.69 | 65.01 | 62.17 (1.69) | 32.89 | 37.52 | 34.92 (1.47) |
BiLSTM-attention | 59.80 | 64.38 | 62.02 (1.45) | 33.61 | 37.30 | 35.13 (1.18) |
多头的关注 |
|
|
|
|
|
|
一个最低的
b最高的
cCNN:卷积神经网络。
dBilSTM:双向长短期记忆网络。
e最大结果以斜体显示。
此外,我们还分析了句法依赖特征在模型中的有效性。根据语法分析,最短依赖路径的长度多为2 ~ 5,属于超短序列。因此,我们只尝试使用CNN和BiLSTM模型进行特征提取,结果如
均值比较
语法依赖特性 | BB-rel | SeeDev-binary | ||||
|
最低一个 | 最大b | 意思是(SD) | 最低一个 | 最大b | 意思是(SD) |
没有用的 | 58.51 | 63.70 | 60.85 (1.65) | 32.89 | 36.53 | 34.60 (1.16) |
LSTMc | 59.93 | 65.16 | 62.88 (1.66) |
|
37.90 | 36.06 (1.07) |
美国有线电视新闻网e |
|
|
|
34.47 |
|
|
一个最低的
b最高的
cLSTM:长短期记忆网络。
d最大结果以斜体显示。
eCNN:卷积神经网络。
为了验证我们提出的模型的优缺点,我们将实验结果与现有模型进行了比较。我们发现我们的系统在2个关系提取任务的精度方面表现更好,远远超过其他模型,这意味着我们的方法比其他模型有更低的假阳性率。一个可能的解释是,与其他系统相比,我们的模型结构引入了最短的依赖路径,可以更明确地识别实体对之间的生物医学关系。
2个关系提取任务受到规则约束;因此,有必要调查是否存在预测关系不符合规则的情况。例如,在句子“基于双亚硒酸盐离子和高渗氯化锶的选择性肉汤的评价
此外,我们手动分析了验证集的正确和错误预测与现有DL模型(结构类似于yunu -junyi [
本文重点研究了BioNLP-OST 2019中的2个关系提取任务:BB-rel任务和SeeDev-binary任务,旨在促进从生物医学文本中开发细粒度IE。针对这些任务,我们提出了一种基于一系列分布式特征组合的深度学习模型来检测关系,引入多头注意机制来提取全局语义特征,并使用语法依赖特征来丰富特征表示。我们提出的方法得到了
尽管我们的模型在BB-rel和SeeDev-binary任务上表现出色,但仍然存在许多挑战。特别是,我们的方法没有考虑句间关系,这仍然是生物医学关系提取任务中的一个难题。这种情况是由于推理关系的复杂性和正反例的极度不平衡造成的。相比之下,使用DL模型从小型训练数据集中提取高质量特征是一个需要解决的问题。在未来的工作中,我们将考虑使用半监督学习方法或变压器模型,如BERT,以更好地解决生物医学关系提取的课题。
细菌-生物群任务的关系提取
来自变压器的双向编码器表示
双向长短期记忆
生物医学自然语言处理工作坊-开放共享任务
卷积神经网络
深度学习
信息提取
长短期记忆
位置嵌入
词性
植物种子发育的二元关系提取任务
支持向量机
图尔库事件提取系统
本研究由贵州省普通高校青年科技人才成长计划(黔教合KY字[2022]281号)、遵义市科技合作基金(遵市科合HZ字[2020]81号)、贵州省科技合作平台人才基金(黔科合平台人才[2018]5772-088,黔科合平台人才[2019]-020)资助。
没有宣布。