原始论文
摘要
背景:随着生物医学文献的迅速扩充,生物医学信息的提取越来越受到研究者的关注。其中,两个实体之间的关系提取是一个长期的研究课题。
摘要目的:本研究旨在执行生物医学自然语言处理研讨会2019开放共享任务的2个多类关系提取任务:细菌-生物群关系提取(BB-rel)任务和植物种子发育二元关系提取(SeeDev-binary)任务。从本质上讲,这两个任务旨在从生物医学文本中提取带注释的实体对之间的关系,这是一个具有挑战性的问题。
方法:传统的研究方法采用基于特征或基于核的方法,取得了较好的效果。对于这些任务,我们提出了一个基于几个分布式特征组合的深度学习模型,例如特定领域的词嵌入、词性嵌入、实体类型嵌入、距离嵌入和位置嵌入。采用多头注意机制提取整句的整体语义特征。同时,在语法依赖图中引入依赖类型特征和连接2个候选实体的最短依赖路径,丰富了特征表示。
结果:实验结果表明,该模型具有良好的生物医学关系提取性能F1BB-rel和SeeDev-binary任务的测试集得分分别为65.56%和38.04%。特别是在SeeDev-binary任务中F1我们的模型得分优于现有的其他模型,达到了最先进的性能。
结论:我们证明了多头注意机制可以学习不同表示子空间和不同位置的相关句法和语义特征,从而提取综合特征表示。此外,句法依赖特征可以通过学习生物医学文本中实体之间的依赖关系来提高模型的性能。
doi: 10.2196/41136
关键字
简介
背景
信息提取[
包括从文本中提取具体事件或相关信息;从海量内容中自动分类、提取和重构有用信息;并将其转化为结构化的知识。随着文本挖掘技术在生物医学文献中定位关键信息的需求不断增长,生物医学IE [ , 已经成为一个新的研究热点。同时,随着生物医学文献的爆炸式发展,生物医学IE的许多研究方向得到了推进,如命名实体识别、蛋白质关系提取[ ],以及药物相互作用提取[ ].特别是在关系约束下,生物医学文本中标注实体之间的关系检测是一个具有挑战性和实用性的问题,是一个重要的研究方向。生物医学自然语言处理工作坊-开放共享任务(BioNLP-OST)系列[
]是生物分子IE的代表,旨在促进生物医学文本挖掘和细粒度IE的开发和共享。BioNLP-OST为生物医学IE的发展做出了巨大贡献,已经举办了5届。BioNLP-OST的研究课题包括细粒度事件提取、生物医学知识库构建等。本研究主要针对BioNLP-OST 2019中细菌-生物群落(BB-rel)任务的关系提取和植物种子发育(SeeDev-binary)任务的二元关系提取[ ].这两个多类子任务对于预测两个带注释的实体之间是否存在关系以及存在什么关系至关重要。本研究有助于生物医学文本挖掘的实际应用的发展。一系列创新系统取得了良好的效果,积极推动了生物医学IE的发展。例如,在BB-rel和SeeDev-binary任务中,传统的关系提取模型主要基于基于特征的[
, ]和基于内核的方法[ , ].这些方法依赖于特定领域的知识或语言工具来提取人工特征。例如,在Björne和Salakoski [ ],利用基于最短依赖路径和支持向量机(SVM)的特征构建关系抽取系统。近年来,深度学习(DL)模型已成功应用于自然语言处理的许多领域,需要较少的特征工程和从语料库数据中自动学习有用信息(Kumar, S, unpublished data, 2017年5月)。在生物医学关系提取领域,几个知名的DL模型已经逐渐得到应用,并取得了优异的性能,其中包括分布式表示[ , ],卷积神经网络(CNN) [ - ]、递归神经网络[ - ].因此,我们使用DL方法来提取生物医学文本中的关系,而不是复杂的手工特征工程。完整句子的分布特征的组合应用是生物医学关系提取中最常用的方法[
, , ].在这里,我们使用了各种分布式特征,例如特定领域的词嵌入[ ]、词性嵌入[ ],实体类型嵌入[ ],以及距离嵌入[ ].然而,常用的模型难以聚焦整句的关键信息;因此,注意机制[ 已经被提出并证明在广泛的自然语言处理领域是成功的,例如机器翻译,阅读理解和情感分类[ - ].在我们提出的模型中,我们使用了Vaswani等人提出的多头注意机制[ 来处理全句分布特征的组合。多头注意可以忽略词与词之间的距离,直接计算词与词之间的依赖关系,学习句子在不同表示子空间中的句法语义特征。我们还构造了位置嵌入(PE)来注入位置信息,以利用句子中单词的顺序。在我们提出的模型中,我们还集成了基于语法依赖图的最短依赖路径和依赖类型特征作为输入特征之一,该方法已被多项研究证明是有效的[
, , ].尽管句法依赖特征包含有价值的句法信息,以促进生物医学关系的提取,但它们仍然可能丢失重要信息,例如在依赖路径上实体之前或之后的介词可能会被丢弃,这应该发挥关键作用[ ].因此,本研究采用分布式特征和句法依赖特征相结合的方式作为生物医学文本的最终特征表示,句法依赖特征作为补充特征存在。本文引入DL模型来解决2个生物医学关系提取任务:SeeDev-binary和BB-rel。我们结合多个分布式特征和一个多头注意机制,自动从长而复杂的句子中提取全局语义特征。依赖语法的特征也被集成到模型中。由于连接两个实体的最短依赖路径短而简洁,我们应用CNN来学习其特征。我们进行了大量的实验,我们的方法取得了成功F1在BB-rel和SeeDev-binary任务上的得分分别为65.56%和38.04%,在SeeDev-binary任务上达到了最先进的性能。
相关工作
BB-rel任务进行3次[
]前一版及第四版[ 基于生物多样性知识在微生物学理论研究和应用中的重要性,包括实体识别、实体归一化和关系提取,该研究的重点是提取细菌群落和表型的信息。这个版本已经扩展到包含一个新的实体类型表型,关系范畴展品,以及新的文件。我们主要研究了其中的一个子任务,关系提取任务(BB-rel),即预测的关系Lives_In类别之间的微生物年代,栖息地年代,地理实体,和的关系展品类别之间的微生物而且表型来自PubMed摘要和全文摘录的实体,其中提供了实体注释。许多研究人员为BB-rel任务贡献了自己的努力,并提出了创新的方法。例如,在2016年生物医学自然语言处理研讨会上,TurkuNLP团队使用Turku事件提取系统(TEES)的最短依赖路径方法[ ]和3个长短期记忆(LSTM)单元F1得分52.10% [ ].双向门控循环单元- attn团队提出了一种带有注意模型的双向门控循环单元F1得分57.42% [ ].Amarin等[ ]将特征组合与注意力模型和上下文表示相结合,以实现最先进的性能F1得分60.77%。在BioNLP-OST 2019中,几乎所有的研究人员都在各种架构中使用了神经网络模型。例如,Yuhang_Wu团队使用多层感知器实现了一个F1测试集得分60.49%。最高的F1得分为66.39%,由whunlp团队提交[ ].他们构建了一个基于词汇关联的依赖关系图,并使用双向LSTM (BiLSTM) [ ]和注意图卷积神经网络来检测两者之间的关系。此外,AliAI团队创新地使用了类似于来自变压器的双向编码器表示(BERT),达到64.96%,有效缓解了特定领域信息的匮乏[ ].SeeDev任务[
]旨在方便从科学文章中提取植物发育过程中有关调控的复杂事件,重点是描述其中涉及的遗传和分子机制的事件拟南芥种子发展。SeeDev任务涉及提取21个关系类别,涉及16种实体类型,以准确反映种子发育调控机制的复杂性,这是一个重大的科学挑战。SeeDev最初是在BioNLP-OST 2016上提出的[ ],在2019年,评估方法更加关注生物学的贡献。它包括完全关系提取和二元关系提取,其中主要研究二元关系提取子任务SeeDev-binary。为了解决这个问题,大多数研究人员使用了传统的监督机器学习方法。这些系统基于特定领域的知识设计人工模板或手动提取许多特征,如语言特征、语义特征和句法信息,并将其作为特征表示形式添加到系统中。然后使用基于核的机器学习算法(如SVM和贝叶斯)来检测关系类别,这在IE中被广泛使用。例如,UniMelb团队[ ]开发了一个事件提取系统,使用丰富的特征集和支持向量机分类器与线性核。此外,MIC-CIS团队[ ]使用支持向量机结合语言特征在BioNLP-OST 2019上获得最佳结果。随着DL模型逐渐成为主要的研究方法,DUTIR团队[ ]创新地使用了基于分布式特征的DL模型和CNN模型[ ].yunu -junyi团队[ ]整合LSTM模型[ ],以解决单靠CNN无法捕捉序列的长程依赖的问题,他们获得了一个F1BioNLP-OST 2019的SeeDev-binary任务得分为34.18%。方法
概述
在本节中,我们将详细描述我们提出的用于2个生物医学关系提取任务的模型。整体架构显示在
.第一部分介绍了数据集的预处理。在第二部分中,我们介绍了该方法中使用的一系列分布式语义特征,并在第三部分中介绍了它们所使用的多头注意机制。第四部分阐述了句法依赖特征的构建。在第五部分,我们介绍了分类和训练细节。最后,给出了训练和超参数的设置。数据预处理
在数据预处理阶段,我们使用tee [
, 运行文本预处理管道。TEES系统使用GENIA分句器将文本分成句子[ ]并通过集成的布朗实验室语言信息处理解析器来解析句子[ ]与生物医学领域模型[ ]来获取标记、POS标记,并解析每个单词的图形。然后,通过斯坦福转换工具[Stanford conversion tool]进一步处理解析器获得的短语结构树[ ],获取句法依赖关系图。BB-rel和SeeDev-binary任务是关系提取任务,它们检测生物医学文本中2个注释实体之间是否存在关系以及存在什么关系。例如,在句子“青霉素抗性的百分比。n球菌在该地区孤立的十年来变化很大,“在其中n球菌是微生物型实体而“百分数”是表型型实体,我们需要检测它们之间是否存在关系和范畴的关系。关系提取任务通常有两种解决方案:第一种是识别句子中实体对之间是否存在关系,然后分类出正确的类别[
],第二种方法是将识别分类两步合并为一步[ ].本文采用第二种方法,将非关系作为关系的一类,进行多类分类。在BB-rel和SeeDev-binary任务的训练和验证集中,只有积极的实例被标记。但是,在预测阶段,两个候选实体之间可能没有关系;因此,在训练阶段有必要手工构造反例。将生物医学文本划分为句子后,我们列举句子中的每个实体对,并将未标记的实例判断为无关系实例。由于SeeDev-binary和BB-rel任务的生物医学关系提取受到规则约束,某些实体类型之间必须没有关系。例如,在BB-rel任务中,实体之间必须没有生物医学关系地理的类型和实体表型类型。因此,我们需要进一步剔除不符合规则的实体对。
在这两个任务的数据集中,一个关系的实体不仅出现在同一个句子中(intrsentence),而且一个关系的实体可能出现在不同的句子中(intersentence),这对于生物医学的关系提取任务是一个很大的挑战[
].在我们的方法中,我们只考虑了句内关系,而忽略了句间关系。句间关系涉及到两个难点:一是推理关系困难复杂;另一种是负实例数量呈指数级增长,导致正、负样本极度失衡,导致模型性能下降。因此,现有的系统都只提取句内关系,没有考虑句间关系[ , ].此外,如果两个候选实体之间没有语法依赖路径,则删除实例。分布式语义表示
我们的方法通过结合多个分布式特征和多头注意机制,从完整的句子中提取全局语义特征。我们的模型中集成了领域特定词嵌入、POS嵌入、实体类型嵌入、距离嵌入和PE。
词嵌入是一种常用的分布式表示模型,它将丰富的语义信息编码为向量。一个完整句子的顺序n可以表示为{w1e1e、…2wn},在那里e1而且e2表示实体对。我们用预先训练好的200维生物医学单词嵌入模型初始化了单词嵌入[
],它是在PubMed和PMC摘要上训练的,全文包含了50亿个标记的未注释语料库。预训练的嵌入模型使用word2vec工具和skip-gram模型[ ].我们只使用最常用的10万个单词来构建字典D,对数据集中的未知单词进行随机初始化。以BB-rel任务为例,实体的单词可能不在字典中D,所以我们将“微生物”、“栖息地”、“地理”和“表型”添加到字典中,并随机初始化它们。的实体微生物类型且不在词语嵌入模型中,则将由词语“微生物”取代。通过预先训练好的词嵌入矩阵,我们可以将一个完整句子中的符号序列转换为一个向量序列.我们还使用了POS嵌入[ 来编码句子中单词的词性,这通常起着重要的作用。在训练阶段对POS嵌入进行随机初始化和微调。不同类型实体的组合对于某些关系具有不同的概率;因此,实体类型是预测的一个重要因素[
].由于2个生物医学关系提取任务都是有条件约束的,不涉及实体对之间的方向,所以实体类型序列只需要一条链来表示。因此,实体类型序列可以表示为{−1,t1t…,2−1},其中无实体词被标记为−1。通过一个随机初始化的类型嵌入矩阵,实体类型向量序列可以表示为.距离序列分为2个链,即当前单词到2个候选实体的距离。在我们的方法中,相对距离[
]用于测量当前单词与实体之间的距离,可表示为式1,其中l绝对距离是和年代是数据集中的最大距离。由于相对距离不是整数,因此需要构造距离字典,利用距离嵌入矩阵生成距离向量序列。由于我们使用多头注意力模型来处理一系列分布特征的组合,而不使用任何时间序列模型,因此我们必须向模型中注入一些单词的绝对位置信息;因此,我们参考Vaswani等人的研究[
].在我们的方法中,PE向量具有相同的维数d词为词嵌入,然后根据频率的正弦和余弦函数计算PE向量。公式如式2和式3所示,其中pos是位置和我代表了我一个单词的-th维。最后,在词嵌入中加入PE向量,将位置信息注入到模型中。最后,将一系列分布式特征进行串联,并且每个词w我在句子中可以表示为.该综合分布式特征被发送到多头注意层,以提取完整句的全局语义特征。
多头注意层
近年来,一系列基于注意力的模型被应用于关系抽取任务,并取得了显著的成功[
, ].注意机制的核心思想是通过分配注意分数来定位文本中的关键信息。目前应用最广泛的注意模型是加性注意[ ]和点积注意[ ].Vaswani等人的研究[ ],提出了多头注意机构作为变压器模型的主组成单元。在该模型中,可以使用attention通过值映射到一组键-值对来计算一系列值的输出,即计算值的加权和,其中分配给每个值的权重是通过具有相应键的查询来计算的。该方法以多头注意机制为编码器,提取完整句子的全局语义特征,并通过整合位置信息和使用缩放点积注意函数计算每个注意头。缩放点积注意和多头注意的总体结构如图所示
,与Vaswani等人的研究结果相似[ ].这里,Q, K, V是一样的,它们是完整句子的特征组合;因此,多头注意力也可以理解为自我注意力的一种形式。采用基于比例点积注意的8个注意头提取特征,将特征组合划分为8个通道。对于每个通道,每个词在句子中嵌入的长度n可以表示为z我.通过权重(W问,WkWv)我们可以得到一个词在不同子空间中的向量表达式,即(问我k我,v我),如式4所示。注意权重向量一个我对应于我-th查询由查询向量和键向量的点积计算,然后按比例缩放由Softmax函数计算,其中dk是特征的维数组合和n是句子的长度,如式5所示。
通过乘以注意力权重向量一个我由值序列的长度n,特征向量c我得到,为值的加权和,如式6所示。
因此,每个通道的注意头是的级联矩阵n特征向量,可以表示为h我用公式7。每个注意头可以将句子的语义信息编码在不同表示的子空间中。
h我= (c1c;2c,……;n](7)
进一步,我们将最后一个维度的多个注意头进行拼接,得到整个句子的多头注意特征,如式8所示。
多线程= (h1h;2h…;8](8)
与变压器模型类似,我们也在多头注意力模型后面使用了全连接神经网络,并使用了残差连接,如图所示
.最后,使用max-pooling操作获得完整句子的全局语义特征。语法依赖特性
基于连接两个候选实体的最短依赖路径和依赖关系图中的依赖关系类型,生成所提出的DL模型的语法依赖关系特征。最短依赖关系路径包含与描述提取相关的最重要的术语,并已多次成功应用于关系提取[
, ].中显示了一个语法依赖的示例 ,其中“肠球菌”为amicroorganism-type而“革兰氏阳性”是一个表型类型的实体。我们可以观察到,单词之间的依赖关系解析是有方向的。为了简化计算,我们使用了Mehryary等人的方法[ ],将句子的依赖关系转换为无向图,然后使用Dijkstra算法找到两个候选实体之间的最短路径。在BB-rel任务的情况下,我们总是从一个微生物-type实体来定位实体(a栖息地或者一个地理实体)或表型实体,不管它们在句子中的位置。因此,在本例中 ,最短依赖路径序列为(“Enterococcus”,“cause”,“infection”,“Gram-positive”),依赖类型序列为(nsubj, prep_of, amod)。在本例中,与的最短依赖路径的序列米令牌可以表示为{e1w2e、…2},在那里e1而且e2分别表示序列头部和尾部的实体对。我们使用了之前提到的预训练的200维生物医学词嵌入模型[
].利用预先训练好的词嵌入模型,我们可以将相关路径序列转换为向量序列.对于依赖类型序列{t1t2t…,m−1},我们把它转化成通过随机初始化嵌入矩阵并将其填充为与依赖路径相同的长度。将2个向量序列连接起来,和我-th字可以表示为.为了从依赖项路径和依赖项类型了解语法依赖项的局部特征,LSTM [
]是最常用的DL模型。通过观察最短依赖路径的长度,发现大部分实体间依赖长度为2 ~ 5,属于超短序列的特征提取。与LSTM相比,CNN更适合于超短和简洁的序列(Yin, W,未发表数据,2017年2月)。另外,CNN更适合并行计算。因此,我们引入了一个多滤波器CNN模型[ ]和max-pooling操作来学习句法依赖特征,其优点是可以从多通道的句子中学习隐藏特征和高级特征。分类及培训
在输出层,我们将句子的全局语义特征向量和句法依赖特征向量连接起来,以获得实例的高质量特征表示。此外,dropout算法[
]用于防止过拟合,使用Softmax函数对生物医学关系进行分类,得到各关系类别的概率分布。这两个任务包括训练集、验证集和测试集。在训练阶段,以多分类交叉熵为目标函数,自适应矩估计优化算法[
],学习率为0.001,用于更新神经网络参数。训练次数决定了模型的泛化性能;也就是说,训练周期过少会导致欠拟合,过度训练会导致过拟合。因此,我们的方法采用传统的早期停止方法,即在验证集上的性能不再提高时停止训练。实验结果表明,训练历元数不是一个固定值,模型一般在4个历元左右收敛。2个生物医学关系提取任务的数据集相对较小,DL模型具有较多的训练参数。因此,模型的初始随机状态可能会对模型的最终性能产生重大影响,并通过预实验验证了这一点。为了减少初始化状态对模型的影响,使用10个不同的随机初始化来评估模型,即用不同的随机种子训练相同的模型结构。最后,用最好的模型F1验证集的得分被用作最终模型。我们使用最终的模型来预测测试集,并使用结果在基于web的评估服务上评估我们的模型。
参数设置
通过预实验和基于验证集的评估,确定了模型的超参数。领域特定词嵌入、POS嵌入、实体型嵌入、距离嵌入、PE嵌入和依赖型嵌入的维数分别为200、200、200、100、200和200,并在训练阶段对嵌入矩阵进行微调。对于多头注意机制,我们采用单层多头注意模型,采用8个平行注意头,每个注意头线性层中的单元数与输入相同。为了提取句法依赖特征,卷积层数为1,过滤器数为128,窗口大小为2、3和4。此外,实验中采用LSTM模型,隐藏单元的输出维数设置为128。对于全局语义特征和句法依赖特征的组合,退出率为0.5。批处理大小设置为8。最后,我们使用DL框架Pytorch [
]来实施我们的模型并进行实验过程。伦理批准
这项工作中使用的数据集和方法是公开的,不涉及任何伦理或道德问题。
结果
数据集和评价指标
我们在BB-rel和SeeDev-binary任务数据集上进行了一系列实验,以评估我们提出的方法。
BioNLP-OST 2019中的BB-rel任务与之前的版本有很大不同,后者集成了新的实体类型表型和关系范畴展品.因此,本任务涉及4种实体类型,微生物,栖息地,地理位置,表型实体对之间的2个关系类别,Lives_In而且展品.在实践中,实体对之间的无关系也被视为一个预测类别,因此该任务被视为一个多分类关系提取任务。除了句内关系,BB-rel任务还考虑了句间关系,这仍然是一个重大挑战。句间关系在语料库中的比例为17.5%。在我们的方法中,我们只考虑了句内关系。我们采用数据预处理部分描述的方法,将文本分割成句子,构造否定实例,去除不符合规则约束的实例。这样,我们构建了1996个训练实例,其中相关实例943个;1040个验证实例,其中相关实例517个;和1414个测试实例。中总结了预处理过程后BB-rel任务数据集的详细分布
.由于数据修订和处理方法不同,本研究的例数可能与其他研究不一致。我们使用测试集的预测来评估基于web的评估服务的方法[
].它的评估指标与以前的版本相似,包括精度、召回率、F1得分,以及各关系类别的句内关系和句间关系的结果[ ].seedev -二进制任务语料库是一组87段,来自20篇关于种子开发的完整文章拟南芥,由领域专家手动注释了17种实体类型和22种关系类别。有3575个注释关系,包括1628个用于训练集的关系,819个用于验证集的关系,以及1128个用于测试集的关系。我们用同样的方法对数据集进行预处理,消除句间关系。然后构建18,997个训练实例,其中相关实例1508个;共构建验证实例8955个,其中相关实例746个;共构建12737个测试实例,详细分布如图所示
.可以看到,存在一个极端的不平衡,非关系样本的数量远远超过正样本,这更具有挑战性,并将对模型的性能产生负面影响[ ].因此,为了缓解这一问题,通过一系列的预实验,我们最终决定在训练阶段随机删除90%(15740 / 17489)的负样本,但验证集和测试集并没有减少。seedev -二进制文件也适用于基于web的评估服务。与SeeDev-binary 2016相比,任务组织者增加了新的评估指标,以强调生物医学贡献。评价指标是所有关系的全局结果、句内关系的结果和类型聚类,每个类型聚类都具有精度、查全率和F1得分。
类别 | 训练集 | 验证设置 | 测试集 |
总计 | 1996 | 1040 | 1414 |
Lives_in | 659 | 377 | 没有一个 |
展品 | 284 | 140 | 没有一个 |
现场直播和展览 | 943 | 517 | 没有一个 |
Nonrelation | 1053 | 523 | 没有一个 |
类别 | 训练集 | 验证设置 | 测试集 |
总计 | 18997年 | 8955 | 12737年 |
所有的关系 | 1508 | 746 | 没有一个 |
Nonrelation | 17489年 | 8209 | 没有一个 |
实验结果
在BB-rel任务中,我们使用了基于多头注意机制和句法依赖特征的DL模型来检测生物医学关系。我们提出的方法最终得到了一个F1测试集得分65.56%;详细信息见
.我们的方法有F1的关系类别得分分别为62.36%和73.62%Lives_In而且展品,并且在关系类别中表现更好展品.此外,可以注意到的是F1Lives_In和exhibit的句内关系识别得分分别为69.00%和77.67%,均高于综合F1得分。这是因为我们的预处理方法只处理句内关系;因此,它在句内关系的识别上表现得更好。列出了我们的方法在BB-rel任务中与其他系统的比较。表格前3行是官方排名前3的系统(10个参与),其中Yuhang_Wu使用的是多层感知器[ ], AliAI [ ]使用了类似于BERT的多任务架构,whunlp [ ]通过使用依赖图和注意图卷积神经网络实现了最先进的性能。第四行是任务管理器提供的基线,它使用共现方法。由于这些系统的模型架构存在巨大的差异,最终只有F1分数用于比较。的F1我们方法的得分比排名第三的Yuhang_Wu高5.07%,比排名第二的AliAI(64.96%)高0.60%。值得注意的是,我们的模型在BB-rel任务中达到了69.50%的最佳精度,优于现有的所有系统。这个结果表明,我们的方法倾向于预测更少的阳性类,也就是说,它在假阳性方面比其他模型表现得更好。综上所述,该比较表明我们提出的模型是有效的,并在BB-rel任务中取得了优异的性能。
在SeeDev-binary任务中,我们提出的方法实现了一个F1测试集中所有关系的得分为38.04%。具体关系类别的详细结果显示在
.如表所示,有7种类型的关系类别没有被检测到,例如Is_Involved_In_Process而且Occurs_During.通过对数据集的统计分析,发现训练集中这些关系类别的正面实例很少,这显然是造成分类不均匀的原因。列出了我们的方法与其他SeeDev-binary任务系统之间的比较结果。前2个系统是BioNLP-OST 2019官方排名的前2名。其中,排名第一的MIC-CIS [ ]采用语言特征和支持向量机分类器,实现了一种F1得分为37.38%,而yunu -junyi [ ,排名第二的系统,获得了一个F1采用DL模型结合分布式表示、CNN和LSTM模型,得分为34.18%。结果表明,我们的方法在所有关系和句内关系的分类中都达到了最先进的性能F1得分分别为38.04%和38.68%。在全关系范畴中F1我们的系统得分比排名第一的系统高出0.66%,比排名第二的系统高出3.86%。同时,结果与BB-rel任务相似;我们的系统在精度方面表现出色。在All关系和intrsentence关系中,准确率分别超过排名第一的系统7.30%和5.30%。这再次证明了我们的模型比其他模型的假阳性率更低。因此,我们可以得出结论,该模型可以同时利用多头注意机制和句法依赖特征,在生物医学关系提取任务中取得优异的性能。
在SeeDev-binary任务中,通过聚类的结果也是重要的评估指标F1分数见
.从表中可以看出,我们的模型在3个聚类类别中达到了最优结果:函数,监管,基因的调控,它在2个集群类别中表现不佳:组成成员而且交互,但我们提出的模型的整体性能总体上是令人满意的。类别 | 精度 | 回忆 | F1分数 |
现场直播和展览 | 69.50 | 62.05 | 65.56一个 |
Lives_In | 69.38 | 56.64 | 62.36 |
Lives_In (intrasentence) | 69.75 | 68.27 | 69.00 |
展品 | 69.77 | 77.92 | 73.62 |
展品(intrasentence) | 70.18 | 86.96 | 77.67 |
一个最后一个F1分数以斜体显示。
模型 | 精度 | 回忆 | F1分数 |
whunlp [ | ]62.94 | 70.22一个 | 66.38 |
AliAI [ | ]68.20 | 62.01 | 64.96 |
Yuhang_Wu [ | ]55.10 | 67.03 | 60.49 |
基线( | ]52.54 | 80.13 | 63.47 |
我们的模型 | 69.50 | 62.05 | 65.56 |
一个最大结果以斜体显示。
二元关系类型 | 精度 | 回忆 | F1分数 |
Exists_In_Genotype | 40.59 | 32.28 | 35.96 |
Occurs_In_Genotype | 0 | 0 | 0 |
Exists_At_Stage | 50.00 | 10.00 | 16.67 |
Occurs_During | 0 | 0 | 0 |
Is_Localized_In | 38.16 | 46.77 | 42.03 |
Is_Involved_In_Process | 0 | 0 | 0 |
Transcribes_Or_Translates_To | 0 | 0 | 0 |
Is_Functionally_Equivalent_To | 60.94 | 55.71 | 58.21 |
Regulates_Accumulation | 66.67 | 25.00 | 36.36 |
Regulates_Development_Phase | 22.86 | 41.56 | 29.49 |
Regulates_Expression | 24.65 | 50.72 | 33.18 |
Regulates_Molecule_Activity | 0 | 0 | 0 |
Regulates_Process | 40.04 | 64.71 | 49.47 |
Regulates_Tissue_Development | 0 | 0 | 0 |
Composes_Primary_Structure | 60.00 | 37.50 | 46.15 |
Composes_Protein_Complex | 50.00 | 66.67 | 57.14 |
Is_Protein_Domain_Of | 26.09 | 19.35 | 22.22 |
Is_Member_Of_Family | 27.78 | 52.33 | 36.29 |
Has_Sequence_Identical_To | 100.00 | 47.73 | 64.62 |
Interacts_With | 80.00 | 14.81 | 25.00 |
Binds_To | 30.77 | 12.50 | 17.78 |
Is_Linked_To | 0 | 0 | 0 |
所有的关系 | 34.75 | 42.02 | 38.04一个 |
一个最后一个F1分数以斜体显示。
模型 | 所有的关系 | Intrasentence关系 | |||||
精度 | 回忆 | F1分数 | 精度 | 回忆 | F1分数 | ||
MIC-CIS [ | ]27.45 | 51.15一个 | 37.38 | 29.45 | 53.08 | 37.88 | |
YNU-junyi [ | ]27.25 | 45.83 | 34.18 | 27.25 | 47.56 | 34.65 | |
我们的方法 | 34.75 | 42.02 | 38.04 | 34.75 | 43.61 | 38.68 |
一个最大结果以斜体显示。
模型 | 所有 | 比较 | 函数 | 监管 | 基因的调控 | 组成成员 | 交互 |
MIC-CIS [ | ]37.38 | 47.92 | 17.39 | 34.78 | 33.84 | 40.25一个 | 34.24 |
YNU-junyi [ | ]34.18 | 50.45 | 25.00 | 34.21 | 23.00 | 34.68 | 21.87 |
我们的方法 | 38.04 | 49.68 | 25.53 | 40.78 | 34.04 | 32.72 | 22.02 |
一个最大结果以斜体显示。
讨论
概述
在本节中,我们构建了消融实验来分析多头注意机制的有效性和句法依赖特征。为避免单一模型的不稳定性,取均值F1测试集的得分被用来衡量模型的性能。随后,我们进行了误差分析,并手动分析了正确和不正确的预测。
多头注意机制的有效性
与传统的CNN、BiLSTM和加性注意模型相比,我们首先分析了多头注意机制在完整句子全局语义特征提取中的有效性[
].所有模型都使用我们使用的分布式特征和语法依赖特征,例如特定于领域的词嵌入。由于PE在多头注意机制中的应用,我们将PE整合到所有模型中进行公平的比较。 这是平均数的比较F1使用各种模型来编码全局语义特征。从表中可以看出,前2行是单独使用CNN或BiLSTM模型提取句子特征表示的结果,其中BiLSTM模型的结果略好。一个可能的解释是,实例中的句子长度一般比较大,CNN模型只能处理窗口信息,依靠池化操作来总结句子的整体结构。然而,BiLSTM模型更适合于序列建模和使用双向记忆网络编码较长的序列信息。然后将它们与一个附加注意力模型结合起来。与单独的CNN和LSTM模型相比,注意力模型的应用有所提高F1在BB-rel上分别为1.82%和1.22%,在SeeDev-binary上分别为1.31%和1.11%。另外,带注意的CNN在BB-rel任务上的表现优于带注意的BiLSTM,这可能是因为注意机制填补了CNN无法捕捉句子的长距依赖关系的不足。因此,这些结果表明,注意机制可以通过关注标记序列的关键信息和学习句子的整体结构来有效地提高模型的性能。
最后,在不使用CNN和递归神经网络结构的情况下,将多头注意力机制引入模型中,得到了最优结果。的意思是F1两项任务的得分分别为63.13%和36.37%,分别比BiLSTM-attention模型高1.11%和1.24%,比CNN-attention模型高0.96%和1.45%。结果表明,多头注意机制在生物医学关系提取方面明显优于加性注意模型。在某种程度上,可将加性注意理解为只能在一个表示空间中学习全局语义特征的单头注意模型。而多头注意机制的优点在于,它在不同的表示子空间中捕捉全局语义信息,并从多个渠道将相关词的上下文信息整合到当前词中。实验结果表明,多头注意机制可以提取更全面的特征表示,有效提高关系提取模型的性能。
全局语义特征 | BB-rel | SeeDev-binary | ||||
最低一个 | 最大b | 意思是(SD) | 最低一个 | 最大b | 意思是(SD) | |
美国有线电视新闻网c | 57.26 | 63.26 | 60.35 (2.11) | 31.67 | 35.85 | 33.61 (1.33) |
BiLSTMd | 57.89 | 63.80 | 60.80 (1.88) | 32.39 | 36.28 | 34.02 (1.53) |
CNN-attention | 59.69 | 65.01 | 62.17 (1.69) | 32.89 | 37.52 | 34.92 (1.47) |
BiLSTM-attention | 59.80 | 64.38 | 62.02 (1.45) | 33.61 | 37.30 | 35.13 (1.18) |
多头的关注 | 60.68e | 65.56 | 63.13 (1.55) | 34.47 | 38.04 | 36.37 (1.13) |
一个最低的F1- 10个不同的随机初始化的分数。
b最高的F1- 10个不同的随机初始化的分数。
cCNN:卷积神经网络。
dBilSTM:双向长短期记忆网络。
e最大结果以斜体显示。
句法依赖特性的有效性
此外,我们还分析了句法依赖特征在模型中的有效性。根据语法分析,最短依赖路径的长度多为2 ~ 5,属于超短序列。因此,我们只尝试使用CNN和BiLSTM模型进行特征提取,结果如
.第一行显示了模型没有使用语法依赖特性的结果,以及平均值F1BB-rel和SeeDev-binary任务的得分分别为60.85%和34.60%。当使用LSTM模型提取句法依赖特征时,平均F1模型得分分别为62.88%和36.06%。当我们使用CNN模型时,模型的性能达到了最优F1在BB-rel和SeeDev-binary任务上分别提高到63.13%和36.37%。结果还表明,CNN模型在超短序列特征提取方面优于LSTM模型。通过对比,可以看出,句法依赖特征的集成可以使模型通过依赖图学习实体对之间的句法信息,可以有效地提高模型的性能。语法依赖特性 | BB-rel | SeeDev-binary | ||||
最低一个 | 最大b | 意思是(SD) | 最低一个 | 最大b | 意思是(SD) | |
没有用的 | 58.51 | 63.70 | 60.85 (1.65) | 32.89 | 36.53 | 34.60 (1.16) |
LSTMc | 59.93 | 65.16 | 62.88 (1.66) | 34.55d | 37.90 | 36.06 (1.07) |
美国有线电视新闻网e | 60.68 | 65.56 | 63.13 (1.55) | 34.47 | 38.04 | 36.37 (1.13) |
一个最低的F1- 10个不同的随机初始化的分数。
b最高的F1- 10个不同的随机初始化的分数。
cLSTM:长短期记忆网络。
d最大结果以斜体显示。
eCNN:卷积神经网络。
误差分析
为了验证我们提出的模型的优缺点,我们将实验结果与现有模型进行了比较。我们发现我们的系统在2个关系提取任务的精度方面表现更好,远远超过其他模型,这意味着我们的方法比其他模型有更低的假阳性率。一个可能的解释是,与其他系统相比,我们的模型结构引入了最短的依赖路径,可以更明确地识别实体对之间的生物医学关系。
2个关系提取任务受到规则约束;因此,有必要调查是否存在预测关系不符合规则的情况。例如,在句子“基于双亚硒酸盐离子和高渗氯化锶的选择性肉汤的评价Salmonellae“沙门氏菌”是一种实体微生物类型,实体“蛋制品”为栖息地类型。可能会有Lives_In它们之间的关系,但如果被预测为一个展览关系,一定是错的。通过分析验证集上的预测结果,发现这种情况很少发生。因此,我们的研究应该关注实体对之间是否存在生物医学关系。
此外,我们手动分析了验证集的正确和错误预测与现有DL模型(结构类似于yunu -junyi [
])。我们发现我们提出的模型通常在长句子上表现得更好。句子结构复杂,两个实体之间距离较远,更容易导致关系分类错误。例如,在“也门消化不良患者中幽门螺杆菌感染的患病率非常高,标准三联疗法的根除率不令人满意,可能是因为无限制使用抗生素导致广泛的细菌耐药性”这句话中,“H。幽门螺杆菌”是一种微生物实体,“由于无限制使用抗生素引起的广泛细菌耐药性”是一个表型实体,有一个展品他们之间的关系。DL模型,类似于yunu -junyi,预测它是一个非关系类别,但我们的模型可以更好地检测它,可能是因为我们提出的模型可以捕捉长句中单词之间的长期依赖关系。结论
本文重点研究了BioNLP-OST 2019中的2个关系提取任务:BB-rel任务和SeeDev-binary任务,旨在促进从生物医学文本中开发细粒度IE。针对这些任务,我们提出了一种基于一系列分布式特征组合的深度学习模型来检测关系,引入多头注意机制来提取全局语义特征,并使用语法依赖特征来丰富特征表示。我们提出的方法得到了F1两项任务的测试集得分分别为65.56%和38.04%,在SeeDev-binary任务中取得了最先进的结果。通过烧蚀实验,验证了多头注意和句法依赖特征的有效性。多头注意机制允许模型在不同位置的不同表示子空间中学习相关语义信息,并将句子中相关单词的上下文信息整合到当前的单词表示中,极大地提高了生物医学关系提取模型的性能。
尽管我们的模型在BB-rel和SeeDev-binary任务上表现出色,但仍然存在许多挑战。特别是,我们的方法没有考虑句间关系,这仍然是生物医学关系提取任务中的一个难题。这种情况是由于推理关系的复杂性和正反例的极度不平衡造成的。相比之下,使用DL模型从小型训练数据集中提取高质量特征是一个需要解决的问题。在未来的工作中,我们将考虑使用半监督学习方法或变压器模型,如BERT,以更好地解决生物医学关系提取的课题。
致谢
本研究由贵州省普通高校青年科技人才成长计划(黔教合KY字[2022]281号)、遵义市科技合作基金(遵市科合HZ字[2020]81号)、贵州省科技合作平台人才基金(黔科合平台人才[2018]5772-088,黔科合平台人才[2019]-020)资助。
利益冲突
没有宣布。
参考文献
- 李文杰,李志刚。基于信息抽取的文本知识挖掘方法。SIGKDD探索新闻2005年6月01日;7(1):3-10。[CrossRef]
- 李志强,李志强。分子生物学和生物医学中的文本挖掘方法。今日药物发现2005年3月15日;10(6):439-445。[CrossRef] [Medline]
- 张晓东,王晓东,张晓东。生物医学文本挖掘前沿:当前进展。简报Bioinform 2007九月;8(5):358-375 [免费全文] [CrossRef] [Medline]
- 马晓明,王晓明,王晓明,等。基于蛋白质相互作用的生物信息自动提取方法研究。Proc Int Conf intel system Mol biology 1999:60-67。[Medline]
- Segura-Bedmar I, Martínez P, de Pablo-Sánchez C.从生物医学文本中提取药物-药物相互作用。BMC Bioinformatics 2010 Oct 06;11(S5):P9 [免费全文] [CrossRef]
- Nédellec C, Bossy R, Kim JD。第四届BioNLP共享任务研讨会论文集。2016年发表于:BioNLP '16;2016年8月13日;德国柏林。[CrossRef]
- BioNLP开放共享任务2019。URL:https://2019.bionlp-ost.org/home[2022-09-01]访问
- Kambhatla N.结合词汇、句法和语义特征与最大熵模型提取关系。在:acl2004互动海报和演示会议的会议记录。2004年发表于:ACLdemo '04;2004年7月21日至26日;西班牙巴塞罗那,p. 22-es。[CrossRef]
- 引用本文:阮洪涛,刘志强。基于词表示和正则化的关系抽取领域自适应研究。见:第52届计算语言学协会年会论文集(第2卷:短论文)。2014年出席:ACL’14;2014年6月22日至27日;巴尔的摩,马里兰州,美国,第68-74页。[CrossRef]
- 阮春华,李志强,李志强。一种基于卷积核的关系提取方法。在:自然语言处理经验方法2009年会议论文集。2009年8月发表于:EMNLP '09;2009年8月6日至7日;新加坡,新加坡页1378-1387。[CrossRef]
- 孙林,韩霞。一种用于关系提取的特征富集树核。见:第52届计算语言学协会年会论文集(第2卷:短论文)。2014年出席:ACL’14;2014年6月22日至27日;巴尔的摩,马里兰州,美国,第61-67页。[CrossRef]
- Björne J, Salakoski T. TEES 2.1: BioNLP 2013共享任务中的自动注释方案学习。见:BioNLP共享任务2013研讨会论文集。2013年发表于:BioNLP '13;2013年8月9日;保加利亚,索非亚p. 16-25 URL:https://aclanthology.org/W13-2003.pdf
- 李宏,张娟,王娟,林宏,杨忠。2016年BioNLP-ST DUTIR:利用卷积网络和分布式表示提取复杂关系。见:第四届BioNLP共享任务研讨会论文集。2016年发表于:BioNLP '16;2016年8月13日;柏林,德国p. 93-100网址:https://aclanthology.org/W16-3012.pdf
- 王吴李江,周X, Y, b . 2019年BioNLP-OST YNU-junyi:使用CNN-LSTM模型嵌入SeeDev二进制事件提取。见:第五届BioNLP开放共享任务研讨会论文集,2019年发表于:BioNLP '19;2019年11月4日;中国香港,第110-114页。[CrossRef]
- LeCun Y, Bengio Y.图像,语音和时间序列的卷积网络。进:编辑Arbib MA。大脑理论和神经网络手册。美国马萨诸塞州剑桥:麻省理工学院出版社;10月1998:255 - 258。
- 刘松,唐波,陈强,王霞。基于卷积神经网络的药物-药物相互作用提取。计算数学方法医学2016;2016:6918381 [免费全文] [CrossRef] [Medline]
- 曾东,刘凯,赖松,周刚,赵娟。基于卷积深度神经网络的关系分类。在:COLING 2014,第25届国际计算语言学会议论文集:技术论文。2014发表于:COLING '14;2014年8月23-29日;都柏林,爱尔兰p. 2335-2344网址:https://aclanthology.org/C14-1220.pdf
- 张志刚,张志刚。长短期记忆。神经计算1997 11月15日;9(8):1735-1780。[CrossRef] [Medline]
- 张勇,郑伟,林浩,王军,杨忠,杜蒙提尔。基于序列和最短依赖路径的分级rnn药物-药物相互作用提取。生物信息学2018 Mar 01;34(5):828-835 [免费全文] [CrossRef] [Medline]
- 刘志刚,张志刚,张志刚,等。基于长短期记忆网络的生物医学文献药物相互作用提取方法。J Biomed Inform 2018 10月;86:15-24 [免费全文] [CrossRef] [Medline]
- Vu NT, Adel H, Gupta P, Schütze H.结合循环神经网络和卷积神经网络进行关系分类。见:计算语言学协会北美分会2016年会议论文集:人类语言技术。2016年6月发表于:NAACL '16;2016年6月12日至17日;加州圣地亚哥,p. 534-539网址:https://aclanthology.org/N16-1065/
- 郑松,郝勇,陆东,鲍华,徐建,郝华,等。基于混合神经网络的联合实体和关系提取。神经计算2017年9月;257:59-66。[CrossRef]
- Pyysalo S, Ginter F, Moen H, Salakoski T, Ananiadou S.生物医学文本处理的分布语义资源。第五届语言在生物和医学中的国际研讨会论文集。2013年发表于:LBM '13;2013年12月12日至13日;日本东京,第39-44页https://bio.nlplab.org/pdf/pyysalo13literature.pdf
- Pasupa K, Seneewong Na Ayutthaya T.基于深度学习技术的泰式情感分析:基于词嵌入、POS-tag和感知特征的比较研究。可持续城市社会2019年10月;50:101615。[CrossRef]
- 序列距离嵌入。华威大学计算机科学系2003年1月https://www.dcs.warwick.ac.uk/report/pdfs/cs-rr-393.pdf[2022-09-01]访问
- badanau D, Cho K, Bengio Y.神经机器翻译联合学习对齐和翻译。见:第三届学习表征国际会议论文集。2015年发表于:ICLR '15;2015年5月7-9日;美国加州圣地亚哥网址:https://arxiv.org/abs/1409.0473
- 刘文敏,范洪华。基于注意力的神经网络机器翻译方法。2015年自然语言处理经验方法会议,2015年9月发表于:EMNLP '15;2015年9月17-21日;葡萄牙里斯本p. 1412-1421网址:https://aclanthology.org/D15-1166/
- 于伟文,杜汉D,梁MT,赵锐,陈凯,M诺鲁子,等。QANet:将局部卷积与全局自我注意相结合,用于阅读理解。见:第六届学习表征国际会议论文集,2018年发表于:ICLR '18;2018年4月30日至5月3日;加拿大温哥华网址:https://openreview.net/forum?id=B14TlG-RW
- 王勇,黄敏,朱晓霞,赵磊。基于注意的面向方面级情感分类的LSTM。2016年自然语言处理经验方法会议论文集,2016年发表于:EMNLP '16;2016年11月1日至5日;美国德克萨斯州奥斯汀p. 606-615 URL:https://aclanthology.org/D16-1058.pdf
- 张志刚,张志刚,张志刚,等。注意力就是你所需的一切见:神经信息处理系统2017年进展。2017年发表于:NeurIPS '17;2017年12月4日至9日;美国加州长滩p. 5998-6008。
- Mehryary F, Björne J, Pyysalo S, Salakoski T, Ginter F.深度学习与最小训练数据:TurkuNLP条目在BioNLP共享任务2016。见:第四届BioNLP共享任务研讨会论文集。2016年发表于:BioNLP '16;2016年8月13日;柏林,德国p. 73-81 URL:https://aclanthology.org/W16-3009.pdf[CrossRef]
- 华玲,权春。基于最短依赖路径的卷积神经网络蛋白质-蛋白质关系提取。Biomed Res Int 2016;2016:8479587 [免费全文] [CrossRef] [Medline]
- 杨晓明,王晓明,王晓明,等。生物医学文本中细菌与生物群落的关系提取研究。BMC生物信息学2019 Dec 03;20(1):627 [免费全文] [CrossRef] [Medline]
- Deléger L, Bossy R, Chaix E, Ba M, Ferré A, Bessières P,等。2016年BioNLP共享任务中细菌群落任务概述。见:第四届BioNLP共享任务研讨会论文集。2016年发表于:BioNLP '16;2016年8月13日;德国柏林,第12-22页。[CrossRef]
- Bossy R, Deléger L, Chaix E, Ba M, Nédellec C.细菌生物群落在BioNLP开放共享任务2019。见:第五届BioNLP开放共享任务研讨会论文集,2019年发表于:BioNLP '19;2019年11月4日;中国香港,第121-131页。[CrossRef]
- 李玲,万杰,郑洁,王娟。基于GRU整合注意机制的生物医学事件提取。BMC生物信息学2018 Aug 13;19(增刊9):285 [免费全文] [CrossRef] [Medline]
- 熊伟,李峰,程明,余华,纪东。基于词汇链和依赖图的细菌群落关系提取。见:第五届BioNLP开放共享任务研讨会论文集,2019年发表于:BioNLP '19;2019年11月4日;中国香港,第158-167页。[CrossRef]
- 舒斯特尔。双向循环神经网络。IEEE信号处理1997年11月45(11):2673-2681。[CrossRef]
- 张强,刘超,池艳,谢晓,华霞。细菌群落信息提取的多任务学习框架。见:第五届BioNLP开放共享任务研讨会论文集,2019年发表于:BioNLP '19;2019年11月4日;中国香港,页105-109网址:https://aclanthology.org/D19-5716/[CrossRef]
- Chaix E Dubreucq B, Fatihi A, Valsamou D, Bossy R, Ba M,等。2016年BioNLP共享任务中植物种子发育调控网络(SeeDev)任务概述。见:第四届BioNLP共享任务研讨会论文集。2016年发表于:BioNLP '16;2016年8月13日;德国柏林,第1-11页。[CrossRef]
- Panyam NC, Khirbat G, Verspoor K, Cohn T, Ramamohanarao K.使用支持向量机和丰富的特征集进行SeeDev二进制事件提取。见:第四届BioNLP共享任务研讨会论文集。2016年发表于:BioNLP '16;2016年8月13日;德国柏林,第82-87页。[CrossRef]
- Gupta P, Yaseen U, Schütze H. BioNLP-OST 2019中嵌套命名实体识别的语言信息关系提取和神经结构。见:第五届BioNLP开放共享任务研讨会论文集,2019年发表于:BioNLP '19;2019年11月4日;中国香港,第132-142页。[CrossRef]
- Kim JD, Ohta T, Tateisi Y, Tsujii J. GENIA语料库——用于生物文本挖掘的语义注释语料库。生物信息学2003;19增刊1:i180-i182。[CrossRef] [Medline]
- Charniak E, Johnson M.粗到细n-最佳解析和MaxEnt判别重排序。载于:第43届计算语言学协会年会论文集。2005年发表于:ACL '05;2005年6月25日至30日;安娜堡,密歇根州,美国p. 173-180网址:https://aclanthology.org/P05-1022.pdf[CrossRef]
- 任意域解析:自然语言解析的自动域适应。普罗维登斯,罗德岛,美国:布朗大学;2010.
- de Marneffe MC, MacCartney B, Manning CD.从短语结构解析生成类型化依赖解析。第五届国际语言资源与评价会议论文集。2006年发表于:LRE '06;2006年5月22-28日;意大利热那亚p. 449-454网址:http://www.lrec-conf.org/proceedings/lrec2006/pdf/440_pdf.pdf
- 叶伟,李波,谢锐,盛智,陈林,张松。基于实体BIO标签嵌入和多任务学习的非平衡数据关系提取。见:第57届计算语言学协会会议记录,2019年发表于:ACL '19;2019年7月28日至8月2日;意大利佛罗伦萨,1351-1360页https://aclanthology.org/P19-1130/
- Mikolov T, Sutskever I, Chen K, Corrado G, Dean J.单词和短语的分布式表示及其组合。见:第26届神经信息处理系统国际会议论文集-第2卷。2013年发表于:NIPS '13;2013年12月5-10日;太浩湖,NV,美国p. 3111-3119。
- 郑伟,林华,罗林,赵忠,李忠,张勇,等。基于注意的药物-药物相互作用提取有效神经模型。BMC Bioinformatics 2017 Oct 10;18(1):445 [免费全文] [CrossRef] [Medline]
- 刘松,沈峰,Komandur Elayavilli R,王勇,Rastegar-Mojarad M, Chaudhary V,等。利用基于注意力的神经网络提取化学-蛋白质关系。数据库(牛津)2018年01月1日;2018:bay102 [免费全文] [CrossRef] [Medline]
- 李志强,李志强。一种用于关系提取的最短路径依赖核算法。在:人类语言技术会议论文集和自然语言处理经验方法会议。2005年发表于:EMNLP '05;2005年10月6日至8日;温哥华,加拿大p. 724-731网址:https://aclanthology.org/H05-1091.pdf
- 王晓峰,王晓峰,王晓峰,等。基于依赖树核的蛋白质相互作用自动提取方法研究。发表于:BioNLP 2011 Workshop. 2011;2011年6月23-24日;美国波特兰,OR, p. 124-133 URL:https://aclanthology.org/W11-0216.pdf
- 陈许Y,谅解备忘录L,李G, Y,彭H,金z分类关系通过长期短期记忆网络沿着最短路径的依赖。2015年自然语言处理经验方法会议论文集,2015年发表于:EMNLP '15;2015年9月17-21日;葡萄牙里斯本,1785-1794年https://aclanthology.org/D15-1206.pdf
- 用于句子分类的卷积神经网络。在:2014年自然语言处理经验方法会议论文集。2014年10月发表于:EMNLP '16;2014年10月25-29日;卡塔尔多哈,1746-1751年https://aclanthology.org/D14-1181/
- Srivastava N, Hinton G, Krizhevsky A, Sutskever I, Salakhutdinov R. Dropout:一种防止神经网络过拟合的简单方法。J Mach Learn Res 2014;15(56):1929-1958。
- 金马平,巴杰。亚当:一种随机优化方法。2014年12月22日发表于:ICLR '15;2015年5月7-9日;美国加州圣地亚哥网址:https://arxiv.org/abs/1412.6980
- 马莎,马莎,李丽娟,等。PyTorch:一个命令式的高性能深度学习库。见:第33届神经信息处理系统国际会议论文集,2019年发表于:NeurIPS '19;2019年12月8日至14日;加拿大温哥华,邮编8024-8035网址:https://proceedings.neurips.cc/paper/2019/file/bdbca288fee7f92f2bfa9f7012727740-Paper.pdf
- BioNLP-OST 2019评估服务。国家农学研究所,2019年。URL:http://bibliome.jouy.inra.fr/demo/BioNLP-OST-2019-Evaluation/index.html[2022-06-01]访问
缩写
BB-rel:细菌-生物群任务的关系提取 |
伯特:来自变压器的双向编码器表示 |
BiLSTM:双向长短期记忆 |
BioNLP-OST:生物医学自然语言处理工作坊-开放共享任务 |
有线电视新闻网:卷积神经网络 |
DL:深度学习 |
即:信息提取 |
LSTM:长短期记忆 |
体育:位置嵌入 |
POS:词性 |
SeeDev-binary:植物种子发育的二元关系提取任务 |
支持向量机:支持向量机 |
t恤:图尔库事件提取系统 |
C·洛维斯、J·海夫纳编辑;提交16.07.22;同行评审:崔y,王敏;作者评论02.08.22;订正后收到27.08.22;接受07.09.22;发表20.10.22
版权©李永斌,惠林虎,邹丽萍,李湖阳,徐洛,王晓华,Stephanie Chua。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 20.10.2022。
这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。