发表在gydF4y2Ba在gydF4y2Ba第6卷第1期(2018):1 - 3月gydF4y2Ba

使用基于注意的深度神经阅读器的生物医学文本理解的试点研究:设计和实验分析gydF4y2Ba

使用基于注意的深度神经阅读器的生物医学文本理解的试点研究:设计和实验分析gydF4y2Ba

使用基于注意的深度神经阅读器的生物医学文本理解的试点研究:设计和实验分析gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba高丽大学信息学院计算机科学与工程系,首尔,大韩民国gydF4y2Ba

2gydF4y2Ba高丽大学生物信息学跨学科研究生课程,首尔,大韩民国gydF4y2Ba

3.gydF4y2Ba美国科罗拉多州奥罗拉市科罗拉多大学安舒茨医学院肿瘤内科、转化生物信息学和癌症系统生物学实验室gydF4y2Ba

*这些作者贡献相同gydF4y2Ba

通讯作者:gydF4y2Ba

Jaewoo Kang博士gydF4y2Ba

计算机科学与工程系“,gydF4y2Ba

信息学学院gydF4y2Ba

高丽大学gydF4y2Ba

城北区安岩路145号gydF4y2Ba

首尔,02841gydF4y2Ba

大韩民国gydF4y2Ba

电话:82 02 3290 4840gydF4y2Ba

电子邮件:gydF4y2Bakangj@korea.ac.krgydF4y2Ba


背景:gydF4y2Ba随着以深度学习为中心的人工智能(AI)技术的发展,计算机已经发展到可以阅读给定的文本,并根据文本的上下文回答问题的程度。这样一个特定的任务被称为机器理解任务。现有的机器理解任务大多使用一般文本的数据集,比如新闻文章或小学级别的故事书。然而,还没有人尝试确定一个最新的基于深度学习的机器理解模型是否也可以处理包含专家级知识的科学文献,特别是在生物医学领域。gydF4y2Ba

摘要目的:gydF4y2Ba本研究旨在探讨机器理解模型是否可以处理生物医学文章以及一般文本。由于没有用于生物医学文献理解任务的数据集,我们的工作包括使用PubMed生成大规模的问答数据集,并手动评估生成的数据集。gydF4y2Ba

方法:gydF4y2Ba我们提出了一个为生物医学领域量身定制的基于注意力的深度神经模型。为了进一步提高模型的性能,我们使用了预训练的词向量和生物医学实体类型嵌入。我们还开发了一种集成方法,将几个独立模型的结果组合在一起,以减少模型答案的方差。gydF4y2Ba

结果:gydF4y2Ba实验结果表明,我们提出的深度神经网络模型在新数据集上的性能优于基线模型7%以上。我们还评估了人类在新数据集上的表现。人类评估结果表明,我们的深度神经模型在理解方面比人类平均高出22%。gydF4y2Ba

结论:gydF4y2Ba在这项工作中,我们使用深度神经模型在生物医学领域引入了一项新的机器理解任务。由于在生物医学领域没有用于训练深度神经模型的大规模数据集,我们使用PubMed语料库创建了新的完形式数据集生物医学知识理解标题(BMKC_T)和生物医学知识理解最后一个句子(BMKC_LS)(统称为生物医学知识理解)。实验结果表明,该模型的性能远高于人类模型。我们观察到,无论文本的难度如何,我们的模型都表现得更好,而人类在执行需要专家级知识的生物医学文献理解任务时却有困难。gydF4y2Ba

JMIR Med Inform 2018;6(1):e2gydF4y2Ba

doi: 10.2196 / medinform.8751gydF4y2Ba

关键字gydF4y2Ba



由于技术进步,发现和积累新的生物医学知识的速度继续迅速增加。大多数新发现都以生物医学文献的形式发表。PubMed容量的增长率反映了这种增长趋势。平均每天有3000多篇新论文被添加到PubMed。随着生物医学研究论文的发表数量迅速增加,生物医学知识工作者从快速增长的文献中收集和组装信息以构成生物医学问题的答案变得更加困难[gydF4y2Ba1gydF4y2Ba].为了解决这个问题,自动信息搜索和处理方法,如信息检索、生物医学文本挖掘[gydF4y2Ba2gydF4y2Ba-gydF4y2Ba5gydF4y2Ba],以及生物医学问答系统[gydF4y2Ba6gydF4y2Ba-gydF4y2Ba11gydF4y2Ba的研究近年来得到了严格的研究。gydF4y2Ba

最近,基于深度学习技术的人工智能(AI)的进步不仅提高了现有文本挖掘模型的性能,而且达到了机器可以阅读和理解文本的水平,从而可以对给定的问题做出回应。在人工智能领域,研究人员积极开展研究,以衡量机器在阅读理解任务中理解文本的能力[gydF4y2Ba12gydF4y2Ba-gydF4y2Ba17gydF4y2Ba].机器理解任务可以定义为测试机器根据上下文回答问题的能力。最近的研究表明,基于深度神经网络的模型有望执行阅读理解任务,目前优于所有替代模型[gydF4y2Ba12gydF4y2Ba-gydF4y2Ba14gydF4y2Ba].包括谷歌、Facebook和IBM Watson在内的几个人工智能研究小组开发了新的文本理解模型[gydF4y2Ba12gydF4y2Ba-gydF4y2Ba15gydF4y2Ba].gydF4y2Ba

基于深度学习的方法需要足够的数据来训练模型。因此,除了模型架构之外,自动生成大量数据(可用于训练神经模型)的方法也得到了积极的研究。一项研究使用完形句式[gydF4y2Ba18gydF4y2Ba他们被用来评估小学生的学习能力。还介绍了几个大型完形风格的上下文-问题-答案数据集。这些数据集只包含来自新闻文章(有线新闻网[CNN]/《每日邮报》)和儿童书籍等来源的一般信息,而不包括专业知识。gydF4y2Ba

有了一个完善的机器理解模型,人们可以利用给定的上下文快速有效地找到问题的正确答案。然而,虽然机器理解在AI研究领域得到了积极的研究,但最近的机器理解技术还没有应用到最需要信息处理的生物医学领域。目前,还没有用于生物医学文本理解任务的数据集,因此计算机理解生物医学领域知识的能力尚未得到验证。gydF4y2Ba

在本文中,我们提出了一个生物医学文献的机器理解任务。我们还提供了一个新的大型完形式数据集,称为生物医学知识理解(BMKC),可用于训练深度神经网络模型。我们的目标是测试机器是否能正确理解科学论文,比如我们数据集中的那些论文,因为它已经在之前的研究中被证明可以理解一般的文本,比如故事书。我们证明,我们最先进的深度学习模型增强了生物医学领域特定的特征,可以理解生物医学文献。通过与人类的性能比较,我们观察到人类的理解性能取决于文本的难度程度,而机器的表现始终良好。gydF4y2Ba

这项研究为该领域提供了三个贡献。首先,据我们所知,这项工作是第一个在生物医学领域提出基于深度学习的机器理解任务。其次,我们使用PubMed语料库生成相当大的数据集,用于训练深度神经机器理解模型。自动生成的数据集为深度学习和未来QA系统等数据饥渴技术提供了巨大的机会。我们公开了数据集[gydF4y2Ba19gydF4y2Ba].第三,我们提出了使用预训练的Word2Vec和实体类型嵌入特征来提高现有机器理解模型性能的方法。我们采用集成方法组合多个单一模型来产生改进的答案预测结果。实验结果表明,我们提出的方法可以帮助我们的模型在为一般文本开发的原始文本理解模型的基础上,在生物医学文献中达到最先进的性能。gydF4y2Ba


在本节中,我们首先解释为机器理解任务自动创建大规模生物医学文本数据集的过程。然后我们描述了注意力和阅读器(ASR) [gydF4y2Ba15gydF4y2Ba,这是一种用于机器理解任务的最先进的深度神经模型。我们提出了两种额外的技术,利用预训练的词向量和实体类型嵌入,这两种技术都用于构建适合生物医学领域的文本理解模型。为了提高预测精度,我们还应用了集成学习,通过集成几个独立的同质模型的输出来获得最终的答案预测。gydF4y2Ba

完形式生物医学机器综合任务概述gydF4y2Ba

完形疑问句是从句子中去掉一个短语;完形填空题是gydF4y2Ba烦gydF4y2Ba类型的问题。完形格式的数据集采用上下文-问题-答案三组的形式。从机器学习的角度来看,这个任务很容易评估。完形句式文本理解任务可以定义为以下形式的元组(gydF4y2BadgydF4y2Ba,gydF4y2Ba问gydF4y2Ba,gydF4y2Ba一个gydF4y2Ba,gydF4y2Ba一个gydF4y2Ba),gydF4y2BadgydF4y2Ba是一份文件,gydF4y2Ba问gydF4y2Ba是查询,和gydF4y2Ba一个gydF4y2Ba答案是疑问吗gydF4y2Ba问gydF4y2Ba,它来自一组候选答案gydF4y2Ba一个gydF4y2Ba.更具体地说,给定一个文档-查询对(d, q),我们的目标是查找gydF4y2Ba一个gydF4y2BaϵgydF4y2Ba一个gydF4y2Ba这答案gydF4y2Ba问gydF4y2Ba.gydF4y2Ba

完形式生物医学机器综合数据集gydF4y2Ba

我们的BMKC数据集像其他现有数据集一样采用完形格式(上下文-问题-答案)。主要区别是BMKC由生物医学领域的科学文章组成,需要专业知识才能理解,而其他现有数据集包含非科学的一般文本,如新闻文章和儿童故事书[gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba,gydF4y2Ba16gydF4y2Ba].gydF4y2Ba

我们详细解释生成数据集的方法如下。首先,我们需要一个上下文文档。我们选择了一篇论文的摘要作为背景gydF4y2BadgydF4y2Ba在我们的BMKC数据集中。与CNN新闻数据集中给出摘要不同,研究文章摘要没有这样的摘要。因此,我们采用了一种不同的方法来自动生成问题。gydF4y2Ba

这个问题gydF4y2Ba问gydF4y2Ba有两种不同的生成方式。在生物医学知识理解标题(BMKC_T)中,一个问题是由学术论文的标题构建的,因为标题可以被认为是论文摘要的简短总结。生物医学知识理解最后一句(BMKC_LS)使用论文摘要的最后一句作为问题,灵感来自Hill等人的工作[gydF4y2Ba13gydF4y2Ba].简而言之,BMKC数据集(gydF4y2Ba表1gydF4y2Ba)可以定义为(gydF4y2BadgydF4y2Ba,gydF4y2Ba问gydF4y2Ba,gydF4y2Ba一个gydF4y2Ba,gydF4y2Ba一个gydF4y2Ba),gydF4y2BadgydF4y2Ba是一个摘要,gydF4y2Ba问gydF4y2Ba是标题(BMKC_T)还是摘要的最后一句(BMKC_LS)gydF4y2Ba一个gydF4y2Ba答案是疑问吗gydF4y2Ba问gydF4y2Ba.gydF4y2Ba

数据生成过程gydF4y2Ba

生成BMKC数据集的过程包括以下三个步骤。首先,我们从PubMed收集了生物医学研究文章。从20世纪60年代开始,PubMed现在提供了2400多万篇追溯到1946年的生物医学和生命科学文章的参考文献。我们总共下载了200个MEDLINE文件(medline16n0813-medline16n08131012),其中包含大约220万篇生物医学论文,包括标题、摘要、关键字、发表年份、作者信息等。gydF4y2Ba

在200个MEDLINE文件中,我们使用196个文件(medline16n0813-medline16n08131008)作为我们的训练集,两个文件(medline16n1009-1010)作为我们的验证集,最后两个文件作为我们的测试集(medline16n1011-1012)。gydF4y2Ba表2gydF4y2Ba显示了200个MEDLINE文件中按发表年份划分的文章数量。超过95%(2,110,444/2,208,081)的文章发表于2010年之后。请注意,期刊论文的发表日期是随机分布在训练集、验证集和测试集。gydF4y2Ba

下一步是提取生物医学实体,生成完形填空式问题的候选答案。我们利用生物医学实体搜索工具(BEST)中的生物医学命名实体提取器[gydF4y2Ba20.gydF4y2Ba].为了增加生物医学实体的覆盖范围,我们为我们的实体提取过程添加了医学主题标题(MeSH),这是一个分级生物医学词汇同义词库。使用MeSH的一个优点是,它提供了一种实体解析函数,可以将具有相同含义的几个不同生物医学实体名称分组到一个MeSH标识(ID)中。接下来,我们将所有实体名称替换为它们的唯一实体id。与Herman等人的研究不同[gydF4y2Ba12gydF4y2Ba],我们没有为每个上下文随机排列实体ID。保留唯一的实体id允许模型在训练过程中获取背景知识,这将提高生物医学知识特定QA任务的性能。gydF4y2Ba

表1。BMKC_T(标题)和BMKC_LS(最后一句)的例子。在BMKC_LS数据集中,上下文的最后一句话在训练中被排除,因为它本身是一个问题。gydF4y2Ba
参数gydF4y2Ba BMKC_T(标题)gydF4y2Ba (最后一句)gydF4y2Ba
背景(论文摘要)gydF4y2Ba 在乳腺癌中,核共激活因子NCOA1 (SRC-1)的过表达与疾病复发和内分泌治疗的耐药性有关。为了研究NCOA1过表达对乳腺(MG)中形态发生和癌变的影响,我们生成了MMTV-hNCOA1转基因[Tg(NCOA1)]小鼠。(…)在453个人类乳腺肿瘤的队列研究中,NCOA1和CSF1水平与疾病复发、更高的肿瘤分级和不良预后呈正相关。总之,我们的研究结果确定了促进乳腺癌转移的NCOA1/AP-1/CSF1调节轴,为阻碍这一过程提供了新的治疗靶点。gydF4y2Ba
问题gydF4y2Ba ___ ?___直接针对M-CSF1表达促进乳腺癌转移。gydF4y2Ba 总之,我们的结果定义了NCOA1/ ___?___ /CSF1调节轴,促进乳腺癌转移,提供了一个新的治疗靶点,以阻碍这一过程。gydF4y2Ba
回答考生(生物医学命名实体)gydF4y2Ba 巨噬细胞,致癌,形态发生,转移,疾病,AP-1,肿瘤,肺,NCOA1,(治疗,治疗),复发,乳腺,上皮细胞,细胞,CSF1, SRC,小鼠,c-Fos,人,影响,(乳腺癌,乳腺肿瘤),效率gydF4y2Ba
表2。200个MEDLINE文件中按年计算的出版物数量。gydF4y2Ba
一年gydF4y2Ba 论文数量gydF4y2Ba
1910 - 1959gydF4y2Ba 12178年gydF4y2Ba
1960 - 2009gydF4y2Ba 85459年gydF4y2Ba
2010 - 2016gydF4y2Ba 2110444年gydF4y2Ba

最后,我们筛选不满足以下两个条件的上下文-问题对:(1)答案至少在上下文和问题中出现一次,形成有效的上下文-问题对;(2)候选答案总数应超过20个,以确保一定的难度和与其他语料库的公平比较。最后,我们为BMKC_T和BMKC_LS数据集获得了大约50万个上下文问题对。gydF4y2Ba

注意总和读者gydF4y2Ba

深度长短期记忆读卡器gydF4y2Ba12gydF4y2Ba]首次提出在深度学习模型的完形式数据集上执行机器理解任务,并进行了后续研究。近年来,基于注意的模型因其在各种任务上的高性能而在各种深度学习模型中得到了积极的研究[gydF4y2Ba21gydF4y2Ba-gydF4y2Ba24gydF4y2Ba].由于文本理解任务涉及在上下文中选择一个正确的单词,注意机制在任务中取得了优异的表现。具体来说,ASR模型[gydF4y2Ba15gydF4y2Ba]在一般文本数据集(CNN和每日邮报)上达到了最先进的性能。因此,我们完成了基于ASR架构的生物医学文献理解任务。整个ASR模型的工作原理如下。gydF4y2Ba

ASR模型使用词嵌入函数e,利用查找矩阵WgydF4y2BavgydF4y2Ba,将单词转换为低维向量表示,其行是词汇表V (gydF4y2Ba图1gydF4y2Ba一个)。gydF4y2Ba

该模型有两个编码器:一个上下文编码器(gydF4y2Ba图1gydF4y2BaB)和查询编码器(gydF4y2Ba图1gydF4y2Bac).编码器将上下文和查询转换为连续的向量表示。上下文编码器gydF4y2BafgydF4y2Ba由双向门控循环单元(GRU)实现。答案计算过程具体如下:gydF4y2Ba

编码器通过单词嵌入函数ℯ接收单词向量作为输入。的上下文嵌入gydF4y2Ba我gydF4y2Ba第一个字gydF4y2BadgydF4y2Ba作为gydF4y2BafgydF4y2Ba我gydF4y2Ba(d) =gydF4y2Ba(d) | |gydF4y2Ba(d)gydF4y2Ba||表示向前和向后上下文嵌入的向量拼接gydF4y2Ba而且gydF4y2Ba.然后,查询由查询编码器编码gydF4y2BaggydF4y2Ba这也是由另一个双向GRU网络实现的,比如gydF4y2Bag (q) =gydF4y2Ba(问)| |gydF4y2Ba(问)gydF4y2Ba.的参数gydF4y2BafgydF4y2Ba,gydF4y2BaggydF4y2Ba,和ℯ在训练阶段共同优化。gydF4y2Ba

接下来,单词注意力(答案概率)gydF4y2Ba我gydF4y2Ba由编码器之间的点积(gydF4y2Ba图1gydF4y2BaD)传递到soft-max层,如下所示:gydF4y2Ba

其中,>表示向量之间的点积。最后,该模型根据所有可能答案的表示计算所有可能答案的分数,并通过将它们的答案概率相加(gydF4y2Ba图1gydF4y2Bae).最终答案令牌的概率最高gydF4y2BaPgydF4y2Ba(gydF4y2Ba一个gydF4y2Ba|gydF4y2BadgydF4y2Ba,gydF4y2Ba问gydF4y2Ba)回答问题gydF4y2Ba问gydF4y2Ba超过给定文件gydF4y2BadgydF4y2Ba这样:gydF4y2Ba

在哪里gydF4y2Ba我(a, d)gydF4y2Ba答案标记在文档中的位置集合。然后选择概率最大的候选答案作为最终答案。gydF4y2Ba

正如我们所描述的,ASR模型采用一种称为指针和注意力的聚合方案。因此,基于注意的模型的性能优于一般的深度学习模型[gydF4y2Ba12gydF4y2Ba,gydF4y2Ba13gydF4y2Ba].由于基于注意的模型适合于关注特定的目标,因此它可以在使用上下文选择特定单词来回答问题的完形填空式QA任务中获得高性能。gydF4y2Ba

‎gydF4y2Ba
图1所示。ASR模型体系结构采用原论文。gydF4y2Ba
查看此图gydF4y2Ba
表3。来自两个信息源的实体类型列表:gydF4y2Ba20.gydF4y2Ba]和MeSH树结构。gydF4y2Ba
源类型gydF4y2Ba 实体类型gydF4y2Ba
最好的gydF4y2Ba 基因,药物,化合物,靶点,疾病,毒素,转录因子,miRNA,途径,突变gydF4y2Ba
网gydF4y2Ba 解剖学[A];生物[B];疾病[C];[D];分析、诊断、治疗方法的研究进展[E];精神病学与心理学[j];中国农业科学[G];研究方向[H];人类学、教育学、社会学与社会现象[I];我国农业发展现状与对策[J]; Humanities [K]; Information Science [L]; Named Groups [M]; Health Care [N]; Publication Characteristics [V]; Geographicals [Z]

利用预训练的生物医学词嵌入提高模型性能gydF4y2Ba

将单词表示为低维向量是用于自然语言处理(NLP)任务的深度学习模型的关键元素。如前一节所述,神经模型使用上下文向量和查询表示之间的内积来选择正确答案。因此,如果组成上下文和查询的单词的向量在向量空间中被很好地表示,所选答案正确的概率就会更高。gydF4y2Ba

众所周知,在足够大的语料库上训练的词嵌入可以捕获潜在的语义含义,并提高几乎所有NLP任务的性能。公开可用的生物医学文献资源(如PubMed和PubMed Central Open Access)包含超过55亿字的摘要和全文[gydF4y2Ba25gydF4y2Ba].使用在如此大量文本上训练的词嵌入向量可以提高模型在我们任务中的性能。这是因为在大型语料库上学习的向量表示可以捕获更精确的单词语义。因此,我们的目标是使用预训练的词向量而不是随机初始化的词嵌入来提高为一般文本(新闻)开发的原始ASR模型的性能。我们从Pyysalo等人那里下载了预先训练好的词向量[gydF4y2Ba26gydF4y2Ba].关于生物词向量的详细信息如下。用于训练生物词向量的源数据来自PubMed和所有从PubMed中央开放获取子集获得的全文文档。词向量由Skip-Gram模型生成,该模型的窗口大小为5,采用分层软最大训练,频繁词子采样阈值为0.001。我们使用200维词向量,就像在以前的许多NLP任务中所做的那样。中查找表每次初始化的性能进行了比较gydF4y2Ba实验gydF4y2Ba部分。gydF4y2Ba

使用实体类型嵌入提高模型性能gydF4y2Ba

添加实体类型信息有助于理解上下文。例如,当“@entity1表达式”或“@entity2表达式”出现在上下文中时,模型知道@entity1和@entity2是gydF4y2Ba基因gydF4y2Ba类型实体,模型可以学习到上下文是关于基因表达。此外,当其他表达,如“@entity3 0.3%”或“@entity4 100mg”出现,信息@entity3和@entity4是gydF4y2Ba药物gydF4y2Ba给出了类型实体,模型可以学习到上下文是关于药物浓度的。gydF4y2Ba

为了利用生物医学实体的类型信息,我们使用了BEST实体提取工具[gydF4y2Ba20.gydF4y2Ba].为了提高查全率,我们还提取了MeSH术语,并利用MeSH术语层次结构作为每个术语的实体类型标签。更具体地说,MeSH树具有类似于概念本体的层次结构。我们使用MeSH树中的父节点作为代表实体类型。最后,我们从BEST中选择了10种实体类型,从MeSH中选择了16种实体类型(gydF4y2Ba表3gydF4y2Ba).gydF4y2Ba

接下来,我们合并了一些具有相似语义的实体类型。例如,gydF4y2Ba基因gydF4y2Ba,gydF4y2Ba目标gydF4y2Ba,gydF4y2Ba转录因子gydF4y2Ba类型可以合并到类型中gydF4y2Ba基因gydF4y2Ba.同样的,gydF4y2Ba药物gydF4y2Ba,gydF4y2Ba毒素gydF4y2Ba,gydF4y2Ba化合物,gydF4y2Ba而且gydF4y2Ba化学物质和gydF4y2Ba药物gydF4y2Ba类型合并为代表类型gydF4y2Ba化学物质和gydF4y2Ba药物gydF4y2Ba[D]。我们分配gydF4y2Ba未知的gydF4y2Ba如果词语没有特定的类型。我们最终构造了20维随机初始化的类型嵌入向量,并将其连接到原始词向量(gydF4y2Ba图1gydF4y2Ba一个)。gydF4y2Ba

使用集成模型改进模型性能gydF4y2Ba

神经网络集成方法将单个模型的预测结果结合起来。这种集成方法可以基于其泛化能力提高性能[gydF4y2Ba27gydF4y2Ba].神经网络集成方法的两个考虑因素是单独的网络生成和集成输出[gydF4y2Ba28gydF4y2Ba].本研究采用了整体平均法。集合平均由一组独立训练的神经网络模型组成,这些模型共享相同的训练数据,它们的单独输出通过平均各个模型的结果来线性组合以产生整体预测。由于每个神经网络模型的权值都是随机初始化的,因此我们可以创建一个具有相同网络结构的独立网络。虽然所得到的集成模型与单个模型具有相同的偏差,但其方差减小,因此可以获得比单个模型更好的预测精度。gydF4y2Ba


生物医学知识理解数据集gydF4y2Ba

我们的BMKC数据集是第一个为生物医学机器理解任务开发的大规模数据集。我们将数据集公开供未来研究使用[gydF4y2Ba19gydF4y2Ba].gydF4y2Ba表4gydF4y2Ba显示了我们的数据集与四个现有的机器综合数据集比较的统计摘要。gydF4y2Ba

表4。BMKC数据集和其他现有数据集的统计。注意,查询的数量等于文档的数量,因为每个文档生成一个查询。gydF4y2Ba
数据集gydF4y2Ba 查询个数gydF4y2Ba 最大选项数gydF4y2Ba 平均选项数gydF4y2Ba 平均代币数量gydF4y2Ba 词汇量(全部)gydF4y2Ba
BMKC_TgydF4y2Ba





火车gydF4y2Ba 463981年gydF4y2Ba 93gydF4y2Ba 25.6gydF4y2Ba 291gydF4y2Ba 876621年gydF4y2Ba

验证gydF4y2Ba 5278gydF4y2Ba 66gydF4y2Ba 25.4gydF4y2Ba 291gydF4y2Ba

测试gydF4y2Ba 3868gydF4y2Ba 74gydF4y2Ba 25.7gydF4y2Ba 289gydF4y2Ba
BMKC_LSgydF4y2Ba





火车gydF4y2Ba 362439年gydF4y2Ba 90gydF4y2Ba 25.3gydF4y2Ba 270gydF4y2Ba 714751年gydF4y2Ba

验证gydF4y2Ba 4136gydF4y2Ba 57gydF4y2Ba 25.1gydF4y2Ba 269gydF4y2Ba

测试gydF4y2Ba 3205gydF4y2Ba 74gydF4y2Ba 25.4gydF4y2Ba 271gydF4y2Ba
美国有线电视新闻网(gydF4y2Ba12gydF4y2Ba]gydF4y2Ba





火车gydF4y2Ba 380298年gydF4y2Ba 527gydF4y2Ba 26.4gydF4y2Ba 762gydF4y2Ba 118497年gydF4y2Ba

验证gydF4y2Ba 3924gydF4y2Ba 187gydF4y2Ba 26.5gydF4y2Ba 763gydF4y2Ba

测试gydF4y2Ba 3198gydF4y2Ba 396gydF4y2Ba 24.5gydF4y2Ba 716gydF4y2Ba
每日邮报[gydF4y2Ba12gydF4y2Ba]gydF4y2Ba





火车gydF4y2Ba 879450年gydF4y2Ba 371gydF4y2Ba 26.5gydF4y2Ba 813gydF4y2Ba 208045年gydF4y2Ba

验证gydF4y2Ba 64835年gydF4y2Ba 232gydF4y2Ba 25.5gydF4y2Ba 774gydF4y2Ba

测试gydF4y2Ba 53182年gydF4y2Ba 245gydF4y2Ba 26.0gydF4y2Ba 780gydF4y2Ba
CBT_NEgydF4y2Ba一个gydF4y2Ba[gydF4y2Ba13gydF4y2Ba]gydF4y2Ba





火车gydF4y2Ba 120769年gydF4y2Ba 10gydF4y2Ba 10gydF4y2Ba 470gydF4y2Ba 53185年gydF4y2Ba

验证gydF4y2Ba 2000gydF4y2Ba 10gydF4y2Ba 10gydF4y2Ba 448gydF4y2Ba

测试gydF4y2Ba 2500gydF4y2Ba 10gydF4y2Ba 10gydF4y2Ba 461gydF4y2Ba
CBT_NoungydF4y2BabgydF4y2Ba[gydF4y2Ba13gydF4y2Ba]gydF4y2Ba





火车gydF4y2Ba 180719年gydF4y2Ba 10gydF4y2Ba 10gydF4y2Ba 433gydF4y2Ba 53063年gydF4y2Ba

验证gydF4y2Ba 2000gydF4y2Ba 10gydF4y2Ba 10gydF4y2Ba 412gydF4y2Ba

测试gydF4y2Ba 2500gydF4y2Ba 10gydF4y2Ba 10gydF4y2Ba 424gydF4y2Ba

一个gydF4y2BaCBT_NE是一个数据集,它使用在上下文中作为候选答案出现的儿童图书测试命名实体gydF4y2Ba

bgydF4y2BaCBT_Noun是一个数据集,它使用出现在上下文中的儿童书籍测试名词短语作为候选答案gydF4y2Ba

CNN和Daily Mail的数据集分别包含来自CNN和Daily Mail新闻报道的故事-问题对。儿童书籍测试(CBT)数据集包含儿童书籍中的故事。语境由儿童读物中20个连续的句子组成,而问题则是从连续的第21个句子中去掉一个单词。数据集的详细比较如下所示。数据集比较基于占用每个数据集最大部分的训练集。gydF4y2Ba

数据集的大小gydF4y2Ba

BMKC数据集(BMKC_T: 463,981, BMKC_LS: 362,439)的大小比所有其他数据集(CNN: 380,298,儿童书籍测试名词短语[cbt_名词]:180,719,儿童书籍测试命名实体[CBT_NE]: 120,769)都要大,除了每日邮报数据集(879,450)。虽然目前的BMKC数据集足够大,可以训练一个相当复杂的深度神经阅读器,但可以通过添加MEDLINE的文章轻松增加训练集的大小。gydF4y2Ba

查询长度gydF4y2Ba

与每个查询的长度(单个上下文-问题对)一样,我们的BMKC数据集(BMKC_T: 291, BMKC_LS: 270)的平均令牌数量小于其他数据集(CNN: 762, Daily Mail: 813, cbt_名词:470,CBT_NE: 433)。学术论文摘要的长度通常是有限的,而新闻文章可以包含较长的上下文,没有长度限制。gydF4y2Ba

考生答题数量gydF4y2Ba

BMKC数据集的平均选项数(即一个问题的候选答案的数量)与CNN和Daily Mail数据集的相当,并且大于cbt_名词和CBT_NE数据集的平均选项数。gydF4y2Ba

表5所示。原始ASR模型和特征增强模型(ASR+BE, ASR+TE, ASR+BE+TE)在BMKC_T和BMKC_LS数据集上的准确性。报告了单一模型和集成模型的结果。最好的分数用斜体突出显示。gydF4y2Ba
模型gydF4y2Ba BMKC_TgydF4y2Ba BMKC_LSgydF4y2Ba


验证(%)gydF4y2Ba 测试(%)gydF4y2Ba 验证(%)gydF4y2Ba 测试(%)gydF4y2Ba
单gydF4y2Ba




ASR [gydF4y2Ba15gydF4y2Ba]gydF4y2Ba 79.8gydF4y2Ba 77.8gydF4y2Ba 73.4gydF4y2Ba 70.5gydF4y2Ba

ASR +是gydF4y2Ba 81.0gydF4y2Ba 78.6gydF4y2Ba 74.6gydF4y2Ba 71.4gydF4y2Ba

ASR + TEgydF4y2Ba 80.9gydF4y2Ba 78.5gydF4y2Ba 74.3gydF4y2Ba 70.1gydF4y2Ba

ASR +是+ TEgydF4y2Ba 81.4gydF4y2Ba 78.3gydF4y2Ba 74.8gydF4y2Ba 72.0gydF4y2Ba
系综gydF4y2Ba




ASRgydF4y2Ba 83.7gydF4y2Ba 81.4gydF4y2Ba 77.6gydF4y2Ba 75.8gydF4y2Ba

ASR +是gydF4y2Ba 85.2gydF4y2Ba 83.3gydF4y2Ba 80.1gydF4y2Ba 77.7gydF4y2Ba

ASR + TEgydF4y2Ba 85.2gydF4y2Ba 83.9gydF4y2Ba 79.5gydF4y2Ba 76.6gydF4y2Ba

ASR +是+ TEgydF4y2Ba 85.5gydF4y2Ba 83.6gydF4y2Ba 80.1gydF4y2Ba 77.3gydF4y2Ba
独特的词汇量gydF4y2Ba

BMKC数据集的唯一词汇表的大小超过了所有其他数据集,因为学术文章包含的领域特定术语比一般文本多得多。gydF4y2Ba

深度神经模型性能gydF4y2Ba

生物医学领域特定功能的性能增强gydF4y2Ba

ASR模型使用随机梯度下降和自适应矩估计更新规则,学习率分别为0.001和0.0005。该模型使用GRU作为循环神经网络。词嵌入矩阵的初始权值从区间(-0.25,0.25)中随机均匀抽取。我们使用的批大小为32。gydF4y2Ba

文中总结了文本理解模型在BMKC_T和BMKC_LS数据集上的性能gydF4y2Ba表5gydF4y2Ba.我们创建了四个单一模型和四个整体模型。ASR模型代表了最初为一般文本理解任务而开发的ASR模型的基本实现[gydF4y2Ba15gydF4y2Ba].ASR模型使用所有随机初始化的词向量。ASR+生物词嵌入(ASR+BE)模型表示在PubMed上预先训练的词向量初始化的ASR模型,而ASR+类型嵌入(ASR+TE)模型表示类型信息嵌入的ASR模型。ASR+BE+TE模型采用生物词向量嵌入和类型嵌入表示ASR。gydF4y2Ba

单一的模型gydF4y2Ba

我们报告了单个模型在验证集和测试集上的性能。原始ASR模型在BMKC_T和BMKC_LS验证集上的准确率分别为79.8%和73.4%,具有预训练词嵌入的ASR+BE单一模型在BMKC_T和BMKC_LS数据集上的准确率分别为81.0%和74.6%,具有实体类型信息的ASR+TE单一模型在BMKC_T和BMKC_LS数据集上的准确率分别为80.9%和74.3%。具有所有特征的单一模型(ASR+BE+TE)在BMKC_T和BMKC_LS数据集上分别获得了最高的验证精度,分别为81.4%和74.8%。当我们使用预训练的词向量和类型嵌入时,测试集的准确性也提高了。ASR+BE单模型在BMKC_T测试集上的准确率最高,为78.6%,而ASR+BE+TE单模型在BMKC_LS测试集上的准确率最高,为72.0%。gydF4y2Ba

整体模型gydF4y2Ba

我们还报告了我们的集成模型的性能结果。对于集成方法,我们使用了八个模型的集成。在所有学习到的模型中,我们选择了在验证集上达到至少70%精度的模型作为集成成员。融合多个模型显著提高了BMKC_T和BMKC_LS数据集的验证和测试精度。与单一模型的情况一样,使用生物医学增强特征ASR+BE+TE训练的集成模型在BMKC_T和BMCK_LS验证集上都获得了最高的准确性。在BMKC_T和BMKC_LS验证集上,ASR+BE+TE集成模型的表现分别比ASR+BE+TE单一模型好5.0%和6.6%(在ASR+BE+TE设置下,BKMC_T的表现从81.4%到85.5%,在BKMC_LS的表现从74.8%到80.1%)。当使用ASR+BE+TE集成模型时,测试集上的性能显著提高。ASR+TE集成模型在BMKC_T测试集上的最佳性能为83.9%(比ASR+TE单一模型提高了6.9%),ASR+BE集成模型在BMKC_LS测试集上的最佳性能为77.7%(提高了8.8%)。gydF4y2Ba

对原有ASR模型的改进gydF4y2Ba

我们增强了原有的ASR模型[gydF4y2Ba15gydF4y2Ba]采用生物词嵌入、实体类型嵌入和集成模型,每一种模型都提高了原始模型的性能。在BMKC_T和BMKC_LS验证集上,ASR+BE+TE集成模型分别优于原始ASR模型7.1%(从79.8%到85.5%)和9.1%(从73.4%到80.1%)。同样,ASR+BE+TE集成模型在BMKC_T和BMKC_LS测试集上的表现分别比原始模型好7.5%(从77.8%到83.6%)和9.6%(从70.5%到77.3%)。gydF4y2Ba

此外,我们报告的顶级-gydF4y2BaNgydF4y2Ba我们模型的顶点精度gydF4y2BaNgydF4y2Ba预测答案gydF4y2Ba表6gydF4y2Ba.在前gydF4y2BaNgydF4y2Ba准确性,如果任何顶级的gydF4y2BaNgydF4y2Ba预测的答案与正确答案相匹配,则认为模型的输出是正确的。采用ASR+BE+TE单一模型计算top-gydF4y2BaNgydF4y2Ba精度。结果表明,我们的模型有效地将正确答案放在了预测答案列表的顶部。例如,在BMKC_T测试集上,我们的模型达到了90.3%的前三精度,这意味着在超过90%的情况下,用户可以在模型输出的前三名中找到正确答案。gydF4y2Ba

我们的模型和人类绩效比较gydF4y2Ba

我们制作了一个测试集,用于测量人类阅读和理解生物医学文献的能力,并将人类在测试集上的表现与我们的神经模型(gydF4y2Ba表7gydF4y2Ba).对于测试集,我们从BMKC_T和BMKC_LS数据集中随机选择了25篇文章。我们选取了2016年1月1日至2016年12月31日期间发表的包含“人类”和“癌症”术语的文章。gydF4y2Ba

对于人类评估者,我们雇佣了六名来自三种不同背景的人。第一组由两名具有计算机科学背景的本科生组成。第二组由两名生物信息学专业的研究生组成。最后一组由两名生物信息学专业人员组成,他们至少有8年的计算肿瘤学博士后经验。为了衡量机器的理解能力,我们使用了预先训练的ASR+BE+TE单一模型。gydF4y2Ba

为了评估机器理解模型的性能,我们给出了一定数量的信息,报告了全局ID设置,其中所有上下文共享全局实体ID集,以及局部ID设置,其中实体ID是为每个上下文独立分配的。我们为评估人员提供了一组没有匿名化实体ID的测试,这相当于模型的全局ID设置。gydF4y2Ba

实验结果gydF4y2Ba表7gydF4y2Ba证明机器在准确性和时间上都优于人类组。这台机器的性能与在gydF4y2Ba表6gydF4y2Ba.即使在本地ID设置中,关于实体的信息对模型隐藏,模型的表现也优于人类评估者。此外,人类组在回答给定的测试集时遇到了一些困难。与我们预期的一样,具有生物医学背景知识的研究生组比本科生组表现更好。有趣的是,生物信息学家小组花了更长的时间来回答我们BMKC数据集中的问题。我们假设生物信息学家倾向于利用他们的知识来解决问题,而没有生物医学领域背景知识的学生倾向于猜测。对测试问题和我们的模型(ASR+BE+TE)和每个人类评估者的响应的详细描述在gydF4y2Ba多媒体附件2gydF4y2Ba.gydF4y2Ba

我们的模型优于人类的表现是值得注意的,因为人类通常在现有的完形样式数据集上表现得更好(如图所示)gydF4y2Ba表8gydF4y2Ba).我们提出gydF4y2Ba表8gydF4y2Ba比较人类和机器在其他通用文本域数据集上的理解性能。请注意,CNN数据集最初发布时没有报告人类评估结果。因此,CNN和CBT_NE数据集由人工通过众包平台CrowdFlower进行人工评估[gydF4y2Ba29gydF4y2Ba].人体评估结果的详细信息载于gydF4y2Ba多媒体附件1gydF4y2Ba.结果表明,在一般的文本理解任务中,人类比机器表现得更好(或至少与机器相当)。gydF4y2Ba

表6所示。前gydF4y2BaNgydF4y2Ba模型在BMKC测试集上的准确性。——顶部gydF4y2BaNgydF4y2Ba采用ASR+BE+TE单一模型计算精度。gydF4y2Ba
数据集gydF4y2Ba 准确度(%)gydF4y2Ba 准确度(%)gydF4y2Ba 准确度(%)gydF4y2Ba 准确率(%)gydF4y2Ba
BMKC_T-TestgydF4y2Ba 78.3gydF4y2Ba 86.8gydF4y2Ba 90.3gydF4y2Ba 93.5gydF4y2Ba
BMKC_LS-TestgydF4y2Ba 72.0gydF4y2Ba 81.7gydF4y2Ba 85.7gydF4y2Ba 90.5gydF4y2Ba
表7所示。人类和我们的模型在BMKC数据集上的生物医学文献理解结果。gydF4y2Ba
用户gydF4y2Ba BMKC_TgydF4y2Ba BMKC_LSgydF4y2Ba 总计gydF4y2Ba


的数量gydF4y2Ba
问题gydF4y2Ba
精度gydF4y2Ba
(%)gydF4y2Ba
的数量gydF4y2Ba
问题gydF4y2Ba
精度gydF4y2Ba
(%)gydF4y2Ba
的数量gydF4y2Ba
问题gydF4y2Ba
精度gydF4y2Ba
(%)gydF4y2Ba
时间gydF4y2Ba
(分钟)gydF4y2Ba
人类gydF4y2Ba







本科gydF4y2Ba 14.5/25gydF4y2Ba 58.0gydF4y2Ba 10.5/25gydF4y2Ba 42.0gydF4y2Ba 25/50gydF4y2Ba 50.0gydF4y2Ba 77.5gydF4y2Ba

研究生gydF4y2Ba 18/25gydF4y2Ba 72.0gydF4y2Ba 14/25gydF4y2Ba 56.0gydF4y2Ba 32/50gydF4y2Ba 64.0gydF4y2Ba 117.5gydF4y2Ba

专家gydF4y2Ba 16.5/25gydF4y2Ba 66.0gydF4y2Ba 13/25gydF4y2Ba 52.0gydF4y2Ba 29.5/50gydF4y2Ba 59.0gydF4y2Ba 115.5gydF4y2Ba
机gydF4y2Ba







ASR+BE+TE_single(全局ID)gydF4y2Ba 23/25gydF4y2Ba 92.0gydF4y2Ba 19/25gydF4y2Ba 76.0gydF4y2Ba 42/50gydF4y2Ba 84.0gydF4y2Ba 0.001gydF4y2Ba

ASR+BE+TE_single(本地ID)gydF4y2Ba 19/25gydF4y2Ba 76.0gydF4y2Ba 18/25gydF4y2Ba 72.0gydF4y2Ba 37/50gydF4y2Ba 74.0gydF4y2Ba 0.001gydF4y2Ba
表8所示。人类文本理解结果和CNN和CBT数据集上的文本理解模型。机器理解结果由Kadlec等[gydF4y2Ba15gydF4y2Ba].gydF4y2Ba
模型gydF4y2Ba 数据集,准确度(%)gydF4y2Ba

美国有线电视新闻网gydF4y2Ba CBT_NEgydF4y2Ba
人类gydF4y2Ba 69.2gydF4y2Ba 81.6gydF4y2Ba
机(ASR-single)gydF4y2Ba 69.5gydF4y2Ba 68.6gydF4y2Ba

深度神经模型受文本难度的影响比人类小gydF4y2Ba

本研究的目的是评估机器理解模型在生物医学文献数据集上的表现。在对我们新的BMKC数据集和现有通用文本数据集的性能评估中,无论文本的难度如何,我们的深度神经模型都实现了稳健的性能,而人类发现很难解决需要专家知识的生物医学文献理解任务。这一结果表明,与人类相比,深度神经模型受文本难度的影响较小,因此可以用于协助人类研究人员在大数据中处理信息。gydF4y2Ba

误差分析gydF4y2Ba

在本节中,我们分析了机器理解模型的机器理解结果中的误差。模型的QA结果以注意热图的形式显示。下面我们详细讨论两种具有代表性的错误案例:gydF4y2Ba因果推断错误gydF4y2Ba而且gydF4y2Ba概念层次错误gydF4y2Ba.gydF4y2Ba

因果推断错误gydF4y2Ba

我们观察到,在一些情况下,模型不能准确地回答需要逐步推理的问题,比如因果之间的时间顺序关系。我们用中的例子来解释这种情况gydF4y2Ba图2gydF4y2Ba.示例文档包括紫杉醇、氧化应激和细胞死亡之间的关系。根据上下文,紫杉醇诱导氧化应激,从而导致神经元凋亡。问题是关于氧化性神经元凋亡或细胞死亡的原因。正如在注意力热图中观察到的那样,该模型提供了氧化应激作为细胞死亡的原因,但它最终是由紫杉醇引发的,这是正确的答案。gydF4y2Ba

概念层次错误gydF4y2Ba

概念层次错误是指在考虑包含关系中的实体时,模型选择的选项与正确答案不匹配的情况。注意热图gydF4y2Ba图3gydF4y2Ba显示概念层次错误的示例。这个问题问的是地理位置,答案是“南非”。有趣的是,我们观察到该模型将“南非”和“卡拉哈里”(Kalahari是位于南非的一个沙漠的名字)都作为候选答案。然而,模型赋予了“Kalahari”更多的权重,这也是正确的。gydF4y2Ba

‎gydF4y2Ba
图2。案例1的ASR模型注意热图:因果推断问题。gydF4y2Ba
查看此图gydF4y2Ba
‎gydF4y2Ba
图3。注意案例2的ASR模型热图:概念层次问题。gydF4y2Ba
查看此图gydF4y2Ba

综上所述,上述讨论的错误案例可以看作是指针和网络方法配置的ASR模型的结构局限性,它在给定上下文中只选择一个正确的单词作为最终答案。在解决需要理解逐步推理和概念推理之间的包容关系的问题时,指针和网络结构是有限的。目前执行机器理解任务的其他近期深入运行的模型也没有考虑这种因果推断或概念层次。这些都是当前深度学习模型的基本局限性,应该在不久的将来随着人工智能技术的进步而得到改进。gydF4y2Ba

完形填空问答的局限性及未来发展方向gydF4y2Ba

生物医学知识QA的最终目标是帮助领域专家更快速有效地从大量文献信息中发现知识。然而,通过QA系统获得的知识是上下文不敏感的,因此不能直接适用于个别患者护理场景。QA系统更适合作为领域专家的决策支持系统,以帮助他们快速处理信息并在更短的时间内做出更有根据的决策。gydF4y2Ba

我们目前的QA系统的一个局限性是候选答案仅限于生物医学实体。虽然计算了输入上下文中所有单词的答案概率,但系统只将预处理步骤中使用的实体提取模块识别的生物医学实体作为候选答案。从输入文本中提取候选答案,并将它们与问题一起提供,这是完形填空式QA系统中的常见做法。但是,如果系统在回答问题时没有预先指定的答案候选,并且可以生成文本中的任何单词/短语作为答案,则会提高系统的实用性。gydF4y2Ba

本文中描述的所有基于asr的深度神经模型(以及其他类似的现有机器理解模型)的另一个共同限制是,它们假设在执行机器理解任务时给出单个上下文。在开发和评估机器理解技术的阶段,可能有必要使用定义良好且简单的问题(即每个问题有一个上下文)。然而,这样的模型在实践中可能效用有限。如果用户有一个问题,但不知道可以找到答案的上下文或文章,用户可能无法利用这些系统。在理想的场景中,用户应该能够在不预先指定上下文的情况下查询系统,而系统应该能够通过分析数据集中所有文档的内容来推断答案。gydF4y2Ba

为解决上述问题,在未来的工作中,我们会向以下方向扩展我们的质量保证体系。首先,我们将修改我们的QA系统,使其接受没有预先指定上下文的问题,并搜索整个数据集以找到相关文档的子集。此搜索过程可使用BEST [gydF4y2Ba20.gydF4y2Ba],这是我们在之前的研究中开发的一个快速有效的生物医学实体搜索工具。其次,我们将使用我们提出的机器理解模型从每个相关文档中提取部分答案。改进后的系统将不需要预先指定的答案候选。最后,我们将结合来自相关上下文的部分答案,形成原始查询的最终答案。尽管搜索信息源并扩展所提议的模型以考虑多个信息源将是一项具有挑战性的任务,但我们相信,通过在医学领域提供知识QA功能,这个扩展的系统将成为帮助生物医学科学家和从业者的有用工具。gydF4y2Ba

结论gydF4y2Ba

在本文中,我们介绍了在生物医学领域使用深度神经模型的机器理解的新任务。据我们所知,我们的工作是第一次将基于深度学习的机器理解任务应用到生物医学领域。由于在生物医学领域没有用于训练深度神经模型的大规模数据集,我们使用PubMed语料库创建了新的完形式数据集BMKC_T和BMKC_LS。为了提高现有深度神经模型的理解性能,我们使用了预训练的词向量、实体类型嵌入和集成技术。实验结果表明,我们提出的模型在理解任务上的表现远远高于人类,包括领域专家。在未来的工作中,我们将扩展我们的机器理解模型,使其考虑因果推断、概念层次和多个文档,以有效地回答复杂的问题。gydF4y2Ba

致谢gydF4y2Ba

这项工作得到了韩国国家研究基金会的资助,该基金由韩国政府(MSIP;2014 r1a2a1a10051238 2016 m3a9a7916996)。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附件1gydF4y2Ba

BMKC数据集上的人类评估细节。gydF4y2Ba

PDF档案(adobepdf档案),273KBgydF4y2Ba

‎gydF4y2Ba

多媒体附件2gydF4y2Ba

使用众包对CNN和CBT数据集的人类评估。gydF4y2Ba

PDF档案(adobepdf档案),17KBgydF4y2Ba

  1. 张志刚,张志刚,张志刚,张志刚,等。生物asq大型生物医学语义索引和问答竞赛综述。BMC生物信息学2015 Apr 30;16:138 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  2. 黄超,陆哲。十年来生物医学文本挖掘的社区挑战:成功、失败与未来。简报Bioinform 2016年1月;17(1):132-144 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. Holzinger A, Schantl J, Schroettner M, Seifert C, Verspoor K.生物医学文本挖掘:最新技术、开放问题和未来挑战。见:生物医学信息学中的交互式知识发现和数据挖掘。德国柏林:施普林格科学;2014:271 - 300。gydF4y2Ba
  4. 文本挖掘技术在生物医学领域的应用。方法2015年3月;74:97-106。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. 杜兹M,马歇尔JF,帕金T.一种改进的计算机辅助技术挖掘自由文本电子医疗记录的验证。JMIR Med Inform 2017 6月29日;5(2):e17 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. Wongchaisuwat P, Klabjan D, Jonnalagadda SR.半监督学习方法增强卫生保健社区问题回答:酗酒的案例研究。JMIR Med Inform 2016 Aug 02;4(3):e24 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. 赫里斯托夫斯基D,迪涅夫斯基D,卡斯林A,林德弗莱什TC。利用语义关系回答生物医学问题。BMC生物信息学2015 1月16日;16:6 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. Balikas G, Krithara A, Partalas I, Paliouras G. Bioasq:大规模生物医学语义索引和问答的挑战。在:医学领域的多模态检索。纽约:施普林格国际出版社;2015:26-39。gydF4y2Ba
  9. 阿希亚,T敏宁,P多西,塔尔顿RL。基于本体的问答框架及其在寄生虫免疫学中的应用。J Biomed Semantics 2015;6:31 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. Neves M, Leser U.生物学问答。方法2015年3月74:36-46。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. 郭培华,李志强,李志强,等。蛋白质注释的深层问题回答。数据库(牛津)2015 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. 赫曼KM, Kocisky T, Grefenstette E, Espeholt L, Kay W, Suleyman M,等。教机器阅读和理解。见:神经信息处理系统的进展: Curran Associates, Inc;2015年发表于:神经信息处理系统28 (NIPS 2015);2015年12月07-12日;加拿大蒙特利尔,p. 1693-1701。gydF4y2Ba
  13. 王晓燕,王晓燕,王晓燕。基于外显记忆表征的儿童读物阅读。2015。URL:gydF4y2Bahttp://arxiv.org/abs/1511.02301gydF4y2Ba[已访问2017-12-08][gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  14. 小林,田荣,田崎,田田。基于最大池的动态实体表示改进了机器读取。见:计算语言学协会北美分会2016年会议记录:人类语言技术。:计算语言学协会;2016年6月发表于:HLT-NAACL;2016;圣地亚哥,加利福尼亚州,p. 850-855网址:gydF4y2Bahttp://www.aclweb.org/anthology/N16-1099gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  15. 王志强,王志强,王志强。基于注意力和阅读网络的文本理解研究。见:计算语言学协会第54届年会论文集。:计算语言学协会;2016年发表于:第54届计算语言学协会年会上;2016年8月7日至12日;德国柏林,第908-918页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  16. 翁西,王华,王伟,金培尔,王伟。基于人的大尺度完形数据集。见:2016年自然语言处理经验方法会议论文集。:计算语言学协会;2016年发表于:2016年自然语言处理经验方法会议;2016年11月1日至5日;德克萨斯州奥斯汀,p. 2230-2235。gydF4y2Ba
  17. 刘浩,杨志刚,杨志刚,杨志刚。门特注意读者对文本理解的影响。见:第55届计算语言学协会年会论文集。: ACL;2017年发表于:第55届计算语言学协会年会上;2017年7月;温哥华,加拿大p. 1832-1846gydF4y2Bahttp://www.aclweb.org/anthology/P17-1168gydF4y2Ba[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  18. 泰勒王。“完形填空法”:一种新的测量可读性的工具。新闻通报2016年10月28日;30(4):415-433。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  19. 康杰。BMKC:生物医学知识理解数据集。2017年2月14日。URL:gydF4y2Bahttp://infos.korea.ac.kr/bmkc/gydF4y2Ba[访问时间:2018-01-02][gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  20. 李松,金丹,李凯,崔杰,金松,全敏,等。BEST:下一代生物医学实体搜索工具,用于从生物医学文献中发现知识。PLoS One 2016;11(10):e0164680 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. 马国强,李志强,李志强。视觉注意复发模型的研究。见:神经信息处理系统的进展2014年发表于:神经信息处理系统会议;2014年12月08-13日;加拿大蒙特利尔,第2204-2212页。gydF4y2Ba
  22. 徐凯,巴杰,刘志刚,赵凯,郭伟,等。展示、参与和讲述:视觉注意力的神经图像标题生成。见:第32届机器学习国际会议论文集。: PMLR;2015年发表于:国际机器学习会议;2015年7月7日至9日;里尔,法国,约2048-2057年。gydF4y2Ba
  23. 王晓明,范洪平。基于注意力的神经网络机器翻译方法。见:2015年自然语言处理经验方法会议论文集。:计算语言学协会;2015年发表于:2015年自然语言处理经验方法会议;2015年9月17-21日;葡萄牙里斯本,1412-1421页。gydF4y2Ba
  24. 乔洛斯基J, Bahdanau D, Serdyuk D, Cho K, Bengio Y.基于注意力的语音识别模型。见:第28届神经信息处理系统国际会议论文集。美国马萨诸塞州剑桥:麻省理工学院出版社;2015年发表于:NIPS’15;2015年12月07-12日;加拿大蒙特利尔p. 577-585网址:gydF4y2Bahttps://dl.acm.org/citation.cfm?id=2969304gydF4y2Ba
  25. Pyysalo S, Ginter F, Moen H, Salakoski T, Ananiadou S.生物医学文本处理的分布语义资源。发表于:第五届语言在生物学和医学中的国际研讨会论文集。2013;2013年12月12日至13日;日本东京,第39-44页gydF4y2Bahttp://lbm2013.biopathway.org/lbm2013proceedings.pdfgydF4y2Ba
  26. 生物医学自然语言处理。2017.工具和资源网址:gydF4y2Bahttp://bio.nlplab.org/gydF4y2Ba[已访问2017-10-12][gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba
  27. Hansen L, Salamon P.神经网络集成。电子工程学报,1990;12(10):993-1001。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  28. 李凯,刘伟,赵凯,邵敏,刘磊。一种新的动态权重神经网络集成模型。国际分布科学杂志2015年1月;11(8):862056。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  29. CrowdFlower合作。2017.URL:gydF4y2Bahttps://www.crowdflower.com/gydF4y2Ba[访问时间:2018-01-02][gydF4y2BaWebCite缓存gydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
人工智能:gydF4y2Ba人工智能gydF4y2Ba
ASR:gydF4y2Ba注意总和读者gydF4y2Ba
ASR +是:gydF4y2Ba注意Sum阅读器+生物词嵌入gydF4y2Ba
ASR + TE:gydF4y2Ba注意Sum Reader + Type EmbeddinggydF4y2Ba
最好的:gydF4y2Ba生物医学实体搜索工具gydF4y2Ba
BMKC:gydF4y2Ba生物医学知识理解gydF4y2Ba
BMKC_T:gydF4y2Ba生物医学知识理解gydF4y2Ba
BMKC_LS:gydF4y2Ba生物医学知识理解最后一句gydF4y2Ba
认知行为疗法:gydF4y2Ba儿童书籍测验gydF4y2Ba
CBT_NE:gydF4y2Ba儿童书籍测试命名实体gydF4y2Ba
CBT_Noun:gydF4y2Ba儿童书籍测试名词短语gydF4y2Ba
有线电视新闻网:gydF4y2Ba有线电视新闻网gydF4y2Ba
格勒乌:gydF4y2Ba门控循环单元gydF4y2Ba
ID:gydF4y2Ba识别gydF4y2Ba
网:gydF4y2Ba医学学科标题gydF4y2Ba
NLP:gydF4y2Ba自然语言处理gydF4y2Ba
质量保证:gydF4y2Ba问题回答gydF4y2Ba


G·艾森巴赫(G Eysenbach)编辑;提交15.08.17;同行评议:M Roccetti, L Zhang, G Lim;作者评论07.09.17;修订版本收到25.10.17;接受16.11.17;发表05.01.18gydF4y2Ba

版权gydF4y2Ba

©Seongsoon Kim, donghyun Park, Yonghwa Choi, Kyubum Lee, Byounggun Kim, Minji Jeon, Jihye Kim, Aik Choon Tan, Jaewoo Kang。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com), 05.01.2018。gydF4y2Ba

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,http://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba


Baidu
map