发表在第20卷第6期(2018):6月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/10281,首次出版
一种自动从生物医学文献中识别科学严谨临床研究报告的深度学习方法:比较分析研究

一种自动从生物医学文献中识别科学严谨临床研究报告的深度学习方法:比较分析研究

一种自动从生物医学文献中识别科学严谨临床研究报告的深度学习方法:比较分析研究

原始论文

1犹他大学生物医学信息系,犹他州盐湖城,美国

2Evid科学,洛杉矶,加州,美国

3.美国加州洛杉矶的InferLink公司

4健康研究方法、证据和影响系,麦克马斯特大学,汉密尔顿,安大略省

5加拿大安大略省汉密尔顿市麦克马斯特大学健康科学学院医学系

6健康信息研究单位,麦克马斯特大学,汉密尔顿,安永,加拿大

*这些作者贡献相同

通讯作者:

Guilherme Del Fiol医学博士

犹他大学

生物医学信息系

瓦卡拉路421号

140套房

盐湖城,德州,84108

美国

电话:1 8015814080

电子邮件:guilherme.delfiol@utah.edu


背景:循证医学实践的一个主要障碍是有效地找到针对特定临床主题的科学合理的研究。

摘要目的:研究一种深度学习方法,从生物医学文献中检索科学合理的治疗研究。

方法:我们使用403216个PubMed引用的噪声数据集,以标题和摘要为特征,训练了一个卷积神经网络。深度学习模型与最先进的搜索过滤器进行了比较,例如PubMed的临床查询广泛治疗过滤器、McMaster的文本搜索策略(没有医学主题标题、MeSH、术语)和临床查询平衡治疗过滤器。使用先前注释的数据集(临床对冲)作为金标准。

结果:深度学习模型获得的召回率明显低于临床查询广泛治疗过滤器(96.9% vs 98.4%;P<措施);与麦克马斯特文本搜索的召回率相当(96.9% vs 97.1%;P=.57)和临床查询平衡过滤器(96.9% vs 97.0%;P=点)。深度学习获得了比临床查询广泛过滤器更高的精度(34.6% vs 22.4%;P<.001)和McMaster的文本搜索(34.6% vs 11.8%;P<.001),但显著低于临床查询平衡过滤器(34.6% vs 40.9%;P<措施)。

结论:与最先进的搜索过滤器相比,深度学习表现得很好,特别是在引用没有索引的情况下。与以前的机器学习方法不同,所提出的深度学习模型不需要特征工程,也不需要时间敏感或专有特征,如MeSH术语和文献计量学。深度学习是一种很有前途的方法来识别科学严谨的临床研究报告。还需要进一步的工作来优化深度学习模型,并评估其他领域的泛化性,如诊断、病因学和预后。

中国医学网络杂志2018;20(6):e10281

doi: 10.2196/10281

关键字



背景与意义

每天大约有95个临床试验发表,生物医学文献正在以非常快的速度增加,对循证医学的实践提出了重大挑战。然而,生物医学文献中只有1%的研究符合科学质量的最低标准[1]而大多数发表的研究结果最终都被证明是错误的[2].因此,循证医学实践的一个主要障碍是有效地找到相对较少的关于给定临床主题的科学合理的研究。系统回顾和荟萃分析试图总结一个给定的临床问题的现有证据,旨在接近完美的回忆。然而,系统的评价往往是不可用的,而且很快就过时了。因此,在高质量临床试验被纳入系统评价之前,临床医生可以从获得最新的证据中受益。

在过去的二十多年里临床查询过滤一直是最先进的方法,从主要文献中检索科学合理的临床研究,无论是系统评价的发展还是护理点决策支持[3.4].临床查询过滤器由基于文本和医学主题标题(MeSH)术语的布尔搜索策略组成,这些术语已通过系统方法开发和验证[5].临床查询过滤器中使用的搜索文本和MeSH术语反映了科学合理的临床研究的广泛接受的标准,如“临床试验”、“随机分配”和“随机对照试验[出版物类型]”。虽然临床查询过滤器最初是在20世纪90年代开发的,但随着时间的推移不断更新,2000年开发的过滤器的召回率和精度在10年后没有显著变化[6].PubMed和其他书目生物医学数据库中提供了多个主题的临床查询过滤器,重点关注治疗、诊断、病因学和预后等领域,并对这些进行了调整,以提高准确性或召回率。临床查询过滤器的一个局限性是它们对MeSH术语的依赖,这些术语是在文章发表23至177天后添加到PubMed引用的(根据之前的一项研究[7)和17到328天(根据我们最近的分析)。此外,在检索精度方面还有改进的空间。

以前的研究调查了使用机器学习方法来自动检索科学可靠的研究[8-10].这些研究中使用的特征包括文献计量学(如引用计数、影响因子)、文章标题和摘要中的词语、MeSH术语、统一医学语言系统(UMLS)概念和语义预测。尽管机器学习研究的结果是有希望的,但它们有重要的局限性,阻碍了在实践中的广泛采用,例如需要重要的特征工程(例如,UMLS概念,文献计量学),依赖于专有和时间相关的特征(例如,MeSH索引,引用计数),以及对特定数据集的潜在过拟合。

在本研究中,我们研究了一种用于从PubMed检索科学合理的治疗研究的深度学习方法。为了克服以前的方法的局限性,我们专注于一种方法,它需要很少的特征工程,不依赖于专有的或与时间相关的特征。然后,我们将深度学习模型的性能与最先进的PubMed搜索策略与临床对冲进行了比较,临床对冲是一个严格的金标准,包含超过5万项研究,根据严格的标准对科学质量进行了系统评级[5].

深度机器学习

机器学习的最新进展使计算机模仿人类活动的能力有了显著提高。这些改进中的许多都利用了“深度学习”,并体现了具有许多节点的神经网络,这些节点在网络的各个层之间完全连接。在我们这里使用的监督式深度学习的背景下,这样的网络通过提供许多要分类的目标示例以及许多反例来训练。

深度神经网络

深度神经网络(DNN)是一组完全连接的“层”,每层都包含一个节点,该节点以与输入数据的特定特征相关的权重形式对信息进行编码。“连通”是指每一层的节点与下一层的节点相连。DNN被认为是“深度”的,因为它可以包含许多这样的连接节点和/或层,从而在应用于每层输入的权重中编码大量信息。

在文本分类的情况下,网络的输入是一组单词(或下面描述的“词嵌入”)。DNN的每个连续层都以线性代数运算的形式对单词应用一些转换,逐步编码数据的更粒度特征[1112].有监督的DNN,如我们的方法,要求每个输入(例如,一组单词)与一个类相关联,这样DNN将学习如何将单词与每个类相关联,以便预测新未见的单词集的类。与大多数机器学习方法一样,输入文本可以通过多种方式进行转换。在文本分类的情况下,这种转换可能包括添加无关的信息,如书目和作者信息。这种设计和应用特征来优化分类的过程被称为工程特性

尽管特征工程可能有用,但它具有挑战性:它可能需要大量的手工工作,并引入某些特征对训练数据过于特定或甚至不可用的风险。正如我们下面所讨论的,利用用于在PubMed中索引文章的MeSH术语当然可以帮助完成像我们这样的任务,但不能保证这些信息能够及时用于文章。

因此,我们选择了“端到端”机器解决方案。在端到端方法中,DNN仅在输入和类上进行训练,很少或没有特征工程。最小特性是那些与任务和领域无关的特性,例如将单词转换为小写,删除停止词和词干。这种方法的潜在优势包括:(1)设计更简单,因此强结果更有可能表明DNN检测的是文本信号,而不是神秘的特征;(2)不依赖外部因素,例如可能无法及时获得的功能;(3)减少概念漂移,因为当部署模型时,训练特征可能与可用的特征不一致。因此,端到端系统为分类任务中的第一种方法提供了强有力的理由。

递归神经网络与卷积神经网络

在这项研究中,我们使用了一种特殊的深度学习神经网络,称为卷积神经网络(CNN),遵循Kim [13].在某种程度上,金的CNN架构已经成为一个事实上的文本分类标准。cnn使用指定大小的滑动单词窗口分析文本。每个滑动字窗口生成一组实值向量。通常,每个单词甚至字符都与“词嵌入”相关联,这是一个低维实值向量,表示单词的语义空间[14].因此,由于每个术语都与一个向量相关联,每个滑动单词窗口就表示一个矩阵。然后,将每个滑动单词窗口传递给一个激活函数,并应用“max pooling”,以便在应用于窗口的激活函数产生的值集中只保留最大值。也就是说,每个窗口都与激活函数输出的单个最大值相关联。这些最大值连接在一起,形成它们自己的向量,表示窗口集。这组连接的值形成下一层,然后传递到最后一层,其中包括决策激活函数(如Softmax,如下所述)。

中显示了CNN的一个示例图1.从左到右,我们看到一组输入单词和它们的单词嵌入,这形成了初始输入矩阵。该网络使用两组滑动窗口,一组大小为2,一组大小为3。这些滑动窗口的集合产生卷积层,将滑动窗口的特征转换为新的特征值,然后将这些特征值合并,以便只保留最大值(“最大池化”)。最后,max- pooling的值通过完全连接的final(输出)层传递,该层使用Softmax分配类成员的概率(对于二进制类成员,显示为“是”或“否”)。虽然这种方法可能看起来“肤浅”,但它已被证明是有效的,成为CNN最受欢迎的架构选择之一[13].

用于文本分析任务的另一种流行方法是循环神经网络(rnn)。与CNN的滑动窗口相比,rnn非常适合于语言任务,其中特定文本的分类取决于周围的文本。例如,rnn非常适合词性标记或机器翻译,这对特定的词序有很强的依赖性。然而,因为它们必须考虑顺序依赖关系,所以它们不适用于像我们这样的任务。事实上,在cnn和rnn在自然语言处理任务上的正面比较中,Yin等人[15他发现cnn特别适合于所谓的“关键词识别”任务,如文本分类或情感分析。此外,cnn被发现比rnn快5倍[15],这在现实世界的任务中很重要,比如我们的目标是在合理的时间内对一个非常大的语料库(比如PubMed)进行分类。

深度神经网络优化(如何学习)

神经网络的主要学习包括“前向传播”和“后向传播”。在正向传播中,通过将输入转换为固定大小的实值向量,将输入转换为特征。这些向量(例如,“层”)与权重相结合,并通过一个激活函数来传递,该激活函数总结了向量及其权重的每个特征的贡献。层之间相互连接,因此来自当前层的激活函数的值成为下一层的输入。因此,“正向传播”从输入开始,一层一层传递激活值,直到最后一层,最后一层输出一些决策向量。在我们的例子中,这个最终的输出函数是一个sigmoid激活函数,它可以为类成员分配概率。在“反向传播”中,最终的分类决策与训练数据的已知结果进行比较,错误通过网络向后传播,从输出层到输入层。每个权重通过梯度下降根据其对决策准确性的贡献进行更新。

在CNN的上下文中,人们可以将通过“正向”传播的各种传递解释为对文本输入的不同“块”应用权重,而“反向”传播解释为调整这些权重以在预测输入文本的类别时出错最少。在DNN的上下文中,由于优化本质上是一个权值调整的过程,节点和层数越高,就必须调整越多的权值才能找到最优的分类器,这就需要更多的训练数据。相反,更多的权重和层次可以改善分类。因此,DNN设计的一部分是确定最优参数选择以及如何处理过拟合。在我们的例子中,我们使用了一种称为dropout正则化的技术,它随机地防止节点参与给定训练输入的分类决策,因此模型不会通过学习仅仅依赖于特定的节点而过度拟合。

其他优化包括为传播选择哪些数学操作;这被称为“激活函数”(即,给定权重和输入,节点如何产生一个分数)。不同的选择会导致不同的DNN行为;有些激活函数比其他激活函数更健壮,而有些激活函数会使训练过程变得非常长。我们选择了整流线性单元(ReLU)作为我们的激活函数,因为它提供了一种有效的机制来构建健壮和准确的cnn。在我们这样的任务中,选择ReLU是很常见的。最后,在CNN的上下文中,通常在层之间提供下采样,这有助于控制过拟合,使训练更有效。最常见的方法是最大池化,我们在我们的方法中使用了它。

图1。卷积神经网络的例子。
查看此图

因此,网络的训练涉及到多次前向传播和后向传播。通常将所有训练数据的每次迭代称为“epoch”。模型通常会在固定的周期数或成功度量似乎达到某个最大值时停止这个训练过程。

临床对冲

临床对冲是麦克马斯特大学对冲集团以前开发的数据库,用于开发和评估临床查询过滤器[5]和以前的机器学习方法[8从PubMed检索科学可靠的临床研究。该数据库有发表在170种临床期刊上的50594篇文章。所有文章都由高度校准的信息科学专家根据类型(例如,病因学、预后、诊断、预防、治疗、临床预测)以及每个研究是否符合科学合理的临床研究预先指定和实验验证的方法学标准手动注释。用于评价临床套期的文章的标准和过程在其他地方有所描述[5].总之,科学合理的治疗干预研究的标准包括研究参与者的随机分配、临床相关结果和至少80%的研究参与者的随访。


方法概述

总的来说,我们的方法包括:(1)使用基于临床查询处理过滤器的PubMed搜索自动获得的大型噪声数据集来训练和测试深度学习模型,以及(2)根据临床Hedges作为金标准来评估所得模型的性能。

具体而言,该研究方法包括以下步骤,下面将详细描述:(1)准备用于训练深度学习模型的数据集,(2)训练和调整深度学习模型,(3)比较深度学习方法与最先进的搜索过滤器和麦克马斯特的文本过滤器的精度和召回率,以及(4)分析深度学习性能在K个检索引用的几个级别上的精度。

训练数据集的准备

训练/测试数据集包括从PubMed检索的403,216个正面和负面引用。检索积极研究(即科学合理),我们使用临床查询处理过滤器调整精度(“狭窄”过滤器;图2).在之前的研究中,该过滤器在临床对冲金标准中为科学合理的治疗研究提供了93%的召回率和54%的精确度[5].因此,这种搜索策略被用作检索与临床对冲金标准中相似的科学合理研究的大型数据集的代理。尽管这种方法产生了一个相当嘈杂的训练集(接近一半的阳性样本是假阳性),但只要有足够的训练数据,CNN方法就能处理嘈杂的数据。检索消极的研究(即,不科学合理),我们检索了在人类中进行的研究,这些研究没有通过上述“积极”搜索策略检索到。

图2。用于训练和测试深度学习模型的数据集。使用PubMed临床查询“狭窄”治疗过滤器作为替代来识别积极的(科学合理的)研究。生成的数据集按照90/10的比例分成训练集和开发集。
查看此图

这些策略被限制为分别检索最多15万和30万的引用,以产生一个三分之一的积极引用和三分之二的消极引用的数据集。这两种策略都仅限于2007年至2017年间发表的引文。没有摘要的引文被删除。搜索策略通过PubMed的eUtils应用程序界面执行。结果数据集包含147,182个正面引用和256,034个负面引用(图2).

训练和调整深度学习模型

深度学习模型使用数据集中90%的引用进行训练,剩余的10%用作“开发”集(图2).由于训练/开发分割是随机生成的,因此开发集保持了与训练集相似的正面和负面实例的比例。为了构建模型输入,我们将标题与摘要连接起来,删除停止词,并保留剩余单词的前650个标记。

正如在深度机器学习节中,我们的模型遵循了应用cnn进行文本分类的普遍接受的方法。第一层将字符嵌入到单词中,这样可以包括已知词汇表之外的单词进行预测。然后将字符嵌入与词嵌入(从训练数据构建)相结合,以捕获语义相似性。这个输入被传递到我们的模型中,它包含两个卷积层:一个用于大小为2的滑动单词窗口,另一个用于大小为3的单词窗口。每个卷积层包含与之相关的512个过滤器。我们将ReLU单元应用于卷积层,并通过最大池化过程传递它们。然后将得到的max-pooled特征连接到单个层中。max- pooling层被传递到由512个单元(完全连接)组成的下一层,我们对其应用Softmax激活函数来预测属于任何一类的引用的概率。然后我们将Softmax预测的Argmax作为预测类。我们以0.5的dropout正则化(防止过拟合)运行这个模型30个epoch。 Hyper-parameters were chosen experimentally based on maximized precision on the training data.

深度学习方法与最先进的PubMed搜索策略的比较

我们测试了反映不同信息检索场景所施加的需求的三个假设。第一个场景包括搜索策略,以支持循证综合的发展,如系统评价和临床指南[16].在这种情况下,有一个近乎完美的回忆的要求。这种情况下的假设是,与PubMed临床查询广泛过滤器相比,深度学习方法将产生相同的召回率,对科学合理的治疗研究具有更高的精度,后者具有几乎完美的召回率(图3).

图3。检索策略用于检索科学合理的治疗研究,与深度学习模型进行比较。
查看此图

第二种情况反映了需要检索最近的研究,例如在文献监测工作中,以确定新的证据,以更新现有的系统综述和临床指南[17-19].由于临床查询过滤器部分依赖于MeSH术语和出版类型,它们对文献监测的效果较差。相反,基于引用标题和摘要中的术语的搜索策略是首选的。这种情况的假设是,与麦克马斯特大学临床赫奇斯小组提供的文本搜索策略相比,深度学习方法在科学合理的治疗研究中可以产生同等的回忆,但精度更高。图3).

第三种情况代表临床医生在文献中搜索证据,以满足临床医生在护理特定患者时提出的信息需求[20.].在这种情况下,用召回率的小损失来换取精确度的大幅提高是可以接受的。我们假设,对于科学合理的治疗研究,与麦克马斯特的平衡临床查询过滤器相比,深度学习方法将产生相同的召回率,但精度更高,后者使用文本单词、MeSH术语和出版类型的组合(图3).

临床对冲金标准被用来检验这三个假设。对于正面引用,我们从Clinical Hedges数据库中检索了1524篇原始科学可靠的研究,重点是治疗。对于负面引用,我们从临床套期研究中检索了29,144项不属于正面集合的治疗研究。为了进行统计分析,我们将得到的数据集分成20个随机子样本,这些子样本被分层,以确保每个子样本中正面引用和负面引用的比例平衡。对20个子样本中的每一个子样本的四种方法进行了精密度、召回率和f测度的测量(图4).最后,我们根据概率分数对深度学习模型的输出进行了排名,并获得了前K引用的几个级别(10、20、50、100、200、300和500)的精度度量。

统计分析

根据20个数据样本的平均精密度和查全率来衡量分类性能。我们使用配对Student t检验检验两种方法在每个实验中的召回率和精密度差异的显著性,显著性水平设置为0.05。

图4。评估方法,包括比较深度学习方法和布尔搜索集中在三种不同的信息检索场景。
查看此图

结果根据三种信息检索场景和研究假设进行组织。

场景1 -基于证据的综合的发展

表1显示了场景1的比较结果,场景1要求近乎完美的回忆。我们验证了这个假设与PubMed临床查询广泛过滤器相比,深度学习方法在科学合理的治疗研究中产生了同等的召回率和更高的精度.临床查询广泛过滤器的召回率在统计上显著高于深度学习模型(98.4% vs 96.9%;P= 0.002),尽管差异很小(-1.6%),并且在实践中可能是边际的,这取决于用例。深度学习模型的精度明显高于临床查询广泛过滤器,绝对差异为+12.2% (34.6% vs 22.4%;P<措施)。

场景2 -文献监控

表2显示了场景2的比较结果,需要检索MeSH索引之前的近期研究。我们验证了这个假设与文本搜索策略相比,深度学习方法在科学合理的治疗研究中产生了同等的召回率,但精度更高.在回忆方面,深度学习模型相当于麦克马斯特的文本搜索(97.1% vs 96.9%;P= .57);与文本搜索相比,其精度显著提高(34.6% vs 28.5%;P<措施)。

场景3 -病人护理决策支持

表3显示了情景3的比较结果,在这种情况下,用召回率的小损失换取精度的收益是可以接受的。我们验证了这个假设与麦克马斯特的平衡临床查询过滤器相比,深度学习方法在科学合理的治疗研究中产生了同等的召回率,但精度更高。与麦克马斯特平衡处理过滤器相比,深度学习模型的召回率相似(96.9% vs 97.0%;P=.63),但精度较低(34.6% vs 40.9%;P<措施;表3).

K点精度

深度学习模型排序输出的K曲线精度表明,在前10至前100篇引文中,精度在75.5%至61%之间,仅在前200、300和500篇引文之后,精度大幅下降(图5).

表1。根据临床对冲金标准(N=20),深度学习模型和临床查询广义过滤器的平均召回率、精度和F-measure。
参数 深度学习(%) CQ一个广泛(%) P价值
回忆 96.9 98.4 <措施
精度 34.6 22.4 <措施
F-measure 51.0 36.5 <措施

一个CQ: PubMed临床查询治疗过滤器

表2。根据临床对冲金标准(N=20),深度学习模型和麦克马斯特的文本搜索的平均召回率、精确度和F-measure。
参数 深度学习(%) 文本搜索(%) P价值
回忆 96.9 97.1 .57
精度 34.6 11.8 <措施
F-measure 51.0 21.0 <措施
表3。根据临床对冲金标准(N=20),深度学习方法和麦克马斯特平衡治疗过滤器的平均召回率、精密度和f -测量值。
测量 深度学习(%) 麦克马斯特的CQ一个平衡过滤器(%) P价值
回忆 96.9 97.0
精度 34.6 40.9 <措施
F-measure 51.0 57.5 <措施

一个CQ: PubMed临床查询治疗过滤器

图5。深度学习模型在前K引用的不同级别上的平均精度。
查看此图

重大的发现

据我们所知,这是第一个调查使用深度学习技术在三种不同的信息搜索场景中识别生物医学文献中科学合理的研究报告的研究。与最先进的搜索过滤器相比,深度学习方法表现得相当好,特别是在文献监视方面。对于证据合成,深度学习方法的召回率略低(-1.6%),但精度显著高于PubMed临床查询广泛治疗过滤器(+12.2%)。对于文献监测,深度学习方法的召回率与麦克马斯特的文本过滤器相当,但精度显著更高(+22.2%)。对于患者护理决策,深度学习模型具有相似的召回率,但精度(-6.3%)低于麦克马斯特的平衡过滤器。该研究方法的优点包括使用非常大的训练集,与最先进的搜索策略进行比较,并使用完全独立于训练集的严格金标准进行评估。

与之前的方法相比,所提出的深度学习方法有三个主要的潜在优势。首先,与以前的机器学习方法不同,以前的机器学习方法依赖于一些并不总是公开和同时可用的特征(例如MeSH术语、引文计数、期刊影响因子),本文提出的深度学习方法只使用引文标题和摘要,只要在PubMed中输入引文,它们就可以使用。尽管可以添加全文文章以提高性能,但获取PubMed中索引的所有文章的全文是不切实际的,因为大多数期刊不提供全文的开放访问。为了评估基于MeSH过滤器的文献监测策略的潜在延迟时间,我们确定了PubMed中文章记录创建日期(CRDT)与McMaster PLUS数据库中107种期刊(55,237篇文章)的MeSH术语发布日期(MHDA)之间的时间,从McMaster PLUS数据库派生出临床对冲数据库。每期期刊MeSH索引的平均延迟为162天(95% CI 157-167),范围为17 - 328天。期刊的索引间隔与期刊影响因子呈负相关(2016年),但相关性相对较弱(-0.38;CI -0.199至-0.517)。作为第二个好处,深度学习模型在前50个引用中提供了70%或更高精度的排名输出。这一功能对于处于繁忙临床环境中的临床医生特别有用,他们不太可能查看PubMed搜索中显示的前20名引用之外的内容[20.21].此外,引文排名可以帮助系统评审的发展,因为前置的“合格”引文可用于帮助培训和校准引文筛选人员,并确定工作的优先级[22].第三,尽管在有噪声的数据集上训练,但深度学习模型获得了合理的性能(估计大约50%的阳性案例是假阳性)。这一发现证实了深度学习方法的鲁棒性,该方法已知对噪声训练数据具有弹性[23].

与之前工作的比较

之前的工作将深度学习应用于生物医学信息学领域的分类任务。李(24]将句子分类为属于将被纳入系统评价的论文,或不属于系统评价的论文。然而,由于他们没有采用我们在这里设计的大规模训练程序,他们的结果很差。也不清楚作者是否只关注句子分类,还是文档分类,就像我们的工作[24].休斯等[25]应用cnn根据26个类别中的一个来对句子进行分类,例如“大脑”或“癌症”,使用类似的方法(尽管训练程序不同)来解决不同的问题。王等[26]使用单词、依赖性和抽象意义表示嵌入从生物医学文献中提取药物-药物相互作用的信息。Nguyen等人[27]和切等人[28]利用cnn预测风险结果,如医院再入院,使用电子健康记录数据作为输入。与休斯等人一样[25],尽管应用于不同的问题,但后者的研究证明了在生物医学文本分类中使用CNN的先例。

基于MeSH术语、出版物类型和标题/摘要词的多项式支持向量机分类器,与美国医师学会期刊俱乐部收录的内科文章金标准相比,召回率为96%,准确率为18% [9].另一项研究比较了临床查询过滤器、机器学习和基于引用计数的算法,以及使用关于外科肿瘤学常见问题的重要文献的金标准的PageRank算法[10].PageRank算法在前10、20、50和100次引用上的精度分别为7.8%、13.0%、19.9%和26.3% [10].总体精密度和召回率未见报道。最近,Kilicoglu等人[8]调查了一组使用MeSH术语、标题/摘要词、UMLS概念和语义断言等特征的分类器。具有这些特征的Naïve贝叶斯分类器在临床对冲数据库中对治疗研究的召回率和准确率分别为91.4%和52.5% [8].如上所述,这些先前的方法依赖于大量的特征工程和/或专有的和对时间敏感的特征,从而影响了这些方法在实时信息检索系统中的使用。在最近的一项研究中,Marshall等[29]开发了基于文章标题和摘要的CNN和支持向量机分类器,以识别随机对照试验(rct)的报告。最佳分类器的召回率为98.5%,准确率为21% [29].尽管作者也根据临床对冲数据库评估了他们的分类器,但结果不能直接与我们的研究进行比较,因为他们的目标是将rct与科学合理的研究进行区分(并非所有rct都是科学合理的研究,也并非所有科学合理的研究都是rct)。另一个区别是马歇尔等人[29]使用了来自Cochrane系统评价中确定的随机对照试验的训练集,而我们使用了使用临床查询治疗狭窄过滤器获得的数据集。

误差分析

我们分析了由深度学习模型识别的20个假阴性和20个假阳性的随机样本。大多数假阴性(16/20)可能是由于文章摘要中缺乏对研究设计的明确描述,这导致深度学习模型错过了这些文章。在20个假阴性中,临床查询广泛过滤器能够根据MeSH术语和发表类型而不是摘要或标题中的单词正确识别14篇文章。在未来的研究中,可以研究两种方法来解决这个问题。首先,MeSH术语和发布类型可以被包含为深度学习特性。需要注意的是,这种方法需要特性工程,并且会受到上面描述的MeSH术语和发布类型的时间延迟的限制。第二种可能是更有前途的方法,是将文章全文中的方法部分作为深度学习的输入。由于方法部分比文章摘要有更多关于研究方法的细节,它可能会导致对科学合理的研究进行更准确的分类。

假阳性是由于两个主要的错误类别。首先,20例病例中有7例是部分符合质量标准的边缘文章(例如,没有临床结果的RCT),因此更难评级(7/20)。其次,在20个案例中,有11个摘要包含了与高质量方法学相关的术语,但在研究方法的上下文之外陈述了这些术语(例如,说明需要未来rct的抽象结论,社论提出了对特定主题的rct的需求)。减轻这两种类型错误的方法包括使用方法部分的全文作为深度学习模型的输入,并开发单独的子分类器来检测满足部分质量标准的研究和非原创研究(如社论、信件、评论)。

限制

我们的研究有四个重要的局限性。首先,尽管我们专注于最有可能产生最佳结果的深度学习模型和优化策略,但我们并没有耗尽所有深度学习优化的可能性。例如,关于rnn的新工作可能被证明在文档分类任务中更准确[30.31].我们选择将精力集中在cnn上,因为考虑到我们的文本数据的大规模,它们的运行效率更高,但是通过比较这些方法,可以有效地了解速度和准确性之间的权衡。我们也没有用尽超参数空间来搜索我们的CNN。我们的许多选择都是经验性的,因为这是第一次研究,进一步的努力可能会利用更系统的方法来进行超参数调优[32].其次,我们的方法意味着“端到端”(即,文本简单地进入我们的管道并被分类)。这种方法是可取的,因为它不需要重要的特征工程或依赖时间的特征,如MeSH术语。然而,进一步的研究可以探索在我们的模型中添加更丰富的特征来提高性能。例如,由于麦克马斯特的文本过滤器与临床查询过滤器具有相同的召回率(但精度低于临床查询过滤器),因此基于网格的特征可能会提高我们深度学习方法的精度。第三,我们只与一个文本筛选器进行了比较,没有使用其他机器学习方法,因为我们没有访问那些机器学习分类器。与之前三种机器学习方法中的两种进行比较是间接的,因为那些研究没有使用临床对冲作为黄金标准。最后,我们专注于确定“治疗”研究;需要进一步的工作来验证我们的方法是否可以推广到其他领域,如诊断、病因学和预后。

结论

我们将深度学习与最先进的搜索过滤器进行了比较,以确定生物医学文献中科学合理的研究报告。总的来说,由此产生的深度学习模型与其他方法相比,特别是在涉及网格索引之前的近期引用的情况下。深度学习方法的优点包括低特征工程要求,不依赖于专有和时间敏感的特征,以及使用非常大的训练集。未来的工作需要进一步研究优化机会,并将深度学习方法应用于其他临床领域。深度学习是一种很有前途的方法,可以从生物医学文献中识别科学合理的研究,并值得进一步研究,作为当前搜索过滤器的潜在替代品或补充。

致谢

GDF由美国国家医学图书馆拨款1R01LM011416和美国国家癌症研究所拨款1U24CA204800资助。此外,本材料是基于国防高级研究计划局(DARPA)项目办公室支持的工作。w31p4q - 17 - c - 0103。作者要感谢InferLink公司的建议和支持。临床对冲数据库是在美国国家医学图书馆和加拿大健康研究所的资助下创建的。

利益冲突

MM是InferLink Corp.的首席科学家和Evid Science, Inc .的首席执行官,这两家公司都可以从使用上述方法作为现有或新的医学文献分析产品的功能中受益。GDF, AI, CC和RBH没有竞争利益需要申报。

  1. 海恩斯RB。临床杂志上的肉在哪里?ACP杂志1993;119(3):A22。
  2. 埃尼迪斯JPA。为什么大多数发表的研究结果都是错误的。PLoS Med 2005 Aug;2(8):e124 [免费全文] [CrossRef] [Medline
  3. Haynes RB, Wilczynski N, McKibbon KA, Walker CJ, Sinclair JC。开发MEDLINE中检测临床可靠研究的最佳搜索策略。中国医学杂志1994;1(6):447-458 [免费全文] [Medline
  4. Wilczynski NL, McKibbon KA, Haynes RB。加强从文献数据库中检索医疗保健最佳证据:文献手工检索的校准。种马健康技术通报2001;84(Pt 1):390-393。[Medline
  5. 威尔钦斯基NL,摩根D,海恩斯RB,赫奇斯队。概述检索临床护理高质量研究的设计和方法。BMC Med Inform Decis Mak 2005年6月21日;5:20 [免费全文] [CrossRef] [Medline
  6. Wilczynski NL, McKibbon KA, Walter SD, Garg AX, Haynes RB。MEDLINE临床查询在搜索最近出版的年份时是健壮的。中国医学杂志2013;20(2):363-368 [免费全文] [CrossRef] [Medline
  7. Irwin A, Rackham D.根据影响因子、学科和重点比较生物医学期刊在PubMed上的索引时间。中国医药科学,2017;13(2):389-393 [免费全文] [CrossRef] [Medline
  8. Kilicoglu H, Demner-Fushman D, Rindflesch TC, Wilczynski NL, Haynes RB。实现科学严谨的临床研究证据的自动识别。中国医学信息杂志2009;16(1):25-31 [免费全文] [CrossRef] [Medline
  9. 张晓明,张晓明,张晓明。基于文本分类的内科高质量文献检索。中国医学信息杂志2005;12(2):207-216 [免费全文] [CrossRef] [Medline
  10. Bernstam EV, Herskovic JR, Aphinyanaphongs Y, Aliferis CF, Sriram MG, Hersh WR。使用引用数据改进从MEDLINE检索。美国医学信息学会2006年1月;13(1):96-105 [免费全文] [CrossRef] [Medline
  11. 李,李,李。基于卷积深度信念网络的分层表示无监督学习。: ACM;2009年发表于:第26届机器学习国际年会论文集;2009;加拿大魁北克蒙特利尔,第609-616页。
  12. 李海,范鹏,李文勇,吴艾。基于卷积深度信念网络的音频分类无监督特征学习。2009年发表于:神经信息处理系统的进展;2009;加拿大温哥华,p. 1096-1104。
  13. Kim Y. arXiv。2014.用于句子分类的卷积神经网络https://arxiv.org/abs/1408.5882[访问2018-05-30][WebCite缓存
  14. 陈晓峰,陈志强,陈志强,陈志强。2013.向量空间中单词表示的高效估计https://arxiv.org/abs/1301.3781[访问2018-05-30][WebCite缓存
  15. 尹伟,柯康,于明,Schütze H. arXiv。2017.CNN与RNN在自然语言处理中的比较研究https://arxiv.org/abs/1702.01923[访问2018-05-30][WebCite缓存
  16. Liberati A, Altman DG, Tetzlaff J, Mulrow C, Gøtzsche PC, Ioannidis JPA,等。用于报告评估医疗保健干预研究的系统评价和元分析的PRISMA声明:解释和阐述。英国医学杂志2009;339:b2700 [免费全文] [Medline
  17. 孙志强,李志强,李志强,等。监视搜索技术确定了更新系统审查的必要性。中华临床流行病学杂志2008年8月;61(8):755-762。[CrossRef] [Medline
  18. Elliott JH, Synnot A, Turner T, Simmonds M, Akl EA, McDonald S,生活系统评价网络。生活系统回顾:介绍——为什么,什么,什么时候,怎么做。中华临床流行病学杂志2017年11月;91:23-30。[CrossRef] [Medline
  19. 肖亚妮,孙文杰,李文杰,李文杰,等。AHRQ技术评论。更新系统评价。马里兰州罗克维尔:医疗保健研究和质量机构(美国);2007.
  20. Del Fiol G, Workman TE, Gorman PN。临床医生在护理点提出的临床问题:系统回顾。JAMA Intern Med 2014年5月;174(5):710-718。[CrossRef] [Medline
  21. Jansen B, Spink A, Saracevic T.真实生活,真实用户和真实需求:对网络用户查询的研究和分析。Inf Process Manag 2000 Mar;36(2):207-227 [免费全文] [CrossRef
  22. Cohen AM, Ambert K, McDonagh M.跨主题学习在系统评审创建和更新中的工作优先级。中国医学信息杂志2009;16(5):690-704 [免费全文] [CrossRef] [Medline
  23. Krause J, Sapp B, Howard A, Zhou H, Toshev A, Duerig T,等。噪声数据在细粒度识别中的有效性不合理。2016年发表于:欧洲计算机视觉会议;2016;荷兰阿姆斯特丹,页301-320。
  24. 李通用电气。系统综述中用于临床文献分类的卷积神经网络研究。在:SysReview在CLEF eHealth。2017年出席:CEUR研讨会;2017;都柏林,爱尔兰。
  25. 李,李,李,李志强。基于卷积神经网络的医学文本分类。Stud Health technology Inform 2017;235:246-250。[Medline
  26. 王勇,刘松,Rastegar-Mojarad M,王玲,沈峰,刘峰,等。生物医学文献中药物-药物相互作用提取的依赖性和AMR嵌入。2017年发表于:第八届ACM生物信息学、计算生物学和健康信息学国际会议;2017;波士顿,马萨诸塞州,美国。
  27. Nguyen P, Tran T, Wickramasinghe N, Venkatesh S. $mathtt {Deepr}$:用于医疗记录的卷积网络。IEEE生物医学健康信息2017年12月21日(1):22-30。[CrossRef] [Medline
  28. 车震,程勇,孙泽,刘宇。2017.利用卷积神经网络进行医疗特征嵌入的风险预测https://arxiv.org/abs/1701.07474[访问2018-05-30][WebCite缓存
  29. Marshall I, Noel-Storr A, Kuiper J, Thomas J, Wallace B.用于识别随机对照试验的机器学习:评估和从业者指南。Res Synth方法2018年1月04:1-13。[CrossRef] [Medline
  30. 刘鹏,邱晓霞,黄霞。基于多任务学习的递归神经网络文本分类。: AAAI出版社;2016年发表于:第25届人工智能国际联合会议;2016;美国纽约州纽约p. AAA。
  31. 赖松,徐磊,刘凯,赵娟。基于卷积神经网络的文本分类方法。: AAAI出版社;2015年发表于:第29届AAAI人工智能大会;2015;德克萨斯州奥斯汀,美国p. 2267-2273。
  32. 王志强,王志强。基于随机搜索的超参数优化算法。J Mach Learn Res 2012; 13:1 -305。


有线电视新闻网:卷积神经网络
款:深度神经网络
网:医学学科标题
个随机对照试验:随机对照试验
ReLU:线性整流函数
RNN:循环神经网络
uml:统一医学语言系统


G·艾森巴赫(G Eysenbach)编辑;提交05.03.18;同行评议:M Banf, Y Wang;对作者12.04.18的评论;修订本收到26.04.18;接受12.05.18;发表25.06.18

版权

©Guilherme Del Fiol, Matthew Michelson, Alfonso Iorio, Chris Cotoi, R Brian Haynes。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2018年6月25日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map