这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
循证医学实践的一个主要障碍是在给定的临床主题上有效地找到科学合理的研究。
研究一种深度学习方法,从生物医学文献中检索科学合理的治疗研究。
我们使用包含403216篇PubMed引文的噪声数据集(以标题和摘要为特征)训练卷积神经网络。将深度学习模型与最先进的搜索过滤器进行比较,例如PubMed的临床查询广泛治疗过滤器,McMaster的文本搜索策略(无医学主题标题,MeSH,术语)和临床查询平衡治疗过滤器。先前注释的数据集(临床对冲)被用作金标准。
深度学习模型的召回率明显低于临床查询广义治疗过滤器(96.9% vs 98.4%;
与最先进的搜索过滤器相比,深度学习表现良好,尤其是在引文没有索引的情况下。与以前的机器学习方法不同,所提出的深度学习模型不需要特征工程、时间敏感或专有特征,如MeSH术语和文献计量学。深度学习是一种很有前途的方法,可以识别科学严谨的临床研究报告。需要进一步的工作来优化深度学习模型,并评估其在其他领域的推广能力,如诊断、病因学和预后。
每天大约有95个临床试验发表,生物医学文献正在以非常快的速度增长,对循证医学的实践构成了重大挑战。然而,生物医学文献中只有1%的研究符合科学质量的最低标准[
二十多年来,
先前的研究调查了使用机器学习方法来自动检索科学合理的研究[
在本研究中,我们研究了一种深度学习方法,用于从PubMed检索科学合理的治疗研究。为了克服以前方法的局限性,我们专注于一种方法,它需要很少的特征工程,不依赖于专有或时间相关的特征。然后,我们将深度学习模型的性能与针对临床对冲的最先进的PubMed搜索策略进行了比较,临床对冲是一个严格的黄金标准,超过50,000项研究根据严格的标准系统地对科学质量进行了评级[
机器学习的最新进展使计算机模仿人类活动的能力得到了显著提高。这些改进中的许多都利用了“深度学习”,并体现了具有跨网络层完全连接的许多节点的神经网络。在我们这里使用的监督深度学习的背景下,这样的网络通过提供许多分类目标的示例以及许多反例来训练。
深度神经网络(DNN)是一组完全连接的“层”,每个层都包含一个节点,该节点以与输入数据的特定特征相关的权重形式编码信息。通过“连接”,我们的意思是每一层的节点与下一层的节点连接。DNN被认为是“深度的”,因为它可以包含许多这样的连接节点和/或层,从而在应用于每层输入的权重中编码大量信息。
在文本分类的情况下,网络的输入是一组单词(或下面描述的“单词嵌入”)。DNN的每个连续层以线性代数运算的形式对单词进行一些转换,逐步编码数据的更细粒度特征[
虽然可能有用,但特征工程是具有挑战性的:它可能需要大量的手工工作,并引入某些特征对训练数据过于特定或甚至不可用的风险。正如我们下面讨论的那样,利用用于索引PubMed中的文章的MeSH术语当然可以帮助完成像我们这样的任务,但是不能保证这些信息能够及时地用于文章。
因此,我们选择了“端到端”机器解决方案。在端到端方法中,深度神经网络仅在输入和类上进行训练,很少或没有特征工程。最小功能是那些与任务和领域无关的功能,例如将单词转换为小写,删除停止词和词干提取。这种方法的潜在优势包括:(1)设计更简单,因此强有力的结果更有可能表明深度神经网络检测的是文本信号,而不是一个神秘的特征;(2)不依赖外部因素,例如可能无法及时获得的功能;(3)减少概念漂移,因为在部署模型时,训练特征可能与可用特征不一致。因此,端到端系统为分类任务中的第一种方法提供了强有力的理由。
在这项研究中,我们使用了一种特殊的深度学习神经网络,称为卷积神经网络(CNN),采用了Kim [
CNN的一个例子显示在
文本分析任务的另一种流行方法是循环神经网络(rnn)。与CNN的滑动窗口不同,rnn在某种程度上是独立对待短语的,而rnn则非常适合于对特定文本的分类依赖于周围文本的语言任务。例如,rnn非常适合词性标注或机器翻译,这些都非常依赖于特定的词序。然而,因为它们必须考虑顺序依赖性,所以它们不适合我们这样的任务。事实上,在cnn和rnn在自然语言处理任务上的正面比较中,Yin等[
神经网络的主要学习包括“前向传播”和“后向传播”。在前向传播中,通过将输入转换为固定大小的实值向量,将输入转换为特征。这些向量(例如,“层”)与权重相结合,并通过一个激活函数传递,该函数总结了向量的每个特征及其权重的贡献。层之间相互连接,使得当前层的激活函数的值成为下一层的输入。因此,“前向传播”从输入开始,将激活值从一层传递到另一层,直到最后一层输出某个决策向量。在我们的示例中,这个最终输出函数是一个sigmoid激活函数,它可以为类成员分配概率。在“反向传播”中,最终的分类决策与来自训练数据的已知结果进行比较,错误通过网络从输出层向后传播到输入层。每个权重根据其通过梯度下降对决策精度的贡献进行更新。
在CNN的背景下,我们可以将“前向”传播的各种传递解释为对文本输入的不同“块”应用权重,而“后向”传播解释为调整这些权重以在预测输入文本的类别时使误差最小。在DNN的背景下,由于优化本质上是一个权值调整的过程,节点和层数越多,需要调整的权值越多才能找到最优分类器,这就需要更多的训练数据。相反,更多的权重和层可能会改善分类。因此,深度神经网络设计的一部分是确定最优参数选择以及如何处理过拟合。在我们的例子中,我们使用了一种称为dropout正则化的技术,它随机地阻止节点参与给定训练输入的分类决策,因此模型不会通过学习简单地依赖于特定节点而过度拟合。
其他优化包括为传播选择哪些数学运算;这被称为“激活函数”(即节点如何在给定权重和输入的情况下产生分数)。不同的选择会导致不同的DNN行为;有些激活函数比其他激活函数更健壮,而有些激活函数会使训练过程变得非常长。我们选择了整流线性单元(ReLU)作为我们的激活函数,因为它提供了一种有效的机制来构建鲁棒和准确的cnn。在我们这样的任务中,选择ReLU是相当常见的。最后,在CNN的背景下,通常在层之间提供下采样,这有助于控制过拟合,使训练更有效。最常见的方法是最大池化,我们在我们的方法中使用它。
卷积神经网络的例子。
因此,网络的训练包括多次正向传播,然后是反向传播。通常将所有训练数据的每次迭代称为“epoch”。该模型通常在固定数量的epoch或当成功度量似乎达到某个最大值时停止此训练过程。
Clinical Hedges是麦克马斯特大学Hedges小组先前开发的数据库,用于开发和评估临床查询过滤器[
总体而言,我们的方法包括(1)使用基于临床查询处理过滤器的PubMed搜索自动获得的大型噪声数据集训练和测试深度学习模型,以及(2)根据临床对冲作为金标准评估结果模型的性能。
具体而言,该研究方法包括以下步骤,下文将详细描述:(1)准备用于训练深度学习模型的数据集,(2)训练和调优深度学习模型,(3)比较深度学习方法与最先进的搜索过滤器和McMaster的文本过滤器在精度和召回率方面的比较,以及(4)分析深度学习在K个检索引文的几个级别上的精度表现。
训练/测试数据集包括从PubMed检索的403216条正面和负面引用。检索
用于训练和测试深度学习模型的数据集。PubMed临床查询“窄”治疗过滤器被用作确定阳性(科学合理)研究的替代。结果数据集被分成训练集和开发集,使用90/10的比例。
这些策略被限制为分别检索最多150,000和300,000个引用,以产生具有三分之一正面引用和三分之二负面引用的数据集。这两种策略都仅限于2007年至2017年之间发表的引文。没有摘要的引文被删除。搜索策略通过PubMed的eUtils应用程序接口执行。结果数据集包含147,182条正面引用和256,034条负面引用(
深度学习模型使用数据集中90%的引用进行训练,剩下的10%用作“开发”集(
正如在
我们测试了三个假设,这些假设反映了不同信息检索场景所施加的需求。第一个场景包括支持循证综合发展的搜索策略,例如系统评价和临床指南[
与深度学习模型相比,用于检索科学合理治疗研究的搜索策略。
第二种情况反映了检索最新研究的需要,例如在文献监测工作中发现新的证据,以更新现有的系统评价和临床指南[
第三种情况是临床医生在文献中寻找证据,以满足临床医生在护理特定患者时提出的信息需求[
临床对冲金标准被用来检验这三个假设。对于正面引用,我们从Clinical Hedges数据库中检索了1524项科学合理的原始研究,重点是治疗。对于负面引用,我们从Clinical hedge中检索了29,144项非正面引用的治疗研究。为了进行统计分析,我们将结果数据集分成20个随机子样本,并对每个子样本进行分层,以确保每个子样本中正负引文的比例平衡。在20个子样本上分别获得了四种方法的精度、召回率和f测量值(
分类性能根据20个数据样本的平均精度和召回率来衡量。我们使用配对学生t检验来检验两种方法在每个实验中的召回率和精度差异的显著性,显著性水平设为0.05。
评估方法,包括深度学习方法和布尔搜索之间的比较,集中在三种不同的信息检索场景。
结果按照三种信息检索场景和研究假设进行组织。
深度学习模型排名输出的K曲线精度显示,在前10 ~前100次引用中,精度在75.5% ~ 61%之间,在前200、300、500次引用之后,精度才大幅下降(
根据临床对冲金标准(N=20),深度学习模型和临床查询广泛过滤器的平均召回率、精度和F-measure。
参数 | 深度学习(%) | CQ一个广泛(%) |
|
回忆 | 96.9 | 98.4 | <措施 |
精度 | 34.6 | 22.4 | <措施 |
F-measure | 51.0 | 36.5 | <措施 |
一个CQ: PubMed临床查询治疗过滤器
根据临床对冲金标准(N=20),深度学习模型和麦克马斯特文本搜索的平均召回率、精度和F-measure。
参数 | 深度学习(%) | 文本搜索(%) |
|
回忆 | 96.9 | 97.1 | .57 |
精度 | 34.6 | 11.8 | <措施 |
F-measure | 51.0 | 21.0 | <措施 |
根据临床对冲金标准,深度学习方法和麦克马斯特平衡治疗过滤器的平均召回率、精度和F-measure (N=20)。
测量 | 深度学习(%) | 麦克马斯特的CQ一个平衡过滤器(%) |
|
回忆 | 96.9 | 97.0 | 点 |
精度 | 34.6 | 40.9 | <措施 |
F-measure | 51.0 | 57.5 | <措施 |
一个CQ: PubMed临床查询治疗过滤器
深度学习模型在前K次引用不同水平下的平均精度。
据我们所知,这是第一个研究使用深度学习技术在三种不同的信息寻求场景中识别生物医学文献中科学可靠的研究报告的研究。与最先进的搜索过滤器相比,深度学习方法的表现相当好,尤其是在文献监控方面。对于证据合成,深度学习方法的召回率略低(-1.6%),但精度明显高于PubMed临床查询广泛治疗过滤器(+12.2%)。对于文献监测,深度学习方法的召回率与麦克马斯特的文本过滤器相当,但精度明显更高(+22.2%)。对于患者护理决策,深度学习模型具有相似的召回率,但精度低于麦克马斯特的平衡过滤器(-6.3%)。该研究方法的优势包括使用非常大的训练集,与最先进的搜索策略进行比较,以及使用完全独立于训练集的严格金标准进行评估。
与以前的方法相比,所提出的深度学习方法有三个主要的潜在好处。首先,与以前的机器学习方法不同,以前的机器学习方法依赖于并不总是公开和同时可用的特征(例如,MeSH术语,引用计数,期刊影响因子),所提出的深度学习方法只使用引文标题和摘要,只要在PubMed中输入引文就可以获得。虽然全文文章可以作为功能添加以提高性能,但由于大多数期刊不提供对全文的开放访问,因此无法访问PubMed中索引的所有文章的全文。为了评估基于MeSH过滤器的文献监测策略的潜在延迟时间,我们确定了McMaster PLUS数据库中107种期刊(55,237篇文章)的PubMed文章记录创建日期(CRDT)和MeSH术语发布日期(MHDA)之间的时间,临床对冲数据库来源于该数据库。每份期刊的MeSH索引平均延迟162天(95% CI 157-167),范围为17至328天。期刊的索引间隔与期刊影响因子呈负相关(2016年),但相关性相对较弱(-0.38;CI -0.199 ~ -0.517)。第二个好处是,深度学习模型在前50个引用中提供了70%或更高精度的排名输出。这个功能对于临床医生来说特别有用,因为他们在繁忙的临床环境中不太可能查看PubMed搜索中显示的前20个引文[
以前的工作将深度学习应用于生物医学信息学领域的分类任务。李(
基于MeSH术语、出版类型和标题/摘要词的多项式支持向量机分类器,针对美国医师学会期刊俱乐部(American College of Physicians Journal Club)中包含的内科文章的黄金标准,获得了96%的召回率和18%的准确率[
我们分析了深度学习模型识别的20个假阴性和20个假阳性的随机样本。大多数假阴性(16/20)可能是由于文章摘要中缺乏对研究设计的明确描述,这导致深度学习模型错过了这些文章。在20个假阴性中,Clinical Query Broad过滤器能够根据MeSH术语和出版类型而不是摘要或标题中的单词正确识别14篇文章。在未来的研究中,可以研究两种方法来解决这个问题。首先,MeSH术语和发表类型可以作为深度学习特征。需要注意的是,这种方法需要特征工程,并且会受到上述MeSH术语和发布类型的时间滞后的限制。第二种可能更有前途的方法是将文章全文中的方法部分作为深度学习的输入。由于方法部分比文章摘要更详细地介绍了研究方法,因此可能会对科学合理的研究进行更准确的分类。
误报主要由两类错误引起。首先,20个病例中有7个是边缘文章,部分符合质量标准(例如,没有临床结果的RCT),因此更难评分(7/20)。其次,在20个案例中,有11个案例的摘要包含了与高质量方法学相关的术语,但在研究方法的背景之外陈述了这些术语(例如,摘要结论指出需要未来的随机对照试验,社论提出需要对特定主题进行随机对照试验)。减轻这两种错误的方法包括使用方法部分的全文作为深度学习模型的输入,并开发单独的子分类器来检测满足部分质量标准的研究,以及非原创研究(如社论、信件、评论)。
我们的研究有四个重要的局限性。首先,尽管我们专注于最有可能产生最佳结果的深度学习模型和优化策略,但我们并没有用尽所有深度学习优化的可能性。例如,关于rnn的新工作可能会证明在文档分类任务中更准确[
我们将深度学习与最先进的搜索过滤器进行比较,以识别生物医学文献中科学可靠的研究报告。总体而言,所得到的深度学习模型与其他方法相比效果良好,特别是在涉及MeSH索引之前的最近引用的场景中。深度学习方法的优点包括低特征工程要求,不依赖于专有和时间敏感的特征,以及使用非常大的训练集。未来的工作需要进一步研究优化机会,并将深度学习方法应用于其他临床领域。深度学习是一种很有前途的方法,可以从生物医学文献中识别科学合理的研究,值得进一步研究,作为当前搜索过滤器的潜在替代或补充。
卷积神经网络
深度神经网络
医学科目标题
随机对照试验
线性整流函数
循环神经网络
统一医学语言系统
GDF由国家医学图书馆拨款1R01LM011416和国家癌症研究所拨款1U24CA204800资助。此外,这份材料是基于美国国防高级研究计划局(DARPA)项目办公室根据合同No. 5所支持的工作。w31p4q - 17 - c - 0103。作者希望感谢interlink公司的建议和支持。Clinical Hedges数据库是在美国国家医学图书馆和加拿大卫生研究院的资助下创建的。
MM是interlink Corp.的首席科学家和Evid Science, Inc .的首席执行官,两者都可以从使用上述方法作为现有或新的医学文献分析产品的功能中受益。GDF, AI, CC和RBH没有竞争利益要申报。