卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J Med Internet Res

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v20i6e10281

29941415

10.2196/10281

原始论文

从生物医学文献中自动识别科学严谨临床研究报告的深度学习方法:比较分析研究

Eysenbach

冈瑟

Banf

迈克尔

王

燕山

德尔Fiol

Guilherme

医学博士 1

犹他大学生物医学信息系

Wakara路421号

140套房

盐湖城，犹他州，84108

美国 1 8015814080 guilherme.delfiol@utah.edu

http://orcid.org/0000-0001-9954-6799

迈克耳逊

马太福音

博士学位 2 3.

http://orcid.org/0000-0003-3346-2132

人工

阿方索

医学博士 4 5

http://orcid.org/0000-0002-3331-8766

Cotoi

克里斯

大麻,EMBA课程 6

http://orcid.org/0000-0001-7029-0582

海恩斯

R布莱恩

医学博士 4 5

http://orcid.org/0000-0002-1453-3196

¹ 犹他大学生物医学信息系

盐湖城，犹他州

美国 ² Evid科学

洛杉矶，加州

美国 ^3. InferLink公司

洛杉矶，加州

美国 ⁴ 卫生研究方法、证据和影响部麦克马斯特大学

汉密尔顿,在

加拿大 ⁵ 医学系健康科学学院麦克马斯特大学

汉密尔顿,在

加拿大 ⁶ 卫生信息研究小组麦克马斯特大学

汉密尔顿,在

加拿大

通讯作者:Guilherme Del Fiol guilherme.delfiol@utah.edu

06 2018

25 06 2018

20. 6

e10281

5 3. 2018 12 4 2018 26 4 2018 12 5 2018

©Guilherme Del Fiol, Matthew Michelson, Alfonso Iorio, Chris Cotoi, R Brian Haynes。原载于《医学互联网研究》(//www.mybigtv.com)， 2018年6月25日。

2018

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

背景

循证医学实践的一个主要障碍是在给定的临床主题上有效地找到科学合理的研究。

客观的

研究一种深度学习方法，从生物医学文献中检索科学合理的治疗研究。

方法

我们使用包含403216篇PubMed引文的噪声数据集(以标题和摘要为特征)训练卷积神经网络。将深度学习模型与最先进的搜索过滤器进行比较，例如PubMed的临床查询广泛治疗过滤器，McMaster的文本搜索策略(无医学主题标题，MeSH，术语)和临床查询平衡治疗过滤器。先前注释的数据集(临床对冲)被用作金标准。

结果

深度学习模型的召回率明显低于临床查询广义治疗过滤器(96.9% vs 98.4%; P<措施);与麦克马斯特的文本搜索的召回率相当(96.9% vs 97.1%; P=.57)和临床查询平衡过滤器(96.9% vs 97.0%; P=点)。深度学习获得的准确率明显高于临床查询广义过滤器(34.6% vs 22.4%; P<.001)和麦克马斯特的文本搜索(34.6% vs 11.8%; P<.001)，但显著低于临床查询平衡过滤器(34.6% vs 40.9%; P<措施)。

结论

与最先进的搜索过滤器相比，深度学习表现良好，尤其是在引文没有索引的情况下。与以前的机器学习方法不同，所提出的深度学习模型不需要特征工程、时间敏感或专有特征，如MeSH术语和文献计量学。深度学习是一种很有前途的方法，可以识别科学严谨的临床研究报告。需要进一步的工作来优化深度学习模型，并评估其在其他领域的推广能力，如诊断、病因学和预后。

信息检索循证医学深度学习机器学习文献数据库

介绍背景与意义

每天大约有95个临床试验发表，生物医学文献正在以非常快的速度增长，对循证医学的实践构成了重大挑战。然而，生物医学文献中只有1%的研究符合科学质量的最低标准[ 1]而大多数已发表的研究结果最终被证明是错误的[ 2]。因此，循证医学实践的一个主要障碍是有效地在给定的临床主题上找到相对较少的科学合理的研究。系统综述和荟萃分析试图总结一个给定临床问题的现有证据，以达到近乎完美的回忆。然而，系统的审查通常是不可用的，并且很快就过时了。因此，临床医生可以从高质量临床试验的最新证据中获益，然后再将其纳入系统评价。

二十多年来，临床查询过滤器已经成为从主要文献中检索科学合理的临床研究的最先进的方法，既用于系统评价的发展，也用于护理点决策支持[ 3.， 4]。临床查询过滤器由基于文本词和医学主题词(MeSH)术语的布尔搜索策略组成，这些搜索策略已通过系统方法开发和验证[ 5]。临床查询过滤器中使用的搜索文本词和MeSH术语反映了广泛接受的科学合理的临床研究标准，如“临床试验”、“随机分配”和“随机对照试验[出版物类型]”。虽然最初是在20世纪90年代开发的，但临床查询过滤器随着时间的推移不断更新，2000年开发的过滤器的召回率和精度在十年后没有显着变化[ 6]。在PubMed和其他几个生物医学文献数据库中，有几个主题的临床查询过滤器，重点是治疗、诊断、病因学和预后等领域，这些都是针对准确性或召回率进行调整的。临床查询过滤器的一个限制是它们对MeSH术语的依赖，这些术语在文章发表后23到177天被添加到PubMed引文中(根据先前的一项研究[ 7)，根据我们最近的分析，这一数字为17至328天。此外，还有改进的空间，特别是在检索精度方面。

先前的研究调查了使用机器学习方法来自动检索科学合理的研究[ 8- 10]。这些研究中使用的特征包括文献计量学(如引用计数、影响因子)、文章标题和摘要中的单词、MeSH术语、统一医学语言系统(UMLS)概念和语义谓词。虽然机器学习研究的结果是有希望的，但它们有重要的局限性，阻碍了在实践中的广泛采用，例如对重要特征工程(例如，UMLS概念，文献计量学)的要求，对专有和时间相关特征(例如，MeSH索引，引用计数)的依赖，以及对特定数据集的潜在过拟合。

在本研究中，我们研究了一种深度学习方法，用于从PubMed检索科学合理的治疗研究。为了克服以前方法的局限性，我们专注于一种方法，它需要很少的特征工程，不依赖于专有或时间相关的特征。然后，我们将深度学习模型的性能与针对临床对冲的最先进的PubMed搜索策略进行了比较，临床对冲是一个严格的黄金标准，超过50,000项研究根据严格的标准系统地对科学质量进行了评级[ 5]。

深度机器学习

机器学习的最新进展使计算机模仿人类活动的能力得到了显著提高。这些改进中的许多都利用了“深度学习”，并体现了具有跨网络层完全连接的许多节点的神经网络。在我们这里使用的监督深度学习的背景下，这样的网络通过提供许多分类目标的示例以及许多反例来训练。

深度神经网络

深度神经网络(DNN)是一组完全连接的“层”，每个层都包含一个节点，该节点以与输入数据的特定特征相关的权重形式编码信息。通过“连接”，我们的意思是每一层的节点与下一层的节点连接。DNN被认为是“深度的”，因为它可以包含许多这样的连接节点和/或层，从而在应用于每层输入的权重中编码大量信息。

在文本分类的情况下，网络的输入是一组单词(或下面描述的“单词嵌入”)。DNN的每个连续层以线性代数运算的形式对单词进行一些转换，逐步编码数据的更细粒度特征[ 11， 12]。一个有监督的深度神经网络，比如我们的方法，要求每个输入(例如，一组单词)与一个类相关联，这样深度神经网络将学习如何将单词与每个类相关联，以便预测新看不见的单词集的类别。与大多数机器学习方法一样，输入文本可以通过多种方式进行转换。在文本分类的情况下，这种转换可能包括添加书目和作者信息等无关信息。这个设计和应用特征来优化分类的过程被称为工程特性。

虽然可能有用，但特征工程是具有挑战性的:它可能需要大量的手工工作，并引入某些特征对训练数据过于特定或甚至不可用的风险。正如我们下面讨论的那样，利用用于索引PubMed中的文章的MeSH术语当然可以帮助完成像我们这样的任务，但是不能保证这些信息能够及时地用于文章。

因此，我们选择了“端到端”机器解决方案。在端到端方法中，深度神经网络仅在输入和类上进行训练，很少或没有特征工程。最小功能是那些与任务和领域无关的功能，例如将单词转换为小写，删除停止词和词干提取。这种方法的潜在优势包括:(1)设计更简单，因此强有力的结果更有可能表明深度神经网络检测的是文本信号，而不是一个神秘的特征;(2)不依赖外部因素，例如可能无法及时获得的功能;(3)减少概念漂移，因为在部署模型时，训练特征可能与可用特征不一致。因此，端到端系统为分类任务中的第一种方法提供了强有力的理由。

递归神经网络和卷积神经网络

在这项研究中，我们使用了一种特殊的深度学习神经网络，称为卷积神经网络(CNN)，采用了Kim [ 13]。从某种程度上说，金的CNN建筑已经成为一个事实上的文本分类标准。cnn使用指定大小的滑动文字窗口来分析文本。每个滑动字窗口生成一组实值向量。通常，每个单词甚至字符都与一个“词嵌入”相关联，词嵌入是一个低维实值向量，表示单词的语义空间[ 14]。因此，由于每个词都与一个向量相关联，因此每个滑动词窗口表示一个矩阵。然后将每个滑动字窗口传递给一个激活函数，并应用“最大池”，以便仅保留应用于窗口的激活函数产生的值集中的最大值。也就是说，每个窗口都与其激活函数输出的单个最大值相关联。这些最大值被连接在一起，形成它们自己的向量，表示窗口集。这组连接的值形成了下一层，然后传递到最后一层，其中包括决策激活函数(如Softmax，如下所述)。

CNN的一个例子显示在图1。从左到右，我们看到一组输入词和它们的词嵌入，它们形成了初始输入矩阵。该网络使用两组滑动窗口，一组为2号尺寸，另一组为3号尺寸。这些滑动窗口集产生卷积层，将滑动窗口的特征转换为新的特征值，然后将这些特征值池化，以便仅保留最大值(“最大池化”)。最后，最大池值通过完全连接的最终(输出)层传递，该层使用Softmax分配类隶属度的概率(对于二进制类隶属度显示为“yes”或“no”)。虽然这种方法可能看起来“肤浅”，但它已被证明是有效的，成为CNN最受欢迎的架构选择之一[ 13]。

文本分析任务的另一种流行方法是循环神经网络(rnn)。与CNN的滑动窗口不同，rnn在某种程度上是独立对待短语的，而rnn则非常适合于对特定文本的分类依赖于周围文本的语言任务。例如，rnn非常适合词性标注或机器翻译，这些都非常依赖于特定的词序。然而，因为它们必须考虑顺序依赖性，所以它们不适合我们这样的任务。事实上，在cnn和rnn在自然语言处理任务上的正面比较中，Yin等[ 15发现cnn特别适合所谓的“关键词识别”任务，如文本分类或情感分析。此外，cnn被发现比rnn快5倍[ 15]，这在现实世界的任务中很重要，比如我们的目标是在合理的时间内对一个非常大的语料库(如PubMed)进行分类。

深度神经网络优化(如何学习)

神经网络的主要学习包括“前向传播”和“后向传播”。在前向传播中，通过将输入转换为固定大小的实值向量，将输入转换为特征。这些向量(例如，“层”)与权重相结合，并通过一个激活函数传递，该函数总结了向量的每个特征及其权重的贡献。层之间相互连接，使得当前层的激活函数的值成为下一层的输入。因此，“前向传播”从输入开始，将激活值从一层传递到另一层，直到最后一层输出某个决策向量。在我们的示例中，这个最终输出函数是一个sigmoid激活函数，它可以为类成员分配概率。在“反向传播”中，最终的分类决策与来自训练数据的已知结果进行比较，错误通过网络从输出层向后传播到输入层。每个权重根据其通过梯度下降对决策精度的贡献进行更新。

在CNN的背景下，我们可以将“前向”传播的各种传递解释为对文本输入的不同“块”应用权重，而“后向”传播解释为调整这些权重以在预测输入文本的类别时使误差最小。在DNN的背景下，由于优化本质上是一个权值调整的过程，节点和层数越多，需要调整的权值越多才能找到最优分类器，这就需要更多的训练数据。相反，更多的权重和层可能会改善分类。因此，深度神经网络设计的一部分是确定最优参数选择以及如何处理过拟合。在我们的例子中，我们使用了一种称为dropout正则化的技术，它随机地阻止节点参与给定训练输入的分类决策，因此模型不会通过学习简单地依赖于特定节点而过度拟合。

其他优化包括为传播选择哪些数学运算;这被称为“激活函数”(即节点如何在给定权重和输入的情况下产生分数)。不同的选择会导致不同的DNN行为;有些激活函数比其他激活函数更健壮，而有些激活函数会使训练过程变得非常长。我们选择了整流线性单元(ReLU)作为我们的激活函数，因为它提供了一种有效的机制来构建鲁棒和准确的cnn。在我们这样的任务中，选择ReLU是相当常见的。最后，在CNN的背景下，通常在层之间提供下采样，这有助于控制过拟合，使训练更有效。最常见的方法是最大池化，我们在我们的方法中使用它。

图1

卷积神经网络的例子。

因此，网络的训练包括多次正向传播，然后是反向传播。通常将所有训练数据的每次迭代称为“epoch”。该模型通常在固定数量的epoch或当成功度量似乎达到某个最大值时停止此训练过程。

临床对冲

Clinical Hedges是麦克马斯特大学Hedges小组先前开发的数据库，用于开发和评估临床查询过滤器[ 5]和以前的机器学习方法[ 8从PubMed检索科学可靠的临床研究。该数据库有发表在170种临床期刊上的50,594篇文章。所有文章均由高度校准的信息科学专家根据类型(如病因、预后、诊断、预防、治疗、临床预测)以及每项研究是否符合预先指定的、实验验证的科学合理的临床研究方法学标准进行人工注释。评定《临床对冲》文章等级的标准和程序见其他地方[ 5]。总之，科学合理的治疗干预研究的标准包括随机分配研究参与者、临床相关结果和至少80%的研究参与者随访。

方法方法概述

总体而言，我们的方法包括(1)使用基于临床查询处理过滤器的PubMed搜索自动获得的大型噪声数据集训练和测试深度学习模型，以及(2)根据临床对冲作为金标准评估结果模型的性能。

具体而言，该研究方法包括以下步骤，下文将详细描述:(1)准备用于训练深度学习模型的数据集，(2)训练和调优深度学习模型，(3)比较深度学习方法与最先进的搜索过滤器和McMaster的文本过滤器在精度和召回率方面的比较，以及(4)分析深度学习在K个检索引文的几个级别上的精度表现。

训练数据集的准备

训练/测试数据集包括从PubMed检索的403216条正面和负面引用。检索积极研究(即科学合理)，我们使用临床查询治疗过滤器调整精度(“窄”过滤器; 图2）.在之前的研究中，该过滤器在临床对冲金标准中为科学合理的治疗研究提供了93%的召回率和54%的精确度[ 5]。因此，该搜索策略被用作检索与临床对冲金标准相似的科学合理研究的大型数据集的替代品。尽管这种方法产生了一个相当嘈杂的训练集(接近一半的阳性样本是假阳性)，但只要有足够的训练数据，CNN方法就可以灵活地处理嘈杂的数据。检索消极的研究(即，不科学的)，我们检索了没有通过上述“积极”搜索策略检索到的在人类中进行的研究。

图2

用于训练和测试深度学习模型的数据集。PubMed临床查询“窄”治疗过滤器被用作确定阳性(科学合理)研究的替代。结果数据集被分成训练集和开发集，使用90/10的比例。

这些策略被限制为分别检索最多150,000和300,000个引用，以产生具有三分之一正面引用和三分之二负面引用的数据集。这两种策略都仅限于2007年至2017年之间发表的引文。没有摘要的引文被删除。搜索策略通过PubMed的eUtils应用程序接口执行。结果数据集包含147,182条正面引用和256,034条负面引用( 图2）.

训练和调整深度学习模型

深度学习模型使用数据集中90%的引用进行训练，剩下的10%用作“开发”集( 图2）.由于训练/开发分割是随机生成的，因此开发集与训练集保持着相似的正负实例比例。为了构建模型输入，我们将标题与摘要连接起来，删除停止词，并保留剩余单词的前650个标记。

正如在深度机器学习章节中，我们的模型遵循了将cnn应用于文本分类的公认方法。第一层将字符嵌入到单词中，这样就可以包括已知词汇表之外的单词进行预测。然后将字符嵌入与词嵌入(从训练数据中构建)结合起来，以捕获语义相似性。这个输入被传递到我们的模型中，该模型包含两个卷积层:一个用于大小为2的滑动单词窗口，另一个用于大小为3的单词窗口。每个卷积层包含512个与之相关的过滤器。我们将ReLU单元应用于卷积层，并通过最大池化过程传递它们。然后将得到的最大池化特征连接到单个层中。max-pooled层被传递到由512个单元(完全连接)组成的下一层，我们对其应用Softmax激活函数来预测引文属于任何一类的概率。然后，我们将Softmax预测的Argmax作为预测类。我们以0.5的dropout正则化(防止过拟合)运行该模型30次。 Hyper-parameters were chosen experimentally based on maximized precision on the training data.

深度学习方法与最新PubMed搜索策略的比较

我们测试了三个假设，这些假设反映了不同信息检索场景所施加的需求。第一个场景包括支持循证综合发展的搜索策略，例如系统评价和临床指南[ 16]。在这种情况下，有一个近乎完美回忆的要求。这种情况的假设是，与PubMed临床查询广泛过滤器相比，深度学习方法将在科学合理的治疗研究中产生同等的召回率，并且具有更高的精度，后者具有几乎完美的召回率( 图3）.

图3

与深度学习模型相比，用于检索科学合理治疗研究的搜索策略。

第二种情况反映了检索最新研究的需要，例如在文献监测工作中发现新的证据，以更新现有的系统评价和临床指南[ 17- 19]。由于临床查询过滤器部分依赖于MeSH术语和出版物类型，因此它们对文献监测的效果较差。相反，基于引文标题和摘要中的术语的搜索策略是首选的。这种情况的假设是，与麦克马斯特大学临床赫奇斯小组提供的文本搜索策略相比，深度学习方法在科学合理的治疗研究中会产生同等的召回率，但精度更高。图3）.

第三种情况是临床医生在文献中寻找证据，以满足临床医生在护理特定患者时提出的信息需求[ 20.]。在这种情况下，以召回的小损失换取精确度的大幅提高是可以接受的。我们假设，与麦克马斯特的平衡临床查询过滤器(使用文本词、MeSH术语和出版物类型的组合)相比，深度学习方法将在科学合理的治疗研究中产生同等的召回率，但精度更高。图3）.

临床对冲金标准被用来检验这三个假设。对于正面引用，我们从Clinical Hedges数据库中检索了1524项科学合理的原始研究，重点是治疗。对于负面引用，我们从Clinical hedge中检索了29,144项非正面引用的治疗研究。为了进行统计分析，我们将结果数据集分成20个随机子样本，并对每个子样本进行分层，以确保每个子样本中正负引文的比例平衡。在20个子样本上分别获得了四种方法的精度、召回率和f测量值( 图4）.最后，我们根据深度学习模型的概率得分对其输出进行排名，并获得了前K次引用(10,20,50,100,200,300和500)的几个级别的精度度量。

统计分析

分类性能根据20个数据样本的平均精度和召回率来衡量。我们使用配对学生t检验来检验两种方法在每个实验中的召回率和精度差异的显著性，显著性水平设为0.05。

图4

评估方法，包括深度学习方法和布尔搜索之间的比较，集中在三种不同的信息检索场景。

结果

结果按照三种信息检索场景和研究假设进行组织。

情景1 -循证综合的发展

表1显示了场景1的比较结果，它需要近乎完美的召回。我们检验了假设与PubMed临床查询广泛过滤器相比，深度学习方法对科学合理的治疗研究产生了同等的召回率和更高的精度。Clinical Queries Broad过滤器的召回率显著高于深度学习模型(98.4% vs 96.9%; P=.002)，尽管差异很小(-1.6%)，并且在实践中可能是边际的，这取决于用例。深度学习模型的精度明显高于临床查询广义过滤器，绝对差值为+12.2% (34.6% vs 22.4%; P<措施)。

场景2 -文献监控

表2显示了情景2的比较结果，情景2需要在MeSH索引之前检索最近的研究。我们检验了假设与文本搜索策略相比，深度学习方法在科学合理的治疗研究中产生相同的召回率，但精度更高。深度学习模型在召回率方面相当于麦克马斯特的文本搜索(97.1% vs 96.9%; P= .57);而且准确率明显高于文本搜索(34.6% vs 28.5%; P<措施)。

场景3 -病人护理决策支持

表3显示了场景3的比较结果，在场景3中，以召回率的小损失换取精度的提高是可以接受的。我们检验了假设与麦克马斯特的平衡临床查询过滤器相比，深度学习方法在科学合理的治疗研究中产生了相同的召回率，但精度更高。与麦克马斯特平衡处理过滤器相比，深度学习模型具有相似的召回率(96.9% vs 97.0%; P=.63)，但精度较低(34.6% vs 40.9%; P<措施; 表3）.

K的精度

深度学习模型排名输出的K曲线精度显示，在前10 ~前100次引用中，精度在75.5% ~ 61%之间，在前200、300、500次引用之后，精度才大幅下降( 图5）.

表1

根据临床对冲金标准(N=20)，深度学习模型和临床查询广泛过滤器的平均召回率、精度和F-measure。

参数	深度学习(%)	CQ^一个广泛(%)	P价值
回忆	96.9	98.4	<措施
精度	34.6	22.4	<措施
F-measure	51.0	36.5	<措施

^一个CQ: PubMed临床查询治疗过滤器

表2

根据临床对冲金标准(N=20)，深度学习模型和麦克马斯特文本搜索的平均召回率、精度和F-measure。

参数	深度学习(%)	文本搜索(%)	P价值
回忆	96.9	97．1	.57
精度	34.6	11.8	<措施
F-measure	51.0	21.0	<措施

表3

根据临床对冲金标准，深度学习方法和麦克马斯特平衡治疗过滤器的平均召回率、精度和F-measure (N=20)。

测量	深度学习(%)	麦克马斯特的CQ^一个平衡过滤器(%)	P价值
回忆	96.9	97.0	点
精度	34.6	40.9	<措施
F-measure	51.0	57.5	<措施

^一个CQ: PubMed临床查询治疗过滤器

图5

深度学习模型在前K次引用不同水平下的平均精度。

讨论重大的发现

据我们所知，这是第一个研究使用深度学习技术在三种不同的信息寻求场景中识别生物医学文献中科学可靠的研究报告的研究。与最先进的搜索过滤器相比，深度学习方法的表现相当好，尤其是在文献监控方面。对于证据合成，深度学习方法的召回率略低(-1.6%)，但精度明显高于PubMed临床查询广泛治疗过滤器(+12.2%)。对于文献监测，深度学习方法的召回率与麦克马斯特的文本过滤器相当，但精度明显更高(+22.2%)。对于患者护理决策，深度学习模型具有相似的召回率，但精度低于麦克马斯特的平衡过滤器(-6.3%)。该研究方法的优势包括使用非常大的训练集，与最先进的搜索策略进行比较，以及使用完全独立于训练集的严格金标准进行评估。

与以前的方法相比，所提出的深度学习方法有三个主要的潜在好处。首先，与以前的机器学习方法不同，以前的机器学习方法依赖于并不总是公开和同时可用的特征(例如，MeSH术语，引用计数，期刊影响因子)，所提出的深度学习方法只使用引文标题和摘要，只要在PubMed中输入引文就可以获得。虽然全文文章可以作为功能添加以提高性能，但由于大多数期刊不提供对全文的开放访问，因此无法访问PubMed中索引的所有文章的全文。为了评估基于MeSH过滤器的文献监测策略的潜在延迟时间，我们确定了McMaster PLUS数据库中107种期刊(55,237篇文章)的PubMed文章记录创建日期(CRDT)和MeSH术语发布日期(MHDA)之间的时间，临床对冲数据库来源于该数据库。每份期刊的MeSH索引平均延迟162天(95% CI 157-167)，范围为17至328天。期刊的索引间隔与期刊影响因子呈负相关(2016年)，但相关性相对较弱(-0.38;CI -0.199 ~ -0.517)。第二个好处是，深度学习模型在前50个引用中提供了70%或更高精度的排名输出。这个功能对于临床医生来说特别有用，因为他们在繁忙的临床环境中不太可能查看PubMed搜索中显示的前20个引文[ 20.， 21]。此外，引文排名可以帮助系统审查的发展，因为预先加载“合格”的引文可以用来帮助培训和校准引文筛选者，并确定工作的优先次序[ 22]。第三，尽管在有噪声的数据集上训练，深度学习模型仍然获得了合理的性能(估计大约50%的阳性案例是假阳性)。这一发现证实了深度学习方法的鲁棒性，众所周知，深度学习方法对噪声训练数据具有弹性[ 23]。

与前期工作比较

以前的工作将深度学习应用于生物医学信息学领域的分类任务。李( 24]将句子分类为属于将被纳入系统综述的论文，或不属于系统综述的论文。然而，由于他们没有采用大规模的训练程序，正如我们在这里设计的那样，他们的结果很差。也不清楚作者是否只关注句子分类，还是像我们的工作一样关注文档分类[ 24]。Hughes等[ 25]应用cnn根据26个类别中的一个对句子进行分类，例如“大脑”或“癌症”，使用类似的方法(尽管训练过程不同)来处理不同的问题。Wang等[ 26]使用单词、依赖关系和抽象意义表示嵌入从生物医学文献中提取药物-药物相互作用的信息。Nguyen等人[ 27]和Che等人[ 28]利用cnn预测风险结果，如再次入院，使用电子健康记录数据作为输入。Hughes等人[ 25]，虽然应用于不同的问题，但后者的研究展示了在生物医学文本分类中使用CNN的先例。

基于MeSH术语、出版类型和标题/摘要词的多项式支持向量机分类器，针对美国医师学会期刊俱乐部(American College of Physicians Journal Club)中包含的内科文章的黄金标准，获得了96%的召回率和18%的准确率[ 9]。另一项研究比较了临床查询过滤器、机器学习和基于引用计数的算法，以及使用关于外科肿瘤学常见问题的重要文献的黄金标准的PageRank算法[ 10]。PageRank算法在前10、20、50和100次引用处的精度分别为7.8%、13.0%、19.9%和26.3% [ 10]。总体精度和召回率未报告。最近Kilicoglu等人的一项研究[ 8]研究了一组使用MeSH术语、标题/抽象词、UMLS概念和语义谓词等特征的分类器。具有这些特征的Naïve贝叶斯分类器在临床对冲数据库的治疗研究中获得了91.4%和52.5%的召回率和准确率[ 8]。如上所述，那些以前的方法依赖于大量的特征工程和/或专有的和时间敏感的特征，损害了这些方法在实时信息检索系统中的使用。在最近的一项研究中，马歇尔等人[ 29]开发了基于文章标题和摘要的CNN和支持向量机分类器来识别随机对照试验(RCTs)的报告。最佳分类器的召回率为98.5%，准确率为21% [ 29]。尽管作者也根据Clinical Hedges数据库评估了他们的分类器，但结果不能直接与我们的研究进行比较，因为他们的目标是识别随机对照试验和科学合理的研究(并非所有随机对照试验都是科学合理的，并非所有科学合理的研究都是随机对照试验)。另一个不同是Marshall等人[ 29]使用的训练集来自Cochrane系统综述中确定的随机对照试验，而我们使用的数据集是通过临床查询治疗窄过滤器获得的。

误差分析

我们分析了深度学习模型识别的20个假阴性和20个假阳性的随机样本。大多数假阴性(16/20)可能是由于文章摘要中缺乏对研究设计的明确描述，这导致深度学习模型错过了这些文章。在20个假阴性中，Clinical Query Broad过滤器能够根据MeSH术语和出版类型而不是摘要或标题中的单词正确识别14篇文章。在未来的研究中，可以研究两种方法来解决这个问题。首先，MeSH术语和发表类型可以作为深度学习特征。需要注意的是，这种方法需要特征工程，并且会受到上述MeSH术语和发布类型的时间滞后的限制。第二种可能更有前途的方法是将文章全文中的方法部分作为深度学习的输入。由于方法部分比文章摘要更详细地介绍了研究方法，因此可能会对科学合理的研究进行更准确的分类。

误报主要由两类错误引起。首先，20个病例中有7个是边缘文章，部分符合质量标准(例如，没有临床结果的RCT)，因此更难评分(7/20)。其次，在20个案例中，有11个案例的摘要包含了与高质量方法学相关的术语，但在研究方法的背景之外陈述了这些术语(例如，摘要结论指出需要未来的随机对照试验，社论提出需要对特定主题进行随机对照试验)。减轻这两种错误的方法包括使用方法部分的全文作为深度学习模型的输入，并开发单独的子分类器来检测满足部分质量标准的研究，以及非原创研究(如社论、信件、评论)。

限制

我们的研究有四个重要的局限性。首先，尽管我们专注于最有可能产生最佳结果的深度学习模型和优化策略，但我们并没有用尽所有深度学习优化的可能性。例如，关于rnn的新工作可能会证明在文档分类任务中更准确[ 30.， 31]。我们选择把精力集中在cnn上，因为考虑到我们的文本数据的大规模，它们运行得更有效，但是通过比较这些方法，对理解速度和准确性之间的权衡有一个有效的调查。我们也没有穷尽地搜索CNN的超参数空间。我们的许多选择都是经验的，因为这是第一次研究，进一步的努力可能会利用更系统的方法来进行超参数调整[ 32]。其次，我们的方法是“端到端”的(即，文本只是进入我们的管道并进行分类)。这种方法是可取的，因为它不需要重要的特征工程或时间相关的特征，如MeSH术语。然而，进一步的研究可以探索在我们的模型中添加更丰富的特征以提高性能。例如，由于麦克马斯特的文本过滤器具有与临床查询过滤器相同的召回率(但精度低于)，因此基于mesh的特征有可能提高我们深度学习方法的精度。第三，我们只与一个文本过滤器进行了比较，没有使用其他机器学习方法，因为我们没有访问那些机器学习分类器。与之前三种机器学习方法中的两种进行比较是间接的，因为这些研究没有使用临床对冲作为黄金标准。最后，我们专注于识别“治疗”研究;需要进一步的工作来验证我们的方法是否可以推广到其他领域，如诊断、病因和预后。

结论

我们将深度学习与最先进的搜索过滤器进行比较，以识别生物医学文献中科学可靠的研究报告。总体而言，所得到的深度学习模型与其他方法相比效果良好，特别是在涉及MeSH索引之前的最近引用的场景中。深度学习方法的优点包括低特征工程要求，不依赖于专有和时间敏感的特征，以及使用非常大的训练集。未来的工作需要进一步研究优化机会，并将深度学习方法应用于其他临床领域。深度学习是一种很有前途的方法，可以从生物医学文献中识别科学合理的研究，值得进一步研究，作为当前搜索过滤器的潜在替代或补充。

缩写

美国有线电视新闻网

卷积神经网络

款

深度神经网络

网

医学科目标题

个随机对照试验

随机对照试验

线性整流函数（Rectified Linear Unit）

线性整流函数

RNN

循环神经网络

uml

统一医学语言系统

GDF由国家医学图书馆拨款1R01LM011416和国家癌症研究所拨款1U24CA204800资助。此外，这份材料是基于美国国防高级研究计划局(DARPA)项目办公室根据合同No. 5所支持的工作。w31p4q - 17 - c - 0103。作者希望感谢interlink公司的建议和支持。Clinical Hedges数据库是在美国国家医学图书馆和加拿大卫生研究院的资助下创建的。

MM是interlink Corp.的首席科学家和Evid Science, Inc .的首席执行官，两者都可以从使用上述方法作为现有或新的医学文献分析产品的功能中受益。GDF, AI, CC和RBH没有竞争利益要申报。

海恩斯

临床期刊上的肉在哪里?

ACP杂志俱乐部 1993 119 3. A22

埃尼迪斯

JPA

为什么大多数发表的研究结果都是错误的

科学硕士 2005 08 2 8 e124

10.1371 / journal.pmed.0020124

16060722

04 - plme - e - 0321 - r2

PMC1182327

海恩斯

Wilczynski

NgydF4y2Ba

McKibbon

卡

沃克

辛克莱

在MEDLINE中开发最佳搜索策略以检测临床可靠的研究

美国医学信息协会 1994 1 6 447 58

7850570

PMC116228

Wilczynski

问

McKibbon

卡

海恩斯

加强对书目数据库中医疗保健最佳证据的检索:文献手工检索的校准

Stud健康技术信息 2001 84 Pt 1 390 3.

11604770

Wilczynski

问

摩根

海恩斯

树篱的团队

概述为临床护理检索高质量研究的设计和方法

BMC Med Inform Decis mark 2005 06 21 5 20.

10.1186 / 1472-6947-5-20

15969765

1472-6947-5-20

PMC1183213

Wilczynski

问

McKibbon

卡

沃尔特

Garg

斧头

海恩斯

MEDLINE临床查询在搜索最近出版年份时是稳健的

美国医学信息协会 2013 20. 2 363 8

10.1136 / amiajnl - 2012 - 001075

23019242

amiajnl - 2012 - 001075

PMC3638187

欧文

一个

雷克汉姆

生物医学期刊按影响因子、学科和重点在PubMed中被索引时间的比较

Res社会管理药学 2017 13 2 389 393

10.1016 / j.sapharm.2016.04.006

27215603

s1551 - 7411 (16) 30019 - 5

Kilicoglu

Demner-Fushman

Rindflesch

Wilczynski

问

海恩斯

走向科学严谨的临床研究证据自动识别

美国医学信息协会 2009 16 1 25 31

10.1197 / jamia.M2996

18952929

M2996

PMC2605595

Aphinyanaphongs

Tsamardinos

我

Statnikov

一个

哈丁

Aliferis

用于内科高质量文章检索的文本分类模型

美国医学信息协会 2005 12 2 207 16

10.1197 / jamia.M1641

15561789

M1641

PMC551552

Bernstam

电动汽车

Herskovic

小

Aphinyanaphongs

Aliferis

斯利

毫克

赫斯

或者说是

使用引文数据改进MEDLINE的检索

美国医学信息协会 2006 01 13 1 96 105

10.1197 / jamia.M1909

16221938

M1909

PMC1380202

李

Grosse

Ranganath

一个

用于分层表示的可扩展无监督学习的卷积深度信念网络

2009

第26届机器学习国际年会论文集

2009

蒙特利尔，魁北克，加拿大

ACM

609 616

李

范教授

Largman

唉

基于卷积深度信念网络的无监督特征学习音频分类

2009

神经信息处理系统的研究进展

2009

加拿大温哥华

1096 1104

金

arXiv 2014

2018-05-30

卷积神经网络的句子分类 https://arxiv.org/abs/1408.5882

Mikolov

程ydF4y2Ba

柯拉

迪安

arXiv 2013

2018-05-30

向量空间中词表示的有效估计 https://arxiv.org/abs/1301.3781

阴

萤石

余

米

Schutze

arXiv 2017

2018-05-30

CNN与RNN在自然语言处理中的比较研究 https://arxiv.org/abs/1702.01923

Liberati

一个

奥特曼

Tetzlaff

Mulrow

Gøtzsche

个人电脑

埃尼迪斯

JPA

克拉克

米

审视中国

Kleijnen

莫赫

PRISMA关于报告评价卫生保健干预措施的研究的系统评价和荟萃分析的声明:解释和阐述

BMJ 2009 339 b2700

19622552

PMC2714672

桑普森

米

Shojania

公斤

麦高文

丹尼尔

雷德

Iansavichene

霁

安萨里

太

莫赫

监测搜索技术确定了更新系统评价的必要性

临床流行病学杂志 2008 08 61 8 755 62

10.1016 / j.jclinepi.2007.10.003

18586179

s0895 - 4356 (07) 00365 - 4

艾略特

Synnot

一个

特纳

西蒙兹

米

阿克勒说道

麦当劳

年代

Salanti

Meerpohl

麦理浩

希尔顿

Tovey

Shemilt

我

托马斯。

生活系统评论网

活系统评价:引言——为什么，什么，何时，如何

临床流行病学杂志 2017 11 91 23 30.

10.1016 / j.jclinepi.2017.08.010

28912002

s0895 - 4356 (17) 30636 - 4

Shojania

桑普森

米

安萨里

米

霁

Garritty

雷德

莫赫

AHRQ技术评审。更新系统评论 2007

马里兰州罗克维尔市

医疗保健研究和质量局(美国)

20.

德尔Fiol

工人

戈尔曼

临床医生在护理点提出的临床问题:系统回顾

美国医学会实习医师 2014 05 174 5 710 8

10.1001 / jamainternmed.2014.368

24663331

1846630

詹森

总值

一个

Saracevic

真实的生活、真实的用户和真实的需求:对网络上用户查询的研究和分析

信息流程管理 2000 3. 36 2 207 227

10.1016 / s0306 - 4573 (99) 00056 - 4

科恩

我

Ambert

麦多纳

米

系统评审创建和更新中工作优先级的跨主题学习

美国医学信息协会 2009 16 5 690 704

10.1197 / jamia.M3162

19567792

M3162

PMC2744720

克劳斯

酸式焦磷酸钠

霍华德

一个

周

Toshev

一个

Duerig

Philbin

菲菲

噪声数据对细粒度识别的有效性不合理

2016

欧洲计算机视觉会议

2016

阿姆斯特丹，荷兰

301 320

李

通用电气

卷积神经网络在系统综述临床文献分类中的应用研究

CLEF eHealth的SysReview 2017

CEUR车间

2017

爱尔兰都柏林

休斯

米

李

我

Kotoulas

年代

Suzumura

使用卷积神经网络的医学文本分类

Stud健康技术信息 2017 235 246 250

28423791

王

刘

年代

Rastegar-Mojarad

米

王

沈

刘

从生物医学文献中提取药物-药物相互作用的依赖和AMR嵌入

2017

第八届ACM生物信息学、计算生物学和健康信息学国际会议

2017

波士顿，马萨诸塞州，美国

阮

Tran

Wickramasinghe

NgydF4y2Ba

马纳尔

年代

$mathtt {Deepr}$:医疗记录的卷积网络

IEEE J Biomed Health Inform 2017 12 21 1 22 30.

10.1109 / JBHI.2016.2633963

27913366

切

程

太阳

刘

arXiv 2017

2018-05-30

利用卷积神经网络进行医学特征嵌入风险预测 https://arxiv.org/abs/1701.07474

马歇尔

我

Noel-Storr

一个

柯伊伯

托马斯。

华莱士

用于识别随机对照试验的机器学习:评估和从业者指南

Res合成方法 2018 01 04 1 13

10.1002 / jrsm.1287

29314757

30.

刘

邱

黄

基于多任务学习的递归神经网络文本分类

2016

第25届国际人工智能联合会议

2016

纽约，纽约，美国

AAAI新闻

AAA

赖

年代

徐

刘

赵

用于文本分类的循环卷积神经网络

2015

第29届AAAI人工智能会议

2015

奥斯汀，德克萨斯州，美国

AAAI新闻

2267 2273

Bergstra

Bengio

随机搜索超参数优化

J Mach Learn Res 2012 13 281 305