JMIR医学信息学-与治疗相比，诊断测试的系统评价文献检索工作量增加:挑战和机遇

原始论文

¹悉尼大学工程与信息技术学院信息技术学院，澳大利亚悉尼

²悉尼大学医学院公共卫生学院，澳大利亚悉尼

*所有作者贡献均等

通讯作者:

潘嘉伟博士

信息技术学院

工程及资讯科技学院

悉尼大学

信息技术学院大楼J12

悉尼大学

悉尼,

澳大利亚

电话:61 02 9351 7185

传真:61 02 9351 3838

电子邮件:josiah.poon@sydney.edu.au

背景:在多个医学数据库中进行全面的文献检索，以满足系统评价的严格质量标准。这些搜索通常非常费力，作者通常要手动筛选数千篇文章。事实证明，信息检索技术在提高这一过程的效率方面越来越有效。系统评价的IR挑战包括使用具有非常高类别不平衡的训练数据构建分类器，以及满足相关研究的近完美召回要求。传统上，大多数系统评价都集中在与治疗有关的问题上。在过去的十年中，诊断测试准确性(DTA)的系统评价数量大幅增加。

摘要目的:我们的目标是证明DTA综述包含了一个特别具有挑战性的文献筛选所需工作量的系统综述子类。我们确定了将红外光谱应用于DTA文献筛选的具体挑战，并确定了未来研究的潜在方向。

方法:我们假设，与治疗的系统评价相比，DTA评价的IR面临三个额外的挑战。这些问题包括类别失衡加剧，目标类别定义更宽泛，可用元数据(即医学文献分析和在线检索系统的医学主题词(MeSH)术语)相对不足。假设这些假设是正确的，当我们比较DTA与治疗的文献检索时，我们确定了五种表现。这些表现包括:被筛选的文章的平均数量增加，获得的全文文章的平均数量增加，被纳入研究的数量占被筛选的全文文章的百分比减少，被纳入研究的数量占被筛选的所有文章的百分比减少，获得的全文文章的数量占被筛选的所有文章的百分比减少。截至2013年7月12日，13篇已发表的Cochrane DTA综述均被纳入。对于每一篇DTA综述，我们随机选择相应Cochrane综述组发表的15篇治疗综述(N=195)。然后，我们对这五种假设的差异进行了统计检验，用于DTA与治疗评价。

结果:尽管DTA综述的样本量小，导致统计力较低，但(P<.01)或非常强(P< 0.001)证据支持五种预期表现中的三种，每种假设至少有一种表现的证据。观察到的效应大小差异是实质性的，表明审稿人工作量的实际差异。

结论:在筛选DTA系统评价的文献时，审稿人的工作量(筛选的引用量)特别高。当训练分类器为DTA评论自动筛选文献时，这对应于更大的类别不平衡率。解决诸如低质量元数据和有效地为更广泛的目标类建模等问题可以帮助缓解这些挑战，为未来的研究提供可能的方向。

中华医学杂志，2014;2(1):11 - 11

doi: 10.2196 / medinform.3037

关键字

荟萃分析；数据挖掘；回顾文献；信息存储与检索；分类和聚类

背景

系统评价是循证医学的关键组成部分，被广泛认为是最高形式的医学证据[1]。许多组织，如Cochrane协作组织，存在以促进对一系列临床问题和领域的系统评价的生成和传播。例如，Cochrane维护着Cochrane系统评价数据库;一个庞大的数据库，在2013年底包含超过5000条评论。传统上，系统评价侧重于与医疗干预有关的问题，但最近对其他领域(即病因学、诊断、预后等)的评价需求不断增加。特别是，对诊断测试准确性(DTA)审查的需求大幅增加，导致2003年Cochrane诊断测试准确性工作组的成立。

在医疗决策中忽略相关研究的潜在成本很高，这是众所周知的[2]。为了满足系统评价严格的召回要求，作者必须进行高度敏感、详细的文献检索。为了尽量减少出错的可能性，这些搜索在大多数情况下都是手动进行的，最终会耗费大量时间[1]。在数月甚至数年的时间里进行一次个人评估并不罕见[3.]。随着系统评审需求的增加，自动化或加速评审过程的方法显然是必不可少的[4]。

近年来，信息检索(IR)社区对增加系统综述文献检索的自动化表达了浓厚的兴趣[5-7]。这个自动化过程通常涉及一组标记的训练实例(标记为与目标审查相关或不相关的文章)，以及在这些实例上运行的分类算法，以“训练”从实例到标签的映射函数(“分类器”)。从训练这样一个分类器的角度来看，系统综述提出了几个挑战:训练数据高度不平衡(即，纳入的研究数量占所有训练样例的百分比很小)[5，有必要实现近乎完美的召回，而且目前还不清楚如何最好地将部分自动化纳入系统审查过程。尽管存在上述担忧，但这些方法收效甚微。因此，进一步改进方法是一项明确的任务[8，9]。

虽然医学界已经注意到DTA评论作者面临的一些挑战[10]，目前还没有分析将DTA和干预作为IR问题的评价之间的差异。为了本研究的目的，我们认为术语“诊断测试准确性”的定义尽可能广泛(我们不将自己限制在任何特定领域或研究设计中，并将DTA评价视为评估特定诊断测试准确性的任何评价)。从IR的角度来看，检索系统综述的关键挑战之一是类别不平衡的水平。通过对Cochrane关于DTA和治疗的文献检索的统计分析，我们确定DTA评论是一个分类不平衡率特别高的亚类。我们的分析还确定了两个潜在的原因，从IR的角度来看，这为减少额外的类别不平衡水平提供了潜在的起点。

本节的其余部分简要描述了系统综述的文献检索过程以及IR在系统综述过程中的先前应用。为简洁起见，本文仅涵盖了DTA和干预措施之间存在差异的文献检索中与IR挑战相关的先前工作。感兴趣的读者被引导到其他文献中获取更多信息[11，12]。

系统评价概述

虽然进行系统评价的确切过程因临床问题的类型(即诊断、干预、病因)而异，但所有系统评价可以说都遵循以下几个步骤[13]。这些包括问题和纳入标准的制定、文献检索、文献筛选、质量评估以及数据综合、分析和解释。

为简洁起见，本文不提供整个系统评审过程的摘要。相反，我们将对前三个阶段进行简要总结。欲了解更多信息，感兴趣的读者可参考Wright等人的文献[1]或Cochrane干预措施综述手册[14]及DTA [15]。

问题和纳入标准的制定

系统评价从制定一个高度具体的研究问题和相关的纳入标准开始。Cochrane系统评价的纳入标准是根据具体概念制定的，具体概念取决于所回答的临床问题的类型。例如，在诊断测试准确性的Cochrane Reviews中，针对研究类型、指标和比较试验、目标条件和所需参考标准制定了单独的标准[15]。与干预措施有关的问题也有一套类似的标准(称为PICO标准——人口、干预、比较、结果)[14]。

文献检索

然后，综述作者将查询多个数据库以确定潜在的相关研究(通常是医学文献分析和在线检索系统(MEDLINE)和医学摘要数据库(EMBASE)，尽管确实存在其他资源)。为了促进这一过程，在这些数据库中建立索引的引文通常使用来自受控医学概念层次结构的条目进行注释，这些条目可用于搜索和检索(示例包括用于MEDLINE的MeSH或用于EMBASE的EMTREE)。

Cochrane系统综述的文献检索通常是通过识别包含相关MeSH和自由文本术语的参考文献来进行的。干预措施的Cochrane综述通常识别与综述的几个关键概念相关的多个MeSH术语。使用已识别的MeSH术语对每个概念进行搜索，并选择搜索结果的并集进行进一步筛选。对诊断测试准确性的系统评价的文献检索是相似的，但是方法学搜索过滤器经常被省略[16]。虽然在开发高灵敏度DTA滤波器方面进行了大量研究[17-22]，更广泛的社区尚未就它们在DTA评论中的使用达成共识(例如，Cochrane DTA评论手册建议反对“常规使用方法学搜索过滤器”[15])。

文献筛选

在两个阶段的过程中，将文献搜索返回的参考文献与综述的纳入标准进行手动比较。最初，两位审稿人独立筛选所有参考文献的标题和摘要，并获得任何潜在相关引用的全文文章。这些全文文章随后由两位审稿人再次筛选。

为了满足近乎完美召回的要求，筛选的参考文献的数量通常要比最终审查中包含的数量多很多倍，通常是一到两个数量级。Karimi等人指出，在筛选引文时，每个单独的文档可能需要几分钟来处理[23]。很明显，即使筛选的引文数量减少很小，也会导致审稿人时间和精力的显著减少。尽管如此，高比例的类别不平衡，加上严格的召回要求，给IR带来了重大挑战。

技术现状

系统评价的IR的一个主要问题是在构建分类器时处理高度不平衡的训练数据(即，给定评论的相关文章的可用示例数量相对于不相关的文章的数量将会很小，导致模型可能偏向于不相关的研究)。解决这种阶级不平衡一直是许多相关IR文献的一个关键特征[5]。现有的技术已经取得了一些成功，但是性能仍需要改进，特别是对于那些不平衡率较高的人[8，9]。

除了高度的类别不平衡外，用于系统评价的IR还必须满足严格的召回要求。换句话说，在识别纳入系统评价的引文时，IR算法的假阳性和假阴性错误成本存在很大差异。先前解决此问题的工作包括Cohen等人的改进投票感知器方法[24]， Matwin等人的因式补体Naïve贝叶斯模型[25]，以及Cohen等人基于支持向量机的方法[6，26]和Wallace等人[7，27］

还注意将红外光谱技术与系统审查过程相结合的最佳方法。Frunza等[5]描述了一种方法，该方法基于作者手动筛选所有引用的一定百分比，然后将其用作训练数据，以构建一个分类器，并在剩余的文章上运行。相比之下，Wallace等[7，27，28]描述了一种主动学习方法，其中分类器是在迭代过程中构建的。在这里，算法特别选择那些手动注释可以提供最大改进的引文。最后，现有的工作解决了类似的任务，即确定研究以更新现有的评论[24，29]。审查更新任务的自动化类似于初始审查的分类，但是它更适合使用单独的训练集和测试集的传统分类模型(即，原始搜索的注释可以用来训练更新任务的分类器)。

也有人对应用分类将相关的MeSH术语分配给MEDLINE的引用感兴趣[30.]，以及检索高质量的方法学研究[31]。例如，在使用从美国医师学会(ACP)期刊俱乐部检索的文章作为训练数据时，Aphinyanaphongs等[31]评估了一系列常用算法，并报告了他们的初步结果在识别高质量DTA研究方面表现良好。

虽然这样的结果乍一看似乎与创建高质量DTA分类器的困难相矛盾，但应该注意DTA研究的一般检索和“高质量”DTA研究的检索之间的区别。Aphinyanaphongs等人基于从ACP期刊俱乐部元出版物中检索到的引文训练了他们的分类器，该出版物采用严格的质量标准来确定引文是否应该被纳入[31]。由于ACP限制纳入高质量的文章，这可以显著减少目标类的方差，降低任何前瞻性分类器任务的复杂性。

概述

本节概述了关于作者和IR研究在DTA评论中面临的技术挑战的三个假设。这些假设与文献检索过程中DTA和治疗系统综述的差异有关。假设A涉及整个筛选过程，假设B和假设C分别涉及第二阶段和第一阶段筛选。我们为每个假设描述一个或多个预期的表现。本文的分析报告了是否可以观察到预期的表现，以及观察结果是否具有统计显著性。链接每个假设、表现和筛选阶段的表格摘要见表1。

假设A: DTA审查的工作量增加

在进行系统审查时，一个主要的实际问题是需要筛选的大量引用所产生的工作量。大多数针对系统评价的IR研究都特别关注如何处理由大量数据引起的非常高的类别不平衡率。已经取得了实质性进展，但绝不能认为这是一个已经解决的问题。

这篇文章声称，在文献检索过程的每个阶段，DTA综述要筛选的引文数量要高于治疗综述。从IR的角度来看，这增加了纳入和排除研究数量之间已经很大的类别不平衡，从而再次增加了已经非常具有挑战性的难度。假设这是真的，那么人们可以期待以下表现(在表1):首先，要筛选的DTA评论的平均搜索结果数量将高于治疗的搜索结果。其次，DTA综述要筛选的全文文章的平均数量要高于治疗综述。最后，纳入研究的数量占筛选全文文章数量的百分比在DTA综述中将低于治疗综述。

假设B: DTA目标类别异质性增加

在筛选DTA评价文献时，DTA研究的相对异质性可能会产生问题。引用自Whiting等人[19]，诊断测试准确性研究“是异质的，探索了一系列诊断技术和策略，并且可能使用了多种方法”。此外，还有一些例子(如一些队列研究)，尽管作者没有明确计算，但人们可以得出敏感性和特异性。理想的DTA滤波器应该是高度敏感的，并将包括这些研究。

我们的论文表明，由于这种增加的难度，不能单独在标题和摘要上识别的不相关引用的百分比在DTA评论中比在治疗中更大。假设这是真的，我们可以期待以下表现(在表1): DTA综述要筛选的全文文章的平均数量将高于治疗综述，纳入研究的数量占筛选全文文章数量的百分比将低于治疗综述。

直觉上，如果一个给定的研究类型比另一个更难识别，可以预期，作者需要花费更多的精力来识别类似的研究。这种增加的努力可以采取额外的时间来筛选单个引用，或者更详细地筛选更多引用(即检查全文文章)的形式。由于假阴性分类的高成本，我们可以合理地假设，在最初的筛选阶段，任何歧义都可以通过获取全文文章来解决，而不是在标题和摘要上花更多的精力。因此，假设DTA研究本质上比随机对照试验更具有挑战性，我们希望在进行DTA评价时观察到更多的全文文章被筛选。

假设C:元数据对DTA的适用性降低

在文献检索中适当使用高质量的元数据(例如MEDLINE的MeSH术语)对于生成可管理的引用数量，同时仍然确信不会遗漏相关的引用至关重要。在这个阶段，识别数千个引用是很常见的。因此，随着可用元数据质量的降低，需要筛选以保持这种信心的引用总数将增加。

文献中指出，许多医学数据库中的元数据更适合于描述与治疗有关的概念，而不是与诊断有关的概念[15]。例如，虽然高质量的MeSH术语存在于随机对照试验等研究类型中，但对于诊断测试准确性的研究却并非如此。源自Whiting et al [19]:“尽管MEDLINE包括许多医学主题标题(MeSH)，这些标题捕获了检测准确性研究中使用的结果测量(例如，敏感性和特异性)，但这些术语并非特定于检测准确性研究，并且索引者不一致地应用这些术语”。

本文声称，DTA审查的元数据质量通常低于治疗。因此，我们可以预期在系统评价的文献检索中有以下表现(重述于表1):要筛选的搜索结果中，DTA评论的平均数量将高于治疗方面的，检索到的全文文章数量占总搜索结果的百分比将低于治疗方面的。

数据收集

在DTA综述的文献检索中，我们确定了上述假设的五种预期表现(重述于表1)。为了验证这些说法，从DTA和治疗评论的样本中提取了文献检索和筛选阶段的摘要。收集的数据包括原始检索检索到的文献数量(SR)、筛选全文论文的文献数量(FT)、最终meta分析纳入的文献数量(INC)以及所收集统计数据之间的配对比率。

表1。所有假设的预期表现(DTA与治疗评价之间的差异)。

表现	描述	假设一: 增加了工作量	假设2: 增加目标类别的异质性	假设C: 元数据适用性降低
英国《金融时报》^一个	筛选DTA综述的全文文章的平均数量要高于治疗综述	是的	-	-
老^b	DTA评论的平均搜索结果数量要高于治疗	是的	-	是的
公司^c英国《金融时报》/	纳入研究的数量占筛选全文文章数量的百分比在DTA综述中将低于治疗综述	-	是的	-
公司/老	纳入研究的数量占搜索结果总数的百分比对于DTA评价要低于治疗评价	是的	-	-
《金融时报》/老	检索到的全文文章的数量占总搜索结果的百分比对于DTA评论将低于治疗	-	-	是的

^一个筛选全文论文的参考文献数量

^b原始搜索检索到的引用数

^c纳入最终meta分析的文献数量

系统审查可以根据不同的严格标准进行和报告。这对于我们的评估来说可能是有问题的，因为理想情况下，两个样本之间的差异应该限制在一种评价类型(即DTA或治疗)。对于Cochrane合作发表的系统评价，作者必须遵循Cochrane手册中关于治疗和DTA评价的严格指南[14，15]。Cochrane发表的评论被广泛认为符合非常高的程序和报告标准，他们发表的DTA和治疗评论指南包含许多共享协议。由于我们希望将样本之间的差异限制在综述是治疗还是DTA，因此本文中报道的分析仅在Cochrane数据库的一个子集上进行。

截至检索日期(2013年7月12日)，Cochrane发表了13篇关于DTA的完整系统综述(急性呼吸道感染[ARI]、呼吸道、背部、骨骼、关节和肌肉创伤[BJMT]、眼睛和视力、妇科癌症、妊娠、肾脏和中风Cochrane综述组[CRG]各1篇，感染性疾病综述组[CRG] 2篇，背部综述组[CRG] 3篇)。获得了每次DTA审查的副本。对于每一篇DTA综述，从相应的CRG发表的文献中随机选择15篇未撤回的治疗综述。以这种方式对数据进行分层是为了考虑跨crg搜索过程中的任何变化，以及每个字段中数据的可用性。每个CRG的选定治疗审查数量的摘要载于表2。每个选定的诊断和治疗审查的列表包括在多媒体附录1。然后，一位作者从每个综述的文献检索摘要中报告的值中手动收集所需的统计数据。

重要的是要记住，根据每个综述(DTA或治疗)的具体情况，可能会对搜索过程进行更改，以在搜索敏感性和审稿人工作量之间找到所需的平衡。使用审稿人报告的值(与手动重新运行搜索相反，可能包含或多或少敏感的过滤器)有一个额外的好处，即考虑到审稿人对每个审稿的特定领域的结论。

表2。随机选择纳入我们分析的DTA和治疗综述的总数摘要，按CRG排序。

Cochrane评价组	DTA评论	治疗综述
急性呼吸道感染	1	15
航空公司	1	15
回来	3.	45
骨、关节和肌肉损伤	1	15
眼睛和视力	1	15
妇科癌症	1	15
传染病	2	30.
怀孕	1	15
肾	1	15
中风	1	15
总计	13	195

并非所有综述都报告了在文献检索的每个阶段获得的引用次数(例如，有些综述只报告了纳入的文章和全文文章的数量)。在价值缺失或不清楚的地方，我们尝试通过电子邮件联系综述作者。如果无法获得数据，则记录空白值，并在涉及缺失统计数据的分析中省略审查。由于计算原因，也省略了等于0的提取值。中给出了所有数据类型的提取值数量的摘要表3。例如，在195篇随机选择的治疗综述中，62篇综述无法获得被检查的全文文章数，因此治疗综述中全文文章数的收集数据点数为133(如表3)。

表3。表3。评估每个预期表现的样本量的摘要(报告非零值的综述数)。

	DTA	治疗
数据_公司	13/13	186/195
数据_{英国《金融时报》}	12/13	133/195
数据_老	13/13	101/195
数据_{公司/ ft}	12/13	126/195
数据_{公司/高级}	13/13	95/195
数据_{Ft / sr}	12/13	92/195

分析

根据先前的经验，我们预计文献检索中报告的研究数量会严重偏斜。通过比较收集到的治疗评价的每个统计数据的平均值和中位数，支持了这一预期(见表4）;在6个统计数据中，有5个的平均值大约是中位数的两倍。例如，收集的报告的搜索结果的数量包括许多描述异常大的文献搜索的值。这些值显著影响收集数据的偏度，在不影响中位数的情况下显著增加平均值。

表4。收集的治疗回顾的平均值和中位数之比。

	的意思是	中位数	平均值/中位数
数据_公司	19.56	11.0	1.78
数据_{英国《金融时报》}	71.89	33.00	2.18
数据_老	1799.04	900.00	2.00
数据_{公司/ ft}	0.394	0.357	1．11
数据_{公司/高级}	0.033	0.013	2.47
数据_{Ft / sr}	0.099	0.046	2.13

为了补偿偏度的水平，所有报告的统计比较都是使用不相等的方差进行的t对排序数据的测试(即，作为非参数测试的近似);每个单独的数据点被其在排序数据集中的索引所替换。如果多个数据点共享一个公共值，则对排序值取平均值。未排序和排序数据的摘要见表5和表6。

为了进一步说明排序过程，获得的搜索结果的平均数量(如表5DTA评价为5144.23，治疗评价为1799.04。然而，当13个DTA和101个治疗数据点合并并排序时，DTA评价的平均位置为85.54，治疗评价的平均位置为52.76(见表6)。

表5所示。收集的统计数据的平均值摘要。

	的意思是_DTA	的意思是_治疗	的意思是_DTA/的意思_治疗
数据_{英国《金融时报》}	191.92 (n = 13, s = 233.51)	71.89 (n = 133 s = 154.76)	2.67
数据_老	5144.23 (n = 13, s = 4109.78)	1799.04 (n = 101 s = 2530.11)	2.86
数据_{公司/ ft}	0.191 (n = 13, s = 0.11)	0.394 (n = 126 s = 0.24)	0.49
数据_{公司/高级}	0.021 (n = 13, s = 0.036)	0.033 (n = 95 s = 0.049)	0.63
数据_{Ft / sr}	0.087 (n = 13, s = 0.124)	0.100 (n = 92 s = 0.156)	0.87

表6所示。收集的统计数据的排序数据摘要。

	的意思是_DTA	中位数_DTA	的意思是_治疗	中位数_治疗
数据_{英国《金融时报》}	110.67 (n = 12, s = 27.64)	113.0	68.51 (n = 133 s = 41.16)	67.0
数据_老	85.54 (n = 13, s = 27.84)	94.0	52.76 (n = 101 s = 31.62)	52.0
数据_{公司/ ft}	35.67 (n = 12, s = 24.69)	29.0	71.63 (n = 126 s = 39.60)	73.5
数据_{公司/高级}	40.54 (n = 13, s = 31.12)	35.0	55.27 (n = 95 s = 30.76)	56.0
数据_{Ft / sr}	47.5 (n = 12, s = 30.18)	45.5	52.02 (n = 92 s = 29.97)	53.5

概述

结果部分为三个提出的假设中的每一个划分为一个部分。每个假设的总结，以及预期的和观察到的表现在表7。

表7所示。将每个假设、预期表现和文献筛选阶段联系起来的总结。

	假设一: 增加了工作量	假设2: 增加目标类别的异质性	假设C: 元数据适用性降低
筛选物品总数	增加	-	增加
	5144.2_DTA> 1799.0_TR （P= .002)		5144.2_DTA> 1799.0_TR （P= .002)
获得的全文文章	增加	-	在筛选的文章总数中所占百分比下降
	191.9_DTA> 71.9_TR （P<措施)		0.087_DTA< 0.100_TR （P=主板)
包括文章	减少作为总文章筛选的百分比	获得全文文章的百分比下降	-
	0.021_DTA< 0.033_TR （P= .14点)	0.191_DTA< 0.394_TR （P<措施)

假设A: DTA审查的工作量增加

比较获得的搜索结果的平均绝对数量，我们观察到与干预措施的评论相比，DTA的评论增加了186% (5144.2 vs 1799.0)。有强有力的证据表明，这种差异在统计上是显著的(不平等方差)t对排序数据进行测试，P= .002)。同样，对于获得的全文文章的平均数量，我们可以观察到增加了167% (191.9 vs 71.9)。同样，有非常有力的证据表明，这种差异在统计上是显著的(不平等方差)t对排序数据进行测试，P<措施)。

我们不仅注意到均值的统计显著性差异，而且注意到效应大小的实质性差异。差异的大小支持了这样一种说法，即DTA评论的相关论文识别明显比治疗的复杂，而且作者和任何潜在的IR系统的难度都增加了。

考虑到纳入研究的数量占总搜索结果的比例，与治疗评价相比，DTA评价减少了约35% (0.021 vs 0.033)。然而，尽管差异的幅度很大，但没有足够的证据证明统计显著性(不平等方差)t对排序数据进行测试，P= .14点)。然而，作者敦促在得出不存在差异的结论时要谨慎。

假设B: DTA目标类别异质性增加

比较纳入研究的数量占全文文章的百分比，DTA综述与治疗综述相比增加了约106% (0.191 vs 0.394)。非常有力的证据表明，这种差异是显著的(不等方差)t对排序数据进行测试，P<措施)。

再次，我们注意到观察到的效应大小的实质性差异。其大小表明筛选潜在相关文章纳入DTA审查的实际难度增加。

假设C:元数据对DTA的适用性降低

如假设A的结果部分所述，在比较DTA和治疗的综述(不相等方差)时，获得了强有力的证据来支持获得的搜索结果的平均绝对数量的增加t对排序数据进行测试，P= .002)。当查看全文文章的检索数量占总搜索结果的百分比时，可以观察到与治疗评论相比，DTA评论减少了大约13% (0.087 vs 0.100)。然而，没有足够的证据来确定统计上显著的差异(不平等方差)t对排序数据进行测试，P=主板)。正如所观察到的纳入研究的平均数量占搜索结果的百分比一样，作者敦促在得出不存在差异的结论时要谨慎，并在下一节中讨论可能的原因。

主要研究结果

从报道中可以看出P值表7，有非常有力的证据表明，在筛选过程的每个阶段，DTA评论的文章数量高于治疗的文章数量，支持假设A(以及在原始搜索结果数量增加的情况下的假设C)。这证明了诊断测试准确性系统审查所需工作量的显著增加。此外，获得了非常有力的证据来支持假设b。然而，检索到的纳入文章和全文文章的数量占总搜索结果的百分比的p值不足以确定DTA和治疗评价的平均值之间存在统计学上显著的差异。

如表5和6，所有结果的标准差都相当大。此外，我们的分析是有限的，因为截至检索日期，只有13篇完整的Cochrane DTA综述存在。这样小的样本量加上大的标准偏差导致了相对较低的功耗。有一种可能性是，对收录的文章和全文文章报告的负面结果占总搜索结果的百分比是第二类错误。这种可能性由于样本均值差异的相对较大而增强(见表5)。当然，在获得更多的数据之前，这是不可能肯定的。

作者指出，虽然该分析不支持DTA评论的次优元数据的说法，但这种说法并不新鲜，并且得到了先前发表的文献的支持。除了DTA研究缺乏明确的MeSH术语外，用于DTA研究综述的Cochrane手册[15]指出，在DTA研究中使用的许多索引和参考测试没有相应的MeSH术语。手册中写道:“正在建立一个用于描述索引测试和参考标准的名称数据库”。然而，它还没有完成，而且由于MEDLINE和EMBASE等数据库的规模，它不太可能被回顾性地应用。

报告的结果(总结于表7)，结合观察到的效应大小的实质性差异，作者得出结论，该分析支持DTA评论带来额外IR挑战的说法。效应大小差异的大小是特别重要的，因为它意味着DTA和治疗评价所需的实际努力水平的差异。他们指出，由于可用DTA评价的样本量小，该研究存在局限性。当获得更多数据时，需要进行进一步分析。

有趣的是，假设B(增加目标类异质性)的预期表现可以说是驱动假设a中描述的第二阶段筛选期间工作量的预期增加。同样，假设C(次优元数据)可以说是驱动第一阶段工作量的增加。这为数据挖掘在DTA审查中的应用提供了一个有趣的指南;通过解决这些挑战，可以降低DTA审查的相对难度。

我们还想提到的是，除了在文献检索和筛选阶段，本文中讨论的假设可能在整个综述中有其他表现。例如，研究设计和分析方法范围的增加(假设B)可能导致执行或解释任何后续荟萃分析的难度增加。由于本文的重点是DTA综述的文献检索/筛选阶段(并且由于无法在我们的数据中观察到这些表现)，我们没有在我们的工作中考虑这些表现，但是将来这样的研究可能会很有趣。

优势与局限

据我们所知，这是第一个直接比较DTA和治疗系统评价的文献筛选审稿人工作量的研究。此外，正如数据收集部分所述，根据筛选的引用报告数量对DTA和治疗样本进行比较(而不是在适用的情况下重新进行搜索)是我们研究的一个优势。这种方法隐含地考虑了作者对初始搜索所需灵敏度的决定，这可能在个别评论和临床领域有所不同。

我们的研究有几个局限性。首先，截至检索日期发表的Cochrane DTA综述数量相对较少(n=13)，导致统计分析功率较低。随着可获得的数据越来越多，未来的研究将使DTA和治疗评价在10个CRGs迄今发表的领域之外进行比较，这将是令人感兴趣的。我们的结果也可能偏向于Cochrane综述，因为我们的分析纯粹是对Cochrane系统综述数据库中收集的综述进行的。正如文章前面所讨论的，我们认为这一决定是合理的，因为它有助于将两个样本之间的差异限制在临床类型(即DTA或治疗)上。尽管如此，在解释我们的研究结果时还是需要考虑到这一点。

结论

我们证明，与治疗相比，在筛选DTA评论文献时，实际难度增加。此外，一些潜在的原因，这种额外的困难，在每个阶段的文献检索过程提出。我们在这篇文章中得出了三个主要结论:第一，文献筛选过程中，DTA综述的总体审稿人工作量高于治疗，这可以从文献筛选过程的每个阶段获得的引用数量上得到证明。其次，DTA评价纳入的研究目标类别比治疗评价的相应类别更广泛，这一点可以从纳入研究的数量占筛选全文文章的百分比较低得到证明。最后，我们提供了部分统计证据来支持现有元数据相对不适合DTA评论的说法。我们注意到，未来具有更高统计能力的分析将更有意义。

本文为IR社区对DTA的系统评价提供了一个强有力的案例。解决本文中讨论的挑战的此类工作可能会导致进行DTA审查的工作量和难度的真正减少。未来研究的一个可能方向是为DTA研究开发高质量的分类器。这有助于就广泛使用方法学搜索过滤器的目标达成共识，类似于Cochrane综述目前对治疗的做法。DTA评价的作者必须考虑到，任何荟萃分析的相关数据通常可以从一系列研究中综合出来(例如，报告个体化患者数据的非DTA研究[32-35])，这项任务可以进一步完善，以开发诸如个体研究设计(即队列研究，病例对照研究)之类的分类器，或者简单地识别报告诸如特定测试的个性化患者数据之类的研究。个体患者数据的另一个优点是，它将允许通过亚组分析对临床情况进行更有针对性的应用。

此外，考虑到MeSH等资源的规模和范围，期望将所有相关元数据分配给所有引用是不合理的。开发分类器来分配感兴趣或相关的MeSH术语将有助于增加感兴趣术语的召回率，从而有可能创建更短、更具体的查询。这种分类器也可用于在现有数据库中回顾性地应用较新的MeSH术语。最后，第三个潜在的方向包括数据挖掘的应用，以确定哪些MeSH术语对DTA审查具有特别高的判别能力。这项任务与MeSH分类器的开发相结合。或者，数据挖掘可以应用于识别不对应于特定MeSH术语但仍然具有良好判别能力的引文簇。

随着时间的推移，随着上述问题的解决，可以预期DTA和治疗审查所需的工作量会趋于一致。然而，有两个原因也需要对具有高度分类不平衡的评价(例如目前在DTA评价中观察到的那些)的IR进行研究:首先，为系统评价筛选的参考文献的数量严重右尾(见数据收集)。对于治疗和DTA而言，处理极端情况下的审查是一个有待解决的问题[9]。其次，虽然可以预期，未来在缓解上述挑战方面的发展将减少阶级不平衡的程度，但在不久的将来不太可能找到最佳解决方案。此外，虽然有时会努力对MEDLINE和EMBASE等数据库的元数据进行回顾性更新，但可以证明有足够的需求(例如，随机对照试验的MeSH重新标记项目[36])，这些任务的成本和难度意味着一些挑战不太可能完全解决。

致谢

作者要感谢悉尼大学医学院的Xin Zhang对这个项目的贡献。我们还要感谢匿名审稿人提供的许多有见地的评论和建议。

利益冲突

没有宣布。

‎

多媒体附录1

纳入分析的Cochrane综述列表。

XLS文件(Microsoft Excel文件)，68KB

Wright RW, Brand RA, Dunn W, Spindler KP。如何写一篇系统综述。中华口腔外科杂志2007;5(2):391 - 391。［CrossRef] [Medline］
麦克莱伦F. 1966等等——文献检索什么时候完成?柳叶刀2001 Aug 25;358(9282):646。［CrossRef] [Medline］
Sampson M, Shojania KG, Garritty C, Horsley T, Ocampo M, Moher D.系统评价可以更快地生成和发表。中华临床流行病学杂志2008;31(6):531-536。［CrossRef] [Medline］
张建军，张建军，张建军，等。系统评价的自动化。BMJ 2013; 346: f139。［Medline］
刘建军，李建军，李建军，等。基于自动文本分类技术的系统评论。第23届计算语言学国际会议论文集:海报。北京:计算语言学学会;2010:303 - 311。
Cohen AM, Ambert K, McDonagh M.系统评审创建和更新中工作优先级的跨主题学习。中华医学杂志，2009;16(5):690- 694 [J]免费全文] [CrossRef] [Medline］
Wallace BC, Small K, Brodley CE, Trikalinos TA。生物医学引文筛选的主动学习。2010年发表于:第16届ACM SIGKDD知识发现与数据挖掘国际会议论文集;2010年7月25日至28日;美国华盛顿特区，第173-182页。［CrossRef］
科恩。基于支持向量机的分类在15个系统评价主题上的性能。中华医学杂志，2011;18(1):104-105 [J]免费全文] [CrossRef] [Medline］
Matwin S, Kouznetsov A, Inkpen D, Frunza O, O'Blenis P.支持向量机和贝叶斯分类器在系统评价分类任务中的性能。医学信息学报，2010,18(1):104-105。［CrossRef］
devill WL, Buntinx F, Bouter LM, Montori VM, de Vet HC, van der Windt DA，等。对诊断研究进行系统审查:教学指南。中华医学会医学杂志2002;2:9 [j]免费全文] [Medline］
李建军，刘建军。文本挖掘在系统评价中的应用。研究进展，2011年4月11日;2(1):1-14。［CrossRef］
李建军，李建军，李建军，等。基于文本挖掘的系统评价方法。社会科学，计算机学报，2009;27(4):509-523。［CrossRef］
帕伊M，麦卡洛克M，埃纳诺里亚W，科尔福德JM。诊断测试评估的系统回顾:幕后是什么?中国生物医学工程学报(英文版);2004;31(1):811 - 813。［Medline］
Higgins JPT, Green S. Cochrane合作。参见:Cochrane干预措施系统评价手册。英国奇切斯特:Wiley-Blackwell;2008.
Deeks JJ, Wisniewski S, Davenport C. Cochrane诊断测试准确性协议内容指南。编辑:Deeks J。Cochrane诊断测试准确性系统评价手册。伦敦:科克伦协作组;2013.
Leeflang MM, Deeks JJ, Gatsonis C, Bossuyt PM, Cochrane诊断测试准确性工作组。诊断试验准确性的系统评价。实习医学2008;12 (12):889-897 [j]免费全文] [Medline］
Kastner M, Wilczynski NL, McKibbon AK, Garg AX, Haynes RB。诊断测试系统评价:用于诊断准确性研究的书目搜索过滤器(“临床查询”)表现良好。临床流行病学杂志2009;62(9):974-981 [J]免费全文] [CrossRef] [Medline］
刘建军，刘建军，刘建军，刘建军。使用方法学搜索过滤器来确定诊断准确性研究可能导致相关研究的遗漏。中华临床流行病学杂志2006;59(3):234-240。［CrossRef] [Medline］
Whiting P, Westwood M, Beynon R, Burke M, Sterne JA, Glanville J.在诊断测试准确性研究的搜索中包含方法学过滤器漏掉了相关研究。中华临床流行病学杂志，2011;64(6):602-607。［CrossRef] [Medline］
张建军，李建军，张建军，等。在诊断测试准确性研究的搜索中包含方法学过滤器漏掉了相关研究。中华临床流行病学杂志，2012,31(1):116-117。［CrossRef] [Medline］
王志强，王志强，王志强。MEDLINE临床查询在搜索最近出版年份时是稳健的。中华医学杂志，2013;20(2):363-368 [J]免费全文] [CrossRef] [Medline］
Ritchie G, Glanville J, Lefebvre C.发表的搜索过滤器是否能充分识别诊断测试的准确性研究?卫生信息图书馆，2007,Sep;24(3):188-192。［CrossRef] [Medline］
李建军，李建军，李建军，等。生物医学系统检索中高查全率的研究。: ACM;2009年发表于:第三届生物信息学数据文本挖掘国际研讨会论文集;2009年11月2日至6日;中国香港，第89-92页。［CrossRef］
张建平，张建平，张建平。使用自动引文分类减少系统综述准备工作的工作量。中华医学杂志，2006;13(2):206-219 [J]免费全文] [CrossRef] [Medline］
Matwin S, Kouznetsov A, Inkpen D, Frunza O, O'Blenis P.一种减少专家在执行系统评审时工作量的新算法。中华医学杂志，2010;17(4):446-453 [J]免费全文] [CrossRef] [Medline］
科恩。优化自动系统审查工作优先级的特征表示。生物医学工程学报;2008;01 - 01 [j]免费全文] [Medline］
刘建军，刘建军，刘建军，刘建军。生物医学文献系统评价的半自动化筛选。生物信息学2010;11:55 [j]免费全文] [CrossRef] [Medline］
Wallace BC, Small K, Brodley CE, Lau J, Trikalinos TA。在循证实践中心部署交互式机器学习系统:摘要。: ACM;2012年发表于:第二届ACM SIGHIT国际健康信息学研讨会论文集;2012年1月28日至30日;迈阿密，佛罗里达州，美国，第819-824页。［CrossRef］
Cohen AM, Ambert K, McDonagh M.研究自动文档分类对系统评审更新调度的潜在影响。中华医学杂志2012;12:33 [j]免费全文] [CrossRef] [Medline］
李建军，李建军，李建军，李建军。基于网格的文本分类方法研究。生物信息学2009;25(11):1412-1418 [j]免费全文] [CrossRef] [Medline］
杨建军，陈建军。基于文本分类模型的高质量内科学文献检索。AMIA年鉴程序2003;2003:31-35 [免费全文] [Medline］
Dinnes J, Deeks J, Kirby J, Roderick P.对异质性如何在诊断测试准确性的系统评价中进行检查的方法学回顾。卫生技术评估2005年3月;9(12):1-113,iii [免费全文] [Medline］
Lijmer JG, Bossuyt PM, Heisterkamp SH.诊断测试系统评价的异质性来源探讨。中华医学杂志2002年6月15日;21(11):1525-1537。［CrossRef] [Medline］
Riley RD, Dodd SR, Craig JV, Thompson JR, Williamson PR.使用个体患者数据和汇总数据的诊断测试研究的荟萃分析。医学统计2008年12月20日;27(29):6111-6136。［CrossRef] [Medline］
Ter Riet G, Bachmann LM, Kessels AG, Khan KS。诊断研究的个体患者数据荟萃分析:机遇与挑战。Evid Based Med, 2013, 18(5):165-169。［CrossRef] [Medline］
Glanville JM, Lefebvre C, Miles JN . Camosso-Stefinovic J.如何识别MEDLINE随机对照试验:十年来。中华医学杂志，2006;94(2):130-136 [J]免费全文] [Medline］

G·艾森巴赫编辑;提交21.10.13;由T de Bray, S Kim, B Skidmore同行评审;对作者10.11.13的评论;修订版本收到12.03.14;接受22.04.14;发表27.05.14

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到http://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

与治疗方法相比，诊断测试的系统综述文献检索工作量增加:挑战与机遇

与治疗方法相比，诊断测试的系统综述文献检索工作量增加:挑战与机遇

原始论文

通讯作者:

摘要

关键字

介绍

背景

系统评价概述

问题和纳入标准的制定

文献检索

文献筛选

技术现状

方法

概述

假设A: DTA审查的工作量增加

假设B: DTA目标类别异质性增加

假设C:元数据对DTA的适用性降低

数据收集

分析

结果

概述

假设A: DTA审查的工作量增加

假设B: DTA目标类别异质性增加

假设C:元数据对DTA的适用性降低

讨论

主要研究结果

优势与局限

结论

致谢

利益冲突

多媒体附录1

参考文献