JMIR医学信息学-使用MEDLINE元素相似性协助文章筛选过程进行系统评价

原始论文

美国俄亥俄州哥伦布市俄亥俄州立大学生物医学信息系

通讯作者:

颜宝贤，注册护士，博士

俄亥俄州立大学

生物医学信息系

1800佳能硬盘

哥伦布,哦,

美国

电话:1 503 889 6181

电子邮件:po-yin.yen@osumc.edu

背景:系统综述及其在实践中的实施为临床实践提供了高质量的证据，但由于文章数量众多，耗时耗力。自动文本分类已被证明有助于识别相关的文章进行系统的审查。现有的方法使用机器学习模型训练来生成文章筛选过程的分类算法，但存在局限性。

摘要目的:我们采用网络方法，利用预先确定的文章关系(相似度)来辅助系统评论的文章筛选过程。文章相似度度量使用MEDLINE元素标题(TI)、摘要(AB)、医学主题标题(MH)、作者(AU)和出版类型(PT)计算。我们用一个冠词网络来说明冠词关系的概念。利用这一概念，每一篇文章都可以被建模为网络中的一个节点，两篇文章之间的关系被建模为连接它们的一条边。我们研究的目的是利用文章关系来促进交互式文章推荐过程。

方法:我们使用了15篇由药物有效性审查项目完成的系统综述，并演示了文章网络的使用来协助文章推荐。我们评估了MEDLINE元素的预测性能，并将我们的方法与现有的机器学习模型训练方法进行了比较。在95%召回率(WSS95)和F-measure (F₁)．我们还使用方差重复分析和Hommel的多重比较调整来证明统计学证据。

结果:我们发现，虽然各元素之间没有显著差异(AU除外)，但总体上TI和AB具有更好的预测能力。协作元素使F₁和WSS95。通过我们的方法，TI+AB+PT的简单组合可以实现37%的WSS95性能，这与传统的机器学习模型训练方法(23%-41% WSS95)具有竞争力。

结论:我们展示了一种新的方法来协助劳动密集型的系统评审。探讨了不同元素(单元素和复合元素)的预测能力。在不使用模型训练方法的情况下，我们建立了一个可推广的方法，可以实现有竞争力的性能。

中国医学医学杂志2015;3(3):e28

doi: 10.2196 / medinform.3982

关键字

系统综述；循证医学；自动文档分类；相关反馈

系统综述提供来自高质量研究的证据摘要，以回答特定的研究问题。它们通常用于医疗保健[1-4]以及制定卫生政策[5］．循证医学(EBM)在很大程度上依赖于使用合成的、最新的研究证据来做出决策。系统性综述被认为是EBM的最高质量证据来源[6］．然而，系统的审查需要一系列非常耗费资源和时间的步骤[4]，通常需要几个月才能完成[7］．这样的工作量和资源挑战可能会限制单个审查的可处理性、资助审查的能力，以及对可能需要更新现有审查的新证据作出反应的能力。

MEDLINE是一个生物医学文献数据库，存储和索引各种相关出版物，是确定针对健康科学的系统评价研究的主要资源。然而，MEDLINE的规模以每周超过12,000篇文章的速度增长，包括与300多个随机试验相关的报告[8］．Cochrane协查网是一个致力于提供最新系统综述的国际组织，有超过15,000人参与这项工作[9］．根据Cochrane协作网(The Cochrane Collaboration)的数据，现有的有效性研究需要一万多篇系统综述[9］．此外，最近的一项研究报告称，23%的评论需要在两年内更新[10］．由于需要进行大量的原始和更新的系统综述，提高系统综述及其现有综合知识的生成效率至关重要。

系统综述通常由能够起草系统综述范围、检索相关引用、评估研究质量和综合证据的领域专家进行。这个过程可分为15个步骤[11］．专家评审员首先确定系统评审范围和研究问题，然后生成搜索策略以探索相关数据库(如MEDLINE)。搜索结果是通常在参考文献管理软件(如EndNote, RefWorks)中组织的引用列表。在综合相关证据之前，专家审稿人需要根据标题和摘要对文章进行分类。然后通过文章筛选(或文章选择)过程，相关文章将进入全文层面。在大多数系统评审中，专家评审人员在标题和摘要级别包括2% - 30%的一小部分引用;1.6%至27%的内容被收录在全文层面[7］．换句话说，专家评审员花了大部分精力排除不相关或低质量的研究。为了加速这一过程，几种机器学习方法(即朴素贝叶斯和支持向量机)[7,12-15]，以方便和加强标题和摘要级别的分类、摘要筛选[11]，或文章筛选，这是至关重要和耗时的，因为它需要专家审稿人筛选大量的文献。智能文章选择过程也可以称为引文分类或引文筛选。

在本文中，我们提出使用已建立和预定的文章关系，并结合主动机器学习的概念来迭代推荐文章，并从人类审稿人那里获得反馈。尽管整合人类判断的想法听起来与华莱士的工作中实施的主动学习方法相似[13,14]，我们采用不同的策略。我们没有制定一个分类模型。相反，我们生成一个表示文章之间关系的文章网络。我们使用人工审稿人分类的文章作为参考集，推荐下一篇类似的文章。在推荐过程中没有训练模型。这种方法类似于一些信息检索系统中的相关反馈。一般情况下，用户将文档分为相关文档和不相关文档，并将反馈信息提供给信息检索系统。然后，信息检索系统使用该信息检索与相关文档相似的文档。相关性反馈通常用作查询修改的自动技术。相关性反馈的过程是作为一个活动循环执行的，该活动在反馈收集的每次迭代中提炼查询[16,17］．

文章之间的预定关系可以被概念化为一个文章网络，它不同于传统的引文网络。传统的引用网络使用引用而且引用的的文章来构建网络[18］．我们根据任何配对文章的相似度建立文章网络。我们的相似度度量是使用数据元素[19从一篇文章，如标题，摘要，医学主题标题，作者和出版类型。在这个概念下，每篇文章被建模为网络中的一个节点，两篇文章之间的关系(相似度)被建模为连接它们的一条边。虽然网络方法在一般文档聚类领域并不新颖，但我们是第一个使用这种方法来促进系统审查并展示其优势的人。图1显示了一个插图网络的真实系统回顾(尿失禁)显示在一个美观的力指向图形布局。理论上，网络应该是一个完整的图，其中每对文章都有一条边表示它们之间的相似性。出于可视化的目的，我们消除了相似度分数较低的边缘，以提供一个更易于人类阅读的网络。

在我们的初步实验中，我们发现由所有MEDLINE元素组成的相似性评分并不适用于每次系统评价。我们怀疑某些元素(例如，标题、摘要、出版物类型、MeSH、作者)比其他元素更能预测推荐。因此，我们研究的目的是回答两个研究问题。当一篇文章被归类为“已收录”时，使用哪些元素来计算相似度分数以预测下一篇相关文章更好?既然每个元素都扮演着不同的角色，应该相应地进行加权，那么哪些元素的组合和权重能够更好地预测下一篇相关文章呢?

数据源

为了评估我们的方法，我们使用了15个由药物有效性审查项目(DERP)(由俄勒冈健康与科学大学循证政策中心协调)提供的公开可用的完整系统评价样本[20.］．这15项系统综述由经验丰富、知识渊博的人类专家评审员完成，纳入和排除决定由至少两名专家评审员做出。表1显示了在抽象级决策和全文级决策中包含的文章的数量和百分比。

例如，ACE抑制剂的综述总共有2544次引用。摘要共收录183篇(7.19%);全文阅读后，41例(1.61%)纳入ACE抑制剂系统评价。最终纳入率为0.78% ~ 27.04%。这15个系统评价也是Cohen等人以前使用并公开提供的相同测试集[7］．使用PubMed标识符(PMID)，我们下载了MEDLINE格式的完整记录[19]，提取数据元素标题、摘要、出版物类型、作者和医学主题标题(MeSH)作为输入。

表1。文章总数和收录率。

SR报告主题	总计	摘要 n (%)	全文 n (%)
血管紧张素转换酶抑制剂	2544	183 (7.19)	41 (1.61)
注意力缺陷多动症	851	84 (9.87)	20 (2.35)
抗组胺药	310	92 (29.68)	16 (5.16)
非典型抗精神病药物	1120	363 (32.41)	146 (13.04)
β-受体阻滞药	2072	302 (14.58)	42 (2.03)
钙通道阻滞剂	1218	279 (22.91)	100 (8.21)
雌激素	368	80 (21.74)	80 (21.74)
非甾体抗炎药	393	88 (22.39)	41 (10.43)
阿片类药物	1915	48 (2.51)	15 (0.78)
口服降糖	503	139 (27.63)	136 (27.04)
质子泵抑制剂	1333	238 (17.85)	51 (3.83)
骨骼肌松弛剂	1643	34 (2.07)	9 (0.55)
他汀类药物	3465	173 (4.99)	85 (2.45)
曲坦类	671	218 (32.49)	24 (3.58)
尿失禁	327	78 (23.85)	40 (12.23)

MEDLINE元素

MEDLINE元素是MEDLINE格式的字段，用于记录出版物(文章)的主要信息[19］．MEDLINE显示格式用于PubMed MEDLINE记录。标题(TI)、摘要(AB)和网格(MH)元素作为信息量最大的元素，在相关工作中被广泛用于构建机器学习算法的特征空间。一些研究也选择出版类型[15,21因为这可能是决定是否纳入的关键因素。在我们的前期工作中，我们发现作者信息在文章筛选过程中也具有一定的预测价值。因此，在本研究中，除了TI, AB, MH和PT，我们还将作者(AU)元素纳入了我们的实验。

相似性得分

我们使用余弦相似度[22］．余弦相似度被广泛应用于文本挖掘中，用来测量向量对夹角的余弦值。它反映了基于每个文本中单词或术语的存在和频率的相似程度。对于每一对au、pt和mh，我们只是通过精确的字符串匹配来比较它们，因为一个微小的差异可能会完全改变结果。例如，即使两个作者的名字非常相似，他们也可能是两个不同的人。然而，TI和AB是自由文本。为了计算两个ti之间和两个ABs之间的相似性，我们通过从PubMed停止词列表中删除一些常见单词来预处理ti和ABs [23](例如，the, is, are)，在文本中频繁出现，通过经典的波特斯坦默算法提取每个单词[24］．这种方法被命名为字母特征，也被证明是一种有效的表示文章的方法[25］．每个元素的相似度得分范围从0到1，其中0表示独立，1表示完全相同。总之，相似度分数是MEDLINE元素相似度的和。

模拟交互式推荐过程

概述

在本研究中，实验过程中没有人工审稿人。交互式推荐过程是使用15个完成的DERP系统评价来模拟的。

在确定了要进行系统审查的文章列表后，推荐过程从计算任意对文章的相似性得分开始。这一过程构建了文章之间的关系，构建了概念化的文章网络。第一篇推荐文章是根据系统综述的关键问题和搜索策略选择的。一旦推荐的文章被分类为包含(IN)或排除(EX)，就会创建一个IN列表和EX列表(在本研究中，我们使用了完整的系统评审，其中有预先确定的决策来模拟这一步)。然后，我们根据与IN的相似度迭代推荐相关文章。假设V是所有文章的集合，U是从未被推荐过的文章的集合，U定义为U=V−IN−EX。因此，相似度分数的和表示in中article v与article(s) x之间的相似度图2)．

在公式中，vx是表示MEDLINE元素在x和v之间相似度的相似度向量w控制每个元素相似度向量在整体相似度得分中的贡献。我们推荐总体相似度得分最高的文章。

图3说明了模拟的交互式推荐过程:(a)处理文章，提取数据元素;(b)计算相似度得分(这将建立一个概念化的文章网络。重量参数可选);(c)推荐与入选文章列表相似度最高的文章(在本次模拟中，每轮推荐一篇文章);(d)人工审稿人将推荐的文章分为纳入或排除(同样，在本研究中，我们使用了完整的系统审稿报告，其中有预定的决策来模拟这一步骤);(e)编制和增订列入和排除的物品清单;重复步骤(c)、(d)和(e)，直到物品筛选过程完成。

为了评估我们的性能，我们使用了两个性能指标:在95%召回率(WSS95)采样时节省的工作量和F-measure。这些措施通常用于评估类似的工作[7,12,15］．我们还采用重复方差分析(ANOVA)和Hommel多重比较校正的事后分析来进一步探索统计学证据。Hommel的方法证明了I型错误保护具有良好的功率，被认为是比Bonferroni或Homl [26,27］．

在95%召回率的采样中节省的工作

WSS95是Cohen [7]来计算整体的劳动力节省，同时将召回率保持在95%。这假设了一个文档分类系统需要高于0.95的召回率。只要召回率至少为0.95，精密度应尽可能高。用公式计算WSS95图4．

TP是真阳性(相关)文章的数量，TN是真阴性(不相关)文章的数量，FN是假阴性(相关)文章的数量，N是每篇报告的文章总数。

F-Measure

f测度是一种信息检索精度的测度。它同时考虑精度和召回率，通常将它们合并为加权谐波平均值。当它们的权重相等时，平衡F测度也称为F₁，它在1处达到最佳值，在0处达到最差值。作为准确度的一般衡量标准，F₁在以往的工作中被广泛用于分类性能的评价，如Cohen 2006 [7]， Bekhuis 2010 [28]， Kastrin 2010 [29]，以及2010年的Frunza [30.］．出于性能评估的目的，当我们每次推荐一篇文章时，立即召回率、准确率和F₁每次都是动态更改的(参见图5)．

因为F₁随时间动态变化，我们可以检测到最高的F₁从性能曲线的陡度来看。这意味着如果更高的F₁评分发生在推荐过程的早期阶段(即50%的文章被筛选之前)，我们更有可能节省更多的工作量(准确率高)。我们用F₁帮助我们评估对相关文章提出建议的准确性和速度。

单体性能

单个MEDLINE元素的性能结果显示在表2．TI的WSS95平均性能最好(34.01%)，其次是PT(33.41%)和AB(33.30%)。MH的WSS95值明显低于其他元素(25.31%)。由于文章作者之间的分散，AU收到0%的工作量节省。如果文章之间没有作者相似度，我们无法仅根据AU元素推荐相关文章。使用PT也会带来良好的性能;我们推测这是进行系统评审时的一个关键考虑因素。然而，重复方差分析显示，WSS95在TI、AB、PT和MH中的表现没有统计学差异(P= .079)。

表2。单元素WSS95性能。

SR报告主题	“透明国际”	AB	PT	非盟	MH
血管紧张素转换酶抑制剂	76.49	71.07	33.22	0	47.37
注意力缺陷多动症	80.26	65.10	22.56	0	47.00
抗组胺药	13.55	15.81	32.58	0	2.58
非典型抗精神病药物	17.23	20.54	19.64	0	9.46
β-受体阻滞药	44.74	49.95	43.77	0	28.67
钙通道阻滞剂	19.38	16.34	18.64	0	20.94
雌激素	29.35	29.08	17.93	0	38.59
非甾体抗炎药	63.36	66.67	58.27	0	33.84
阿片类药物	8.30	9.82	37.23	0	6.48
口服降糖	11.73	12.13	22.27	0	7.55
质子泵抑制剂	43.74	15.60	35.48	0	20.56
骨骼肌松弛剂	0	36.03	74.68	0	42.85
他汀类药物	25.52	30.17	13.31	0	13.68
曲坦类	45.60	42.47	28.17	0	33.23
尿失禁	30.89	18.65	43.43	0	26.91
平均WSS95	34.01	33.30	33.41	0	25.31

表3显示最高的F₁推荐过程中的性能和相应的时间。当性能良好时，F最高₁通常发生在早期阶段(在方法部分中讨论)。我们发现AB和PT的F值最好₁(分别为0.3683和0.3437);MH和TI的F更低₁得分(分别为0.3116和0.3039)。同样，非盟的F最差₁，只有0.1365。我们还研究了最高F的相应时间₁．我们观察到最好的F₁价值在筛选文章的5% ~ 20%时出现，处于推荐的早期阶段。F较高的MEDLINE元素₁得分和较低的文章筛选百分比表明在推荐的早期阶段准确率较高(如AB)。我们认为AB和PT的早期表现最好;也就是说，AB和PT在一开始的推荐准确率要优于其他元素。然而，重复方差分析表明F₁在TI, AB, PT和MH方面的表现没有统计学差异(P= .073)。两两比较只发现TI与AB有显著差异(AU性能较差，不考虑)。

表3。单元素F₁性能;在F₁．

SR报告主题	“透明国际” F₁（％）	AB F₁（％）	PT F₁（％）	非盟 F₁（％）	MH F₁（％）
血管紧张素转换酶抑制剂	0.3444 (4)	0.3121 (4)	0.2182 (< 1)	0.1872 (6)	0.2368 (1)
注意力缺陷多动症	0.2885 (10)	0.3824 (6)	0.2963 (< 1)	0.0909 (< 1)	0.5556 (4)
抗组胺药	0.2593 (12)	0.4000 (3)	0.2759 (< 1)	0.1111 (< 1)	0.3333 (3)
非典型抗精神病药物	0.3447 (26)	0.4248 (14)	0.4363 (5, 12^一个）	0.0135 (< 1)	0.3113 (40)
β-受体阻滞药	0.1972 (1)	0.2710 (5)	0.2105 (< 1)	0.0417 (< 1)	0.0957 (19)
钙通道阻断剂	0.2026 (10)	0.2672 (11)	0.2662 (15)	0.1261 (9)	0.2579 (2)
雌激素	0.5140 (36)	0.5612 (29)	0.4937 (18)	0.0244 (< 1)	0.5536 (39)
非甾体抗炎药	0.4368 (34)	0.5870 (13)	0.6761 (8)	0.4853 (24)	0.3650 (24)
阿片类药物	0.2727 (< 1)	0.1429 (< 1)	0.2222 (< 1)	0.1111 (< 1)	0.2500 (< 1)
口服降糖	0.4509 (88)	0.4603 (76)	0.5019 (78)	0.0145 (< 1)	0.4527 (53)
质子泵抑制剂	0.3333 (1)	0.3860 (5)	0.1299 (42)	0.0377 (< 1)	0.1775 (25)
骨骼肌松弛剂	0.1429 (< 1)	0.1981 (< 1)	0.2286 (2)	0.1429 (< 1)	0.2222 (< 1)
他汀类药物	0.2278 (6)	0.2479 (1)	0.4019 (4)	0.1484 (12)	0.1563 (1)
曲坦类	0.1739 (10)	0.360 (4)	0.2569 (13)	0.0690 (< 1)	0.2750 (8)
尿尿失禁	0.3697 (24)	0.5243 (19)	0.5405 (10)	0.4444 (13)	0.4317 (30)
平均^b	0.3039 (18)	0.3683 (13)	0.3437 (14)	0.1365 (5)	0.3116 (17)

^一个5%和12%都有F₁= 0.4363。取5%和12%(8.5%)的平均值来计算表最后一行的平均值。

^b在计算平均百分比时，<1%视为1%。

复合元素性能

不同的MEDLINE元素在系统评价过程中发挥不同的作用，其相应的性能也有很大的差异，如上所述。为了进一步探索他们的预测能力，我们检查了他们的合作表现。我们总共检查了22个组合，并选择了6个WSS95性能最好的组合(参见表4)．6个组合的平均WSS95均超过36%。表5显示F₁6种组合的性能。

我们还对复合元素的性能进行了重复方差分析。对于WSS95，结果表明WSS95在6个组合之间的性能没有统计学差异(P= .332)。F₁性能方面，6个组合之间也没有统计学上的显著差异(P= .069)。

综上所述，我们发现MEDLINE元素的预测能力因系统综述主题的不同而不同。总的来说，TI和PT的WSS95平均性能更好，但没有统计学差异。AB的平均F最好₁在统计学上优于TI。

表4。前6个组合中的WSS95。

SR报告主题	TI AB +	TI AB + + MH	TI AB + + PT	TI AB + +非盟	TI AB + + PT +非盟	TI + AB + MH + PT +非盟
血管紧张素转换酶抑制剂	76.38	76.85	74.29	75.79	73.70	75.08
注意力缺陷多动症	80.38	79.79	67.92	80.14	67.92	56.17
抗组胺药	16.13	10.65	24.52	16.13	24.52	18.39
非典型抗精神病药物	20.89	14.20	17.95	20.63	17.77	14.38
β-受体阻滞药	60.14	60.09	65.01	60.96	64.72	65.21
钙通道阻滞剂	18.23	18.64	17.32	18.39	17.49	22.82
雌激素	33.42	36.14	22.55	33.97	22.55	29.08
非甾体抗炎药	72.26	75.57	77.35	70.48	76.34	77.86
阿片类药物	6.01	11.75	8.98	5.95	8.98	12.17
口服降糖	11.33	13.12	13.52	11.13	13.52	12.72
质子泵抑制剂	19.20	21.31	19.65	19.05	19.65	20.11
骨骼肌松弛剂	41.94	46.44	58.55	41.87	58.49	60.01
他汀类药物	29.10	27.11	27.80	30.96	27.71	26.07
曲坦类	48.29	51.71	39.64	50.52	39.79	40.98
尿失禁	12.84	11.01	20.80	12.84	20.80	14.37
平均	36.44	36.96	37.06	36.59	36.93	36.35

表5所示。F₁在前6个组合中。

SR报告主题	TI AB + F₁（％）	TI + AB + MH F₁（％）	TI + AB + PT F₁（％）	TI + AB +非盟 F₁（％）	TI + AB + PT +非盟 F₁（％）	TI + AB + MH + PT +非盟 F₁（％）
血管紧张素转换酶抑制剂	0.4156 (1)	0.4000 (2)	0.4051 (1)	0.3902 (2)	0.3971 (4)	0.3774 (3)
注意力缺陷多动症	0.4000 (3)	0.4688 (5)	0.5455 (4)	0.4286 (6)	0.5306 (3)	0.5818 (4)
抗组胺药	0.3226 (5)	0.3333 (10)	0.2903 (15)	0.3226 (5)	0.2903 (15)	0.2813 (15)
非典型的抗精神病药物	0.4364 (16)	0.4241 (15)	0.4887 (15)	0.4411 (17)	0.4856 (15)	0.4606 (15)
β-受体阻滞药	0.2800 (3)	0.3043 (2)	0.3590 (2)	0.2667 (3)	0.3596 (2)	0.3333 (3)
钙通道阻断剂	0.2335 (8)	0.2620 (11)	0.2804 (9)	0.2323 (8)	0.2816 (9)	0.2995 (9)
雌激素	0.6000 (30)	0.6237 (29)	0.6047 (25)	0.5979 (31)	0.6118 (24)	0.6171 (26)
非甾体抗炎药	0.6667 (16)	0.6154 (16)	0.6966 (12)	0.6471 (16)	0.6809 (13)	0.6667 (15)
阿片类药物	0.3000 (0)	0.3158 (< 1)	0.3000 (< 1)	0.3000 (< 1)	0.3000 (< 1)	0.3158 (< 1)
口服降糖	0.4497 (90)	0.4541 (88)	0.4553 (86)	0.4489 (92)	0.4561 (75)	0.4635 (82)
质子泵抑制剂	0.4384 (7)	0.4737 (5)	0.5172 (5)	0.4552 (7)	0.5455 (5)	0.5079 (6)
骨骼肌松弛剂	0.2222 (1)	0.2353 (< 1)	0.2500 (< 1)	0.2222 (1)	0.2500 (< 1)	0.2667 (< 1)
他汀类药物	0.2994 (2)	0.3281 (1)	0.3382 (1)	0.2959 (2)	0.3358 (2)	0.3465 (1)
曲坦类	0.3636 (3)	0.3913 (3)	0.3556 (3)	0.3556 (3)	0.3529 (4)	0.3913 (3)
尿失禁	0.5063 (12)	0.5347 (19)	0.5505 (21)	0.5263 (11)	0.5507 (9)	0.5843 (15)
平均^一个	0.3956 (13)	0.4110 (14)	0.4291 (14)	0.3954 (14)	0.4286 (12)	0.4329 (13)

^一个在计算平均百分比时，<1%视为1%。

与已有文献的性能比较

在这里，我们还将WSS95的性能与现有的机器学习模型训练方法进行了比较(我们无法比较F₁表演，因为他们没有提供)。由于TI+AB+PT具有最简单的组合，并且其性能与其他组合相当或更好，因此我们选择TI+AB+PT(权重设置= 1:1:1)与现有的机器学习模型训练方法进行比较，包括基于投票感知器的自动引用分类系统(VP)，因子补码naïve贝叶斯与权重工程(FCNB/ we)和支持向量机(SVM) (表6)．

表6所示。WSS95与Cohen和Matwin系统在15个SR主题的比较。

SR报告主题	Cohen 2006 [7］ (副总裁^一个）	科恩2008 [12］ (支持向量机^b）	Matwin 2010 [15］ (FCNB /我们^c）	我们的研究 (TI + AB + PT)
血管紧张素转换酶抑制剂	56.61	73.30	52.30	74.29
注意力缺陷多动症	67.95	52.60	62.20	67.92
抗组胺药	0	23.60	14.90	24.52
非典型抗精神病药物	14.11	17.00	20.60	17.95
β-受体阻滞药	28.44	46.50	36.70	65.01
钙通道阻滞剂	12.21	43.00	23.40	17.32
雌激素	18.34	41.40	37.50	22.55
非甾体抗炎药	49.67	67.20	52.80	77.35
阿片类药物	13.32	36.40	55.40	8.98
口服降糖	8.96	13.60	8.50	13.52
质子泵抑制剂	27.68	32.80	22.90	19.65
骨骼肌松弛剂	0	37.40	26.50	58.55
他汀类药物	24.71	49.10	31.50	27.80
曲坦类	3.37	34.60	27.40	39.64
尿失禁	26.14	43.20	29.60	20.80
平均	23.43	40.80	33.50	37.06

^一个VP:基于投票感知器的自动引文分类系统

^bFCNB/WE:带权重工程的因子补naïve贝叶斯

^c支持向量机:支持向量机

重复方差分析检验显示四项研究有显著差异(P= .005)。与Hommel调整的两两比较(表7)显示，我们的研究与Cohen 2008 [12或Matwin 2010 [15］(P=。4979,．4979）but is significantly better than Cohen 2006 [7) (P= .0475)。总之，我们的方法比传统的机器学习模型训练方法提供了有竞争力的结果。

我们无法与华莱士组进行比较。13,14因为他们使用了不同的系统评价。到目前为止，它们的性能是机器学习模型训练方法中最好的(在不遗漏任何相关文章的情况下减少了近50%的工作量)，因为它们将主动学习与用户交互结合在一起，接受用户的反馈(类似于我们的步骤D)图3) [13,14］．这个结果是可预测的，因为机器学习使用训练数据来建模分类器。有了大量的训练数据，分类器几乎可以完美地执行。然而，令人鼓舞的是，在不使用算法来制定分类模型的情况下，我们目前能够执行类似于模型训练方法的操作。

表7所示。四项研究两两比较的P值。

	2006年科恩	2008年科恩	Matwin 2010	我们的研究(TI+AB+PT)
2006年科恩	- - - - - -	0.0012	0.0433	0.0475
2008年科恩	0.0012	- - - - - -	0.0649	0.4979
Matwin 2010	0.0433	0.0649	- - - - - -	0.4979
我们的研究	0.0475	0.4979	0.4979	- - - - - -

带权重参数的性能

由于不同的系统评价有不同的范围(例如，一个可能需要从AB获得足够的研究信息，而另一个可能对PT有严格的标准)，我们感兴趣的是不同的权重参数是否会改变性能。我们进行了不同权重设置的实验(如TI:PT:AU=3:1:2, TI:PT:AU=2:2:1, TI:PT:AU=3:2:1)。结果显示，当增加一个元素的权重以实现某些报告的更高性能时，其他一些报告的性能会下降。总的来说，我们无法找到一个通用的权重设置，有利于所有的报告。这在一定程度上可以解释为不同系统综述中捕获的不同范围。此外，尽管一些加权组合带来了更好的整体性能(例如，15个报告中的平均WSS95)，但基线的增强(组合中的元素具有相同的权重)是有限的。例如，考虑TI+PT+AU的组合，平均WSS95评估的基线性能(TI:PT:AU=1:1:1)为35.45%，而其加权性能(TI:PT:AU=3:1:2)(37.30%)的性能收益不到2%。加权参数并没有太大的改善。

解释WSS95和F的不一致性₁

在我们的实验中，我们还发现了WSS95和F在性能上的不一致₁．例如，有些组合F值很高₁低WSS95的性能，反之亦然。我们考察了整个推荐过程中的召回性能。图6介绍了两种不同元素组合TI+AU (图6A)和TI+AB+PT+AU (图6B)(均为同等权重)。x轴表示筛选(或推荐)文章的百分比;y轴表示召回率。从图6，我们看到在筛选早期阶段(筛选文章的5%)，曲线B(召回率为70%)比曲线A(召回率为40%)更陡峭。这在F中也有体现₁分数:最高的F₁在早期筛选阶段，曲线A和曲线B的得分分别为0.3778和0.5455。但在后期，在筛选60%的文章后，曲线A比曲线B更快地达到100%的召回率(曲线A和B的WSS95得分分别为46.51%和19.65%)。总之，目前使用WSS95的性能测量、曲线下面积、精度和召回率不能反映随着时间的推移的性能。在推荐(筛选)过程的开始阶段，一些元素可能会加速性能。使用多种性能指标，特别是包括最高的F₁在某个时间点可以更好地帮助我们在整个筛选过程中认识到不同元素的优劣

可定制的权重参数可以更有效地提高性能

由于不同的系统评价有不同的评价范围，我们无法确定一个通用的权重设置，可以成功地应用于每一个系统评价。Matwin的著作中也提到了类似的观点[15]，其中权重参数(或权重乘数)是可调的，并根据不同的系统评价进行修改。虽然不同的系统评审应具有不同的权重乘数值，但我们也同意，为每个系统评审计算此类值的过程将非常耗时[15］．因此，与其为每一篇系统综述寻找最佳权重参数，不如根据人类审稿人的系统综述范围和筛选优先级为其提供灵活、可定制的权重参数，这将更加有用和实用。在不调整权重参数的情况下，我们的平均性能高于FCNB/WE方法[15) (表6)．当可调节的权重参数提供给人类审稿人时，我们可能会进一步改进。

向高效和可推广的方法迈进

目前生物医学文本分类工作以减少系统审稿工作量为目的，主要采用机器学习模型训练方法。Naïve贝叶斯和SVM是两种应用广泛的机器学习算法。虽然这些机器学习方法在特定系统评论主题的文本分类中提供了出色的性能，但将现有的机器学习算法应用于其他新的系统评论主题是一个挑战。构建训练模型也很耗时[15］．此外，机器学习方法的实现通常需要对算法的理解。例如，操作人员需要为SVM算法选择一个内核或调整参数设置。因此，如果没有训练有素的分类模型或没有重要的机器学习知识，很难将该方法应用于新的系统综述主题。研究人员还研究了其他方法，如文本挖掘或统计方法，以促进系统审查过程[29,31]，但它们也严重依赖于先前的决策来找到关键术语，以区分相关和不相关的类，这与监督机器学习非常相似。

克服了上面提到的限制，我们提供了一种可推广的方法，可以很容易地部署以促进任何系统的审查。此外，由于我们建立了一个文章网络，提供文章之间的相似关系，迭代的交互式推荐过程几乎不需要花费时间。目前，我们构建一个文章网络的处理时间为300到3500篇，从几秒到几分钟不等，但推荐步骤是实时的。考虑到构建文章网络的重要步骤，这个处理时间是合理的。具体来说，这是多项式时间处理，而不是线性时间处理。在我们的研究中，相似矩阵计算的后台程序是用C/ c++编写的，从计算机体系结构和编译器的角度来看，这是最有效的方法。我们还计划改进可能包含一万篇或更多文章的大型系统综述的时间响应。最重要的是，我们的方法可以应用于任何系统审查主题，非技术人员可以轻松使用它。

研究的局限性

本研究仅使用15份DERP报告进行评估。虽然我们假设我们的方法将在全球范围内适用，但需要其他系统审查团队的数据集来进一步证明我们的假设。我们未来的计划包括与其他系统评审团队合作。

未来的方向

正如我们在方法一节中所讨论的，不同的文章元素对于WSS95或F的评估方案具有不同的预测能力₁得分。一个更好的F₁得分较低的WSS95，含有AB或MH的组合更有可能在开始时表现良好，但很难达到100%的回忆。另一方面，TI、PT和AU的组合虽然可以达到更好的整体工作量节省，但在推荐过程开始时召回率上升缓慢(准确率较低)。这激励我们利用多种类型的权重设置，并在不同的推荐阶段(早期、中期和后期)利用不同的文章元素强度。我们计划在元素信息耗尽时实现自动检测和调整，即改变元素组合和权重参数的时间。例如，当一系列推荐的N篇文章被人工审稿人归类为排除时，我们将其视为调整信号，因为当前设置已无法提供良好的推荐。另一个例子是，首先应用AB和MH的组合，因为它们在早期推荐阶段提供了较高的准确性，然后在后续阶段自动调整到TI, PT和AU的组合。还需要进一步研究在不同条件下适当调整权重参数的问题。

在不久的将来，我们还将提供可视化的文章网络，文章之间的关系可以被人类直观地表示和理解。将进行基于网络的分析，并报告诸如图直径、中心性和模块类(通过通信检测)等网络指标。这种可视化有可能识别目标领域的文章集群和知识缺口。网络可视化密度越低，发表的相关文章就越少，反之亦然。

结论

我们展示了一种新的方法来协助系统综述文章筛选过程。我们建立了基于文章相似度的文章网络，促进了文章的交互式推荐过程。我们使用MEDLINE元素计算文章相似度，并检查了MEDLINE元素的预测能力。我们发现TI和PT的WSS95性能最好，AB和PT的F性能最好₁推荐过程早期阶段的分数。然而，没有发现统计学差异。

使用我们的方法，我们能够在TI、AB和PT等加权组合的情况下实现平均37%的WSS95。统计分析也表明，它与现有的方法相比具有竞争力。基于这项研究的发现和经验教训，我们目前正在将该方法部署到一个原型公共在线系统ArticleNet中，以协助文章筛选过程。

致谢

特别感谢Soledad Fernandez博士，他帮助验证了我们的统计结果。作者还感谢Marian McDonagh博士对该项目的建议。

利益冲突

没有宣布。

元Y，猎RH。系统的评论:好的，坏的，丑陋的。美国胃肠杂志2009年5月;104(5):1086-1092。［CrossRef] [Medline］
Akobeng正义与发展党。理解系统回顾和元分析。Arch Dis Child 2005 Aug;90(8):845-848 [免费全文] [CrossRef] [Medline］
系统评价的基本原理。英国医学杂志1994 9月3日;309(6954):597-599 [免费全文] [Medline］
介入疼痛管理的循证医学、系统综述和指南，第一部分:介绍和一般考虑。疼痛医师2008;11(2):161-186 [免费全文] [Medline］
Lavis约。我们如何支持在决策过程中使用系统审查?PLoS Med 2009 11月;6(11):e1000141 [免费全文] [CrossRef] [Medline］
菲利普斯B，鲍尔C，萨克特d牛津循证医学中心(CEBM)。2009.牛津循证医学中心:证据水平网址:http://www.cebm.net/index.aspx?o=1025[访问2012-09-10][WebCite缓存］
Cohen AM, Hersh WR, Peterson K, Yen PY。使用自动引用分类减少系统综述准备工作的工作量。中国医学信息杂志2006;13(2):206-219 [免费全文] [CrossRef] [Medline］
信息过载:它的背后是什么，它的背后是什么?医学杂志2008年7月21日;189(2):84-85。［Medline］
克拉克M.科克伦协作网和科克伦图书馆。耳鼻喉头颈外科2007年10月;137(4增刊):S52-S54。［CrossRef] [Medline］
Shojania KG, Sampson M, Ansari MT, Ji J, Doucette S, Moher D.系统评价多快会过时?生存分析。安实习医学2007年8月21日;147(4):224-233。［Medline］
Tsafnat G, Glasziou P, Choong MK, Dunn A, Galgani F, Coiera E.系统评审自动化技术。Syst Rev 2014;3:74 [免费全文] [CrossRef] [Medline］
科恩。优化自动系统评审工作优先级的特征表示。2008年发表于:年度研讨会论文集/AMIA研讨会;2008;华盛顿特区，第121-125页。
刘建民，刘建民，刘建民。生物医学文献引证的半自动化筛选。BMC生物信息学2010;11:55 [免费全文] [CrossRef] [Medline］
Wallace BC, Small K, Brodley CE, Lau J, Trikalinos TA。在循证实践中心部署交互式机器学习系统:摘要。2012年发表于:第二届ACM SIGHIT国际卫生信息学研讨会;2012;迈阿密,佛罗里达。
Matwin S, Kouznetsov A, Inkpen D, Frunza O, O'Blenis P.一种减少专家执行系统评审工作量的新算法。中国医学杂志2010;17(4):446-453 [免费全文] [CrossRef] [Medline］
王晓明，王晓明。关联反馈对检索性能的影响。进:琼斯KS，威利特P，编辑。信息检索阅读。马萨诸塞州伯灵顿:摩根考夫曼出版公司;1997:355 - 364。
鲁思文I, Lalmas M.在信息访问系统中使用相关反馈的调查。现代工程学报，2003;18(2):95-145。
加菲尔德E，普多夫金A, Istomin V.算法引文链接史学:映射科学文献。载于:美国信息科学与技术学会论文集。2002年发表于:ASIS&T;2002;费城,宾夕法尼亚州。
MEDLINE/PubMed数据元素(字段)描述。美国国家医学图书馆http://www.nlm.nih.gov/bsd/mms/medlineelements.html[访问时间:2014-03-08][WebCite缓存］
OHSU循证政策中心。药物有效性评审项目(DERP)系统药物分类评审金标准数据网址:http://skynet.ohsu.edu/~cohenaa/systematic-drug-class-review-data.html[访问2015-08-21][WebCite缓存］
Kim S, Choi J.提高用于高质量文章选择的文本分类模型的性能。Healthc Inform Res 2012 3月;18(1):18-28 [免费全文] [CrossRef] [Medline］
谭pn, Steinbach M, Kumar V.数据挖掘导论。马萨诸塞州波士顿:Pearson Addison Wesley;2006.
PubMed的帮助。PubMed Stopword List URL:http://www.ncbi.nlm.nih.gov/books/NBK3827/[访问2015-08-21][WebCite缓存］
一种后缀剥离算法。项目1980;14(3):130 - 137。
Bekhuis T, Tseytlin E, Mitchell KJ, Demner-Fushman D.特征工程和提议的医疗证据系统审稿人的决策支持系统。PLoS One 2014;9(1):e86277 [免费全文] [CrossRef] [Medline］
调整p值同步推理。生物识别技术1992;48(4):1005 - 1013。
Blakesley RE, Mazumdar S, Dew MA, Houck PR, Tang G, Reynolds CF，等。神经心理学研究中多重假设检验方法的比较。神经心理学2009 Mar;23(2):255-264 [免费全文] [CrossRef] [Medline］
Bekhuis T, Demner-Fushman D.朝着系统评价的初始筛选阶段自动化迈进。种马健康技术通报2010;60(Pt 1):146-150。［Medline］
Kastrin A, Peterlin B, Hristovski D.基于卡方的MEDLINE引文分类评分函数。方法中华医学杂志，2010;49(4):371-378。［CrossRef] [Medline］
Frunza O, Inkpen D, Matwin S.使用自动文本分类技术构建系统评论。2010发表于:论文发表于:第23届计算语言学国际会议论文集:海报;2010;北京,中国。
Shemilt I, Simon A, Hollands GJ, Marteau TM, Ogilvie D, O'Mara-Eves A，等。在巨大的干草堆中找到针:使用文本挖掘来减少非常大范围评论中不切实际的筛选工作量。Res Synth Methods 2014 Mar;5(1):31-49。［CrossRef] [Medline］

‎

阿瑟:摘要

方差分析:方差分析

盟:作者

DERP:药物有效性评审项目

循证医学:循证医学

例:被排除在外

F₁：F-measure

FCNB /我们:带权重工程的因子补naïve贝叶斯

:包括

MH:MeSH，也就是医学主题标题

PMID:PubMed识别器

PT:发布类型

支持向量机:支持向量机

TI:标题

副总裁:基于投票感知器的引文自动分类系统

WSS95:在95%的召回率下，工作比抽样节省

G·艾森巴赫(G Eysenbach)编辑;提交27.10.14;G Tsafnat, A Dunn同行评审;对作者25.02.15的评论;修订本收到22.04.15;接受24.05.15;发表31.08.15

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，http://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

使用MEDLINE元素相似性协助文章筛选过程进行系统评论

使用MEDLINE元素相似性协助文章筛选过程进行系统评论

原始论文

通讯作者:

摘要

关键字

简介

方法

数据源

MEDLINE元素

相似性得分

模拟交互式推荐过程

概述

在95%召回率的采样中节省的工作

F-Measure

结果

单体性能

复合元素性能

与已有文献的性能比较

带权重参数的性能

解释WSS95和F的不一致性₁

讨论

可定制的权重参数可以更有效地提高性能

向高效和可推广的方法迈进

研究的局限性

未来的方向

结论

致谢

利益冲突

参考文献

缩写

本文内容如下e-collection /主题问题:

使用MEDLINE元素相似性协助文章筛选过程进行系统评论

使用MEDLINE元素相似性协助文章筛选过程进行系统评论

原始论文

通讯作者:

摘要

关键字

简介

方法

数据源

MEDLINE元素

相似性得分

模拟交互式推荐过程

概述

在95%召回率的采样中节省的工作

F-Measure

结果

单体性能

复合元素性能

与已有文献的性能比较

带权重参数的性能

解释WSS95和F的不一致性1

讨论

可定制的权重参数可以更有效地提高性能

向高效和可推广的方法迈进

研究的局限性

未来的方向

结论

致谢

利益冲突

参考文献

缩写

解释WSS95和F的不一致性₁