这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
有效地找到临床检查研究(量化症状和体征在疾病诊断中的价值的研究)正变得越来越困难。用于从Medline检索诊断研究的过滤器缺乏特异性,因为它们还检索了大量关于影像学和实验室检测诊断价值的研究。
目的是开发从Medline检索临床检查研究的过滤器。
我们在训练数据集中开发了过滤器,并在测试数据库中验证了它们。我们通过手工搜索161种期刊(n = 52,636项研究)创建了训练数据库。我们评估了65个候选单术语过滤器在识别训练数据库中报告症状或体征敏感性和特异性的研究时的召回率和准确性。为了确定这些搜索词的最佳组合,我们使用了递归分区。训练数据库中表现最好的过滤器以及13个先前开发的过滤器在测试数据库中进行了评估(n = 431,120项研究)。我们还研究了检查收录文章的参考文献列表对回忆的影响。
在训练数据库中,查全率最高(95%)的单项过滤器为诊断(subheading),查准率最高(8.4%)的单项过滤器为“病史采集”(MeSH)。使用递归分区开发的多项过滤器(RP过滤器)在训练数据库中的召回率为100%,精度为89%。在测试数据库中,Haynes-2004-Sensitive滤波器(召回率98%,精密度0.13%)和RP滤波器(召回率89%,精密度0.52%)表现最佳。回顾纳入文章的参考文献列表,这两个过滤器的召回率分别提高到99%和94%。
递归分区似乎是开发搜索过滤器的一种有用方法。本文提出的实证检索过滤器可以帮助从Medline检索临床检查研究;然而,由于检索策略的精度较低,检索相关研究仍然具有挑战性。提高精确度可能需要国家医学图书馆系统地改变文章的标签。
在作出诊断时,临床医生往往依赖临床检查结果(即病人的病史和/或体格检查的资料)[
在医学的许多领域,已经开发了过滤器以方便搜索相关文章。过滤器是预先测试的搜索策略,有助于从Medline的所有其他研究中识别某种类型的研究。可供检索诊断、治疗和临床预测规则研究的优化搜索过滤器[
本研究的目的是开发和评估Medline过滤器,以促进临床检查研究的检索。
过滤器的训练和测试包括8个步骤:(1)开发训练数据库,(2)识别候选单项滤波器,(3)识别训练数据库中性能最佳的单项滤波器,(4)采用递归分区法识别训练数据库中性能最佳的多项滤波器,(5)开发测试数据库,(6)评估本研究开发的滤波器在测试数据库中的性能,(7)评估先前在测试数据库中开发的过滤器的性能,以及(8)检查审查收录文章的参考文献列表对召回的影响。我们使用PubMed进行研究,PubMed是美国国家医学图书馆的公共搜索引擎,用于访问Medline。
我们使用了临床对冲数据库,其方法已在前面描述过[
一名研究者(作者NS)最初审查了1347项研究的标题和摘要(如果有摘要)以及全文(如果有必要),并将每篇文章分类为a
然后,我们通过输入Medline上的161种期刊,并将出版年份限制在2000年,重新创建了临床对冲数据集(
描述培训数据库开发的流程图。
在两名临床医生、三名参考图书管理员的帮助下,我们用PubMed语法生成了65个候选搜索词的列表,并对文献进行了彻底的回顾。专家搜索独立审查了我们的候选术语列表,并建议了额外的术语。我们使用了与临床检查和诊断相关的术语以及否定的术语(例如,非MRI)。(见
我们根据训练数据库对每个单独的过滤器进行评估,以确定其召回率(过滤器检测到的临床检查文章的比例)、精密度(检索到的相关文章的比例)、F-measure(结合召回率和精密度的整体测量)、“影响”(检索到的不相关文章的比例)和需要阅读的文章数(搜索者为了找到每篇相关文章需要查看的平均文章数)[
因为测试所有单项过滤器的组合是不可能的,所以我们使用递归分区来开发最佳的多项过滤器(以下简称递归分区过滤器)[
为了开发测试数据库,我们使用了文献中最大的临床检查系统综述集合:《美国医学会杂志》(JAMA)的《理性临床检查》系列[
纳入这15篇综述的文章被视为
描述测试数据库开发的流程图。
对于训练数据库中召回率最高的3个过滤器,我们在测试数据库中计算召回率、精度、F-measure和读取所需的数量。计算是基于的单元格和公式
为每个系统回顾和所用公式创建一个2x2表一个
纳入系统综述的文章 | 未纳入系统综述的文章 | |
过滤器检测 | 一个 | B |
被过滤器漏掉 | C | D |
一个召回率= A/(A+C);精度= A/(A+B);F-measure = 2*精度*召回率/(精度+召回率);读取所需的数= 1/精度;放射性尘埃= B/(B+D) [
先前开发的12个过滤器的性能验证了检索诊断文章的有效性[
系统评论的作者经常检查参考文献列表,希望增加回忆。我们研究了这种策略如何在临床检查领域补充过滤器的使用。具体来说,我们检查了检查所收录文章的参考文献列表是否允许使用具有较低召回率的过滤器。因此,我们确定了被召回率最高的2个过滤器遗漏的文章,并检查这些文章是否包含在没有被这些过滤器遗漏的文章的参考文献列表中。
训练数据库中性能最好的滤波器如图所示
训练数据库中具有最佳召回率(保持放射性沉降小于50%)、精度(保持召回率大于50%)和F-measure的过滤器
过滤器 | 性能 |
回忆(%) | 精度(%) | F-measure | NNR一个 | |
|
||||||
诊断(副标题) | 最好的回忆 | 95 | 0.35 | 0.71 | 279 | |
病史采集[MeSH] | 最好的精度和f测量 | 12 | 8.44 | 9.79 | 11.86 | |
|
||||||
诊断[tw]或“敏感性和特异性”[MeSH] | 最佳召回(以下简称dx -高召回) | One hundred. | 0.52 | 1.04 | 191 | |
试验的预测价值[网格]或特异性[TIAB] | 最佳精度和F-measure(以下简称Dx-precise) | 67 | 1.95 | 3.78 | 51 | |
|
||||||
临床*[tw]或症状*[tw]或检查*[tw]或标准[tw]或试验[tw]或试验[tw] | 最佳召回(以下简称CE-high召回) | One hundred. | 0.27 | 0.53 | 377 | |
测试[tw]或物理[tw] | 最佳精度和F-measure(以下简称CE-precise) | 62 | 0.72 | 1.43 | 138 | |
|
||||||
(诊断[tw]和(特异性*[tw]或临床*[tw]或检查*[tw]))或“敏感性和特异性”[MeSH] | 递归划分的最佳整体滤波器(以下简称RP-filter)b | One hundred. | 0.89 | 1.76 | 113 |
一个需要读取的数字
b使用递归分区开发的过滤器(请参阅“方法”部分)
递归分区树显示在
使用递归分区开发的用于临床检查(CE)文章检索的最佳多术语过滤器。
在本研究中开发的滤波器以及之前开发的13个滤波器和滤波器组合的召回率、精度、F-measure和读取所需的数都显示在
测试数据库中根据召回率排序的搜索过滤器的性能
过滤器或过滤器组合 | 回忆(%) | 精度(%) | F-measure | NNR一个 | |
|
|||||
海恩斯- 2004敏感( |
98 | 0.13 | 0.26 | 778 | |
文森特- 2003 ( |
98 | 0.09 | 0.17 | 1154 | |
巴赫曼- 2002 ( |
96 | 0.11 | 0.22 | 906 | |
海恩斯- 1994敏感( |
95 | 0.16 | 0.31 | 641 | |
Dx-high回忆b | 95 | 0.12 | 0.25 | 804 | |
范德伟登-1997 [ |
95 | 0.07 | 0.13 | 1490 | |
CE-high回忆b | 91 | 0.08 | 0.15 | 1330 | |
海恩斯- 1994准确( |
91 | 0.07 | 0.14 | 1431 | |
RP-filterb | 89 | 0.26 | 0.52 | 380 | |
临床检查[ |
73 | 0.30 | 0.61 | 328 | |
帝威- 2002 ( |
71 | 0.40 | 0.80 | 249 | |
海恩斯- 2004准确( |
69 | 0.45 | 0.89 | 224 | |
帝威- 2000准确( |
64 | 0.64 | 1.26 | 157 | |
帝威- 2000敏感( |
64 | 0.60 | 1.19 | 167 | |
海恩斯- 1994具体( |
51 | 0.72 | 1.42 | 139 | |
海恩斯- 2004具体( |
36 | 1.01 | 1.97 | 99 | |
|
|||||
海恩斯- 2004敏感( |
One hundred. | 0.06 | 0.12 | 1613 | |
CE-high recall OR RP | 99 | 0.06 | 0.13 | 1572 | |
海恩斯- 2004敏感( |
98 | 0.11 | 0.22 | 890 | |
海恩斯- 2004敏感( |
95 | 0.13 | 0.25 | 790 | |
海恩斯- 2004敏感( |
88 | 0.19 | 0.39 | 515 |
一个NNR =需要读取的数字
b训练数据库中召回率最高的三个过滤器
总的来说,Haynes-2004-Sensitive搜索策略漏掉了188篇相关文章中的4篇,其中2篇是通过查看该策略没有漏掉的文章的参考文献列表而检索到的(召回率从98%提高到99%)。在递归分区策略遗漏的19篇文章中,通过回顾该策略没有遗漏的文章的参考文献列表检索到8篇文章(召回率从89%提高到94%)。
我们量化了可能用于在MEDLINE中查找临床检查文章的过滤器的召回率和精度。虽然使用递归分区可能会提高搜索的精度,但我们测试的所有策略的精度都非常低,不到2%。
对于医疗保健提供者寻找有关临床检查结果诊断准确性的信息,RP过滤器似乎是最合理的选择。例如,让我们假设一位临床医生正在检查第三个心音检测心力衰竭的能力。为了确定第三次心音患者的充血性心力衰竭的测试后概率,使用PubMed中的RP过滤器进行搜索将是(心跳加速或S3或第三次心音)和心力衰竭[MeSH] AND(诊断[tw] AND(特异性*[tw]或临床*[tw]或检查*[tw]))或“敏感性和特异性”[MeSH])。截至2011年3月,这项搜索产生了68篇文章,其中有几篇与临床医生的问题直接相关。虽然没有被研究过,但医生可以通过添加术语“systematic[sb]”来限制搜索系统综述。该策略产生了1个相关的系统评价。虽然本研究中报告的过滤器的NNRs非常高(
对于想要进行系统评价的研究者,Haynes-2004-Sensitive过滤器[
我们测试的所有过滤器在识别临床检查研究方面的精度都非常低。我们的发现与Haynes及其同事发表的研究结果一致[
用于临床检查、诊断和治疗的过滤器性能比较
过滤器 | 回忆(%) | 精度(%) | F-measure | NNR一个 | |
|
|||||
海恩斯- 2004敏感( |
98 | 0.13 | 0.26 | 778 | |
递归分区 | 89 | 0.26 | 0.52 | 380 | |
|
|||||
海恩斯- 2004敏感( |
99 | 1.1 | 2.17 | 91 | |
|
|||||
海恩斯2005 [ |
99 | 9.9 | 18.0 | 10 | |
Haynes 1994 [ |
99 | 22 | 36.0 | 4.5 |
一个NNR =需要读取的数字
b值用于最敏感的多项过滤器
我们的研究有几个局限性。Hedges数据库[
令人惊讶的结果是,训练数据库中只有25%和20%的临床检查研究分别使用MeSH术语“体检”和“体征和症状”进行编码。当前这些MeSH术语分配的不一致性限制了搜索过滤器在这个主题上的能力。
提出了一种开发多项滤波器的新方法。在过滤器的开发中使用递归分区是一种新颖的方法,似乎特别适合有许多候选项的情况。当候选词的数量很少时,可以根据数据集测试所有可能的词的组合。当候选项的数量很大时,这就变得令人望而却步。相比之下,使用递归分区,搜索过滤器是逐步构造的。这种方法还允许开发使用AND和OR术语的过滤器,并允许开发具有召回率和精度的最佳组合的过滤器。
递归分区提供了另一种开发过滤器的方法:它不仅允许开发具有召回率和精度的最佳组合的过滤器,而且还允许开发同时使用and和OR布尔连接器的过滤器。尽管递归分割具有优势,但我们开发的用于临床检查研究检索的过滤器精度相对较低。我们认为国家医学图书馆应该为量化临床检查的敏感性和特异性的文章创建一种出版类型。这种新标签可以提高临床诊断文献的检索。
我们感谢陈品王博士,圣安东尼奥德克萨斯大学健康科学中心流行病学和生物统计系,他帮助我们开发了统计策略来解决递归分区模型中的过拟合问题。
没有宣布
单项过滤器列表。
测试语料库中评估的过滤器列表。