JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v22i11e23449 33197230 10.2196/23449 原始论文 原始论文 检索PubMed检索关于COVID-19大流行的出版物:搜索字符串的比较分析 Eysenbach 冈瑟 Shokraneh Farhad Mircheva Iskra Alasmari Ashwag 拉撒路 杰弗里·V DPhil 1
巴塞罗那全球卫生研究所 医院诊所 巴塞罗那大学 Carrer del Rosselló, 132 巴塞罗那 西班牙 34 608703573 jeffrey.lazarus@isglobal.org
https://orcid.org/0000-0001-9618-2299
Palayew 亚当 2 https://orcid.org/0000-0002-1904-5730 拉斯穆森 Lauge Neimann 3. https://orcid.org/0000-0001-9584-2443 安徒生 星期二头盔 3. https://orcid.org/0000-0003-2108-674X 尼科尔森 乔伊 4 https://orcid.org/0000-0001-8658-5879 Norgaard 奥立 3. https://orcid.org/0000-0002-1681-4338
巴塞罗那全球卫生研究所 医院诊所 巴塞罗那大学 巴塞罗那 西班牙 流行病学、生物统计学和职业健康系 麦吉尔大学 蒙特利尔,质量控制 加拿大 丹麦糖尿病知识中心 哥本哈根Steno糖尿病中心 根措夫特 丹麦 NYU Langone 纽约大学格罗斯曼医学院 纽约大学健康科学图书馆 纽约州纽约 美国 通讯作者:Jeffrey V Lazarus jeffrey.lazarus@isglobal.org 11 2020 26 11 2020 22 11 e23449 17 8 2020 9 9 2020 10 10 2020 24 10 2020 ©Jeffrey V Lazarus, Adam Palayew, Lauge Neimann Rasmussen, Tue Helms Andersen, Joey Nicholson, Ole Norgaard。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2020年11月26日。 2020

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

自2020年3月11日宣布全球大流行以来,COVID-19一直占据着世界各地的头条新闻,研究人员撰写了数千篇关于这种疾病的科学文章。快速的出版速度给研究人员和其他利益相关者带来了挑战,他们要跟上发表文章的数量。为了有效地搜索文献,研究人员使用PubMed等数据库。

客观的

本研究的目的是评估PubMed中对COVID-19记录的不同搜索的性能,并评估所需搜索的复杂性。

方法

我们测试了PubMed对COVID-19的搜索,以根据标准指标(敏感性、准确性和F-score)确定哪个搜索字符串表现最佳。我们在COVID-19大流行的前10周评估了PubMed中8种不同搜索的性能,以调查搜索字符串的复杂程度。我们还测试了省略连字符和空格字符以及应用引号。

结果

将几个自由文本和索引搜索词组合在一起的两个最全面的搜索字符串在灵敏度(98.4%/98.7%)和F-score(96.5%/95.7%)方面表现最好,但单词搜索COVID-19在精度(95.3%)方面表现最好,在灵敏度(94.4%)和F-score(94.8%)方面表现良好。“武汉病毒”一词表现最差:敏感度为7.7%,精确度为78.1%,f得分为14.0%。我们发现,删除连字符或空格字符可能会遗漏大量记录,特别是在使用SARS-CoV-2作为单个术语进行搜索时。

结论

在PubMed中,结合自由文本和索引搜索词的综合搜索字符串比单词搜索表现更好,但与单词COVID-19相比,差距并不大。对于日常搜索,正确输入的某些单词搜索可能就足够了,而更全面的搜索应该用于系统的审查。尽管如此,我们建议美国国家医学图书馆可以采取额外的措施,以支持所有PubMed用户搜索COVID-19文献。

冠状病毒 新型冠状病毒肺炎 流感大流行 科学出版 PubMed 文献搜索 研究 文学 搜索 性能
简介

自2020年3月11日宣布全球大流行以来,COVID-19占据了世界各地的头条新闻,并产生了数千篇科学文章[ 1].论文发表的速度之快给研究人员和其他利益相关者带来了挑战,他们要跟上这一主题的论文发表量[ 2].为了搜索文献,研究人员和其他人使用同行评审的科学文章数据库。这些数据库需要对文章进行索引和管理,这是一项耗时的任务;然而,对策展数据库的投资旨在建立可靠和更有效的文章搜索[ 3.].

PubMed是许多临床医生和研究人员的首选数据库,因为它易于使用,声誉好,大量索引期刊和免费访问[ 4].由美国国家医学图书馆(NLM)维护[ 4- 6].PubMed提供了主题过滤器,以方便搜索特定主题,但由于它们每年只审查一次,目前尚不清楚是否正在考虑使用COVID-19主题过滤器[ 7].然而,在大流行开始时,NLM在其专用网站上推出了COVID-19/SARS-CoV-2一键搜索选项[ 8].通过点击按钮,PubMed用户可以快速应用现成的搜索来识别PubMed中可能相关的COVID-19记录。搜索像PubMed这样的结构化数据库通常被认为是最熟练地使用医学主题标题(MeSH)和自由文本术语[ 9- 11].然而,进行系统、全面和透明的搜索需要时间和技巧。 12- 14].因此,PubMed的一键搜索可能是全球用户应对COVID-19大流行的有价值的快捷方式。

最近的一项调查显示,系统综述的作者对“有效”文献检索的构成有不同的看法[ 15].根据调查,Cooper等[ 15]指出,综述作者“似乎在全面或非全面的综述类型之间的二元分类中定位有效性。”简而言之,他们的文章表明,那些重视全面文献检索的人往往是文献检索者(例如,信息专家或图书馆员),他们强调敏感性作为有效性的评估指标,并强调科克伦式的系统评价,他们的雄心是将所有可用的证据作为理想的识别。另一方面,研究人员和卫生专业人员筛选文献倾向于强调不太全面的搜索和价值精度作为评价指标。此外,他们还关心处理确定的记录所需的工作量、时间和资源等结果。然而,大多数PubMed用户只浏览他们搜索结果的前20条记录,并优化他们的搜索以使搜索结果的数量易于管理[ 3.].出于这些原因,NLM也有一个算法,通过最佳匹配排序选项根据搜索结果的相关性进行排序[ 16]并提供一键过滤(例如,发表日期和文章类型)。这些用户行为和选项反映了用户对文献搜索的不同看法,而不是进行正式文献评论的用户所表达的观点[ 15].这可能是因为PubMed的用户还包括临床医生、卫生专业人员和其他决策者,他们搜索文献不是为了进行评论,而是考虑到其他类型的证据使用。

无论一个人的观点如何,任何文献搜索的有效性都取决于与搜索要告知的问题相关的语义可变性。当一个研究主题不断变化时,建立通用术语对于识别相关记录至关重要。2009年H1N1流感大流行前10周搜索PubMed的回顾性研究表明,在2009年大流行期间搜索科学文献时,疾病命名不一致和索引滞后增加了丢失相关研究的风险[ 17].该研究的作者建议,在大流行开始时,“国际科学界应就命名法和早期使用的具体名称达成一致,美国国家医学图书馆和其他数据库提供商应将其纳入所有相关文章的索引中”[ 17].关于COVID-19大流行,这种疾病的命名出现得相对较早。2020年2月11日,国际病毒分类委员会正式将新型冠状病毒命名为SARS-CoV-2,世界卫生组织将其命名为COVID-19 [ 18].然而,文章作者仍然使用其他几个术语来描述这种病毒和疾病,例如简单的“冠状病毒”,以及更早的“武汉冠状病毒”或“武汉病毒”。

在这项研究中,我们的目标是评估PubMed中不同搜索COVID-19记录的性能,并评估所需搜索的复杂性。因此,我们比较了PubMed在COVID-19大流行的前10周内,一键搜索选项与更简单和更复杂搜索字符串的性能。我们还检查了简单搜索中连字符、空格和引号的删除,以模仿潜在的用户错误或偏好,例如单词的不同拼写和只使用简单关键字搜索的倾向[ 19].最后,我们讨论了与上述搜索有效性的不同观点相关的搜索,并就NLM如何改进PubMed提出建议。

方法 通用方法

我们构建了一个全面的COVID-19搜索字符串,并将其与其他七个相关搜索字符串进行了比较( 表1).我们向PubMed查询了这些不同的搜索,并使用由NLM分支机构维护和管理的COVID-19数据库(LitCovid)作为金标准计算了它们的敏感性、准确性和F-score [ 20.].然后,我们使用这些计算值来比较不同搜索字符串的性能。

搜索字符串和不同搜索的翻译。

搜索标题 进入搜索 PubMed翻译
我们的综合搜索(搜索1) (“COVID-19”(nm)或“COVID-19诊断测试”(nm)或“COVID-19药物治疗”(nm)或“COVID-19血清疗法”(nm)或“COVID-19疫苗”(nm)或“严重急性呼吸系统综合症冠状病毒2”(nm)或2019 - ncov * (tiab)或2019 ncov * (tiab)或2019 -小说浸* [tiab]或冠状病毒(ti)或coronavirus-2 * * [tiab]或[tiab]或coronavirus-disease-19 corona-virus-disease-19 * [tiab]或coronavirus-disease-20 * * [tiab]或[tiab]或corona-virus-disease-20 COVID-19 * * [tiab]或[tiab]或covid19 covid-20 * [tiab]或covid20 * [tiab]或ncov - 2019 * * [tiab]或[tiab]或ncov2019 new-coronavirus [tiab]或new-corona-virus [tiab]或冠状[tiab]或novel-corona-virus [tiab]或sars-2 * [tiab]或sars2 * * [tiab]或[tiab]或sars-cov-19 sars-cov19 * [tiab]或sarscov19 * * [tiab]或[tiab]或sarscov-19 sars-cov-2 * [tiab]或sars-cov2 * * [tiab]或[tiab]或sarscov2 sarscov-2 * (tiab)或(“冠状病毒”(mh)或“冠状病毒感染”(mh)或betacoronavirus [tiab]或beta-coronavirus [tiab]或beta-corona-virus tiab或冠状病毒[tiab]或冠状病毒[tiab]或sars*[tiab]或严重急性呼吸道疾病*[tiab])和(2019[tiab]或2020[tiab]或武汉*[tiab]或湖北*[tiab]或中国*[tiab]或中国*[tiab]或爆发*[tiab]或流行病*[tiab]或大流行*[tiab])))和2019/12:3000[dp] 没有一个
Shokraneh的 21[商务英语综合查册(查册二) ((((((((((((((((((((((“冠状病毒”[补充概念]或“冠状病毒感染”[补充概念])或“冠状病毒”[补充概念])或“严重急性呼吸综合征冠状病毒2号”[补充概念])或“2019nCoV”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“COVID”[所有领域])或((“COVID-19”[补充概念])或((“COVID-19”[补充概念])或“COVID-19”[所有领域])或((“COVID-19”[补充概念])或((“COVID-19”[补充概念]或“covid -19”[所有领域]))或(((((((“covid -19”[所有领域]或“covid - 2019”[所有领域])或“严重急性呼吸综合征冠状病毒2号”[补充概念])或“严重急性呼吸综合征冠状病毒2号”[所有领域])或“2019 ncov”[所有领域])或“SARS CoV 2”[所有领域])或((“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域]))或((“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域]))和(2019/12/1:2019/12/31[日期-发表])或2020/1/1:2020/12/31[日期-发表]))))或“HCoV-19”[所有领域])或“nCoV”[所有领域])或“SARSCoV 2”[所有领域])或“SARS2”[所有领域])或“SARSCoV”[所有领域])或((((“SARS病毒”[MeSH术语]或(“SARS”[所有领域]和“病毒”[所有领域])或“SARS病毒”[所有领域])或(“SARS”[所有领域]和“CoV”[所有领域])或“SARSCoV”[所有领域])或((“严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]))或((“严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]))或((“严重急性呼吸综合征冠状病毒2号”[所有领域])OR“SARS CoV 2”[All Fields])) OR “severe acute respiratory syndrome cov*”[All Fields]) AND (2019/11/17:3000/12/31[Date - Entry] OR 2019/11/17:3000/12/31[Date - Publication]) 没有一个
一键搜索(搜索3) ((武汉[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域]))和2019/12[PDAT]: 2030[PDAT])或2019-nCoV[所有领域]或2019nCoV[所有领域]或COVID-19[所有领域]或SARS-CoV-2[所有领域] (((((“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域]))和2019/12/1:2030/12/31[日期-发表])或((“严重急性呼吸系统综合征冠状病毒2号”[补充概念]或“严重急性呼吸系统综合征冠状病毒2号”[所有领域])或“2019年ncov”[所有领域])或“2019年ncov”[所有领域])或(((((((“covid 19”[所有领域]或“covid 2019”[所有领域])或“严重急性呼吸系统综合征冠状病毒2号”[补充概念])或“严重急性呼吸系统综合征冠状病毒2号”[补充概念])或“严重急性呼吸系统综合征冠状病毒2号”[补充概念]syndrome coronavirus 2”[All Fields]) OR “2019 ncov”[All Fields]) OR “sars cov 2”[All Fields]) OR “2019nCoV”[All Fields]) OR ((“wuhan”[All Fields] AND (“coronavirus”[MeSH Terms] OR “coronavirus”[All Fields])) AND (2019/12/1:2019/12/31[Date - Publication] OR 2020/1/1:2020/12/31[Date - Publication])))) OR ((“severe acute respiratory syndrome coronavirus 2”[Supplementary Concept] OR “severe acute respiratory syndrome coronavirus 2”[All Fields]) OR “sars cov 2”[All Fields])
单词搜索COVID-19(搜索4) 新型冠状病毒肺炎 “COVID-19”[所有领域]或“COVID-2019”[所有领域]或“严重急性呼吸综合征2型冠状病毒”[补充概念]或“严重急性呼吸综合征2型冠状病毒”[所有领域]或“2019-nCoV”[所有领域]或“SARS-CoV-2”[所有领域]或“2019nCoV”[所有领域]或(“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域])和(2019/12[PDAT]或2020[PDAT]))
SARS-CoV-2单项搜索(5)搜索 SARS-CoV-2 “严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]或“sars冠状病毒2号”[所有领域]
冠状病毒单词搜索(搜索6) 冠状病毒 “冠状病毒”[MeSH术语]或“冠状病毒”[所有字段]或“冠状病毒”[所有字段]
武汉冠状病毒单词搜索(搜索7) “严重急性呼吸综合征冠状病毒2号”【补充概念】或“严重急性呼吸综合征冠状病毒2号”【所有领域】或“武汉冠状病毒”【所有领域】
武汉病毒单词搜索(搜索8) (“武汉”[所有字段]和((((((“病毒学”[所有字段]或“病毒学”[所有字段])或“病毒”[所有字段])或“病毒”[所有字段])或“病毒”[所有字段])或“病毒”[所有字段])
构造一个综合搜索字符串

一个全面的搜索字符串(搜索1)最初由ON、LNR和THA开发,用于监测新发表的与covid -19相关的研究,这是他们在丹麦糖尿病知识中心工作的一部分。随后,基于作者的学科知识、对自由文本词和PubReMiner中MeSH术语的分析,对搜索字符串进行了修改[ 22],并搜索由信息专家开发的公开可用的字符串(例如,由医学图书馆协会和不同的大学图书馆)。在达到最终版本之前,测试和重复了几个版本。 14].最后的搜索字符串然后由AP和JVL审查。

比较搜索字符串

除了搜索1,我们还进行了搜索2到8,其中包括Shokraneh开发的一个额外的综合搜索(搜索2)[ 21], NLM开发的一键式搜索选项(搜索3),以及用于在PubMed中搜索covid -19相关记录的五个常用术语(搜索4-8),以比较不同的综合搜索,并将综合搜索与简单的PubMed查询进行比较[ 21) ( 表1).PubMed中的自动术语映射功能将一些基本查询转换为更全面的搜索字符串,其中包括同义词和MeSH术语,如 表1.我们观察到COVID-19翻译似乎没有遵循自动术语映射的标准映射过程[ 23].

模拟历史每周搜索

我们从2020年3月11日到5月19日进行搜索,从世界卫生组织宣布COVID-19大流行开始,总共持续了10周,即70天。我们将搜索限制为在10周的每一周(每周的周三到周二)中只找到在PubMed中注册的记录。对于8次搜索中的每一次,我们使用记录进入PubMed数据库的日期(PubMed中的EDAT字段)记录并分析每周记录的数量。所有搜索均于2020年6月26日在当前标准版本的PubMed中进行。

搜索结果分析

我们比较了每个搜索的评价指标敏感性、精度和F-score。敏感度是衡量搜索效果的一个指标,定义为搜索(真阳性)比金标准数据集中所有相关记录(真阳性和假阴性)识别出的金标准数据集中相关记录的数量[ 24].敏感性也被称为回忆;然而,为了描述文献搜索的有效性,术语敏感性被广泛使用(例如,NLM在报告PubMed临床查询过滤器的有效性时)[ 24 25].精度是搜索效率的衡量标准,定义为搜索识别出的相关记录的数量(真阳性)除以识别出的记录的总数(真阳性和假阳性)。最后,F-score定义为灵敏度和精度的调和平均值( 表2).我们使用LitCovid数据库作为黄金标准,将PubMed搜索与[ 20.].该数据库仅包含来自PubMed的与covid -19相关的记录,并由NLM根据每日广泛的PubMed搜索进行管理。由于我们不知道哪些记录被民族解放运动认为不相关,我们也不知道真正否定的记录的数量。因此,不可能可靠地计算其他相关指标,例如所评估搜索字符串的特异性和准确性。为了计算评估指标,重新运行了搜索,将日期从2020年1月17日(LitCovid中任何记录的最早日期)限制到2020年5月19日(研究期结束)。在此期间,LitCovid数据库包含14,018条记录。

指标的描述和计算。

度规 描述 计算一个
灵敏度 在给定相关记录的情况下,搜索确定相关记录的概率;也被称为回忆。 T+D+/ (T+D++ T- - - - - -D+
精度 在记录被确定为相关的情况下,该记录是相关的概率;也称为阳性预测值(PPV)。需要读取的数字(NNR)也可以按1/precision计算。 T+D+/ (T+D++ T+D- - - - - -
f值 灵敏度和精度的谐波平均值。 2 ×灵敏度×精度/(灵敏度+精度)

一个我们用T表示+与LitCovid数据库相比,T- - - - - -与LitCovid数据库相比,D+在LitCovid数据库中与搜索字符串相比,D- - - - - -与搜索字符串相比,LitCovid数据库中不存在。

对删除或添加连字符、空格和引号的敏感性

拼写错误之前已经被证明会影响PubMed的结果[ 26].此外,PubMed的用户可能有不同的写作风格偏好,可以选择应用或省略连字符和空格。为了调查输入不同版本的搜索词COVID-19(搜索4)和SARS-CoV-2(搜索5)可能产生的影响,我们比较了省略连字符和/或空格后的结果(例如,COVID19, COVID-19, COVID-19)。我们还评估了用引号包围搜索词的影响,假设一些用户可能会这样做以运行高度特定的搜索(例如,“COVID-19”、“COVID-19”、“COVID-19”)。该术语的每个版本都记录了识别记录的数量。

medline索引记录的比例

为了调查在MEDLINE中索引记录时所做的索引的潜在用途(即,添加索引术语,如MeSH和补充概念),我们计算了截至2020年5月19日在LitCovid数据库中存在的记录总数中已被MEDLINE索引的记录的比例。这是通过两次查询PubMed来检索LitCovid数据库中的前9999个PubMed id,然后进行第二次查询来检索剩余的文章来实现的。然后,我们查看在检索到的记录总数中,有多少检索到的记录被标记为STAT - MEDLINE标记,指示记录在MEDLINE数据库中被索引的状态。

软件分析和再现性声明

所有分析都在R (Version 4.0.2;R Foundation for Statistical Computing)和数据在使用PubMed格式选项从PubMed下载时存储在文本文件中。所有用于重现此分析的搜索字符串、代码和数据都可用[ 27].

结果 概述

总的来说,在10周的研究期间,我们通过综合搜索(搜索1)找到了13599条记录。(参见方法)找到了最多的记录(n= 13880)。一键搜索(搜索3)和单词搜索COVID-19(搜索4)得到了相同的结果,记录数量排名第三(n= 13071)。接下来,单词搜索冠状病毒(冠状病毒)发现了9087条记录,是第五高的数字,单词搜索SARS-CoV-2(冠状病毒)发现了7012条记录,是第六高的数字。武汉冠状病毒搜索(搜索7)发现5412条记录,武汉病毒搜索(搜索8)发现1013条记录。每个搜索字符串的每周记录数显示在 图1

从2020年3月11日到5月19日的记录。搜索3,即一键搜索,在图中不可见,因为它与使用COVID-19的单词搜索的结果相匹配(搜索4)。

搜索字符串的求值

我们发现,与所有其他搜索相比,综合搜索(搜索1和2)具有最高的敏感性和f得分。对SARS-CoV-2(搜索5)和武汉冠状病毒(搜索7)的搜索精度最高( 表3).武汉病毒搜索(搜索8)的灵敏度和精度最低,但其他所有搜索的精度基本相同。我们的综合搜索(搜索1)和COVID-19的单词搜索(搜索4)之间的灵敏度差异为4.0%,这意味着在将两种搜索与1000个相关COVID-19记录的多个理论集进行比较时,每1000篇文章中平均有40个多余的相关记录被遗漏。如果将单项搜索COVID-19(搜索4)与Shokraneh对1000个相关COVID-19记录的多个理论集的综合搜索(搜索2)进行比较,这相当于平均漏掉了43个多余的相关记录。

与LitCovid黄金标准相比,不同字符串的度量。

记录(n) 灵敏度(%) 精度(%) f值(%)
搜索1:我们的综合搜索 13599年 98.4 94.6 96.5
搜索2:Shokraneh的综合搜索 13880年 98.7 92.7 95.7
查询3:一键式查询 13071年 94.4 95.3 94.8
搜索4:COVID-19 13071年 94.4 95.3 94.8
搜索5:SARS-CoV-2 7012 52.0 96.4 67.6
搜索6:冠状病毒 9087 67.2 93.4 78.3
搜索7:武汉冠状病毒 5412 40.8 96.4 57.3
搜索8:武汉病毒 1013 7.7 78.1 14.0
删除空格、连字符和添加引号的敏感性

我们观察到,自动术语映射对连字符和空格的删除很敏感,特别是SARS-CoV-2的变体( 表4).我们还发现,如果从搜索词中删除空格或连字符,例如COVID-19与COVID19(13,071对12,607),记录也会减少。此外,当添加引号(例如“COVID19”)时,结果数量下降到11716条记录。SARS-CoV-2术语再次比COVID-19术语对变化更敏感。

2020年7月5日在PubMed中对2020年5月19日起LitCovid数据集中的pmid进行验证时,在研究期间添加到LitCovid数据库的记录总数中,medline索引记录的比例为49.0%。

分析带有和不带有连字符、空格和引号的搜索。

术语 结果 翻译
新型冠状病毒肺炎 13071年 (“COVID-19”[所有领域]或“COVID-2019”[所有领域]或“严重急性呼吸综合征2型冠状病毒”[补充概念]或“严重急性呼吸综合征2型冠状病毒”[所有领域]或“2019-nCoV”[所有领域]或“SARS-CoV-2”[所有领域]或“2019nCoV”[所有领域]或(“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域]))
covid 19 13071年 (“COVID-19”[所有领域]或“COVID-2019”[所有领域]或“严重急性呼吸综合征2型冠状病毒”[补充概念]或“严重急性呼吸综合征2型冠状病毒”[所有领域]或“2019-nCoV”[所有领域]或“SARS-CoV-2”[所有领域]或“2019nCoV”[所有领域]或(“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域]))
covid19 12607年 “COVID-19”[补充概念]或“COVID-19”[所有字段]或“covid19”[所有字段]
“covid-19” 12548年 “covid-19”(所有字段)
“covid 19” 12548年 “新冠肺炎”[所有领域]
“covid19” 11716年 “covid19”(所有字段)
sars-cov-2 7055 “严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]或“sars冠状病毒2号”[所有领域]
SARS冠状病毒2 7055 “严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]或“sars冠状病毒2号”[所有领域]
冠2 7055 “严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]或“sars冠状病毒2号”[所有领域]
非典cov-2 7055 “严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]或“sars冠状病毒2号”[所有领域]
sarscov-2 17 sarscov-2(所有字段)
sarscov 2 3008 sarscov[所有字段]AND 2[所有字段]
sars-cov2 153 sars-cov2(所有字段)
非典cov2 219 sars[所有字段]AND cov2[所有字段]
sarscov2 3601 sarscov2(所有字段)
“sars-cov-2” 3587 “sars-cov-2”(所有字段)
“沙士冠状病毒2” 3587 "沙士冠状病毒2 "[所有田地]
“冠2” 3587 " sars-cov 2 "[所有领域]
“非典”cov-2 3587 “sars-cov-2”(所有字段)
“sarscov-2” 17 “sarscov-2”(所有字段)
“sarscov 2” 17 " sarscov 2 "[所有领域]
“sars-cov2” 153 “sars-cov2”(所有字段)
“非典”cov2 153 " sars cov2 "[所有领域]
“sarscov2” 3601 “sarscov2”(所有字段)
讨论

在这项研究中,我们评估了8个PubMed搜索,并检查了24个带有和不带有连字符、空格和引号的备选单词搜索之间的差异。我们发现,综合搜索字符串在敏感性和F-score方面表现最好,而一键式和单词COVID-19搜索在敏感性方面表现几乎与综合搜索一样好,在精度方面也与综合搜索一样好。单词COVID-19搜索的性能依赖于PubMed的词映射,该映射将单词搜索转换为更全面的搜索。相比之下,使用PubMed的自动词映射功能搜索SARS-CoV-2作为单个词时,搜索结果比使用COVID-19作为单个词时差。

使用涵盖COVID-19(疾病)和SARS-CoV-2(病毒)的LitCovid数据库作为金标准比较器,可能会使我们的结果偏向于COVID-19自动术语映射。这是因为映射将COVID-19的单词搜索翻译为与疾病和病毒相关的词汇,而将SARS-CoV-2的单词搜索翻译为仅与病毒相关而不与疾病相关的词汇。这种对偶映射确实有先例;PubMed的术语映射经常将疾病术语同时映射到病毒和疾病,而病毒术语通常只映射到病毒而不映射到疾病。

我们发现,这种新型冠状病毒的命名相对较早,尤其是世界卫生组织设定的“COVID-19”名称,似乎促进了在出版物中广泛使用COVID-19术语,以及PubMed中表现良好的自动术语映射。因此,本研究中提出的结果突出了自2009年H1N1流感大流行以来PubMed搜索的重要进展[ 17].通过NLM将术语COVID-19的映射扩展到通过评估我们分析中的两个综合搜索所阐明的术语,可以进一步改善这一进展。

分析是基于我们假设用户可能输入的简单搜索词的选择。PubMed用户可能会使用其他术语,如武汉肺炎或COVID-2019 [ 28].尽管如此,我们选择的词汇始终表明了全面搜索和不全面搜索之间的区别,无论是由用户构建还是通过PubMed的自动词汇映射。另一个限制是,在将记录添加到PubMed数据库后,MEDLINE索引发生在不同的时间点。根据搜索日期的不同,可能会产生不同的搜索结果。本研究中使用的所有搜索结果的日期已在适当的地方报告。最后,我们观察到一键搜索选项在进行分析后发生了变化。目前,一键搜索和COVID-19单字搜索是相同的。因此,这对我们的结果和结论的解释没有影响。

我们对连字符、空格和引号的敏感性分析也表明有改进的空间,特别是在使用SARS-CoV-2作为单个词进行搜索时。由于不同的写作风格偏好和错误是不可避免的(例如,连字符和空格的使用),自动术语映射可以通过对这一点敏感来改进,就像它对英式和美式拼写敏感一样[ 23].用引号包围搜索词会强制对输入的确切词进行全字段的词或短语搜索,并且不会激活自动词映射。与基于自动术语映射生成的搜索字符串的类似搜索相比,这可以显著减少搜索结果中潜在相关记录的数量。通过添加引号来关闭自动术语映射的功能并不需要改变,因为这是PubMed的一个功能。但是,PubMed用户需要意识到添加引号会降低敏感性。此外,敏感性分析应促使NLM考虑是否所有变体(如COVID19)都应激活与COVID-19相同的自动术语映射(搜索4)。

对PubMed用户和NLM的影响

尽管有些人比其他人更强调高敏感搜索字符串的重要性[ 15],如果认为识别某一特定主题的所有相关文章的能力只适用于那些进行全面、系统审查的人,那将是一种误导。通过使用来自一次点击选项的搜索字符串,进行快速审查的审查人员可以节省时间和资源,而不会严重影响灵敏度和准确性。PubMed的日常用户将需要指定一次点击搜索,以达到他们发现的可管理的和与他们的情况相关的记录数量。然而,PubMed中最佳匹配排序选项的有效性取决于搜索过程的敏感性。因此,识别所有相关记录的好处可以扩展到不全面的PubMed搜索。

尽管如此,那些旨在进行科克伦式系统评价的人会希望开发更全面的搜索字符串,而不是依赖于整合在一次点击选项中的字符串。在这里,PubMed为COVID-19和SARS-CoV-2实施的补充概念,如果正确并一致地应用于所有相关记录,可以帮助文献检索人员进行有效的搜索。然而,补充概念仅适用于在PubMed中可用的已在MEDLINE中索引的记录,这些记录占LitCovid中识别的总记录的49.0%。如上所述,一键式PubMed搜索得到的结果与COVID-19单词搜索得到的结果相同,尽管后者包括COVID-19和SARS-CoV-2的补充概念,这表明当搜索字符串足够全面时,它们不会增加价值。为了使补充概念对旨在在大流行期间进行全面审查的PubMed用户有价值,NLM必须加快索引与COVID-19相关的所有记录。

我们建议NLM使用高度敏感的综合搜索字符串来创建COVID-19主题过滤器(即COVID-19 [sb])或将其添加到他们的特殊查询集合[ 29 30.].这种过滤器或特殊查询中包含的搜索字符串甚至可以通过对COVID-19进行单词搜索的自动词映射来激活。如果使用本文测试的综合搜索字符串之一来创建主题过滤器,则应将其与其他金标准数据集进行测试以进行验证[ 31].未来的研究应该测试更全面的搜索字符串,以确定哪一个最适合搜索文献库。

此外,我们强调需要评估和验证多个主题(不仅仅是COVID-19)的搜索字符串,以开发更多的主题过滤器,这既可以帮助满足日常信息需求,也可以为进行系统审查提供灵感。即便如此,我们还是建议用户向信息专家、研究图书管理员或具有适当能力检索科学信息的研究人员咨询。

结论

科学证据必须易于获取,特别是在大流行期间。总体而言,我们发现,与2009年H1N1流感大流行期间的情况相比,PubMed进行了改进,改善了对covid -19相关文章的获取。重要的是,一些单词搜索表现良好。尽管如此,还可以做更多工作来支持用户搜索有关COVID-19的证据。具体来说,单个词COVID-19搜索的词映射可以改进为对连字符和空格的变化敏感,并且在使用PubMed搜索接口时,可以更容易地为即时应用程序提供高度敏感的综合搜索字符串。

总体而言,PubMed用户可以可靠地使用一键式或单词COVID-19搜索功能来满足关于COVID-19和SARS-CoV-2的日常信息需求。然而,当用户旨在系统地定位和筛选与COVID-19相关主题的全部可用文献时,特别是在进行系统回顾时,他们应该依赖于全面搜索。

缩写

医学学科标题

NLM

国家医学图书馆

世界卫生组织

JVL感谢西班牙科学、创新和大学部通过“Severo Ochoa 2019-2023卓越中心”(CEX2018-000806-S)对ISGlobal的支持,以及加泰罗尼亚政府通过CERCA计划的支持。资助者在这项工作中没有任何作用。

JVL和ON构想了这项研究。所有作者都参与了研究设计、数据解释和手稿起草。

JVL、AP和JN没有相互竞争的利益。ON、THA和LRN受雇于哥本哈根Steno糖尿病中心,这是丹麦首都地区的一家公立医院和研究机构,部分资金由诺和诺德基金会提供。资助者在这项工作中没有任何作用。

Sohrabi C Alsafi Z 奥尼尔 N Kerwan 一个 Al-Jabir 一个 Iosifidis C 大官 R 世界卫生组织宣布全球进入紧急状态:对2019年新型冠状病毒(COVID-19)的回顾 国际外科 2020 04 76 71 76 10.1016 / j.ijsu.2020.02.034 32112977 s1743 - 9191 (20) 30197 - 7 PMC7105032 Palayew 一个 Norgaard O Safreed-Harmon K 安徒生 TH 拉斯穆森 LN 拉撒路 合资企业 大流行流行病的出版对COVID-19提出了新的挑战 Nat Hum行为 2020 07 23 4 7 666 669 10.1038 / s41562 - 020 - 0911 - 0 32576981 10.1038 / s41562 - 020 - 0911 - 0 Islamaj多根 R 穆雷 GC Neveol Aurelie Z 通过日志分析了解PubMed用户的搜索行为 数据库(牛津) 2009 11 27 2009 bap018 bap018 10.1093 /数据库/ bap018 20157491 PMC2797455 Z PubMed及其他:用于搜索生物医学文献的网络工具的调查 数据库(牛津) 2011 2011 baq036 10.1093 /数据库/ baq036 21245076 baq036 PMC3025693 PubMed概述2020 国家医学图书馆 2020-11-19 https://pubmed.ncbi.nlm.nih.gov/about/ Falagas Pitsouni EI Malietzis 遗传算法 帕帕斯 G PubMed, Scopus, Web of Science和谷歌Scholar的比较:优缺点 美国实验生物学学会联合会J 2007 09 20. 22 2 338 342 10.1096 / fj.07 - 9492 lsf Pubmed主题过滤策略更新2019年 国家医学图书馆 2020-11-19 https://www.nlm.nih.gov/pubs/techbull/jf19/brief/jf19_pm_subject_filter_strategies_2019_update.html 国家医学图书馆 NCBI SARS-CoV-2资源 2020-11-19 https://www.ncbi.nlm.nih.gov/sars-cov-2 希金斯 J 托马斯。 J 钱德勒 J Cumpston T 页面 科克伦干预系统评价手册 2019 英国奇切斯特 John Wiley & Sons 布拉姆 WM Giustini D Kleijnen J 弗朗哥 仅使用主要描述符或标题和摘要字段搜索Embase和MEDLINE:一项前瞻性探索性研究 系统加速 2018 11 20. 7 1 200 10.1186 / s13643 - 018 - 0864 - 9 30458825 10.1186 / s13643 - 018 - 0864 - 9 PMC6247690 麦高文 J 桑普森 Salzwedel DM 科通 E 福斯特把 V Lefebvre C PRESS电子搜索策略同行评审:2015年指南声明 临床流行病学 2016 07 75 40 6 10.1016 / j.jclinepi.2016.01.021 27005575 s0895 - 4356 (16) 00058 - 5 库珀 C 展位 一个 Varley-Campbell J 布里顿 N 加赛德 R 定义系统综述中文献检索的过程:指导和支持研究的文献综述 BMC医学Res Methodol 2018 08 14 18 1 85 10.1186 / s12874 - 018 - 0545 - 3 30107788 10.1186 / s12874 - 018 - 0545 - 3 PMC6092796 展位 一个 打开你的文献搜索工具箱:搜索风格和策略 健康信息(图书馆 2008 12 25 4 313 7 10.1111 / j.1471-1842.2008.00825.x 19076679 HIR825 布拉姆 WM ·德容 GB Rethlefsen 毫升 桅杆 F Kleijnen J 系统的检索方法:一种高效、完整的文献检索方法 医学图书馆协会 2018 10 04 106 4 531 541 10.5195 / jmla.2018.283 30271302 jmla - 106 - 531 PMC6148622 库珀 C 加赛德 R Varley-Campbell J Talens-Bou J 展位 一个 布里顿 N “这对我没有意义。”研究者如何理解文献检索的有效性?理解的定性分析和初步类型学 Res合成方法 2020 09 11 5 627 640 10.1002 / jrsm.1426 32495989 不快 N Canese K Bryzgunov R Radetska Gindulyte 一个 Latterner 米勒 V Osipov Kholodov Starchenko G Kireev E Z PubMed实验室:一个改进生物医学文献搜索的实验系统 数据库(牛津) 2018 01 01 2018 一个 10.1093 /数据库/ bay094 30239682 5098624 PMC6152140 Norgaard O 拉撒路 合资企业 大流行期间搜索PubMed 《公共科学图书馆•综合》 2010 04 07 5 4 e10039 10.1371 / journal.pone.0010039 20383330 PMC2850925 世界卫生组织 命名冠状病毒疾病(COVID-19)和引起该疾病的病毒 2020-11-19 -and-the-virus-that-causes-it https://www.who.int/emergencies/diseases/novel-coronavirus-2019/technical-guidance/naming-the-coronavirus-disease- (covid - 2019) 代伊 一个 Soleymani 先生 Ashrafi-Rizi H Zargham-Boroujeni 一个 Kelishadi R 医生临床信息寻求行为的系统综述 国际医学杂志 2020 07 139 104144 10.1016 / j.ijmedinf.2020.104144 32334400 s1386 - 5056 (19) 30187 - x 分配 一个 Z 关注最新的冠状病毒研究 自然 2020 03 10 579 7798 193 193 10.1038 / d41586 - 020 - 00694 - 1 32157233 10.1038 / d41586 - 020 - 00694 - 1 Shokraneh F 跟上covid-19研究:系统搜索策略和资源 BMJ 2020 04 23 369 m1601 10.1136 / bmj.m1601 32327431 哈吉金森 Pubmed PubReMiner 2020-11-19 https://hgserver2.amc.nl/cgi-bin/miner/miner2.cgi PubMed如何工作:自动术语映射 国家医学图书馆 2020-11-19 https://pubmed.ncbi.nlm.nih.gov/help/#automatic-term-mapping 库珀 C Varley-Campbell J 展位 一个 布里顿 N 加赛德 R 系统综述确定了评估文献搜索效果的六个指标和一种方法,但对适当使用没有共识 临床流行病学 2018 07 99 53 63 10.1016 / j.jclinepi.2018.02.025 29526555 s0895 - 4356 (17) 31331 - 8 国家医学图书馆 PubMed用户指南-临床查询 2020-11-19 https://pubmed.ncbi.nlm.nih.gov/help/#clinical-queries 威尔伯 WJ W N PubMed搜索引擎中的拼写更正 Inf Retr波士顿 2006 11 1 9 5 543 564 10.1007 / s10791 - 006 - 9002 - 8 18080004 PMC2137159 为本文搜索字符串、代码和数据 2020-11-19 https://osf.io/dae7j/ Shokraneh F Russell-Rose T 2019冠状病毒病对未来证据合成工作的教训:第一活搜索战略和过时的科学出版和索引行业(已提交) 临床流行病学 2020 07 123 171 173 10.1016 / j.jclinepi.2020.04.014 32376119 s0895 - 4356 (20) 30345 - 0 PMC7184009 PubMed主题过滤器 国家医学图书馆 2020-11-19 https://www.nlm.nih.gov/bsd/pubmed_subsets.html PubMed特殊查询 国家医学图书馆 2020-11-19 https://www.nlm.nih.gov/psd/special_queries.html Tummers 范Hoorn R 高杠杆率 C 展位 一个 范德威尔特 GJ Kievit W 在PubMed中识别治疗效果的调节因子和预测因子的最佳搜索策略 健康信息(图书馆 2019 12 13 36 4 318 340 10.1111 / hir.12230 30006959
Baidu
map