这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
自2020年3月11日宣布全球大流行以来,COVID-19一直占据着世界各地的头条新闻,研究人员撰写了数千篇关于这种疾病的科学文章。快速的出版速度给研究人员和其他利益相关者带来了挑战,他们要跟上发表文章的数量。为了有效地搜索文献,研究人员使用PubMed等数据库。
本研究的目的是评估PubMed中对COVID-19记录的不同搜索的性能,并评估所需搜索的复杂性。
我们测试了PubMed对COVID-19的搜索,以根据标准指标(敏感性、准确性和F-score)确定哪个搜索字符串表现最佳。我们在COVID-19大流行的前10周评估了PubMed中8种不同搜索的性能,以调查搜索字符串的复杂程度。我们还测试了省略连字符和空格字符以及应用引号。
将几个自由文本和索引搜索词组合在一起的两个最全面的搜索字符串在灵敏度(98.4%/98.7%)和F-score(96.5%/95.7%)方面表现最好,但单词搜索COVID-19在精度(95.3%)方面表现最好,在灵敏度(94.4%)和F-score(94.8%)方面表现良好。“武汉病毒”一词表现最差:敏感度为7.7%,精确度为78.1%,f得分为14.0%。我们发现,删除连字符或空格字符可能会遗漏大量记录,特别是在使用SARS-CoV-2作为单个术语进行搜索时。
在PubMed中,结合自由文本和索引搜索词的综合搜索字符串比单词搜索表现更好,但与单词COVID-19相比,差距并不大。对于日常搜索,正确输入的某些单词搜索可能就足够了,而更全面的搜索应该用于系统的审查。尽管如此,我们建议美国国家医学图书馆可以采取额外的措施,以支持所有PubMed用户搜索COVID-19文献。
自2020年3月11日宣布全球大流行以来,COVID-19占据了世界各地的头条新闻,并产生了数千篇科学文章[
PubMed是许多临床医生和研究人员的首选数据库,因为它易于使用,声誉好,大量索引期刊和免费访问[
最近的一项调查显示,系统综述的作者对“有效”文献检索的构成有不同的看法[
无论一个人的观点如何,任何文献搜索的有效性都取决于与搜索要告知的问题相关的语义可变性。当一个研究主题不断变化时,建立通用术语对于识别相关记录至关重要。2009年H1N1流感大流行前10周搜索PubMed的回顾性研究表明,在2009年大流行期间搜索科学文献时,疾病命名不一致和索引滞后增加了丢失相关研究的风险[
在这项研究中,我们的目标是评估PubMed中不同搜索COVID-19记录的性能,并评估所需搜索的复杂性。因此,我们比较了PubMed在COVID-19大流行的前10周内,一键搜索选项与更简单和更复杂搜索字符串的性能。我们还检查了简单搜索中连字符、空格和引号的删除,以模仿潜在的用户错误或偏好,例如单词的不同拼写和只使用简单关键字搜索的倾向[
我们构建了一个全面的COVID-19搜索字符串,并将其与其他七个相关搜索字符串进行了比较(
搜索字符串和不同搜索的翻译。
搜索标题 | 进入搜索 | PubMed翻译 |
我们的综合搜索(搜索1) | (“COVID-19”(nm)或“COVID-19诊断测试”(nm)或“COVID-19药物治疗”(nm)或“COVID-19血清疗法”(nm)或“COVID-19疫苗”(nm)或“严重急性呼吸系统综合症冠状病毒2”(nm)或2019 - ncov * (tiab)或2019 ncov * (tiab)或2019 -小说浸* [tiab]或冠状病毒(ti)或coronavirus-2 * * [tiab]或[tiab]或coronavirus-disease-19 corona-virus-disease-19 * [tiab]或coronavirus-disease-20 * * [tiab]或[tiab]或corona-virus-disease-20 COVID-19 * * [tiab]或[tiab]或covid19 covid-20 * [tiab]或covid20 * [tiab]或ncov - 2019 * * [tiab]或[tiab]或ncov2019 new-coronavirus [tiab]或new-corona-virus [tiab]或冠状[tiab]或novel-corona-virus [tiab]或sars-2 * [tiab]或sars2 * * [tiab]或[tiab]或sars-cov-19 sars-cov19 * [tiab]或sarscov19 * * [tiab]或[tiab]或sarscov-19 sars-cov-2 * [tiab]或sars-cov2 * * [tiab]或[tiab]或sarscov2 sarscov-2 * (tiab)或(“冠状病毒”(mh)或“冠状病毒感染”(mh)或betacoronavirus [tiab]或beta-coronavirus [tiab]或beta-corona-virus tiab或冠状病毒[tiab]或冠状病毒[tiab]或sars*[tiab]或严重急性呼吸道疾病*[tiab])和(2019[tiab]或2020[tiab]或武汉*[tiab]或湖北*[tiab]或中国*[tiab]或中国*[tiab]或爆发*[tiab]或流行病*[tiab]或大流行*[tiab])))和2019/12:3000[dp] | 没有一个 |
Shokraneh的 |
((((((((((((((((((((((“冠状病毒”[补充概念]或“冠状病毒感染”[补充概念])或“冠状病毒”[补充概念])或“严重急性呼吸综合征冠状病毒2号”[补充概念])或“2019nCoV”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“冠状病毒*”[所有领域])或“COVID”[所有领域])或((“COVID-19”[补充概念])或((“COVID-19”[补充概念])或“COVID-19”[所有领域])或((“COVID-19”[补充概念])或((“COVID-19”[补充概念]或“covid -19”[所有领域]))或(((((((“covid -19”[所有领域]或“covid - 2019”[所有领域])或“严重急性呼吸综合征冠状病毒2号”[补充概念])或“严重急性呼吸综合征冠状病毒2号”[所有领域])或“2019 ncov”[所有领域])或“SARS CoV 2”[所有领域])或((“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域]))或((“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域]))和(2019/12/1:2019/12/31[日期-发表])或2020/1/1:2020/12/31[日期-发表]))))或“HCoV-19”[所有领域])或“nCoV”[所有领域])或“SARSCoV 2”[所有领域])或“SARS2”[所有领域])或“SARSCoV”[所有领域])或((((“SARS病毒”[MeSH术语]或(“SARS”[所有领域]和“病毒”[所有领域])或“SARS病毒”[所有领域])或(“SARS”[所有领域]和“CoV”[所有领域])或“SARSCoV”[所有领域])或((“严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]))或((“严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]))或((“严重急性呼吸综合征冠状病毒2号”[所有领域])OR“SARS CoV 2”[All Fields])) OR “severe acute respiratory syndrome cov*”[All Fields]) AND (2019/11/17:3000/12/31[Date - Entry] OR 2019/11/17:3000/12/31[Date - Publication]) | 没有一个 |
一键搜索(搜索3) | ((武汉[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域]))和2019/12[PDAT]: 2030[PDAT])或2019-nCoV[所有领域]或2019nCoV[所有领域]或COVID-19[所有领域]或SARS-CoV-2[所有领域] | (((((“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域]))和2019/12/1:2030/12/31[日期-发表])或((“严重急性呼吸系统综合征冠状病毒2号”[补充概念]或“严重急性呼吸系统综合征冠状病毒2号”[所有领域])或“2019年ncov”[所有领域])或“2019年ncov”[所有领域])或(((((((“covid 19”[所有领域]或“covid 2019”[所有领域])或“严重急性呼吸系统综合征冠状病毒2号”[补充概念])或“严重急性呼吸系统综合征冠状病毒2号”[补充概念])或“严重急性呼吸系统综合征冠状病毒2号”[补充概念]syndrome coronavirus 2”[All Fields]) OR “2019 ncov”[All Fields]) OR “sars cov 2”[All Fields]) OR “2019nCoV”[All Fields]) OR ((“wuhan”[All Fields] AND (“coronavirus”[MeSH Terms] OR “coronavirus”[All Fields])) AND (2019/12/1:2019/12/31[Date - Publication] OR 2020/1/1:2020/12/31[Date - Publication])))) OR ((“severe acute respiratory syndrome coronavirus 2”[Supplementary Concept] OR “severe acute respiratory syndrome coronavirus 2”[All Fields]) OR “sars cov 2”[All Fields]) |
单词搜索COVID-19(搜索4) | 新型冠状病毒肺炎 | “COVID-19”[所有领域]或“COVID-2019”[所有领域]或“严重急性呼吸综合征2型冠状病毒”[补充概念]或“严重急性呼吸综合征2型冠状病毒”[所有领域]或“2019-nCoV”[所有领域]或“SARS-CoV-2”[所有领域]或“2019nCoV”[所有领域]或(“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域])和(2019/12[PDAT]或2020[PDAT])) |
SARS-CoV-2单项搜索 |
SARS-CoV-2 | “严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]或“sars冠状病毒2号”[所有领域] |
冠状病毒单词搜索(搜索6) | 冠状病毒 | “冠状病毒”[MeSH术语]或“冠状病毒”[所有字段]或“冠状病毒”[所有字段] |
武汉冠状病毒单词搜索(搜索7) | “严重急性呼吸综合征冠状病毒2号”【补充概念】或“严重急性呼吸综合征冠状病毒2号”【所有领域】或“武汉冠状病毒”【所有领域】 | |
武汉病毒单词搜索(搜索8) | (“武汉”[所有字段]和((((((“病毒学”[所有字段]或“病毒学”[所有字段])或“病毒”[所有字段])或“病毒”[所有字段])或“病毒”[所有字段])或“病毒”[所有字段]) |
一个全面的搜索字符串(搜索1)最初由ON、LNR和THA开发,用于监测新发表的与covid -19相关的研究,这是他们在丹麦糖尿病知识中心工作的一部分。随后,基于作者的学科知识、对自由文本词和PubReMiner中MeSH术语的分析,对搜索字符串进行了修改[
除了搜索1,我们还进行了搜索2到8,其中包括Shokraneh开发的一个额外的综合搜索(搜索2)[
我们从2020年3月11日到5月19日进行搜索,从世界卫生组织宣布COVID-19大流行开始,总共持续了10周,即70天。我们将搜索限制为在10周的每一周(每周的周三到周二)中只找到在PubMed中注册的记录。对于8次搜索中的每一次,我们使用记录进入PubMed数据库的日期(PubMed中的EDAT字段)记录并分析每周记录的数量。所有搜索均于2020年6月26日在当前标准版本的PubMed中进行。
我们比较了每个搜索的评价指标敏感性、精度和F-score。敏感度是衡量搜索效果的一个指标,定义为搜索(真阳性)比金标准数据集中所有相关记录(真阳性和假阴性)识别出的金标准数据集中相关记录的数量[
指标的描述和计算。
度规 | 描述 | 计算一个 |
灵敏度 | 在给定相关记录的情况下,搜索确定相关记录的概率;也被称为回忆。 | T+D+/ (T+D++ T- - - - - -D+) |
精度 | 在记录被确定为相关的情况下,该记录是相关的概率;也称为阳性预测值(PPV)。需要读取的数字(NNR)也可以按1/precision计算。 | T+D+/ (T+D++ T+D- - - - - -) |
f值 | 灵敏度和精度的谐波平均值。 | 2 ×灵敏度×精度/(灵敏度+精度) |
一个我们用T表示+与LitCovid数据库相比,T- - - - - -与LitCovid数据库相比,D+在LitCovid数据库中与搜索字符串相比,D- - - - - -与搜索字符串相比,LitCovid数据库中不存在。
拼写错误之前已经被证明会影响PubMed的结果[
为了调查在MEDLINE中索引记录时所做的索引的潜在用途(即,添加索引术语,如MeSH和补充概念),我们计算了截至2020年5月19日在LitCovid数据库中存在的记录总数中已被MEDLINE索引的记录的比例。这是通过两次查询PubMed来检索LitCovid数据库中的前9999个PubMed id,然后进行第二次查询来检索剩余的文章来实现的。然后,我们查看在检索到的记录总数中,有多少检索到的记录被标记为STAT - MEDLINE标记,指示记录在MEDLINE数据库中被索引的状态。
所有分析都在R (Version 4.0.2;R Foundation for Statistical Computing)和数据在使用PubMed格式选项从PubMed下载时存储在文本文件中。所有用于重现此分析的搜索字符串、代码和数据都可用[
总的来说,在10周的研究期间,我们通过综合搜索(搜索1)找到了13599条记录。(参见方法)找到了最多的记录(n= 13880)。一键搜索(搜索3)和单词搜索COVID-19(搜索4)得到了相同的结果,记录数量排名第三(n= 13071)。接下来,单词搜索冠状病毒(冠状病毒)发现了9087条记录,是第五高的数字,单词搜索SARS-CoV-2(冠状病毒)发现了7012条记录,是第六高的数字。武汉冠状病毒搜索(搜索7)发现5412条记录,武汉病毒搜索(搜索8)发现1013条记录。每个搜索字符串的每周记录数显示在
从2020年3月11日到5月19日的记录。搜索3,即一键搜索,在图中不可见,因为它与使用COVID-19的单词搜索的结果相匹配(搜索4)。
我们发现,与所有其他搜索相比,综合搜索(搜索1和2)具有最高的敏感性和f得分。对SARS-CoV-2(搜索5)和武汉冠状病毒(搜索7)的搜索精度最高(
与LitCovid黄金标准相比,不同字符串的度量。
|
记录(n) | 灵敏度(%) | 精度(%) | f值(%) |
搜索1:我们的综合搜索 | 13599年 | 98.4 | 94.6 | 96.5 |
搜索2:Shokraneh的综合搜索 | 13880年 | 98.7 | 92.7 | 95.7 |
查询3:一键式查询 | 13071年 | 94.4 | 95.3 | 94.8 |
搜索4:COVID-19 | 13071年 | 94.4 | 95.3 | 94.8 |
搜索5:SARS-CoV-2 | 7012 | 52.0 | 96.4 | 67.6 |
搜索6:冠状病毒 | 9087 | 67.2 | 93.4 | 78.3 |
搜索7:武汉冠状病毒 | 5412 | 40.8 | 96.4 | 57.3 |
搜索8:武汉病毒 | 1013 | 7.7 | 78.1 | 14.0 |
我们观察到,自动术语映射对连字符和空格的删除很敏感,特别是SARS-CoV-2的变体(
2020年7月5日在PubMed中对2020年5月19日起LitCovid数据集中的pmid进行验证时,在研究期间添加到LitCovid数据库的记录总数中,medline索引记录的比例为49.0%。
分析带有和不带有连字符、空格和引号的搜索。
术语 | 结果 | 翻译 |
新型冠状病毒肺炎 | 13071年 | (“COVID-19”[所有领域]或“COVID-2019”[所有领域]或“严重急性呼吸综合征2型冠状病毒”[补充概念]或“严重急性呼吸综合征2型冠状病毒”[所有领域]或“2019-nCoV”[所有领域]或“SARS-CoV-2”[所有领域]或“2019nCoV”[所有领域]或(“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域])) |
covid 19 | 13071年 | (“COVID-19”[所有领域]或“COVID-2019”[所有领域]或“严重急性呼吸综合征2型冠状病毒”[补充概念]或“严重急性呼吸综合征2型冠状病毒”[所有领域]或“2019-nCoV”[所有领域]或“SARS-CoV-2”[所有领域]或“2019nCoV”[所有领域]或(“武汉”[所有领域]和(“冠状病毒”[MeSH术语]或“冠状病毒”[所有领域])) |
covid19 | 12607年 | “COVID-19”[补充概念]或“COVID-19”[所有字段]或“covid19”[所有字段] |
“covid-19” | 12548年 | “covid-19”(所有字段) |
“covid 19” | 12548年 | “新冠肺炎”[所有领域] |
“covid19” | 11716年 | “covid19”(所有字段) |
sars-cov-2 | 7055 | “严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]或“sars冠状病毒2号”[所有领域] |
SARS冠状病毒2 | 7055 | “严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]或“sars冠状病毒2号”[所有领域] |
冠2 | 7055 | “严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]或“sars冠状病毒2号”[所有领域] |
非典cov-2 | 7055 | “严重急性呼吸综合征冠状病毒2号”[补充概念]或“严重急性呼吸综合征冠状病毒2号”[所有领域]或“sars冠状病毒2号”[所有领域] |
sarscov-2 | 17 | sarscov-2(所有字段) |
sarscov 2 | 3008 | sarscov[所有字段]AND 2[所有字段] |
sars-cov2 | 153 | sars-cov2(所有字段) |
非典cov2 | 219 | sars[所有字段]AND cov2[所有字段] |
sarscov2 | 3601 | sarscov2(所有字段) |
“sars-cov-2” | 3587 | “sars-cov-2”(所有字段) |
“沙士冠状病毒2” | 3587 | "沙士冠状病毒2 "[所有田地] |
“冠2” | 3587 | " sars-cov 2 "[所有领域] |
“非典”cov-2 | 3587 | “sars-cov-2”(所有字段) |
“sarscov-2” | 17 | “sarscov-2”(所有字段) |
“sarscov 2” | 17 | " sarscov 2 "[所有领域] |
“sars-cov2” | 153 | “sars-cov2”(所有字段) |
“非典”cov2 | 153 | " sars cov2 "[所有领域] |
“sarscov2” | 3601 | “sarscov2”(所有字段) |
在这项研究中,我们评估了8个PubMed搜索,并检查了24个带有和不带有连字符、空格和引号的备选单词搜索之间的差异。我们发现,综合搜索字符串在敏感性和F-score方面表现最好,而一键式和单词COVID-19搜索在敏感性方面表现几乎与综合搜索一样好,在精度方面也与综合搜索一样好。单词COVID-19搜索的性能依赖于PubMed的词映射,该映射将单词搜索转换为更全面的搜索。相比之下,使用PubMed的自动词映射功能搜索SARS-CoV-2作为单个词时,搜索结果比使用COVID-19作为单个词时差。
使用涵盖COVID-19(疾病)和SARS-CoV-2(病毒)的LitCovid数据库作为金标准比较器,可能会使我们的结果偏向于COVID-19自动术语映射。这是因为映射将COVID-19的单词搜索翻译为与疾病和病毒相关的词汇,而将SARS-CoV-2的单词搜索翻译为仅与病毒相关而不与疾病相关的词汇。这种对偶映射确实有先例;PubMed的术语映射经常将疾病术语同时映射到病毒和疾病,而病毒术语通常只映射到病毒而不映射到疾病。
我们发现,这种新型冠状病毒的命名相对较早,尤其是世界卫生组织设定的“COVID-19”名称,似乎促进了在出版物中广泛使用COVID-19术语,以及PubMed中表现良好的自动术语映射。因此,本研究中提出的结果突出了自2009年H1N1流感大流行以来PubMed搜索的重要进展[
分析是基于我们假设用户可能输入的简单搜索词的选择。PubMed用户可能会使用其他术语,如武汉肺炎或COVID-2019 [
我们对连字符、空格和引号的敏感性分析也表明有改进的空间,特别是在使用SARS-CoV-2作为单个词进行搜索时。由于不同的写作风格偏好和错误是不可避免的(例如,连字符和空格的使用),自动术语映射可以通过对这一点敏感来改进,就像它对英式和美式拼写敏感一样[
尽管有些人比其他人更强调高敏感搜索字符串的重要性[
尽管如此,那些旨在进行科克伦式系统评价的人会希望开发更全面的搜索字符串,而不是依赖于整合在一次点击选项中的字符串。在这里,PubMed为COVID-19和SARS-CoV-2实施的补充概念,如果正确并一致地应用于所有相关记录,可以帮助文献检索人员进行有效的搜索。然而,补充概念仅适用于在PubMed中可用的已在MEDLINE中索引的记录,这些记录占LitCovid中识别的总记录的49.0%。如上所述,一键式PubMed搜索得到的结果与COVID-19单词搜索得到的结果相同,尽管后者包括COVID-19和SARS-CoV-2的补充概念,这表明当搜索字符串足够全面时,它们不会增加价值。为了使补充概念对旨在在大流行期间进行全面审查的PubMed用户有价值,NLM必须加快索引与COVID-19相关的所有记录。
我们建议NLM使用高度敏感的综合搜索字符串来创建COVID-19主题过滤器(即COVID-19 [sb])或将其添加到他们的特殊查询集合[
此外,我们强调需要评估和验证多个主题(不仅仅是COVID-19)的搜索字符串,以开发更多的主题过滤器,这既可以帮助满足日常信息需求,也可以为进行系统审查提供灵感。即便如此,我们还是建议用户向信息专家、研究图书管理员或具有适当能力检索科学信息的研究人员咨询。
科学证据必须易于获取,特别是在大流行期间。总体而言,我们发现,与2009年H1N1流感大流行期间的情况相比,PubMed进行了改进,改善了对covid -19相关文章的获取。重要的是,一些单词搜索表现良好。尽管如此,还可以做更多工作来支持用户搜索有关COVID-19的证据。具体来说,单个词COVID-19搜索的词映射可以改进为对连字符和空格的变化敏感,并且在使用PubMed搜索接口时,可以更容易地为即时应用程序提供高度敏感的综合搜索字符串。
总体而言,PubMed用户可以可靠地使用一键式或单词COVID-19搜索功能来满足关于COVID-19和SARS-CoV-2的日常信息需求。然而,当用户旨在系统地定位和筛选与COVID-19相关主题的全部可用文献时,特别是在进行系统回顾时,他们应该依赖于全面搜索。
医学学科标题
国家医学图书馆
世界卫生组织
JVL感谢西班牙科学、创新和大学部通过“Severo Ochoa 2019-2023卓越中心”(CEX2018-000806-S)对ISGlobal的支持,以及加泰罗尼亚政府通过CERCA计划的支持。资助者在这项工作中没有任何作用。
JVL和ON构想了这项研究。所有作者都参与了研究设计、数据解释和手稿起草。
JVL、AP和JN没有相互竞争的利益。ON、THA和LRN受雇于哥本哈根Steno糖尿病中心,这是丹麦首都地区的一家公立医院和研究机构,部分资金由诺和诺德基金会提供。资助者在这项工作中没有任何作用。