发表在24卷10号(2022): 10月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/40011,首次出版
追踪2020年1月- 2021年3月COVID-19出版物的开放性和主题演变:综合文献计量学和主题建模分析

追踪2020年1月- 2021年3月COVID-19出版物的开放性和主题演变:综合文献计量学和主题建模分析

追踪2020年1月- 2021年3月COVID-19出版物的开放性和主题演变:综合文献计量学和主题建模分析

审查

1西班牙圣Sebastián Biodonostia卫生研究所创新部门

2马德里卡洛斯三世大学图书馆与信息科学系,赫塔菲,西班牙

3.马德里康普顿斯大学图书馆与信息科学系,西班牙马德里

通讯作者:

Olatz Arrizabalaga,理学学士,医学博士

创新单位

Biodonostia健康研究所

Paseo Dr Beguiristain s/n

20014

圣塞巴斯蒂安

西班牙

联系电话:34 943006001

电子邮件:olatz.arrizabalaga@biodonostia.org


背景:COVID-19疫情凸显了快速获取研究成果的重要性。

摘要目的:本研究的目的是调查与COVID-19相关的研究交流、论文的开放水平以及对该疾病的主要研究主题。

方法:从大流行开始(2020年1月1日)到大范围封锁一年结束(2021年3月1日),分析了开放获取(OA)的吸收(类型、许可证使用)和出版物的主题演变。

结果:样本包括95605份出版物;94.1%以OA形式发布,其中44%以Bronze OA形式发布。在这些OA出版物中,42%没有许可证,这可能会限制引用的数量,从而影响。使用主题建模方法,我们发现混合OA和绿色OA出版物中的文章更关注患者及其影响,而不同国家采取的抗击大流行战略是通过黄金OA路径选择出版的文章的主要主题。

结论:尽管OA科学生产有所增加,但OA实践中的一些弱点,如缺乏许可或研究课题不足,仍然阻碍了其在进一步研究中的有效使用。

中国医学杂志,2018;24(10):e40011

doi: 10.2196/40011

关键字



背景

2020年1月30日,世界卫生组织宣布COVID-19疫情为“国际关注的突发公共卫生事件”,并于2020年3月11日宣布大流行,当时病毒已在154个国家感染了15万多人[1-3.].一年后(2021年3月),全球受感染人数达到380万[4].

科学界正面临最大的研究挑战之一:快速制定COVID-19大流行的解决方案。这种特殊情况需要集体的科学努力,这反映在每天发表的数百份科学文件和资源中(从文章和评论到临床指南或方案和数据)。我们可能正在目睹科学资源有史以来最大规模的集中,专门用于解决一个共同的问题。5].出版系统和传统科学传播的不同组成部分(期刊、数据库和资料库)的有效性对于开展医学研究以及关于这种新型冠状病毒的其他类型的研究重点(即经济、教育、心理)至关重要,例如描述危险因素、临床特征和治疗策略,包括疫苗[6].

大流行期间,研究主题也发生了迅速变化,侧重于不同的感兴趣领域(图1): COVID-19和治疗(绿色聚类)、高危人群(浅蓝色聚类)、大流行对心理健康的影响和社交距离的影响(红色聚类)、公共卫生(紫色聚类)以及冠状病毒术语或家庭(黄色聚类)。

我们采用了元研究方法来调查关于这种疾病的学术交流,特别关注开放获取(OA)的吸收,以及不同OA出版场所关于COVID-19主题的演变。

图1。在被引用的SARS cov -2相关出版物中,至少200篇出版物中50个最常见关键词的共现图(数据提取自PubMed: 2020年1月1日至2021年3月1日)。使用VOSviewer创建的图像[7].
查看此图

学术出版制度的变化

COVID-19挑战了科学家克服“正常”学术交流的步伐。当前系统从大流行开始就面临着两方面的主要反对意见:默认关闭的科学和文章过载,在大流行开始时,PubMed估计每周有1000篇与covid -19相关的论文[5].因此,全球卫生危机很容易被认为是信息危机或"信息大流行" [89].

在大流行期间,为尽快向公众提供COVID-19研究,开展了大量工作。2020年1月31日,威康基金会呼吁研究人员、资助者和期刊共享数据,并立即提供研究结果,为公共卫生应对此次疫情提供信息[10].本声明的签署人包括相关出版商(Elsevier, Wiley,施普林格,Taylor和Francis等)。大型科学杂志也紧随其后,特别是生物医学杂志(如,美国医学会杂志,英国医学杂志[BMJ],科学牛津,剑桥,或者新英格兰医学杂志) [5,至少暂时如此。然而,出版商并不总是解放他们的版权许可,对于那些已经解放的人来说,这主要是一种例外的做法,而不是政策的变化。

学术出版制度面临新的压力和机遇[11].Horbach [12他们分析了669篇文章,发现医学期刊加速了它们的发表过程(例如,从提交到发表的时间平均缩短了49%)。然而,一些研究显示了不利影响的证据,包括掠夺性期刊在大流行期间的不道德行为、期刊质量标准的降低或偏见(例如,大多数科学产出来自西方国家或仅用英语出版,损害了可能对该主题有相关见解的当地社区的利益)[12-14].

最新技术和以前的文献计量学研究

使用文献计量学技术概述了COVID-19的研究。对COVID-19出版物不同数据源的覆盖率进行了分析[15-17],使用替代指标(即Wikipedia和Mendeley) [1819],分析合作的成效及影响[20.21]、性别差异[22],话题演变[1623],疫情期间的学术交流流动[2425],以及这些研究成果的OA [515].

尽管正在出版大量科学出版物(在2020年1月至2021年4月期间,Dimensions数据库发表了15万篇同行评议的COVID-19产出,在此期间发布了4万篇COVID-19预印本),但OA出版物的比例与数据库有所不同,Dimensions的比例为72.81%,PubMed的比例为88.8% [5111526].大多数OA出版物遵循“青铜”路线,主要是未经许可发表的(占PubMed大流行早期记录的所有OA论文的76.4%)[15].然而,大多数文献计量学研究和OA分析都是在大流行的早期阶段进行的。

正如Colavizza等人所指出的[16],大流行研究的早期阶段以冠状病毒爆发的主题为主。然而,通过分析PubMed中使用医学主题标题(MeSH)术语的27,370篇主题出版物,Wang和Hong [23流行病学和公共卫生干预措施得到了最高的关注。在这些类别中,最受欢迎的主题是COVID-19的预防和控制,而其他主题则不太受欢迎,如药物治疗。然而,人们对OA类型学或许可证的差异知之甚少,这可能有助于研究人员和科学政策制定者了解和指导COVID-19的研究现状。

因此,本研究的目的是调查关于该疾病的研究交流,论文的开放程度,以及研究的主要主题。我们还受到以下研究问题的指导:紧急情况对学术交流有什么影响?OA出版模式如何影响引用率?适当许可证的存在对已发表论文的引用有什么影响?在大流行期间,出版物中涉及的主题是如何演变的?OA出版模式对所分析的主题有影响吗?


资料来源及搜寻策略

在这项研究中,使用不同的数据库和工具收集和分析与covid -19相关的出版物、关于OA的相关信息(类型学和许可证)以及所涵盖的主要主题(图2).选择的平台是PubMed、Lens、Microsoft academia和Unpaywall,它们共同覆盖了很大一部分免费生物医学出版物。在这项研究中,我们选择了PubMed,因为它是自大流行开始以来能够以更新的方式(每日更新)记录关于这一主题的出版物数量最多的唯一数据库,包括早期文章。其他数据库如Web of Science (WoS)或Scopus相对于PubMed有索引延迟[1527].此外,PubMed是一个更适合生物医学研究的数据库,而Scopus和WoS是更多学科的数据库。此外,PubMed为所有用户提供免费访问,而Scopus和WoS是基于订阅的。

由国家医学图书馆和国家生物技术信息中心建议,于2021年3月16日在Lens数据平台(仅考虑PubMed数据库)中通过以下查询进行搜索:2019-nCoV OR 2019nCoV OR COVID-19 OR SARS-CoV-2 OR(武汉和冠状病毒)

图2。用于选择研究样本的工作流(来源和指标)。
查看此图

数据选择、研究范围和局限性

我们的分析集中在2020年1月1日至2021年3月1日期间。这一时期与人群中病例高峰和初始疫苗接种方案(免疫)相对应[28].该查询在PubMed中共检索到99969篇关于COVID-19的科学论文,其中2595篇(2.60%)没有DOI, 1764篇(1.76%)没有被Unpaywall识别。因此,该研究共审议了95,605份出版物。Lens数据库从选定的出版物中收集了160万次引用。

虽然根据所分析的出版物数量和所进行的不同类型的分析,这是一项非常全面的研究,但必须指出一些局限性。我们只考虑了一个数据库(PubMed),它主要偏向于医学和生物医学出版物,并没有涵盖所有学术领域或所有出版语言。非英语出版物和非生物医学领域未被覆盖或代表性不足。另一个限制是Unpaywall的使用;虽然这个来源提供了OA的相关信息,但它并没有完全覆盖,有时还与Crossref中的信息相矛盾。所采用的搜索策略的局限性包括使用关键词来选择每篇与covid -19相关的文章,这与对大流行的研究和其他可能包含流行语的研究的贡献相冲突。

数据分析和研究步骤

我们首先分析了研究期间(2020年1月至2021年3月)OA的吸收及其对关于COVID-19的科学出版物的影响。图2总结分析了主要指标。考虑了OA状态信息,因为OA旨在通过促进科学成果的可见性和扩散以及消除技术或财务障碍,最大限度地利用研究[29].我们在分析中考虑了Unpaywall定义的不同OA类别:青铜(文章可以立即在出版商的网站上免费获取,也可以在禁令实施后免费获取,但未获得正式的重用许可)、黄金(通过支付一笔费用,即文章加工费[APC],在完全可访问的OA期刊上发表文章)、绿色(在线开放资源库中存档的副本,在禁令期后可访问最终版本)和混合(订阅期刊上的文章通过支付APC实现OA)。此外,根据Lens,每篇文章的总引用数被考虑并通过OA类型学进行分析。然而,考虑到倾斜分布与引文统计数据被少数高被引或未被引的论文(例如,在短时间内发表的论文)所主导的风险相关,因此需要一个基于百分位数的文献计量指标。因此,在本研究中,我们使用了基于每篇论文收到的总引用量的第90百分位数(P90),这可以更好地比较出版物的影响。P90表示该论文属于被引次数最多的前10%的论文,这是通过在电子表格中对模式进行线性插值计算得出的。

我们还使用Unpaywall来收集有关许可证的信息。分析的主要许可选项是创作共用(CC)或特定于出版商的许可。根据其重用级别进行分类,从最开放到最限制,许可类型包括:美国化学学会(ACS)特定、CC、CC- by、CC- by - nc、CC- by - nc - nd、CC- by - nc - sa、CC- by - nd、CC- by - sa、Elsevier-Specific、默示oa、PD、出版商特定许可和无许可。此外,通过分析5个最常见的出版商(Elsevier BV, Wiley,牛津大学出版社[OUP]和BMJ)来检索出版商信息。选择Openrefine来组织、清理和分析数据。这个工具允许我们过滤从Lens提取的数据,将数据与Unpaywall应用程序编程接口连接起来,并收集关于OA和存储库(在开放档案计划元数据收集协议[OAI-PMH]中发现的PMC或机构存储库)的更多信息。对于数据分析,还使用了电子表格的解释和可视化。我们进一步使用ArcGIS软件绘制了105篇高被引论文(超过1000次引用,占总数的0.11%)的通讯作者的国家分布。

接下来,我们将主题建模技术应用于COVID-19出版物的标题和摘要,按OA类型(青铜、黄金、绿色和混合)来确定大流行期间的突出主题及其演变。这种概率技术以文本集合作为输入,并使从文档语料库中识别和学习“主题”成为可能[30.31].然后,所有文档中的关键字根据出现频率更接近的关键字进行分组;因此,可以认为它们在主题上是相连的,形成了集群(或主题)。由于采用了这种技术,Bronze中最大的集群由student、medical或survey等关键字组成,构成了集群0(请参阅中集群的完整列表)多媒体附件1).

与聚类不同,主题建模假设每个文档都适合一个或多个主题。在R软件中使用tm包[来消除停止词、空格和其他不相关的字符]。3233].本分析共使用了87,744篇(87.8%)的数据集。对于主题建模,我们采用了Colavizza等人的[16通过使用gensim实现的潜狄利克莱分配模型训练数据集,在Open Jupyter Notebook中的代码[163134].在本例中,定义了15个集群用于识别按OA类型划分的关键字,每个集群由一组关键字组成(参见多媒体附件1).为了更深入地分析内容,每个聚类被分类为Colavizza等人定义的主要主题[16]及王、洪[23],如下所述。“冠状病毒爆发”和“流行病”被合并为一个主题(标记为“流行病”),因为它们包含类似的集群。中定义了这5个主题及其范围表1.中提供了主题和集群的全面列表多媒体附件1

除上述分类外,还分析了OA类型集群的每月主题强度(基于出版物数量),以观察其随时间的变化。由于研究期间截至2021年3月1日,因此3月不包括在本次分析中。

本研究中使用的数据集已在Zenodo中提供[35].

表1。主题描述和识别关键字的示例。
主题 定义和范围 关键词示例
临床医学 医学:建立在对病人直接观察的基础上的医学研究和实践 治疗,胸部,疗法,症状,临床试验
免疫学 涵盖所有生物的免疫系统的研究 免疫抗体药物疫苗刺突
分子生物学 生物学的一个分支,研究生命所必需的大分子的结构和功能 蛋白质,核酸,病毒细胞,抗体,细胞因子
公共卫生 医学的一个分支,研究公共健康,包括卫生学、流行病学和疾病预防 公共卫生系统、病人、心理健康、社区、护理
流行病学 研究疾病在短时间内向特定人群中大量人群的迅速传播 疾病爆发国家口罩检测

OA吸收

概述

从PubMed的95,605篇文章中(图2), 98.34% (n=94,015)为期刊文章,94.08% (n=89,944)为OA格式,其中以Bronze OA(44.8%)居多,其次为Gold(31.9%)、Green(14.1%)和Hybrid (9.3%) (图3一个)。

其余出版物代表已发布的内容(n=1551)、书籍章节(n=27)和“其他”(n=6,包括1份报告、1份同行评议、2篇进行中的文章和1份未分类的类型)(图3b)。

总体而言,41.39%(39573 /95,605)的出版物采用青铜OA模式,29.49%(28192 /95,602)的出版物采用黄金模式,14.64%(13993 /95,605)的出版物采用绿色模式,8.56%(8186/95,605)的出版物采用混合OA模式(图3c)。

测量该领域引文分布的P90显示,Hybrid、Green和Bronze OA文章的引文值分别为29、26和24,高于Gold OA文章(16篇)和发表在封闭期刊上的文章(5篇)。

出版模式的演变分析(图3d)表明,在大流行期间,格林模型的使用呈下降趋势,最终成为使用最少的模型。随着疫情的发展,Bronze和Gold发行模式变得更加突出,从2020年第二季度开始,Bronze模式的发行数量显著增加。

图3。pubmed在2020年1月1日至2021年3月1日期间发表的与SARS cov -2相关的论文及其基于Unpaywall的开放获取(OA)状态。(a)被考虑和排除的论文(没有DOI和未被Unpaywall扫描)的百分比及其OA比率。(b) PubMed建立出版物类型及其OA类型。(c)按其OA出版模式划分的出版物和引用百分比。(d)出版物根据其OA出版模式的演变。P90:第90百分位。
查看此图

图4显示了拥有OA sars - cov -2相关论文的资源库副本对引用的影响。如图4a, 83.1%的OA论文至少有一份副本存放在仓库中(Bronze OA为70.7%;90.7%的Gold OA;99.9%的绿色OA,尽管有一篇论文在没有存储库副本的情况下被归类为绿色;88%的混合OA出版物)。其中,37.4% (n= 27990)为青铜OA, 34.2% (n= 25583)为黄金OA, 18.7% (n= 13992)为绿色OA, 9.6% (n=7207)为混合型OA。更具体地说,在每种OA类型学中,有存储库副本的出版物组的P90比没有存储库副本的出版物组的P90高:铜质论文28比14,金质论文17比7,绿质论文31比3,混合期刊发表的论文33比6 (图4b)。

图4。在PubMed托管开放获取(OA) sars - cov -2相关论文的资源库副本(2020年1月1日至2021年3月1日)对引用的影响(基于第90百分位数[P90])。(a)有或没有存储库副本的OA文件的百分比。(b)根据OA类型划分,有或没有存储库副本的前10%的论文。
查看此图
许可证

我们还审查了OA论文持有的许可证的重用权限:34.4% (n=25,740)的具有存储库副本的论文没有明确的许可证,相比之下,81.8% (n=12,418)的没有存储库副本的论文(图5一个)。

图5b显示,相当数量的OA文章缺乏适当的许可(42.4%),这意味着许可允许论文的免费重用。使用最多的许可证是CC-BY(23.3%),其次是隐含oa (16.9%), CC-BY- nc - nd(10.8%)和CC-BY- nc(5.1%)。当分析这些组的引用时,我们发现最高的引用指标是acs特定许可的论文(99.1次引用)和隐含oa许可的论文(66次引用)。没有明确许可的文章被引用的数量很低(10)。基于这些结果,进一步研究了这三组(非授权、acs特定授权和隐含oa授权)。对于未获授权的OA论文,占主导地位的是Bronze,占P90为10的论文的75.1% (n= 28584),其次是Green (20%, P90=10)和Gold (4.9%, P90=13) (图5c).进一步分析了按许可类型划分的被引用最多的论文,即acs特定许可论文。在这种情况下,几乎90%的论文属于Hybrid OA类别,P90值为101.2 (图5d).最后,67.2%的隐含OA许可论文具有青铜OA状态,P90值为73 (图5e)。

图5。PubMed上与sars - cov -2相关论文的开放获取(OA)许可(2020年1月1日至2021年3月1日)。(a)通过OA/非OA以及有/没有存储库副本分发的具有或不具有(WO)特定许可的论文数量。(b)根据许可证类别分发论文。(c-e) P90和非授权论文的OA状态(c)、特定于acs的授权论文(d)和隐含的OA授权论文(e)。P90:第90百分位;ACS:美国化学学会。
查看此图
出版商

出版频率最高的出版商是Elsevier,占收录论文的26.88%(25694 /95,605),其次是Wiley(13461 /95,605, 14.08%)、施普林格(10226 /95,605,10.74%)、OUP(3940/95,605, 4.12%)和BMJ (3701/95,605, 3.87%) (图6a).更深入地研究了这些出版商是否拥有某种许可证,以及三大顶级出版商出版的所有出版物的引用情况(P90) (图6b).结果显示,47% (n=12,090) elsevier发表的论文没有许可证,相关引用数较低(n=7)。然而,来自该授权出版商的文章的引用P90要高得多,为51。接下来的两个最频繁的出版商也观察到了同样的模式:施普林格的43%的文章没有任何授权,与授权论文相比,它们的引用水平较低(9比27);威利53%的论文没有许可证,只有7次引用,而有许可证的论文有34次引用。

图6。从2020年1月1日到2021年3月1日,PubMed发表的与covid -19相关论文数量最多的出版商和期刊。(a)最频繁的出版商分发的出版物总数和百分比。(b)引文(P90)和是否有在三个主要出版社发表的所有论文的适当许可证。英国医学杂志;牛津大学出版社;P90:第90百分位;我:没有。
查看此图
国家高被引论文

对于超过1000次引用的论文(105篇高被引论文),我们确定了通讯作者的国家。中国是被引论文最多的国家,其中58篇论文被引超过1000次(图7).58篇论文平均被引3932次,最高被引16164次。论文被引用次数最多的两个国家是美国和英国,分别有22篇和11篇论文被引用次数超过1000次。在这三个国家之后,其他国家的高被引论文数量明显较低(少于5篇)(例如,德国,4篇;意大利、荷兰和瑞士2人;法国、新加坡、瑞典和台湾,1)。

图7。高被引论文国别图(通讯作者)。使用ArcGIS创建的图像[36].
查看此图

识别和监控主题演变

使用基于标题和摘要的主题建模技术分析了每篇出版物的生物医学内容及其在研究期间的分布情况。图8为每个主题按主题集群和OA类别被提及的次数。公共卫生、流行病(即在国家内监测COVID-19)和临床医学(即患者、分析、治疗)等主题是涉及频率最高的,这表明在所有阶段,预防和控制COVID-19是最令人关注的问题多媒体附件1).相比之下,以检测和预防为目的的免疫学(即试验和疫苗接种)和分子生物学(即蛋白质,抗体)就没有那么多兴趣了。此外,一些主题对特定的OA类别表现出明显的偏好,例如金色OA中的临床医学和绿色OA中的流行病。

图8。按开放获取类型分列的covid -19相关专题数量分布情况。
查看此图

在青铜OA出版物中,代表为图9,第7类(医疗保健和服务)从2020年3月开始脱颖而出。与封锁和病例(流行病)相关的第3类词语在2020年1月很常见,但在大流行期间有所减少。另一个突出的聚类是第5类,以症状(如呼吸综合征)为代表,自2020年2月以来更加常见,并且在整个研究期间一直保持这种流行。同样,与COVID-19一般性研究(调查、访谈等)相关的第1类数据从2020年4月开始流行。在不同的模式下,簇11(药物、蛋白质、病毒)在2020年1月相对常见,但在研究期间有所下降。相比之下,一些主题出现较少,包括聚类2和聚类6,以临床医学(如孕妇)为代表;聚类4,以免疫学为代表;第13和14类,以流行病表示(例如,测试和预测模型)。

图10显示了Gold OA出版物主题的演变。在整个分析期间,与各国采取的战略有关的第5类数据尤为突出。另一个相关主题是大流行最初几个月(2020年1月至3月)中国的病例数(特别是2020年2月期间)(第9类集)和临床症状(感染、呼吸综合征)(第14类集)。聚类1和聚类8分别代表临床医学(如蛋白质)和公共卫生(如大流行对心理健康的影响),在研究的后几个月显示出适度增长。

绿色OA出版物显示在图11.与呼吸道症状相关的聚类6中反映的主题在2020年1月和2月非常常见。第5类(治疗COVID-19的药物,如羟氯喹)在2020年2月表现强劲。其他兴趣的演变包括患者和住院(聚类10),随着时间的推移(特别是2021年11月至12月),而治疗(聚类12;例如,药物、蛋白质和抗病毒药物)从2020年3月到7月开始相关,然后兴趣随后下降。影响(聚类2;例如,牙科、睡眠质量)或症状以及为预防病毒而采取的全球措施(第13类群;例如,封锁,社交距离)表现出相对较少的兴趣。

图12为基于研究期间Hybrid OA出版物数量的聚类强度。集群0、2和5是分析期开始时研究最多的主题,对应于公共卫生和流行病。例如,集群2开始于2020年1月爆发,原因是COVID-19对人群心理和心理健康(如抑郁、焦虑、心理影响)的影响。值得注意的是,分别与公共卫生、临床医学和流行病相关的聚类3、6和13随着时间的推移而增强。其他几乎不感兴趣的聚类包括与护理和护理(聚类8)、死亡率(聚类11)和儿童反应(聚类14)相关的聚类。

图9。青铜开放获取期刊的主题强度(2020年1月1日至2021年3月1日)(n=38,625)。
查看此图
图10。黄金开放获取期刊(2020年1月1日至2021年3月1日)的主题强度(n=27,786)。
查看此图
图11。绿色开放获取期刊的主题强度(2020年1月1日至2021年3月1日)(n=13,396)。
查看此图
图12。Hybrid期刊(2020年1月1日- 2021年3月1日)的主题强度(n=7937)。
查看此图

基于大流行期间出版物数量的大幅增加[15],本研究分析的数据(95,605篇出版物)表明,大多数论文是公开可用的(94.1%),这一比例明显高于其他数据库(例如,在Dimensions中,如Torres-Salinas等人指出的68% [5])。青铜OA是最常见的类别,这意味着付费期刊为这些出版物提供免费访问。同样的模式也得到了先前在不同数据库(如WoS、Scopus和Dimensions)中的研究的支持[5153738].对出版物和OA类型随时间演变的分析表明,尽管在所有OA类型中都观察到增长趋势,但在大流行期间,绿色OA文章减少,黄金OA期刊减少,这与Nane等人的发现一致[11].

这些结果强调,OA影响(用P90衡量)在具有存储库副本的论文中更高;然而,42%的OA论文没有许可证,这可能与较少的可见性相关,并可能影响发现的重用。虽然使用最多的许可证是CC-BY、隐含- oa和CC-BY- nc - nd,但特定于acs和隐含- oa许可证的引用数量较高。在这方面,如果不能适当地分享和传播知识和发现,防治疾病的斗争就会减慢,造成更明显的致命影响。

主题建模分析表明,PubMed的大多数出版物集中在公共卫生、流行病和临床医学,而免疫学和分子生物学是最少涉及的主题(补充了Colavizza等人的发现[16]及王、洪[23])。然而,公共卫生和临床医学等主题发挥了关键作用(支持Wang和Hong [23]),为Colavizza等人的研究提供了新的见解[16]关于这个特定数据库中主题的变化。

新冠肺炎研究课题随着发表趋势的演变而不断演变。总体而言,预防和控制是最流行的话题(与Wang和Hong的观点一致[23]),而预测(如预测模型)或治疗(如药物治疗),或对特定人群的影响(如儿童反应,孕妇)是研究最少的主题。在本研究的几个月里,主题强度按OA类别表现出不同的行为。混合和绿色OA出版物更关注患者及其影响,而不同国家采用的策略更频繁地发表在黄金OA期刊上,医疗保健和服务主题主要发表在青铜OA期刊上。尽管大流行开始时的研究重点主要集中在疾病症状或控制病毒传播的治疗方法(发表在Green、Hybrid和Gold期刊上)、检测或样本(Hybrid)或病例数量(Gold)——这些主题持续流行,例如Hybrid期刊上的公共卫生系统或Gold期刊上的国家战略——但最近,研究的重点已经集中在国家的病例上(Hybrid)。患者和住院(绿色),或蛋白质(金色),等等。

本研究的主要结论可归纳如下。首先,在第一次全球封锁后的一年内,PubMed上与covid -19相关的文章数量是大流行初期的17倍。这为Torres-Salinas等人的研究提供了新的见解。5],估计在大流行开始时,PubMed每周总共有1000份文件。

第二,为了有效应对这一全球流行病,我们需要使研究及其结果更加公开。这是一个展示学术交流系统如何造福公众的机会。尽管有大量的出版物是免费提供的,但并非所有出版物都是开放和可重用的。正如本研究明确表明的那样,需要在公共许可方面付出更多努力;42%的与COVID-19相关的OA论文没有许可证,这与低能见度有关,特别是青铜OA出版物。

第三,引用次数较高的文章包括那些在期刊强制许可下发表的文章,这些许可规定对这些论文的访问是临时的,允许在有限的时间内重复使用和分析,甚至只允许在有限的时间内阅读。

第四,从引用数量来看,OA类别(尤其是Hybrid和Green)似乎比封闭期刊具有更高的影响力。对存储库副本的影响甚至更大(特别是那些具有特定于acs的许可证和隐含的oa许可证)。

第五,只有大约100篇论文被引用超过1000次。来自发达国家(美国、中国和英国)的通讯作者用英语撰写的论文在高引用论文中占主导地位。

第六,Hybrid和Green OA出版物更关注患者及其影响,而国家采用的策略在选择Gold OA路线的论文中更为普遍。医疗保健和服务是青铜OA期刊上发表的论文中最常见的主题。

最后,预防和控制是所分析出版物中最流行的主题(冠状病毒疫情/流行病学和公共卫生)。然而,对某些主题的研究仍然不足(例如,对儿童或孕妇等某些人群的影响),需要更多的全球研究合作。

总的来说,监测和测量OA和主题演变将有助于研究人员和科学决策者了解COVID-19的研究现状。这一信息可以作为参考指南,激发新的想法和研究方向,并有助于防治这一流行病。

致谢

作者要感谢Charles McCathieNevile对这篇论文深思熟虑的评论和反馈。

利益冲突

没有宣布。

多媒体附件1

基于主题建模的开放获取类型的covid -19相关出版物集群。

DOCX文件,24kb

  1. Khachfe H, Chahrour M, Sammouri J, Salhab H, Makki B, Fares M.快速传播疾病COVID-19的流行病学研究。Cureus 2020 3月18日;12(3):e7313 [免费全文] [CrossRef] [Medline
  2. 索拉比C,阿尔萨菲Z,奥尼尔N,可汗M,克万A,贾比尔A,等。世界卫生组织宣布全球进入紧急状态:对2019年新型冠状病毒(COVID-19)的审查。Int J Surg 2020 Apr;76:71-76 [免费全文] [CrossRef] [Medline
  3. 中国-世界卫生组织新冠肺炎联合考察组报告。世界卫生组织2020年。URL:https://www.who.int/docs/default-source/coronaviruse/who-china-joint-mission-on-covid-19-final-report.pdf[2022-08-23]访问
  4. COVID-19流行病学每周更新- 2021年3月30日。世界卫生组织,2021年3月28日。URL:https://www.who.int/publications/m/item/weekly-epidemiological-update-on-covid-19---31-march-2021[2022-08-23]访问
  5. Torres-Salinas D, Robinson-Garcia N, Castillo-Valdivieso P.大流行时代的开放获取和替代指标:对COVID-19文献的预测分析。bioRxiv。2020年4月26日URL:307年https://www.biorxiv.org/content/10.1101/2020.04.23.057 v1[2022-08-23]访问
  6. Kupferschmidt K.预印本带来疫情数据的“消防水管”。科学2020年2月28日;367(6481):963-964。[CrossRef] [Medline
  7. VOSviewer可视化科学景观。URL:https://www.vosviewer.com/[2022-09-12]访问
  8. 谢波,何东,Mercer T,王勇,吴东,Fleischmann KR,等。全球卫生危机也是信息危机:呼吁采取行动。科学通报2020年12月;71(12):1419-1423 [J]免费全文] [CrossRef] [Medline
  9. Cinelli M, Quattrociocchi W, Galeazzi A, Valensise CM, Brugnoli E, Schmidt AL,等。COVID-19社交媒体信息大流行。科学通报2020年10月06日;10(1):16598。[CrossRef] [Medline
  10. 分享与新型冠状病毒(COVID-19)疫情相关的研究数据和发现。欢迎来到2020年1月31日。URL:https://wellcome.org/press-release/sharing-research-data-and-findings-relevant-novel-coronavirus-ncov-outbreak[2022-08-23]访问
  11. Nane T, Robinson-Garcia N, van SF, Torres-Salinas D. COVID-19与科学出版系统:增长、开放获取和科学领域。SocArXiv文件,2021年12月15日。URL:https://osf.io/preprints/socarxiv/ntrpx/[2022-08-23]访问
  12. Horbach SPJM。现在没时间了!Covid-19大流行期间稿件同行评审的质变。评审报告2021;30(3):231-239 [免费全文] [CrossRef
  13. Vervoort D, Ma X, Shrime MG。钱花光了:新冠肺炎时代的掠夺性出版。J公共卫生2020年10月04日;111(5):665-666 [免费全文] [CrossRef] [Medline
  14. Lariviere V, Shu F, Sugimoto C.新冠病毒(COVID-19)的爆发凸显了学术交流的严重缺陷。伦敦政治经济学院影响博客,2020年3月5日。URL:https://blogs.lse.ac.uk/impactofsocialsciences/2020/03/05/the-corona virus-covid-19-outbreak-highlights-serious-deficiencies-in-scholarly-communication /[2022-08-23]访问
  15. Arrizabalaga O, Otaegui D, Vergara I, Arrizabalaga J, Méndez E. 2020年第一季度covid -19相关出版物的开放获取:基于PubMed的初步研究。F1000Res 2020;9:649 [免费全文] [CrossRef] [Medline
  16. Colavizza G, Costas R, Traag VA, van Eck NJ, van Leeuwen T, Waltman L. CORD-19的科学计量学概述。PLoS One 2021年1月7日;16(1):e0244839 [免费全文] [CrossRef] [Medline
  17. Kousha K, Thelwall M. COVID-19出版物:数据库覆盖、引用、读者、推文、新闻、Facebook墙、Reddit帖子。量化科学研究2020年8月;1(3):1068-1091。[CrossRef
  18. Colavizza G.维基百科中的COVID-19研究。量化科学研究2020年12月;1(4):1349-1380。[CrossRef
  19. 2020年之前的冠状病毒研究比以往任何时候都更有意义,特别是在对COVID-19进行解释时。量化科学研究2020年12月;1(4):1381-1395。[CrossRef
  20. Cunningham E, Smyth B, Greene D. COVID时期的合作:多学科SARS-CoV-2研究的科学计量学分析。人文社会科学学报2021年10月19日;8(1):240。[CrossRef
  21. damaviviius R, zailskaitm2 - jakcztl . COVID-19大流行对国家层面商业和经济领域研究人员合作的影响:科学计量学分析。J Doc 2022年6月07日:在线印刷前。[CrossRef
  22. 大流行期间女性发表的文章减少了吗?数据是这么说的。自然2020年5月20日;581(7809):365-366。[CrossRef] [Medline
  23. 王杰,洪娜。COVID-19研究格局:使用科学文献衡量主题和合作。2020年10月23日;99(43):e22849。[CrossRef] [Medline
  24. Homolak J, Kodvanj I, Virag D. COVID-19学术信息模式初步分析:封闭边界时代对开放科学的呼吁。科学计量学2020年6月25日;124(3):2687-2701 [免费全文] [CrossRef] [Medline
  25. Soltani P, Patini R.撤回COVID-19文章:激烈发表的副作用。scientomeics 2020 Aug 05;125(1):819-822 [免费全文] [CrossRef] [Medline
  26. 李志强,李志强,李志强,等。危机时期的学术传播:学术传播系统对COVID-19大流行的应对。研究所研究。2021。URL:https://rori.figshare.com/articles/report/Scholarly_communication_in_times_of_crisis_The_response_of_the_scholarly _communication_system_to_the_COVID-19_pandemic / 17125394[2022-08-23]访问
  27. Falagas M, Pitsouni E, Malietzis G, Pappas G. PubMed, Scopus, Web of Science和谷歌Scholar的比较:优缺点。FASEB J 2007 9月20日;22(2):338-342。[CrossRef
  28. 数据世界。URL:https://ourworldindata.org/coronavirus#explore-the-global-situation[2022-08-23]访问
  29. Rodrigo C. Acceso abierto(开放获取)en las publicaciones científicas。Revista Española de Nutrición Comunitaria(西班牙社区营养杂志)2010;16(4):203。
  30. 概率潜在语义分析。1999年发表于:第15届人工智能不确定性会议(UAI);1999年7月30日至8月1日;斯德哥尔摩,瑞典。
  31. 李志强,李志强。计算机科学与工程学报,2003;3(4):344 - 344。
  32. R核心团队。R:统计计算的语言和环境。奥地利维也纳:R统计计算基金会;2021.
  33. Feinerer I, Hornik K. tm:文本挖掘包版本0.7-8。R项目,2020年。URL:https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf[2022-08-23]访问
  34. Řehůřek R, Sojka P.大型语料库主题建模软件框架。2010年出席:LREC 2010 NLP框架新挑战研讨会;2010年5月22日;马耳他。[CrossRef
  35. San Torcuato M, Bautista-Puig N, Arrizabalaga O, Mendez E.跟踪COVID-19出版物的开放性和主题演变:综合分析(2020年1月至2021年3月)。泽诺多,2022年3月22日URL:https://zenodo.org/record/6376578#.YwTw_OzMJcA[2022-08-23]访问
  36. ArcGIS在线。URL:https://www.arcgis.com/index.html[2022-09-12]访问
  37. 陈x, Bharti N, Marsteller MR.利用文献计量学数据了解不同开放获取类别在Covid-19相关研究中的引用优势。中国机械工程学报(自然科学版),2011;29 (1):344 - 344 [免费全文] [CrossRef] [Medline
  38. Belli S, Mugnaini R, Baltà J, Abadal E.科学出版物中的冠状病毒图谱:当科学快速和集体进步时,这种知识是否向社会开放?科学计量学2020;124(3):2661-2685 [免费全文] [CrossRef] [Medline


ACS:美国化学学会
APC:物品处理费
BMJ:英国医学杂志
答:知识共享
网:医学学科标题
办公自动化:开放获取
OIA-PMH:开放档案计划-元数据收集协议
牛津大学出版社:牛津大学出版社
P90:第90个百分位
我:科学网


C Basch编辑;提交01.06.22;同行评议:J Willinsky, R damaviviius;作者评论24.06.22;订正版本收到21.07.22;接受28.07.22;发表03.10.22

版权

©Maider San Torcuato, Núria Bautista-Puig, Olatz Arrizabalaga, Eva Méndez。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2022年10月3日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map