医学互联网研究杂志-量化在线新闻媒体对COVID-19大流行的报道:文本挖掘研究和资源

原始论文

¹南丹麦大学数学与计算机科学系，丹麦欧登塞

²波兰华沙科兹明斯基大学网络社会管理系

^3.传染病流行病学系，MRC全球传染病分析中心，伦敦帝国理工学院，英国伦敦

⁴Nupinion，伦敦，英国

⁵伦敦帝国学院数学系，英国伦敦

⁶南丹麦大学生物化学与分子生物学系，丹麦欧登塞

⁷哥本哈根大学公共卫生系流行病学研究室，丹麦哥本哈根

通讯作者:

Konrad Krawczyk博士

数学与计算机科学系

南丹麦大学

Campusvej 55

欧登塞,dk - 5230

丹麦

电话:45 6550 2387

电子邮件:konradk@imada.sdu.dk

相关的文章这是更正后的版本。见更正声明://www.mybigtv.com/2021/7/e31544/

背景:在有效疫苗问世之前，戴口罩、保持社交距离和封锁等非药物干预措施一直是抗击COVID-19大流行的主要措施。在全民高度遵守的情况下，这些措施非常有效，因为这需要提供有关大流行病目前构成的风险的信息，同时明确说明现有的规则和准则。

摘要目的:在这里，我们分析了在线新闻媒体对COVID-19的报道。我们量化了COVID-19文章的总量、它们的情绪两极分化和主要子主题，以作为参考，为未来的传播策略提供信息。

方法:我们从11个国家的172个主要在线新闻来源的头版上收集了2600万篇新闻文章(可在SciRide上在线获取)。通过主题检测，我们确定了与covid -19相关的内容，以量化2020年大流行收到的总覆盖率的比例。采用情绪分析工具Vader对COVID-19报告的情绪极性进行分层。进一步对COVID-19报道进行主题检测和情绪分析，揭示大流行报道的主要主题及其各自的情绪两极分化。

结果:我们发现，2020年1月至10月，COVID-19的报道约占所有头版在线新闻文章的25.3%。对英语消息来源的情绪分析显示，COVID-19的总体报道并不完全是消极的两极分化，这表明对大流行的报道存在广泛的异质性。在这种异质性报道中，16%的COVID-19新闻文章(或所有英语文章的4%)可归类为高度负面极化，引用了死亡、恐惧或危机等问题。

结论:COVID-19公共卫生沟通的目标是增加对距离规则的理解，并最大限度地发挥政府政策的影响。来自不同传播渠道(如社交媒体、政府网页和新闻)的信息的数量和质量在多大程度上影响公众对公共卫生措施的理解，仍有待确定。我们得出的结论是，2020年所有报告中有四分之一涉及COVID-19，这表明信息过载。在这方面，我们的数据和分析构成了定量基础，为传统新闻媒体渠道的卫生传播战略提供信息，以便在开展疫苗接种期间最大限度地降低COVID-19的风险。

[J] .中国医学信息学报，2013;23(6):828253

doi: 10.2196/28253

关键字

文本挖掘; 新型冠状病毒肺炎; infoveillance; 情绪分析; 公共卫生

新型冠状病毒SARS-CoV-2及其引发的疾病COVID-19的出现已导致约240万人死亡[1，2]。由于最初缺乏针对COVID-19的药物措施，许多政府采取了非药物干预措施来控制大流行的传播[3.，4]。引入npi，比如保持社交距离，戴口罩，或所谓的封锁，显著减少SARS-CoV-2传播[5-8]。因此，在缺乏有效治疗或疫苗广泛推广的情况下，npi仍然是控制COVID-19的重要工具[9]。

国家行动计划的有效性取决于全民是否遵守政府规定(例如，保持社会距离规则、居家令和戴口罩)。而是否遵守则取决于社会对这些措施的看法[9，10]，这是由印刷和数字媒体塑造的。由于遵守npi与公众对指导方针的理解有关，新闻来源形成这种知识，有效地阐述规则以最大限度地提高公众反应是至关重要的。随着证据的积累，预计指导方针将发生变化并予以澄清。在数码时代，社会的主要资讯来源之一是网上新闻[11，12]。关于大流行病现状和预防准则的有效沟通影响到社会如何遵守和响应国家行动计划，从而影响到大流行病的严重程度。

新闻文章以前已被证明是跟踪疾病暴发的有效方法，而HealthMap等服务有助于发现和跟踪疾病暴发[13，14]。即使只是凭借其前所未有的规模，新闻媒体在COVID-19大流行中也尤为重要[15]。据估计，已有3800万篇关于COVID-19的英文文章[16]。进一步证明，无论是在社交媒体上，关于COVID-19的错误信息都很普遍，而且影响很大[17]和传统新闻来源[16]。这可能导致信息过载，阻碍社会对这一流行病作出反应[18]。

这种大流行病的一个特别困难是它给人们带来的情感损失，这既来自疾病本身，也来自社会疏远措施[19-21]。情绪损失可以通过情绪分析进行定量调查，该分析计算文本从消极到中性再到积极的情绪极化。之前的三项研究试图通过对COVID-19社交媒体对话的情绪分析来量化情绪损失[22-24]。与直觉相反的是，考虑到大流行的主题，所有三项关于社交媒体上COVID-19对话情绪的研究都显示出积极情绪而不是消极情绪的比例更高。相比之下，对25家英文新闻媒体新冠肺炎标题的分析显示，52%的标题引发负面情绪，30%引发积极情绪，18%引发中性情绪[25]。新闻媒体可以塑造应对大流行和遵守控制措施的行为。因此，广泛的负面报道或相互矛盾的信息(即信息超载)可能对个人的心理健康和社会对控制措施的有效反应产生不利影响[26]。

Evanega等人对COVID-19新闻报道的早期研究[16通过关键词搜索，从LexisNexis检索了3800万篇新冠肺炎英文文章，该网站索引了700万篇文章。量化COVID-19信息的范围需要将文章的绝对数量与贡献来源的数量标准化。同样，也需要在消费信息整体消极的背景下分析对COVID-19报道的情绪。Aslam等[25分析了14.1208万条新冠肺炎新闻，结果显示，52%的新闻带有负面情绪。Chakraborty和Bose报告了类似的结果，他们从GDELT(全球事件、语言和语气数据库)收集了COVID-19的新闻文章，发现大流行的报道大多与负面情绪两极分化有关[27]。尽管这些研究提供了信息，但并没有将COVID-19的情绪分布与其来源的情绪分布进行对比。通过将大流行报道的情绪分布置于整体报道的背景下，可以得出有意义的结论，即COVID-19信息的数量是否确实比新闻媒体消费者所接触到的更消极。

为解决上述问题，我们从11个国家的172个主要网上新闻来源的头版收集了超过2,600万篇文章，并将这些文章汇编成SciRide的可重复使用数据库[28]。首先，我们调查了2020年出现在头版的所有COVID-19新闻的趋势。其次，我们分析了关于COVID-19的文章是否比其他文章更容易情绪两极分化。最后，我们分析了新冠肺炎报道的主要子话题，并评估了他们的情绪两极分化。总体而言，我们的工作旨在阐明传统媒体对COVID-19新闻报道的数量和内容，为大流行期间政策沟通的数据驱动讨论提供基础。

管理头版新闻文章数据库

为了评估对COVID-19的报道及其引发的情绪，我们分析了媒体影响力强大的国家主要在线新闻来源的登陆页面。我们选择了来自11个国家的主要网络新闻来源:美国、英国、加拿大、澳大利亚、新西兰、爱尔兰、德国、法国、意大利、西班牙和俄罗斯。我们还增加了国际类别，以更好地反映某些在线新闻来源的全球焦点。

对于每个国家来说，主要的在线新闻来源都是通过参考BBC Media的简介来确定的，BBC Media是一个管理全球新闻来源信息的权威机构，也是由SimilarWeb管理的流量最大的新闻网站列表。关注主要的国家在线新闻来源，如在线可见性所定义的，抓住了塑造社会知识和观点的一些主要来源[29]。应该指出的是，对在线新闻来源的关注排除了社交媒体、认知社区和其他对公众认知的影响。然而，由于其渗透深度、政治异质性和可靠性，主要在线新闻来源提供了总体公众看法的极好代表。

对于每个在线新闻来源，我们通过Internet Archive收集了自2015年以来的存档头版快照[30.，于10月15日停止2020年的覆盖。我们使用2020年前的文章来微调文章收集的准确性，并提供covid -19之前某些主题的报告统计数据。每个头版都是使用我们开发的基于自定义的管道(第1节)来获取潜在的新闻条目多媒体附录1)。我们将每篇文章定义为元数据元素标题和描述(有时称为标题和副标题)的组合，这与科学出版物中的标题和摘要大致相似[31]。这些元数据在在线新闻来源中被合理地标准化了，它们提供了类似标题的文章摘要，通常是为在社交媒体上分享而设计的，使它们适合于主题检测和情感分析。我们总共从172个网络新闻来源的头版收集了26,077,939篇文章(表1)，并在表格S1中列出完整的资料来源多媒体附录1。

现代新闻网站的内容变化很快，这些内容通过多个部分传播，因此很难衡量特定文章受到的关注程度。新闻网站的头版应该是许多用户接触到的信息的可靠反映，因为它们是主要的入口。这与其他文章收集策略相反，例如RSS (Really Simple Syndication)或下载整个网站的内容，这些策略对评估有多少人真正阅读了任何给定的文章提供了有限的控制。[16，32]。我们将重点放在主要网络新闻来源登陆页的文章上，从而评估了很大一部分网络新闻消费者接触到的与新冠肺炎相关的文章数量。

表1。每个国家在线新闻来源和收集文章的数量。

国家	网络新闻来源(N=172)， N (%)	收集的文章(N=26,077,939)， N (%)
加拿大	13 (7.5)	1269200 (4.8)
澳大利亚	8 (4.6)	1124859 (4.3)
意大利	13 (7.5)	1526521 (5.8)
英国	21日(12.2)	4977792 (19.0)
美国	33 (19.1)	4388383 (16.8)
法国	9 (5.2)	1951608 (7.4)
德国	18 (10.4)	2348403 (9.0)
爱尔兰	8 (4.6)	905598 (3.4)
国际	6 (3.4)	462989 (1.7)
新西兰	5 (2.9)	651050 (2.4)
俄罗斯	19日(11.0)	3348825 (12.8)
西班牙	19日(11.0)	3122711 (11.9)

主题模型

对于我们提取的每一篇文章，我们分析了元数据标题和描述的文本内容，以确定该文章是否可以与以下主题之一相关联:猫、运动、默克尔、普京、约翰逊、拜登、特朗普、癌症、气候或COVID-19。选择非covid -19主题是为了提供一个参考，因为预期的报道量很大(即政治家)，涵盖了广泛的情绪(例如，猫是非负的癌症为负)。每个主题都是根据中提出的关键词来确定的表2。我们应用于单词主题识别的唯一标准化是大小写折叠，否则单词不会被词干或词源化。仅用于情感分析的主题-猫，体育，气候和癌症-未被识别为非英语在线新闻来源。

我们为每个主题选择关键词，以最大限度地提高主题识别的精度。因为我们关注的是标题和描述，所以这里提到的特定关键词不太可能与手头的文章无关(例如，明确提到政客的名字)。以COVID-19为例，我们通过识别2015年至2019年前COVID-19时代的COVID-19文章来测试我们的主题检测对主题的错误分类程度。在21,693,591篇文章中，只有7375篇(0.03%)被错误识别为与COVID-19相关，表明所选关键词的准确性很高。在大多数情况下，错误分类源于对封锁的提及，封锁主要与枪支有关，但在英国，封锁甚至与海鸥袭击学校有关。随后确定的子主题对COVID-19报道的不同线索进行了分层，提供了更广泛的关键字集。

表2。关键词用于主题检测。

主题	语言分类关键词
	英语	德国	法国	西班牙语	意大利	俄罗斯
新型冠状病毒肺炎
	冠状病毒	冠状病毒	冠状病毒	冠状病毒	冠状病毒	коронавирус
	covid	covid	covid	covid	covid	covid ковид
	封锁	封锁	封锁 couvre-feu	封锁 confinamiento	封锁 contenimento	封锁 локдаун
	检疫	quarantane	quarantaine	cuarantena	quarantena	карантин
	流感大流行	pandemie	pandemie	大流行病	大流行病	пандемиа
	N/A^一个	电晕-	N/A	N/A	N/A	N/A
默克尔	默克尔	默克尔	默克尔	默克尔	默克尔	默克尔 меркел
特朗普	特朗普	特朗普	特朗普	特朗普	特朗普	特朗普 трамп
拜登	拜登	拜登	拜登	拜登	拜登	拜登 байден
约翰逊	鲍里斯•约翰逊	鲍里斯•约翰逊	鲍里斯•约翰逊	鲍里斯•约翰逊	鲍里斯•约翰逊	鲍里斯•约翰逊 борисджонсон
普京	普京	普京	普京	普京	普京	普京 путин
气候
	全球变暖	- - - - - -^b	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	气候变化	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	气候危机	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
猫
	猫	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	小猫	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
体育运动
	棒球	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	大联盟	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	冠军\ ' s联盟	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	足球	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	国家橄榄球联盟	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	英超联赛	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	篮球	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	足球	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	nba	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -
癌症	癌症	- - - - - -	- - - - - -	- - - - - -	- - - - - -	- - - - - -

^一个答:不适用;这个关键词是德语特有的，因为它的复合性，只在德语新闻来源中发现。

^b的话题气候，猫，体育运动,癌症在非英语在线新闻来源中没有被识别出来，因为它们仅用于情感分析。

我们通过类似的基于关键字的方法进一步确定了COVID-19新闻报道中的子主题。由于许多子主题词可以有多种形式(例如，dead, died和dies)，我们提取与每个子主题相关的词(例如，healthy和healthier都是health的词源);这些内容见表3。如果在提取其标题和描述后，标记对应于中的派生关键字，则将文章标识为属于子主题表3被确认。

表3。COVID-19新闻子主题。

小标题^一个	是关键词
情况下	情况下
危机	crisi
死亡	死,死
疾病	疾病
距离	distanc
恐惧	恐惧
健康	健康
首页	首页
医院	总结
感染	感染
隔离	隔离
封锁	封锁
面具	面具
爆发	爆发
检疫	quarantin
传播	传播
症状	症状
测试	测试
治疗	治疗
疫苗	菌苗

^一个每个子主题都由词干关键字识别(即词干)。

使用维德的新闻文章情感分析

我们使用了一个完善的情感分析工具，Vader [33]，以识别情感两极分化的内容，这种方法以前曾应用于新闻媒体。它适用于文本的短片段，例如元数据中的标题和描述。对于给定的文本，Vader提供了-1到1之间的复合分数，-1表示完全否定，0表示中立，1表示完全肯定。例如，“我觉得你缺乏信心令人不安”这句话的维德得分为-0.42，而“我觉得你缺乏信心令人鼓舞”这句话的维德得分为0.5994。在我们的例子中，单个文章的情感得分由文章标题和描述串联的维德复合得分组成。

新奇的话题与许多特定主题的关键词和短语相关联(例如COVID-19的“社交距离”和“封锁”)。将情感分析应用于具有新颖关键词的文本会导致软件无法正确标注极化。我们评估了维德对文章的情感注释，这些文章被确定为副标题之一表3。这暴露了该工具的一个伪产物，其中“冠状病毒检测阳性”由于“积极”一词而被标记为积极方向的情感两极分化。为了减轻这种特定主题错误分类的影响，在应用维德注释之前，从与冠状病毒检测相关的文章中删除了对称的“阳性”和“阴性”两个词。

估计话题极化:相对情绪偏差

我们通过对比他们的情绪分布来检验一个给定话题的报道是否比另一个话题更具有情感两极化。直接比较不同网络新闻来源之间的话题情绪分布是不可靠的。不同的网络新闻来源可能更耸人听闻、更消极，也可能更温和、更中性，这就产生了截然不同的情绪分布。为了解决这个问题，我们计算了与特定在线新闻来源中的其他文章相比，特定主题的报道是更消极、更积极还是更中立。

对于每一篇文章一个(即该文章的标题和描述元数据)，我们计算了维德复合情绪得分发送(a)。对于所有2020篇文章和主题，在给定的在线新闻来源中，我们计算了维德复合情绪得分的平均值，记为μ_{国家统计局、主题}(在线新闻来源[ONS];作为与主题无关的情绪得分分布的参考统计量，我们计算了给定在线新闻来源中未被识别为给定主题的文章的平均Vader得分，记为μ_{国家统计局、主题}方程(2):

在哪里国家统计局是一个特殊的在线新闻来源，主题是来自表2或表3，国家统计局(主题)关于给定主题的一组文章是否来自特定的在线新闻来源，以及|国家统计局_主题|是该在线新闻来源中给定主题的文章总数。来自特定在线新闻来源的未标识为给定主题的一组文章表示为国家统计局_主题。

对于每个在线新闻来源中的每个主题，我们计算了相对情感偏差(rsskew_{国家统计局、主题})，在给定的在线新闻来源中，主题平均情绪与所有其他文章的平均值之间(方程3)。

相对情绪偏差的设计是为了表明与其他文章相比，特定主题的情绪得分分布是消极的还是积极的两极分化，例如，一个主题有一个积极的(得分+1)和两个消极的文章(得分均为- 1)，还有其他七个非主题文章都是积极的(得分均为+1)。在这种情况下，相对情绪偏差指标rsskew_{国家统计局、主题}是- 1/3 - 7/7 = - 1.33，表示更大的负能量。注意，我们没有考虑样本大小的变化，因为分母通常非常大(即以千为单位)。

2020年四分之一的新闻报道与大流行有关，这表明信息过载

我们通过识别与大流行有关的文章，并将该数字与2020年1月至10月的文章总数进行比较，估计了在线新闻媒体对COVID-19的报道程度。

对于每个在线新闻来源，我们进行了主题检测，如果标题和描述包含特定集合的任何关键字，则将每篇文章的标题和描述分类为与冠状病毒主题covid -19相关表2。简化主题检测模型的关键词选择是为了最大限度地提高内容识别的精度和准确性，避免与其他主题交叉污染。在英语中，这些关键词包括covid，冠状病毒，封锁，检疫,流感大流行，但不是，例如，医院和死亡。关键词针对我们在本研究中使用的六种语言进行了调整:英语、德语、法语、西班牙语、意大利语和俄语(表2)。

新冠肺炎报道占在线新闻来源(1135,561 /4,477,867)的25.3% (图1)。虽然这一比例因国家而异，但始终很大，下限为20%，上限为30%。因此，即使使用我们相对简单的主题检测模型，我们也能够证明2020年在线新闻报道以COVID-19为主。

图1所示。2020年冠状病毒的覆盖范围。我们将所有COVID-19文章的比例计算为所有头版文章的比例。分别计算每个在线新闻来源的比例，然后在国家层面上进行汇总。绿点代表每个在线新闻来源的单独报道。每个方框中的黄线代表中位数;上面和下面的胡须分别代表第75和第25个百分位数。红色虚线表示所有在线新闻来源的平均比例。

为了提供COVID-19报道的参考点，我们确定了媒体定期关注的其他全球话题(表2)。我们选择了唐纳德·特朗普(特朗普)、乔·拜登(拜登)、鲍里斯·约翰逊(约翰逊)、安格拉·默克尔(默克尔)、弗拉基米尔·普京(普京)等主题。不出所料，提到政治家在他们的祖国是最常见的(图S1-S5)多媒体附录1(例如，俄罗斯的弗拉基米尔·普京)。尽管如此，每位政治家在2020年获得的媒体关注比新冠肺炎少了一个数量级。具体来说，11个国家对新冠肺炎的平均报道率为25.66%，而政界人士对特朗普的报道率为2.50%，拜登为0.45%，普京为0.18%，约翰逊为0.17%，默克尔为0.09%。在国家一级，COVID-19的覆盖率也有所提高。尽管2020年是美国的选举年，特朗普在2020年美国在线新闻来源中，这一词的平均提及率为15.29%，而COVID-19的平均提及率为25.91%。此外，2020年美国文章同时提到特朗普和新冠肺炎的平均覆盖率为3.82%。

为了提供媒体对COVID-19关注的时间视角，我们绘制了2020年1月至10月期间全球报道的比例(参见《新冠肺炎》第2节图S6)多媒体附录1)。2020年对COVID-19的关注在3月至5月期间飙升，恰逢许多国家采取了中国的封锁战略和其他保持距离的措施。在欧洲和美国，导致第二波COVID-19浪潮的比例覆盖率没有达到3月至5月的水平，但在我们考虑的地区，覆盖率确实保持在20%以上。这些结果量化了不同国家和语言对COVID-19的媒体关注程度，反映了大流行的全球和长期影响。

COVID-19新闻情绪分析表明报道的异质性

COVID-19新闻报道引发的情绪是社会应对大流行的一个重要因素[25]。我们通过情绪分析来解决这一问题，将每个在线新闻来源的COVID-19新闻与某些参考话题和所有非COVID-19文章的情绪两极分化进行了对比。这种对比可以让我们确定，与参考话题和特定在线新闻来源的其他在线新闻相比，COVID-19报道的情绪分布是否两极分化。

为了量化新闻文章文本的情感内容，我们使用了先前已应用于新闻文章分析的Vader [33，34(参见方法部分)。对于每个主要语言为英语的在线新闻来源(91/ 172,52.9%)，我们为每篇文章的标题和描述创建了Vader注释。我们将文章按其注释主题分组(表2)，以提供与COVID-19情绪的比较。政治家——默克尔、特朗普、约翰逊、拜登和普京——被用作频繁报道主题的参考点。我们还选择了另外四个主题来提供关于积极和消极情绪谱的直观参考点:猫、运动、气候和癌症。的话题猫和体育运动被使用，因为它们不一定与负面情绪有关。的主题也是如此气候-由关键词全球变暖，气候危机和气候变化确定-和癌症被用作参考，我们认为会与负面情绪联系在一起。总的来说，每个在线新闻来源的个人情绪注释按主题之一分组:猫、体育、默克尔、约翰逊、拜登、特朗普、COVID-19和癌症。

对于每个在线新闻来源和话题，我们计算了相对情感偏差统计量(rsskew_{国家统计局、主题};参见方法部分)，它测量在线新闻来源中给定主题的极化。我们注意到有多少话题具有消极或积极的相对情绪偏差值(表4)。对于非政治性的非COVID-19主题(即猫，体育和癌症)，偏度在预期的方向上，这表明它们是评估COVID-19文章情绪的合适参考。我们注意到91个英语在线新闻来源中有74个(81%)的相对情绪偏差值为负。尽管如此，这一观察结果不能被视为显著负极化的证据，因为这些相对情绪偏度值与rsskew=0，表示无极化。对新冠肺炎的平均相对情绪偏差为-0.04 (SD 0.07) (表4)。癌症和新冠肺炎都是疾病，给国民健康带来了很大的负担，从网络新闻中可以看出，两者的情绪分布是相似的。然而，COVID-19的情绪分布不像癌症那样极端，每个在线新闻来源100%为负面，平均相对情绪偏差为-0.53 (SD 0.12)。也许令人惊讶的是，COVID-19文章的情绪分布更类似于气候报道，这是先天的被认为是负面的，类似于癌症，或者由于其对社会的广泛影响而涉及不同主题的主题，如政治家(图2)。然而，这可能是主题相互交织的一个指标:由于国家元首负责大流行应对工作，因此可以预期他们会在与COVID-19有关的问题上被提及。

表4。英语在线新闻来源^一个，在给定主题的2020篇文章中，相对情绪偏差为正(≥0)或负(<0)。

主题	积极的在线新闻来源，n (%)	负面网络新闻来源，n (%)	相对情绪偏差均值	总文章^bn
猫(n = 87)	64 (74)	23日(26日)	0.12 (0.23)	2746
运动(N = 91)	84 (92)	7 (8)	0.12 (0.08)	63155年
拜登(n = 90)	75 (83)	15 (17)	0.09 (0.11)	38949年
约翰逊(n = 90)	57 (63)	33 (37)	0.04 (0.17)	22613年
默克尔(n = 79)	38 (48)	41 (52)	-0.01 (0.25)	2011
COVID-19 (N = 91)	17 (19)	74 (81)	-0.04 (0.07)	589701年
气候(N = 91)	38 (42)	53 (58)	-0.04 (0.11)	7195
普京(n = 88)	33 (38)	55 (63)	-0.05 (0.23)	5179
特朗普(N = 91)	24 (26)	67 (74)	-0.06 (0.09)	157702年
癌症(N = 91)	0 (0)	91 (100)	-0.53 (0.12)	9548

^一个我们总共有91个英语在线新闻来源;但是，如果无法在给定来源中确定某个主题，则将其省略。

^b在所有在线新闻来源中，我们确定与给定主题相关的文章总数。

图2。相对情绪偏差(*rrskew*)。来自每个英语在线新闻来源(ONS)的每篇文章标题和描述的维德情绪复合得分在-1到1之间(分别是最消极和最积极)。我们注意到特定主题的平均情绪与给定在线新闻来源中其他2020文章的平均情绪的差异(*rsskew_{国家统计局、主题}*;参见方法部分)。绘制每个主题的相对情绪偏差密度。如果他们的相对情绪倾向主要是积极的，则分布以绿色表示;如果他们的相对情绪倾向主要是消极的，则分布以红色表示(表4)。颜色的强度通过与红色虚线在0处的距离进行缩放，这表明在给定的在线新闻来源中，主题情绪与所有其他文章之间缺乏差异。

这些结果表明，在线新闻媒体对COVID-19报道的情绪是异质的，当然不像癌症那样明显两极分化，尽管报道的数量可能起作用(参见第3节图S7)多媒体附录1)。一种解释可能是大流行的普遍性，它成为大多数报告的背景。因此，与大流行主题的预期相反，COVID-19文章不能全部归类为完全负面。事实上，平均而言，它们似乎不会在积极或消极的方向上两极分化，特别是与参考主题相比时。这表明，关于COVID-19的报道高度多样化，许多主题构成了信息传递的整体性。

高度情绪负面的子主题占COVID-19报道的16%，表明情绪压力

我们研究了与covid -19相关的标题和描述元数据的文本内容，以揭示与异质性大流行报告相关的主要主题。

我们调查了文章的子主题，并计算了最常用的单词和双引号(即两个单词的连续组合)，以展示在COVID-19报道中最常被提及的内容。对于91个英语在线新闻来源中的每一个，我们计算了与COVID-19相关的文章中单字和双字的排名。文章在每个在线新闻来源中进一步细分为负面(维德得分< -0.2;247,542篇文章)，阳性(维德评分>0.2;192,643篇文章)，或全部(任何维德评分;589709篇文章)。这个细分旨在揭示某些关键词或双字是否更频繁地与不同极化的文本联系在一起。对于每个细分，我们平均了在所有91个在线新闻来源中发现的每个单词和双字母的单个在线新闻来源排名。在表5我们展示了所有91个在线新闻来源中排名前20位的单词和句子。单词和双引号表5揭示许多与冠状病毒直观相关的主题，如检测、疫苗、死亡等。特别是，负面文章有独特的顶词和双引号，直观地与负面情绪联系在一起。在单身人士中，这些是死亡，crisi,恐惧，而大写字母则是covid_crisi，covid_death，coronavirus_death,death_toll-注意单词是有词根的。

为了计算与这些热门主题相关的新闻报道比例，我们根据排名最高的单词和重磅词创建了一组约束的COVID-19子主题表5。我们删除了指向非特异性冠状病毒覆盖范围的术语，例如COVID，冠状病毒，流感大流行,或新闻。我们扩展了子主题列表，以包括那些没有在其中找到的子主题表5但被认为与COVID-19报道密切相关，例如医院，检疫，症状,或隔离，并附有完整的子主题列表表3。对于每个子主题，我们计算了每个在线新闻来源对COVID-19的报道比例(参见第4节中的图S8)多媒体附录1)和每个在线新闻来源对子主题的相对情绪偏差(图S9)多媒体附录1)。每个在线新闻来源的报道手段和情绪是相互对立的图3。的副标题表3占英语在线新闻来源中所有COVID-19文章的67.14%。其中，排名前三的是情况下，封锁,死亡，平均占比分别为9.29%、8.56%和8.08%。图3如图9所示多媒体附录1建议走出情况下，死亡,封锁,只有死亡带着坚定的两极分化的情绪，带着情况下和封锁没有向积极或消极方向明显倾斜的。这句话恐惧，危机,死亡不出所料地显示出大量的负极化(图3)。

我们分析了2020年三个最负面的子主题对新闻情绪的影响，恐惧，危机,死亡（图3)。对于每个在线新闻来源，在删除提到这三个主题之一的文章后，我们计算了所有2020篇文章的平均情绪。对于所有91个在线新闻来源，删除提到前三个负面话题之一的文章导致了统计学上显著的——在Bonferroni修正的0.05水平上——向平均积极情绪的转变(第5节)多媒体附录1)。相比之下，去除所有情感异质性(图2在所有2020篇文章中，91个在线新闻来源中有40个(44%)的平均积极情绪显著转变，91个在线新闻来源中有11个(12%)的平均消极情绪显著转变，91个在线新闻来源中有39个(43%)的在线新闻来源没有统计学上显著的结果。总之，文章中提到恐惧，危机,死亡在91个在线新闻来源的COVID-19文章中，平均占16%;由于其高度两极化的性质，它们可能在塑造社会对这一大流行病的看法方面发挥重要作用。

在三个最负面的话题中，恐惧，危机,或死亡，后者是最常被提及的COVID-19 (图3)。总的来说,死亡在91个英语在线新闻来源的所有报道中，有2.33%的报道提到了COVID-19。所有死亡2020年91个英文网络新闻来源的提及率平均覆盖率为5.74%，而在2015年至2019年疫情前，这一比例为4.07%。因此，我们可以识别它死亡在COVID-19背景下占负相关报道的很大比例，这似乎促成了新闻中的总体死亡报告。

这些结果表明，尽管2020年对COVID-19的总体报道并未因情绪而出现明显的两极分化，但负面新闻在2020年的总体报道中所占比例不小。

表5所示。英语国家的热门词汇和句子。

排名		单词和双字母的极化^一个
		负	所有	积极的
单个词
	1	冠状病毒	冠状病毒	冠状病毒
	2	covid	covid	covid
	3.	pandem	pandem	pandem
	4	新	新	新
	5	名人的	名人的	帮助^b
	6	说	情况下	说
	7	crisi^b	说	名人的
	8	健康	健康	测试
	9	情况下	测试	健康
	10	死亡^b	爆发	情况下
	11	爆发	周	我们
	12	病毒	我们	首页
	13	测试	病毒	周
	14	可以	可以	一个
	15	管理	一天	时间
	16	我们	一个	一天
	17	国家进行	管理	管理
	18	一个	首页	可以
	19	周	国家进行	工作^b
	20.	恐惧^b	时间	爆发
三元
	1	coronavirus_pandem	coronavirus_pandem	case_covid
	2	coronavirus_crisi	case_coronavirus	coronavirus_pandem
	3.	coronavirus_outbreak	case_covid	posit_test
	4	health_public	coronavirus_spread	health_public
	5	posit_test	distanc_social	coronavirus_outbreak
	6	case_coronavirus	health_public	case_coronavirus
	7	coronavirus_spread	covid_test	covid_pandem
	8	coronavirus_new	coronavirus_outbreak	distanc_social
	9	case_covid	covid_pandem	coronavirus_lockdown^b
	10	distanc_social	coronavirus_new	coronavirus_spread
	11	covid_crisi^b	coronavirus_crisi	covid_test
	12	covid_test	case_new^b	covid_vaccin^b
	13	covid_pandem	covid_outbreak	home_stay
	14	coronavirus_due^b	posit_test	coronavirus_test^b
	15	covid_death^b	minist_prime	covid_posit^b
	16	second_wave^b	home_stay	minist_prime
	17	death_toll^b	first_time^b	like_look^b
	18	coronavirus_death^b	around_world^b	covid_outbreak
	19	amid_coronavirus^b	covid_spread^b	coronavirus_new
	20.	two_week	two_week	coronavirus_vaccin^b

^一个对于91个英语在线新闻来源中的每一个，我们计算了最常见的单词和双引号，并根据维德得分对它们进行了分组:>0.2代表积极，< -0.2代表消极，任何得分代表所有。我们对所有在线新闻来源的单词和双引号的排名进行了平均，在这里我们列出了每个细分的前20名。表格中的单词是有词根的。

^b这些条目表示可以在前20名中找到的元素，只能在的特定细分中找到积极的，所有,或负。

图3。COVID-19分主题报道和情绪手段。我们计算了每个小话题的平均覆盖率和平均情绪。覆盖率表示为给定在线新闻来源中的子主题与同一在线新闻来源中所有COVID-19文章的比率的平均值。情绪是所有在线新闻来源的子主题相对情绪偏差的平均值。阴影区域表示相对情绪偏差高于0.2(绿色)、介于0.2和-0.2(白色)之间以及低于-0.2(绿色)的区域。

在这项工作中，我们编制了最大的新冠肺炎新闻数据集，整理了来自11个国家172个主要在线新闻来源头版的2600多万篇文章。我们在SciRide网站上公开了这个数据库[28]。我们首先调查了2020年所有头版文章中与covid -19相关的新闻趋势。接下来，我们使用情绪分析来确定COVID-19的报道是否比其他话题更加两极分化。最后，我们分析了新冠肺炎报道的主要子话题，并评估了他们的情绪两极分化。我们证明，2020年1月至10月期间，传统新闻媒体的头版文章中有25%与COVID-19有关。情绪分析表明，不能简单地根据疾病关联将大流行报道归类为负极化，这表明报告存在异质性。然而，报告负面相关专题的发生率有所增加，特别是关于死亡。我们的研究结果为围绕距离措施的政策沟通提供了数据驱动的基础。

国家行动计划是在疫苗接种和/或治疗方案普及之前减少伤亡的激烈措施。然而，这些方法只有在社会认同的情况下才有效。在大流行期间，民众收到的信息决定了他们是否集体遵守为遏制疫情蔓延而采取的政策。目前，互联网是发达国家人民获取健康信息的主要来源[35]。

全面分析人群收到的COVID-19信息需要彻底分析所有可能的互联网新闻来源以及所有用户对收到的每条信息的接触情况。在线生态系统极其多样化，信息发现渠道遍布传统新闻网站、博客、社交媒体和许多其他渠道。在每一个这样的平台中，信息本身可以采取不同的形式(例如，文本长度和格式)。用户与信息互动的方式也对某条信息获得的关注量及其影响程度有很大影响(例如，在社交媒体上的分享程度或在网站上更显眼的位置)。分析来自所有在线来源的COVID-19信息并不容易处理。

直接访问主要新闻网站占网上媒体消费的76% [29]。这些网站的登录页面隐含地捕获了在线用户可能看到的文章。因此，我们对主要新闻网站头版内容的分析应包括很大一部分形成大流行知识的来源，涵盖不同语言和地区的报道。总的来说，我们从11个国家的172个主要网络流量产生在线新闻来源中收集了2600万篇文章的数据集。

我们确定了与covid -19相关的文章以及选择的其他主题，作为覆盖率和情绪分析的参考点。作为文章之间的标准公分母，我们分析了元数据标题和描述，其中主要主题可以被引用。我们采用了一种简单的主题识别方法，使用有限的关键字提及集。我们选择了有限数量的关键字，以避免一篇文章在其元数据标题和描述(例如，政治家的名字)中引用了相应的主题而不将其作为主题。这避免了对全文中提到的某些主题的间接引用或使用更复杂的主题建模算法可能产生的歧义的警告[36]。与更复杂的主题建模方法，甚至使用更广泛的关键字集不同，我们的方法没有捕获到对这些主题的更微妙的引用，因此我们将低估总覆盖范围。

尽管如此，即使使用我们简单的方法，我们仍然在我们的在线新闻来源的头版上发现了数量可观的COVID-19文章。我们估计，2020年11个国家的头版文章样本中，平均有25%在标题和描述中提到了COVID-19。我们的方法通过不考虑对COVID-19的更微妙的引用而降低了主题识别召回率，并且文章的整体肯定受到检索错误链接的污染，这些链接不是实际的新闻文章。因此，在新闻来源的头版上，引用新冠肺炎的文章的实际比例可能更高。我们设想，对COVID-19等普遍关注的主题的报道数量需要平衡。信息太少可能会使人们信息不足，无法作出适当的反应。过多的报道可能会掩盖对个人了解大流行以及如何保持安全至关重要的信息。

报告大流行病可能具有比其基本信息功能更广泛的影响。目前尚不清楚定期报告病例、伤亡和遏制方法对遵守保持距离规则或心理健康会产生什么影响[19，37-40]。虽然目前的情感分析方法无法识别复杂的细微差别，但它们提供了一个很好的近似文本在情感谱上的位置(即消极，中立或积极)。通过情绪分析，我们发现，与癌症相反，COVID-19的总体报道并没有明显地朝积极或消极的方向两极分化。这与根据大流行病主题可能预期的情况相反，表明报告存在异质性。这种异质性可能是由于大流行的规模之大，其后果已渗透到日常生活的大部分。然而，我们发现，提到死亡、恐惧和危机的负面极化COVID-19文章占大流行文章的16%，其中死亡被最广泛地引用。如此大量的负面相关文章显著地将2020年报道的情绪向负面方向倾斜。

我们的研究结果对COVID-19报告进行了量化，证实了广泛的定性观察结果(例如，大流行受到了前所未有的媒体关注)。我们的分析为形成关于健康传播的讨论提供了见解，以便最大限度地发挥控制政策的效果。我们对前两波卫生传播的回顾性分析表明，信息和情绪超载的迹象可能会模糊对政策的理解。我们希望我们的研究结果将告知如何最好地进行沟通，以便在引入疫苗接种方案时将后续浪潮的风险降至最低。

致谢

感谢美国医学科学院、美国国家卫生研究院(NIHR)生物医学研究中心和英国研究与创新中心。DL承认来自美国国立卫生研究院的“重点新发疾病疫苗功效评估项目”(nih: pr - od -1017- 2002)的资助。我们还要感谢微软的健康人工智能和亚马逊的计算资源AWS。

利益冲突

没有宣布。

‎

多媒体附录1

补充材料。

DOCX文件，5402 KB

李锐，裴生，陈斌，宋勇，张涛，杨伟，等。大量未记录的感染促进了新型冠状病毒(SARS-CoV-2)的快速传播。Science 2020 May 01;368(6490):489-493 [免费全文] [CrossRef] [Medline]
冠状病毒病(COVID-19)每周流行病学更新和每周业务更新。世界卫生组织，2021。URL:https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports[2021-02-25]访问
Hyafil A, Moriña D.封锁对西班牙SARS-Cov-2复制数的影响分析。中国农业大学学报2020年5月23日:1-6免费全文] [CrossRef] [Medline]
刘浩，Khosrawipour V, kochbach P, Mikolajczyk A, Schubert J, Bania J，等。武汉封城对中国遏制新冠肺炎疫情的积极影响中国旅游杂志2020年5月18日;27(3):taaa037 [J]免费全文] [CrossRef] [Medline]
Flaxman S, Mishra S, Gandy A, Unwin HJT, Mellan TA, Coupland H，帝国理工学院COVID-19应对小组，等。估计欧洲非药物干预措施对COVID-19的影响。《自然》;2020;35(6):557 - 561。［CrossRef] [Medline]
刘建军，刘建军，刘建军，等。新型冠状病毒肺炎疫情防控动态分析。社会科学学报，2020;7(11):201726 [j]免费全文] [CrossRef] [Medline]
陈建军，陈建军，陈建军，陈建军，陈建军，等。估计法国SARS-CoV-2的负担。Science 2020; 7月10日;369(6500):208-211 [j]免费全文] [CrossRef] [Medline]
bruner JM, Mindermann S, Sharma M, Johnston D, Salvatier J, gaveniak T，等。推断政府对COVID-19干预措施的有效性。Science 2021 Feb 19;371(6531):eabd9338 [免费全文] [CrossRef] [Medline]
Okell LC, Verity R, Watson OJ, Mishra S, Walker P, Whittaker C，等。由于群体免疫，欧洲死于COVID-19的人数是否停滞不前?柳叶刀2020 june 20;395(10241):e110-e111 [j]免费全文] [CrossRef] [Medline]
Sibley CG, Greaves LM, Satherley N, Wilson MS, Overall NC, Lee CHJ等。COVID-19大流行和全国封锁对信任、对政府的态度和福祉的影响。中华心理医学杂志，2016;31(5):618- 618。［CrossRef] [Medline]
刘强，郑忠，郑健，陈强，刘刚，陈生，等。新冠肺炎疫情早期中国新闻媒体健康传播:数字主题建模方法医学互联网研究2020年4月28日;22(4):e19118 [J]免费全文] [CrossRef] [Medline]
潘绍林，崔敏，钱健。新冠肺炎大流行期间的信息资源协调:基于中国社区封锁的研究。[J]财经杂志，2010;54:10 - 12 .]免费全文] [CrossRef] [Medline]
Brownstein JS, Freifeld CC, Madoff LC。数字疾病检测——利用网络进行公共卫生监测。中华医学杂志;2009;36(2):353 - 357。［CrossRef]
李建军，李建军，李建军，等。基于网络媒体报道的全球传染病监测研究进展。中华医学杂志，2008;15(2):150-157 [J]免费全文] [CrossRef] [Medline]
Hamzah FAB, Lau CH, Nazri H, Ligot DV, Lee G, Tan CL，等。CoronaTracker:全球COVID-19爆发数据分析和预测。世界卫生组织2020年3月19:1 [免费全文] [CrossRef]
Evanega S, Lynas M, Adams J, Smolenyak K.冠状病毒错误信息:量化COVID-19“信息大流行”的来源和主题。JMIR预印本。预印本于2020年10月19日在线发布。［免费全文] [CrossRef]
Madraki G, Grasso I, Otala J, Liu Y, Matthews J.不同语言、国家和平台的COVID-19错误信息特征和比较。出来了。预印本于2020年10月13日在线发布。［免费全文]
Okan O, Bollweg TM, Berens E, Hurrelmann K, Bauer U, Schaeffer D.冠状病毒相关健康素养:德国COVID-19信息大流行期间成年人的横断面研究国际环境与卫生杂志2020年7月30日;17(15):5503 [J]免费全文] [CrossRef] [Medline]
Tavares Lima CK, Moreira de Medeiros Carvalho P, de Araújo Araruna Silva Lima I, de Oliveira Nunes JVA, Saraiva JS, de Souza RI等。冠状病毒2019-nCoV(新型冠状病毒疾病)对情绪的影响。精神病学杂志2020年5月;287:112915 [免费全文] [CrossRef] [Medline]
刘建军，刘建军，刘建军，等。网络健康信息利用与网络新闻曝光对新冠肺炎焦虑的影响。中华精神病学杂志2020年9月28日;22(3):469-482 [J]免费全文]
hamidin Z, Hatami J, Rezapour T.人们对COVID-19新闻的情绪反应:一项在线调查。中华神经科学杂志2020;11(2):171-178 [j]免费全文] [CrossRef] [Medline]
Hung M, Lauren E, Hon ES, Birmingham WC，徐健，苏生，等。COVID-19情绪的社会网络分析:人工智能的应用。[J]互联网研究与发展，2020年8月18日;22(8):559 - 559 [J]免费全文] [CrossRef] [Medline]
尹慧，杨松，李军。基于社交媒体的新冠肺炎疫情话题与情绪动态检测。2020年高级数据挖掘与应用国际会议论文集，发表于:高级数据挖掘与应用国际会议;2020年11月12日至15日;中国佛山，p. 610-623https://arxiv.org/pdf/2007.02304［CrossRef]
张建军，张建军，张建军，等。新型冠状病毒肺炎疫情防控研究进展。欧洲心脏杂志2020 Oct 14;41(39):3782-3783 [J]免费全文] [CrossRef] [Medline]
Aslam F, Awan TM, Syed JH, Kashif A, Parveen M.冠状病毒病(COVID-19)疫情新闻标题引发的情绪和情绪。人文社会科学，2020;07 (1):1-9 [j]免费全文] [CrossRef]
董敏，郑洁。致编辑信:新冠疫情期间网络新闻引发的标题应激障碍。健康预期2020年4月23日(2):259-260 [j]免费全文] [CrossRef] [Medline]
60天环游世界:新冠肺炎疫情对全球网络新闻情绪影响的探索性研究。[J]计算机工程学报，2020，(10):391 - 391 [J]免费全文] [CrossRef] [Medline]
Krawczyk, Volanakis A. SciRide。URL:http://sciride.org[2021-05-09]访问
刘建军，刘建军，刘建军。过滤气泡、回声室和在线新闻消费。公众意见Q 2016年3月22日;80(增刊1):298-320。［CrossRef]
互联网档案馆。URL:http://web.archive.org/[2021-05-23]访问
生物医学文献检索中基于引文的范式研究。科学通报2018;8(1):6193 [j]免费全文] [CrossRef] [Medline]
trampusi M, Novak B.聚合网络新闻源的内部。发表于:第15届国际多会议信息学会;2012年10月8-12日;卢布尔雅那，斯洛文尼亚，221-224页http://library.ijs.si/Stacks/Proceedings/InformationSociety/2012/IS2012_Volume_A.pdf
Gilbert CJ, Hutto E. Vader:社交媒体文本情感分析的精简规则模型。参见:第八届AAAI国际网络日志和社交媒体会议论文集。2014年发表于:第八届AAAI国际网络日志和社交媒体会议;2014年6月1-4日;Ann Arbor, MI . p. 216-225https://www.aaai.org/ocs/index.php/ICWSM/ICWSM14/paper/view/8109/8122
A.财经新闻的情绪分析。在:第十二届国际计算智能与通信网络会议论文集。2020在:第十二届国际计算智能与通信网络会议;2020年9月25日至26日;Bhimtal，印度，第312-315页。［CrossRef]
Lemire M, par G, Sicotte C, Harvey C.网络使用作为个人健康信息首选来源的决定因素。国际医学杂志，2008,11(11):723-734。［CrossRef] [Medline]
李建军，李建军。主题同质性测量及其在基于词典的词义消歧中的应用。2008年第22届国际计算语言学会议论文集，发表于:第22届国际计算语言学会议;2008年8月18日至22日;曼彻斯特，英国，273-280页。［CrossRef]
Jobes D, Berman A, O'Carroll P, Eastgard S, Knickmeyer S. Kurt Cobain自杀危机:来自研究、公共卫生和新闻媒体的视角。自杀生活威胁行为1996;26(3):260-269;讨论269 - 271。［Medline]
媒体名人与公共卫生:对“魔术师”约翰逊披露艾滋病信息的回应及其对艾滋病风险和高危行为的影响。卫生通讯1995年10月;7(4):345-370。［CrossRef]
Berry TR, Wharf-Higgins J, Naylor PJ。SARS战争:新闻媒体中卫生信息的数量与结构考察。卫生通讯2007;21(1):35-44。［CrossRef] [Medline]
Weitz JS, Park SW, Eksin C, Dushoff J.意识驱动的行为改变可以使流行病的形状从峰值转向平稳期、肩部和振荡期。中国科学:自然科学通报，2020;33 (5):357 - 357 [j]免费全文] [CrossRef] [Medline]

‎

GDELT:事件，语言和语气的全球数据库

NIHR:国家健康研究所

NPI:药物干预

国家统计局:在线新闻来源

RSS:非常简单的联合

rsskew：相对情绪偏差

C . Basch编辑;提交28.02.21;黄杰、陈斌等同行评议;给作者的评论01.04.21;收到修改版本18.04.21;接受18.04.21;发表02.06.21

©Konrad Krawczyk, Tadeusz Chelkowski, Daniel J Laydon, Swapnil Mishra, Denise Xifara, Benjamin Gibert, Seth Flaxman, Thomas Mellan, Veit Schwämmle, Richard Röttger, Johannes T Hadsund, Samir Bhatt。原载于医学互联网研究杂志(//www.mybigtv.com)， 02.06.2021。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

量化在线新闻媒体对COVID-19大流行的报道:文本挖掘研究和资源