JMIR公共卫生与监测-中国社交媒体上COVID-19疫情特征:探索性研究

原始论文

¹武汉大学信息管理学院，中国武汉

²福州大学经济管理学院，福州

通讯作者:

马肥成，硕士

信息管理学院

武汉大学

武昌区八一路299号

武汉,

中国

电话:86 13507119710

电子邮件:fchma@whu.edu.cn

背景:新冠肺炎疫情在社交媒体上迅速传播，对人民健康和治理体系构成重大威胁。

摘要目的:本研究旨在调查和分析中国主要社交媒体平台上与COVID-19错误信息相关的帖子，以描述COVID-19信息疫情。

方法:我们使用PythonToolkit收集了2020年1月20日至5月28日在中国主要社交媒体平台上发布的与COVID-19错误信息相关的帖子。我们使用内容分析来确定流行帖子的数量和来源，并使用主题建模来聚类与COVID-19信息大流行相关的主题。此外，我们还探讨了COVID-19信息大流行的数量、来源和主题特征。

结果:与COVID-19信息大流行相关的社交媒体每日帖子数量与每日新确诊病例数量呈正相关(r= 0.672,P<.01)和新怀疑(r= 0.497,P<.01) COVID-19病例。新冠肺炎疫情呈现渐进发展的特点，可分为潜伏期、爆发期、僵持期、控制期、恢复期5个阶段。新冠肺炎疫情信息大流行的来源可分为聊天平台(1100/2745,40.07%)、视频分享平台(642/2745,23.39%)、新闻分享平台(607/2745,22.11%)、医疗保健平台(239/2745,8.71%)和问答平台(157/2745,5.72%)5种类型，各阶段略有差异。新型冠状病毒肺炎疫情相关主题分为8类:“阴谋论”(648/2745,23.61%)、“政府应对”(544/2745,19.82%)、“预防行动”(411/2745,14.97%)、“新增病例”(365/2745,13.30%)、“传播途径”(244/2745,8.89%)、“起源与命名”(228/2745,8.30%)、“疫苗与药物”(154/2745,5.61%)、“症状与检测”(151/2745,5.50%)，在不同阶段差异显著。此外，新冠肺炎疫情还呈现出反复波动的特征。

结论:我们的研究发现，中国社交媒体上的新冠肺炎疫情具有渐进性、视频化和反复波动的特征。此外，我们的研究结果表明，COVID-19疫情的传播与COVID-19疫情的传播是平行的。我们追踪了中国社交媒体上的新冠肺炎疫情，为疫情特征提供了重要的新见解，并指出了防控新冠肺炎疫情的机会。

JMIR公共卫生监测2021;7(2):e26090

doi: 10.2196/26090

关键字

新型冠状病毒肺炎； infodemic； infodemiology；疫情；错误信息；传播特征；社交媒体；中国；探索性；传播

背景

随着COVID-19大流行的继续发展，我们经历了COVID-19信息大流行的平行增长[1，2］．这种信息泛滥是指COVID-19错误信息导致的信息过剩现象，这些错误信息在社交媒体上迅速传播，并在当前大流行期间引起了政府和卫生机构的广泛关注[3.，4］．信息大流行加剧了大流行，伤害了更多的人，并危及全球卫生系统的覆盖面和可持续性[5，6］．因此，世界卫生组织(世卫组织)将其称为COVID-19流行病伴随的疾病[7］．

" infodemic "一词由词根" information "(信息)和" epidemic "(流行病)两个词组合而成，由Eysenbach于2002年首创[8]，当时全球爆发了严重急性呼吸系统综合症。直到世卫组织总干事于2020年2月15日在慕尼黑安全会议上重新提出“信息疫情”一词，该词才开始被更广泛地使用，并总结了COVID-19虚假信息对我们社会构成的挑战[9］．在本研究中，“信息大流行”一词指的是一种信息过剩现象，即缺乏与COVID-19疫情相关的可靠、值得信赖和准确的信息，导致COVID-19错误信息在各种社交媒体平台上迅速传播。[10］．因此，COVID-19信息大流行也被称为COVID-19错误信息大流行[11］．

Misinformation指没有科学证据和专家意见支持的言论[12］．这一定义解释了misinformation可以作为一个伞形概念来解释不同类型的不正确信息，如虚假信息、假新闻、误导性信息、谣言和轶事信息，无论其真实性和欺骗性的程度如何[13］．将错误信息与流行病联系起来的研究正在出现[14］．在许多情况下，错误信息与负面的公共卫生结果相关，包括寨卡病毒的传播[15]以及世界上许多国家中可用疫苗预防的传染病[16］．另一个突出的例子是COVID-19大流行。例如，Nsoesie和Oladeji [17调查了COVID-19大流行期间错误信息对公共卫生的影响。他们发现，COVID-19的错误信息阻止了人们展示有效的卫生行为，削弱了公众对卫生保健系统的信任。因此，应对COVID-19错误信息需要紧急关注。

全球通过手机访问社交媒体的人数不断增加，导致错误信息的产生以及获取错误信息的可能方式呈指数级增长，从而导致了信息大流行。过去，信息传染病曾与埃博拉病毒和寨卡病毒等流行病同时发生[18，19］．但是，新冠肺炎疫情与之前的疫情有很大不同。它被报道为“第一次真正的社交媒体信息大流行”[20.］．这也是第一次通过社交媒体广泛传播的信息大流行，并对公众健康产生了重大影响[21］．到2020年初，超过38亿人使用社交媒体[22］．此外，社交媒体是最受欢迎的信息传播和分发媒体之一，在危机期间，社交媒体的使用率激增了20%-87% [23］．最近，牛津大学路透社研究所调查了错误信息的传播情况，发现大多数(88%)关于COVID-19的错误信息来自社交媒体[24］．在意大利，2020年3月，社交媒体上每天发布的约4.6万个帖子与COVID-19错误信息有关[25］．

在中国，新冠肺炎疫情更为严重[26］．三分之二的中国人使用社交媒体，大约87%的用户在COVID-19危机期间遇到了相关的错误信息[27］．在中国社交媒体上传播的虚假信息包括:复方中药和板蓝根可以治疗新冠肺炎;食用甲醇、乙醇或漂白剂可以保护或治愈COVID-19;肺炎疫苗可以预防SARS-CoV-2;吃大蒜可以杀死病毒;5G移动网络传播了COVID-19 [28］．此外，中国是第一个经历新冠肺炎疫情的国家。18］．2019年12月，中国报告了首例COVID-19病例[29］．在随后的几周里，新型冠状病毒的迅速传播引起了社交媒体用户越来越多的讨论。无数未经证实的与COVID-19有关的故事、建议和治疗方法在中国社交媒体平台上流行并飙升[30.］．

COVID-19信息大流行非常令人担忧，因为所有社交媒体用户都可能受到影响，这对公共卫生构成了严重威胁[31］．一项研究显示，由于社交媒体上传播的COVID-19错误信息，有5800人住院[32］．更严重的是，饮用纯酒精可以治愈COVID-19的错误信息导致数百人中毒死亡[33］．此外，社交媒体上的信息大流行也可能导致用户采取不当行动，危及政府和卫生机构管理COVID-19的努力，引发恐慌和仇外情绪[2，34］．

鉴于COVID-19疫情对社交媒体，尤其是中国社交媒体的负面影响，政府和卫生机构需要评估中国社交媒体上的COVID-19疫情。因此，在本研究中，我们旨在通过收集2020年1月20日至5月28日在中国社交媒体上发布的与COVID-19虚假信息相关的帖子，分析COVID-19信息疫情的数量、来源和主题特征。具体来说，我们使用内容分析来分析COVID-19信息疫情的数量和来源。然后，我们使用主题建模来分析信息大流行的各种主题。最后，我们探讨了COVID-19信息大流行的数量、来源和主题特征。

之前的作品

之前的研究调查了其他国家社交媒体上信息学的分布和主题。例如，Oyeyemi等人[352014年9月1日至7日，她使用推特搜索引擎收集有关埃博拉病毒的帖子。他们发现，58.9%的帖子被认定为虚假信息。此外，该研究表明，错误信息在社交媒体上很猖獗，对用户的影响比正确信息更大。同样，Tran和Lee [36调查了埃博拉疫情的传播，发现错误信息在社交媒体上比正确信息传播得更广。格洛瓦基等人[37进一步收集了由美国疾病控制和预防中心发起的关于寨卡病毒的实时推特聊天帖子。他们应用主题建模，得出了以下10个与寨卡病毒流行相关的主题:“寨卡病毒的病毒学”、“传播”、“对婴儿的后果”、“聊天的推广”、“预防和旅行预防措施”、“病毒的教育和测试”、“对试图怀孕的孕妇的后果”、“驱虫剂”、“性传播”和“症状”。

随着全世界致力于抗击COVID-19，包括社交媒体和定量分析在内的许多领域都开展了积极的研究。例如，Kouzy等[11评估了在推特上传播的COVID-19信息大流行的来源特征。他们使用描述性统计分析了推特账户和帖子特征，发现66%关于COVID-19疫情的虚假信息是由未经认证的个人或群体账户发布的，19.2%是由经过认证的推特用户账户发布的。此外，他们指出，COVID-19信息流行病正在社交媒体上以惊人的速度传播。“COVID-19信息疫情观测站”的另一项研究发现，机器人产生了约42%的与大流行相关的社交媒体帖子，其中40%被认为是不可靠的[38］．同样，布鲁诺·凯斯勒基金会分析了1.12亿个关于COVID-19信息的社交媒体帖子[26］．结果显示，40%的信息来自不可靠的来源[22］．与此同时，Moon等人[39]收集了2020年1月1日至4月30日在YouTube上发布的200个点击率最高的关于新冠肺炎的韩语视频。他们发现，37.14%的视频包含错误信息，由用户生成的独立视频显示的错误信息比例最高，为68.09%，而所有政府生成的视频都被认为是有用的。此外，Naeem等人[23他们选择了2020年1月1日至4月30日在各种社交媒体平台上以英语发布的1225条关于COVID-19的错误信息，并使用开放编码方案对这些数据进行编码。他们得出的结论是，COVID-19信息大流行的主题特征包括“虚假声明”、“半支持的阴谋论”、“伪科学疗法”、“关于诊断”、“治疗”、“预防”、“起源”和“病毒传播”。

目标

越来越多的研究开始强调社交媒体上的新冠肺炎疫情。然而，目前还缺乏对COVID-19疫情在社交媒体上，特别是在中国社交媒体平台上传播的特征进行描述的尝试。因此，在本研究中，我们使用内容分析和主题建模来分析中国社交媒体平台上的COVID-19信息疫情，以获得随着时间推移信息疫情的数量、来源和主题特征的新见解，并提出遏制COVID-19信息疫情期间虚假信息传播的措施。

数据收集

本研究的数据库来自清博大数据机构[40，涵盖了中国几乎所有主要社交媒体平台的数据，如微信、微博和抖音。收集的帖子包括在这些社交媒体平台上分享的微博、信息或短文。我们检索帖子数据的搜索策略包括以下中文关键词:“冠状病毒”、“2019-nCoV”、“COVID-19”、“冠状病毒”、“新型肺炎”和“新冠”。我们使用PythonToolkit抓取从2020年1月20日到5月28日使用上述关键词搜索的数据。数据收集过程如下。首先，我们搜索了清博大数据机构，获得了结果页面。其次，启动网页链接爬虫，收集所有网页的标题和URL字段。第三，这些字段存储在MongoDB数据库的url_list数据集中。第四，启动网页详情爬虫，收集详情页面的帖子发布时间、来源和文本字段。最后，将这些字段存储在MongoDB数据库的info_list数据集中。 After data collection was completed, datasets url_list and info_list from the MongoDB database were exported. It should be noted that for video-sharing platforms, the textual description of the video was captured as the post data. Data collection began on January 20, 2020, when the Chinese State Council officially announced the COVID-19 epidemic as a public health emergency [31］．2020年5月28日，中华人民共和国国家卫生健康委员会发布中国新冠肺炎新增确诊病例和疑似病例首次为零，数据收集工作结束。这一数据收集期可以反映新冠肺炎疫情在中国社交媒体上的整体传播情况。

检索了所有关于COVID-19帖子的数据，共提取了723216个帖子。为了提高数据的代表性，我们从字段中删除了不完整的数据，并删除了长度超过400个汉字的文本[41]，从而获得共143,197个帖子的数据。由于这些帖子大部分是转发，我们只保留了19,188条原始帖子数据。我们通过以下2个步骤验证了post数据的真实性。一是通过国家卫生健康委员会、中国疾病预防控制中心、国家互联网信息办公室等权威机构进行事实核查。我们只保留了那些被判断为虚假的帖子，并从1729个帖子中获取了数据。接下来，两名独立研究人员审查并评估了剩下的帖子。其中一人是图书馆与信息科学专业的博士生，另一人是医学学士。两位研究人员之间的分歧通过相互讨论解决了。采用Cohen kappa系数分析审稿人间信度进行编码。科恩对两位研究人员的Kappa值为0.79，表明他们之间有很大的一致性[42］．最终，我们获得了2745篇与COVID-19错误信息相关的帖子作为本研究的最终分析样本，这是研究团队在现有资源下能够获得的最大数据集。文章数据按时间顺序进行组织和存储，并记录标题、URL、文章日期、来源和文本。表1详细说明为分析收集的帖子的数据格式。

表1。中国社交媒体新冠肺炎虚假信息帖子(部分)数据格式

标题	URL	发布日期	源	文本
新任命的!一篇了解新型冠状病毒的文章…	https://mp.weixin.qq.com/s?src=11×tamp=1598007513&ver..。	2020-01-20	微信	武汉病毒是长期存在的SARS冠状病毒
高度关注!武汉肺炎持续蔓延，北京2例，深圳1例，公众应…	https://mp.weixin.qq.com/s?src=11×tamp=1598005483&ver..。	2020-01-20	微信	自称是医务人员的微信用户说:“我们医院有几例病例，已被严格隔离。据说80%的病例是SARS病例……
北美生物信息学研究员崔天阁微博转发:新冠病毒…	https://m.weibo.cn/status/4463141235003931?sudaref..。	2020-01-21	微博	…武汉的“神秘疾病”已被确认为新型SARS病毒，或武汉病毒与SARS相似性高达90%…
微博_#钟南山院士团队推荐盐水漱口杀毒#…	https://weibo.com/5044281310/IqH405BUW?type=comment..。	2020-01-22	微博	钟南山院士建议用盐水漱口预防新型冠状病毒感染
关于武汉肺炎的六件事…	https://zhuanlan.zhihu.com/p/103781132..。	2020-01-22	乎	武汉病毒是一种新型非典病毒。非典还没有消失，还寄生在蝙蝠身上……
破灭!“武汉肺炎”患者从协和医院逃出…	http://news.sina.com.cn/c/2020-01-22/doc-iihnzhha4099491..。	2020-01-22	新浪	“武汉肺炎”患者从协和医院逃出后失联…

数据处理

我们使用Python(3.8.5版本)和SPSS软件(25.0版本;IBM公司)执行所有数据处理和分析。借鉴Zhao等人实践的时间分割[18]，将时间段划分为19个时间段(T₁: 2020年1月20日至26日;T₂: 2020年1月27日至2月2日;T_3.: 2020年2月3日至9日;T₄: 2020年2月10日至16日;T₅: 2020年2月17日至23日;T₆: 2020年2月24日至3月1日;T₇: 2020年3月2日至8日;T₈: 2020年3月9日至15日;T₉: 2020年3月16日至22日;T₁₀: 2020年3月23日至29日;T₁₁: 2020年3月30日至4月5日;T₁₂: 2020年4月6日至12日;T₁₃: 2020年4月13日至19日;T₁₄: 2020年4月20-26日;T₁₅: 2020年4月27日至5月3日;T₁₆: 2020年5月4日至10日;T₁₇: 2020年5月11日至17日;T₁₈: 2020年5月18日至24日;和T₁₉: 2020年5月25日至28日)。其中，最后一个时间段为4天，其他时间段为7天，共130天。

基于CNNIC(中国互联网络信息中心)对社交媒体网站的分类[43]，帖子来源分为聊天平台、视频分享平台、新闻分享平台、健康医疗平台和问答平台5类。聊天平台包括微信、微博和QQ。这些视频分享平台包括抖音、快手和梨视频。这些新闻分享平台包括今日头条、新浪和腾讯。健康护理平台包括DXY.cn、好猫网、春雨医生等。问答平台包括知乎、豆瓣和剑术(见中国社交媒体类型和主要社交媒体网站的完整列表)多媒体附件1)。

Python中的“jieba”包用于分割发布文本。我们将文章的词性限定为9类(“n”、“nr”、“ns”、“nt”、“eng”、“v”、“vn”、“vs”和“d”)。我们采用了Medford等人所描述的方法[29)，将同义词合并为统一形式(如“消毒液粉”、“消毒液水”改为“消毒剂”，“停业”、“终止营业”改为“停业”)。使用Python中的Gensim包进行潜狄利克雷分配(latent Dirichlet allocation, LDA)模型。一篇文章只包含一个主要主题。我们使用不同数量的主题迭代训练多个LDA模型，以最大化主题一致性得分。经过10多次测试，选取了8个题目LDA模型一致性得分最高的结果。每个主题包含15个遵循惯例的单词，并手动标记一个主题。

数据分析

我们从数量、来源和主题三个方面探讨了中国社交媒体新冠肺炎疫情的特征。从数量上来看，我们从中国疾控中心官网统计了每天的帖子数，并获得了每天新增确诊病例数和疑似病例数。通过Pearson相关分析，探讨每日发文数与每日新增确诊病例数和疑似病例数之间的关系。此外，我们计算了每个时间段的最大、最小、上四分位数、下四分位数和中位数，并将其可视化，以直观地评估帖子传播的特征。从来源和主题的角度，我们根据帖子的出现次数来计算帖子的来源和主题。此外，我们将每个时间段的帖子来源数量可视化，以分析COVID-19信息疫情的来源特征。然后，我们创建了一个可视化的帖子主题的时间段，以评估主题随时间的变化。

数量特征

图1显示2020年1月20日至5月28日在中国社交媒体上发布的与COVID-19错误信息相关的每日帖子数。每天发布的最大帖子数为105篇，最小帖子数为3篇(平均值21.12，标准差17.35)。Pearson相关分析显示，与新冠肺炎疫情相关的每日帖子数与每日新确诊病例数呈正相关(r= 0.672,P<.01)和新怀疑(r= 0.497,P<.01)中国的COVID-19病例。换句话说，每天发布的与COVID-19错误信息相关的帖子越多，COVID-19疫情的严重程度就越大，反之亦然。

图1。中国社交媒体平台上每天发布的与新冠肺炎有关的虚假信息的数量。不同颜色的线表示发布的帖子数量。

我们使用箱形图来描述不同时间段的社交媒体帖子的传播情况(图2)。我们发现，各岗位呈现出渐进性的扩散特征。即帖子数首先随着时间段缓慢增加，然后集中在爆发，然后随着时间段的继续推进逐渐减缓。此外，中国社交媒体上的新冠肺炎疫情可以分为5个时期(见《中国日报》)表2)。在潜伏期(A期:T期₁- t₂)，帖子数量增长缓慢，平均及中位数约为每天20条。然后，在疫情爆发期间(B阶段:T3-T4)，帖子数量迅速增加，平均值和中位数飙升至每天约50个。在相持时期(阶段C: T₅- t₈)，帖数维持在较高水平，平均及中位数约为每天30篇。在对照期(D期:T₉- t₁₅)，帖数大幅下降，平均及中位数约为每天14篇。最后，在恢复期(E阶段:T₁₆- t₁₉)，而平均值及中位数仍维持在每天约7个。

表2。根据中国社交媒体相关帖子的数据，分析了COVID-19疫情的时间段。

后规	潜伏期	爆发期	僵局期间	控制时间	恢复期
段时间	T₁- t₂	T_3.- t₄	T₅- t₈	T₉- t₁₅	T₁₆- t₁₉
平均(SD)(天)	20.14 (11.72)	50.64 (25.89)	31.89 (10.56)	14.02 (5.18)	6.69 (2.55)
范围	6-52	18 - 105	12-58	3-25	3 - 14
中位数(IQR)(天)	18 (12.75 - -24.25)	54 (23 - 63.75)	30 (24.75 - -39.25)	14日(10 - 18)	7 (5 - 8)

源特征

在被分类的与COVID-19错误信息相关的帖子中(图3)，聊天平台(1100/ 2745,40.07%)是COVID - 19信息大流行的最大来源，其次是视频分享平台(642/ 2745,23.39%)和新闻分享平台(607/2745,22.11%)。医疗保健平台(239/2745,8.71%)和问答平台(157/2745,5.72%)占比相对较小。

我们将每个时间段的帖子来源数量可视化(图4)。聊天、视频分享和新闻分享平台是孵化期内帖子传播的主要来源(T₁- t₂)。随后，这些帖子开始向疫情期间的医疗保健和问答平台扩散(T_3.- t₄)。此后，这些帖子在所有社交媒体平台上广泛传播，并在相持期间保持在较高水平(T₅- t₈)。在对照期(T₉- t₁₅)，聊天和视频分享平台上的帖子传播呈上升和下降趋势，而新闻分享、医疗保健和问答平台上的帖子传播呈明显下降趋势。最后，在恢复期间，聊天平台上帖子的传播也逐渐下降(T₁₆- t₁₉)，而在其他社交媒体平台上的传播量大幅下降，维持在较低水平。

图4。每个时间段内社交媒体帖子来源的数量。不同颜色的圆点代表不同的源，其大小代表源的比例。

主题特征

主题建模确定了8个不同的主题，在图5．中显示了每个主题及其潜在主题标签的15个关键字表3．基于LDA分析，我们为每篇文章获得了一个特定的主题。每个主题的受欢迎程度是根据每个主题的帖子占比来确定的，考虑到整体的帖子数据。最常见的主要主题是“阴谋论”(648/2745,23.61%)，其中包括“钟南山院士查楼不戴口罩”、“李兰娟院士帮儿子卖药”、“李文亮医生生前跳舞”、“武汉火神山是日本人设计的”等话题。排在第二位的主题是“政府应对”(544/2745，占19.82%)，其中包括“2020年1月25日下午2时，河南信阳将全面封城”、“武汉将关闭加油站”、“湖北荆州将暂停签发出鄂证”等主题。此后，讨论的主题为“预防行动”(411/2745,14.97%)和“新病例”(365/2745,13.30%)，其中包括“戴多层口罩可以预防病毒”、“抽醋可以预防病毒”、“武汉中百超市6名推广人员被确诊为新型冠状病毒肺炎”、“青岛新增确诊密切接触者2万余人”等主题。其他常见主题包括“传播途径”(244/2745,8.89%)以及“起源和命名”(228/2745,8.30%)。这些主题包括:“柳絮可以传播COVID-19”、“COVID-19是一种生物武器”和“COVID-19是由实验室制造的”。其他主题包括“疫苗和药物”(154/2745,5.61%)、“症状和检测”(151/2745,5.50%)，包括“CT图像被用作判断COVID-19诊断的最新标准”、“屏住呼吸10秒，测试是否感染病毒”、“首个COVID-19疫苗成功研制并注射”、“羟氯喹和氯喹是COVID-19的特异性药物”等主题。

表3。组成主题模型的主题标签和关键字。

主题标签	对主题模型有贡献的关键词
起源和命名(#0)	COVID-19, SARS，冠状病毒，SARI，宿主动物，蝙蝠，穿山甲，变异，瘟疫，流感，自然世界，人造，生物武器，实验室，零病人
传播路径(#3)	5G、海鲜、气溶胶、柳絮、蚊子、纸币、自来水、水产品、公厕、毛衣、空调、宠物狗、淡水鱼、三文鱼、地铁票
预防行动(#4)	预防、口罩、消毒剂、酒精、N95、氯、白酒、洋葱、大蒜、醋、茶、烟、草莓、眼药水、香脂
新增病例(#1)	感染、病例、确诊、疑似、患者、隔离、医院、社区、机场、酒店、学校、养老院、学生、老人、婴儿
症状和检测(#7)	检测，检测阳性，咳嗽，发热，门诊，ct，肺，血型，血浆，抗体，诊断试剂盒，自检，窒息，无症状，咳痰
政府回应(#5)	封城、封路、封锁、健康码、生活物资、出行、网络、交通、交通管制、居家隔离、通行许可、复工、开学、海关、入境
疫苗和药物(#6)	疫苗、氯喹、瑞德西韦、阿奇霉素、双黄连口服液、莲花清温胶囊、板蓝根、奥司他韦、阿奇霉素、阿司匹林、安宫牛黄丸、中药、卡介苗、毒株、热药
阴谋论(2)	钟南山、李兰娟、李文亮、雷神山、火神山、唐纳德·约翰·特朗普、模块化医院、医生、护士、在线课程、献血、自杀、逃跑、医疗队、清洁工、红十字会

使用Python中的“Pyecharts”包根据时间段绘制主题热图(图6)。我们发现，在COVID-19信息大流行的每个阶段都讨论了不同的热门主题。“起源和命名”的主题从潜伏期开始(T₁- t₂)。在疫情爆发期间，社交媒体上围绕“政府应对”、“新病例”和“传播途径”等主题展开了辩论_3.- t₄)。“阴谋论”和“症状与检测”的讨论在僵持期显著增加(T₅- t₈)。在对照期(T₉- t₁₅)，集中讨论“预防行动”。随后，“疫苗和药物”主题成为康复期间社交媒体讨论的焦点(T₁₆- t₁₉)。

图6。2019冠状病毒病(COVID-19)疫情相关主题热度图。图中的数据表示每个时间段内每个主题的帖子数量。矩阵中的各个值根据该时间段内关于特定主题的帖子(范围)的数量用不同的背景颜色表示。

我们进一步发现，COVID-19信息大流行呈现出跨时段重复波动的传播特征。如图6，每个主题在时间段内被重复，主题讨论率逐渐降低。例如，“政府回应”这一主题不仅出现在T时段₂- t₆，但也分布在时间段T₈- t₉T₁₁- t₁₂T₁₄，和T₁₇．此外，我们还确定了每个主题在时间段内的重复帖子数(参见表4)，计算出重复发布的总比例为0.2849(782/2745)，即28.49%的帖子在各个时间段内被重复发布。这再次验证了新冠肺炎疫情在不同时间段内反复波动的传播特征。其中，“阴谋论”(198/648,30.6%)、“新病例”(110/365,30.1%)、“预防行动”(121/411,29.4%)主题重复率最高，其次是“政府反应”(157/544,28.9%)、“起源与命名”(63/228,27.6%)、“传播途径”(64/ 244,26.2%)。然而，"疫苗和药物"(37/ 154,24%)和"症状和检测"(32/ 151,21.2%)主题的重复率相对较低。通过方差分析和事后分析分析主题重复的差异，发现主题重复有显著性差异(F=2.402，P= .02点)。事后测试显示，“阴谋论”主题比“症状和检测”主题更显著(P<.01)和主题"疫苗和药物" (P= .04点)。但是，在"症状和检测"主题与"疫苗和药物"主题之间没有发现显著差异(P= 29)。

表4。按主题分类的重复帖子的百分比。

主题分类	职位数量	重复发文数	重复岗位(%)
阴谋论	648	198	30.56
疫苗和药品	154	37	24.03
政府的反应	544	157	28.86
症状和检测	151	32	21.19
新发病例	365	110	30.14
预防行动	411	121	29.44
传播途径	244	64	26.23
起源和命名法	228	63	27.63
总计	2745	782	28.49

主要研究结果

据我们所知，这项研究是首次分析中国社交媒体平台上与COVID-19疫情相关的帖子。之前关于社交媒体上COVID-19信息大流行的研究主要是定性的[1，7］．在这项研究中，我们分析了2020年1月20日至5月28日期间在中国社交媒体平台上发布的2745条关于COVID-19信息疫情的帖子，这些帖子的累计阅读量超过1亿次。我们从数量、来源、主题等角度分析了中国社交媒体新冠肺炎疫情的各种特征，为政府和卫生机构提供决策支持。下面，我们将讨论我们研究中值得注意的5个主要发现。

首先，有趣的是，中国社交媒体上与COVID-19虚假信息相关的每日帖子数量与新确认的每日数量呈正相关(r= 0.672,P<.01)和新怀疑(r= 0.497,P<.01)中国的COVID-19病例。这一发现表明，COVID-19信息大流行与中国COVID-19疫情的传播平行。我们的发现与之前对微博上H7N9疫情相关微博的研究相似，即微博日发布的微博数量与每日因感染H7N9而死亡的人数呈正相关[44］．

第二，我们发现新冠肺炎疫情具有渐进发展的特征，可分为5个阶段。在潜伏期(T₁- t₂)，由于新冠肺炎病例仅在武汉报告，疫情增长缓慢。随后，在疫情爆发期间，COVID-19信息大流行迅速增加(T_3.- t₄)，随着新冠肺炎开始在中国蔓延，在社交媒体上引起了大量的公众讨论。此后，随着COVID-19病例数量的持续增加，COVID-19疫情在僵持期维持在较高水平(T₅- t₈)。在对照期(T₉- t₁₅)，由于COVID-19病例数量显著下降，COVID-19疫情也明显下降。最后，在恢复期(T₁₆- t₁₉)，随着新冠肺炎病例的不断减少，新冠肺炎疫情普遍减少。

第三，我们的研究发现，COVID-19信息疫情的特点是视频化。新冠肺炎疫情的信息来源可分为聊天、视频分享、新闻分享、医疗保健和问答平台5种类型。其中，视频分享平台(23.38%)是仅次于聊天平台的第二大来源。“眼见为实”的传播模式正在抑制公众对新冠肺炎疫情的认识。此外，这可能是信息大流行的一种新的传播特征。此外，我们发现COVID-19信息大流行在聊天、视频分享和新闻分享平台上比在医疗保健和问答平台上更普遍。对这种差异的一种可能解释是，在聊天、视频分享和新闻分享平台上，用户倾向于更集中地发布个人经历，这通常可能是不准确的，而更专业的专业知识可能会在医疗保健和问答平台上分享。

第四，我们发现新冠肺炎疫情的主题在不同阶段具有不同的传播特征。在潜伏期，用户发布了大量关于“起源和命名”的帖子(T₁- t₂)，逐渐转变为疫情期间的“政府应对”、“新病例”、“传播途径”等主题(T_3.- t₄)。随后，在僵持期，主题变为“阴谋论”和“症状与检测”(T₅- t₈)，然后在控制期逐步集中于“预防行动”主题(T₉- t₁₅)。最后，在恢复期(T₁₆- t₁₉)，主题改为“疫苗和药物”。这种现象符合网络舆论在一定时期内会导致主题变化的特点[45，46］．

第五，我们的研究发现，新冠肺炎疫情呈现反复波动的特征。这表明，对社交媒体上的新冠肺炎疫情的治理是一场“持久战”。之前的研究也指出，反驳错误信息的效果通常持续不到一周[47，48］．此外，我们发现COVID-19信息大流行主题的重复率也因时间段而异。“阴谋论”主题明显比“症状与检测”和“疫苗与药物”主题更为活跃。一种可能的解释是，“阴谋论”主题比“症状和检测”和“疫苗和药物”主题包含更多不确定的知识。因此，用户更倾向于重复“阴谋论”主题的帖子。

关于遏制中国社交媒体上COVID-19信息疫情的实际影响，我们的研究结果表明，政府和卫生机构应该分阶段管理信息疫情，并在社交媒体上传播准确和专业的信息，以改善虚假信息的传播。例如，专家批准或同行评审的视频有望提供可靠的健康信息。此外，政府和卫生机构必须密切关注信息疫情在视频分享平台上的传播。三是与社交媒体公司协调，建立疫情防控长效机制。例如，社交媒体平台可以通过对重复错误信息设置警报标签，并定期向用户推送纠正信息，来遏制COVID-19错误信息的重复传播。此外，社交媒体可能为政府和卫生机构提供评估和预测流行病爆发趋势的新机会。

限制

这项研究有一些局限性。首先，我们针对中国社交媒体上的帖子;因此，我们的结论可能不适用于其他国家的社交媒体平台，比如Twitter。其次，我们只收集和分析了所有关于COVID-19信息大流行的帖子的相关子集，这不可避免地会引入一些选择偏差。第三，随着新冠肺炎疫情信息的持续传播，我们应该延长时间，扩大数据量，为政府和卫生机构提供更全面的防控对策。此外，我们对infodemic的重复分析还不够充分，我们将在未来的研究中进一步探讨这一有趣的现象。

结论

我们的研究发现，中国社交媒体上的新冠肺炎疫情具有渐进性、视频化和反复波动的特征。我们的研究结果表明，COVID-19信息大流行与COVID-19流行病的传播平行。这些发现可以帮助政府和卫生机构与主要社交媒体公司合作，制定有针对性的措施，预防和控制中国社交媒体上的COVID-19疫情。此外，社交媒体为政府和卫生机构提供了监测流行病爆发的新机会。

致谢

感谢国家自然科学基金(No. 71420107026)的资助。

作者的贡献

SZ和FM对研究设计进行了概念化。SZ和NN收集并分析了数据。SZ、FM、WP对结果进行解读并撰写稿件。SZ、FM、WP、YL对稿件进行了修改。所有作者都已阅读并批准了最终稿。

利益冲突

没有宣布。

‎

多媒体附件1

不同类型的中国社交媒体和主要社交媒体平台。

PDF档案(adobepdf档案)，163kb

布坎南·m·管理信息大流行。物理学报2020 Sep 03;16(9):894-894。［CrossRef］
庄奕云，郑海海，陈海林，钱伟文，黄仕思。COVID-19大流行、信息大流行和电子卫生素养的作用。Int J Nurs Stud 2020 Aug;108:103644 [免费全文] [CrossRef] [Medline］
唐charoensathien V, Calleja N, Nguyen T, Purnat T, D'Agostino M, Garcia-Saiso S，等。COVID-19信息大流行管理框架:世卫组织在线众包技术咨询的方法和结果。J Med Internet Res 2020年6月26日;22(6):e19659 [免费全文] [CrossRef] [Medline］
Cuan-Baltazar JY, Muñoz-Perez MJ, Robledo-Vega C, Pérez-Zepeda MF, Soto-Vega E. COVID-19在互联网上的错误信息:信息流行病学研究。JMIR公共卫生监测2020年4月09日;6(2):e18444。［CrossRef] [Medline］
马丁内斯-华雷斯LA，塞达斯AC，奥克特M，博帕尔R.各国政府和国际机构应紧急关注COVID-19暴露和造成的不公平差异。EClinicalMedicine 2020年6月;23:100376 [免费全文] [CrossRef] [Medline］
李俊杰，姜坤，王明民，赵淑珍，王志华，奥康纳，等。COVID-19错误信息暴露和信念与COVID-19知识和预防行为之间的关系:横断面在线研究J Med Internet Res 2020年11月13日;22(11):e22205 [免费全文] [CrossRef] [Medline］
Zarocostas J.如何对抗信息疫情。柳叶刀2020年2月;395(10225):676。［CrossRef］
信息流行病学:(错误)信息的流行病学。美国医学杂志2002年12月18日;113(9):763-765 [免费全文] [CrossRef］
慕尼黑安全会议。世界卫生组织2020年2月15日。URL:https://www.who.int/director-general/speeches/detail/munich-security-conference[2020-09-27]访问
世卫组织管理COVID-19信息大流行的特设技术磋商:行动呼吁。世界卫生组织2020年4月7-8日。URL:https://apps.who.int/iris/bitstream/handle/10665/334287/9789240010314-eng.pdf[2020-09-27]访问
郭志刚，张志刚，张志刚，张志刚，等。冠状病毒病毒式传播:量化推特上COVID-19错误信息的流行。治愈2020年3月13日;12(3):e7255 [免费全文] [CrossRef] [Medline］
Bode L, Vraga EK。看到什么，说什么:纠正社交媒体上的全球健康错误信息。卫生交流2018年9月33日(9):1131-1140。［CrossRef] [Medline］
李勇，张CMK，沈旭，李mko。社交媒体上的健康错误信息:文献综述。社交媒体上的健康错误信息;2019出席:第23届亚太信息系统会议;2019年7月8日至12日;中国西安p. 8-12网址:https://scholars.cityu.edu.hk/en/publications/health-misinformation-on-social-media (991 aef31 - 8 d00 - 43 - b9 b8fc - 7321 e35c2f86) . html
周伟，吴A，克莱因WMP。解决社交媒体上有关健康的错误信息。JAMA 2018 12月18日;320(23):2417-2418。［CrossRef] [Medline］
Carey JM, Chi V, Flynn DJ, Nyhan B, Zeitzoff T.关于疾病流行和爆发的纠正性信息的影响:来自巴西寨卡病毒和黄热病的证据。Sci Adv 2020 Jan;6(5):eaaw7449 [免费全文] [CrossRef] [Medline］
拉森HJ。最大的大流行风险是什么?病毒的错误信息。自然2018 10月;562(7727):309-310。［CrossRef] [Medline］
Nsoesie EO, Oladeji O.识别流行病期间防止错误信息传播的模式。BMJ 2020 Apr;349:g6178。［CrossRef］
赵颖，程晟，余旭，徐慧。中国公众在社交媒体上对新冠肺炎疫情的关注:观察性描述性研究。J Med Internet Res 2020年5月;22(5):e18825 [免费全文] [CrossRef] [Medline］
如何对抗信息大流行:信息大流行管理的四大支柱。J Med Internet Res 2020 Jun 29;22(6):e21820 [免费全文] [CrossRef] [Medline］
新冠病毒是第一次真正意义上的社交媒体“信息大流行”。《麻省理工科技评论》2020年2月12日。URL:https://www.technologyreview.com/2020/02/12/844851/the-coronavirus-is-the-first-true-social-media-infodemic/[2020-09-30]访问
mheidy N, Fares J.利用媒体和卫生传播策略克服COVID-19信息大流行。J公共卫生政策2020年12月;41(4):410-420 [免费全文] [CrossRef] [Medline］
数字2020:38亿人使用社交媒体。《We Are Social》2020年1月30日。URL:https://wearesocial.com/blog/2020/01/digital-2020-3-8-billion-people-use-social-media[2020-09-30]访问
Naeem SB, Bhatti R, Khan A.探索假新闻如何接管社交媒体，并将公众健康置于危险之中。健康资讯图书馆J 2020年7月:e [免费全文] [CrossRef] [Medline］
徐强，沈震，Shah N, Cuomo R，蔡敏，Brown M，等。COVID-19大流行早期阶段来自中国武汉的微博社交媒体帖子特征:定性内容分析JMIR公共卫生监测2020年12月07日;6(4):e24125 [免费全文] [CrossRef] [Medline］
COVID-19错误信息的类型、来源和声称。路透社研究所2020年4月7日。URL:https://reutersinstitute.politics.ox.ac.uk/types-sources-and-claims-covid-19-misinformation[2020-10-02]访问
Hollowood E, moa, C-19时代的假新闻。2020年3月23日。URL:https://members.tortoisemedia.com/2020/03/23/the-infodemic-fake-news-coronavirus/content.html[2020-10-02]访问
姜松。信息大流行:新冠肺炎谣言传播与应对研究。2020年2月;15(1):70-78 [免费全文] [CrossRef］
新冠肺炎(COVID-19)公众建议。中国疾病预防控制中心。URL:http://www.chinacdc.cn/jkzt/crb/zl/szkb_11803/jszl_2275/index_17.html[2020-10-02]访问
Medford RJ, Saleh SN, Sumarsono A, Perl TM, Lehmann CU。“信息大流行”:利用大量推特数据来了解公众对COVID-19疫情的情绪。medRxiv 2020:e [免费全文] [CrossRef］
Ngai CSB, Singh RG, Lu W, Koon AC.应对COVID-19健康危机:传播策略的内容分析及其对社交媒体上公众参与的影响。J Med Internet Res 2020 Aug 24;22(8):e21360 [免费全文] [CrossRef] [Medline］
Tasnim S, Hossain MM, Mazumder H.社交媒体上关于COVID-19的谣言和错误信息的影响。《预防医学公共卫生》2020年5月;53(3):171-174 [免费全文] [CrossRef] [Medline］
由于Covid-19的错误信息，“数百人死亡”。英国广播公司。伦敦;2020年8月13日。URL:http://m.theindependentbd.com/post/251574[2020-10-07]访问
冠状病毒:伊朗数百人因饮用甲醇而死亡，有假报道称甲醇可以治病。《独立报》2020年3月27日URL:https://www.independent.co.uk/news/world/middle-east/iran-coronavirus-methanol-drink-cure-deaths-fake-a9429956.html[2020-10-07]访问
伪科学和COVID-19——我们已经受够了。自然2020年4月27日:e。［CrossRef] [Medline］
Oyeyemi SO, Gabarron E, Wynn R.埃博拉，推特和错误信息:一个危险的组合?BMJ 2014 10月14日;349:g6178。［CrossRef] [Medline］
Tran T, Lee K.了解公民反应和埃博拉相关信息在社交媒体上的传播。纽约:IEEE;2016年8月发表于:2016 IEEE/ACM社会网络分析与挖掘进展国际会议(ASONAM);2016年8月18日至21日;加利福尼亚州旧金山[CrossRef］
Glowacki EM, Lazard AJ, Wilcox GB, Mackert M, Bernhardt JM。确定公众的担忧和疾病控制和预防中心在健康危机期间的反应:对寨卡病毒直播推特聊天的分析。中国感染控制杂志2016年12月1日;44(12):1709-1711。［CrossRef] [Medline］
Sharma D, Pathak A, Chaurasia RN, Joshi D, Singh RK, Mishra VN。抗击信息疫情:印度需要强大的卫生新闻。糖尿病代谢综合征2020;14(5):1445-1447 [免费全文] [CrossRef] [Medline］
文浩，李永华。YouTube上韩国语covid -19相关医疗信息的评价:横断面信息流行病学研究J Med Internet Res 2020 Aug 12;22(8):e20775 [免费全文] [CrossRef] [Medline］
清博大数据机构。URL:http://www.gsdata.cn/[2020-10-01]访问
朱斌，郑旭，刘浩，李娟，王鹏。新冠肺炎疫情话题社交媒体情绪大数据时空特征分析。混沌孤子分形2020 11月;140:110123 [免费全文] [CrossRef] [Medline］
Olmos M, Antelo M, Vazquez H, Smecuol E, Mauriño E, Bai J.腹腔疾病骨折患病率观察性研究的系统回顾和荟萃分析。肝脏病2008年1月40(1):46-53。［CrossRef] [Medline］
第45次中国互联网发展状况统计报告。中国互联网络信息中心。2020。URL:http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202004/P020200428399188064169.pdf[2020-10-10]访问
顾华，陈斌，朱辉，姜涛，王霞，陈林，等。互联网监测在突发公共卫生事件控制和预防中的重要性:来自H7N9禽流感暴发期间数字流行病学研究的证据J Med Internet Res 2014 1月17日;16(1):e20 [免费全文] [CrossRef] [Medline］
韩旭，王杰，张敏，王旭。利用社交媒体挖掘和分析中国新冠肺炎相关舆论。国际环境与公共卫生杂志2020年4月17日;17(8):2788 [免费全文] [CrossRef] [Medline］
Boon-Itt S, Skunkan Y.公众对推特上COVID-19大流行的看法:情绪分析和主题建模研究。JMIR公共卫生监测2020年11月11日;6(4):e21978 [免费全文] [CrossRef] [Medline］
拉普DN。阅读不准确信息的后果。心理科学2016年8月10日;25(4):281-285。［CrossRef］
Chan MS, Jones CR, Hall Jamieson K, Albarracín D.揭穿:信息对抗错误信息的心理功效的元分析。心理科学2017 11月;28(11):1531-1546 [免费全文] [CrossRef] [Medline］

‎

LDA:潜在狄利克雷分配

人:世界卫生组织

G·艾森巴赫(G Eysenbach)编辑;提交27.11.20;同行评议:王旭，陈琳;对作者06.12.20的评论;订正版本收到13.12.20;接受15.01.21;发表05.02.21

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，http://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

中国社交媒体新冠肺炎疫情信息疫情特征的探索性研究