JMIR公共卫生和监测- COVID-19大流行早期来自中国武汉的微博社交媒体帖子的特征:定性内容分析

原始论文

¹美国加州大学圣地亚哥分校医疗保健研究与政策部——延伸部，加州拉霍亚

²全球卫生政策和数据研究所，加州圣地亚哥，美国

^3.S-3研究有限责任公司，圣地亚哥，加利福尼亚州，美国

⁴美国加州大学圣地亚哥分校雅各布斯工程学院计算机科学硕士课程

⁵美国加州大学圣地亚哥分校医学院麻醉科

⁶美国大使馆，国家癌症研究所，国家卫生研究院，北京，中国

⁷美国加州大学圣地亚哥分校医学院麻醉科、传染病和全球公共卫生学部

通讯作者:

蒂姆·麦基，硕士，博士

麻醉科及传染病与全球公共卫生科

医学院

加州大学圣地亚哥分校

拉霍亚大道8950号

A124

La Jolla, CA, 92037

美国

电话:1 951 491 4161

电子邮件:tmackey@ucsd.edu

背景:全球新冠肺炎确诊病例已达4000万例。鉴于它的迅速发展，研究它的起源以更好地理解人们的知识、态度和反应是如何随时间演变的是很重要的。一种方法是对与信息曝光和用户自我报告体验相关的社交媒体对话进行数据挖掘。

摘要目的:本研究旨在通过分析来自新浪微博平台的中文数据，刻画疫情暴发初期震中地区社交媒体用户的知识、态度和行为特征。

方法:我们使用网络抓取技术收集了2019年12月31日至2020年1月20日武汉用户发布的包含与covid -19相关关键词的公共微博帖子。然后，我们使用归纳式内容编码方法对所有帖子进行手动注释，以识别特定的信息源和关键主题，包括关于疫情的新闻和知识、公众情绪以及公众对控制和应对措施的反应。

结果:我们从8703名独立微博用户中识别出10159条COVID-19帖子。在我们的三个父母分类领域中，67.22% (n=6829)包括新闻和知识帖子，69.72% (n=7083)包括公众情绪，47.87% (n=4863)包括公众反应和自述行为。这条微博同时表达了许多这样的主题。新闻和知识帖子的子主题遵循了四个不同的时间线，并证明随着获得更多信息，疫情的严重性有所升级。公众情绪主要集中在焦虑的表达上，但也发现了一些愤怒的表达，甚至是积极的情绪。公众的反应包括保护性行为和增加健康风险的行为。

结论:从2019年12月下旬宣布出现不明原因的肺炎和呼吸道疾病，到2020年1月20日发现人际传播，我们观察到公众对COVID-19存在大量焦虑和困惑，包括用户对新闻的不同反应、接触信息后的负面情绪，以及转化为自我报告行为的公众反应。这些发现提供了对COVID-19知识、态度和行为变化的早期洞察，并有可能为中国及其他地区未来的疫情沟通、应对和政策制定提供信息。

JMIR公共卫生监测2020;6(4):e24125

doi: 10.2196/24125

关键字

新型冠状病毒肺炎； infodemiology； infoveillance； infodemic；微博；社交媒体；内容分析；中国；数据挖掘；知识；的态度；行为

这种新型冠状病毒于2019年12月首次记录在案，被认为起源于中国湖北省武汉市，并迅速成为上个世纪全球最大的公共卫生威胁，同时也是对全球预防、诊断、治疗和控制一种高度传播疾病准备工作的重大考验。截至2020年10月底，这种新型冠状病毒(COVID-19)大流行已影响到189个国家和地区，确诊病例超过4000万例，并在不断增加，全球死亡人数超过100万[1］．其中包括来自中国的91772例确诊病例[2]，其中68139例病例起源于武汉，50340例病例起源于武汉[3.，4］．

考虑到中国人口众多、湖北省人口密度高，且疫情恰逢农历新年，COVID-19疫情源于中国并从中国蔓延，中国采取了重大公共卫生应对措施，包括强制隔离、社区和社会隔离，以及新建两家医院[5］．尽管采取了这些积极措施，但在疫情暴发之初，人们对其结构、病因、传播动态以及遏制COVID-19传播所需的适当公共卫生措施知之甚少。对COVID-19的大部分基本了解，包括它是一种新型冠状病毒的事实，都是在1月份出现的，当时疫情迅速蔓延到中国大陆。

随着COVID-19疫情现在成为全球大流行，迫切需要更好地了解疾病的起源，以及可以从由于信息暴露或缺乏信息暴露而引起的公众反应以及人们随后对所实施的公共卫生措施的反应中学到什么教训。其中一种方法是利用电子媒介中的数据来补充传统的流行病学监测措施，也称为"信息监测" [6］．来自社交媒体平台的数据代表了这些信息监控数据层之一，可以被收集和分析，以接近实时地衡量公众的知识、态度和行为。这包括过去的研究，利用社交媒体来更好地评估公众对H1N1、寨卡病毒和埃博拉等疫情的反应[7-12］．

在COVID-19的早期阶段，由于大多数全球社交媒体平台(如Twitter、Facebook、Instagram和Reddit)在中国被封锁，因此需要对中国流行的社交媒体网站进行信息监控。因此，中国的社交媒体活动主要发生在两个平台上:微信和新浪微博。微信是一款在中国很受欢迎的即时通讯服务，用户可以在上面私下交流，而新浪微博(估计有4.8亿活跃用户，通常简称为“微博”)更像是一个发布公开帖子的微博平台。据报道，2018年，57%的微博用户为男性，43%为女性[13］．从年龄来看，23-30岁用户最多(40%)，其次是18-22岁(35%)，31-40岁(14%)，16-17岁(6%);只有5%的使用者年龄超过41岁[13］．这些人口统计数据通常与其他流行的微博平台(如Twitter)相似，后者的功能和目的是直接可比的。具体而言，微博用户可以随时发布相关信息并进行公开互动，这是一个可访问的重要信息监控数据源，可用于描述新冠肺炎不同阶段的用户体验和对话。

利用这一数据源，其他研究使用微博帖子来描述对话并分析公众情绪，包括评估是否可以更好地模拟或描述COVID-19疫情的各个方面[14-21］．一项研究评估了微博上的用户讨论，发现在疫情暴发初期，公众对适当的卫生资源和设备有需求[22］．我们小组之前的研究已经确定了武汉微博用户讨论的COVID-19主题，包括对疫情起源的不确定性，对疾病传播特征的担忧不断变化，以及对政府疫情应对的不同反应。其他研究开发了模型，以更好地衡量中国微博用户对COVID-19的公众舆论，并评估当局是否对疫情爆发给予了足够的警告和关注[17］．最后，最近的一项研究使用信息监测方法跟踪互联网搜索和微博讨论在每日病例发病率数据增加之前达到峰值的情况，另一项研究使用微博确定疑似COVID-19病例的特征及其寻求帮助的行为[18，23］．

我们的研究试图通过利用微博来更好地理解与COVID-19大流行相关的中国用户情绪和行为，从而为这一不断增长的文献体系增添新的内容。具体而言，本研究的目的是对疫情爆发早期来自武汉用户的中文微博帖子进行深入定性分析，以表征可能与公众情绪和对疫情的反应变化相吻合的新闻和用户知识类型。本研究采用跨学科方法，采用计算机科学、公共卫生和定性分析方法。

数据收集

为了充分挖掘政府、媒体和中国用户在武汉分享和传播的COVID-19疫情早期话题和信息，本研究首先收集了新浪微博上的社交媒体帖子，然后对收集的所有帖子进行了深入的定性内容分析。定性分析用于识别和表征从最初宣布不明原因肺炎到武汉市实施隔离的用户知识、态度和对行为的影响。这项研究的总体目标是确定和描述位于这场全球大流行零点的关键专题讨论和公众反应。

从2019年12月31日开始，我们使用了一个用编程语言Python构建的自动网页scraper来收集微博平台上的中文(繁体中文和简体中文)公开帖子。该编程脚本使用平台高级搜索功能上的预设设置来收集时间和地理过滤数据。过滤器包括与covid -19相关的关键词，收集武汉市用户帖子的地理限制，以及2019年12月31日至2020年1月20日的时间段。本研究使用了与covid -19相关的中文关键词作为过滤器，包括新型冠状病毒(新型冠状病毒)、武汉肺炎(武汉肺炎)、不明原因肺炎(不明原因的肺炎)，以及其他与疫情早期相关的单词:华南海鲜市场(武汉海鲜批发市场)和严重急性呼吸系统综合征(SARS)。收集的数据包括帖子的文字内容、用户和帐户信息以及帖子的日期和时间。为本研究目的收集的信息属于公共领域，网络抓取仅用于研究目的。我们的研究没有披露任何个人身份信息，因为我们已经从数据集和汇总结果中删除了标识符。因此，本研究不需要伦理批准，因为我们依赖于公开数据，不包括任何可识别信息，不包括用户之间的任何私人信息，微博用户与研究人员之间没有互动。

定性内容分析

微博允许用户发布最多2000个字符的微博，包括图片、视频和其他多媒体，用户也可以转发消息。这些特点(特别是与其他微博平台相比，微博的字数更高)允许用户的帖子涉及多个主题，并对问题进行丰富的定性讨论。为了充分捕捉和准确分类与新冠肺炎相关的微博讨论话题，我们对收集到的所有微博进行内容分析，对微博中的文字进行人工标注。

我们的内容分析的重点是检测位于武汉的中国社交媒体用户在接触政府信息源时的知识、态度和信仰相关主题;新闻和媒体;特别是，在当地、国家和全球范围内，对疫情演变过程中发生的事件的反应。感兴趣的具体主题包括与公众焦虑、困惑、担忧和基于covid -19相关发展的行为适应相关的对话和用户反应。

内容分析采用归纳编码方法进行，主要是因为现有的COVID-19中文数据定性分析很少[17，24］．因此，这种开放的编码方法允许我们直接根据观察到的微博帖子创建自己的编码分类。这是通过将数据集组织成在整个研究期间分层的分组样本，基于分组数据集的广义样本进行第一轮内容编码，创建父类和子类的初始代码本，重读样本并应用代码和分类，重复这些步骤，直到所有数据编码完成。

首先，两名编码员(第一作者和第二作者)独立使用二进制编码方法(即相关与不相关)过滤与COVID-19相关的帖子，并排除与疫情无关的帖子。然后，我们使用主题内容分析编码方法，由两名编码员随机选择200篇文章，然后独立编码用于父主题分类，以代表基线主题领域或兴趣，并用于折叠重叠或不常见的类别。然后，我们结合独立编码的数据集，并基于这些初始分类创建了一个代码本。然后编码员独立地手动注释本研究中收集的所有帖子，并将新消息分类为已识别的父主题以及现有和新的子主题。通过这个过程，我们选择父主题和子主题分类，通过合并相关主题、去除重复主题和评估主题并发性来分解不常见的类别。

我们首先确定了一般相关性的帖子，将其二进制编码为与COVID-19主题相关或不相关。在排除了不相关的帖子，并考虑到微博帖子的下划线结构后，我们将帖子分为三个大致的信息源分类:(1)仅包含政府或新闻和媒体来源信息的帖子，(2)仅包含用户生成的评论的帖子，以及(3)同时包含政府/新闻和用户生成的评论的帖子。

然后，我们总结了在我们的随机时间分层帖子样本中最初确定的三个母分类领域的帖子内容:(1)关于疫情的新闻和知识，(2)用户对疫情的公众情绪(使用一组初始的中文极性词汇，包括积极、消极和中性[25]，并根据与我们的开放式归纳编码方法的相关性和对健康主题的关注进行选择;看到文本框1)，以及(3)公众对控制和应对措施的反应。在这些父分类中，主题的子分类是基于健康信念模型，其中构建感知易感性和严重性，以及对用户生成的帖子探索行动线索[26，27］．在分析每篇文章的文本并考虑一篇文章涵盖多个主题之前，我们根据前面提到的父类分类将消息分成不同的主题组。这包括根据信息源分离内容。

我们还评估了微博帖子的其他特征，包括随时间发生的话题的时间变化，并评估了其他用户对帖子的反应。通过分析用户对帖子反应的相对数量和内容，我们可以观察到自COVID-19爆发之初公众态度的变化，并衡量这些反应是如何随着时间的推移而变化的，具体到随着疫情的发展而出现的新闻和事件。对于公众情绪和公众反应分类，时间平稳性评估使用增强迪基-富勒检验。对于非平稳类别，然后建立回归模型，以确定线性和指数关系的统计显著性，线性拟合(线性R²)和指数拟合(Cox和SnellR²)比较阈值α=.05下的关系。

正面、中性和负面词汇列表。

积极的词汇

完美(完美)
实用(实用)
强大(强大)
好(好)
Clear(清晰)
可靠(可靠的)
可信(值得信任的)
权威(权威性的)
自信(自信的/有信心的)
Fast(快的)
安全(安全的)

中性词汇

已知(知道/听说)
建议(提出的)
调查(调查的)
公布(公布)
已确认(确认的)
现有(存在)
安静(安静的)
不关心(不在乎)

消极词汇

坏(差)
穷(烂)
可怕(坏)
失望(失望)
慢(慢)
不工作(不行)
害怕(可怕的)
假货(假的)
愤怒(生气的)
不清楚(模糊的)
Nervous(紧张的)

文本框1。正面、中性和负面词汇列表。

数据

在21天的研究期间，我们收集了武汉的10814条微博。在独立编码所有这些帖子后，第一和第二编码器之间的结果可靠性得分相对较高(κ=0.892)。第一作者和第二作者对编码分类的分歧进行了讨论，并就正确的分类达成共识。收集到的最古老的帖子日期是2019年12月31日上午12:31(中国标准时间)，最后收集到的帖子日期是2020年1月20日晚上11:00。在对帖子进行手动注释后，我们筛选出了655条与COVID-19疫情无关的帖子(占总数据集的6.06%)，并检索了10159条与COVID-19讨论直接相关的帖子(93.94%)，这些帖子由8703名独立微博用户组成。

日发文量最大的一天(n=2804)是在我们研究期的最后一天(2020年1月20日)，最低的一天(n=101)是在2020年1月7日，平均每天发文量为484个(标准差684.12，中位数280)。在10159个相关帖子中，4155个(40.90%)仅为政府资讯及新闻及媒体来源的帖子，3330个(32.78%)为用户自创评论帖子，2674个(26.32%)同时包含政府及媒体资讯及用户自创内容(见图1)．

图1。按信息源类别和事件时间轴(2019年12月31日至2020年1月20日)分列的与COVID-19疫情相关的微博帖子数。疾病控制和预防中心;新型冠状病毒感染的肺炎;国家卫生健康委员会;PCR:聚合酶链式反应;武汉市卫生健康委员会;卫生组织:世界卫生组织。

我们的内容分析结果被分解为描述我们的三个母分类领域的发现:新闻和知识、公众情绪和公众反应。新闻和知识通常被定义为来自不同信息源的包含COVID-19疫情信息的帖子。相比之下，公众情绪被定义为用户对有关COVID-19的新闻和政府官方信息来源的总体态度和情绪。最后，公众反应反映了用户在接触COVID-19信息时采取的行动或行为，并由用户自行报告。我们注意到，三种母类分类通常同时出现在一条微博中，导致一条微博被分为多个母类和子主题。

新闻及知识

我们检索并编码了64篇独特的新闻和知识文章，相关子主题共包含6829篇文章(占本研究全部10159篇文章的67.22%;看到文本框2对于post示例和文本框3对于已确定的代表性子主题)。然后，我们将所有这些新闻和知识主题分为四个主要主题领域:(1)病原体相关新闻和知识(包括新型冠状病毒来源、病原体识别过程、传播途径、新病毒命名等);(2)疫情流行病学特征(包括确诊病例数、重症监护患者数、病死率、疑似病例数、武汉内外确诊病例数、境外报告病例数);(3)官方或个人建议的防护措施(包括政府的建议和寻求免受病毒感染的个人决定)，以及政府为应对COVID-19疫情所采取的行动的信息。

在6829篇包含新闻和信息的文章中，我们根据归纳编码方案从2997篇(43.89%)文章中确定了18个子主题，用于第一个主题领域(病原体和疾病)下的类别。在总共21天的研究期内，这些帖子出现在16天内。在第二类(疫情流行病学特征)中，我们从20天内确定的3726个(54.56%)帖子中确定了24个主题。在第三个主题领域(有效的保护措施)，我们从375个(5.49%)帖子中确定了3个主题，这些帖子在我们的数据收集期内仅发生了5天。最后一个主题区域(政府应对COVID-19疫情的行动信息)涵盖了来自4155个帖子(37.08%)的19个主题，共发生在14天内。

每个研究主题领域的示例语言(带有英文翻译)。

有关病原体的新闻

截至7日21时，专家组认为，本次不明原因的病毒性肺炎病例的病原体初步判定为新型冠状病毒。四种冠状病毒在人群中较为常见，致病性较低，一般仅引起类似普通感冒的轻微呼吸道症状。另外两种冠状病毒——严重急性呼吸综合征冠状病毒和中东呼吸综合征冠状病毒,也就是我们简称的非典冠状病毒和即冠状病毒,可引起严重的呼吸系统疾病。引起此次疫情的新型冠状病毒不同于已发现的人类冠状病毒，对该病毒的深入了解需要进一步科学研究。”
英文翻译:“截至7日21:00，专家组认为，该不明原因病毒性肺炎病例的病原体初步确定为新型冠状病毒。有四种冠状病毒在人群中更常见，致病性较低，通常只引起类似普通感冒的轻微呼吸道症状。另外两种冠状病毒——严重急性呼吸综合征冠状病毒和中东呼吸综合征冠状病毒，我们称之为SARS冠状病毒和中东呼吸综合征冠状病毒，可以导致严重的呼吸系统疾病。导致疫情爆发的新型冠状病毒与已经发现的人类冠状病毒不同，进一步了解这种病毒需要进一步的科学研究。”

武汉确诊病例数、重症监护病例数、病死率、疑似病例数、境内外确诊病例数

“国家,省市专家组对收入医院观察,治疗的患者临床表现,流行病学史,实验室检测结果等进行综合研判,初步诊断有新型冠状病毒感染的肺炎病例41例,其中已出院2例,重症7例,死亡1例,其余患者病情稳定。所有密切接触者739人，其中医务人员419人，均已接受医学观察，没有发现相关病例
“国家、省、市专家组对住院观察治疗患者的临床表现、流行病学史、实验室检测结果等进行了综合研究判断，初步诊断新型冠状病毒感染的肺炎41例，其中出院2例，重症7例，死亡1例。其余患者情况稳定。739名密切接触者(包括419名医务人员)均已接受医学观察，未发现相关病例。”

个人建议的防护措施

希望大家重视，重在预防，戴口罩戴口罩戴口罩·早晚各量一次体温·出门戴口罩,勤洗手·咳嗽或打喷嚏时捂住口鼻·将肉蛋彻底做熟·避免与呼吸道患者密切接触·避免近距离接触野生动物或活牲畜·不要随地吐痰·尽量避免人流量密集场所。”
英文翻译是:“我希望每个人都能关注它，注重预防，戴口罩，戴口罩，戴口罩·早晚量体温，外出戴口罩，勤洗手，咳嗽或打喷嚏时要掩口鼻，肉类要彻底煮熟，避免呼吸道接触患者·避免近距离接触野生动物或活体动物·不要随地吐痰·尽量避开人群密集的地方"

政府为应对COVID-19疫情所采取的行动

9日，湖北省卫健委称，武汉机场，铁路，公路等多地开始对人群进行体温检测。武汉12306热线表示旅客进站会有热敏仪器对体温进行检测。”
英文翻译:“9日，湖北省卫健委表示，武汉机场、铁路、公路等地开始对人群进行体温检测。武汉12306热线称，乘客进站时将有体温仪检测体温。”

文本框2。每个研究主题领域的示例语言(带有英文翻译)。

新闻和知识类别的代表性主题和子主题。

病原和疾病(2019年12月31日- 2020年1月20日)

了解“不明原因肺炎”、“非典”、“中东呼吸综合征”、冠状病毒等知识
讨论人与人之间的传播
排除了季节性流感、禽流感、SARS、MERS等常见呼吸道病原体的潜在致病因子
确诊病例出现症状
这种疾病的病原体可能来自野生动物
新型冠状病毒病原初步鉴定并命名为2019-nCoV
家庭聚集性传播

疫情流行特征(2020年12月31日- 2020年1月20日)

武汉境内外疑似确诊病例
讨论是否有卫生工作者感染病例报告
武汉市发现不明原因肺炎
患者健康状况
因与确诊病例接触而接受公共卫生监督的人数
武汉报告死亡病例
患者报告与武汉海鲜批发市场有过接触
武汉市卫健委公布的确诊病例总数、重症监护总人数、公共卫生隔离总人数、死亡总人数

官方或个人推荐的有效防护措施(2020年1月4日至11日)）

建议人们戴口罩，避开人群，洗手
中药预防感染
建议人们不要去武汉旅游

政府对COVID-19疫情的反应(2019年12月31日至2020年1月20日)

武汉市中心医院公布的SARS确诊病例不属实
官方公布有关“不明原因肺炎”的最新资料
部分地区出现口罩短缺
武汉海鲜批发市场调查
世界卫生组织不建议对中国实施旅行或贸易限制
中国和其他国家政府对新冠肺炎疫情的反应和应对

文本框3。新闻和知识类别的代表性主题和子主题。

在确定所有子主题之后，我们根据第一次发布的日期进行筛选，并确定了四个不同的时间线，每个主题区域一个。在与病原体和病源有关的第一个专题领域，我们观察到公众逐渐了解他们所面临的疾病的时间轴。“不明原因肺炎”是人们用来描述疫情的第一个术语，但随着国家卫生健康委员会逐渐排除季节性流感、禽流感和其他常见呼吸道病原体，包括中东呼吸综合征(MERS)和SARS，这一情况发生了变化[28］．最终，在2020年1月9日，病原体被确定为新型冠状病毒，但直到2020年1月14日，世界卫生组织(WHO)才宣布正式名称为2019-nCoV(新型冠状病毒)[29］．这个时间线代表了对这种疾病及其新颖性最初的不确定时期。

意识到COVID-19可以维持人际传播是微博帖子中出现的另一个关键事件。在与流行病学特征相关的第二个时间轴中，在我们研究的第一周，与武汉海鲜批发市场密切接触的人报告被诊断为不明原因的肺炎，报告的确诊病例数开始增加，报告的死亡人数也开始增加。早在第5天，中国以外的国家(新加坡和韩国)就开始报告疑似病例。2020年1月13日，泰国正式报告了中国境外的第一例病例[30.］．随着北京和广东在这一时间表的末尾开始报告确诊病例，也报告了国内传播。因此，这一时期意味着及早认识到可能出现大流行病。

在与预防有关的第三个时间轴上(也与时间轴一和时间轴二中对病原体和区域传播的认识提高相一致)，2020年1月5日，发现了第一条建议实施个人防护措施的新闻信息。建议包括关于戴口罩、避免人群、用肥皂和水洗手或使用含酒精的洗手液的帖子。非官方媒体上也出现了一些帖子，声称中药可以有效预防新冠病毒感染。这一时期与有关COVID-19及其传播的新信息相吻合，通常可被视为开始采取基本公共卫生措施，以遏制当时已知的新型病毒性疾病。

2020年1月11日起，政府开始建议避免前往武汉旅游。在最后的时间轴上，帖子显示了政府发布的一系列逐步限制性政策。在此期间，中国政府还派遣专家前往武汉，帮助当地政府调查疫情，并准备疫情控制相关工作。这与疫情爆发之初的政府帖子形成了鲜明对比，当时的政府帖子集中在病原体报告等信息上，宣布关闭武汉海鲜批发市场(当时被认为是病毒的起源)，并鼓励人们停止传播有关疫情的未经证实的信息。因此，这最后一个时间表表明，人们日益认识到疫情的严重性，以及政府干预和采取更严格控制措施的必要性。

最后，在审查的所有帖子中，我们还观察到一些可以被归类为错误信息的信息，特别是在目前对该疾病的了解范围内。例如，在用户关于病原体的讨论中，有帖子认为SARS冠状病毒是病原体。在用户关于有效疾病预防措施的个人建议中发现了另一类错误信息。例如，我们发现有帖子认为使用板蓝根(一种传统药物)可以预防COVID-19感染，尽管当时这一说法没有科学依据，也没有新的证据表明它可以用于预防或治疗COVID-19(也在《柳叶刀》中讨论过)公众的反应部分)。没有检测到更多的COVID-19错误信息，这可能是因为这些微博对话发生在大流行的早期阶段，当时关于这种疾病的基本信息不足，无法产生错误信息或与阴谋有关的话题。内容审核和审查可能也影响了微博上可能发现的虚假信息[31］．

公众的情绪

在总计10159条微博中，我们发现7083条(69.72%)微博包含了用户的公众情绪(包括用户对新闻和官方报道的评论和反应)。对于这一内容，我们专注于识别特定的用户情绪，并检测出5种一般分类。大多数用户情绪都属于对COVID-19的焦虑，包括不确定的表达;害怕的:害怕、担心、紧张的;以及谨慎的情绪。更强烈的负面情绪包括愤怒的表达。相比之下，也有一些普遍的积极情绪，包括那些对疫情表示冷静和乐观的态度。

在焦虑的一般类别中，不确定性是检测到的主要情绪。不确定的表达包括质疑传染病是否正在爆发，评估肺炎的原因，猜测传播途径，对防护措施有效性的看法，以及质疑疫情的来源。在这21天的时间里，7083条被确定为民意的帖子中，有2519条(35.56%)表现出不确定的情绪。这些帖子的最大数量(n=1358)发生在2020年1月3日至13日的研究开始期间，当时关于COVID-19的信息仍然稀缺且不断发展(见图2)．

在7083条被确定为公众情绪的帖子中，普遍焦虑情绪的“恐惧”、“担心”、“紧张”类别的帖子有2337条(32.99%)，内容包括用户对疾病的关注和担忧、其他人在公共场所不戴口罩、对自己健康状况的紧张、对家人的担心。这种情绪从我们研究期的第一天一直持续到最后一天，但频率也有所不同，在我们研究期的最后一天检测到这种情绪的比例最高，2020年1月13日频率最低，当时没有检测到这种情绪的帖子。这可以用当时现有的事实来解释，包括在1月13日或前后，公众知道SARS已被排除为潜在的病原体;发布了武汉市8名患者出院的消息;当时，还没有证据表明会出现人际传播。

图2。舆情帖子的百分比和分类以及事件的时间轴。疾病控制和预防中心;中东呼吸综合征:中东呼吸综合征;SARS:严重急性呼吸系统综合症;卫生组织:世界卫生组织;2019-nCoV:新型冠状病毒。

在7083个被认定为公众情绪的帖子中，谨慎是另一种与焦虑有关的情绪，共有4073个帖子(57.50%)被检测到，并且在21天的研究期间稳步上升。在这一类别中，用户持谨慎态度，并报告说，如果确认COVID-19的人际传播，他们需要做好准备。此外，在中国科学家确定病原体为新型冠状病毒后，持谨慎态度的帖子比例开始上升。总的来说，随着人们对新冠肺炎疫情及其病因的了解越来越多，越来越多的用户表达了谨慎的态度。

在7083个被确定为公众情绪的帖子中，负面情绪较强的类别中，在研究期间的第8至21天，只有177个(2.5%)帖子表达了愤怒。在这些帖子中，有16条抱怨中国政府应对疫情反应迟缓，161条帖子表达了对其他人在公共场所不戴口罩的愤怒。因此，对中国政府COVID-19应对措施的总体批评似乎很少，而绝大多数与愤怒有关的帖子关注的是被认为造成更高传播风险的其他公众成员。

在7083个被认定为公众情绪的帖子中，用户普遍表现出焦虑和愤怒的情绪，与此相反，我们还发现177个(2.50%)帖子反映了对疫情的积极情绪。这些用户对疫情情况表示冷静和乐观，其中一些用户普遍不担心疫情的严重程度，认为政府和目前的医疗技术足以控制疫情，并表示对中国政府的透明度及其疫情应对措施感到满意。总体而言，与检测到的另一种用户情绪相比，积极情绪帖子的数量要低得多。

在这些情绪类别中，“冷静乐观”类别的帖子百分比随时间的推移呈现显著的统计学稳定(P<.0001)和“愤怒”类别(P<。;看到表1)．“谨慎”类别的帖子百分比表现出显著的线性和指数关系，指数拟合似乎略好于线性拟合(R²: 0.55 vs 0.50)。“不确定”类别的职位百分比呈现显著的指数趋势(R²=0.32)，但不是线性趋势。“害怕、担心和紧张”类别的帖子百分比虽然不稳定，但既没有呈现线性趋势，也没有呈现指数显著趋势。这些结果表明，在这21天的时间里，武汉人明显变得更加谨慎，不确定性持续减少。

表1。八组回归模型的结果，分别对应于观察到的微博态度和反应，每组包含一个线性模型和一个指数模型。

因变量	独立变量	帖子,n	线性				指数^一个
			β	P价值	R²	b		P价值	R²
不确定(%)	日期	21	-0.0145	点	0.12	-0.2260		04^b	0.32
害怕(%)	日期	21	0.0104	厚	0.12	0.0286		13。	0.59
谨慎(%)	日期	21	0.2819	<措施	0.50	0.0596		<措施	0.54
面具(%)	日期	21	0.0168	07	0.16	0.0372		.04点	0.18
取消(%)	日期	21	-0.0001	.98点	< 0.01	-0.0034		.95	< 0.01
疗(%)	日期	21	-0.0003	.20	0.08	-0.1135		点	< 0.01
正常(%)	日期	21	-1.2999	获得	< 0.01	-0.0006		>。	< 0.01
疏散(%)	日期	21	-0.0006	无误	0.03	-0.1647		.09点	0.12

^一个指数系数和P给出了b系数的值Y＝一个+b^x方程和指数R²值按Cox和Snell计算R²．

^b斜体表示统计显著性P值。

公众的反应

在最后一类帖子特征中，在总共10159个帖子中，我们检测到4863个(47.87%)帖子自我报告了用户对covid -19相关信息的反应，这也导致识别出用户报告的五种不同类型的结果行为(参见图3)．反应包括自我报告保护行为因素，包括戴口罩;更勤洗手;取消所有不必要的旅行，聚会和活动。相比之下，我们检测到的一些自我报告的行为可以被归类为提高健康风险，包括使用未经证实的疗法和营养产品进行自我治疗，保持疫情前的生活方式和习惯，以及自我撤离武汉。我们注意到，其中一些反应主题也同时发生。

例如，共有3689条帖子(占所有公众反应帖子的75.86%)包括用户报告他们选择开始戴口罩。这种行为也与公开公告相吻合，在提出此类建议2天后观察到的与口罩相关的帖子数量增加了约50%。然而，到2020年1月6日，与口罩相关的帖子比例下降到3.13%。根据我们的事件时间表，我们注意到，2020年1月5日，中国卫生健康委员会排除了SARS和中东呼吸综合征的致病因素，这可能导致公众产生虚假的安全感，减少口罩的使用。1月7日，当病原体被确定为新型冠状病毒时，口罩帖子的比例上升到69.70%，并继续根据其他新闻事件波动。

公众反应帖数量第二多的是取消不必要的旅行和活动(n=987，占所有反应帖的20.30%)，其次是撤离武汉(n=148, 3.04%)、保持正常生活方式(n=20, 0.41%)和开始自我治疗(n=19, 0.39%;看到文本框4例子)。这些帖子证明，用户不仅接触并改变了对疫情的知识、态度和认知，而且还通过不同类型的行为和行动，对变化的信息采取了行动。其中一些反应可能直接影响了疫情控制措施(例如，在官方隔离之前不建议旅行，参加公众集会，以及进行自我护理)。

没有一个公众反应类别表现出统计上显著的平稳性(见表1)．“戴口罩、洗手”类别的帖子百分比随时间呈显著指数增长趋势(R²=0.19)，但不是线性趋势。其他类别没有表现出显著的线性或指数趋势。在这21天的时间里，武汉人口似乎倾向于戴口罩和洗手，但不倾向于其他预防行为。

每一种行为类型的例子语言。

自我报告的保护因素

戴口罩，洗手
- “除了不传谣不信谣,自己平常多注意少去人多密集的地方,有症状及时就医老百姓做的还能有啥,难道真要等到武汉封城才开始注意吗?在网上乱猜想还不如多喝热水，多带口罩，多睡觉!”
- 英文翻译是:“作为一名普通公民，我们无能为力，除了不散布谣言，不去拥挤，当症状出现时去医院。难道不应该等到武汉封城，人们才会开始关注吗?多喝热水、戴口罩、多睡觉，总比在网上瞎猜管用。”
取消所有不必要的旅行、聚会和活动
- 因为武汉新型冠状病毒肺炎，不得不取消回武汉的行程。很久很久没见父母亲人了.突然好难过，退机票的时候没忍住哭了”
- “由于武汉新型冠状病毒肺炎，我不得不取消回武汉的行程。我已经很长时间没有见到我的父母和亲戚了。突然觉得很伤心，退票的时候忍不住哭了。”

可能增加健康风险的行为

使用未经证实的疗法和营养产品进行自我治疗
- “赶紧掏出板蓝根，管他有没有用”
- 英文翻译是:“找到板蓝根(一种传统的中草药)。它已被用于预防和治疗与病毒有关的呼吸道疾病，例如流感病毒感染[32］．不管它是否有用。”
保持疫情前的生活方式/习惯
- “病毒也不能阻止我，戴上口罩去跨年”
- 英文翻译:“病毒阻止不了我，戴上口罩去过年吧。”
武汉自行撤离
- “火灾+地震+不明原因肺炎，还是逃离武汉吧”
- 英文翻译:“火灾+地震+不明原因肺炎，应逃离武汉。”

文本框4。每一种行为类型的例子语言。

主要研究结果

我们的研究对位于疫情暴发中心武汉市的8703名新浪用户的10159条COVID-19微博进行了深入定性分析。在这些帖子中，我们观察到67.22% (n=6829)的帖子是新闻和知识类的帖子，69.72% (n=7083)的帖子是民意话题，47.87% (n=4863)的帖子是公众反应和自述行为。虽然发现了病原体、疫情流行病学特征、个人防护措施以及中国政府如何应对这种新型病毒等重大主题问题，但这些主题并不是一成不变的，而是随着有关COVID-19的新信息的出现和向公众传播而不断变化。最初对COVID-19的不确定性和不断变化的知识、态度和信念也与用户情绪和自我报告行为的变化相吻合，这些变化可能起到了减缓或潜在恶化疾病传播的作用。

这项研究仅限于中国武汉COVID-19疫情爆发初期21天的社交媒体帖子，以更好地了解与个人对危机的认识、担忧和反应有关的关键话题。总的来说，在整个研究期间，帖子的数量各不相同，最多的帖子来自政府或新闻和媒体来源。我们还观察到，武汉的微博用户对COVID-19有大量的不确定性情绪，尽管这些不确定性的表达有所不同，并随着时间的推移逐渐消失。我们观察了与特定新闻和知识类别相关的事件的不同时间线，从COVID-19的不确定性开始;对潜在全球大流行的担忧日益加剧;最后，政府和公众为遏制疾病传播采取的初步行动，表明公众对疫情的早期反应和应对。

具体而言，最重要的公告之一标志着大流行时间表的开始，发生在2019年12月31日，当时武汉卫生市政委员会宣布出现一种不明原因的肺炎和呼吸道疾病，6天后世界卫生组织也发布了类似的公告[33，34］．在此宣布之后，发生了几起关键的早期疫情事件，包括报告华南海鲜市场为疑似疫情来源，确认病毒为新型冠状病毒，中国政府制定了公共卫生和卫生指南，并宣布COVID-19具有人传人能力[35］．这些事件似乎都影响了微博上的新闻信息传播，影响了公众对新冠肺炎疫情的情绪和反应。我们的研究期结束于另一个重要的早期疫情事件:2020年1月23日武汉市实施隔离，我们观察到社交媒体对话迅速增加，但本研究没有分析。

这些发现还表明，接触新闻和信息之间的关系也很符合议程设置理论，该理论描述了媒体如何激发意识，塑造和过滤现实，并为公众确定包括公共卫生问题在内的突出问题的优先级[36］．在这个案例中，微博上不断变化的新闻和信息的曝光，以及这些社交媒体用户直接交流他们的观点和行为的能力，证明了在爆发早期，政府、媒体来源和公众之间的复杂互动。这种相互作用得到了过去研究的支持，这些研究还发现，在过去的突发卫生事件中，社交媒体上关于疫情和重大新闻事件的帖子数量增加与这种相互作用有关[14，37］．我们的发现为公众如何应对疾病爆发传播和具体事件提供了进一步的线索，这些事件可能会增加焦虑，甚至对一种新型疾病的个人和人群健康风险产生错误的乐观情绪。未来的工作应侧重于进一步调整议程设置理论，使其适用于针对疫情应对的健康促进工作，并使其适用于当地社区和社交媒体平台[36］．

重要的是，这项研究提供了对COVID-19的早期了解，这是上个世纪最严重的疾病爆发，发生在全球公众在微博等社交媒体平台上的参与度达到历史最高水平的时候。分析社交媒体数据可以为了解社区的知识、担忧和恐惧提供有价值的见解，这些知识、担忧和恐惧可以影响个人和人群层面的行为——这些重要因素可以直接影响旨在遏制疾病传播的公共卫生干预措施的成功或失败。这些发现还有助于开发传播工具和健康促进活动，以帮助公众更好地了解传播风险，纠正混淆或错误信息，并就可能加剧传播的社会和行为风险进行教育。

虽然我们的研究仅限于武汉市和疫情的早期阶段，但这些信息监测的见解即使在现在也很突出。这包括利用这些信息更好地为不同社区再次出现或新一波COVID-19做好准备;确保就COVID-19疫苗和治疗部署等新进展提供适当的卫生信息;并向公众传达持续的社交距离、隔离、口罩和重新开放的建议。因此，“信息监测”领域对于疫情检测和监测的重要性可以说从未如此重要，而这项研究代表了这一不断增长的领域的一部分，它可以从数字数据源生成更接近实时的公共卫生情报。我们希望，在数字平台现在是信息和互动的主要来源的时代，这些结果可以帮助各国政府和公共卫生利益攸关方了解改善COVID-19疫情沟通的战略，并面向未来。

限制

本研究有一定的局限性。我们收集的数据仅限于单个中国社交媒体平台和特定的地理区域。因此，这些发现绝不能适用于中国用户之间发生的所有COVID-19社交媒体对话。我们收集的数据集中在COVID-19暴发的早期阶段。然而，在这段时间内，病原体尚未得到证实，这种疾病也没有正式名称。由于疾病术语的早期不一致，微博用户可能使用了其他关键词来描述与covid -19相关的对话或主题，而这些对话或主题没有被本次研究收集到。最后，由于社交媒体帖子可能会被审查，一些微博帖子可能在数据收集之前就被删除了，这些对话或公众情绪可能没有被捕捉到。

致谢

在社交媒体平台上收集的数据可根据作者的要求提供，但须适当去身份。

作者的贡献

此手稿已被所有作者看过，并已批准其内容。这篇文章没有在任何其他论坛进行讨论。QX在概念化、方法论、形式分析、调查、撰写初稿以及审查和编辑方面做出了贡献。ZS对正式的分析和调查做出了贡献。NS对原始草案的撰写做出了贡献。RC对形式化分析做出了贡献。MC对方法论、形式分析和调查做出了贡献。MB对方法论、形式分析和调查做出了贡献。JL对数据管理做出了贡献。TM对概念化、方法论、形式分析、调查、撰写原稿以及审查和编辑做出了贡献。

利益冲突

QX、MC、JL和TKM是创业公司S-3 Research LLC的员工。S-3 Research是一家创业公司，目前由美国国立卫生研究院-国家药物滥用研究所资助，通过小企业创新和研究合同进行阿片类药物相关的社交媒体研究和技术商业化。作者报告没有与此手稿相关的其他利益冲突。

COVID-19大流行。世界卫生组织2020年。URL:https://www.who.int/emergencies/diseases/novel-coronavirus-2019[2020-05-06]访问
新型冠状病毒肺炎疫情分布.中国疾病预防控制中心2020。URL:http://2019ncov.chinacdc.cn/2019-nCoV/[2020-05-26]访问
2020年5月30日湖北省新冠肺炎疫情情况.武汉市卫生健康委员会2020。URL:http://www.hubei.gov.cn/zhuanti/2020/dqssl/qwtb/202005/t20200531_2372675.shtml[2020-10-28]访问
2020年10月25日湖北省新冠肺炎疫情情况.武汉市卫生健康委员会2020。URL:http://www.hubei.gov.cn/zhuanti/2020/dqssl/qwtb/202010/t20201026_2974983.shtml[2020-10-28]访问
吴震，McGoogan JM。中国2019冠状病毒病(COVID-19)暴发的特征和重要教训:中国疾病预防控制中心72 314例报告摘要。JAMA 2020 april 07;323(13):1239-1242。［CrossRef] [Medline］
信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架，用于分析互联网上的搜索、传播和发布行为。J Med Internet Res 2009年3月27日;11(1):e11 [免费全文] [CrossRef] [Medline］
Chew C, Eysenbach G.推特时代的流行病:2009年H1N1爆发期间推特的内容分析。PLoS One 2010 11月29日;5(11):e14118 [免费全文] [CrossRef] [Medline］
信息流行病学和信息监测跟踪在线卫生信息和网络行为，为公共卫生服务。Am J Prev Med 2011 5月;40(5增刊2):S154-S158。［CrossRef] [Medline］
Kenter W, van Gemert-Pijnen JEWC, Ossebaard HC。大数据对人畜共患疾病暴发的早期检测有用吗?荷兰人畜共患病流行的实时数据早期检测的使用:文献综述。提交eTELEMED 2014。URL:https://www.researchgate.net/publication/289525075_Is_Big_Data_Useful_for_the_Early_Detection_of_Zoonotic_Disease_Outbreaks
Pagliari C, Vijaykumar S.数字参与式监控和寨卡病毒危机:机会和警告。PLoS Negl Trop Dis 2016 Jun;10(6):e0004795 [免费全文] [CrossRef] [Medline］
马夫拉加尼，奥乔亚。谷歌信息流行病学和信息监测的趋势:方法论框架。JMIR公共卫生监测2019年5月29日;5(2):e13439 [免费全文] [CrossRef] [Medline］
Vorovchenko T, Ariana P, van Loggerenberg F, Amirian P. #埃博拉和推特。全球卫生可以从社交媒体中获得哪些见解?在:Amirian P, Lang T, van Loggerenberg F，编辑。医疗保健中的大数据:从护理点机器中提取知识。瑞士占姆:施普林格，占姆;2017:85 - 98。
2018微博用户发展报告.WeiBaoGao。2019.URL:https://data.weibo.com/report/reportDetail?id=433[2020-10-28]访问
李娟，徐强，沙楠，麦基。一种用于检测和描述Instagram上非法毒贩的机器学习方法:模型评估研究。J Med Internet Res 2019 Jun 15;21(6):e13803 [免费全文] [CrossRef] [Medline］
胡勇，黄辉，陈安，毛晓林。微博-冠状病毒:来自微博的大规模COVID-19社交媒体数据集。出来了。预印本于2020年5月19日在线发布。
韩旭，王杰，张敏，王旭。利用社交媒体挖掘和分析中国新冠肺炎相关舆论。国际环境与公共卫生2020年4月17日;17(8)[免费全文] [CrossRef] [Medline］
李玲，张强，王旭，张娟，王涛，高涛，等。新冠肺炎疫情期间社交媒体情境信息传播特征研究——以微博为例IEEE计算Soc系统2020年4月7日(2):556-562。［CrossRef］
黄超，徐旭，蔡勇，葛强，曾刚，李霞，等。挖掘中国COVID-19患者特征:社交媒体帖子分析J Med Internet Res 2020年5月17日;22(5):e19087 [免费全文] [CrossRef] [Medline］
陈强，闵超，张伟，王刚，马晓霞，Evans R.打开黑盒子:如何在COVID-19危机期间通过政府社交媒体促进公民参与。Comput Human behaviour 2020 Sep;110:106380 [免费全文] [CrossRef] [Medline］
沈超，陈安，罗超，廖伟，张杰，冯波。利用社交媒体上自己和他人的症状和诊断报告预测COVID-19病例数:中国大陆的观察性研究。JMIR预印本。预印本于2020年4月16日在线发布。［CrossRef］
赵颖，徐慧。中国公众对COVID-19疫情的关注:基于社交媒体。medRxiv。预印本于2020年3月20日在线发布。［CrossRef］
尹福林，吕建辉，张新军，夏晓宇，吴建辉。中国新浪微博新冠肺炎信息传播动态数学与生物科学学报2020 Mar 09;17(3):2676-2692 [免费全文] [CrossRef] [Medline］
李超，陈丽娟，陈霞，张敏，庞鹏鹏，陈慧。基于网络搜索和社交媒体数据预测新冠肺炎疫情的可能性分析，中国，2020。2020年欧洲监测3月25日(10日)[免费全文] [CrossRef] [Medline］
李松，王勇，薛娟，赵楠，朱涛。新冠肺炎疫情宣布对心理后果的影响——基于活跃微博用户的研究。国际环境资源公共卫生2020年3月19日;17(6)[免费全文] [CrossRef] [Medline］
袁波，刘勇，李慧。中文微博情感分类:基于词汇和基于学习的方法。Int Proc Economics Dev Res 2013;68(1)。
健康信念模型:对模型、研究和实践的回顾和批判性评价。中华儿科杂志1981;4(1):65-82。［CrossRef］
罗森斯托克IM, Strecher VJ, Becker MH.社会学习理论与健康信念模型。卫生教育Q 1988;15(2):175-183。［CrossRef] [Medline］
武汉市卫生健康委员会关于不明原因的病毒性肺炎情况通报 (01-05-2020).武汉市卫生健康委员会2020。URL:http://www.nhc.gov.cn/xcs/yqtb/202001/1beb46f061704372b7ca41ef3e682229.shtml[2020-12-01]访问
新型冠状病毒(2019-nCoV):情况报告- 1。世界卫生组织，2020年1月21日。URL:https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200121-sitrep-1-2019-ncov.pdf?sfvrsn=20a99c10_4[2020-05-26]访问
新型冠状病毒-泰国(除中国外)。世界卫生组织2020年1月14日。URL:https://www.who.int/csr/don/14-january-2020-novel-coronavirus-thailand-ex-china/en/[2020-05-26]访问
熊旭，王萍，苏坤，赵卫文，邢燕。2019年冠状病毒病中草药治疗:系统综述与荟萃分析。Pharmacol Res 2020 10月;160:105056 [免费全文] [CrossRef] [Medline］
李忠，李林，陈涛，李超，王东，杨忠，等。班兰根颗粒治疗季节性流感的疗效和安全性:一项随机对照试验的研究方案审判2015年3月28日16:126 [免费全文] [CrossRef] [Medline］
不明原因肺炎——中国。世界卫生组织2020年1月5日URL:https://www.who.int/csr/don/05-january-2020-pneumonia-of-unkown-cause-china/en/[2020-05-26]访问
武汉市卫健委关于当前我市肺炎疫情的情况通报 12-31-2019.武汉市卫生健康委员会。2019。URL:http://www.nhc.gov.cn/xcs/yqtb/202001/1beb46f061704372b7ca41ef3e682229.shtml[2020-05-26]访问
王勇，森津古。中国确诊冠状病毒人传人。美联社2020年1月19日报道。URL:https://apnews.com/14d7dcffa205d9022fa9ea593bb2a8c5[2020-05-26]访问
Albalawi Y, Sixsmith J.健康促进议程设置:为社交媒体时代探索适应模式。JMIR公共卫生监测2015年;1(2):e21 [免费全文] [CrossRef] [Medline］
李娟，徐强，Cuomo R, Purushothaman V, Mackey T.中国社交媒体平台微博在COVID-19爆发早期的数据挖掘和内容分析:回顾性观察性信息监测研究JMIR公共卫生监测2020年4月21日;6(2):e18700 [免费全文] [CrossRef] [Medline］

‎

即:中东呼吸综合征

“非典”:严重急性呼吸系统综合症

人:世界卫生组织

2019年的今天,ncov:新型冠状病毒

T·桑切斯编辑;提交04.09.20;R Dekova, Zhang W, Min C;对作者09.10.20的评论;修订本收到29.10.20;接受06.11.20;发表07.12.20

©徐晴，沈子怡，Neal Shah, Raphael Cuomo，蔡明祥，Matthew Brown，李佳伟，Tim Mackey。最初发表于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com)， 2020年12月7日。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，http://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

COVID-19大流行早期来自中国武汉的微博社交媒体帖子特征:定性内容分析