JMIR公共卫生和监测-推特上COVID-19大流行的公众认知:情感分析和主题建模研究

原始论文

¹泰国曼谷法政大学法政商学院运营管理系，运营与信息管理卓越中心

²曼谷基督教医院，泰国曼谷

通讯作者:

Sakun Boon-Itt博士

运营管理系，运营与信息管理卓越中心

法政大学商学院

法政大学

普拉坎路2号

Pranakorn

曼谷,10240

泰国

电话:66 26132200

电子邮件:sboonitt@tu.ac.th

背景:COVID-19是一种尚未完全了解的科学和医学新疾病，因为它尚未得到持续和深入的研究。在COVID-19疫情研究方面的差距中，缺乏足够的信息监测数据。

摘要目的:这项研究的目的是提高公众对COVID-19大流行趋势的认识，并发现大流行期间推特用户用英语发布的有意义的关注主题。

方法:在推特上进行了数据挖掘，收集了2020年12月13日至3月9日期间与COVID-19有关的107990条推文。分析包括关键词的频率、情感分析和主题建模，以识别和探索随时间变化的讨论主题。使用自然语言处理方法和潜狄利克雷分配算法来识别最常见的推文主题，并根据关键字分析对集群进行分类和识别主题。

结果:调查结果表明，公众对COVID-19大流行的认识和关注主要体现在三个方面。首先，新冠肺炎的传播趋势和症状可以分为三个阶段。其次，情绪分析结果显示，人们对新冠肺炎的前景持负面态度。第三，基于主题建模，将2019冠状病毒病和疫情相关主题分为COVID-19大流行紧急情况、如何控制COVID-19和COVID-19报告三类。

结论:情绪分析和主题建模可以产生关于社交媒体上关于COVID-19大流行讨论趋势的有用信息，以及调查COVID-19危机的替代观点，这已经引起了相当大的公众意识。这项研究表明，推特是一个很好的沟通渠道，可以了解公众对COVID-19的关注和认识。这些发现可以帮助卫生部门沟通信息，以减轻公众对这种疾病的特定担忧。

JMIR公共卫生监测2020;6(4):e21978

doi: 10.2196/21978

关键字

新型冠状病毒肺炎；推特；社交媒体； infoveillance； infodemiology； infodemic；数据；卫生信息学；矿业；感知；主题建模

在历史进程中，人类曾多次爆发传染病，造成生命损失和经济损失[1］．2019年底，世界卫生组织(世卫组织)报告了武汉聚集性肺炎病例。这种肺炎的病因后来被世界卫生组织定义为COVID-19。COVID-19是一种通过呼吸道飞沫和接触传播的新型传染病，一般对人类具有传染性[2］．COVID-19在全球产生了前所未有的影响，200多个国家确诊病例超过1000万例，报告死亡人数超过50万例[3.］．2020年1月30日，世界卫生组织报告称，COVID-19是国际关注的突发公共卫生事件[4］．

社交媒体平台可提供丰富和有用的信息，以预测和解释疾病暴发的特征和状况[5］．文本挖掘可用于从Twitter等社交媒体平台提取健康信息。6］．Twitter数据使研究人员能够获得大量用户生成内容的样本，从而获得为早期响应策略提供信息的见解。社交媒体数据文本挖掘已被用于跟踪疾病和评估公众对健康问题的认识，从而实现疾病预测[7］．Twitter数据的文本分析是医学信息学研究中最重要的重点领域之一[8］．

COVID-19是一种尚未完全了解的科学和医学新疾病，因为它尚未得到持续和深入的研究[9］．这项研究可能具有挑战性，因为在疫情的初始阶段，由于诊断和检测能力不足，大多数数据不完整。报告的大多数数据是流行病学数据，例如来自医疗单位或科学实验室的数据。利用社交媒体信息分析综合征监测，利用基于网络的信息和内容重点关注公共卫生问题，这是至关重要的[10］．一个重要原因是，在疫情爆发期间，社交媒体发挥了关键作用，因为这些平台通过评论实时反映了公众的恐慌情绪。推特是这些社交媒体平台之一，在疾病爆发期间经常作为一种沟通方式[11］．推特提供了丰富的信息，以提高公众意识并向人们通报疫情地点。这对于深入了解与传染病爆发有关的问题非常有用。

关于COVID-19，缺乏基于社交媒体数据的研究，以研究疾病的传播、公众的行为意识以及关于COVID-19的紧急对话。以2020年发表的研究为例，Shen等[12]研究了社交媒体上提到的症状和疾病，以预测COVID-19病例数，黄等人[13]分析了社交媒体帖子，以研究中国COVID-19患者的特征。然而，这两项研究主要集中在中国。此外，Park等人[14针对韩国国内有关新冠疫情的信息传播网络和推特上的新闻分享行为。阿勒扎克等[15]对COVID-19大流行的各个方面进行了信息监测研究，旨在研究与该疾病相关的主要讨论议题。陈等[16]提供了基本的统计数据，仅追踪了Twitter对covid -19相关事件的回应和反应。Lwin等[17]研究了推特用户对COVID-19的公开情绪反应，只关注四种基本情绪。然而，这些之前的研究并没有使用推特数据来解决结论性的主题，也没有在COVID-19的初始阶段进行情绪分析。这些缺失的数据很重要，因为主题和情绪分析可以提供更广泛的公众意识概述[18］．自COVID-19大流行早期阶段以来，推特数据情感分析的演变尚未完全呈现。仍然需要提高公众对这一流行病的理解和认识。

在以往研究的基础上，这项研究认为，在COVID-19大流行的早期阶段，对推特上帖子的主题和情绪分析可以帮助理解公众的情绪、信仰和想法。这对于决策者提高对COVID-19的态势认识并在即将爆发疫情时采取适当干预措施至关重要。目的是回答两个研究问题:(1)公众对COVID-19的情绪和情绪意识水平如何?(2)关于COVID-19的新兴主题和话语是什么?

数据收集

这项研究分两个阶段进行:(1)使用Twitter流媒体应用程序编程接口(API)收集数据，以收集与covid -19相关的英语帖子;(2)数据分析，以确定趋势、关键词和主题。这项研究的目的是通过社交媒体分析，回答与主题、公众关注的问题和对COVID-19大流行的看法有关的问题。这些数据是从推特上收集的，目的是建立一个关于COVID-19流行模式的数据库。来自Twitter的数据可用于研究，非常丰富和有用[19］．推特是一个媒体，数百万人可以在其中表达他们对任何问题或话题的看法。例如，在以前的自然灾害或疾病爆发等事件中，人们使用Twitter来表达他们的感受[20.，21];在2019冠状病毒病全球流行期间尤其如此。本研究使用Twitter流API收集推文，这是一个Java应用程序，可以连接到Twitter流并将原始数据存储在MySQL数据库中。Twitter流API允许对匹配指定关键字的全球公开推文流进行近乎实时的访问。要访问API，必须在Twitter上注册并登录到开发人员Twitter帐户。下一步是开发一个应用程序或API来提供在编程环境中使用它的键和令牌。

通过指定关键字和元数据(如语言、来源、数据范围和位置)来创建tweet数据库。此搜索使用关键字和特定的标签(#)，例如冠状病毒，covid_19，2019 - ncov,新型冠状病毒肺炎在英语中使用searchtweets工具[22］．关键字和特定标签的范围决定在流上交付哪些推文。这项研究采用了一种有目的的抽样方法，对2019年12月13日至2020年3月9日期间活跃Twitter用户的推文进行抽样(大约涵盖了Twitter数据库中最近几天的数据)。主要目标是回答2019年底至2020年初之间的研究问题;在此期间，疫情从中国开始，然后蔓延到欧洲和美洲。这一特殊时期对于研究公众对COVID-19早期疫情的关切非常重要。

我们分析英语推文中COVID-19大流行趋势的目的不是为了确定每日推文的数量。我们的目的是根据获得转发的推文，用规定的关键词来衡量与COVID-19有关的推文活动的强度，这些推文代表了推特上关于COVID-19的对话和内容分享[23］．这种方法是有效的，因为它可以过滤掉低活动性和无用的异常值。以转发数为代表的前1000条推文为样本。由于数据是在3个月的时间内每天采样的，所以粒度足以测量每天的活动变化。重复这个采样过程，在这段时间内总共收集了107990条推文。

数据分析

本研究采用了三个数据准备步骤:抽样、数据收集和原始数据预处理。为了开始数据处理，推文文本接受了一系列函数来删除url、表情符号、特殊字符、转发、散列符号和指向网站的超链接;这一过程也使我们能够尽可能地排除可能影响结果的相关疾病。英语中的停顿词(例如，为，的，是)也被删除，像电晕或病毒这可能与其他话题有关[24］．此外，推文文本被转换为小写，单词被改变为其词根形式(例如，病毒来病毒)．然后将推文转换为语料库(文本挖掘结构);我们还创建了一个文档-术语矩阵，并计算了术语频率逆文档频率(TF-IDF)，这是一个用于反映一个词在语料库中的重要性的数值统计量。为了获得该场景的输出，对推文数据进行了分析;为了提取推文数据，使用了Twitter API。

数据分析不仅集中在COVID-19的整体情况上，还根据关键字和特定的标签进行了范围缩小，例如症状，爆发,流感大流行．数据分析采用Python软件和RStudio进行。如前所述，三种类型的分析被用来回答这两个研究问题。首先，数据分析侧重于文本挖掘结构语料库中单个单词(unigram)的频率，并通过词云对这些频率进行可视化，以显示最常见的主题。内容分析可用于分析单词或消息，以显示事件发生后发生的事件，或使用词频计数(内容分析中广泛使用的方法)作为确定主题的规则来研究症状。该分析还包括时间序列，使用“retweet_count”和“favorite_count”作为与COVID-19相关的推特社交媒体活动强度的代理，以观察趋势和时间轴。

其次，情绪分析，一种自然语言处理(NLP)方法，被用于对Twitter消息中出现的情绪进行分类[25］．该方法包括分析搜索主题中出现的关键词，并探讨每个与COVID-19相关的主题所表达的情绪，包括词频统计和词云。为了对推文进行更详细的分析，研究人员分析了与推文相关的情商。使用国家研究委员会(NRC)情感词典进行的情感分析使我们能够检查与基本情绪相关的10个术语的表达:愤怒，期待，厌恶，恐惧，快乐，负，积极的，悲伤，惊喜,信任［26，27］．条款积极的而且负被删除是因为它们是分类，不表示积极或消极的情绪;此外，情绪(如恐惧或喜悦)由NRC情绪词汇表示。结果，在这个分析中，总共评估了八种情绪。在这八种情绪中，信任和喜悦被认为是积极的情绪，而愤怒、悲伤、恐惧和厌恶被认为是消极的情绪。惊喜和期待可以是积极的，也可以是消极的，这取决于上下文。

最后，使用基于无监督机器学习分析的主题建模来识别推文中最常见的主题，并根据关键词分析对集群进行分类和查找主题。采用潜狄利克雷分配(latent Dirichlet allocation, LDA)算法进行主题建模。LDA是一种无监督的文档分类方法，类似于数值数据的聚类;即使它不确定要搜索的是什么，也可以使用它来查找自然的项目组。LDA算法是一种特别流行的拟合主题模型的方法。它将每个文档视为主题的混合物，将每个主题视为单词的混合物。在这个过程中，twitter的消息可以在内容上相互重叠，而不是被分成不同的组。在本研究中，我们使用了“tidy()”方法，该方法包含在broom包[28］．“tidytext”包提供了一种从模型中提取每个主题每个单词概率的方法，称为beta。为了获得最优的主题数量，主要目标是计算不同数量主题的主题连贯性，并选择给出最高主题连贯性的模型。连贯性给出了每个主题的概率连贯性。连贯性分数是指从同一主题中提取的词语是否有意义的分数。对于一个特定的数字k，得分越高，单词之间的联系就越紧密。使用词云来表示主题，并根据每组中10个最常见的关键词进行分类。

COVID-19大流行期间的Twitter趋势

图1图中为新冠肺炎相关推文的转发频率，趋势线从1月7日至9日增加到第一个峰值(A点和B点)，强度最高的峰值出现在1月28日至29日(E点)，第二个峰值出现在2月9日至11日(F点)，第三个峰值出现在2月27日至28日(G点)，第四个峰值出现在3月6日(H点)。代表1月上期至月底高峰期间推特上关于COVID-19的对话活动强度。这表明存在潜伏期或早期阶段(第一阶段)，当时开始出现关于新出现的COVID-19疫情严重程度的一手数据，包括人际传播的证据。与COVID-19感染前驱期症状相关的词汇数据汇编，包括发热，干咳,不适，是不具体的。在1月21日至24日期间(C点和D点)，美国西雅图宣布了第一例COVID-19确诊病例，医护人员感染正在发生。到1月底，当美国宣布进入公共卫生紧急状态(E点)时，传播变得更加严重和普遍。在此期间，推特消息的强度达到了第一个主要峰值。

此后，开始了全球流行期(第二阶段)，在此期间，疾病在全球蔓延，对健康和经济活动产生负面影响。据了解，在疫情期间，疫情从中国蔓延到其他地区和国家，包括香港、台湾、澳门，以及日本、韩国等东亚国家。在此期间，在推特上有关于死亡率的讨论，死亡率高达3%，直到1月底的恐慌或高峰时期。第二个高峰(F点)发生在2月7日至9日，当时世卫组织官员宣布他们发现了一种名为2019-nCoV (COVID-19)的新病毒，在推特上引起了激烈的活动。2月27日，新冠肺炎疫情进入第三个高峰，欧洲出现新冠肺炎疫情，意大利感染人数激增至650人。可以说，这两起事件预示着一场全球性的大流行，COVID-19从欧洲首次在意大利爆发后，从亚洲蔓延到美洲和欧洲。后来，政府出台了保持社交距离和封锁等政策。从公众意识的角度来看，这是一个稳定的阶段(阶段3)。推特强度在3月6日(H点)再次达到峰值，当时感染COVID-19的人数超过10万人。尽管世卫组织敦促各国加大努力阻止疾病传播，但COVID-19仍在继续传播[29］．

图1。2009年12月13日至2020年3月9日有关COVID-19大流行的转发频率。(A)分离出新型冠状病毒;(二)有首宗死亡个案;(C)美国第一例COVID-19确诊病例;(D)中国报告了835例;(E)世界卫生组织(世卫组织)宣布了国际关注的突发公共卫生事件;(F)世界卫生组织宣布了“COVID-19”的名称;(G)意大利和欧洲其他地区的感染人数激增;(H)新冠肺炎病例数超过10万例。

图2显示了两个相关但不同的关键字的Twitter强度:爆发而且流感大流行．关键字的趋势线爆发高峰出现在1月9日至11日之间。随着感染人数的增加，中国官员表示，他们在冠状病毒家族中发现了一种新病毒。它最初被命名为2019-nCoV，后来更新为COVID-19。这是COVID-19爆发的开始，包括这个词的推文数量很高爆发．在COVID-19达到大流行级别之前，该关键词的趋势线流感大流行随着病毒从亚洲蔓延到其他大陆，2月24日达到高峰。在此期间，世卫组织宣布COVID-19是一种全球性流行病，以不同的方式影响不同的国家。这个词流感大流行这样就准确地描述了情况。

COVID-19症状的Twitter趋势线

图3显示了推特上COVID-19主要症状的词频统计趋势线，这可能反映了用户对COVID-19症状的看法和担忧。COVID-19的两个主要症状是咳嗽和发烧[30.];常见症状还包括头痛和打喷嚏。其他症状(如身体疼痛、流鼻涕、皮疹、尿频)则没有显示图3因为只使用了四个关键症状来绘制图表。这个词肺炎被移除是因为这种情况描述了单侧或双侧肺组织的炎症;我们希望研究其他相关症状，并对他们的日常推特数据进行排名，以表明公众对COVID-19症状的认识和趋势。

图3显示了提到COVID-19症状的推文的时间轴。分析提取了至少提到列表中的一种症状的消息。1月24日之前，最常被提及的是发烧，其次是咳嗽和打喷嚏。“头痛”的词频最少。1月24日之后，咳嗽成为明显症状，被提及次数最多，其次是发烧和打喷嚏;与此同时，头痛很少被提及，随着时间的推移，趋势没有变化。这表明发烧是一种早期症状，会导致咳嗽，而头痛可能是一种后期症状，被提及的次数最少。3月6日是一个有趣的日期，因为它显示了在我们的研究中检查的大流行期间咳嗽和发烧的最高频率。

COVID-19相关关键词频次

这项分析使用了词云，它可以提供推文中出现的文本的可视化表示。词云根据频率突出显示单词。在这项研究中，频繁出现的单词云为推特用户发布的与COVID-19相关的推文提供了更深入的见解。根据图4，出现频率最高的词汇与中国有关，代表中国武汉市官员报告的第一例人类感染COVID-19病例。此外，这个词新显示了一种新病毒的传播，还有这个词爆发也反映了一种持续蔓延的流行病。单词云中的次要单词是武汉，死亡，健康，人，传播,确认，描述了公众对COVID-19的看法。

在考虑特定搜索中某些关键字的频率时，我们使用了单词爆发而且流感大流行研究关于不同类型传播的不同观点。从理论上讲，暴发是地方病病例数量超过预期的增长。疫情可能是一个新地区的单一病例。如果疫情暴发得不到控制，就可能发展成流行病。从这个角度来看，频率最高的词语为爆发是中国而且武汉（图5A)，这是第一个报告疫情的国家和城市。其他与COVID-19有关的词汇有肺炎，它描述了感染COVID-19患者的肺部炎症。肺炎是疫情暴发期间提到的试点症状，当时中国武汉报告了一些肺炎患者，导致国家卫生健康委员会宣布了一场新的流行病。官员们试图找到病因和第一个感染者，并试图控制疫情爆发地区。其他经常出现的单词包括疾病，新，死亡,神秘，显示了疫情期间的观点，即COVID-19尚未达到全球水平的时期;这一分析仅限于COVID-19暴发之初，其特征是在中国提到了肺炎。

图5。在推特上与COVID-19爆发(A)和大流行(B)相关的经常被提及的关键词的词云。

使用单词执行关键字频率搜索流感大流行它被定义为一种影响一个社区、人口或区域内大量人群的疾病，并在多个国家或大陆传播。这一含义反映了在大流行背景下对COVID-19的认知频率。这个词最常被提及的词流感大流行是全球，世界，爆发,YouTube（图5B)，在此期间，世界各地的病例数量有所增加。作为一个日浏览量达数十亿次的社交媒体平台，YouTube在支持和阻碍有关COVID-19信息的公共卫生工作方面具有巨大潜力。社交媒体被称为流行病新闻趋势的媒体。此外，其他相关的单词是专家，准备,现在显示了人们对这种流行病的觉醒，以及阻止它所需的准备工作和专家。世卫组织宣布COVID-19为大流行，因为其在全球范围内传播，国内旅行加剧了这种情况。这是乘客从大流行国家回国后的正常情况，导致家人或朋友感染，并将疾病传播到新的难以控制的地区。

COVID-19情绪分析

情绪层面分析通过对COVID-19消极和积极话题的明确识别，进一步丰富了研究结果。情绪分析发现，22.12% (n= 23887)的推文包含积极情绪，77.88% (n= 84103)的推文包含消极情绪。这表明，推特用户对新冠疫情持消极态度。根据图6在正式宣布发现新冠病毒的1月6日至9日期间，负面情绪的增加超过了正面情绪。在高死亡率和大流行的3月6日之前，随着新冠病毒感染者超过10万人，负面情绪再次高涨。如前所述，即使世卫组织敦促各国加大努力遏制传播，COVID-19仍在继续传播[29］．随着新冠肺炎防控信息的不断普及，公众积极情绪不断增强，有利于公共卫生传播和宣传。分析表明，积极情绪的表达通过关键词，如信任，保护,安全，这表明公众仍然相信专家和部门能帮助他们度过难关。

使用NRC词汇表(图7)的研究发现，全球超过一半的推文都是由三种情绪定义的，即恐惧、信任和期待。图8结果表明，表达恐惧情绪的推文约占分析推文总数的五分之一(21.19%，n=22,883)。恐惧情绪之后是信任情绪，这表明人们期待康复或专家的解决方案。同样，期待的情绪与15.16% (n=16,371)的推文有关，这加强了人们的积极情绪。部分推文中出现了悲伤、愤怒和厌恶等负面情绪，分别占13.20% (n= 14254)、10.73% (n= 11588)和8.86% (n= 9568)。只有一小部分(6.18%，n= 6673)被归类为快乐，这是一种积极的情绪。这些结果表明，人们对COVID-19持消极态度。如图9，推文中的积极情绪关键词为病人，保护，艰难的，安全,治愈，而表达负面情绪的关键词是爆发，病毒，死亡，受感染的,恐惧．

在情感分析的下一阶段，使用最常用的情感词汇创建了一个词汇云，这些词汇按颜色分类。情感是R中的情感库(textdata包)的一部分，其中每个情感都是分开的，没有重叠。单词云是基于整个推文语料库开发的。结果是图10展示这个词死亡在这种情况下发得最多。如图10，例如死亡，神秘（神秘的)，疫情,猜一猜是使用频率最高的与惊讶情绪相关的词汇。比如肺炎，流感，感染，恐慌,检疫被频繁地推特，并与恐惧情绪有关。比如疾病，致命的,生病的带着厌恶的情绪被频繁地推特。比如流感大流行，疾病,医院都在推特上表达了悲伤的情绪。对于积极的情绪，人们在推特上写道希望，安全,钻石表达喜悦的情感，而言语如确认，医生,专家通常用来表示信任。

这些结果表明，在此期间，当大多数人想到COVID-19大流行时，他们会经历负面情绪。大多数用户都对这种神秘疾病的出现感到惊讶，因为他们事先没有关于如何治疗和死亡可能性的信息。此外，当用户谈到肺炎、流感或感染等症状时，他们通常会感到非常恐惧。

主题建模

与covid -19相关的主题和主题

在本节中，概述了使用主题建模识别的紧急主题和主题(表1)．主题建模的目的是回答研究问题:关于COVID-19的新兴主题和话语是什么?我们根据最高的主题连贯性确定了6个主题。图11描述6个主题的单词云，其中每个单词的大小与密度p(单词|主题)成正比。如图12，研究中考虑了每个主题中beta值最高的前10个最常见的单词。本研究利用这些词语，通过相关的主题描述，为每个主题在相关语境中提供一定程度的语义解释。beta值越高，相关词汇出现在该类别中的可能性就越大。通过这种方法，根据每个主题-每个单词的概率(beta)对六个主题进行了分类，如下所示。

表1。关于COVID-19的推文中出现的话题和主题。

主题	十大最常用词汇	主题
议题1:中国COVID-19疫情新发致命性肺炎病例和死亡病例报告	中国，死亡，第一个，新，爆发，肺炎，报告，传播，人数，武汉	主题1:COVID-19大流行的紧急情况
议题二:新冠肺炎疫情与确诊病例	情况下，会，只是，就像，nCov，积极的，说，测试，测试,美国	主题2:如何控制COVID-19大流行
议题3:从新闻报道中了解公众对COVID-19的认知	爆发，人，将，新闻，武汉，中国人，得到，知道，疾病，可以	主题3:COVID-19大流行报告
议题四:新冠肺炎疫情从海外传播到美国，如何控制疫情	我们，特朗普，中国人，巡航，日本，乘客，传播，传播，船，疾病预防控制中心	主题2:如何控制COVID-19大流行
议题5:全球宣布COVID-19进入紧急状态，健康担忧和恐惧	情况下，健康，现在，第一个，确认，中国，恐惧，全球，紧急	主题1:COVID-19大流行的紧急情况
议题6:社交媒体上关于疫情的新闻信息报道	Amp，武汉，好，英国，YouTube，第二个，天，苹果，新闻，文章	主题3:COVID-19大流行报告

图11。单词云显示了与六个确定主题相关的单词的频率:(1)来自中国的致命肺炎新病例和冠状病毒疫情死亡报告;(2)疫情和确诊病例;(3)通过新闻报道了解新冠肺炎疫情;(4)新冠肺炎疫情从海外到美国的传播情况以及如何控制疫情;(5)随着全球宣布COVID-19进入紧急状态，人们对健康的担忧和恐惧;(6)社交媒体上有关疫情的新闻信息报道。

主题1涉及与中国致命肺炎新病例报告和COVID-19疫情相关的讨论。关键字的例子包括中国，死亡，第一个，新，爆发，肺炎，报告，传播，人数,武汉．beta值最高的单词是中国．主题二:新冠肺炎疫情和确诊阳性病例。关键字的例子包括情况下，会，只是，就像，nCov，积极的，说，测试，测试,我们．话题3中的单词都与人们从新闻报道中了解到的COVID-19和疫情有关，比如爆发，新闻，知道,疾病．主题4的热门词汇描述了COVID-19的传播和如何控制这种疾病，而主题5的热门词汇反映了对COVID-19的健康担忧和恐惧。在这些话题中排名前十的单词是穿，紧急,健康，这些词通常被认为与健康问题有关。话题6与社交媒体上关于COVID-19的新闻和信息报道相关。主题6中最重要的术语是新闻，文章,YouTube．

定性内容分析方法可以将这些主题分类为不同的主题。如表1，根据六个主题对每个主题中的样本推文进行分类和识别，然后将这些主题分配到三个不同的主题。根据主题1和主题5的关键词确定的主题是“COVID-19大流行的紧急情况”，提供了关于COVID-19疫情期间新病例和死亡报告的信息，以及与全球紧急情况相关的卫生问题。推文样本包括“世卫组织最高官员警告说，随着冠状病毒疫情的蔓延，世界可能对下一次大流行‘危险地毫无准备’”和“美国卫生部门宣布冠状病毒为突发卫生事件，美国确诊8例，中国感染病例超过11K, 259人死亡”。

议题2和4反映了“如何控制COVID-19大流行”的主题，涉及COVID-19的疫情和确诊病例及其传播。推文样本包括“福克斯新闻的玛丽亚·巴蒂罗姆预测‘美国有数十万冠状病毒病例:‘我不想让任何人恐慌’”和“随着冠状病毒的增长、感染和死亡的人越来越多，(美国总统)特朗普削减了控制疾病的美国疾病控制与预防中心的预算。”主题3和6反映了最后一个主题“COVID-19大流行报告”，即关于接收COVID-19新闻和信息的渠道;推文的例子包括“#冠状病毒一直在新闻中占据主导地位，但我们有多少必要担心它”和“中国在武汉冠状病毒爆发的关键最初几天逮捕了发帖的人”。

COVID-19疫情相关主题

为了探索反映COVID-19疫情相关主题的主题关键词，我们使用词云和主题建模来生成主题，并确定与疫情相关的主题关键词的共现情况爆发COVID-19。结果显示在图13．关于COVID-19疫情，公众关注的三个主要问题是COVID-19疾病、中国武汉疫情状况和新闻报道。关于这些问题的高频关键词可以分为三个主题:中国武汉发现的新型肺炎菌株;新型病毒引起的神秘疾病;中国警告称，COVID-19的死亡人数可能会增加。

图13。对与COVID-19疫情相关的关键词进行词云和主题建模，组织成三个主题:(1)在中国武汉发现的新型肺炎菌株;(2)由新型病毒引起的神秘疾病;(3)中国警告COVID-19死亡人数可能会增加。

如表2，主题1捕获了关于武汉发现的新型肺炎菌株的讨论。关键字的例子包括新闻，武汉，肺炎,疾病．话题2提到了由病毒引起的一种新的神秘疾病。关键字的例子包括新，导致,神秘．话题3提到了中国的死亡人数。本主题中的关键字示例包括中国，死亡,紧急．话题1和话题2的主题是武汉发现的一种病毒引起的新型神秘疾病和新型肺炎。在主题3的基础上，确定了另一个主题，即中国警告死亡人数可能会上升。

表2。与COVID-19爆发有关的紧急专题和主题。

主题和话题		相关词汇
主题一:神秘的新疾病
	议题1:武汉发现的新型肺炎		武汉，肺炎，标识，应变
	议题2:病毒引发的神秘新疾病		小说，神秘，引起的，疾病
主题二:中国警告死亡人数可能会上升
	话题3:中国警告死亡人数可能会上升		中国，传播，跳跃，警告，人数

主要研究结果

这种推特数据分析可以用来解释公众对COVID-19大流行的认识和看法。根据公众的认识，数据根据流行病的时间轴分为三个主要阶段。早期或潜伏期(1期)是COVID-19的严重程度和传播开始增加的阶段。公众开始意识到这种疾病的严重性和迅速传播，然后变得害怕，特别是当世界卫生组织宣布出现了一种与肺炎有关的新型神秘病毒时。这个结果与先前的研究一致[31]，这解释了公众对COVID-19关注的不同阶段。必须避免在潜伏期破坏严重爆发的可能性[32］．第二阶段是全球流行阶段。在第三阶段，随着对这种疾病的科学和医学了解的增加，政府宣布需要保持社交距离和封锁，公众开始意识到这一点。从公众认知的角度来看，这是一个稳定的阶段，公众意识趋于积极。

提及COVID-19症状表明，发热被认为是COVID-19的主要症状，这与研究结果一致，94.3%的病例出现发热，是发病时最常见的症状(87.1%)，其次是咳嗽(36.5%)和疲劳(15.7%)[33，34］．这些常见症状，包括发烧和咳嗽，在几项研究中保持一致[35］．发烧被认为是COVID-19的前兆指标。之后，病毒进入呼吸系统，引起肺炎和严重咳嗽[27］．咳嗽是发烧后期的一个重要症状。然而，还会提到其他症状，如鼻塞和头痛。

对新冠肺炎相关推文的情绪分析结果显示，最重要的关键词是爆发，这与疾病的起点在中国武汉有关。传播阶段不同，与公众意识相关的关键词也不同;这包括公众情绪，其中消极情绪大多多于积极情绪，其中恐惧是最消极的词36，37］．在以往的疾病大流行中，负面情绪在社交媒体上普遍盛行[38］．Raamkumar的研究[39表明恐惧是对新冠肺炎表达的最负面情绪。然而，随着疫情的发展，公众情绪趋于积极，因为在这一阶段报道了更多的新闻。这一结果与之前的研究一致，即在社交媒体上，人们的兴趣与传染病的最新新闻和重大事件有关[40］．研究也表明，随着传染病传播的变化，人们对疾病相关词汇的关注和搜索也在发生变化[41］．

新冠肺炎疫情引发全球社会高度关注。Twitter上的用户讨论了以下三个主题的六个主要话题:(1)COVID-19大流行的紧急情况，(2)如何控制COVID-19大流行，以及(3)关于COVID-19大流行的报告。以前的研究还表明，预防和控制程序，包括隔离，以及确诊病例和医疗的报告是以前疾病爆发的主要主题[42-45］．

实际意义

政策制定者应该认识到，推特数据可以用来探索公众对COVID-19大流行的认知水平和情绪。值得注意的是，公众的意识水平是动态的，在这项研究中，短短几个月的时间内就可以观察到两三个意识峰值。研究结果还表明，在疾病的不同阶段，人们会通过社交媒体平台表达负面情绪，分享信息和错误信息。大流行期间人们通常感到非常恐惧。政府应同步信息流动，打击关于大流行的“假新闻”，以消除这种恐惧。还建议政府应该通过实施对策和建立国家监控系统来减轻这种情绪的影响，以检查网络内容，包括社交媒体，以更好地了解公众的情绪。互联网上的错误信息会造成大规模恐慌，并导致负面行为。有必要在社交媒体上更积极主动地宣传公共卫生。此外，各国政府应向其民众明确传达和沟通有关COVID-19的信息。在COVID-19大流行的各个阶段，有关卫生服务提供和使用的准确和及时数据必须为关键决策和行动提供依据。

随着COVID-19继续传播，政府和公共卫生机构需要做出更多努力来回答持续存在的问题。Twitter用户专注于讨论和回应健康问题、公共卫生干预措施和控制大流行。这类信息有助于政府了解哪些公共卫生信息引起了共鸣。例如，政府如何在短期和长期内作出反应，以保证人民的安全?各级政府要加强应对。各国政府和公共卫生实体需要确保卫生保健系统为处理越来越多的病例做好准备。社区卫生保健是应对COVID-19大流行初级保健的重要组成部分。认识到公众的关注和意识可以帮助政府了解公众在特定时间对这种疾病的看法。当结果相互关联时，就可以建立有价值的卫生保健资源，以制定未来计划。

限制

这项研究有几个局限性。首先，值得一提的是，本研究使用了与COVID-19相关的关键词来调查关键词的趋势和频率。所选关键字的列表可能不完整。通过结合与COVID-19及其症状相关的关键字，本研究中使用的关键字可以扩展到搜索推文。进一步的研究可能旨在根据包含症状和其他关键字的推文数量，确定最相关的一组具有高度细节的关键字。其次，这项研究是在大流行的早期阶段进行的，最终蔓延到世界各地。这限制了公众对大流行的总体情况以及大流行周期的认识范围。因此，关注上述时期之后公众关注的研究可能会提供有用的比较结果。第三，虽然LDA在提取隐藏主题方面具有优势，但主题的科学性还有待进一步验证。此外，研究者可以在提取主题方面发挥更大的作用。 Moreover, it is necessary to reduce bias, which may occur when identifying topic themes using topic modeling. Finally, it may be difficult to identify perfect sources of information on social media because the amount of information regarding COVID-19 is overwhelming. This research collected data from Twitter only; further research should use other resources such as mass media or other data sources in addition to social media information.

利益冲突

没有宣布。

Kilbourne ED, 20世纪的流感大流行。Emerg infection Dis 2006 Jan;12(1):9-14 [免费全文] [CrossRef] [Medline］
瑟尔A，帕特尔B，鲁帕雷尔NB，戴奥奇尼斯A，哈格里夫斯KM。冠状病毒疾病19 (COVID-19):对临床牙科护理的影响。J endd 2020 May;46(5):584-595 [免费全文] [CrossRef] [Medline］
COVID-19大流行。世界卫生组织。URL:https://www.who.int/emergencies/diseases/novel-coronavirus-2019[2020-04-15]访问
Adhikari SP，孟S，吴勇，毛勇，叶荣，王强，等。冠状病毒病(COVID-19)暴发早期的流行病学、病因、临床表现和诊断、预防和控制:范围综述2020年3月17日;9(1):29 [免费全文] [CrossRef] [Medline］
Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.利用搜索引擎查询数据检测流感流行。自然杂志2009 3月19日;457(7232):1012-1014。［CrossRef] [Medline］
Jahanbin K, Rahmanian V.使用Twitter和网络新闻挖掘预测COVID-19疫情。热带医学2020年亚太J;13 2020;13(8):378-380 [免费全文］
Charles-Smith LE, Reynolds TL, Cameron MA, Conway M, Lau EHY, Olsen JM，等。使用社交媒体进行可操作的疾病监测和爆发管理:系统文献综述。PLoS One 2015 10月5日;10(10):e0139701 [免费全文] [CrossRef] [Medline］
Chew C, Eysenbach G.推特时代的流行病:2009年H1N1爆发期间推特的内容分析。PLoS One 2010 11月29日;5(11):e14118 [免费全文] [CrossRef] [Medline］
Werron T, Ringel L.大流行实践，第一部分:如何将“经历COVID-19大流行”转变为社会学理论的启发式工具。Sociologica 2020; 14(2): 55 - 72。［CrossRef］
李松，王勇，薛娟，赵楠，朱涛。新冠肺炎疫情宣布对心理后果的影响——基于活跃微博用户的研究。国际环境与公共卫生2020年3月19日;17(6):2032 [免费全文] [CrossRef] [Medline］
巴特利特C，沃茨R.推特与公共卫生。中国公共卫生杂志，2015;21(4):375-383。［CrossRef］
沈超，陈安，罗超，张杰，冯波，廖伟。利用社交媒体上的症状和诊断报告预测中国大陆COVID-19病例数:观察性信息监测研究。J Med Internet Res 2020年5月28日;22(5):e19421 [免费全文] [CrossRef] [Medline］
黄超，徐旭，蔡勇，葛强，曾刚，李霞，等。中国COVID-19患者特征挖掘:社交媒体帖子分析J Med Internet Res 2020年5月17日;22(5):e19087 [免费全文] [CrossRef] [Medline］
Park HW, Park S, Chong M.推特上的对话和医疗新闻框架:韩国COVID-19的信息流行病学研究。J Med Internet Res 2020 May 05;22(5):e18897 [免费全文] [CrossRef] [Medline］
Abd-Alrazaq A, Alhuwail D, Househ M, Hamdi M, Shah Z.在COVID-19大流行期间推特用户最关心的问题:信息监视研究。J Med Internet Res 2020 april 21;22(4):e19016 [免费全文] [CrossRef] [Medline］
Chen E, Lerman K, Ferrara E.跟踪关于COVID-19大流行的社交媒体话语:开发一个公共冠状病毒推特数据集。JMIR公共卫生监测2020年5月29日;6(2):e19273 [免费全文] [CrossRef] [Medline］
李志强，李志强，李志强，等。围绕推特上COVID-19大流行的全球情绪:推特趋势分析JMIR公共卫生监测2020年5月22日;6(2):e19447 [免费全文] [CrossRef] [Medline］
Samuel J, Ali G, Rahman M, Esawi E, Samuel Y.用于推文分类的COVID-19舆情洞察和机器学习。信息2020 6月11日;11(6):314。［CrossRef］
戴浩，狄姆MJ，郝杰。美国推特上电子烟广告的地理差异。国际公共卫生杂志2017年5月;62(4):479-487。［CrossRef] [Medline］
李志强，李志强。2015年金奈洪水灾害管理期间Twitter的使用和分析中国科学(英文版);［CrossRef］
傅K,梁H, Saroha N,谢霆锋那种写法,Ip P, Fung IC。人们如何应对Zika病毒疫情在Twitter上吗?计算内容分析。美国感染控制杂志2016年12月1日;44(12):1700-1702。［CrossRef] [Medline］
searchtweets 1.7.6。pypi.org。URL:https://pypi.org/project/searchtweets/[2020-10-30]访问
史志，H睿，Whinston AB.社会化广播环境中的内容共享:来自Twitter的证据。MISQ 2014 1月1日;38(1):123-142。［CrossRef］
基于稀疏生成朴素贝叶斯的文本预处理方法。IJMECS 2018 9月08日;10(9):11-19。［CrossRef］
郭旭，李娟。基于基线相关性的推特情绪分析模型在金融市场预测中的应用。2019年第六届社会网络分析、管理与安全国际会议(SNAMS);2019年10月22日至25日;西班牙格拉纳达，第472-477页。［CrossRef］
Sarker A, Lakamana S, Hogg-Bremer W, Xie A, Al-Garadi M, Yang Y.在Twitter上自我报告COVID-19症状:一种分析和研究资源。美国医学通报协会2020年8月01日;27(8):1310-1315 [免费全文] [CrossRef] [Medline］
Murray C, Mitchell L, Tuke J, Mackay M.从Reddit上COVID-19个人经历的叙述中提取症状。ArXiv预印本于2020年5月21日在线发布。
Lüdecke D, Ben-Shachar M, Patil I, Makowski .基于统计模型的参数提取、计算和探索。JOSS 2020 9月5日(53):2445。［CrossRef］
世卫组织敦促各国将控制冠状病毒作为“最高优先事项”。路透社2020年3月6日URL:https://ca.reuters.com/article/idUSKBN20T2BH[2020-10-30]访问
使用快速在线调查评估人们在传染病爆发期间的看法:关于COVID-19的横断面调查。J Med Internet Res 2020 Apr 02;22(4):e18790 [免费全文] [CrossRef] [Medline］
赵颖，程晟，余旭，徐慧。中国公众在社交媒体上对新冠肺炎疫情的关注:观察性描述研究。J Med Internet Res 2020 May 04;22(5):e18825 [免费全文] [CrossRef] [Medline］
卢杰，吕文敏，谢登卡，舒尔茨。Facebook在寨卡病毒爆发传播中的战略使用:对危机和应急风险传播模型的影响。国际环境资源公共卫生2018年9月10日;15(9)。［CrossRef] [Medline］
陈杰，齐涛，刘林，凌勇，钱忠，李涛，等。中国上海市COVID-19患者的临床进展2020年5月，中国传染病学杂志;80(5):e1-e6 [免费全文] [CrossRef] [Medline］
黄超，徐旭，蔡勇，葛强，曾刚，李霞，等。中国COVID-19患者特征挖掘:社交媒体帖子分析J Med Internet Res 2020年5月17日;22(5):e19087 [免费全文] [CrossRef] [Medline］
Rothan HA, Byrareddy SN。新型冠状病毒病(COVID-19)暴发流行病学与发病机制。J Autoimmun 2020年5月;109:102433 [免费全文] [CrossRef] [Medline］
Dubey AD, Tripathi S.分析COVID-19大流行期间人们对在家工作体验的看法。J Innov Manag 2020年4月28日;8(1)。［CrossRef］
Kleinberg B, van der Vegt I, Mozes M.在COVID-19现实世界担忧数据集中测量情绪。ArXiv预印本于2020年5月14日在线发布。
Mamidi R, Miller M, Banerjee T, Romine W, Sheth A.确定推特上负面情绪的关键话题:关于2015-2016年寨卡病毒流行的见解。JMIR公共卫生监测2019年6月04日;5(2):e11036 [免费全文] [CrossRef] [Medline］
Sesagiri Raamkumar A, Tan S, Wee H.在2020年初COVID-19大流行期间，衡量公共卫生当局的外展工作和公众在Facebook上的反应:跨国比较。J Med Internet Res 2020年5月19日;22(5):e19334 [免费全文] [CrossRef] [Medline］
Southwell BG, Dolina S, Jimenez-Magdaleno K, Squiers LB, Kelly BJ。寨卡病毒相关新闻报道和在线行为，美国、危地马拉和巴西。Emerg infection Dis 2016 july;22(7):1320-1321 [免费全文] [CrossRef] [Medline］
李玲，张强，王旭，张娟，王涛，高涛，等。新冠肺炎疫情期间社交媒体情境信息传播特征研究——以微博为例IEEE计算Soc系统2020年4月7日(2):556-562。［CrossRef］
nussbamer - streit B, Mayr V, Dobrescu A, Chapman A, Persad E, Klerings I，等。单独隔离或与其他公共卫生措施相结合以控制COVID-19:快速审查Cochrane数据库Syst Rev 2020 april 08;4:CD013574。［CrossRef] [Medline］
韦德-史密斯A，周志杰，李维杰。我们能否采取与SARS相同的措施来控制COVID-19疫情?《柳叶刀传染病》2020年5月;20(5):e102-e107。［CrossRef］
刘强，郑智，郑洁，陈强，刘刚，陈松，等。中国新冠肺炎疫情暴发早期新闻媒体健康传播:数字主题建模方法J Med Internet Res 2020年4月28日;22(4):e1918 [免费全文] [CrossRef] [Medline］
Shah K, Kamrai D, Mekala H, Mann B, Desai K, Patel R.在冠状病毒(COVID-19)大流行期间关注心理健康:应用过去疫情的经验教训。治愈2020年3月25日;12(3):e7405 [免费全文] [CrossRef] [Medline］

‎

API:应用程序编程接口

LDA:潜在狄利克雷分配

NLP:自然语言处理

美国核管理委员会:国家研究委员会

TF-IDF:术语频率-逆文档频率

人:世界卫生组织

G·艾森巴赫(G Eysenbach)编辑;提交30.06.20;同行评议作者:JP Allem, Li Q, A Alasmari, Li J, T Ndabu, M Adly, A Adly;作者评论22.07.20;订正版本收到11.08.20;接受25.10.20;发表11.11.20

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，http://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

公众对推特上COVID-19大流行的看法:情感分析和主题建模研究