发表在第22卷11号(2020): 11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/20550,首次出版
关于COVID-19大流行的推特讨论和情绪:机器学习方法

关于COVID-19大流行的推特讨论和情绪:机器学习方法

关于COVID-19大流行的推特讨论和情绪:机器学习方法

原始论文

1Factor-Inwentash社会工作学院,多伦多大学,多伦多,安大略省

2多伦多大学信息学院,加拿大安大略省多伦多

3.匹兹堡大学医学院,美国宾夕法尼亚州匹兹堡市

4中间件系统研究组,多伦多大学,多伦多,安大略省,加拿大

5中国科学院心理研究所,中国科学院行为科学重点实验室,北京

6中国科学院大学心理学系,北京

通讯作者:

朱廷绍博士

中国科学院行为科学重点实验室

心理研究所

中国科学院

朝阳区临翠路16号

北京,100101

中国

电话:86 0106485166

电子邮件:tszhu@psych.ac.cn


背景:衡量公众对COVID-19大流行的反应非常重要。Twitter是涉及公众反应监测的信息流行病学研究的重要数据源。

摘要目的:本研究的目的是通过推特用户发布的推文来检查与covid -19相关的讨论、担忧和情绪。

方法:我们分析了2020年3月7日至4月21日期间与COVID-19大流行相关的400万条推特信息,使用了20个标签(例如,“冠状病毒”、“COVID-19”、“隔离”)。我们使用了一种机器学习方法,即潜在狄利克雷分配(LDA),来识别收集到的推文中的流行单字和双字、突出话题和主题以及情绪。

结果:流行的词汇包括“病毒”、“封锁”和“隔离”。流行的词包括“COVID-19”、“呆在家里”、“冠状病毒”、“保持社交距离”和“新病例”。我们确定了13个讨论主题,并将其分为5个不同的主题:(1)减缓COVID-19传播的公共卫生措施,(2)与COVID-19相关的社会耻辱感,(3)COVID-19新闻,病例和死亡,(4)美国的COVID-19,(5)世界其他地区的COVID-19。在所有确定的主题中,对COVID-19传播的主要情绪是预期可以采取措施,其次是与不同主题相关的信任、愤怒和恐惧的复杂情绪。与其他话题相比,当人们讨论新的COVID-19病例和死亡时,公开推文显示出一种明显的恐惧感。

结论:这项研究表明,Twitter数据和机器学习方法可以用于信息流行病学研究,从而可以研究COVID-19大流行期间不断变化的公众讨论和情绪。随着形势的迅速发展,推特上的几个话题一直占据主导地位,例如确诊病例和死亡率、预防措施、卫生当局和政府政策、对COVID-19的污名化以及负面心理反应(例如恐惧)。实时监测和评估Twitter上的讨论和关注事项可为突发公共卫生事件的应对和规划提供有用的数据。与大流行相关的恐惧、耻辱和心理健康问题已经很明显,当第二波COVID-19发生或当前大流行出现新的高潮时,这些担忧可能会继续影响公众的信任。

医学与互联网学报,2020;22(11):e20550

doi: 10.2196/20550

关键字



截至2020年9月中旬,已有110个国家确诊了3000万例COVID-19病例,死亡人数接近94.7万人[1]。诸如Twitter等社会媒体的广泛使用加速了就公共事件和健康危机交换信息和表达意见的进程[2-5]。自2020年1月以来,COVID-19一直是推特上的热门话题之一,并一直持续到今天。由于大多数国家都实施了隔离措施(例如美国的隔离令),人们越来越依赖不同的社交媒体平台来接收新闻和表达意见。Twitter数据对于揭示与各种主题相关的公众讨论和情绪以及在H1N1和埃博拉等全球流行病期间的实时新闻更新非常有价值[6-9]。Chew和Eysenbach的研究[6]表明Twitter可以用于实时的“信息流行病学”研究,为卫生当局回应公众关注提供了一个意见来源。在2019冠状病毒病大流行期间,全球许多政府官员将Twitter作为其主要沟通渠道之一,定期向公众分享与COVID-19相关的政策更新和新闻[10]。

自COVID-19爆发以来,越来越多的研究收集了Twitter数据,以了解公众对COVID-19的反应和讨论[11-18]。例如,Abd-Alrazaq和他的同事[11采用主题建模和情绪分析,确定围绕COVID-19的主要讨论主题和情绪,使用2020年2月2日至3月15日收集的推文。布德瓦尼和孙[14我们比较了2020年3月16日特朗普总统发推文提到“中国病毒”前后的推特讨论,发现此后美国许多州人们在推特上使用“中国病毒”一词的频率显著增加。麦基及其同事[16]分析了2020年3月2日至20日收集的约3465条推文,使用主题模型探索用户自述的COVID-19经历和相关症状。Ahmed及其同事[12我们对2020年3月27日至4月4日期间收集的推文进行了社交网络分析和内容分析,以了解可能导致将英国5G塔与COVID-19大流行联系起来的错误信息的原因。随着推特上的对话不断发生和发展,有必要继续使用推特作为数据来源,跟踪和理解推特上讨论的突出话题,以应对COVID-19大流行,并跟踪它们随时间的变化。

为了扩大关于公众对COVID-19大流行反应的文献,本研究旨在通过分析2020年3月7日至4月21日收集的400多万条推文,研究与COVID-19大流行相关的公众话语和情绪。


研究设计

我们采用有目的的抽样方法收集了2020年3月7日至4月21日期间发布的与covid -19相关的推文。我们的Twitter数据挖掘方法遵循中显示的管道图1。数据准备包括以下三个步骤:(1)采样,(2)数据收集,(3)原始数据预处理。数据分析阶段包括无监督机器学习、情感分析和主题定性分析分析的单位是每个消息级别的tweet。无监督学习是机器学习的一种方法;它用于检查数据的模式,并基于文本数据导出概率聚类。我们之所以选择无监督学习,是因为当现有研究对非结构化文本数据的观察或见解很少时,它通常被使用[19]。由于定性方法在分析大规模Twitter数据时具有挑战性,因此无监督学习使我们能够对社会科学研究的大型文本数据进行探索性分析。在这项研究中,我们首先采用了一种无监督机器学习方法来识别突出的潜在主题。我们使用主题分析方法进一步开发主题,允许更深入地挖掘数据,例如通过手动编码和基于机器学习算法生成的潜在主题归纳开发主题。

图1所示。Twitter数据挖掘管道。
查看此图

抽样和数据收集

我们使用与covid -19相关的标签列表作为搜索词来获取推文(例如,#冠状病毒、#2019nCoV、# covid -19、#冠状病毒爆发和#隔离;多媒体附录1).Twitter的开放应用程序编程接口(API)允许我们收集默认设置为打开的更新Twitter消息。从2020年3月7日到4月21日,我们在此期间收集了35204604条推文(图2).在删除非英语推文后,还剩下23,817,948条推文。在删除重复和转发(即只转发原始消息而不添加任何单词的推文)之后,我们最终的数据集中有4,196,020条推文。我们收集并下载了每条tweet的以下特征:(1)全文,(2)收藏、关注和关注的数量,(3)用户的地理位置,(4)用户的描述/自创建的个人资料。

图2。推文预处理图。
查看此图

预处理原始数据

我们使用Python清理原始数据(图1).过程如下[18]:

  1. 我们从数据集中的tweet中删除了标签符号@users和url。
  2. 我们删除了非英语字符(非ascii字符),因为本研究关注的是英语tweet。
  3. 我们删除了特殊字符、标点符号和停顿词[19],因为它们对消息的语义意义没有贡献。

数据分析

无监督机器学习

潜在狄利克雷分配[20.是一种广泛使用的无监督机器学习方法,允许研究人员分析非结构化文本数据(例如Twitter消息)。基于数据本身,该算法生成经常被提及的词对、同时出现的词对、潜在主题及其在文档中主题上的分布[21]。现有研究表明,使用LDA识别与COVID-19相关的推文的模式和主题是可行的[1122]。

定性分析

为了三角化和背景化LDA模型的发现,我们采用定性方法进一步发展主题。具体来说,我们使用了Braun和Clarke的[23主题分析的六个步骤是:(1)熟悉关键词数据,(2)生成初始代码,(3)搜索主题,(4)审查潜在主题,(5)定义主题,(6)报告。除了遵循六阶段方法外,我们的过程通过在六个阶段中前后移动来进行迭代和反思[24]。主题方法依赖于人的解释,这一过程可能受到个人对主题的理解和各种偏见的重大影响。两名有分析Twitter数据经验的团队成员独立记录了他们对NVivo潜在代码的想法。然后,另外两名团队成员审查了最初的代码,并考虑它们是否反映了确定的主题。例如,两个团队成员将几个相似的代码折叠到一个主题中,以确保主题在一个主题下有意义地对应。下一阶段是命名主题,以确保主题符合已确定的突出主题的总体含义。我们最终确定了13个主题对应的主题。

情绪分析

我们使用情感分析,一种自然语言处理(NLP)方法,对给定twitter消息的主要情感进行分类,例如恐惧和喜悦[25]。在本研究中,我们使用了NRC情绪词典,该词典由8种主要情绪组成:愤怒、期待、恐惧、惊讶、悲伤、喜悦、厌恶和信任[26]。我们按照4个步骤来计算每条Twitter消息的情绪指数:(1)删除冠词和代词(例如,“and”,“the”,“to”),(2)通过删除预定义的前缀和后缀列表应用词干(例如,“running”在词干后变成“run”)[27],(3)计算情绪指数(如果一个句子有多个情绪,我们只保留匹配次数最高的情绪),(4)计算每8种情绪类型的得分。我们在之前的一项研究中详细讨论了这四个步骤[18]。


描述性的结果

总的来说,在对所有原始数据进行预处理后,我们的最终数据集包括4,196,020条tweet。我们确定了与COVID-19相关的最受欢迎的推特双引号。双引号捕获了“两个让步词,无论语法结构和语义如何,也可能不是不言自明的”[21]。比格拉姆斯确定的词汇包括:“covid - 19”、“待在家里”、“保持社交距离”、“新病例”、“不知道”、“确诊病例”、“家庭订单”、“纽约”、“检测呈阳性”、“死亡人数”和“保持安全”。流行的词汇包括“病毒”、“封锁”、“隔离”、“人”、“新”、“家”、“喜欢”、“留下来”、“不要”和“病例”。我们展示了与COVID-19相关的最受欢迎的单词和单词表1然后用文字云把它们形象化图34

表1。前50个双字母和单字母及其分布。
前50名 数据集百分比 前50毫克 数据集百分比
covid 19 0.29 病毒 1.18
呆在家里 0.26 封锁 0.98
冠状病毒 0.12 检疫 0.94
社会距离 0.08 0.82
新发病例 0.07 冠状病毒 0.79
不知道 0.04 0.47
例确诊病例 0.04 首页 0.45
国内订单 0.04 就像 0.44
纽约 0.04 即时通讯 0.41
检测呈阳性 0.04 保持 0.41
死亡人数 0.04 0.41
国内的订单 0.04 情况下 0.37
隔离了 0.03 时间 0.36
保持安全 0.03 covid 0.35
传播病毒 0.03 19 0.30
冠状病毒病例 0.03 需要 0.30
住的地方 0.03 一天 0.29
冠状病毒大流行 0.03 特朗普 0.28
岁的 0.03 中国 0.28
公共卫生 0.03 知道 0.28
0.03 0.25
生病的交付 0.03 帮助 0.25
提供副本 0.03 流感大流行 0.24
卫生保健 0.03 世界 0.24
支持美国邮政总局 0.03 健康 0.23
签署的支持 0.02 认为 0.22
美国邮政总局生病 0.02 死亡 0.21
0.02 今天 0.21
隔离我 0.02 0.20
心理健康 0.02 工作 0.20
别想要 0.02 想要 0.19
我要 0.02 电晕 0.17
总统特朗普 0.02 传播 0.17
美国 0.02 得到了 0.17
不认为 0.02 支持 0.17
复制的官员 0.02 政府 0.17
感觉 0.02 正确的 0.15
看起来像 0.02 道路 0.15
阳性病例 0.02 护理 0.15
呆在家里 0.02 社会 0.15
官员toodelivered 0.02 新闻 0.15
冠状病毒爆发 0.02 状态 0.15
家庭暴力 0.02 国家 0.15
冠状病毒锁定 0.02 0.14
卫生保健工作者 0.02 0.14
人死亡 0.02 0.14
检疫的一天 0.02 测试 0.14
唐纳德·特朗普 0.02 停止 0.13
社交媒体 0.02 0.13
图3。云这个词最受欢迎。
查看此图
图4。字云最流行的双字。
查看此图

COVID-19-Related主题

我们的方法LDA生成与COVID-19相关的频繁共出现的单词对,并将这些共出现的单词组织到不同的主题中。LDA允许我们手动定义我们想要生成的主题数量(例如,10个主题,20个主题)。与之前的研究一致,我们使用了相干模型,Gensim (RARE Technologies Ltd) [28],根据数据本身计算出最合适的主题数。对于该数据集,LDA表明,13个主题的连贯性得分较高,主题数最少(例如,19或20个主题的连贯性得分较高,但涉及的主题较多;图5).

图5。基于连贯模型的主题数。
查看此图

我们进一步分析了文献术语矩阵,得到了13个主题的分布。我们展示了13个突出主题的结果,以及每个主题中最受欢迎的单词对(双引号)表2。例如,在所有13个常见潜在话题中,Topic 3的分布最高(8.87%)。与主题3相关的句子包括“检测呈阳性”、“冠状病毒爆发”、“纽约”、“避难所”和“心理健康”。这些词对经常同时出现,因此LDA模型将它们分配给同一个主题。

表2。识别突出的主题、语义及其分布。
主题 主题中的双元图 分布(%)
1 Covid - 19,不知道,致命的病毒,我要,传播病毒,19封锁,群体免疫,000人,19大流行,不需要,口罩,福克斯新闻,卫生工作者,小企业,家庭隔离,就像这样,病毒来了,缓慢传播,检测试剂盒,总确诊 8.51
2 传播病毒,医疗保健,呆在家里,白宫,阳性病例,人们死亡,14天,冠状病毒死亡,护理人员,我见过,需要帮助,封锁日,知道病毒,我得到,医生护士,隔离期,病毒世界,停止病毒,人们得到,一周隔离 7.24
3. 检测呈阳性,冠状病毒爆发,武汉病毒,冠状病毒阳性,确诊病例,纽约,避难所,心理健康,中国病毒,感觉,新病例,gt gt,冠状病毒,病毒,周,人病毒,人不,带来总数,新闻发布会,SARS冠状病毒 8.87
4 不要想,病毒传播,封锁期,假新闻,养老院,武汉实验室,最好的事情,月,封锁,2113,我想,人们知道,实时,整个世界,知道我,知道它,醒来,感觉自由,不想,安东尼·福奇 6.56
5 美国,冠状病毒病例,公共卫生,拯救生命,新型冠状病毒,长期,韩国,不要忘记,BBC新闻,养老院,新闻冠状病毒,百万人口,不意味着,家庭成员,想知道,冠状病毒疫苗,继续,其他世界,冠状病毒,新泽西 7.36
6 在家里,呆在家里,家里的命令,谢谢你,看起来像,好消息,检测呈阳性,人们留下来,抗击病毒,人们抗议,戴口罩,好事,年轻人,封锁,戴口罩,病例死亡,特朗普说,死亡报告,关闭,活跃的病例 7.36
7 保持社会距离,隔离日,医护人员,总理,世界卫生,不关心,全球大流行,不理解,卫生组织,福奇博士,让大家知道,时间封锁,病毒没有,到位,反封锁,避难所,人们认为,实时更新,2个月 7.81
8 冠状病毒封锁,冠状病毒危机,冠状病毒,看起来像,新的冠状病毒,工作组,我确定,冠状病毒患者,防止传播,病毒不,不让,长时间,纽约,高风险,冠状病毒任务,感谢上帝,死亡人数,不喜欢,病毒爆发,冠状病毒病例 7.47
9 保持安全,中国病毒,自我隔离,需要知道,人们离开,新病毒,常识,安全逗留,病毒amp, b c, 22,家人朋友,我们有,有病毒,远离,检测试剂盒,健康amp,病毒消失,4月20日,知道病毒 7.07
10 冠状病毒、新增病例、死亡人数、疫情、隔离日、死亡人数、传播冠状病毒、病例冠状病毒、死亡人数、隔离日、总人数、病例数、报告病例数、2020年4月、确诊病例、冠状病毒死亡人数、24小时、人民需要、停止传播 8.84
11 呆在家里,家庭订单,特朗普总统,社交媒体,寄宿家庭,亲人,保持安全,死亡率,在家工作,31000,社会距离,3100000,抗议住宿,突发新闻,死亡,对不起,10000,死亡率 8.67
12 冠状病毒大流行,一年前,美国,洗手,人们喜欢,在家工作,上帝保佑,很多人,戴口罩,几年前,病毒骗局,喜欢病毒,23天,杂货店,说病毒,2100万,看视频,10天,喜欢amp,英国封锁 7.06
13 现在,我不想,3周,检测呈阳性,唐纳德·特朗普,几周前,封锁周,病毒传播,冠状病毒更新,新西兰,2200万,听起来像是,总病例,封锁2,共产党,每天,中国共产党,病例1,发生了什么,2周 7.18

COVID-19-Related主题

主题分析使我们能够将这些主题划分为不同的主题。该团队考虑了每个主题中已识别的主题、语义和代表性推文样本,并将它们分类到不同的主题中。为了保护Twitter用户的隐私和匿名性,我们没有提供任何与用户相关的信息,例如用户的Twitter句柄或其他识别信息。因此,样本推文是从原始推文中摘录的表3

我们将13个主题分为5个主题:“减缓COVID-19传播的公共卫生措施”(例如,口罩、检测试剂盒、疫苗)、“与COVID-19相关的社会污名”(例如,中国病毒、武汉病毒)、“冠状病毒新闻病例和死亡”(例如,新病例、死亡)、“COVID-19在美国”(例如,纽约,抗议活动,工作队)和“世界其他地区的冠状病毒病例”(例如,英国,全球问题)。例如,“减缓COVID-19传播的公共卫生措施”主题包括“口罩”、“隔离”、“检测试剂盒”、“封锁”、“安全”、“疫苗”和“就地避难”等相关主题。此外,“居家隔离”和“自我隔离”是隔离主题下最常出现的两个词。

表3。基于主题分类、二元语义和示例tweet的主题。
主题和话题 三元 样品推
减缓COVID-19传播的公共卫生措施

口罩 戴口罩,戴口罩 我们每天都戴口罩来保护自己和家人。
检疫 检疫,
自我隔离,隔离期
@realDonaldTrump @JustineTrudeau他们都被强制隔离了两周,他们是必不可少的工人…
测试套件 测试包,测试包 羟氯喹、检测试剂盒和美国:我们敦促莫迪政府从美国最近的例子中吸取教训
封锁 covid - 19封锁,封锁期,
周锁定,
人们感到震惊的是,封锁已经延长了三周,但仍然有人外出聚会
安全 保持安全,保持安全,
远离
要坚强,保持安全#封锁但不是被封锁http://t.co/FvifiEbbs7
疫苗 冠状病毒疫苗 美国国立卫生研究院负责冠状病毒疫苗研究的首席科学家
我们的避难所 避雨的地方,避雨的地方 加州的就地避难令起作用了吗?如果你在没有任何流行病学参考的情况下起诉垃圾数据,那么是的
与COVID-19相关的社会耻辱感

中国共产党 共产党,中国共产党,案例1 #中国共产党(#CCP)正在传播虚假信息,以掩盖#冠状病毒的起源
歧视性的名字 武汉病毒,中国病毒 中国将整个世界置于巨大风险之中。严厉批评他们的饮食习惯。
特朗普发推称“中国病毒” 特朗普总统,社交媒体,中国病毒 特朗普总统:他们知道它来自哪里。我们都知道它来自哪里,#中国病毒
COVID-19新发病例和死亡病例

新发病例 新增病例、总数、确诊病例 RT @neeratanden:每天有4591人死于这种病毒,这是我们所知道的最高数字。
死亡 冠状病毒死亡,死亡人数,人们死亡 英国的死亡人数可能是官方养老院统计的两倍
美国的COVID-19

纽约的心理健康和COVID-19 纽约,收容所,心理健康中心 在隔离期间,纽约人在公寓屋顶上的感觉完全不同。这将被载入史册
反对封锁的抗议 反对封锁,人们抗议,抗议留下来 我和医护人员站在一起!万岁!科罗拉多州,医护人员与反封锁抗议者对峙
美国的特别工作组 专责小组 RT @Jim_Jordan: #冠状病毒特别工作组做得很好。但有一个特别工作组在行动中缺失:美国国会
美国的COVID-19大流行 美国,白宫,新泽西,2100万人,福奇博士, 在美国大部分地区,居家令仍在继续
世界其他地区的COVID-19病例

联合王国 群体免疫,封锁英国,首相 首相一开始就暴露了秘密,他公开对斯克劳罗斯和威利布比说,政府的计划是群体免疫。真正负责的人一定对他非常生气,不得不把他关进带病毒的隔离病房,让他闭嘴!
全球性问题 整个世界,韩国,世界卫生,全球流行病,新西兰 现在全球的数字是182,726。”新西兰总理杰辛达·阿德恩表示,政府将在一周内部分放松封锁,因为……

情绪分析

我们提出了对13个潜在话题的情感分析结果图6表4图6呈现8种情绪:信任、期待、喜悦、惊讶、愤怒、恐惧、厌恶和悲伤。结果显示,在所有13个主题中,预期(深蓝色线)占主导地位的主题有12个,其次是恐惧(橙色线)、信任(灰色线)和愤怒(黄色线)。

我们也做了单尾实验z检验这8种情绪中的每一种在不同主题之间是否有统计学上的显著差异。一个P值<。设0.01为显著性阈值。例如,Topic 5中约有23.8%的推文表达了对“将采取必要措施和预防措施”的预期[1829]。统计上的显著性表明它很有可能(P<.001)表明预期情绪在话题5中的表达更为普遍(23.8%)。在主题10中,18.8%的推文中发现了情绪恐惧(对病毒的影响),这与其他主题中表达的恐惧有统计学差异。

图6。对13个潜在话题进行情感分析。
查看此图
表4。13个主题中8种情绪的百分比一个
主题 愤怒,% 期待,% 厌恶,% 恐惧,% 快乐,% 悲伤,% 令人惊讶的是,% 信任,%
1 10.80 17.60 2.00 14.60 4.60b 2.40 1.60 9.50
2 12.00 21.70b 3.00b 16.90b 4.00 4.10b 2.10 12.40b
3. 12.60b 17.60 2.90b 14.90 3.20 3.80b 2.60b 15.90b
4 13.20b 20.90b 3.30b 15.10 4.20 3.30b 2.20b 13.30b
5 12.40b 23.80b 2.60b 14.30 4.30 3.50b 2.10 13.40b
6 13.10b 22.50b 2.40 13.40 4.60b 3.50b 3.00b 12.80b
7 12.50b 21.90b 2.50b 17.00b 3.70 3.20b 3.30b 13.10b
8 13.80b 20.70b 2.40 16.50b 3.80 3.10b 2.40b 12.10b
9 12.50b 20.70b 2.80b 15.50 7.90b 3.40b 2.40b 12.30b
10 14.60b 17.40 3.00b 18.80b 3.30 3.30b 1.90 11.30
11 11.80 20.60b 2.50b 15.50b 6.00b 3.70b 2.70b 11.90b
12 12.50b 21.40b 2.80b 17.90b 4.20 3.30b 2.60b 14.20b
13 13.30b 20.80b 2.60b 14.80 4.30 4.20b 3.10b 11.50b

一个每个题目的百分比总和不等于100%。其余的由中性或其他情绪组成。

bP<。001年从z测试。


主要结果

在这项研究中,我们使用Twitter上与covid -19相关的信息来处理公众讨论和情绪。2020年3月7日至4月21日,推特用户讨论了与COVID-19相关的5个主要主题。推文的主题建模有助于提供有关COVID-19主题和关注点的见解。结果显示了几个要点。首先,公众在提到COVID-19时使用了多种术语,包括病毒、COVID-19、冠状病毒、冠状病毒。第二,COVID-19被称为“中国病毒”,这可能会造成耻辱,损害应对COVID-19疫情的努力[14]。第三,纽约关于大流行的讨论很突出,与之相关的公众情绪是愤怒。第四,关于中国共产党(CCP)和病毒传播的公开讨论成为一个新话题,这在以前的研究中没有发现[18这表明,随着形势的发展,新冠肺炎与政治之间的联系在推特上越来越多地流传。第五,公众对新冠病毒传播的情绪表现为对可能采取的措施的期待,其次是信任、愤怒和恐惧的复杂情绪。结果表明,公众对COVID-19的快速传播并不感到惊讶。第六,人们在讨论COVID-19危机和死亡时有一种明显的恐惧感。最后,在推特用户讨论COVID-19时,信任不再是一个突出的情绪,这与之前的研究结果不同[18]。

与前期工作比较

我们的研究结果与之前利用社交媒体数据评估与COVID-19相关的公共卫生反应和情绪的研究一致,并表明自2020年1月以来,公众关注的焦点集中在以下主题上:(1)确诊病例和死亡率[111830.[2]预防措施[111831](3)卫生当局和政府政策[1018[4]纽约爆发疫情[18], (5) COVID-19污名(例如,将COVID-19称为“中国病毒”)[1114]和(6)消极的心理反应(如恐惧)或心理健康后果[1131-33]。

与一项利用2020年1月20日至3月7日Twitter数据调查与COVID-19相关的公众讨论和担忧的研究相比,我们发现几个突出的话题不再受欢迎:(1)韩国的疫情;(2)新冠肺炎疫情钻石公主(3)对经济的影响[1132],以及(4)供应链[18]。鉴于目前的预防措施,洗手不再是一个流行的话题;相反,隔离已成为主导。

此外,我们的研究确定了3月7日至4月21日期间关于COVID-19的新讨论主题:(1)需要疫苗来阻止传播,(2)隔离和就地隔离命令,(3)反对封锁的抗议活动,以及(4)美国的COVID-19大流行。新的突出话题表明,推特用户(用英语发推文)将注意力集中在美国的COVID-19(如纽约、抗议活动、特别工作组、数百万确诊病例)上,而不是全球新闻(如韩国、钻石公主游轮,李文亮博士在中国)。

限制

首先,我们只采样了20个标签作为关键搜索词来收集Twitter数据(多媒体附录1).随着形势的发展,新的标签不断涌现。例如,在相关话题变得更受欢迎后,一个标签可能会被广泛使用,比如新冠病毒的官方名称(COVID-19)。第二,推特用户并不能代表全球所有人,推文的主题只能反映网民对新冠肺炎的看法和反应。然而,推特数据集仍然是一种宝贵的资源,使我们能够检查实时推特用户的反应和与COVID-19相关的在线活动。第三,非英语推文从我们的分析中删除,因此结果仅限于只用英语发布的用户。未来的COVID-19研究应纳入其他语言,如意大利语、法语、德语和西班牙语。

未来的研究

未来的研究可以进一步探索公众对现有措施和政策的信任和信心,这是必不可少的。与之前的工作相比,我们的研究表明,Twitter用户在谈论群体免疫时有一种快乐的感觉。与隔离和就地避难相关的恐惧和期待情绪。未来的研究可以评估政府官员(如特朗普总统)和国际组织(如世界卫生组织)如何向公众传递和传达信息,以及随后对公众舆论和情绪的影响。反华/亚洲情绪在社交媒体上传播,值得评估人们如何利用这些平台抵制和挑战COVID-19的污名。在这项研究中,COVID-19大流行期间的错误信息并不是一个突出的主题。现有的一项研究表明,25% (n=153)的抽样推文包含错误信息[34]。与#2019_ncov和冠状病毒相关的术语相比,与COVID-19相关的错误信息发生率较低。未来的研究应该调查错误信息以及它如何在社交媒体上传播。最后,当人们在推特上发布确诊病例和死亡病例时,信任不再突出。相反,恐惧取代了信任成为主导情绪。未来的研究应该考察信任随时间的变化。

结论

通过研究COVID-19大流行期间不断变化的公众讨论和情绪,可以利用Twitter数据和机器学习方法进行信息流行病学研究。我们的研究结果有助于了解2020年3月7日至4月21日期间Twitter用户对COVID-19大流行的公众讨论和担忧。推特上有几个话题一直占据主导地位,如“确诊病例和死亡率”、“预防措施”、“卫生当局和政府政策”、“耻辱”和“负面心理反应”(如恐惧)。随着形势的迅速发展,新的突出话题也随之出现。恐惧源自新病例或死亡报告的讯息[18]。实时监测和评估Twitter用户关注的问题有望为公共卫生应急反应和规划提供信息。听取公众的真实关切并作出反应,可以增强卫生保健系统与公众之间的信任,并为未来的突发公共卫生事件做好更好的准备。

利益冲突

没有宣布。

多媒体附录1

补充数据。

DOCX文件,13 KB

  1. 系统科学与工程研究中心。约翰霍普金斯大学CSSE (JHU)的COVID-19仪表板。URL:https://www.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6[2020-06-16]访问
  2. Twitter大流行:Twitter在2019冠状病毒病大流行期间传播医疗信息和错误信息中的关键作用中国医学工程学报,2020;22(4):418-421 [j]免费全文] [CrossRef] [Medline]
  3. 斯坎菲尔德D,斯坎菲尔德V,拉尔森EL。通过社会网络传播卫生信息:推特和抗生素。[J]中华传染病杂志,2010;38(3):182-188 [J]免费全文] [CrossRef] [Medline]
  4. 陈薛J,陈J, C,胡R,朱t .隐藏的大流行期间的家庭暴力COVID-19:无监督学习的tweet。[J]医学互联网研究,2020,11,22(11):e24361-e24353 [J]免费全文] [CrossRef] [Medline]
  5. Cheong M, Lee VCS。基于微博的恐怖主义信息学方法:通过Twitter探索和记录平民情绪和对恐怖主义事件的反应。Inf系统前沿2010 Sep 29;13(1):45-59。[CrossRef]
  6. Chew C, Eysenbach G. Twitter时代的流行病:2009年H1N1爆发期间Twitter的内容分析。PLoS One 2010; 11 (11):e14118 [j]免费全文] [CrossRef] [Medline]
  7. Jones JH, salath M.对新型猪源性甲型H1N1流感的焦虑和行为反应的早期评估。PLoS One 2009 Dec 03;4(12):e8032 [j]免费全文] [CrossRef] [Medline]
  8. 金Y,金JH。使用照片进行公共卫生交流:对疾病控制和预防中心Instagram照片和公众反应的计算分析。卫生信息学报,2020;26(3):2159-2180 [J]免费全文] [CrossRef] [Medline]
  9. Signorini A, Segre AM, Polgreen PM。在甲型H1N1流感大流行期间,使用Twitter跟踪美国疾病活动水平和公众关注程度。PLoS One 2011年5月04日;6(5):e19467 [免费全文] [CrossRef] [Medline]
  10. Rufai S, Bunce C.应对COVID-19大流行的世界领导人使用Twitter:内容分析。中华卫生杂志,2020年8月18日;42(3):510-516 [J]免费全文] [CrossRef] [Medline]
  11. Abd-Alrazaq A, Alhuwail D, Househ M, Hamdi M, Shah Z.推特用户在COVID-19大流行期间最关注的问题:信息监测研究。医学互联网研究,2020年4月21日;22(4):e19016 [J]免费全文] [CrossRef] [Medline]
  12. Ahmed W, Vidal-Alaball J, Downing J, López Seguí F. COVID-19和5G阴谋论:Twitter数据的社交网络分析。[J]医学互联网研究,2020,05;22(5):e19458 [J]免费全文] [CrossRef] [Medline]
  13. Alvarez-Risco A, Mejia C, Delgado-Zegarra J, Del-Aguila-Arcentales S, Arce-Esquivel A, Valladares-Garrido M,等。秘鲁应对COVID-19信息大流行的方法:见解和战略。[J]中华医学杂志,2011;31 (2):583-586 [J]免费全文] [CrossRef] [Medline]
  14. 利用新型冠状病毒制造COVID-19污名。[J]医学互联网研究,2020,06;22(5):e19301。[CrossRef] [Medline]
  15. 陈E, Lerman K, Ferrara E.追踪社交媒体关于COVID-19大流行的话语:公共冠状病毒Twitter数据集的开发。JMIR公共卫生监测2020年5月29日;6(2):e19273 [j]免费全文] [CrossRef] [Medline]
  16. Mackey T, Purushothaman V, Li J, Shah N, Nali M, Bardier C,等。机器学习检测Twitter上与COVID-19相关的症状、测试访问和恢复的自我报告:回顾性大数据信息监测研究中华医学会公共卫生监测2020年6月08日;6(2):e19509 [j]免费全文] [CrossRef] [Medline]
  17. 向鑫,卢鑫,Halavanau A,薛健,孙勇,赖平,等。面对流行病的现代杀戮:使用机器学习对老年人和COVID-19的公共话语和情绪的检查。[J]心理科学,社会科学,2020,8月12日:A [J]免费全文] [CrossRef] [Medline]
  18. 郑薛J,陈,陈C, C, S,朱t .公共话语和情绪COVID 19大流行期间:在Twitter上使用潜在狄利克雷分配主题建模。PLoS One 2020 Sep 25;15(9):e0239441 [j]免费全文] [CrossRef] [Medline]
  19. James G, Witten D, Hastie T, Tibshirani R.统计学习概论。美国纽约:斯普林格出版社;2013.
  20. 李建军,李建军,李建军,等。计算机学报(英文版);2003;3:993-1022 [j]免费全文]
  21. 薛静,陈静,陈磊。基于数据挖掘技术的推特家庭暴力话题分析。暴力与性别2019,6(2):105-114。[CrossRef]
  22. Cinelli M, Quattrociocchi W, Galeazzi A, Valensise CM, Brugnoli E, Schmidt AL等。COVID-19社交媒体信息大流行。科学通报2020;10(1):16598 [j]免费全文] [CrossRef] [Medline]
  23. 主题分析在心理学中的应用。心理学质的研究2006;3(2):77-101。[CrossRef]
  24. Nowell LS, Norris JM, White DE, Moules NJ。专题分析。国际定性方法学报,2017;16(1):1。[CrossRef]
  25. 贝吉刚,胡鑫,马西耶夫斯基,刘宏。情感分析在社交媒体救灾中的应用综述。In: Pedrycz W, Chen SM,编辑。计算智能研究。美国纽约:施普林格出版社;2016:313 - 340。
  26. NRC情绪词汇。加拿大国家研究委员会,2013。URL:https://nrc-publications.canada.ca/eng/view/object/?id=0b6a5b58-a656-49d3-ab3e-252050a7a88c[2020-11-12]访问
  27. 李建军,李建军,李建军。信息检索技术的研究进展。英国剑桥:剑桥大学出版社;2008.
  28. Michael R, Andreas B, Alexander H.话题连贯测度的空间探索。2015年发表于:第八届ACM网络搜索与数据挖掘国际会议;2015;上海,中国,p. 399-408。[CrossRef]
  29. Kaila RP, Prasad AVK。推特信息流-冠状病毒爆发-主题建模方法。工程学报,2020;11(3):128-134 [j]免费全文]
  30. Stokes DC, Andy A, Guntuku SC, Ungar LH, Merchant RM。在线论坛中公众对COVID-19的优先事项和关注:纵向主题建模。中华临床医学杂志,2020;35(7):2244-2247 [J]免费全文] [CrossRef] [Medline]
  31. 张晓东,张晓东,张晓东,等。新型冠状病毒肺炎对心理健康结果的潜在影响及其对服务解决方案的影响。2020年4月15日。URL:响应/报告/ potential-impact-of-covid-19-on-mental-health-outcomes-and-the-implications-for-service-solutions / https://arc-w.nihr.ac.uk/research-and-implementation/covid-19-[2020-11-12]访问
  32. 李松,王勇,薛健,赵宁,朱涛。新冠肺炎疫情宣布对心理后果的影响——基于活跃微博用户的研究。国际环境与公共卫生杂志2020年3月19日;17(6):2032 [J]免费全文] [CrossRef] [Medline]
  33. 苏勇,薛健,刘翔,吴鹏,陈健,陈超,等。新冠肺炎疫情对武汉和伦巴第封锁的影响——基于微博和推特的心理语言学分析国际环境与卫生杂志,2020年6月24日;17(12):4552 [J]免费全文] [CrossRef] [Medline]
  34. 梅德福R, Saleh S, Sumarsono A, Perl T, Lehmann C. An。Open Forum infection Dis 2020;7(7):ofaa258 [j]免费全文] [CrossRef] [Medline]


API:应用程序编程接口
中国共产党:中国共产党
LDA:潜在狄利克雷分配
NLP:自然语言处理


G·艾森巴赫编辑;提交22.05.20;J Zhang, R Guo, A Dormanesh;对作者10.06.20的评论;修订版本收到16.06.20;接受28.10.20;发表25.11.20

版权

©薛佳,陈俊翔,胡然,陈晨,郑成达,苏悦,朱廷韶。原发表于医学互联网研究杂志(//www.mybigtv.com), 2020年11月25日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map