这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
近年来,新冠肺炎大流行给公共卫生、社会和经济带来了巨大变化。在疫情期间,社交媒体为人们提供了一个讨论健康问题、生活状况和政策的平台,让决策者可以利用这些内容来分析公众的情绪和态度,以进行决策。
本研究的目的是使用基于深度学习的方法,通过推特上的比较地理定位和文本挖掘分析,了解英国公众对COVID-19大流行相关主题的情绪。
我们提取了来自英国48个不同城市的50多万条与COVID-19有关的推文,数据涵盖了过去两年(2020年2月至2021年11月)。我们利用三种先进的基于深度学习的主题建模模型来地理空间地分析英国推文的情绪、情绪和主题:用于情感分析的SenticNet 6、用于情感识别的SpanEmo和组合主题建模(CTM)。
我们观察到,随着流行病学情况和疫苗接种情况在两年内的变化,推文数量发生了显著变化。由于2019冠状病毒病在英国的爆发,从2020年1月到2020年2月,推特的数量急剧增加。到2020年2月,推文数量逐渐下降。此外,随着2021年11月在英国发现新冠病毒Omicron变种,推文数量再次增长。我们的调查结果揭示了人们对COVID-19相关话题的态度和情绪。在情绪方面,大约60%的推文是正面的,20%是中性的,20%是负面的。在情绪方面,人们倾向于在2020年初表达高度积极的情绪,而随着时间的推移,在2021年底表达高度消极的情绪。在大流行期间,主题也发生了变化。
通过对推特的大规模文本挖掘,我们的研究发现,英国不同城市的公众情绪和话题在COVID-19大流行方面存在显著差异。此外,高效的基于位置和时间的比较分析可以用来跟踪人们的思想和感受,并了解他们的行为。根据我们的分析,在大流行期间,积极的态度很普遍;乐观和期待是主要的情绪。随着疫情的爆发和流行病学的变化,政府制定了控制措施和疫苗接种政策,主题也随着时间的推移而变化。总的来说,表情符号、情绪、情绪和话题的比例和表达方式在地理和时间上都有所不同。因此,我们通过推特探索公众情绪和大流行话题的方法可能会了解特定地理区域的公共政策是如何被接受的。
2019冠状病毒病(COVID-19)大流行危机对全世界产生了巨大影响,使大多数国家面临前所未有的局面。封锁在各个层面造成了巨大的社会后果。新冠肺炎疫情导致大多数国家对迁徙、旅行和聚会实施了不同阶段的限制,以遏制感染的爆发。这些限制改变了人们过去工作、社交、购物、旅行等的方式,导致了应对这种情况的各种行为和社会变化(例如,在家工作、害怕社交、孤立、孤独)。由于这种前所未有的社会变化,政策制定者必须了解人们的心理状态,以帮助机构、政府和个人度过大流行[
传统上,政策制定者使用问卷调查来捕捉公众对重大事件的意见,但由于时空粒度和样本量造成的偏差,限制了这种证据收集方法的有效性。近年来,社交媒体已成为收集民意信息和证据的重要工具。推特是一个流行的社交媒体平台,在英国有超过1900万用户。
最近,越来越多的研究集中在COVID-19大流行的不同属性上,包括情绪、情绪和话题[
情感代表了人们所表达的态度和感情。情感分析确定并解释从社交媒体上收集的在线帖子是积极的、中立的还是消极的,并有助于更好地洞察公众的看法和态度。情绪分析还可以帮助理解信息是如何在社交媒体上传播的:一条带有积极/消极情绪的推文会产生另一条具有相同或相反情绪的推文。
来自社交媒体的情绪检测在监测健康和幸福方面发挥着重要作用[
除了情感分析和情感检测,主题建模是一种重要的文本分析技术,它将文本划分为不同的主题。大多数模型可以在没有监督的情况下发现隐藏的主题,因此不需要对具有预定义主题的特定数据进行训练,这使得这种方法适合于分析社交媒体数据,以确定人们在这些平台上谈论什么。在COVID-19大流行期间,主题建模已用于许多卫生应用程序[
鉴于对了解人们对大流行的看法和情绪的研究兴趣日益浓厚[
为了开发我们的语料库,我们使用Twitter应用程序编程接口,通过在英国多个城市使用几个边界框收集数据。我们进一步使用了与大流行相关的关键词列表(例如,冠状病毒,sars19, covid19和NHS[国家卫生服务])。数据涵盖了过去两年(即2020年和2021年)。为了获取数据上的位置标签,我们使用Python地理编码库" geopy " [
每个城市和表情符号的推文数量显示在
英国每个城市的推文数量。
城市 | 微博, | 人口,n |
浴 | 1698 | 105730年 |
伯明翰一个 | 21120年 | 1159888年 |
布莱克本 | 1092 | 121475年 |
布拉德福德 | 4980 | 368485年 |
布赖顿 | 10092年 | 245504年 |
布里斯托尔一个 | 10338年 | 580199年 |
剑桥 | 6894 | 149155年 |
坎特伯雷 | 2292 | 64495年 |
卡莱尔 | 1098 | 74536年 |
切姆斯福德 | 3894 | 119468年 |
切斯特 | 3516 | 87881年 |
奇切斯特 | 864 | 31881年 |
考文垂 | 6072 | 388793年 |
德比 | 3503 | 264430年 |
达勒姆 | 9414 | 56920年 |
伊灵 | 4914 | 340341年 |
伊利 | 432 | 20333年 |
埃克塞特 | 3360 | 127709年 |
格洛斯特 | 1740 | 148167年 |
赫里福德 | 1134 | 64037年 |
金斯敦 | 5286 | 287705年 |
科克里斯 | 3156 | 441290年 |
兰开斯特 | 876 | 52935年 |
利兹一个 | 11628年 | 516298年 |
莱斯特一个 | 19818年 | 472897年 |
利奇菲尔德 | 792 | 34686年 |
林肯 | 4614 | 107434年 |
利物浦一个 | 15876年 | 589774年 |
伦敦一个 | 111667年 | 9088994年 |
卢顿 | 2658 | 222043年 |
曼彻斯特一个 | 25260年 | 567334年 |
纽卡斯尔 | 9642 | 290688年 |
北安普顿 | 3954 | 230070年 |
诺维奇 | 4290 | 199245年 |
诺丁汉一个 | 11827年 | 320536年 |
彼得伯勒 | 2054 | 179349年 |
普利茅斯 | 2736 | 240297年 |
朴茨茅斯 | 4878 | 248748年 |
普雷斯顿 | 3816 | 100095年 |
雷德布里奇 | 3227 | 310330年 |
里庞 | 138 | 15971年 |
洛奇代尔 | 1415 | 114511年 |
罗瑟勒姆 | 198 | 111158年 |
索尔福德 | 8034 | 125983年 |
谢菲尔德一个 | 15582年 | 557039年 |
南安普顿 | 7806 | 270333年 |
伍斯特 | 3492 | 101816年 |
纽约 | 5748 | 164934年 |
一个在后续分析中使用的前9个城市。
为了预处理数据,我们使用了针对Twitter的特定特征(即拼写错误和缩写)设计的“ekphrasis”工具[
我们使用SenticNet 6 [
情感识别模型是基于我们基于深度学习的模型“SpanEmo”[
最后,对于主题建模,我们使用CTM [
我们的管道概述。CTM:组合主题建模。
由于我们的数据是从推特收集的,我们遵循了推特的服务条款和严格的伦理研究协议,类似于指南。
我们对COVID-19在线数据集的情绪、情绪和主题建模进行了不同类型的分析。首先,我们分析了情感词汇和主题词汇之间的关联,两者都证明了词汇与其各自的情感标签和主题之间的关系。然后,我们分析了给定的位置,以及COVID-19对英国不同城市的影响。此外,还对基于时间的特征进行了分析,重点是显示COVID-19随时间的影响。最后,我们分析了数据中的实例,讨论了在英国大流行期间考虑情绪、情感和主题分析在理解人们关注的问题方面的好处。
我们使用CTM提取主题。
由SpanEmo预测的与每种情感类别相关的前6个单词。
情感类 | 相关的单词 | ||
|
|||
|
愤怒 | 死,思,公,病毒,别,反 | |
|
厌恶 | 死亡,病毒,对抗,因为,公众,之后 | |
|
恐惧 | 死亡、传播、症状、冠状病毒、识别、自我报告 | |
|
悲伤 | 死亡,走,病例,医院,其他 | |
|
悲观主义 | 不幸的是,家人、朋友在几周内相继离世 | |
|
|||
|
期待 | 支持,疫苗,第一,工作,公众,病例 | |
|
快乐 | 很好,谢谢,支持,开心,很棒,安全 | |
|
信任 | 信任,感谢,保护,重要,社区,每个人 | |
|
爱 | 快乐,被爱,分享,美丽,精彩,惊人 | |
|
乐观 | 请,感谢,支持,工作,伟大,传播 | |
|
惊喜 | 震惊,惊讶,惊人,公开,绝对,死亡 |
使用组合主题建模和每个主题前5个相关词提取主题。
主题 | 相关的单词 |
t1 | 感谢,感激,自豪,了不起,英雄们 |
t2 | 阶级,符号,贸易,世界范围,保持 |
t3 | 讨论,博客,讨论,恢复,机会 |
t4 | 团结,健身,王国,完整,形象 |
t5 | 插曲,曲调,电影,录像,广播 |
t6 | 后,一致,撞击,不适,填充 |
t7 | 疫苗,疫苗,剂量,药物,加强剂 |
t8 | 信件,家庭,工人,工资,私人 |
t9 | 访问,眼睛,推特,点击,网站 |
t10 | 死亡,死亡,真实,杀戮,因为 |
t11 | 已确认,总数,英格兰,威尔士,报告 |
病人 | 后方,同意,危及,不知不觉,不适 |
t13 | 谎言,卡明斯,媒体,领袖,领袖 |
t14 | 冠状病毒,大流行,爆发,instagram,爆发 |
t15 | 口罩,戴,脸,手,盖 |
t16.1 | 缓慢、线程、实现、测试跟踪、症状 |
t17 | 夫妻,没有,感觉,女儿,假期 |
t18 | 留下来,被爱,坚强,祈祷,健康 |
在
在
此外,我们还统计了10个主题在不同城市的比例,如图所示
英国城市样本中使用的表情符号数量。
情绪表达在英国城市样本中的分布。
情绪表达在英国城市样本中的分布。
话题表达在英国城市样本中的分布。看到
随着时间的推移,这一流行病的情况发生了变化,反映出人们对这一流行病的关注程度。
2020年1月至2021年12月与COVID-19相关的推文数量。每条彩色线代表一个特定的年份(例如,红色代表2020年,橙色代表2021年)。
从2020年到2021年,不同情感表达的推文数量。
2020 - 2021年不同主题表达的推文数量。看到
从情绪的角度来看,不同的推文表达了不同的情绪(包括积极的、中性的和消极的情绪)。例3讨论了第二种COVID-19疫苗已经成功接种,例9赞扬了社区团体的帮助和支持,这两个例子都显示了用户强烈的积极情绪。例7表达了负面情绪,因为用户因疫情无法见到亲人。其他一些例子(例如例1、2、5、6和8)在大流行期间通过引入疫苗接种、封锁或志愿者来表达积极的态度。此外,示例4显示了一个表达混合情绪(积极和消极)的实例,尽管它被SenticNet标记为中性。然而,SpanEmo发现了一些复杂的情绪,这有助于克服SenticNet在正确处理带有复杂情绪或情绪的表达方面的局限性。
这项研究调查了2020年1月至2021年12月期间英国不同城市的50多万条与COVID-19有关的推文,这些城市的推文数量在疫情爆发后急剧增加。我们使用了三种基于深度学习的模型来分析和结合情绪、情绪和主题,以确定大流行期间的关键公众关注点。通过我们的分析,我们发现情绪分析可以帮助理解COVID-19大流行期间人们的观点和态度。同时,考虑地理位置信息可以揭示英国不同地区之间的差异。随着时间的推移,总体情绪是积极的,乐观是主要的情绪,这表明人们倾向于对形势持乐观态度。在这两年里,随着流行病学形势和政府政策的变化(如接种疫苗、保持社交距离),推特上表达的情绪、情绪和话题发生了变化,这也反映了人们态度的变化。
还确定了在联合王国收集关于人们在大流行期间反应的证据时所选属性的好处。这些属性包括情绪、情绪、表情符号和主题建模。这项分析表明,这些属性可以帮助收集证据并分析大流行期间人与人之间的互动。第一个属性是情绪,它可以作为理解人们反应的指南。例如,一些人表达对COVID-19的担忧有多种原因,如(1)解决问题的时间比预期的要长,(2)取消或改变计划,(3)旅行限制,(4)戴口罩,以及(5)与家人和朋友隔离和缺乏联系。其他人表达了一些积极的反应和应对大流行的潜在解决方案,包括家庭支持、接种疫苗、呆在家里或戴口罩,以及志愿服务。第二个属性是表情符号,它描述了文本中的整体表达,在某种意义上类似于主题建模,两者都指的是推文中表达的主题。这为表情符号提供了另一个维度,它一直被用作收集情绪数据的替代品[
情绪分析也有助于了解某些事件背后的公众舆论和看法。通过分析我们数据中的情绪,我们发现大多数人在大流行期间都有积极的态度,这与之前的研究结论相吻合[
从提取的话题中,我们发现人们关注的话题有很多,包括COVID-19的症状、疫苗接种、社交媒体、政府政策和生活条件。社交媒体主题的变化揭示了COVID-19对人们生活的影响,将关于日常生活的讨论转移到大流行和政策上。
此外,由于城市环境、疫情、政策、热点等各种因素的影响,来自英国不同城市的人们使用的表情包、表达的情绪、讨论的话题都有所不同。调查结果揭示了人们对COVID-19大流行看法的复杂性和多样性,这表明有必要跟踪公众态度。
这项工作基于现有的自然语言处理方法,这些方法用于分析不同的属性,如情绪、情绪和主题。然而,这些现有的方法可能无法保证其预测反映实际属性。此外,情绪和情感是主观任务,这使得它们难以建模,反过来又会影响我们的解释和结果。此外,由于我们的数据是从Twitter上收集的,使用了特定的关键字,因此我们可能错过了在线线程和观点中的其他主题。相关的讨论也可以从其他社交媒体平台(如Facebook, Reddit)。在这方面,我们的数据提供了Twitter上用户交互的部分样本。然而,这些方法也适用于其他纵向数据和社交媒体平台。
我们的主要贡献是采用多种方法,深入了解COVID-19大流行期间英国城市的公众情绪和情绪。此外,我们的方法是基于地点和时间的,支持跟踪公众关注的比较分析。我们的分析表明,在大流行期间,积极的态度很普遍;乐观和期待是主要的情绪。随着疫情的爆发和流行病学的变化,政府制定了控制措施和疫苗接种政策,主题也随着时间的推移而变化。此外,对比地理位置分析还揭示了不同城市的人们在表达情绪和讨论话题方面的差异。总的来说,我们的研究表明,分析来自社交媒体的数据有助于更好地了解城市层面上与COVID-19相关的公众情绪和担忧,这可能有助于制定可接受的政策。
数据集中与每个表情符号相关的推文的百分比。
表达对COVID-19积极和消极反应的推文示例。
组合主题建模
国民保健制度
这项工作得到了医学研究委员会(MRC)、英国MR/R022461/1和英国艾伦图灵研究所的部分资金支持。
医管局为这项研究策划了数据。HA和TZ设计方法,分析和解释数据,并起草手稿。SA编辑了手稿。
没有宣布。