JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v24i10e40323 36150046 10.2196/40323 原始论文 原始论文 英国COVID-19大流行期间推特上表达的情绪和话题:比较地理定位和文本挖掘分析 Basch 科里 尼尔森 约书亚 举行的 马苏德• Alhuzali 哈桑 博士学位 1 https://orcid.org/0000-0002-0935-0774 Tianlin MSc 2 https://orcid.org/0000-0003-0843-1916 Ananiadou 索菲娅 博士学位 2
计算机科学系 国家文本挖掘中心 曼彻斯特大学 公主街131号 曼彻斯特,M1 7DN 联合王国 44 161 306 3092 sophia.ananiadou@manchester.ac.uk
3. https://orcid.org/0000-0002-4097-9191
计算机与信息系统学院“, 乌姆库拉大学 麦加 沙特阿拉伯 计算机科学系 国家文本挖掘中心 曼彻斯特大学 曼彻斯特 联合王国 图灵研究所 伦敦 联合王国 通讯作者:Sophia Ananiadou sophia.ananiadou@manchester.ac.uk 10 2022 5 10 2022 24 10 e40323 15 6 2022 8 7 2022 6 8 2022 10 8 2022 ©Hassan Alhuzali, Tianlin Zhang, Sophia Ananiadou。最初发表于医疗互联网研究杂志(//www.mybigtv.com), 05.10.2022。 2022

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

近年来,新冠肺炎大流行给公共卫生、社会和经济带来了巨大变化。在疫情期间,社交媒体为人们提供了一个讨论健康问题、生活状况和政策的平台,让决策者可以利用这些内容来分析公众的情绪和态度,以进行决策。

客观的

本研究的目的是使用基于深度学习的方法,通过推特上的比较地理定位和文本挖掘分析,了解英国公众对COVID-19大流行相关主题的情绪。

方法

我们提取了来自英国48个不同城市的50多万条与COVID-19有关的推文,数据涵盖了过去两年(2020年2月至2021年11月)。我们利用三种先进的基于深度学习的主题建模模型来地理空间地分析英国推文的情绪、情绪和主题:用于情感分析的SenticNet 6、用于情感识别的SpanEmo和组合主题建模(CTM)。

结果

我们观察到,随着流行病学情况和疫苗接种情况在两年内的变化,推文数量发生了显著变化。由于2019冠状病毒病在英国的爆发,从2020年1月到2020年2月,推特的数量急剧增加。到2020年2月,推文数量逐渐下降。此外,随着2021年11月在英国发现新冠病毒Omicron变种,推文数量再次增长。我们的调查结果揭示了人们对COVID-19相关话题的态度和情绪。在情绪方面,大约60%的推文是正面的,20%是中性的,20%是负面的。在情绪方面,人们倾向于在2020年初表达高度积极的情绪,而随着时间的推移,在2021年底表达高度消极的情绪。在大流行期间,主题也发生了变化。

结论

通过对推特的大规模文本挖掘,我们的研究发现,英国不同城市的公众情绪和话题在COVID-19大流行方面存在显著差异。此外,高效的基于位置和时间的比较分析可以用来跟踪人们的思想和感受,并了解他们的行为。根据我们的分析,在大流行期间,积极的态度很普遍;乐观和期待是主要的情绪。随着疫情的爆发和流行病学的变化,政府制定了控制措施和疫苗接种政策,主题也随着时间的推移而变化。总的来说,表情符号、情绪、情绪和话题的比例和表达方式在地理和时间上都有所不同。因此,我们通过推特探索公众情绪和大流行话题的方法可能会了解特定地理区域的公共政策是如何被接受的。

推特 新型冠状病毒肺炎 地理位置 情感检测 情绪分析 主题建模 社交媒体 自然语言处理 深度学习
简介

2019冠状病毒病(COVID-19)大流行危机对全世界产生了巨大影响,使大多数国家面临前所未有的局面。封锁在各个层面造成了巨大的社会后果。新冠肺炎疫情导致大多数国家对迁徙、旅行和聚会实施了不同阶段的限制,以遏制感染的爆发。这些限制改变了人们过去工作、社交、购物、旅行等的方式,导致了应对这种情况的各种行为和社会变化(例如,在家工作、害怕社交、孤立、孤独)。由于这种前所未有的社会变化,政策制定者必须了解人们的心理状态,以帮助机构、政府和个人度过大流行[ 1- 4].

传统上,政策制定者使用问卷调查来捕捉公众对重大事件的意见,但由于时空粒度和样本量造成的偏差,限制了这种证据收集方法的有效性。近年来,社交媒体已成为收集民意信息和证据的重要工具。推特是一个流行的社交媒体平台,在英国有超过1900万用户。 5论坛上有许多关于新冠肺炎相关话题的讨论和意见。先前的研究表明,Twitter可以提供重要的公共卫生信息,并对公共卫生研究具有广泛的适用性,包括医疗福利和跟踪传染病爆发[ 6 7].因此,为了弥补与传统调查的证据差距,Twitter数据可以用来补充数据收集,并了解公众对流行病的看法[ 8 9]以及对COVID-19疫情的反应[ 10].

最近,越来越多的研究集中在COVID-19大流行的不同属性上,包括情绪、情绪和话题[ 11- 16].Kleinberg等人[ 11他建立了COVID-19真实世界担忧数据集,该数据集基于2500名参与者在写作时报告的直接调查。古普塔等[ 13通过使用一组与大流行相关的关键字,以及分析情绪和主题作为情绪的附加属性,从Twitter上创建了另一个COVID-19数据集。例如,在不同国家,包括美国,有一些基于情绪分析和主题建模的推特或Reddit上与COVID-19疫苗相关的讨论的分析[ 17- 19],加拿大[ 20.]、联合王国[ 18]、沙特阿拉伯[ 21],及澳洲[ 22].

情感代表了人们所表达的态度和感情。情感分析确定并解释从社交媒体上收集的在线帖子是积极的、中立的还是消极的,并有助于更好地洞察公众的看法和态度。情绪分析还可以帮助理解信息是如何在社交媒体上传播的:一条带有积极/消极情绪的推文会产生另一条具有相同或相反情绪的推文。 23].情绪分析已被用于许多实际应用,包括财务分析、政治、健康预测和医疗服务改进[ 24].例如,通过分析公共信息,卫生从业人员可以使用情绪分析来了解基于人群的干预方法(如COVID-19疫苗接种)的潜在障碍。此外,分析患者对不同治疗方法的在线评论可以提高患者满意度[ 25].

来自社交媒体的情绪检测在监测健康和幸福方面发挥着重要作用[ 26].临床医生和卫生专业人员也从情绪分析中受益,以了解公众情绪和公共卫生对干预措施(即疫苗)的看法变化。情绪检测系统已被用于提醒公共卫生从业人员,监测精神病人[ 27]、预防自杀[ 28],以及药物不良反应[ 29].一些作品利用基于情感的特征,专门检测用户在社交媒体上报告的药物不良反应,可以指导卫生专业人员和制药公司使药物更安全,倡导患者安全[ 30.- 32].此外,情绪传染的想法可以进一步在提高用户的整体幸福感或防止他们出现心理健康问题方面发挥关键作用。克莱默等[ 33他指出,情感可以通过这种方式传递给他人 情绪感染。情绪传染使人们经历相似的情绪,即使他们没有意识到自己的情绪变化。另一方面,其他研究发现,由于大量接触社交媒体上的负面内容,人们的心理健康问题(即抑郁和焦虑)与COVID-19的爆发之间存在密切联系[ 34 35].另一方面,一个人也可以让人们接触积极的或期望的情绪(例如,平静、快乐、乐观和休息),以提高他们的整体幸福感。 33].

除了情感分析和情感检测,主题建模是一种重要的文本分析技术,它将文本划分为不同的主题。大多数模型可以在没有监督的情况下发现隐藏的主题,因此不需要对具有预定义主题的特定数据进行训练,这使得这种方法适合于分析社交媒体数据,以确定人们在这些平台上谈论什么。在COVID-19大流行期间,主题建模已用于许多卫生应用程序[ 36,例如监测人们的担忧,预测COVID-19病例,分析政府的应对措施。主题建模在卫生信息监测和舆情监测中发挥了至关重要的作用[ 37].

鉴于对了解人们对大流行的看法和情绪的研究兴趣日益浓厚[ 37],本研究的目的是使用基于深度学习的方法,通过Twitter上的比较地理定位和文本挖掘分析,了解英国公众对COVID-19大流行相关主题的情绪。具体来说,我们利用了三种先进的基于深度学习的方法(即SenticNet [ 38], SpanEmo [ 39]、组合主题建模[CTM] [ 40),然后对从Twitter收集的数据集进行了分析,以探索人们对COVID-19的情绪、情绪和话题。我们进一步纳入了对这些属性的分析,重点是了解大流行随时间的影响。这项研究的总体目标是使用情绪检测、情绪分析和主题建模自动捕捉COVID-19对英国人口的影响。

方法 数据源

为了开发我们的语料库,我们使用Twitter应用程序编程接口,通过在英国多个城市使用几个边界框收集数据。我们进一步使用了与大流行相关的关键词列表(例如,冠状病毒,sars19, covid19和NHS[国家卫生服务])。数据涵盖了过去两年(即2020年和2021年)。为了获取数据上的位置标签,我们使用Python地理编码库" geopy " [ 41],它基于第三方地理编码器和其他数据源,帮助定位地址(如Oxford Rd, Manchester M13 9PL)、城市(如Manchester)、国家(如United Kingdom)和地标(以纬度和经度坐标的形式)的坐标。更具体地说,我们使用“提名制”[ 42]作为第三方工具。因此,在这项研究中,我们总共获得了来自48个城市的516,427条推文。

每个城市和表情符号的推文数量显示在 表1而且 多媒体附件1,分别。我们进一步强调了用于分析的9个城市:伯明翰、布里斯托尔、利兹、莱斯特、利物浦、伦敦、曼彻斯特、诺丁汉和谢菲尔德。值得一提的是,这9个城市也是英国人口最多的城市[ 43].这表明,在给定的地理位置区域,人口规模和发布的推文数量之间存在联系。 多媒体附件1显示与每个表情符号及其含义相关的前50条推文(按百分比),突出显示表达不同健康问题(如病毒、戴医用口罩、注射器或疫苗的脸)和精神健康状况(如双手合十)的表情符号的使用。

英国每个城市的推文数量。

城市 微博, 人口,n
1698 105730年
伯明翰一个 21120年 1159888年
布莱克本 1092 121475年
布拉德福德 4980 368485年
布赖顿 10092年 245504年
布里斯托尔一个 10338年 580199年
剑桥 6894 149155年
坎特伯雷 2292 64495年
卡莱尔 1098 74536年
切姆斯福德 3894 119468年
切斯特 3516 87881年
奇切斯特 864 31881年
考文垂 6072 388793年
德比 3503 264430年
达勒姆 9414 56920年
伊灵 4914 340341年
伊利 432 20333年
埃克塞特 3360 127709年
格洛斯特 1740 148167年
赫里福德 1134 64037年
金斯敦 5286 287705年
科克里斯 3156 441290年
兰开斯特 876 52935年
利兹一个 11628年 516298年
莱斯特一个 19818年 472897年
利奇菲尔德 792 34686年
林肯 4614 107434年
利物浦一个 15876年 589774年
伦敦一个 111667年 9088994年
卢顿 2658 222043年
曼彻斯特一个 25260年 567334年
纽卡斯尔 9642 290688年
北安普顿 3954 230070年
诺维奇 4290 199245年
诺丁汉一个 11827年 320536年
彼得伯勒 2054 179349年
普利茅斯 2736 240297年
朴茨茅斯 4878 248748年
普雷斯顿 3816 100095年
雷德布里奇 3227 310330年
里庞 138 15971年
洛奇代尔 1415 114511年
罗瑟勒姆 198 111158年
索尔福德 8034 125983年
谢菲尔德一个 15582年 557039年
南安普顿 7806 270333年
伍斯特 3492 101816年
纽约 5748 164934年

一个在后续分析中使用的前9个城市。

方法

为了预处理数据,我们使用了针对Twitter的特定特征(即拼写错误和缩写)设计的“ekphrasis”工具[ 44].该工具提供了不同的功能,如标记化、规范化和拼写更正。我们利用该工具对文本进行标记;将单词转换为小写字母;并规范用户提及、url和重复字符。预处理步骤完成后,我们通过三个模型输入数据:(1)基于文本情感深度学习的识别模型,(2)基于深度学习的情感模型,(3)神经网络主题模型。 图1描述了我们的管道,其中我们提供了三个深度学习模型的说明。

我们使用SenticNet 6 [ 38]用于情感分析,因为该模型取得了比其他基于机器学习的情感分析方法更好的性能。SenticNet 6通过使用符号模型(即逻辑和语义网络)和带有深度学习架构的子符号方法来编码含义和句法关系,可以为大约20万个常识概念提供情感评分(在-1到1之间)。然后,我们将帖子中每个概念的情感得分相加,并使用两种基本语言模式(否定和转折模式)[ 45].例如,如果没有使用模式,“the television is old but rather not expensive”可能会被错误地分类,尽管“old”和“expensive”都是否定的。最后,我们自动计算每个帖子的情绪极性。我们根据以下评分范围将数据分为五类:强阴性(-1至-0.5)、弱阴性(-0.5至-0.1)、中性(-0.1至0.1)、弱阳性(0.1至0.5)和强阳性(0.5至1)。

情感识别模型是基于我们基于深度学习的模型“SpanEmo”[ 39用于多标签情感分类。该模型是在SemEval-2018多标签情绪分类数据集上进行专门训练的[ 46,被标记为多个情绪类别(即愤怒、期待、厌恶、恐惧、喜悦、爱、乐观、悲观、悲伤、惊讶和信任)。SpanEmo专注于学习特定情绪的关联,并将它们的相关性整合到训练目标中。由于SpanEmo在多标签情绪分类任务中取得了出色的表现,我们决定使用它来为我们的数据生成预测。需要指出的是,只有高预测的例子才会被保留。

最后,对于主题建模,我们使用CTM [ 40].该模型将上下文化文档嵌入到神经主题模型中,以产生更连贯和有意义的主题。因为在五个公开数据集上的评价结果表明CTM所取得的性能优于传统的潜狄利克雷分配[ 47]主题模型和其他神经模型,我们使用CTM从我们的数据中提取主题及其相关词汇。

我们的管道概述。CTM:组合主题建模。

道德的考虑

由于我们的数据是从推特收集的,我们遵循了推特的服务条款和严格的伦理研究协议,类似于指南。 48],保障个人资料的私隐及保安。值得一提的是,我们的研究主要集中在推文层面;我们预计我们的分析不会产生任何负面的伦理影响。然而,我们认为,这些结果为人们在COVID-19大流行期间在英国不同城市的情绪和话题提供了洞察。

结果 与情绪相关的词汇

我们对COVID-19在线数据集的情绪、情绪和主题建模进行了不同类型的分析。首先,我们分析了情感词汇和主题词汇之间的关联,两者都证明了词汇与其各自的情感标签和主题之间的关系。然后,我们分析了给定的位置,以及COVID-19对英国不同城市的影响。此外,还对基于时间的特征进行了分析,重点是显示COVID-19随时间的影响。最后,我们分析了数据中的实例,讨论了在英国大流行期间考虑情绪、情感和主题分析在理解人们关注的问题方面的好处。

表2下面是SpanEmo学习的与每种情绪相关的前6个单词。关于如何生成这些单词的详细信息由Alhuzali和Ananiadou提供[ 39].有些词语既表达了相应的情绪,也表达了COVID-19大流行。例如,“死亡”和“传播”与情感类恐惧高度相关,而“疫苗”和“支持”等词与情感类预期高度相关。这是很直观的,因为有些词直接表达情感(如愤怒、害怕和高兴),而另一些词间接表达情感(如意外、失败和生日)。我们还观察到一些情感类有相似的词,特别是那些属于相同价空间的词[ 49].中提出的分析 表2这表明,通过情绪分析和人们在大流行期间的担忧,有可能了解COVID-19的影响。

我们使用CTM提取主题。 表3总结了提取的前18个主题以及每个主题的前5个相关词。我们注意到,用户提到的话题很多,从疫情防控、政府政策、疫苗接种等与新冠肺炎相关的话题,到工作、网络、社交等间接相关的话题。例如,主题1 (t1)包含了一些关于感恩的词(即, 感激,谢谢),这与对社会支持和疫苗接种的态度有关。主题3 (t3)是关于大流行期间的讨论,主题10 (t10)是关于COVID-19的严重后果( 死,死亡),主题8 (t8)揭示了职业模式。

由SpanEmo预测的与每种情感类别相关的前6个单词。

情感类 相关的单词
负面情绪
愤怒 死,思,公,病毒,别,反
厌恶 死亡,病毒,对抗,因为,公众,之后
恐惧 死亡、传播、症状、冠状病毒、识别、自我报告
悲伤 死亡,走,病例,医院,其他
悲观主义 不幸的是,家人、朋友在几周内相继离世
积极的情绪
期待 支持,疫苗,第一,工作,公众,病例
快乐 很好,谢谢,支持,开心,很棒,安全
信任 信任,感谢,保护,重要,社区,每个人
快乐,被爱,分享,美丽,精彩,惊人
乐观 请,感谢,支持,工作,伟大,传播
惊喜 震惊,惊讶,惊人,公开,绝对,死亡

使用组合主题建模和每个主题前5个相关词提取主题。

主题 相关的单词
t1 感谢,感激,自豪,了不起,英雄们
t2 阶级,符号,贸易,世界范围,保持
t3 讨论,博客,讨论,恢复,机会
t4 团结,健身,王国,完整,形象
t5 插曲,曲调,电影,录像,广播
t6 后,一致,撞击,不适,填充
t7 疫苗,疫苗,剂量,药物,加强剂
t8 信件,家庭,工人,工资,私人
t9 访问,眼睛,推特,点击,网站
t10 死亡,死亡,真实,杀戮,因为
t11 已确认,总数,英格兰,威尔士,报告
病人 后方,同意,危及,不知不觉,不适
t13 谎言,卡明斯,媒体,领袖,领袖
t14 冠状病毒,大流行,爆发,instagram,爆发
t15 口罩,戴,脸,手,盖
t16.1 缓慢、线程、实现、测试跟踪、症状
t17 夫妻,没有,感觉,女儿,假期
t18 留下来,被爱,坚强,祈祷,健康
位置分析

图2显示了英国城市样本中表情符号的数量,其中样本包括我们数据中排名前9位的城市,更具体地说,是那些推文数量最高的城市( 表1):布里斯托尔、伯明翰、莱斯特、利兹、利物浦、伦敦、曼彻斯特、诺丁汉和谢菲尔德。表情包包括以下主题:病毒、口罩、竖起/放下大拇指、心碎等。表情符号的比例因城市而异。例如,注射器(今天被称为COVID-19疫苗表情符号)在利物浦的使用率很高;伯明翰的拇指朝下表情符号使用率很高;面具表情符号在伦敦和利物浦被广泛使用。这些表情符号与COVID-19大流行有关,展示了我们的数据在挖掘和分析Twitter等社交数据方面的好处,以便更好地了解大流行对英国不同地区的人们的影响。

图3,我们根据推文数量,在数据中排名前9位的城市中,展示了五种情绪(强正面、弱正面、中性、弱负面和强负面)的比例。我们可以观察到,在每个城市中,大约60%的推文是正面的,20%是负面的。与此同时,这些城市中不同情绪的推文比例也有所不同。例如,利兹的强烈负面推文比例相对较高,而谢菲尔德的强烈正面推文比例相对较低。

图4,我们展示了数据中排名前9的城市的情绪表达分布。可以观察到,这9个城市有着非常相似的分布,尽管比例因情绪而异。例如,“乐观”和“期待”是最常被表达的情绪。我们还注意到一些复杂的情绪,如喜悦、厌恶和愤怒,这是在COVID-19大流行期间表达的合理情绪。有趣的是,信任表达的比例极低,这可能与高感染率导致的对决策者缺乏信任,无法正确处理情况有关。值得注意的是,在之前的工作中发现,信任表达的比例在Twitter上普遍稀缺[ 50 51].

此外,我们还统计了10个主题在不同城市的比例,如图所示 图5.相似的话题在不同的城市受到不同程度的关注。例如,在莱斯特讨论的主要话题是t2 ( 全球贸易,),反映市民对国际贸易的关注程度增加。在伦敦,居民们谈论更多的是t4。 王国,曼联)比其他城市要多。此外,谢菲尔德的人口更关注死亡话题,因为t10 ( 死,死亡)比其他城市要多。

英国城市样本中使用的表情符号数量。

情绪表达在英国城市样本中的分布。

情绪表达在英国城市样本中的分布。

话题表达在英国城市样本中的分布。看到 表3有关主题t1-t10的说明。

时间分析

随着时间的推移,这一流行病的情况发生了变化,反映出人们对这一流行病的关注程度。 图6显示2020年1月至2021年12月与COVID-19相关的推文数量。我们可以观察到,从2020年1月到2020年2月,推文数量急剧增加(约10万条推文),这主要是由于英国爆发了COVID-19。截至2020年2月,推文数量逐渐下降,这表明人们对疫情的关注有所下降。此外,2021年推文的总体数量相对较低。随着2021年11月在英国发现新冠病毒Omicron变种,发布的推文数量有所增加。

图7呈现随时间变化的情绪表达,涵盖2年(即2020年和2021年)。我们注意到分布随时间而变化。在2020年初,几乎所有情感标签的表达量都达到了峰值,其中一些标签的表达量明显高于其他标签,比如乐观。随着时间的推移,包含情绪的推文数量减少,但情绪分布却发生了巨大的变化,从高度积极到消极。这一趋势一直持续到2021年底。例如,厌恶、悲伤和绝望是这段时间表达最多的情绪,这些情绪在这段时间是合理的,因为病例和死亡人数都在增加[ 52].

图8显示了2020年2月至2021年11月期间所有推文的主题(在10个选定的主题中)的变化。我们可以看到变化是比较显著的。2020年4月,许多推文表达了对当地议会抗击疫情英雄的感谢,因为与t1相关的消息频率最高( 感激,谢谢).此外,由于疫苗研究的进展和接种疫苗人数的增加,提及t7的推文数量( 疫苗接种)相对增加,并在2021年1月达到最大值。有趣的是,有许多与t5相关的推文( 电影,视频),因为电影的出现具有特殊的意义,如 希望的灯塔:英国疫苗的故事而且 一年过去了:一首写给伦敦人的流行病诗.例如,有人发帖说:“很荣幸被@BBCLondonNews拍摄,阅读我们的《一年过去》这一部分,这是一首纪念第一次封锁周年的诗。”

2020年1月至2021年12月与COVID-19相关的推文数量。每条彩色线代表一个特定的年份(例如,红色代表2020年,橙色代表2021年)。

从2020年到2021年,不同情感表达的推文数量。

2020 - 2021年不同主题表达的推文数量。看到 表1查看主题t1-t10的说明。

实例分析

多媒体附件2从我们的数据中展示了9个例子,每个例子都与不同的属性(即情绪、表情符号、情绪和主题)相关联,展示了有趣的发现,突出了这些属性对理解人们对大流行的反应的好处。在这里,我们描述了在我们的数据中经常观察到的推文中表情符号的一些用例。例子1和3显示了与接种疫苗(注射器表情)和感觉强壮/受到保护(肌肉表情)有关的表情符号的使用。这两个例子表明,接种疫苗可以让人们感觉强壮,免受COVID-19疾病的侵害。其他的例子(例如例子4和例子5)讨论航班取消(飞机表情符号),导致人们错过已经计划好的旅行和假期。例5还讨论了接种COVID-19疫苗后再次旅行的可能性。另一个例子说明了开发志愿者项目的好处,这些项目可以帮助医院和社区抗击COVID-19危机。此外,面具表情符号的使用方式也各不相同,这取决于上下文(例如,长时间封锁)。

从情绪的角度来看,不同的推文表达了不同的情绪(包括积极的、中性的和消极的情绪)。例3讨论了第二种COVID-19疫苗已经成功接种,例9赞扬了社区团体的帮助和支持,这两个例子都显示了用户强烈的积极情绪。例7表达了负面情绪,因为用户因疫情无法见到亲人。其他一些例子(例如例1、2、5、6和8)在大流行期间通过引入疫苗接种、封锁或志愿者来表达积极的态度。此外,示例4显示了一个表达混合情绪(积极和消极)的实例,尽管它被SenticNet标记为中性。然而,SpanEmo发现了一些复杂的情绪,这有助于克服SenticNet在正确处理带有复杂情绪或情绪的表达方面的局限性。

多媒体附件2根据CTM方法计算出的概率,给出每个示例的前3个主题。例子1、3和5属于t7,它主导了关于疫苗和助推器的讨论。例4、例7、例8表达了用户对COVID-19对他们生活影响的态度和情绪,因此这些都被归为t18。例子3和6也属于t1(与感激有关),因为出现了“thank you”。此外,在一些tweets中表达了对social media (t3)的讨论或使用(例如,例9)。

讨论 主要研究结果

这项研究调查了2020年1月至2021年12月期间英国不同城市的50多万条与COVID-19有关的推文,这些城市的推文数量在疫情爆发后急剧增加。我们使用了三种基于深度学习的模型来分析和结合情绪、情绪和主题,以确定大流行期间的关键公众关注点。通过我们的分析,我们发现情绪分析可以帮助理解COVID-19大流行期间人们的观点和态度。同时,考虑地理位置信息可以揭示英国不同地区之间的差异。随着时间的推移,总体情绪是积极的,乐观是主要的情绪,这表明人们倾向于对形势持乐观态度。在这两年里,随着流行病学形势和政府政策的变化(如接种疫苗、保持社交距离),推特上表达的情绪、情绪和话题发生了变化,这也反映了人们态度的变化。

还确定了在联合王国收集关于人们在大流行期间反应的证据时所选属性的好处。这些属性包括情绪、情绪、表情符号和主题建模。这项分析表明,这些属性可以帮助收集证据并分析大流行期间人与人之间的互动。第一个属性是情绪,它可以作为理解人们反应的指南。例如,一些人表达对COVID-19的担忧有多种原因,如(1)解决问题的时间比预期的要长,(2)取消或改变计划,(3)旅行限制,(4)戴口罩,以及(5)与家人和朋友隔离和缺乏联系。其他人表达了一些积极的反应和应对大流行的潜在解决方案,包括家庭支持、接种疫苗、呆在家里或戴口罩,以及志愿服务。第二个属性是表情符号,它描述了文本中的整体表达,在某种意义上类似于主题建模,两者都指的是推文中表达的主题。这为表情符号提供了另一个维度,它一直被用作收集情绪数据的替代品[ 53 54].虽然通过这项工作观察这一点很有趣,但我们将其留给未来的工作进行更深入的研究。

情绪分析也有助于了解某些事件背后的公众舆论和看法。通过分析我们数据中的情绪,我们发现大多数人在大流行期间都有积极的态度,这与之前的研究结论相吻合[ 55],因为他们经常发布有关社会支持和疫苗接种等良好政策的信息,以增强抗击COVID-19的信心。当然,一些人仍然对疫情表示担忧,由于死亡、隔离和封锁政策,他们的正常生活受到了影响,产生了负面情绪。

从提取的话题中,我们发现人们关注的话题有很多,包括COVID-19的症状、疫苗接种、社交媒体、政府政策和生活条件。社交媒体主题的变化揭示了COVID-19对人们生活的影响,将关于日常生活的讨论转移到大流行和政策上。

此外,由于城市环境、疫情、政策、热点等各种因素的影响,来自英国不同城市的人们使用的表情包、表达的情绪、讨论的话题都有所不同。调查结果揭示了人们对COVID-19大流行看法的复杂性和多样性,这表明有必要跟踪公众态度。

限制

这项工作基于现有的自然语言处理方法,这些方法用于分析不同的属性,如情绪、情绪和主题。然而,这些现有的方法可能无法保证其预测反映实际属性。此外,情绪和情感是主观任务,这使得它们难以建模,反过来又会影响我们的解释和结果。此外,由于我们的数据是从Twitter上收集的,使用了特定的关键字,因此我们可能错过了在线线程和观点中的其他主题。相关的讨论也可以从其他社交媒体平台(如Facebook, Reddit)。在这方面,我们的数据提供了Twitter上用户交互的部分样本。然而,这些方法也适用于其他纵向数据和社交媒体平台。

结论

我们的主要贡献是采用多种方法,深入了解COVID-19大流行期间英国城市的公众情绪和情绪。此外,我们的方法是基于地点和时间的,支持跟踪公众关注的比较分析。我们的分析表明,在大流行期间,积极的态度很普遍;乐观和期待是主要的情绪。随着疫情的爆发和流行病学的变化,政府制定了控制措施和疫苗接种政策,主题也随着时间的推移而变化。此外,对比地理位置分析还揭示了不同城市的人们在表达情绪和讨论话题方面的差异。总的来说,我们的研究表明,分析来自社交媒体的数据有助于更好地了解城市层面上与COVID-19相关的公众情绪和担忧,这可能有助于制定可接受的政策。

数据集中与每个表情符号相关的推文的百分比。

表达对COVID-19积极和消极反应的推文示例。

缩写 中医

组合主题建模

国民健康保险制度

国民保健制度

这项工作得到了医学研究委员会(MRC)、英国MR/R022461/1和英国艾伦图灵研究所的部分资金支持。

医管局为这项研究策划了数据。HA和TZ设计方法,分析和解释数据,并起草手稿。SA编辑了手稿。

没有宣布。

舒贾 J Alanazi E Alasmary W Alashaikh 一个 COVID-19开源数据集:全面调查 :智能 2021 51 3. 1296 1325 10.1007 / s10489 - 020 - 01862 - 6 34764552 1862 PMC7503433 Debata B Patnaik P Mishra 一个 COVID-19流行!它对人类、经济和环境的影响 J公共事务 2020 09 02 20. e2372 10.1002 / pa.2372 侯赛因 兆瓦 阁下 T 哈桑 毫米 COVID-19大流行对人类行为的影响 国际教育管理工程 2020 12 08 10 6 35 61 10.5815 / ijeme.2020.05.05 Sparasci O Bhui K Biswas 一个 张伯伦 年代 Dubicka B Dudas R Farooq 年代 福特 T 侯赛因 NgydF4y2Ba 琼斯 Killaspy H W Lingford-Hughes 一个 穆赫兰 C Rubinsztein博士 J Shankar R 沙玛 一个 辛克莱 l 石头 J 年轻的 一个 COVID-19对心理卫生研究的影响:这是突破点吗? 精神病学杂志 2022 02 17 1 3. 10.1192 / bjp.2022.8 35172915 S0007125022000083 PMC7612706 前25个令人惊讶的推特统计英国版 cybercrew 2022 2022-09-28 https://cybercrew.uk/blog/twitter-statistics-uk/ 保罗 Dredze 你就是你的推特:为公共卫生分析推特 2011 第五届国际AAAI网络和社交媒体会议 2011年7月17日至21日 西班牙巴塞罗那 Sinnenberg l Buttenheim Padrez K Mancheno C l 商人 Rm 推特作为健康研究的工具:系统回顾 公共卫生 2017 01 107 1 e1 e8 10.2105 / ajph.2016.303512 安利 E Witwicki C Tallett 一个 格雷厄姆 C 使用推特评论来了解人们在COVID-19大流行期间的英国医疗保健经历:主题和情感分析 J医疗互联网服务 2021 10 25 23 10 e31101 10.2196/31101 34469327 v23i10e31101 PMC8547412 C 年代 Z 年代 通过推特数据挖掘了解COVID-19大流行期间人群群体的担忧、情绪和差异:大规模横断面研究 J医疗互联网服务 2021 03 05 23 3. e26482 10.2196/26482 33617460 v23i3e26482 PMC7939057 萨利赫 SN 莱曼 麦当劳 SA 巴西 梅德福 RJ 了解公众对2019冠状病毒病(COVID-19)在推特上的社交距离的看法 感染控制,流行病学 2021 02 42 2 131 138 10.1017 / ice.2020.406 32758315 S0899823X20004067 PMC7450231 jonkleinberg B DVI 丹尼莫泽什长达 在COVID-19现实世界焦虑数据集中测量情绪 2020 ACL 2020第一次COVID-19 NLP研讨会 2020年7月5-10日 在线 X J 分析网络社交媒体上的COVID-19:趋势、情绪和情绪 arXiv 2020 2022-09-28 https://arxiv.org/abs/2005.14464 古普塔 RK 史瓦 一个 Y 带有潜在主题、情绪和情绪属性的COVID-19推特数据集 arXiv 2020 2022-09-28 https://arxiv.org/abs/2007.06954 Glandt K 卡纳尔 年代 Y COVID-19推文中的姿态检测 2021 第59届计算语言学协会年会和第11届自然语言处理国际联合会议 2021年8月1日至6日 泰国曼谷 10.18653 / v1/2021.acl-long.127 Kruspe 一个 Haberle 库恩 COVID-19大流行期间欧洲推特信息的跨语言情绪分析 2020 ACL 2020第一次COVID-19 NLP研讨会 2020年7月5-10日 在线 侯赛因 T 洛根 IRL Ugarte 一个 COVIDLies:检测社交媒体上的COVID-19错误信息 2020 2020年EMNLP第一次COVID-19 NLP研讨会(第二部分) 2020年12月 在线 10.18653 / v1/2020.nlpcovid19 - 2.11 T 年代 W X 杨ydF4y2Ba Y R Ly K Kacker V B Z 利用美国Twitter数据揭示对COVID-19疫苗的公众舆论:时空视角 J医疗互联网服务 2021 09 10 23 9 e30854 10.2196/30854 34346888 v23i9e30854 PMC8437406 侯赛因 一个 Tahir 一个 侯赛因 Z 谢赫。 Z Gogate Dashtipour K 阿里 一个 谢赫。 一个 英国和美国Facebook和Twitter上公众对COVID-19疫苗态度的人工智能分析:观察性研究 J医疗互联网服务 2021 04 05 23 4 e26627 10.2196/26627 33724919 v23i4e26627 PMC8023383 JC 埃尔 Luli 门将 推特上与COVID-19疫苗相关的讨论:主题建模和情绪分析 J医疗互联网服务 2021 06 29 23 6 e24435 10.2196/24435 34115608 v23i6e24435 PMC8244724 杨ydF4y2Ba C 法律 年代 J 香港 J 比较加拿大各城市对COVID-19疫苗的公众情绪:对Reddit上评论的分析 J医疗互联网服务 2021 09 24 23 9 e32685 10.2196/32685 34519654 v23i9e32685 PMC8477909 Addawood 一个 Alsuwailem 一个 Alohali 一个 跟踪和了解COVID-19期间公众的反应:以沙特阿拉伯为例 2020 2020年EMNLP第一次COVID-19 NLP研讨会(第二部分) 2020年12月 在线 10.18653 / v1/2020.nlpcovid19 - 2.24 Vadde SK G 澳大利亚推特用户中与COVID-19疫苗接种相关的推文主题和情绪:机器学习分析 J医疗互联网服务 2021 05 19 23 5 e26953 10.2196/26953 33886492 v23i5e26953 PMC8136408 Gorodnichenko Y 范教授 T 拉维尔 O 社交媒体、情绪和公众舆论:来自#英国脱欧和#美国大选的证据 欧元经济 2021 07 136 103772 10.1016 / j.euroecorev.2021.103772 Zunic 一个 科克兰 P Spasic 健康与幸福中的情感分析:系统回顾 JMIR Med Inform 2020 01 28 8 1 e16023 10.2196/16023 32012057 v8i1e16023 PMC7013658 l 大厅 Bastola D 利用Twitter数据分析化疗 国际医学杂志 2018 12 120 92 One hundred. 10.1016 / j.ijmedinf.2018.10.002 30409350 s1386 - 5056 (18) 30432 - 5 Andalibi NgydF4y2Ba 巴斯 J 人类在社交媒体上的情感识别:态度,结果,风险 2020 CHI '20: 2020 CHI计算系统中的人为因素会议 2020年4月25日至30日 火奴鲁鲁,嗨 10.1145/3313831.3376680 T Schoene 年代 Ananiadou 年代 自然语言处理在精神疾病检测中的应用:述评 NPJ数字医院 2022 04 08 5 1 46 10.1038 / s41746 - 022 - 00589 - 7 35396451 10.1038 / s41746 - 022 - 00589 - 7 PMC8993841 年代 年代 X 威尔士 E G Z 自杀意念检测:机器学习方法及应用综述 IEEE跨计算Soc系统 2021 2 8 1 214 226 10.1109 / tcss.2020.3021467 Weissenbacher D 衬衣 一个 玛吉医生 一个 ACL 2019第四次社交媒体健康挖掘(SMM4H)共享任务概述 2019 第四届社会媒体挖掘健康应用(# SMM4H)研讨会和共享任务 2019年8月 意大利的佛罗伦萨 21 30. 10.18653 / v1 / w19 - 3203 阿拉贡 Monroy APL Gonzalez-Gurrola 信用证 利用细粒度情绪在社交媒体上检测抑郁症 2019 2019年计算语言学协会北美分会会议:人类语言技术 2019年6月 明尼阿波利斯、锰 1481 1486 10.18653 / v1 / n19 - 1151 X 图片 医学博士 杰克逊 太瓦 那么情绪波动呢?在推特上用暂时的情绪测量来识别抑郁症 2018 WWW '18: 2018年网络大会 2018年4月 法国里昂 1653 1660 10.1145/3184558.3191624 Korkontzelos Nikfarjam 一个 Shardlow 衬衣 一个 Ananiadou 年代 冈萨雷斯 “大酒店” 情绪分析对从推特和论坛帖子中提取药物不良反应的影响分析 J生物医学信息 2016 08 62 148 158 10.1016 / j.jbi.2016.06.007 27363901 s1532 - 0464 (16) 30050 - 8 PMC4981644 克莱默 阿迪 Guillory 汉考克 JT 通过社交网络大规模情绪传染的实验证据 美国国立自然科学研究院 2014 06 17 111 24 8788 8790 10.1073 / pnas.1320040111 24889601 1320040111 PMC4066473 J P Y H Y 年代 Y H J COVID-19疫情期间的心理健康问题和社交媒体暴露 《公共科学图书馆•综合》 2020 15 4 e0231924 10.1371 / journal.pone.0231924 32298385 玉米饼- d - 20 - 06332 PMC7162477 Bavel JJV Baicker K Boggio PS Capraro V Cichocka 一个 Cikara 克罗克特 乔丹 AJ 道格拉斯 公里 Druckman 特鲁里街 J 杜布 O 形成 NgydF4y2Ba 芬克尔 EJ 福勒 JH 盖尔芬德 年代 海斯蓝 SA Jetten J Kitayama 年代 莫伯斯 D 打盹的人 封隔器 DJ Pennycook G 彼得斯 E 再保险 兰德 DG 理查 SD Schnall 年代 Shariff 一个 Skitka LJ 史密斯 党卫军 桑斯坦 CR Tabri NgydF4y2Ba 塔克 晶澳 范德林登 年代 范·兰格 P 威登 沃尔 MJA 扎基 J 锡安 Willer R 利用社会和行为科学支持COVID-19大流行应对 Nat Hum行为 2020 05 4 5 460 471 10.1038 / s41562 - 020 - 0884 - z 32355299 10.1038 / s41562 - 020 - 0884 - z 科幻小说 H Tisseverasinghe T Y l 屁股 社交媒体在COVID-19期间告诉我们的:范围审查 柳叶刀手指健康 2021 03 3. 3. e175 e194 10.1016 / s2589 - 7500 (20) 30315 - 0 33518503 s2589 - 7500 (20) 30315 - 0 PMC7906737 Boon-Itt 年代 Skunkan Y 公众对推特上COVID-19大流行的看法:情绪分析和主题建模研究 JMIR公共卫生监测 2020 11 11 6 4 e21978 10.2196/21978 33108310 v6i4e21978 PMC7661106 威尔士 E Y FZ SenticNet 6:符号和次符号AI在情感分析中的集成应用 2020 CIKM '20:第29届ACM信息与知识管理国际会议 2020年10月19日 在线 10.1145/3340531.3412003 Alhuzali H Ananiadou 年代 SpanEmo:将多标签情感分类作为span-prediction 2021 EACL 2021:第16届计算语言学协会欧洲分会会议:主要卷 2021年4月19日至23日 在线 1573 1584 10.18653 / v1/2021.eacl-main.135 比安奇 F Terragni 年代 Hovy D 预训练是一个热门话题:情境化文档嵌入提高主题连贯性 2021 第59届计算语言学协会年会和第11届自然语言处理国际联合会议 2021年8月 在线 759 766 10.18653 / v1/2021.acl-short.96 geopy 2.2.0 2022-09-28 https://pypi.org/project/geopy/ 欢迎来到吉奥皮的文档! GeoPy 2022-09-28 https://geopy.readthedocs.io/en/stable/#nominatim 英国:国家和主要城市 城市人口 2022-09-28 https://www.citypopulation.de/en/uk/cities/ Baziotis C Pelekis NgydF4y2Ba Doulkeridis C SemEval-2017任务4:深度LSTM,关注消息级和基于主题的情感分析 2017 第11届语义评估国际研讨会(SemEval-2017) 2017年8月 温哥华公元前 10.18653 / v1 /肌力- 2126 云苓 年代 威尔士 E Gelbukh 一个 编注 F 侯赛因 一个 基于动态语言模式的情感数据流分析 IEEE计算英特尔杂志 2015 11 10 4 26 36 10.1109 / mci.2015.2471215 默罕默德 年代 Bravo-Marquez F Salameh Kiritchenko 年代 SemEval-2018任务1:推文中的影响 2018 第12届语义评价国际研讨会 2018年6月 新奥尔良,洛杉矶 10.18653 s18 / v1 /美国- 1001 布莱 DM Ng 约旦 心肌梗死 潜在dirichllocation J Mach Learn Res 2003 3. 993 1022 本顿 一个 铜匠 G Dredze 社交媒体健康研究的伦理研究协议 2017 第一届ACL自然语言处理伦理研讨会 2017年4月 瓦伦西亚,西班牙 94 102 10.18653 / v1 / w17 - 1612 默罕默德 年代 从20000个英语单词中获得可靠的人类效价、觉醒和支配的评分 2018 第56届计算语言学协会年会 2018年7月 澳大利亚墨尔本 174 184 10.18653 / v1 / p18 - 1017 P Z Winata 胃肠道 Z P Emograph:使用图形网络捕捉情感相关性 arXiv 2020 2022-09-28 http://128.84.4.34/abs/2008.09378 赛义夫 Kiritchenko 年代 理解情绪:研究影响类别之间相互作用的推文数据集 2018 第十一届国际语言资源与评价会议 2018年5月 宫崎骏,日本 巴勒塔 佤邦 SARS-CoV-2变异对国家病死率的影响:相关性和验证研究 JMIRx地中海 2022 3. 2 e32935 10.2196/32935 35969709 v3i2e32935 PMC9364421 Shoeb 德梅洛 G EmoTag1200:理解表情符号和情绪之间的联系 2020 2020年自然语言处理经验方法会议(EMNLP) 2020年11月 在线 8957 8967 10.18653 / v1/2020.emnlp-main.720 Felbo B 梅丝洛夫 一个 Søgaard 一个 使用数百万个表情符号来学习任何领域的表示,以检测情绪,情绪和讽刺 2017 自然语言处理经验方法研讨会 2017年9月 丹麦哥本哈根 1615 1625 10.18653 / v1 / d17 - 1169 劳伦 E 亲爱的 西文 伯明翰 WC J 年代 亲爱的 SD 公园 J 见鬼 P 利普斯基 女士 新冠疫情情绪的社交网络分析:人工智能的应用 J医疗互联网服务 2020 08 18 22 8 e22590 10.2196/22590 32750001 v22i8e22590 PMC7438102
Baidu
map