医学互联网研究杂志——英国COVID-19大流行期间推特上表达的情绪和话题:比较地理定位和文本挖掘分析

原始论文

¹沙特阿拉伯麦加乌姆古拉大学计算机与信息系统学院

²英国曼彻斯特大学，国家文本挖掘中心，计算机科学系

^3.图灵研究所，伦敦，英国

*这些作者贡献相同

通讯作者:

Sophia Ananiadou博士

计算机科学系

国家文本挖掘中心

曼彻斯特大学

公主街131号

曼彻斯特，M1 7DN

联合王国

电话:44 161 306 3092

电子邮件:sophia.ananiadou@manchester.ac.uk

背景:近年来，新冠肺炎大流行给公共卫生、社会和经济带来了巨大变化。在疫情期间，社交媒体为人们提供了一个讨论健康问题、生活状况和政策的平台，让决策者可以利用这些内容来分析公众的情绪和态度，以进行决策。

摘要目的:本研究的目的是使用基于深度学习的方法，通过推特上的比较地理定位和文本挖掘分析，了解英国公众对COVID-19大流行相关主题的情绪。

方法:我们提取了来自英国48个不同城市的50多万条与COVID-19有关的推文，数据涵盖了过去两年(2020年2月至2021年11月)。我们利用三种先进的基于深度学习的主题建模模型来地理空间地分析英国推文的情绪、情绪和主题:用于情感分析的SenticNet 6、用于情感识别的SpanEmo和组合主题建模(CTM)。

结果:我们观察到，随着流行病学情况和疫苗接种情况在两年内的变化，推文数量发生了显著变化。由于2019冠状病毒病在英国的爆发，从2020年1月到2020年2月，推特的数量急剧增加。到2020年2月，推文数量逐渐下降。此外，随着2021年11月在英国发现新冠病毒Omicron变种，推文数量再次增长。我们的调查结果揭示了人们对COVID-19相关话题的态度和情绪。在情绪方面，大约60%的推文是正面的，20%是中性的，20%是负面的。在情绪方面，人们倾向于在2020年初表达高度积极的情绪，而随着时间的推移，在2021年底表达高度消极的情绪。在大流行期间，主题也发生了变化。

结论:通过对推特的大规模文本挖掘，我们的研究发现，英国不同城市的公众情绪和话题在COVID-19大流行方面存在显著差异。此外，高效的基于位置和时间的比较分析可以用来跟踪人们的思想和感受，并了解他们的行为。根据我们的分析，在大流行期间，积极的态度很普遍;乐观和期待是主要的情绪。随着疫情的爆发和流行病学的变化，政府制定了控制措施和疫苗接种政策，主题也随着时间的推移而变化。总的来说，表情符号、情绪、情绪和话题的比例和表达方式在地理和时间上都有所不同。因此，我们通过推特探索公众情绪和大流行话题的方法可能会了解特定地理区域的公共政策是如何被接受的。

中国医学杂志，2018;24(10):e40323

doi: 10.2196/40323

关键字

推特；新型冠状病毒肺炎；地理位置；情感检测；情绪分析；主题建模；社交媒体；自然语言处理；深度学习

2019冠状病毒病(COVID-19)大流行危机对全世界产生了巨大影响，使大多数国家面临前所未有的局面。封锁在各个层面造成了巨大的社会后果。新冠肺炎疫情导致大多数国家对迁徙、旅行和聚会实施了不同阶段的限制，以遏制感染的爆发。这些限制改变了人们过去工作、社交、购物、旅行等的方式，导致了应对这种情况的各种行为和社会变化(例如，在家工作、害怕社交、孤立、孤独)。由于这种前所未有的社会变化，政策制定者必须了解人们的心理状态，以帮助机构、政府和个人度过大流行[1-4］．

传统上，政策制定者使用问卷调查来捕捉公众对重大事件的意见，但由于时空粒度和样本量造成的偏差，限制了这种证据收集方法的有效性。近年来，社交媒体已成为收集民意信息和证据的重要工具。推特是一个流行的社交媒体平台，在英国有超过1900万用户。5论坛上有许多关于新冠肺炎相关话题的讨论和意见。先前的研究表明，Twitter可以提供重要的公共卫生信息，并对公共卫生研究具有广泛的适用性，包括医疗福利和跟踪传染病爆发[6，7］．因此，为了弥补与传统调查的证据差距，Twitter数据可以用来补充数据收集，并了解公众对流行病的看法[8，9]以及对COVID-19疫情的反应[10］．

最近，越来越多的研究集中在COVID-19大流行的不同属性上，包括情绪、情绪和话题[11-16］．Kleinberg等人[11他建立了COVID-19真实世界担忧数据集，该数据集基于2500名参与者在写作时报告的直接调查。古普塔等[13通过使用一组与大流行相关的关键字，以及分析情绪和主题作为情绪的附加属性，从Twitter上创建了另一个COVID-19数据集。例如，在不同国家，包括美国，有一些基于情绪分析和主题建模的推特或Reddit上与COVID-19疫苗相关的讨论的分析[17-19]，加拿大[20.]、联合王国[18]、沙特阿拉伯[21]，及澳洲[22］．

情感代表了人们所表达的态度和感情。情感分析确定并解释从社交媒体上收集的在线帖子是积极的、中立的还是消极的，并有助于更好地洞察公众的看法和态度。情绪分析还可以帮助理解信息是如何在社交媒体上传播的:一条带有积极/消极情绪的推文会产生另一条具有相同或相反情绪的推文。23］．情绪分析已被用于许多实际应用，包括财务分析、政治、健康预测和医疗服务改进[24］．例如，通过分析公共信息，卫生从业人员可以使用情绪分析来了解基于人群的干预方法(如COVID-19疫苗接种)的潜在障碍。此外，分析患者对不同治疗方法的在线评论可以提高患者满意度[25］．

来自社交媒体的情绪检测在监测健康和幸福方面发挥着重要作用[26］．临床医生和卫生专业人员也从情绪分析中受益，以了解公众情绪和公共卫生对干预措施(即疫苗)的看法变化。情绪检测系统已被用于提醒公共卫生从业人员，监测精神病人[27]、预防自杀[28]，以及药物不良反应[29］．一些作品利用基于情感的特征，专门检测用户在社交媒体上报告的药物不良反应，可以指导卫生专业人员和制药公司使药物更安全，倡导患者安全[30.-32］．此外，情绪传染的想法可以进一步在提高用户的整体幸福感或防止他们出现心理健康问题方面发挥关键作用。克莱默等[33他指出，情感可以通过这种方式传递给他人情绪感染。情绪传染使人们经历相似的情绪，即使他们没有意识到自己的情绪变化。另一方面，其他研究发现，由于大量接触社交媒体上的负面内容，人们的心理健康问题(即抑郁和焦虑)与COVID-19的爆发之间存在密切联系[34，35］．另一方面，一个人也可以让人们接触积极的或期望的情绪(例如，平静、快乐、乐观和休息)，以提高他们的整体幸福感。33］．

除了情感分析和情感检测，主题建模是一种重要的文本分析技术，它将文本划分为不同的主题。大多数模型可以在没有监督的情况下发现隐藏的主题，因此不需要对具有预定义主题的特定数据进行训练，这使得这种方法适合于分析社交媒体数据，以确定人们在这些平台上谈论什么。在COVID-19大流行期间，主题建模已用于许多卫生应用程序[36，例如监测人们的担忧，预测COVID-19病例，分析政府的应对措施。主题建模在卫生信息监测和舆情监测中发挥了至关重要的作用[37］．

鉴于对了解人们对大流行的看法和情绪的研究兴趣日益浓厚[37]，本研究的目的是使用基于深度学习的方法，通过Twitter上的比较地理定位和文本挖掘分析，了解英国公众对COVID-19大流行相关主题的情绪。具体来说，我们利用了三种先进的基于深度学习的方法(即SenticNet [38]， SpanEmo [39]、组合主题建模[CTM] [40)，然后对从Twitter收集的数据集进行了分析，以探索人们对COVID-19的情绪、情绪和话题。我们进一步纳入了对这些属性的分析，重点是了解大流行随时间的影响。这项研究的总体目标是使用情绪检测、情绪分析和主题建模自动捕捉COVID-19对英国人口的影响。

数据源

为了开发我们的语料库，我们使用Twitter应用程序编程接口，通过在英国多个城市使用几个边界框收集数据。我们进一步使用了与大流行相关的关键词列表(例如，冠状病毒，sars19, covid19和NHS[国家卫生服务])。数据涵盖了过去两年(即2020年和2021年)。为了获取数据上的位置标签，我们使用Python地理编码库" geopy " [41]，它基于第三方地理编码器和其他数据源，帮助定位地址(如Oxford Rd, Manchester M13 9PL)、城市(如Manchester)、国家(如United Kingdom)和地标(以纬度和经度坐标的形式)的坐标。更具体地说，我们使用“提名制”[42]作为第三方工具。因此，在这项研究中，我们总共获得了来自48个城市的516,427条推文。

每个城市和表情符号的推文数量显示在表1而且多媒体附件1,分别。我们进一步强调了用于分析的9个城市:伯明翰、布里斯托尔、利兹、莱斯特、利物浦、伦敦、曼彻斯特、诺丁汉和谢菲尔德。值得一提的是，这9个城市也是英国人口最多的城市[43］．这表明，在给定的地理位置区域，人口规模和发布的推文数量之间存在联系。多媒体附件1显示与每个表情符号及其含义相关的前50条推文(按百分比)，突出显示表达不同健康问题(如病毒、戴医用口罩、注射器或疫苗的脸)和精神健康状况(如双手合十)的表情符号的使用。

表1。英国每个城市的推文数量。

城市	微博,	人口,n
浴	1698	105730年
伯明翰^一个	21120年	1159888年
布莱克本	1092	121475年
布拉德福德	4980	368485年
布赖顿	10092年	245504年
布里斯托尔^一个	10338年	580199年
剑桥	6894	149155年
坎特伯雷	2292	64495年
卡莱尔	1098	74536年
切姆斯福德	3894	119468年
切斯特	3516	87881年
奇切斯特	864	31881年
考文垂	6072	388793年
德比	3503	264430年
达勒姆	9414	56920年
伊灵	4914	340341年
伊利	432	20333年
埃克塞特	3360	127709年
格洛斯特	1740	148167年
赫里福德	1134	64037年
金斯敦	5286	287705年
科克里斯	3156	441290年
兰开斯特	876	52935年
利兹^一个	11628年	516298年
莱斯特^一个	19818年	472897年
利奇菲尔德	792	34686年
林肯	4614	107434年
利物浦^一个	15876年	589774年
伦敦^一个	111667年	9088994年
卢顿	2658	222043年
曼彻斯特^一个	25260年	567334年
纽卡斯尔	9642	290688年
北安普顿	3954	230070年
诺维奇	4290	199245年
诺丁汉^一个	11827年	320536年
彼得伯勒	2054	179349年
普利茅斯	2736	240297年
朴茨茅斯	4878	248748年
普雷斯顿	3816	100095年
雷德布里奇	3227	310330年
里庞	138	15971年
洛奇代尔	1415	114511年
罗瑟勒姆	198	111158年
索尔福德	8034	125983年
谢菲尔德^一个	15582年	557039年
南安普顿	7806	270333年
伍斯特	3492	101816年
纽约	5748	164934年

^一个在后续分析中使用的前9个城市。

方法

为了预处理数据，我们使用了针对Twitter的特定特征(即拼写错误和缩写)设计的“ekphrasis”工具[44］．该工具提供了不同的功能，如标记化、规范化和拼写更正。我们利用该工具对文本进行标记;将单词转换为小写字母;并规范用户提及、url和重复字符。预处理步骤完成后，我们通过三个模型输入数据:(1)基于文本情感深度学习的识别模型，(2)基于深度学习的情感模型，(3)神经网络主题模型。图1描述了我们的管道，其中我们提供了三个深度学习模型的说明。

我们使用SenticNet 6 [38]用于情感分析，因为该模型取得了比其他基于机器学习的情感分析方法更好的性能。SenticNet 6通过使用符号模型(即逻辑和语义网络)和带有深度学习架构的子符号方法来编码含义和句法关系，可以为大约20万个常识概念提供情感评分(在-1到1之间)。然后，我们将帖子中每个概念的情感得分相加，并使用两种基本语言模式(否定和转折模式)[45］．例如，如果没有使用模式，“the television is old but rather not expensive”可能会被错误地分类，尽管“old”和“expensive”都是否定的。最后，我们自动计算每个帖子的情绪极性。我们根据以下评分范围将数据分为五类:强阴性(-1至-0.5)、弱阴性(-0.5至-0.1)、中性(-0.1至0.1)、弱阳性(0.1至0.5)和强阳性(0.5至1)。

情感识别模型是基于我们基于深度学习的模型“SpanEmo”[39用于多标签情感分类。该模型是在SemEval-2018多标签情绪分类数据集上进行专门训练的[46，被标记为多个情绪类别(即愤怒、期待、厌恶、恐惧、喜悦、爱、乐观、悲观、悲伤、惊讶和信任)。SpanEmo专注于学习特定情绪的关联，并将它们的相关性整合到训练目标中。由于SpanEmo在多标签情绪分类任务中取得了出色的表现，我们决定使用它来为我们的数据生成预测。需要指出的是，只有高预测的例子才会被保留。

最后，对于主题建模，我们使用CTM [40］．该模型将上下文化文档嵌入到神经主题模型中，以产生更连贯和有意义的主题。因为在五个公开数据集上的评价结果表明CTM所取得的性能优于传统的潜狄利克雷分配[47]主题模型和其他神经模型，我们使用CTM从我们的数据中提取主题及其相关词汇。

道德的考虑

由于我们的数据是从推特收集的，我们遵循了推特的服务条款和严格的伦理研究协议，类似于指南。48]，保障个人资料的私隐及保安。值得一提的是，我们的研究主要集中在推文层面;我们预计我们的分析不会产生任何负面的伦理影响。然而，我们认为，这些结果为人们在COVID-19大流行期间在英国不同城市的情绪和话题提供了洞察。

与情绪相关的词汇

我们对COVID-19在线数据集的情绪、情绪和主题建模进行了不同类型的分析。首先，我们分析了情感词汇和主题词汇之间的关联，两者都证明了词汇与其各自的情感标签和主题之间的关系。然后，我们分析了给定的位置，以及COVID-19对英国不同城市的影响。此外，还对基于时间的特征进行了分析，重点是显示COVID-19随时间的影响。最后，我们分析了数据中的实例，讨论了在英国大流行期间考虑情绪、情感和主题分析在理解人们关注的问题方面的好处。

表2下面是SpanEmo学习的与每种情绪相关的前6个单词。关于如何生成这些单词的详细信息由Alhuzali和Ananiadou提供[39］．有些词语既表达了相应的情绪，也表达了COVID-19大流行。例如，“死亡”和“传播”与情感类恐惧高度相关，而“疫苗”和“支持”等词与情感类预期高度相关。这是很直观的，因为有些词直接表达情感(如愤怒、害怕和高兴)，而另一些词间接表达情感(如意外、失败和生日)。我们还观察到一些情感类有相似的词，特别是那些属于相同价空间的词[49］．中提出的分析表2这表明，通过情绪分析和人们在大流行期间的担忧，有可能了解COVID-19的影响。

我们使用CTM提取主题。表3总结了提取的前18个主题以及每个主题的前5个相关词。我们注意到，用户提到的话题很多，从疫情防控、政府政策、疫苗接种等与新冠肺炎相关的话题，到工作、网络、社交等间接相关的话题。例如，主题1 (t1)包含了一些关于感恩的词(即，感激,谢谢)，这与对社会支持和疫苗接种的态度有关。主题3 (t3)是关于大流行期间的讨论，主题10 (t10)是关于COVID-19的严重后果(死,死亡)，主题8 (t8)揭示了职业模式。

表2。由SpanEmo预测的与每种情感类别相关的前6个单词。

情感类			相关的单词
负面情绪
	愤怒	死，思，公，病毒，别，反
	厌恶	死亡，病毒，对抗，因为，公众，之后
	恐惧	死亡、传播、症状、冠状病毒、识别、自我报告
	悲伤	死亡，走，病例，医院，其他
	悲观主义	不幸的是，家人、朋友在几周内相继离世
积极的情绪
	期待	支持，疫苗，第一，工作，公众，病例
	快乐	很好，谢谢，支持，开心，很棒，安全
	信任	信任，感谢，保护，重要，社区，每个人
	爱	快乐，被爱，分享，美丽，精彩，惊人
	乐观	请，感谢，支持，工作，伟大，传播
	惊喜	震惊，惊讶，惊人，公开，绝对，死亡

表3。使用组合主题建模和每个主题前5个相关词提取主题。

主题	相关的单词
t1	感谢，感激，自豪，了不起，英雄们
t2	阶级，符号，贸易，世界范围，保持
t3	讨论，博客，讨论，恢复，机会
t4	团结，健身，王国，完整，形象
t5	插曲，曲调，电影，录像，广播
t6	后，一致，撞击，不适，填充
t7	疫苗，疫苗，剂量，药物，加强剂
t8	信件，家庭，工人，工资，私人
t9	访问，眼睛，推特，点击，网站
t10	死亡，死亡，真实，杀戮，因为
t11	已确认，总数，英格兰，威尔士，报告
病人	后方，同意，危及，不知不觉，不适
t13	谎言，卡明斯，媒体，领袖，领袖
t14	冠状病毒，大流行，爆发，instagram，爆发
t15	口罩，戴，脸，手，盖
t16.1	缓慢、线程、实现、测试跟踪、症状
t17	夫妻，没有，感觉，女儿，假期
t18	留下来，被爱，坚强，祈祷，健康

位置分析

图2显示了英国城市样本中表情符号的数量，其中样本包括我们数据中排名前9位的城市，更具体地说，是那些推文数量最高的城市(表1):布里斯托尔、伯明翰、莱斯特、利兹、利物浦、伦敦、曼彻斯特、诺丁汉和谢菲尔德。表情包包括以下主题:病毒、口罩、竖起/放下大拇指、心碎等。表情符号的比例因城市而异。例如，注射器(今天被称为COVID-19疫苗表情符号)在利物浦的使用率很高;伯明翰的拇指朝下表情符号使用率很高;面具表情符号在伦敦和利物浦被广泛使用。这些表情符号与COVID-19大流行有关，展示了我们的数据在挖掘和分析Twitter等社交数据方面的好处，以便更好地了解大流行对英国不同地区的人们的影响。

在图3，我们根据推文数量，在数据中排名前9位的城市中，展示了五种情绪(强正面、弱正面、中性、弱负面和强负面)的比例。我们可以观察到，在每个城市中，大约60%的推文是正面的，20%是负面的。与此同时，这些城市中不同情绪的推文比例也有所不同。例如，利兹的强烈负面推文比例相对较高，而谢菲尔德的强烈正面推文比例相对较低。

在图4，我们展示了数据中排名前9的城市的情绪表达分布。可以观察到，这9个城市有着非常相似的分布，尽管比例因情绪而异。例如，“乐观”和“期待”是最常被表达的情绪。我们还注意到一些复杂的情绪，如喜悦、厌恶和愤怒，这是在COVID-19大流行期间表达的合理情绪。有趣的是，信任表达的比例极低，这可能与高感染率导致的对决策者缺乏信任，无法正确处理情况有关。值得注意的是，在之前的工作中发现，信任表达的比例在Twitter上普遍稀缺[50，51］．

此外，我们还统计了10个主题在不同城市的比例，如图所示图5．相似的话题在不同的城市受到不同程度的关注。例如，在莱斯特讨论的主要话题是t2 (全球贸易,)，反映市民对国际贸易的关注程度增加。在伦敦，居民们谈论更多的是t4。王国,曼联)比其他城市要多。此外，谢菲尔德的人口更关注死亡话题，因为t10 (死,死亡)比其他城市要多。

时间分析

随着时间的推移，这一流行病的情况发生了变化，反映出人们对这一流行病的关注程度。图6显示2020年1月至2021年12月与COVID-19相关的推文数量。我们可以观察到，从2020年1月到2020年2月，推文数量急剧增加(约10万条推文)，这主要是由于英国爆发了COVID-19。截至2020年2月，推文数量逐渐下降，这表明人们对疫情的关注有所下降。此外，2021年推文的总体数量相对较低。随着2021年11月在英国发现新冠病毒Omicron变种，发布的推文数量有所增加。

图7呈现随时间变化的情绪表达，涵盖2年(即2020年和2021年)。我们注意到分布随时间而变化。在2020年初，几乎所有情感标签的表达量都达到了峰值，其中一些标签的表达量明显高于其他标签，比如乐观。随着时间的推移，包含情绪的推文数量减少，但情绪分布却发生了巨大的变化，从高度积极到消极。这一趋势一直持续到2021年底。例如，厌恶、悲伤和绝望是这段时间表达最多的情绪，这些情绪在这段时间是合理的，因为病例和死亡人数都在增加[52］．

图8显示了2020年2月至2021年11月期间所有推文的主题(在10个选定的主题中)的变化。我们可以看到变化是比较显著的。2020年4月，许多推文表达了对当地议会抗击疫情英雄的感谢，因为与t1相关的消息频率最高(感激,谢谢)．此外，由于疫苗研究的进展和接种疫苗人数的增加，提及t7的推文数量(疫苗接种)相对增加，并在2021年1月达到最大值。有趣的是，有许多与t5相关的推文(电影,视频)，因为电影的出现具有特殊的意义，如希望的灯塔:英国疫苗的故事而且一年过去了:一首写给伦敦人的流行病诗．例如，有人发帖说:“很荣幸被@BBCLondonNews拍摄，阅读我们的《一年过去》这一部分，这是一首纪念第一次封锁周年的诗。”

图6。2020年1月至2021年12月与COVID-19相关的推文数量。每条彩色线代表一个特定的年份(例如，红色代表2020年，橙色代表2021年)。

图8。2020 - 2021年不同主题表达的推文数量。看到表1查看主题t1-t10的说明。

实例分析

多媒体附件2从我们的数据中展示了9个例子，每个例子都与不同的属性(即情绪、表情符号、情绪和主题)相关联，展示了有趣的发现，突出了这些属性对理解人们对大流行的反应的好处。在这里，我们描述了在我们的数据中经常观察到的推文中表情符号的一些用例。例子1和3显示了与接种疫苗(注射器表情)和感觉强壮/受到保护(肌肉表情)有关的表情符号的使用。这两个例子表明，接种疫苗可以让人们感觉强壮，免受COVID-19疾病的侵害。其他的例子(例如例子4和例子5)讨论航班取消(飞机表情符号)，导致人们错过已经计划好的旅行和假期。例5还讨论了接种COVID-19疫苗后再次旅行的可能性。另一个例子说明了开发志愿者项目的好处，这些项目可以帮助医院和社区抗击COVID-19危机。此外，面具表情符号的使用方式也各不相同，这取决于上下文(例如，长时间封锁)。

从情绪的角度来看，不同的推文表达了不同的情绪(包括积极的、中性的和消极的情绪)。例3讨论了第二种COVID-19疫苗已经成功接种，例9赞扬了社区团体的帮助和支持，这两个例子都显示了用户强烈的积极情绪。例7表达了负面情绪，因为用户因疫情无法见到亲人。其他一些例子(例如例1、2、5、6和8)在大流行期间通过引入疫苗接种、封锁或志愿者来表达积极的态度。此外，示例4显示了一个表达混合情绪(积极和消极)的实例，尽管它被SenticNet标记为中性。然而，SpanEmo发现了一些复杂的情绪，这有助于克服SenticNet在正确处理带有复杂情绪或情绪的表达方面的局限性。

多媒体附件2根据CTM方法计算出的概率，给出每个示例的前3个主题。例子1、3和5属于t7，它主导了关于疫苗和助推器的讨论。例4、例7、例8表达了用户对COVID-19对他们生活影响的态度和情绪，因此这些都被归为t18。例子3和6也属于t1(与感激有关)，因为出现了“thank you”。此外，在一些tweets中表达了对social media (t3)的讨论或使用(例如，例9)。

主要研究结果

这项研究调查了2020年1月至2021年12月期间英国不同城市的50多万条与COVID-19有关的推文，这些城市的推文数量在疫情爆发后急剧增加。我们使用了三种基于深度学习的模型来分析和结合情绪、情绪和主题，以确定大流行期间的关键公众关注点。通过我们的分析，我们发现情绪分析可以帮助理解COVID-19大流行期间人们的观点和态度。同时，考虑地理位置信息可以揭示英国不同地区之间的差异。随着时间的推移，总体情绪是积极的，乐观是主要的情绪，这表明人们倾向于对形势持乐观态度。在这两年里，随着流行病学形势和政府政策的变化(如接种疫苗、保持社交距离)，推特上表达的情绪、情绪和话题发生了变化，这也反映了人们态度的变化。

还确定了在联合王国收集关于人们在大流行期间反应的证据时所选属性的好处。这些属性包括情绪、情绪、表情符号和主题建模。这项分析表明，这些属性可以帮助收集证据并分析大流行期间人与人之间的互动。第一个属性是情绪，它可以作为理解人们反应的指南。例如，一些人表达对COVID-19的担忧有多种原因，如(1)解决问题的时间比预期的要长，(2)取消或改变计划，(3)旅行限制，(4)戴口罩，以及(5)与家人和朋友隔离和缺乏联系。其他人表达了一些积极的反应和应对大流行的潜在解决方案，包括家庭支持、接种疫苗、呆在家里或戴口罩，以及志愿服务。第二个属性是表情符号，它描述了文本中的整体表达，在某种意义上类似于主题建模，两者都指的是推文中表达的主题。这为表情符号提供了另一个维度，它一直被用作收集情绪数据的替代品[53，54］．虽然通过这项工作观察这一点很有趣，但我们将其留给未来的工作进行更深入的研究。

情绪分析也有助于了解某些事件背后的公众舆论和看法。通过分析我们数据中的情绪，我们发现大多数人在大流行期间都有积极的态度，这与之前的研究结论相吻合[55]，因为他们经常发布有关社会支持和疫苗接种等良好政策的信息，以增强抗击COVID-19的信心。当然，一些人仍然对疫情表示担忧，由于死亡、隔离和封锁政策，他们的正常生活受到了影响，产生了负面情绪。

从提取的话题中，我们发现人们关注的话题有很多，包括COVID-19的症状、疫苗接种、社交媒体、政府政策和生活条件。社交媒体主题的变化揭示了COVID-19对人们生活的影响，将关于日常生活的讨论转移到大流行和政策上。

此外，由于城市环境、疫情、政策、热点等各种因素的影响，来自英国不同城市的人们使用的表情包、表达的情绪、讨论的话题都有所不同。调查结果揭示了人们对COVID-19大流行看法的复杂性和多样性，这表明有必要跟踪公众态度。

限制

这项工作基于现有的自然语言处理方法，这些方法用于分析不同的属性，如情绪、情绪和主题。然而，这些现有的方法可能无法保证其预测反映实际属性。此外，情绪和情感是主观任务，这使得它们难以建模，反过来又会影响我们的解释和结果。此外，由于我们的数据是从Twitter上收集的，使用了特定的关键字，因此我们可能错过了在线线程和观点中的其他主题。相关的讨论也可以从其他社交媒体平台(如Facebook, Reddit)。在这方面，我们的数据提供了Twitter上用户交互的部分样本。然而，这些方法也适用于其他纵向数据和社交媒体平台。

结论

我们的主要贡献是采用多种方法，深入了解COVID-19大流行期间英国城市的公众情绪和情绪。此外，我们的方法是基于地点和时间的，支持跟踪公众关注的比较分析。我们的分析表明，在大流行期间，积极的态度很普遍;乐观和期待是主要的情绪。随着疫情的爆发和流行病学的变化，政府制定了控制措施和疫苗接种政策，主题也随着时间的推移而变化。此外，对比地理位置分析还揭示了不同城市的人们在表达情绪和讨论话题方面的差异。总的来说，我们的研究表明，分析来自社交媒体的数据有助于更好地了解城市层面上与COVID-19相关的公众情绪和担忧，这可能有助于制定可接受的政策。

致谢

这项工作得到了医学研究委员会(MRC)、英国MR/R022461/1和英国艾伦图灵研究所的部分资金支持。

作者的贡献

医管局为这项研究策划了数据。HA和TZ设计方法，分析和解释数据，并起草手稿。SA编辑了手稿。

利益冲突

没有宣布。

‎

多媒体附件1

数据集中与每个表情符号相关的推文的百分比。

PDF档案(adobepdf档案)，178kb

‎

多媒体附件2

表达对COVID-19积极和消极反应的推文示例。

PDF档案(adobepdf档案)，184 KB

Shuja J, Alanazi E, Alasmary W, Alashaikh a . COVID-19开源数据集:综合调查。应用物理学报，2011;26 (3):339 - 344 [免费全文] [CrossRef] [Medline］
Debata B, Patnaik P, Mishra A. COVID-19大流行!它对人类、经济和环境的影响。J公共事务2020年9月2日;20:e2372。［CrossRef］
Hussain MW, Mirza T, Hassan MM.新冠肺炎大流行对人类行为的影响。国际教育管理杂志2020年12月08日;10(6):35-61。［CrossRef］
斯帕斯卡O, Bhui K, Biswas A，张伯伦S, Dubicka B, Dudas R，等。COVID-19对心理卫生研究的影响:这是突破点吗?Br J精神病学2022年2月17日1-3。［CrossRef] [Medline］
前25个令人惊讶的推特统计英国版。cybercrew。2022.URL:https://cybercrew.uk/blog/twitter-statistics-uk/[2022-09-28]访问
Paul M, Dredze M.你就是你的推特:为公共卫生分析推特。2011年发表于:第五届国际AAAI网络与社交媒体会议;2011年7月17-21日;西班牙巴塞罗那。
Sinnenberg L, Buttenheim AM, Padrez K, Mancheno C, Ungar L, Merchant R. Twitter作为健康研究的工具:系统综述。中华医学会公共卫生杂志2017年1月;107(1):e1-e8。［CrossRef］
Ainley E, Witwicki C, Tallett A, Graham C.使用推特评论来了解COVID-19大流行期间人们在英国医疗保健方面的经历:主题和情感分析。J medical Internet Res 2021 10月25日;23(10):e31101 [免费全文] [CrossRef] [Medline］
张超，徐松，李智，胡松。通过推特数据挖掘了解COVID-19大流行期间人群的担忧、情绪和差异:大规模横断面研究。J Med Internet Res 2021 Mar 05;23(3):e26482 [免费全文] [CrossRef] [Medline］
Saleh SN, Lehmann CU, McDonald SA, Basit MA, Medford RJ。了解公众对2019冠状病毒病(COVID-19)在推特上的社交距离的看法。感染控制和流行病学2021 Feb;42(2):131-138 [免费全文] [CrossRef] [Medline］
Kleinberg B, van DVI, Mozes M.在2019冠状病毒病真实世界担忧数据集中测量情绪。2020年发表于:2019冠状病毒病NLP第一次研讨会;2020年7月5-10日;网上。
李霞，周敏，吴娟。网络社交媒体新冠肺炎疫情分析:趋势、情绪和情绪。出来了。2020.URL:https://arxiv.org/abs/2005.14464[2022-09-28]访问
Gupta RK, Vishwanath A, Yang Y. COVID-19推特数据集的潜在主题，情绪和情绪属性。出来了。2020.URL:https://arxiv.org/abs/2007.06954[2022-09-28]访问
glt K, Khanal S, Li Y. COVID-19推文中的姿态检测。2021年发表于:第59届计算语言学协会年会和第11届自然语言处理国际联合会议;2021年8月1日至6日;曼谷,泰国。［CrossRef］
Kruspe A, Häberle M, Kuhn I.新冠肺炎大流行期间欧洲推特信息的跨语言情感分析。发表于:ACL 2020第一次2019冠状病毒病NLP研讨会;2020年7月5-10日;网上。
Hossain T, Logan IRL, Ugarte A. COVIDLies:检测社交媒体上的COVID-19错误信息。出席会议:2020年EMNLP第一次COVID-19国家语言处理研讨会(第二部分);2020年12月;网上。［CrossRef］
胡涛，王松，罗伟，张敏，黄霞，闫燕，等。利用美国Twitter数据揭示对COVID-19疫苗的公众舆论:时空视角J Med Internet Res 2021 9月10日;23(9):e30854 [免费全文] [CrossRef] [Medline］
Hussain A, Tahir A, Hussain Z, Sheikh Z, Gogate M, Dashtipour K，等。英国和美国Facebook和Twitter上公众对COVID-19疫苗态度的人工智能分析:观察性研究。J medical Internet Res 2021 Apr 05;23(4):e26627 [免费全文] [CrossRef] [Medline］
吕锦江，韩磊，吕丽GK。推特上与COVID-19疫苗相关的讨论:主题建模和情绪分析。J Med Internet Res 2021年6月29日;23(6):e24435 [免费全文] [CrossRef] [Medline］
Yan C, Law M, Nguyen S，张J, Kong J.比较加拿大各城市对COVID-19疫苗的公众情绪:Reddit上的评论分析。J medical Internet Res 2021 9月24日;23(9):e32685 [免费全文] [CrossRef] [Medline］
Addawood A, Alsuwailem A, Alohali A.跟踪和了解COVID-19期间的公众反应:以沙特阿拉伯为例。出席会议:2020年EMNLP第一次COVID-19国家语言处理研讨会(第二部分);2020年12月;在线网址:https://doi.org/10.18653/v1/2020.nlpcovid19-2.24［CrossRef］
Kwok SWH, Vadde SK, Wang G.澳大利亚推特用户中与COVID-19疫苗接种相关的推文主题和情绪:机器学习分析。J Med Internet Res 2021年5月19日;23(5):e26953 [免费全文] [CrossRef] [Medline］
Gorodnichenko Y, Pham T, Talavera O.社交媒体，情绪和公众舆论:来自#英国脱欧和#美国大选的证据。欧元经济Rev 2021年7月;136:103772。［CrossRef］
Zunic A, Corcoran P, spic I.健康与幸福感的情感分析:系统回顾。JMIR Med Inform 2020年1月28日;8(1):e16023 [免费全文] [CrossRef] [Medline］
张磊，霍尔M, Bastola D.利用Twitter数据进行化疗分析。Int J Med Inform 2018年12月;120:92-100。［CrossRef] [Medline］
Andalibi N, Buss J.在社交媒体上的情感识别:态度，结果，风险。2020年发表于:CHI '20: 2020 CHI计算系统中的人为因素会议;2020年4月25日至30日;火奴鲁鲁,嗨。［CrossRef］
张涛，张晓峰，张晓峰。自然语言处理在精神疾病检测中的应用。NPJ数字医学2022年4月08;5(1):46。［CrossRef] [Medline］
吉生，潘松，李旭，Cambria E，龙刚，黄志。自杀意念检测的机器学习方法及应用综述。IEEE计算Soc系统2021年2月;8(1):214-226。［CrossRef］
Weissenbacher D, Sarker A, Magge A.第四次社交媒体挖掘健康(SMM4H)共享任务概述2019年出席:第四届社交媒体挖掘健康应用(# SMM4H)研讨会及共享任务;2019年8月;意大利佛罗伦萨，第21-30页。［CrossRef］
Aragón ME, Monroy APL, González-Gurrola LC。利用细粒度情绪在社交媒体上检测抑郁症。2019发表于:2019年计算语言学协会北美分会会议:人类语言技术;2019年6月;明尼阿波利斯，明尼苏达州p. 1481-1486网址:https://doi.org/10.18653/v1/n19-1151［CrossRef］
陈X, Sykora MD, Jackson TW。那么情绪波动呢?在推特上用暂时的情绪测量来识别抑郁症。2018年发表于:WWW '18: 2018年Web大会;2018年4月;法国里昂，约1653-1660年。［CrossRef］
Korkontzelos I, Nikfarjam A, Shardlow M, Sarker A, Ananiadou S, Gonzalez GH。情绪分析对从推特和论坛帖子中提取药物不良反应的影响分析J Biomed Inform 2016 Aug;62:148-158 [免费全文] [CrossRef] [Medline］
克雷默ADI，吉洛里JE，汉考克JT。通过社交网络大规模情绪传染的实验证据。中国科学院学报(自然科学版)2014年6月17日;111(24):8788-8790 [免费全文] [CrossRef] [Medline］
高洁，郑鹏，贾勇，陈红，毛勇，陈松，等。COVID-19疫情期间的心理健康问题和社交媒体暴露。PLoS One 2020;15(4):e0231924 [免费全文] [CrossRef] [Medline］
巴维尔JJV，贝克K，博乔PS，卡普拉罗V，齐科卡A，齐科拉M，等。利用社会和行为科学支持COVID-19大流行应对。Nat Hum Behav 2020五月;4(5):460-471。［CrossRef] [Medline］
曹顺丰，陈华，tisseverashe T，杨勇，李林，屁股扎。社交媒体在COVID-19时期告诉我们的:范围审查。Lancet Digit Health 2021 Mar;3(3):e175-e194 [免费全文] [CrossRef] [Medline］
Boon-Itt S, Skunkan Y.公众对推特上COVID-19大流行的看法:情绪分析和主题建模研究。JMIR公共卫生监测2020年11月11日;6(4):e21978 [免费全文] [CrossRef] [Medline］
Cambria E，李勇，邢福忠。SenticNet 6:符号和次符号AI在情感分析中的集成应用。2020年发表于:CIKM '20:第29届ACM信息与知识管理国际会议;2020年10月19日;网上。［CrossRef］
Alhuzali H, Ananiadou S. SpanEmo:将多标签情感分类作为跨度预测。2021发表于:EACL 2021:第16届计算语言学协会欧洲分会会议:主要卷;2021年4月19日至23日;在线p. 1573-1584。［CrossRef］
Bianchi F, Terragni S, Hovy D.预训练是一个热门话题:情境化文档嵌入提高主题连贯性。2021年发表于:第59届计算语言学协会年会和第11届自然语言处理国际联合会议;2021年8月;在线第759-766页。［CrossRef］
geopy 2.2.0。URL:https://pypi.org/project/geopy/[2022-09-28]访问
欢迎来到吉奥皮的文档!GeoPy。URL:https://geopy.readthedocs.io/en/stable/#nominatim[2022-09-28]访问
英国:国家和主要城市。城市人口。URL:https://www.citypopulation.de/en/uk/cities/[2022-09-28]访问
Baziotis C, Pelekis N, Doulkeridis C. semeval2017任务4:关注消息级和基于主题的情感分析的深度LSTM。2017年发表于:第11届语义评估国际研讨会(SemEval-2017);2017年8月;温哥华BC。［CrossRef］
李文杰，李文杰，李文杰。基于动态语言模式的情感数据流分析方法。IEEE计算英特尔杂志2015年11月10日(4):26-36。［CrossRef］
Mohammad S, br伏- marquez F, Salameh M, Kiritchenko S. SemEval-2018任务1:推文中的影响。2018发表于:第12届语义评估国际研讨会;2018年6月;新奥尔良，洛杉矶。［CrossRef］
Blei DM, Ng AY, Jordan MI。J Mach Learn Res 2003; 3:93 -1022。
Benton A, Coppersmith G, Dredze M.社交媒体健康研究的伦理研究协议。2017年发表于:第一届ACL自然语言处理伦理研讨会;2017年4月;西班牙瓦伦西亚，第94-102页。［CrossRef］
对2万个英语单词的效价、觉醒和支配地位进行可靠的人类评分。2018年发表于:第56届计算语言学协会年会上;2018年7月;澳大利亚墨尔本，第174-184页。［CrossRef］
徐鹏，刘震，冯平，林泽，冯平。Emograph:利用图网络捕获情绪相关性。出来了。2020.URL:http://128.84.4.34/abs/2008.09378[2022-09-28]访问
Saif M, Kiritchenko S.理解情绪:研究影响类别之间相互作用的推文数据集。2018年发表于:第十一届国际语言资源与评估会议;2018年5月;宫崎骏,日本。
巴勒塔佤邦。SARS-CoV-2变异对国家病死率的影响:相关性和验证研究JMIRx Med 2022;3(2):e32935 [免费全文] [CrossRef] [Medline］
Shoeb AAM, de Melo G. EmoTag1200:理解表情符号和情绪之间的联系。2020年发表于:2020年自然语言处理经验方法会议(EMNLP);2020年11月;在线p. 8957-8967。［CrossRef］
Felbo B, Mislove A, Søgaard A.使用数百万个表情符号来学习任何领域的表示，用于检测情绪，情绪和讽刺。2017年发表于:自然语言处理经验方法会议;2017年9月;哥本哈根，丹麦，1615-1625年。［CrossRef］
洪敏，许洁，苏松，等。新冠疫情情绪的社交网络分析:人工智能的应用。J Med Internet Res 2020 Aug 18;22(8):e22590 [免费全文] [CrossRef] [Medline］

‎

中医:组合主题建模

国民健康保险制度:国民保健制度

C Basch编辑;提交15.06.22;J Nielsen, M Rabbani的同行评议;对作者08.07.22的评论;修订本收到日期为06.08.22;接受10.08.22;发表05.10.22

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

英国COVID-19大流行期间推特上表达的情绪和话题:比较地理定位和文本挖掘分析