医学互联网研究杂志-通过Twitter数据挖掘了解COVID-19大流行期间人群之间的担忧、情绪和差异:大规模横断面研究

原始论文

¹西安交通大学第二附属医院医学人工智能研究所，中国西安

²西安交通大学数学与统计学院，西安

这些作者的贡献相同

通讯作者:

徐松华，博士

医学人工智能研究所

西安交通大学第二附属医院

西吴路157号

西安

中国

电话:86 18710823698

电子邮件:songhua_xu1@163.com

背景:自2019年底COVID-19大流行开始以来，其在全球范围内对人类生活的各个方面产生了深远影响，如卫生、经济、政治和教育。这种广泛而深刻的影响给所有人口群体带来了重大而深刻的负担，引起了他们之间的各种关切和情绪。

摘要目的:本研究旨在通过大规模Twitter数据挖掘信息监测进行的横断面研究，确定COVID-19大流行期间不同人群的担忧、情绪和差异。

方法:这项研究包括三个步骤:首先，大规模收集和预处理大流行期间发布的推文;其次，通过一系列自然语言处理程序提取关键群体属性、关注点、情感和情绪;第三，进行了多项分析，以揭示大流行期间人口群体之间的担忧、情绪和差异。总的来说，本研究采用了一种快速、有效和经济的方法来分析公共卫生事件期间的人口水平差异。本研究开发的源代码在GitHub上免费公开发布。

结果:对2020年8月7日至8月12日发布的1015655条英文原创推文进行采集和分析，得到如下结果:组织比个人更关注COVID-19(优势比[OR] 3.48, 95% CI 3.39-3.58)，并表现出更多的恐惧和抑郁情绪。与男性相比，女性对COVID-19的担忧程度较低(OR 0.73, 95% CI 0.71-0.75)，表达的恐惧和抑郁情绪较少。在各年龄组(≤18岁、19-29岁、30-39岁和≥40岁)中，COVID-19恐惧和抑郁的注意or随年龄的增长而显著增加。值得注意的是，并非所有女性对新冠肺炎的关注度都低于男性。在40岁及以上的年龄组中，女性比男性更关心经济和教育话题。此外，40岁及以上和18岁及以下的男性阳性反应最少。最后，在所有的情绪分析中，在所有人群关注的五个话题中，政治话题的情绪极性始终是最低的。

结论:通过大规模的Twitter数据挖掘，本研究发现，在研究期间，不同人群对covid -19相关话题的关注和情绪存在显著差异。因此，需要对不同的人口群体给予专门和不同的关注和支持。此外，我们公开发布的代码所实现的高效分析方法可用于在大流行或任何其他重大事件期间动态跟踪每个人群群体的演变，以便更好地了解公共卫生研究和干预措施。

[J] .中国医学信息学报，2013;23(3):662 - 662

doi: 10.2196/26482

关键字

新型冠状病毒肺炎； Twitter矿业； infodemiology； infoveillance；流感大流行；担忧；情绪；人群；差距

背景

自2019年12月以来，COVID-19在全球迅速蔓延，造成数百万人死亡[1，2]。尽管许多国家已经实施了各种对策[3.，4在美国，大流行的终结仍然遥遥无期。到目前为止，新冠肺炎疫情已经对健康、经济、政治、教育等人类生活的各个方面产生了巨大影响[5-8，其影响可能会持续一段未知的时期。这种广泛而持久的影响很可能给不同的人口群体造成不成比例的负担，引起他们的各种关切和情绪。因此，了解这些人群对COVID-19的反应差异对于更好地进行知情的公共卫生研究和干预具有重要意义。

文学评论

到目前为止，研究COVID-19对公共和个人生活的影响的方法主要有两类，包括大规模的社交媒体挖掘方法和通过在线和离线问卷进行的横断面分析，下文将对这两类方法进行简要回顾。

第一类方法通过挖掘大流行期间产生的社交媒体数据，提供了一种快速、经济的方法来分析COVID-19对人口的影响。目前，这些方法已被用于许多研究中。例如，Lwin等[9]研究了Twitter数据，以探索四种情绪的全球趋势——恐惧、愤怒、悲伤和快乐——以及它们的相对显著性。Abd-Alrazaq等人在Twitter文本数据上研究了latent Dirichlet分配主题建模获得的主题，[10]确定了四个主要主题和12个次要主题的情绪，并表明除了两个主题(即死亡和种族歧视)之外，所有主题都是积极的。同样，Hung等[11]采用Valence Aware Dictionary and Emotional Reasoner (VADER)模型对用户推文表达的情绪进行分析，发现积极情绪、中性情绪和消极情绪分别占推文的48.2%、20.7%和31.1%。

尽管这些先前的研究提供了关于人们情绪的信息理解，但值得注意的是，这些现有的方法倾向于在分析中将研究人群作为一个整体来对待，忽略了人群群体之间可能存在的差异。许多国家的病例报告和COVID-19流行病学研究表明，COVID-19的发病率和死亡率与年龄和性别有关[12-14]，呼吁对大流行期间每个人口群体的关切和情绪进行更细致的分析。

第二类方法已广泛用于了解人群的健康状况，揭示健康相关因素，开展疾病流行病学研究。表1(15-20.]列出了一些具有代表性的COVID-19横断面调查。与第一类数据挖掘方法相比，横断面研究可以通过控制良好的问卷提供更丰富、更细粒度的信息，对于分析人口群体的详细差异具有重要意义。

表1。COVID-19代表性横断面研究。

作者及参考文献	研究目标区域	研究时间(全部在2020年)	不。参与者(在线或离线)	突出了
Liu等[15]	中国武汉及周边城市	1月30日至2月8日	300(在线)	COVID-19期间创伤后应激症状存在性别差异:女性比男性更严重。
Lu等[16]	福建,中国	4月第6 - 22	2299(离线)	新冠肺炎期间，医院恐惧、焦虑、抑郁情绪存在工作差异:医务工作者比行政工作者更痛苦。
Nelson等[17]	美国部分地区	3月14 - 16	9009(在线)	对COVID-19的担忧存在年龄差异:40-54岁和55-75岁的人群分别是非常担忧和极度担忧的人群。
Groarke等[18]	英国	3月23日至4月24日	1964(在线)	2019冠状病毒病期间的孤独感存在年龄差异:年轻人受害最深。
Azlan等[19]	马来西亚	3月27日至4月3日	4850(在线)	公众对新冠肺炎的认知存在性别、年龄、地区、职业和收入差异。
艾哈迈德和穆拉德[20.]	伊拉克库尔德斯坦	不是说	516(在线)	COVID-19期间心理健康存在年龄差异:18-35岁的年轻人面临心理焦虑。

然而，在线和离线横断面研究的缺点也得到了普遍承认。特别是，在2019冠状病毒病大流行期间发起线下调查问卷，由于存在通过个人接触传播病毒的风险，可能会造成严重的公共卫生危害。在线调查问卷也有自己的挑战，主要是难以找到足够数量的愿意诚实、高质量地完成在线调查问卷的参与者。如果重复调查的目的是追踪人口群体在思想和需求方面的动态演变，则网上问卷的操作障碍会进一步增加[21]。

认识到现有两类研究方法的局限性，在这项工作中，我们通过大规模Twitter数据挖掘进行了一项新的横断面研究。通过这种方法，我们的目的是在不进行任何在线或离线问卷调查的情况下，细粒度地识别不同人群在COVID-19大流行期间的关注点、情绪和差异。我们的办法的优点在于它以经济和有效的方式从人口群体及其差异中收集多方面的认识信息。了解了人口群体对COVID-19的关注和情绪，就可以制定专门的关注和定制方案来帮助每个人口群体。值得注意的是，通过我们的社交媒体数据挖掘方法实施的方法可以很容易地重新用于研究任何重大公共卫生事件期间不同人口群体的演变，以便更好地进行知情的公共卫生研究和干预。本研究开发的源代码已在GitHub上免费公开发布[22]。

如图所示图1，本研究提出的横截面法包括三个步骤。下面几节将描述每个步骤的实现细节。

数据收集和预处理

本研究中使用的Twitter数据是通过采样流应用程序编程接口v1 [23]和v2 [24]，它可以实时传输大约1%的公开可用推文。同时，收集所有推文的详细作者数据，提取总体特征。与Twitter上的其他研究不同[9-11]，本研究获取的数据是对所有Twitter数据的随机抽样，没有使用任何过滤器，可以更好地反映人们日常生活中的共同观点。截至2020年11月，我们在COVID-19大流行期间共收集了6亿多条推文(即超过2tb)。

在数据预处理步骤中，使用原始英语过滤器和COVID-19过滤器根据所有捕获的推文生成原始和COVID-19推文数据集。由于原创推文更能反映作者的动态思想和情绪，而英文推文占所有推文的一半以上(见图2)，我们只关注英文原创推文，可以通过推文对象的属性进行过滤。为了获得COVID-19推文，我们制作了一个过滤模式，该过滤模式由Twitter COVID-19过滤规则提供的590个COVID-19关键字和标签组成[25]。

图2。推文的语言分布。基于“增大化现实”技术:阿拉伯语;en:英语;es:西班牙语;嗨:印地语;其他:其他语言;pt:葡萄牙语。

数据挖掘

数据挖掘是基于两个推文数据集模拟横断面问卷的关键步骤。该步骤包含四个智能模块:人口统计特征提取器、关注分类器、情感分析器和情感检测器。

人口统计学特征提取器

该模块用于通过个人资料图像、屏幕名称、姓名和传记提取三个人口统计特征——用户类型、性别和年龄。它是由M3(多模态、多语言和多属性)模型的开源包实现的[26]，这是一个在大量数据集上训练的多模态深度神经系统，这些数据集由Twitter、IMDB和Wikipedia数据组成[27]，用于人口统计推断。在M3模型中，用户类型(即个人或组织)和性别(即男性或女性)被建模为二元分类任务，年龄被建模为4类分类任务，年龄分为≤18岁、19-29岁、30-39岁和≥40岁。如图所示图3M3模型的结构由两个独立的管道(图像管道和文本管道)和一个共享管道组成。采用图像管道，使用密集卷积网络(DenseNet)对轮廓图像进行处理[28]，文本管道采用三种基于字符的神经网络处理屏幕名、姓名和传记三个文本源。共享管道将两个独立管道的输出组合在一起，然后主要应用两个完全连接的致密层来预测每个Twitter用户的用户类型、性别和年龄状态。所有这些管道都经过微调，以捕捉准确的人口特征。更详细的信息，读者可参考原文文献[26]。

图3。M3(多模态、多语言和多属性)模型的结构，用于从个人资料信息推断用户类型、性别和年龄。DenseNet:密集卷积网络;ReLU:整流直线单位。

我们在原始英语推文的一个子集上测试了M3模型，这些推文明确或隐含地带有用户类型、性别和年龄的基本事实标签;检测过程详细说明在多媒体附录1．M3模型在该子集上的基准性能如下:对于用户类型、性别和年龄，准确率得分分别为99.07%、95.88%和77.65%，macro-F1得分分别为0.9860、0.9572和0.7311。

问题分类器

这个模块根据我们自己设计的匹配模式，将推文分为人类生活的五类——经济、政治、健康、教育和娱乐。首先，从牛津参考资料和其他来源收集并构建了五本专业词汇词典，其中包括一本经济词汇词典(即《经济学词典》[29]和《经济学人》[30.])和政治词汇(如《简明牛津政治与国际关系词典》[31])。然后，将词汇字典以正则表达式格式导入到匹配模式中，并用正则表达式格式标记所有tweet。

情绪分析仪

该模块基于VADER [32)模型。VADER模型是一种基于情感相关词汇的情感分析工具，它可以自动将词汇中的每个词分类为积极、中性或消极。情绪极性的范围为-1至1，分为三个子范围:负(-1至-0.05)，中性(-0.05至0.05)和正(0.05至1)。

情感探测器

该模块基于Twitter上的情感识别模型[33]，它利用基于特征的训练循环神经网络算法。它采用三种情绪模型来识别不同的人类情绪，包括Ekman的六种基本情绪模型[34];普鲁契克的八种主要情绪模型，也被称为情绪轮[35];以及心境状态谱(POMS)模型[36]，测量六种情绪状态。基于上述模块，模拟横断面问卷的模板如图所示表2．

表2。横断面问卷的模板。

问题类别		响应类别
人口特征
	用户类型	人组织
	性别	男性女
	年龄(年)	≤18 19-29 30－39 ≥40
关注
	经济学	有关不关心的
	健康	有关不关心的
	政治	有关不关心的
	教育	有关不关心的
	娱乐	有关不关心的
情绪极性
	负	-1 ~ -0.05
	中性	-0.05 ~ 0.05
	积极的	0.05比1
情绪
	埃克曼的六种情绪:愤怒、厌恶、恐惧、喜悦、悲伤和惊讶	每种情绪从0到1
	普鲁契克的八种情绪:愤怒、厌恶、恐惧、喜悦、悲伤、惊讶、信任和期待	每种情绪从0到1
	酸盐^一个六种情绪:愤怒、沮丧、疲劳、活力、紧张和困惑	每种情绪从0到1

^一个心境状态简介。

横截面分析

这一步的目的是基于模拟问卷的Twitter数据挖掘结果，分析不同人群对COVID-19的关注和情绪。包括两部分:新冠肺炎关注与情绪极性分析和新冠肺炎情绪分析。这两部分采用比值比(odds ratio, OR)来比较多变量条件下群体间的相对比值。同时，我们采用卡方检验来衡量差异的显著性水平(即P值)。

全面的分析

在新冠肺炎疫情期间，公众表达了各种各样的情绪。为了研究这一时期不同人群之间的差异，我们对2020年8月7日至12日收集的每日Twitter数据进行了横断面分析。研究期间共捕获未经过滤的推文7590844条，其中英文原创推文1015655条;这些被称为原始数据集。从这个原始数据集中，27216条推文与COVID-19有关;这些被称为COVID-19数据集。统计分布和P经卡方检验，两个数据集的值见表3．

我们可以从表3每个变量下的人群都显示出显著差异(P<.001)。如图所示表389.94%为个人，10.06%为组织。相比之下，与covid -19相关的参与者分别是73.00%和27.00%的个人和组织。男性使用社交媒体的总比例略高于女性(52.74%对47.26%)，而在新冠肺炎疫情下，这一差距进一步扩大至60.38%对39.62%。≤18岁、19-29岁、30-39岁、≥40岁4个年龄组的总占比分别为37.93%、38.42%、11.41%、12.24%;由此可以推断，30岁以下的人在社交媒体上更加活跃。在新冠肺炎疫情下，30岁以上年龄组的比例上升，30岁以下年龄组的比例下降;因此，四个年龄组的比例分别为17.83%、29.18%、18.32%和34.67%。经济、卫生、政治、教育、娱乐5个话题的总占比分别为13.99%、13.90%、7.27%、6.38%、7.79%;新冠肺炎疫情下，这一比例分别为34.30%、22.60%、19.97%、15.74%和6.38%。正面情绪、中性情绪和负面情绪的总比例分别为42.46%、31.38%和26.16%; the mean sentiment polarity was 0.1067 (SD 0.4647). Under COVID-19, the proportions of positive, neutral, and negative sentiments were 43.15%, 24.37%, and 32.48%, respectively; the mean sentiment polarity fell to 0.0659 (SD 0.4941).

表3。模拟问卷答案的统计分布。

变量		推文总数，n (%)^一个	与covid -19相关的推文，n (%)	P价值
整体		1015655 (100)	27216 (100)	N/A^b
用户类型
	人	913480 (89.94)	19869 (73.00)	<措施
	组织	102175 (10.06)	7347 (27.00)	N/A
性别
	男性	481770 (52.74)	11997 (60.38)	<措施
	女	431710 (47.26)	7872 (39.62)	N/A
年龄(年)
	≤18	346483 (37.93)	3542 (17.83)	<措施
	19-29	350959 (38.42)	5798 (29.18)	N/A
	30－39	104228 (11.41)	3640 (18.32)	N/A
	≥40	111810 (12.24)	6889 (34.67)	N/A
关注
	经济学	142090 (13.99)	9334 (34.30)	<措施
	健康	141176 (13.90)	6152 (22.60)	N/A
	政治	73838 (7.27)	5434 (19.97)	N/A
	教育	64799 (6.38)	4284 (15.74)	N/A
	娱乐	79119 (7.79)	1736 (6.38)	N/A
情绪极性
	总体(-1到1)，平均值(SD)	0.1067 (0.4647)	0.0659 (0.4941)	<措施
	正(-1 ~ 0.05)	431247 (42.46)	11744 (43.15)	<措施
	中性(-0.05 ~ 0.05)	318713 (31.38)	6632 (24.37)	N/A
	负(0.05比1)	265695 (26.16)	8840 (32.48)	N/A

^一个除整体情绪极性以均值(SD)表示外，所有值均以n(%)表示。

^bP计算了主要变量的值，而不是个别反应的值。

以上分析不能提供多变量条件下群体间的细粒度差异。为了更清楚地了解这些差异，我们采用了基于模拟问卷结果的横断面分析，该分析包括两部分:一是COVID-19关注和情绪极性分析，包括单变量、双变量和三变量分析;另一部分是COVID-19情绪分析，包括三种情绪模型。分析过程和结果将在以下章节中介绍。

COVID-19担忧与情绪极性分析

单变量分析

本研究的人口特征包括用户类型、性别、年龄和关注点四个变量，我们首先对COVID-19关注点和情绪极性进行了单变量统计分析。结果显示在图4．

可以看出，组织对COVID-19的关注比(7.19%)显著高于个人(2.18%)，组织与个人的关注OR为3.48 (95% CI 3.39 ~ 3.58)。组织的情绪极性(0.1135)比个人的情绪极性(0.0483)更积极。女性的COVID-19注意比(1.82%)略低于男性(2.49%)，注意OR为0.73 (95% CI 0.71 ~ 0.75)。同时，女性比男性更积极，女性和男性的情绪极性分别为0.0630和0.0386。此外，随着年龄的增长，对COVID-19的关注显著增加。4个年龄组中，19 ~ 29岁、30 ~ 39岁和40岁及以上年龄组与18岁及以下年龄组相比，关注度or分别为1.63 (95% CI 1.56 ~ 1.70)、3.50 (95% CI 3.34 ~ 3.67)和6.36 (95% CI 6.10 ~ 6.62)，说明老年人对COVID-19的关注度更高。40岁及以上年龄组的积极情绪低于其他年龄组，情绪极性为0.0366。在关注变量中，政治(7.36%)、教育(6.61%)、经济(6.57%)的关注率较高，其次是健康(4.36%)、娱乐(2.19%)。政治(0.0291)、经济(0.1001)、健康(0.1110)、教育(0.1184)、娱乐(0.1503)等话题的情绪极性最低。

总的来说，这些数据表明，与个人相比，组织;男性，与女性相比;与年轻人相比，老年人更担心大流行。此外，这些数据表明，在新冠疫情下，人们更关心政治、教育和经济。

双变量分析

此外，我们通过交叉任意两个人口特征变量，对COVID-19注意力和情绪极性进行了双变量分析，如下所示图5．

可以看出，很多结果与上一节的单变量分析是一致的。例如，在年龄和性别变量的组合下，男性和女性的注意力比率都随着年龄的增长而增长。此外，在所有年龄组中，女性比男性更积极。在用户类型和关注变量组合下，个人关注的顺序为政治、教育、经济、健康、娱乐，与单变量结果相似。

然而，仍然有一些值得注意的区别。首先，不同年龄的女性对COVID-19的关注度并非都低于男性，但随着个体年龄的增长，女性的关注度高于男性，40岁及以上女性的关注度比最高，为7.45%，OR为6.94 (95% CI 6.49 ~ 7.42)。40岁及以上男性(0.0249)和18岁及以下男性(0.0268)阳性率最低。第三，与单变量关注分析不同，30 ~ 39岁和40岁以上人群的关注顺序依次为经济、政治、教育、健康和娱乐。

从双变量结果可以看出，并非所有的人口群体都遵循相同的规则，但在多变量条件下，其中一些群体表现出值得注意的差异。在接下来的三变量分析中，我们进行了更深入的探索。

小的分析

在这部分研究中，我们将性别、年龄和关注人群特征这三个变量交叉研究COVID-19应答，共产生了40种组合，如图所示图6．由于性别和年龄属性在组织组中不存在，因此此三变量分析仅集中在个体上。

就像在双变量分析中一样，在三变量分析中也有一些一致的结果。例如，在每个关注的主题中，男性和女性对COVID-19的关注比率都随着年龄的增长而增加。同时，在这些三变量结果中也清楚地显示了许多详细的种群差异。首先，我们可以看到所有小组对五个关注主题的关注程度不同。特别是，40岁及以上的女性对经济话题的关注最多(or 5.67, 95% CI 5.02-6.41)，其次是教育话题(or 5.27, 95% CI 4.54-6.12)。相比之下，同一年龄组(即≥40岁)的男性对政治话题的关注度最高(OR 4.83, 95% CI 4.33-5.39)，其次是经济(OR 4.53, 95% CI 4.08-5.03)和教育(OR 4.16, 95% CI 3.71-4.68)话题。其次，各人群对政治话题的情绪极性最低，其中6个为负值。最后，在所有人群关注的五个话题中，娱乐话题的情绪极性始终是最高的。

COVID-19情绪分析

我们应用了三种不同的情绪模型——ekman的六种基本情绪、Plutchik的八种主要情绪和POMS的六种情绪状态——来对原始推文和COVID-19推文进行情绪检测。比较结果见图7和8．图7给出了三种情绪模型的平均强度得分，和图8显示了基于原始和COVID-19推文的模型中每种情绪的总体分布。由于Ekman的六种基本情绪(即愤怒、厌恶、恐惧、喜悦、悲伤和惊讶)都包含在Plutchik的八种情绪中，而这六种常见情绪在我们的实验结果中所占的比例是相同的，所以我们只分析了Plutchik的情绪和POMS的情绪。

总的来说，当Plutchik的情绪模型应用于原始推文时，信任，快乐,惊喜是最高的情感。当该模型应用于COVID-19推文时，恐惧然后显著增加快乐，信任,恐惧成了最高的情感。同时，将POMS情感模型应用于原始推文时，抑郁症是最突出的情绪，当应用于COVID-19推文时，抑郁症变得更加突出。

随后，我们通过对每种情绪的每个群体属性进行卡方检验，研究了在COVID-19下考虑群体特征属性的情绪差异。结果显示在多媒体附录2．图9和10通过将Plutchik和POMS模型应用于每个群体特征来说明情绪分析。我们观察到情绪在人口变量方面的差异，但在应用Plutchik和POMS模型后，在所有主导情绪中，恐惧和抑郁症在不同人群中的得分和比例有显著差异。对这两种情绪进行了进一步详细的统计分析(见图11）.我们可以看到，组织表达得更多恐惧和抑郁症与个体相比，女性表达较少恐惧和抑郁症比男性。随着年龄的增长，恐惧和抑郁症显著增加;此外，人们表达得更多恐惧关于政治和健康话题等等抑郁症关于娱乐、经济和政治话题。

图10。情绪状态谱(POMS)对四种人群特征的情绪分析。每种情绪的得分范围从0到1。

综上所述，关于情绪分析，可以得出结论，原始推文和COVID-19推文的情绪存在差异，在COVID-19大流行期间，不同人群的情绪进一步存在差异。

主要研究结果

在这项研究中，我们分析了2020年8月7日至12日在COVID-19大流行期间收集的大量Twitter数据。在整体分析中，参与者发布的与新冠肺炎相关的推文的平均情绪极性不如原始推文积极。此外，各变量下的人群(即用户类型、性别、年龄、关注点)均存在显著差异(P<.001)。在单变量分析中，与个人相比，组织;男性，与女性相比;与年轻人相比，老年人更关心大流行，并且有更大比例的人恐惧和抑郁症的情绪。此外，政治、教育、经济的关注度相对较高，其次是健康、娱乐，而政治的关注度最低，其次是经济、健康、教育、娱乐。

此外，多变量分析显示出更细粒度和有意义的结果。值得注意的是，在研究结果中，并非所有女性群体对COVID-19的关注程度都低于同一年龄段的男性群体，并且并非所有群体的首要关注点都是相同的。随着年龄增长至30岁以上，女性对新冠肺炎的关注度逐渐高于男性。此外，40岁以上的女性是最关心新冠肺炎的群体，她们最关心经济和教育。相比之下，同一年龄段的男性最关心的是政治和经济。40岁以上和18岁以下的男性情绪最不乐观。在所有关注的五个话题中，政治的情绪两极是所有人群中最低的。这些发现表明，在我们的研究期间，应对COVID-19大流行的关注和情绪存在人口层面的差异。

我们推测，人口水平差异有两个原因。首先，它们与特定年龄组的具体需要有关。例如，30岁以上的人可能更关注2019冠状病毒病对经济的影响，而年轻人可能更关注教育。其次，它们也与这种新型冠状病毒的特征有关。流行病学研究表明，老年人群更容易感染COVID-19，这一年龄组的死亡率高于其他人群[13]。

限制

本研究使用的人口统计学特征提取算法只能提取三个基本属性:用户类型、性别和年龄。因此，与传统的问卷调查方法相比，我们很难进行更详细的多变量分析。此外，对COVID-19的年龄划分不够精细，特别是对于40岁及以上的人群，覆盖的年龄范围很广。为了支持更多更细粒度的属性提取，我们计划对现有算法进行优化或寻求新的合适且高效的算法，以供未来的研究。

结论

通过大规模的Twitter数据挖掘，本研究揭示了不同人群对covid -19相关问题的关注和情绪存在显著差异。因此，建议政府机构和社会组织根据每个人口群体在大流行期间的不同关切和情绪，对他们给予专门的关注和支持。本研究开发的开源代码通过GitHub公开发布[22]，可以很容易地用于探索人口群体在大流行期间的愿望、需求和想法的演变，以便今后采取后续行动。由于其运作的高效和经济性质，它还可以重新用于研究和干预措施，以应对其他突发公共卫生事件。

致谢

本研究得到国家自然科学基金(no . 61876150和12026609)和西安市科技计划(no . 20YXYJ0009-12和XA2020-RKXYJ-0105)的资助。

利益冲突

没有宣布。

‎

多媒体附录1

关于M3(多模态、多语言和多属性)模型的补充信息。

DOCX文件，32kb

‎

多媒体附录2

数据分析的扩展细节。

DOCX文件，31 KB

朱宁，张丹，王伟，李欣，杨斌，宋杰，中国新型冠状病毒调查研究团队。2019年中国肺炎患者的新型冠状病毒。中华医学杂志[J]; 2011; 31 (4): 557 - 557 [J]免费全文] [CrossRef] [Medline]
世卫组织冠状病毒病(COVID-19)仪表板。世界卫生组织。URL:https://covid19.who.int/[2020-08-12]访问
Moreland A, Herlihy C, Tynan MA, Sunshine G, McCord RF, Hilton C, CDC公共卫生法项目，CDC COVID-19应对小组，缓解政策分析小组。州和地区COVID-19居家令的时间和人口流动的变化——美国，2020年3月1日至5月31日。MMWR Morb Mortal weekly Rep 2020 Sep 04;69(35):1198-1203 [免费全文] [CrossRef] [Medline]
梅奥诊所的工作人员。隔离、自我隔离和保持社交距离。梅奥诊所，2020。URL:https://www.mayoclinic.org/diseases-conditions/coronavirus/in-depth/coronavirus-quarantine-and-isolation/art-20484503[2020-08-12]访问
COVID-19对人民生计、健康和粮食系统的影响。世界卫生组织2020年10月13日。URL:https://www.who.int/news/item/13 - 10 - 2020 -影响- covid 's-livelihoods-their-health-and-our-food-systems - 19 -上-人[2020-12-01]访问
政策简报:2019冠状病毒病期间及以后的教育。纽约，纽约:联合国;2020年8月https://www.un.org/development/desa/dspd/wp-content/uploads/sites/22/2020/08/sg_policy_brief_covid-19_and_education_august_2020.pdf[2020-12-01]访问
联合国贸易和发展会议。2019冠状病毒病与电子商务:对企业和政策应对的影响。瑞士日内瓦:联合国;2020年11月17日。URL:https://unctad.org/system/files/official-document/dtlstict2020d12_en.pdf[2021-02-26]访问
联合国贸易和发展会议。大流行对贸易和发展的影响:向新常态过渡。瑞士日内瓦:联合国;2020.URL:https://unctad.org/system/files/official-document/osg2020d1_en.pdf[2021-02-26]访问
Lwin MO, Lu J, Sheldenkar A, Schulz PJ, Shin W, Gupta R，等。推特上围绕COVID-19大流行的全球情绪:推特趋势分析JMIR公共卫生监测2020年5月22日;6(2):e19447 [j]免费全文] [CrossRef] [Medline]
Abd-Alrazaq A, Alhuwail D, Househ M, Hamdi M, Shah Z.推特用户在COVID-19大流行期间最关注的问题:信息监测研究。医学互联网研究，2020年4月21日;22(4):e19016 [J]免费全文] [CrossRef] [Medline]
Hung M, Lauren E, Hon ES, Birmingham WC，徐健，苏生，等。COVID-19情绪的社会网络分析:人工智能的应用。[J]互联网研究与发展，2020年8月18日;22(8):559 - 559 [J]免费全文] [CrossRef] [Medline]
周峰，于涛，杜锐，范刚，刘勇，刘忠，等。武汉成人COVID-19住院患者临床病程及死亡危险因素:一项回顾性队列研究柳叶刀2020年3月28日;395(10229):1054-1062 [免费全文] [CrossRef] [Medline]
张建军，张建军，张建军，等。新型冠状病毒病理性研究进展。中华临床医学杂志[j]; 2011; 22 (3): 391 - 391 [j]免费全文] [CrossRef] [Medline]
黄超，王勇，李旭，任磊，赵军，胡勇，等。武汉市新型冠状病毒感染患者临床特征分析柳叶刀2020 Feb 15;395(10223):497-506 [j]免费全文] [CrossRef] [Medline]
刘宁，张飞，魏超，贾勇，尚志，孙磊，等。中国疫情重灾区ptsd患病率及预测因素:性别差异的影响精神病学杂志2020年5月;28:112921 [j]免费全文] [CrossRef] [Medline]
吕伟，王辉，林艳，李玲。新冠肺炎疫情期间医务人员心理状况的横断面研究。精神病学杂志，2010;28 (3):391 [j]免费全文] [CrossRef] [Medline]
Nelson LM, Simard JF, Oluyomi A, Nava V, Rosas LG, Bondy M，等。美国公众对COVID-19大流行的担忧来自社交媒体上的一项调查结果。中华医学会医学杂志(英文版);2009;31 (7):1020-1022 [j]免费全文] [CrossRef] [Medline]
Groarke JM, Berry E, Graham-Wisener L, McKenna-Plumley PE, McGlinchey E, Armour C. COVID-19大流行期间英国的孤独感:来自COVID-19心理健康研究的横断面结果。PLoS One 2020;15(9):e0239698 [j]免费全文] [CrossRef] [Medline]
Azlan AA, Hamzah先生，Sern TJ, Ayub SH, Mohamad E.对COVID-19的公众知识，态度和实践:马来西亚的横断面研究。PLoS One 2020;15(5):e0233668 [j]免费全文] [CrossRef] [Medline]
Ahmad AR, Murad HR。社交媒体对伊拉克库尔德斯坦2019冠状病毒病大流行期间恐慌的影响:在线问卷研究[J]医学信息学报，2020;22(5):e19556 [J]免费全文] [CrossRef] [Medline]
van de Mortel TF。假装:自我报告研究中的社会期望反应偏差。中华护理杂志2008;25(4):40-48 [J]免费全文]
了解2019冠状病毒病大流行期间人口群体的关切、情绪和差异。GitHub。2020.URL:https://github.com/cyzhang87/EmulatedQuestionnaireOnTwitter[2021-02-26]访问
采样流v1。Twitter开发者，2020。URL:https://developer.twitter.com/en/docs/labs/sampled-stream/overview[2020-02-01]访问
抽样流。Twitter开发者，2020。URL:https://developer.twitter.com/en/docs/twitter-api/tweets/sampled-stream/introduction[2020-10-01]访问
COVID-19流。Twitter开发者，2020。URL:https://developer.twitter.com/en/docs/labs/covid19-stream/filtering-rules[2020-07-01]访问
王忠，贺国强，贺国强，贺国强，贺国强，等。多语言社交媒体数据的人口统计推断和代表性人口估计。见:《万维网会议论文集》(WWW '19)。纽约:计算机协会;2019年5月出席:万维网大会(WWW '19);2019年5月13日至17日;旧金山，加利福尼亚州第2056-2067页。(CrossRef]
Rothe R, Timofte R, Van Gool L.从没有面部标志的单幅图像中对真实年龄和表观年龄的深度期望。[J] .计算机科学与技术，2016,33(2):1 -4。(CrossRef]
黄刚，刘志，Van Der Maaten L, Weinberger KQ。密集连接的卷积网络。见:IEEE计算机视觉与模式识别会议论文集。纽约:IEEE;2017年发表于:IEEE计算机视觉与模式识别会议(CVPR);2017年7月21日至26日;檀香山，HI . 2261-2269页。(CrossRef]
《经济学大辞典》第5版。英国牛津:牛津大学出版社;2017.
《经济学人》，2020。URL:https://www.economist.com/economics-a-to-z[2020-06-01]访问
《牛津政治与国际关系简明词典》第4版。英国牛津:牛津大学出版社;2018.
Hutto CJ, Gilbert E. VADER:社交媒体文本情感分析的精简规则模型。见:第八届网络日志和社交媒体国际会议论文集(ICWSM-14)。2014年出席:第八届网络日志和社交媒体国际会议(ICWSM-14);2014年6月1-4日;Ann Arbor, MI . p. 1-10http://comp.social.gatech.edu/papers/icwsm14.vader.hutto.pdf
Colneric N, Demsar J. Twitter情绪识别:比较研究与统一模型训练。计算机工程学报，2016,31(3):433-446。(CrossRef]
对基本情感的论证。中国生物医学工程学报，1992;6(3):169-200。(CrossRef]
情绪的一般心理进化理论。编辑:Plutchik R, Kellerman H。情绪:理论，研究和经验，卷1:情绪理论。纽约:学术出版社;1980:3-33。
麦克奈尔·M，麦克奈尔·M，伞兵·l。情绪状态概要手册。圣地亚哥，加州:教育和工业测试服务;1971.

‎

DenseNet:密集卷积网络

M3:多模态、多语言和多属性

或者:优势比

酸盐:情绪状态概况

维德:效价感知词典与情感推理器

编辑:R库卡夫卡，C巴什;提交14.12.20;L Sheets, K Acquaviva的同行评审;对作者15.01.21的评论;收到05.02.21修订版本;接受18.02.21;发表05.03.21

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

通过Twitter数据挖掘了解COVID-19大流行期间人口群体之间的担忧、情绪和差异:大规模横断面研究