这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
COVID-19大流行影响了世界各地的人口,对卫生、经济、社会和政治产生了严重影响。卫生保健专业人员是大流行应对的核心,也是保持应对能力的最关键因素之一。然而,他们也容易受到在缺乏资源和复杂个人问题下处理长期紧急情况所造成的心理健康影响。然而,目前缺乏调查HCP人群的纵向研究。
本研究的目的是根据COVID-19大流行,分析从大流行开始到2020年底,在Twitter上发表的在线讨论中表达的HCPs的心理状态。
本研究的人群是从数百个卫生保健组织的Twitter账户的追随者和共同的HCP兴趣点中选择的。我们使用主动学习(一种迭代使用机器学习和手动数据标记的过程)来选择由讲英语的HCPs维护的大规模Twitter账户,重点关注个人而不是官方组织。我们分析了他们在2020年话语中的主题和情感。主题分布采用潜狄利克雷分配算法。我们定义了主题内聚性的衡量标准,并描述了最具内聚性的主题。将2020年推特上表达的情绪与2019年进行了比较。最后,情绪强度与大流行波动交叉相关,以探索大流行发展与情绪反应之间的可能联系。
我们分析了53063个Twitter档案的时间线,其中90%是由个人HCPs维护的。从2019年1月1日到2020年12月6日,专业话题占hcp推文的44.5%。新冠肺炎疫情、美国大选、乔治·弗洛伊德事件等事件影响了HCPs的话语。快乐和悲伤的水平在80%的时间里分别超过了2019年的最小值和最大值(
对2020年纵向数据的分析显示,很大一部分HCP话语与专业内容直接相关,包括大流行浪潮之后讨论量的增加。2020年期间情绪模式的变化(即快乐减少,悲伤、恐惧和厌恶增加)可能表明,为卫生保健人员提供情绪支持以防止大流行后时期的疲劳、倦怠和精神健康障碍至关重要。在大流行浪潮爆发前2周恐惧情绪的增加表明,卫生保健cps有能力并有足够的资格预测大流行的发展,并可以作为向卫生机构表达发病率和临床情况的自下而上的途径。
COVID-19大流行对世界各国和社会产生了影响。大流行成为一场重大的卫生危机,对卫生、经济、社会和政治产生了极端影响。COVID-19造成了一种独特的局面,它要求来自不同国家、文化和生活环境的人们应对相同的紧急情况[
在线社交网络可以提供人们在COVID-19期间的心理状态和经历的见解,从情感影响[
研究发现,在疫情期间,负面情绪在人们发布的推文中占主导地位[
卫生保健人员是公共卫生的重要资源。世界卫生组织承认卫生人力是改善卫生成果的六个基础之一[
然而,他们也容易受到个人担忧、恐惧和焦虑的影响。
大多数现有的关于COVID-19期间HCP经验的研究都是(1)横断面的:研究变量之间没有因果关系,(2)假设驱动的:不太可能产生不基于现有理论的新发现,以及(3)小规模:研究人群从几百到几千人不等。缺乏基于对COVID-19期间HCP经验的大规模分析的数据驱动的纵向研究。
本研究旨在分析从COVID-19大流行开始到2020年底,在推特上发表的在线讨论中表达的HCPs的心理状态。分析的数据包括来自53063个HCP账户的1660万条英语推文,这些账户是通过定制的机器学习分类器识别出来的。我们提出了关于大流行期间研究人群和情绪动态的主要主题。
本研究的第一个重大挑战是收集异质性HCP人群发布的推文,同时排除了卫生保健机构和组织的正式交流。我们通过描述的多步骤过程来应对这一挑战
基于COVID-19的卫生保健专业人员话语分析步骤1至5确定研究人群。步骤6和7分析HCP语篇。在第一步中,我们确定搜索词。在步骤2中,我们构造简短的关键字查询。在第3步中,我们确定并手动提取感兴趣的HCP点。在步骤4中,我们收集了一个与医疗保健相关的Twitter帐户池。在第5步中,我们进行主动学习以过滤组织帐户和非hcp帐户。在第6步中,我们收集推文并分析主要主题。在第7步中,我们分析情感和情绪。
首先,两位卫生保健专家定义了美国医学专业委员会(
我们使用Twitter搜索引擎收集与短关键字查询(
使用Twitter应用程序编程接口,我们收集了其余522个HCP poi的434,825名关注者,优先考虑那些关注多个poi的人。以这种方式收集的Twitter帐户包括私人帐户和组织管理的帐户,例如美国医疗中心的官方帐户。也有许多非hcp账户,例如,患者、记者或学术学者。
HCP的定义差异很大。HCP的广义定义将任何有助于人们福祉的专业人员视为HCP。在本研究中,我们将HCP定义为在卫生保健系统工作的个人或任何医学专业的学生。学生也被包括在内,因为他们通常会接受与患者互动的实践培训。实际上,被认为是健康cps的医疗专业人员主要是医生、护士、医疗管理和行政人员、药剂师、医学生、心理学家和其他人。我们排除了在补充或替代医学领域工作的治疗师(如自然疗法和萨满)和艺术治疗(如戏剧和音乐治疗师)。
为了过滤出有组织的和非hcp的Twitter账户,我们通过一种被称为主动学习的迭代过程训练了两个各自的机器学习分类器[
监督式机器学习需要一个标记的训练集来建立准确的统计模型。主动学习通过关注对改进分类模型贡献最大的帐户来减少手工注释的工作量。因此,我们采用不确定性抽样主动学习策略[
在每次主动学习迭代中,由两名人工注释人员检查90个帐户的描述和时间线。如果出现冲突,则由第三个注释者在公开讨论后确定标签。为了避免不确定性,与推特账户相关的领英个人资料也被检查了。如果由三个注释人员组成的小组无法就某个帐户的标签达成一致,则将其从训练集中排除,并替换为小组同意的随机未标记帐户。每次迭代结束时,训练两个SVM分类器,用于下一次迭代的抽样帐户。最初,分类器的准确性在每次迭代中提高了1%到3%。在第15次迭代和第20次迭代之间,精度的边际增加低至0.5%。因此,我们决定在20次迭代后停止手动标记过程(图S1)
总的来说,最终的训练数据集包含1392个配置文件,我们对其进行了10倍交叉验证以进行评估。这个训练过程的结果显示在结果部分。使用训练过的分类器,我们选择了置信度为70%或更高的个体HCPs的帐户,并通过手动检查100个随机帐户来验证选择的质量。
我们收集了2019年1月1日至2020年12月6日个人HCP账户发布的所有公开推文;看到
我们使用了Python(3.6.8版本;Python软件基金会)和几个库用于我们的分析。我们应用了标准的文本预处理技术,比如删除换行符、表情符号、非字母单词、停顿单词、少于三个字符的短单词、用户提到(@)和超链接;我们使用自然语言工具包(NLTK)(3.5版;NLTK小组)[
2020年的大部分社会话语都围绕着COVID-19。这一主题掩盖了与大流行病有关或无关的其他讨论主题。因此,为了准确剖析2020年期间讨论的主题,我们删除了表示疾病或病毒的术语。COVID-19术语的完整列表可以在表S3中找到
研究数据集。
统计 | 价值 |
账户,n | 53063年 |
微博, | 16616970年 |
Tweets, mean (SD) | 313 (1386.6) |
朋友,刻薄(SD) | 511 (1767.1) |
追随者,均值(SD) | 475 (4466.8) |
2019年发布的推文总数,n | 7168088年 |
2020年(截至2020年12月6日)发布的推文总数,n | 9448882年 |
主题模型使用潜狄利克雷分配(LDA)算法[
提供了主题分布、主题的数量以及它们在不同分布上的持久性,我们选择分析包含20个主题的主题分布。为了理解自动生成的主题,进行了人工主观检查。人工检查包括对主题的主观衔接水平和主题命名的评估。每个主题都会根据我们命名主题的能力获得一个主观衔接分数。命名依赖于主题中排名前50的单词,以及属于该主题的概率最高的几百条推文的内容。内聚力分为高、中、低三种级别。最受欢迎的50个单词中的大多数都可以很容易地与一个明确定义的主题相关联,并且大多数被检查的推文都与这个主题相匹配。当50个热门词汇中有一些可以很容易地与某个特定主题相关联,而词汇和推文的比例相对较高时,就会给某个主题一个中等的凝聚力得分。在主题的50个热门词汇和热门推文中,如果无法识别出单个名称来描述相当数量的词汇和热门推文,则该主题的主观凝聚力得分较低,并且没有名称。
我们根据主题的数量、连贯和衔接分数选择了主题进行进一步分析。在2020年全年跟踪所选主题的每周数量。我们确定了主题量的主要变化,并将其与可能对应于主题量变化的最重要事件相关联。主题分析结果将在结果部分的主题检测小节中讨论。
为了估计HCPs表达的情感,我们使用了价感词典和情感推理器(VADER),这是一种基于词汇和规则的情感分析工具[
情感是一种粗粒度的度量,不允许理解文本中表达的不同情感音调。因此,我们使用了Colnerič和demmar开发的预训练循环神经网络模型[
接下来,我们分析了每种情绪的时间进程,并在研究期间(47周)量化了它们与以下数据的相关性:
在主动学习过程中,我们手动标记了1800个Twitter账户。在这些账户中,1192个(66.2%)被标记为个人账户,299个(16.6%)被标记为组织账户。最好的分类器区分个人和组织的准确性评分为0.88,F1评分为0.88,精度评分为0.884,回忆评分为0.88。最好的分类器在标记为个体的帐户上进行训练,将HCP帐户和非HCP帐户分开,获得了0.786的准确性分数,0.785的F1分数,0.795的精度分数和0.787的召回分数。性能分数报告平衡测试集与大多数类的子抽样。
在434,825名HCP POI关注者中,有53,063个资料被归类为个体HCP,置信度为70%或更高。对100个账户的随机手动验证证实,其中90个账户属于卫生保健人员。
LDA算法的主题检测在30个主题分布中平均相干度最高,为0.433。25个和20个话题的平均一致性得分分别为0.427和0.402。各主题的相干值均呈正态分布。我们根据与主题相关的推文集的Jaccard系数将不同分布的主题链接起来。从…中可以看出
主题8(“医学研究和COVID-19信息”)也包含了很大一部分推文(7.6%),并且在20个主题的分布中一致性得分最高(
主题量在整个时间段内以数千或数百万条推文的形式提供。总体积的百分比在括号中。主题根据主图表和图例中的平均情绪进行排序和颜色编码。情感的95% ci在主题名称旁边的括号中提供。
进一步人工检查20个主题的分布发现,最具凝聚力的主题也是最持久的,除了主题10(“账户推广”),它获得了很高的凝聚力分数,但只出现在这个分布中。这个话题占推文总数的1.8%。总体而言,主题0、1、3、6、8、9、10和16的衔接得分较高,并被列在
主题分布的对齐。主题用词云表示,从15个、20个、25个和30个主题的四种不同分布中获得。每一对对齐的主题都使用加权链接进行连接。每个链接的权重和宽度表示与两个对齐的主题相关的单词集的Jaccard系数;在每组值的最上面几行中报告系数。杰卡德系数低于0.3的链接不显示。没有链接的主题也不会显示(主题10除外)。
2020年主题(T)量随时间的变化,按情绪及其连贯性排序。情感的95% ci在图例中的主题名称旁边的括号中提供。
COVID-19大流行期间卫生保健专业人员讨论的最重要的主题。
标题 | 例如微博 | 解释 | 前25个单词一个 |
公共卫生和社会价值(议题0) | “初级保健服务的医疗保险被撤资。这是一个巨大的机会来改革医疗保健,投资于最具证据的地方。初级保健和预防活动。(公共卫生也是,因为对公共住房教育和早期生活的投资是这方面的重要组成部分)” | 关于这一主题的推文讨论了公共卫生政策及其应用问题,以及主要与健康方面有关的社会价值观。 | 人,需要,会,知道,思考,关心,制造,健康,许多,一个,得到,时间,采取,想要,工作,甚至,方式,同意,事情,也,帮助,说,对,公众,医生 |
日常生活(话题1) | “10年前,我坐在沙发上等着看Jools Holland的《Hootenanny》。今晚,我坐在沙发上等着看Jools Holland的《Hootenanny》。十年后,我希望坐在沙发上等着看Jools Holland的《Hootenanny》。#乡间音乐” | 这个主题包含的推文主要描述了典型的日常情况。 | 得到,时间,很好,一年,得到,去,知道,一周,最后,事情,回来,真的,仍然,完成,工作,将,家,看到,思考,是的,看,第一个感觉 |
食物(话题2) | “这道菜既美味又简单。我已经吃了35年了.....4盎司(125克)焯过的杏仁,4盎司樱桃,2盎司混合蜜饯皮,2盎司葡萄干,2盎司葡萄干,2盎司红醋栗,1茶匙混合香料,1茶匙肉桂,1茶匙肉豆蔻 | 这个主题包括关于餐厅的推文、对菜肴的印象、食谱和其他与食物有关的事情。 | 爱,男人,一个,新闻,说,王牌,故事,家伙,知道,新,会,屎,游戏,看,表演,想,吃,曾经,通过,歌,想,做,食物,说,房子 |
政治(话题3) | “我希望我的总统尊重美国人。共和党的美国人,民主党的美国人,我们美国军队的成员,我们的民主,妇女,法律和秩序,宪法,我们的国家……” | 关于这个话题的推文通常与政治和政府有关,尤其是美国的当代事务。 | 特朗普,投票,总统,对,州,通过,视频,真,赢,拜登,政党,签名,国家,警察,选举,美国,美国,先生,法律,看,印度,搞笑,停,乔,共和党 |
专业成就(专题6) | “为我们的奖学金毕业生的所有惊人成就感到自豪,[医院]的副医疗主任,将在EMSWorld (EMS - EMT -护理人员紧急医疗服务)博览会上亮相。” | 此主题包含赞扬团队和个人专业成就的推文。 | 很棒,谢谢,团队,请,工作,惊人,朋友,期待,祝贺,前进,自豪,学生,支持,分享,今天,同事,分享,棒极了,加入,新的,欢迎,很棒,看,帮助,辉煌 |
医学研究和COVID-19信息(主题8) | “关于Remdesivir和肾dysfxn的好文章。有趣的是,肾功能异常患者在治疗结束时AKI发生率增加117%(超过2倍),但没有统计学意义(5% vs 2.3%)。数据太……有趣的…有时类似的数字(样本量?)会导致FDA批准。” | 关于这一主题的推文主要是关于与COVID-19相关的医学研究和流行病学信息的科学传播。 | 患者、病例、测试、研究、数据、风险、疾病、使用、死亡、测试、治疗、疫苗、新、率、手术、癌症、结果、护理、也、兴趣、数字、途径、症状、试验、感染 |
损失与安慰(主题9) | “很难过听到安拉让他安息,给你和家人萨巴!Ameen” | 关于这一主题的推文传达了悲伤,旨在安慰失去亲人的个人和家庭。 | 五月,家人,孩子,对不起,听到,思想,孩子,悲伤,休息,父母,学校,年轻,失去,爱过,送,思考,平安,记忆,成人,确实,爸爸,祈祷,焦虑,妈妈,灵魂 |
帐号提升(主题10) | “活跃?放下你的用户名和转发,让我们一起成长。遵循回来. .立即回复,没有撒谎。试着我” | 此主题基本上包含旨在推广帐户的推文,以及关于帐户在Twitter上活动的信息的推文。 | 谢谢,很多,让,回来,关注,推特,看到,善良,在一起,推特,撒谎,尝试,亲爱的,删除,转发,欣赏,积极,提及,到达,立即,成长,关注,粉丝,周,回复 |
图片挑战(话题16) | “第5/7天,我被(用户提到)挑战,连续7天每天制作一张图片来说明我现在的生活(没有标题,没有人物)。每天提名一个人,让他把这些话抄下来,加上照片,重复这个挑战。今天我提名[URL] " | 这个话题的推文主要是对一项在线社交媒体挑战的回应,该挑战促使推特用户发布代表他们生活的照片。 | 日子,快乐,生活,每一个,字,今天,最好,希望,可爱,美丽,生日,愿望,照片,人,图片,挑战,年,新的,保存,人,一个,享受,张贴,单身,精彩 |
一个单词按流行程度排序。
我们确定了20个主题中的9个(45%),构成了总话语的95%。
在9个主题中,有8个(89%)主题的主观衔接得分较高,而1个主题(11%;主题2:“食物”)的连贯得分较低,衔接得分中等。这个主题的凝聚力被设置为中等,因为前50个单词松散地与一个共同的主题相关联。尽管如此,在研究这个话题的推文时,我们发现绝大多数都与食物有关。请注意,由于推文中使用的食物类型高度多样化(如沙拉、鸡肉和烧烤),在该话题的前50个单词中无法识别食物类型。在整个2020年,食品主题的数量一直很高(13.5%)。
推文在HCPs中的分布(图S2)
我们计算了每个话题中六种情绪的平均水平:愤怒、厌恶、恐惧、喜悦、悲伤和惊讶。快乐程度最高的话题(约50%)是“专业成就”(53.1%)、“帐号晋升”(48.8%)和“图片挑战”(47.0%)。正如预期的那样,“损失和安慰”话题表现出最高的平均悲伤(32%),而其他话题的平均悲伤率为8.6%。同样,“政治”这个话题的快乐比例最低,也是情绪得分最低的话题(
每个话题的情绪分布。
我们分析了2020年期间HCP推特话语中的每周平均情感值。
情绪随时间变化。在时间序列的左侧,箱形图显示了每种情绪在2019年的统计数据。方框代表iqr,胡须代表上四分位数和下四分位数。灰色虚线表示2020年的重要事件。时间序列详细描述了2020年期间每周的平均情绪。y轴表示六种情绪的强度,对于时间序列和箱形图都是一样的。
随着时间的推移,对情绪的追踪显示,愤怒、恐惧和厌恶表现出与全球三次COVID-19大流行相对应的波动(
2020年期间每周标准化恐惧水平(深蓝色)vs SARS-CoV-2的繁殖率(
我们可以看到
卫生保健人员是大流行应对的核心,在以前的事件中,人们发现紧急情况,特别是大流行,对一线工作人员的影响很大[
本研究探讨了三个主要结果:
通过严格的多步选择研究人群的过程,包括主动的机器学习和人工管理,从53063名HCPs中获得了高质量的英语推文数据集。
对卫生cps在2020年期间讨论的主题进行分析后发现,在大流行期间,推特是表达日常和专业内容的平台。分析显示,讨论可以归因于发生的事件。因此,推文数量随着COVID-19疫情的发展而适当增加,分析的数据阐明了具有影响力的事件,如大流行浪潮和乔治·弗洛伊德案。
对推特上表达的情绪的分析探讨了COVID-19大流行对hcp的重大情绪影响,与2019年的情绪水平相比,这种影响更加尖锐。结果显示,对这一大流行病采取了重大的长期和紧急对策。
最近,许多研究利用社交媒体上发布的公共信息研究了COVID-19大流行的不同方面。一些研究试图根据新浪微博上发布的帖子来预测与COVID-19大流行相关的报告病例数量[
与本研究类似,也有一些文章关注HCP人群[
研究发现,虚拟社区为其成员提供了一种社区感,尤其是在紧急情况下。
目前的研究呼吁hcp加入社交媒体空间,参与相关对话,并更多地参与提供专业信息[
通过分析2020年HCPs在推特上讨论的话题,我们发现了两个有趣的发现:
在2019冠状病毒病大流行期间,约44.5%的医护人员谈论的话题与他们的专业背景直接相关(“公共卫生和社会价值观”[26%]、“专业成就”[10%]、“医学研究和COVID-19信息”[7.5%]、“损失和安慰”[1%])。
在大流行浪潮之后增加的讨论量大部分与专业方面有关。虽然我们没有衡量在COVID-19大流行期间HCPs在社交媒体中的参与度,但我们的研究结果可能表明HCPs在社交媒体领域中的作用。
在研究期间,HCPs在Twitter上的讨论表明,HCPs在他们的日常现实和他们在虚拟空间中的专业方面之间进行调整。主题的情绪分析(
各种研究调查了关于COVID-19大流行兴起的社交媒体[
在COVID-19大流行期间发表的许多研究评估了大流行对一线医护人员的情绪影响。这些研究大多是横断面的,使用问卷调查,并通过社交媒体平台传播。一般来说,焦虑、压力和创伤后应激障碍在不同国家工作的hcp中被发现,如新加坡和印度[
这项研究有所不同,因为它没有从已知的理论框架开始,而是被设计为对COVID-19大流行期间hcp情绪状态的数据驱动探索。
我们认识到两种途径:(1)对COVID-19进展的急性情绪反应;(2)长期影响(即情绪结构随着时间的推移而发展,超出了与大流行浪潮的直接联系)。急性反应(即愤怒、恐惧和厌恶)与大流行浪潮有关,每种情绪都呈现出单一的趋势。有趣的是,情绪之间的差异:随着时间的推移,恐惧呈现出减少的趋势,尽管大流行的整体影响在增加。这种趋势以及恐惧与繁殖数量(
虽然这项研究没有衡量COVID-19对hcp心理健康的影响,但其他研究探索了恐惧与心理健康影响之间的相关性,如焦虑、压力和抑郁症状[
我们的发现应该被考虑,但也有一些局限性。这些分析没有考虑到不使用Twitter平台的HCPs的声音。此外,我们没有将HCPs的讨论与一般人群的讨论进行比较,以探索异同。这项研究描述了HCPs在Twitter讨论中表达的情绪状态,未经问卷调查或访谈证实。本文中提出的相关性并不意味着因果关系。然而,另一项实证研究证实了恐惧与流行病测量之间的相关性[
最近的研究显示,地域差异[
卫生保健cps是大流行应对的核心,在以前的事件中,大流行的影响被发现具有严重的心理健康和风险行为影响。通过严格的多步选择研究人群的过程,包括主动的机器学习和人工管理,从53063名HCPs中获得了高质量的英语推文数据集。
对2020年纵向数据的分析显示,大约44.5%的hcp在Twitter上的讨论与专业内容直接相关。在大流行浪潮之后,讨论的增加主要集中在专业内容上。对推特讨论中表达的情绪趋势的研究表明,在COVID-19大流行期间,hcp的情绪领域受到了影响。因此,这可能表明,在大流行后时期,为卫生保健人员提供情感支持以防止疲劳、倦怠和精神健康障碍至关重要。
此外,研究结果清楚地表明,HCP话语中的恐惧等情绪携带着反映当前情况和近预期未来的信号。因此,决策者应该投入资源,听取最广泛意义上的HCP社区的意见,而不仅仅局限于流行病学专业人员。简短的调查,1- 2分钟的工作场所访谈,在线社交媒体分析都是很好的启发来源。此外,在大流行爆发前2周,恐惧情绪的增加(
用于分析的脚本,以及用于为论文创建图形的脚本,可在
补充数字和表格。
用于分析和为论文创建图形的脚本。
医疗保健专业人员
潜在狄利克雷分配
医学博士
自然语言工具包
兴趣点
注册护士
支持向量机
价感字典和情感推理器
这项研究由内盖夫本-古里安大学、冠状病毒工作组的内部拨款和以色列科技部冠状病毒研究拨款资助。发起人没有参与这项研究的设计和解释。
RP和OC概念化、设计并领导了这项研究。AE、IP和ICC识别和验证了研究人群的数据集,并分析和解释了数据。所有作者都起草、审阅并批准了这份手稿的最终版本。
没有宣布。