发表在2卷, No . 2(2022): Jul-Dec

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/41198,首次出版
在COVID-19大流行期间揭开Twitter关于口罩的话语:基于用户集群的BERT主题建模方法

在COVID-19大流行期间揭开Twitter关于口罩的话语:基于用户集群的BERT主题建模方法

在COVID-19大流行期间揭开Twitter关于口罩的话语:基于用户集群的BERT主题建模方法

原始论文

1马萨诸塞州阿默斯特大学传播系,美国马萨诸塞州阿默斯特

2加拿大舍布鲁克大学计算机科学系

3.加拿大魁北克省魁北克市拉瓦尔大学传染病与免疫研究中心

4生物风险与圣劳动方向,国立圣公共研究所,魁北克,QC,加拿大

5加拿大达尔豪斯大学儿科学系,哈利法克斯

6不列颠哥伦比亚大学人口与公共卫生学院,加拿大不列颠哥伦比亚省温哥华

7加拿大安大略省滑铁卢市滑铁卢大学公共卫生科学学院

通讯作者:

徐伟伟博士

传播系

马萨诸塞大学阿默斯特分校

普莱森特街650号

阿默斯特,马萨诸塞州,01003

美国

电话:1 (413)545 1311

电子邮件:weiaixu@umass.edu


背景:新冠肺炎大流行凸显了公共卫生问题的政治化。必须配备公共卫生监测工具,以揭示公共卫生措施的政治背景,并指导更好的干预措施。以目前的形式,信息监测往往忽视基于身份和兴趣的用户,因此在揭示公共卫生话语如何因不同的政治群体而变化方面受到限制。采用一种算法工具对用户及其简短的社交媒体文本进行分类,可能会弥补这一限制。

摘要目的:我们的目标是实现一个新的计算框架来研究不同用户群特有的主题的话语和时间变化。开发该框架的目的是将基于网络的公共卫生话语如何因身份和基于兴趣的用户群而变化。我们以英语国家新冠肺炎大流行初期的口罩和口罩佩戴情况为例,说明该框架的应用。

方法:我们首先根据Twitter个人简介页面上的身份和兴趣对Twitter用户进行分类。探索性文本网络分析揭示了不同用户群的显著政治、社会和职业身份。然后,它使用BERT Topic建模来根据用户集群识别主题。它揭示了基于网络的话语如何随着时间的推移而变化,并根据4个用户群而变化:保守派、进步派、普通公众和公共卫生专业人员。

结果:这项研究证明了先验用户分类和纵向主题趋势在理解基于网络的公共卫生话语的政治背景方面的重要性。该框架表明,政治团体和普通大众关注的是戴口罩的科学和口罩政策的党派政治。在一些推文中,人们发现了一种让公民对抗精英和机构的民粹主义言论。研究发现,政治人物(如唐纳德•特朗普)和与中国的地缘政治紧张关系推动了这种言论。它还显示,与其他用户相比,公共卫生专业人员的参与有限。

结论:最后,我们讨论了先验用户分类在分析基于网络的话语中的重要性,并说明了BERT主题建模在识别短社交媒体文本中的情境化主题方面的适合性。

中华流行病学杂志;2010;2(2):481 - 481

doi: 10.2196/41198

关键字



背景

2019冠状病毒病大流行是一场夺走了数百万人生命、摧毁了世界经济、扰乱了人类社会几乎所有方面的危机。戴口罩是为数不多的早期有效的非药物干预措施之一,可以遏制病毒的传播。12]。然而,强制或建议戴口罩的公共卫生努力遭到了公众的怀疑[3.],在某些情况下,还会遭到彻底的抵制。这可能是信息混杂的结果——在大流行早期,一些公共卫生机构(如世界卫生组织和美国疾病控制与预防中心)和媒体建议不要戴口罩,理由是担心医护人员的口罩短缺和口罩的功效[4]。它也可能是由许多保守媒体和有影响力的人广泛传播的未经证实的医学主张造成的[5]。随着科学文献的迅速发展,戴口罩防止SARS-CoV-2传播的有效性一直存在很大争议,而且自此次大流行的早期以来,官方政府和医疗咨询机构的信息一直喜忧参半;激烈的反ask情绪也可能更多地反映了根深蒂固的反亚洲种族主义和仇外心理[6],以及民粹主义者和本土主义者的怨恨[7]。民粹主义领导人和政党试图将戴口罩政治化,称政府对大流行的公共卫生反应是越权和阴谋[8]。美国多个城市举行了反对戴口罩的武装抗议活动。全国调查显示,政治右翼党派与基督教民族主义意识形态以及对政府强制限制COVID-19的抵制之间存在明显联系[9]。了解正在实施公共卫生措施和信息传递的政治背景,对于最大限度地取得保护人口健康努力的成功至关重要。基于网络话语的信息监测为理解公共卫生问题的政治性质和影响提供了途径。尽管越来越多的信息监测研究利用最新的数字分析工具来记录和比较公共卫生话语,但我们注意到一些差距。该项目旨在提出一个改进的信息监测框架,以了解因政治和非政治群体而异的公共卫生话语。本文组织如下:我们首先将戴口罩的案例研究置于医疗民粹主义的背景下,然后引入信息监测。然后,我们继续在现有文献中存在的两个空白,导致我们提出的计算框架。

医学的民粹主义

越来越多的人呼吁研究公共卫生问题的政治化,以了解公共卫生措施中的竞争利益和意识形态。2019冠状病毒病大流行是一个有趣的案例医学的民粹主义71011],被定义为“一种基于公共卫生危机表现的政治风格,使‘人民’对抗危险的其他人,即‘建制派’”[11]。民粹主义的一个共同点是,有道德的人与被视为腐败的精英或建制派之间的二分法[12]。在医疗民粹主义中关于埃博拉病毒艾滋病毒吸毒成瘾11],以及反疫苗运动[13在美国,医学界和科学界被框定为应该受到指责和不信任的精英。最近的调查显示,民粹主义意识形态与对政治和科学机构的高度不信任有关,导致人们更容易接受与covid -19有关的阴谋论[14],这种不信任与较低的教育水平、健康素养和逻辑思维的使用有关[1516]。这种对精英和机构的不信任,为那些兜售羟氯喹等未经证实的替代药物的人提供了肥沃的土壤,这些药物得到了唐纳德·特朗普和雅伊尔·博尔索纳罗等民粹主义领导人的支持。17]。医疗民粹主义滋生虚假信息和错误信息,社交媒体上的病毒式传播使这种情况变得更加严重[18]。尽管不是COVID-19大流行所独有的,但在流感大流行期间,错误信息非常猖獗[19],以及寨卡病毒[20.和埃博拉[18由于政治化和社会媒体的介入,世界卫生组织成立了一个信息流行病特别工作组。21],一些专家称COVID-19大流行是第一次真正的社交媒体信息大流行[22]。

信息监测与COVID-19大流行

社交媒体为公众提供了公民讨论和行动的素材。大量的研究将社交媒体作为媒介公共领域或网络社会纽带的角色理论化[23]。这些反映公众关注、态度和行动的社交媒体数据很容易被用来进行信息监控。信息监测是一种方法框架,它使用大规模数字行为数据来监测疫情和公众对公共卫生问题的看法[24-26]。在过去的流行病爆发中,包括埃博拉病毒,成功地实施了信息监测[27,寨卡病毒[2829]和H1N1流感[30.]。

我们回顾了自2019冠状病毒病爆发以来不断增长的信息监测研究,发现了3个共同主题。首先,使用COVID-19爆发早期数据的研究旨在检测社交媒体文本中可预测COVID-19症状的语言和内容特征[3132]。这种方法与传统的信息监测项目是一致的,例如谷歌流感趋势的先驱项目(尽管存在缺陷),该项目最初似乎比传统的公共卫生监测方法更快地预测流感流行,成为“大数据傲慢”的一个著名例子[33]。

其次,随着公共对话的扩大,后来的研究使用了潜在的狄利克雷分配(LDA)主题建模,以超越单纯的提及计数,以识别基于网络的话语中的主题。Chandrasekaran等[24确定了与covid -19相关的经济影响、病毒传播、治疗和恢复、对卫生保健部门的影响以及政府的应对措施。Abd-Alrazaq等[34]确定了围绕病毒起源的主题;COVID-19对人民、国家和经济的影响;以及缓解和预防。同样,Wahbeh等[35]在数字文本中确定了围绕行动和建议、错误信息、知识、卫生保健系统、症状和疾病、免疫、检测以及感染和传播的主题。尽管大多数研究都依赖于Twitter的数据,但也有少数研究使用了中国的微博网站微博[3236-38]。微博数据揭示了疫情爆发初期中国公众对新冠肺炎大流行的不确定性和不断变化的态度[36]。先前的研究也研究了用户的情绪[243539]。Zhou等[40用微博数据来监测中国公众对封锁的反应,以及恐慌等负面情绪是如何演变的。

第三,大多数先前的著作考察一般话语。al - ramahi等[3.识别反面具话语中的主要主题,包括宪法权利和选择自由;与covid -19相关的阴谋论、人口控制和大型制药公司;还有假新闻,假数字,假流行病。与此相关,Doogan等[41追踪了6个国家公众对戴口罩和保持社交距离的反应,发现对公共卫生措施的关注与病例数相关。这些研究,以及对传统媒体新闻内容的计算文本分析[42],有助于人们日益了解公共卫生与公众舆论之间的相互作用。

信息监控研究中的差距:意识形态和身份政治

受众细分是理解网络话语中用户生态系统复杂性和多样性的一种流行方法。在一般的信息科学研究中,数据驱动的人物角色在预测和聚合用户行为方面发挥着至关重要的作用[43]。数据驱动的人物角色方法包括使用各种社交媒体数据流和互动模式,根据人口统计因素和兴趣对用户进行分类[44]。该方法也适用于公共卫生领域,例如利用调查数据生成公众在采纳COVID-19建议时的心理和人口概况[45]。在信息监测文献中,对不同地理位置和不同健康状况的不同用户的话语进行了一些研究[4647]以及各种保健部门[35]。然而,这些对政治和社会定义的用户群的关注有限,包括那些与医疗民粹主义相关的用户群。少数例外包括Walter等人的研究[48关于疫苗的推特讨论。作者使用无监督机器学习和网络分析来识别政治上不同的“主题人物”,随后分析每个主题人物的内容。本研究采用了类似的方法,尽管使用了新的分析工具,以探索公共卫生话语和参与话语的用户的政治性质。这就需要超越一般的论述,把重点放在政治和兴趣不同的特定用户群体上。

互联网用户,如线下公众,通常通过形成紧密联系和志同道合的社区来寻求支持和影响。我们借用了这个词公众问题从一般的社会科学文献中,指通过共同的背景、爱好、兴趣和意识形态联系在一起的基于web的用户集群[23]。用户不仅通过社交媒体关注和追随者联系联系,而且更广泛地说,通过标签等象征性连接行为[49]。例如,认同某一社会事业或政党的用户使用共享标签(如#中国病毒或#昆流感)作为表达、抵抗和团结的一种形式。话题标签将意识形态上相似的原因联系起来,并将不相关的地方关注和身份编织成全球叙事[49-51]。

先前的研究将这些有政治联系的用户群体视为特别问题公众23],网络化counterpublics5051),或countercoalitions52]。这些用户群体迅速形成,以响应发展中的新闻、新兴的社会运动或长期持有的信仰和社会身份。它们是分散的,地理上分布的,并以协调的共享和讨论为特征[23]。它们由公共领域的不同机构和个人利益相关者组成,其特点是不同程度的内部协调和承诺参与[52]。抛开术语不谈,假设很简单:数字空间是一个基于网络的公共广场,由不同的用户群体组成,他们有着相互竞争的利益和意识形态。要了解公众如何看待公共卫生措施,必须从每个特定用户群体(即公众问题)中提取话语并对其进行三角分析。

当前信息监控研究中的差距:从LDA到BERT主题建模

目前的信息监控研究绝大多数使用LDA和情绪评分[53-54]。对LDA的依赖并不奇怪,因为它是最流行和广泛使用的主题模型[55-58]。LDA是一种概率模型,可以发现文本语料库中的潜在主题,并且可以使用崩溃的Gibbs采样进行训练[555960]。具体来说,LDA假设K个底层主题,每个主题都是固定词汇表上的分布。尽管LDA被认为在文本语料库建模方面取得了很好的结果[61],但它从根本上存在几个缺点,包括参数设置困难k,它指的是产生语义上有意义的结果的主题数量,这是处理短文本的一个缺陷[58],捕捉句子的语境意义[58],以及它无法模拟主题相关性和主题随时间的演变[62]。

为了克服这些限制,新一代的主题模型[565761]使用预训练的表示(如BERT)来实现主题建模(1)考虑句子的上下文含义,以支持结果匹配适当的主题;(2)包含更多特征,以有效地建模主题相关性和主题随时间的演变。最近,像BERT这样的预训练上下文化表示在自然语言处理的几个领域推动了技术的发展,因为它们能够表达地表示在大量数据集上训练的复杂语义关系。BERT是一种基于双向变换的预训练上下文表示,使用屏蔽语言建模目标和下一句预测任务[62]。BERT的显著优势在于它同时从所有层的左右上下文中获取单词的上下文。为此,BERT使用多层双向变压器编码器,其中每层包含多个注意头。

值得注意的是,BERT是最新的无监督主题建模技术之一,旨在改进传统的LDA方法。另一种替代技术,主题模型网络分析(ANTMN),将社区检测算法应用于网络分析中,以聚类lda生成的主题[63]。ANTMN是揭示网络和新闻话语框架的合适工具,并已用于研究公共卫生话语[64]。另一种选择是基于语义网络的分类算法textnets [65],首先使用LDA将语料聚类成主题,然后应用社区检测算法将主题分类成网络聚类。虽然与传统的LDA相比,ANTMN和textnets是改进了很多的工具,但我们选择了BERT,因为BERT可以揭示纵向主题趋势,这是textnets所没有的功能,使BERT非常适合研究基于web的话语中特定主题随时间的涨落。

研究问题

本文利用BERT进行主题建模,克服了传统LDA方法与短文本(如tweets)的不兼容性,纵向跟踪主题的演变。此外,我们调查了不同用户群体(即问题公众)特有的话语和主题。这种方法旨在了解政治意识形态和政治团体在确定公共卫生话语方面的作用。

研究问题1:关于口罩和戴口罩的英语推特话语在2020年期间发生了什么变化?

研究问题2:英语推特上关于口罩和戴口罩的讨论在不同的公众中是如何变化的?


本文以不同的用户群体(即问题公众)和最先进的BERT主题建模应用为重点,试图提出一个由数据收集、数据清理、用户分类和主题建模组成的信息监控工作流。

数据收集

本研究使用了乔治亚州立大学Panacea实验室提供的大型COVID-19 Twitter语料库[66]。该语料库包含来自Twitter流应用程序编程接口(API)的公开推文,其关键字为“COVD19”、“CoronavirusPandemic”、“COVID-19”、“2019nCoV”、“CoronaOutbreak”、“冠状病毒”和“武汉病毒”。我们使用修改后的Python脚本,根据公共数据集中提供的推文id,对2020年1月1日至12月31日期间发送的所有与covid -19相关的推文进行了补充。

数据清理

为了跟踪与COVID-19大流行相关的发展变化相关的纵向趋势,我们的研究小组按时间顺序划分了COVID-19数据。第一阶段为2020年1月1日至4月30日,包括中国的早期疫情,随后中国和后来的西方民主国家的旅行限制和封锁,以及个人防护装备(PPE)的紧急短缺。第一阶段的截止日期与德克萨斯州和佛罗里达州等美国一些主要州开始放松公共卫生措施以恢复经济的时间相对应。第二阶段为2020年5月1日至8月31日,包括建议或强制佩戴口罩、美国国内针对公共卫生措施的武装抗议、政界人士有关新冠肺炎大流行的争议言论、英语国家疫情恶化等事件。第三阶段为2020年9月1日至12月31日,在此期间,美国发生的重大政治事件包括特朗普总统10月确诊新冠肺炎疫情、11月总统选举和全国疫苗接种运动。为了识别与掩码相关的话语,我们使用了以下关键字过滤器:面具面盖facecover。为了提高计算效率(在大型语料库上运行BERT Topic模型非常耗时),我们只保留那些被其他用户转发至少1次的英语推文,以专注于那些实际上被推广给更广泛受众的推文。我们也排除了那些拥有空白Twitter用户简介页面的用户发送的推文用户分类部分)。

用户分类

为了识别用户分类,我们采用k-means聚类算法[67]到Twitter用户的个人描述,根据所表达的身份和兴趣对用户进行分类。由于重点关注那些表达了共同兴趣和身份的用户群,因此将Twitter bios为空白的用户(占总用户的0.54%)排除在分析之外。尽管这种排除可能会影响所研究话语的代表性,但我们认为,在Twitter bios中使用一组共同的标签和术语的用户在这个数字公共广场上更参与(话题、社会或政治)。

k-means聚类算法得到10个聚类。该算法将在Twitter上使用相似单词或短语的用户放在同一组中,每组的数量(如10)和每组的大小由k-means算法决定。研究人员手动检查了聚类输出,并删除了2个主要与新闻媒体和官方来源(例如,疾病控制和预防中心,市和县政府)相关的聚类,因为本研究关注的是公民话语。根据话题相似性和政治从属关系,将其余8个聚类减少到4个聚类。的一般群集包括Twitter个人描述显示各种社会、专业兴趣、从属关系和身份而没有政治从属关系的用户。的保守的集群包括使用表明其保守意识形态和支持特朗普政府的关键字和标签的用户(例如,#maga, #kag, #2a或#prolife)。的进步集群包括使用反映进步意识形态的标签和关键词的用户(例如,LGBTQI,民主党,#BidenHarris2020, #Biden2020或#BlackLivesMatter)。最后,公共卫生集群包括与卫生保健部门和公共卫生研究相关的用户,如关键字所示医疗保健科学流行病学家教授,放射科医生。为了提供关于每个用户集群特征的描述性发现,我们使用了一个简短的文本分类算法,称为textnets生成Twitter bios中使用的各种短语和标签的网络可视化[65]。该算法将网络分析应用于自然语言处理,为分析短文本(如Twitter bios)提供了一种替代主题建模的方法。这种方法可以显示特定集群中的用户所识别的潜在身份、兴趣和运动。

BERT主题建模

我们使用自然语言工具包删除了数据集中所有的英语停顿词。我们注意到,在学习主题中,“面具”、“覆盖”、“覆盖”、“面罩”和“面罩”这些词无处不在,因为我们的数据集包含了与面具相关的话语。实际上,这些词是嘈杂的,降低了适当主题的性能,阻碍了结果的可解释性。为了克服这个问题,我们扩展了自然语言工具箱词汇表,添加了这些词,并将它们从数据集中删除。为了识别掩码相关话语中的潜在主题,我们应用了BERTopic,一个基于bert的主题建模Python库。BERTopic使用预训练的BERT模型提取文档嵌入。我们使用BERT主题模型,该模型由12层,12个注意头和1.1亿个参数组成,使BERTopic能够产生文档嵌入来检测句子之间的语义相似性。BERTopic利用BERT嵌入和基于类的词频率逆文档频率来创建密集聚类以检测唯一主题。此外,BERTopic在每个时间戳为每个主题生成主题表示。传统的LDA主题建模需要一个预定义的k(主题数量),以便算法围绕k个主题聚类语料库[68]。BERTopic不需要预定义的k,减少了对模型微调的各种迭代的需要。

伦理批准

由于我们使用的是公开存档的数据集,没有包括或发表任何个人身份信息,我们认为这项研究超出了机构审查委员会的职权范围。然而,我们在分析每个集群的用户配置文件时格外小心,以确保报告的数据是聚合的和匿名的。


概述

使用掩码相关的关键字作为过滤器,原始数据集在第一阶段包括648,528个唯一用户的1,061,686条唯一推文,在第二阶段包括576,274个唯一用户的1,060,987条推文,在359,561个唯一用户的678,474条唯一推文。其中,第一阶段有171271条英文唯一推文,被115349名用户至少转发一次;阶段2有137,426个用户的234,997条唯一的英语tweet,阶段3有76,443个用户的129,089条tweet。如前所述,我们还排除了Twitter个人简介页面为空白的用户发送的推文。应用用户分类方案和BERT Topic建模前的最终推文数据集在第一阶段包括109,097名用户的163,378条推文,在第二阶段包括129,830名用户的224,830条推文,在第三阶段包括72,495名用户的123,843条推文。该结果集中于4个确定的用户群发送的tweet:普通、进步、保守和公共健康。图1显示每个不同用户社区随时间的推文量。2020年4月30日,各用户群的推文量出现了一个明显的峰值。4月30日,时任美国副总统迈克·彭斯参观工厂时戴口罩,4月28日访问梅奥诊所时不戴口罩,受到广泛批评。

为了通过用户集群进行主题分析,我们对每个先前识别的用户集群运行BERT Topic模型。注意,在主题模型中,发现一些tweet没有连贯的主题,因此被分配到未分类的主题- 1(非主题)。按照BERTopic作者建议的惯例,我们在最终分析中没有包括这种非主题推文。表1显示每个用户集群中非主题推文的数量以及计算出的非主题推文的比例。非主题比例因用户群和阶段而异。这显示了该主题建模方法的潜在局限性,因为由于主题不一致,它遗漏了语料库的一些百分比。然而,该方法揭示了语料库中具有鲜明主题的最突出部分。在确定主题之后,作者根据示例tweet手动检查主题,并创建描述tweet中的主要主题的主题标签。

图1所示。随着时间的推移,主题分类推文的数量。
查看此图
表1。用户集群的Tweet计数。
用户聚类 阶段 非主题推文的数量 用于建模的tweet总数 非主题推文比例
保守星系团 1 1041 3094 0.34
一般集群 1 11304年 31364年 0.36
渐进式星团 1 1210 4377 0.28
公共卫生集群 1 764 1414 0.54
保守星系团 2 1565 4711 0.33
一般集群 2 20057年 43281年 0.46
渐进式星团 2 3475 10462年 0.33
公共卫生集群 2 0 2300 0
保守星系团 3. 129 430 0.30
一般集群 3. 5309 12077年 0.44
渐进式星团 3. 1120 3539 0.32
公共卫生集群 3. 0 983 0

保守集群中的主题

保守集群由Twitter bios中包含关键字如米加,kagtrump2020特朗普节约爱国者,wwg1wga2基督教全国步枪协会prolifqanon1美国人,构成,退伍军人,耶稣,骄傲,国家,总统,建墙,美国,议员,军人,家庭,kag2020,兽医,排水沼泽,结婚,谴责,q,美国第一,美国,背后,妻子,自由,背后,真理,退休,如果,特朗普,走开,dms这些词表明他们与唐纳德·特朗普的竞选、保守事业和宗教身份结盟。这个集群似乎也以美国为中心,因为Twitter个人简介中最核心的关键词都与美国政治有关。同样值得注意的是,该组织与边缘教派和类似邪教的QAnon运动的联系。集群在第一阶段产生了8235条推文,其中大约33%的推文被归类为非主题推文,不包括在以下结果中。在包含和分配主题的tweet中,有3600个独立用户。2022年8月,许多用户(通过独特的Twitter用户id识别)不再拥有可访问的Twitter个人信息(3600人中有2408人),这表明他们要么删除了自己的账户,要么Twitter因可疑活动暂停了他们的账户。请注意,被暂停的账户和机器人发送的推文,尽管不真实,但需要包括在分析中,因为它们可能产生两极分化的影响。在那些拥有有效Twitter履历的人中,他们的关注者数量从476,284到0不等,中位数为3860。

短文本分类算法,textnets算法,扫描在保守用户的BIOS中至少出现两次的所有关键词,并创建一个基于协同的语义网络,如图2图2显示按中间度中心性排名的前154个术语,中间度中心性是关键术语在整个语料库中显著性的网络指标。网络图中的颜色表示不同的主题集群。该网络展示了与特朗普相关的术语、紫色的民粹主义政治运动(例如,#BacktheBlue、#AmericanFirst、#DrainTheSwamp或#WWG1WGA)以及绿色的保守福音派社区的核心作用。表2显示该集群的Twitter配置文件中被提及最多的30个位置。注意,这些数据包含Twitter配置文件页面位置字段中的用户条目。位置信息是原始的和未标准化的。具体来说,一些用户可能会输入详细的城市和州,而其他用户可能会提供一般术语,例如美国地球。有些人甚至会提供虚假或用户创造的术语来传达自己的政治和意识形态。这些条款包括真正的美国地狱。因此,应该谨慎地解释关于用户位置条目的汇总统计信息。然而,该领域排名靠前的条目表明,用户主要来自美国,尤其是美国人口最多的州。

图2。保守派群体Twitter简介中的核心术语。
查看此图
表2。保守集群中用户输入位置信息的Top值。
位置 位置值
美国 406
佛罗里达州,美国 67
美国加州 67
美国德克萨斯州 66
美国乔治亚州 30.
美国弗吉尼亚州 25
美国密歇根州 21
德州 19
北卡罗来纳州,美国 19
佛罗里达 19
亚利桑那州,美国 19
纽约,美国 17
美国宾夕法尼亚州 17
加州, 16
内华达州的拉斯维加斯 15
圣地亚哥,加利福尼亚 14
密苏里州,美国 14
田纳西州,美国 13
南卡罗来纳州,美国 13
肯塔基州,美国 12
美国科罗拉多州 12
俄亥俄州,美国 11
西北太平洋地区 11
路易斯安那州,美国 11
阿拉巴马州,美国 11
科罗拉多州, 11
华盛顿特区 10
亚利桑那州凤凰城 10

图3显示阶段1保守聚类中10个最突出的主题(用颜色表示)。不太突出的主题仍然包括在可视化中,但显示为灰色。由于个人防护装备短缺,4月初出现了一个小高峰。这个话题的受欢迎程度在4月下旬被一系列广泛的话题所取代,这些话题表明用户对机构的不信任和对封锁措施的抵制。这包括第三个最突出的话题,被称为“不信任、流行病、反封锁”,在2020年4月下旬达到顶峰(绿色中)图3)。该主题的一条经过编辑的推文写道:“那些全球主义者只是在玩他们的游戏,如果他们不相信他们,”这似乎抓住了许多类似推文的精神,这些推文表达了对政治家和精英的愤怒。反建制情绪在第四个最突出的话题“反媒体和反精英”中得到了呼应,这个话题几乎在同一时间达到了顶峰。对CNN等主流媒体的不信任可以从这条经过编辑的推文中得到体现:“CNN lemon不举行冠状病毒简报会,这是让你认为疫情已经结束的计划的一部分。”同样,第五大主题(即怀疑COVID-19死亡人数和反封锁)显示了对COVID-19死亡人数的官方统计数据的怀疑,正如以下推文所反映的那样:“……英国现在会有更多的癌症患者死亡,因为新冠肺炎的封锁吓得患者不敢去…以及“这就是为什么死亡原因被列为covid,即使有人死于心脏病发作,它也会扭曲到中午为止的数字。”上述突出议题的时间点也与美国密歇根州4月中下旬广泛报道的反封锁武装抗议活动相吻合。这一具体事件被标记为“新冠病毒和密歇根州的反封锁抗议”。此外,4月底的焦点主要集中在中国政府在大流行初期掩盖病毒的行为上。其中一条推特写道:“中国知道病毒的传播能力,但几天来一直保持沉默,泄露了文件……” Overall, topics prevalent at this stage align with the widely reported Conservatives’ defiance of mask policies and their strong criticism of China in handling the pandemic. The less-prominent topics (the grayed-out topic labels), albeit comparatively small in tweet size, nevertheless shows a diverse range of concerns and interest among the conservative users, such as the alleged laboratory origin of the virus, alternative treatments such as hydroxychloroquine, and skepticism over vaccines.

保守集群的主题在阶段2 (图4)。值得注意的是,关于戴口罩的风险和戴口罩预防COVID-19的有效性,有一些共同的专题聚集。这个主题组包括“口罩、风险、口罩功效”和“口罩几乎没有保护作用”等主题,以及“口罩背后的科学”主题。这些主题的推特示例包括“这些口罩不能提供任何针对covid或其他病毒或污染物的保护”和“布口罩与筒袜预防怀孕一样有效”。关于口罩的争议也出现在其他突出的话题中,比如“戴口罩之争”,其中包含了用户对不得不戴口罩去杂货店购物和参加医疗预约的投诉。主题为“商业实体中的口罩规则”的推文包括“羊像听话的羊一样戴着口罩,现在沃尔玛等商店要求戴口罩,我觉得我在奥威尔……”这清楚地表明了用户对戴口罩的抵制。除了10个最突出的话题外,一些灰色话题(按推文数量计算不太突出的话题)出现了峰值,似乎与政治有关。其中一次高峰发生在2020年5月29日,与2020年白宫冠状病毒工作组的主要成员福奇博士以及他对口罩的立场有关,保守派用户认为这是不一致的。与该主题相关的一条推文写道:“冠状病毒明尼阿波利斯福奇手表福奇告诉你周五不要戴口罩闪回”,另一条推文写道:“所以老福奇是对的,戴口罩没用,冠状病毒仍然可以在戴口罩的人之间传播。”

第三阶段(图5),保守群体对口罩的兴趣似乎有所减少(从纯粹的推文量来看)。9月初,保守党把重点放在了特朗普和戴口罩上,而在接下来的几个月里,有关COVID-19的言论变得更加普遍。

图3。阶段1保守聚类的热门话题。
查看此图
图4。阶段2保守聚类的热门话题。
查看此图
图5。阶段3保守聚类的热门话题。
查看此图

渐进集群中的主题

渐进式集群可以通过bios上的标记词来区分,例如抵制,fbr, blm, dms,特朗普,voteblu, theresist,民主党,名单,投票,爱,动物,情人,biden2020,骄傲,阻止,跟随,自由,votebluenomatterwho, bidenharris2020,妈妈,bluewav,退休,蓝色,狗,请求,平等,bluewave2020, dm,政治,垃圾,抵制,fbr,新闻,媒体,人类,社交,推特,等。与保守阵营类似,进步阵营也以美国政治和2020年大选为中心。该集群产生了18,378条推文,其中大约32%的推文被归类为非主题,并被排除在最终分析之外。在包含的tweets中,有6991个独立用户;截至2022年8月,其中1499人的推特账号无效。用户的关注者规模从5,503,681到0,中位数为4410。

textnets算法(图6)显示了两个不同的集群:一个与进步社会运动有关,如黑人的命也是命和拜登运动,第二个集群表示反对特朗普。位置字段的数据(表3)表示主要是美国用户,特别是在美国主要大都市。

图7显示了进步集群在第一阶段的主题,如保守集群,这一阶段最突出的主题是PPE短缺。关于这个话题的讨论在4月初开始,并在4月下旬达到顶峰。例如推特包括“政府的紧急储备的防毒口罩、手套和其他医疗用品已经不多了,而且……和“……”现在必须重复使用他们要求我们重复使用的口罩、防护服甚至手套……”第二个最突出的话题是与covid -19相关的死亡,这在4月30日的图表中达到了最大的峰值。一些例子包括“记得总统睡了整整一个月,然后就死了……以及“所有的医务工作者都发过誓,他们正在死去,因为他们相信他们的誓言,DJT向所有国会发过誓……”排名第三和第五的热门话题包括对时任总统特朗普和副总统彭斯的批评。其中一条推特写道:“特朗普正在失去理智,因为有报道称他正在失去理智,这是为特朗普做或死,期待一切……”另一条推文写道,“彭斯不戴口罩参观冠状病毒检测设施,蔑视梅奥诊所的政策,彭斯为自己的行为辩护……” Other prominent topics include outbreaks in different states, and distinct locales (eg, meat processing plants and nursing homes), treatments and vaccines, etc. Similar to the conservative cluster, the China factor and the virus origin were brought up but not to the level of prominence of the Conservatives.

图6。渐进式集群Twitter简介中的核心术语。
查看此图
表3。在渐进式集群中,用户输入的位置信息最多。
位置 位置值
美国 431
美国加州 123
洛杉矶,加利福尼亚 84
佛罗里达州,美国 77
美国德克萨斯州 59
纽约 49
德州 42
纽约,美国 39
佛罗里达 39
芝加哥,伊利诺斯州 39
美国宾夕法尼亚州 38
地球 38
俄亥俄州,美国 35
新泽西州,美国 34
华盛顿特区 31
加拿大 31
加州 30.
达拉斯,德克萨斯 29
美国科罗拉多州 27
美国弗吉尼亚州 26
旧金山,加利福尼亚 26
俄勒冈州的波特兰 26
北卡罗来纳州,美国 26
俄勒冈州,美国 25
亚特兰大,乔治亚州 25
亚利桑那州,美国 25
西雅图,华盛顿 24
美国明尼苏达州 24
美国马里兰州 24
图7。第1阶段进展集群中的热门主题。
查看此图

进入第二阶段(图8),尽管有关COVID-19传播的一般性对话和新闻分享占据了推特的主导地位,但也有相当一部分推特批评特朗普在应对COVID-19方面的疏忽,以及没有戴口罩的人群传播病毒。推特的例子包括,“致所有认为冠状病毒是骗局的人,幽默科学家和觉醒的人,戴上你该死的面具。”另一条写道:“在特朗普在凤凰城举行无口罩集会后,冠状病毒病例和死亡人数激增,需要更多的医生。”批评推文的数量起伏不定,可能反映了当地发生的事件。该集群还包括呼吁戴口罩和倡导口罩有效性的推文。其中一个例子写道,“佛罗里达州今天出现冠状病毒病例,请保持安全,佛罗里达人,每个人都请戴上口罩。”进步的用户对话题的兴趣似乎也反映了新冠病毒在美国各州的传播。例如,在德克萨斯州病例增加之后,2020年7月2日出现了激增。

在第三阶段(图9),这个进步集群的谈话一直被与特朗普有关的话题所主导,批评b他的政府。一个值得注意的话题是“COVID传播和对COVID否认主义的讨论”,该话题在2020年10月2日左右达到顶峰。这一天是当时的特朗普总统新冠病毒检测呈阳性的日子。我们还发现,与呼吁戴口罩和讨论COVID-19否认主义相关的话题数量出现了一些高峰。

图8。第2阶段进展集群中的热门主题。
查看此图
图9。第3阶段进展集群中的热门话题。
查看此图

一般集群中的主题

一般集群由Twitter bios中包含但不限于以下关键字的用户组成:推特、爱、世界、作者、观点、工作、支持、关注、人、前、骄傲、抵抗、作家、我们、covid - 19、研究、粉丝、妈妈、政治、垃圾、抵抗、fbr、新闻、媒体、人类、社会、推特、权利、报告、音乐、观点。正如关键词所示,这些用户虽然可能对政治感兴趣,但在Twitter的个人资料中并没有表现出强烈的党派倾向。该集群产生了86722条tweet,其中约42.3%在主题建模中被分类为非主题。有33364个独立用户,其中6973个用户在2022年8月没有有效和可访问的Twitter简介。值得注意的是,一些与新闻媒体和国际组织有关的账户被归为这一类(特别是世界经济论坛、联合国儿童基金会、微软全国广播公司、党派影响者本·夏皮罗和中国国家媒体CGTN),尽管我们努力排除了一个独特的媒体附属集群。这意味着一般集群既包括普通公民,也包括一些附属媒体。粉丝数从13,280,615到0不等,中位数为4410。

图10显示按中间度中心性排列的前134个关键词。对于要包含在textnets聚类中的关键字,它们必须出现至少15次。图10显示了一个基于社会和职业角色的集群(蓝色),一个基于新闻的集群(绿色),一个包含与特朗普及其竞选相关关键词的集群(紫色)。然而,应该注意的是,与特朗普相关的关键词并不像它们在保守派集群的Twitter简介中出现的那样重要。位置字段中的前几项(表4)显示,该集群的用户主要位于美国,居住在主要大都市地区。

与前两个集群不同的是,这两个集群在Twitter的个人简介和与面具相关的推文中明显带有政治色彩,而普通集群中的用户表明了各种社会和职业身份以及生活方式,但外围提到了政治。因此,与前两个用户集群相比,这个用户集群的政治倾向较小。他们的非政治性反映在第一阶段与面具相关的推文中(图11)。虽然最引人注目的话题是特朗普对新冠肺炎的反应,但其他话题似乎没有明显的党派倾向。这些话题包括表达感激和支持,以及呼吁捐款。推特的例子包括“我们真的很感谢我们在covid大流行中的英雄”和“感谢今天为纳瓦霍民族捐赠covid捐赠活动的所有人,你们给了我希望。”一般用户似乎也注意到经济影响和生命损失。中国的角色被提了出来,但没有之前提到的那么突出。

图10。一般用户集群的Twitter bios中的中心术语。
查看此图
表4。一般集群中用户输入位置信息的Top列表。
位置 位置值
美国 1758
华盛顿特区 486
美国加州 417
洛杉矶,加利福尼亚 403
纽约 322
美国德克萨斯州 292
佛罗里达州,美国 279
英国伦敦 267
伦敦 265
加拿大 241
芝加哥,伊利诺斯州 214
联合王国 380
纽约,美国 186
全球 177
马萨诸塞州的波士顿 168
亚特兰大,乔治亚州 161
休斯顿,德克萨斯州 153
在世界范围内 151
德州 151
地球 146
纽约 144
旧金山,加利福尼亚 142
印度 140
西雅图,华盛顿 139
加州 139
多伦多,安大略省 137
得克萨斯州奥斯汀市 135
尼日利亚 129
图11。阶段1中一般集群中的顶级主题。
查看此图

进入第二阶段(图12),普通用户的话题变得更加多样化。虽然最突出的话题是“关于面具的一般性讨论”,似乎没有党派倾向,但第二突出的话题与特朗普的新闻报道有关。2020年6月20日的峰值与特朗普在俄克拉荷马州塔尔萨的竞选集会一致。7月12日的高峰正好是特朗普第一次在公共场合戴口罩的时间。7月20日前后,特朗普在推特上和媒体上对口罩的支持达到了峰值。其他突出的话题包括呼吁戴口罩和洗手,以及指责反口罩者。然而,这些话题都被与特朗普有关的话题所掩盖。

在第三阶段(图13),该小组的对话更一般,遵循在前几个阶段确定的几个主题。这些主题包括呼吁戴口罩和洗手、关于COVID-19病例的一般性讨论和新闻分享,这些主题的突出程度反映了这一点COVID病例和发展情况,在第三阶段中起起落落。然而,与特朗普相关的话题出现了几次飙升。

图12。阶段2中一般集群中的热门主题。PPE:个人防护装备。
查看此图
图13。阶段3中一般集群中的热门主题。
查看此图

公共卫生集群中的主题

公共卫生集群中的用户由以下生物关键词定义:健康、护理、公共、倡导、精神、covid - 19、研究、全球、科学、中心、社区、改进、观点、推特、政策。这个集群总共产生了4697条tweet,其中16.2%被归类为非主题。截至2022年8月,唯一用户数量为2165人,其中13%的用户没有有效的Twitter个人信息。关注者的规模从11,703,587到3,中位数为4413。textnets算法根据医疗保健专业和领域显示集群,用户似乎主要与医疗保健部门相关。图14按中间度中心性显示排名前137位的关键词(在用户的bios中至少出现两次)。位置字段的顶级条目(表5)显示出与其他集群相比,用户在地理上更加多样化。

公共卫生集群比其他用户集群发送的tweet更少,并且该集群产生的主题也更少。一开始,他们的推文都是表达感激之情(图15),并讨论口罩的有效性,比如这条推文“……无症状感染者已经导致政府重新考虑关于谁应该戴口罩的指导方针……”在第二阶段(图16),该分组产生了一组更多样化的主题,其中关于口罩的一般新闻分享是最突出的,其次是呼吁洗手和戴口罩的一组主题。第三阶段也有类似的主题(图17),重点是呼吁戴口罩和洗手,并就COVID-19大流行的发展进行一般性讨论。

图14。公共卫生集群Twitter简介中的核心术语。
查看此图
表5所示。公共卫生集群中用户输入的最重要位置信息。
位置 位置值
华盛顿特区 45
美国 39
洛杉矶,加利福尼亚 23
英国伦敦 21
加拿大 19
全球 19
芝加哥,伊利诺斯州 19
多伦多,安大略省 16
尼日利亚 16
伦敦 16
密歇根州安娜堡 16
联合王国 15
瑞士日内瓦 13
马萨诸塞州的波士顿 12
加州 12
在世界范围内 11
联合王国 11
宾夕法尼亚州的费城 11
西雅图,华盛顿 10
圣地亚哥,加利福尼亚 10
纽约 10
休斯顿,德克萨斯州 10
英国伦敦 10
俄亥俄州哥伦布市 10
得克萨斯州奥斯汀市 10
美国加州 10
加拿大多伦多 9
华盛顿特区 9
纽约,美国 9
图15。第一阶段公共卫生群集的主要议题。
查看此图
图16。阶段2期间公共卫生群集的主要议题。
查看此图
图17。阶段3期间公共卫生群集的主要议题。
查看此图

主要研究结果

首先,我们的研究结果反映了先验用户分类在分析基于网络的话语中的重要性。Walter等人的研究表明[48],用户集群可以通过他们在网络上产生的内容类型来检测。然而,与之前的工作不同的是,我们将用户在社交媒体个人资料上对社会、政治和职业身份的积极表达作为聚类的基础。这确保了我们可以比较用户所讨论的话题是如何随着他们所表达的身份而变化的。正如预期的那样,在我们的数据集中,用户的政治兴趣水平和保守到进步的意识形态范围有所不同。为了支持先前的研究,根据社交媒体资料中不同的政治和社会身份相关表达来识别问题公众,我们发现面具话语中的用户也来自政治光谱的两端。一些用户明显是出于政治动机,这可以从动员性和同一性的标签(如#kag和#maga)看出。应该指出的是,尽管有政治动机的推文很多,但它们仍然是少数。相比之下,普通用户群(那些在Twitter个人描述中没有明确政治表达的用户群)构成了最大的集群。公共卫生部门用户的参与不太突出,这意味着公共话语的大部分是由外行或有政治头脑的个人贡献的,而不是公共卫生专家。这一发现可能指出了公共卫生信息方面的专家差距。 This finding echoes what is found in previous studies of Twitter discourse concerning alternative treatments of COVID-19. Previous studies show that mainstream medical experts and institutions were less influential than partisan figures [6970]。可以说,公共卫生专家的影响程度较低,可能是由于医疗民粹主义引起的出于政治动机的公众不信任,或者在这一重要的公共领域缺乏公共卫生的声音。然而,鉴于戴口罩和口罩政策的政治性质日益增加,公共领域非常需要科学而非政治的声音。我们的发现与其他研究相呼应,这些研究表明公共政策在公民话语中被政治化了[71]。

其次,主题确实因用户群的不同而不同。在许多西方民主国家,口罩政策已成为左翼和右翼政治分歧的一个尖锐点。在我们的研究中,这种划分映射到进步和保守用户群之间的不同主题焦点。一篇聚焦于对特朗普政府的批评,另一篇则表现出对公共卫生专家的玩世不恭和怀疑。其中一位关注了封锁的影响,而另一位则在推特上更多地谈论了covid -19引发的死亡。我们的主题模型广泛反映了政策偏好和意识形态变化对口罩政策的响应。同样重要的是,一般用户的话语中也出现了政治话题。特别是,公众对民选官员及其掩盖行为的关注。这表明政治家的行为可能会驱使或转移公众对重要公共卫生措施的注意力。为了与在疫苗接种和流行病背景下研究的医疗民粹主义概念相关,我们的主题模型揭示了潜在的民粹主义话语,使人们与精英对立。 This is specifically revealed in the conservative users’ dismissive attitude toward public health experts such as Dr Fauci and the US National Institutes of Health and mainstream media that many view as left-leaning. Although populist-sounding topics did emerge, we caution that they were not the most prominent by tweet volume. To recap, our model was able to pick up critical signals (emergent topics or changes of topics) that should be analyzed further to evaluate public health efforts.

第三,尽管大部分讨论都集中在COVID-19的影响和口罩政策背后的政治,但部分讨论似乎确实集中在口罩佩戴的科学上。所有用户群都在推特上谈论戴口罩的有效性。确定这些主题至关重要,因为可以对这组特定的tweet进行进一步的定性分析,以了解用户的来源、引用的研究和证据。有政治动机的用户和普通用户在推特上的发现可能特别具有启发性,因为一些话题似乎质疑戴口罩的有效性。我们的研究表明,从方法上讲,我们的模型可以挑选出可能指向需要事实核查的重要公共卫生话语的信号。

最后,许多话语都随着重大政治事态发展而波动,这些事态发展涉及当时的特朗普总统、中国早期的疫情以及围绕武汉实验室的争议。就公共卫生监测而言,这再次表明,公众对公共卫生措施的接受并非凭空产生,而是与当地的政治事件相互作用。我们实现的模型能够绘制出主题随时间的演变,从而考虑到外部事件如何影响基于网络的话语。

限制

我们建议读者在回顾研究结果时考虑到一些局限性。首先,我们的样本选择剔除了没有被转发的推文。未转发的推文在信息传播中可能影响力较小,但却是网络话语的重要组成部分。换句话说,我们的样本选择可能忽略了关于该主题的更广泛的论述。其次,一些推文可能包含超链接内容或嵌入图像。公众对口罩相关政策的反应可以很好地反映在这种嵌入的内容中,而不是在纯推文文本中。基于Twitter bios的集群还排除了那些没有明确使用Twitter bios来表达社会、专业和政治身份的用户,以及那些账户被删除或暂停的用户。此外,一定比例的tweet是BERT未分类的(非主题)。这可能是基于Twitter bios的用户分类的固有结果。我们还提醒读者,机器人可能会出现在对话中,尽管它们的存在可能很小。 This is because we studied only original tweets (as opposed to retweeted content), and typical bots exclusively retweet others’ content without producing original content. Nevertheless, bot traffic should be distinguished from the genuine citizen-generated Twitter conversations. At the time of the writing, the popular opensource bot-detection tools (eg,tweetbotornottweetbotornot2)由于Twitter API的更新而遇到技术问题,专有的Botometer对分析许多Twitter用户提出了重大的成本障碍。我们还计算了被Twitter删除或暂停的用户的比例,这可以让我们了解语料库中潜在的机器人流量。上述所有因素都可能限制研究结果的代表性。我们呼吁未来的研究调查嵌入内容和研究推文。我们也认为,以地域和叙事来研究话语是很重要的。未来的研究应该将Twitter上的真实话语与不真实话语(由机器人和巨魔传播)以及媒体话语(由Twitter上的新闻媒体账户产生)进行比较。更重要的是,我们呼吁进行比较方法工作,以评估应用于信息监控的各种文本分类方案。虽然本研究的重点是BERT主题建模,但BERT模型是否优于其他新颖的文本分类方案(如textnets和ANTMN)是一个悬而未决的问题。此外,未来的工作可以比较多种用户分类方案,包括基于生物的分类和主题人物角色分类[48]。

与前期工作比较

这项工作以现有的信息监测工作为基础,利用基于网络的行为数据跟踪公共卫生措施和信息传递。这项工作有以下的新奇之处。这是为数不多的专门研究口罩和口罩佩戴的网络话语的研究之一。它还通过进行先验用户分类和使用BERT主题建模来改进现有的信息监控框架,BERT主题建模针对短文本进行了优化。

结论

本研究改进了目前主要依赖于LDA主题建模和情感分析的信息监控框架。我们认为研究人员必须首先进行适当的身份和基于兴趣的用户分类,以揭示网络话语中出现的主题。这一步在很多前人的作品中都是缺失的。然后,我们指出了传统LDA建模的弱点,并采用了改进的BERTopic。BERT主题建模针对短文本进行了优化,可以揭示主题的纵向变化。这一举措使得社交媒体上关于戴口罩问题的讨论呈现出一幅更加渐变的画面。

利益冲突

没有宣布。

  1. Howard J, Huang A, Li Z, Tufekci Z, Zdimal V, van der westthuizen HM,等。口罩抗COVID-19证据综述中国科学:自然科学通报,2011 (4):551 - 551 [j]免费全文] [CrossRef] [Medline]
  2. 麦金泰尔CR,中泰AA。对口罩和呼吸器对社区、医护人员和患者抗冠状病毒和其他呼吸道传播病毒的功效进行快速系统审查。中华护理学杂志,2010;38 (8):391 - 391 [J]免费全文] [CrossRef] [Medline]
  3. Al-Ramahi M, Elnoshokaty A, El-Gayar O, Nasralah T, Wahbeh A. COVID-19时代反对口罩的公众话语:Twitter数据的信息流行病学研究。JMIR公共卫生监测2021年4月05日;7(4):e26780 [j]免费全文] [CrossRef] [Medline]
  4. 莫特尼M,罗杰斯A.口罩是如何从不戴到必须戴的?2020年7月2日。URL:https://www.wired.com/story/how-masks-went-from-dont-wear-to-must-have/[2022-11-28]访问
  5. 张建军,张建军,张建军,等。新冠肺炎疫情早期美国媒体对新冠肺炎疫情传播的影响分析[J] .中国医学杂志,2020,31(2):335-342。[CrossRef]
  6. 蔡伟,Burch AD, Patel JK。愈演愈烈的反亚洲暴力:谁在哪里受到攻击?《纽约时报》2021年4月3日。URL:https://www.nytimes.com/interactive/2021/04/03/us/anti-asian-attacks.html[2022-11-28]访问
  7. 医疗民粹主义与COVID-19大流行。全球公共卫生2020;10(10):1417-1429。[CrossRef] [Medline]
  8. “要么给我自由,要么给我新冠肺炎”:反封锁抗议者从来不是特朗普的傀儡。common Public 2020 Dec 08;5(3-4):126-128。[CrossRef]
  9. Perry SL, Whitehead AL, Grubbs JB。文化战争和COVID - 19行为:基督教民族主义、宗教信仰和冠状病毒大流行期间美国人的行为[J] .科学研究与宗教,2020年7月26日;59(3):405-416。[CrossRef]
  10. Buštíková L, Baboš P.新冠时期的最佳:大流行时期的民粹主义者。政治治理2020 12月17日;8(4):496-508。[CrossRef]
  11. 医学民粹主义。中国生物医学工程学报(英文版);2019;22(1):1-8。[CrossRef] [Medline]
  12. Mede NG, Schäfer MS.科学相关民粹主义:民粹主义对科学的要求概念化。公众理解科学2020;29(5):473-491 [j]免费全文] [CrossRef] [Medline]
  13. Żuk P, Żuk P, Lisiewicz-Jakubaszko J.波兰的反疫苗运动:反对接种疫苗的社会文化条件和对公共卫生的威胁。疫苗2019年3月07日;37(11):1491-1494。[CrossRef] [Medline]
  14. 罗默D,贾米森KH。论新冠肺炎疫情防控中的“阴谋论”[j]; contemporary medicine; 2010;免费全文] [CrossRef] [Medline]
  15. Eberl JM, Huber RA, Greussing E.从民粹主义到“流行病”:为什么民粹主义者相信COVID-19阴谋[J]选举民意政党2021年6月15日;31(sup1):272-284。[CrossRef]
  16. Scherer LD, McPhetres J, Pennycook G, Kempe A, Allen LA, Knoepke CE,等。谁容易受到在线健康错误信息的影响?四种社会心理假设的测试。心理健康杂志,2011;40(4):274-284。[CrossRef] [Medline]
  17. Casarões G, magalh es D.羟氯喹联盟:极右翼领导人和另类科学传教士如何联合起来推广一种神奇的药物。Rev Adm Pública 2021 2月;55(1):197-214。[CrossRef]
  18. 埃博拉、推特和错误信息:一个危险的组合?英国医学杂志2014年10月14日;349:g6178。[CrossRef] [Medline]
  19. 拉森HJ。最大的流行病风险是什么?病毒的错误信息。Nature 2018; 10;562(7727):309。[CrossRef] [Medline]
  20. Carey JM, Chi V, Flynn DJ, Nyhan B, Zeitzoff T.疾病流行和疫情纠正信息的影响:来自巴西寨卡病毒和黄热病的证据。科学通报,2020;6(5):eaaw7449 [j]免费全文] [CrossRef] [Medline]
  21. 如何对抗信息大流行。柳叶刀2020 Feb 29;395(10225):676 [免费全文] [CrossRef] [Medline]
  22. 冠状病毒是第一次真正的社交媒体“信息大流行”。《麻省理工科技评论》2020年2月12日。URL:https://www.technologyreview.com/2020/02/12/844851/the-coronavirus-is-the-first-true-social-media-infodemic/[2022-11-28]访问
  23. 刘建军,刘建军,刘建军。网络公共领域的研究进展。社会科学与计算,2010年9月21日;29(3):277-287。[CrossRef]
  24. Chandrasekaran R, Mehta V, Valkunde T, Moustakas E.关于COVID-19大流行的推文主题、趋势和情绪:时间信息监测研究。[J]互联网研究,2020,10 (2):1 - 2 [J]免费全文] [CrossRef] [Medline]
  25. 信息流行病学和信息监控:一套新兴的公共卫生信息学方法框架,用于分析互联网上的搜索、交流和出版行为。[J]医学互联网研究2009年3月27日;11(1):e11 [J]免费全文] [CrossRef] [Medline]
  26. 信息流行病学:(错误)信息的流行病学。中华医学杂志2002;11(3):763-765。[CrossRef] [Medline]
  27. van Lent LG, Sungur H, Kunneman FA, van de Velde B, Das e。用推特衡量公众对埃博拉的关注和恐惧。医学互联网研究,2017年6月13日;19(6):e193 [J]免费全文] [CrossRef] [Medline]
  28. 多尔顿AR,保罗·MJ。识别Twitter上的保护性健康行为:对旅行建议和寨卡病毒的观察研究。[J]医学互联网研究,2019,5 (5):e13090 [J]免费全文] [CrossRef] [Medline]
  29. 张建军,张建军,李建军,等。推特上的寨卡病毒:地点、演员和概念的时间变化。JMIR公共卫生监测2017年4月20日;3(2):e22 [j]免费全文] [CrossRef] [Medline]
  30. Chew C, Eysenbach G. Twitter时代的流行病:2009年H1N1爆发期间Twitter的内容分析。PLoS One 2010; 11 (11):e14118 [j]免费全文] [CrossRef] [Medline]
  31. 杨玉成,谢爱华,刘建军,杨玉成。推特上自我报告的COVID-19症状:一种分析和研究资源。医学信息学报,2020,01;27(8):1310-1315 [J]免费全文] [CrossRef] [Medline]
  32. 沈超,陈安,罗超,张杰,冯斌,廖伟。基于社交媒体症状和诊断报告的中国大陆COVID-19病例数预测:观察性信息监测研究。[J]医学信息学报,2020,28;22(5):e19421 [J]免费全文] [CrossRef] [Medline]
  33. 雷泽D,甘乃迪R,金G,维斯皮纳尼A.大数据。谷歌流感的寓言:大数据分析中的陷阱。Science 2014年3月14日;343(6176):1203-1205。[CrossRef] [Medline]
  34. Abd-Alrazaq A, Alhuwail D, Househ M, Hamdi M, Shah Z. 2019冠状病毒病大流行期间推特用户最关注的问题:信息监测研究。医学互联网研究,2020年4月21日;22(4):e19016 [J]免费全文] [CrossRef] [Medline]
  35. Wahbeh A, Nasralah T, Al-Ramahi M, El-Gayar O.挖掘医生在社交媒体上的观点以获得对COVID-19的见解:混合方法分析。中华医学会公共卫生监测2020年6月18日;6(2):e19276 [j]免费全文] [CrossRef] [Medline]
  36. 李军,徐强,Cuomo R, Purushothaman V, Mackey T.中国社交媒体平台微博疫情早期数据挖掘与内容分析:回顾性观察性信息监测研究。公共卫生监测2020年4月21日;6(2):e18700 [j]免费全文] [CrossRef] [Medline]
  37. 王杰,周勇,张伟,Evans R,朱晨。新冠肺炎疫情期间中国社交媒体用户表达的担忧:新浪微博数据的内容分析。医学与互联网研究,2020年11月26日;22(11):e22152 [J]免费全文] [CrossRef] [Medline]
  38. 张松,片伟,马峰,倪铮,刘勇。中国社交媒体新冠肺炎疫情特征分析:探索性研究。JMIR公共卫生监测2021 Feb 05;7(2):e26090 [j]免费全文] [CrossRef] [Medline]
  39. Lwin MO, Lu J, Sheldenkar A, Schulz PJ, Shin W, Gupta R,等。推特上围绕COVID-19大流行的全球情绪:推特趋势分析JMIR公共卫生监测2020年5月22日;6(2):e19447 [j]免费全文] [CrossRef] [Medline]
  40. 周X, Y,歌江H,王Q, Z曲周X, et al。中国新冠肺炎疫情暴发初期和疫情复燃期间公众对防控措施的反应比较:信息流行病学研究[J]医学互联网研究,2021年4月05日;23(4):e26518 [J]免费全文] [CrossRef] [Medline]
  41. dogan C, Buntine W, Linger H, brent S.六个国家公众对COVID-19非药物干预措施的看法和态度:Twitter数据的主题建模分析。[J]医学互联网研究,2020,03;22(9):e21419 [J]免费全文] [CrossRef] [Medline]
  42. Ophir Y, Walter D, Arnon D, Lokmanoglu A, Tizzoni M, Carota J,等。意大利媒体对COVID-19的描述及其与社区流动性的关系:一种混合方法[J]卫生通讯2021年3月4日;26(3):161-173。[CrossRef] [Medline]
  43. 李建军,刘建军。数据驱动的人物角色发展。中国计算机科学与工程学会年会论文集。2008年4月发表于:CHI '08;2008年4月5日至10日;意大利佛罗伦萨1521-1524页[CrossRef]
  44. 杨建军,郭海峰,杨建军,杨建军。基于网络社交媒体数据的虚拟人物模型研究。中文信息学报,2018,11(4):1-26。[CrossRef]
  45. Haupt MR, Weiss SM, Chiu M, Cuomo R, Chein JM, Mackey T.新冠肺炎患者社交距离依从性的心理和情境分析。[J]中华大众健康杂志,2022;15(1):44-53。[CrossRef]
  46. 高燕,谢忠,李东。电子烟用户对新冠肺炎大流行的看法:基于Twitter数据的观察性研究。JMIR公共卫生监测2021年1月05日;7(1):e24859 [j]免费全文] [CrossRef] [Medline]
  47. van Draanen J, Tao H, Gupta S, Liu S. Twitter上大麻对话的地理差异:信息流行病学研究。JMIR公共卫生监测2020 Oct 05;6(4):e18540 [j]免费全文] [CrossRef] [Medline]
  48. Walter D, Ophir Y, Jamieson KH。2015-2017年,俄罗斯推特账户与疫苗话语的党派分化。[J]中华卫生杂志;2010;31(5):718-724。[CrossRef] [Medline]
  49. 徐WW。映射全球另类右翼和反法反公众的关联行动。国际医学杂志,2020;14:10 -10。[CrossRef]
  50. Jackson SJ, Foucault Welles B.劫持#myNYPD:社交媒体异议和网络反公众。[J] .通讯学报,2015,05;65(6):932-952。[CrossRef]
  51. 种族正义活动家标签:反公众与话语流通。新媒体学报,2016;20(2):495-514。[CrossRef]
  52. Adam S, Häussler T, Schmid-Petri H, Reber U.网络辩论中的联盟与反联盟:对德国和英国气候变化辩论的分析。新媒体学报2019,6月19日;21(11-12):2671-2690。[CrossRef]
  53. 李建军,李建军。微博上公众对新冠肺炎疫情的认知:情感分析和主题建模研究。JMIR公共卫生监测2020年11月11日;6(4):e21978 [j]免费全文] [CrossRef] [Medline]
  54. Kwok SW, Vadde SK, Wang G.澳大利亚推特用户与COVID-19疫苗接种相关的推文主题和情绪:机器学习分析。[J]互联网研究与发展[J]; 2009;23(5): 563 - 567 [J]免费全文] [CrossRef] [Medline]
  55. Blei DM, Lafferty JD。动态主题模型。参见:第23届机器学习国际会议论文集。2006年6月出席:ICML '06;2006年6月25日至29日;匹兹堡,宾夕法尼亚州,美国第113-120页。[CrossRef]
  56. 裴尼特,阮东,李亚ata M. BERT:主题模型和BERT联合力量的语义相似度检测。在:计算语言学协会第58届年会论文集。2020提交于:ACL '20;2020年7月5日至10日;虚拟p. 7047-7055。[CrossRef]
  57. 刘建军,刘建军,刘建军。基于零学习的跨语言语境化话题模型。在:计算语言学协会欧洲分会第16届会议论文集:主卷。2021年4月19日提交于:EACL '21;2021年4月19日至23日;虚拟第1676-1683页。[CrossRef]
  58. 王志强,王志强,李建平。基于多主题的主题建模方法。中文信息学报,2020;12(8):439-453。[CrossRef]
  59. 唐健,王志强,张敏。基于后验收缩分析的话题建模限制因素研究。第31届国际机器学习会议论文集,2014 Jun, presentation at: ICML '14;2014年6月21日至26日;北京,中国,第190-198页。
  60. Blei DM, Lafferty JD。相关主题模型。第18届国际神经信息处理系统学术会议论文集。2005,presentation at: NeurIPS '05;2005年12月5日至8日;加拿大温哥华。
  61. Top2Vec:主题的分布式表示。2020年8月19日。
  62. Devlin J, Chang MW, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。参见:计算语言学协会北美分会2019年会议论文集:人类语言技术。2019提交于:NAACL '19;2019年6月2日至7日;明尼阿波利斯,明尼苏达州,美国第4171-4186页。[CrossRef]
  63. 杨建军,杨建军。新闻框架分析:一种归纳混合方法的计算方法。常用方法2019年7月23日;13(4):248-266。[CrossRef]
  64. 李建军,李建军,李建军,等。基于微博的医疗决策日相关信息的社会文化分析:计算混合方法分析。JMIR Form Res 2022 Apr 13;6(4):e35795 [免费全文] [CrossRef] [Medline]
  65. 结合自然语言处理和网络分析来研究倡导组织如何在社交媒体上激发对话。中国科学:自然科学,2016 (10);113(42):11823-11828 [j]免费全文] [CrossRef] [Medline]
  66. Banda JM, Tekumalla R,王刚,余健,刘涛,丁勇,等。用于开放科学研究的大规模COVID-19 Twitter聊天数据集-国际合作。流行病学杂志2021 Aug 05;2(3):315-324。[CrossRef]
  67. [j] .多变量观测的分类和分析方法。参见:第五届伯克利数理统计与概率研讨会论文集。1965提交于:MSP '65;1965年6月21日至7月18日;伯克利,加州,美国p. 281-297。
  68. 李建平,吴彦宏,李建平。潜在dirichlet分配。[J]数学学报,2003(1);2:993-1022。
  69. Haupt MR, Li J, Mackey TK。使用无监督机器学习识别和描述twitter上与羟氯喹相关的科学权威错误信息话语。大数据Soc 2021 May 06;8(1):205395172110138。[CrossRef]
  70. 李俊杰,李俊杰,李俊杰。对着风大喊:医学科学对“胡扯在推特上关于羟氯喹的政治和错误信息的漩涡中。Soc Media Society 2021 6月23日;7(2):205630512110249。[CrossRef]
  71. Żuk P, Żuk P.波兰的右翼民粹主义和YouTube上的反疫苗神话:对公共卫生的政治和文化威胁。全球公共卫生,2020;15(6):790-804。[CrossRef] [Medline]


ANTMN:主题模型网络分析
API:应用程序编程接口
LDA:潜在狄利克雷分配
个人防护用品:个人防护装备


T麦基编辑;提交18.07.22;由M Haupt, Y Ophir同行评审;对作者的评论15.08.22;修订版本收到26.09.22;接受02.11.22;发表09.12.22

版权

©Weiai Wayne Xu, Jean Marie Tshimula, Ève dub, Janice E Graham, Devon Greyson, Noni E MacDonald, Samantha B Meyer。最初发表于JMIR信息流行病学(https://infodemiology.www.mybigtv.com), 2022年12月9日。

这是一篇基于知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首先发表在JMIR infoepidemiology上,并适当引用。必须包括完整的书目信息,到https://infodemiology.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map