JMIR Infodemiology JMIR Infodemiology 2564 - 1891 卡塔尔世界杯8强波胆分析 加拿大多伦多 v2i2e36941 36196144 10.2196/36941 原始论文 原始论文 Reddit上关于COVID-19大流行的观点:美国、英国、加拿大和澳大利亚的比较自然语言处理研究 米查姆 梅雷迪思 Rovetta 亚历山德罗 加威 蒙古族 博士学位 1
生物医学信息系 犹他大学 马德里大街6301号 盐湖城,德州,84121 美国 1 2159150417 mengke.hu@utah.edu
https://orcid.org/0000-0001-9421-6432
康威 迈克 博士学位 1 2 3. https://orcid.org/0000-0002-3209-8108
生物医学信息系 犹他大学 盐湖城,德克萨斯 美国 计算机与信息系统学院“, 墨尔本大学 卡尔顿 澳大利亚 卫生数字化转型中心 墨尔本大学 卡尔顿 澳大利亚 通讯作者:胡梦珂 mengke.hu@utah.edu Jul-Dec 2022 27 9 2022 2 2 e36941 31 1 2022 6 6 2022 13 8 2022 15 9 2022 ©Mengke Hu, Mike Conway。最初发表于JMIR信息流行病学(https://infodemiology.www.mybigtv.com), 27.09.2022。 2022

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用最初发表在JMIR Infodemiology上的原创作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

自2020年3月11日世界卫生组织宣布新冠肺炎大流行以来,该疾病在全球范围内产生了前所未有的影响。像Reddit这样的社交媒体可以作为增强态势感知的资源,特别是在危机期间监测公众态度和行为方面。然后,可以利用所获得的见解更好地了解COVID-19危机期间的公众态度和行为,并支持传播和健康促进信息。

客观的

这项研究的目的是利用来自社交媒体平台Reddit的数据,比较四个主要英语国家(美国、英国、加拿大和澳大利亚)对2020-2021年COVID-19大流行的公众态度。

方法

我们使用了主题建模自然语言处理方法(更具体地说是潜在狄利克雷分配)。主题建模是一种流行的无监督学习技术,可用于从大量文本中自动推断主题(即语义相关的类别)。我们的数据来自6个特定国家的、与covid -19相关的reddit子版块(r/冠状病毒澳大利亚、r/冠状病毒下、r/加拿大冠状病毒、r/加拿大冠状病毒、r/英国冠状病毒和r/冠状病毒)。我们使用主题建模方法来调查和比较每个国家关注的主题。

结果

我们整合的Reddit数据集包括2020年2月至11月期间在美国、英国、加拿大和澳大利亚收集的84,229篇发起帖子和1,094,853条相关评论。在研究期间(2020年2月至2020年11月),所有四个国家与covid -19相关的reddit帖子量均持续下降。在封锁期间,帖子数量达到峰值。英国和澳大利亚的版块比美国或加拿大的版块包含更多基于证据的政策讨论。

结论

这项研究提供了证据来支持这一论点,即Reddit平台上四个国家讨论的突出主题之间存在关键差异。此外,我们的方法表明,Reddit数据有潜力提供在基于调查的方法中不易发现的见解。

新型冠状病毒肺炎 社交媒体 自然语言处理 Reddit
简介

2019年12月,中国武汉市报告了多起呼吸道疾病病例[ 1].这种最终被命名为COVID-19的呼吸道疾病是由一种被确定为SARS-CoV-2的新型冠状病毒引起的。COVID-19是一种高度传染性传染病,通常通过呼吸道飞沫或接触传播[ 2].自2020年3月11日世界卫生组织(世卫组织)宣布COVID-19大流行以来,这一疾病在全球产生了前所未有的影响,截至2022年6月13日,确诊病例超过5.4亿例,死亡630万人[ 3.].根据一项新的分析,因COVID-19大流行而死亡的人数可能比官方数据高出大约三倍。 4].

为了抑制COVID-19的传播,各国政府实施了几波边境关闭、旅行限制、隔离和其他非药物干预措施,如强制佩戴口罩、限制公共活动和限制旅行[ 5- 7],引发人们对社会动荡、教育中断和经济危机的担忧[ 8].关于病毒及其传播的科学不确定性造成了动荡的政治和社会环境[ 9 10].病毒的动态特性加剧了这些担忧,随着时间的推移会出现新的变种[ 10 11],这给大流行的预计进程和对政策的影响带来了不确定性。此外,COVID-19的出现与人群心理健康问题的显著恶化有关,特别是对大学生和孕妇等弱势群体而言[ 12- 14].

传统监测系统,包括美国疾病控制和预防中心和欧洲流感监测计划所使用的监测系统,都依赖病毒学和临床数据,每周发布一次数据,通常报告滞后1-2周[ 15].调查数据还被用于调查COVID-19在社区中的传播情况。特别是生态瞬时评估已被证明是一种有价值的研究工具[ 16].此外,同行评议的科学文献和预印本数据是研究COVID-19影响的流行数据来源。

Reddit、Twitter、Facebook、微博等社交媒体提供了丰富、有机、公众可访问的第一人称叙述。 17- 25],这些数据集可用于识别疫情并提供态势感知。在COVID-19大流行期间,更重要的是,社交媒体数据为更好地了解危机期间的公众态度和行为提供了一种手段,以支持传播和健康促进信息,特别是在无法随时获得调查数据的情况下[ 15 26].

在封锁期间,社交媒体平台通过其个人用户为孕妇提供信息支持和在线服务,以获得产前保健服务,如咨询和安排必要的预约[ 27].同样,微博帖子也被证明有助于调查中国公众对COVID-19疫苗接种的态度[ 28 29].在传统调查数据有限的情况下,像Reddit这样的替代数据源尤其有价值。例如,Reddit被用来研究大流行对饮食失调行为的影响[ 30.].

主题建模是一种流行的统计无监督机器学习技术,已被广泛用于发现健康相关文本集合中的潜在主题[ 31].由于其在促进大规模文档集合分析方面的实用性,已在诸如生物/生物医学文本挖掘等领域获得了有用的结果;临床信息学;以及从其他文本数据源提取信息,包括政府报告、报纸文章和科学期刊[ 32].社交媒体数据(如Reddit)经常与主题建模方法结合使用,以探索公众关注的问题、态度和政策。例如,Zhang等[ 33]利用中国社交媒体平台确定了八个热门话题,包括阴谋论、政府应对、预防行动、新发病例、传播途径、起源和命名、疫苗和药物、症状和检测。主题建模也被用于研究不同国家与covid -19相关的担忧[ 34].利用主题建模技术(如潜在狄利克雷分配(LDA))对帖子进行分类[ 35,可能是最流行的主题建模方法,已被广泛用于分析COVID-19危机期间的情绪和担忧[ 1 10 19 20. 36- 41],尤其是在大型社交媒体数据集的背景下。使用LDA的主题建模也证明了从组合数据集中发现主题的实用性,例如将巴西的新闻文章和推文结合起来研究COVID-19的影响[ 42].LDA也被用于研究情绪随时间的变化[ 10 43- 46].特别是随着COVID-19疫苗相关问题越来越受到公众的关注,我们利用LDA研究了人们对COVID-19疫苗接种的看法变化,发现随着时间的推移,公众的态度变得越来越有利[ 47 48].然而,所确定的主题是否可解释通常需要定性评估[ 49 50].

Reddit是最受欢迎的社交媒体平台之一,截至2020年5月,拥有超过4.3亿活跃用户和120万个Reddit子论坛(即以主题为重点的子论坛),其中超过70%的用户来自英语国家[ 51 52].一些看板对地点有明确的描述(例如, / CoronavirusUK, r / CanadaCoronavirus),以便更有针对性地分析来自不同国家的用户[ 43].

在这项工作中,我们使用了来自代表四个英语国家(美国、英国、加拿大和澳大利亚)的六个特定地理位置的与covid -19相关的Reddit子Reddit的数据,以调查(1)四个国家讨论的突出主题之间是否存在关键差异;(2)Reddit数据是否有潜力提供基于调查的方法中不容易显现的见解。一般来说,LDA主题建模应用于每个特定国家的Reddit数据集。我们为每个国家训练了由不同数量的主题组成的多个主题模型,并手动检查每个模型,以找到每个国家的最佳模型(即生成最一致和最少冗余主题的模型)。我们根据每个国家的模型进一步比较了每个国家的总结主题,并将它们映射到四个常见的主题类别(即元类别)。最后,研究了纵向主题趋势,以确定常见主题类别的趋势,然后将其映射到每个国家的COVID-19事件。

方法 数据采集与预处理

由于Reddit数据通常不包括地理位置信息,我们收集了与美国、英国、加拿大和澳大利亚相关的六个最受欢迎的Reddit子版块(Reddit上的主题论坛)的数据( r/冠状病毒英国,r/冠状病毒,r/冠状病毒加拿大,r/加拿大冠状病毒,r/冠状病毒澳大利亚,r/冠状病毒澳大利亚),详见 表1

数据收集使用推档。io ( 52应用程序编程接口(API),一种将Reddit数据实时归档到其在线数据库的服务。我们使用了推档。io API用于收集covid -19相关数据,因为之前的工作表明,这种方法产生的数据集比其他方法(例如PRAW API)更完整[ 53].然而,在数据收集过程中,我们注意到pushshift。IO未能识别所有新更新,包括删除的评论[ 54].为了确保我们收集了尽可能完整的数据集,我们在3个月后重新收集了同一时间段的数据,并将新旧数据集合并以获得更完整的数据集。

整合的Reddit数据集包括在2020年2月至11月期间收集的84,229篇发起帖子和1,094,853条相关评论,这些评论来自于 表1.根据reddit的描述,这些reddit子版块与特定国家相关。例如, r / CanadaCoronavirus主要被加拿大人用来讨论COVID-19危机。在所有针对特定国家的COVID-19看板中,我们选择的六个看板拥有最多的成员(>8000),这意味着它们是目前最活跃、最受欢迎的针对特定地区的COVID-19看板。由于用户通常会在发贴中呈现自己的经历[ 55],由于随后的评论经常受到跑题讨论的影响,我们将主题研究限制在仅发起帖子。鉴于Reddit不提供用户级别的地理位置信息,我们将Reddit用户在特定国家的Reddit子Reddit上发帖的事实视为他们在该国家的位置的代理。

为了建立每个国家的语料库,我们组织了在 表1.例如,为了构建一个澳大利亚数据集,我们从提交的数据中提取了所有文本数据(标题部分和描述部分) r / CoronavirusAustralia而且 r / CoronavirusDownunder.然后,我们自动识别url和电子邮件地址,这些地址从提交的文本中删除,以简化后续的主题建模过程。为了删除停止词(即常见的英语虚词,如“the”、“of”和“it”),我们首先使用了自然语言工具包(NLTK 3.3 for Python 2.7) [ 56初始化停止词列表。停止词列表然后进一步使用基本词列表(最初为语言学习和测试而开发的词汇表)[ 57].随后,提交的文本数据被标记化(即字符串) 我们走吧!被标记为列表“let”,“' s”,“go”,“!”)和lemmized(即字符串 我在看报纸被分解为“I”、“be”、“read”、“the”、“paper”),使用Python SpaCy 2.2.1包[ 58)来转换不同形式的单词(例如, 咳嗽,咳嗽)转化为规范形式(例如, 咳嗽).

2021年7月31日的reddit信息。

国家 Subreddit 成员人数 日期子reddit创建
联合王国 r / CoronavirusUK 92600年 2020年2月11日
美国 r / coronavirusus 141000年 2020年2月12日
加拿大 r / CoronavirusCanada 9000 2020年2月12日
加拿大 r / CanadaCoronavirus 67300年 2020年3月1日
澳大利亚 r / CoronavirusAustralia 10800年 2020年2月21日
澳大利亚 r / CoronavirusDownunder 90300年 2020年2月23日
主题建模和公共主题注释

我们使用主题建模技术来比较来自美国、英国、加拿大和澳大利亚的广泛主题。一般程序描述在 图1.具体来说,我们采用了生成概率建模算法LDA,该算法将文档建模为主题的随机混合物,其中每个主题都被描述为单词的分布[ 35].

我们使用Gensim 3.8.3中的LDA实现为四个国家中的每个国家训练了多个主题模型(由10个、15个和20个主题组成)[ 59工具包。在每个模型下,我们根据主题关键词对主题进行总结。然后我们手动检查主题是否重叠或冗余。我们发现,当模型包含少于10个主题时,主题在主题上重叠,而当模型包含超过20个主题时,主题是冗余的。因此,我们选择了10、15和20个主题来训练模型,以进行进一步的手工检查。

对于每个主题模型,人工检查与每个主题主题相关的最具特征的关键词,并根据这些主题的贡献概率专门关注那些特别具有代表性的帖子,以确定哪个模型最能表征数据集。在手动识别主题的过程中,我们注意到四个国家的模型具有不同的一致、不重叠的主题的最佳数量。此外,一些模型包含了该国特有的主题(即,它们没有出现在其他国家的模型中)。例如,英国主题模型中的“心理健康”主题并没有出现在美国主题模型中。为了比较和对比四个国家的共同主题,我们将这些不同的主题合并为四个共同主题类别。主题及其到公共主题类别的映射列在 表2

主题训练和映射到公共主题类别的过程。

四个国家的共同主题。

常见的话题 主题
COVID影响 工作、金融、教育、旅行限制、保持社交距离
COVID预防 戴口罩,洗手,有传播风险
病例报告 病例报告,与医院互动报告
政策与新闻 政策公告、新闻、问答
常见话题在美国、英国、加拿大和澳大利亚流行

通过首先为每个帖子找到“文档主题”,研究了美国、英国、加拿大和澳大利亚的常见主题的流行程度。文档主题(document-topic)是指一个主题是给定文档的主要组成部分(根据贡献概率)[ 60],可用于研究每个国家相关数据集中特定主题的比例。由于美国、英国、加拿大和澳大利亚数据集的主题及其分布各不相同,因此根据每个国家相关的数据集分别分析文档主题。为了找到每个国家的文档主题,我们首先需要找到识别主要主题的阈值概率。具体而言,对于每个与国家相关的数据集,如果某个文档的主题概率高于阈值,则该主题被视为该文档的主要组成部分之一。实际上,文档主题并不是均匀分布的(例如,有些文档包含多个文档主题,而有些文档不包含文档主题)。为了均匀地处理每个与国家相关的数据集,我们迭代测试不同的候选概率值,直到文档主题的数量接近该国家相关数据集中的文档数量。更准确地说,从我们为每个国家训练的主题模型中,我们有:(1)一组主题,(2)与每个主题相关的单词列表(我们使用40个单词),根据它们对该主题的贡献概率进行排名,以及(3)一个文档(提交帖子)列表,其中估计每个主题的比例。为了找到阈值,每当我们设置测试的阈值概率时,我们都会计算每次提交的文档主题的数量,并对所有提交的文档主题进行求和,直到文档主题的总数接近该国家相关数据集中的提交数量。执行这一过程的原因是为了帮助确保文档主题准确地涵盖了Reddit数据集中所有提交的主题,从而最大限度地提高了所表示内容的比例[ 60].我们重复这个过程,直到找到每个国家的阈值。

使用每个国家的文档-主题阈值,我们首先计算主题概率高于阈值的帖子数量,然后将该数量除以帖子总数,从而确定每个主题的比例。共同主题类别的比例是由属于每个共同主题类别的主题的比例之和确定的。

Reddit和COVID-19事件时间表中的常见主题趋势

根据每个国家的文档主题阈值,我们还计算了每周特定公共主题类别的提交数量,然后计算每个公共主题类别的每周提交量,以绘制2020年2月至11月每个国家的公共主题趋势。我们还从世卫组织绘制了COVID-19事件时间表[ 61]和Think Global Health [ 62]到我们的Reddit数据趋势图进行比较。

道德的考虑

我们的分析仅限于公开的讨论内容,犹他大学的机构审查委员会根据美国联邦法规(CFR) 45 CFR 46.101(b)中定义的豁免2豁免了研究程序和数据的伦理审查(IRB_00076188)。

结果 语料库的特点

我们的COVID-19 Reddit数据集包括10个月的讨论(2020年2月至2020年11月),涵盖了COVID-19早期的主要事件,包括美国、英国、加拿大和澳大利亚的最初爆发和随后的封锁。在此期间,共有103,180名独立用户发表了84,229篇文章和1094,853条评论。 表3总结每个子reddit的独特用户、提交和相关评论的数量。

为了进一步研究在Reddit上发布的行为,我们总结了每个国家的每周帖子量和用户量,如图所示 图2.我们发现用户数量与帖子数量是一致的,这表明帖子是由Reddit的有机用户创建的,而不是由“水军”[ 63]的付费海报。因此,我们用于分析的帖子数据可以被认为是反映了reddit子用户在COVID-19危机期间的真实观点和行为。我们还注意到,这四个国家的最高流量峰值出现在2020年2月至4月期间,当时实施了第一波封锁。此外,帖子量和用户量随着时间的推移而下降。

Reddit 2020年2月至11月的COVID-19数据。

国家数据集 Subreddit 唯一用户n 提交,
联合王国 r / CoronavirusUK 20482年 17350年
美国 r / coronavirusus 55380年 35885年
加拿大 r / CoronavirusCanada 4061 4625
加拿大 r / CanadaCoronavirus 10420年 9670
澳大利亚 r / CoronavirusAustralia 3114 2359
澳大利亚 r / CoronavirusDownunder 15537年 14340年

按周发布和用户数量(日志规模)。

使用公共主题注释的主题建模结果

在手动检查美国、英国、加拿大和澳大利亚的主题模型(10、15、20个主题)后,我们定性地确定了最一致的模型,以及每个国家相关数据集的文档主题阈值,如图所示 表4.我们选择手动模型而不是使用自动化方法(如LDA相干评分)的原因是由于主题模型解释的局限性[ 49].

为美国、英国、加拿大和澳大利亚手动选择的主题模型,以及相关的文档主题阈值。

国家 选择模型 文档主题的阈值
美国 15-topics模型 0.19881
联合王国 10-topics模式 0.24
加拿大 15-topics模型 0.15864215
澳大利亚 10-topics模型 0.18434
常见话题在美国、英国、加拿大和澳大利亚流行

对于每个模型中的每个主题,我们将该主题映射到四个公共主题(在 表2),并根据中所示的阈值计算每个主题的文档数量 表4.每个国家每个主题的文件比例列于 图3.详细的计算用于生成 图3载于 多媒体附件1

我们发现,美国的大多数帖子侧重于COVID-19预防策略,而英国、加拿大和澳大利亚的帖子更侧重于COVID-19的影响,包括教育、金融和可能有限的食物供应。

美国(US)、英国(UK)、加拿大(CAN)和澳大利亚(AUS)的主题比例。

Reddit和COVID-19事件时间表中的常见主题趋势

在可视化确定的主题模型时,我们还总结了年美国、英国、加拿大和澳大利亚的主题趋势 图4

在这两个 图2而且 图4,可以观察到,所有国家都经历了发帖活动的早期高峰。用户体积图 图2和趋势 图4暗示用户在锁定事件期间发布更多内容。在这四个国家,发帖量和用户量都在2020年3月达到峰值。同月,所有这些国家都宣布了封锁或旅行限制政策。帖子数量的增加可能反映了公众对病毒的恐惧和担忧,以及许多人发现自己被限制在家中,有充足的时间访问社交媒体的事实。与大流行相关的突出事件清单列于 表5

主题周趋势(A)美国,(B)澳大利亚,(C)加拿大,和(D)英国。此图的更高分辨率版本可在 多媒体附件2

2020年COVID-19封锁事件时间表[ 62].

日期 事件
3月11日 英国封锁;美国宣布三级旅行警告
3月18日 美国和加拿大暂停了两国之间不必要的旅行
3月23日 英国封锁
3月24日 澳大利亚禁止所有海外旅行
4月18日 美国:对封锁的抗议
6月24日 美国:自放松封锁限制以来,26个州的病例率上升
7月3日 英国宣布结束除美国以外的旅行限制
7月4日 澳大利亚墨尔本收紧了对12个郊区的限制
9月5日 澳大利亚将严格封锁延长至9月底
10月12日 英国宣布新的封锁规定
讨论 主要研究结果

在这项工作中,我们应用主题建模和可视化技术,比较了美国、英国、加拿大和澳大利亚对COVID-19大流行相关事件的看法,并调查了2020年2月至11月COVID-19事件的影响。

COVID-19 Reddit数据集的发布量变化

图2,我们观察到在10个月的研究期间,帖子量和用户量逐渐下降。我们还观察到,2020年2月至4月出现了早期高峰,这是美国、英国、加拿大和澳大利亚抗击新冠肺炎传播的关键时期。帖子量下降的一个潜在原因是,一些用户可能会避免社交媒体,因为他们对与covid -19相关的新闻和讨论感到越来越焦虑,并寻求保护自己的心理健康[ 64].另一个原因是用户可能会习惯“新常态”,这被认为是当局实施社交距离措施后的接受阶段[ 65].在这一阶段,Aiello等[ 65发现人们更愿意寻找继续社交的解决方案;例如,公园和户外空间的访问量增加了。因此,为了寻求实际的社会支持,用户在与新冠疫情相关的版块中发布的内容减少了。

从大量的帖子中,我们可以看到Reddit支持收集大量的数据,这些数据可以洞察人群的态度和行为。先前的研究表明,对公众行为和态度的分析可以帮助公共卫生机构和政策制定者在危机时期有效应对[ 1].

美国、英国、加拿大和澳大利亚的话题变化

所示的常见主题 表2这四个国家的情况各不相同。如 图3我们发现,在美国,大多数帖子都集中在COVID-19的预防上,只有一小部分帖子直接讨论了与COVID-19相关的政策。在英国、加拿大和澳大利亚,大多数帖子关注的是COVID-19的影响,包括失业、粮食不安全和焦虑情绪。尤其是在英国和澳大利亚,用户关注的重点是COVID-19和政府政策的影响,至少在这些子标题中是这样表达的。在大流行之初,Reddit的一个核心问题是 -由于关于病毒如何传播的科学不确定性,使用以有效的COVID-19预防策略为中心的人群[ 9 10].COVID-19的社会影响也是一个主要话题,这与COVID-19危机带来巨大心理压力并与精神健康问题相关的事实是一致的[ 12- 14].

图4,我们发现与主题相关的帖子总数在3月份达到峰值,当时所有四个国家都宣布封锁并实施旅行限制 表5有关锁定事件的摘要)。特别是在2020年3月,当COVID-19爆发时,各国政府实施了边境关闭、旅行限制和隔离[ 5- 7],人们的话题集中在COVID-19的影响,包括教育和经济中断[ 8].

限制

本文所报道的工作并非没有局限性。与covid -19相关的版块仍然相对较新,其中大多数是在2020年2月启动的。在COVID-19大流行的早期阶段,传播了大量与COVID-19有关的谣言[ 66这使得Reddit的数据在监测疫情方面不那么可靠,但在监测虚假信息和公众担忧方面很有用。此外,Reddit还存在社会人口统计学偏见。例如,这项服务在城市和郊区比在农村更受欢迎[ 67].

使用LDA的主题建模有许多局限性,特别是在评估主题质量方面。在手动检查主题模型时,我们注意到两个问题:(1)非常相似的帖子(例如,COVID-19病例报告)可能被分配到不同的主题;(2)非常简单的帖子(例如,封锁公告)可能与许多主题相关。Xu等人也发现了类似的问题[ 68]在分析临床数据时。

这项工作中的另一个问题与我们通过推送移位收集的Reddit数据的完整性有关。io API [ 52].尽管pushshift。io允许从Reddit收集大量的历史数据,并产生比其他方法(例如PRAW API)更完整的数据集[ 53],它未能识别所有新更新,包括删除的评论[ 54].即使我们重新收集数据以使其更完整,我们策划的Reddit数据可能仍然是缺失的数据。

进一步的限制与不同版块的文化差异有关。由于Reddit的数据一般不包括地理位置信息,我们收集了与美国、英国、加拿大和澳大利亚相关的六个最受欢迎的COVID-19子Reddit的数据。我们检查了这些帖子,注意到大多数用户都是当地人(即来自 r / CanadaCoronavirus主要是加拿大人)。因此,这些版块不仅反映了人们的观点,也反映了四个国家的文化差异。例如,在英国,人们集中讨论政治或与covid -19相关的突发新闻。因此,与政治相关的政策是主导话题 r / CoronavirusUK并不能完全反映人们对新冠肺炎的担忧,它可能只是反映了英国人的讨论习惯。因此,在美国、英国、加拿大和澳大利亚,话题的差异可能并不能完全反映人们对新冠肺炎的看法。

最后,在这项工作中,我们没有明确考虑人口统计学特征(如年龄、社会经济地位、性别[ 52 69]),以及这些特征有何不同。

结论

在这项工作中,我们使用Reddit的数据来研究美国、英国、加拿大和澳大利亚在COVID-19危机期间人们关注的问题的变化。我们发现,在封锁期间,人们在Reddit上发布的帖子更多,四个国家的人们关注的问题也有所不同。此外,这项工作提供了证据来支持这一论点,即Reddit平台上四个国家讨论的突出主题之间存在关键差异。此外,我们的方法表明,Reddit数据有潜力提供在基于调查的方法中不易发现的见解。

计算主题柱状图 图3

更高分辨率版本 图4.主题周趋势(A)美国,(B)澳大利亚,(C)加拿大,和(D)英国。

缩写 API

应用程序编程接口

乔治。

潜在狄利克雷分配

世界卫生组织

本文报道的研究得到了犹他大学“特别强调:新兴COVID-19/SARS-CoV-2研究”种子资助计划的部分支持。内容完全是作者的责任。

没有宣布。

J Y W 埃文斯 R C 新冠肺炎疫情期间中国社交媒体用户表达的担忧:新浪微博微博数据的内容分析 J医疗互联网服务 2020 11 26 22 11 e22152 10.2196/22152 33151894 v22i11e22152 PMC7695542 皮革、皮革制品 一个 帕特尔 B Ruparel 第欧根尼 一个 哈格里夫斯 公里 冠状病毒疾病19 (COVID-19):对临床牙科护理的影响 J Endod 2020 05 46 5 584 595 10.1016 / j.joen.2020.03.008 32273156 s0099 - 2399 (20) 30159 - x PMC7270628 冠状病毒病例 Worldometer 2022-09-19 https://www.worldometers.info/coronavirus/ 亚当 D COVID的真实死亡人数:远高于官方记录 自然 2022 03 603 7902 562 10.1038 / d41586 - 022 - 00708 - 0 35277684 10.1038 / d41586 - 022 - 00708 - 0 冠状病毒:各国旅行限制,边境关闭 半岛电视台 2020 06 03 2022-09-19 https://www.aljazeera.com/news/2020/6/3/coronavirus-travel-restrictions-border-shutdowns-by-country Betsch C Habersaat K 科兹摩集团 监测与COVID-19相关的行为洞察 《柳叶刀》 2020 04 18 395 10232 1255 1256 10.1016 / s0140 - 6736 (20) 30729 - 7 32247323 s0140 - 6736 (20) 30729 - 7 PMC7163179 尼古拉 Alsafi Z Sohrabi C Kerwan 一个 Al-Jabir 一个 Iosifidis C 大官 大官 R 冠状病毒大流行(COVID-19)的社会经济影响:综述 国际外科 2020 06 78 185 193 10.1016 / j.ijsu.2020.04.018 32305533 s1743 - 9191 (20) 30316 - 2 PMC7162753 巴克 T 独唱者 G 阿诺德 Cookson C 随着对经济危机的担忧加剧,冠状病毒宣布大流行 金融时报》 2020 03 11 2022-09-19 https://www.ft.com/content/d72f1e54-6396-11ea-b3f3-fe4680ea68b5 Werron T Ringel l 大流行病实践,第一部分。如何将“经历新冠肺炎大流行”转变为社会学理论化的启发式工具 Sociologica 2020 14 55 72 10.6092 / issn.1971-8853/11172 Doogan C Buntine W 徘徊 H 冲击 年代 6个国家公众对COVID-19非药物干预的看法和态度:对推特数据的主题建模分析 J医疗互联网服务 2020 09 03 22 9 e21419 10.2196/21419 32784190 v22i9e21419 PMC7505256 SARS-CoV-2变体分类和定义 疾病控制和预防中心 2022 04 06 2022-09-19 https://www.cdc.gov/coronavirus/2019-ncov/variants/variant-classifications.html X 对冲基金 年代 首歌ydF4y2Ba C 凯勒 B 史密斯 一个 Sasangohar F 调查COVID-19大流行期间美国大学生的心理健康:横断面调查研究 J医疗互联网服务 2020 09 17 22 9 e22817 10.2196/22817 32897868 v22i9e22817 PMC7505693 首歌ydF4y2Ba C 对冲基金 年代 史密斯 一个 X Sasangohar F COVID-19对美国大学生心理健康的影响:访谈调查研究 J医疗互联网服务 2020 09 03 22 9 e21279 10.2196/21279 32805704 v22i9e21279 PMC7473764 X J NgydF4y2Ba J COVID-19大流行期间孕妇使用社交媒体、不健康的生活方式和流产风险:前瞻性观察研究 JMIR公共卫生监测 2021 01 05 7 1 e25241 10.2196/25241 33293263 v7i1e25241 PMC7787689 金斯堡 J Mohebbi 帕特尔 RS 布拉姆 l Smolinski 女士 才华横溢的 l 使用搜索引擎查询数据检测流感流行 自然 2009 02 19 457 7232 1012 1014 10.1038 / nature07634 19020500 nature07634 Huckins 摩根富林明 达席尔瓦 亚历山大-伍尔兹 W 荷得拉得 E 罗杰斯 C 尼泊尔 SK J 小渊 墨菲 EI 迈耶 毫升 瓦格纳 DD Holtzheimer 体育 坎贝尔 COVID-19大流行早期大学生心理健康与行为:智能手机与生态瞬时评估纵向研究 J医疗互联网服务 2020 06 17 22 6 e20185 10.2196/20185 32519963 v22i6e20185 PMC7301687 克莱因 阿兹 玛吉医生 一个 奥康纳 K 弗洛雷斯Amaro Weissenbacher D 冈萨雷斯埃尔南德斯 G 使用Twitter跟踪COVID-19:自然语言处理管道和探索性数据集 J医疗互联网服务 2021 01 22 23 1 e25314 10.2196/25314 33449904 v23i1e25314 PMC7834613 艾哈迈德 基于“增大化现实”技术 Murad 人力资源 伊拉克库尔德斯坦COVID-19大流行期间社交媒体对恐慌的影响:在线问卷研究 J医疗互联网服务 2020 05 19 22 5 e19556 10.2196/19556 32369026 v22i5e19556 PMC7238863 Abd-Alrazaq 一个 Alhuwail D Househ 哈姆迪 沙阿 Z COVID-19大流行期间推特用户最关注的问题:信息监测研究 J医疗互联网服务 2020 04 21 22 4 e19016 10.2196/19016 32287039 v22i4e19016 PMC7175788 Boon-Itt 年代 Skunkan Y 公众对推特上COVID-19大流行的看法:情绪分析和主题建模研究 JMIR公共卫生监测 2020 11 11 6 4 e21978 10.2196/21978 33108310 v6i4e21978 PMC7661106 Foufi V Timakum T Gaudet-Blavignac C 洛维斯 C 首歌 来自Reddit的文本健康信息挖掘:用提取的实体及其关系分析慢性疾病 J医疗互联网服务 2019 06 13 21 6 e12876 10.2196/12876 31199327 v21i6e12876 PMC6595941 保罗 乔丹 Dredze 公共卫生的社会监测 信息概念、检索和服务综合讲座 2018 圣拉斐尔,加利福尼亚州 摩根克莱普出版社 公园 一个 康威 在线健康社区成员心理状态的纵向变化:了解参与在线抑郁社区的长期影响 J医疗互联网服务 2017 03 20. 19 3. e71 10.2196 / jmir.6826 28320692 v19i3e71 PMC5379019 Wongkoblap 一个 Vadillo Curcin V 社交媒体时代的心理健康障碍研究:系统回顾 J医疗互联网服务 2017 06 29 19 6 e228 10.2196 / jmir.7215 28663166 v19i6e228 PMC5509952 康威 奥康纳 D 社交媒体、大数据和心理健康:当前的进展和伦理影响 Curr Opin Psychol 2016 06 9 77 82 10.1016 / j.copsyc.2016.01.004 27042689 PMC4815031 卡茨 南帝 NgydF4y2Ba COVID-19大流行背景下的社交媒体和医学教育:范围审查 JMIR医学教育 2021 04 12 7 2 e25892 10.2196/25892 33755578 v7i2e25892 PMC8043144 X 首歌 B 一个 PKH 莱托 JTF 与covid -19相关的封锁和强制隔离可能影响中国孕妇心理健康的社会、认知和电子健康机制:横断面调查研究 J医疗互联网服务 2021 01 22 23 1 e24495 10.2196/24495 33302251 v23i1e24495 PMC7836909 F Z X Y Z 揭示中国COVID-19疫苗接受度的决定因素 J医疗互联网服务 2021 01 15 23 1 e26089 10.2196/26089 33400682 v23i1e26089 PMC7813210 贝尼省 一个 Khodos 一个 年代 Levner E 德系犹太人 年代 COVID-19大流行期间的社交媒体参与和流感疫苗接种:横断面调查研究 J医疗互联网服务 2021 03 16 23 3. e25977 10.2196/25977 33651709 v23i3e25977 PMC7968480 新泽西州 SK Falise 亨德森 R Apostolou V 马修斯 CA Striley 连续波 COVID-19大流行对饮食失调行为的影响:对社交媒体帖子的定性分析 JMIR Ment Health 2021 01 27 8 1 e26011 10.2196/26011 33465035 v8i1e26011 PMC7842857 布莱 D 概率主题模型 Commun ACM 2012 04 55 4 77 84 10.1145/2133806.2133826 l l 越南盾 W 年代 W 主题建模及其在生物信息学中的应用综述 Springerplus 2016 5 1 1608 10.1186 / s40064 - 016 - 3252 - 8 27652181 3252 PMC5028368 年代 雅司病 W F Z Y 中国社交媒体新冠肺炎疫情特征的探索性研究 JMIR公共卫生监测 2021 02 05 7 2 e26090 10.2196/26090 33460391 v7i2e26090 PMC7869922 舒克 年代 Foulquie P Mebarki 一个 Faviez C Khadhar Texier NgydF4y2Ba Katsahian 年代 Burgun 一个 X COVID-19封锁期间中国和法国社交媒体上讨论的担忧:基于主题建模的比较信息流行病学研究 JMIR表格规定 2021 04 05 5 4 e23593 10.2196/23593 33750736 v5i4e23593 PMC8023382 布莱 DM Ng 约旦 心肌梗死 潜在狄利克雷分配 J Machine Learn Res 2003 3. 993 1022 10.5555/944919.944937 张成泽 H Rempel E 罗斯 D Carenini G 新西兰 追踪北美推特上的COVID-19话语:使用主题建模和基于方面的情感分析的信息流行病学研究 J医疗互联网服务 2021 02 10 23 2 e25431 10.2196/25431 33497352 v23i2e25431 PMC7879725 McQuillan l McAweeney E Bargar 一个 鲁赫 一个 文化融合:对推特上错误信息网络行为的洞察 arXiv 2020 07 07 2022-09-19 https://arxiv.org/abs/2007.03443 Koh JX TM 在COVID-19大流行期间,社交媒体上是如何谈论孤独的:对4492个推特消息的文本挖掘 J精神科保留区 2022 01 145 317 324 10.1016 / j.jpsychires.2020.11.015 33190839 s0022 - 3956 (20) 31074 - 8 PMC8754394 Janmohamed K Soale 一个 Forastiere l W Y Demant J Airoldi E 库马尔 NgydF4y2Ba 网络电子烟叙事与COVID-19的交叉:主题建模研究 J医疗互联网服务 2020 10 30. 22 10 e21743 10.2196/21743 33001829 v22i10e21743 PMC7641646 J J C C 年代 T COVID - 19大流行期间的公共话语和情绪:在Twitter上使用潜在狄利克雷分配进行主题建模 《公共科学图书馆•综合》 2020 15 9 e0239441 10.1371 / journal.pone.0239441 32976519 玉米饼- d - 20 - 11036 PMC7518625 Adikari 一个 Nawaratne R 德席尔瓦 D Ranasinghe 年代 Alahakoon O Alahakoon D COVID-19情绪:基于人工智能的自我报告信息内容分析 J医疗互联网服务 2021 04 30. 23 4 e27341 10.2196/27341 33819167 v23i4e27341 PMC8092030 德梅洛 T Figueiredo CMS 比较关于巴西COVID-19的新闻文章和推文:情感分析和主题建模方法 JMIR公共卫生监测 2021 02 10 7 2 e24585 10.2196/24585 33480853 v7i2e24585 PMC7886485 Biester l Matton K Rajendran J 割草机 E Mihalcea R 量化COVID-19对心理健康支持论坛的影响 arXiv 2020 09 08 2022-09-19 https://arxiv.org/abs/2009.04008 Chandrasekaran R 梅塔 V Valkunde T 工程 E 关于COVID-19大流行的推文的主题、趋势和情绪:时间信息监测研究 J医疗互联网服务 2020 10 23 22 10 e22624 10.2196/22624 33006937 v22i10e22624 PMC7588259 X C Z D 推特上加州和纽约对COVID-19的公众意见 medRxiv 2020 07 14 2022-09-19 https://www.medrxiv.org/content/10.1101/2020.07.12.20151936v1 斯托克斯 直流 安迪 一个 Guntuku SC 商人 RM 在线讨论论坛中关于COVID-19的公共优先事项和关切:纵向主题建模 J Gen实习生 2020 07 35 7 2244 2247 10.1007 / s11606 - 020 - 05889 - w 32399912 10.1007 / s11606 - 020 - 05889 - w PMC7217615 JC 埃尔 Luli 门将 推特上与COVID-19疫苗相关的讨论:主题建模和情绪分析 J医疗互联网服务 2021 06 29 23 6 e24435 10.2196/24435 34115608 v23i6e24435 PMC8244724 Vadde SK G 澳大利亚推特用户中与COVID-19疫苗接种相关的推文主题和情绪:机器学习分析 J医疗互联网服务 2021 05 19 23 5 e26953 10.2196/26953 33886492 v23i5e26953 PMC8136408 J Boyd-Graber J 格瑞斯 年代 C 布莱 DM 解读茶叶:人类如何解读主题模型 2009 NIPS'09:第22届神经信息处理系统国际会议论文集 2009年12月7日至9日 温哥华公元前 288 296 张成泽 H Rempel E Carenini G NgydF4y2Ba 探索性分析北美与COVID-19相关的推文,为公共卫生机构提供信息 2020 2020年EMNLP第一次COVID-19 NLP研讨会(第二部分) 2020年12月 在线 10.18653 / v1/2020.nlpcovid19 - 2.18 Aggarwal J 拉比诺维奇 E 史蒂文森 年代 探索Reddit上关于COVID-19话语的性别差异 2020 2020年EMNLP第一次COVID-19 NLP研讨会(第二部分) 2020年12月 在线 Reddit pushshift 2022-09-19 https://pushshift.io/reddit/ D Matias 买者自负,计算社会科学:广泛发布的Reddit语料库中大量缺失数据 《公共科学图书馆•综合》 2018 7 6 13 7 e0200162 10.1371 / journal.pone.0200162 29979741 玉米饼- d - 18 - 07783 PMC6034852 有多少reddit用户删除了他们的帖子? Reddit 2022-09-19 https://www.reddit.com/r/pushshift/comments/ikpxrf/how_many_redditors_delete_their_posts/ MacLean D 古普塔 年代 Lembke 一个 曼宁 C 陆军 J 论坛77:对一个致力于戒毒的在线健康论坛的分析 2015 CSCW '15:第18届ACM计算机支持合作工作和社会计算会议论文集 2015年3月14-18日 温哥华公元前 10.1145/2675133.2675146 自然语言工具包 2022-09-19 https://www.nltk.org/ 基本词汇表 2022-09-19 https://www.edu.uwo.ca/faculty-profiles/docs/other/webb/essential-word-list.pdf 图书馆建筑 spaCy工业强度的自然语言处理 2022-09-19 https://spacy.io/api 潜狄利克雷分配 GENSIM 2022-09-19 https://radimrehurek.com/gensim/models/ldamodel.html 年代 康威 在线社区可以告诉我们关于电子烟和水烟的使用:一项使用文本挖掘和可视化技术的研究 J医疗互联网服务 2015 09 29 17 9 e220 10.2196 / jmir.4517 26420469 v17i9e220 PMC4642380 时间轴:世卫组织COVID-19应对措施 世界卫生组织 2022-09-19 https://www.who.int/emergencies/diseases/novel-coronavirus-2019/interactive-timeline/ Kantis C 基尔南 年代 巴迪 JS 波斯纳 l 更新:冠状病毒的时间轴 思考全球健康 2022 09 16 2022-09-19 https://www.thinkglobalhealth.org/article/updated-timeline-coronavirus C K Srinivasan V X 与互联网水军作战:发现隐藏的付费海报 2013 ASONAM '13: 2013年IEEE/ACM社会网络分析和挖掘进展国际会议论文集 2013年8月25日至28日 尼亚加拉瀑布, 10.1145/2492517.2492637 DM ·鲁姆克 l Talkar T Torous J 这套 G 戈什 党卫军 自然语言处理揭示了COVID-19期间Reddit上脆弱的心理健康支持团体和加剧的健康焦虑:观察性研究 J医疗互联网服务 2020 10 12 22 10 e22635 10.2196/22635 32936777 v22i10e22635 PMC7575341 Aiello l Quercia D K Constantinides Šćepanović 年代 Joglekar 年代 流行心理学如何在推特上发挥作用:美国对COVID-19大流行的反应演变 人文社会科学共同体 2021 07 23 8 1 179 10.1057 / s41599 - 021 - 00861 - 3 Cinelli Quattrociocchi W Galeazzi 一个 Valensise 厘米 Brugnoli E 施密特 艾尔 左拉 P Zollo F Scala 一个 COVID-19社交媒体信息大流行 Sci代表 2020 10 06 10 1 16598 10.1038 / s41598 - 020 - 73510 - 5 33024152 10.1038 / s41598 - 020 - 73510 - 5 PMC7538912 Gozzi NgydF4y2Ba Tizzani Starnini Ciulla F Paolotti D Panisson 一个 Perra NgydF4y2Ba Reddit和维基百科上对COVID-19大流行媒体报道的集体回应:混合方法分析 J医疗互联网服务 2020 10 12 22 10 e21597 10.2196/21597 32960775 v22i10e21597 PMC7553788 X T Z J 将主题分配约束和主题相关限制纳入临床目标发现,进行临床路径挖掘 健康工程师 2017 2017 5208072 10.1155 / 2017/5208072 29065617 PMC5474282 C 年代 Z 年代 通过推特数据挖掘了解COVID-19大流行期间人群群体的担忧、情绪和差异:大规模横断面研究 J医疗互联网服务 2021 03 05 23 3. e26482 10.2196/26482 33617460 v23i3e26482 PMC7939057
Baidu
map