这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用最初发表在JMIR Infodemiology上的原创作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
自2020年3月11日世界卫生组织宣布新冠肺炎大流行以来,该疾病在全球范围内产生了前所未有的影响。像Reddit这样的社交媒体可以作为增强态势感知的资源,特别是在危机期间监测公众态度和行为方面。然后,可以利用所获得的见解更好地了解COVID-19危机期间的公众态度和行为,并支持传播和健康促进信息。
这项研究的目的是利用来自社交媒体平台Reddit的数据,比较四个主要英语国家(美国、英国、加拿大和澳大利亚)对2020-2021年COVID-19大流行的公众态度。
我们使用了主题建模自然语言处理方法(更具体地说是潜在狄利克雷分配)。主题建模是一种流行的无监督学习技术,可用于从大量文本中自动推断主题(即语义相关的类别)。我们的数据来自6个特定国家的、与covid -19相关的reddit子版块(r/冠状病毒澳大利亚、r/冠状病毒下、r/加拿大冠状病毒、r/加拿大冠状病毒、r/英国冠状病毒和r/冠状病毒)。我们使用主题建模方法来调查和比较每个国家关注的主题。
我们整合的Reddit数据集包括2020年2月至11月期间在美国、英国、加拿大和澳大利亚收集的84,229篇发起帖子和1,094,853条相关评论。在研究期间(2020年2月至2020年11月),所有四个国家与covid -19相关的reddit帖子量均持续下降。在封锁期间,帖子数量达到峰值。英国和澳大利亚的版块比美国或加拿大的版块包含更多基于证据的政策讨论。
这项研究提供了证据来支持这一论点,即Reddit平台上四个国家讨论的突出主题之间存在关键差异。此外,我们的方法表明,Reddit数据有潜力提供在基于调查的方法中不易发现的见解。
2019年12月,中国武汉市报告了多起呼吸道疾病病例[
为了抑制COVID-19的传播,各国政府实施了几波边境关闭、旅行限制、隔离和其他非药物干预措施,如强制佩戴口罩、限制公共活动和限制旅行[
传统监测系统,包括美国疾病控制和预防中心和欧洲流感监测计划所使用的监测系统,都依赖病毒学和临床数据,每周发布一次数据,通常报告滞后1-2周[
Reddit、Twitter、Facebook、微博等社交媒体提供了丰富、有机、公众可访问的第一人称叙述。
在封锁期间,社交媒体平台通过其个人用户为孕妇提供信息支持和在线服务,以获得产前保健服务,如咨询和安排必要的预约[
主题建模是一种流行的统计无监督机器学习技术,已被广泛用于发现健康相关文本集合中的潜在主题[
Reddit是最受欢迎的社交媒体平台之一,截至2020年5月,拥有超过4.3亿活跃用户和120万个Reddit子论坛(即以主题为重点的子论坛),其中超过70%的用户来自英语国家[
在这项工作中,我们使用了来自代表四个英语国家(美国、英国、加拿大和澳大利亚)的六个特定地理位置的与covid -19相关的Reddit子Reddit的数据,以调查(1)四个国家讨论的突出主题之间是否存在关键差异;(2)Reddit数据是否有潜力提供基于调查的方法中不容易显现的见解。一般来说,LDA主题建模应用于每个特定国家的Reddit数据集。我们为每个国家训练了由不同数量的主题组成的多个主题模型,并手动检查每个模型,以找到每个国家的最佳模型(即生成最一致和最少冗余主题的模型)。我们根据每个国家的模型进一步比较了每个国家的总结主题,并将它们映射到四个常见的主题类别(即元类别)。最后,研究了纵向主题趋势,以确定常见主题类别的趋势,然后将其映射到每个国家的COVID-19事件。
由于Reddit数据通常不包括地理位置信息,我们收集了与美国、英国、加拿大和澳大利亚相关的六个最受欢迎的Reddit子版块(Reddit上的主题论坛)的数据(
数据收集使用推档。io (
整合的Reddit数据集包括在2020年2月至11月期间收集的84,229篇发起帖子和1,094,853条相关评论,这些评论来自于
为了建立每个国家的语料库,我们组织了在
2021年7月31日的reddit信息。
国家 | Subreddit | 成员人数 | 日期子reddit创建 |
联合王国 |
|
92600年 | 2020年2月11日 |
美国 |
|
141000年 | 2020年2月12日 |
加拿大 |
|
9000 | 2020年2月12日 |
加拿大 |
|
67300年 | 2020年3月1日 |
澳大利亚 |
|
10800年 | 2020年2月21日 |
澳大利亚 |
|
90300年 | 2020年2月23日 |
我们使用主题建模技术来比较来自美国、英国、加拿大和澳大利亚的广泛主题。一般程序描述在
我们使用Gensim 3.8.3中的LDA实现为四个国家中的每个国家训练了多个主题模型(由10个、15个和20个主题组成)[
对于每个主题模型,人工检查与每个主题主题相关的最具特征的关键词,并根据这些主题的贡献概率专门关注那些特别具有代表性的帖子,以确定哪个模型最能表征数据集。在手动识别主题的过程中,我们注意到四个国家的模型具有不同的一致、不重叠的主题的最佳数量。此外,一些模型包含了该国特有的主题(即,它们没有出现在其他国家的模型中)。例如,英国主题模型中的“心理健康”主题并没有出现在美国主题模型中。为了比较和对比四个国家的共同主题,我们将这些不同的主题合并为四个共同主题类别。主题及其到公共主题类别的映射列在
主题训练和映射到公共主题类别的过程。
四个国家的共同主题。
常见的话题 | 主题 |
COVID影响 | 工作、金融、教育、旅行限制、保持社交距离 |
COVID预防 | 戴口罩,洗手,有传播风险 |
病例报告 | 病例报告,与医院互动报告 |
政策与新闻 | 政策公告、新闻、问答 |
通过首先为每个帖子找到“文档主题”,研究了美国、英国、加拿大和澳大利亚的常见主题的流行程度。文档主题(document-topic)是指一个主题是给定文档的主要组成部分(根据贡献概率)[
使用每个国家的文档-主题阈值,我们首先计算主题概率高于阈值的帖子数量,然后将该数量除以帖子总数,从而确定每个主题的比例。共同主题类别的比例是由属于每个共同主题类别的主题的比例之和确定的。
根据每个国家的文档主题阈值,我们还计算了每周特定公共主题类别的提交数量,然后计算每个公共主题类别的每周提交量,以绘制2020年2月至11月每个国家的公共主题趋势。我们还从世卫组织绘制了COVID-19事件时间表[
我们的分析仅限于公开的讨论内容,犹他大学的机构审查委员会根据美国联邦法规(CFR) 45 CFR 46.101(b)中定义的豁免2豁免了研究程序和数据的伦理审查(IRB_00076188)。
我们的COVID-19 Reddit数据集包括10个月的讨论(2020年2月至2020年11月),涵盖了COVID-19早期的主要事件,包括美国、英国、加拿大和澳大利亚的最初爆发和随后的封锁。在此期间,共有103,180名独立用户发表了84,229篇文章和1094,853条评论。
为了进一步研究在Reddit上发布的行为,我们总结了每个国家的每周帖子量和用户量,如图所示
Reddit 2020年2月至11月的COVID-19数据。
国家数据集 | Subreddit | 唯一用户n | 提交, |
联合王国 | r / CoronavirusUK | 20482年 | 17350年 |
美国 | r / coronavirusus | 55380年 | 35885年 |
加拿大 | r / CoronavirusCanada | 4061 | 4625 |
加拿大 | r / CanadaCoronavirus | 10420年 | 9670 |
澳大利亚 | r / CoronavirusAustralia | 3114 | 2359 |
澳大利亚 | r / CoronavirusDownunder | 15537年 | 14340年 |
按周发布和用户数量(日志规模)。
在手动检查美国、英国、加拿大和澳大利亚的主题模型(10、15、20个主题)后,我们定性地确定了最一致的模型,以及每个国家相关数据集的文档主题阈值,如图所示
为美国、英国、加拿大和澳大利亚手动选择的主题模型,以及相关的文档主题阈值。
国家 | 选择模型 | 文档主题的阈值 |
美国 | 15-topics模型 | 0.19881 |
联合王国 | 10-topics模式 | 0.24 |
加拿大 | 15-topics模型 | 0.15864215 |
澳大利亚 | 10-topics模型 | 0.18434 |
对于每个模型中的每个主题,我们将该主题映射到四个公共主题(在
我们发现,美国的大多数帖子侧重于COVID-19预防策略,而英国、加拿大和澳大利亚的帖子更侧重于COVID-19的影响,包括教育、金融和可能有限的食物供应。
美国(US)、英国(UK)、加拿大(CAN)和澳大利亚(AUS)的主题比例。
在可视化确定的主题模型时,我们还总结了年美国、英国、加拿大和澳大利亚的主题趋势
在这两个
主题周趋势(A)美国,(B)澳大利亚,(C)加拿大,和(D)英国。此图的更高分辨率版本可在
2020年COVID-19封锁事件时间表[
日期 | 事件 |
3月11日 | 英国封锁;美国宣布三级旅行警告 |
3月18日 | 美国和加拿大暂停了两国之间不必要的旅行 |
3月23日 | 英国封锁 |
3月24日 | 澳大利亚禁止所有海外旅行 |
4月18日 | 美国:对封锁的抗议 |
6月24日 | 美国:自放松封锁限制以来,26个州的病例率上升 |
7月3日 | 英国宣布结束除美国以外的旅行限制 |
7月4日 | 澳大利亚墨尔本收紧了对12个郊区的限制 |
9月5日 | 澳大利亚将严格封锁延长至9月底 |
10月12日 | 英国宣布新的封锁规定 |
在这项工作中,我们应用主题建模和可视化技术,比较了美国、英国、加拿大和澳大利亚对COVID-19大流行相关事件的看法,并调查了2020年2月至11月COVID-19事件的影响。
如
从大量的帖子中,我们可以看到Reddit支持收集大量的数据,这些数据可以洞察人群的态度和行为。先前的研究表明,对公众行为和态度的分析可以帮助公共卫生机构和政策制定者在危机时期有效应对[
所示的常见主题
如
本文所报道的工作并非没有局限性。与covid -19相关的版块仍然相对较新,其中大多数是在2020年2月启动的。在COVID-19大流行的早期阶段,传播了大量与COVID-19有关的谣言[
使用LDA的主题建模有许多局限性,特别是在评估主题质量方面。在手动检查主题模型时,我们注意到两个问题:(1)非常相似的帖子(例如,COVID-19病例报告)可能被分配到不同的主题;(2)非常简单的帖子(例如,封锁公告)可能与许多主题相关。Xu等人也发现了类似的问题[
这项工作中的另一个问题与我们通过推送移位收集的Reddit数据的完整性有关。io API [
进一步的限制与不同版块的文化差异有关。由于Reddit的数据一般不包括地理位置信息,我们收集了与美国、英国、加拿大和澳大利亚相关的六个最受欢迎的COVID-19子Reddit的数据。我们检查了这些帖子,注意到大多数用户都是当地人(即来自
最后,在这项工作中,我们没有明确考虑人口统计学特征(如年龄、社会经济地位、性别[
在这项工作中,我们使用Reddit的数据来研究美国、英国、加拿大和澳大利亚在COVID-19危机期间人们关注的问题的变化。我们发现,在封锁期间,人们在Reddit上发布的帖子更多,四个国家的人们关注的问题也有所不同。此外,这项工作提供了证据来支持这一论点,即Reddit平台上四个国家讨论的突出主题之间存在关键差异。此外,我们的方法表明,Reddit数据有潜力提供在基于调查的方法中不易发现的见解。
计算主题柱状图
更高分辨率版本
应用程序编程接口
潜在狄利克雷分配
世界卫生组织
本文报道的研究得到了犹他大学“特别强调:新兴COVID-19/SARS-CoV-2研究”种子资助计划的部分支持。内容完全是作者的责任。
没有宣布。