发表在第2卷第2期(2022):7月至12月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/36941,首次出版
Reddit上关于COVID-19大流行的观点:美国、英国、加拿大和澳大利亚的比较自然语言处理研究

Reddit上关于COVID-19大流行的观点:美国、英国、加拿大和澳大利亚的比较自然语言处理研究

Reddit上关于COVID-19大流行的观点:美国、英国、加拿大和澳大利亚的比较自然语言处理研究

原始论文

1美国犹他州盐湖城犹他大学生物医学信息系

2墨尔本大学计算与信息系统学院,卡尔顿,澳大利亚

3.澳大利亚卡尔顿墨尔本大学卫生数字化转型中心

通讯作者:

胡梦科博士

生物医学信息系

犹他大学

马德里大街6301号

盐湖城,德州,84121

美国

电话:1 2159150417

电子邮件:mengke.hu@utah.edu


背景:自2020年3月11日世界卫生组织宣布新冠肺炎大流行以来,该疾病在全球范围内产生了前所未有的影响。像Reddit这样的社交媒体可以作为增强态势感知的资源,特别是在危机期间监测公众态度和行为方面。然后,可以利用所获得的见解更好地了解COVID-19危机期间的公众态度和行为,并支持传播和健康促进信息。

摘要目的:这项研究的目的是利用来自社交媒体平台Reddit的数据,比较四个主要英语国家(美国、英国、加拿大和澳大利亚)对2020-2021年COVID-19大流行的公众态度。

方法:我们使用了主题建模自然语言处理方法(更具体地说是潜在狄利克雷分配)。主题建模是一种流行的无监督学习技术,可用于从大量文本中自动推断主题(即语义相关的类别)。我们的数据来自6个特定国家的、与covid -19相关的reddit子版块(r/冠状病毒澳大利亚、r/冠状病毒下、r/加拿大冠状病毒、r/加拿大冠状病毒、r/英国冠状病毒和r/冠状病毒)。我们使用主题建模方法来调查和比较每个国家关注的主题。

结果:我们整合的Reddit数据集包括2020年2月至11月期间在美国、英国、加拿大和澳大利亚收集的84,229篇发起帖子和1,094,853条相关评论。在研究期间(2020年2月至2020年11月),所有四个国家与covid -19相关的reddit帖子量均持续下降。在封锁期间,帖子数量达到峰值。英国和澳大利亚的版块比美国或加拿大的版块包含更多基于证据的政策讨论。

结论:这项研究提供了证据来支持这一论点,即Reddit平台上四个国家讨论的突出主题之间存在关键差异。此外,我们的方法表明,Reddit数据有潜力提供在基于调查的方法中不易发现的见解。

中国生物医学工程学报(英文版)

doi: 10.2196/36941

关键字



2019年12月,中国武汉市报告了多起呼吸道疾病病例[1].这种最终被命名为COVID-19的呼吸道疾病是由一种被确定为SARS-CoV-2的新型冠状病毒引起的。COVID-19是一种高度传染性传染病,通常通过呼吸道飞沫或接触传播[2].自2020年3月11日世界卫生组织(世卫组织)宣布COVID-19大流行以来,这一疾病在全球产生了前所未有的影响,截至2022年6月13日,确诊病例超过5.4亿例,死亡630万人[3.].根据一项新的分析,因COVID-19大流行而死亡的人数可能比官方数据高出大约三倍。4].

为了抑制COVID-19的传播,各国政府实施了几波边境关闭、旅行限制、隔离和其他非药物干预措施,如强制佩戴口罩、限制公共活动和限制旅行[5-7],引发人们对社会动荡、教育中断和经济危机的担忧[8].关于病毒及其传播的科学不确定性造成了动荡的政治和社会环境[910].病毒的动态特性加剧了这些担忧,随着时间的推移会出现新的变种[1011],这给大流行的预计进程和对政策的影响带来了不确定性。此外,COVID-19的出现与人群心理健康问题的显著恶化有关,特别是对大学生和孕妇等弱势群体而言[12-14].

传统监测系统,包括美国疾病控制和预防中心和欧洲流感监测计划所使用的监测系统,都依赖病毒学和临床数据,每周发布一次数据,通常报告滞后1-2周[15].调查数据还被用于调查COVID-19在社区中的传播情况。特别是生态瞬时评估已被证明是一种有价值的研究工具[16].此外,同行评议的科学文献和预印本数据是研究COVID-19影响的流行数据来源。

Reddit、Twitter、Facebook、微博等社交媒体提供了丰富、有机、公众可访问的第一人称叙述。17-25],这些数据集可用于识别疫情并提供态势感知。在COVID-19大流行期间,更重要的是,社交媒体数据为更好地了解危机期间的公众态度和行为提供了一种手段,以支持传播和健康促进信息,特别是在无法随时获得调查数据的情况下[1526].

在封锁期间,社交媒体平台通过其个人用户为孕妇提供信息支持和在线服务,以获得产前保健服务,如咨询和安排必要的预约[27].同样,微博帖子也被证明有助于调查中国公众对COVID-19疫苗接种的态度[2829].在传统调查数据有限的情况下,像Reddit这样的替代数据源尤其有价值。例如,Reddit被用来研究大流行对饮食失调行为的影响[30.].

主题建模是一种流行的统计无监督机器学习技术,已被广泛用于发现健康相关文本集合中的潜在主题[31].由于其在促进大规模文档集合分析方面的实用性,已在诸如生物/生物医学文本挖掘等领域获得了有用的结果;临床信息学;以及从其他文本数据源提取信息,包括政府报告、报纸文章和科学期刊[32].社交媒体数据(如Reddit)经常与主题建模方法结合使用,以探索公众关注的问题、态度和政策。例如,Zhang等[33]利用中国社交媒体平台确定了八个热门话题,包括阴谋论、政府应对、预防行动、新发病例、传播途径、起源和命名、疫苗和药物、症状和检测。主题建模也被用于研究不同国家与covid -19相关的担忧[34].利用主题建模技术(如潜在狄利克雷分配(LDA))对帖子进行分类[35,可能是最流行的主题建模方法,已被广泛用于分析COVID-19危机期间的情绪和担忧[1101920.36-41],尤其是在大型社交媒体数据集的背景下。使用LDA的主题建模也证明了从组合数据集中发现主题的实用性,例如将巴西的新闻文章和推文结合起来研究COVID-19的影响[42].LDA也被用于研究情绪随时间的变化[1043-46].特别是随着COVID-19疫苗相关问题越来越受到公众的关注,我们利用LDA研究了人们对COVID-19疫苗接种的看法变化,发现随着时间的推移,公众的态度变得越来越有利[4748].然而,所确定的主题是否可解释通常需要定性评估[4950].

Reddit是最受欢迎的社交媒体平台之一,截至2020年5月,拥有超过4.3亿活跃用户和120万个Reddit子论坛(即以主题为重点的子论坛),其中超过70%的用户来自英语国家[5152].一些看板对地点有明确的描述(例如,/ CoronavirusUK, r / CanadaCoronavirus),以便更有针对性地分析来自不同国家的用户[43].

在这项工作中,我们使用了来自代表四个英语国家(美国、英国、加拿大和澳大利亚)的六个特定地理位置的与covid -19相关的Reddit子Reddit的数据,以调查(1)四个国家讨论的突出主题之间是否存在关键差异;(2)Reddit数据是否有潜力提供基于调查的方法中不容易显现的见解。一般来说,LDA主题建模应用于每个特定国家的Reddit数据集。我们为每个国家训练了由不同数量的主题组成的多个主题模型,并手动检查每个模型,以找到每个国家的最佳模型(即生成最一致和最少冗余主题的模型)。我们根据每个国家的模型进一步比较了每个国家的总结主题,并将它们映射到四个常见的主题类别(即元类别)。最后,研究了纵向主题趋势,以确定常见主题类别的趋势,然后将其映射到每个国家的COVID-19事件。


数据采集与预处理

由于Reddit数据通常不包括地理位置信息,我们收集了与美国、英国、加拿大和澳大利亚相关的六个最受欢迎的Reddit子版块(Reddit上的主题论坛)的数据(r/冠状病毒英国,r/冠状病毒,r/冠状病毒加拿大,r/加拿大冠状病毒,r/冠状病毒澳大利亚,r/冠状病毒澳大利亚),详见表1

数据收集使用推档。io (52应用程序编程接口(API),一种将Reddit数据实时归档到其在线数据库的服务。我们使用了推档。io API用于收集covid -19相关数据,因为之前的工作表明,这种方法产生的数据集比其他方法(例如PRAW API)更完整[53].然而,在数据收集过程中,我们注意到pushshift。IO未能识别所有新更新,包括删除的评论[54].为了确保我们收集了尽可能完整的数据集,我们在3个月后重新收集了同一时间段的数据,并将新旧数据集合并以获得更完整的数据集。

整合的Reddit数据集包括在2020年2月至11月期间收集的84,229篇发起帖子和1,094,853条相关评论,这些评论来自于表1.根据reddit的描述,这些reddit子版块与特定国家相关。例如,r / CanadaCoronavirus主要被加拿大人用来讨论COVID-19危机。在所有针对特定国家的COVID-19看板中,我们选择的六个看板拥有最多的成员(>8000),这意味着它们是目前最活跃、最受欢迎的针对特定地区的COVID-19看板。由于用户通常会在发贴中呈现自己的经历[55],由于随后的评论经常受到跑题讨论的影响,我们将主题研究限制在仅发起帖子。鉴于Reddit不提供用户级别的地理位置信息,我们将Reddit用户在特定国家的Reddit子Reddit上发帖的事实视为他们在该国家的位置的代理。

为了建立每个国家的语料库,我们组织了在表1.例如,为了构建一个澳大利亚数据集,我们从提交的数据中提取了所有文本数据(标题部分和描述部分)r / CoronavirusAustralia而且r / CoronavirusDownunder.然后,我们自动识别url和电子邮件地址,这些地址从提交的文本中删除,以简化后续的主题建模过程。为了删除停止词(即常见的英语虚词,如“the”、“of”和“it”),我们首先使用了自然语言工具包(NLTK 3.3 for Python 2.7) [56初始化停止词列表。停止词列表然后进一步使用基本词列表(最初为语言学习和测试而开发的词汇表)[57].随后,提交的文本数据被标记化(即字符串)我们走吧!被标记为列表“let”,“' s”,“go”,“!”)和lemmized(即字符串我在看报纸被分解为“I”、“be”、“read”、“the”、“paper”),使用Python SpaCy 2.2.1包[58)来转换不同形式的单词(例如,咳嗽,咳嗽)转化为规范形式(例如,咳嗽).

表1。2021年7月31日的reddit信息。
国家 Subreddit 成员人数 日期子reddit创建
联合王国 r / CoronavirusUK 92600年 2020年2月11日
美国 r / coronavirusus 141000年 2020年2月12日
加拿大 r / CoronavirusCanada 9000 2020年2月12日
加拿大 r / CanadaCoronavirus 67300年 2020年3月1日
澳大利亚 r / CoronavirusAustralia 10800年 2020年2月21日
澳大利亚 r / CoronavirusDownunder 90300年 2020年2月23日

主题建模和公共主题注释

我们使用主题建模技术来比较来自美国、英国、加拿大和澳大利亚的广泛主题。一般程序描述在图1.具体来说,我们采用了生成概率建模算法LDA,该算法将文档建模为主题的随机混合物,其中每个主题都被描述为单词的分布[35].

我们使用Gensim 3.8.3中的LDA实现为四个国家中的每个国家训练了多个主题模型(由10个、15个和20个主题组成)[59工具包。在每个模型下,我们根据主题关键词对主题进行总结。然后我们手动检查主题是否重叠或冗余。我们发现,当模型包含少于10个主题时,主题在主题上重叠,而当模型包含超过20个主题时,主题是冗余的。因此,我们选择了10、15和20个主题来训练模型,以进行进一步的手工检查。

对于每个主题模型,人工检查与每个主题主题相关的最具特征的关键词,并根据这些主题的贡献概率专门关注那些特别具有代表性的帖子,以确定哪个模型最能表征数据集。在手动识别主题的过程中,我们注意到四个国家的模型具有不同的一致、不重叠的主题的最佳数量。此外,一些模型包含了该国特有的主题(即,它们没有出现在其他国家的模型中)。例如,英国主题模型中的“心理健康”主题并没有出现在美国主题模型中。为了比较和对比四个国家的共同主题,我们将这些不同的主题合并为四个共同主题类别。主题及其到公共主题类别的映射列在表2

图1。主题训练和映射到公共主题类别的过程。
查看此图
表2。四个国家的共同主题。
常见的话题 主题
COVID影响 工作、金融、教育、旅行限制、保持社交距离
COVID预防 戴口罩,洗手,有传播风险
病例报告 病例报告,与医院互动报告
政策与新闻 政策公告、新闻、问答

常见话题在美国、英国、加拿大和澳大利亚流行

通过首先为每个帖子找到“文档主题”,研究了美国、英国、加拿大和澳大利亚的常见主题的流行程度。文档主题(document-topic)是指一个主题是给定文档的主要组成部分(根据贡献概率)[60],可用于研究每个国家相关数据集中特定主题的比例。由于美国、英国、加拿大和澳大利亚数据集的主题及其分布各不相同,因此根据每个国家相关的数据集分别分析文档主题。为了找到每个国家的文档主题,我们首先需要找到识别主要主题的阈值概率。具体而言,对于每个与国家相关的数据集,如果某个文档的主题概率高于阈值,则该主题被视为该文档的主要组成部分之一。实际上,文档主题并不是均匀分布的(例如,有些文档包含多个文档主题,而有些文档不包含文档主题)。为了均匀地处理每个与国家相关的数据集,我们迭代测试不同的候选概率值,直到文档主题的数量接近该国家相关数据集中的文档数量。更准确地说,从我们为每个国家训练的主题模型中,我们有:(1)一组主题,(2)与每个主题相关的单词列表(我们使用40个单词),根据它们对该主题的贡献概率进行排名,以及(3)一个文档(提交帖子)列表,其中估计每个主题的比例。为了找到阈值,每当我们设置测试的阈值概率时,我们都会计算每次提交的文档主题的数量,并对所有提交的文档主题进行求和,直到文档主题的总数接近该国家相关数据集中的提交数量。执行这一过程的原因是为了帮助确保文档主题准确地涵盖了Reddit数据集中所有提交的主题,从而最大限度地提高了所表示内容的比例[60].我们重复这个过程,直到找到每个国家的阈值。

使用每个国家的文档-主题阈值,我们首先计算主题概率高于阈值的帖子数量,然后将该数量除以帖子总数,从而确定每个主题的比例。共同主题类别的比例是由属于每个共同主题类别的主题的比例之和确定的。

Reddit和COVID-19事件时间表中的常见主题趋势

根据每个国家的文档主题阈值,我们还计算了每周特定公共主题类别的提交数量,然后计算每个公共主题类别的每周提交量,以绘制2020年2月至11月每个国家的公共主题趋势。我们还从世卫组织绘制了COVID-19事件时间表[61]和Think Global Health [62]到我们的Reddit数据趋势图进行比较。

道德的考虑

我们的分析仅限于公开的讨论内容,犹他大学的机构审查委员会根据美国联邦法规(CFR) 45 CFR 46.101(b)中定义的豁免2豁免了研究程序和数据的伦理审查(IRB_00076188)。


语料库的特点

我们的COVID-19 Reddit数据集包括10个月的讨论(2020年2月至2020年11月),涵盖了COVID-19早期的主要事件,包括美国、英国、加拿大和澳大利亚的最初爆发和随后的封锁。在此期间,共有103,180名独立用户发表了84,229篇文章和1094,853条评论。表3总结每个子reddit的独特用户、提交和相关评论的数量。

为了进一步研究在Reddit上发布的行为,我们总结了每个国家的每周帖子量和用户量,如图所示图2.我们发现用户数量与帖子数量是一致的,这表明帖子是由Reddit的有机用户创建的,而不是由“水军”[63]的付费海报。因此,我们用于分析的帖子数据可以被认为是反映了reddit子用户在COVID-19危机期间的真实观点和行为。我们还注意到,这四个国家的最高流量峰值出现在2020年2月至4月期间,当时实施了第一波封锁。此外,帖子量和用户量随着时间的推移而下降。

表3。Reddit 2020年2月至11月的COVID-19数据。
国家数据集 Subreddit 唯一用户n 提交,
联合王国 r / CoronavirusUK 20482年 17350年
美国 r / coronavirusus 55380年 35885年
加拿大 r / CoronavirusCanada 4061 4625
加拿大 r / CanadaCoronavirus 10420年 9670
澳大利亚 r / CoronavirusAustralia 3114 2359
澳大利亚 r / CoronavirusDownunder 15537年 14340年
图2。按周发布和用户数量(日志规模)。
查看此图

使用公共主题注释的主题建模结果

在手动检查美国、英国、加拿大和澳大利亚的主题模型(10、15、20个主题)后,我们定性地确定了最一致的模型,以及每个国家相关数据集的文档主题阈值,如图所示表4.我们选择手动模型而不是使用自动化方法(如LDA相干评分)的原因是由于主题模型解释的局限性[49].

表4。为美国、英国、加拿大和澳大利亚手动选择的主题模型,以及相关的文档主题阈值。
国家 选择模型 文档主题的阈值
美国 15-topics模型 0.19881
联合王国 10-topics模式 0.24
加拿大 15-topics模型 0.15864215
澳大利亚 10-topics模型 0.18434

常见话题在美国、英国、加拿大和澳大利亚流行

对于每个模型中的每个主题,我们将该主题映射到四个公共主题(在表2),并根据中所示的阈值计算每个主题的文档数量表4.每个国家每个主题的文件比例列于图3.详细的计算用于生成图3载于多媒体附件1

我们发现,美国的大多数帖子侧重于COVID-19预防策略,而英国、加拿大和澳大利亚的帖子更侧重于COVID-19的影响,包括教育、金融和可能有限的食物供应。

图3。美国(US)、英国(UK)、加拿大(CAN)和澳大利亚(AUS)的主题比例。
查看此图

Reddit和COVID-19事件时间表中的常见主题趋势

在可视化确定的主题模型时,我们还总结了年美国、英国、加拿大和澳大利亚的主题趋势图4

在这两个图2而且图4,可以观察到,所有国家都经历了发帖活动的早期高峰。用户体积图图2和趋势图4暗示用户在锁定事件期间发布更多内容。在这四个国家,发帖量和用户量都在2020年3月达到峰值。同月,所有这些国家都宣布了封锁或旅行限制政策。帖子数量的增加可能反映了公众对病毒的恐惧和担忧,以及许多人发现自己被限制在家中,有充足的时间访问社交媒体的事实。与大流行相关的突出事件清单列于表5

图4。主题周趋势(A)美国,(B)澳大利亚,(C)加拿大,和(D)英国。此图的更高分辨率版本可在多媒体附件2
查看此图
表5所示。2020年COVID-19封锁事件时间表[62].
日期 事件
3月11日 英国封锁;美国宣布三级旅行警告
3月18日 美国和加拿大暂停了两国之间不必要的旅行
3月23日 英国封锁
3月24日 澳大利亚禁止所有海外旅行
4月18日 美国:对封锁的抗议
6月24日 美国:自放松封锁限制以来,26个州的病例率上升
7月3日 英国宣布结束除美国以外的旅行限制
7月4日 澳大利亚墨尔本收紧了对12个郊区的限制
9月5日 澳大利亚将严格封锁延长至9月底
10月12日 英国宣布新的封锁规定

主要研究结果

在这项工作中,我们应用主题建模和可视化技术,比较了美国、英国、加拿大和澳大利亚对COVID-19大流行相关事件的看法,并调查了2020年2月至11月COVID-19事件的影响。

COVID-19 Reddit数据集的发布量变化

图2,我们观察到在10个月的研究期间,帖子量和用户量逐渐下降。我们还观察到,2020年2月至4月出现了早期高峰,这是美国、英国、加拿大和澳大利亚抗击新冠肺炎传播的关键时期。帖子量下降的一个潜在原因是,一些用户可能会避免社交媒体,因为他们对与covid -19相关的新闻和讨论感到越来越焦虑,并寻求保护自己的心理健康[64].另一个原因是用户可能会习惯“新常态”,这被认为是当局实施社交距离措施后的接受阶段[65].在这一阶段,Aiello等[65发现人们更愿意寻找继续社交的解决方案;例如,公园和户外空间的访问量增加了。因此,为了寻求实际的社会支持,用户在与新冠疫情相关的版块中发布的内容减少了。

从大量的帖子中,我们可以看到Reddit支持收集大量的数据,这些数据可以洞察人群的态度和行为。先前的研究表明,对公众行为和态度的分析可以帮助公共卫生机构和政策制定者在危机时期有效应对[1].

美国、英国、加拿大和澳大利亚的话题变化

所示的常见主题表2这四个国家的情况各不相同。如图3我们发现,在美国,大多数帖子都集中在COVID-19的预防上,只有一小部分帖子直接讨论了与COVID-19相关的政策。在英国、加拿大和澳大利亚,大多数帖子关注的是COVID-19的影响,包括失业、粮食不安全和焦虑情绪。尤其是在英国和澳大利亚,用户关注的重点是COVID-19和政府政策的影响,至少在这些子标题中是这样表达的。在大流行之初,Reddit的一个核心问题是-由于关于病毒如何传播的科学不确定性,使用以有效的COVID-19预防策略为中心的人群[910].COVID-19的社会影响也是一个主要话题,这与COVID-19危机带来巨大心理压力并与精神健康问题相关的事实是一致的[12-14].

图4,我们发现与主题相关的帖子总数在3月份达到峰值,当时所有四个国家都宣布封锁并实施旅行限制表5有关锁定事件的摘要)。特别是在2020年3月,当COVID-19爆发时,各国政府实施了边境关闭、旅行限制和隔离[5-7],人们的话题集中在COVID-19的影响,包括教育和经济中断[8].

限制

本文所报道的工作并非没有局限性。与covid -19相关的版块仍然相对较新,其中大多数是在2020年2月启动的。在COVID-19大流行的早期阶段,传播了大量与COVID-19有关的谣言[66这使得Reddit的数据在监测疫情方面不那么可靠,但在监测虚假信息和公众担忧方面很有用。此外,Reddit还存在社会人口统计学偏见。例如,这项服务在城市和郊区比在农村更受欢迎[67].

使用LDA的主题建模有许多局限性,特别是在评估主题质量方面。在手动检查主题模型时,我们注意到两个问题:(1)非常相似的帖子(例如,COVID-19病例报告)可能被分配到不同的主题;(2)非常简单的帖子(例如,封锁公告)可能与许多主题相关。Xu等人也发现了类似的问题[68]在分析临床数据时。

这项工作中的另一个问题与我们通过推送移位收集的Reddit数据的完整性有关。io API [52].尽管pushshift。io允许从Reddit收集大量的历史数据,并产生比其他方法(例如PRAW API)更完整的数据集[53],它未能识别所有新更新,包括删除的评论[54].即使我们重新收集数据以使其更完整,我们策划的Reddit数据可能仍然是缺失的数据。

进一步的限制与不同版块的文化差异有关。由于Reddit的数据一般不包括地理位置信息,我们收集了与美国、英国、加拿大和澳大利亚相关的六个最受欢迎的COVID-19子Reddit的数据。我们检查了这些帖子,注意到大多数用户都是当地人(即来自r / CanadaCoronavirus主要是加拿大人)。因此,这些版块不仅反映了人们的观点,也反映了四个国家的文化差异。例如,在英国,人们集中讨论政治或与covid -19相关的突发新闻。因此,与政治相关的政策是主导话题r / CoronavirusUK并不能完全反映人们对新冠肺炎的担忧,它可能只是反映了英国人的讨论习惯。因此,在美国、英国、加拿大和澳大利亚,话题的差异可能并不能完全反映人们对新冠肺炎的看法。

最后,在这项工作中,我们没有明确考虑人口统计学特征(如年龄、社会经济地位、性别[5269]),以及这些特征有何不同。

结论

在这项工作中,我们使用Reddit的数据来研究美国、英国、加拿大和澳大利亚在COVID-19危机期间人们关注的问题的变化。我们发现,在封锁期间,人们在Reddit上发布的帖子更多,四个国家的人们关注的问题也有所不同。此外,这项工作提供了证据来支持这一论点,即Reddit平台上四个国家讨论的突出主题之间存在关键差异。此外,我们的方法表明,Reddit数据有潜力提供在基于调查的方法中不易发现的见解。

致谢

本文报道的研究得到了犹他大学“特别强调:新兴COVID-19/SARS-CoV-2研究”种子资助计划的部分支持。内容完全是作者的责任。

利益冲突

没有宣布。

多媒体附件1

计算主题柱状图图3

DOCX文件,14kb

多媒体附件2

更高分辨率版本图4.主题周趋势(A)美国,(B)澳大利亚,(C)加拿大,和(D)英国。

PNG文件,1124 KB

  1. 王杰,周勇,张伟,Evans R,朱晨。新冠肺炎疫情期间中国社交媒体用户表达的担忧:新浪微博微博数据的内容分析。J Med Internet Res 2020年11月26日;22(11):e22152 [免费全文] [CrossRef] [Medline
  2. 瑟尔A,帕特尔B,鲁帕雷尔NB,戴奥奇尼斯A,哈格里夫斯KM。冠状病毒疾病19 (COVID-19):对临床牙科护理的影响。J endd 2020 May;46(5):584-595 [免费全文] [CrossRef] [Medline
  3. 冠状病毒的病例。Worldometer。URL:https://www.worldometers.info/coronavirus/[2022-09-19]访问
  4. 新冠肺炎的真实死亡人数:远高于官方记录。自然2022年3月;603(7902):562。[CrossRef] [Medline
  5. 冠状病毒:各国旅行限制,边境关闭。半岛电视台。2020年6月3日。URL:https://www.aljazeera.com/news/2020/6/3/coronavirus-travel-restrictions-border-shutdowns-by-country[2022-09-19]访问
  6. Betsch C, Wieler LH, Habersaat K, COSMO组。监测与COVID-19相关的行为洞察。柳叶刀2020 Apr 18;395(10232):1255-1256 [免费全文] [CrossRef] [Medline
  7. 马志刚,张志刚,张志刚,张志刚,等。冠状病毒大流行(COVID-19)的社会经济影响:综述国际外科杂志2020年6月;78:185-193 [免费全文] [CrossRef] [Medline
  8. 巴克T,查赞G,阿诺德M,库克森C.随着对经济危机的担忧加剧,冠状病毒宣布大流行。《金融时报》2020年3月11日URL:https://www.ft.com/content/d72f1e54-6396-11ea-b3f3-fe4680ea68b5[2022-09-19]访问
  9. Werron T, Ringel L.流行病实践,第一部分。如何将“经历COVID-19大流行”转变为社会学理论化的启发式工具。Sociologica 14:55 2020; 72年。[CrossRef
  10. Doogan C, Buntine W, Linger H,布伦特S.六个国家对COVID-19非药物干预的公众认知和态度:对Twitter数据的主题建模分析。J Med Internet Res 2020 Sep 03;22(9):e21419 [免费全文] [CrossRef] [Medline
  11. SARS-CoV-2变体分类和定义。美国疾病控制与预防中心,2022年4月6日。URL:https://www.cdc.gov/coronavirus/2019-ncov/variants/variant-classifications.html[2022-09-19]访问
  12. 王欣,Hegde S, Son C, Keller B, Smith A, Sasangohar F.新冠肺炎大流行期间美国大学生心理健康调查:横断面调查研究J Med Internet Res 2020年9月17日;22(9):e22817 [免费全文] [CrossRef] [Medline
  13. Son C, Hegde S, Smith A, Wang X, Sasangohar F.新冠肺炎对美国大学生心理健康的影响:访谈调查研究J Med Internet Res 2020 Sep 03;22(9):e21279 [免费全文] [CrossRef] [Medline
  14. 张欣,刘娟,韩娜,尹杰。COVID-19大流行期间孕妇使用社交媒体、不健康的生活方式与流产风险:前瞻性观察研究JMIR公共卫生监测2021年1月05日;7(1):e25241 [免费全文] [CrossRef] [Medline
  15. Ginsberg J, Mohebbi M, Patel RS, Brammer L, Smolinski MS, Brilliant L.基于搜索引擎查询数据的流感流行检测。自然杂志2009年2月19日;457(7232):1012-1014。[CrossRef] [Medline
  16. 胡金杰,王伟,王德伦,刘志强,等。COVID-19大流行早期大学生心理健康与行为:智能手机与生态瞬时评估纵向研究J Med Internet Res 2020 Jun 17;22(6):e20185 [免费全文] [CrossRef] [Medline
  17. Klein AZ, Magge A, O'Connor K, Flores Amaro JI, Weissenbacher D, Gonzalez Hernandez G.使用Twitter跟踪COVID-19:自然语言处理管道和探索性数据集。J Med Internet Res 2021 1月22日;23(1):e25314 [免费全文] [CrossRef] [Medline
  18. Ahmad AR, Murad HR。伊拉克库尔德斯坦COVID-19大流行期间社交媒体对恐慌的影响:在线问卷研究J Med Internet Res 2020年5月19日;22(5):e19556 [免费全文] [CrossRef] [Medline
  19. Abd-Alrazaq A, Alhuwail D, Househ M, Hamdi M, Shah Z.在COVID-19大流行期间推特用户最关心的问题:信息监测研究。J Med Internet Res 2020 april 21;22(4):e19016 [免费全文] [CrossRef] [Medline
  20. Boon-Itt S, Skunkan Y.公众对推特上COVID-19大流行的看法:情绪分析和主题建模研究。JMIR公共卫生监测2020年11月11日;6(4):e21978 [免费全文] [CrossRef] [Medline
  21. Foufi V, Timakum T, gaudt - blavignac C, Lovis C, Song M.来自Reddit的文本健康信息挖掘:具有提取实体及其关系的慢性病分析。J Med Internet Res 2019 6月13日;21(6):e12876 [免费全文] [CrossRef] [Medline
  22. Paul MJ, Dredze M.公共卫生的社会监测。见:信息概念、检索和服务综合讲座。加州圣拉斐尔:Morgan & Claypool出版社;2018.
  23. Park A, Conway M.在线健康社区成员心理状态的纵向变化:了解参与在线抑郁社区的长期影响。J Med Internet Res 2017年3月20日;19(3):e71 [免费全文] [CrossRef] [Medline
  24. Wongkoblap A, Vadillo MA, Curcin V.社交媒体时代的心理健康障碍研究:系统回顾。J Med Internet Res 2017 Jun 29;19(6):e228 [免费全文] [CrossRef] [Medline
  25. 康威M,奥康纳D.社交媒体,大数据和心理健康:当前的进展和伦理影响。Curr Opin Psychol 2016 6月;9:77-82 [免费全文] [CrossRef] [Medline
  26. Katz M, Nandi N.在COVID-19大流行背景下的社交媒体和医学教育:范围审查。JMIR医学教育2021年4月12日;7(2):e25892 [免费全文] [CrossRef] [Medline
  27. 杨旭,宋波,吴安,莫培华,狄建林,王强,等。与covid -19相关的封锁和强制隔离可能影响中国孕妇心理健康的社会、认知和电子健康机制:横断面调查研究J Med Internet Res 2021年1月22日;23(1):e24495 [免费全文] [CrossRef] [Medline
  28. 尹峰,吴震,夏霞,季敏,王勇,胡哲。中国COVID-19疫苗接受度的决定因素展开。J Med Internet Res 2021年1月15日;23(1):e26089 [免费全文] [CrossRef] [Medline
  29. Benis A, Khodos A, Ran S, Levner E, Ashkenazi S. COVID-19大流行期间的社交媒体参与和流感疫苗接种:横断面调查研究。J Med Internet Res 2021 3月16日;23(3):e25977 [免费全文] [CrossRef] [Medline
  30. Nutley SK, Falise AM, Henderson R, Apostolou V, Mathews CA, Striley CW。COVID-19大流行对饮食失调行为的影响:对社交媒体帖子的定性分析JMIR Ment Health 2021年1月27日;8(1):e26011 [免费全文] [CrossRef] [Medline
  31. 概率主题模型。通讯ACM 2012四月;55(4):77-84。[CrossRef
  32. 刘磊,唐磊,董伟,姚松,周伟。主题建模及其在生物信息学中的应用综述。sprerplus 2016;5(1):1608 [免费全文] [CrossRef] [Medline
  33. 张松,Pian W,马峰,倪震,刘颖。中国社交媒体新冠肺炎疫情信息传播特征的探索性研究。JMIR公共卫生监测2021年2月05日;7(2):e26090 [免费全文] [CrossRef] [Medline
  34. Schück S, Foulquié P, Mebarki A, Faviez C, Khadhar M, Texier N,等。COVID-19封锁期间中国和法国社交媒体上讨论的担忧:基于主题建模的比较信息流行病学研究JMIR Form Res 2021年4月05日;5(4):e23593 [免费全文] [CrossRef] [Medline
  35. Blei DM, Ng AY, Jordan MI.潜狄利克雷分配。[J] .机器学习,2003;3:993-1022 [免费全文] [CrossRef
  36. 张h, Rempel E, Roth D, Carenini G, Janjua新西兰。追踪北美推特上的COVID-19话语:使用主题建模和基于方面的情感分析的信息流行病学研究。J Med Internet Res 2021 Feb 10;23(2):e25431 [免费全文] [CrossRef] [Medline
  37. McQuillan L, McAweeney E, Bargar A, Ruch A.文化融合:对推特上错误信息网络行为的洞察。出来了。2020年7月7日。URL:https://arxiv.org/abs/2007.03443[2022-09-19]访问
  38. 高剑霞,刘志明。COVID-19大流行期间社交媒体上如何谈论孤独:对4492个推特消息的文本挖掘J精神病学Res 2022年1月;145:317-324 [免费全文] [CrossRef] [Medline
  39. 张文杰,王文杰,王文杰,等。网络电子烟叙事与COVID-19的交叉:主题建模研究。J Med Internet Res 2020年10月30日;22(10):e21743 [免费全文] [CrossRef] [Medline
  40. 薛娟,陈娟,陈超,郑超,李松,朱涛。新冠肺炎大流行期间的公共话语和情绪:利用潜狄利克雷分配在Twitter上进行话题建模。PLoS One 2020;15(9):e0239441 [免费全文] [CrossRef] [Medline
  41. Adikari A, Nawaratne R, De Silva D, Ranasinghe S, Alahakoon O, Alahakoon D. COVID-19情绪:基于人工智能的自报告信息内容分析。J Med Internet Res 2021 april 30;23(4):e27341 [免费全文] [CrossRef] [Medline
  42. de Melo T, Figueiredo CMS。比较关于巴西COVID-19的新闻文章和推文:情感分析和主题建模方法。JMIR公共卫生监测2021年2月10日;7(2):e24585 [免费全文] [CrossRef] [Medline
  43. Biester L, Matton K, Rajendran J, Mower E, Mihalcea R.量化COVID-19对心理健康支持论坛的影响。出来了。2020年9月8日。URL:https://arxiv.org/abs/2009.04008[2022-09-19]访问
  44. Chandrasekaran R, Mehta V, Valkunde T, Moustakas E.关于COVID-19大流行的推文的主题、趋势和情绪:时间信息监测研究。J Med Internet Res 2020年10月23日;22(10):e22624 [免费全文] [CrossRef] [Medline
  45. 王旭,邹超,谢泽,李丹。推特上加州和纽约对新冠肺炎的公众舆论。medRxiv。2020年7月14日。URL:https://www.medrxiv.org/content/10.1101/2020.07.12.20151936v1[2022-09-19]访问
  46. Stokes DC, Andy A, Guntuku SC, Ungar LH, Merchant RM。在线讨论论坛中关于COVID-19的公共优先事项和关切:纵向主题建模。J Gen实习生医学2020年7月;35(7):2244-2247 [免费全文] [CrossRef] [Medline
  47. 吕锦江,韩磊,吕丽GK。推特上与COVID-19疫苗相关的讨论:主题建模和情绪分析。J Med Internet Res 2021年6月29日;23(6):e24435 [免费全文] [CrossRef] [Medline
  48. Kwok SWH, Vadde SK, Wang G.澳大利亚推特用户中与COVID-19疫苗接种相关的推文主题和情绪:机器学习分析。J Med Internet Res 2021年5月19日;23(5):e26953 [免费全文] [CrossRef] [Medline
  49. 王Chang J, Boyd-Graber J,格瑞斯,C,布莱DM。阅读茶叶:人类如何解释主题模型。2009年发表于:NIPS'09:第22届神经信息处理系统国际会议论文集;2009年12月7日至9日;温哥华,卑诗省p. 288-296网址:https://dl.acm.org/doi/10.5555/2984093.2984126
  50. Jang H, Rempel E, Carenini G, Janjua N.对北美COVID-19相关推文的探索性分析,以为公共卫生机构提供信息。出席会议:2020年EMNLP第一次COVID-19国家语言处理研讨会(第二部分);2020年12月;网上。[CrossRef
  51. Aggarwal J, Rabinovich E, Stevenson S.在Reddit上探讨COVID-19话语中的性别差异。2020发表于:EMNLP 2020第一次COVID-19 NLP研讨会(第二部分);2020年12月;网上。
  52. Reddit。pushshift。URL:https://pushshift.io/reddit/[2022-09-19]访问
  53. 加夫尼D,马蒂亚斯JN。买者自负,计算社会科学:广泛发布的Reddit语料库中大量缺失数据。PLoS One 2018 july 6;13(7):e0200162 [免费全文] [CrossRef] [Medline
  54. 有多少reddit用户删除了他们的帖子?Reddit。URL:https://www.reddit.com/r/pushshift/comments/ikpxrf/how_many_redditors_delete_their_posts/[2022-09-19]访问
  55. MacLean D, Gupta S, Lembke A, Manning C, Heer J.论坛77:致力于成瘾康复的在线健康论坛的分析。2015年发表于:CSCW '15:第18届ACM计算机支持合作工作与社会计算会议论文集;2015年3月14-18日;卑诗省温哥华网址:https://doi.org/10.1145/2675133.2675146CrossRef
  56. 自然语言工具包。URL:https://www.nltk.org/[2022-09-19]访问
  57. 基本单词列表。URL:https://www.edu.uwo.ca/faculty-profiles/docs/other/webb/essential-word-list.pdf[2022-09-19]访问
  58. 图书馆建筑。spaCy工业强度的自然语言处理。URL:https://spacy.io/api[2022-09-19]访问
  59. 潜狄利克雷分配。GENSIM。URL:https://radimrehurek.com/gensim/models/ldamodel.html[2022-09-19]访问
  60. Chen AT, Zhu S, Conway M.在线社区可以告诉我们关于电子烟和水烟的使用:一项使用文本挖掘和可视化技术的研究。J Med Internet Res 2015 9月29日;17(9):e220 [免费全文] [CrossRef] [Medline
  61. 时间轴:世卫组织COVID-19应对措施。世界卫生组织。URL:https://www.who.int/emergencies/diseases/novel-coronavirus-2019/interactive-timeline/[2022-09-19]访问
  62. Kantis C, Kiernan S, Bardi JS, Posner L.更新:冠状病毒的时间轴。Think Global Health, 2022年9月16日。URL:https://www.thinkglobalhealth.org/article/updated-timeline-coronavirus[2022-09-19]访问
  63. 陈超,吴科,Srinivasan V,张旭。与互联网水军作战:隐藏付费海报的检测。2013年发表于:ASONAM '13: 2013年IEEE/ACM社会网络分析和挖掘进展国际会议论文集;2013年8月25-28日;尼亚加拉,。[CrossRef
  64. Low DM, Rumker L, Talkar T, Torous J, Cecchi G, Ghosh SS.自然语言处理揭示了COVID-19期间Reddit上脆弱的心理健康支持群体和加剧的健康焦虑:观察性研究。J Med Internet Res 2020年10月12日;22(10):e22635 [免费全文] [CrossRef] [Medline
  65. Aiello L, Quercia D, Zhou K, Constantinides M, Šćepanović S, Joglekar S.流行心理学在Twitter上的作用:美国对COVID-19大流行的反应演变。人文社会科学学报2021年7月23日;8(1):179。[CrossRef
  66. Cinelli M, Quattrociocchi W, Galeazzi A, Valensise CM, Brugnoli E, Schmidt AL,等。COVID-19社交媒体信息大流行。科学通报2020年10月06日;10(1):16598。[CrossRef] [Medline
  67. Gozzi N, Tizzani M, Starnini M, Ciulla F, Paolotti D, Panisson A,等。Reddit和维基百科上对COVID-19大流行媒体报道的集体回应:混合方法分析J Med Internet Res 2020年10月12日;22(10):e21597 [免费全文] [CrossRef] [Medline
  68. 徐旭,金涛,魏志,王杰。将主题分配约束和主题相关限制引入临床目标发现,用于临床路径挖掘。中国卫生工程杂志2017;2017:5208072。[CrossRef] [Medline
  69. 张超,徐松,李智,胡松。通过推特数据挖掘了解COVID-19大流行期间人群的担忧、情绪和差异:大规模横断面研究。J Med Internet Res 2021 Mar 05;23(3):e26482 [免费全文] [CrossRef] [Medline


API:应用程序编程接口
LDA:潜在狄利克雷分配
人:世界卫生组织


M·米查姆编辑;提交31.01.22;同行评议:A Rovetta, J Li;作者评论06.06.22;订正版本收到13.08.22;接受15.09.22;发表27.09.22

版权

©Mengke Hu, Mike Conway。最初发表于JMIR信息流行病学(https://infodemiology.www.mybigtv.com), 27.09.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用最初发表在JMIR Infodemiology上的原创作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map