发表在第22卷第六名(2020): 6月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/19455,首次出版
韩国新型冠状病毒(COVID-19)爆发早期的在线信息交换和焦虑传播:结构主题模型和网络分析

韩国新型冠状病毒(COVID-19)爆发早期的在线信息交换和焦虑传播:结构主题模型和网络分析

韩国新型冠状病毒(COVID-19)爆发早期的在线信息交换和焦虑传播:结构主题模型和网络分析

原始论文

1浦项科技大学社会数据科学研究所,浦项,韩国

2韩国高阳国家癌症中心国家癌症控制研究所

3.韩国高阳国立癌症中心家庭医学部

通讯作者:

Yeol Kim,公共卫生硕士,医学博士

国家癌症控制研究所

国家癌症中心

一山东区一山路323号

高阳市10408

大韩民国

电话:82 31 920 1753

传真:82 31 920 2189

电子邮件:drheat@ncc.re.kr


背景:在发生新型冠状病毒病(COVID-19)等人群传染病疫情时,由于难以从可靠来源获取可信信息,人们的网络活动可能会严重影响公众关注和健康行为,这反过来又会导致人们在网络上寻求必要的信息。因此,衡量和分析在线健康传播和公众情绪对于制定有效和高效的疾病控制政策至关重要,特别是在疫情暴发的早期阶段。

摘要目的:本研究旨在调查网络健康传播趋势,分析新冠肺炎早期人们焦虑的焦点,并评估网络信息的适当性。

方法:我们从国内人气最高的门户网站Naver(2020年1月20日~ 3月2日)收集了与新冠肺炎相关的13148个问题和29040个答案。本研究主要采用三种方法:(1)采用结构主题模型对在线问题中的主题进行分析;(2)进行词语网络分析,分析人们在问题中焦虑和担忧的重点;(3)两名医生评估了问题答案的适当性,这些问题主要与人们的焦虑有关。

结果:从问题中共确定了50个主题和6个有凝聚力的主题社区。其中,话题群体4(出现特定症状后怀疑感染COVID-19)的问题占比最大。随着确诊患者数量的增加,属于话题群体4的话题比例也随之增加。此外,长期的情况导致与工作问题相关的话题比例略有增加。人们的焦虑和担忧与身体症状和自我保护方法密切相关。虽然怀疑身体症状相对合适,但与自我保护方法相关的回答被评估为错误信息或广告的比例很高。

结论:关于COVID-19疫情的在线信息搜索活动一直很活跃。网上的许多问题都与人们的焦虑和担忧有关。相应的回答中有相当一部分是虚假信息或广告。研究结果可以为需要监测公众焦虑并在包括COVID-19在内的传染病爆发早期提供适当信息的各国提供参考信息。我们的研究还有助于开发基于互联网自然语言数据的流行病形势下衡量公众舆论和情绪的方法。

中国医学杂志,2020;22(6):e19455

doi: 10.2196/19455

关键字



最近出现的新型冠状病毒病(COVID-19)在全球范围内造成了毁灭性的影响。自2020年2月下旬以来,韩国每天都有数百例新确诊病例。截至撰写本文时(2020年4月1日),累计确诊病例数超过9000例。在国际上,200多个国家、地区和领土已确诊80多万例[1],尽管世界卫生组织在前一个月要求全球努力减缓病毒的传播[2].大多数国家都强烈建议采取基本预防措施,如对疑似病例进行隔离和隔离,在宏观层面开展改善个人卫生的运动(如更频繁洗手),或在公共场所佩戴口罩。此外,包括韩国在内的一些国家正在实施更严厉的措施,如要求普通民众避免在公共场所聚集的社会距离。

在发生COVID-19等全人群传染病疫情时,人们的在线活动可能会严重影响公众关注和健康行为。许多研究表明,人们在各种危机情况下积极使用在线信息,包括公共卫生危机[3.4].人们在网络上的信息和情感交流形成了舆论和关注,进而影响人们的认知和行为。虽然网上的这些观点和信息有时是有用的,但它们并不总是合适的。可能会散播不实的资讯,导致不适当的医疗建议或不必要的焦虑[5-7].

分析互联网上记录人们如何自愿就COVID-19交换意见和信息的数据,例如社交媒体服务上的相关帖子,为了解和监测公众对COVID-19的担忧以及相关信息在互联网上的传播提供了宝贵的机会。考虑到在大规模传染病背景下管理谣言和监测公众舆论和行为的需要,以及在人群范围内爆发疫情时互联网舆论的重要性,对在线数据的分析对形成高效和有效的卫生政策和适当提供信息具有重大意义。这些自发编写的语言材料包含关于COVID-19各种主题的丰富信息,卫生政策制定者和公共卫生研究人员无法完全预测这些信息,因此无法通过传统的预先确定的问卷来衡量。因此,分析基于网络的数据可以补充传统的调查,并有助于为普通人群制定卫生政策[7-9].

在传染病爆发的早期阶段,网络数据分析尤其有价值。在新疾病暴发的早期阶段,卫生当局可能缺乏适当的疾病指南,人们可能无法从其他来源找到可靠的信息。由于这种情况,人们可能更容易受到互联网上不确定信息的影响。因此,在传染病爆发的早期阶段监测网络数据对于防止在爆发的早期阶段可能发生的错误信息的不适当传播或不必要的焦虑非常重要。

这项研究主要利用韩国最大的搜索引擎Naver.com的在线社交问答论坛的数据,评估了疫情爆发初期公众对COVID-19的担忧。1011],并分析了项目反应的特征。Naver的问答论坛(“智识人”,意思是“知识分子”)类似于quora,用户可以就任何话题发表问题和回答。我们分析了新冠肺炎疫情初期Naver问答论坛上的13148个问题和答案,分析了网民关注的网络问题的特点和传播信息的适当性。

综上所述,我们的研究问题包括以下几点:

  1. 在Naver问答论坛上,关于新冠肺炎的提问的重点是什么?
  2. 在众多问题中观察到的主题是如何随着时间和主要事件而变化的?
  3. 对新冠疫情的焦虑和担忧的主要对象是什么?
  4. 在传达焦虑和担忧的问题的答案中提供的信息是否恰当或重要?

数据收集

这项研究使用了Naver问答论坛上的问答数据。该论坛对公众开放,允许个人匿名或以其他方式发表问题和答案。

在众多舆论交流网站中选择Naver的问答论坛,主要有两个原因。首先,Naver是在韩国占据主导地位的服务企业。根据最近的一项调查,它每天接待约3000万访客,估计约76%的韩国互联网用户使用它作为主要的搜索门户网站[1012].而且,Naver是唯一一个拥有大量用户的搜索引擎,还设有可以自由访问信息交流的问答论坛。虽然类似的信息交换也可以在其他互联网社区和社交网络服务中发生,但一般来说,只有他们的成员才能接近和看到他们,所以他们的影响力是有限的。因此,Naver的问答论坛数据更能说明韩国国民通过网络发帖产生的担忧。其次,与其他社交媒体的数据不同,来自问答论坛的语言数据包含了作者兴趣和感受的详细背景。问答表单允许用户发布详细的信息,因为它的目的是帮助其他人了解完整的情况。例如,一条Twitter帖子通常只是揭示作者的感受或焦虑;然而,Naver问答论坛的一个问题解释了这个问题的背景。因此,我们的数据可能比其他基于网络的数据来源更能分析公众对COVID-19的担忧。

从2020年1月20日至2020年3月2日期间发布的新冠肺炎相关问题和答案收集自Naver问答论坛,并用于分析。之所以选择2020年1月20日作为数据收集的起点,是因为该日期与国内第一例COVID-19患者的诊断相符,在此日期之前的问题很少。然后在预处理过程中考虑数据的频率和特征,确定上述数据的持续时间。确定与covid -19相关职位的程序包括几个步骤。

首先,一个问题及其附带的答案被视为一个文件。我们收集了2019年12月30日至2020年3月2日期间包含“코로나”(英文为“corona”)一词的所有文件(问题和答案)。但是,它也会使用“코로나”这个词来提取问题和答案,这个词指的是COVID-19以外的物体。

其次,使用额外的搜索标准从第一步的结果中重新选择数据,以更准确地选择与covid -19相关的问题和答案。搜索条件为:([코로나or corona or우한or COVID]和[바이러스or폐렴])或(코로나19 or코로나19或신종코로나or신종코로나or COVID19 or COVID19 or COVID-19 or COVID-19)。由于韩国人普遍使用英语和韩语,所以搜索标准中出现了英语和韩语。这里使用的韩语的英文翻译是:코로나=corona,우한=Wuhan,바이러스=virus,폐렴=pneumonia,신종코로나=novel corona。因此,我们在搜索条件中包括了病毒或肺炎等生物学词汇,或指这种疾病的相对正式的名称,如COVID19或corona19。这些标准用于确定与COVID-19相关的问题和答案,并且至少包含一部分生物学视角,因为我们假设生物学词汇和正式名称至少反映了一点视角。由于COVID-19在国内政治中是一个有争议的问题,我们搜索了至少包含一些生物学观点的帖子,并排除了纯粹从政治观点撰写的帖子。

第三,我们从选定的数据中分离出问题,并再次选择满足以下搜索条件的问题:(코로나或corona或우한或COVID)。问题包括不相关的词语(如宠物,吉他)被删除。由于狗或猫可能会感染与COVID-19不同类型的冠状病毒,因此对此存在疑问。我们排除了与宠物有关的问题。与国内吉他生产企业“corona”相关的问题也被排除在外。高级标准只适用于问题,因为一些用户没有考虑问题的内容就提供了答案。换句话说,虽然很少,但也有与COVID-19相关的答案附加在与COVID-19无关的问题上的情况。这确保了问题和答案都与COVID-19有关。

第四,删除重复题。问答论坛的用户有时会转发相同的问题,或发布措辞略有变化的类似问题,但这并没有什么帮助。用于发现重复问题的标准是问题的前50个字符或后50个字符(包括空格)是否重复。

第五,删除了2020年1月20日之前发布的少数问题(n=14),因为这段时间的数据不能很好地代表公众关注。结果,收集了与新冠肺炎相关的13148个问题和29040个答案。图1给出了这一过程的概要图。

图1。数据过滤过程。COVID-19:冠状病毒病
查看此图

数据分析

研究人员使用了一些文本挖掘技术,包括结构主题建模和单词网络分析,从13148个问题中分析了公众关注的问题。语言数据分析经常使用人类的解释能力[13].语言材料中的主题是各种信息综合的结果,而不仅仅是简单明确的表达。因此,通过调动人类对文本的解读能力,可以很方便地捕捉主题。然而,少数研究人员所能处理的数据量是有明显限制的。这就解释了为什么之前的几项分析医疗相关媒体或互联网帖子的研究使用了少量的样本数据[14-16].这些研究也容易受到人类研究者主观性的不利影响。本研究利用文本挖掘技术,利用计算机从大量数据中提取有用信息,从大量语言数据中客观估计公众关注的问题。

尽管文本挖掘允许我们检查大量数据,但这些技术通常不能捕捉微妙的细微差别。例如,使用基本的文本挖掘技术,确定答案是正确信息还是谣言有点困难。这给研究人员带来了挑战,因为谣言,尤其是令人信服的谣言,使用相似的词语,并将词语与有效信息联系起来。为了弥补这一点,我们还使用了一种方法,允许医生(家庭医学专家)对特定主题的问题的答案进行分类,然后分析这些答案的特征。

综上所述,本文主要采用了三种分析方法:结构主题模型(STM)、网络分析和专业定性分类。每种方法将在以下部分中描述。

结构主题模型

STM是一种主题建模方法,用于提取13148个问题的整体主题或焦点,并研究主题或焦点如何随时间变化。

与大多数在潜狄利克雷分配(latent Dirichlet allocation, LDA)之后开发的主题建模方法一样,STM可以从大量文档中提取多个主题以及每个文档中主题的概率分布。所提取的主题及其分布是总结给定文档的信息[1718].

主题估计过程基于几个假设。主题建模方法假设文档是一组简单的单词,而主题是单词的概率分布(例如,猫:0.015,狗:0.01,宠物:0.009,等等)。每个文档包含多个具有特定概率分布的主题(例如,第一个文档:主题1=0.4,主题2=0.2,主题3=0.4)。然后假设单个文档是由主题及其每个文档的分布随机生成的,并且不是由人类直接编写的;因此,考虑给定的数据,估计最可能的主题及其分布[17-19].

自然,单词的概率分布本身并没有直观的意义;然而,我们可以从单词的概率分布来解释主题的含义。当一个主题被定性地表达时,它主要表现为词语的不平等使用。例如,假设语言材料中存在“癌症筛查测试”的主题。某些词,如“筛查”或“乳房x光检查”,在这本材料中会比其他词使用得更频繁。因此,如果我们可以推断出可能产生给定文档的单词概率分布,我们也可以通过注意对应概率分布中的高概率单词来推断主题的含义。

每个文档中主题的分布也是解释主题的重要信息,因为它们可以用来确定每个主题是如何实现为语言材料的。我们还可以确定在每个单独主题上所占比例最高的文档。例如,我们可以识别出所有文档中topic 2比例最高的前10个文档。在阅读了十篇文献之后,我们可以更准确地理解topic 2的详细上下文和直观意义。

简而言之,主题建模方法估计主题及其适当解释给定文档的每个文档的概率分布。虽然概率分布本身并不能提供直观的含义,但研究人员可以解释主题的含义。

除了这个主题建模的通用功能之外,STM还估计文档的元信息对主题的比例或内容有多大影响[20.21].元信息是指存在于文档内容之外的其他信息(例如,文档是何时编写的或作者的类型)。STM估计元信息如何影响所提取主题的比例和内容。鉴于本研究的主要目的是分析问题的主题如何随时间变化,STM的这些属性被认为是适合实现我们的研究目标的。本研究估计了张贴问题的时间如何影响问题主题的比例。

STM在问题中的应用如下所述。在13148个问题中,有12个问题在STM的预处理中被额外剔除。我们只使用出现在至少2个问题中的单词和包含至少2个单词的问题,因为只出现在单个文档中的单词或只包含1个单词的问题对主题建模的信息很少。我们从剩下的13136个问题中估计了50个主题。主题数量设置为50个,因为根据保留可能性衡量,50个之后的主题建模性能没有显著改善[22]当主题数量从10个增加到80个,增量为5 (图2).在我们的模型中,以问题的发布时间为协变量,以1天为单位来估计主题比例随时间的变化。

所有的主题都通过三种信息进行解释和标记:每个主题中给出概率高的单词,每个主题中频率和排他性(FREX)得分高的单词,以及每个主题中比例高的文档。在解释话题时,高概率词和估计在每个话题中占高比例的文献的重要性前面已经解释过了。FREX得分高的单词通过排他性和频率来补充高概率单词[21].也就是说,一个题目的FREX分数高的词是很重要的,特别是在题目中。所有作者综合考虑概率最高的15个单词,FREX得分最高的15个单词,以及每个主题占比最高的10个问题,对50个主题进行了集体解读和标注。

我们还使用STM对包含与焦虑和担忧相关主题的代表性问题进行抽样。为了分析公众焦虑和担忧相关问题的答案的适当性,需要从整批问题中重新选出最具代表性的问题。由于一小群人类研究人员不可能直接审查13148个问题,STM的结果被用来选择包含焦虑和担忧相关主题的问题。我们提取了讨论身体症状和COVID-19自我保护方法的话题占高比例的问题,因为这些问题被揭示为焦虑和担忧的主要目标。

图2。伸出的可能性。
查看此图
网络分析

主题建模对于识别大量文档中的广泛主题非常有用;然而,研究人员无法控制模型来查看特定主题的结果。因此,分析感兴趣的特定单词之间的关系对于实现我们的研究目标很重要。

我们的研究目标之一是确定人们表达焦虑和担忧的对象和背景。为了找出“焦虑”和“担心”的来源,我们分别抽取了“불”和“걱정”等出现频率最高的20个单词。这些单词分别是“焦虑”和“担心”的韩语单词。我们认为出现在同一个问题中的两个词是两个词之间的联系或联系。

此外,为了全面分析人们的焦虑和担忧的语境,我们将与“焦虑”和“担心”相关的前50个词语组合成“词汇网络”。观察与焦虑和担心相关的单个单词并不能准确地分析焦虑和担心的全部上下文。与焦虑和担心相关的词汇网络使我们能够进一步分析焦虑和担心的上下文。因此,收集了与“焦虑”和“担心”相关的前50个词语,并建立了网络。连接准则是同一问题中词语的同时出现。这个网络非常密集,因为这个网络是由在相似上下文中使用的单词组成的。只需要选择最突出的链接来提取特别突出的含义。为此,只提取具有最高权重的链接(即500个最频繁的连接)来创建一个子网。这个子网络被认为包含了与人们焦虑和担忧相关的最突出的上下文。

将网络团体检测算法应用于该子网中,从网络中提取出不同的主题。该算法在网络中识别出相对更有凝聚力的节点社区[23-25].当应用于我们的单词网络时,它可以找到一组在整个网络中彼此出现频率更高的单词。例如,该算法可以判断“中国”、“武汉”、“肺炎”、“感染”和“旅行”等词集群在整个单词网络中频繁出现。这被解释为我们通过网络分析发现的一个独特的主题。换句话说,网络社区检测算法识别出了当人们表达焦虑或担忧时出现的最突出和最独特的上下文。我们确定了有凝聚力的单词社区,其中至少包含5个单词,因为需要这个数量才能将单词社区解释为有意义的主题。

Walktrap在克服“分辨率问题”的同时,性能优异,因此从各种网络社区检测算法中被选中[2526].解决问题是指算法无法正确捕获少数节点的团体,这是应用网络团体检测算法时经常遇到的问题。简单地说,Walktrap算法使用每个节点的随机行走来计算网络中节点之间的距离,并根据该距离找到社区。分析师为距离计算设置了随机游走的步长,我们将其设置为2。网络分析通过R (R Foundation for Statistical Computing)的图例包实现。

Walktrap算法还用于识别相互相关的主题的内聚社区。STM估计主题之间的相关性[20.27].两个主题之间的正相关意味着这两个主题很可能同时出现在同一个文档中。我们假设这种正相关是主题之间的链接,并形成了所有主题的网络。接下来,我们使用网络社区检测算法,分析整个主题网络中是否存在相对更有凝聚力的主题社区。换句话说,我们试图确定经常一起表达的主题集。因此,我们确定了6个被认为具有凝聚力的主题社区。我们标记了每个主题社区,以表达更广泛的主题,包括属于主题社区的主题,考虑到每个主题通过STM做出的解释。

也就是说,在从13136个问题中估计出50个主题后,使用Walktrap算法将这些主题总结为6个主题社区,然后进行解释。之所以采用这一额外步骤,是因为尽管50个主题是一个很好的总结,但对于一个人来说,直观地理解它仍然是很多信息。

专业人员定性编码

利用上述方法的结果,我们评估了涉及焦虑和担忧主要目标的问题的答案的适当性,发现主要主题是身体症状和自我保护方法。我们选择了涉及这两个主题的示例问题和答案。作为家庭医学专家的两位医生和本文的作者,将答案分为5个独立的类别:适当的答案、无关的答案、错误的答案、广告和其他。如果在答案的类别上有分歧,他们就会讨论,直到达成一致,并记录下一致的结果。

通过考虑使用STM产生的每个问题中主题的比例来选择样本问题。身体症状和自我保护的主题分别与第四和第五主题群体相关。从每个主题社区中选择高比例的问题可以形成很好的样本问题,恰当地代表每个主题。因此,根据每个问题的主题比例信息,计算每个问题的主题社区4和5的比例。它是通过将属于每个主题社区的主题的比例相加而创建的。从主题社区4和5中选择了前100个问题,并确定了每个问题的答案。回答的人数分别为250人和306人。

形态分析与词性标注

对于前面提到的方法,特别是STM和网络分析,要想正常工作,就需要从我们的语言数据中提取语素。也就是说,我们需要了解哪些词语出现在哪里,出现的频率是多少。用于确定这一点的程序被称为形态分析器。在适用于韩国语的多种形态分析仪中,“Komoran”在2016年获得了国立韩国语学会的奖项,因为它对韩国语的间隔问题具有弹性,而且足够合格。

我们想提前提到一个关于从Komoran数据中提取的词语的警告;韩语和英语没有1:1的反应。例如,有几个韩语单词可以翻译为“发烧”(“열”和“발열”)。在把这些词翻译成英语时,我们给它们编号(如:fever_1, fever_2)。


文档和单词的频率

我们的数据总共包括13148个问题。图3显示按日期排序的问题数量。

在问题中出现的单词中,表1列出前30个高频词。排在前5位的词汇包括“咳嗽”、“症状”、“喉咙”、“口罩”和“确诊”。

图3。按日期排列的问题数量。
查看此图
表1。所有问题中出现频率最高的30个单词(名词,不包括含有“corona”的单词)。
单词 频率、n
咳嗽 5589
症状 4739
喉咙 4177
面具 2822
确认诊断 2199
人类 2095
1983
1953
Fever_1 1907
学位 1887
肺炎 1844
房子 1795
担心 1792
武汉 1787
医院 1780
中国 1691
鼻液溢 1432
1427
感染 1359
工作 1352
最近 1278
小说 1268
头疼 1246
鼻子 1153
感觉 1144
测试 973
旅行 958
身体 911
焦虑 863
病毒 747

结构主题模型

使用STM从13136个问题中估计了大约50个主题,并由作者进行了解释。表2给出解释结果。左起第一列是主题号,第二列是主题的解释,第三列是每个主题所属的主题社区号。主题号和主题团体号是为了区别而使用的名义编号。

大多数主题都有一个明确的主题或一致的内容,可以进行精确的解释。然而,有些主题被提取出来是因为在各种问题中反复出现的表达,而不管问题的内容是什么。这是因为主题建模捕获了在文档中观察到的多个单词的共出现模式,而不考虑单词的含义。例如,如果关于不同主题的许多问题包含类似的表达式,如“请回答我的问题,否则你可能会被诅咒”,主题模型将捕获该模式并根据该模式估计主题。在我们的模型中,由于独特的韩语用法,提取了几个主题。在这种情况下,我们将题目的解释统一为“没有共同主题的特定韩国语表达的问题”。此外,我们将这些主题中最突出的韩语表达用韩语括号表示,并将其翻译成英语。

第三列表2结果是将Walktrap应用于主题的相关网络,将主题分组为几个有凝聚力的社区。总共有50个主题被分为6个主题社区,每个主题社区都有一个数字(最右边的一列)。的主题表2根据主题社区编号进行排序,帮助读者轻松识别属于每个主题社区的主题。图4展示了通过Walktrap识别的整个主题网络和主题社区的可视化。节点为主题,节点下方的数字为主题号,链接为主题之间的正相关关系,节点的颜色表示主题分组。因此,相同颜色的话题属于同一个社群。表3介绍作者对主题社区的解释结果。

STM根据每个文档计算主题的比例。这使我们能够计算每个主题在整个文档中的比例,这也可以用于计算主题社区在整个文档中的比例。我们汇总了属于同一个社区的主题的比例。此外,STM计算了所有主题随时间变化的比例,因为时间变量在我们的STM中被设置为协变量。对主题的比例随时间变化的估计也可以汇总,以产生主题社区随时间的比例变化。图5而且6展示结果。

话题群体4(出现特定症状后怀疑感染新冠病毒的问题)在所有问题中占比最大。在国内感染人数开始急剧增加的2月末,感染人数急剧增加。在图6,黄线(主题社区4)与虚线(确诊人数)在主题社区4第二次增加后几乎平行,黄线模拟确诊人数的增加。此外,值得注意的是,随着COVID-19疫情的持续,主题社区2(对COVID-19造成的工作条件的关注)的比例略有上升。

表2。对话题的解释。
主题数 解释 主题团体号
14 关于新冠肺炎相关英语文本解读的问题一个 1
21 与COVID-19无关的日常生活问题 1
34 关于使用公共交通工具的问题 1
37 过去的活动或经历怀疑可能感染COVID-19的问题 1
39 关于检查中心或医院检查的问题 1
44 怀疑或担心外出或与他人接触可能感染COVID-19的问题 1
45 怀疑或担心家人可能感染COVID-19的问题 1
49 涉及特定韩语表达的问题(“~때”:表示特定时间点的名词b;" ~문제":关于~的问题)没有共同的主题 1
28 关于COVID-19对工作条件或休息日的影响的问题 2
30. 关于兼职工作者应对COVID-19困难的问题 2
1 关于韩国COVID-19疫情现状的问题 3.
2 关于韩国境外COVID-19疫情现状的问题 3.
3. 关于COVID-19的其他问题 3.
5 关于新冠肺炎疫情进一步蔓延预期的问题 3.
6 关于区域内确诊患者具体信息的问题,包括患者“路线图” 3.
10 关于COVID-19疫情结束的问题。 3.
12 关于特定的韩国语表达的问题(“~가궁금하다”:I wonder~;“~를알려달라”:请解释~)没有共同的主题 3.
13 表达作者对COVID-19的恐惧和困难的问题 3.
15 关于医院治疗COVID-19的问题 3.
18 关于导致COVID-19感染的具体情况 3.
23 没有共同主题的特定韩国语表达(“부탁드립니다”:请问~)的问题 3.
24 关于新冠肺炎疫情对股市影响的问题 3.
25 有关宗教和捐赠的问题 3.
26 关于政府对COVID-19的政策,包括入境禁令 3.
29 有关新天地教会和宗教活动的提问 3.
32 涉及特定的韩国语表达的问题(“가능할까”:可以~吗? 3.
33 涉及特定韩语表达的问题(“완전”:表示重要性的副词,如完全或完全;~겁니다:表示当前状态的助动词c)没有共同的主题 3.
35 关于COVID-19疫苗和治疗的问题 3.
40 关于中国武汉肺炎的问题 3.
46 关于开学及延迟开学的问题有关延期开学及复课日期的问题 3.
47 涉及特定韩国语表达的问题(“~한데”:I feel like~ then;“~되는데”:这是~)没有一个共同的主题 3.
50 涉及特定的韩国语表达(“目前或目前”)而没有共同主题的问题 3.
4 出现喉咙痛后怀疑可能感染COVID-19的问题 4
9 出现胸部不适后怀疑感染COVID-19的问题 4
16 出现发热感和呼吸异常后怀疑感染COVID-19的问题 4
19 发烧后怀疑感染COVID-19的问题 4
22 关于暴露在寒冷天气或日常生活中感染COVID-19的风险的问题 4
27 出现呼吸道不适后怀疑感染COVID-19的问题 4
31 出现头痛和咳嗽后怀疑感染COVID-19的问题 4
38 出现腹泻和食用特定食物后怀疑可能感染COVID-19的问题 4
43 旅行后怀疑感染COVID-19的问题 4
8 关于戴口罩等个人防护的问题 5
11 关于新型冠状病毒污染机制的问题 5
17 关于如何使用口罩的问题 5
41 关于COVID-19相关非科学知识的问题 5
42 关于洗手液和包裹的问题 5
48 关于消毒剂和空气净化器的问题 5
7 关于旅行或参观公共场所安全的问题 6
20. 有关旅行安全的问题 6
36 关于旅行和航班取消程序和费用的问题 6

一个COVID-19:冠状病毒病

b类似于在一个句子中(即,那时我还年轻)。

c类似于在一个句子中(即,我头痛)。

图4。主题网络和主题社区。
查看此图
表3。主题社区的解释。
主题社区 解释
1 对COVID-19的普遍关注一个感染
2 对COVID-19造成的工作条件的担忧
3. 关于韩国COVID-19疫情现状和政府政策的问题
4 出现特定症状后怀疑感染COVID-19的问题
5 有关佩戴口罩等自我预防措施的问题
6 关于旅行和外出的问题

一个COVID-19:冠状病毒病

图5。所有问题中主题社区的比例。COVID-19:冠状病毒病
查看此图
图6。按日期划分的主题社区比例。
查看此图

网络分析

我们从2020年1月20日至3月1日发布的问题中,提取了与焦虑和担忧相关的单词最多的20个单词(分别为“불”和“걱정”)。表4展示结果。在表4排名前5位的单词包括“咳嗽”、“症状”、“喉咙”、“口罩”和“感冒”。这让我们可以推断,人们的焦虑集中在身体症状和关键的自我保护方法上,比如戴口罩。

我们还检查了与焦虑和担心相关的单词列表是否会随着时间而变化。将时间段(2020年1月20日至3月1日)分为6周,从6个子时段的数据中提取与焦虑和担忧相关的排名前几位的词汇(图7).在1月20日至26日这一周,当第一例新冠肺炎确诊病例报告时,焦虑的主要主题是“中国和旅行”。这很正常,因为当时新冠肺炎疫情还仅限于中国大陆。但是,随着国内新冠肺炎确诊患者的增加,与身体症状相关的词汇出现了上升趋势。2月17日之后,韩国国内确诊病例急剧增加了2、3位数。此后,韩国人在接触确诊患者时要格外小心,“确诊”一词成为与焦虑相关的主要词汇。“面具”一词在所有时期都一直排在前10名。换句话说,对自我保护的焦虑和担忧在整个研究期间一直普遍存在。

我们使用与焦虑和担忧相关的前50个单词组成了一个单词网络,并基于最突出的500个链接提取了它的子网络。通过将Walktrap算法应用于子网络,我们可以提取三个内聚的单词社区或三个不同的主题。图8展示至少包含5个单词的三组单词的可视化。一个与身体症状有关,一个与自我保护有关,最后一个与中国有关。换句话说,人们的焦虑主要表现在三个方面。这一结果与我们基于与焦虑和担忧相关的词语类型的推理是一致的。

表4。在所有问题中出现频率最高的20个单词是焦虑和担心(名词,不包括含有“corona”的单词)。
频率、n
咳嗽 895
症状 750
喉咙 602
面具 507
418
学位 409
房子 404
确认诊断 400
最近 399
人类 386
医院 386
383
Fever_1 348
武汉 322
中国 310
肺炎 308
工作 274
鼻液溢 271
头疼 245
认为 238
图7。以周为单位,与焦虑和担心并列出现频率最高的20个单词(名词,不包括含有“corona”的单词)。
查看此图
图8。与焦虑和担忧相关的前50个单词。
查看此图

专业人员定性编码

图9显示了两位医生对涉及焦虑和担忧的主要目标的样本问题的答案分类的结果,分为五个类别。

关于身体症状的问题的答案通常是恰当的,相对来说不那么扭曲。另一方面,关于自我保护措施的问题,有很多广告答案。

图9。回答类别占比(基于样本数据)。COVID-19:冠状病毒病;道具:比例。
查看此图

在新型传染病爆发的情况下,普通民众无法轻易评估有关疾病信息的准确性,因此越来越依赖在线信息。由于疾病的不确定性,获得适当和准确的信息极为困难,特别是在疫情的早期阶段。在治理机构(如卫生当局)宣布有关疾病的官方声明,包括症状、治疗或预防措施之前,可能会有延迟。然而,公众不太可能不去寻求信息,耐心等待准确的信息公开。在这种情况下,更有可能的是,民众成员将寻求从互联网等其他来源获得急需的信息。

与之前的研究一致,我们的数据显示,人们在网上搜索有关COVID-19的信息。对13136个问题的分析显示,最大比例的话题是关于出现特定症状后可能感染COVID-19的焦虑和担忧。随着COVID-19疫情的持续,关注工作条件的话题所占比例也略有增加。咳嗽、喉咙痛、咳痰等身体症状和戴口罩等自我保护措施是同时出现的关键词焦虑而且担心在词语网络分析中。这意味着人们主要关心的是出现特定的身体症状是否与COVID-19有关,以及如何保护自己不受COVID-19感染。

我们还分析了回答问题的答案的适当性。在“出现特定症状后怀疑是否感染新冠病毒”的问题中,有63%的答案被评价为“适当”,而15.6%的答案是错误的,这意味着有可能传播错误信息。在“如何正确佩戴口罩”等有关自我保护措施的问题中,广告的回答高达66.3%。因此,可以假定,一般民众可能难以获得关于自我保护措施的适当信息。

这项研究有助于就COVID-19早期观察到的公众关注和焦虑建立早期健康沟通。疫情的初始阶段是卫生部门的政策和人们对疫情的认识都没有稳定下来的阶段。在这种情况下,人们在网上交流的信息和情感会产生很大的影响。各国政府应采取适当措施,在疫情早期建立在线卫生交流,提供适当和准确的信息。考虑到目前基于网络数据的COVID-19相关研究较少,我们的研究的政策和学术价值更加明显。虽然有利用网络数据分析其他传染病公众心理的各种特征的研究,但与COVID-19相关的研究很少。鉴于近期许多国家都受到了影响,并且处于COVID-19爆发的初始阶段,我们对韩国的研究可以作为其他国家制定政策的参考点。韩国经历COVID-19的时间相对较早。

这项研究也有助于设计在传染病爆发的情况下使用语言数据测量公众心理的方法。在处理传染病时,必须了解公众心理和文化[28]因为公众心理对传染病的管理有很大影响[29].例如,公众对感染者的愤怒在传染病爆发中很常见,这可能会导致感染者逃避筛查等隔离措施。这是因为受感染的人会尽量避免强烈的社会愤怒指向他们。为了防止这种情况的发生,有必要及时细致地了解国民的情绪,并组织对感染者的社会支援等适当的应对措施。然而,如前所述,传统调查相对难以快速实施,且存在局限性(如研究者框架对答案的影响,收集实时数据相对困难)[30.].最近,使用计算机和统计模型来分析语言数据已经被引入,一些学者认为它是有用的[133132].我们的论文提供了它在传染病爆发中使用的例子。在问答论坛之外,互联网上还有各种语言材料,可以积极补充现有的调查方法,创造出多种方法来近似公众焦虑。简而言之,这项研究显示了“基于在线数据的卫生政策决策”的潜力。

此外,本研究在如何使用文本挖掘技术方面与其他研究有所区别。在此之前,使用健康相关文本数据的论文通常以频率为主要信息,例如Twitter被提及的次数[33],或应用LDA [3435],这是最常用的主题建模技术[36].通过使用STM,本研究在保持主题建模方法优势的同时,更系统地分析了与covid -19相关的主题比例如何随时间变化。此外,本研究不仅将现有的文本挖掘技术应用于健康相关数据,而且在方法论上对如何使用主题建模方法做出了贡献。在许多研究中,各种主题建模方法被用作LDA [36],其中大部分都是从估计的主题中得出结论。然而,只关注主题有一个缺点:如果数据量很大,主题的数量也会增加,从而很难确定整个数据集中出现的总体模式。太多的主题,例如300个主题,代表了大量的信息,这可能会对人类研究人员构成巨大的障碍。我们的研究提出了一种寻找相互关联的主题集的方法,通过形成主题网络,并通过网络社区检测算法在其中找到有凝聚力的主题社区。在我们的结果中,发现了6个主题社区,每个社区都包含与内容相关的主题。令人惊讶的是,属于每个主题社区的主题是有意义地相互关联的,因为主题社区是由社区检测算法和STM结果推导出的相关矩阵派生出来的,而不是通过人类研究人员基于主题内容的分类。换句话说,本研究提出了一种数据驱动的主题聚类方法,可用于从大量文档中估计的众多主题中检测更广泛的主题。

利用本研究的数据和结果,可以进行各种高级分析。我们研究中一个值得注意的结果是,主题群体4(出现特定症状后怀疑可能感染COVID-19的问题)的比例似乎与确诊患者的实际数量有关。考虑到主题社区4中观察到的症状(如咳嗽、喉咙痛和痰)在其他临床报告中被报告为COVID-19的常见症状,这种联系可能不是巧合。这表明,从网络数据中提取的信息可能有助于识别甚至预测传染病的实际趋势。未来的研究可以使用复杂的时间序列分析来仔细研究这种可能性。此外,值得注意的是,某一类问题的答案可能有很高的比例是出于商业动机(图9).这意味着有许多人试图利用传染病危机进行商业利用,而与这些尝试相关的社会影响可以利用本研究的结果进行探索。最后,如果有足够的更长时期的数据,分析在线信息和交流的重要性如何随着时间的推移而变化将是一个有价值的研究项目。这些进一步的研究将有助于有效利用在线数据促进公共卫生。

本研究在数据范围上有局限性。Naver虽然是国内最受欢迎的门户网站,但并不是只有Naver。为了进一步全面分析网络空间中的信息和情感交流,需要整合各种网络数据来源,包括各种社交网络服务。此外,由于互联网用户人数不能恰当地代表整个人口,因此有必要考虑将通过传统方法(如调查)和互联网自然语言数据一起使用。

然而,本研究通过在线数据分析和主题建模的新方法,展示了基于疾病传播与人们焦虑和商业利益相关的健康信息交换。

致谢

本研究由韩国国立癌症中心(1910200-1)资助。这项研究没有得到任何商业公司的资助,包括Naver.com。

利益冲突

没有宣布。

  1. 世界卫生组织2020年4月1日2019冠状病毒病(COVID-19)疫情报告- 72网址:https://www.who.int/docs/default-source/coronaviruse/situation-reports/20200401-sitrep-72-covid-19.pdf?sfvrsn=3dd8971b_2
  2. 世界卫生组织,2020年3月7日。世卫组织关于COVID-19病例超过10万例的声明https://www.who.int/news-room/detail/07-03-2020-who-statement-on-cases-of-covid-19-surpassing-100-000
  3. Rizo CA, Lupea D, Baybourdy H, Anderson M, Closson T, Jadad AR。多伦多SARS爆发的教训。J Med Internet Res 2005 Aug 03;7(4):e46 [免费全文] [CrossRef] [Medline
  4. 桂霞,寇颖,Pine K,陈勇。管理不确定性:在公共卫生危机期间使用社交媒体进行风险评估。2017年5月发表于:CHI Conference on Human Factors In Computing Systems;2017年5月;丹佛,邮编4520-4533。[CrossRef
  5. 王伟,马勇,吴涛,戴勇,陈霞,布朗斯坦。遏制虚假信息在社交网络中的传播。混沌2019 12月29日(12):123131。[CrossRef] [Medline
  6. Auter PJ, Douai A, Makady H, West C.在“阿拉伯世界”传播健康谣言:对两家中东新闻媒体关于中东呼吸综合征的新闻故事和读者评论的12个月内容分析。国际公报2016年7月27日;78(5):411-431。[CrossRef
  7. Barros JM, Duggan J, Rebholz-Schuhmann D.基于互联网资源的公共卫生监测(信息监测)应用:系统综述。J Med Internet Res 2020年3月13日;22(3):e13680 [免费全文] [CrossRef] [Medline
  8. 陈勇,彭诺克,李志强,李志强。基于网络搜索的流感监测方法。临床感染杂志2008年12月1日;47(11):1443-1448。[CrossRef] [Medline
  9. 袁Q, Nsoesie EO,吕波,彭根,朱娜娜R, Brownstein JS。用百度搜索查询监测中国流感流行。科学通报,2013;8(5):e64323 [j]免费全文] [CrossRef] [Medline
  10. NAVER。2019.2018 NAVER年报网址:https://www.navercorp.com/navercorp_/ir/annualReport/2019/NAVER_AR_2018_Eng.pdf
  11. 徐玉奎,李sk。门户网站服务顾客满意度的决定因素。电子商务研究2010年3月11日(1):45-68。[CrossRef
  12. OpenSurvey, 2020年。2020.2020年社交媒体和搜索门户服务报告网址:https://www.opensurvey.co.kr/
  13. 科兹洛夫斯基AC,塔迪M,埃文斯JA。文化的几何:通过词嵌入分析阶级的意义。Am social Rev 2019年9月25日;84(5):905-949。[CrossRef
  14. Hallin DC, Brandt M, Briggs CL。生物医学化和公共领域:报纸对健康和医学的报道,1960 -2000年。2013年11月;96:121-128。[CrossRef] [Medline
  15. Pitts V.疾病和互联网赋权:在网络空间写作和阅读乳腺癌。卫生(伦敦)2004年1月;8(1):33-59。[CrossRef] [Medline
  16. Gooden RJ, Winefield HR。乳腺癌和前列腺癌在线讨论板:性别差异和相似性的专题分析。中华健康心理杂志2007年1月;12(1):103-114。[CrossRef] [Medline
  17. 概率主题模型。通讯ACM 2012 04月01日;55(4):77-84。[CrossRef
  18. Blei D, Lafferty J.主题模型。文本挖掘:分类、聚类和应用。佛罗里达州博卡拉顿:查普曼和霍尔/CRC;2009:101 - 124。
  19. 格里菲思TL,史提弗斯M.寻找科学主题。Proc Natl Acad science U S A 2004 04月06日;101增刊1:5228-5235 [免费全文] [CrossRef] [Medline
  20. Roberts ME, Stewart BM, Tingley D. stm:结构主题模型的R包。中国统计杂志2019;44(2):1-40。[CrossRef
  21. 罗伯茨ME,斯图尔特BM,艾罗尔迪EM.社会科学实验的文本模型。美国统计协会2016年10月18日;111(515):988-1003。[CrossRef
  22. 王志强,王志强,王志强。主题模型的评价方法。在:第26届机器学习国际年会论文集。2009年6月发表于:第26届机器学习国际年会;2009年6月;蒙特利尔,魁北克。[CrossRef
  23. 图中的社区检测。物理学报2010年2月;486(3-5):75-174。[CrossRef
  24. 社会网络分析:方法与应用。英国剑桥:剑桥大学出版社;1994.
  25. 网络中的社区检测:用户指南。Phys Rep 2016 11月;659:1-44。[CrossRef
  26. 杨震,李国强,李国强。人工网络中社区检测算法的比较分析。科学报告2016年8月1日;6(1):1-16。[CrossRef
  27. 布莱DM,拉弗蒂JD。《科学》相关主题模型。应用科学,2007,6(1):17-35。[CrossRef
  28. 2014年尼日利亚埃博拉疫情的行为和情绪反应:叙事回顾。国际健康2016年1月;8(1):5-12。[CrossRef] [Medline
  29. 沟通不确定性——埃博拉、公共卫生和科学过程。中华外科杂志2015年1月1日;372(1):7-9。[CrossRef
  30. Babbie ER。社会研究的实践。斯卡伯勒,佛罗里达:尼尔森教育;2015.
  31. 埃文斯JA, Aceves P.机器翻译:挖掘文本的社会理论。2016年7月30日;42(1):21-50。[CrossRef
  32. 使用主题建模进行语篇分析的可能性。中华医学杂志2019;48(3):321-342。
  33. Rodriguez-Morales AJ, Castañeda-Hernández DM, McGregor A.是什么让人们在社交媒体上谈论埃博拉?Twitter使用的回顾性分析。旅行医学感染杂志2015;13(1):100-101。[CrossRef] [Medline
  34. 傅K,梁H, Saroha N,谢霆锋那种写法,Ip P, Fung IC。人们如何应对Zika病毒疫情在Twitter上吗?计算内容分析。美国感染控制杂志2016年12月1日;44(12):1700-1702。[CrossRef] [Medline
  35. 崔山,李俊,姜敏,闵浩,张勇,尹s。媒体机构的大规模机器学习用于了解全国性病毒感染爆发的公众反应。方法2017 Oct 01;129:50-59 [免费全文] [CrossRef] [Medline
  36. 葛拉赫,裴肖托,奥特曼EG。主题模型的网络方法。科学通报2018年7月;4(7):eaaq1360 [免费全文] [CrossRef] [Medline


COVID-19:冠状病毒病
能用频率和排他性
LDA:潜在狄利克雷分配
问答:问题与答案
STM:结构主题模型


G·艾森巴赫(G Eysenbach)编辑;提交18.04.20;同行评议:S Jung, YC Chen;对作者11.05.20的评论;订正版本收到26.05.20;接受27.05.20;发表02.06.20

版权

©Wonkwang Jo, Jaeho Lee, Junli Park, Yeol Kim。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 02.06.2020。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map