这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
在发生新型冠状病毒病(COVID-19)等人群传染病疫情时,由于难以从可靠来源获取可信信息,人们的网络活动可能会严重影响公众关注和健康行为,这反过来又会导致人们在网络上寻求必要的信息。因此,衡量和分析在线健康传播和公众情绪对于制定有效和高效的疾病控制政策至关重要,特别是在疫情暴发的早期阶段。
本研究旨在调查网络健康传播趋势,分析新冠肺炎早期人们焦虑的焦点,并评估网络信息的适当性。
我们从国内人气最高的门户网站Naver(2020年1月20日~ 3月2日)收集了与新冠肺炎相关的13148个问题和29040个答案。本研究主要采用三种方法:(1)采用结构主题模型对在线问题中的主题进行分析;(2)进行词语网络分析,分析人们在问题中焦虑和担忧的重点;(3)两名医生评估了问题答案的适当性,这些问题主要与人们的焦虑有关。
从问题中共确定了50个主题和6个有凝聚力的主题社区。其中,话题群体4(出现特定症状后怀疑感染COVID-19)的问题占比最大。随着确诊患者数量的增加,属于话题群体4的话题比例也随之增加。此外,长期的情况导致与工作问题相关的话题比例略有增加。人们的焦虑和担忧与身体症状和自我保护方法密切相关。虽然怀疑身体症状相对合适,但与自我保护方法相关的回答被评估为错误信息或广告的比例很高。
关于COVID-19疫情的在线信息搜索活动一直很活跃。网上的许多问题都与人们的焦虑和担忧有关。相应的回答中有相当一部分是虚假信息或广告。研究结果可以为需要监测公众焦虑并在包括COVID-19在内的传染病爆发早期提供适当信息的各国提供参考信息。我们的研究还有助于开发基于互联网自然语言数据的流行病形势下衡量公众舆论和情绪的方法。
最近出现的新型冠状病毒病(COVID-19)在全球范围内造成了毁灭性的影响。自2020年2月下旬以来,韩国每天都有数百例新确诊病例。截至撰写本文时(2020年4月1日),累计确诊病例数超过9000例。在国际上,200多个国家、地区和领土已确诊80多万例[
在发生COVID-19等全人群传染病疫情时,人们的在线活动可能会严重影响公众关注和健康行为。许多研究表明,人们在各种危机情况下积极使用在线信息,包括公共卫生危机[
分析互联网上记录人们如何自愿就COVID-19交换意见和信息的数据,例如社交媒体服务上的相关帖子,为了解和监测公众对COVID-19的担忧以及相关信息在互联网上的传播提供了宝贵的机会。考虑到在大规模传染病背景下管理谣言和监测公众舆论和行为的需要,以及在人群范围内爆发疫情时互联网舆论的重要性,对在线数据的分析对形成高效和有效的卫生政策和适当提供信息具有重大意义。这些自发编写的语言材料包含关于COVID-19各种主题的丰富信息,卫生政策制定者和公共卫生研究人员无法完全预测这些信息,因此无法通过传统的预先确定的问卷来衡量。因此,分析基于网络的数据可以补充传统的调查,并有助于为普通人群制定卫生政策[
在传染病爆发的早期阶段,网络数据分析尤其有价值。在新疾病暴发的早期阶段,卫生当局可能缺乏适当的疾病指南,人们可能无法从其他来源找到可靠的信息。由于这种情况,人们可能更容易受到互联网上不确定信息的影响。因此,在传染病爆发的早期阶段监测网络数据对于防止在爆发的早期阶段可能发生的错误信息的不适当传播或不必要的焦虑非常重要。
这项研究主要利用韩国最大的搜索引擎Naver.com的在线社交问答论坛的数据,评估了疫情爆发初期公众对COVID-19的担忧。
综上所述,我们的研究问题包括以下几点:
在Naver问答论坛上,关于新冠肺炎的提问的重点是什么?
在众多问题中观察到的主题是如何随着时间和主要事件而变化的?
对新冠疫情的焦虑和担忧的主要对象是什么?
在传达焦虑和担忧的问题的答案中提供的信息是否恰当或重要?
这项研究使用了Naver问答论坛上的问答数据。该论坛对公众开放,允许个人匿名或以其他方式发表问题和答案。
在众多舆论交流网站中选择Naver的问答论坛,主要有两个原因。首先,Naver是在韩国占据主导地位的服务企业。根据最近的一项调查,它每天接待约3000万访客,估计约76%的韩国互联网用户使用它作为主要的搜索门户网站[
从2020年1月20日至2020年3月2日期间发布的新冠肺炎相关问题和答案收集自Naver问答论坛,并用于分析。之所以选择2020年1月20日作为数据收集的起点,是因为该日期与国内第一例COVID-19患者的诊断相符,在此日期之前的问题很少。然后在预处理过程中考虑数据的频率和特征,确定上述数据的持续时间。确定与covid -19相关职位的程序包括几个步骤。
首先,一个问题及其附带的答案被视为一个文件。我们收集了2019年12月30日至2020年3月2日期间包含“코로나”(英文为“corona”)一词的所有文件(问题和答案)。但是,它也会使用“코로나”这个词来提取问题和答案,这个词指的是COVID-19以外的物体。
其次,使用额外的搜索标准从第一步的结果中重新选择数据,以更准确地选择与covid -19相关的问题和答案。搜索条件为:([코로나or corona or우한or COVID]和[바이러스or폐렴])或(코로나19 or코로나19或신종코로나or신종코로나or COVID19 or COVID19 or COVID-19 or COVID-19)。由于韩国人普遍使用英语和韩语,所以搜索标准中出现了英语和韩语。这里使用的韩语的英文翻译是:코로나=corona,우한=Wuhan,바이러스=virus,폐렴=pneumonia,신종코로나=novel corona。因此,我们在搜索条件中包括了病毒或肺炎等生物学词汇,或指这种疾病的相对正式的名称,如COVID19或corona19。这些标准用于确定与COVID-19相关的问题和答案,并且至少包含一部分生物学视角,因为我们假设生物学词汇和正式名称至少反映了一点视角。由于COVID-19在国内政治中是一个有争议的问题,我们搜索了至少包含一些生物学观点的帖子,并排除了纯粹从政治观点撰写的帖子。
第三,我们从选定的数据中分离出问题,并再次选择满足以下搜索条件的问题:(코로나或corona或우한或COVID)。问题包括不相关的词语(如宠物,吉他)被删除。由于狗或猫可能会感染与COVID-19不同类型的冠状病毒,因此对此存在疑问。我们排除了与宠物有关的问题。与国内吉他生产企业“corona”相关的问题也被排除在外。高级标准只适用于问题,因为一些用户没有考虑问题的内容就提供了答案。换句话说,虽然很少,但也有与COVID-19相关的答案附加在与COVID-19无关的问题上的情况。这确保了问题和答案都与COVID-19有关。
第四,删除重复题。问答论坛的用户有时会转发相同的问题,或发布措辞略有变化的类似问题,但这并没有什么帮助。用于发现重复问题的标准是问题的前50个字符或后50个字符(包括空格)是否重复。
第五,删除了2020年1月20日之前发布的少数问题(n=14),因为这段时间的数据不能很好地代表公众关注。结果,收集了与新冠肺炎相关的13148个问题和29040个答案。
数据过滤过程。COVID-19:冠状病毒病
研究人员使用了一些文本挖掘技术,包括结构主题建模和单词网络分析,从13148个问题中分析了公众关注的问题。语言数据分析经常使用人类的解释能力[
尽管文本挖掘允许我们检查大量数据,但这些技术通常不能捕捉微妙的细微差别。例如,使用基本的文本挖掘技术,确定答案是正确信息还是谣言有点困难。这给研究人员带来了挑战,因为谣言,尤其是令人信服的谣言,使用相似的词语,并将词语与有效信息联系起来。为了弥补这一点,我们还使用了一种方法,允许医生(家庭医学专家)对特定主题的问题的答案进行分类,然后分析这些答案的特征。
综上所述,本文主要采用了三种分析方法:结构主题模型(STM)、网络分析和专业定性分类。每种方法将在以下部分中描述。
STM是一种主题建模方法,用于提取13148个问题的整体主题或焦点,并研究主题或焦点如何随时间变化。
与大多数在潜狄利克雷分配(latent Dirichlet allocation, LDA)之后开发的主题建模方法一样,STM可以从大量文档中提取多个主题以及每个文档中主题的概率分布。所提取的主题及其分布是总结给定文档的信息[
主题估计过程基于几个假设。主题建模方法假设文档是一组简单的单词,而主题是单词的概率分布(例如,猫:0.015,狗:0.01,宠物:0.009,等等)。每个文档包含多个具有特定概率分布的主题(例如,第一个文档:主题1=0.4,主题2=0.2,主题3=0.4)。然后假设单个文档是由主题及其每个文档的分布随机生成的,并且不是由人类直接编写的;因此,考虑给定的数据,估计最可能的主题及其分布[
自然,单词的概率分布本身并没有直观的意义;然而,我们可以从单词的概率分布来解释主题的含义。当一个主题被定性地表达时,它主要表现为词语的不平等使用。例如,假设语言材料中存在“癌症筛查测试”的主题。某些词,如“筛查”或“乳房x光检查”,在这本材料中会比其他词使用得更频繁。因此,如果我们可以推断出可能产生给定文档的单词概率分布,我们也可以通过注意对应概率分布中的高概率单词来推断主题的含义。
每个文档中主题的分布也是解释主题的重要信息,因为它们可以用来确定每个主题是如何实现为语言材料的。我们还可以确定在每个单独主题上所占比例最高的文档。例如,我们可以识别出所有文档中topic 2比例最高的前10个文档。在阅读了十篇文献之后,我们可以更准确地理解topic 2的详细上下文和直观意义。
简而言之,主题建模方法估计主题及其适当解释给定文档的每个文档的概率分布。虽然概率分布本身并不能提供直观的含义,但研究人员可以解释主题的含义。
除了这个主题建模的通用功能之外,STM还估计文档的元信息对主题的比例或内容有多大影响[
STM在问题中的应用如下所述。在13148个问题中,有12个问题在STM的预处理中被额外剔除。我们只使用出现在至少2个问题中的单词和包含至少2个单词的问题,因为只出现在单个文档中的单词或只包含1个单词的问题对主题建模的信息很少。我们从剩下的13136个问题中估计了50个主题。主题数量设置为50个,因为根据保留可能性衡量,50个之后的主题建模性能没有显著改善[
所有的主题都通过三种信息进行解释和标记:每个主题中给出概率高的单词,每个主题中频率和排他性(FREX)得分高的单词,以及每个主题中比例高的文档。在解释话题时,高概率词和估计在每个话题中占高比例的文献的重要性前面已经解释过了。FREX得分高的单词通过排他性和频率来补充高概率单词[
我们还使用STM对包含与焦虑和担忧相关主题的代表性问题进行抽样。为了分析公众焦虑和担忧相关问题的答案的适当性,需要从整批问题中重新选出最具代表性的问题。由于一小群人类研究人员不可能直接审查13148个问题,STM的结果被用来选择包含焦虑和担忧相关主题的问题。我们提取了讨论身体症状和COVID-19自我保护方法的话题占高比例的问题,因为这些问题被揭示为焦虑和担忧的主要目标。
伸出的可能性。
主题建模对于识别大量文档中的广泛主题非常有用;然而,研究人员无法控制模型来查看特定主题的结果。因此,分析感兴趣的特定单词之间的关系对于实现我们的研究目标很重要。
我们的研究目标之一是确定人们表达焦虑和担忧的对象和背景。为了找出“焦虑”和“担心”的来源,我们分别抽取了“불”和“걱정”等出现频率最高的20个单词。这些单词分别是“焦虑”和“担心”的韩语单词。我们认为出现在同一个问题中的两个词是两个词之间的联系或联系。
此外,为了全面分析人们的焦虑和担忧的语境,我们将与“焦虑”和“担心”相关的前50个词语组合成“词汇网络”。观察与焦虑和担心相关的单个单词并不能准确地分析焦虑和担心的全部上下文。与焦虑和担心相关的词汇网络使我们能够进一步分析焦虑和担心的上下文。因此,收集了与“焦虑”和“担心”相关的前50个词语,并建立了网络。连接准则是同一问题中词语的同时出现。这个网络非常密集,因为这个网络是由在相似上下文中使用的单词组成的。只需要选择最突出的链接来提取特别突出的含义。为此,只提取具有最高权重的链接(即500个最频繁的连接)来创建一个子网。这个子网络被认为包含了与人们焦虑和担忧相关的最突出的上下文。
将网络团体检测算法应用于该子网中,从网络中提取出不同的主题。该算法在网络中识别出相对更有凝聚力的节点社区[
Walktrap在克服“分辨率问题”的同时,性能优异,因此从各种网络社区检测算法中被选中[
Walktrap算法还用于识别相互相关的主题的内聚社区。STM估计主题之间的相关性[
也就是说,在从13136个问题中估计出50个主题后,使用Walktrap算法将这些主题总结为6个主题社区,然后进行解释。之所以采用这一额外步骤,是因为尽管50个主题是一个很好的总结,但对于一个人来说,直观地理解它仍然是很多信息。
利用上述方法的结果,我们评估了涉及焦虑和担忧主要目标的问题的答案的适当性,发现主要主题是身体症状和自我保护方法。我们选择了涉及这两个主题的示例问题和答案。作为家庭医学专家的两位医生和本文的作者,将答案分为5个独立的类别:适当的答案、无关的答案、错误的答案、广告和其他。如果在答案的类别上有分歧,他们就会讨论,直到达成一致,并记录下一致的结果。
通过考虑使用STM产生的每个问题中主题的比例来选择样本问题。身体症状和自我保护的主题分别与第四和第五主题群体相关。从每个主题社区中选择高比例的问题可以形成很好的样本问题,恰当地代表每个主题。因此,根据每个问题的主题比例信息,计算每个问题的主题社区4和5的比例。它是通过将属于每个主题社区的主题的比例相加而创建的。从主题社区4和5中选择了前100个问题,并确定了每个问题的答案。回答的人数分别为250人和306人。
对于前面提到的方法,特别是STM和网络分析,要想正常工作,就需要从我们的语言数据中提取语素。也就是说,我们需要了解哪些词语出现在哪里,出现的频率是多少。用于确定这一点的程序被称为形态分析器。在适用于韩国语的多种形态分析仪中,“Komoran”在2016年获得了国立韩国语学会的奖项,因为它对韩国语的间隔问题具有弹性,而且足够合格。
我们想提前提到一个关于从Komoran数据中提取的词语的警告;韩语和英语没有1:1的反应。例如,有几个韩语单词可以翻译为“发烧”(“열”和“발열”)。在把这些词翻译成英语时,我们给它们编号(如:fever_1, fever_2)。
我们的数据总共包括13148个问题。
在问题中出现的单词中,
按日期排列的问题数量。
所有问题中出现频率最高的30个单词(名词,不包括含有“corona”的单词)。
单词 | 频率、n |
咳嗽 | 5589 |
症状 | 4739 |
喉咙 | 4177 |
面具 | 2822 |
确认诊断 | 2199 |
人类 | 2095 |
冷 | 1983 |
痰 | 1953 |
Fever_1 | 1907 |
学位 | 1887 |
肺炎 | 1844 |
房子 | 1795 |
担心 | 1792 |
武汉 | 1787 |
医院 | 1780 |
中国 | 1691 |
鼻液溢 | 1432 |
头 | 1427 |
感染 | 1359 |
工作 | 1352 |
最近 | 1278 |
小说 | 1268 |
头疼 | 1246 |
鼻子 | 1153 |
感觉 | 1144 |
测试 | 973 |
旅行 | 958 |
身体 | 911 |
焦虑 | 863 |
病毒 | 747 |
使用STM从13136个问题中估计了大约50个主题,并由作者进行了解释。
大多数主题都有一个明确的主题或一致的内容,可以进行精确的解释。然而,有些主题被提取出来是因为在各种问题中反复出现的表达,而不管问题的内容是什么。这是因为主题建模捕获了在文档中观察到的多个单词的共出现模式,而不考虑单词的含义。例如,如果关于不同主题的许多问题包含类似的表达式,如“请回答我的问题,否则你可能会被诅咒”,主题模型将捕获该模式并根据该模式估计主题。在我们的模型中,由于独特的韩语用法,提取了几个主题。在这种情况下,我们将题目的解释统一为“没有共同主题的特定韩国语表达的问题”。此外,我们将这些主题中最突出的韩语表达用韩语括号表示,并将其翻译成英语。
第三列
STM根据每个文档计算主题的比例。这使我们能够计算每个主题在整个文档中的比例,这也可以用于计算主题社区在整个文档中的比例。我们汇总了属于同一个社区的主题的比例。此外,STM计算了所有主题随时间变化的比例,因为时间变量在我们的STM中被设置为协变量。对主题的比例随时间变化的估计也可以汇总,以产生主题社区随时间的比例变化。
话题群体4(出现特定症状后怀疑感染新冠病毒的问题)在所有问题中占比最大。在国内感染人数开始急剧增加的2月末,感染人数急剧增加。在
对话题的解释。
主题数 | 解释 | 主题团体号 |
14 | 关于新冠肺炎相关英语文本解读的问题一个 | 1 |
21 | 与COVID-19无关的日常生活问题 | 1 |
34 | 关于使用公共交通工具的问题 | 1 |
37 | 过去的活动或经历怀疑可能感染COVID-19的问题 | 1 |
39 | 关于检查中心或医院检查的问题 | 1 |
44 | 怀疑或担心外出或与他人接触可能感染COVID-19的问题 | 1 |
45 | 怀疑或担心家人可能感染COVID-19的问题 | 1 |
49 | 涉及特定韩语表达的问题(“~때”:表示特定时间点的名词b;" ~문제":关于~的问题)没有共同的主题 | 1 |
28 | 关于COVID-19对工作条件或休息日的影响的问题 | 2 |
30. | 关于兼职工作者应对COVID-19困难的问题 | 2 |
1 | 关于韩国COVID-19疫情现状的问题 | 3. |
2 | 关于韩国境外COVID-19疫情现状的问题 | 3. |
3. | 关于COVID-19的其他问题 | 3. |
5 | 关于新冠肺炎疫情进一步蔓延预期的问题 | 3. |
6 | 关于区域内确诊患者具体信息的问题,包括患者“路线图” | 3. |
10 | 关于COVID-19疫情结束的问题。 | 3. |
12 | 关于特定的韩国语表达的问题(“~가궁금하다”:I wonder~;“~를알려달라”:请解释~)没有共同的主题 | 3. |
13 | 表达作者对COVID-19的恐惧和困难的问题 | 3. |
15 | 关于医院治疗COVID-19的问题 | 3. |
18 | 关于导致COVID-19感染的具体情况 | 3. |
23 | 没有共同主题的特定韩国语表达(“부탁드립니다”:请问~)的问题 | 3. |
24 | 关于新冠肺炎疫情对股市影响的问题 | 3. |
25 | 有关宗教和捐赠的问题 | 3. |
26 | 关于政府对COVID-19的政策,包括入境禁令 | 3. |
29 | 有关新天地教会和宗教活动的提问 | 3. |
32 | 涉及特定的韩国语表达的问题(“가능할까”:可以~吗? | 3. |
33 | 涉及特定韩语表达的问题(“완전”:表示重要性的副词,如完全或完全;~겁니다:表示当前状态的助动词c)没有共同的主题 | 3. |
35 | 关于COVID-19疫苗和治疗的问题 | 3. |
40 | 关于中国武汉肺炎的问题 | 3. |
46 | 关于开学及延迟开学的问题有关延期开学及复课日期的问题 | 3. |
47 | 涉及特定韩国语表达的问题(“~한데”:I feel like~ then;“~되는데”:这是~)没有一个共同的主题 | 3. |
50 | 涉及特定的韩国语表达(“目前或目前”)而没有共同主题的问题 | 3. |
4 | 出现喉咙痛后怀疑可能感染COVID-19的问题 | 4 |
9 | 出现胸部不适后怀疑感染COVID-19的问题 | 4 |
16 | 出现发热感和呼吸异常后怀疑感染COVID-19的问题 | 4 |
19 | 发烧后怀疑感染COVID-19的问题 | 4 |
22 | 关于暴露在寒冷天气或日常生活中感染COVID-19的风险的问题 | 4 |
27 | 出现呼吸道不适后怀疑感染COVID-19的问题 | 4 |
31 | 出现头痛和咳嗽后怀疑感染COVID-19的问题 | 4 |
38 | 出现腹泻和食用特定食物后怀疑可能感染COVID-19的问题 | 4 |
43 | 旅行后怀疑感染COVID-19的问题 | 4 |
8 | 关于戴口罩等个人防护的问题 | 5 |
11 | 关于新型冠状病毒污染机制的问题 | 5 |
17 | 关于如何使用口罩的问题 | 5 |
41 | 关于COVID-19相关非科学知识的问题 | 5 |
42 | 关于洗手液和包裹的问题 | 5 |
48 | 关于消毒剂和空气净化器的问题 | 5 |
7 | 关于旅行或参观公共场所安全的问题 | 6 |
20. | 有关旅行安全的问题 | 6 |
36 | 关于旅行和航班取消程序和费用的问题 | 6 |
一个COVID-19:冠状病毒病
b类似于
c类似于
主题网络和主题社区。
主题社区的解释。
主题社区 | 解释 |
1 | 对COVID-19的普遍关注一个感染 |
2 | 对COVID-19造成的工作条件的担忧 |
3. | 关于韩国COVID-19疫情现状和政府政策的问题 |
4 | 出现特定症状后怀疑感染COVID-19的问题 |
5 | 有关佩戴口罩等自我预防措施的问题 |
6 | 关于旅行和外出的问题 |
一个COVID-19:冠状病毒病
所有问题中主题社区的比例。COVID-19:冠状病毒病
按日期划分的主题社区比例。
我们从2020年1月20日至3月1日发布的问题中,提取了与焦虑和担忧相关的单词最多的20个单词(分别为“불”和“걱정”)。
我们还检查了与焦虑和担心相关的单词列表是否会随着时间而变化。将时间段(2020年1月20日至3月1日)分为6周,从6个子时段的数据中提取与焦虑和担忧相关的排名前几位的词汇(
我们使用与焦虑和担忧相关的前50个单词组成了一个单词网络,并基于最突出的500个链接提取了它的子网络。通过将Walktrap算法应用于子网络,我们可以提取三个内聚的单词社区或三个不同的主题。
在所有问题中出现频率最高的20个单词是焦虑和担心(名词,不包括含有“corona”的单词)。
词 | 频率、n |
咳嗽 | 895 |
症状 | 750 |
喉咙 | 602 |
面具 | 507 |
冷 | 418 |
学位 | 409 |
房子 | 404 |
确认诊断 | 400 |
最近 | 399 |
人类 | 386 |
医院 | 386 |
痰 | 383 |
Fever_1 | 348 |
武汉 | 322 |
中国 | 310 |
肺炎 | 308 |
工作 | 274 |
鼻液溢 | 271 |
头疼 | 245 |
认为 | 238 |
以周为单位,与焦虑和担心并列出现频率最高的20个单词(名词,不包括含有“corona”的单词)。
与焦虑和担忧相关的前50个单词。
关于身体症状的问题的答案通常是恰当的,相对来说不那么扭曲。另一方面,关于自我保护措施的问题,有很多广告答案。
回答类别占比(基于样本数据)。COVID-19:冠状病毒病;道具:比例。
在新型传染病爆发的情况下,普通民众无法轻易评估有关疾病信息的准确性,因此越来越依赖在线信息。由于疾病的不确定性,获得适当和准确的信息极为困难,特别是在疫情的早期阶段。在治理机构(如卫生当局)宣布有关疾病的官方声明,包括症状、治疗或预防措施之前,可能会有延迟。然而,公众不太可能不去寻求信息,耐心等待准确的信息公开。在这种情况下,更有可能的是,民众成员将寻求从互联网等其他来源获得急需的信息。
与之前的研究一致,我们的数据显示,人们在网上搜索有关COVID-19的信息。对13136个问题的分析显示,最大比例的话题是关于出现特定症状后可能感染COVID-19的焦虑和担忧。随着COVID-19疫情的持续,关注工作条件的话题所占比例也略有增加。咳嗽、喉咙痛、咳痰等身体症状和戴口罩等自我保护措施是同时出现的关键词
我们还分析了回答问题的答案的适当性。在“出现特定症状后怀疑是否感染新冠病毒”的问题中,有63%的答案被评价为“适当”,而15.6%的答案是错误的,这意味着有可能传播错误信息。在“如何正确佩戴口罩”等有关自我保护措施的问题中,广告的回答高达66.3%。因此,可以假定,一般民众可能难以获得关于自我保护措施的适当信息。
这项研究有助于就COVID-19早期观察到的公众关注和焦虑建立早期健康沟通。疫情的初始阶段是卫生部门的政策和人们对疫情的认识都没有稳定下来的阶段。在这种情况下,人们在网上交流的信息和情感会产生很大的影响。各国政府应采取适当措施,在疫情早期建立在线卫生交流,提供适当和准确的信息。考虑到目前基于网络数据的COVID-19相关研究较少,我们的研究的政策和学术价值更加明显。虽然有利用网络数据分析其他传染病公众心理的各种特征的研究,但与COVID-19相关的研究很少。鉴于近期许多国家都受到了影响,并且处于COVID-19爆发的初始阶段,我们对韩国的研究可以作为其他国家制定政策的参考点。韩国经历COVID-19的时间相对较早。
这项研究也有助于设计在传染病爆发的情况下使用语言数据测量公众心理的方法。在处理传染病时,必须了解公众心理和文化[
此外,本研究在如何使用文本挖掘技术方面与其他研究有所区别。在此之前,使用健康相关文本数据的论文通常以频率为主要信息,例如Twitter被提及的次数[
利用本研究的数据和结果,可以进行各种高级分析。我们研究中一个值得注意的结果是,主题群体4(出现特定症状后怀疑可能感染COVID-19的问题)的比例似乎与确诊患者的实际数量有关。考虑到主题社区4中观察到的症状(如咳嗽、喉咙痛和痰)在其他临床报告中被报告为COVID-19的常见症状,这种联系可能不是巧合。这表明,从网络数据中提取的信息可能有助于识别甚至预测传染病的实际趋势。未来的研究可以使用复杂的时间序列分析来仔细研究这种可能性。此外,值得注意的是,某一类问题的答案可能有很高的比例是出于商业动机(
本研究在数据范围上有局限性。Naver虽然是国内最受欢迎的门户网站,但并不是只有Naver。为了进一步全面分析网络空间中的信息和情感交流,需要整合各种网络数据来源,包括各种社交网络服务。此外,由于互联网用户人数不能恰当地代表整个人口,因此有必要考虑将通过传统方法(如调查)和互联网自然语言数据一起使用。
然而,本研究通过在线数据分析和主题建模的新方法,展示了基于疾病传播与人们焦虑和商业利益相关的健康信息交换。
冠状病毒病
频率和排他性
潜在狄利克雷分配
问题与答案
结构主题模型
本研究由韩国国立癌症中心(1910200-1)资助。这项研究没有得到任何商业公司的资助,包括Naver.com。
没有宣布。