医疗互联网研究杂志-使用搜索引擎查询数据预测2020年至2021年韩国每日新增COVID-19病例和死亡人数:信息流行病学研究gydF4y2Ba

原始论文gydF4y2Ba

Atina HusnayaingydF4y2Ba^1gydF4y2Ba,英里/小时gydF4y2Ba ；gydF4y2Ba
Eunha垫片gydF4y2Ba^2gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
茴香酒FuadgydF4y2Ba^3.gydF4y2Ba, DEAgydF4y2Ba ；gydF4y2Ba
苏佳宇gydF4y2Ba^{1，gydF4y2Ba}^4gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba台北医科大学医学科学与技术学院生物医学资讯研究所，台北市gydF4y2Ba

^2gydF4y2Ba崇实大学数学系，首尔，大韩民国gydF4y2Ba

^3.gydF4y2Ba印度尼西亚日惹Gadjah Mada大学医学、公共卫生和护理学院生物统计学、流行病学和人口健康系gydF4y2Ba

^4gydF4y2Ba台北医科大学医院临床大数据研究中心，台北市gydF4y2Ba

通讯作者:gydF4y2Ba

苏嘉玉博士gydF4y2Ba

生物医学信息学研究所“，gydF4y2Ba

医学科学技术学院“，gydF4y2Ba

台北医科大学gydF4y2Ba

基隆路第二段172-1号gydF4y2Ba

台北,106年gydF4y2Ba

台湾gydF4y2Ba

电话:886 266382736分机1515gydF4y2Ba

电子邮件:gydF4y2Baemilysu@tmu.edu.twgydF4y2Ba

背景:gydF4y2Ba鉴于当前的COVID-19大流行形势，准确的预测可以极大地帮助未来几波的卫生资源管理。然而，作为一种新实体，COVID-19的疾病动态似乎难以预测。外部因素，如互联网搜索数据，需要包括在模型中，以提高其准确性。然而，目前尚不清楚将在线搜索量纳入模型是否会在长期预测中带来更好的预测性能。gydF4y2Ba

摘要目的:gydF4y2Ba本研究的目的是分析搜索引擎查询数据是否应被纳入预测短期和长期每日新增COVID-19病例和死亡人数的模型中。gydF4y2Ba

方法:gydF4y2Ba我们使用了韩国2020年1月20日至2021年7月31日期间从谷歌和苹果公司获得的国家级案件相关数据、NAVER搜索量和流动性数据。数据汇总为四个子集:在报告第一例病例后3、6、12和18个月。所有子集中前80%的数据作为训练集，其余数据作为测试集。具有正态分布、泊松分布和负二项分布的广义线性模型(GLMs)，以及具有套索、自适应套索和弹性净正则化的线性回归(LR)模型。均方根误差值被定义为损失函数，并用于评估模型的性能。所有的分析和可视化都在SAS Studio中进行，这是SAS OnDemand for academic的一部分。gydF4y2Ba

结果:gydF4y2Ba具有不同类型分布函数的GLMs可能有助于在疫情早期预测每日新增COVID-19病例和死亡病例。在较长时期内，随着病例和死亡的分布变得更加正态分布，具有正则化的LR模型可能优于glm。这项研究还发现，与预测新的每日死亡病例相比，模型在预测新的每日死亡病例时表现更好。此外，对模型中的特征效应进行的评估表明，NAVER搜索量是预测每日新增COVID-19病例的有用变量，特别是在疫情暴发的前6个月。与物流需求相关的搜索，尤其是“温度计”和“口罩带”，在此期间显示出更高的特征效应。对于较长的预测周期，NAVER搜索量仍然是一个重要的变量，尽管具有较低的特征效应。这一发现表明，为了保持模型的预测性能，应该考虑搜索词的使用。gydF4y2Ba

结论:gydF4y2BaNAVER搜索量是短期和长期预测的重要变量，在预测疫情暴发前6个月每日新增COVID-19病例时具有较高的特征效应。在死亡预测方面也发现了类似的结果。gydF4y2Ba

中国医学杂志，2016;23(12):e34178gydF4y2Ba

doi: 10.2196/34178gydF4y2Ba

关键字gydF4y2Ba

预测gydF4y2Ba；gydF4y2Ba 互联网搜索gydF4y2Ba；gydF4y2Ba 新型冠状病毒肺炎gydF4y2Ba；gydF4y2Ba 韩国gydF4y2Ba；gydF4y2Ba infodemiologygydF4y2Ba

COVID-19是一种造成全球大流行的新疾病实体，自2020年12月底首次报告以来，已有2亿多例病例和450万人死亡[gydF4y2Ba1gydF4y2Ba]。与以往在聚集性国家传播的SARS和中东呼吸综合征(MERS)疫情相比，即使采取了多项公共卫生措施，COVID-19仍表现出大规模的疾病传播和较长的传播周期。在这种情况下，预测可以极大地帮助卫生资源管理[gydF4y2Ba2gydF4y2Ba]，特别是在人力资源和医疗设备部署方面[gydF4y2Ba3.gydF4y2Ba]，以及为即将到来的未来浪潮做准备[gydF4y2Ba4gydF4y2Ba]。这种方法将有利于决策者和卫生保健管理人员[gydF4y2Ba2gydF4y2Ba]，包括在国家政府和地方当局一级[gydF4y2Ba3.gydF4y2Ba]。gydF4y2Ba

然而，作为一种新实体，COVID-19的疾病动态似乎难以预测[gydF4y2Ba5gydF4y2Ba]。大多数现有的COVID-19预测模型高度依赖于确诊病例，这可能落后于潜在感染[gydF4y2Ba6gydF4y2Ba]。确诊病例数可能仅代表因出现中度至重度症状而求医的人数[gydF4y2Ba5gydF4y2Ba]。因此，为了提高模型的准确性，需要在模型中加入外部因素。gydF4y2Ba

COVID-19预测模型中最常见的新出现外部变量之一是由互联网搜索数据组成的。这些数据是在谷歌、NAVER、Daum、百度等搜索引擎上搜索信息时收集的。使用信息寻求活动的研究是信息流行病学研究的一部分。“信息流行病学”一词最早由Eysenbach提出[gydF4y2Ba7gydF4y2Ba作为信息流行病学的首字母缩写。本领域旨在为公共卫生目的分析在线信息的分布和决定因素[gydF4y2Ba8gydF4y2Ba]。此外，信息流行病学是一个快速发展的研究领域，可以从需求侧和供给侧的研究中进行评估[gydF4y2Ba9gydF4y2Ba]。信息流行病学研究中的搜索引擎查询数据用于基于需求的研究，这在COVID-19大流行的情况下可能有几个优势。搜索数据的增长通常先于传统的COVID-19指标[gydF4y2Ba5gydF4y2Ba，gydF4y2Ba10gydF4y2Ba，gydF4y2Ba11gydF4y2Ba];因此，这些数据可提供人群症状的实时指示[gydF4y2Ba6gydF4y2Ba]。因此，构建的模型可能会在疫情的较早阶段检测到新的波峰或峰值[gydF4y2Ba5gydF4y2Ba]。gydF4y2Ba

Rabiolo等人的研究[gydF4y2Ba12gydF4y2Ba]发现包含搜索数据的模型比不包含疫情预测第一个月搜索量的模型表现更好。类似的发现也出现在之前的两项分析中——一项研究的数据来自伊朗[gydF4y2Ba13gydF4y2Ba]和另一项研究来自印度、美国和英国的数据[gydF4y2Ba14gydF4y2Ba] -在发现第一例病例后分别为1个月和3个月。然而，在美国进行的其他研究表明，模型预测的准确性较低[gydF4y2Ba15gydF4y2Ba]以及模型性能在状态和时间段之间的可变性[gydF4y2Ba16gydF4y2Ba]。这两项研究都是使用不到2个月的时间序列数据构建的。因此，目前尚不清楚纳入在线搜索量的模型是否会在较长时间内预测每日新增COVID-19病例和死亡病例时带来更好的预测性能。在这项研究中，我们评估了NAVER搜索量在韩国不同大流行阶段的预测性能。数据汇总为四个子集:在报告第一例病例后3、6、12和18个月。简而言之，本研究旨在分析搜索引擎查询数据是否构成纳入每日新增COVID-19病例和死亡病例短期和长期预测模型的重要变量。gydF4y2Ba

数据集gydF4y2Ba

在这项研究中，我们使用了国家层面的案例相关数据、NAVER搜索量以及谷歌和苹果的流动性数据。NAVER搜索量检索自NAVER网站[gydF4y2Ba17gydF4y2Ba使用2019冠状病毒病相关术语和截至2021年7月31日的流行术语。在韩国方面,其次是英语翻译,包括以下几点:코로나바이러스(冠状病毒),코로나바이러스테스트(冠状病毒测试),메르스(即,마스크(口罩),사회적거리두기(社会距离),신천지(Shincheonji) kf94마스크(kf94面具),일회용마스크(一次性口罩),온도계(温度计),손소독제(洗手液),마스크스트랩(带面具),和Kf80마스크(Kf80面具)。NAVER的搜索量是用韩语进行查询的，所有搜索类型、性别、年龄段的搜索量都是用双引号表示的。流动性数据来自谷歌的社区流动性报告[gydF4y2Ba18gydF4y2Ba]和苹果的移动趋势报告[gydF4y2Ba19gydF4y2Ba]。除基于病例的数据外，还从约翰霍普金斯大学系统科学与工程中心的国家一级时间序列数据库下载了每日累计COVID-19病例和死亡人数[gydF4y2Ba20.gydF4y2Ba]。本研究中使用的所有数据的详细描述载于gydF4y2Ba表1gydF4y2Ba．病例相关数据检索时间为2020年1月20日(韩国报告首例COVID-19病例)至2021年7月31日。NAVER搜索量和移动性数据的查询延迟了3天，以包括分析中最近的观察结果。然后将数据汇总为四个子集:在报告第一例病例后3、6、12和18个月(gydF4y2Ba图1gydF4y2Ba)．此外，我们还检索了NAVER从2020年4月开始的每月生命和健康类别前10个词汇(gydF4y2Ba多媒体附件1gydF4y2Ba)．gydF4y2Ba

图1。2020年1月20日至2021年7月31日韩国每日新增COVID-19病例和死亡人数的时间序列。图中下方的信息描述了从2020年4月到2021年7月，每月生命和健康类别前10个词汇中与COVID-19相关的词汇所占的百分比(N=10)。中提供了术语列表gydF4y2Ba多媒体附件1gydF4y2Ba．gydF4y2Ba

统计分析gydF4y2Ba

解释变量(gydF4y2Ba表1gydF4y2Ba［gydF4y2Ba21gydF4y2Ba)用于开发预测每日新增COVID-19病例和死亡的模型。所有子集中前80%的数据作为训练集，其余数据作为测试集。为了确定每个子集中的最佳拟合模型，开发了具有三种不同分布(即正态分布、泊松分布和负二项式分布)的广义线性模型(GLMs)，以及带套索、自适应套索和弹性净正则化的线性回归(LRs)。gydF4y2Ba

表1。数据集描述。gydF4y2Ba

数据集gydF4y2Ba^{一个gydF4y2Ba}	数据描述gydF4y2Ba	使用gydF4y2Ba
基于案例的数据gydF4y2Ba	日累计病例数和死亡人数;用于计算每日新增病例和死亡人数gydF4y2Ba	时间序列图，相关性和预测分析gydF4y2Ba
谷歌社区流动数据gydF4y2Ba	与基准日相比，在六个分类场所(零售和娱乐、杂货店和药房、公园、中转站、工作场所和住宅区)花费的时间的每日变化;2020年1月3日至2月6日的中位数gydF4y2Ba	相关性与预测分析gydF4y2Ba
苹果移动趋势数据gydF4y2Ba	与2020年1月13日的基线量相比，在驾驶和步行情况下，苹果地图中的每日方向请求相对量gydF4y2Ba	相关性与预测分析gydF4y2Ba
NAVER搜索量gydF4y2Ba	通过NAVER搜索引擎进行的每日在线搜索;数据范围从0到100;查询基于我们之前研究中使用的12个术语[gydF4y2Ba21gydF4y2Ba]以及截至2021年7月31日与COVID-19相关的流行术语，来自生命和健康类别;数据是使用韩语检索的，对于所有类型的搜索、性别和年龄组，两个以上的词都使用引号gydF4y2Ba	相关性与预测分析gydF4y2Ba

^{一个gydF4y2Ba}所有数据集都包括国家一级的数据。gydF4y2Ba

所有的分析和可视化都是使用SAS Studio进行的，它是SAS OnDemand for academia (SAS Institute Inc .)的一部分。对于GLMs，使用SAS中的proc hpgenselect开发和测试模型性能，逐步选择，在选择模型变量时α水平为.05。只有统计上显著的变量(gydF4y2BaPgydF4y2Ba<.05)均纳入模型。利用SAS中的proc glmselect构建步长为25的LR模型，在定义模型选择时采用赤池信息准则(AIC)值最小。选择25个模型构建步骤是为了提供足够的步骤来定义AIC值最低的最佳模型。均方根误差(RMSE)值被定义为损失函数，以评估模型在四个子集中的性能。gydF4y2Ba

每日新增COVID-19病例、死亡病例、流动性和搜索数据的特征gydF4y2Ba

韩国于2020年1月20日报告了首例COVID-19病例gydF4y2Ba图1gydF4y2Ba．在疫情暴发的前3个月，平均每日新增病例数为116.02例。在此期间，在严格执行保持社会距离政策的同时，进行了大量的冠状病毒检测。2020年2月7日，首个冠状病毒检测试剂盒获批[gydF4y2Ba22gydF4y2Ba第一个冠状病毒免下车测试中心于2020年2月23日开放[gydF4y2Ba23gydF4y2Ba]。病例曲线趋于平缓，这导致从2020年5月6日开始在全国范围内放松社交距离规定。在此期间，亦推出一套名为KI-Pass的接触者追踪系统[gydF4y2Ba24gydF4y2Ba]。因此，随着严格的公共卫生措施的实施，疫情暴发前6个月的日均新增病例降至75.50例，低于前3个月。gydF4y2Ba

然而，8月中旬病例激增，导致从2020年8月28日开始恢复2级限制，并强制佩戴口罩。2020年10月12日，全国大部分地区放松了限制，但截至11月中旬，病例激增。二级限制随后再度收紧[gydF4y2Ba24gydF4y2Ba]。直到2021年头几个月，这一波病例一直居高不下。gydF4y2Ba

韩国于2021年2月28日推出首支COVID-19疫苗[gydF4y2Ba25gydF4y2Ba]。截至5月底，每天有70多万人新接种疫苗，但到6月底，这一数字开始下降[gydF4y2Ba26gydF4y2Ba]。七月初，每天只有约1665人接种疫苗[gydF4y2Ba27gydF4y2Ba]。在此期间，出现了大量病例，导致从2021年7月26日开始在大首尔地区实施4级社交距离规定[gydF4y2Ba28gydF4y2Ba]。这是自韩国出现首例新冠肺炎病例以来，确诊人数最多的一次。对每日新增COVID-19病例的时间序列分析表明，公共卫生措施的实施严重影响了病例的进展。新增每日死亡人数似乎遵循了COVID-19病例的动态，在第三波中相对较高，在第四波中相对较低。gydF4y2Ba

在韩国发生四次新冠肺炎疫情期间，NAVER数据库捕捉到了使用与新冠肺炎相关的各种词汇的搜索结果。在gydF4y2Ba图1gydF4y2Ba，列出生命和健康类别中与COVID-19相关的术语的百分比。由于NAVER数据查询的局限性，只能从2020年4月开始显示回溯性排名靠前的搜索结果。中提供了每月最热门的术语列表gydF4y2Ba多媒体附件1gydF4y2Ba．gydF4y2Ba

图1gydF4y2Ba显示，截至2020年6月，与covid -19相关的词汇在搜索中使用的比例很高(9/ 10,90%)。之后，在剩下的几个月里，这一比例有所下降，2020年11月和12月的比例最低(2/ 10,20%)。在2021年，互联网搜索中使用与covid -19相关的词汇的比例相对稳定，为30%(3/10)至40%(4/10)。这些研究结果表明，在疫情暴发的早期阶段，在线信息搜索活动中大量使用与covid -19相关的术语，而在疫情爆发的较长时期内，使用数量呈下降趋势。此外，搜索量最高的主要是口罩，还有2020年4月的温度计，以及2020年8月和9月的洗手液。gydF4y2Ba

此外，谷歌捕捉到的流动性下降趋势与病例和死亡的动态相似(gydF4y2Ba图2gydF4y2Ba而且gydF4y2Ba3.gydF4y2Ba)．这与苹果的流动性数据不同，苹果的流动性数据似乎在第一波和第二波中更高，并随着第四波的发展而增加。此外，搜索数量的增加似乎是在病例和死亡人数激增之前。gydF4y2Ba

图2。2020年1月20日至2021年7月31日，韩国每日新增COVID-19病例、流动数据(上图)和NAVER搜索(下图)的时间序列。gydF4y2Ba

图3。2020年1月20日至2021年7月31日，韩国每日新增COVID-19死亡人数、流动性数据(顶部图)和NAVER搜索量(底部图)的时间序列。gydF4y2Ba

每日新增COVID-19病例和死亡人数与训练集中解释变量的相关性gydF4y2Ba

在暴发的早期阶段，关于子集1和子集2，过去3天内每日新增病例(gydF4y2BargydF4y2Ba= 0.75,gydF4y2BargydF4y2Ba=0.83)，谷歌流动性数据(零售和娱乐:gydF4y2BargydF4y2Ba= -0.82, -0.72;公交站点:gydF4y2BargydF4y2Ba= -0.79,gydF4y2BargydF4y2Ba= -0.70;居住区:gydF4y2BargydF4y2Ba=0.80)，苹果移动数据(驾驶:gydF4y2BargydF4y2Ba= -0.73;走:gydF4y2BargydF4y2Ba= -0.72)， NAVER搜索量(面罩:gydF4y2BargydF4y2Ba= 0.75;Shincheonji:gydF4y2BargydF4y2Ba= 0.83;温度计:gydF4y2BargydF4y2Ba= 0.83,gydF4y2BargydF4y2Ba=0.70)与每日新增COVID-19病例高度相关(gydF4y2Ba多媒体附件2gydF4y2Ba)．在第3个和第4个亚群中，仅近3天日均新增确诊病例与日均新增确诊病例之间存在较高相关性(gydF4y2BargydF4y2Ba= 0.85,gydF4y2BargydF4y2Ba= 0.93)。此外，第三个子集中每日新增COVID-19病例与谷歌流动性数据(零售和娱乐:gydF4y2BargydF4y2Ba= -0.53)，最后一个子集每日新增COVID-19病例与过去3天新增每日死亡病例之间(gydF4y2BargydF4y2Ba=0.62)，苹果移动数据(驾驶:gydF4y2BargydF4y2Ba= -0.62)， NAVER搜索量(一次性掩码:gydF4y2BargydF4y2Ba= -0.55)。每日新增COVID-19病例与流动数据之间大多呈负相关，这表明在大流行期间，特别是在疫情暴发初期，公众的流动性下降。在NAVER搜索量的最后一个子集中，每日新增COVID-19病例之间也观察到负相关。gydF4y2Ba

对于每日新增的COVID-19死亡病例，仅在苹果移动数据(驾驶:gydF4y2BargydF4y2Ba= -0.72;走:gydF4y2BargydF4y2Ba= -0.73)和NAVER搜索量(社交距离:gydF4y2BargydF4y2Ba=0.72)，最近3天每日新增病例(gydF4y2BargydF4y2Ba=0.71)和死亡率(gydF4y2BargydF4y2Ba=0.72)。与每日新增COVID-19病例的结果类似，在所有子集的流动性数据和最后一个子集的NAVER搜索量中发现了大部分负相关性。在所有集合中，只有居民区的谷歌流动性数据与每日新增COVID-19病例和死亡人数呈正相关。相关性分析结果表明，随着疫情的发展，基于病例的数据往往具有较高的相关性，而流动数据和互联网搜索数据的相关性则相反。gydF4y2Ba

模型的性能gydF4y2Ba

与其他模型相比，具有泊松分布的GLMs在预测第一个子集中的每日COVID-19病例时表现更好(gydF4y2Ba表2gydF4y2Ba)．这一发现表明，在韩国COVID-19暴发的早期，每日新增病例更接近于泊松分布。后来，在第二个子集中，案例的分布趋于正态分布，导致具有正态函数的GLM成为性能最好的模型。具有泊松分布和负二项分布的GLMs导致较大的RMSE值，这表明该子集中的病例分布不遵循倾向于倾斜的分布。gydF4y2Ba

在第三和第四子集中，没有正则化的LR (GLM1)和有正则化的LR (LR1-3)表现非常相似(gydF4y2Ba图4gydF4y2Ba)．这一发现表明，glm在暴发的前6个月表现较好。在较长一段时间内，具有正则化的LR模型优于glm。此外，与每日新增病例相比，该模型在预测新增每日死亡病例方面表现更好(gydF4y2Ba图4gydF4y2Ba而且gydF4y2Ba5gydF4y2Ba)．对于死亡预测，表现最好的模型是在第一、第二和第四子集中具有负二项式函数的GLM模型，以及在第三个子集中具有自适应套索正则化的LR模型。gydF4y2Ba

表2。评估模型的性能。gydF4y2Ba

模型gydF4y2Ba			子集1gydF4y2Ba^{一个gydF4y2Ba}, RMSEgydF4y2Ba^bgydF4y2Ba					两个子集gydF4y2Ba^{一个gydF4y2Ba}, RMSEgydF4y2Ba					3子集gydF4y2Ba^{一个gydF4y2Ba}, RMSEgydF4y2Ba					4个子集gydF4y2Ba^{一个gydF4y2Ba}, RMSEgydF4y2Ba
			训练集gydF4y2Ba		测试集gydF4y2Ba		训练集gydF4y2Ba			测试集gydF4y2Ba		训练集gydF4y2Ba			测试集gydF4y2Ba		训练集gydF4y2Ba			测试集gydF4y2Ba
每日新增COVID-19病例预测gydF4y2Ba
	GLM1gydF4y2Ba^cgydF4y2Ba	62.22gydF4y2Ba		66.92gydF4y2Ba		53.04gydF4y2Ba			32.70gydF4y2Ba^dgydF4y2Ba		48.01gydF4y2Ba			378.94gydF4y2Ba		85.75gydF4y2Ba			219.22gydF4y2Ba
	GLM2gydF4y2Ba^egydF4y2Ba	43.71gydF4y2Ba		29.29gydF4y2Ba^dgydF4y2Ba		36.80gydF4y2Ba			569037 .92点gydF4y2Ba		48.19gydF4y2Ba			495.88gydF4y2Ba		120.76gydF4y2Ba			429.51gydF4y2Ba
	GLM3gydF4y2Ba^fgydF4y2Ba	982.42gydF4y2Ba		587.65gydF4y2Ba		329.49gydF4y2Ba			8247155 .77点gydF4y2Ba		184.59gydF4y2Ba			543.20gydF4y2Ba		330.15gydF4y2Ba			4161.61gydF4y2Ba
	LR1gydF4y2Ba^ggydF4y2Ba	58.57gydF4y2Ba		60.17gydF4y2Ba		50.90gydF4y2Ba			44.92gydF4y2Ba		48.20gydF4y2Ba			373.58gydF4y2Ba		85.09gydF4y2Ba			216.22gydF4y2Ba^dgydF4y2Ba
	LR2gydF4y2Ba^hgydF4y2Ba	56.88gydF4y2Ba		79.57gydF4y2Ba		49.41gydF4y2Ba			78.32gydF4y2Ba		48.00gydF4y2Ba			366.19gydF4y2Ba^dgydF4y2Ba		84.52gydF4y2Ba			216.70gydF4y2Ba
	LR3gydF4y2Ba^我gydF4y2Ba	56.51gydF4y2Ba		69.13gydF4y2Ba		50.90gydF4y2Ba			44.92gydF4y2Ba		48.20gydF4y2Ba			373.58gydF4y2Ba		84.42gydF4y2Ba			217.81gydF4y2Ba
每日新增COVID-19死亡人数预测gydF4y2Ba
	GLM1gydF4y2Ba	3.10gydF4y2Ba		4.89gydF4y2Ba		2.52gydF4y2Ba			1.04gydF4y2Ba		2.08gydF4y2Ba			6.79gydF4y2Ba		2.80gydF4y2Ba			4.89gydF4y2Ba
	GLM2gydF4y2Ba	3.24gydF4y2Ba		5.52gydF4y2Ba		2.71gydF4y2Ba			0.47gydF4y2Ba		2.23gydF4y2Ba			7.65gydF4y2Ba		2.82gydF4y2Ba			5.26gydF4y2Ba
	GLM3gydF4y2Ba	3.25gydF4y2Ba		3.79gydF4y2Ba^dgydF4y2Ba		2.72gydF4y2Ba			0.19gydF4y2Ba^dgydF4y2Ba		2.24gydF4y2Ba			17.02gydF4y2Ba		3.81gydF4y2Ba			4.64gydF4y2Ba^dgydF4y2Ba
	LR1gydF4y2Ba	3.05gydF4y2Ba		4.95gydF4y2Ba		2.62gydF4y2Ba			1.71gydF4y2Ba		2.16gydF4y2Ba			5.21gydF4y2Ba		2.75gydF4y2Ba			5.23gydF4y2Ba
	LR2gydF4y2Ba	3.04gydF4y2Ba		4.50gydF4y2Ba		2.61gydF4y2Ba			0.70gydF4y2Ba		2.19gydF4y2Ba			4.82gydF4y2Ba^dgydF4y2Ba		2.75gydF4y2Ba			5.38gydF4y2Ba
	LR3gydF4y2Ba	3.05gydF4y2Ba		4.95gydF4y2Ba		2.62gydF4y2Ba			1.71gydF4y2Ba		2.16gydF4y2Ba			5.23gydF4y2Ba		2.75gydF4y2Ba			5.23gydF4y2Ba

^{一个gydF4y2Ba}子集1至子集4:分别在韩国报告首例病例后3、6、12和18个月。gydF4y2Ba

^bgydF4y2BaRMSE:均方根误差。gydF4y2Ba

^cgydF4y2BaGLM1:正态分布广义线性模型。gydF4y2Ba

^dgydF4y2Ba测试子集中最小的RMSE值。gydF4y2Ba

^egydF4y2BaGLM2: Poisson分布的广义线性模型。gydF4y2Ba

^fgydF4y2BaGLM3:负二项分布的广义线性模型。gydF4y2Ba

^ggydF4y2BaLR1:套索正则化线性回归模型。gydF4y2Ba

^hgydF4y2BaLR2:自适应套索正则化线性回归模型。gydF4y2Ba

^我gydF4y2BaLR3:弹性净正则化线性回归模型。gydF4y2Ba

图4。2020年1月20日至2021年7月31日韩国每日新增COVID-19病例的时间序列，以及广义线性模型(GLMs)和线性回归(LR)模型的预测值。GLM1:正态分布的GLM;GLM2:具有泊松分布的GLM;GLM3:负二项分布的GLM;LR1:套索正则化LR模型;LR2:自适应套索正则化LR模型LR3:具有弹性网正则化的LR模型;RMSE:均方根误差。gydF4y2Ba

图5。2020年1月20日至2021年7月31日韩国每日新增COVID-19死亡病例的时间序列，以及广义线性模型(GLMs)和线性回归(LR)模型中的预测值。GLM1:正态分布的GLM;GLM2:具有泊松分布的GLM;GLM3:负二项分布的GLM;LR1:套索正则化LR模型;LR2:自适应套索正则化LR模型LR3:具有弹性网正则化的LR模型;RMSE:均方根误差。gydF4y2Ba

功能的影响gydF4y2Ba

就变量的重要性而言，与基于案例的变量、谷歌流动性变量和Apple流动性变量相比，NAVER搜索量在第一和第二子集中产生了更高的参数估计(gydF4y2Ba多媒体gydF4y2Ba)用于预测每日新增COVID-19病例。这一发现推断NAVER搜索量可能在更大程度上影响了模型性能，并说明了这些变量的有用性，特别是对“温度计”和“口罩带”的搜索。但是，NAVER搜索量的参数估计在第三和第四子集中趋于下降。在谷歌移动数据(即居民区、中转站和工作场所)以及Apple移动数据(即驾驶)和基于案例的数据(即过去3天的新每日死亡人数)中发现了更高的参数估计值。gydF4y2Ba

在这项研究中，在较长周期的模型中包含NAVER搜索“温度计”似乎是有益的。此外，在所有子集中，除住宅类型外，大多数流动性数据的参数估值均为负值。NAVER搜索“冠状病毒”、“冠状病毒检测”、“中东呼吸综合征”、“口罩”、“kf80口罩”、“一次性口罩”、“新天机”、“洗手液”的第三和第四个亚群的参数估计值也为负。gydF4y2Ba

与上述结果相反，对新增每日死亡人数的预测显示，基于病例的变量、流动性数据和NAVER搜索量的参数估估值相似(gydF4y2Ba多媒体附件4gydF4y2Ba)．与第三组和第四组相比，第一组和第二组模型中包含的变量数量相对较少。然而，大多数NAVER搜索量变量仍然包含在模型中，甚至在最后一个子集中。在所有子集中，除工作场所和居住类型外，大多数流动数据的参数估值为负。同样，NAVER搜索的负参数估估值也在所有集合中发现。然而，在基于案例的变量的所有集合中，都看到了正的参数估计值。gydF4y2Ba

主要研究结果gydF4y2Ba

该研究展示了一种简单且可解释的方法，用于确定NAVER搜索量在四个不同子集中的预测性能:在韩国报告第一例病例后的3、6、12和18个月。使用子集来创建场景，以分析搜索引擎查询数据是否是包含在短期和长期预测模型中的重要变量。在这项研究中，我们发现NAVER搜索量是预测每日新增COVID-19病例和死亡人数的有用变量，特别是在疫情暴发的前6个月。对于较长的预测周期，NAVER搜索量仍然是一个重要的变量，尽管具有较低的特征效应。此外，本研究还讨论了新冠肺炎大流行期间搜索引擎查询数据在信息流行病学研究中的作用。gydF4y2Ba

短期和长期预测性能gydF4y2Ba

调查结果显示，在疫情暴发初期，人们大量使用与covid -19相关的术语进行信息查询活动，随着疫情的持续，这一使用情况逐渐减少。这表明，在疫情暴发的前几个月，信息搜索量大幅增加，因为只有有限的与covid -19相关的信息在传播。然而，在后来的时期，人们可以获得大量的信息，例如在线新闻和卫生专家的报告[gydF4y2Ba29gydF4y2Ba]。因此，这些导致了在线信息搜索行为的减少，这可以从搜索词的使用中观察到。从2020年4月开始，热搜词主要与口罩有关(gydF4y2Ba多媒体附件1gydF4y2Ba)．此前在韩国的一项研究[gydF4y2Ba21gydF4y2Ba]显示，在大流行的头两个月里，有关国内和国际事件的各种关键词的搜索量有所增加。在全球范围内也发现了类似的结果[gydF4y2Ba10gydF4y2Ba]、台湾[gydF4y2Ba30.gydF4y2Ba]、菲律宾[gydF4y2Ba31gydF4y2Ba]，以及美国[gydF4y2Ba32gydF4y2Ba，gydF4y2Ba33gydF4y2Ba]。此外，术语使用的变化可能表明在整个大流行阶段公众的关切。就韩国而言，搜索往往更多地与后勤需求有关，包括在大流行的较长时期内某些月份的口罩、温度计和洗手液。gydF4y2Ba

在相关性分析方面，最后一个子集NAVER搜索量呈负相关，表明随着病例数的增加，搜索量呈下降趋势。这一发现与早期的一项研究一致[gydF4y2Ba16gydF4y2Ba]。此外，随着疫情的发展，搜索数据的相关系数降低。这表明公众对与当前疫情相关的在线信息搜索的关注，这种关注往往会随着时间的推移而变化。除了预测模型外，具有不同类型分布函数的glm可能有助于预测疫情早期的每日新增COVID-19病例和死亡病例。使用泊松函数或负二项函数可以更好地预测病例和死亡的非正态分布。在较长一段时间内，随着病例和死亡的分布更多地向正态分布转变，正则化的LR模型可能优于glm。正则化的使用对于防止过拟合也很重要，因为在较长的预测周期中可能使用的术语数量增加了。这项研究还发现，与以前的一项研究发现的那样，在预测新的每日死亡人数方面，模型的表现比预测新的每日病例更好[gydF4y2Ba34gydF4y2Ba]。这一发现表明，每日新增COVID-19病例的时间序列成分(即趋势、季节性和误差)具有较高的可变性，这影响了预测效果。gydF4y2Ba

此外，模型中的特征效应表明，NAVER搜索量是预测每日新增COVID-19病例的有用变量，特别是在疫情暴发的前6个月。与物流需求相关的搜索，尤其是“温度计”和“口罩带”，在此期间显示出更高的特征效应。与之前的研究相比[gydF4y2Ba12gydF4y2Ba-gydF4y2Ba14gydF4y2Ba]，在模型中具有较高特征效应的术语各不相同，从与covid -19相关的术语、症状到预防措施。对于较长的预测周期，NAVER搜索量仍然是重要的变量，尽管从参数估价值中显示出较低的特征效应。这一结果表明，为了保持预测性能，应该考虑术语的使用。这项任务可能会遇到一些挑战，因为从热门搜索中选择的术语可能并不总是作为模型中的重要变量。因此，需要大量的关键字查询，以确保所有可能的和相关的术语都包含在模型开发中。gydF4y2Ba

最后，NAVER搜索量也被发现有助于预测新的每日COVID-19死亡人数，甚至是更长的时间。模型中NAVER搜索的负参数估计值与相关分析的结果一致。这可能表明，随着案例数量的增加，搜索量会下降，尽管NAVER搜索引擎查询数据仍被视为纳入模型的有用变量。gydF4y2Ba

互联网搜索数据在COVID-19信息流行病学研究中的作用gydF4y2Ba

随着COVID-19大流行的出现，与COVID-19相关的信息流行病学研究呈指数级增长。一般来说，这类研究可分为三个主要主题:了解社区在线搜索行为的研究，评估搜索数据用于预测目的的可能使用的初步研究，以及预测分析。了解社区在线搜索行为的研究主要是为了评估在大流行情况下公众在在线信息搜索实践中的反应。Strzelecki进行的研究[gydF4y2Ba11gydF4y2Ba]，艾芬伯格等[gydF4y2Ba10gydF4y2Ba]，施普林格等[gydF4y2Ba35gydF4y2Ba]，侯赛因等[gydF4y2Ba32gydF4y2Ba]，以及胡等[gydF4y2Ba36gydF4y2Ba都是这类研究的例子。这些研究使用搜索引擎查询数据来了解信息搜索行为的模式，特别是在解释公众对当前大流行的兴趣方面。一些研究[gydF4y2Ba31gydF4y2Ba，gydF4y2Ba33gydF4y2Ba，gydF4y2Ba37gydF4y2Ba]也是专门为了解随着病例增加而公众搜索的基本健康信息而设计的。此外，这些类型的研究也被用于评估健康风险沟通策略[gydF4y2Ba30.gydF4y2Ba]和健康风险观念[gydF4y2Ba21gydF4y2Ba]。gydF4y2Ba

在评估将搜索数据用于预测目的的可能性的初步研究中，大多数研究发现COVID-19病例与在线搜索数据之间存在高度相关性[gydF4y2Ba4gydF4y2Ba-gydF4y2Ba6gydF4y2Ba]。有些在前几天也表现出高度相关的模式[gydF4y2Ba2gydF4y2Ba]和周[gydF4y2Ba3.gydF4y2Ba]。因此，互联网搜索已成为预测covid -19相关指标的潜在数据源。然而，有限的研究可用来评估搜索量模型的预测性能。研究[gydF4y2Ba12gydF4y2Ba-gydF4y2Ba14gydF4y2Ba]在大流行最初几个月进行的研究表明，包含搜索数据的拟议模型比不包含搜索量的模型表现更好。然而，美国的研究表明，模型预测的准确性较低[gydF4y2Ba15gydF4y2Ba]以及模型性能在状态和时间段之间的可变性[gydF4y2Ba16gydF4y2Ba]。gydF4y2Ba

因此，在本研究中，我们评估了包含在线搜索量的模型的预测性能。数据汇总为4个子集:3、6、12和18个月的时间序列数据。本研究旨在分析搜索引擎查询数据是否是纳入每日新增COVID-19病例和死亡人数短期和长期预测模型的重要变量。结果表明，在疫情暴发的前6个月，NAVER搜索量有望用于具有较高特征效应的预测任务。因此，本研究提供了在大流行情况下使用搜索数据进行预测的概述。gydF4y2Ba

限制gydF4y2Ba

本研究报告的分析仅从基于需求的信息流行病学研究的角度进行。这意味着这项研究通过搜索引擎查询来检查信息寻求行为[gydF4y2Ba9gydF4y2Ba]，这可能反映了用户对当前大流行的在线行为的突然变化[gydF4y2Ba38gydF4y2Ba]。未来的分析可能需要考虑到供给侧分析，合并其他搜索引擎的数据集，以及检索更广泛的术语，以捕捉更广泛的人口信息流行病学模式。此外，可能需要在模型中包括其他动态解释变量，如卫生政策指数，以提高模型的性能。gydF4y2Ba

结论gydF4y2Ba

NAVER搜索量是预测每日新增COVID-19病例的重要变量，特别是在韩国疫情爆发的前6个月。在较长时间内，NAVER搜索量仍然是重要的变量，尽管应该考虑搜索词的使用，因为需要使用更具体的术语。在死亡预测方面也发现了类似的结果。同样，具有不同类型分布函数的glm可能有利于在爆发的早期阶段使用。在较长时期内，具有正则化的LR模型可能优于glm，因为模型中可使用的可能解释变量的数量增加了。gydF4y2Ba

致谢gydF4y2Ba

这项工作由台湾科技部资助ECYS(资助MOST109-2221-E-038-018和MOST110-2628-E-038-001)和台湾教育部资助高等教育萌芽计划(资助DP2-110-21121-01-A-13)。这项工作也得到了ES的支持，通过教育部资助的韩国国家研究基金会的基础科学研究计划(赠款2021R1A6A1A10044154)。赞助者在研究设计或出版手稿的内容中没有任何作用。作者希望感谢约翰霍普金斯大学系统科学与工程中心使用他们的地理信息系统仪表板，并提供有关韩国每日累计COVID-19病例和死亡人数的开放获取数据。此外，作者希望感谢谷歌和苹果允许访问免费的社区流动数据，以及NAVER允许访问在线搜索量。gydF4y2Ba

作者的贡献gydF4y2Ba

AH设计了这项研究，进行了实验，分析了数据，并起草和修改了手稿。ES提供了分析建议并修改了手稿。AF提出了分析性建议。ECYS构思了这项研究，设计了实验，并修改了手稿。所有作者都同意了手稿的最终版本。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附件1gydF4y2Ba

NAVER每月生命和健康类别的热门术语列表;术语已被翻译成英语。gydF4y2Ba

DOCX文件，21 KBgydF4y2Ba

‎gydF4y2Ba

多媒体附件2gydF4y2Ba

每日新增COVID-19病例和死亡人数与训练集中解释变量的相关性。gydF4y2Ba

DOCX文件，25kbgydF4y2Ba

‎gydF4y2Ba

多媒体gydF4y2Ba

预测每日新增COVID-19病例的模型包括重要变量。gydF4y2Ba

DOCX文件，27kbgydF4y2Ba

‎gydF4y2Ba

多媒体附件4gydF4y2Ba

预测每日新增COVID-19死亡病例的模型包括重要变量。gydF4y2Ba

DOCX文件，26 KBgydF4y2Ba

世卫组织冠状病毒(COVID-19)仪表盘。世界卫生组织，2021年。URL:gydF4y2Bahttps://covid19.who.int/gydF4y2Ba[2021-09-01]访问gydF4y2Ba
李超，陈丽娟，陈霞，张敏，庞鹏鹏，陈慧。基于网络搜索和社交媒体数据预测新冠肺炎疫情的可能性分析，中国，2020。2020年3月25日(10):1-5 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Ahmad I, Flanagan R, Staller K.对胃肠道症状的互联网搜索兴趣的增加可能预测美国热点地区的COVID-19病例。临床胃肠肝病2020年11月18日(12):2833-2834。e3 (gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
帕努甘蒂BA，贾法里A，麦克唐纳B，康德德AS。使用嗅觉丧失和其他COVID-19症状学预测COVID-19发病率:使用谷歌和Twitter的初步分析。耳鼻咽喉头颈外科2020年9月;163(3):491-497 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Lin Y, Liu C, Chiu Y.谷歌关键词“洗手”预测21个国家新冠肺炎疫情的国家传播速度脑行为学Immun 2020 july;87:30-32 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Ortiz-Martínez Y, Garcia-Robledo JE, Vásquez-Castañeda DL, Bonilla-Aldana DK, Rodriguez-Morales AJ。谷歌®趋势能否预测COVID-19发病率并帮助防范?哥伦比亚的局势。旅行医学传染病2020;37:101703 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
信息流行病学:(错误)信息的流行病学。美国医学杂志2002年12月15日;13(9):763-765。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架，用于分析互联网上的搜索、传播和发布行为。中国医学杂志，2009;11(1):e11 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
信息流行病学研究的趋势:范围综述。健康信息杂志2018 6;35(2):91-120。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Effenberger M, Kronbichler A, Shin JI, Mayer G, Tilg H, Perco P. COVID-19大流行与互联网搜索量的关联:谷歌趋势分析。国际传染病杂志;2020年6月2日;gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
自韩国、意大利和伊朗爆发COVID-19疫情以来，全球对冠状病毒的第二波兴趣:谷歌趋势研究。Brain behaviour Immun 2020 Aug;88:950-951 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Rabiolo A, Alladio E, Morales E, mcnolet AI, Bandello F, Afifi AA，等。通过将症状搜索行为集成到预测模型中来预测COVID-19流行病:信息监视研究。J Med Internet Res 2021 Aug 11;23(8):e28876 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Ayyoubzadeh SM, Ayyoubzadeh SM, Zahedi H, Ahmadi M, Niakan Kalhori SR.通过分析伊朗谷歌趋势数据预测COVID-19发病率:数据挖掘和深度学习试点研究。JMIR公共卫生监测2020年4月14日;6(2):e18828 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Prasanth S, Singh U, Kumar A, Tikkiwal VA, Chong PHJ。使用谷歌趋势预测COVID-19的传播:一种混合gwo -深度学习方法。混沌孤子分形2021 Jan;142:110336 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
袁旭，徐娟，Hussain S，王宏，高楠，张磊。美国新冠肺炎日新增病例和死亡病例的趋势与预测:基于互联网搜索兴趣的模型。探索Res假设医学2020年4月18日;5(2):1-6 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
胡萨亚因，庄涛，福阿德，苏晓东。在美国空间聚集的COVID-19地区，谷歌相对搜索量的模型性能的高变异性。国际传染病杂志2021年8月;109:269-278 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
NAVER搜索量。NAVER。2021.URL:gydF4y2Bahttps://datalab.naver.com/gydF4y2Ba[2021-11-06]访问gydF4y2Ba
COVID-19社区流动报告。谷歌》2021。URL:gydF4y2Bahttps://www.google.com/covid19/mobility/gydF4y2Ba[2021-11-06]访问gydF4y2Ba
流动趋势报告。2021年苹果。。URL:gydF4y2Bahttps://covid19.apple.com/mobilitygydF4y2Ba[2021-11-06]访问gydF4y2Ba
Dong E, Du H, Gardner L.实时跟踪COVID-19的交互式web仪表板。《柳叶刀》传染病2020年5月;20(5):533-534 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
胡萨恩，沈，福阿德，苏晓东。了解韩国COVID-19疫情的社区风险认知:信息流行病学研究。J Med Internet Res 2020年9月29日;22(9):e19788 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
韩国的冠状病毒病例急剧下降。它成功的秘诀是什么?科学，2020年3月17日。URL:gydF4y2Bahttps://www.science.org/news/2020/03/coronavirus-cases-have-dropped-sharply-south-korea-whats-secret-its-success#gydF4y2Ba[2020-09-04]访问gydF4y2Ba
Kwon KT, Ko JH, Shin H, Sung M, Kim JY. COVID-19驾车筛查中心:针对大规模社区疫情的安全高效筛查系统。中国医学杂志2020年3月23日;35(11):e123 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
金志华，阿利安杰，吴秀杰，吴杰，李志杰。新冠肺炎的成功故事:韩国吸取了MERS的教训。我们的数据世界2021年3月5日URL:gydF4y2Bahttps://ourworldindata.org/covid-exemplar-south-koreagydF4y2Ba[2021-09-04]访问gydF4y2Ba
Dyer P.政策和制度应对COVID-19:韩国。布鲁金斯学会，2021年6月15日。URL:gydF4y2Bahttps://www.brookings.edu/research/policy-and-institutional-responses-to-covid-19-south-korea/gydF4y2Ba[2021-09-04]访问gydF4y2Ba
马thieu E, Ritchie H, ortizo - ospina E, Roser M, Hasell J, Appel C，等。COVID-19疫苗接种全球数据库。Nat Hum Behav 2021 7月;5(7):947-953 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Sang-Hun C.想在韩国预约疫苗吗?试试等待111个小时。《纽约时报》2021年7月28日。URL:gydF4y2Bahttps://www.nytimes.com/2021/07/28/world/asia/south-korea-vaccine-covid.htmlgydF4y2Ba[2021-09-04]访问gydF4y2Ba
“与COVID-19共存”计划。乔治梅森大学，2021年。URL:gydF4y2Bahttps://masonkorea.gmu.edu/corona/national-regulations-in-koreagydF4y2Ba[2021-09-04]访问gydF4y2Ba
Keller M, Blench M, Tolentino H, Freifeld CC, Mandl KD, Mawudeku A，等。将非结构化事件报告用于全球传染病监测。Emerg infection Dis 2009 May;15(5):689-695 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
侯赛因，福阿德，苏东。谷歌搜索趋势在传染病管理风险沟通中的应用——以台湾新冠肺炎疫情为例Int J infectious Dis 2020 Jun;95:221-223 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Galido A, Ecleo JJ, Husnayain A, Chia-Yu Su E.探索COVID-19预防措施的在线搜索行为:菲律宾案例。PLoS One 2021;16(4):e0249810 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Husain I, Briggs B, Lefebvre C, Cline DM, Stopyra JP, O'Brien MC，等。美国公众对COVID-19的兴趣波动:谷歌趋势搜索数据的回顾性分析JMIR公共卫生监测2020年7月17日;6(3):e19969 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Bento AI, Nguyen T, Wing C, Lozano-Rojas F, Ahn Y, Simon K.来自互联网搜索数据的证据显示了对当地COVID-19病例新闻的信息寻求反应。Proc Natl Acad Sci U S A 2020年5月26日;117(21):11220-11222 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Basu S, Campbell RH。根据数字:学习和建模COVID-19疾病动态。混沌孤子分形2020 Sep;138:110140 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
施普林格S, Menzel LM, Zieger M.谷歌趋势揭示:人群兴趣的焦点是治疗方案，而不是关于COVID-19动物来源的理论。脑行为学Immun 2020 july;87:134-135 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
胡东，楼旭，徐震，孟N，谢强，张敏，等。需要采取更有效的战略来加强公众对COVID-19的认识:来自谷歌趋势的证据。J Glob Health 2020 Jun;10(1):011003 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
施普林格S, Menzel LM, Zieger M.谷歌趋势提供了一个工具，用于监测COVID-19大流行期间的人口问题和信息需求。脑行为学Immun 2020 july;87:109-110 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Barros JM, Duggan J, Rebholz-Schuhmann D.基于互联网资源的公共卫生监测(信息监测)应用:系统综述。J Med Internet Res 2020年3月13日;22(3):e13680 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba

‎gydF4y2Ba

另类投资会议:gydF4y2Ba赤池信息标准gydF4y2Ba

全球语言监测机构:gydF4y2Ba广义线性模型gydF4y2Ba

LR:gydF4y2Ba线性回归gydF4y2Ba

即:gydF4y2Ba中东呼吸综合征gydF4y2Ba

RMSE:gydF4y2Ba均方根误差gydF4y2Ba

C Basch编辑;提交09.10.21;A Mavragani, JY Wang同行评审;对作者31.10.21的评论;订正版本收到07.11.21;接受09.11.21;发表22.12.21gydF4y2Ba

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

利用搜索引擎查询数据预测2020年至2021年韩国每日新增COVID-19病例和死亡人数:信息流行病学研究gydF4y2Ba

利用搜索引擎查询数据预测2020年至2021年韩国每日新增COVID-19病例和死亡人数:信息流行病学研究gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

摘要gydF4y2Ba

关键字gydF4y2Ba

简介gydF4y2Ba

方法gydF4y2Ba

数据集gydF4y2Ba

统计分析gydF4y2Ba

结果gydF4y2Ba

每日新增COVID-19病例、死亡病例、流动性和搜索数据的特征gydF4y2Ba

每日新增COVID-19病例和死亡人数与训练集中解释变量的相关性gydF4y2Ba

模型的性能gydF4y2Ba

功能的影响gydF4y2Ba

讨论gydF4y2Ba

主要研究结果gydF4y2Ba

短期和长期预测性能gydF4y2Ba

互联网搜索数据在COVID-19信息流行病学研究中的作用gydF4y2Ba

限制gydF4y2Ba

结论gydF4y2Ba

致谢gydF4y2Ba

作者的贡献gydF4y2Ba

利益冲突gydF4y2Ba

参考文献gydF4y2Ba

缩写gydF4y2Ba