这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,https://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
COVID-19的出现和媒体报道可能影响了流感搜索模式,可能影响了使用谷歌Trends的流感监测结果。
我们旨在调查COVID-19的出现是否与美国流感搜索模式的改变有关。
我们检索了流感、2019冠状病毒疾病以及流感和COVID-19共同症状等主题的美国谷歌趋势数据(特定术语的相对搜索量)。我们计算了美国首次诊断出COVID-19后一年内(2020年1月21日至2021年1月20日)流感和COVID-19搜索数据之间的相关性。我们构建了一个季节性自回归综合移动平均模型,并使用前四年的预测搜索量与谷歌趋势相对搜索量数据进行了比较。我们为共享症状数据建立了一个类似的模型。我们还评估了过去5年谷歌Trends流感数据、美国疾病控制和预防中心流感样疾病数据和流感媒体报道数据之间的相关性。
我们观察到非显著弱相关(
在美国COVID-19大流行开始后一年,预测的流感谷歌趋势数据与观测的流感谷歌趋势数据之间观察到相关差异。这种差异可能是由于媒体的报道,表明使用谷歌趋势作为流感监测工具的局限性。
谷歌Trends是一个工具,根据位置和用户选择的时间范围检索谷歌中特定术语的相对搜索量[
谷歌趋势数据用于监测慢性和急性疾病。与普通感冒相关的搜索量数据被发现与哮喘发病率相关,并可预测哮喘住院率[
多项研究[
使用谷歌趋势最常评估的传染病之一是流感,对它的研究结果好坏参半。曹等[
也有大量的文献研究了谷歌流感趋势的使用,这是一种仅用于预测流感爆发的算法[
使用谷歌趋势数据成功监测或预测病毒爆发取决于所使用的关键字。在谷歌Trends数据收集中,选择合适的关键字是“有效结果的关键”。
然而,类似地,COVID-19的出现也可能扭曲了谷歌Trends流感搜索模式。COVID-19和流感都是呼吸道疾病,有几个共同症状(如发烧、咳嗽和喉咙痛[
COVID-19大流行的严重程度导致了风险意识的增强和媒体的不断报道,这导致人们在互联网上搜索更多关于COVID-19的信息。由于COVID-19搜索的激增可能会影响谷歌Trends流感搜索模式,改变谷歌Trends作为补充监测工具的能力,我们的目标是评估和量化COVID-19的出现与美国谷歌Trends流感搜索模式波动的关联程度。
我们使用Mavragani和Ochoa的框架收集了流感、COVID-19及其共同症状的谷歌趋势数据[
尽管在过去的谷歌趋势流感研究中[
我们检索了美国国家级别的谷歌Trends数据。此外,我们提取了4个人口最多的州(加利福尼亚州、德克萨斯州、佛罗里达州和纽约州)的数据,以评估相关性和预测强度的区域差异。我们提取了2016年1月21日至2021年1月20日的数据,对应5个完整的年份。每年的定义都是从1月21日开始,因为美国疾病控制与预防中心在2020年1月21日确认了美国首例COVID-19感染。这使我们能够分析第一例COVID-19病例后的整整一年,并简化了过去几年数据的收集。为简单起见,我们将使用年份来引用每个时期集(即,对于从2016年1月21日到2017年1月20日提取的数据,我们将简单地说明
美国疾病控制与预防中心通过跟踪每周流感样疾病(定义为发烧、咳嗽或喉咙痛,除流感外无已知原因)的病例来监测流感的周期性进展[
我们访问了一个开源平台(媒体云)来检索有关流感的媒体报道的百分比。我们使用“流感或流感”查询提取了2016年1月21日至2021年1月20日的美国数据。同时还检索了4个人口最多的州的数据。每周平均值是根据每日数据计算出来的。
数据分析采用SPSS (version 25;IBM Corp)和R(版本4.0.4)软件。
计算全年和季度(13周)的斯皮尔曼相关系数,以评估谷歌Trends的COVID-19与流感数据之间的关系。
然后,我们评估了自COVID-19出现以来预测的谷歌趋势流感数据与实际数据的差异,以检测流感搜索模式中的最终不规则性。为此,我们提取了2016-2021年的谷歌趋势流感数据,并基于2016-2020年的数据。我们建立了季节性自回归综合移动平均(SARIMA)模型[
使用SARIMA模型根据过去提供的数据并考虑季节模式来预测2020-2021年的数据。模型由(
为了比较预测的和观测到的相对搜索量,我们计算了2020-2021年和每个季度的斯皮尔曼相关系数。我们计算了观测到的和预测的谷歌趋势数据之间的平均绝对差和百分比差,并确定了观测到的数据超过预测置信区间的周数。
我们计算了2016年至2021年流感的谷歌趋势数据与美国疾病预防控制中心流感样疾病数据之间的Spearman相关系数,以及流感的谷歌趋势数据与Media Cloud流感媒体报道数据之间的Spearman相关系数。为了评估2020-2021年CDC流感样疾病和媒体报道数据与前几年相比是否存在显著差异,我们建立了SARIMA模型,并确定观测数据超过预测置信区间的周数(
我们观察到流感和COVID-19在国家层面上的美国谷歌趋势数据之间无显著弱相关性(
2020年1月21日至2021年1月20日流感和COVID-19主题相对搜索量。
流感和COVID-19相对搜索量的相关性。
地区和时期一个 |
|
|
||||||
|
|
|
||||||
|
|
-0.171 | 23) | |||||
|
|
1季度 | 0.358 | 23) | ||||
|
|
第二季度 | 0.271 | .37点 | ||||
|
|
第三季度的 | -0.224 | .46 | ||||
|
|
第四节 | -0.281 | .35点 | ||||
|
|
|
||||||
|
|
-0.179 | .20 | |||||
|
|
1季度 | 0.498 | 。08 | ||||
|
|
第二季度 | 0.391 | .19 | ||||
|
|
第三季度的 | -0.392 | .19 | ||||
|
|
第四节 | 0.012 | .97点 | ||||
|
|
|
||||||
|
|
-0.173 | 口径。 | |||||
|
|
1季度 | 0.531 | 06 | ||||
|
|
第二季度 | 0.409 | 16 | ||||
|
|
第三季度的 | -0.405 | 。 | ||||
|
|
第四节 | -0.482 | .10 | ||||
|
|
|
||||||
|
|
-0.161 | .26 | |||||
|
|
1季度 | 0.311 | .30 | ||||
|
|
第二季度 | 0.487 | .09点 | ||||
|
|
第三季度的 | -0.146 | 点 | ||||
|
|
第四节 | -0.465 | 厚 | ||||
|
|
|
||||||
|
|
-0.188 | 只要 | |||||
|
|
1季度 | 0.354 | 。 | ||||
|
|
第二季度 | 0.503 | 。08 | ||||
|
|
第三季度的 | -0.144 | .64点 | ||||
|
|
第四节 | -0.392 | 只要 |
一个全程:2020年1月21日至2021年1月20日;第一季度:2020年1月26日至2020年4月19日;第二季度:2020年4月26日至2020年7月19日;第三季度:2020年7月26日至10月18日;第四季度:2020年10月25日至2021年1月17日。
(A)流感和COVID-19相对搜索量,(B)观测和预测流感相对搜索量,以及(C)观测和预测共享症状相对搜索量的相关热图(全国和州)。
在国家层面,在52周中,观察到的流感相对搜索量有6周低于预测置信区间(11.5%)(
在加州、佛罗里达州和德克萨斯州,观测到的流感相对搜索量都在第一季度出现在预测置信区间之外。
预测和观测2020年1月21日至2021年1月20日流感相对搜索量(RSV)值。红线表示观测到的流感相对搜索值,蓝线表示流感搜索的预测值,蓝色阴影区域表示预测值的置信区间。
预测和观察到的流感相对搜索量之间的相关性。
地区和时期一个 |
|
|
预测ci外周,n (%b) | ||||||||
|
|
|
|
||||||||
|
|
0.632 | <措施 | 6 (11.5) | |||||||
|
|
1季度 | -0.204 | 陈霞 | 6 (46.2) | ||||||
|
|
第二季度 | 0.720 | 02 | 0 (0) | ||||||
|
|
第三季度的 | 0.899 | <措施 | 0 (0) | ||||||
|
|
第四节 | 0.417 | .002 | 0 (0) | ||||||
|
|
|
|
||||||||
|
|
0.338 | . 01 | 7 (13.5) | |||||||
|
|
1季度 | -0.132 | 正 | 7 (53.8) | ||||||
|
|
第二季度 | 0.436 | .14点 | 0 (0) | ||||||
|
|
第三季度的 | 0.946 | <措施 | 0 (0) | ||||||
|
|
第四节 | -0.626 | 02 | 0 (0) | ||||||
|
|
|
|
||||||||
|
|
0.130 | 36 | 10 (19.2) | |||||||
|
|
1季度 | -0.184 | 55 | 10 (76.9) | ||||||
|
|
第二季度 | 0.050 | .87点 | 0 (0) | ||||||
|
|
第三季度的 | 0.806 | <措施 | 0 (0) | ||||||
|
|
第四节 | -0.514 | 07 | 0 (0) | ||||||
|
|
|
|
||||||||
|
|
0.338 | . 01 | 21日(40.4) | |||||||
|
|
1季度 | -0.022 | 总收入 | 10 (76.9) | ||||||
|
|
第二季度 | -0.114 | 点 | 4 (30.8) | ||||||
|
|
第三季度的 | 0.866 | <措施 | 2 (15.4) | ||||||
|
|
第四节 | -0.634 | 02 | 5 (38.5) | ||||||
|
|
|
|
||||||||
|
|
0.292 | .04点 | 5 (9.6) | |||||||
|
|
1季度 | 0.082 | .79 | 5 (38.5) | ||||||
|
|
第二季度 | 0.288 | 点 | 0 (0) | ||||||
|
|
第三季度的 | 0.861 | <措施 | 0 (0) | ||||||
|
|
第四节 | -0.804 | <措施 | 0 (0) |
一个全程:2020年1月21日至2021年1月20日;第一季度:2020年1月26日至2020年4月19日;第二季度:2020年4月26日至2020年7月19日;第三季度:2020年7月26日至10月18日;第四季度:2020年10月25日至2021年1月17日。
b整整52周。13个星期里,只有一个季度。
在国家一级,观察到的共享症状的相对搜索量数据落在预测的置信区间之外(
预测和实际观察2020年1月21日至2021年1月20日流感和COVID-19共同症状的相对搜索量(RSV)值。红线表示观测到的相对搜索值,蓝线表示预测的相对搜索值,蓝色阴影区域表示预测值的置信区间。
预测和实际观察到的共同症状(流感和COVID-19之间)相对搜索量之间的相关性。
地区和时期一个 |
|
|
预测ci外周,n (%b) | ||||||||
|
|
|
|
||||||||
|
|
0.578 | <措施 | 6 (11.5) | |||||||
|
|
1季度 | -0.354 | 。 | 6 (46.2) | ||||||
|
|
第二季度 | -0.359 | 23) | 0 (0) | ||||||
|
|
第三季度的 | -0.273 | .37点 | 0 (0) | ||||||
|
|
第四节 | 0.518 | 07 | 0 (0) | ||||||
|
|
|
|
||||||||
|
|
0.603 | <措施 | 4 (7.7) | |||||||
|
|
1季度 | 0.155 | 收 | 4 (30.8) | ||||||
|
|
第二季度 | -0.610 | 03 | 0 (0) | ||||||
|
|
第三季度的 | -0.281 | .35点 | 0 (0) | ||||||
|
|
第四节 | 0.759 | .003 | 0 (0) | ||||||
|
|
|
|
||||||||
|
|
0.303 | 03 | 9 (17.3) | |||||||
|
|
1季度 | -0.200 | 点 | 8 (61.5) | ||||||
|
|
第二季度 | -0.599 | 03 | 0 (0) | ||||||
|
|
第三季度的 | -0.768 | .002 | 0 (0) | ||||||
|
|
第四节 | 0.615 | 03 | 1 (7.7) | ||||||
|
|
|
|
||||||||
|
|
0.537 | <措施 | 18 (34.6) | |||||||
|
|
1季度 | -0.254 | .40 | 7 (53.8) | ||||||
|
|
第二季度 | 0.041 | .89 | 3 (23.1) | ||||||
|
|
第三季度的 | -0.083 | .79 | 1 (7.7) | ||||||
|
|
第四节 | 0.274 | 36 | 7 (53.8) | ||||||
|
|
|
|
||||||||
|
|
0.484 | <措施 | 21日(40.4) | |||||||
|
|
1季度 | -0.214 | 的相关性 | 6 (46.2) | ||||||
|
|
第二季度 | -0.711 | .006 | 5 (38.5) | ||||||
|
|
第三季度的 | 0.237 | 无误 | 0 (0) | ||||||
|
|
第四节 | 0.864 | <措施 | 10 (76.9) |
一个全程:2020年1月21日至2021年1月20日;第一季度:2020年1月26日至2020年4月19日;第二季度:2020年4月26日至2020年7月19日;第三季度:2020年7月26日至10月18日;第四季度:2020年10月25日至2021年1月17日。
b整整52周。13个星期里,只有一个季度。
在过去4年中,美国CDC流感样疾病数据与谷歌趋势相对搜索量数据(
对于CDC流感样疾病数据,观测数据与预测数据之间存在很强的相关性(
流感谷歌趋势数据、CDC流感样疾病数据和流感媒体报道数据的相对数据量。
谷歌Trends相对搜索量、美国疾病控制和预防中心流感样疾病病例报告和媒体报道数据之间的相关性。
地区和时期一个 | 相对搜索量和病例报告 | 相对搜索量和媒体覆盖率 | 相关病例报道及媒体报道 | |||||||||||
|
|
|
|
|
|
|
||||||||
|
|
|
|
|
|
|
||||||||
|
2016 - 2017 | 0.753 | <措施 | 0.483 | <措施 | 0.643 | <措施 | |||||||
|
2017 - 2018 | 0.869 | <措施 | 0.607 | <措施 | 0.689 | <措施 | |||||||
|
2018 - 2019 | 0.846 | <措施 | 0.878 | <措施 | 0.864 | <措施 | |||||||
|
2019 - 2020 | 0.902 | <措施 | 0.707 | <措施 | 0.720 | <措施 | |||||||
|
2020 - 2021 | 0.643 | <措施 | 0.746 | <措施 | 0.440 | 措施 | |||||||
|
|
|
|
|
|
|
||||||||
|
2016 - 2017 | 0.739 | <措施 | 0.483 | <措施 | 0.586 | <措施 | |||||||
|
2017 - 2018 | 0.817 | <措施 | 0.648 | <措施 | 0.740 | <措施 | |||||||
|
2018 - 2019 | 0.733 | <措施 | 0.805 | <措施 | 0.700 | <措施 | |||||||
|
2019 - 2020 | 0.744 | <措施 | 0.604 | <措施 | 0.668 | <措施 | |||||||
|
2020 - 2021 | 0.408 | .002 | 0.706 | <措施 | 0.093 | .51 | |||||||
|
|
|
|
|||||||||||
|
2016 - 2017 | - - - - - -b | - - - - - - | 0.195 | 。 | - - - - - - | - - - - - - | |||||||
|
2017 - 2018 | - - - - - - | - - - - - - | 0.571 | <措施 | - - - - - - | - - - - - - | |||||||
|
2018 - 2019 | - - - - - - | - - - - - - | 0.733 | <措施 | - - - - - - | - - - - - - | |||||||
|
2019 - 2020 | - - - - - - | - - - - - - | 0.521 | <措施 | - - - - - - | - - - - - - | |||||||
|
2020 - 2021 | - - - - - - | - - - - - - | 0.694 | <措施 | - - - - - - | - - - - - - | |||||||
|
|
|
|
|
||||||||||
|
2016 - 2017 | 0.837 | <措施 | 0.511 | <措施 | 0.518 | <措施 | |||||||
|
2017 - 2018 | 0.766 | <措施 | 0.668 | <措施 | 0.484 | <措施 | |||||||
|
2018 - 2019 | 0.867 | <措施 | 0.815 | <措施 | 0.726 | <措施 | |||||||
|
2019 - 2020 | 0.826 | <措施 | 0.684 | <措施 | 0.654 | <措施 | |||||||
|
2020 - 2021 | 0.685 | <措施 | 0.825 | <措施 | 0.533 | <措施 | |||||||
|
|
|
|
|
||||||||||
|
2016 - 2017 | 0.671 | <措施 | 0.379 | .006 | 0.464 | <措施 | |||||||
|
2017 - 2018 | 0.882 | <措施 | 0.519 | <措施 | 0.531 | <措施 | |||||||
|
2018 - 2019 | 0.868 | <措施 | 0.546 | <措施 | 0.519 | <措施 | |||||||
|
2019 - 2020 | 0.919 | <措施 | 0.495 | <措施 | 0.543 | <措施 | |||||||
|
2020 - 2021 | 0.449 | <措施 | 0.707 | <措施 | 0.184 | .19 |
一个每个周期定义为从次年1月21日开始到次年1月20日结束。
b佛罗里达州没有流感样疾病的数据。
在这项研究中,我们注意到在COVID-19出现后的一年里,与预期模式相比,非典型的谷歌趋势流感搜索模式,这可能会限制使用谷歌趋势作为流感监测工具时的准确性。支持这一说法的是:(1)预测的和观测到的流感相对搜索量数据之间的差异,(2)预测的和观测到的流感数据相对搜索量在第一季度之间缺乏显著相关性,以及(3)CDC流感样疾病和谷歌Trends流感数据之间的弱相关性。
就整个美国而言,在52周中有6周,流感相关搜索量超过了预测的置信区间。在每个评估状态中观察到类似的结果。重要的是,美国观测值超过预测范围的几周(单个州的大多数周)都在第一季度内,这也是实际和预测的谷歌趋势流感数据之间的相关性弱于2016-2020年相关性的时候。有趣的是,这也是流感媒体报道最多的一个季度。
与前几年相比,2020-2021年CDC流感样疾病与谷歌趋势流感数据之间的相关性强度有所下降。然而,流感媒体报道与谷歌趋势流感数据之间的相关性却没有出现同样的情况,即使2020-2021年第一季度流感媒体报道有所增加,相关性仍然很强。这些发现支持谷歌趋势搜索和媒体对流感的报道之间的联系,在整个大流行期间,这两者一直密切相关。
我们没有观察到2020年1月21日至2021年1月20日各州或整个国家的COVID-19和流感的谷歌趋势数据之间存在很强的正相关性。虽然我们的研究没有在这两种疾病之间建立直接的相关性或因果关系,但流感和共同症状的搜索高峰时间(
我们的研究强调,流感搜索不仅可以反映流感的流行病学,而且还受到外部因素的影响,特别是媒体获得的发展,如COVID-19大流行,这为反驳谷歌趋势可以单独用于准确预测流感爆发的说法提供了证据[
以前的工作也评估了媒体报道对互联网搜索活动的影响[
重要的是,根据以前的一项研究结果,除了2020-2021年,谷歌趋势和CDC流感样疾病数据显示出很强的相关性[
我们还能够量化媒体对流感的报道。虽然之前的谷歌趋势流感样疾病和流感研究评估了谷歌趋势数据与官方监测数据之间的相关性,并采用每年的数据间隔[
本研究有一定的局限性。首先,谷歌没有直接说明用于定义流感和COVID-19疾病主题的具体关键字,但使用主题搜索比使用搜索词更好,因为主题包含广泛的相关关键字。
对于共享症状,我们不能使用主题,因为没有包含所有症状的主题,并且必须使用关键字组合构建查询。关键词的选择对结果有决定性的影响。
另一个限制是谷歌Trends以相对数量而不是绝对数量显示搜索。后者将促进流感和COVID-19查询之间的比较,并揭示关于每种疾病的绝对搜索兴趣的更多信息。此外,由于谷歌趋势基于谷歌搜索引擎数据,老年人、受教育程度较低的人、低收入的人、农村地区或与技术隔离的人在互联网搜索中可能代表性不足[
2020-2021年CDC流感样疾病与谷歌趋势流感数据之间相关性较弱,这不仅可以解释为流感搜索模式的变化,还可以解释为COVID-19出现后流感实际病例数的减少(例如,广泛采用个人防护措施)[
最后,我们只使用了一个国家的数据;结论可能不适用于其他国家;然而,我们进行了探索性分析,将相同的方法应用于以英语为官方语言之一的其他国家(如加拿大、英国、爱尔兰、澳大利亚和新西兰),并展示了高质量的相对搜索量数据,这表明预测的谷歌Trends流感数据与观测到的谷歌Trends流感数据之间的相关性发现一致,而对于共享症状,观察到的结果更不一致(
这项研究也有重要的优势。我们能够通过对流感数据和共享症状数据使用时间序列预测方法来比较观测数据和预测数据。我们没有建立模型,同时纳入谷歌趋势和CDC流感样疾病数据,如一些[
在未来的研究中,由于美国(和所有州)的COVID-19大流行由于新的变种和感染浪潮而不断演变,对2021年1月后谷歌流感趋势搜索的研究将有助于持续评估谷歌趋势搜索的变化和谷歌趋势的可靠性。每个次国家区域的谷歌Trends流感和COVID-19相对搜索量数据可以更全面地反映区域搜索模式。
一旦COVID-19获得媒体报道,即使考虑到流感搜索的季节性,流感搜索模式也偏离了前几年的模式,2020-2021年CDC与谷歌趋势流感数据之间的5年相关性最弱——这两项发现都表明,在高度媒体化的呼吸道感染爆发时期,谷歌趋势作为补充流感监测工具的准确性应仔细评估。此外,虽然我们不能假设COVID-19搜索兴趣直接影响谷歌Trends流感数据,但我们发现媒体报道可能是明显不规则流感搜索模式的因素,我们警告不要仅依赖谷歌Trends数据进行流感监测,因为媒体影响可能会导致谷歌Trends搜索偏离正常模式。
季节性自回归综合移动平均(SARIMA)模型用于预测2020-2021年流感和共享症状相对搜索量数据。
在除美利坚合众国以外的大多数英语母语国家,流感与COVID-19的相关性
预测值与观测值(1)流感相对搜索值和(2)除美国以外的大多数英语母语国家的流感和COVID-19症状共享相对搜索值之间的相关性。
美国疾病控制和预防中心
韩国疾病控制和预防中心
季节自回归综合移动平均
本研究由国家基金资助
没有宣布。