卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JPH

JMIR公共卫生监测

JMIR公共卫生和监视

2369 - 2960

卡塔尔世界杯8强波胆分析

加拿大多伦多

v8i3e32364

34878996

10.2196/32364

原始论文

自COVID-19出现以来的美国流感搜索模式:信息流行病学研究

桑切斯

特拉维斯

Mavragani

孤挺花

库马尔

Jishnu克利须那神

蔡

欧文

https://orcid.org/0000-0002-2601-9186

Sousa-Pinto

贝尔纳多

医学博士 2

社区医学、信息与健康决策科学系“，医学院波尔图大学

Rua Plácido Costa s/n

波尔图,4200 - 450

葡萄牙 351 225513622 bernardosousapinto@protonmail.com

https://orcid.org/0000-0002-1277-3401

1 影溪高中

,邮递到梨城TX

美国 2 社区医学、信息与健康决策科学系“，医学院波尔图大学

波尔图

葡萄牙 3. 卫生技术和服务研究中心波尔图大学

波尔图

葡萄牙

通讯作者:Bernardo Sousa-Pinto bernardosousapinto@protonmail.com

3. 2022

3. 3. 2022

8 3.

e32364

24 7 2021 21 9 2021 30. 10 2021 30. 11 2021

©Owen Cai, Bernardo Sousa-Pinto。最初发表于JMIR公共卫生与监测(https://publichealth.www.mybigtv.com)， 2022年3月3日。

2022

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，https://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

背景

COVID-19的出现和媒体报道可能影响了流感搜索模式，可能影响了使用谷歌Trends的流感监测结果。

客观的

我们旨在调查COVID-19的出现是否与美国流感搜索模式的改变有关。

方法

我们检索了流感、2019冠状病毒疾病以及流感和COVID-19共同症状等主题的美国谷歌趋势数据(特定术语的相对搜索量)。我们计算了美国首次诊断出COVID-19后一年内(2020年1月21日至2021年1月20日)流感和COVID-19搜索数据之间的相关性。我们构建了一个季节性自回归综合移动平均模型，并使用前四年的预测搜索量与谷歌趋势相对搜索量数据进行了比较。我们为共享症状数据建立了一个类似的模型。我们还评估了过去5年谷歌Trends流感数据、美国疾病控制和预防中心流感样疾病数据和流感媒体报道数据之间的相关性。

结果

我们观察到非显著弱相关( ρ= -0.171; P=0.23)谷歌趋势数据。2020-2021年流感搜索量明显偏离了季节性自回归综合移动平均模型的预测值——在美国确诊首例COVID-19感染后的前13周内的6周内，观测到的搜索量高于预测值95%置信区间的上限。在与流感和COVID-19数据相同的症状中观察到类似的结果。在COVID-19出现后，谷歌Trends流感数据与CDC流感样疾病数据之间的相关性下降(2020-2021年: ρ= 0.643;2019 - 2020: ρ=0.902)，而谷歌Trends流感数据与流感媒体报道量之间的相关性保持稳定(2020-2021年: ρ= 0.746;2019 - 2020: ρ= 0.707)。

结论

在美国COVID-19大流行开始后一年，预测的流感谷歌趋势数据与观测的流感谷歌趋势数据之间观察到相关差异。这种差异可能是由于媒体的报道，表明使用谷歌趋势作为流感监测工具的局限性。

新型冠状病毒肺炎流感监测媒体报道谷歌趋势 infodemiology 监控趋势美国寻求信息在线健康信息

简介

谷歌Trends是一个工具，根据位置和用户选择的时间范围检索谷歌中特定术语的相对搜索量[ 1］．谷歌Trends提供相对搜索量数据(以0-100为范围)，由特定术语的搜索数量相对于所选时间段内的总搜索数量组成[ 1］．基于谷歌趋势数据的研究主要属于信息流行病学领域，这是一种分析电子媒介(特别是互联网)中的信息以改善公共卫生和政策的实践[ 2］．与传统调查收集的信息相比，有关网络搜索量的信息是一种相对较新的选择，一些研究[ 3.]自第一次以来一直使用搜索量数据进行研究，该研究监测了2002年发生的严重急性呼吸系统综合征流行。使用谷歌Trends的互联网搜索数据作为传统调查数据的补充很有吸引力，其中一个原因是数据是实时提供的，网络搜索是匿名进行的，可以获得有关敏感话题的更大范围的数据[ 4- 7］．

谷歌趋势数据用于监测慢性和急性疾病。与普通感冒相关的搜索量数据被发现与哮喘发病率相关，并可预测哮喘住院率[ 8， 9］．此外，Fang和同事们[ 10研究发现，从2007年到2020年，与慢性阻塞性肺疾病相关的搜索量的增加与慢性阻塞性肺疾病发病率的几项估计相关。对于急性疾病，特别是传染病，Seifter等[ 11他注意到谷歌对“莱姆病、蜱叮咬和咳嗽”这一关键词的搜索反映了莱姆病感染通常高峰的地理位置和时间。卡内罗和米洛纳基斯[ 12发现西尼罗河病毒、呼吸道合胞病毒和禽流感的谷歌趋势搜索模式与季节性或周期性病毒爆发的模式相关。袁等[ 13]发现发烧、胃肠炎和水样腹泻的搜索与谷歌趋势诺如病毒数据相关;其中一些搜索也与来自纽约、加利福尼亚和整个美国的实际诺瓦克病毒病例相关。

多项研究[ 14- 17，以评估关于COVID-19症状、个人防护设备或措施以及疫苗等的互联网搜索模式(尽管这些仅在大流行的头几个月进行了评估，当时媒体对COVID-19大流行的报道兴趣特别高[ 17])。

使用谷歌趋势最常评估的传染病之一是流感，对它的研究结果好坏参半。曹等[ 18]发现韩国疾病控制和预防中心(KCDC)的流感样疾病数据与2007-2012年流感季节的谷歌趋势数据之间存在很强的相关性[ 18］．张等[ 19通过构建一个能够成功预测流感爆发的流感爆发预测器，扩展了谷歌趋势数据的效用。同样，Samaras等人[ 20.]发现谷歌搜索数据与希腊和意大利流感样疾病发病率之间存在很强的统计显著相关性，并使用自回归综合移动平均模型，他们成功地预测了流感发生前4周的高峰。另一方面，尽管金斯伯格等人[ 4他们发现谷歌查询可用于准确估计美国所有9个公共卫生地区的流感类疾病，他们还指出，在不寻常的媒体报道影响了谷歌趋势数据用于直接预测的能力后，流感相关搜索量可能出现人为激增。

也有大量的文献研究了谷歌流感趋势的使用，这是一种仅用于预测流感爆发的算法[ 21， 22］．谷歌流感趋势在2008年11月部署，使用谷歌搜索数据来估计流感流行的强度，并预测美国疾病控制和预防中心(CDC)关于因流感样疾病而就诊的患者数量的数据。它的算法基于2003年至2007年间与美国疾病控制与预防中心流感样疾病数据相关性最高的前45个搜索(提取自500亿个搜索次数最多的谷歌术语);然而，这45个术语从未明确发布，这意味着缺乏可复制性。此外，谷歌流感趋势并未预测2009年甲型h1n1流感大流行[ 21， 22]并在2011年8月开始的108周中高估了100周的流感病例流行率[ 22］．2009年第一波H1N1流感在美国被低估的部分原因是[ 23到公众普遍缺乏对H1N1的了解(与2009-2010年的第二波流感形成对比，后者反映了实际的流感模式)。谷歌流感趋势仅根据互联网搜索数据监测和预测流感爆发过程的尝试是不成功的，这是对互联网搜索数据的波动性及其不能反映真实病例数据的可能性的警告。

使用谷歌趋势数据成功监测或预测病毒爆发取决于所使用的关键字。在谷歌Trends数据收集中，选择合适的关键字是“有效结果的关键”。 6)。”康等[ 24]发现，根据特定关键词(“甲型流感”、“发烧”、“感冒”或“咳嗽”)，谷歌趋势与流感监测数据(2008 - 2011年广东省疾控中心官方56个哨点诊所的数据)之间的相关性会发生变化——在所有4年里，“发烧”与广东省疾控中心数据显著相关;然而，“H1N1”与任何一年的数据都没有显著相关。最终，Kang等人[ 24]建议，当媒体对某个特定的流感季节或毒株进行了大量报道时，分析人员应该保持谨慎，因为互联网搜索模式可能存在偏见。

然而，类似地，COVID-19的出现也可能扭曲了谷歌Trends流感搜索模式。COVID-19和流感都是呼吸道疾病，有几个共同症状(如发烧、咳嗽和喉咙痛[ 25])及季节性[ 26］．一个类似的场景被证明[ 27]，确定哮喘和慢性阻塞性肺病的搜索量在2020年3月达到峰值，哮喘搜索量的增加归因于COVID-19和哮喘潜在的共同呼吸道影响，以及媒体对COVID-19的大量报道。

COVID-19大流行的严重程度导致了风险意识的增强和媒体的不断报道，这导致人们在互联网上搜索更多关于COVID-19的信息。由于COVID-19搜索的激增可能会影响谷歌Trends流感搜索模式，改变谷歌Trends作为补充监测工具的能力，我们的目标是评估和量化COVID-19的出现与美国谷歌Trends流感搜索模式波动的关联程度。

方法研究设计

我们使用Mavragani和Ochoa的框架收集了流感、COVID-19及其共同症状的谷歌趋势数据[ 6］．我们(1)确定了美国COVID-19大流行第一年(2020年1月21日至2021年1月20日)流感搜索和COVID-19搜索之间的相关性，(2)基于前几年的数据开发了一个时间序列模型来预测流感搜索数据，我们将其与观测数据进行比较，以检测自COVID-19出现以来流感搜索模式的不规则性;(3)根据前几年的数据建立时间序列模型，预测共享症状数据，并将其与观测数据进行比较，以检测自COVID-19出现以来共享症状搜索模式的不规则性;(4)确定过去5年搜索数据与其他来源数据(包括美国疾病控制与预防中心监测数据和流感媒体报道量)之间的相关性，以检测自COVID-19出现以来的任何变化。

数据收集关键词选择

尽管在过去的谷歌趋势流感研究中[ 18， 20.， 24]，我们使用了特定的关键词，我们使用了搜索主题，这是一组跨语言共享相同概念的术语。主题涵盖了一系列变化、拼写错误和相关搜索，不需要输入一组单独的术语，同时在所有时间范围内保持搜索查询的一致性。我们以“2019冠状病毒病”和“流感”为主题提取谷歌Trends数据，询问咳嗽+发烧+“喉咙痛”+“呼吸困难”，以评估COVID-19和流感的共同症状;谷歌趋势中的特定类别和子类别没有被选择用于任何关键字搜索。

地区和时期的选择

我们检索了美国国家级别的谷歌Trends数据。此外，我们提取了4个人口最多的州(加利福尼亚州、德克萨斯州、佛罗里达州和纽约州)的数据，以评估相关性和预测强度的区域差异。我们提取了2016年1月21日至2021年1月20日的数据，对应5个完整的年份。每年的定义都是从1月21日开始，因为美国疾病控制与预防中心在2020年1月21日确认了美国首例COVID-19感染。这使我们能够分析第一例COVID-19病例后的整整一年，并简化了过去几年数据的收集。为简单起见，我们将使用年份来引用每个时期集(即，对于从2016年1月21日到2017年1月20日提取的数据，我们将简单地说明 2016 - 2017)．

其他数据来源

美国疾病控制与预防中心通过跟踪每周流感样疾病(定义为发烧、咳嗽或喉咙痛，除流感外无已知原因)的病例来监测流感的周期性进展[ 25］．我们从CDC的FluView互动应用程序中检索了2016年1月21日至2021年1月20日的美国数据以及加利福尼亚州、德克萨斯州和纽约州(佛罗里达州没有数据)的数据。 28］．由于FluView显示了从一年的第40周到下一年的第39周的数据，我们将来自不同流感季节的流感样疾病数据拼接在一起。

我们访问了一个开源平台(媒体云)来检索有关流感的媒体报道的百分比。我们使用“流感或流感”查询提取了2016年1月21日至2021年1月20日的美国数据。同时还检索了4个人口最多的州的数据。每周平均值是根据每日数据计算出来的。

数据分析

数据分析采用SPSS (version 25;IBM Corp)和R(版本4.0.4)软件。 P值<。05were considered statistically significant.

计算全年和季度(13周)的斯皮尔曼相关系数，以评估谷歌Trends的COVID-19与流感数据之间的关系。

然后，我们评估了自COVID-19出现以来预测的谷歌趋势流感数据与实际数据的差异，以检测流感搜索模式中的最终不规则性。为此，我们提取了2016-2021年的谷歌趋势流感数据，并基于2016-2020年的数据。我们建立了季节性自回归综合移动平均(SARIMA)模型[ 27］．执行相同的过程来比较共享症状相对搜索量的预测和观察谷歌趋势数据。

使用SARIMA模型根据过去提供的数据并考虑季节模式来预测2020-2021年的数据。模型由( p， d，问)（ P '， D，问）年代, p对应自回归的顺序， d对应于差异的程度，问对应于移动平均部分的顺序， P '对应自回归的季节顺序， D对应于季节整合后的差异程度，问对应于季节移动平均线，和年代与季节周期的长度相对应。我们设置年代=52周(因为一年大约有52周)，我们选择 d而且 D因此，2016-2020年时间序列呈现平稳(即方差恒定，没有极端波动或整体增减行为); p而且 P '根据偏自相关函数图选择，问而且问基于自相关函数图进行选择。SARIMA模型的选择基于Ljung-Box检验的结果和被测模型的赤池信息准则。

为了比较预测的和观测到的相对搜索量，我们计算了2020-2021年和每个季度的斯皮尔曼相关系数。我们计算了观测到的和预测的谷歌趋势数据之间的平均绝对差和百分比差，并确定了观测到的数据超过预测置信区间的周数。

我们计算了2016年至2021年流感的谷歌趋势数据与美国疾病预防控制中心流感样疾病数据之间的Spearman相关系数，以及流感的谷歌趋势数据与Media Cloud流感媒体报道数据之间的Spearman相关系数。为了评估2020-2021年CDC流感样疾病和媒体报道数据与前几年相比是否存在显著差异，我们建立了SARIMA模型，并确定观测数据超过预测置信区间的周数( 多媒体附件1)．

结果谷歌趋势COVID-19和流感数据

我们观察到流感和COVID-19在国家层面上的美国谷歌趋势数据之间无显著弱相关性( ρ= -0.171; P=.23)和每个州(加利福尼亚州: ρ= -0.179; P= .20;佛罗里达: ρ= -0.173; P= 22;纽约: ρ= -0.161; P=点;德州: ρ= -0.188; P=) ( 图1)．同样，季度相关性也不显著( 表1)和大部分弱( 图2)．

图1

2020年1月21日至2021年1月20日流感和COVID-19主题相对搜索量。

表1

流感和COVID-19相对搜索量的相关性。

地区和时期^一个					ρ			P价值
美利坚合众国
	整个时期			-0.171			23)
		1季度	0.358			23)
		第二季度	0.271			.37点
		第三季度的	-0.224			.46
		第四节	-0.281			.35点
加州
	整个时期			-0.179			.20
		1季度	0.498			。08
		第二季度	0.391			.19
		第三季度的	-0.392			.19
		第四节	0.012			.97点
佛罗里达
	整个时期			-0.173			口径。
		1季度	0.531			06
		第二季度	0.409			16
		第三季度的	-0.405			。
		第四节	-0.482			.10
纽约
	整个时期			-0.161			．26
		1季度	0.311			.30
		第二季度	0.487			.09点
		第三季度的	-0.146			点
		第四节	-0.465			厚
德州
	整个时期			-0.188			只要
		1季度	0.354			。
		第二季度	0.503			。08
		第三季度的	-0.144			.64点
		第四节	-0.392			只要

^一个全程:2020年1月21日至2021年1月20日;第一季度:2020年1月26日至2020年4月19日;第二季度:2020年4月26日至2020年7月19日;第三季度:2020年7月26日至10月18日;第四季度:2020年10月25日至2021年1月17日。

图2

(A)流感和COVID-19相对搜索量，(B)观测和预测流感相对搜索量，以及(C)观测和预测共享症状相对搜索量的相关热图(全国和州)。

预测与观察谷歌趋势流感数据

在国家层面，在52周中，观察到的流感相对搜索量有6周低于预测置信区间(11.5%)( 图3)，所有这些都发生在第一季度。相对搜索量观测值与预测值的平均差异为12.9个单位(平均百分比差异为48.4%)。在整个时期，观测到的和预测的相对搜索量之间的相关性， ρ= 0.632 ( P<措施)( 图2）;然而，对于第一季度，相关性(包括观察到的谷歌趋势值超出预测值置信区间的6周)报告值显著不同，且不显著( ρ= -0.204; P陈霞=)( 表2)．

在加州、佛罗里达州和德克萨斯州，观测到的流感相对搜索量都在第一季度出现在预测置信区间之外。

图3

预测和观测2020年1月21日至2021年1月20日流感相对搜索量(RSV)值。红线表示观测到的流感相对搜索值，蓝线表示流感搜索的预测值，蓝色阴影区域表示预测值的置信区间。

表2

预测和观察到的流感相对搜索量之间的相关性。

地区和时期^一个					ρ			P价值			预测ci外周，n (%^b）
美利坚合众国
	整个时期			0.632			<措施			6 (11.5)
		1季度	-0.204			陈霞			6 (46.2)
		第二季度	0.720			02			0 (0)
		第三季度的	0.899			<措施			0 (0)
		第四节	0.417			.002			0 (0)
加州
	整个时期			0.338			. 01			7 (13.5)
		1季度	-0.132			正			7 (53.8)
		第二季度	0.436			.14点			0 (0)
		第三季度的	0.946			<措施			0 (0)
		第四节	-0.626			02			0 (0)
佛罗里达
	整个时期			0.130			36			10 (19.2)
		1季度	-0.184			55			10 (76.9)
		第二季度	0.050			.87点			0 (0)
		第三季度的	0.806			<措施			0 (0)
		第四节	-0.514			07			0 (0)
纽约
	整个时期			0.338			. 01			21日(40.4)
		1季度	-0.022			总收入			10 (76.9)
		第二季度	-0.114			点			4 (30.8)
		第三季度的	0.866			<措施			2 (15.4)
		第四节	-0.634			02			5 (38.5)
德州
	整个时期			0.292			.04点			5 (9.6)
		1季度	0.082			.79			5 (38.5)
		第二季度	0.288			点			0 (0)
		第三季度的	0.861			<措施			0 (0)
		第四节	-0.804			<措施			0 (0)

^b整整52周。13个星期里，只有一个季度。

预测与观察谷歌趋势共享症状数据

在国家一级，观察到的共享症状的相对搜索量数据落在预测的置信区间之外( 图4)，与流感相对搜索量数据相同的6周。实际数据和预测数据之间的相对搜索量的平均差异为8.7个单位(平均百分比差异为20.2%)。整个时期的相关性是显著的( ρ= 0.578; P<措施)( 表3)．对于个别州，在比较观察到的与预测的共享症状相对搜索量数据时，观察到更多样化的模式(例如，在加利福尼亚州，只有4周的时间超出了预测的时间间隔——全部发生在第一季度——而在纽约，有18周的时间超出了预测的时间间隔，出现在所有季度)( 图2)．

图4

预测和实际观察2020年1月21日至2021年1月20日流感和COVID-19共同症状的相对搜索量(RSV)值。红线表示观测到的相对搜索值，蓝线表示预测的相对搜索值，蓝色阴影区域表示预测值的置信区间。

表3

预测和实际观察到的共同症状(流感和COVID-19之间)相对搜索量之间的相关性。

地区和时期^一个					ρ			P价值			预测ci外周，n (%^b）
美利坚合众国
	整个时期			0.578			<措施			6 (11.5)
		1季度	-0.354			。			6 (46.2)
		第二季度	-0.359			23)			0 (0)
		第三季度的	-0.273			.37点			0 (0)
		第四节	0.518			07			0 (0)
加州
	整个时期			0.603			<措施			4 (7.7)
		1季度	0.155			收			4 (30.8)
		第二季度	-0.610			03			0 (0)
		第三季度的	-0.281			.35点			0 (0)
		第四节	0.759			.003			0 (0)
佛罗里达
	整个时期			0.303			03			9 (17.3)
		1季度	-0.200			点			8 (61.5)
		第二季度	-0.599			03			0 (0)
		第三季度的	-0.768			.002			0 (0)
		第四节	0.615			03			1 (7.7)
纽约
	整个时期			0.537			<措施			18 (34.6)
		1季度	-0.254			.40			7 (53.8)
		第二季度	0．041			.89			3 (23.1)
		第三季度的	-0.083			.79			1 (7.7)
		第四节	0.274			36			7 (53.8)
德州
	整个时期			0.484			<措施			21日(40.4)
		1季度	-0.214			的相关性			6 (46.2)
		第二季度	-0.711			.006			5 (38.5)
		第三季度的	0.237			无误			0 (0)
		第四节	0.864			<措施			10 (76.9)

^b整整52周。13个星期里，只有一个季度。

谷歌趋势与其他数据源之间的相关性

在过去4年中，美国CDC流感样疾病数据与谷歌趋势相对搜索量数据( 图5)以及CDC流感样疾病数据和媒体报道;2020-2021年的相关性弱于前几年。同样，在2020-2021年，除纽约州外，各州CDC流感样疾病数据与媒体对流感报道之间的相关性弱于前几年。2020-2021年谷歌流感趋势与流感媒体报道之间的相关性与前几年一样强( 表4)．

对于CDC流感样疾病数据，观测数据与预测数据之间存在很强的相关性( ρ= 0.701; P<措施)。尽管有这一发现，平均而言，观测值往往低于预测值，但考虑到整个2020-2021年期间，仍在预测置信区间内。就流感媒体报道而言，观测值与预测值之间的相关性较低( ρ= -0.063; P=.66)，有14周的观测数据落在预测置信区间之外，主要是在第一季度。

图5

流感谷歌趋势数据、CDC流感样疾病数据和流感媒体报道数据的相对数据量。

表4

谷歌Trends相对搜索量、美国疾病控制和预防中心流感样疾病病例报告和媒体报道数据之间的相关性。

地区和时期^一个			相对搜索量和病例报告				相对搜索量和媒体覆盖率					相关病例报道及媒体报道
			ρ		P价值		ρ		P价值		ρ			P价值
美利坚合众国
	2016 - 2017	0.753		<措施		0.483		<措施		0.643			<措施
	2017 - 2018	0.869		<措施		0.607		<措施		0.689			<措施
	2018 - 2019	0.846		<措施		0.878		<措施		0.864			<措施
	2019 - 2020	0.902		<措施		0.707		<措施		0.720			<措施
	2020 - 2021	0.643		<措施		0.746		<措施		0.440			措施
加州
	2016 - 2017	0.739		<措施		0.483		<措施		0.586			<措施
	2017 - 2018	0.817		<措施		0.648		<措施		0.740			<措施
	2018 - 2019	0.733		<措施		0.805		<措施		0.700			<措施
	2019 - 2020	0.744		<措施		0.604		<措施		0.668			<措施
	2020 - 2021	0.408		.002		0.706		<措施		0.093			.51
佛罗里达
	2016 - 2017	- - - - - -^b		- - - - - -		0.195		。		- - - - - -			- - - - - -
	2017 - 2018	- - - - - -		- - - - - -		0.571		<措施		- - - - - -			- - - - - -
	2018 - 2019	- - - - - -		- - - - - -		0.733		<措施		- - - - - -			- - - - - -
	2019 - 2020	- - - - - -		- - - - - -		0.521		<措施		- - - - - -			- - - - - -
	2020 - 2021	- - - - - -		- - - - - -		0.694		<措施		- - - - - -			- - - - - -
纽约
	2016 - 2017	0.837		<措施		0.511		<措施		0.518			<措施
	2017 - 2018	0.766		<措施		0.668		<措施		0.484			<措施
	2018 - 2019	0.867		<措施		0.815		<措施		0.726			<措施
	2019 - 2020	0.826		<措施		0.684		<措施		0.654			<措施
	2020 - 2021	0.685		<措施		0.825		<措施		0.533			<措施
德州
	2016 - 2017	0.671		<措施		0.379		.006		0.464			<措施
	2017 - 2018	0.882		<措施		0.519		<措施		0.531			<措施
	2018 - 2019	0.868		<措施		0.546		<措施		0.519			<措施
	2019 - 2020	0.919		<措施		0.495		<措施		0.543			<措施
	2020 - 2021	0.449		<措施		0.707		<措施		0.184			.19

^一个每个周期定义为从次年1月21日开始到次年1月20日结束。

^b佛罗里达州没有流感样疾病的数据。

讨论主要结果

在这项研究中，我们注意到在COVID-19出现后的一年里，与预期模式相比，非典型的谷歌趋势流感搜索模式，这可能会限制使用谷歌趋势作为流感监测工具时的准确性。支持这一说法的是:(1)预测的和观测到的流感相对搜索量数据之间的差异，(2)预测的和观测到的流感数据相对搜索量在第一季度之间缺乏显著相关性，以及(3)CDC流感样疾病和谷歌Trends流感数据之间的弱相关性。

就整个美国而言，在52周中有6周，流感相关搜索量超过了预测的置信区间。在每个评估状态中观察到类似的结果。重要的是，美国观测值超过预测范围的几周(单个州的大多数周)都在第一季度内，这也是实际和预测的谷歌趋势流感数据之间的相关性弱于2016-2020年相关性的时候。有趣的是，这也是流感媒体报道最多的一个季度。

与前几年相比，2020-2021年CDC流感样疾病与谷歌趋势流感数据之间的相关性强度有所下降。然而，流感媒体报道与谷歌趋势流感数据之间的相关性却没有出现同样的情况，即使2020-2021年第一季度流感媒体报道有所增加，相关性仍然很强。这些发现支持谷歌趋势搜索和媒体对流感的报道之间的联系，在整个大流行期间，这两者一直密切相关。

我们没有观察到2020年1月21日至2021年1月20日各州或整个国家的COVID-19和流感的谷歌趋势数据之间存在很强的正相关性。虽然我们的研究没有在这两种疾病之间建立直接的相关性或因果关系，但流感和共同症状的搜索高峰时间( 图3而且 4)支持这一假设，即第一季度对COVID-19、其症状和主要鉴别诊断(包括流感)的高度关注可能促使了讨论流感的新闻量增加，这可能影响了流感的搜索模式(其他呼吸道疾病，如哮喘和慢性阻塞性肺疾病，也观察到类似的搜索峰值，可能出于相同的原因[ 27])。在本季度(1月19日至4月12日)，美国首次诊断出COVID-19(1月21日)并宣布进入公共卫生紧急状态(2月3日)[ 29］．事实上，流感(2020年3月8日当周)和COVID-19(3月29日当周)的相对搜索量峰值接连出现，图1)．此外，在流感相对搜索量达到峰值的那一周，世界卫生组织宣布COVID-19为大流行(3月11日)，美国宣布进入全国紧急状态(3月13日)[ 29］．

与之前工作的比较

我们的研究强调，流感搜索不仅可以反映流感的流行病学，而且还受到外部因素的影响，特别是媒体获得的发展，如COVID-19大流行，这为反驳谷歌趋势可以单独用于准确预测流感爆发的说法提供了证据[ 19， 20.］．当我们比较预测的和观察到的流感搜索量数据时，有6周的预测是不准确的，其中包括流感相对搜索量达到峰值的那一周，因为流感相对搜索量的峰值和搜索兴趣的峰值既没有反映在CDC流感样疾病病例报告数据中，也没有被SARIMA模型预测到。由于媒体的快速传播，这种峰值通常是最不可预测的，这凸显了预测模型在解释搜索量突然激增时可能存在的局限性。以往的研究[ 24)已经警告说，高媒体事件可能会夸大流感搜索量，扭曲流感搜索模式。我们调查了COVID-19，并注意到流感和COVID-19的相对搜索量峰值时间非常接近，在COVID-19相对搜索量和媒体曝光率上升的同一时间段内，观察到一些不可预测的流感相对搜索量活动[ 24］．

以前的工作也评估了媒体报道对互联网搜索活动的影响[ 17， 27， 30.］．这种影响不仅包括传染病。例如，Cervellin等人[ 23]的研究发现，关键词“自闭症”的搜索量在5月份持续飙升，这可能是由于4月份是世界自闭症日，但这可能与真实的流行病学数据不符。在我们的研究中，谷歌Trends流感数据与哮喘和慢性阻塞性肺病数据相似[ 27]，在2020年3月达到峰值，就在同一周，美国宣布进入全国紧急状态。

重要的是，根据以前的一项研究结果，除了2020-2021年，谷歌趋势和CDC流感样疾病数据显示出很强的相关性[ 18]，显示2007-2012年流感季节韩国国家流感监测数据与谷歌Trends流感数据之间存在很强的相关性。虽然我们的研究结果表明谷歌趋势不能作为预测流感爆发的唯一工具，但它们不排除使用谷歌趋势作为预测当前和不久的将来的工具，这是对传统监测系统的补充，这一点之前已经讨论过[ 31， 32］．与仅使用过去的监测或住院数据相比，将谷歌趋势数据与过去的流感数据结合使用可能有助于减少美国流感监测和住院预测的误差[ 33， 34］．对谷歌趋势应用数据修正方法可能特别有助于提高预测的准确性[ 32， 35］．

我们还能够量化媒体对流感的报道。虽然之前的谷歌趋势流感样疾病和流感研究评估了谷歌趋势数据与官方监测数据之间的相关性，并采用每年的数据间隔[ 18， 24]，在适当的时候，我们也使用季度数据。在观测数据和预测数据之间的相关性方面，以及观测数据超过预测间隔的周数方面，都存在相关的跨季度差异。使用较小的时间间隔来处理季节性和重大事件。事实上，2020-2021年第一季度包括许多首次宣布COVID-19和紧急宣布，而在第三季度，流感搜索恢复到相对可预测的模式。这在一定程度上可能是由于北半球的夏季，这是季节性冠状病毒和流感的低活动性时期[ 30.］．

限制

本研究有一定的局限性。首先，谷歌没有直接说明用于定义流感和COVID-19疾病主题的具体关键字，但使用主题搜索比使用搜索词更好，因为主题包含广泛的相关关键字。

对于共享症状，我们不能使用主题，因为没有包含所有症状的主题，并且必须使用关键字组合构建查询。关键词的选择对结果有决定性的影响。 24］．在我们的研究中，潜在相关的词比我们所包含的词要多，但其中许多症状往往是广泛的，因此，为了尽量减少广泛搜索词的影响，我们限制了搜索查询中的词的数量。即使做出了这样的让步，在国家和州一级，观察到的和预测的共享症状相对搜索量有明显的变化，这限制了根据共享症状数据得出结论。

另一个限制是谷歌Trends以相对数量而不是绝对数量显示搜索。后者将促进流感和COVID-19查询之间的比较，并揭示关于每种疾病的绝对搜索兴趣的更多信息。此外，由于谷歌趋势基于谷歌搜索引擎数据，老年人、受教育程度较低的人、低收入的人、农村地区或与技术隔离的人在互联网搜索中可能代表性不足[ 2］．

2020-2021年CDC流感样疾病与谷歌趋势流感数据之间相关性较弱，这不仅可以解释为流感搜索模式的变化，还可以解释为COVID-19出现后流感实际病例数的减少(例如，广泛采用个人防护措施)[ 36]，这也可能妨碍在流感监测中使用谷歌趋势的可靠性。然而，在2020-2021年第一季度，当我们检测到谷歌趋势流感模式的最大差异时，CDC流感样疾病数据与基于前几年数据的预期相比，没有明显下降。

最后，我们只使用了一个国家的数据;结论可能不适用于其他国家;然而，我们进行了探索性分析，将相同的方法应用于以英语为官方语言之一的其他国家(如加拿大、英国、爱尔兰、澳大利亚和新西兰)，并展示了高质量的相对搜索量数据，这表明预测的谷歌Trends流感数据与观测到的谷歌Trends流感数据之间的相关性发现一致，而对于共享症状，观察到的结果更不一致( 多媒体附录2而且 3.)．尽管我们的研究重点是美国，但我们的研究方法框架可以扩展到其他拥有发达的国家流感监测系统和可靠的互联网接入的国家，这将为自COVID-19开始以来全国范围内流感搜索模式的变化提供新的理解。

这项研究也有重要的优势。我们能够通过对流感数据和共享症状数据使用时间序列预测方法来比较观测数据和预测数据。我们没有建立模型，同时纳入谷歌趋势和CDC流感样疾病数据，如一些[ 37]，因为我们的目标不是预测近期流感样发病率，而是评估观测值和预测值之间的相关性和差异)。此外，我们评估了谷歌趋势流感与CDC流感样疾病数据之间的相关性，发现证据表明COVID-19的出现可能会对美国疾病监测产生影响。

在未来的研究中，由于美国(和所有州)的COVID-19大流行由于新的变种和感染浪潮而不断演变，对2021年1月后谷歌流感趋势搜索的研究将有助于持续评估谷歌趋势搜索的变化和谷歌趋势的可靠性。每个次国家区域的谷歌Trends流感和COVID-19相对搜索量数据可以更全面地反映区域搜索模式。

结论

一旦COVID-19获得媒体报道，即使考虑到流感搜索的季节性，流感搜索模式也偏离了前几年的模式，2020-2021年CDC与谷歌趋势流感数据之间的5年相关性最弱——这两项发现都表明，在高度媒体化的呼吸道感染爆发时期，谷歌趋势作为补充流感监测工具的准确性应仔细评估。此外，虽然我们不能假设COVID-19搜索兴趣直接影响谷歌Trends流感数据，但我们发现媒体报道可能是明显不规则流感搜索模式的因素，我们警告不要仅依赖谷歌Trends数据进行流感监测，因为媒体影响可能会导致谷歌Trends搜索偏离正常模式。

多媒体附件1

季节性自回归综合移动平均(SARIMA)模型用于预测2020-2021年流感和共享症状相对搜索量数据。

多媒体附件2

在除美利坚合众国以外的大多数英语母语国家，流感与COVID-19的相关性

多媒体

预测值与观测值(1)流感相对搜索值和(2)除美国以外的大多数英语母语国家的流感和COVID-19症状共享相对搜索值之间的相关性。

缩写

疾病预防控制中心

美国疾病控制和预防中心

KCDC

韩国疾病控制和预防中心

SARIMA

季节自回归综合移动平均

本研究由国家基金资助 Fundação para a Ciência e a Tecnologia Instituto Público，在Centro de Investigação em Tecnologias e Serviços de Saúde (CINTESIS)，研发部门(参考UIDB/4255/2020)。

没有宣布。

关于谷歌趋势数据的常见问题

谷歌 2021-04-15

https://support.google.com/trends/answer/4365533?hl=en&ref_topic=6248052

Eysenbach

信息流行病学和信息监测跟踪在线健康信息和网络行为的公共卫生

是J Prev Med吗 2011 05 40 5补充2 S154 8

10.1016 / j.amepre.2011.02.006

21521589

s0749 - 3797 (11) 00088 - 2

Eysenbach

SARS和人口健康技术

J医疗互联网服务 2003 5 2 e14灯头

10.2196 / jmir.5.2.e14

12857670

PMC1550560

金斯堡

Mohebbi

帕特尔

布拉姆

Smolinski

女士

才华横溢的

使用搜索引擎查询数据检测流感流行

自然 2009 02 19 457 7232 1012 4

10.1038 / nature07634

19020500

nature07634

Mavragani

一个

Tsagarakis

是或否:使用谷歌Trends预测2015年投票结果

技术预测社会变化 2016 109 1 5

10.1016 / j.techfore.2016.04.028

Mavragani

一个

奥乔亚

信息流行病学和信息监测趋势:方法论框架

JMIR公共卫生监测 2019 05 29 5 2 e13439

10.2196/13439

31144671

v5i2e13439

PMC6660120

阿奎莱拉

我

命运

Escabias

米

Di巴蒂斯塔

利用谷歌Trends数据评估社会对职业倦怠的兴趣

Soc指标 2019 12 14 156 2 - 3 587 599

10.1007 / s11205 - 019 - 02250 - 5

Sousa-Pinto

哈洛宁

霁

为由

一个

Jormanainen

Czarlewski

Bedbrook

一个

帕帕多普洛斯

Freitas

一个

Haahtela

为由

丰

晶澳

Bousquet

使用谷歌趋势预测普通感冒哮喘住院:信息流行病学研究

J医疗互联网服务 2021 07 06 23 7 e27044

10.2196/27044

34255692

v23i7e27044

PMC8292933

Sousa-Pinto

为由

谢赫。

一个

de Lusignan

年代

Haahtela

丰

晶澳

Bousquet

英格兰哮喘和变应性鼻炎的流行病学监测和谷歌趋势数据的比较

过敏 2022 77 2 675 678

10.1111 / all.15139

34665881

方

牧羊人

助教

史密斯

他

研究新加坡慢性阻塞性肺疾病在线健康信息搜索行为的趋势:来自谷歌趋势和全球疾病负担研究的数据分析

J医疗互联网服务 2021 10 18 23 10 e19307

10.2196/19307

34661539

v23i10e19307

PMC8561404

Seifter

一个

黑森林

一个

盖斯

Aucott

“谷歌趋势”在流行病学研究中的应用:以莱姆病为例

Geospat健康 2010 05 4 2 135 7

10.4081 / gh.2010.195

20503183

Carneiro

哈

Mylonakis

谷歌趋势:实时监测疾病爆发的基于网络的工具

临床感染病 2009 11 15 49 10 1557 64

10.1086/630200

19845471

元

黄

王

刘

姜

杨

交流

使用谷歌趋势预测美国诺瓦克病毒:信息流行病学研究

J医疗互联网服务 2021 09 29 23 9 e24554

10.2196/24554

34586079

v23i9e24554

PMC8515228

Kardeş

年代

Erdem那样预言正发党胜利

一个

Gurdal

COVID-19大流行期间公众对肌肉骨骼症状和疾病的兴趣:信息流行病学研究

Z Rheumatol 2021 03 29 1 5

10.1007 / s00393 - 021 - 00989 - 2

33779835

10.1007 / s00393 - 021 - 00989 - 2

PMC8006118

Ayyoubzadeh

Zahedi

艾哈迈迪

米

R Niakan Kalhori

年代

通过分析伊朗谷歌Trends数据预测COVID-19发病率:数据挖掘和深度学习试点研究

JMIR公共卫生监测 2020 04 14 6 2 e18828

10.2196/18828

32234709

v6i2e18828

一个

罗素

Mihalcea

培根

霍夫曼

年代

Resnicow

与COVID-19疫苗相关的在线搜索行为:信息流行病学研究

JMIR Infodemiology 2021 11 12 1 1 e32127

10.2196/32127

34841200

v1i1e32127

PMC8601025

Sousa-Pinto

为由

一个

Czarlewski

为由

丰

晶澳

Bousquet

评估媒体报道对covid -19相关谷歌趋势数据的影响:信息流行病学研究

J医疗互联网服务 2020 08 10 22 8 e19611

10.2196/19611

32530816

v22i8e19611

PMC7423386

赵

年代

孙

乔

兆瓦

胫骨

年代

李

Ryoo

金

王寅

搜索引擎优化

韩国国家流感监测数据与谷歌趋势的相关性

《公共科学图书馆•综合》 2013 8 12 e81422

10.1371 / journal.pone.0081422

24339927

玉米饼- d - 13 - 24884

PMC3855287

张

Bambrick

Mengersen

通

年代

胡

利用谷歌趋势和环境温度预测季节性流感爆发

环境Int 2018 08 117 284 291

10.1016 / j.envint.2018.05.016

29778013

s0160 - 4120 (18) 30077 - 1

20.

萨马拉斯

Garcia-Barriocanal

西西里岛

米

使用网络数据的综合征监测模型:使用谷歌趋势的希腊和意大利流感病例

JMIR公共卫生监测 2017 11 20. 3. 4 e90

10.2196 / publichealth.8015

29158208

v3i4e90

激光冲

肯尼迪

王

Vespignani

一个

大数据。流感的寓言:大数据分析中的陷阱

科学 2014 03 14 343 6176 1203 5

10.1126 / science.1248506

24626916

343/6176/1203

奥尔森

博士

Konty

Paladini

米

Viboud

西蒙森

重新评估谷歌流感趋势数据以检测季节性和大流行性流感:三个地理尺度的比较流行病学研究

PLoS计算生物学 2013 9 10 e1003256

10.1371 / journal.pcbi.1003256

24146603

pcompbiol - d - 13 - 00957

PMC3798275

Cervellin

Comelli

我

里皮

谷歌Trends是数字流行病学的可靠工具吗?来自不同临床环境的见解

J流行病Glob健康 2017 09 7 3. 185 189

10.1016 / j.jegh.2017.06.001

28756828

s2210 - 6006 (17) 30109 - 0

康

米

钟

他

卢瑟福

年代

杨

利用谷歌趋势进行华南地区流感监测

《公共科学图书馆•综合》 2013 8 1 e55205

10.1371 / journal.pone.0055205

23372837

玉米饼- d - 12 - 26520

PMC3555864

流感和COVID-19的异同

疾病控制和预防中心 2021-12-29

https://www.cdc.gov/flu/symptoms/flu-vs-covid19.htm

Lipsitch说道

米

Viboud

流行性感冒的季节性:驱散迷雾

美国国立自然科学研究院 2009 03 10 106 10 3645 6

10.1073 / pnas.0900933106

19276125

106/10/3645

PMC2656132

Sousa-Pinto

Heffler

为由

一个

Czarlewski

Bedbrook

一个

Gemicioglu

Canonica

吉瓦

为由

丰

晶澳

Bousquet

反常哮喘和慢性阻塞性肺病谷歌COVID-19大流行期间的趋势模式

临床Transl过敏 2020 11 02 10 1 47

10.1186 / s13601 - 020 - 00352 - 9

33292529

10.1186 / s13601 - 020 - 00352 - 9

PMC7604916

CDC FluView每周报告国家、地区和州/管辖区门诊疾病和病毒监测应用快速参考指南

疾病控制和预防中心 2021-05-12

https://gis.cdc.gov/grasp/fluview/FluViewPhase2QuickReferenceGuide.pdf

美国管理医疗杂志

2020年COVID-19发展时间表 2021-10-08

https://www.ajmc.com/view/a-timeline-of-covid19-developments-in-2020

30.

李

王

奈尔

人类季节性冠状病毒的全球季节性:严重急性呼吸综合征冠状病毒大流行后流行季节的线索2?

J感染病 2020 09 01 222 7 1090 1097

10.1093 / infdis / jiaa436

32691843

5874220

PMC7454715

小君

年代

柳

崔

年代

10年的研究变化使用谷歌趋势:从大数据利用和应用的角度

技术预测社会变化 2018 69 87

10.1016 / j.techfore.2017.11.009

陆

Hattab

兆瓦

克莱门特

带给

米

Santillana

米

利用基于互联网的数据和网络方法改进了美国州级流感临近预报

Nat Commun 2019 12 11 10 1 147

10.1038 / s41467 - 018 - 08082 - 0

30635558

10.1038 / s41467 - 018 - 08082 - 0

PMC6329822

价格

护城河

海关

使用谷歌搜索的流感爆发自适应临近预测

社会开放科学 2014 10 1 2 140095

10.1098 / rsos.140095

26064532

rsos140095

PMC4448892

Kandula

年代

裴

年代

萨满

使用谷歌搜索趋势改进流感相关住院率的预测

J R Soc接口 2019 06 28 16 155 20190080

10.1098 / rsif.2019.0080

31185818

PMC6597779

Kandula

年代

萨满

重新评估谷歌流感趋势的效用

PLoS计算生物学 2019 08 15 8 e1007258

10.1371 / journal.pcbi.1007258

31374088

pcompbiol - d - 18 - 01838

PMC6693776

冯

张

王

问

谢

彭

郑

秦

张

米

赖

年代

王

冯

李

高

女朋友

中国和美国COVID-19疫情暴发和干预措施对流感的影响

Nat Commun 2021 05 31 12 1 3249

10.1038 / s41467 - 021 - 23440 - 1

34059675

10.1038 / s41467 - 021 - 23440 - 1

PMC8167168

lampo

米勒

交流

Crossan

年代

Stefansen

利用搜索查询日志预测流感样发病率的进展

Sci代表 2015 08 03 5 12760

10.1038 / srep12760

26234783

srep12760

PMC4522652