JMIR形成性研究-国家级COVID-19症状搜索和病例数据:使用谷歌趋势和疾病控制和预防中心数据对政治从属关系作为滞后时间预测因子的定量分析

原始论文

Alex Turvy，文学学士，硕士

城市、文化与社区，美国杜兰大学社会学系，新奥尔良，洛杉矶

通讯作者:

Alex Turvy，文学学士，硕士

城市、文化和社区

社会学系

杜兰大学

圣查尔斯大街6823号

新奥尔良，洛杉矶，70118

美国

电话:1 504 865 5231

电子邮件:aturvy@tulane.edu

背景:在美国的每个州，COVID-19大流行的出现，其政策和言论往往与执政党相对应。这些不同的反应引发了广泛的持续讨论，讨论一个国家的政治领导如何不仅影响特定州的COVID-19病例数，而且影响个人对大流行的主观体验。

摘要目的:本研究利用谷歌搜索趋势和疾病控制和预防中心(CDC)每日病例数据中的州级数据，调查COVID-19症状的相对搜索量增加与病例数据相应增加之间的时间关系。我的目的是确定在数据的4个峰值(RQ1)中，滞后时间模式是否存在州一级的差异，以及给定州的政治气候是否与这些差异相关(RQ2)。

方法:使用来自谷歌Trends和CDC的公开数据，利用线性混合建模来解释随机的州级拦截。滞后时间被定义为症状搜索数据的峰值(持续增长后持续下降)与病例数据的相应峰值之间的天数，并为各个州的4个峰值中的每一个手动计算。谷歌提供了一个数据集，跟踪400多个潜在COVID-19症状的相对搜索发生率，其标准化范围为0-100。我使用了疾病预防控制中心对11种最常见的COVID-19症状的定义，并创建了一个用于操作症状搜索的构造变量。为了衡量政治气候，我考虑了2020年特朗普在一个州的普选票数比例，以及控制州长的政党的哑变量，以及衡量联邦国会代表的政党比例控制的连续变量。

结果:总体拟合最强的是一个线性混合模型，该模型将2020年特朗普投票的比例作为感兴趣的预测变量，并包括对日均病例和死亡人数以及人口的控制。由于缺乏模型拟合，其他政治气候变量被丢弃。研究结果表明，各州的滞后时间在统计上存在显著差异，但没有衡量政治气候的单个变量是这些差异的统计显著预测变量。

结论:鉴于在这种政治气候下未来可能会出现大流行，了解政治领导如何影响对公共卫生危机的看法和相应的应对措施是很重要的。虽然这项研究没有完全模拟这种关系，但我相信未来的研究可以建立在我通过使用不同的理论模型、计算滞后时间的方法或地理建模水平来分析所确定的州级差异的基础上。

JMIR Form Res 2022;6(12):e40825

doi: 10.2196/40825

关键字

新型冠状病毒肺炎；搜索趋势；预测；情况下；政治；症状；流感大流行；数据；谷歌；疾病；预防；模型

背景

美国COVID-19病例的发病率在不同的州和时间之间存在很大差异，州级政策和一些回应的言论也存在很大差异。正在进行的调查是关于缓解措施的规定，如佩戴口罩[1，2]，保持社交距离[3.]，以及疫苗[4]影响对这些措施的采用，以及它们与实际病例数之间的关系。现有的一项研究侧重于任务和案例的政治层面[5通过试图了解与应对大流行和授权相关的更广泛的社会力量，但观察和理解导致各州在病例数量和应对大流行方面存在差异的非正式行为和隐性未报告的信念是具有挑战性的。关于为什么个人对大流行的行为反应随着时间的推移会出现如此显著的差异，一直存在着重大的持续辩论，其中许多理论都涉及对政治和行政信息的分析。这项研究通过探索政治从属关系和对大流行的看法的交集，进入了这一对话。搜索流量的增加似乎反映了个人对大流行的担忧，以及寻找正在经历和观察症状的个人的信息。本研究旨在具体分析政治归属对这一动态的影响;人们对公共卫生危险的担忧越来越政治化，而这项研究旨在增加我们的理解的粒度。

传闻和流行媒体都在讨论与COVID-19相关的谷歌搜索趋势可能与向疾病控制和预防中心报告的COVID-19病例数有关[6］．我使用谷歌趋势关于covid -19相关症状的搜索数据以及CDC关于州级病例数的数据，调查了两个问题:

RQ1:在搜索COVID-19症状的峰值和报告的COVID-19病例的峰值之间的滞后时间在州一级是否存在差异?
RQ2:如果这些州级差异确实存在，那么与政治领导力相关的协变量是否会导致州级滞后时间的差异?

我假设，州级政治结果作为一个州选民的主要或集体政治认同的标志，提供了一条途径来调查通过自我认定的群体从属关系的社会行为如何解释与COVID-19相关搜索激增与后来COVID-19确诊病例总数激增之间的时间关系差异。考虑到我们对缓解措施和疫苗接种依从性的差异的了解，以及这意味着更广泛的COVID-19风险信念和症状的自我监测，我预计会发现标志着共和党认同的政治变量与滞后时间的减少有关。这种滞后时间关系可能会让我们深入了解人们对COVID-19的看法:他们是积极主动地观察和管理症状，还是只有在病例开始增加和激增时才开始注意到症状?

文献综述

理论方法

社会认知理论[7的框架学习和行为的社会，注意到有一个相互关系之间的个人，他们的环境，他们的行为，同时强调这三位一体的具体社会性质。也就是说，人们倾向于通过观察环境中其他人的行为以及自己的经验来学习。在这种情况下理解SCT的基本视角是它如何特别关注个人但环境背景化的代理。Abrams和Hogg的社会认同方法[8是一个补充的观点，并补充说，不仅学习和行为是社会性的，而且在社会群体中的知识也会影响人们如何将情感和价值附加到某些行为和环境中。他们还强调作为个人/群体关系的一部分，自己的内群体和外群体的影响。

在健康行为的遵从性方面，研究确定了三个主要因素，这些因素往往会影响个人的遵从性水平:对自己的感知风险，对行为有效性的信念，以及对他人的观察风险。在H1N1流感大流行期间，一项对26项研究的回顾发现，个人对病毒的感知易感性与更遵守所推荐的行为之间始终存在很强的相关性;当感知到感染严重程度增加时，这种影响就会加强，并且在许多国家和文化中都是一致的[9］．感知到的自我风险受到一些因素的影响，例如感知到的个人脆弱性[10]、文化个人主义的程度[11]，恐惧[12，13]，以及愤怒[14］．

对健康行为有效性的信念也受到许多情感和认识论因素的驱动;外行人倾向于为自己的健康行为创造理由，他们不仅从现有的和非现有的来源中获取证据[15]也是他们首选的大众媒体来源[16］．尽管在所有群体中，当他们认为建议主要是道德性的时，这种信念会降低[17，对政府的普遍信任与以复杂且有时违反直觉的方式影响感知风险密切相关[10，17，18］．最后，观察到的对特定他人和更普遍的社区的风险往往会受到普遍的责任感的积极影响[12］．当个人觉得自己对社区负有道德责任时，情况就是如此[19]但在个人层面上也是如此，当个人经历亲密关系的脆弱性时，[20.]从而避免人们认为健康问题被“夸大”了[21］．

在本文中，我没有探讨具体的政治意识形态如何具体地影响合规行为的细节。相反，前几段所述的背景强调了政治身份和交流对个人顺从的影响。从民主党和共和党政客那里，我们经常听到对COVID-19行为的辩解直接涉及这3个因素。这些理由往往围绕着个人道德责任、社区意识的意义以及机构推荐的认识论理由;这些线索都是构建最终驱动行为的信念集的重要组成部分。最近的研究进一步扩展了这些说法，表明政治立场与特定的大流行应对措施有关，不能仅通过这3个因素来解释[5]，强调个人的反应至少有一部分与亲缘性相关的教条有关，或者操作限制和不同的优先事项往往比更客观的风险评估更有特权[22］．

在公共卫生研究中使用搜索数据

一段时间以来，公共卫生专业人员和研究人员一直在广泛讨论搜索数据在检测和监控方面的价值，最初在一篇具有里程碑意义的论文中强调了它的价值，该论文主张使用它，但警告说，它应该主要用于互联网广泛接入的地区[23］．鉴于美国互联网的使用现在在大多数情况下都很频繁和广泛，研究人员已经能够将他们的注意力专门转向它在紧急疾病早期检测中的使用[24］．

也有证据表明，搜索量对持续监测和监视是有效的，无论是主动监测还是预测监测[25]，以及进行被动或回顾性监察，以了解媒体等因素如何影响查册兴趣与个案之间的关系[26］．

搜索数据被用作专门用于理解COVID-19数据的镜头，但这项研究有不同的重点领域:搜索作为当地大都市级数据的预测[27，28]，对心理健康的影响[29]，以及更罕见的症状(嗅觉丧失和年龄丧失)作为病例发病率的无效预测因素[30.］．Eysenbach [31]采取了与我自己的方法类似的方法，但关注的是流感症状和发病率，而不是COVID-19，发现点击赞助的流感相关链接与7天后的流感诊断之间存在很强的相关性。

在使用搜索数据以及其他新数据流(NDS)(如社交媒体帖子)方面存在持续的挑战;尽管有一些证据表明，它们可以帮助追溯性地探索关联并发挥预测能力，但如何评估这些数据的可靠性和有效性仍然存在尚未解决的问题[32］．一些挑战，如缺乏透明度和可重复性[33]可以通过建立公认的最佳实践来解决，例如共享特定的搜索字符串和布尔运算符，但其他问题则与复杂的社会和心理现象有关，例如恐慌导致的搜索量增加，这些问题可能更难解决[34］．鉴于使用NDS(如搜索流量)的既定价值和尚未解决的挑战，谷歌趋势数据的使用应被视为公共卫生研究人员的一种补充工具，与更传统和本地化的做法一起，而不是作为替代品[35］．

本文通过间接使用搜索数据来解决这些方法上的局限性;尽管这意味着其中一些关注点成为建模的内生因素，但只要在滞后时间变量中捕获这些复杂的动态，这是有益的。我没有用搜索趋势数据作为准确的预测或监视工具，而是用它来突出不同地区之间的差异，并探索这些差异的原因。

虽然在流行媒体中有关于以预测的方式使用趋势数据的讨论，并且在技术方法文献中也有一些对此的推动[36]，目前还没有证据表明，搜索数据可用于预测未来的健康趋势[30.]因为不可能获得实时或及时的原始数据。相反，趋势数据对于监测和评估过去事件之间的关系最有用，特别是作为一个较大模型中的预测元素[37，38］．

在这项研究中，我使用了公开的COVID-19搜索趋势数据集，该数据集跟踪了与COVID-19不同程度相关的400多种症状的发生率。通常，谷歌不允许大规模下载细粒度的每日搜索趋势数据，除非使用它们的API。然而，该公司专门为研究人员和记者提供了这些针对covid -19的搜索数据;这些数据既包括日常数据，也包括州级地理数据。该数据集允许谷歌所称的“都市区域”，但不包括可用于通过地理信息系统(GIS)软件将搜索数据与CDC数据匹配的形状文件。像所有谷歌搜索趋势数据一样，它是在0-100的范围内标准化的，在相关的地理和时间范围内进行背景化，并基于特定搜索字符串的发生率与同一地理和时间范围内所有搜索的比例。这项研究使用了2020年3月11日至2022年4月4日期间每个州的每日趋势数据，并于2022年4月15日通过谷歌内部托管的GitHub检索。

研究期的开始是世界卫生组织宣布COVID-19为全球大流行的那天，研究期的结束是谷歌数据集中趋势数据的最后一天;因此，研究期间的总天数为762天。虽然并非每个地区在趋势数据期开始时都出现了第一例病例，但我对搜索量增加和病例增加之间的滞后时间特别感兴趣。鉴于大众媒体已经对COVID-19进行了广泛的讨论，因此这在搜索数据中得到了广泛反映，到2020年3月11日，所有地区的搜索量都在增加，这使我能够检查病例开始增加的州级差异。

美国疾病控制与预防中心每天向公众提供与COVID-19相关的新病例、新住院病例和新死亡病例的详细数据。这些数据适用于县一级，但本研究只使用了州一级的数据，以便将这些变量与州一级的搜索趋势数据一起研究。这些数据是原始数据，但在回归建模中控制了人口，以解释这一点。可能存在与提交物流和其他问题相关的数据缺口;此外，数据中有一定程度的日常噪音，因为各州赶上了前几天错过的提交和正确的提交，但这已经在计算滞后时间作为因变量时仔细检查数据的过程中被考虑在内。

该分析策略使用了一个线性混合模型，对所有包括的预测因素和控制因素具有固定效应，并对每个状态进行随机拦截，以调查研究问题中命名的状态级差异。此外，我还包含了嵌套在状态集群中的政治预测因子的随机效应，认识到SCT如何表明行为以一种持续的互惠方式受到环境的影响——这里，国家及其政治气候被视为环境。

我将关键结果变量称为“滞后时间”，它衡量的是COVID-19症状搜索激增和(通常)随后报告的COVID-19病例相应激增之间的天数。这个变量是使用原始数据和图表作为指导手动计算的。每个州都有4个不同程度的可识别病例高峰。在标记这些数据并考虑数据中的任何噪声或报告空白之后，我转向搜索数据，以确定在病例激增之前是否存在相应的症状搜索高峰。在几乎所有情况下，都有一个相关的峰值，这是用天数来衡量的。

考虑的政治变量包括特朗普在2020年大选中在一个州的普选比例，一个表明共和党人是否担任州长的虚拟变量，以及一个衡量一个州在众议院和参议院的联邦代表中共和党人所占比例的变量。后2个变量在任何情况下都没有导致较强的模型拟合，因此被丢弃，因此特朗普比例变量仍然是该模型中的主要预测变量。模型中还包括对日均病例数、日均死亡人数和州人口的控制。所有预测器和控件都使用了标准化z分数。

在搜索数据中，我确定了疾病预防控制中心报告的11种最常见的COVID-19症状，并创建了一个结构来表示这些搜索词的集体发生率。这些症状包括头痛、鼻塞、鼻漏、发烧、喉咙痛、恶心、嗅觉丧失、衰老、疲劳和腹泻。这种症状构造的Cronbach alpha评分为。812。alpha值大于.8通常表示结构可靠性较高。可靠性分析表明，从结构中删除任何变量都不会改善alpha值。

按状态对每日新病例和死亡数据进行描述性分析，初始双变量线性回归建模，结构可靠性计算，滞后时间计算，混合建模和模型比较都在r中完成。使用的主要包是ludate用于解析日期变量，plotly用于更详细地检查ggplot2结果，lme4和lmerTest用于拟合线性混合模型，sjPlot用于绘制数据以测试模型假设，用于创建表和图形的Stargazer，以及“tidyverse”中的所有包(主要是dplyr和ggplot2)，用于清理、组织和准备用于分析和表示的数据。

对最终模型中包含的所有变量进行描述性统计表1．这些数据是原始数据，但预测因子和控制因子是标准化的，用于分析，以控制许多变量的巨大差异。由于每天的病例和搜索数据量非常大，因此不包括在这个表中。

检验线性混合模型回归的假设，证实预测因子和结果变量之间存在线性关系，残差是独立的、不相关的、正态分布的。残差的同方差残差图在图1．

以2020年特朗普在一个州内的投票比例为主要预测变量，拟合了一个线性混合模型。该变量还嵌套在状态级集群中，以允许其效果在每个状态中有所不同。由于模型拟合统计数据相对较差，使用拟议的州长和国会比例变量的模型被丢弃。丢弃模型的赤池信息准则(AIC)和贝叶斯信息准则(BIC)得分较高，在600 ~ 800分之间，拟合较差。

表1。描述性统计。

状态	情况下的峰值					搜索峰值					特朗普得票率		共和党州长		共和党占国会的比例		人口		日病例数，平均值		日死亡人数，平均
	1	2	3.	4	1		2	3.	4
艾尔	185	349	584	728	157		342	581	707	0.62		1		0.83		5024803		1700.48		25.48
正义与发展党	187	319	612	729	176		273	589	714	0.53		1		0.83		732441		314.21		1.38
阿兹	162	348	585	732	156		342	579	718	0.49		1		0.45		7177986		2639.60		39.21
基于“增大化现实”技术	199	346	576	729	156		342	496	718	0.62		1		0.92		3012232		1092.82		14.46
CA	183	354	589	727	169		344	463	714	0.34		0		0.16		39499738		11713.8		116.06
有限公司	189	297	457	717	181		302	461	708	0.42		0		0.39		5784308		1775.10		15.75
CT	92	317	605	720	52		294	567	707	0.39		0		0．00		3600260		969.89		14.17
德	104	354	598	718	57		322	567	708	0.40		0		0．00		991886		341.14		3.76
FL	172	345	583	718	157		342	567	708	0.51		1		0.58		21569932		7696.68		96.48
遗传算法	185	353	591	713	158		343	579	707	0.49		1		0.61		10725800		3628.51		48.40
嗨	204	287	586	707	174		273	537	701	0.34		0		0．00		1451911		308.27		1.80
ID	176	323	631	729	119		300	592	727	0.64		1		０．７５		1847772		583.05		6.43
伊尔	101	297	444	720	57		293	462	708	0.41		0		0.30		12785245		4045.41		49.53
在	97	317	598	720	57		293	579	708	0.57		1		0.82		6785644		2218.97		30.79
IA	102	297	602	724	92		293	601	714	0.53		1		0.67		3188669		990.51		12.42
KS	One hundred.	307	597	729	89		301	518	714	0.56		0		0.83		2935880		1010.45		11.14
肯塔基州	101	351	590	731	54		344	579	707	0.62		0		0.88		3503958		1532.39		22.52
拉	173	351	590	713	157		342	554	707	0.58		0		0.82		4651203		1532.39		22.52
我	119	352	450	722	107		293	448	707	0.44		0		0.12		1362280		312.94		2.98
医学博士	119	318	613	719	111		317	615	707	0.32		1		0．10		6172679		1334.10		18.86
妈	94	3353	603	720	53		350	567	708	0.32		1		0.05		7022220		2246.86		31.38
心肌梗死	115	294	440	728	111		293	442	708	0.48		0		0.44		10067664		3134.87		39.68
锰	107	298	441	729	105		300	462	714	0.45		0		0.35		5707165		1869.44		16.37
女士	181	353	576	728	157		342	578	707	0.58		1		0.83		2956870		1029.39		14.62
心肌梗死	98	293	560	713	55		259	567	708	0.57		1		0.80		6154481		1841.18		22.75
太	107	298	643	734	57		257	641	719	0.57		1		0.67		1086193		355.38		4.24
不	107	302	603	727	57		301	574	714	0.58		1		0.80		1961455		598.27		4.97
NV	177	352	598	728	169		343	587	714	0.48		0		0.33		3114071		895.19		13.34
NH	101	348	444	728	57		259	400	714	0.45		1		0．00		1377848		399.08		3.23
新泽西	73	354	604	717	57		350	567	707	0.41		0		0.07		9279743		2919.76		41.26
纳米	188	303	569	728	174		302	567	707	0.43		0		0.09		3117566		680.66		9.39
纽约	78	353	605	717	57		350	567	707	0.37		0		0.28		21054933		3541.09		36.21
数控	184	346	590	723	158		342	596	708	0.50		0		0.72		10457177		3452.16		30.48
ND	121	297	440	729	113		295	449	707	0.65		1		0.67		778962		314.86		2.95
哦	89	322	598	725	57		302	595	708	0.53		1		0.71		11790587		3502.58		45.09
好吧	168	343	582	727	158		343	550	718	0.65		1		0.93		3962031		1358.26		17.05
或	180	318	584	728	128		300	567	718	0.40		0		0.14		4241544		927.88		9.70
巴勒斯坦权力机构	79	325	448	718	57		314	462	708	0.49		0		0.50		12989625		3635.72		58.22
国际扶轮	108	317	602	716	106		258	568	709	0.39		0		0．00		1096229		454.25		4.62
SC	181	353	584	732	158		342	587	708	0.55		1		0.83		5130829		1927.38		23.20
SD	109	296	679	729	57		301	576	707	0.62		1		1.00		887099		310.05		3.79
TN	192	330	599	730	158		343	582	707	0.61		1		0.82		6920119		2633.41		30.82
TX	178	350	596	722	158		343	587	707	0.52		1		0.66		29217653		8525.78		113.08
UT	177	398	664	728	126		300	596	714	0.58		1		0.92		3281685		1217.06		6.19
VT	74	436	604	728	57		460	561	715	0.30		1		0．00		642495		144.45		0.78
弗吉尼亚州	125	361	597	720	111		342	601	708	0.44		1		0.31		8632044		2202.54		25.94
佤邦	167	322	561	737	113		301	567	715	0.39		0		０．２５		7718785		1920.45		16.46
西弗吉尼亚州	183	346	612	713	159		265	553	707	0.69		1		0.80		1789798		653.50		8.81
WI	143	297	623	727	111		293	615	707	0.49		0		0.60		5892323		2085.48		18.84
王寅	189	301	589	748	159		301	603	722	0.69		1		1.00		577267		204.82		2.35

模型结果出来了表2；请注意，为预测器和控件显示的刻度是标准化的，但滞后时间仍然以天为单位测量。我使用了50个州的762个观测值来计算4个间隔的滞后时间，这导致了50个州的模型样本，或每个州4次重复测量的分析单位。该模型相对于只有单一预测因子(特朗普比例)、无控制和随机截取状态的零模型有了显著改进。null模型的AIC和BIC得分分别为1776.04和1785.93，而选择模型的得分分别为588.85和618.535，因此在模型拟合方面有显著改善。

然而，在最终模型中，没有一个预测因子具有统计学意义，即使是那些被考虑但被排除在模型之外的预测因子(州长政党和国会代表团政党)，因为总体模型拟合较差。所选模型中唯一显著的自变量是平均日死亡率，它与滞后时间有较小的负相关关系，为P< .10。

模型中的随机元素是个体的州级拦截和嵌套在州内的特朗普比例作为随机效应。有足够的方差(σ²_状态=0.099， σ²_特朗普=0.049)在模型的这个随机部分中，以证明它们的包含。状态簇的随机截取捕获了一部分固定效应残差，从而降低了残差，但模型本身缺乏预测能力。因此，模型的固定效应误差项仍然捕获了数据中相对较高的方差量。作为图2显示，每个效应都有一个正负值范围，但相对较宽的置信区间(95% CI)是该模型预测能力相对较低的另一个人为因素。

表2。线性混合模型结果(因变量为滞后时间，单位为天)。

变量		统计	P价值
特朗普2020选票占比，β (SE)		0.063 (0.091)	报
平均日病例数，β (SE)		0.461 (0.569)	点
平均日死亡人数，β (SE)		-0.670 (0.356)	07
总体，β (SE)		0.168 (0.430)	2
常数，β (SE)		-0.012 (0.076)	多多
整体模型
	观察	200	N/A^一个
	日志的可能性	-285.425	N/A
	赤池信息标准	588.850	N/A
．	贝叶斯信息准则	618.535	N/A

^一个N/A:不适用。

图2。按状态在滞后时间中的随机效应估计(截距和95% CI);红色:消极;蓝色:积极的。

主要研究结果

我已经找到证据来支持对第一个研究问题的肯定答案，但不是第二个。结果表明，与COVID-19相关的搜索流量峰值和COVID-19病例峰值之间的滞后时间存在显著的州级差异。然而，我的假设，即政治协变量将以统计上显著的方式对这种变化的一部分作出贡献，是不支持的。我的研究结果表明，在最终的线性混合模型中包括2020年特朗普选民的比例，会导致一个整体上比只有控制变量的零模型强得多的模型拟合，但这个政治归属变量本身在统计上并不显著，也不适合进行预测推断。

尽管这是一个部分消极的发现，但它对进一步探索环境因素和社会群体力量(包括结构性和人际关系)如何导致对共同社会危机的不同反应提出了挑战。各州之间滞后时间的统计显著差异表明，各州之间存在显著差异，至少在一定程度上导致了这些变化。我提出了我的理论模型与结果之间不匹配的3个潜在原因，也为未来的研究指明了方向:地理建模水平、计算滞后的方法和理论模型不匹配。

地理建模水平

我的方法主要是出于后勤方面的原因，将国家视为地理单位。状态在趋势和案例数据中都是一个容易获得的单位，这意味着可以可靠地匹配它们进行分析。然而，这样做，我失去了在我的政治协变量中获得更多本地化细微差别的机会:即使使用地方城市选举作为政治识别的代理，也可能导致更强的模型拟合和预测能力，但也可能使用更小的块，如人口普查区，将趋势数据映射到已经有狭窄地理标记的CDC病例数据上。然而，谷歌搜索数据由于缺乏GIS形状文件以及缺乏大城市区域以外的城市或区域级数据而受到限制。采用更细粒度地理建模的分析需要重新考虑理论模型，因为它将排除小城市和农村地区的数据。如果这些局部变量包含在一个假设模型中，那么将收入和受教育程度等控制因素也包括在内可能是明智的，假设这些因素适用于有关的人口普查区或地区。在较小的规模上，这些控制可能比在广泛的状态级别上的相同统计数据对模型的贡献更大。

计算滞后的方法

尽管我相信我用来计算滞后的方法是站得住的，但另一种方法可能会揭示这里没有出现的重要关系。佩拉特等[39]在同一领域内提供了一个选项，描述了一种计算搜索量增加与疾病发病率之间的相关性的方法(例如，1周，1个月)。这些相关性被存储起来，并与选定的预测因子一起用于进一步的回归分析。

艾芬伯格等[40]采取了另一种方法，特别是通过时间滞后相关分析来解释滞后。他们没有在纵向分析中计算滞后作为重复测量，而是将多个模型映射为一个网络，检查关联如何在预定义的时间间隔内发生变化。这将需要对研究问题的操作方式进行重大的重新配置，但可能会发现这里没有建立的关系。

理论模型不匹配

简而言之，我提出的理论模型是，根据Bandura的SCT [7]，个体作为不断变化和相互作用的三位一体的一部分，这个三位一体受到个人因素、环境影响和过去行为的约束。作为这个三位一体的一部分，SIA还告诉我们，个体通过给他人分类，赋予这些分类的意义，然后自我分类到这些组中的一个，从而把自己分类到不同的组中。鉴于当前对COVID-19的文化应对和缓解措施的政治化程度，我怀疑，对大流行性质的相互竞争的政治理解和适当的应对措施将成为这些社会进程的一部分。最终，我假设这种动态会影响人们如何管理自己的症状监测和感知风险，这意味着我们会发现搜索发生率和病例发生率之间的滞后时间差异。这里的数据并不支持这个理论模型。

有可能另一个理论模型，用一组不同的预测因子来操作，将产生一个重要的统计模型来解释滞后时间的变化。巴伯与蒲柏[41]通过调查一个人的政党认同如何与他或她的个人政治意识形态相关联来探讨政治认同;在他们的模型中，有一个要素在这里被忽略了，那就是一个政治团体的其他成员的影响力。他们还在特朗普当选的背景下定义了“政党忠诚者”和“政策忠诚者”的概念，这代表了调查这种关系的合适时机，因为意识形态和政党经常出现分歧。正如前面几段所描述的，可以在更本地化的模型中捕获这些概念。

另一个潜在的理论模型部分来自Agadjanian和Lacy [42)，他调查了个人政治领导人如何比政党或意识形态对公众舆论和行为产生更大的影响。这表明，如果我们能够以某种粒度级别捕捉政治领导人的特征和意识形态，就可以将其折叠到拟议的SCT/SIA框架中。例如，在本地化(城市或特定区域)或州级模型下都可以对领导者修辞进行编码(无论是手动还是通过情感分析)。

值得注意的是，我的地理建模方法的一个局限性是，它不允许调查国家级数据是否与地方省级数据可靠相关;未来的研究可以通过一项专门考虑较大城市与其州进行比较的研究来解决这一局限性，甚至可以通过在地铁和州一级的倾向得分匹配来扩展这一研究。此外，由于现有的地理限制，我选择的运作政治身份和从属关系的方式是次优的。通过采取一种允许更多地理粒度的方法，未来的研究还可以为更细粒度的政治变量建模，如人口普查区、市议会代表和市长的投票。

虽然这些差异可能是由结构、人口和地理因素造成的，但我认为，政治归属的影响及其涟漪效应也与各州之间滞后时间的显著差异密切相关。在政治两极化和政治言论机会不断增加的背景下，围绕美国联邦制的法律和规范也在不断变化，这些法律和规范可能会让各州对共同的社会功能拥有更多控制权，因此，了解政治认同和政治交流如何影响一个州居民的身体健康，比以往任何时候都更加重要。

利益冲突

没有宣布。

Lyu W, Wehby GL.社区使用口罩与COVID-19:来自美国州命令自然实验的证据。卫生Aff (Millwood) 2020年8月;39(8):1419-1425 [免费全文] [CrossRef] [Medline］
Fischer, Adrien N, Silguero JJ, Hopper JJ, Chowdhury AI, Werler MM.美国各地的COVID-19口罩依从性和发病率。PLoS One 2021;16(4):e0249891 [免费全文] [CrossRef] [Medline］
Thunström L, Newbold SC, Finnoff D, Ashworth M, Shogren JF。使用社交距离来平COVID-19曲线的好处和代价。J.效益成本分析2020年5月21日;11(2):179-195 [免费全文] [CrossRef］
林c，涂平，Beitsch LM。COVID-19疫苗的信心和可接受性:一项快速系统综述疫苗(巴塞尔)2020年12月30日;9(1):A [免费全文] [CrossRef] [Medline］
Cowan SK, Mark N, Reich JA。COVID-19疫苗犹豫是美国人政治分歧的新领域。社会2021年6月17日;7:237802312110236 [免费全文] [CrossRef］
谷歌搜索可以帮助我们发现新出现的Covid-19疫情。《纽约时报》2020年4月5日URL:https://www.nytimes.com/2020/04/05/opinion/coronavirus-google-searches.html[2022-12-07]访问
思想与行动的社会基础:一个社会认知理论。恩格尔伍德悬崖，新泽西州:普伦蒂斯大厅;1986.
艾布拉姆斯D，何格MA。社会认同理论:建设性和批判性的进展。纽约州纽约:斯普林格出版社;1990.
Bish A, Michie S.大流行期间保护性行为的人口统计学和态度决定因素:综述。中华健康心理杂志2010 11月;15(Pt 4):797-824 [免费全文] [CrossRef] [Medline］
Clark C, Davila A, Regis M, Kraus S. COVID-19自愿合规行为的预测因素:一项国际调查。Glob Transit 2020;2:76-82 [免费全文] [CrossRef] [Medline］
赵浩，李宗杰。自我效能感、主观规范和风险感知对甲型H1N1流感大流行相关行为意向的影响:韩国和美国的比较《亚洲社会心理学杂志》2015年6月17日;18(4):311-324 [免费全文] [CrossRef］
Brouard S, Vasilopoulos P, Becher M.法国遵守COVID-19公共卫生措施的社会人口学和心理相关性。中国石油学报，2020年4月23日;53(2):253-258 [免费全文] [CrossRef］
Harper CA, Satchell LP, Fido D, Latzman RD.功能性恐惧预测COVID-19大流行中的公共卫生遵从性。国际医学杂志健康成瘾2021;19(5):1875-1888 [免费全文] [CrossRef] [Medline］
Lerner JS, Keltner D.恐惧，愤怒和风险。人格与社会心理学杂志2001;81(1):146-159 [免费全文] [CrossRef］
休纳·RS，克莱因·SS:《非专业部门的健康观点:个人如何看待健康的汇编和审查》。卫生(伦敦)2004年10月;8(4):395-422 [免费全文] [CrossRef] [Medline］
贝克MH，梅曼洛杉矶。遵守健康和医疗保健建议的社会行为决定因素。医学护理1975年1月;13(1):10-24。［CrossRef] [Medline］
Nivette A, Ribeaud D, Murray A, Steinhoff A, Bechtiger L, Hepp U，等。瑞士年轻人不遵守与covid -19相关的公共卫生措施:来自纵向队列研究的见解医学社会科学2021年1月;268:113370 [免费全文] [CrossRef] [Medline］
Barari S, Caria S, Davola A, Falco O, Fetzer T, Fiorin S，等。评估意大利COVID-19公共卫生信息:自我报告依从性和日益增长的心理健康担忧。medRxiv。预印本于2020年4月5日在线发布。［免费全文] [CrossRef］
Callahan D, Jennings B.道德与公共卫生:建立牢固的关系。中华卫生杂志2002年2月;92(2):169-176。［CrossRef] [Medline］
鲍姆刑事检察官，雅各布森刑事检察官，戈尔德刑事检察官。“倾听人民的声音”:公众审议大流行期间的社会距离措施。Am J Bioeth 2009 Nov 04;9(11):4-14 [免费全文] [CrossRef] [Medline］
Rubin G, Amlôt R, Page L, Wessely S.与猪流感爆发相关的公众认知、焦虑和行为变化:横断面电话调查。英国医学杂志2009 07月02日;339:b2651 [免费全文] [CrossRef] [Medline］
刘文杰，李文杰，李文杰，等。风险与共和党全国代表大会:新型COVID-19操作风险评估的应用。灾害医学公共卫生预备2022年8月;16(4):1612-1617 [免费全文] [CrossRef] [Medline］
Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.利用搜索引擎查询数据检测流感流行。自然2009 Feb 19;457(7232):1012-1014 [免费全文] [CrossRef] [Medline］
布朗斯坦JS，弗雷菲尔德CC，麦道夫LC。数字化疾病检测——利用网络进行公共卫生监测。N Engl J Med 2009 5月21日;360(21):2153-2157 [免费全文] [CrossRef］
陈勇，彭诺克，李志强，李志强。基于网络搜索的流感监测方法。临床感染病2008 Dec 01;47(11):1443-1448 [免费全文] [CrossRef] [Medline］
Cooper CP, Mallon KP, Leadbetter S, Pollack LA, Peipins LA。癌症互联网搜索活动在一个主要的搜索引擎，美国2001-2003年。中国医学杂志2005年7月1日;7(3):e36 [免费全文] [CrossRef] [Medline］
Jimenez AJ, Estevez-Reboredo RM, Santed MA, Ramos V.西班牙COVID-19症状相关谷歌搜索与当地COVID-19发病率:相关研究。J Med Internet Res 2020 Dec 18;22(12):e23518 [免费全文] [CrossRef] [Medline］
Rabiolo A, Alladio E, Morales E, mcnolet AI, Bandello F, Afifi AA，等。通过将症状搜索行为整合到预测模型中来预测COVID-19流行:信息监视研究J Med Internet Res 2021 Aug 11;23(8):e28876 [免费全文] [CrossRef] [Medline］
Hoerger M, Alonzi S, Perry LM, Voss HM, Easwar S, Gerhart JI。COVID-19大流行对心理健康的影响:使用谷歌Trends进行实时监测。精神创伤2020年9月;12(6):567-568 [免费全文] [CrossRef] [Medline］
阿苏西，菲耶罗F，斯拉沃斯基Y，弗拉斯内利J, Niv MY。使用味觉和嗅觉损失谷歌搜索追踪COVID-19并不是一种可靠的策略。科学通报2020年11月25日;10(1):20527 [免费全文] [CrossRef] [Medline］
信息流行病学:在网上跟踪流感相关搜索以进行症状监测。AMIA年度法律程序2006;2006:244-248 [免费全文] [Medline］
Althouse BM, Scarpino SV, Meyers LA, Ayers JW, Bargsten M, Baumbach J，等。利用新的数据流加强疾病监测:挑战和机遇。EPJ数据科学2015 10月16日;4(1):1 [免费全文] [CrossRef] [Medline］
李丽娟，王淑娟，陈思，等。谷歌趋势在卫生保健研究中的应用:系统回顾。PLoS One 2014 10月22日;9(10):e109583 [免费全文] [CrossRef] [Medline］
陈EH, Sahai V, Conrad C, Brownstein JS。使用网络搜索查询数据监测登革热流行:被忽视热带病监测的新模型。PLoS Negl Trop Dis 2011年5月31日;5(5):e1206 [免费全文] [CrossRef] [Medline］
Olson DR, Konty KJ, Paladini M, Viboud C, Simonsen L.重新评估谷歌流感趋势数据以检测季节性和大流行性流感:三个地理尺度的比较流行病学研究公共科学图书馆计算生物学2013 10月17日;9(10):e1003256 [免费全文] [CrossRef] [Medline］
Jun SP, Yoo HS, Choi S.使用谷歌趋势的十年研究变化:从大数据利用和应用的角度。技术预测与社会变革2018年5月;130:69-87 [免费全文] [CrossRef］
崔海，瓦里安。预测现在谷歌趋势。经济纪录2012;88(S1):2-9 [免费全文] [CrossRef］
马夫拉加尼，奥乔亚。谷歌信息流行病学和信息监测的趋势:方法论框架。JMIR公共卫生监测2019年5月29日;5(2):e13439 [免费全文] [CrossRef] [Medline］
Pelat C, Turbelin C, Bar-Hen A, Flahault A, valeron AJ。使用谷歌Trends跟踪更多疾病。Emerg infection Dis 2009 Aug;15(8):1327-1328 [免费全文] [CrossRef] [Medline］
Effenberger M, Kronbichler A, Shin JI, Mayer G, Tilg H, Perco P. COVID-19大流行与互联网搜索量的关联:谷歌趋势分析。国际传染病杂志;2020年6月2日;免费全文] [CrossRef] [Medline］
理发师M，教皇JC。政党胜过意识形态吗?美国的政党和意识形态。Am Polit science Rev 2018 12月18日;113(1):38-54 [免费全文] [CrossRef］
阿加贾尼安·A，蕾西·d，改变投票，改变身份?2012-2016年美国总统大选中的种族流动与投票转换舆情季刊2021;85(3):737-752 [免费全文] [CrossRef］

‎

另类投资会议:赤池信息标准

BIC:贝叶斯信息准则

疾病预防控制中心:疾病控制和预防中心

地理信息系统:地理信息系统

是因为:新颖的数据流

SCT:社会认知理论

新加坡航空:社会认同法

A Mavragani编辑;提交06.07.22;同行评议:JK Kumar, Y Hu;对作者06.10.22的评论;订正版本收到24.10.22;接受08.11.22;发表23.12.22

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息，https://formative.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

国家级COVID-19症状搜索和病例数据:使用谷歌趋势和疾病控制和预防中心数据对政治从属关系作为滞后时间预测因子的定量分析