JMIR公共卫生和监测-解释美国各地COVID-19死亡的不同模式:2阶段时间序列聚类框架

原始论文

¹美国迈阿密大学，牛津，OH, Farmer商学院

²美国密苏里州圣路易斯圣路易斯大学公共卫生和社会正义学院流行病学和生物统计系

通讯作者:

Steven E Rigdon博士

流行病学与生物统计学系“，

公共卫生和社会正义学院

圣路易斯大学

拉斐特大街3545号

密苏里州圣路易斯，63104

美国

电话:1 3149772781

电子邮件:steve.rigdon@slu.edu

背景:在大流行期间，社会弱势群体出现不良健康后果的风险增加。虽然已经在H1N1、中东呼吸综合征(MERS)和COVID-19暴发中建立了这种关联，但对影响不同社区暴发模式的因素的了解仍然有限。

摘要目的:我们的3个目标是确定美国3108个相邻县的COVID-19死亡人数有多少个不同的时间序列聚类，这些聚类在地理上是如何分布的，以及哪些因素影响聚类成员的概率。

方法:我们提出了一个两阶段的数据分析框架，该框架可以解释大流行结果和社区级预测因子的不同级别的时间聚合。具体来说，我们使用时间序列聚类来确定3108个美国连续县具有相似结果模式的聚类。多元逻辑回归用于解释社区水平预测因子与聚类分配之间的关系。我们分析了2020年3月1日星期日至2021年2月27日星期六的县级COVID-19确诊死亡病例。

结果:在美国相邻的县观察到四种不同的死亡模式。多项回归模型对1904年(61.25%)县暴发类型/聚类进行了正确分类。

结论:我们的结果证明，县级COVID-19死亡模式是不同的，部分可以用社会和政治预测因素来解释。

JMIR公共卫生监测2022;8(7):e32164

doi: 10.2196/32164

关键字

说明建模；多项式回归； SARS-CoV-2；新型冠状病毒肺炎；社会经济分析；时间序列分析

美国是一个地理、政治和社会经济多元化的国家，由50个州组成，其中48个州相邻。在考虑美国不同地区的COVID-19大流行时，出现了不同的结果模式。基于从开源COVID-19数据中心获得的数据[1]，图1显示了2020年3月1日(周日)至2021年2月27日(周六)期间8个示范县的全国7天移动平均死亡人数，以及出现的各种模式。例如，纽约州纽约市经历了第一波大量死亡，随后在研究的剩余时间内死亡人数相对较低。新泽西州附近的海洋县是新泽西州海岸附近的一个人口稠密的县，出现了第一波大规模死亡，随后是2020年底开始的第二波死亡。相比之下，俄亥俄州的巴特勒县，一个人口稠密的中西部县，直到研究后期的死亡人数都很低。这些模式都没有模仿美国总死亡人数的整体模式。

在COVID-19大流行早期，美国各地区的县级人口死亡率和病死率存在显著差异[2］．对与COVID-19相关的健康结果的区域差异的解释可能是政府的结构和美国内部的政策制定，因为它涉及到人口的社会脆弱性。在美国，每个州由县政府组成，县政府为当地社区制定卫生和经济政策。各州内的县在人口规模、人口统计、医疗保健、住房和交通方面各不相同。一些人指出，在COVID-19政策、合规和后续结果方面的区域差异可能是由于区域间的政治差异。高德威策等[3.]显示，与倾向民主党的县相比，倾向共和党的县保持的距离更少，随后COVID-19病例和死亡人数也有所增加。另一项研究显示，民主党州长执行“居家令”的可能性要高出50%。4]，这与增加身体距离和减少COVID-19病例和死亡有关[5］．

在这里，我们调查了COVID-19死亡的区域格局。Megahed等人的COVID-19确诊病例说明了美国国内不同国家和地区模式的现象[6］．此外，一份报告由金融时报》［7]认为，“在世界各地，公共卫生数据都是在非常地方的层面上收集的，然后才汇总成区域和国家数据....虽然作为总结有用，但地方差异却被忽略了，造成了一种整个国家都受到统一影响的误导性形象。”在这项研究中，我们调查了美国3108个相邻县的COVID-19死亡的各种模式。我们还试图确定哪些因素与死亡模式有关。具体来说，我们提出了3个问题:

美国有多少不同的县在COVID-19死亡人数方面表现出类似的时间序列模式?
这些集群在美国的地理分布如何?
某些地理、政治、政府和社会脆弱性变量是否与COVID-19相关死亡模式相关?

为了解决第一个问题，我们对美国3108个县的时间序列进行了聚类分析。我们提供了地图来显示集群的地理分布。为了解决第三个问题，我们使用地理、政治和社会脆弱性数据进行多项逻辑回归分析，以解释COVID-19随时间的死亡模式。

本研究分为3个阶段:(1)数据收集与预处理，(2)时间序列聚类，(3)建模与聚类验证。

数据

开源COVID-19数据中心[1]用于提取2020年3月1日(周日)至2021年2月27日(周六)与COVID-19确诊死亡相关的县级时间序列数据。数据来自美国48个相邻州的3108个县，且完全匿名。该数据集用于按县计算与COVID-19相关的每日确诊死亡人数，包含用于时间序列聚类分析的唯一数据。

为了建立描述集群的解释模型，收集了以下额外变量:地区、州长的党派关系、政府的反应。疾病控制和预防中心(CDC)的社会脆弱性指数(SVI)，以及人口密度。

地区

疾病预防控制中心制定十区慢性疾病预防及促进健康架构[8］．图2显示我们的解释模型中使用的10个区域。疾病预防控制中心的国家慢性疾病预防和健康促进中心(NCCDPHP)开发了这些区域，以促进慢性疾病预防技术援助和交流的一致性[8］．

州长所属党派

确定了大流行开始时(2020年3月)美国各州州长(在美国48个相邻州内)的政党归属。由于哥伦比亚特区没有州长，所以使用了市长所属政党(民主党)。州长的党派关系被利用，因为这会影响在大流行期间采取的政治行动和政策，通常以州长行政命令的形式[4］．

政府的反应

布拉瓦特尼克政府管理学院(Blavatnik School of government)的整体政府反应指数(美国各州)[9]已于2021年3月16日下载。该指数考虑了遏制和关闭指标，如学校和工作场所关闭;经济对策，如收入支助和债务减免;以及卫生系统，如检测政策、接触者追踪和疫苗投资。政府反应指数越高，表明政府应对疫情的力度越强。这一指标在研究期间不断变化。为了获取研究期间大部分时间的指数，我们使用研究期间的中位数对指数进行了汇总。用于计算指数的方法细节可在牛津大学COVID-19追踪器Github上找到[10］．

社会脆弱性指数

疾控中心的SVI由疾控中心毒物和疾病登记处的地理空间研究、分析和服务计划计算[11］．SVI根据美国人口普查数据提供了美国每个县的相对脆弱性，并根据15个社会因素进行排名，包括失业、少数族裔地位和残疾。请注意，CDC的SVI数据返回了3107个县的结果，没有新墨西哥州Arriba县的数据，因此该县被排除在我们的解释分析之外。SVI数据分为以下4个主题:

SVI主题1:社会经济
SVI主题2:家庭组成和残疾
SVI主题3:少数民族地位和语言
SVI主题4:住房和交通

我们的研究包括了4个SVI主题。为了构建每个主题的SVI，计算了各个县中每个变量的百分位排名。这些信息在主题中进行了汇总，然后在每个领域中进行了排名。SVIs取值范围为0 ~ 1，某一主题的SVIs值越高，说明该主题的社会脆弱性水平越高。有关SVI的更多细节，请参见Flanagan等人[12］．

人口密度

每个县的人口密度是根据土地面积(以平方英里为单位)和2014-2018年美国社区调查(ACS)对每个县的人口估计计算得出的。土地面积和人口估计变量均来自CDC的SVI 2018数据集[11］．由于该变量的右偏性，在分析中使用了人口密度的自然对数。

时间序列聚类

时间序列聚类分析仅基于各县与COVID-19相关的每日确诊死亡人数。目标是将县划分为显示相似时间序列模式的组(集群)。有3个重要的决策会影响聚类解决方案:(1)数据的缩放，(2)聚类之间距离的度量，以及(3)聚类算法。廖(13给出了时间序列聚类方法的概述。

在这项研究中，各县与COVID-19相关的每日确认死亡人数使用7天移动平均值进行平滑，以考虑报告造成的每周模式。此外，对7天移动平均线进行了重新缩放，使所有值都落在0到1之间，以关注死亡的进展模式，而不是死亡数量的大小。每个县的死亡人数取决于许多因素，如县大小、人口密度和地区。时间t时县i的7天移动平均值为

在哪里MA7_我,不县与COVID-19有关的死亡人数的7天移动平均值是多少我在时间t．分母中的最大值一直被占用，0≤t≤t．公式(1)中的外部最大函数用于解释某些日子死亡人数为负时发生的报告调整。

举例来说，假设那个县我仅在第7、8和9天记录死亡，当时分别发生了7、21和14例死亡。其他所有日子都没有死亡记录。为清楚起见，此死亡人数序列，7天移动平均线的计算(MA7_我,不)，以及按比例计算的移动平均()的资料，载于表1．

这种对7天移动平均值进行缩放的方法确保我们评估了每个县在不同时间内的死亡情况。

度量时间序列之间距离的指标有很多，包括欧几里得距离、动态时间翘曲[14]和Pearson相关系数。弹性度量，例如动态时间翘曲，通常用于时间序列聚类[13因为它是对齐的扭曲时间序列，使它们之间的距离最小化。诸如此类的弹性措施并没有以有意义的方式保留疫情爆发和死亡的时间。为此，我们使用欧几里得距离来测量时间序列簇之间的距离。在我们的例子中，两条死亡曲线长度之间的欧氏距离T是

对于时间序列聚类，已经提出了许多聚类算法[13，15］．我们使用k-means此分析的聚类。一种基于启发式的聚类方法，k-均值聚类分区n对象进k≤n互斥集群，每个集群由集群中位置最集中的对象表示。一个限制是k-均值聚类方法是必须预先确定聚类的数量，以便获得解。在探索性研究中，对多个规模的集群解决方案进行评估是常见的做法k并选择最好的基于聚类有效性或同质性的度量[16］．R包NbClust［17]可用于计算多种规模集群解决方案的多达30个集群有效性指数，k．这种方法提供了一种系统的、数据驱动的方法，用于在数据集中选择最优的聚类数量，而无需利用单一的有效性度量。在这个分析中，k-means聚类用于寻找聚类解和NBClust包用于确定保留的最佳集群数量。

表1。按比例计算7天移动平均线的例子(

）.

时间	1	2	3.	4	5	6	7	8	9	10	11	12	13	14	15	16	17
死亡	0	0	0	0	0	0	7	21	14	0	0	0	0	0	0	0	0
MA7_我,不	N/A^一个	N/A	N/A	N/A	N/A	N/A	1	4	6	6	6	6	6	5	2	0	0
	N/A	N/A	N/A	N/A	N/A	N/A	1/6	4/6	1	1	1	1	1	5/6	2/6	0	0

^一个N/A:不适用。

说明建模

之前描述的时间序列聚类方法导致了时间序列轮廓的互斥聚类，其中包含与COVID-19相关的每日死亡人数模式相似的县。为进一步验证聚类解决方案并解释各县每日死亡进展的差异，采用多项回归分析[18]使用数据部分描述的解释变量拟合。的multinom函数从R包nnet［19]用于分析。

模型的性能是根据有意义地解释模型系数的能力和通过评估样本内分类性能来评估的。具体而言，将模型预测的聚类与每个县的时间序列聚类解确定的聚类进行比较。样本内分类性能通过敏感性、特异性和平衡准确度来衡量:

灵敏度= TP/(TP + FN)，

其中TP和FN分别为真阳性预测数和假阴性预测数，

特异性= TN/(TN + FP)，

其中TN和FP分别为真阴性预测数和假阳性预测数，

平衡准确度=(敏感性+特异性)/2。

不同簇数

为了解决我们关于不同聚类数量的第一个研究问题，我们对COVID-19所致每日死亡人数的7天移动平均值进行了时间序列聚类分析。图3显示了在研究期间，美国随机选择的9个连片县因COVID-19而导致的每日死亡人数的缩放时间序列。我们评估2≤k≤51个时间序列聚类解，使用23个聚类有效性指标[17］．23个效度指标中，7个(30.4%)倾向于4-聚类方案。第二个最受欢迎的集群解决方案是2集群解决方案，23个指标中有6个(26.1%)首选。使用有效性指数的多数规则，我们保留了一个4类的解决方案。

图4显示了4集群解决方案在美国的地理分布。C1集群主要集中在中西部上部和山区各州，以及俄亥俄州、肯塔基州中部、弗吉尼亚州和缅因州。C2集群位于美国东北部沿海和一些较大的城市，如芝加哥、底特律、西雅图和新奥尔良。C3星团分布在美国大部分地区，尤其是密苏里州、伊利诺伊州和五大湖周围的州。C4星团分布在美国各地，但集中在加利福尼亚州、德克萨斯州东部、西南部和东南部。有关此地图的交互式彩色版本，请参阅Megahed et al的第3.3.3节[20.］．

图5这是25个^th, 50^th，和75^th每个聚类内县的时间序列概况的百分位数，并提供对聚类模式形状的深入了解。从图5，很明显，在整个研究期间，C1集群的县因COVID-19死亡人数较低。聚集在C2的县从2020年4月开始出现早期死亡人数，但死亡人数在初夏逐渐减少。在整个夏末和初秋，这些县的死亡人数保持在较低水平，直到2020年11月再次上升。在C3，直到2020年10月，这些县的COVID-19死亡人数很少，但死亡人数迅速上升。C3的死亡人数从2020年12月开始下降，一直持续到2021年3月。第四个类集C4显示，夏末死亡人数小幅增加，随后整个秋季稳步上升，并在2021年初达到更高的峰值。

图5。一个汇总图，其中每个聚类的中位数缩放时间序列轮廓用粗体线表示。第一和第三四分位数分别用虚线和2虚线表示。

集群的解释

为了解决与covid -19相关死亡模式有关的因素的第二个研究问题，我们使用解释性多项回归分析来验证我们的聚类解决方案。表2提供每个聚类的解释性研究变量的摘要。

表3给出了多项logistic回归分析的相关系数。因变量为聚类。分析的基线类别是C1，即与COVID-19相关死亡人数较少的县的聚类。系数显示了在相应集群(如C2、C3或C4)中分类的县的优势比(OR)与基线集群(C1)的自然对数线性变化。从表3，很明显，一些地理、政治、政府和社会脆弱性变量与covid -19相关死亡的模式相关。

表2。预测变量如何在每簇中分布的摘要。对于每个数值变量，我们报告平均值(SD)。对于分类变量，我们报告了每个子类别在4个聚类中的分布。由于舍入误差，子类别百分比的行和可能与100%略有偏差。

变量		C1 (N = 1261)		C2 (N = 226)		C3 (N = 827)		C4^一个(N = 794)
连续变量，均值(SD)
	主题1:社会经济	0.48 (0.30)	0.44 (0.31)		0.45 (0.27)		0.61 (0.26)
	主题2:家庭组成和残疾	0.50 (0.28)	0.37 (0.31)		0.49 (0.28)		0.56 (0.29)
	主题三:少数民族地位和语言	0.41 (0.28)	0.71 (0.22)		0.43 (0.27)		0.65 (0.24)
	主题4:住房和交通	0.42 (0.29)	0.60 (0.28)		0.49 (0.26)		0.60 (0.27)
	日志(人口密度)	3.01 (1.71)	5.86 (1.81)		3.73 (1.31)		4.60 (1.29)
	政府反应指数中位数	47.09 (8.45)	52.87 (9.13)		47.24 (8.25)		48.13 (7.65)
分类变量，n (%)
	州长政党(民主党)	579 (45.9)	142 (62.8)		428 (51.8)		202 (25.4)
	州长党(共和党)	682 (54.1)	84 (37.2)		399 (48.2)		591 (74.4)
	一个地区	41 (3.3)	43 (19.0)		21日(2.5)		24 (3.0)
	地区B	131 (10.4)	63 (27.9)		62 (7.5)		48 (6.0)
	地区C	101 (8.0)	19日(8.4)		13 (1.6)		239 (30.1)
	区域D	140 (11.1)	20 (8.8)		51 (6.2)		153 (19.3)
	地区E	188 (14.9)	30 (13.3)		283 (34.2)		23日(2.9)
	地区F	154 (12.2)	31 (13.7)		116 (14.0)		201 (25.3)
	地区G	236 (18.7)	7 (3.1)		144 (17.4)		25 (3.1)
	地区H	187 (14.8)	7 (3.1)		88 (10.6)		9 (1.1)
	地区的我	22日(1.7)	1 (0.4)		14 (1.7)		53 (6.7)
	地区J	61 (4.8)	5 (2.2)		35 (4.2)		18 (2.3)

^一个里约热内卢基于时间序列聚类分配给C4的新墨西哥州Arriba县没有使用多项逻辑回归建模，因为我们无法获得其预测变量的值。因此，报告的C4的平均值(SDs)和n(%)不包括该县。

表3。C2、C3和C4聚类的多项逻辑回归结果。我们使用C1作为参考聚类，因为它包含了最多的县。

变量	C2		C3			C4
	β(SE)	或^一个(95%置信区间)	β(SE)	或(95% ci)	β(SE)		或(95% ci)
主题1:社会经济	0.419 (0.592)	1.52 (0.48 - -4.85)	-0.356 (0.286)	0.70 (0.40 - -1.23)	-0.018 (0.376)		0.98 (0.47 - -2.05)
主题2:家庭组成和残疾	-0.245 (0.432)	0.78 (0.34 - -1.83)	0.392 (0.223)	1.48 (0.96 - -2.29)	0.638 (0.267)		1.89 (1.12 - -3.19)
主题三:少数民族地位和语言	3.661 (0.469)	38.90 (15.51 - -97.54)	0.004 (0.222)	1.00 (0.65 - -1.55)	1.162 (0.268)		3.20 (1.89 - -5.40)
主题4:住房和交通	0.557 (0.428)	1.75 (0.75 - -4.04)	1.086 (0.227)	2.96 (1.90 - -4.62)	0.599 (0.270)		1.82 (1.07 - -3.09)
日志(人口密度)	1.009 (0.078)	2.74 (2.35 - -3.20)	0.417 (0.043)	1.52 (1.39 - -1.65)	0.959 (0.057)		2.61 (2.33 - -2.92)
州长党(共和党)	-0.101 (0.233)	0.90 (0.57 - -1.43)	-0.323 (0.122)	0.72 (0.57 - -0.92)	1.093 (0.173)		2.98 (2.13 - -4.19)
地区B	-1.879 (0.464)	0.15 (0.06 - -0.38)	-0.509 (0.354)	0.60 (0.30 - -1.20)	-1.108 (0.395)		0.33 (0.15 - -0.72)
地区C	-2.621 (0.496)	0.07 (0.03 - -0.19)	-1.673 (0.437)	0.19 (0.08 - -0.44)	0.502 (0.376)		1.65 (0.79 - -3.45)
区域D	-1.717 (0.537)	0.18 (0.06 - -0.51)	-0.574 (0.369)	0.56 (0.27 - -1.16)	0.242 (0.401)		1.27 (0.58 - -2.80)
地区E	-1.941 (0.461)	0.14 (0.06 - -0.35)	0.884 (0.324)	2.42 (1.28 - -4.57)	-1.925 (0.403)		0.15 (0.07 - -0.32)
地区F	-1.520 (0.522)	0.22 (0.08 - -0.61)	0.629 (0.367)	1.88 (0.91 - -3.85)	0.814 (0.444)		2.26 (0.95 - -5.39)
地区G	-2.886 (0.647)	0.06 (0.02 - -0.20)	0.363 (0.361)	1.44 (0.71 - -2.92)	-1.536 (0.444)		0.22 (0.09 - -0.51)
地区H	-2.221 (0.681)	0.11 (0.03 - -0.41)	0.374 (0.396)	1.45 (0.67 - -3.16)	-1.329 (0.570)		0.26 (0.09 - -0.81)
地区的我	-3.509 (1.117)	0.03 (0.00 - -0.27)	0.657 (0.479)	1.93 (0.75 - -4.93)	2.139 (0.476)		8.49 (3.34 - -21.58)
地区J	-2.527 (0.666)	0.08 (0.02 - -0.29)	0.228 (0.396)	1.26 (0.58 - -2.73)	-0.213 (0.480)		0.81 (0.32 - -2.07)
政府的反应	-0.028 (0.018)	0.97 (0.94 - -1.01)	-0.030 (0.009)	0.97 (0.95 - -0.99)	-0.020 (0.012)		0.98 (0.96 - -1.00)
常数	-5.171 (1.292)	0.01 (0.00 - -0.07)	-1.308 (0.684)	0.35 (0.09 - -1.35)	-5.115 (0.934)		0.01 (0.00 - -0.04)

^一个OR:优势比。

我们发现这些簇可以大致描述如下:

一:在大流行的大部分地区死亡率很低;主要分布在中西部北部和山区
C2: 2020年春季死亡率高，2020年12月/ 2021年1月再次飙升;主要分布在东北和其他大城市
C3:在2020年秋季之前死亡率较低，随后在2020年12月达到峰值;遍布美国，集中在中西部中部和五大湖
C4:从夏末到2020年12月，死亡率稳定，随后在1月达到峰值;分布在美国各地，主要集中在加州、西南部和东南部

“SVI主题3:少数民族地位和语言”与C2和C1的聚类显著相关，OR为38.90。与C1相比，SVI主题3水平较高的县与C2的成员关系密切。所有CDC区域(B-J)均与C2与C1呈显著负相关，表明位于区域a之外(东北部，区域的基线类别)与C2与C1的聚类几率较低相关。这与我们最初在地图上的发现相一致图4，表明C2县主要分布在东北地区。

相对于C1，与C3有最强正相关的变量是“SVI主题4:住房和交通”。种群密度与C3呈显著正相关。州长所在政党与C3呈显著负相关，这表明共和党州长所在州的县，C3聚集的几率比C1低。政府反应也与C3的隶属度呈显著负相关，但影响很小。在各地区中，C地区(北卡罗来纳州、南卡罗来纳州、佐治亚州和佛罗里达州)的系数显著且为负;因此，这些州的县被归类为C3的几率低于C1。相比之下，E地区的系数显著且为正，这表明明尼苏达州、威斯康星州、伊利诺伊州、印第安纳州、密歇根州和俄亥俄州的县与C3聚集的更高几率相关。

“SVI主题1:社会经济”对任何集群C2-C4的成员都不显著;然而，3个SVIs(家庭组成和残疾、少数民族地位和语言、住房和交通)与C4成员关系显著正相关。此外，位于共和党州长所在州的县，相对于C1, C4分类的几率也更高。在CDC区域中，I区(加州、内华达州和亚利桑那州)和F区(新墨西哥州、德克萨斯州、俄克拉荷马州和路易斯安那州)的系数为正。B、E、G、H区均为显著负系数。相对于C1，种群密度的对数也是C2, C3和C4分类的重要预测因子，这表明低种群密度与C1的聚类有关。

总体而言，多项回归模型正确地将3108个县中的1904个(61.25%)划分为4个聚类中的一个。表4给出了按聚类分解的多项式回归模型的样本内预测性能。所有4个聚类的平衡精度相似，范围在0.63到0.80之间。从敏感性和专一性可以看到更细致入微的表现。该模型在正确地将县分类为C4类(敏感性=0.74)方面表现良好，这表明从2020年夏末开始持续出现死亡。该模型在分类C1类县(敏感性=0.71)、死亡人数较少的县方面也表现良好。然而，它仅具有中等能力将县正确划分为C2和C3聚类(灵敏度分别为0.42和0.39)。注意，聚类C2和C3的灵敏度性能超过了在平衡或不平衡多类分类问题中从4个类之间随机分配获得的预期灵敏度0.25(见Megahed等人[21]以了解更多资料)。在特异性方面，该模型在识别哪些县不属于C1-C4集群方面表现良好，特异性值为0.71至0.98。图6展示了多项logistic模型在预测聚类隶属度时的精度分布。从模型中正确预测的县用浅色表示，而预测错误的县用深色表示。该模型提供了对美国各地模式的一些见解，但需要更多数据才能根据COVID-19的死亡率模式更准确地对县进行分类。有关此地图的互动版本，请参阅Megahed et al的第4.2.4节[20.］．

表4。多项式回归模型对每个聚类的预测性能。

集群	平衡精度	灵敏度	特异性
C1	0.71	0.71	0.71
C2	0.70	0.42	0.98
C3	0.63	0.39	0.88
C4	0.80	0.74	0.86

图6。描述时间序列聚类解的多项逻辑模型的预测精度图。浅色的县(标记为“Yes”)被模型正确分类。深色的县(标记为“No”)被错误地分类。里约热内卢新墨西哥州的阿里巴县(白色部分)由于数据缺失而未被分类。

主要研究结果

这项研究为了解美国各地与covid -19相关的死亡模式提供了一个框架。利用与covid -19相关死亡发生的县级数据的时间序列聚类，我们从2020年3月1日至2021年2月27日观察到4种不同的模式。我们分析的第二阶段表明，这些模式可以部分地用地区以及社会和政治预测因素来解释。

我们的发现补充了关于COVID-19结果与弱势人群之间关系的文献[22-24］．在研究期间，美国数量最多的县死亡人数很少(聚类C1)。这些县的社会脆弱性平均处于或低于所有指标的中位数。由于人口密度较低，且分布在美国各地，C1县作为我们的模型基线。

使用COVID-19 R包提取县级COVID-19死亡数据[1]，从GitHub存储库中提取了已确认的死亡[25］．包含多项回归中使用的预测因子的横断面数据集由作者从不同来源编译，可在Megahed [26］．所有数据处理和分析均采用R统计软件4.0.4版本。我们的分析的可重复工作流程可用R Markdown，并托管在Megahed等[20.]，按照Jalali等人的最佳做法[27报告和记录COVID-19的分析。

C3集群(2020年秋季前死亡率较低，2020年12月达到峰值)的县数量第二多。C3县分布在全国大部分地区，但主要集中在五大湖和中西部中部地区。有趣的是，C3很少发生在美国东南部以及从华盛顿特区到马萨诸塞州的东海岸。与C1一样，C3县的SVI指标平均低于中位数。这些县从2020年10月下旬开始经历了一次COVID-19死亡后期浪潮，到研究期结束时下降了。被划分为C3和C1的县之间有一些不同的特征:更高的人口密度，民主党的州领导，东南部以外的位置，五大湖地区的位置，以及SVI住房和交通主题的更高脆弱性。这一指数表明，多单元住房、移动住房、拥挤、缺乏车辆或群体生活状况的发生率较高。

聚集在C2(2020年春季和2020年12月/ 2021年1月的高死亡率)的226个县主要分布在东北部、华盛顿州、路易斯安那州东南部(包括新奥尔良)以及亚利桑那州和新墨西哥州的四角地区。C2县较早爆发死亡，随后于2020年11月开始出现第二波死亡，但2020年夏季死亡人数很少。这些县与SVI少数民族和语言主题有很强的关系，表明很大比例的居民是少数民族或非英语母语者。

C4集群(从夏末开始稳定的死亡率，在1月达到峰值)分布在美国各地，集中在东南部和西南部。C4的县从2020年夏末开始出现稳定的死亡发生率，并持续到整个研究期间。C4县在所有SVI主题上平均高于中位数，4个主题中有3个在C4与C1县的分类中显著。具体而言，与家庭和残疾、少数民族和语言以及住房和交通有关的主题都与这种与covid -19相关的死亡持续模式呈正相关。这些县中的大多数(n=591, 74.4%)位于共和党领导的州。

限制

COVID-19相关死亡的当地模式表明，包括地理、人口和社会脆弱性特征在内的当地因素与COVID-19的不良后果有关。这项研究有几个局限性。其中包括这项研究的观察性质，该研究是在大流行继续出现时进行的。数据的回顾性和二次使用使得不可能从我们的模型推断因果关系。随着地方和国家政府采取新的政策和疫苗来应对新出现的大流行，疫情和不良后果随着时间的推移而发生变化。此外，政府响应指数仅在州一级可用，并且在州内所有县都是恒定的。使用州一级的预测器来解释县一级的集群成员可能会导致生态谬误。

结论

尽管有局限性，但这项探索性研究揭示了对COVID-19大流行最严重后果的新见解。在美国3108个县确定了4种不同的死亡发生率模式，这为大流行严重后果的实现差异提供了证据。美国是一个人口和政治多元化的国家，了解各社区在大流行相关结果方面的差异非常重要。通过研究县级预测因子与4类聚类模式成员之间的关系，我们发现美国各地的死亡模式存在重要的人口统计学、政治和社会经济差异。

致谢

我们的数据采集和计算部分得到了俄亥俄超级计算机中心(Grant PZS1007)的支持。

利益冲突

没有宣布。

Guidotti E, Ardia D. COVID-19数据中心。JOSS 2020 7月;5(51):2376。［CrossRef］
Ahmed R, Williamson M, Hamid MA, Ashraf N.美国县级COVID-19死亡率和病死率因地区和城市状况而异。医疗保健(巴塞尔)2020年9月09日;8(3):330。［CrossRef] [Medline］
Gollwitzer A, Martel C, Brady WJ, Pärnamets P, Freedman IG, Knowles ED，等。在COVID-19大流行期间，保持身体距离方面的党派差异与健康结果有关。2020年11月4日(11):1186-1197。［CrossRef] [Medline］
Baccini L, Brodeur A.解释美国州长对COVID-19大流行的反应。Am Polit Res 2020年12月01日;49(2):215-220。［CrossRef］
Le N, Le A, Brooks J, Khetpal S, Liauw D, Izurieta R，等。政府实施的社会距离措施对世界各地COVID-19发病率和死亡率的影响URL:http://www.who.int/bulletin/online_first/20-262659.pdf[2022-06-07]访问
Megahed F, Allison JL, Rigdon S.按县对COVID-19病例进行回顾性聚类分析。bioRxiv预印本于2020年11月12日在线发布。［CrossRef］
Covid-19:数据中的全球危机。URL:https://ig.ft.com/coronavirus-global-data/[2022-06-07]访问
疾病控制和预防中心。国家慢性病预防和地区健康促进中心。URL:https://www.cdc.gov/coordinatedchronic/docs/nccdphp-regions-map.pdf[2022-06-07]访问
李文杰，刘文杰，李文杰，等。美国各州对COVID-19的反应差异。BSG工作文件系列。URL:https://www.bsg.ox.ac.uk/sites/default/files/2020-08/BSG-WP-2020-034.pdf[2022-06-07]访问
牛津COVID-19政府跟踪方法。URL:https://github.com/OxCGRT/covid-policy-tracker/blob/master/documentation/index_methodology.md[2022-06-07]访问
有毒物质和疾病登记署。美国疾病控制与预防中心社会脆弱性指数。URL:https://www.atsdr.cdc.gov/placeandhealth/svi/index.html[2022-06-07]访问
傅志强，张志强，张志强。灾害管理的社会脆弱性指数。URL:https://www.degruyter.com/document/doi/10.2202/1547-7355.1792/html[2022-06-07]访问
时间序列数据的聚类——一项调查。模式识别2005 Nov;38(11):1857-1874。［CrossRef］
Bellman R.自适应控制过程:导览，普林斯顿遗产图书馆系列第2045卷。普林斯顿，新泽西州:普林斯顿大学出版社;2015.
刘志刚，张志刚，张志刚。时间序列聚类研究进展。Inf Syst 2015 10月;53:16-38。［CrossRef］
Charrad M, Ghazzali N, Boiteau V, nikafs a . NbClust:用于确定数据集中相关簇数的R包。中国统计杂志，2014;36(6):1-36。［CrossRef］
Charrad M, Ghazzali N, Boiteau V, nikafs A.包“NbClust”。URL:https://cran.r-project.org/web/packages/NbClust/NbClust.pdf[2022-06-07]访问
Hosmer DW, Lemeshow S, Sturdivant RX。应用逻辑回归，第3版。霍博肯，新泽西州:约翰威利父子;2013.
Ripley B, Venables W. Package ' nnet '。URL:https://cran.r-project.org/web/packages/nnet/nnet.pdf[2022-06-07]访问
Megahed FM, Jones-Farmer A, Rigdon S.一个可重复的GitHub页面，用于按县分析COVID-19死亡人数的两阶段建模框架。URL:https://fmegahed.github.io/covid_deaths.html[2022-06-07]访问
刘建民，李建民，李建民，等。一种四类分类问题的随机和比例猜测灵敏度的数值研究。URL:https://fmegahed.github.io/covid_deaths.html[2022-06-07]访问
Chen JT, Krieger N.揭示了收入、种族/民族和家庭拥挤程度对COVID-19负担的不平等:美国县与邮政编码分析。J公共卫生管理实践2021;27增刊1,COVID-19与公共卫生:回顾，前进:S43-S56。［CrossRef] [Medline］
Stokes AC, Lundberg DJ, Elo IT, Hempstead K, Bor J, Preston SH.美国COVID-19与超额死亡率:县级分析。PLoS Med 2021年5月;18(5):e1003571 [免费全文] [CrossRef] [Medline］
美国COVID-19确诊病例和死亡病例的种族、民族和社会经济差异:截至2020年11月的县级分析Ethn Health 2021年1月26日(1):22-35。［CrossRef] [Medline］
约翰霍普金斯大学系统科学与工程中心(CSSE)的COVID-19数据存储库。URL:https://github.com/CSSEGISandData/COVID-19[2022-06-07]访问
Megahed调频。Covid-19死亡。URL:https://github.com/fmegahed/covid19-deaths/tree/master/Data/Output[2022-06-07]访问
Jalali MS, DiGennaro C, Sridhar D. COVID-19模型透明度评估。《柳叶刀》全球卫生2020年12月;8(12):e1459-e1460 [免费全文] [CrossRef] [Medline］

‎

疾病预防控制中心:疾病控制和预防中心

或者:优势比

SVI:社会脆弱性指数

T·桑切斯编辑，A·马夫拉加尼;提交28.07.21;A Couture, D Snider的同行评审;对作者22.01.22的评论;修订版收到19.02.22;接受26.04.22;发表19.07.22

©Fadel M Megahed, L Allison Jones-Farmer, Yinjiao Ma, Steven E Rigdon。最初发表于JMIR公共卫生与监测(https://publichealth.www.mybigtv.com)， 19.07.2022。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，https://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

解释美国各地COVID-19死亡的不同模式:两阶段时间序列聚类框架