这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,https://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
2019年12月,中国武汉市首次发现COVID-19。该病毒迅速传播,并于2020年3月11日被宣布为大流行。感染后,会出现发烧、(干咳)、鼻塞和疲劳等症状。在某些情况下,该病毒会导致严重的并发症,如肺炎和呼吸困难,并可能导致死亡。这种病毒也在荷兰迅速传播,荷兰是一个人口密集、人口老龄化的小国。荷兰的卫生保健水平很高,但医院的能力存在问题,例如可用床位和工作人员的数量。还有一些地区和市政当局受到的打击比其他地区更严重。在荷兰,有重要的数据来源可用于每日COVID-19数字和有关市政当局的信息。
我们的目标是使用包含荷兰355个城市属性的数据集和先进的建模技术,预测荷兰每个城市每万名居民中确诊的COVID-19感染的累积数量。
我们从荷兰公共领域提供的数据源中收集了每个城市的相关静态数据,并将这些数据与2020年1月1日至2021年5月9日的每日动态感染数合并,形成了一个包含荷兰355个城市的数据集,变量分为20个主题。采用随机森林和多重分数多项式建模技术构建了一个预测模型,用于预测荷兰每个城市每万名居民的COVID-19累计确诊感染数。
最终的预测模型有一个
荷兰某一城市的市政属性与累计确诊感染人数的相关数据,可以帮助了解该城市最重要的属性,从而预测该城市每万名居民中累计确诊COVID-19感染人数。这一见解可以为政策制定者提供应对COVID-19的工具,在未来发生大流行时也可能具有价值,使市政当局做好更好的准备。
2019年12月,中国武汉市首次发现COVID-19。世界卫生组织[
2020年2月底,荷兰确诊了首例COVID-19病例。2020年6月,已确定4.6万例病例。2021年5月9日,确诊感染1,406,517例[
每个城市累计确诊感染人数(经国家公共卫生和环境研究所许可转载[
一些研究确定了空气污染的程度,特别是直径<10 μm的颗粒物(PM10)和二氧化氮(NO2),是导致确诊感染人数高的重要因素[
荷兰的一项研究假设,宗教集会和确诊的感染人数有关。
巴西的一项研究发现了城市和农村地区的差异,表明城市地区感染COVID-19的人更多[
美国的一项研究发现,政党归属是与COVID-19传播相关的一个因素[
我们的目标是利用荷兰355个城市的属性,预测一个城市每万名居民中确诊的COVID-19感染的累积数量。在荷兰,国家公共卫生和环境研究所[
我们的目标是利用荷兰355个城市的属性,预测一个城市每万名居民中确诊的COVID-19感染的累积数量。因此,我们检索了国家公共卫生与环境研究所和中央统计局的数据,并将这些数据合并到一个数据库中,该数据库包含335个城市和与城市主题相关的变量,如中所列
年龄分布
抚养比率
种族
城市化程度
死因
家庭类型
教育水平
社会效益
汽车或摩托车的数量
设施数目
健康
照顾者人数
到设施的平均距离
政党倾向
劳动力参与率
隶属于体育俱乐部的号码
暴露在空气污染中
文盲
市政当局的基准分数
宗教
本研究的结果变量是2020年1月1日至2021年5月9日期间,一个城市每万名居民中确诊感染的累积数量。我们使用了一种基于随机森林(RF)的技术进行后向变量选择(VARSELRF) [
RF是一种集成分类器,由许多决策树组成。在分类的情况下,RF输出的类是各个树中类的模式。在回归的情况下,RF输出的值是从单个树输出的值的平均值。每棵树都是使用原始数据中的自举样本构造的。树是通过基于分割规则的优化递归地划分自举样本来生长的。在回归问题中,分割规则基于最小化均方误差,而在分类问题中,通常使用基尼指数。在每次分割时,测试一个候选变量子集以优化分割规则,类似于递归分区建模[
VARSELRF是一种基于RF的变量选择技术,它向后逐步消除不重要的变量[
MFP建模技术是针对使用分数多项式对连续预测变量对回归模型中结果的影响进行建模的函数集合,由Royston和Altman介绍[
我们使用
在公式中,
对于所有分析,我们使用R统计软件(3.4.4版本;R统计计算基础)[
对于这项研究,不需要伦理批准,因为数据的粒度是在市政级别。
每万居民的累计人数(2021年5月9日)。
百分位 | 确诊病例n | 入院人数,n | 死亡,n |
2.5% | 511 | 6 | 3. |
25% | 757 | 11 | 7 |
50% | 884 | 15 | 9 |
75% | 1022 | 20. | 13 |
97.5% | 1278 | 32 | 21 |
例如,假设一个城市有20%的人投票给自由党。利用这个预测变量和系数的变换
同样,其他预测变量的贡献也可以通过预测变量及其系数的变换来计算
每万居民累计人数前十大城市(2021年5月9日)。
直辖市 | 每万居民累计人数,n | |
|
||
|
Bunschoten | 1873 |
|
Hardinxveld-Giessendam | 1428 |
|
Maasdriel | 1348 |
|
Edam-Volendam | 1336 |
|
Tubbergen | 1310 |
|
Bladel | 1309 |
|
Zaltbommel | 1291 |
|
霍斯特·德·马斯 | 1285 |
|
Katwijk | 1279 |
|
Nederweert | 1278 |
|
||
|
Boekel | 38 |
|
皮尔玛斯 | 38 |
|
Cranendonck | 37 |
|
Oudewater | 37 |
|
Bernheze | 35 |
|
英国产的 | 35 |
|
Uden | 33 |
|
Gemert-Bakel | 32 |
|
Landerd | 32 |
|
Eijsden-Margraten | 30. |
|
||
|
Bernheze | 25 |
|
Zandvoort | 25 |
|
Cranendonck | 24 |
|
Krimpen aan den IJssel | 23 |
|
Laren | 23 |
|
波斯特 | 22 |
|
英国产的 | 22 |
|
Heemstede | 22 |
|
Boekel | 21 |
|
Capelle aan den IJssel | 21 |
选定变量(2021年5月9日)。
变量 | 可变重要性得分 |
接触PM10一个 | 13083年 |
工党b | 8544 |
动物福利党c | 4164 |
名称或哲学上的分组 | 3578 |
年龄组别20-25岁 | 3445 |
有孩子的家庭 | 3361 |
自由党D66d | 3166 |
天主教 | 3034 |
绿党GroenLinks | 3023 |
一个PM10:直径<10 μm的颗粒物。
bPvdA: Partij van de Arbeid。
cPvdD: Partij voor de Dieren。
dD66: Democraten 66。
多重分数多项式模型的系数(2021年5月9日)。
带有转换的变量 | 系数 |
拦截 | −355.78 |
(暴露于PM10一个/ 10)1 | 669.95 |
(有儿童的住户/100)1 | 696.71 |
自由党D66b/ 10)−2 | 64.89 |
(自由党D66/10)−2× log[(自由党D66 / 10)] | 25.51 |
(龄级20-25/10)−2 | −34.98 |
(天主教/ 100)1 | 282.44 |
(名称或哲学分组/100)1 | −344.94 |
动物福利党PvdDc)−2 | 195.17 |
工党(PvdAd/ 10)1 | −74.90 |
(绿党GroenLinks/10)1 | −109.32 |
一个PM10:直径<10 μm的颗粒物。
bD66: Democraten 66。
cPvdD: Partij voor de Dieren。
dPvdA: Partij van de Arbeid。
特征、预测变量和示例值。
变量 | 最低 | 的意思是 | 最大 | 示例值 | 贡献 |
接触PM10一个 | 15.1 | 18.6 | 21.4 | 19.0 | 1272.9 |
有孩子的家庭 | 19.0 | 35.4 | 57.6 | 37.1 | 258.5 |
自由党D66b | 0.5 | 10.8 | 23.2 | 20.0 | 20.6 |
年龄组别20-25岁 | 3.2 | 5.5 | 16.2 | 4.1 | −208.1 |
天主教 | 0.4 | 32.2 | 88.3 | 63.0 | 177.9 |
名称或哲学上的分组 | 19.9 | 57.5 | 98.1 | 68.6 | −236.6 |
动物福利党c | 0.2 | 2.7 | 6.0 | 2.4 | 35.0 |
工党d | 0.2 | 5.2 | 10.6 | 4.8 | −36.1 |
绿党GroenLinks | 0.2 | 7.1 | 20.3 | 8.4 | −91.6 |
一个PM10:直径<10 μm的颗粒物。
bD66: Democraten 66。
cPvdD: Partij voor de Dieren。
dPvdA: Partij van de Arbeid。
2019冠状病毒病大流行威胁到全世界人民的生命安全。它导致了医疗保健问题(身体、心理和社会)。世界卫生组织指出,自我隔离和隔离等措施可能会导致孤独、抑郁、焦虑和自残或自杀行为的增加[
从荷兰公共领域可用的数据源中收集了每个城市的相关静态数据,并将这些数据与2020年1月1日至2021年5月9日期间的每日动态感染数合并[
我们的预测模型解释了63%的因变量方差(每10,000名居民中确诊的COVID-19感染累计数量)。这一发现意味着,我们的预测模型可用于预测荷兰某个城市每10,000名居民的累计确诊感染人数。在我们的研究中,我们使用了20个城市主题来开发一个预测模型。最重要的预测因素是接触PM10、是工党选民以及家庭中孩子的数量。
一项系统综述确定了7种识别普通人群中COVID-19风险人群的模型。在这些模型中,最常见的预测因素是年龄、共病、生命体征和图像特征[
在我们的研究中,在所有预测因素中,暴露于PM10的重要性得分最高。其他研究也观察到PM10与COVID-19感染的显著相关性[
我们的研究表明,是否为工党(Partij van de Arbeid)选民可被视为每万名居民COVID-19累计感染人数的重要预测因素。一种解释可能是,左翼政党的选民比右翼政党的选民更遵守政府规定(例如,保持社交距离)(右翼政党的选民更不信任政府的行为)[
在这项研究中,家庭儿童数量是每万名居民COVID-19累计感染人数的一个重要预测因素。这一发现可能是由于学校出勤率[
我们的研究还存在一些局限性。我们的预测模型仅基于荷兰的城市数据,因此模型的外部有效性有限。这种模式可能不适用于世界其他地方。这种限制肯定适用于欧洲以外的国家,这些国家具有不同的文化、医疗保健和政治制度,居民具有不同的社会人口和健康特征。不幸的是,其他COVID-19预测模型也存在类似的问题[
总之,收集与一个城市累计确诊感染人数相关的城市主题数据,可以深入了解预测荷兰一个城市每万名居民累计确诊感染人数的最重要主题。在预测模型中,最重要的话题是接触PM10、是工党选民以及家庭中孩子的数量。这些发现有助于增加我们对COVID-19的认识,并为政策制定者提供应对COVID-19的工具。这项研究也可能在今后发生大流行病时具有实质性价值,以便各市政当局更好地做好准备。甚至可以想象,城市或地区可能需要采取不同的保护措施。
多重分数多项式
二氧化氮
均方误差的归一化根
直径<10 μm的颗粒物
随机森林
均方误差的根
基于随机森林的变量选择
我们要感谢荷兰应用科学大学的学生Matthijs Hulsebos,感谢他对提供这些数据的支持。作者在这项工作中没有得到具体的资助。
本研究中使用和分析的数据集可根据合理要求从通讯作者处获得。
TvdP和RJJG撰写了主要手稿,TvdP准备了所有的数据和表格,并进行了所有的分析。TvdP和RJJG审查了剧本。
没有宣布。