这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
新型冠状病毒病在全球范围内蔓延,形成新一轮大流行。中国政府在疫情早期实施了强有力的干预措施,包括严格的旅行禁令和保持社交距离政策。优先分析影响疫情结果的不同因素对于精确预防和控制传染病非常重要。我们提出了一个解决这一问题的新框架,并将其应用于来自中国的数据。
本研究旨在系统地确定中国国家层面和城市层面对COVID-19控制的影响因素。
收集了来自中国343个城市的每日COVID-19病例数据和相关多维数据,包括旅行相关、医疗、社会经济、环境和流感样疾病因素。使用相关性分析和可解释的机器学习算法来评估疫情期间(即2020年1月17日至2月29日)各因素对新病例和COVID-19增长率的定量贡献。
许多因素与COVID-19在中国的传播相关。与旅行相关的人口流动是中国新增病例和COVID-19增长率的主要影响因素,其贡献率分别高达77%和41%。与旅行相关的因素存在明显的滞后效应(前一周vs当前一周:新增病例,45% vs 32%;COVID-19增长率,21%对20%)。来自非武汉地区的旅行是对COVID-19增长率影响最大的单一因素(贡献:新增病例,12%;COVID-19增长率为26%),其贡献不容忽视。作为疫情控制力度的衡量指标,城市流量对新增病例和COVID-19增长率的贡献分别为16%和7%。社会经济因素在中国COVID-19的增长率中也发挥了重要作用(贡献率为28%)。其他因素,包括医疗、环境和流感样疾病因素,也推动了中国新发病例和COVID-19的增长率。根据我们对单个城市的分析,与北京相比,武汉的人口流动和温州的内部流动是温州新增病例增加的驱动因素。 For Chongqing, the main contributing factor for new cases was population flow from Hubei, beyond Wuhan. The high COVID-19 growth rates in Wenzhou were driven by population-related factors.
许多因素导致了中国COVID-19疫情的结果。各种因素(包括特定的城市层面因素)的不同影响强调了精确、有针对性的战略对控制COVID-19疫情和未来传染病疫情的重要性。
出现了一种新的肺炎,后来被命名为COVID-19 [
COVID-19的传播取决于许多因素。人类对SARS-CoV-2的感染程度为naïve,但目前没有证据表明病毒发生了巨大变化[
我们收集了一个全面的数据集,并使用相关性分析和机器学习算法来识别和评估影响中国COVID-19暴发结果的国家级和城市级因素。
截至2020年3月1日,全国大部分地级市新增确诊病例已降至0例。因此,本研究收集了2020年1月17日至2月29日中国343个地级市的数据并用于研究。这一时期也是中国新冠肺炎疫情的主要爆发时期。数据以周为单位进行评估,包括以下6周:第1周,1月17日至23日;第二周,1月24-30日;第三周,1月31日至2月6日;第四周,2月7日至13日;第五周,2月14日至20日;第二周,2月21日至29日。每周,没有新病例的城市被排除在进一步分析之外。 Weekly new cases and COVID-19 growth rates were considered response/dependent variables, and a variety of regressors/independent variables were included in this study. These independent variables were divided into the following 6 categories: travel-related (current week), travel-related (previous week), medical, socioeconomic, environmental, and influenza-like illness (ILI) variables (Table S1 in
新冠肺炎确诊病例数据从卫健委每日官方报告中下载,每周累计新增病例数据提取。繁殖数量(R代理)作为COVID-19增长率的指标,增长率定义为下一周新增病例数与当周新增病例数的归一化[
式中w为周,取值范围为1-6,N为周累计新增病例数,i为第i个城市。
国内每日人口流动数据来源于百度黔西[
医生数量、医院数量、床位数量、门诊人数和急诊人数均来自2018年版《中国卫生与计划生育统计年鉴》[
社会经济因素,包括人口数量、人口密度、国内生产总值、人均收入和65岁以上人口比例,均来自2018年中国城市统计年鉴[
各城市的每日气候数据,包括最高气温、最低气温、平均气温、相对湿度和绝对湿度,均从中国气象局网站[
根据中国国家流感中心的周报数据,计算出2016年至2018年每个城市ILI发生的平均百分比。该数据基于中国31个省份554家哨点医院的检测样本数量。
斯皮尔曼相关用于评估单个因素与新病例数或COVID-19增长率之间的关系。本研究的显著性水平为0.05。
首先,利用XGBoost框架(极限梯度增强)建立非线性回归树模型[
沙普利加性解释[
y我= y基地+ f (xi1) + f (xi2+在)
在这个方程中,第i个样本被定义为x我,第i个样本的第j个特征定义为xij,则机器学习模型对样本的预测值为y我,将模型的参考值(即目标样本变量的均值)定义为y基地.此外,f (xij)为x的SHAP值ij.f (xij)>0表示该特征增加了预测值,具有正贡献;否则,该特征降低了预测值,具有负贡献。
SHAP包[
基于单因素Spearman相关分析,许多因素与中国新增病例数和COVID-19增长率均显著相关(
新冠肺炎新增病例(左)与增长速度(右)相关因素分析。每个因素从上到下的圆点表示连续6周(2020年1月17日至2月29日)对应的斯皮尔曼相关系数。显著相关性用红色表示。流感样疾病。
我们的附加分析表明,许多因素相互相关(图S1 .)
各种因素对中国COVID-19新增病例和COVID-19增长率的贡献流感样疾病。
SHAP是解释个别预测的一种方法[
北京、温州和重庆选定因素的SHAP值。(A)第二周新发COVID-19病例。(B)第一周COVID-19的增长率。采用非线性回归树模型选择影响因素。SHAP:有形状的加性解释。
在这项研究中,我们应用机器学习方法,基于从中国343个城市收集的多维数据,描绘了不同因素对每周新病例和COVID-19增长率的贡献。在疫情期间(即2020年1月17日至2月29日),与旅行相关的因素是中国新病例数量和COVID-19增长率的主要贡献者,增长率也受到其他因素的影响,包括人口密度等社会经济因素[
我们的简单相关分析和机器学习探索结果表明,中国COVID-19疫情的进展受到多种因素的影响。基于我们的非线性机器学习方法,我们发现中国新增病例和COVID-19增长率的最重要贡献者是与旅行相关的因素,并且与旅行相关的因素具有明显的不可忽视的滞后效应。此前已有研究表明,来自武汉的人口流动是中国新冠肺炎新增病例的驱动因素,我们已经证实了这一点[
我们的研究还表明,其他因素对中国COVID-19疫情发展的贡献不可忽视,特别是对COVID-19的增长速度。在中国,社会经济因素对COVID-19增长率的贡献与旅行相关因素相当[
基于博弈论中使用的SHAP值,我们能够区分不同城市层面因素的个人贡献,这对精确和有针对性的控制策略具有重要意义。例如,与首都北京这个人口众多、人口流动中心的超级特大城市相比,温州和重庆第二周的新增病例更多,但影响因素不同。温州新增病例增加的主要原因是武汉流动和城市内部流动(前一周),而重庆是湖北/非武汉流动(前一周)的驱动因素。为了减少温州的新冠肺炎病例,除了限制武汉的人口迁移外,还需要采取措施,比如减少城市内的社交活动。重庆作为与湖北相邻的城市,更应该重视湖北游客。温州首周新冠肺炎疫情增速较高,除与出行相关的因素外,主要是社会经济因素,包括人口数量、人均收入、65岁以上人口占比等。我们的研究是第一个评估不同城市层面因素对疫情结果的贡献的研究,我们的结果和方法有助于有针对性地控制传染病。
这项研究有几个局限性。首先,虽然我们评估了尽可能多的因素,但可能会遗漏一些重要因素。例如,尽管我们纳入了与社会距离政策相关的措施,如城市内部流动和城市内部流动指数,但其他详细的控制政策[
新冠肺炎疫情防控是一项系统工程。了解重要的致病因素,制定相应的防控策略,有助于制定有效的防控措施。除了来自武汉的人口流动外,其他地方的人口流动和城市内部流动也对中国新冠肺炎病例数量和增长速度产生了影响。社会经济因素,特别是人口数量和密度,对中国COVID-19的增长率也起着非常重要的作用。基于本研究提出的框架,探讨了具体因素对个别城市的贡献。疫情仍在全球范围内蔓延,许多国家正在经历疫情严重反弹。我们在本研究中提出的结果和框架对于探索最优和精确的控制策略是有帮助和有用的。
表S1。所有影响因素的集合。
补充资料,包括图S1、图S2、表S2。
每个城市各选定因子的沙普利相加解释值。
流感样疾病
Shapley加法解释
极端梯度增强
作者要感谢成千上万的疾病控制和预防中心的工作人员、卫生工作者和数据科学家,他们不断收集数据,并致力于遏制COVID-19在中国和其他地方的传播。国家重点研发计划项目(2020YFC0840900)、国家自然科学基金项目(31970643 & 81961128002)、深圳市科技计划项目(KQTD20180411143323605)、广东省前沿科技创新计划项目(2019B020228001 & 2019B111103001)资助。
XD和ZC设计了研究。ZC, FT, CC, CZ, YG, RL, ZH, YT, TX, YXu, YS, FW, PD, GL收集并分析数据。XD, YJ, HZ, YC LS, YShu对数据进行解释。XD, ZC和FT准备了手稿。XD, GL, YJ, HZ, YC, LS, YShu编辑论文。所有作者审阅并批准了所提交的手稿。
没有宣布。