JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v19i11e370 29109069 10.2196 / jmir.7486 原始论文 原始论文 利用搜索趋势的季节性流感分区域即时预报 Keepanasseril 阿伦 Santillana 毛里西奥 Broniatowski 大卫 Kandula Sasikiran 女士 1
环境卫生科学系 哥伦比亚大学 ARB大楼11楼 西168街722号 纽约,纽约,10032 美国 1 2123053590 1 2123054012 sk3542@cumc.columbia.edu
http://orcid.org/0000-0002-6248-9097
丹尼尔 博士学位 2 http://orcid.org/0000-0002-3495-7113 萨满 杰弗里 博士学位 1 http://orcid.org/0000-0002-7216-7809
1 环境卫生科学系 哥伦比亚大学 纽约州纽约 美国 2 计算机科学系 哥伦比亚大学 纽约州纽约 美国 通讯作者:Sasikiran Kandula sk3542@cumc.columbia.edu 11 2017 06 11 2017 19 11 e370 10 2 2017 7 4 2017 13 6 2017 15 8 2017 ©Sasikiran Kandula, Daniel Hsu, Jeffrey Shaman。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2017年11月6日。 2017

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

要在州或城市一级限制季节性流感疫情的不利影响,就需要密切监测局部疫情并对其进展进行可靠预测。尽管流感或流感样疾病(ILI)的预测模型越来越可用,但由于无法在局部尺度上实时观测当前疫情状态,其对局部疫情的适用性受到限制。由各个卫生部门收集的监测数据被广泛接受为估计疫情状态的参考标准,在缺乏监测数据的情况下,使用基于web的活动(如搜索引擎查询、推文和访问与卫生相关的网页)构建的临近预报代理可能很有用。谷歌流感趋势(GFT)之前发布了州和市ILI的Nowcast估计;然而,这些估计的验证很少被报道。

客观的

本研究的目的是建立并验证分区域地理尺度的ILI近预报模型。

方法

我们建立了基于自回归(自回归集成移动平均;ARIMA)和监督回归方法(随机森林)在美国州一级使用区域加权ILI和基于web的搜索活动,这些搜索活动源自谷歌的扩展趋势应用程序编程接口。我们使用50个州六个季节的实际监测数据验证了这些方法的性能。我们还使用州一级的ILI估计建立了州一级的nowcast模型,并将这些估计的准确性与州一级推断的区域模型的估计以及GFT公布的nowcast估计进行了比较。

结果

使用区域ILI外推到州一级建立的模型的中位相关性为0.84(四分位数范围:0.74-0.91),中位均方根误差(RMSE)为1.01 (IQR: 0.74-1.50),在季节和州人口规模之间具有明显的变化。假设州一级监测数据的及时可用性的模型形式显示出显著较低的误差,为0.83(0.55-0.23)。与GFT相比,后一种模型形式的误差更小,相关性也更低。

结论

这些结果表明,所提出的方法可能是已停止的GFT的替代方法,进一步提高分区域短时预报的质量可能需要更多地获得更精细分辨的监测数据。

人类流感 分类和回归树 nowcasts infodemiology infoveillance 监测
简介

据估计,全球每年有5%至10%的成年人感染季节性流感,儿童和老年人的发病率更高[ 1 2].在美国,每10万人中约有1.2人死于流感,季节性差异很大[ 3.].市和州卫生部门在整个流感季节(通常是在美国的10月至5月)依靠监测数据来跟踪流感季节的进展,并协调医院、卫生保健提供者和公共卫生机构之间的疫苗接种和治疗活动。为了支持这些工作,美国疾病控制和预防中心(CDC)每周在国家和地区一级发布流感样疾病(ILI)的病毒学和门诊发病率数据[ 4 5].

已经提出了几种方法来补充CDC的ILI,这些方法基于搜索查询进行估计[ 6- 11],推文[ 12 13],维基百科访问日志[ 14 15]、其他公众生成的内容[ 16- 18],以及这些代理的组合[ 19].除了提供更及时的疫情进展估计外,这些数据源还可用于在较局部的分区域地理分辨率下,在公共疫情数据有限或无法获得的情况下,制定疫情指数估计。由于可以通过更当地的观点来设计更有效和更有针对性的干预措施,这些分区域估计如果准确和可靠,就更可采取行动。

谷歌流感趋势(GFT) [ 6]利用基于网络的搜索查询的趋势,在区域和分区域各级得出了一个更广泛获得的ILI估计数;然而,GFT估计值的编制已于2015年8月停止[ 20.].相反,通过谷歌的扩展趋势(GET)应用程序编程接口(API),研究人员现在可以访问底层谷歌搜索趋势数据,并可以建立自己的模型来估计ILI。原始的GFT方法将CDC ILI建模为搜索查询频率聚合为单个变量的线性函数。最近的工作[ 7 21]在线性模型中,当单个查询项作为自变量保留时,证明了提高的准确性,并且使用允许查询之间的非线性和时间关系的替代模型报告了进一步的增益。一项相关研究在周建模了ILI w在n周的自回归滞后和100个选定词的周搜索量上 w 8 22].

尽管这些研究令人鼓舞,但这些模型是在美国国家层面开发和验证的,其中有响应变量ILI。将这些国家模式外推到无法公开获得疾控中心ILI的分区域决议,可能会产生精度有限的nowcast。GFT团队尚未发表用于在分区域尺度上生成nowcast的方法,而且对分区域水平上的GFT估计的验证研究很少[ 23 24].

在本文中,我们提出了利用GET在分区域水平进行ILI nowcast的方法。这些方法被回顾性地应用于在美国50个州生成六个季节的nowcast,报告不同模型形式的准确性,并将其与已发表的GFT进行比较。据观察,利用区域一级发展的模式可能无法对分区域ILI进行准确的即时预测;相反,必须利用分区域ILI数据建立分区域ILI nowcast模型。

方法 概述

为了在美国州一级建立临近预测模型,首先在区域一级建立随机森林回归模型(由美国卫生与公众服务部定义,HHS [ 25])。在这些初始模型中,CDC报告的HHS区域加权ILI是响应变量,具有与ILI相关搜索模式的查询是解释变量。对区域ILI拟合的自回归模型提前1周的预测被纳入作为额外的解释变量。然后在分区域范围内应用或外推这些区域一级模型。具体而言,拟合模型与州级解释变量一起使用,以估计州级的ILI。

独立地,使用cdc提供的ILI的州级估计作为响应变量,建立了州级nowcast模型。这些州级ILI估算数据尚未公开,是应要求提供给本研究的。然后,将使用这些州模型得出的州级nowcast估计的误差与州级外推的区域模型的估计进行比较。

谷歌GET (Extended Trends)应用程序接口

GET API允许用户检索在搜索会话期间查询指定术语的概率的时间轴数据。其他参数允许指定地理(国家、州等)和时间(每天、每周等)粒度和感兴趣的时间段。查询概率是根据所有搜索的10%到15%的随机样本计算的;搜索量不满足最小阈值的术语被认为是私有的,其概率报告为0。数据每日更新,并提供2004年1月以来的历史趋势。因此,使用GET开发的nowcast模型可以提供比CDC ILI数据至少多一周的ILI估计,后者发布有5到11天的滞后。

在这项研究中,由于我们对州一级的nowcast感兴趣, 状态作为地理分辨率,a 每周周期性与CDC ILI和GFT一致,两者都是每周ILI估计值。我们指的是项的logit变换时间序列 t的查询分数 t,也就是说, Qf (t, s, w) = log (z/(1-z))在哪里 z来自状态的查询的概率是多少 年代在星期 w是术语 t.GET没有在HHS区域级别提供单独的查询分数。因此,来自HHS区域的术语的查询分数被计算为来自该区域内各州的术语查询分数的总体加权平均值。这种转换的选择是由以前的工作所决定的,该工作发现,通过logit转换,原始查询分数和ILI之间的关系近似于线性,并且模型性能提高[ 7].

特征识别

与CDC ILI高度相关的查询使用谷歌相关[ 26 27]作为解释变量。谷歌correlation返回100个查询,这些查询的搜索趋势在历史上与给定目标时间序列数据的相关性(Pearson相关系数)最高。以2003-04年至2014-15年流感季节美国国家和10个HHS区域级别的ILI为目标时间序列。在使用不同目标时间序列识别的查询中观察到大量重叠。Zhang识别的查询词[ 28]和从Freebase提取的流感相关实体[ 29],被添加到相关项列表中。

在检查与ILI相关的术语的查询分数时,发现一些在国家层面具有相当大的搜索活动的术语,在州层面通常很少或没有活动,并且报告为0 ( 多媒体附件1;图S1),可能是因为GET中使用的抽样和阈值标准。因此,状态级别的解释变量是稀疏的。为了提高数据质量,采用了一种继承形式,即当状态级查询分数为零时,状态在区域级继承术语的查询分数: Qf (t, s, w) = Qf (t, r, w),在那里 年代 r, r指定HHS区域。也就是说,在没有额外信息的情况下,我们假设一个区域的所有状态下的用户以相同的概率搜索一个词。由于这不会消除所有的0,在应用logit转换之前,剩余的0被替换为一个非常小的值1e-12。敏感性分析显示,结果对替代材料的选择不敏感( 多媒体附件1;图S2)。

自回归综合移动平均

兰波斯等[ 7]发现简单自回归综合移动平均(ARIMA)模型[ 30.- 32使用搜索趋势数据可以对美国国家层面的ILI产生合理的nowcast估计。同样,Broniatowski等人[ 33 34]已经证明了ARIMA模型的实用性,该模型使用推文并在一些分区域位置查询数据。ARIMA模型由三个参数指定,自回归分量的阶数(a),差分度(d)和移动平均分量的阶数(q)。

图1 ф θ, ρ在模型拟合过程中需要学习。Hyndman和Khandakar描述的一种方法[ 35 36]用于搜索参数空间,并识别一组提供良好模型拟合的参数,而在不同时间建立的ARIMA模型( w),不同区域允许使用不同的参数。

自回归综合移动平均(ARIMA)公式。

随机森林

随机森林是一种基于决策树的集成监督学习器,可用于回归[ 37- 39].具体来说,给定一个数据集 n实例 D = = (X (X, Y)知识产权, y ,在那里 Y响应变量是连续的,而特征集呢 X = X (1 , X2, X…,p p解释变量(即, x知识产权特征的价值是什么 j例如),有监督学习算法使用 D学习一个函数这样 Ẏ=ḟ(X)Ẏ最小化了一些损失函数 Y.这个函数那么可以用来估算吗0例如, x0=( x01 , x02 x、…人事处),其反应未知。

基于决策树的方法沿着解释变量分割特征空间,并学习单独的拟合,对于每一个子空间。集成方法构建多个决策树,每棵树都在一个数据集上 D的随机抽样替换 n实例 D.随机森林是一种集成决策树,它在学习时也排除了解释变量的随机子集。随机森林适用于具有大特征集的非线性问题,并已被发现在多个领域提供了优越的精度。

在本研究中,随机森林[ 45用R表示的包装[ 46(R Project for Statistical Computing)用于建立模型。

模型公式

文中详细描述了该模型 多媒体附件1.总结一下,让 y1: wr表示区域的logit变换ILI观测值 r通过一周 w;而且 X1: vrHHS区域logit变换查询分数的查询分数矩阵 r对于第1周至第1周期间的特性集(列)中的所有术语 v(行)。请注意, v > w.我们安装了ARIMA模型 y1: wr未来几周的天气预报 w + 1 v并将ARIMA结果作为解释变量 X1: vr.用修正后的矩阵作为预测器,( y1: wrT作为响应,我们训练了一个随机森林模型的区域 r在星期 wwr.对一个状态的ILI进行nowcast 年代在地区 r,我们附加区域 r的ARIMA结果转化为州的查询分数矩阵 X1: v年代,并使用此作为测试集wr

验证

CDC应数据要求提供了2000-01赛季至2010-11赛季的州一级ILI计数(每10万名患者就诊)。这些计数被认为是真实值,以验证上述模型的估计值。由于GET数据仅从2004年1月起可用,七个重叠流感季节中的最后六个( 发病率和死亡率周报 40], MMWR,第40周至下一日历年MMWR第39周),即2005-06年至2010-11年用于验证。为了生成任何给定周的nowcast,只使用实时生成nowcast时可用的数据,从而允许对估计值进行样本外验证。

对于六个季节中的每个状态,计算了Pearson相关系数(COR)、均方根误差(RMSE)和平均绝对比例误差(MAPE)。在 图2 yw年代州的真实ILI值是多少 年代在星期 ww年代相应的临近预报, w se流感季节的几周 g ()是logit反变换。虽然有时可以使用ARIMA和GET提前2周进行nowcast估计,但在此误差分析中只使用了提前1周的估计。

两种误差度量的公式:均方根误差(RMSE)和平均绝对比例误差(MAPE)。

替代模型表格

为了生成一个州的nowcast,用相应的区域数据训练的模型被外推到州一级。对于这种外推,上面描述的模型公式使用区域ILI作为响应变量进行训练,使用区域ILI和状态GET查询分数的ARIMA拟合作为解释变量。我们将这种形式称为RRS。研究了另外两种替代形式:RR0,其中州的ILI估计值只是其区域的ARIMA估计值;RRR,其中州的GET查询分数替换为其父区域的查询分数。

RRS相对于RR0的准确性表明了GET和随机森林增加的价值,以及RRS相对于RRR的准确性表明了通过使用更本地化的GET数据增加的价值。由于GFT是在用于验证的六个季节中发布的,因此这三种模型形式的性能也与GFT进行了比较。

替代模型形式:将ILI作为响应

以区域ILI为响应变量,构建上述三种模型形式。由于CDC每周发布区域ILI,这些模型适用于实时操作nowcast。虽然分区域ILI的估计值没有公开提供,但州和市卫生机构有这些估计值供内部使用,值得开发和测试分区域ILI可能采用的模型形式。

另外定义了四种模型形式:SS0,一种适合ILI状态的简单ARIMA模型;SRR和SRS,除了用于训练的响应变量外,它们分别与RRR和RRS相似;SSS不直接使用任何区域信息。请参阅 多媒体附件1获取这四种类型的更正式的规范。

为了比较不同的模型形式,并检验差异是否具有统计学意义,我们使用了Friedman秩和检验[ 41 42]然后进行Nemenyi测验[ 43 44].弗里德曼检验是一种非参数检验,不假设正态性。它在每次测试尝试中对不同的模型形式进行排名,这是一个状态-季节组合,并使用排名来测试模型形式是否不同。Nemenyi检验,弗里德曼的事后检验,检查每对模型形式之间的统计显著性差异。

结果

在RRS模型中使用的解释变量中,ARIMA组件( 基于“增大化现实”技术)排名最高,其次是来自Freebase的大量实体(见 图3).在所有季节和州,RRS模型被发现具有相当高的中位数相关性,为0.84(四分位差[IQR]: 0.74-0.91; 表1).当按人口规模分层时,人口规模较大的州的中位数相关性显著高于人口规模较小的州。还观察到季节间的显著变化。人口规模大的州也被发现有较低的中位数误差(RMSE和MAPE),但在低州和中等州之间似乎没有太大的区别。

尽管RRS模型的相关性令人鼓舞,但GFT估计值总体上和几乎所有分类组都具有更好的中位数测度。谷歌尚未公布其在分区域一级估计ILI的方法,目前尚不清楚GFT估计数是否得益于对趋势数据的更全面的访问,或者绩效收益是否仅仅是方法上的。

按重要性排序的前20个特征由区域级建立的随机森林模型确定。红色的点和胡须分别表示中位数和四分位范围(IQR),而蓝色的点是平均值。标签显示了使用该特性的模型的百分比(n=3130)。ar为自回归综合移动平均(ARIMA)分量。ENT前缀的功能是使用Freebase标识的实体。

RRS、RR0、RRR模型和谷歌流感趋势(GFT)的中位数(四分位数范围)、皮尔逊相关系数(COR)、均方根误差(RMSE)和平均绝对比例误差(MAPE)。结果按州人口规模和季节分层。

测量 RRS,中位数(四分位范围) RR0、中值(四分位范围) 存款准备金率,平均(四分位范围) GFT一个、中值(四分位范围)
天哪b
整体 0.85 (0.74 - -0.91) 0.83 (0.7 - -0.9) 0.86 (0.75 - -0.91) 0.89 (0.8 - -0.94)
人口规模(百万)
0 - 2 (n = 14) 0.79 (0.64 - -0.87) 0.76 (0.62 - -0.86) 0.81 (0.67 - -0.88) 0.83 (0.72 - -0.91)
2 - 5 (n = 14) 0.84 (0.72 - -0.89) 0.82 (0.7 - -0.89) 0.84 (0.75 - -0.90) 0.9 (0.81 - -0.94)
5 - 7.5 (n = 10) 0.84 (0.74 - -0.91) 0.82 (0.7 - -0.9) 0.86 (0.73 - -0.92) 0.89 (0.8 - -0.95)
≥7.5 (n = 12) 0.91 (0.85 - -0.93) 0.9 (0.84 - -0.93) 0.91 (0.86 - -0.94) 0.93 (0.86 - -0.96)
季节
- 06 0.8 (0.62 - -0.85) 0.8 (0.62 - -0.85) 0.81 (0.64 - -0.87) 0.83 (0.71 - -0.88)
07 0.82 (0.65 - -0.88) 0.8 (0.6 - -0.88) 0.82 (0.71 - -0.89) 0.83 (0.76 - -0.9)
07-08 0.88 (0.81 - -0.92) 0.87 (0.79 - -0.92) 0.89 (0.82 - -0.93) 0.93 (0.87 - -0.96)
扭转 0.75 (0.69 - -0.83) 0.71 (0.58 - -0.82) 0.78 (0.67 - -0.83) 0.81 (0.71 - -0.89)
09-10 0.9 (0.85 - -0.93) 0.89 (0.8 - -0.93) 0.9 (0.85 - -0.93) 0.97 (0.94 - -0.98)
外扩 0.89 (0.82 - -0.92) 0.88 (0.75 - -0.91) 0.89 (0.85 - -0.92) 0.89 (0.86 - -0.93)
RMSEc
整体 0.99 (0.7 - -1.51) 1.06 (0.73 - -1.56) 0.97 (0.72 - -1.54) 0.93 (0.66 - -1.33)
人口规模(百万)
0 - 2 (n = 14) 1.06 (0.69 - -1.58) 1.19 (0.73 - -1.62) 1.05 (0.72 - -1.6) 0.88 (0.63 - -1.29)
2 - 5 (n = 14) 1.21 (0.84 - -1.87) 1.33 (0.92 - -1.81) 1.22 (0.83 - -1.84) 1.02 (0.78 - -1.52)
5 - 7.5 (n = 10) 0.93 (0.65 - -1.21) 0.98 (0.72 - -1.33) 0.93 (0.61 - -1.14) 0.88 (0.67 - -1.48)
≥7.5 (n = 12) 0.87 (0.66 - -1.01) 0.85 (0.70 - -1.08) 0.88 (0.69 - -1.01) 0.87 (0.63 - -1.16)
季节
- 06 0.93 (0.64 - -1.5) 0.92 (0.70 - -1.64) 0.93 (0.64 - -1.52) 0.88 (0.60 - -1.45)
07 0.84 (0.56 - -1.16) 0.89 (0.57 - -1.16) 0.85 (0.5 - -1.1) 0.82 (0.52 - -1.13)
07-08 1.08 (0.81 - -1.7) 1.06 (0.83 - -1.59) 0.99 (0.82 - -1.67) 1.09 (0.70 - -1.55)
扭转 1.02 (0.77 - -1.47) 1.10 (0.79 - -1.48) 1.03 (0.79 - -1.55) 1.02 (0.79 - -1.41)
09-10 1.31 (0.98 - -1.77) 1.40 (1.08 - -1.72) 1.28 (0.98 - -1.72) 1.05 (0.80 - -1.32)
外扩 0.77 (0.59 - -1.16) 0.83 (0.61 - -1.26) 0.83 (0.59 - -1.15) 0.73 (0.64 - -1.20)
日军d (/ 1000)
整体 0.8 (0.43 - -1.75) 0.67 (0.42 - -1.54) 0.77 (0.43 - -1.62) 0.71 (0.44 - -1.51)
人口规模(百万)
0 - 2 (n = 14) 0.9 (0.54 - -1.7) 0.77 (0.51 - -1.41) 0.84 (0.55 - -1.55) 0.76 (0.51 - -1.56)
2 - 5 (n = 14) 0.95 (0.48 - -1.79) 0.82 (0.44 - -1.65) 0.87 (0.45 - -1.71) 0.77 (0.41 - -1.48)
5 - 7.5 (n = 10) 0.65 (0.36 - -1.62) 0.59 (0.37 - -1.69) 0.63 (0.35 - -1.57) 0.68 (0.4 - -1.41)
≥7.5 (n = 12) 0.65 (0.34 - -1.64) 0.54 (0.3 - -1.34) 0.65 (0.33 - -1.5) 0.7 (0.43 - -1.54)
季节
- 06 1.2 (0.46 - -3.06) 0.78 (0.47 - -2.77) 0.99 (0.49 - -2.72) 1.07 (0.56 - -2.67)
07 0.97 (0.53 - -1.84) 0.92 (0.49 - -1.81) 0.91 (0.51 - -1.67) 0.88 (0.46 - -1.48)
07-08 0.85 (0.5 - -1.67) 0.83 (0.49 - -1.64) 0.81 (0.51 - -1.51) 0.76 (0.5 - -1.57)
扭转 0.82 (0.47 - -1.59) 0.67 (0.43 - -1.36) 0.84 (0.43 - -1.52) 0.71 (0.44 - -1.48)
09-10 0.73 (0.36 - -1.96) 0.64 (0.4 - -1.83) 0.74 (0.36 - -1.96) 0.63 (0.43 - -1.17)
外扩 0.49 (0.3 - -1.04) 0.48 (0.28 - -0.96) 0.48 (0.31 - -1.04) 0.61 (0.32 - -0.93)

一个GFT:谷歌流感趋势。

bPearson相关系数。

cRMSE:均方根误差。

dMAPE:平均绝对百分比误差。

后验Nemenyi检验的平均秩和统计学意义。对于每个季节状态组合,模型形式从最佳(rank=1)到最差(rank=4)进行排序。

模型 天哪一个 RMSEb 日军c
意思是排名 GFTd RRO 存款准备金率 意思是排名 GFT RRO 存款准备金率 意思是排名 GFT RRO 存款准备金率
GFT 1.91 2.33 2.45
RR0 3.07 <措施 2.75 <措施 2.24
存款准备金率 2.38 <措施 <措施 2.41 .89 . 01 2.43 获得 二十五分
RRS 2.63 <措施 <措施 .1 2.51 .35点 .09点 .79 2.87 <措施 <措施 <措施

一个Pearson相关系数。

bRMSE:均方根误差。

cMAPE:平均绝对百分比误差。

dGFT:谷歌流感趋势。

表2显示了模型形式的平均排名以及Friedman-Nemenyi检验的显著性结果。在四种估计中,表现最好的(相关性最高或误差最小)被分配为1级,最差的被分配为4级,并计算不同季节状态组合(n=300)的平均值。结果表明:(1)在相关性方面,GFT的平均秩最高,其次为RRR、RRS和RR0。但RRR与RRS差异无统计学意义;(2)平均秩的相对排序与RMSE相同,但RR0、RRR和RRS之间的差异不具有统计学意义;(3) RR0排序最好,MAPE次之,GFT次之。RRR和RRS的平均等级显著较高。

总体而言,RRR模型的性能与RRS模型相当,这表明在这里描述的模型中使用的状态本地化GET数据并不能提高临近预报的精度。因为RR0降低(降低)相关性,不改变RMSE并显著降低(改善)MAPE,因此完全忽略GET数据的效果仍然不确定。

将比较扩展到使用状态ILI作为响应变量构建的模型表单( 表3 图4而且 5)后,误差明显减少。中位数RMSE和MAPE ( 图4)在人口较多的州和大多数季节,SRS、SRR和SSS模型的总体强度均低于GFT。与RR*相比,也有明显的改善( 图5).然而,所有四种模型的相关性中位数都明显较低,尤其是SS0模型。

谷歌流感趋势(GFT)、SS0、SRR、SRS和SSS模型的中位数(四分位数范围)、皮尔逊相关系数(COR)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)。结果按州人口和季节分层。

测量 GFT一个、中值(四分位范围) SS0、中值(四分位范围) SRR、中值(四分位范围) SRS,中位数(四分位范围) SSS、中值(四分位范围)
天哪b
整体 0.89 (0.8 - -0.94) 0.56 (0.4 - -0.75) 0.8 (0.7 - -0.88) 0.8 (0.7 - -0.88) 0.74 (0.61 - -0.83)
人口规模(百万)
0 - 2 (n = 14) 0.83 (0.72 - -0.91) 0.46 (0.31 - -0.66) 0.74 (0.57 - -0.82) 0.71(0.56 0。8) 0.62 (0.55 - -0.74)
2 - 5 (n = 14) 0.9 (0.81 - -0.94) 0.58 (0.42 - -0.76) 0.78 (0.72 - -0.87) 0.8 (0.72 - -0.85) 0.73 (0.66 - -0.81)
5 - 7.5 (n = 10) 0.89 (0.8 - -0.95) 0.51 (0.36 - -0.64) 0.83 (0.7 - -0.88) 0.81 (0.73 - -0.88) 0.75 (0.63 - -0.82)
≥7.5 (n = 12) 0.93 (0.86 - -0.96) 0.73 (0.48 - -0.85) 0.88 (0.79 - -0.92) 0.89 (0.8 - -0.92) 0.86 (0.72 - -0.91)
季节
- 06 0.83 (0.71 - -0.88) 0.72 (0.56 - -0.85) 0.78 (0.68 - -0.86) 0.76 (0.62 - -0.86) 0.74 (0.66 - -0.86)
07 0.83 (0.76 - -0.9) 0.75 (0.61 - -0.84) 0.8 (0.7 - -0.88) 0.8 (0.64 - -0.87) 0.8 (0.72 - -0.89)
07-08 0.93 (0.87 - -0.96) 0.61 (0.47 - -0.77) 0.87 (0.78 - -0.92) 0.86 (0.78 - -0.9) 0.81 (0.73 - -0.86)
扭转 0.81 (0.71 - -0.89) 0.37 (0.28 - -0.44) 0.7 (0.59 - -0.8) 0.74 (0.58 - -0.79) 0.57 (0.45 - -0.68)
09-10 0.97 (0.94 - -0.98) 0.51 (0.39 - -0.73) 0.82 (0.75 - -0.89) 0.82 (0.74 - -0.89) 0.74 (0.63 - -0.85)
外扩 0.89 (0.86 - -0.93) 0.47 (0.33 - -0.6) 0.82 (0.75 - -0.88) 0.81 (0.75 - -0.88) 0.71 (0.63 - -0.78)
RMSEc (1 e - 3)
整体 0.93 (0.66 - -1.33) 1.07 (0.68 - -1.84) 0.84 (0.54 - -1.25) 0.86 (0.55 - -1.27) 0.9 (0.55 - -1.35)
人口规模(百万)
0 - 2 (n = 14) 0.88 (0.63 - -1.29) 1.17 (0.61 - -1.92) 0.96 (0.55 - -1.47) 0.96 (0.62 - -1.49) 0.92 (0.58 - -1.44)
2 - 5 (n = 14) 1.02 (0.78 - -1.52) 1.37 (0.83 - -2.13) 1.04 (0.7 - -1.54) 1.11 (0.62 - -1.57) 1.11 (0.66 - -1.68)
5 - 7.5 (n = 10) 0.88 (0.67 - -1.48) 0.99 (0.66 - -1.79) 0.74 (0.49 - -1.07) 0.71 (0.51 - -1.14) 0.79 (0.55 - -1.24)
≥7.5 (n = 12) 0.87 (0.63 - -1.16) 0.91 (0.64 - -1.49) 0.69 (0.43 - -1.05) 0.67 (0.41 - -0.99) 0.74 (0.46 - -1.01)
季节
- 06 0.88 (0.60 - -1.45) 0.81 (0.49 - -1.47) 0.71 (0.5 - -1.11) 0.68 (0.49 - -1.13) 0.64 (0.46 - -1.06)
07 0.82 (0.52 - -1.13) 0.70 (0.48 - -1.02) 0.59 (0.43 - -0.88) 0.58 (0.42 - -0.94) 0.56 (0.41 - -0.83)
07-08 1.09 (0.70 - -1.55) 1.36 (0.78 - -1.85) 0.91 (0.54 - -1.27) 0.95 (0.58 - -1.37) 0.97 (0.6 - -1.42)
扭转 1.02 (0.79 - -1.41) 1.21 (0.92 - -1.98) 0.95 (0.69 - -1.31) 0.93 (0.67 - -1.26) 1.05 (0.78 - -1.4)
09-10 1.05 (0.80 - -1.32) 1.91 (1.28 - -2.44) 1.34 (0.9 - -1.9) 1.37 (0.92 - -1.92) 1.53 (1.01 - -1.9)
外扩 0.73 (0.64 - -1.20) 1.00 (0.73 - -1.62) 0.73 (0.5 - -1.04) 0.7 (0.51 - -1.1) 0.86 (0.58 - -1.16)
日军d
整体 0.71 (0.44 - -1.51) 0.58 (0.38 - -0.8) 0.54 (0.33 - -0.9) 0.61 (0.34 - 1) 0.61 (0.35 - -1.02)
人口规模(百万)
0 - 2 (n = 14) 0.76 (0.51 - -1.56) 0.68 (0.48 - -0.86) 0.76 (0.5 - -1.36) 0.84 (0.56 - -1.44) 0.82 (0.58 - -1.28)
2 - 5 (n = 14) 0.77 (0.41 - -1.48) 0.63 (0.36 - -0.85) 0.58 (0.36 - -0.9) 0.64 (0.39 - 1) 0.68 (0.37 - -1.02)
5 - 7.5 (n = 10) 0.68 (0.4 - -1.41) 0.58 (0.39 - -0.74) 0.41 (0.31 - -0.75) 0.46 (0.32 - -0.86) 0.55 (0.34 - -0.92)
≥7.5 (n = 12) 0.7 (0.43 - -1.54) 0.4 (0.31 - -0.59) 0.38 (0.2 - -0.59) 0.37 (0.2 - -0.69) 0.41 (0.24 - -0.61)
季节
- 06 1.07 (0.56 - -2.67) 0.59 (0.39 - -0.8) 0.68 (0.4 - -0.93) 0.77 (0.41 - -1.12) 0.74 (0.38 - -1.08)
07 0.88 (0.46 - -1.48) 0.54 (0.36 - -0.71) 0.51 (0.32 - -0.84) 0.62 (0.35 - -0.94) 0.58 (0.3 - -0.89)
07-08 0.76 (0.5 - -1.57) 0.69 (0.4 - -0.83) 0.54 (0.38 - -0.78) 0.62 (0.41 - -0.94) 0.62 (0.38 - -0.81)
扭转 0.71 (0.44 - -1.48) 0.57 (0.42 - -0.77) 0.62 (0.37 - -1.01) 0.66 (0.36 - -0.93) 0.68 (0.39 - -1.14)
09-10 0.63 (0.43 - -1.17) 0.59 (0.36 - -0.85) 0.52 (0.31 - -1.25) 0.59 (0.31 - -1.38) 0.67 (0.37 - -1.14)
外扩 0.61 (0.32 - -0.93) 0.5 (0.35 - -0.85) 0.38 (0.26 - -0.67) 0.38 (0.26 - -0.75) 0.43 (0.31 - -0.83)

一个GFT:谷歌流感趋势。

bPearson相关系数。

cRMSE:均方根误差。

dMAPE:平均绝对百分比误差。

不同模型的测度形式A: Pearson相关系数(COR);B:均方根误差(RMSE);C:平均绝对百分比误差(MAPE)。左:方框和胡须显示了每个模型形式的中位数、四分位间距(IQR)和极值(1.5×IQR)。彩色区域是显示概率密度的小提琴图。右:模型相对秩分布热图;更频繁的行列颜色更深。

模型在三个测度上的两两图形式为A: Pearson相关系数(COR);B:均方根误差(RMSE);C:平均绝对百分比误差(MAPE)。沿着对角线的子面板显示了模型形式的测量密度。下三角形的子面板是表示状态季节的散点图(n=300)。在黑线上或靠近黑线(y=x)的点是状态季节,其中对模型形式具有相似的度量(相关性或误差)。上三角形中的子面板是图区域的每个二维(2D)网格中的点计数的热图(黄色为低计数,红色为高计数)。例如,比较RRS和SS0的相关性,可参见A的(5,4)散点图或(4,5)热图。

后验Nemenyi检验的平均秩和统计学意义。对于每个季节状态组合,模型形式从最佳(rank=1)到最差(rank=8)进行排序。

测量 模型 意思是排名 GFT一个 RRO 存款准备金率 RRS SS0 SRR SRS
皮尔逊相关系数(COR) GFT 2.67
RR0 4.55 <措施
存款准备金率 3.34 .002 <措施
RRS 3.68 <措施 <措施 .68点
SS0 6.87 <措施 <措施 <措施 <措施
SRR 4.37 <措施 .98点 <措施 . 01 <措施
SRS 4.75 <措施 .97点 <措施 <措施 <措施 55
瑞士 5.73 <措施 <措施 <措施 <措施 <措施 <措施 <措施
均方根误差(RMSE) GFT 4.46
RR0 5.27 .002
存款准备金率 4.68 .96点 06
RRS 4.82 .62 .35点 获得
SS0 5.77 <措施 .19 <措施 <措施
SRR 3.34 <措施 <措施 <措施 <措施 <措施
SRS 3.71 .005 <措施 <措施 <措施 <措施
瑞士 3.96 .2 <措施 <措施 <措施 <措施 .04点 .92
平均绝对比例误差(MAPE) GFT 5.26
RR0 4.91 主板市场
存款准备金率 5.18 获得 .89
RRS 5.7 .37点 .002 酒精含量
SS0 3.75 <措施 <措施 <措施 <措施
SRR 3.17 <措施 <措施 <措施 <措施 07
SRS 3.93 <措施 <措施 <措施 <措施 获得 <措施
瑞士 4.09 <措施 措施 <措施 <措施 i = <措施 获得

一个GFT:谷歌流感趋势。

Friedman-Nemenyi检验结果(见 表4,表明SRS的RMSE平均秩最低,除SRR模型外,与其他模型相比差异有统计学意义。SS0的MAPE平均排名最低,但与SRS或SRR没有统计学差异。同样有趣的是,继续使用ARIMA拟合区域ILI (SRR和SRS)的模型匹配或优于那些使用ARIMA拟合状态ILI (SS0和SSS)的模型。

讨论 主要研究结果

我们描述了一种利用GET在分区域水平上对ILI进行nowcast的方法,并根据美国六个流感季节和50个州的真实监测数据验证了所开发的模型。研究发现,该方法比自回归模型提供了改进的估计,但相对于GFT表现不佳。在大多数情况下,使用分区域一级监测数据的方法的变体优于GFT。

我们的研究结果支持了其他研究小组的早期发现,即ARIMA模型本身以及与其他方法结合使用在临近预报ILI中的适用性。这尤其适用于非常小的环境,例如医院或农村县卫生部门,在这些地方可以获得ILI的内部估计,而且短期预测对资源规划很有意义。

研究还发现,通过GET API访问的数据在更细的地理粒度上是稀疏的,仅依赖于搜索趋势数据的方法可能不适用于本地化的nowcast。这里描述的继承方法在一定程度上解决了这个问题,因为测试继承对模型性能的影响发现,继承提高了整体的相关性,特别是在人口较少的状态下;但对RMSE无显著影响,MAPE ( 多媒体附件1;图S3)。需要进行额外的分析来确定场景,例如,当一个状态的信号低于父区域的一部分或低于由历史似然确定的阈值时,在这种情况下继承是有用的。将替代数据流(如电子健康记录和社交媒体)作为随机森林模型的附加特征,可以消除对继承的需要,并潜在地改进即时预测。

S*模型使用州级ILI作为训练响应变量,其误差的减少使得每周公开发布这一信息成为理由。CDC通过汇总美国门诊ILI监测网(ILINet)每周由美国约2000名门诊卫生保健提供者提交的数据来估计HHS地区的ILI。从理论上讲,分区域级别的数据聚合是可能的,但对患者和提供者的隐私存在担忧。然而,考虑到我们的研究发现,无论是否使用分区域GET,依赖区域ILI都会产生较差的分区域nowcast,而且这些nowcast仅比使用区域ILI作为分区域ILI的代理略好,也许有必要重新考虑隐私方面的具体问题,并探索可能允许在分区域级别发布ILINet数据的匿名化方法。

由于一个HHS区域内的所有州都有相同的RRR nowcast估计,RRR和GFT在nowcast中的表现 区域ILI可以进行比较。对于所使用的三种精度测量中的任何一种,在区域水平上,RRR nowcast和GFT之间没有发现显著差异 多媒体附件1;表S4)。然而,在状态级别上,GFT优于R*模型的性能需要进一步分析。虽然我们对GFT模型形式知之甚少,但我们认为谷歌无法获得分区域CDC ILI数据来训练分区域模型。因此,GFT市级和州级的ILI估计可能是区域模型的外推,类似于这里描述的R*模型。这可能也解释了为什么我们的S*模型在RMSE和mof方面优于GFT——通过在州一级建立模型,州一级ILI数据相对于母区域的偏差被消除了,从而减少了误差(这种隐式偏差修正确实被观察到;看到 多媒体附件1;图S4)。如果GFT与现在通过GET公开获得的搜索趋势具有相同的访问权限,那么相对于R*模型的优越GFT分区域nowcast表明,这里提出的特征集和学习方法都需要进一步改进。另一方面,如果GFT拥有对GET的完全(100%)访问权,那么它相对于R*模型的优越性能可能更多地源于访问权的差异。

上面报道的验证方法的一个局限性是它没有考虑到ILI数据的后修订。疾病控制与预防中心的ILI估计在最初发布后的几周内更新,因为其他提供者提交了延迟的数据。我们无法获得关于州级ILI如何随时间更新的信息,但只能获得最终稳定的ILI。如果这个详细版本的数据集可用,则可以将使用ILI的瞬时估计生成的nowcast与最终的稳定ILI进行比较,从而获得更可靠的验证。

结论

总的来说,研究结果表明,只要这些尺度上的数据仍然受到限制,对更多局部尺度的近铸外推可能仍然具有挑战性。由于公共卫生干预措施和医院规划可以从及时和本地化的ILI估计中受益,因此放松这些限制可能是有必要的。

多媒体附件1

支持信息。

缩写 API

应用程序编程接口

华宇电脑

自回归综合移动平均

疾病预防控制中心

疾病控制和预防中心

得到

谷歌扩展趋势

GFT

谷歌流感趋势

美国卫生和公众服务部

美国卫生与公众服务部

伊犁

流感样疾病

ILINet

美国门诊流感样疾病监测网络

位差

四分位范围

日军

平均绝对百分比误差

MMWR

发病率和死亡率周报

RMSE

均方根误差

这项工作得到了美国国立卫生研究院(NIH;GM110748给JS和SK;GM100467到JS)。资助者在研究设计、数据收集和分析、发表决定或手稿准备中没有任何作用。作者要感谢Christian Stefansen和谷歌Health Trends团队在API和数据方面的有益讨论和帮助,以及Mehmet Turkcan在一些模型表单的早期版本开发方面的合作。

JS声明SK Analytics的部分所有权。SK是SK Analytics的承包商。

2017-09-04 流感(季节性)情况说明 http://www.who.int/mediacentre/factsheets/fs211/en/ 2017-09-04 流感疫苗 http://www.who.int/biologicals/vaccines/influenza/en/ J 墨菲 SL Kochanek KD 巴斯蒂安· 英航 死亡人数:2013年最终数据 Natl Vital Stat代表 2016 64 2 1 119 26905861 疾病预防控制中心 2017-09-04 美国流感监测概况 http://www.cdc.gov/flu/weekly/overview.htm 疾病预防控制中心 2017-09-04 FluView互动 https://gis.cdc.gov/grasp/fluview/fluportaldashboard.html 金斯堡 J Mohebbi MH 帕特尔 RS 布拉姆 l Smolinski 女士 才华横溢的 l 使用搜索引擎查询数据检测流感流行 自然 2009 02 19 457 7232 1012 4 10.1038 / nature07634 19020500 nature07634 lampo V 米勒 交流 Crossan 年代 Stefansen C 利用搜索查询日志预测流感样发病率的进展 Sci代表 2015 08 03 5 12760 10.1038 / srep12760 26234783 srep12760 PMC4522652 年代 Santillana SC 通过ARGO使用谷歌搜索数据准确估计流感流行 美国国立自然科学研究院 2015 11 24 112 47 14473 8 10.1073 / pnas.1515373112 26553980 1515373112 PMC4664296 Eysenbach G 科勒 C 互联网上与健康相关的搜索 美国医学协会 2004 06 23 291 24 2946 10.1001 / jama.291.24.2946 15213205 291/24/2946 Eysenbach G 信息流行病学:追踪网络上与流感相关的搜索,以进行症状监测 AMIA年度诉讼程序 2006 244 8 17238340 86095 PMC1839505 Polgreen Y Pennock DM 纳尔逊 FD 利用互联网搜索进行流感监测 临床感染病 2008 12 01 47 11 1443 48 10.1086/593098 18954267 Dredze 保罗 乔丹 Bergsma 年代 Tran H 卡门:一个应用于公共卫生的推特地理定位系统 2013 AAAI利用人工智能扩大卫生信息学边界研讨会(HIAI) 2013年7月14日至18日 贝尔维尤,美国华盛顿 保罗 乔丹 Dredze Broniatowski D 推特提高流感预测 公共科学图书馆咕咕叫 2014 10 28 6 1 2 10.1371 / currents.outbreaks.90b9ed0f59bae4ccaa683a39865d9117 25642377 PMC4234396 McIver DJ 布朗斯坦 JS 维基百科的使用几乎实时地估计了美国流感样疾病的流行率 PLoS计算生物学 2014 04 10 4 e1003581 10.1371 / journal.pcbi.1003581 24743682 pcompbiol - d - 13 - 02242 PMC3990502 Hickmann KS 飞兆 G Priedhorsky R 慷慨的 N 海曼 JM Deshpande 一个 Del Valle SY 使用维基百科预测2013-2014年流感季节 PLoS计算生物学 2015 05 11 5 e1004239 10.1371 / journal.pcbi.1004239 25974758 pcompbiol - d - 14 - 01771 PMC4431683 J 布朗斯坦 J 利用健康地图数据预测流感活动 2015 化学生物防御会议 2015年5月12-14日 密苏里州圣路易斯 Smolinski 女士 克劳利 亚历山大-伍尔兹 Baltrusaitis K Chunara R 奥尔森 JM Wojcik O Santillana 一个 布朗斯坦 JS 你身边的流感:跨越两个流感季节的众包症状报告 公共卫生 2015 10 105 10 2124 30. 10.2105 / AJPH.2015.302696 26270299 PMC4566540 Santillana Dredze 保罗 乔丹 Nsoesie EO 布朗斯坦 JS 结合搜索、社交媒体和传统数据源,改善流感监测 PLoS计算生物学 2015 10 11 10 e1004513 10.1371 / journal.pcbi.1004513 26513245 pcompbiol - d - 15 - 00856 PMC4626021 法罗 D 2016 2017-10-08 模拟流感的过去、现在和未来 https://delphi.midas.cs.cmu.edu/~dfarrow/thesis.pdf 谷歌研究博客 2017-09-04 流感趋势的下一章 https://research.googleblog.com/2015/08/the-next-chapter-for-flu-trends.html Santillana DW Althouse BM 艾尔斯 JW 数字疾病检测可以从谷歌流感趋势(外部修订)中学到什么? 是J Prev Med吗 2014 09 47 3. 341 7 10.1016 / j.amepre.2014.05.020 24997572 s0749 - 3797 (14) 00238 - 4 Tibshirani R 1996 2017-10-08 通过套索回归收缩和选择 https://statweb.stanford.edu/~tibs/lasso/lasso.pdf 奥尔森 博士 Konty KJ Paladini Viboud C 西蒙森 l 重新评估谷歌流感趋势数据以检测季节性和大流行性流感:三个地理尺度的比较流行病学研究 PLoS计算生物学 2013 9 10 e1003256 10.1371 / journal.pcbi.1003256 24146603 pcompbiol - d - 13 - 00957 PMC3798275 Pollett 年代 Boscardin WJ Azziz-Baumgartner E Tinoco 索托 G 罗梅罗 C J 带给 Viboud C 卢瑟福 吉瓦 评估拉丁美洲谷歌流感趋势:下一阶段数字疾病检测的重要经验教训 临床感染病 2017 01 01 64 1 34 41 10.1093 / cid / ciw657 27678084 ciw657 美国卫生与公众服务部 卫生与公众服务部区域办事处 2017-09-04 https://www.hhs.gov/about/agencies/regional-offices/index.html 谷歌 2017-09-04 谷歌相关 https://www.google.com/trends/correlate Mohebbi Vanderkam D Kodysh J 勋伯格 R H 库马尔 年代 谷歌 2017-09-04 谷歌相关白皮书 https://www.google.com/trends/correlate/whitepaper.pdf W 2013 2017-09-04 利用动态更新的套索回归和谷歌搜索查询,开发美国流感活动的实时估计 http://www.people.fas.harvard.edu/~msantill/Mauricio_Santillana/Teaching_files/D_Zhang_thesis_final.pdf Bollacker K 埃文斯 C 介绍, P 他是 T 泰勒 J Freebase:一个协作创建的图形数据库,用于构建人类知识 2008 数据管理国际会议 2008年6月9日至12日 温哥华,卑诗省,加拿大 德宾 J •库普曼 年代 状态空间方法的时间序列分析 2012 牛津大学,英国 牛津大学出版社 汉密尔顿 JD 时间序列分析 1994 普林斯顿,纽约 普林斯顿大学出版社 里普利 双相障碍 2002 2017-10-08 R 1.5.0中的时间序列 https://www.r-project.org/doc/Rnews/Rnews_2002-2.pdf Broniatowski 保罗 乔丹 Dredze 通过推特进行国家和地方流感监测:2012-2013年流感流行分析 《公共科学图书馆•综合》 2013 8 12 e83672 10.1371 / journal.pone.0083672 24349542 玉米饼- d - 13 - 35058 PMC3857320 Broniatowski Dredze 保罗 乔丹 Dugas 一个 利用社交媒体在内城医院进行当地流感监测:一项回顾性观察研究 JMIR公共卫生监测 2015 1 1 e5 10.2196 / publichealth.4472 27014744 PMC4803078 Hyndman RJ Khandakar Y 自动时间序列预测:R J统计软件 2008 27 3. 2008 10.18637 / jss.v027.i03 Hyndman R 2017-09-04 时间序列和线性模型的预测函数 https://cran.r-project.org/web/packages/forecast/index.html 黑斯蒂 T Tibshirani R 弗里德曼 JH 统计学习的要素:数据挖掘、推断和预测 2009 纽约州纽约 施普林格 Breiman l 随机森林 马赫学习 2001 45 1 5 32 10.1023 /: 1010933404324 Breiman l 2002 2017-09-04 关于设置、使用和理解随机森林v3.1的手册 https://www.stat.berkeley.edu/~breiman/Using_random_forests_V3.1.pdf 疾病预防控制中心 2017-09-04 MMWR周 https://wwwn.cdc.gov/nndss/document/MMWR_week_overview.pdf 弗里德曼 使用秩来避免方差分析中隐含的正态性假设 美国统计协会 1937 12 32 200 675 701 10.1080 / 01621459.1937.10503522 荷兰人 乌尔夫 E 非参数统计方法 2013 新泽西州霍博肯, 威利 Nemenyi P 无分布多重比较 1963 普林斯顿,纽约 普林斯顿大学 Pohlert T 2014 2017-09-04 PMCMR:计算平均秩和的成对多次比较 https://cran.r-project.org/web/packages/PMCMR/index.html Liaw 一个 维纳 Cogns.northwestern 2002 随机森林分类和回归 http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf R核心团队 r项目 2013 R:用于统计计算的语言和环境 http://www.r-project.org/
Baidu
map