这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
要在州或城市一级限制季节性流感疫情的不利影响,就需要密切监测局部疫情并对其进展进行可靠预测。尽管流感或流感样疾病(ILI)的预测模型越来越可用,但由于无法在局部尺度上实时观测当前疫情状态,其对局部疫情的适用性受到限制。由各个卫生部门收集的监测数据被广泛接受为估计疫情状态的参考标准,在缺乏监测数据的情况下,使用基于web的活动(如搜索引擎查询、推文和访问与卫生相关的网页)构建的临近预报代理可能很有用。谷歌流感趋势(GFT)之前发布了州和市ILI的Nowcast估计;然而,这些估计的验证很少被报道。
本研究的目的是建立并验证分区域地理尺度的ILI近预报模型。
我们建立了基于自回归(自回归集成移动平均;ARIMA)和监督回归方法(随机森林)在美国州一级使用区域加权ILI和基于web的搜索活动,这些搜索活动源自谷歌的扩展趋势应用程序编程接口。我们使用50个州六个季节的实际监测数据验证了这些方法的性能。我们还使用州一级的ILI估计建立了州一级的nowcast模型,并将这些估计的准确性与州一级推断的区域模型的估计以及GFT公布的nowcast估计进行了比较。
使用区域ILI外推到州一级建立的模型的中位相关性为0.84(四分位数范围:0.74-0.91),中位均方根误差(RMSE)为1.01 (IQR: 0.74-1.50),在季节和州人口规模之间具有明显的变化。假设州一级监测数据的及时可用性的模型形式显示出显著较低的误差,为0.83(0.55-0.23)。与GFT相比,后一种模型形式的误差更小,相关性也更低。
这些结果表明,所提出的方法可能是已停止的GFT的替代方法,进一步提高分区域短时预报的质量可能需要更多地获得更精细分辨的监测数据。
据估计,全球每年有5%至10%的成年人感染季节性流感,儿童和老年人的发病率更高[
已经提出了几种方法来补充CDC的ILI,这些方法基于搜索查询进行估计[
谷歌流感趋势(GFT) [
尽管这些研究令人鼓舞,但这些模型是在美国国家层面开发和验证的,其中有响应变量ILI。将这些国家模式外推到无法公开获得疾控中心ILI的分区域决议,可能会产生精度有限的nowcast。GFT团队尚未发表用于在分区域尺度上生成nowcast的方法,而且对分区域水平上的GFT估计的验证研究很少[
在本文中,我们提出了利用GET在分区域水平进行ILI nowcast的方法。这些方法被回顾性地应用于在美国50个州生成六个季节的nowcast,报告不同模型形式的准确性,并将其与已发表的GFT进行比较。据观察,利用区域一级发展的模式可能无法对分区域ILI进行准确的即时预测;相反,必须利用分区域ILI数据建立分区域ILI nowcast模型。
为了在美国州一级建立临近预测模型,首先在区域一级建立随机森林回归模型(由美国卫生与公众服务部定义,HHS [
独立地,使用cdc提供的ILI的州级估计作为响应变量,建立了州级nowcast模型。这些州级ILI估算数据尚未公开,是应要求提供给本研究的。然后,将使用这些州模型得出的州级nowcast估计的误差与州级外推的区域模型的估计进行比较。
GET API允许用户检索在搜索会话期间查询指定术语的概率的时间轴数据。其他参数允许指定地理(国家、州等)和时间(每天、每周等)粒度和感兴趣的时间段。查询概率是根据所有搜索的10%到15%的随机样本计算的;搜索量不满足最小阈值的术语被认为是私有的,其概率报告为0。数据每日更新,并提供2004年1月以来的历史趋势。因此,使用GET开发的nowcast模型可以提供比CDC ILI数据至少多一周的ILI估计,后者发布有5到11天的滞后。
在这项研究中,由于我们对州一级的nowcast感兴趣,
与CDC ILI高度相关的查询使用谷歌相关[
在检查与ILI相关的术语的查询分数时,发现一些在国家层面具有相当大的搜索活动的术语,在州层面通常很少或没有活动,并且报告为0 (
兰波斯等[
在
自回归综合移动平均(ARIMA)公式。
随机森林是一种基于决策树的集成监督学习器,可用于回归[
基于决策树的方法沿着解释变量分割特征空间,并学习单独的拟合,
在本研究中,随机森林[
文中详细描述了该模型
CDC应数据要求提供了2000-01赛季至2010-11赛季的州一级ILI计数(每10万名患者就诊)。这些计数被认为是真实值,以验证上述模型的估计值。由于GET数据仅从2004年1月起可用,七个重叠流感季节中的最后六个(
对于六个季节中的每个状态,计算了Pearson相关系数(COR)、均方根误差(RMSE)和平均绝对比例误差(MAPE)。在
两种误差度量的公式:均方根误差(RMSE)和平均绝对比例误差(MAPE)。
为了生成一个州的nowcast,用相应的区域数据训练的模型被外推到州一级。对于这种外推,上面描述的模型公式使用区域ILI作为响应变量进行训练,使用区域ILI和状态GET查询分数的ARIMA拟合作为解释变量。我们将这种形式称为RRS。研究了另外两种替代形式:RR0,其中州的ILI估计值只是其区域的ARIMA估计值;RRR,其中州的GET查询分数替换为其父区域的查询分数。
RRS相对于RR0的准确性表明了GET和随机森林增加的价值,以及RRS相对于RRR的准确性表明了通过使用更本地化的GET数据增加的价值。由于GFT是在用于验证的六个季节中发布的,因此这三种模型形式的性能也与GFT进行了比较。
以区域ILI为响应变量,构建上述三种模型形式。由于CDC每周发布区域ILI,这些模型适用于实时操作nowcast。虽然分区域ILI的估计值没有公开提供,但州和市卫生机构有这些估计值供内部使用,值得开发和测试分区域ILI可能采用的模型形式。
另外定义了四种模型形式:SS0,一种适合ILI状态的简单ARIMA模型;SRR和SRS,除了用于训练的响应变量外,它们分别与RRR和RRS相似;SSS不直接使用任何区域信息。请参阅
为了比较不同的模型形式,并检验差异是否具有统计学意义,我们使用了Friedman秩和检验[
在RRS模型中使用的解释变量中,ARIMA组件(
尽管RRS模型的相关性令人鼓舞,但GFT估计值总体上和几乎所有分类组都具有更好的中位数测度。谷歌尚未公布其在分区域一级估计ILI的方法,目前尚不清楚GFT估计数是否得益于对趋势数据的更全面的访问,或者绩效收益是否仅仅是方法上的。
按重要性排序的前20个特征由区域级建立的随机森林模型确定。红色的点和胡须分别表示中位数和四分位范围(IQR),而蓝色的点是平均值。标签显示了使用该特性的模型的百分比(n=3130)。ar为自回归综合移动平均(ARIMA)分量。ENT前缀的功能是使用Freebase标识的实体。
RRS、RR0、RRR模型和谷歌流感趋势(GFT)的中位数(四分位数范围)、皮尔逊相关系数(COR)、均方根误差(RMSE)和平均绝对比例误差(MAPE)。结果按州人口规模和季节分层。
|
|
|
|
GFT一个、中值 |
||
|
|
|
|
|
||
|
整体 | 0.85 (0.74 - -0.91) | 0.83 (0.7 - -0.9) | 0.86 (0.75 - -0.91) | 0.89 (0.8 - -0.94) | |
|
|
|
|
|
|
|
|
|
0 - 2 (n = 14) | 0.79 (0.64 - -0.87) | 0.76 (0.62 - -0.86) | 0.81 (0.67 - -0.88) | 0.83 (0.72 - -0.91) |
|
|
2 - 5 (n = 14) | 0.84 (0.72 - -0.89) | 0.82 (0.7 - -0.89) | 0.84 (0.75 - -0.90) | 0.9 (0.81 - -0.94) |
|
|
5 - 7.5 (n = 10) | 0.84 (0.74 - -0.91) | 0.82 (0.7 - -0.9) | 0.86 (0.73 - -0.92) | 0.89 (0.8 - -0.95) |
|
|
≥7.5 (n = 12) | 0.91 (0.85 - -0.93) | 0.9 (0.84 - -0.93) | 0.91 (0.86 - -0.94) | 0.93 (0.86 - -0.96) |
|
|
|
|
|
|
|
|
|
- 06 | 0.8 (0.62 - -0.85) | 0.8 (0.62 - -0.85) | 0.81 (0.64 - -0.87) | 0.83 (0.71 - -0.88) |
|
|
07 | 0.82 (0.65 - -0.88) | 0.8 (0.6 - -0.88) | 0.82 (0.71 - -0.89) | 0.83 (0.76 - -0.9) |
|
|
07-08 | 0.88 (0.81 - -0.92) | 0.87 (0.79 - -0.92) | 0.89 (0.82 - -0.93) | 0.93 (0.87 - -0.96) |
|
|
扭转 | 0.75 (0.69 - -0.83) | 0.71 (0.58 - -0.82) | 0.78 (0.67 - -0.83) | 0.81 (0.71 - -0.89) |
|
|
09-10 | 0.9 (0.85 - -0.93) | 0.89 (0.8 - -0.93) | 0.9 (0.85 - -0.93) | 0.97 (0.94 - -0.98) |
|
|
外扩 | 0.89 (0.82 - -0.92) | 0.88 (0.75 - -0.91) | 0.89 (0.85 - -0.92) | 0.89 (0.86 - -0.93) |
|
|
|
|
|
||
|
整体 | 0.99 (0.7 - -1.51) | 1.06 (0.73 - -1.56) | 0.97 (0.72 - -1.54) | 0.93 (0.66 - -1.33) | |
|
|
|
|
|
|
|
|
|
0 - 2 (n = 14) | 1.06 (0.69 - -1.58) | 1.19 (0.73 - -1.62) | 1.05 (0.72 - -1.6) | 0.88 (0.63 - -1.29) |
|
|
2 - 5 (n = 14) | 1.21 (0.84 - -1.87) | 1.33 (0.92 - -1.81) | 1.22 (0.83 - -1.84) | 1.02 (0.78 - -1.52) |
|
|
5 - 7.5 (n = 10) | 0.93 (0.65 - -1.21) | 0.98 (0.72 - -1.33) | 0.93 (0.61 - -1.14) | 0.88 (0.67 - -1.48) |
|
|
≥7.5 (n = 12) | 0.87 (0.66 - -1.01) | 0.85 (0.70 - -1.08) | 0.88 (0.69 - -1.01) | 0.87 (0.63 - -1.16) |
|
|
|
|
|
|
|
|
|
- 06 | 0.93 (0.64 - -1.5) | 0.92 (0.70 - -1.64) | 0.93 (0.64 - -1.52) | 0.88 (0.60 - -1.45) |
|
|
07 | 0.84 (0.56 - -1.16) | 0.89 (0.57 - -1.16) | 0.85 (0.5 - -1.1) | 0.82 (0.52 - -1.13) |
|
|
07-08 | 1.08 (0.81 - -1.7) | 1.06 (0.83 - -1.59) | 0.99 (0.82 - -1.67) | 1.09 (0.70 - -1.55) |
|
|
扭转 | 1.02 (0.77 - -1.47) | 1.10 (0.79 - -1.48) | 1.03 (0.79 - -1.55) | 1.02 (0.79 - -1.41) |
|
|
09-10 | 1.31 (0.98 - -1.77) | 1.40 (1.08 - -1.72) | 1.28 (0.98 - -1.72) | 1.05 (0.80 - -1.32) |
|
|
外扩 | 0.77 (0.59 - -1.16) | 0.83 (0.61 - -1.26) | 0.83 (0.59 - -1.15) | 0.73 (0.64 - -1.20) |
|
|
|
|
|
||
|
整体 | 0.8 (0.43 - -1.75) | 0.67 (0.42 - -1.54) | 0.77 (0.43 - -1.62) | 0.71 (0.44 - -1.51) | |
|
|
|
|
|
|
|
|
|
0 - 2 (n = 14) | 0.9 (0.54 - -1.7) | 0.77 (0.51 - -1.41) | 0.84 (0.55 - -1.55) | 0.76 (0.51 - -1.56) |
|
|
2 - 5 (n = 14) | 0.95 (0.48 - -1.79) | 0.82 (0.44 - -1.65) | 0.87 (0.45 - -1.71) | 0.77 (0.41 - -1.48) |
|
|
5 - 7.5 (n = 10) | 0.65 (0.36 - -1.62) | 0.59 (0.37 - -1.69) | 0.63 (0.35 - -1.57) | 0.68 (0.4 - -1.41) |
|
|
≥7.5 (n = 12) | 0.65 (0.34 - -1.64) | 0.54 (0.3 - -1.34) | 0.65 (0.33 - -1.5) | 0.7 (0.43 - -1.54) |
|
|
|
|
|
|
|
|
|
- 06 | 1.2 (0.46 - -3.06) | 0.78 (0.47 - -2.77) | 0.99 (0.49 - -2.72) | 1.07 (0.56 - -2.67) |
|
|
07 | 0.97 (0.53 - -1.84) | 0.92 (0.49 - -1.81) | 0.91 (0.51 - -1.67) | 0.88 (0.46 - -1.48) |
|
|
07-08 | 0.85 (0.5 - -1.67) | 0.83 (0.49 - -1.64) | 0.81 (0.51 - -1.51) | 0.76 (0.5 - -1.57) |
|
|
扭转 | 0.82 (0.47 - -1.59) | 0.67 (0.43 - -1.36) | 0.84 (0.43 - -1.52) | 0.71 (0.44 - -1.48) |
|
|
09-10 | 0.73 (0.36 - -1.96) | 0.64 (0.4 - -1.83) | 0.74 (0.36 - -1.96) | 0.63 (0.43 - -1.17) |
|
|
外扩 | 0.49 (0.3 - -1.04) | 0.48 (0.28 - -0.96) | 0.48 (0.31 - -1.04) | 0.61 (0.32 - -0.93) |
一个GFT:谷歌流感趋势。
bPearson相关系数。
cRMSE:均方根误差。
dMAPE:平均绝对百分比误差。
后验Nemenyi检验的平均秩和统计学意义。对于每个季节状态组合,模型形式从最佳(rank=1)到最差(rank=4)进行排序。
|
天哪一个 | RMSEb | 日军c | |||||||||
|
|
GFTd |
|
|
|
|
|
|
|
|
|
|
GFT | 1.91 |
|
|
|
2.33 |
|
|
|
2.45 |
|
|
|
RR0 | 3.07 | <措施 |
|
|
2.75 | <措施 |
|
|
2.24 | 。 |
|
|
存款准备金率 | 2.38 | <措施 | <措施 |
|
2.41 | .89 | . 01 |
|
2.43 | 获得 | 二十五分 |
|
RRS | 2.63 | <措施 | <措施 | .1 | 2.51 | .35点 | .09点 | .79 | 2.87 | <措施 | <措施 | <措施 |
一个Pearson相关系数。
bRMSE:均方根误差。
cMAPE:平均绝对百分比误差。
dGFT:谷歌流感趋势。
总体而言,RRR模型的性能与RRS模型相当,这表明在这里描述的模型中使用的状态本地化GET数据并不能提高临近预报的精度。因为RR0降低(降低)相关性,不改变RMSE并显著降低(改善)MAPE,因此完全忽略GET数据的效果仍然不确定。
将比较扩展到使用状态ILI作为响应变量构建的模型表单(
谷歌流感趋势(GFT)、SS0、SRR、SRS和SSS模型的中位数(四分位数范围)、皮尔逊相关系数(COR)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)。结果按州人口和季节分层。
|
GFT一个、中值 |
|
|
|
|
||
|
|
|
|
|
|
||
|
整体 | 0.89 (0.8 - -0.94) | 0.56 (0.4 - -0.75) | 0.8 (0.7 - -0.88) | 0.8 (0.7 - -0.88) | 0.74 (0.61 - -0.83) | |
|
|
|
|
|
|
|
|
|
|
0 - 2 (n = 14) | 0.83 (0.72 - -0.91) | 0.46 (0.31 - -0.66) | 0.74 (0.57 - -0.82) | 0.71(0.56 0。8) | 0.62 (0.55 - -0.74) |
|
|
2 - 5 (n = 14) | 0.9 (0.81 - -0.94) | 0.58 (0.42 - -0.76) | 0.78 (0.72 - -0.87) | 0.8 (0.72 - -0.85) | 0.73 (0.66 - -0.81) |
|
|
5 - 7.5 (n = 10) | 0.89 (0.8 - -0.95) | 0.51 (0.36 - -0.64) | 0.83 (0.7 - -0.88) | 0.81 (0.73 - -0.88) | 0.75 (0.63 - -0.82) |
|
|
≥7.5 (n = 12) | 0.93 (0.86 - -0.96) | 0.73 (0.48 - -0.85) | 0.88 (0.79 - -0.92) | 0.89 (0.8 - -0.92) | 0.86 (0.72 - -0.91) |
|
|
|
|
|
|
|
|
|
|
- 06 | 0.83 (0.71 - -0.88) | 0.72 (0.56 - -0.85) | 0.78 (0.68 - -0.86) | 0.76 (0.62 - -0.86) | 0.74 (0.66 - -0.86) |
|
|
07 | 0.83 (0.76 - -0.9) | 0.75 (0.61 - -0.84) | 0.8 (0.7 - -0.88) | 0.8 (0.64 - -0.87) | 0.8 (0.72 - -0.89) |
|
|
07-08 | 0.93 (0.87 - -0.96) | 0.61 (0.47 - -0.77) | 0.87 (0.78 - -0.92) | 0.86 (0.78 - -0.9) | 0.81 (0.73 - -0.86) |
|
|
扭转 | 0.81 (0.71 - -0.89) | 0.37 (0.28 - -0.44) | 0.7 (0.59 - -0.8) | 0.74 (0.58 - -0.79) | 0.57 (0.45 - -0.68) |
|
|
09-10 | 0.97 (0.94 - -0.98) | 0.51 (0.39 - -0.73) | 0.82 (0.75 - -0.89) | 0.82 (0.74 - -0.89) | 0.74 (0.63 - -0.85) |
|
|
外扩 | 0.89 (0.86 - -0.93) | 0.47 (0.33 - -0.6) | 0.82 (0.75 - -0.88) | 0.81 (0.75 - -0.88) | 0.71 (0.63 - -0.78) |
|
|
|
|
|
|
||
|
整体 | 0.93 (0.66 - -1.33) | 1.07 (0.68 - -1.84) | 0.84 (0.54 - -1.25) | 0.86 (0.55 - -1.27) | 0.9 (0.55 - -1.35) | |
|
|
|
|
|
|
|
|
|
|
0 - 2 (n = 14) | 0.88 (0.63 - -1.29) | 1.17 (0.61 - -1.92) | 0.96 (0.55 - -1.47) | 0.96 (0.62 - -1.49) | 0.92 (0.58 - -1.44) |
|
|
2 - 5 (n = 14) | 1.02 (0.78 - -1.52) | 1.37 (0.83 - -2.13) | 1.04 (0.7 - -1.54) | 1.11 (0.62 - -1.57) | 1.11 (0.66 - -1.68) |
|
|
5 - 7.5 (n = 10) | 0.88 (0.67 - -1.48) | 0.99 (0.66 - -1.79) | 0.74 (0.49 - -1.07) | 0.71 (0.51 - -1.14) | 0.79 (0.55 - -1.24) |
|
|
≥7.5 (n = 12) | 0.87 (0.63 - -1.16) | 0.91 (0.64 - -1.49) | 0.69 (0.43 - -1.05) | 0.67 (0.41 - -0.99) | 0.74 (0.46 - -1.01) |
|
|
|
|
|
|
|
|
|
|
- 06 | 0.88 (0.60 - -1.45) | 0.81 (0.49 - -1.47) | 0.71 (0.5 - -1.11) | 0.68 (0.49 - -1.13) | 0.64 (0.46 - -1.06) |
|
|
07 | 0.82 (0.52 - -1.13) | 0.70 (0.48 - -1.02) | 0.59 (0.43 - -0.88) | 0.58 (0.42 - -0.94) | 0.56 (0.41 - -0.83) |
|
|
07-08 | 1.09 (0.70 - -1.55) | 1.36 (0.78 - -1.85) | 0.91 (0.54 - -1.27) | 0.95 (0.58 - -1.37) | 0.97 (0.6 - -1.42) |
|
|
扭转 | 1.02 (0.79 - -1.41) | 1.21 (0.92 - -1.98) | 0.95 (0.69 - -1.31) | 0.93 (0.67 - -1.26) | 1.05 (0.78 - -1.4) |
|
|
09-10 | 1.05 (0.80 - -1.32) | 1.91 (1.28 - -2.44) | 1.34 (0.9 - -1.9) | 1.37 (0.92 - -1.92) | 1.53 (1.01 - -1.9) |
|
|
外扩 | 0.73 (0.64 - -1.20) | 1.00 (0.73 - -1.62) | 0.73 (0.5 - -1.04) | 0.7 (0.51 - -1.1) | 0.86 (0.58 - -1.16) |
|
|
|
|
|
|
||
|
整体 | 0.71 (0.44 - -1.51) | 0.58 (0.38 - -0.8) | 0.54 (0.33 - -0.9) | 0.61 (0.34 - 1) | 0.61 (0.35 - -1.02) | |
|
|
|
|
|
|
|
|
|
|
0 - 2 (n = 14) | 0.76 (0.51 - -1.56) | 0.68 (0.48 - -0.86) | 0.76 (0.5 - -1.36) | 0.84 (0.56 - -1.44) | 0.82 (0.58 - -1.28) |
|
|
2 - 5 (n = 14) | 0.77 (0.41 - -1.48) | 0.63 (0.36 - -0.85) | 0.58 (0.36 - -0.9) | 0.64 (0.39 - 1) | 0.68 (0.37 - -1.02) |
|
|
5 - 7.5 (n = 10) | 0.68 (0.4 - -1.41) | 0.58 (0.39 - -0.74) | 0.41 (0.31 - -0.75) | 0.46 (0.32 - -0.86) | 0.55 (0.34 - -0.92) |
|
|
≥7.5 (n = 12) | 0.7 (0.43 - -1.54) | 0.4 (0.31 - -0.59) | 0.38 (0.2 - -0.59) | 0.37 (0.2 - -0.69) | 0.41 (0.24 - -0.61) |
|
|
|
|
|
|
|
|
|
|
- 06 | 1.07 (0.56 - -2.67) | 0.59 (0.39 - -0.8) | 0.68 (0.4 - -0.93) | 0.77 (0.41 - -1.12) | 0.74 (0.38 - -1.08) |
|
|
07 | 0.88 (0.46 - -1.48) | 0.54 (0.36 - -0.71) | 0.51 (0.32 - -0.84) | 0.62 (0.35 - -0.94) | 0.58 (0.3 - -0.89) |
|
|
07-08 | 0.76 (0.5 - -1.57) | 0.69 (0.4 - -0.83) | 0.54 (0.38 - -0.78) | 0.62 (0.41 - -0.94) | 0.62 (0.38 - -0.81) |
|
|
扭转 | 0.71 (0.44 - -1.48) | 0.57 (0.42 - -0.77) | 0.62 (0.37 - -1.01) | 0.66 (0.36 - -0.93) | 0.68 (0.39 - -1.14) |
|
|
09-10 | 0.63 (0.43 - -1.17) | 0.59 (0.36 - -0.85) | 0.52 (0.31 - -1.25) | 0.59 (0.31 - -1.38) | 0.67 (0.37 - -1.14) |
|
|
外扩 | 0.61 (0.32 - -0.93) | 0.5 (0.35 - -0.85) | 0.38 (0.26 - -0.67) | 0.38 (0.26 - -0.75) | 0.43 (0.31 - -0.83) |
一个GFT:谷歌流感趋势。
bPearson相关系数。
cRMSE:均方根误差。
dMAPE:平均绝对百分比误差。
不同模型的测度形式A: Pearson相关系数(COR);B:均方根误差(RMSE);C:平均绝对百分比误差(MAPE)。左:方框和胡须显示了每个模型形式的中位数、四分位间距(IQR)和极值(1.5×IQR)。彩色区域是显示概率密度的小提琴图。右:模型相对秩分布热图;更频繁的行列颜色更深。
模型在三个测度上的两两图形式为A: Pearson相关系数(COR);B:均方根误差(RMSE);C:平均绝对百分比误差(MAPE)。沿着对角线的子面板显示了模型形式的测量密度。下三角形的子面板是表示状态季节的散点图(n=300)。在黑线上或靠近黑线(y=x)的点是状态季节,其中对模型形式具有相似的度量(相关性或误差)。上三角形中的子面板是图区域的每个二维(2D)网格中的点计数的热图(黄色为低计数,红色为高计数)。例如,比较RRS和SS0的相关性,可参见A的(5,4)散点图或(4,5)热图。
后验Nemenyi检验的平均秩和统计学意义。对于每个季节状态组合,模型形式从最佳(rank=1)到最差(rank=8)进行排序。
|
|
|
GFT一个 |
|
|
|
|
|
|
皮尔逊相关系数(COR) | GFT | 2.67 |
|
|
|
|
|
|
|
|
RR0 | 4.55 | <措施 |
|
|
|
|
|
|
|
存款准备金率 | 3.34 | .002 | <措施 |
|
|
|
|
|
|
RRS | 3.68 | <措施 | <措施 | .68点 |
|
|
|
|
|
SS0 | 6.87 | <措施 | <措施 | <措施 | <措施 |
|
|
|
|
SRR | 4.37 | <措施 | .98点 | <措施 | . 01 | <措施 |
|
|
|
SRS | 4.75 | <措施 | .97点 | <措施 | <措施 | <措施 | 55 |
|
|
瑞士 | 5.73 | <措施 | <措施 | <措施 | <措施 | <措施 | <措施 | <措施 |
均方根误差(RMSE) | GFT | 4.46 |
|
|
|
|
|
|
|
|
RR0 | 5.27 | .002 |
|
|
|
|
|
|
|
存款准备金率 | 4.68 | .96点 | 06 |
|
|
|
|
|
|
RRS | 4.82 | .62 | .35点 | 获得 |
|
|
|
|
|
SS0 | 5.77 | <措施 | .19 | <措施 | <措施 |
|
|
|
|
SRR | 3.34 | <措施 | <措施 | <措施 | <措施 | <措施 |
|
|
|
SRS | 3.71 | .005 | <措施 | <措施 | <措施 | <措施 | 收 |
|
|
瑞士 | 3.96 | .2 | <措施 | <措施 | <措施 | <措施 | .04点 | .92 |
平均绝对比例误差(MAPE) | GFT | 5.26 |
|
|
|
|
|
|
|
|
RR0 | 4.91 | 主板市场 |
|
|
|
|
|
|
|
存款准备金率 | 5.18 | 获得 | .89 |
|
|
|
|
|
|
RRS | 5.7 | .37点 | .002 | 酒精含量 |
|
|
|
|
|
SS0 | 3.75 | <措施 | <措施 | <措施 | <措施 |
|
|
|
|
SRR | 3.17 | <措施 | <措施 | <措施 | <措施 | 07 |
|
|
|
SRS | 3.93 | <措施 | <措施 | <措施 | <措施 | 获得 | <措施 |
|
|
瑞士 | 4.09 | <措施 | 措施 | <措施 | <措施 | i = | <措施 | 获得 |
一个GFT:谷歌流感趋势。
Friedman-Nemenyi检验结果(见
我们描述了一种利用GET在分区域水平上对ILI进行nowcast的方法,并根据美国六个流感季节和50个州的真实监测数据验证了所开发的模型。研究发现,该方法比自回归模型提供了改进的估计,但相对于GFT表现不佳。在大多数情况下,使用分区域一级监测数据的方法的变体优于GFT。
我们的研究结果支持了其他研究小组的早期发现,即ARIMA模型本身以及与其他方法结合使用在临近预报ILI中的适用性。这尤其适用于非常小的环境,例如医院或农村县卫生部门,在这些地方可以获得ILI的内部估计,而且短期预测对资源规划很有意义。
研究还发现,通过GET API访问的数据在更细的地理粒度上是稀疏的,仅依赖于搜索趋势数据的方法可能不适用于本地化的nowcast。这里描述的继承方法在一定程度上解决了这个问题,因为测试继承对模型性能的影响发现,继承提高了整体的相关性,特别是在人口较少的状态下;但对RMSE无显著影响,MAPE (
S*模型使用州级ILI作为训练响应变量,其误差的减少使得每周公开发布这一信息成为理由。CDC通过汇总美国门诊ILI监测网(ILINet)每周由美国约2000名门诊卫生保健提供者提交的数据来估计HHS地区的ILI。从理论上讲,分区域级别的数据聚合是可能的,但对患者和提供者的隐私存在担忧。然而,考虑到我们的研究发现,无论是否使用分区域GET,依赖区域ILI都会产生较差的分区域nowcast,而且这些nowcast仅比使用区域ILI作为分区域ILI的代理略好,也许有必要重新考虑隐私方面的具体问题,并探索可能允许在分区域级别发布ILINet数据的匿名化方法。
由于一个HHS区域内的所有州都有相同的RRR nowcast估计,RRR和GFT在nowcast中的表现
上面报道的验证方法的一个局限性是它没有考虑到ILI数据的后修订。疾病控制与预防中心的ILI估计在最初发布后的几周内更新,因为其他提供者提交了延迟的数据。我们无法获得关于州级ILI如何随时间更新的信息,但只能获得最终稳定的ILI。如果这个详细版本的数据集可用,则可以将使用ILI的瞬时估计生成的nowcast与最终的稳定ILI进行比较,从而获得更可靠的验证。
总的来说,研究结果表明,只要这些尺度上的数据仍然受到限制,对更多局部尺度的近铸外推可能仍然具有挑战性。由于公共卫生干预措施和医院规划可以从及时和本地化的ILI估计中受益,因此放松这些限制可能是有必要的。
支持信息。
应用程序编程接口
自回归综合移动平均
疾病控制和预防中心
谷歌扩展趋势
谷歌流感趋势
美国卫生与公众服务部
流感样疾病
美国门诊流感样疾病监测网络
四分位范围
平均绝对百分比误差
发病率和死亡率周报
均方根误差
这项工作得到了美国国立卫生研究院(NIH;GM110748给JS和SK;GM100467到JS)。资助者在研究设计、数据收集和分析、发表决定或手稿准备中没有任何作用。作者要感谢Christian Stefansen和谷歌Health Trends团队在API和数据方面的有益讨论和帮助,以及Mehmet Turkcan在一些模型表单的早期版本开发方面的合作。
JS声明SK Analytics的部分所有权。SK是SK Analytics的承包商。