卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

冈瑟Eysenbach

卡塔尔世界杯8强波胆分析JMIR出版公司，多伦多，加拿大

v14i5e125

23037553

10.2196 / jmir.2102

原始论文

FluBreaks:谷歌流感趋势的早期流行检测

Eysenbach

冈瑟

Gatton

米歇尔

Pervaiz

法赫德

废话 1

科学与工程学院“，计算机科学系拉合尔管理科学大学

u区对面，d.h.a

拉合尔,54792

巴基斯坦 92 333 443 8347 92 42 3560 8303 fahadp@lums.edu.pk

Pervaiz

Mansoor

废话 1 阿布杜尔拉赫曼

Nabeel

BS(当前) 1 赛义夫

奥马尔

学士，博士，博士后 1

¹ 科学与工程学院“，计算机科学系拉合尔管理科学大学

拉合尔

巴基斯坦

Sep-Oct 2012

04 10 2012

14 5

e125

08 03 2012 29 03 2012 18 05 2012 10 07 2012

©Fahad Pervaiz, Mansoor Pervaiz, Nabeel Abdur Rehman, Umar Saif。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2012年10月4日。

2012

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

谷歌流感趋势服务于2008年推出，用于跟踪与流感症状相关的在线搜索查询量的变化。在过去几年中，该服务产生的趋势数据显示，与美国疾病控制和预防中心(CDC)收集的实际流感报告数量存在一致的关系，通常在CDC记录之前数周就发现了流感病例的增加。然而，与普遍的看法相反，谷歌流感趋势并不是一个早期的流行病检测系统。相反，它被设计为疾病病例数趋势或变化的基线指标。

客观的

评估这些趋势是否可作为流行病早期预警系统的基础。

方法

我们提出了第一个详细的算法分析，谷歌流感趋势如何被用作建立一个完全自动化的流行病早期预警系统的基础，而不是CDC使用的方法。基于我们的工作，我们提出了一个新的早期流行病检测系统，称为FluBreaks (dritte.org/flubreaks)，基于谷歌流感趋势数据。我们比较了三种算法的准确性和实用性:正态分布算法、泊松分布算法和负二项分布算法。我们探讨了这些方法的相对优点，并将我们的发现与谷歌流感趋势中提供数据的地区的互联网普及率和人口规模的变化联系起来。

结果

在我们的真阳性百分比(RTP)、假阳性百分比(RFP)、重叠百分比(OT)和早期警报百分比(EA)的性能指标中，基于泊松和负二项式的算法在除RFP之外的所有算法中都表现得更好。基于泊松的算法对RTP、RFP、OT和EA的均值分别为99%、28%、71%和76%，而基于负二项式的算法对RTP、RFP、OT和EA的均值分别为97.8%、17.8%、60%和55%。此外，EA还受到区域人口规模的影响。对于基于负二项和泊松的算法，具有较大人口的区域(区域4和6)具有高于人口最少的区域10的EA值。基于负二项式和泊松算法的平均差异分别为12.5%和13.5%。

结论

我们首次对谷歌流感趋势数据上流行的早期流行病检测算法进行了详细的比较分析。我们注意到，要实现这一机会，需要超越CDC传统上采用的基于累积和和历史限制方法的正态分布方法，转向基于负二项和泊松的算法，以处理来自不同人口和互联网普及率地区的潜在噪声搜索查询数据。基于我们的工作，我们开发了FluBreaks，这是一个使用谷歌流感趋势的流感流行早期预警系统。

流感公共卫生流行统计分布早期的反应

简介

信息流行病学介绍了使用非传统数据源来检测疾病趋势和疫情[ 1］．这些数据源包括搜索查询、社交媒体、网络文章和博客文章，这些数据现在正被用于实时疾病监测[ 1- 4］．就作为来源的搜索查询而言，使用这些查询预测流行病的兴趣最近一直在增长[ 5- 8］．最值得注意的是谷歌流感趋势[ 9]这项服务于2008年推出，旨在追踪与流感症状相关的在线搜索查询量的变化。[ 5］．谷歌流感趋势提供每日实时报告的搜索查询趋势数据，可以比美国疾病控制和预防中心(CDC)提前至少2周预测流感等疾病的实际病例。

在缺乏其他实时疾病监测机制的情况下，谷歌流感趋势等服务对于早期发现流行病至关重要。关于使用谷歌流感趋势进行流行病检测的现有研究集中于通过收集与疾病症状查询量相关的数据来满足这一需求。这项工作表明，谷歌搜索查询趋势与CDC报告的实际疾病病例密切相关。虽然这些结果为可能使用谷歌流感趋势数据作为流行病早期预警系统的基础提供了强有力的支持，但现有的研究需要沿着两个基本方向推进，以实现这一机会。首先，有必要严格探索和进化算法，以便从谷歌流感趋势数据中进行更高级别的推断，从而在流行病的早期阶段生成警报。特别是，现有方法收集原始搜索量数据的能力需要计算智能的补充，以将这些数据转化为可操作的信息。其次，还需要更详细地了解人口规模和互联网普及率的变化如何影响基于谷歌流感趋势数据的系统提供准确和可操作信息的能力。

在这项研究中，我们旨在提供与这些机会相关的新见解。我们以谷歌流感趋势数据为基础，比较了广泛使用的早期流行病检测算法的准确性和实用性。这些算法根据它们期望的数据分布类型分为三类。所讨论的分类是正态分布算法、泊松分布算法和负二项分布算法。对于正态分布算法，我们使用累积和(CUSUM) [ 10- 12]，历史极限法(HLM) [ 10， 13]，以及历史上的CUSUM (HCusum) [ 14， 15］．对于泊松分布算法，我们使用泊松爆发检测(POD) [ 16]， SaTScan [ 17]， Poisson CUSUM (PSC) [ 18， 19］．对于负二项分布算法，我们使用负二项CUSUM (NBC) [ 20.， 21和历史上的NBC。其中一些算法已经在罗斯河疾病数据上进行了比较[ 22］．我们对一些算法(CUSUM, HLM, POD, SaTScan和NBC)和参数的选择也是基于这项工作[ 22］．但是，我们的工作对谷歌流感趋势数据进行了比较。我们定量比较了这些算法的准确性、特异性和敏感性，以及在基线训练期、季节变化、人口规模和互联网普及率中利用信息对检测流行病适用性的影响。

方法数据源谷歌流感趋势

传统的疾病监测网络，如疾病预防控制中心，需要长达两周的时间来收集、处理和报告在卫生中心登记的疾病病例[ 23］．

谷歌流感趋势[ 9另一方面，由于许多有流感症状的患者在看医生之前可能会在网上搜索他们的症状和治疗方法，它提供了关于疾病病例的近乎实时的数据。

谷歌流感趋势将美国最常见的5000万个谷歌搜索查询的受欢迎程度与疾病预防控制中心国家监测项目报告的流感样疾病发病率进行了比较。流感趋势数据来自45个与流感症状、治疗方法和并发症相关的搜索词，并生成与CDC流感样疾病数据密切相关的趋势。

在我们的实验中，我们使用了2003年至2011年9年间的谷歌流感趋势数据。

疾控中心的门诊疾病监测

在美国，患者因流感样疾病就诊的信息通过门诊流感样疾病监测网络(ILINet)收集。ILINet由全美50个州的3000多名医疗保健提供者组成，报告每年有超过2500万名患者就诊。每周，美国各地大约1800个门诊护理点向疾病控制与预防中心报告患者总数和流感样疾病患者的数量。在这个系统中，流感样疾病定义为发烧(温度为100°F[37.8°C]或更高)和咳嗽或喉咙痛，但除流感外没有其他已知原因。有电子记录的场所使用由国家公共卫生部门确定的等效定义。每周报告的因流感样疾病就诊于卫生保健提供者的患者百分比是根据一个州的人口加权的。这一百分比每周与2.5%的国家基线进行比较。基线为前三个季节非流感周流感样疾病患者就诊的平均百分比加上2个标准差[ 24］．

在我们的实验中，就像谷歌流感趋势数据一样，我们使用了2003年至2011年9年间CDC的流感样疾病数据。尽管美国疾病控制与预防中心在2009年至2010年非流感季节的数据缺失，但我们相信这对我们的定量比较影响很小。

爆发

为了确定疫情爆发的时期、时间起点和持续时间，我们咨询了来自不同研究所的两位流行病学家。第一份来自巴基斯坦拉合尔公共卫生研究所(负责向省卫生部通报疾病暴发情况)，第二份来自巴基斯坦巴哈瓦尔布尔的Quaid-e-Azam医学院。这些原始暴发在CDC流感样疾病数据中有标记[ 23］．

爆发检测算法

我们使用过的早期流行检测算法，根据数据中的期望分布，分为三类:(1)正态分布算法:期望数据中的正态分布;(2)泊松分布算法:期望数据中的泊松分布;(3)负二项分布算法:期望数据中的负二项分布。

正态分布算法

归入此类别的算法是早期畸变报告系统(ear)算法(CUSUM)、HLM和HCusum。

早期畸变报告系统算法

ear是由CDC开发和使用的。EARS包括三种综合征监测早期事件检测方法，称为C1, C2和C3 [ 11]，这是CUSUM方法的Shewhart变体。这些方法使用移动平均和标准偏差来标准化历史数据中出现的次数。在我们的分析中，C1使用当前观察周之前的4周来计算平均值和标准差。用平均值和标准差的值来确定C1分数( 图1，部分a, b, c)。C2与C1相似，但使用了1周后的4周。这意味着它使用第2周到第5周来计算平均值和标准差( 图1， d、e、f部分)。C3使用前3周的C2评分计算C3评分，如图1(g)部分。

C1、C2和C3 EARS算法需要一个基线(训练周期)和截止(阈值)作为参数。在我们的实验中，我们分别使用了4周和8周作为基线。较短的训练周期(基线)已被证明可以使CUSUM免受季节变化的影响[ 15］．对于每个基线周期，我们比较了四个分界值的算法:2、4、6和8。这意味着，如果观测值分别超过平均值超过3、5、7和9的标准偏差，则宣布爆发。较高的分界点使算法对疾病病例发生率的瞬时变化反应较差。在我们的分析中，我们排除了C1，这两个基线的截止值分别为6和8，因为它在9年的数据中很少引发爆发警报。

由于CUSUM使用平均值和标准偏差来发出警报，因此对于数据正态分布的爆发是最好的。这意味着该算法对突然上升非常敏感，从而产生早期警报。此外，它预计爆发数据的持续增长将继续下去，因为增长的开始成为历史数据的一部分，因此也提高了算法的平均值和标准差。

图1

早期畸变报告系统(ear)算法方程。C₁= C1算法的累积和(CUSUM)得分，C .₂= C2算法的CUSUM评分，C ._3.= C3算法的CUSUM评分，sigma =标准差，X-bar =平均例数，X ._n=当前时间间隔内的病例数。下标指的是链接到这三种算法中的任意一种的特定变量。

历史界限法

ear中使用的CUSUM方法在设计上没有考虑季节性;然而，HLM包含了历史数据。在HLM中，当标识为时，表示爆发图2是真的。

在HLM中，系统通过以下方法确定一周的期望值:(1)使用历史数据中每年连续3周，即当前周、前一周和后一周(标题为HLM-3);(2)使用历史数据中每年连续5周，即历史数据中的当前周、前2周和后2周(标题为HLM-5)。图3)．

Pelecanos等人推荐上述两种变化(使用15个基准点的HLM-3和使用25个基准点的HLM-5) [ 22］．

我们同时使用了HLM-3和HLM-5，培训时间为5年，从2003年开始到2008年结束。为了确定培训期间的疫情爆发，我们从2003年至2008年(包括这两年)的时间轴上每次删除1年。然后，我们假设其余年份是连续的，并通过使用剩余的4年来确定省略年份的暴发。在训练期间的每一年都重复这个过程。

就像ear一样，HLM基于数据的均值和标准差运行。因此，爆发的定义是期望出现正态分布，并根据正态分布将任何异常值标记为爆发。

图2

历史极限法(HLM)方程。Sigma =标准差，X =当期报告病例数，X-bar =均值。

图3

历史数据的历史限制方法(HLM)。HLM-3 =连续3周历史数据，HLM-5 =连续5周历史数据。

历史CUSUM

HCusum是经季节调整的CUSUM [ 15］．在创建警报之前，它会考虑前几年的同一时期。这忽略了计数数据和信号的规律性上升趋势，只有在异常发生时才会出现。因此，我们计算的基线数据是前5年相同周数的患者数量。均值(x条)给出了预期计数的参考值。西格玛让我们了解用于计算期望值的值中有多少变化[ 14) ( 图4， a和b部分)。

如果(c)中的标识为真，则声明爆发。

图4

历史累积和(HCUSUM)方程。=标准差，X_n=当前时间间隔内的病例数，X-bar =病例数平均值。N = 5，因为基线周期为前5年。

泊松分布算法

这类算法包括POD、SaTScan和PSC。

泊松爆发检测方法

POD方法假定病例数服从泊松分布。POD方法[ 16]使用10年的历史数据来计算一种疾病的发病率。这10年期间用于适应季节性发病率的高变异性和偏态分布。为适应各区域人口的可变性，如果某一区域的人口少于2500人，则使用粗发病率来确定疫情。如果人口规模大于2500，则如果最大通知数小于5或粗发病率和修剪后的发病率差异小于20%，则使用粗发病率。(削减发病率是通过省略病例数最多或最少的年份来计算的)。否则，使用中位数发病率。如果实际发生病例数的几率小于1%，则认为爆发。对于POD，将一年分为季节(冬、春、夏、秋)，并计算每个季节而不是全年的IRs。这就是POD如何迎合季节性。由于它是基于泊松的算法，所以当疫情数据的方差均值比(VMR)为1时最适合。 This value of VMR implies that the data follow a Poisson distribution.

我们遵循了Pelecanos等人的某些建议[ 22]并将几率从1%提高到5%。这是因为我们没有10年的历史数据来训练系统。因此，百分比的变化有助于降低算法的灵敏度。我们将前5年作为培训期，然后每隔一年增加一次，用于进一步检测疫情。

纯时序卫星扫描

SaTScan算法可用于空间分析、时间分析和时空分析。我们仅使用时间分析进行爆发检测，因为空间映射已经固定到cdc定义的区域。我们使用了泊松排列，它最适用于遵循泊松分布的数据。这是当数据的VMR等于1时的情况。

Temporal SaTScan通过在60天的间隔内滑动和缩放窗口来创建1维集群。我们依靠泊松排列来确定具有最高似然比的聚类。

方程( 图5)计算聚类选择的对数似然比。

一旦我们在一个区间内找到了最好的聚类，算法就会计算 P值的聚类采用蒙特卡罗测试。一个 P值小于.001，具有高度显著性，表示集群中存在爆发。

SaTScan不考虑季节性。因此，为了调整SaTScan的季节性，我们每周对所分析区域的人口规模进行缩放。SaTScan使用人口规模作为参数之一，因此每周人口都进行缩放。缩放人口规模的因素取决于每周的发病率和每年的人口: 人口我 =年人口数*(第一周发病率/总发病率),在那里人口我是某周的人口比例，每年的人口这一年的人口在观察中吗第一周的发病率过去几年某一周的平均发病率是多少总发病率是全年各星期发病率的平均值。

此外，由于CDC和谷歌数据以每周为周期报告，我们将SaTScan参数化为每周的时间单位。我们设置了 P将截断值设为0.001(以避免在季节变化中检测到较小的集群)，并将迭代次数设置为15(因为我们的数据包括8个流感季节)。为了在每次迭代中检测新的聚类，我们设置迭代扫描以调整更可能的聚类。我们没有更改最大蒙特卡罗复制的默认值(999)。

图5

SaTScan方程。C =总病例数，C_z=窗口z观测病例数，LLR =似然比，n_z=窗口z的预期病例数或人口。

泊松CUSUM

PSC是一种算法，可以有效地检测遵循泊松分布的数据中的异常[ 18， 19］．它检验当前值在控制范围内的零假设和值不在控制范围内的备择假设。由于泊松分布只能用一个参数(均值)来定义，所以两个假设的参考值都取均值。零假设的参考值是平均值(X_一个-bar)基线窗口中的数据。基线窗口是从当前分析周开始的过去7周，中间有一个1周的保护带。对于备择假设，均值(X_d-bar)为基线周期的平均值和2倍的标准差之和。(X_一个-bar)和(X_d-bar)用于计算 k⁺，如图所示图6(a部分)，其中还展示了用于计算CUSUM的方程(b部分和c部分)。

当计算出的CUSUM分数高于阈值时，表示爆发 h．阈值 h等于 T * k［ 19］．我们用 t= 1和 t= 1.5。

图6

泊松累积和(CUSUM)方程。k =参考值，S_n= CUSUM分数，X_n=当前时间间隔内的病例数，x拔_一个=零假设均值，x均值_d= alternative hypothesis mean， +上标表示值总是正的。

负二项分布算法

这一类别包括NBC和历史NBC。

负二项式CUSUM 静态阈值

我们选择了NBC [ 20.， 21]因为它具有处理由于数据过度分散而导致的不准确性的特性。数据的过度分散导致VMR大于1。这通常发生在季节增长期间。两个参数( r)及( c₀ )，用来描述负二项分布。方程图7(部分a和b)是用来确定这些参数的值基于均值(X-bar)和方差(sigma²)，由基准期推算而来。中的方程给出了决策区间图7(c, d和e部分)通过从控制中的c中寻找c的变化₀到一个失控的c₁，其中c₁> c₀［ 20.］．

失控水平c₁由基线周期的标准差与基线均值相加2倍确定。我们保持7周的基线间隔和1周的警戒带。保护带防止基线计算中包含最新的数据。因此，基线周期和当前周将有一个1周的空白作为保护带。CUSUM评分与阈值进行比较 h．如果CUSUM评分(S_n⁺） > h。计算结果使用8和15的静态截止(阈值)值[ 22］．

图7

负二项式累积和(CUSUM)方程。k =参考值，(r,c) =负二项分布参数，S_n= CUSUM得分，sigma =标准差，X_n=当前时间间隔内的病例数，X-bar =病例数平均值，+上标表示始终为正数。

变量阈值

带有静态阈值的NBC虽然捕捉到了疫情的持续时间，但在早期预警方面很敏感。为了满足这种敏感性，我们为NBC引入了可变阈值。一个新参数， h v，作为CUSUM评分的阈值。其余参数的计算是基于图7．可变阈值 h v是由方程计算的吗 h v = t * k,在那里 t是常数。我们使用的值进行分析 t都是1和1.5。涉及 k在阈值计算中，随着基线窗口的计数数据的变化而改变截止值。这降低了CUSUM的灵敏度[ 19］．

历史负二项式CUSUM

历史NBC是经季节调整的负二项式CUSUM [ 20.， 21］．它计算 c₀ ， r, k⁺ 使用公式图7(分别为a、b、e部分)。基线数据为过去5年当期患者病例计数。均值(X-bar)和方差(sigma)的计算²)是根据过去数年的给定基准期计算。CUSUM分数由公式给出图8．

如果S_n⁺> h,在那里 h是结果保持在可容忍状态的最大限制。我们使用 h= 15 [ 18， 22]供我们分析。由于在第一次计算时就可能出现疫情，一般以较短的5年作为基线[ 18， 19， 22］．

图8

历史负二项式累积和(CUSUM)方程。k =参考值，S_n= CUSUM分数，X_n=本周的例数，+上标表示始终为正数。

性能指标

为了了解如何使用谷歌Flu Trends数据来构建早期流行病检测系统，我们比较了美国三个地区8种基本算法(来自3类算法)的24个变体的结果。据我们所知，本文首次对谷歌流感趋势数据的流行检测算法进行了比较分析。

对于我们的基本算法，我们使用了EARS CUSUM, HCusum, HLM, POD, SaTScan, PSC, NBC和HNBC。这些算法的特点使我们的分析具有一定程度的多样性:EARS CUSUM和NBC是为快速检测疫情而设计的;HCusum, HNBC, HLM和POD包含季节变化，但需要大量的培训时间;SaTScan需要最少的培训，并在检测统计上显著的疾病集群方面提供灵活性。

我们选择了由CDC划分的目标区域，以比较各种算法对人口规模和互联网普及率的敏感性。表1显示了我们实验中使用的HHS地区的人口规模和互联网普及率。图9地图上有美国的各个州。我们通过将每个地区的各州人口相加来计算每个地区的人口。这个计算使用的是2009年的人口[ 25］．互联网使用情况，摘自国家电信和信息化局发布的《2009年度人口互联网使用情况调查报告》[ 26]及美国人口普查局公布的2009年人口普查[ 27］．

对于我们关于人口规模的比较，我们集中在地区4(人口最多)和地区10(人口最少)。为了评估互联网普及率的影响，我们将重点放在第6地区(互联网普及率最低)和第10地区(互联网普及率最高)。来自第10地区的结果尤其令人感兴趣，因为它拥有最少的人口和最高的互联网普及率。我们期望来自10区域的结果可以作为谷歌流感趋势数据作为检测流行病基础的准确程度的基准。此外，第4和第6区域的天气与第10区域的天气相似，但有很大差异。

在我们的分析中，我们通过比较谷歌流感趋势数据与CDC报告的疾病病例的结果来评估每个算法。我们在以下关键指标上比较了算法的性能。

真阳性百分比

百分比真阳性(RTP)衡量CDC数据中疫情信号也被谷歌流感趋势数据上的目标算法检测到的时间百分比。此百分比的计算方法是:发出信号时的爆发间隔数除以总爆发间隔数，结果乘以100。

假阳性百分比

百分比假阳性(RFP)测量CDC数据中未显示的流行病被谷歌流感趋势数据上的目标算法检测为流行病的时间百分比。此百分比的计算方法是:发出信号时未爆发的周数除以未爆发的总周数，结果乘以100。

重叠时间百分比

重叠百分比(OT)衡量算法检测到的流行病与CDC数据中信号的流行病重叠的时间百分比。信号中与原始爆发不重叠的任何部分在OT中不被考虑。

早期告警

百分比早期警报(EA)测量算法在谷歌流感趋势上发出警报的时间百分比，然后CDC数据将其标记为流行病。早期警报期限于最初暴发开始前2周。在这两周之前开始的部分信号被认为是假阳性。

这四个指标捕捉了检测算法的不同方面。RTP度量算法对病毒爆发的敏感性。同时，过于敏感的算法会产生更多的rfp。

平均重叠时间捕获算法对疾病病例率瞬时变化的稳定性。对整个流行病时期发出信号的算法比那些发出短暂、零星信号的算法更可取。

最后，在其他算法之前发出疫情信号的算法更适合于早期疫情检测。然而，这个指标必须与算法的RFP结合起来考虑，以抵消产生伪信号的算法。对于我们的分析，如果一个信号在CDC数据中的信号之前2周的窗口内，只要它不是先前警报的延续，我们就将其视为早期警报。

表1

美国卫生与公众服务部(HHS)地区的互联网使用人口和百分比。

美国卫生和公众服务部地区	人口(2009年人口普查)	%的互联网使用	州
1	14412684年	74.07	Ct me ma nh ri vt
2	28224114年	70.20	新泽西,纽约
3.	29479361年	69.30	De dc md pa va wv
4	60088178年	63.25	Al fl ga ky ms nc sc tn
5	51745410年	71.42	Il in mi mn，哦，wi
6	37860549年	61.56	Ar la nm，好的，tx
7	31840178年	71.68	Ia, ks, mo, ne
8	20802785年	72.13	Co, mt, nd, sd, ut, wy
9	46453010年	67.95	Az, ca, hi, nv
10	6691325年	76.93	Ak id或者wa

图9

美国卫生和公众服务部的地区。

结果

图10，图11, 图12将我们研究中的所有算法在2003年至2011年的9年时间尺度上进行比较。这些数字的详细资料载于多媒体附件1，多媒体附件2, 多媒体，根据我们的四个比较指标来比较算法:RTP, RFP, OT和EA在我们的三个目标区域[ 12， 13， 22］．

在每个多媒体附录中都有一个排序的列(算法的总体位置)。在本专栏中，算法根据四个性能指标的中位数进行排序。我们选择中位数是为了满足性能指标中的极端值。

虽然我们已经将算法分为三类，即泊松、负二项式和正态分布算法，但在我们的分析中，另一个子类别称为历史算法。这是负二项和正态分布类别的子集，因为它在这两个类别中都有算法。来自负二项和HLM的HNBC和来自正态分布的HCusum在四个性能指标上显示了相似的结果模式。因此，在接下来的讨论中，我们将添加历史算法的分类，并独立分析其结果。

在表2对于第一个性能指标RTP，所有类别的平均值都很高(正态、NBC和泊松分布算法分别为96.4%、99.0%和98.8%)，唯一的例外是历史算法(64%)。此外，在RTP百分比较高的算法中，各值之间没有显著差异。

在第二个性能度量RFP中，数值则相反，历史算法显示出非常优的值(平均3.3%，越低越好)，而正态、NBC和泊松分布算法分别显示11.4%、28.3%和17.5%的百分比。显然，历史算法和正态分布算法在这个指标中处于领先地位。

在第三个度量中，OT，负二项分布算法领先，OT为71.3%，其次是泊松分布(60.3%)，历史算法(30.8%)和正态分布算法(16.4%)。在这一指标上，NBC和泊松分布领先有重大差异，领先于历史和正态分布算法。

在第四个也是最后一个指标中，EA，负二项式，平均以75.8%的EA值领先，其次是泊松分布(55.1%)，正态分布(36.8%)和历史算法(22.3%)。

对于某些性能指标，某些类别的表现并不一致，并且这些类别的值在很大范围内变化。在正态分布算法中，EA的取值范围为0% ~ 75%。在泊松分布算法中，EA的变化范围为13% ~ 75%。因此，在这些情况下，特定度量的平均值不能被认为是具有代表性的，我们需要检查算法(或算法的变体)的适用性。

当我们观察正态分布算法中的EA值时，ear的C3变异仅在一个区域显示出较高的EA值。否则，次优值几乎在最佳范围内。而且C3的OT最多为34，这个值很低，不适合这个算法。

对于泊松分布中的EA值，SaTScan算法拉低了泊松分布算法在EA中的平均值。因此，如果我们考虑没有SaTScan的泊松分布算法的平均EA值，实际上从55.1上升到66.7。

总体而言，负二项式和泊松分布算法比正态分布算法表现得更好。这主要是因为这些算法所期望的数据分布。季节性流感样疾病资料的VMR均大于1，多数时间( 图13)．因此，数据服从负二项分布[ 28］．此外，泊松分布近似于负二项分布[ 29， 30.］．因此，基于泊松和基于负二项式的算法的总体百分比都很高。

历史算法表现不佳，因为它们考虑了过去几年同期的数据来宣布疫情爆发。他们没有考虑当年的数据分布。这使得它们在假阳性方面很强大，但在其他指标上的表现却存在显著差异。

此外，为了了解人口变化和互联网渗透率变化对不同地区的影响，我们从负二项分布和泊松分布算法中选择了前两种算法，并将其应用于所有地区(而不仅仅是三个)。表3，表4，表5, 表6给出应用算法的结果。

分析结果表明，在互联网普及率高的地区，RFP和OT都很高。

表2

各种类型算法的各种性能指标的平均百分比。

度规	正常的	负二项	泊松	历史
RTP^一个	96.4	99.0	98.8	64.0
招标书^b	11.4	28.3	17.5	3．3
不^c	16.4	71.3	60.3	30.8
EA^d	36.8	75.8	55.1	22.3

^一个真阳性百分比。

^b假阳性百分比。

^c重叠时间百分比。

^d早期告警百分比。

表3

美国卫生与公众服务部(HHS)所有区域的所有绩效指标的负二项累积和结果(截止值= 15)。

美国卫生和公众服务部地区	RTP^一个	招标书^b	不^c	EA^d
1	One hundred.	45	98	87.5
2	One hundred.	40	85	77.7
3.	One hundred.	40	88	87.5
4	One hundred.	30.	81	88
5	One hundred.	40	95	87.5
6	One hundred.	40	76	88
7	One hundred.	40	95	87.5
8	87.5	50	83	75
9	90	40	71	80
10	One hundred.	40	82	71

^一个真阳性百分比。

^b假阳性百分比。

^c重叠时间百分比。

^d早期告警百分比。

表4

美国所有卫生与公众服务部(HHS)区域的所有绩效指标的负二项累积和(阈值= 1 * k)的结果。

美国卫生和公众服务部地区	RTP^一个	招标书^b	不^c	EA^d
1	One hundred.	35	87	87.5
2	One hundred.	27	74	66.7
3.	One hundred.	20.	81	75
4	One hundred.	20.	70	75
5	One hundred.	30.	86	75
6	One hundred.	20.	63	75
7	One hundred.	30.	87	75
8	87.5	40	71	75
9	90	30.	64	70
10	One hundred.	30.	68	71

^一个真阳性百分比。

^b假阳性百分比。

^c重叠时间百分比。

^d早期告警百分比。

表5

美国卫生与公众服务部(HHS)所有区域的所有绩效指标的泊松累积和(阈值= 1 * k)结果。

美国卫生和公众服务部地区	RTP^一个	招标书^b	不^c	EA^d
1	One hundred.	35	83	87.5
2	One hundred.	27	71	66.7
3.	One hundred.	20.	80	75
4	One hundred.	20.	70	75
5	One hundred.	30.	84	75
6	One hundred.	20.	62	75
7	One hundred.	30.	84	75
8	87.5	40	67	75
9	90	30.	64	70
10	One hundred.	30.	68	57

^一个真阳性百分比。

^b假阳性百分比。

^c重叠时间百分比。

^d早期告警百分比。

表6

美国所有卫生与公众服务部(HHS)区域的所有性能指标的泊松爆发检测结果。

美国卫生和公众服务部地区	RTP^一个	招标书^b	不^c	EA^d
1	One hundred.	35	77	33
2	One hundred.	20.	70	40
3.	One hundred.	30.	69	50
4	One hundred.	20.	58	75
5	One hundred.	40	72	50
6	One hundred.	20.	50	75
7	One hundred.	30.	72	75
8	87.5	30.	74	75
9	90	20.	57	40
10	One hundred.	20.	68	57

^一个真阳性百分比。

^b假阳性百分比。

^c重叠时间百分比。

^d早期告警百分比。

图10

美国卫生与公众服务部区域4。x轴描绘了谷歌流感趋势和疾病控制与预防中心(CDC)的数据。水平柱表示每种方法检测到流行病的位置。Cut为分界点(越多越不敏感)，b为基线数据(训练窗口)。底部的粗横条显示了实际的爆发情况。HCusum =历史累积和，HLM =历史极限法，HNBC =历史负二项累积和，ILI =流感样疾病，k =阈值参考值，NBC =负二项累积和，POD =泊松爆发检测，PSC =泊松累积和。

图11

美国卫生与公众服务部区域6。x轴描绘了谷歌流感趋势和疾病控制与预防中心(CDC)的数据。水平柱表示每种方法检测到流行病的位置。Cut为截断点(多敏感越低)，b为基线数据(训练窗口)。底部的粗横条显示了实际的爆发情况。HCusum =历史累积和，HLM =历史极限法，HNBC =历史负二项累积和，ILI =流感样疾病，k =阈值参考值，NBC =负二项累积和，POD =泊松爆发检测，PSC =泊松累积和。

图12

美国卫生与公众服务部区域10。x轴描绘了谷歌流感趋势和疾病控制与预防中心(CDC)的数据。水平柱表示每种方法检测到流行病的位置。Cut为截断点(多敏感越低)，b为基线数据(训练窗口)。底部的粗横条显示了实际爆发。HCusum =历史累积和，HLM =历史极限法，HNBC =历史负二项累积和，ILI =流感样疾病，k =阈值参考值，NBC =负二项累积和，POD =泊松爆发检测，PSC =泊松累积和。

图13

美国疾病控制和预防中心的数据与上面的方差平均比(VMR)线，沿VMR = 1标记。

讨论

在这项研究中，我们通过评估各种算法来增强谷歌流感趋势的功能，将该服务产生的原始搜索查询量转化为可操作的警报。我们特别关注利用谷歌流感趋势的能力，为传统的疾病监测网络提供近实时的替代方案，并探索使用这些数据建立早期流行病检测系统的实用性。本文首次对谷歌流感趋势上流行的早期流行检测算法进行了详细的比较分析。我们探讨了这些方法的相对优点，并考虑了互联网流行程度和人口规模的变化对这些方法预测流行病能力的影响。在这些评估中，我们利用CDC收集的数据，并在一致的实验框架内评估每种算法从互联网搜索查询量中预测CDC病例频率变化的能力。

我们的分析表明，在谷歌流感趋势数据中添加一层计算智能，为可靠的早期流行病检测系统提供了机会，该系统可以比CDC使用的现有系统提前高精度地预测疾病爆发。然而，我们注意到，实现这一机会需要超越传统上由CDC采用的基于CUSUM和hlm的正态分布方法。特别是，虽然我们没有找到一种适用于谷歌流感趋势数据的最佳方法，但我们的研究结果强烈支持基于负二项式和泊松的算法在处理来自不同互联网普及率地区的潜在噪声搜索查询数据时更有用。对于这样的数据，我们发现正态分布算法的表现不如负二项和泊松分布算法。

此外，我们的分析表明，一种疾病的患者数据在全年中遵循不同的分布。因此，当数据的VMR等于1时，理想情况下遵循泊松分布，可以使用基于泊松的算法进行处理。当方差的增加使VMR超过1时，数据变得过度分散。基于泊松的算法可以在一定限度内处理这种过度分散[ 29］．当VMR非常高时，需要一种算法将方差视为参数并相应地发出警报。由于基于负二项分布的算法考虑了方差[ 29]，这样的算法在类似的场景下表现更好。例如，NBC对于计数数据过于分散的报警是准确的[ 29］．为了得到更好的结果，基于上述讨论，我们提出了一种方法，即随着VMR的上升和下降而改变算法的分布期望。应该更深入地探索这一领域，以产生根据数据分布类型进行适应的算法。

我们的研究是第一次尝试使用谷歌流感趋势数据将流行病预测与互联网普及率和被评估的人口规模联系起来。我们认为，了解这些因素如何影响预测流行病的算法，是将基于搜索查询的系统扩展到广泛的地理区域和社区的一个不可或缺的问题。在我们的调查中，我们观察到互联网普及率和人口规模都对算法性能有一定的影响。SaTScan在互联网普及率高、人口规模小的地区表现较好，而POD和NBC在互联网普及率低、人口规模大的地区表现较好。CUSUM在人口多的地区表现最好。虽然搜索查询数据和测量(即CDC)病例记录的可用性限制了我们对美国的分析，但我们相信，其中许多见解可能有助于为其他地区(包括发展中国家的社区)开发早期流行病预测系统。

总之，我们提出了一项算法的早期研究，该算法将来自谷歌Flu Trends等服务的数据转换为一个全自动系统，用于在流行病发生的可能性相当高时生成警报。我们的研究增强了在早期阶段发现疾病暴发的能力，在这个阶段，许多给全球造成巨大负担的疾病可以以更好的结果和更具成本效益的方式得到治疗。此外，由于能够及早对即将发生的情况作出反应，可以更主动地限制任何潜在疫情的规模。总之，我们的研究结果提供了一种方法，可以将通过互联网收集的原始数据转换为更精细的信息，从而指导应对疾病传播的有效政策。

基于我们的工作，我们开发了FluBreaks (dritte.org/flubreaks)，这是一个使用谷歌流感趋势的流感流行早期预警系统。

多媒体附件1

HSS区域4(最高种群)各评价参数的算法排序。

多媒体附件2

HSS区域6(最低互联网使用率)在不同评估参数中的算法排名。

多媒体

HSS区域10(最低人口和最高互联网使用率)在不同评估参数中的算法排名。

缩写

疾病预防控制中心

疾病控制和预防中心

CUSUM

累计金额

早期报警百分比

耳朵

早期畸变报告系统

HCusum

历史累计总和

高级别

历史界限法

ILINet

门诊流感样疾病监测网络

美国全国广播公司

负二项式累积和

不

百分比重叠

圆荚体

泊松爆发检测

PSC

泊松累积和

招标书

假阳性百分比

RTP

真阳性百分比

VMR

方差均值比

我们感谢密歇根大学的Zeeshan Syed博士的宝贵反馈和智力贡献。我们感谢巴基斯坦公共卫生研究所流行病学教授Farkanda Kokab博士和巴基斯坦Quaid-e-Azam医学院教授兼社区医学部主任Ijaz Shah博士标记了我们的疫情并为我们提供了宝贵的反馈。我们也感谢纽约大学的Lakshminarayanan Subramanian博士审阅了我们的论文。

没有宣布。

Eysenbach

信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架，用于分析互联网上的搜索、传播和发布行为

J医疗互联网服务 2009 11 1 e11

10.2196 / jmir.1157

19329408

v11i1e11

PMC2762766

Eysenbach

信息流行病学:追踪网络上与流感相关的搜索，以进行症状监测

AMIA年度诉讼程序 2006 244 8

17238340

86095

PMC1839505

班尼特

格拉斯哥

再保险

通过互联网提供公共卫生干预措施:发挥其潜力

公共卫生 2009 30. 273 92

10.1146 / annurev.publhealth.031308.100235

19296777

Castillo-Salgado

全球公共卫生监测趋势与方向

论文牧师 2010 04 32 1 93 109

10.1093 / epirev / mxq008

20534776

mxq008

金斯堡

Mohebbi

帕特尔

布拉姆

Smolinski

女士

才华横溢的

使用搜索引擎查询数据检测流感流行

自然 2009 02 19 457 7232 1012 4

10.1038 / nature07634

19020500

nature07634

威尔逊

布朗斯坦

利用互联网及早发现疾病爆发

医疗协会 2009 04 14 180 8 829 31

10.1503 / cmaj.090215

19364791

180/8/829

PMC2665960

Seifter

一个

黑森林

一个

盖斯

Aucott

“谷歌趋势”在流行病学研究中的应用:以莱姆病为例

Geospat健康 2010 05 4 2 135 7

20503183

布雷耶

森

年代

Aaronson

短距起落

毫升

埃里克森

英航

艾森伯格

毫升

使用谷歌Insights for Search跟踪美国季节性和地理肾结石发病率

泌尿外科 2011 08 78 2 267 71

10.1016 / j.urology.2011.01.010

21459414

s0090 - 4295 (11) 00028 - 8

谷歌 2012 03 6

2012-03-08

流感趋势:美国2011-2012 http://www.google.org/flutrends/us/

660年zkifcu

Hutwagner

汤普森

Seeman

通用汽车

Treadwell

生物恐怖主义准备和反应早期异常报告系统(ear)

J城市卫生 2003 06 80 2补充 i89 96

12791783

弗里克

理查德·道金斯

Hegler

提单

Dunfee

达

比较综合征监测检测方法:EARS与基于cusum的方法

地中海统计 2008 07 30. 27 17 3407 29

10.1002 / sim.3197

18240128

Hutwagner

信用证

汤普森

Seeman

通用汽车

Treadwell

一个用于评估在有限基线系统的公共卫生监测中使用的畸变检测方法的仿真模型

地中海统计 2005 02 28 24 4 543 50

10.1002 / sim.2034

15678442

Stroup

威廉姆森

赫恩登

莱托

卡隆

应报疾病监测数据发生偏差的发现

地中海统计 1989 03 8 3. 323 9;讨论331年

2540519

Hutwagner

信用证

马宏升

埃克

豆

Slutsker

马丁

使用基于实验室的监测数据进行预防:检测沙门氏菌爆发的算法

新兴感染疾病 1997 3. 3. 395 400

10.3201 / eid0303.970322

9284390

PMC2627626

Hutwagner

布朗

Seeman

通用汽车

Fleischauer

在

像差检测方法与模拟数据的比较

新兴感染疾病 2005 02 11 2 314 6

10.3201 / eid1102.040587

15752454

PMC3320440

Gatton

毫升

Kelly-Hope

拉

凯

黑洞

瑞安

巴勒斯坦权力机构

澳大利亚昆士兰州罗斯河病毒病型的时空分析

Am J Trop Med Hyg 2004 11 71 5 629 35

15569796

71/5/629

Kulldorff

米

信息管理服务公司

satscan.org 2005

2012-03-08

SaTScan:用于空间、时间和时空扫描统计的软件 http://www.satscan.org/

660年zfnljk

Unkel

年代

法灵顿

Garthwaite

PH值

罗伯逊

安德鲁斯

传染病暴发前瞻性检测的统计方法:综述

统计Soc 2012 175 1 49 82

10.1111 / j.1467 - 985 x.2011.00714.x

卢卡斯

统计数据CUSUM

技术计量学 1985 27 2 129 44

20.

霍金斯

Olwell

质量改进的累积和图表 1998

纽约州纽约

施普林格

沃特金斯

再保险

Eagleson

年代

Veenendaal

莱特

植物

应用基于习惯的方法检测西澳大利亚罗斯河病毒病暴发

BMC Med通知Decis Mak 2008 8 37

10.1186 / 1472-6947-8-37

18700044

1472-6947-8-37

PMC2542357

津津有味

我

瑞安

巴勒斯坦权力机构

Gatton

毫升

季节性疾病数据的爆发检测算法:使用罗斯河病毒疾病的案例研究

BMC Med通知Decis Mak 2010 10 74

10.1186 / 1472-6947-10-74

21106104

1472-6947-10-74

PMC3004813

疾病控制和预防中心 2012 03 2

2012-03-08

季节性流感(流感):2011-2012流感季节第八周结束于2012年2月25日 http://www.cdc.gov/flu/weekly/

660年ymrzyi

疾病控制和预防中心 2011 10 7

2012-05-15

季节性流感(流感):美国流感监测概述 http://www.cdc.gov/flu/weekly/overview.htm

67年gsoqjvs

事实的怪物

培生教育 2012

2012-03-08

美国各州人口，1790年至2010年 http://www.factmonster.com/ipka/A0004986.html

660年xstmos

美国商务部，国家电信和信息管理局 2009

2012-03-08

2009年现行人口互联网使用情况调查 http://www.ntia.doc.gov/data/CPS2009_Tables.html

660年y9bivr

美国商务部国家电信和信息化局

美国人口普查局，美国统计摘要 2011

2012-03-08

2009年按互联网连接类型和州划分的家庭互联网使用情况 http://www.census.gov/compendia/statab/2011/tables/11s1155.pdf

660年yhny66

考克斯

博士

刘易斯

爪子

事件系列的统计分析 1966

伦敦

查普曼和霍尔

McCullagh

Nelder

晶澳

广义线性模型，第二版 1989

伦敦

查普曼和霍尔

30.

卡梅隆

交流

Trivedi

统计数据的回归分析 1998

英国剑桥

剑桥大学出版社