医学互联网研究杂志-流感爆发:从谷歌流感趋势早期流行病检测

原始论文

巴基斯坦拉合尔管理科学大学计算机科学系科学与工程学院

通讯作者:

法赫德·佩尔韦兹，混蛋

科学与工程学院“，

计算机科学系

拉合尔管理科学大学

u区对面，d.h.a

拉合尔,54792

巴基斯坦

电话:92 333 443 8347

传真:92 42 3560 8303

电子邮件:fahadp@lums.edu.pk

背景:谷歌流感趋势服务于2008年推出，用于跟踪与流感症状相关的在线搜索查询量的变化。在过去几年中，该服务产生的趋势数据显示，与美国疾病控制和预防中心(CDC)收集的实际流感报告数量存在一致的关系，通常在CDC记录之前数周就发现了流感病例的增加。然而，与普遍的看法相反，谷歌流感趋势并不是一个早期的流行病检测系统。相反，它被设计为疾病病例数趋势或变化的基线指标。

摘要目的:评估这些趋势是否可作为流行病早期预警系统的基础。

方法:我们提出了第一个详细的算法分析，谷歌流感趋势如何被用作建立一个完全自动化的流行病早期预警系统的基础，而不是CDC使用的方法。基于我们的工作，我们提出了一个新的早期流行病检测系统，称为FluBreaks (dritte.org/flubreaks)，基于谷歌流感趋势数据。我们比较了三种算法的准确性和实用性:正态分布算法、泊松分布算法和负二项分布算法。我们探讨了这些方法的相对优点，并将我们的发现与谷歌流感趋势中提供数据的地区的互联网普及率和人口规模的变化联系起来。

结果:在我们的真阳性百分比(RTP)、假阳性百分比(RFP)、重叠百分比(OT)和早期警报百分比(EA)的性能指标中，基于泊松和负二项式的算法在除RFP之外的所有算法中都表现得更好。基于泊松的算法对RTP、RFP、OT和EA的均值分别为99%、28%、71%和76%，而基于负二项式的算法对RTP、RFP、OT和EA的均值分别为97.8%、17.8%、60%和55%。此外，EA还受到区域人口规模的影响。对于基于负二项和泊松的算法，具有较大人口的区域(区域4和6)具有高于人口最少的区域10的EA值。基于负二项式和泊松算法的平均差异分别为12.5%和13.5%。

结论:我们首次对谷歌流感趋势数据上流行的早期流行病检测算法进行了详细的比较分析。我们注意到，要实现这一机会，需要超越CDC传统上采用的基于累积和和历史限制方法的正态分布方法，转向基于负二项和泊松的算法，以处理来自不同人口和互联网普及率地区的潜在噪声搜索查询数据。基于我们的工作，我们开发了FluBreaks，这是一个使用谷歌流感趋势的流感流行早期预警系统。

中国医学杂志，2012;14(5):e125

doi: 10.2196 / jmir.2102

关键字

流感；公共卫生；流行；统计分布；早期的反应

信息流行病学介绍了使用非传统数据源来检测疾病趋势和疫情[1］．这些数据源包括搜索查询、社交媒体、网络文章和博客文章，这些数据现在正被用于实时疾病监测[1-4］．就作为来源的搜索查询而言，使用这些查询预测流行病的兴趣最近一直在增长[5-8］．最值得注意的是谷歌流感趋势[9]这项服务于2008年推出，旨在追踪与流感症状相关的在线搜索查询量的变化。[5］．谷歌流感趋势提供每日实时报告的搜索查询趋势数据，可以比美国疾病控制和预防中心(CDC)提前至少2周预测流感等疾病的实际病例。

在缺乏其他实时疾病监测机制的情况下，谷歌流感趋势等服务对于早期发现流行病至关重要。关于使用谷歌流感趋势进行流行病检测的现有研究集中于通过收集与疾病症状查询量相关的数据来满足这一需求。这项工作表明，谷歌搜索查询趋势与CDC报告的实际疾病病例密切相关。虽然这些结果为可能使用谷歌流感趋势数据作为流行病早期预警系统的基础提供了强有力的支持，但现有的研究需要沿着两个基本方向推进，以实现这一机会。首先，有必要严格探索和进化算法，以便从谷歌流感趋势数据中进行更高级别的推断，从而在流行病的早期阶段生成警报。特别是，现有方法收集原始搜索量数据的能力需要计算智能的补充，以将这些数据转化为可操作的信息。其次，还需要更详细地了解人口规模和互联网普及率的变化如何影响基于谷歌流感趋势数据的系统提供准确和可操作信息的能力。

在这项研究中，我们旨在提供与这些机会相关的新见解。我们以谷歌流感趋势数据为基础，比较了广泛使用的早期流行病检测算法的准确性和实用性。这些算法根据它们期望的数据分布类型分为三类。所讨论的分类是正态分布算法、泊松分布算法和负二项分布算法。对于正态分布算法，我们使用累积和(CUSUM) [10-12]，历史极限法(HLM) [10，13]，以及历史上的CUSUM (HCusum) [14，15］．对于泊松分布算法，我们使用泊松爆发检测(POD) [16]， SaTScan [17]， Poisson CUSUM (PSC) [18，19］．对于负二项分布算法，我们使用负二项CUSUM (NBC) [20.，21和历史上的NBC。其中一些算法已经在罗斯河疾病数据上进行了比较[22］．我们对一些算法(CUSUM, HLM, POD, SaTScan和NBC)和参数的选择也是基于这项工作[22］．但是，我们的工作对谷歌流感趋势数据进行了比较。我们定量比较了这些算法的准确性、特异性和敏感性，以及在基线训练期、季节变化、人口规模和互联网普及率中利用信息对检测流行病适用性的影响。

数据源

谷歌流感趋势

传统的疾病监测网络，如疾病预防控制中心，需要长达两周的时间来收集、处理和报告在卫生中心登记的疾病病例[23］．

谷歌流感趋势[9另一方面，由于许多有流感症状的患者在看医生之前可能会在网上搜索他们的症状和治疗方法，它提供了关于疾病病例的近乎实时的数据。

谷歌流感趋势将美国最常见的5000万个谷歌搜索查询的受欢迎程度与疾病预防控制中心国家监测项目报告的流感样疾病发病率进行了比较。流感趋势数据来自45个与流感症状、治疗方法和并发症相关的搜索词，并生成与CDC流感样疾病数据密切相关的趋势。

在我们的实验中，我们使用了2003年至2011年9年间的谷歌流感趋势数据。

疾控中心的门诊疾病监测

在美国，患者因流感样疾病就诊的信息通过门诊流感样疾病监测网络(ILINet)收集。ILINet由全美50个州的3000多名医疗保健提供者组成，报告每年有超过2500万名患者就诊。每周，美国各地大约1800个门诊护理点向疾病控制与预防中心报告患者总数和流感样疾病患者的数量。在这个系统中，流感样疾病定义为发烧(温度为100°F[37.8°C]或更高)和咳嗽或喉咙痛，但除流感外没有其他已知原因。有电子记录的场所使用由国家公共卫生部门确定的等效定义。每周报告的因流感样疾病就诊于卫生保健提供者的患者百分比是根据一个州的人口加权的。这一百分比每周与2.5%的国家基线进行比较。基线为前三个季节非流感周流感样疾病患者就诊的平均百分比加上2个标准差[24］．

在我们的实验中，就像谷歌流感趋势数据一样，我们使用了2003年至2011年9年间CDC的流感样疾病数据。尽管美国疾病控制与预防中心在2009年至2010年非流感季节的数据缺失，但我们相信这对我们的定量比较影响很小。

爆发

为了确定疫情爆发的时期、时间起点和持续时间，我们咨询了来自不同研究所的两位流行病学家。第一份来自巴基斯坦拉合尔公共卫生研究所(负责向省卫生部通报疾病暴发情况)，第二份来自巴基斯坦巴哈瓦尔布尔的Quaid-e-Azam医学院。这些原始暴发在CDC流感样疾病数据中有标记[23］．

爆发检测算法

我们使用过的早期流行检测算法，根据数据中的期望分布，分为三类:(1)正态分布算法:期望数据中的正态分布;(2)泊松分布算法:期望数据中的泊松分布;(3)负二项分布算法:期望数据中的负二项分布。

正态分布算法

归入此类别的算法是早期畸变报告系统(ear)算法(CUSUM)、HLM和HCusum。

早期畸变报告系统算法

ear是由CDC开发和使用的。EARS包括三种综合征监测早期事件检测方法，称为C1, C2和C3 [11]，这是CUSUM方法的Shewhart变体。这些方法使用移动平均和标准偏差来标准化历史数据中出现的次数。在我们的分析中，C1使用当前观察周之前的4周来计算平均值和标准差。用平均值和标准差的值来确定C1分数(图1，部分a, b, c)。C2与C1相似，但使用了1周后的4周。这意味着它使用第2周到第5周来计算平均值和标准差(图1， d、e、f部分)。C3使用前3周的C2评分计算C3评分，如图1(g)部分。

C1、C2和C3 EARS算法需要一个基线(训练周期)和截止(阈值)作为参数。在我们的实验中，我们分别使用了4周和8周作为基线。较短的训练周期(基线)已被证明可以使CUSUM免受季节变化的影响[15］．对于每个基线周期，我们比较了四个分界值的算法:2、4、6和8。这意味着，如果观测值分别超过平均值超过3、5、7和9的标准偏差，则宣布爆发。较高的分界点使算法对疾病病例发生率的瞬时变化反应较差。在我们的分析中，我们排除了C1，这两个基线的截止值分别为6和8，因为它在9年的数据中很少引发爆发警报。

由于CUSUM使用平均值和标准偏差来发出警报，因此对于数据正态分布的爆发是最好的。这意味着该算法对突然上升非常敏感，从而产生早期警报。此外，它预计爆发数据的持续增长将继续下去，因为增长的开始成为历史数据的一部分，因此也提高了算法的平均值和标准差。

图1。早期畸变报告系统(ear)算法方程。C₁= C1算法的累积和(CUSUM)得分，C .₂= C2算法的CUSUM评分，C ._3.= C3算法的CUSUM评分，sigma =标准差，X-bar =平均例数，X ._n=当前时间间隔内的病例数。下标指的是链接到这三种算法中的任意一种的特定变量。

历史界限法

ear中使用的CUSUM方法在设计上没有考虑季节性;然而，HLM包含了历史数据。在HLM中，当标识为时，表示爆发图2是真的。

在HLM中，系统通过以下方法确定一周的期望值:(1)使用历史数据中每年连续3周，即当前周、前一周和后一周(标题为HLM-3);(2)使用历史数据中每年连续5周，即历史数据中的当前周、前2周和后2周(标题为HLM-5)。图3)．

Pelecanos等人推荐上述两种变化(使用15个基准点的HLM-3和使用25个基准点的HLM-5) [22］．

我们同时使用了HLM-3和HLM-5，培训时间为5年，从2003年开始到2008年结束。为了确定培训期间的疫情爆发，我们从2003年至2008年(包括这两年)的时间轴上每次删除1年。然后，我们假设其余年份是连续的，并通过使用剩余的4年来确定省略年份的暴发。在训练期间的每一年都重复这个过程。

就像ear一样，HLM基于数据的均值和标准差运行。因此，爆发的定义是期望出现正态分布，并根据正态分布将任何异常值标记为爆发。

图2。历史极限法(HLM)方程。Sigma =标准差，X =当期报告病例数，X-bar =均值。

图3。历史数据的历史限制方法(HLM)。HLM-3 =连续3周历史数据，HLM-5 =连续5周历史数据。

历史CUSUM

HCusum是经季节调整的CUSUM [15］．在创建警报之前，它会考虑前几年的同一时期。这忽略了计数数据和信号的规律性上升趋势，只有在异常发生时才会出现。因此，我们计算的基线数据是前5年相同周数的患者数量。均值(x条)给出了预期计数的参考值。西格玛让我们了解用于计算期望值的值中有多少变化[14) (图4， a和b部分)。

如果(c)中的标识为真，则声明爆发。

图4。历史累积和(HCUSUM)方程。=标准差，X_n=当前时间间隔内的病例数，X-bar =病例数平均值。N = 5，因为基线周期为前5年。

泊松分布算法

这类算法包括POD、SaTScan和PSC。

泊松爆发检测方法

POD方法假定病例数服从泊松分布。POD方法[16]使用10年的历史数据来计算一种疾病的发病率。这10年期间用于适应季节性发病率的高变异性和偏态分布。为适应各区域人口的可变性，如果某一区域的人口少于2500人，则使用粗发病率来确定疫情。如果人口规模大于2500，则如果最大通知数小于5或粗发病率和修剪后的发病率差异小于20%，则使用粗发病率。(削减发病率是通过省略病例数最多或最少的年份来计算的)。否则，使用中位数发病率。如果实际发生病例数的几率小于1%，则认为爆发。对于POD，将一年分为季节(冬、春、夏、秋)，并计算每个季节而不是全年的IRs。这就是POD如何迎合季节性。由于它是基于泊松的算法，所以当疫情数据的方差均值比(VMR)为1时最适合。 This value of VMR implies that the data follow a Poisson distribution.

我们遵循了Pelecanos等人的某些建议[22]并将几率从1%提高到5%。这是因为我们没有10年的历史数据来训练系统。因此，百分比的变化有助于降低算法的灵敏度。我们将前5年作为培训期，然后每隔一年增加一次，用于进一步检测疫情。

纯时序卫星扫描

SaTScan算法可用于空间分析、时间分析和时空分析。我们仅使用时间分析进行爆发检测，因为空间映射已经固定到cdc定义的区域。我们使用了泊松排列，它最适用于遵循泊松分布的数据。这是当数据的VMR等于1时的情况。

Temporal SaTScan通过在60天的间隔内滑动和缩放窗口来创建1维集群。我们依靠泊松排列来确定具有最高似然比的聚类。

方程(图5)计算聚类选择的对数似然比。

一旦我们在一个区间内找到了最好的聚类，算法就会计算P值的聚类采用蒙特卡罗测试。一个P值小于.001，具有高度显著性，表示集群中存在爆发。

SaTScan不考虑季节性。因此，为了调整SaTScan的季节性，我们每周对所分析区域的人口规模进行缩放。SaTScan使用人口规模作为参数之一，因此每周人口都进行缩放。缩放人口规模的因素取决于每周的发病率和每年的人口:人口我=年人口数*(第一周发病率/总发病率),在那里人口我是某周的人口比例，每年的人口这一年的人口在观察中吗第一周的发病率过去几年某一周的平均发病率是多少总发病率是全年各星期发病率的平均值。

此外，由于CDC和谷歌数据以每周为周期报告，我们将SaTScan参数化为每周的时间单位。我们设置了P将截断值设为0.001(以避免在季节变化中检测到较小的集群)，并将迭代次数设置为15(因为我们的数据包括8个流感季节)。为了在每次迭代中检测新的聚类，我们设置迭代扫描以调整更可能的聚类。我们没有更改最大蒙特卡罗复制的默认值(999)。

图5。SaTScan方程。C =总病例数，C_z=窗口z观测病例数，LLR =似然比，n_z=窗口z的预期病例数或人口。

泊松CUSUM

PSC是一种算法，可以有效地检测遵循泊松分布的数据中的异常[18，19］．它检验当前值在控制范围内的零假设和值不在控制范围内的备择假设。由于泊松分布只能用一个参数(均值)来定义，所以两个假设的参考值都取均值。零假设的参考值是平均值(X_一个-bar)基线窗口中的数据。基线窗口是从当前分析周开始的过去7周，中间有一个1周的保护带。对于备择假设，均值(X_d-bar)为基线周期的平均值和2倍的标准差之和。(X_一个-bar)和(X_d-bar)用于计算k⁺，如图所示图6(a部分)，其中还展示了用于计算CUSUM的方程(b部分和c部分)。

当计算出的CUSUM分数高于阈值时，表示爆发h．阈值h等于T * k［19］．我们用t= 1和t= 1.5。

图6。泊松累积和(CUSUM)方程。k =参考值，S_n= CUSUM分数，X_n=当前时间间隔内的病例数，x拔_一个=零假设均值，x均值_d= alternative hypothesis mean， +上标表示值总是正的。

负二项分布算法

这一类别包括NBC和历史NBC。

负二项式CUSUM

静态阈值

我们选择了NBC [20.，21]因为它具有处理由于数据过度分散而导致的不准确性的特性。数据的过度分散导致VMR大于1。这通常发生在季节增长期间。两个参数(r)及(c₀)，用来描述负二项分布。方程图7(部分a和b)是用来确定这些参数的值基于均值(X-bar)和方差(sigma²)，由基准期推算而来。中的方程给出了决策区间图7(c, d和e部分)通过从控制中的c中寻找c的变化₀到一个失控的c₁，其中c₁> c₀［20.］．

失控水平c₁由基线周期的标准差与基线均值相加2倍确定。我们保持7周的基线间隔和1周的警戒带。保护带防止基线计算中包含最新的数据。因此，基线周期和当前周将有一个1周的空白作为保护带。CUSUM评分与阈值进行比较h．如果CUSUM评分(S_n⁺) >h。计算结果使用8和15的静态截止(阈值)值[22］．

图7。负二项式累积和(CUSUM)方程。k =参考值，(r,c) =负二项分布参数，S_n= CUSUM得分，sigma =标准差，X_n=当前时间间隔内的病例数，X-bar =病例数平均值，+上标表示始终为正数。

变量阈值

带有静态阈值的NBC虽然捕捉到了疫情的持续时间，但在早期预警方面很敏感。为了满足这种敏感性，我们为NBC引入了可变阈值。一个新参数，hv，作为CUSUM评分的阈值。其余参数的计算是基于图7．可变阈值hv是由方程计算的吗hv= t * k,在那里t是常数。我们使用的值进行分析t都是1和1.5。涉及k在阈值计算中，随着基线窗口的计数数据的变化而改变截止值。这降低了CUSUM的灵敏度[19］．

历史负二项式CUSUM

历史NBC是经季节调整的负二项式CUSUM [20.，21］．它计算c₀，r,k⁺使用公式图7(分别为a、b、e部分)。基线数据为过去5年当期患者病例计数。均值(X-bar)和方差(sigma)的计算²)是根据过去数年的给定基准期计算。CUSUM分数由公式给出图8．

如果S_n⁺>h,在那里h是结果保持在可容忍状态的最大限制。我们使用h= 15 [18，22]供我们分析。由于在第一次计算时就可能出现疫情，一般以较短的5年作为基线[18，19，22］．

图8。历史负二项式累积和(CUSUM)方程。k =参考值，S_n= CUSUM分数，X_n=本周的例数，+上标表示始终为正数。

性能指标

为了了解如何使用谷歌Flu Trends数据来构建早期流行病检测系统，我们比较了美国三个地区8种基本算法(来自3类算法)的24个变体的结果。据我们所知，本文首次对谷歌流感趋势数据的流行检测算法进行了比较分析。

对于我们的基本算法，我们使用了EARS CUSUM, HCusum, HLM, POD, SaTScan, PSC, NBC和HNBC。这些算法的特点使我们的分析具有一定程度的多样性:EARS CUSUM和NBC是为快速检测疫情而设计的;HCusum, HNBC, HLM和POD包含季节变化，但需要大量的培训时间;SaTScan需要最少的培训，并在检测统计上显著的疾病集群方面提供灵活性。

我们选择了由CDC划分的目标区域，以比较各种算法对人口规模和互联网普及率的敏感性。表1显示了我们实验中使用的HHS地区的人口规模和互联网普及率。图9地图上有美国的各个州。我们通过将每个地区的各州人口相加来计算每个地区的人口。这个计算使用的是2009年的人口[25］．互联网使用情况，摘自国家电信和信息化局发布的《2009年度人口互联网使用情况调查报告》[26]及美国人口普查局公布的2009年人口普查[27］．

对于我们关于人口规模的比较，我们集中在地区4(人口最多)和地区10(人口最少)。为了评估互联网普及率的影响，我们将重点放在第6地区(互联网普及率最低)和第10地区(互联网普及率最高)。来自第10地区的结果尤其令人感兴趣，因为它拥有最少的人口和最高的互联网普及率。我们期望来自10区域的结果可以作为谷歌流感趋势数据作为检测流行病基础的准确程度的基准。此外，第4和第6区域的天气与第10区域的天气相似，但有很大差异。

在我们的分析中，我们通过比较谷歌流感趋势数据与CDC报告的疾病病例的结果来评估每个算法。我们在以下关键指标上比较了算法的性能。

真阳性百分比

百分比真阳性(RTP)衡量CDC数据中疫情信号也被谷歌流感趋势数据上的目标算法检测到的时间百分比。此百分比的计算方法是:发出信号时的爆发间隔数除以总爆发间隔数，结果乘以100。

假阳性百分比

百分比假阳性(RFP)测量CDC数据中未显示的流行病被谷歌流感趋势数据上的目标算法检测为流行病的时间百分比。此百分比的计算方法是:发出信号时未爆发的周数除以未爆发的总周数，结果乘以100。

重叠时间百分比

重叠百分比(OT)衡量算法检测到的流行病与CDC数据中信号的流行病重叠的时间百分比。信号中与原始爆发不重叠的任何部分在OT中不被考虑。

早期告警

百分比早期警报(EA)测量算法在谷歌流感趋势上发出警报的时间百分比，然后CDC数据将其标记为流行病。早期警报期限于最初暴发开始前2周。在这两周之前开始的部分信号被认为是假阳性。

这四个指标捕捉了检测算法的不同方面。RTP度量算法对病毒爆发的敏感性。同时，过于敏感的算法会产生更多的rfp。

平均重叠时间捕获算法对疾病病例率瞬时变化的稳定性。对整个流行病时期发出信号的算法比那些发出短暂、零星信号的算法更可取。

最后，在其他算法之前发出疫情信号的算法更适合于早期疫情检测。然而，这个指标必须与算法的RFP结合起来考虑，以抵消产生伪信号的算法。对于我们的分析，如果一个信号在CDC数据中的信号之前2周的窗口内，只要它不是先前警报的延续，我们就将其视为早期警报。

表1。美国卫生与公众服务部(HHS)地区的互联网使用人口和百分比。

美国卫生和公众服务部地区	人口 (2009年人口普查)	%的互联网使用	州
1	14412684年	74.07	Ct me ma nh ri vt
2	28224114年	70.20	新泽西,纽约
3.	29479361年	69.30	De dc md pa va wv
4	60088178年	63.25	Al fl ga ky ms nc sc tn
5	51745410年	71.42	Il in mi mn，哦，wi
6	37860549年	61.56	Ar la nm，好的，tx
7	31840178年	71.68	Ia, ks, mo, ne
8	20802785年	72.13	Co, mt, nd, sd, ut, wy
9	46453010年	67.95	Az, ca, hi, nv
10	6691325年	76.93	Ak id或者wa

图10，图11,图12将我们研究中的所有算法在2003年至2011年的9年时间尺度上进行比较。这些数字的详细资料载于多媒体附件1，多媒体附件2,多媒体，根据我们的四个比较指标来比较算法:RTP, RFP, OT和EA在我们的三个目标区域[12，13，22］．

在每个多媒体附录中都有一个排序的列(算法的总体位置)。在本专栏中，算法根据四个性能指标的中位数进行排序。我们选择中位数是为了满足性能指标中的极端值。

虽然我们已经将算法分为三类，即泊松、负二项式和正态分布算法，但在我们的分析中，另一个子类别称为历史算法。这是负二项和正态分布类别的子集，因为它在这两个类别中都有算法。来自负二项和HLM的HNBC和来自正态分布的HCusum在四个性能指标上显示了相似的结果模式。因此，在接下来的讨论中，我们将添加历史算法的分类，并独立分析其结果。

在表2对于第一个性能指标RTP，所有类别的平均值都很高(正态、NBC和泊松分布算法分别为96.4%、99.0%和98.8%)，唯一的例外是历史算法(64%)。此外，在RTP百分比较高的算法中，各值之间没有显著差异。

在第二个性能度量RFP中，数值则相反，历史算法显示出非常优的值(平均3.3%，越低越好)，而正态、NBC和泊松分布算法分别显示11.4%、28.3%和17.5%的百分比。显然，历史算法和正态分布算法在这个指标中处于领先地位。

在第三个度量中，OT，负二项分布算法领先，OT为71.3%，其次是泊松分布(60.3%)，历史算法(30.8%)和正态分布算法(16.4%)。在这一指标上，NBC和泊松分布领先有重大差异，领先于历史和正态分布算法。

在第四个也是最后一个指标中，EA，负二项式，平均以75.8%的EA值领先，其次是泊松分布(55.1%)，正态分布(36.8%)和历史算法(22.3%)。

对于某些性能指标，某些类别的表现并不一致，并且这些类别的值在很大范围内变化。在正态分布算法中，EA的取值范围为0% ~ 75%。在泊松分布算法中，EA的变化范围为13% ~ 75%。因此，在这些情况下，特定度量的平均值不能被认为是具有代表性的，我们需要检查算法(或算法的变体)的适用性。

当我们观察正态分布算法中的EA值时，ear的C3变异仅在一个区域显示出较高的EA值。否则，次优值几乎在最佳范围内。而且C3的OT最多为34，这个值很低，不适合这个算法。

对于泊松分布中的EA值，SaTScan算法拉低了泊松分布算法在EA中的平均值。因此，如果我们考虑没有SaTScan的泊松分布算法的平均EA值，实际上从55.1上升到66.7。

总体而言，负二项式和泊松分布算法比正态分布算法表现得更好。这主要是因为这些算法所期望的数据分布。季节性流感样疾病资料的VMR均大于1，多数时间(图13)．因此，数据服从负二项分布[28］．此外，泊松分布近似于负二项分布[29，30.］．因此，基于泊松和基于负二项式的算法的总体百分比都很高。

历史算法表现不佳，因为它们考虑了过去几年同期的数据来宣布疫情爆发。他们没有考虑当年的数据分布。这使得它们在假阳性方面很强大，但在其他指标上的表现却存在显著差异。

此外，为了了解人口变化和互联网渗透率变化对不同地区的影响，我们从负二项分布和泊松分布算法中选择了前两种算法，并将其应用于所有地区(而不仅仅是三个)。表3，表4，表5,表6给出应用算法的结果。

分析结果表明，在互联网普及率高的地区，RFP和OT都很高。

表2。各种类型算法的各种性能指标的平均百分比。

度规	正常的	负二项	泊松	历史
RTP^一个	96.4	99.0	98.8	64.0
招标书^b	11.4	28.3	17.5	3．3
不^c	16.4	71.3	60.3	30.8
EA^d	36.8	75.8	55.1	22.3

^一个真阳性百分比。

^b假阳性百分比。

^c重叠时间百分比。

^d早期告警百分比。

表3。美国卫生与公众服务部(HHS)所有区域的所有绩效指标的负二项累积和结果(截止值= 15)。

美国卫生和公众服务部地区	RTP^一个	招标书^b	不^c	EA^d
1	One hundred.	45	98	87.5
2	One hundred.	40	85	77.7
3.	One hundred.	40	88	87.5
4	One hundred.	30.	81	88
5	One hundred.	40	95	87.5
6	One hundred.	40	76	88
7	One hundred.	40	95	87.5
8	87.5	50	83	75
9	90	40	71	80
10	One hundred.	40	82	71

^一个真阳性百分比。

^b假阳性百分比。

^c重叠时间百分比。

^d早期告警百分比。

表4。美国所有卫生与公众服务部(HHS)区域的所有绩效指标的负二项累积和(阈值= 1 * k)的结果。

美国卫生和公众服务部地区	RTP^一个	招标书^b	不^c	EA^d
1	One hundred.	35	87	87.5
2	One hundred.	27	74	66.7
3.	One hundred.	20.	81	75
4	One hundred.	20.	70	75
5	One hundred.	30.	86	75
6	One hundred.	20.	63	75
7	One hundred.	30.	87	75
8	87.5	40	71	75
9	90	30.	64	70
10	One hundred.	30.	68	71

^一个真阳性百分比。

^b假阳性百分比。

^c重叠时间百分比。

^d早期告警百分比。

表5所示。美国卫生与公众服务部(HHS)所有区域的所有绩效指标的泊松累积和(阈值= 1 * k)结果。

美国卫生和公众服务部地区	RTP^一个	招标书^b	不^c	EA^d
1	One hundred.	35	83	87.5
2	One hundred.	27	71	66.7
3.	One hundred.	20.	80	75
4	One hundred.	20.	70	75
5	One hundred.	30.	84	75
6	One hundred.	20.	62	75
7	One hundred.	30.	84	75
8	87.5	40	67	75
9	90	30.	64	70
10	One hundred.	30.	68	57

^一个真阳性百分比。

^b假阳性百分比。

^c重叠时间百分比。

^d早期告警百分比。

表6所示。美国所有卫生与公众服务部(HHS)区域的所有性能指标的泊松爆发检测结果。

美国卫生和公众服务部地区	RTP^一个	招标书^b	不^c	EA^d
1	One hundred.	35	77	33
2	One hundred.	20.	70	40
3.	One hundred.	30.	69	50
4	One hundred.	20.	58	75
5	One hundred.	40	72	50
6	One hundred.	20.	50	75
7	One hundred.	30.	72	75
8	87.5	30.	74	75
9	90	20.	57	40
10	One hundred.	20.	68	57

^一个真阳性百分比。

^b假阳性百分比。

^c重叠时间百分比。

^d早期告警百分比。

图10。美国卫生与公众服务部区域4。x轴描绘了谷歌流感趋势和疾病控制与预防中心(CDC)的数据。水平柱表示每种方法检测到流行病的位置。Cut为分界点(越多越不敏感)，b为基线数据(训练窗口)。底部的粗横条显示了实际的爆发情况。HCusum =历史累积和，HLM =历史极限法，HNBC =历史负二项累积和，ILI =流感样疾病，k =阈值参考值，NBC =负二项累积和，POD =泊松爆发检测，PSC =泊松累积和。

图11。美国卫生与公众服务部区域6。x轴描绘了谷歌流感趋势和疾病控制与预防中心(CDC)的数据。水平柱表示每种方法检测到流行病的位置。Cut为截断点(多敏感越低)，b为基线数据(训练窗口)。底部的粗横条显示了实际的爆发情况。HCusum =历史累积和，HLM =历史极限法，HNBC =历史负二项累积和，ILI =流感样疾病，k =阈值参考值，NBC =负二项累积和，POD =泊松爆发检测，PSC =泊松累积和。

图12。美国卫生与公众服务部区域10。x轴描绘了谷歌流感趋势和疾病控制与预防中心(CDC)的数据。水平柱表示每种方法检测到流行病的位置。Cut为截断点(多敏感越低)，b为基线数据(训练窗口)。底部的粗横条显示了实际爆发。HCusum =历史累积和，HLM =历史极限法，HNBC =历史负二项累积和，ILI =流感样疾病，k =阈值参考值，NBC =负二项累积和，POD =泊松爆发检测，PSC =泊松累积和。

图13。美国疾病控制和预防中心的数据与上面的方差平均比(VMR)线，沿VMR = 1标记。

在这项研究中，我们通过评估各种算法来增强谷歌流感趋势的功能，将该服务产生的原始搜索查询量转化为可操作的警报。我们特别关注利用谷歌流感趋势的能力，为传统的疾病监测网络提供近实时的替代方案，并探索使用这些数据建立早期流行病检测系统的实用性。本文首次对谷歌流感趋势上流行的早期流行检测算法进行了详细的比较分析。我们探讨了这些方法的相对优点，并考虑了互联网流行程度和人口规模的变化对这些方法预测流行病能力的影响。在这些评估中，我们利用CDC收集的数据，并在一致的实验框架内评估每种算法从互联网搜索查询量中预测CDC病例频率变化的能力。

我们的分析表明，在谷歌流感趋势数据中添加一层计算智能，为可靠的早期流行病检测系统提供了机会，该系统可以比CDC使用的现有系统提前高精度地预测疾病爆发。然而，我们注意到，实现这一机会需要超越传统上由CDC采用的基于CUSUM和hlm的正态分布方法。特别是，虽然我们没有找到一种适用于谷歌流感趋势数据的最佳方法，但我们的研究结果强烈支持基于负二项式和泊松的算法在处理来自不同互联网普及率地区的潜在噪声搜索查询数据时更有用。对于这样的数据，我们发现正态分布算法的表现不如负二项和泊松分布算法。

此外，我们的分析表明，一种疾病的患者数据在全年中遵循不同的分布。因此，当数据的VMR等于1时，理想情况下遵循泊松分布，可以使用基于泊松的算法进行处理。当方差的增加使VMR超过1时，数据变得过度分散。基于泊松的算法可以在一定限度内处理这种过度分散[29］．当VMR非常高时，需要一种算法将方差视为参数并相应地发出警报。由于基于负二项分布的算法考虑了方差[29]，这样的算法在类似的场景下表现更好。例如，NBC对于计数数据过于分散的报警是准确的[29］．为了得到更好的结果，基于上述讨论，我们提出了一种方法，即随着VMR的上升和下降而改变算法的分布期望。应该更深入地探索这一领域，以产生根据数据分布类型进行适应的算法。

我们的研究是第一次尝试使用谷歌流感趋势数据将流行病预测与互联网普及率和被评估的人口规模联系起来。我们认为，了解这些因素如何影响预测流行病的算法，是将基于搜索查询的系统扩展到广泛的地理区域和社区的一个不可或缺的问题。在我们的调查中，我们观察到互联网普及率和人口规模都对算法性能有一定的影响。SaTScan在互联网普及率高、人口规模小的地区表现较好，而POD和NBC在互联网普及率低、人口规模大的地区表现较好。CUSUM在人口多的地区表现最好。虽然搜索查询数据和测量(即CDC)病例记录的可用性限制了我们对美国的分析，但我们相信，其中许多见解可能有助于为其他地区(包括发展中国家的社区)开发早期流行病预测系统。

总之，我们提出了一项算法的早期研究，该算法将来自谷歌Flu Trends等服务的数据转换为一个全自动系统，用于在流行病发生的可能性相当高时生成警报。我们的研究增强了在早期阶段发现疾病暴发的能力，在这个阶段，许多给全球造成巨大负担的疾病可以以更好的结果和更具成本效益的方式得到治疗。此外，由于能够及早对即将发生的情况作出反应，可以更主动地限制任何潜在疫情的规模。总之，我们的研究结果提供了一种方法，可以将通过互联网收集的原始数据转换为更精细的信息，从而指导应对疾病传播的有效政策。

基于我们的工作，我们开发了FluBreaks (dritte.org/flubreaks)，这是一个使用谷歌流感趋势的流感流行早期预警系统。

致谢

我们感谢密歇根大学的Zeeshan Syed博士的宝贵反馈和智力贡献。我们感谢巴基斯坦公共卫生研究所流行病学教授Farkanda Kokab博士和巴基斯坦Quaid-e-Azam医学院教授兼社区医学部主任Ijaz Shah博士标记了我们的疫情并为我们提供了宝贵的反馈。我们也感谢纽约大学的Lakshminarayanan Subramanian博士审阅了我们的论文。

利益冲突

没有宣布。

‎

多媒体附件1

HSS区域4(最高种群)各评价参数的算法排序。

PDF档案(adobepdf档案)，48KB

‎

多媒体附件2

HSS区域6(最低互联网使用率)在不同评估参数中的算法排名。

PDF档案(adobepdf档案)，48KB

‎

多媒体

HSS区域10(最低人口和最高互联网使用率)在不同评估参数中的算法排名。

PDF档案(adobepdf档案)，48KB

信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架，用于分析互联网上的搜索、传播和发布行为。中国医学杂志，2009;11(1):e11 [免费全文] [CrossRef] [Medline］
信息流行病学:在网上跟踪流感相关搜索以进行症状监测。美国医学会年鉴2006:244-248。［Medline］
Bennett GG，格拉斯哥RE.通过互联网提供公共卫生干预措施:实现其潜力。年度修订公共卫生2009;30:273-292。［CrossRef] [Medline］
Castillo-Salgado C.全球公共卫生监测趋势和方向。流行病学杂志2010年4月32(1):93-109。［CrossRef] [Medline］
Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.利用搜索引擎查询数据检测流感流行。自然杂志2009年2月19日;457(7232):1012-1014。［CrossRef] [Medline］
威尔逊·K，布朗斯坦·JS。利用互联网及早发现疾病爆发。中国医学杂志2009年4月14日;180(8):829-831。［CrossRef] [Medline］
Seifter A, Schwarzwalder A, Geis K, Aucott J.“谷歌趋势”在流行病学研究中的应用:以莱姆病为例。地球卫生2010年5月;4(2):135-137 [免费全文] [Medline］
Breyer BN, Sen S, Aaronson DS, Stoller ML, Erickson BA, Eisenberg ML.使用谷歌Insights for Search跟踪美国季节性和地理肾结石发病率。泌尿外科杂志2011年8月;78(2):267-271。［CrossRef] [Medline］
谷歌. 2012 3月6日流感趋势:美国2011-2012http://www.google.org/flutrends/us/[访问2012-03-08][WebCite缓存］
Hutwagner L, Thompson W, Seeman GM, Treadwell T.生物恐怖主义准备和响应早期异常报告系统(ear)。《城市卫生》2003年6月;80(2增刊1):i89-i96。［Medline］
弗里克RD，海格勒BL，邓菲DA。比较综合征监测检测方法:EARS与基于cusum的方法。统计医学2008年7月30日;27(17):3407-3429。［CrossRef] [Medline］
Hutwagner LC, Thompson WW, Seeman GM, Treadwell T.一个用于评估公共卫生监测系统中有限基线的畸变检测方法的仿真模型。统计医学2005年2月28日;24(4):543-550。［CrossRef] [Medline］
Stroup DF, Williamson GD, Herndon JL, Karon JM。应报疾病监测数据发生偏差的发现。中华医学杂志1989年3月8日(3):323-9;讨论331年。［Medline］
Hutwagner LC, Maloney EK, Bean NH, Slutsker L, Martin SM。使用基于实验室的监测数据进行预防:检测沙门氏菌爆发的算法。中国传染病杂志1997;3(3):395-400。［CrossRef] [Medline］
Hutwagner L, Browne T, Seeman GM, Fleischauer AT。像差检测方法与模拟数据的比较。Emerg infection Dis 2005 Feb;11(2):314-316 [免费全文] [CrossRef] [Medline］
Gatton ML, Kelly-Hope LA, Kay BH, Ryan PA。澳大利亚昆士兰州罗斯河病毒病型的时空分析美国热带医学杂志2004年11月;71(5):629-635 [免费全文] [Medline］
库尔多夫，信息管理服务公司satscan.org。2005.SaTScan:用于空间、时间和时空扫描统计的软件http://www.satscan.org/[访问2012-03-08][WebCite缓存］
吴国强，陈晓明，陈晓明，陈晓明，等。传染病暴发的统计学方法研究进展。中国生物医学工程学报，2012;29(1):344 - 344。［CrossRef］
卢卡斯JM。统计数据CUSUM。技术计量学1985;27(2):129-144 [免费全文］
霍金斯DM，奥威尔DH。质量改进的累积和图表。纽约州纽约:施普林格;1998.
沃特金斯RE, Eagleson S, Veenendaal B, Wright G, Plant AJ。应用基于习惯的方法检测西澳大利亚罗斯河病毒病暴发。BMC Med Inform Decis Mak 2008;8:37 [免费全文] [CrossRef] [Medline］
Pelecanos AM, Ryan PA, Gatton ML.季节性疾病数据的爆发检测算法:使用罗斯河病毒疾病的案例研究。BMC Med Inform Decis Mak 2010;10:74 [免费全文] [CrossRef] [Medline］
美国疾病控制与预防中心，2012年3月2日。季节性流感(流感):2011-2012流感季节第八周结束2012年2月25日网址:http://www.cdc.gov/flu/weekly/[访问2012-03-08][WebCite缓存］
美国疾病控制与预防中心，2011年10月7日。季节性流感(流感):美国流感监测概述http://www.cdc.gov/flu/weekly/overview.htm[访问2012-05-15][WebCite缓存］
怪物。培生教育，2012。美国各州人口，1790 - 2010http://www.factmonster.com/ipka/A0004986.html[访问2012-03-08][WebCite缓存］
美国商务部，国家电信和信息管理局，2009。二零零九年现行人口统计调查互联网使用情况网址:http://www.ntia.doc.gov/data/CPS2009_Tables.html[访问2012-03-08][WebCite缓存］
美国商务部，国家电信和信息管理局。美国人口普查局，美国统计摘要，2011。2009年按互联网连接类型及州划分的家庭互联网使用情况http://www.census.gov/compendia/statab/2011/tables/11s1155.pdf[访问2012-03-08][WebCite缓存］
Cox DR, Lewis PAW。事件系列的统计分析。伦敦:查普曼和霍尔;1966.
麦卡拉P，内德JA。广义线性模型，第二版。伦敦:查普曼和霍尔;1989.
卡梅伦·AC，特里维迪报道。统计数据的回归分析。英国剑桥:剑桥大学出版社;1998.

‎

疾病预防控制中心:疾病控制和预防中心

CUSUM:累计金额

EA:早期报警百分比

耳朵:早期畸变报告系统

HCusum:历史累计总和

问题:历史界限法

ILINet:门诊流感样疾病监测网络

美国全国广播公司(NBC):负二项式累积和

不:百分比重叠

圆荚体:泊松爆发检测

PSC:泊松累积和

招标书:假阳性百分比

RTP:真阳性百分比

VMR:方差均值比

G·艾森巴赫(G Eysenbach)编辑;提交08.03.12;M Gatton同行评审;对作者29.03.12的评论;修订版本收到18.05.12;接受10.07.12;发表04.10.12

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

FluBreaks:谷歌流感趋势的早期流行检测

FluBreaks:谷歌流感趋势的早期流行检测

原始论文

通讯作者:

摘要

关键字

简介

方法

数据源

谷歌流感趋势

疾控中心的门诊疾病监测

爆发

爆发检测算法

正态分布算法

早期畸变报告系统算法

历史界限法

历史CUSUM

泊松分布算法

泊松爆发检测方法

纯时序卫星扫描

泊松CUSUM

负二项分布算法

负二项式CUSUM

静态阈值

变量阈值

历史负二项式CUSUM

性能指标

真阳性百分比

假阳性百分比

重叠时间百分比

早期告警

结果

讨论

致谢

利益冲突

多媒体附件1

多媒体附件2

多媒体

参考文献

缩写