这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
谷歌流感趋势服务于2008年推出,用于跟踪与流感症状相关的在线搜索查询量的变化。在过去几年中,该服务产生的趋势数据显示,与美国疾病控制和预防中心(CDC)收集的实际流感报告数量存在一致的关系,通常在CDC记录之前数周就发现了流感病例的增加。然而,与普遍的看法相反,谷歌流感趋势并不是一个早期的流行病检测系统。相反,它被设计为疾病病例数趋势或变化的基线指标。
评估这些趋势是否可作为流行病早期预警系统的基础。
我们提出了第一个详细的算法分析,谷歌流感趋势如何被用作建立一个完全自动化的流行病早期预警系统的基础,而不是CDC使用的方法。基于我们的工作,我们提出了一个新的早期流行病检测系统,称为FluBreaks (dritte.org/flubreaks),基于谷歌流感趋势数据。我们比较了三种算法的准确性和实用性:正态分布算法、泊松分布算法和负二项分布算法。我们探讨了这些方法的相对优点,并将我们的发现与谷歌流感趋势中提供数据的地区的互联网普及率和人口规模的变化联系起来。
在我们的真阳性百分比(RTP)、假阳性百分比(RFP)、重叠百分比(OT)和早期警报百分比(EA)的性能指标中,基于泊松和负二项式的算法在除RFP之外的所有算法中都表现得更好。基于泊松的算法对RTP、RFP、OT和EA的均值分别为99%、28%、71%和76%,而基于负二项式的算法对RTP、RFP、OT和EA的均值分别为97.8%、17.8%、60%和55%。此外,EA还受到区域人口规模的影响。对于基于负二项和泊松的算法,具有较大人口的区域(区域4和6)具有高于人口最少的区域10的EA值。基于负二项式和泊松算法的平均差异分别为12.5%和13.5%。
我们首次对谷歌流感趋势数据上流行的早期流行病检测算法进行了详细的比较分析。我们注意到,要实现这一机会,需要超越CDC传统上采用的基于累积和和历史限制方法的正态分布方法,转向基于负二项和泊松的算法,以处理来自不同人口和互联网普及率地区的潜在噪声搜索查询数据。基于我们的工作,我们开发了FluBreaks,这是一个使用谷歌流感趋势的流感流行早期预警系统。
信息流行病学介绍了使用非传统数据源来检测疾病趋势和疫情[
在缺乏其他实时疾病监测机制的情况下,谷歌流感趋势等服务对于早期发现流行病至关重要。关于使用谷歌流感趋势进行流行病检测的现有研究集中于通过收集与疾病症状查询量相关的数据来满足这一需求。这项工作表明,谷歌搜索查询趋势与CDC报告的实际疾病病例密切相关。虽然这些结果为可能使用谷歌流感趋势数据作为流行病早期预警系统的基础提供了强有力的支持,但现有的研究需要沿着两个基本方向推进,以实现这一机会。首先,有必要严格探索和进化算法,以便从谷歌流感趋势数据中进行更高级别的推断,从而在流行病的早期阶段生成警报。特别是,现有方法收集原始搜索量数据的能力需要计算智能的补充,以将这些数据转化为可操作的信息。其次,还需要更详细地了解人口规模和互联网普及率的变化如何影响基于谷歌流感趋势数据的系统提供准确和可操作信息的能力。
在这项研究中,我们旨在提供与这些机会相关的新见解。我们以谷歌流感趋势数据为基础,比较了广泛使用的早期流行病检测算法的准确性和实用性。这些算法根据它们期望的数据分布类型分为三类。所讨论的分类是正态分布算法、泊松分布算法和负二项分布算法。对于正态分布算法,我们使用累积和(CUSUM) [
传统的疾病监测网络,如疾病预防控制中心,需要长达两周的时间来收集、处理和报告在卫生中心登记的疾病病例[
谷歌流感趋势[
谷歌流感趋势将美国最常见的5000万个谷歌搜索查询的受欢迎程度与疾病预防控制中心国家监测项目报告的流感样疾病发病率进行了比较。流感趋势数据来自45个与流感症状、治疗方法和并发症相关的搜索词,并生成与CDC流感样疾病数据密切相关的趋势。
在我们的实验中,我们使用了2003年至2011年9年间的谷歌流感趋势数据。
在美国,患者因流感样疾病就诊的信息通过门诊流感样疾病监测网络(ILINet)收集。ILINet由全美50个州的3000多名医疗保健提供者组成,报告每年有超过2500万名患者就诊。每周,美国各地大约1800个门诊护理点向疾病控制与预防中心报告患者总数和流感样疾病患者的数量。在这个系统中,流感样疾病定义为发烧(温度为100°F[37.8°C]或更高)和咳嗽或喉咙痛,但除流感外没有其他已知原因。有电子记录的场所使用由国家公共卫生部门确定的等效定义。每周报告的因流感样疾病就诊于卫生保健提供者的患者百分比是根据一个州的人口加权的。这一百分比每周与2.5%的国家基线进行比较。基线为前三个季节非流感周流感样疾病患者就诊的平均百分比加上2个标准差[
在我们的实验中,就像谷歌流感趋势数据一样,我们使用了2003年至2011年9年间CDC的流感样疾病数据。尽管美国疾病控制与预防中心在2009年至2010年非流感季节的数据缺失,但我们相信这对我们的定量比较影响很小。
为了确定疫情爆发的时期、时间起点和持续时间,我们咨询了来自不同研究所的两位流行病学家。第一份来自巴基斯坦拉合尔公共卫生研究所(负责向省卫生部通报疾病暴发情况),第二份来自巴基斯坦巴哈瓦尔布尔的Quaid-e-Azam医学院。这些原始暴发在CDC流感样疾病数据中有标记[
我们使用过的早期流行检测算法,根据数据中的期望分布,分为三类:(1)正态分布算法:期望数据中的正态分布;(2)泊松分布算法:期望数据中的泊松分布;(3)负二项分布算法:期望数据中的负二项分布。
归入此类别的算法是早期畸变报告系统(ear)算法(CUSUM)、HLM和HCusum。
ear是由CDC开发和使用的。EARS包括三种综合征监测早期事件检测方法,称为C1, C2和C3 [
C1、C2和C3 EARS算法需要一个基线(训练周期)和截止(阈值)作为参数。在我们的实验中,我们分别使用了4周和8周作为基线。较短的训练周期(基线)已被证明可以使CUSUM免受季节变化的影响[
由于CUSUM使用平均值和标准偏差来发出警报,因此对于数据正态分布的爆发是最好的。这意味着该算法对突然上升非常敏感,从而产生早期警报。此外,它预计爆发数据的持续增长将继续下去,因为增长的开始成为历史数据的一部分,因此也提高了算法的平均值和标准差。
早期畸变报告系统(ear)算法方程。C1= C1算法的累积和(CUSUM)得分,C .2= C2算法的CUSUM评分,C .3.= C3算法的CUSUM评分,sigma =标准差,X-bar =平均例数,X .n=当前时间间隔内的病例数。下标指的是链接到这三种算法中的任意一种的特定变量。
ear中使用的CUSUM方法在设计上没有考虑季节性;然而,HLM包含了历史数据。在HLM中,当标识为时,表示爆发
在HLM中,系统通过以下方法确定一周的期望值:(1)使用历史数据中每年连续3周,即当前周、前一周和后一周(标题为HLM-3);(2)使用历史数据中每年连续5周,即历史数据中的当前周、前2周和后2周(标题为HLM-5)。
Pelecanos等人推荐上述两种变化(使用15个基准点的HLM-3和使用25个基准点的HLM-5) [
我们同时使用了HLM-3和HLM-5,培训时间为5年,从2003年开始到2008年结束。为了确定培训期间的疫情爆发,我们从2003年至2008年(包括这两年)的时间轴上每次删除1年。然后,我们假设其余年份是连续的,并通过使用剩余的4年来确定省略年份的暴发。在训练期间的每一年都重复这个过程。
就像ear一样,HLM基于数据的均值和标准差运行。因此,爆发的定义是期望出现正态分布,并根据正态分布将任何异常值标记为爆发。
历史极限法(HLM)方程。Sigma =标准差,X =当期报告病例数,X-bar =均值。
历史数据的历史限制方法(HLM)。HLM-3 =连续3周历史数据,HLM-5 =连续5周历史数据。
HCusum是经季节调整的CUSUM [
如果(c)中的标识为真,则声明爆发。
历史累积和(HCUSUM)方程。=标准差,Xn=当前时间间隔内的病例数,X-bar =病例数平均值。N = 5,因为基线周期为前5年。
这类算法包括POD、SaTScan和PSC。
POD方法假定病例数服从泊松分布。POD方法[
我们遵循了Pelecanos等人的某些建议[
SaTScan算法可用于空间分析、时间分析和时空分析。我们仅使用时间分析进行爆发检测,因为空间映射已经固定到cdc定义的区域。我们使用了泊松排列,它最适用于遵循泊松分布的数据。这是当数据的VMR等于1时的情况。
Temporal SaTScan通过在60天的间隔内滑动和缩放窗口来创建1维集群。我们依靠泊松排列来确定具有最高似然比的聚类。
方程(
一旦我们在一个区间内找到了最好的聚类,算法就会计算
SaTScan不考虑季节性。因此,为了调整SaTScan的季节性,我们每周对所分析区域的人口规模进行缩放。SaTScan使用人口规模作为参数之一,因此每周人口都进行缩放。缩放人口规模的因素取决于每周的发病率和每年的人口:
此外,由于CDC和谷歌数据以每周为周期报告,我们将SaTScan参数化为每周的时间单位。我们设置了
SaTScan方程。C =总病例数,Cz=窗口z观测病例数,LLR =似然比,nz=窗口z的预期病例数或人口。
PSC是一种算法,可以有效地检测遵循泊松分布的数据中的异常[
当计算出的CUSUM分数高于阈值时,表示爆发
泊松累积和(CUSUM)方程。k =参考值,Sn= CUSUM分数,Xn=当前时间间隔内的病例数,x拔一个=零假设均值,x均值d= alternative hypothesis mean, +上标表示值总是正的。
这一类别包括NBC和历史NBC。
我们选择了NBC [
失控水平c1由基线周期的标准差与基线均值相加2倍确定。我们保持7周的基线间隔和1周的警戒带。保护带防止基线计算中包含最新的数据。因此,基线周期和当前周将有一个1周的空白作为保护带。CUSUM评分与阈值进行比较
负二项式累积和(CUSUM)方程。k =参考值,(r,c) =负二项分布参数,Sn= CUSUM得分,sigma =标准差,Xn=当前时间间隔内的病例数,X-bar =病例数平均值,+上标表示始终为正数。
带有静态阈值的NBC虽然捕捉到了疫情的持续时间,但在早期预警方面很敏感。为了满足这种敏感性,我们为NBC引入了可变阈值。一个新参数,
历史NBC是经季节调整的负二项式CUSUM [
如果Sn+>
历史负二项式累积和(CUSUM)方程。k =参考值,Sn= CUSUM分数,Xn=本周的例数,+上标表示始终为正数。
为了了解如何使用谷歌Flu Trends数据来构建早期流行病检测系统,我们比较了美国三个地区8种基本算法(来自3类算法)的24个变体的结果。据我们所知,本文首次对谷歌流感趋势数据的流行检测算法进行了比较分析。
对于我们的基本算法,我们使用了EARS CUSUM, HCusum, HLM, POD, SaTScan, PSC, NBC和HNBC。这些算法的特点使我们的分析具有一定程度的多样性:EARS CUSUM和NBC是为快速检测疫情而设计的;HCusum, HNBC, HLM和POD包含季节变化,但需要大量的培训时间;SaTScan需要最少的培训,并在检测统计上显著的疾病集群方面提供灵活性。
我们选择了由CDC划分的目标区域,以比较各种算法对人口规模和互联网普及率的敏感性。
对于我们关于人口规模的比较,我们集中在地区4(人口最多)和地区10(人口最少)。为了评估互联网普及率的影响,我们将重点放在第6地区(互联网普及率最低)和第10地区(互联网普及率最高)。来自第10地区的结果尤其令人感兴趣,因为它拥有最少的人口和最高的互联网普及率。我们期望来自10区域的结果可以作为谷歌流感趋势数据作为检测流行病基础的准确程度的基准。此外,第4和第6区域的天气与第10区域的天气相似,但有很大差异。
在我们的分析中,我们通过比较谷歌流感趋势数据与CDC报告的疾病病例的结果来评估每个算法。我们在以下关键指标上比较了算法的性能。
百分比真阳性(RTP)衡量CDC数据中疫情信号也被谷歌流感趋势数据上的目标算法检测到的时间百分比。此百分比的计算方法是:发出信号时的爆发间隔数除以总爆发间隔数,结果乘以100。
百分比假阳性(RFP)测量CDC数据中未显示的流行病被谷歌流感趋势数据上的目标算法检测为流行病的时间百分比。此百分比的计算方法是:发出信号时未爆发的周数除以未爆发的总周数,结果乘以100。
重叠百分比(OT)衡量算法检测到的流行病与CDC数据中信号的流行病重叠的时间百分比。信号中与原始爆发不重叠的任何部分在OT中不被考虑。
百分比早期警报(EA)测量算法在谷歌流感趋势上发出警报的时间百分比,然后CDC数据将其标记为流行病。早期警报期限于最初暴发开始前2周。在这两周之前开始的部分信号被认为是假阳性。
这四个指标捕捉了检测算法的不同方面。RTP度量算法对病毒爆发的敏感性。同时,过于敏感的算法会产生更多的rfp。
平均重叠时间捕获算法对疾病病例率瞬时变化的稳定性。对整个流行病时期发出信号的算法比那些发出短暂、零星信号的算法更可取。
最后,在其他算法之前发出疫情信号的算法更适合于早期疫情检测。然而,这个指标必须与算法的RFP结合起来考虑,以抵消产生伪信号的算法。对于我们的分析,如果一个信号在CDC数据中的信号之前2周的窗口内,只要它不是先前警报的延续,我们就将其视为早期警报。
美国卫生与公众服务部(HHS)地区的互联网使用人口和百分比。
美国卫生和公众服务部 |
人口 |
%的互联网 |
州 |
1 | 14412684年 | 74.07 | Ct me ma nh ri vt |
2 | 28224114年 | 70.20 | 新泽西,纽约 |
3. | 29479361年 | 69.30 | De dc md pa va wv |
4 | 60088178年 | 63.25 | Al fl ga ky ms nc sc tn |
5 | 51745410年 | 71.42 | Il in mi mn,哦,wi |
6 | 37860549年 | 61.56 | Ar la nm,好的,tx |
7 | 31840178年 | 71.68 | Ia, ks, mo, ne |
8 | 20802785年 | 72.13 | Co, mt, nd, sd, ut, wy |
9 | 46453010年 | 67.95 | Az, ca, hi, nv |
10 | 6691325年 | 76.93 | Ak id或者wa |
美国卫生和公众服务部的地区。
在每个多媒体附录中都有一个排序的列(算法的总体位置)。在本专栏中,算法根据四个性能指标的中位数进行排序。我们选择中位数是为了满足性能指标中的极端值。
虽然我们已经将算法分为三类,即泊松、负二项式和正态分布算法,但在我们的分析中,另一个子类别称为历史算法。这是负二项和正态分布类别的子集,因为它在这两个类别中都有算法。来自负二项和HLM的HNBC和来自正态分布的HCusum在四个性能指标上显示了相似的结果模式。因此,在接下来的讨论中,我们将添加历史算法的分类,并独立分析其结果。
在
在第二个性能度量RFP中,数值则相反,历史算法显示出非常优的值(平均3.3%,越低越好),而正态、NBC和泊松分布算法分别显示11.4%、28.3%和17.5%的百分比。显然,历史算法和正态分布算法在这个指标中处于领先地位。
在第三个度量中,OT,负二项分布算法领先,OT为71.3%,其次是泊松分布(60.3%),历史算法(30.8%)和正态分布算法(16.4%)。在这一指标上,NBC和泊松分布领先有重大差异,领先于历史和正态分布算法。
在第四个也是最后一个指标中,EA,负二项式,平均以75.8%的EA值领先,其次是泊松分布(55.1%),正态分布(36.8%)和历史算法(22.3%)。
对于某些性能指标,某些类别的表现并不一致,并且这些类别的值在很大范围内变化。在正态分布算法中,EA的取值范围为0% ~ 75%。在泊松分布算法中,EA的变化范围为13% ~ 75%。因此,在这些情况下,特定度量的平均值不能被认为是具有代表性的,我们需要检查算法(或算法的变体)的适用性。
当我们观察正态分布算法中的EA值时,ear的C3变异仅在一个区域显示出较高的EA值。否则,次优值几乎在最佳范围内。而且C3的OT最多为34,这个值很低,不适合这个算法。
对于泊松分布中的EA值,SaTScan算法拉低了泊松分布算法在EA中的平均值。因此,如果我们考虑没有SaTScan的泊松分布算法的平均EA值,实际上从55.1上升到66.7。
总体而言,负二项式和泊松分布算法比正态分布算法表现得更好。这主要是因为这些算法所期望的数据分布。季节性流感样疾病资料的VMR均大于1,多数时间(
历史算法表现不佳,因为它们考虑了过去几年同期的数据来宣布疫情爆发。他们没有考虑当年的数据分布。这使得它们在假阳性方面很强大,但在其他指标上的表现却存在显著差异。
此外,为了了解人口变化和互联网渗透率变化对不同地区的影响,我们从负二项分布和泊松分布算法中选择了前两种算法,并将其应用于所有地区(而不仅仅是三个)。
分析结果表明,在互联网普及率高的地区,RFP和OT都很高。
各种类型算法的各种性能指标的平均百分比。
度规 | 正常的 | 负 |
泊松 | 历史 |
RTP一个 | 96.4 | 99.0 | 98.8 | 64.0 |
招标书b | 11.4 | 28.3 | 17.5 | 3.3 |
不c | 16.4 | 71.3 | 60.3 | 30.8 |
EAd | 36.8 | 75.8 | 55.1 | 22.3 |
一个真阳性百分比。
b假阳性百分比。
c重叠时间百分比。
d早期告警百分比。
美国卫生与公众服务部(HHS)所有区域的所有绩效指标的负二项累积和结果(截止值= 15)。
美国卫生和公众服务部地区 | RTP一个 | 招标书b | 不c | EAd |
1 | One hundred. | 45 | 98 | 87.5 |
2 | One hundred. | 40 | 85 | 77.7 |
3. | One hundred. | 40 | 88 | 87.5 |
4 | One hundred. | 30. | 81 | 88 |
5 | One hundred. | 40 | 95 | 87.5 |
6 | One hundred. | 40 | 76 | 88 |
7 | One hundred. | 40 | 95 | 87.5 |
8 | 87.5 | 50 | 83 | 75 |
9 | 90 | 40 | 71 | 80 |
10 | One hundred. | 40 | 82 | 71 |
一个真阳性百分比。
b假阳性百分比。
c重叠时间百分比。
d早期告警百分比。
美国所有卫生与公众服务部(HHS)区域的所有绩效指标的负二项累积和(阈值= 1 * k)的结果。
美国卫生和公众服务部地区 | RTP一个 | 招标书b | 不c | EAd |
1 | One hundred. | 35 | 87 | 87.5 |
2 | One hundred. | 27 | 74 | 66.7 |
3. | One hundred. | 20. | 81 | 75 |
4 | One hundred. | 20. | 70 | 75 |
5 | One hundred. | 30. | 86 | 75 |
6 | One hundred. | 20. | 63 | 75 |
7 | One hundred. | 30. | 87 | 75 |
8 | 87.5 | 40 | 71 | 75 |
9 | 90 | 30. | 64 | 70 |
10 | One hundred. | 30. | 68 | 71 |
一个真阳性百分比。
b假阳性百分比。
c重叠时间百分比。
d早期告警百分比。
美国卫生与公众服务部(HHS)所有区域的所有绩效指标的泊松累积和(阈值= 1 * k)结果。
美国卫生和公众服务部地区 | RTP一个 | 招标书b | 不c | EAd |
1 | One hundred. | 35 | 83 | 87.5 |
2 | One hundred. | 27 | 71 | 66.7 |
3. | One hundred. | 20. | 80 | 75 |
4 | One hundred. | 20. | 70 | 75 |
5 | One hundred. | 30. | 84 | 75 |
6 | One hundred. | 20. | 62 | 75 |
7 | One hundred. | 30. | 84 | 75 |
8 | 87.5 | 40 | 67 | 75 |
9 | 90 | 30. | 64 | 70 |
10 | One hundred. | 30. | 68 | 57 |
一个真阳性百分比。
b假阳性百分比。
c重叠时间百分比。
d早期告警百分比。
美国所有卫生与公众服务部(HHS)区域的所有性能指标的泊松爆发检测结果。
美国卫生和公众服务部地区 | RTP一个 | 招标书b | 不c | EAd |
1 | One hundred. | 35 | 77 | 33 |
2 | One hundred. | 20. | 70 | 40 |
3. | One hundred. | 30. | 69 | 50 |
4 | One hundred. | 20. | 58 | 75 |
5 | One hundred. | 40 | 72 | 50 |
6 | One hundred. | 20. | 50 | 75 |
7 | One hundred. | 30. | 72 | 75 |
8 | 87.5 | 30. | 74 | 75 |
9 | 90 | 20. | 57 | 40 |
10 | One hundred. | 20. | 68 | 57 |
一个真阳性百分比。
b假阳性百分比。
c重叠时间百分比。
d早期告警百分比。
美国卫生与公众服务部区域4。x轴描绘了谷歌流感趋势和疾病控制与预防中心(CDC)的数据。水平柱表示每种方法检测到流行病的位置。Cut为分界点(越多越不敏感),b为基线数据(训练窗口)。底部的粗横条显示了实际的爆发情况。HCusum =历史累积和,HLM =历史极限法,HNBC =历史负二项累积和,ILI =流感样疾病,k =阈值参考值,NBC =负二项累积和,POD =泊松爆发检测,PSC =泊松累积和。
美国卫生与公众服务部区域6。x轴描绘了谷歌流感趋势和疾病控制与预防中心(CDC)的数据。水平柱表示每种方法检测到流行病的位置。Cut为截断点(多敏感越低),b为基线数据(训练窗口)。底部的粗横条显示了实际的爆发情况。HCusum =历史累积和,HLM =历史极限法,HNBC =历史负二项累积和,ILI =流感样疾病,k =阈值参考值,NBC =负二项累积和,POD =泊松爆发检测,PSC =泊松累积和。
美国卫生与公众服务部区域10。x轴描绘了谷歌流感趋势和疾病控制与预防中心(CDC)的数据。水平柱表示每种方法检测到流行病的位置。Cut为截断点(多敏感越低),b为基线数据(训练窗口)。底部的粗横条显示了实际爆发。HCusum =历史累积和,HLM =历史极限法,HNBC =历史负二项累积和,ILI =流感样疾病,k =阈值参考值,NBC =负二项累积和,POD =泊松爆发检测,PSC =泊松累积和。
美国疾病控制和预防中心的数据与上面的方差平均比(VMR)线,沿VMR = 1标记。
在这项研究中,我们通过评估各种算法来增强谷歌流感趋势的功能,将该服务产生的原始搜索查询量转化为可操作的警报。我们特别关注利用谷歌流感趋势的能力,为传统的疾病监测网络提供近实时的替代方案,并探索使用这些数据建立早期流行病检测系统的实用性。本文首次对谷歌流感趋势上流行的早期流行检测算法进行了详细的比较分析。我们探讨了这些方法的相对优点,并考虑了互联网流行程度和人口规模的变化对这些方法预测流行病能力的影响。在这些评估中,我们利用CDC收集的数据,并在一致的实验框架内评估每种算法从互联网搜索查询量中预测CDC病例频率变化的能力。
我们的分析表明,在谷歌流感趋势数据中添加一层计算智能,为可靠的早期流行病检测系统提供了机会,该系统可以比CDC使用的现有系统提前高精度地预测疾病爆发。然而,我们注意到,实现这一机会需要超越传统上由CDC采用的基于CUSUM和hlm的正态分布方法。特别是,虽然我们没有找到一种适用于谷歌流感趋势数据的最佳方法,但我们的研究结果强烈支持基于负二项式和泊松的算法在处理来自不同互联网普及率地区的潜在噪声搜索查询数据时更有用。对于这样的数据,我们发现正态分布算法的表现不如负二项和泊松分布算法。
此外,我们的分析表明,一种疾病的患者数据在全年中遵循不同的分布。因此,当数据的VMR等于1时,理想情况下遵循泊松分布,可以使用基于泊松的算法进行处理。当方差的增加使VMR超过1时,数据变得过度分散。基于泊松的算法可以在一定限度内处理这种过度分散[
我们的研究是第一次尝试使用谷歌流感趋势数据将流行病预测与互联网普及率和被评估的人口规模联系起来。我们认为,了解这些因素如何影响预测流行病的算法,是将基于搜索查询的系统扩展到广泛的地理区域和社区的一个不可或缺的问题。在我们的调查中,我们观察到互联网普及率和人口规模都对算法性能有一定的影响。SaTScan在互联网普及率高、人口规模小的地区表现较好,而POD和NBC在互联网普及率低、人口规模大的地区表现较好。CUSUM在人口多的地区表现最好。虽然搜索查询数据和测量(即CDC)病例记录的可用性限制了我们对美国的分析,但我们相信,其中许多见解可能有助于为其他地区(包括发展中国家的社区)开发早期流行病预测系统。
总之,我们提出了一项算法的早期研究,该算法将来自谷歌Flu Trends等服务的数据转换为一个全自动系统,用于在流行病发生的可能性相当高时生成警报。我们的研究增强了在早期阶段发现疾病暴发的能力,在这个阶段,许多给全球造成巨大负担的疾病可以以更好的结果和更具成本效益的方式得到治疗。此外,由于能够及早对即将发生的情况作出反应,可以更主动地限制任何潜在疫情的规模。总之,我们的研究结果提供了一种方法,可以将通过互联网收集的原始数据转换为更精细的信息,从而指导应对疾病传播的有效政策。
基于我们的工作,我们开发了FluBreaks (dritte.org/flubreaks),这是一个使用谷歌流感趋势的流感流行早期预警系统。
HSS区域4(最高种群)各评价参数的算法排序。
HSS区域6(最低互联网使用率)在不同评估参数中的算法排名。
HSS区域10(最低人口和最高互联网使用率)在不同评估参数中的算法排名。
疾病控制和预防中心
累计金额
早期报警百分比
早期畸变报告系统
历史累计总和
历史界限法
门诊流感样疾病监测网络
负二项式累积和
百分比重叠
泊松爆发检测
泊松累积和
假阳性百分比
真阳性百分比
方差均值比
我们感谢密歇根大学的Zeeshan Syed博士的宝贵反馈和智力贡献。我们感谢巴基斯坦公共卫生研究所流行病学教授Farkanda Kokab博士和巴基斯坦Quaid-e-Azam医学院教授兼社区医学部主任Ijaz Shah博士标记了我们的疫情并为我们提供了宝贵的反馈。我们也感谢纽约大学的Lakshminarayanan Subramanian博士审阅了我们的论文。
没有宣布。