JPH 公共卫生监测 公共卫生和监测 2369 - 2960 卡塔尔世界杯8强波胆分析 加拿大多伦多 v2i2e161 27765731 10.2196 / publichealth.5901 原始论文 原始论文 评估谷歌,Twitter和维基百科作为使用贝叶斯变化点分析的流感监测工具:比较分析 沙利文 帕特里克 Eysenbach 冈瑟 Slok 埃德温 Wu-Chen 保罗 迈克尔 Broniatowski 大卫 夏普 J丹尼尔 女士 1 2
罗林斯公共卫生学院 流行病学学系 埃默里大学 克利夫顿路东1518号 亚特兰大,佐治亚州,30322 美国 1912 399 2811 1 404 727 8737 danielle.sharpe@emory.edu
http://orcid.org/0000-0003-1898-6202
霍普金斯 理查德·S 马里兰州MSPH 1 http://orcid.org/0000-0003-3765-8810 烹饪 罗伯特·L 英里每小时,医学博士 1 http://orcid.org/0000-0002-7770-3754 Striley 凯瑟琳W MPE, MSW,博士 1 http://orcid.org/0000-0003-2973-7842
1 公共卫生与卫生专业学院 流行病学学系 佛罗里达大学 盖恩斯维尔,FL 美国 2 罗林斯公共卫生学院 流行病学学系 埃默里大学 亚特兰大,乔治亚州 美国 通讯作者:J Danielle Sharpe danielle.sharpe@emory.edu Jul-Dec 2016 20. 10 2016 2 2 e161 23 4 2016 27 7 2016 31 8 2016 21 9 2016 ©J Danielle Sharpe, Richard S Hopkins, Robert L Cook, Catherine W Striley。最初发表于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com), 2016年10月20日。 2016

这是一篇根据知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR公共卫生与监测上,并适当引用。必须包括完整的书目信息,到http://publichealth.www.mybigtv.com上原始出版物的链接,以及版权和许可信息。

背景

传统的流感监测依赖卫生保健提供者报告的流感样疾病(ILI)综合征。它主要捕获那些寻求医疗保健的人,而忽略了那些不寻求医疗保健的人。最近,由于越来越多的人在寻求医疗护理之前搜索、发布和tweet自己的疾病,人们研究了基于web的数据源,以便将其应用于公共卫生监测。现有研究显示,利用谷歌、Twitter和Wikipedia的数据补充传统的ILI监测具有一定的前景。然而,过去的研究对这些基于web的资源进行了单独或双重评估,而没有对所有3种资源进行比较,因此了解哪一种基于web的资源表现最好,以便被认为是对传统方法的补充,将是有益的。

客观的

本研究的目的是比较分析谷歌、Twitter和Wikipedia,通过检查哪一个最符合疾病控制和预防中心(CDC) ILI数据。假设维基百科最符合CDC ILI数据,因为之前的研究发现,与谷歌和Twitter相比,维基百科受媒体高覆盖率的影响最小。

方法

公开的,未确定的数据收集自疾病预防控制中心,谷歌流感趋势,健康推特和维基百科的2012-2015年流感季节。贝叶斯变化点分析用于检测每个数据源中的季节变化或变化点。谷歌、Twitter和Wikipedia中恰好发生在一周、前一周或CDC变化点后一周的变化点与CDC数据作为金标准进行比较。所有分析均使用RStudio 0.99.484 (RStudio Inc)中的R包“bcp”4.0.0版本进行。此外,还计算了谷歌、Twitter和Wikipedia的敏感性和阳性预测值(PPV)。

结果

在2012-2015年流感季节,谷歌的高敏感性为92%,而谷歌的PPV为85%。Twitter的敏感度较低,为50%;Twitter的PPV也很低,只有43%。维基百科的最低敏感度为33%,最低PPV为40%。

结论

在3个基于web的来源中,谷歌在检测流感相关数据流中的贝叶斯变化点方面具有最佳的灵敏度和PPV组合。研究结果表明,谷歌、Twitter和Wikipedia数据中的变化点偶尔与CDC ILI数据中捕获的变化点保持一致,但这些来源并不能检测到CDC数据中的所有变化,应进一步研究和开发。

互联网 社交媒体 贝叶斯定理 公共卫生监测 人类流感,
介绍 背景

尽管流感在很大程度上是可以通过疫苗预防的,但它给美国的医疗保健系统带来了负担,每年造成3000- 50000人死亡。 1 2]。作为众多流感监测系统之一,美国疾病控制和预防中心(CDC)通过计算合作卫生保健提供者向美国流感样疾病门诊监测网络(ILINet)报告的流感样疾病综合征(ILI)门诊就诊人数来监测流感活动。美国疾病控制与预防中心将ILI定义为发烧(≥100°F或37.8°C)和咳嗽和喉咙痛,除了流感以外没有其他已知原因[ 3.]。这种监测方法主要捕获了因流感症状求医者的信息,从而忽略了那些不与卫生保健系统互动的人。此外,这种监测方法受到技术相对陈旧和疾病事件发生与监测信息发布之间延迟长达1至2周的限制[ 4]。

综合征监测可定义为实时或接近实时地监测疾病综合征,以便及早发现疾病暴发,它已纳入使用新的数据来源,如急诊科记录和处方销售,以加强传统的监测系统[ 5- 7]。最近,非传统数据源,特别是基于网络的数据源,在公共卫生监测中得到了更大的应用。这一点尤其明显,因为出现各种症状的人可能会在网上搜索与健康相关的信息,并在寻求医疗服务之前使用社交媒体平台分享他们的疾病经历。使用诸如搜索查询和社交媒体等基于网络的数据源已被称为数字流行病学[ 8- 10]。数字流行病学可以更便宜、更及时,并且可以通过增加可检测的卫生事件范围来扩大检测范围。

相关工作

随着互联网用户数量的增加[ 11],研究人员已经确定使用谷歌,Twitter和维基百科作为补充传统方法的新型监视方法。b谷歌Flu Trends监测谷歌用户对流感相关信息的搜索,显示出与CDC流感数据的相关性,同时比CDC报告提前1至2周提供估计[ 8 12]。尽管最初取得了成功,但近年来该体系也并非没有问题。谷歌流感趋势高估了2012-2013年流感季节的流感活动,并在2009年H1N1流感大流行期间低估了流感活动[ 13- 16]。一项研究发现,b谷歌流感趋势的原始(2008年)和修订(2009年)算法在城市、地区和国家范围内都不可靠,特别是在流感季节和媒体报道强度不同的情况下[ 16]。由于其专有算法存在问题,谷歌Flu Trends于2015年8月停产[ 17]。

Twitter是一个传播短消息的社交网络平台,与流感有关的帖子与ILINet报告的流感活动高度相关[ 18 19]。研究发现,Twitter数据与国家和城市层面的ILI数量高度相关[ 20.]。Signorini等人(2011)也证明推文可以在合理的误差范围内用于估计区域和国家层面的ILI活动[ 21]。此外,研究发现Twitter数据比谷歌数据表现更好。Nagar et al(2014)进行的一项研究表明,与谷歌搜索查询相比,tweet更能反映城市层面的ILI发生率[ 22]。Aramaki等人发现,基于Twitter的模型在正常新闻报道期间的表现优于基于google的模型,尽管Twitter模型在媒体过度报道期间的表现不太理想[ 23]。此外,地理粒度会影响Twitter数据的性能。Broniatowski等人(2015)发现,城市层面的Twitter数据表现优于州和国家层面的Twitter数据,尽管谷歌Flu Trends数据在每个层面都表现得更好[ 24]。

事实证明,维基百科的页面浏览量数据对于跟踪热门话题以及疾病监测和预测都很有价值。 25 26]。McIver和Brownstein(2014)报告称,流感相关维基百科文章访问量的增加,可以在ILINet前两周对流感活动进行估计,在异常流感季节和媒体高报道期间,其表现优于谷歌Flu Trends的估计[ 27]。一项研究发现,维基百科页面浏览量数据在流感季节高峰期之前具有合适的预测价值[ 26],而另一项研究也报告说,维基百科的页面浏览量数据既适用于使用28天分析进行预测,也适用于临近预测,或监测当前的疾病发病率[ 25]。然而,作为缺点,维基百科数据的信噪比可能是有问题的[ 25],因为维基百科已经成为寻找健康信息的首选来源,无论个人是否生病[ 28 29]。此外,与谷歌和Twitter数据的粒度灵活性不同,Wikipedia不具备在本地或区域级别评估流感活动的能力,因为它只提供页面浏览量计数,而在其公开可用的数据中没有附带的位置或用户信息。

客观的

b谷歌、Twitter和Wikipedia上的这些早期研究表明,尽管存在一些缺陷,挖掘这些基于网络的资源可以通过识别流感活动的指标来提供有价值的流行病情报,这些指标有时或在人群中被更传统的监测系统遗漏。以前的研究已经根据一个标准单独或双重地评估了这3个基于web的资源,但没有将它们彼此和一个标准进行比较。需要进行比较,以了解这些基于网络的来源是否准确反映了CDC ILI数据中的季节变化或变化点。了解这些基于网络的来源中哪一个表现最好,以便被视为对传统监测方法的补充,将是有益的。

因此,本研究旨在对使用谷歌、Twitter和Wikipedia进行流感监测进行比较分析,通过检查哪个基于web的来源产生的数据与CDC ILI数据最一致。具体研究问题如下:在2012-2013年、2013-2014年和2014-2015年流感季节,哪个基于网络的来源(谷歌、Twitter或维基百科)检测到的变化点与CDC ILI数据中检测到的变化点最接近?据推测,由于McIver和Brownstein的[ 27发现与谷歌流感趋势和Twitter的数据相比,维基百科数据受媒体报道的影响较小[ 16 23]。

方法 数据收集 研究期间

回顾性收集美国指定的2012-2013年流感季节(2012年9月30日至2013年5月18日)、2013-2014年流感季节(2013年9月29日至2014年5月17日)和2014-2015年流感季节(2014年9月28日至2015年5月23日)的数据[ 30.- 32]。由于资料的限制,选择2012-2015年为研究期。HealthTweets.org的推特数据包含的推文可以追溯到2011年11月。当我们试图分析完整的流感季节时,我们不能包括2011-2012年流感季节,因此也不能包括之前的任何季节。此外,我们无法纳入2014-2015年流感季节之后的数据,因为谷歌在2015年8月停止公开其谷歌流感趋势数据。

所有数据以发病率和死亡率周报(MMWR)周的形式呈现。MMWR周由星期日开始至星期六结束,由1至52或53周不等[ 33]。本研究中包括的每个流感季节都始于每年的MMWR第40周,并于次年的第20周结束。

美国疾病控制与预防中心的数据

疾病预防控制中心ILINet系统的数据是从FluView Interactive下载的,该系统提供门诊疾病、住院、儿科死亡率、病毒学监测和地理活动方面的每周流感监测信息。 34]。ILINet计数数据按MMWR周汇总。ILINet系统每周汇总来自参与的医疗服务提供者的信息,包括按年龄组就诊的ILI患者数量、按年龄组就诊的患者总数以及相应的年份和周[ 34]。本研究使用美国ILI患者就诊计数。虽然大多数先前的研究使用加权ILI率,但我们选择使用ILI计数。我们决定使用CDC ILI计数数据来维持单位比较,因为我们不能使用贝叶斯变点分析将基于web的计数数据转置或建模到与CDC加权ILI率相似的尺度。

谷歌数据

从谷歌流感趋势网站下载了美国与流感相关的未确定的国家级谷歌搜索计数数据[ 17]。这些数据是CDC数据拟合回归模型的输出,并基于谷歌Flu Trends的2009年模型(2012-2013年流感季节)、2013年模型(2013-2014年流感季节)和2014年模型(2014-2015年流感模型)[ 17]。来自谷歌流感趋势的统计数据已经由MMWR周汇总。

Twitter数据

对于Twitter的数据,从HealthTweets.org下载了美国流感相关推文的未识别的国家级计数数据,HealthTweets.org是约翰霍普金斯大学的一个存储流感相关推文的知识库,可追溯到2011年11月[ 35]。使用Twitter应用程序编程接口(API), HealthTweets团队从关键字流中收集了与流感相关的tweet,这是公共tweet的1% [ 35]。收集后,Dredze等[ 28]使用基于关键字、关键字组合和Lamb及其同事开发的分类器的自动注释器对与流感相关的推文进行分类[ 36]。来自HealthTweets的数据也已经在MMWR周进行了汇总。

维基百科的数据

维基百科已通过维基媒体统计提供文章浏览数据供下载[ 37]。对“流感”条目(英文版本)的查看收集了去识别和汇总的维基百科条目查看数据。来自英文版“流感”条目的统计数据代表了美国国家层面的维基百科浏览量。维基百科的数据以每小时的文章浏览量表示,包括非唯一浏览量[ 37]。由于“流感”条目的维基百科文章查看数据在维基媒体统计中按小时呈现,数据在分析前由MMWR一周汇总。

统计分析 贝叶斯变化点分析

本研究采用贝叶斯变化点分析法。从本质上讲,该技术检测时间序列数据中的变化信号,也称为变化点。贝叶斯变化点分析主要用于检测具有大数据属性的数据集中何时发生重大变化,如数量、种类和速度[ 38]。例如,贝叶斯变点分析已被用于估计利率数据何时发生变化[ 39]、染色体微阵列数据[ 39],以及癌症相关基因表达数据[ 40]。该方法用于检测震后地区卫生系统改造后急诊科就诊率和住院率的变化[ 41]。贝叶斯变化点分析也被用于检测水生生态系统的动态变化,如引入非本地物种[ 42]。除了我们的研究外,这种贝叶斯技术仅用于一次利用急诊科就诊的流感监测[ 43,这与我们的分析不同,我们使用的是基于网络的数据。

由Barry和Hartigan简化的方程。

贝叶斯变点分析是一种被证明比传统的像差检测方法更有效地检测时间序列数据细微变化的方法[ 43]。Kass-Hout等(2012)发现贝叶斯变化点分析不如另外两种变化点分析方法——累积和技术和结构变化模型[ 43]。然而,贝叶斯变点分析最适合应用于微阵列数据[ 39 40],它们具有类似于基于web的数据的大数据属性。

所有贝叶斯变更点分析均使用R包“bcp”4.0.0版本进行[ 39 40 44在RStudio 0.99.484版本[ 45]。“bcp”包实现了一个复杂的马尔可夫链蒙特卡罗(MCMC)近似[ 39 40 44] Barry和Hartigan所描述的贝叶斯变化点方法[ 46]。作为“bcp”包的默认值,在500次MCMC迭代后,时间序列数据在任何给定间隔(即MMWR周)出现变化点的概率由MCMC迭代中满足该间隔出现变化点条件的次数计算[ 39 40 44]。

在马尔可夫链的每一步,转移概率, p,对于变化点的条件概率由Barry和Hartigan [ 39 40 46],在 图1。每次MCMC迭代后,后验均值和概率都会更新,直到时间序列结束。建议读者参考Erdman and Emerson(2007)、Erdman and Emerson(2008)以及Barry and Hartigan(1993)对贝叶斯方法的进一步数学解释[ 39 40 46]。

变化点

我们认为显著变化点是贝叶斯方法表明发生变化的概率≥50%的地方。CDC ILI数据中检测到的变化点是与基于web的来源中发现的变化点进行比较的金标准。基于web的来源的更改点,在准确的一周、前一周或CDC更改点之后的一周内发生的更改点被认为是匹配的或真实的更改点。这样做是为了解释监测数据可能常见的任何报告滞后。比较了每个数据源的变化点数量,并计算了每个基于web的数据源的变化点检测的灵敏度和PPV。

敏感性和阳性预测值

使用与CDC ILINet系统检测到的变化点相匹配的基于web的源检测到的变化点(真阳性),为ILINet系统检测到的变化点(假阴性),以及为基于web的源检测到的变化点而不是为ILINet系统检测到的变化点(假阳性)计算每个基于web的源的灵敏度和PPV。敏感度的计算方法是将每个网络源的真阳性除以真阳性和假阴性的总数,即CDC变化点的总数[ 47]。PPV的计算方法是将每个网络信息源的真阳性数除以真阳性数和假阳性数的总和,即该特定网络信息源的总变化点[ 47]。

结果 样本特征

以下是为CDC、谷歌、Twitter和Wikipedia收集和分析的2012-2015年流感季节的统计数据摘要( 表1)。每个数据源所包含的平均每周事件数存在逐年变化。对于大多数数据来源而言,2012-2013年流感季节的平均每周感染人数最高。2013-2014年流感季节,CDC和谷歌流感趋势的平均访问量最低,而2014-2015年流感季节,Twitter和Wikipedia的平均访问量最低。请注意,2014-2015年流感季节由34个MMWR周组成,因为大多数流行病学年由52个MMWR周组成,而2014-2015年流行病学年由于之前的日历闰年而有53周。 表1进一步总结了数据信息。

疾病控制和预防中心、b谷歌、Twitter和Wikipedia的每周流感样疾病统计数据摘要,2012-2015年流感季节。

流感季节 疾病预防控制中心一个ILINetb 谷歌 推特 维基百科
2012 - 2013
MMWRc周(数量/周) 33 33 33 33
的意思是 19049年 4121 8096 47541年
最小值 7317 1286 2558 29865年
马克斯 39896年 10555年 22935年 114919年
2013 - 2014
周(数/周) 33 33 33 33
的意思是 16574年 2274 5826 25039年
最小值 9033 1339 1196 17885年
马克斯 28654年 5008 10506年 36935年
2014 - 2015
周(数/周) 34 34 34 34
的意思是 19940年 2549 2900 21918年
最小值 9289 1144 451 12958年
马克斯 40664年 6911 8709 35232年

一个CDC:美国疾病控制与预防中心。

bILINet:美国门诊流感样疾病监测网络。

c发病率和死亡率周报。

2012-2015年流感季节变化点的比较

提供了在每个数据源中找到的所有更改点的摘要(请参阅 图2- 4),变化点的比较见 表2。在2012-2013年流感季节,谷歌与CDC ILINet系统共有3个变化点,分别是MMWR第51周、第4周和第5周。Twitter与CDC的变化点有2个共同的变化点,即MMWR第47周和第4周。Wikipedia只有一个更改点与CDC ILINet系统相匹配,即MMWR第5周。

在2013-2014年流感季节,谷歌共有4个变化点(MMWR周48周、50周、51周和5周),与CDC数据中检测到的变化点相吻合。Twitter有3个变化点(MMWR第48周、第51周和第7周)与CDC ILINet系统数据中的变化点相匹配。Wikipedia与CDC ILI数据有2个共同的变化点,即MMWR第51周和第6周。

对于2014-2015年流感季节,谷歌数据中检测到4个变化点(MMWR第48、50、51和53周),这些变化点与CDC ILINet系统中确定的变化点一致。Twitter和Wikipedia只有1个变化点与CDC ILI数据中发现的变化点一致,分别是MMWR第50周和第53周。

在网络信息源中检测到的敏感性和阳性预测值比较

接下来,我们使用CDC ILI数据作为金标准,计算了每个基于web的来源的敏感性和PPV。如图所示 表3,结果在基于web的资源之间差异很大。谷歌的灵敏度高达92%,而谷歌的PPV为85%。Twitter的敏感度较低,为50%;Twitter的PPV也很低,只有43%。维基百科的最低敏感度为33%,最低PPV为40%。还提供了按特定流感季节比较敏感性和PPV的表格(见 多媒体附录1)。

2012-2015年流感季节贝叶斯变化点分析检测变化点的比较一个

流感季节 疾病预防控制中心bILINetc(引用) 谷歌计数 Twitter计数 维基百科计数
2012 - 2013 周47一个
48周的
星期50
51周一个
52周
星期1 星期1
星期3 星期3
星期4一个 星期4一个
星期5 星期5一个 星期5一个
2013 - 2014 48周的 48周的一个 48周的一个
星期50 星期50一个
51周一个 51周一个 51周一个
星期1
星期3
星期4
星期5一个
第6周 第6周一个
星期7一个
15周
17周
2014 - 2015 周43
星期44
48周的 48周的一个
周49
星期50 星期50一个 星期50一个
51周一个
周53 周53一个 周53一个
星期2
星期3 星期3
星期4
第6周
第12周

一个MMWR周表示与CDC变更点(参考)相对应的变更点。

bCDC:美国疾病控制与预防中心。

cILINet:美国门诊流感样疾病监测网络。

2012-2013年流感季节贝叶斯变化点分析检测到的变化点(虚线)。

2013-2014年流感季节贝叶斯变化点分析检测的变化点(虚线)。

2014-2015年流感季节贝叶斯变化点分析检测的变化点(虚线)。

2012-2015年流感季节网络信息源敏感性及阳性预测值比较

基于web的来源 灵敏度(%) 阳性预测值(%)
谷歌 92 85
推特 50 43
维基百科 33 40
讨论 主要研究结果

谷歌共有11个真正的变化点(3个在2012-2013年流感季节,4个在2013-2014年流感季节,4个在2014-2015年流感季节),与CDC ILINet的变化点相吻合。由于谷歌的变化点与CDC ILI数据中检测到的变化点一致,因此我们关于Wikipedia将拥有最多变化点的假设不被支持。事件检测的灵敏度和PPV对于评估监测系统的质量很重要[ 47]。谷歌具有中等阳性预测值,高度敏感,而Twitter和Wikipedia的敏感性率和ppv均较低。谷歌具有最佳对应关系的这一发现与之前发现Twitter和Wikipedia表现更好的研究不一致[ 22 23 27 48]。

谷歌、Twitter和Wikipedia都有一些与CDC ILI数据一致的变化点;然而,他们没有确定疾病预防控制中心数据中确定的所有变化点,这对于了解流感季节何时发生季节性变化非常重要。由于没有基于web的来源确定CDC数据中检测到的所有变化,这可能表明基于web的数据本身可能在捕获CDC ILI数据的所有变化方面受到限制,这是相当合理的,因为并非每个经历ILI症状的个体都求助于在线搜索或共享健康信息。相反,这可能表明贝叶斯变更点分析作为一种技术对于基于web的数据的使用不够敏感。在纳入监测数据以补充传统系统之前,需要使用更标准的统计方法进一步研究和比较这3种基于网络的来源。

限制

值得注意的是,本研究存在局限性。首先,贝叶斯变点分析假设时间序列数据呈正态分布,这可能会产生问题,因为公共卫生监测数据可能是可变的,并且可能具有非正态分布[ 43]。然而,我们无法在RStudio中的“bcp”包上测试这个假设,这是一个限制,因为“bcp”包可能会错误地识别或错过更改点,特别是如果数据中有任何异常值来扭曲贝叶斯分析。使用贝叶斯变化点分析的另一个主要限制是,它不能用作监控实时数据的技术[ 49]。贝叶斯变化点分析最适合用于在收集了所有数据之后评估历史时间序列数据的变化。本研究采用贝叶斯方法对每个流感季节发生后从CDC、谷歌、Twitter和Wikipedia收集的数据进行回顾性评估;因此,该结果不能直接应用于前瞻性应用或实时流感监测。

利用基于网络的数据进行实时流感监测的一个可能的解决办法可能是使用正态分布算法。传统上,疾控中心用于流感监测的方法是基于历史限制和累积金额的正态分布方法[ 50]。此外,Pervaiz等人(2012)证明,与正态分布模型相比,使用基于web的负二项和泊松模型可以更有效地使用基于web的数据进行实时流感监测,因为基于web的数据具有噪声性质,并且互联网用户数量及其活动水平波动较大[ 50]。

其次,对于维基百科视图的分析,只使用了“流感”这篇文章进行分析,不包括其他关于流感药物和流感菌株的文章。McIver和Brownstein描述了将多个与流感相关的维基百科文章结合起来用于监测目的的有效性[ 27],但这些并未纳入本研究。我们假设维基百科英文词条“流感”的所有观点都来自美国用户;然而,其中一些可能来自其他英语国家的用户,这些国家的流感季节非常不同,例如澳大利亚。

第三,我们的一些数据来源可能有局限性。我们使用CDC ILI计数数据进行分析,这是不标准的。大多数先前的研究都使用加权ILI率而不是ILI计数,因为加权率说明了美国的人口变化。使用ILI计数可能存在抽样偏差,但我们证明计数的使用是合理的,因为我们希望保持数据的一致性,因为基于web的计数数据都无法解释美国的人口和地区差异,也无法标准化。此外,贝叶斯变化点分析不允许我们在与加权ILI率相同的尺度上调换基于web的计数数据,因此考虑到所使用的方法,ILI计数是最佳选择。此外,本研究中使用的谷歌流感趋势数据是一个回归模型的输出,该模型拟合CDC ILI数据,导致谷歌数据与CDC ILI数据更接近。尽管谷歌流感趋势数据与CDC的数据相匹配,但重要的是要注意,这些数据对公众和从业人员都很容易获得,这证明了它们的使用是合理的。

第四,数据重复可能是本研究中使用的每个数据源的问题。互联网用户可以使用一个网站进行多个信息的搜索和共享,而一个互联网用户可以使用多个网站进行同一信息的搜索或共享[ 51]。例如,用户可以多次查看维基百科的“流感”文章,每次查看都会被视为单独的计数[ 37]。谷歌Flu Trends和HealthTweets都不能区分或删除单个用户的多个搜索和tweet。 12 35]。此外,在公开可用的数据中,没有办法区分单个用户何时同时搜索Wikipedia和谷歌以获取相同的信息。疾病预防控制中心ILINet系统不区分单个患者对同一参与医疗保健提供者进行多次门诊访问,或单个患者对同一疾病的多个医疗保健提供者进行门诊访问。这一数据重复问题应在今后的研究中进一步调查。

最后,互联网用户的平均年龄比美国总人口要小。 52]。尽管这种差异可能被视为使用基于网络的流感监测数据的局限性,但较年轻的年龄组(0-4岁、5-24岁和25-49岁)占报告给CDC ILINet系统的门诊病例的大部分[ 34]。

未来的研究

在基于web的源的内容中有更多的实质性信息,这些信息在基于web的源的计数数据中没有考虑到。最近的研究已经开始对网络资源(如聊天论坛、Facebook和Twitter)进行内容分析,以了解互联网用户的健康体验和需求。内容分析已被证明对传染性和非传染性疾病都很有价值,因为互联网用户分享和搜索各种健康经验,从精神健康到[ 53 54]到物质使用[ 55 56]性少数群体的健康需要[ 57]。此外,可以通过结合各种数据来源(无论是基于网络的还是传统的)来加强公共卫生监测。Santillana等人(2015)发现,当b谷歌、Twitter、医院记录和参与式监测系统的数据结合起来时,流感活动的预测比疾病预防控制中心预测前4周更准确[ 58]。应在这一领域开展更多的研究,以确定流感监测的传统和新型数据来源的最佳组合。

结论

据我们所知,这是第一次比较谷歌、Twitter和Wikipedia作为流感监测的可能数据源是否符合共同的黄金标准(CDC ILINet系统)。在3个基于web的来源中,谷歌在检测流感相关数据流中的贝叶斯变化点方面具有最佳的灵敏度和PPV组合。这一发现与现有比较谷歌和Twitter数据或谷歌和Wikipedia数据的研究不一致,这可能归因于对不同流感季节的分析,本研究中贝叶斯方法的新颖使用,或者谷歌流感趋势数据与CDC数据相匹配。进一步的研究应评估这三个基于网络的来源所包含的实质性健康内容,将这些来源结合起来的监测价值,以及这些来源使用其他统计方法检测流感活动的能力。

多媒体附录1

不同流感季节网络信息源敏感性和阳性预测值的比较。

缩写 API

应用程序编程接口

疾病预防控制中心

疾病控制和预防中心

伊犁

流感样疾病

ILINet

美国门诊流感样疾病监测网络

密度

马尔科夫链蒙特卡洛

MMWR

发病率和死亡率周报

PPV

阳性预测值

作者感谢Heather Rubino博士(佛罗里达州卫生部)、Sophie Smith(疾病控制和预防中心)和Matthew Biggerstaff(疾病控制和预防中心)在了解当前流感监测系统方面的洞察力和专业知识。我们也感谢John Emerson博士(耶鲁大学)、Chandra Erdman博士(未来管理领导力)和王晓飞博士(阿默斯特学院)在理解R包“bcp”4.0.0版本方面所提供的帮助。最后,我们特别感谢谷歌公司、Mark Dredze博士和他在HealthTweets.org的团队,以及维基媒体统计,感谢他们将数据公开。

JDS对该研究进行了概念化和设计。RLC、RSH和CWS为研究设计提供反馈。JDS获取数据并进行统计分析。JDS、RLC、RSH和CWS有助于解释研究结果。JDS根据RLC、RSH和CWS提供的反馈起草并修改了稿件。所有作者都认可了手稿的最终版本。

没有宣布。

Chunara R 戈尔茨坦 E Patterson-Lomba O 布朗斯坦 JS 使用参与性队列估计美国流感发作率 Sci代表 2015 5 9540 10.1038 / srep09540 25835538 srep09540 疾病控制和预防中心 与季节性流感有关的死亡估计数——美国,1976-2007年 《凡人周刊 2010 59 33 1057 1062 20798667 疾病控制和预防中心 2015 2016-03-26 美国流感监测概况 http://www.cdc.gov/flu/weekly/overview.htm 飞兆 G 德席尔瓦 l Del Valle 年代 塞格雷 一个 从维基百科文章中获取疾病数据 2015 第九届国际AAAI网络和社交媒体会议 2015 牛津大学,英国 26 33 比勒 JW 霍普金斯 RS Overhage JM Sosin DM V 评估早期发现疫情的公共卫生监测系统框架:疾控中心工作组的建议 MMWR建议代表 2004 05 7 53 RR-5 1 11 15129191 rr5305a1 比勒 JW Sonricker 一个 Paladini 酣睡 P Mostashari F 美国综合征监测实践:来自州、地区和选定的地方卫生部门的调查结果 广告监控 2008 6 3. 1 20. 亨宁 KJ 什么是综合征监测? MMWR增刊 2004 09 24 53 5 11 15714620 贝尔纳多 TM Rajic 一个 年轻的 Robiadek K 范教授 恐慌 晶澳 对疾病监测的搜索查询和社交媒体的范围审查:创新年表 J Med Internet Res 2013 15 7 e147 10.2196 / jmir.2740 23896182 v15i7e147 PMC3785982 Eysenbach G 信息流行病学和信息监测:一套新兴的公共卫生信息学方法框架,用于分析互联网上的搜索、交流和出版行为 J Med Internet Res 2009 11 1 e11 10.2196 / jmir.1157 19329408 v11i1e11 PMC2762766 Salathe 本特松 l ·博德纳尔 TJ 布鲁尔 DD 布朗斯坦 JS Buckee C 坎贝尔 新兴市场 Cattuto C 年代 Mabry PL Vespignani 一个 数码流行病学 PLoS计算机生物学 2012 8 7 e1002616 10.1371 / journal.pcbi.1002616 22844241 pcompbiol - d - 12 - 00494 PMC3406005 国际电信联盟 2016-03-26 信息通信技术的事实和数据:2015年的世界 http://www.itu.int/en/ITU-D/Statistics/Documents/facts/ICTFactsFigures2015.pdf 金斯堡 J Mohebbi MH 帕特尔 RS 布拉姆 l Smolinski 女士 才华横溢的 l 利用搜索引擎查询数据检测流感流行 自然 2009 02 19 457 7232 1012 4 10.1038 / nature07634 19020500 nature07634 烹饪 年代 康拉德 C Fowlkes 艾尔 Mohebbi MH 评估2009年甲型H1N1流感病毒大流行期间美国谷歌流感趋势的表现 《公共科学图书馆•综合》 2011 6 8 e23610 10.1371 / journal.pone.0023610 21886802 玉米饼- d - 11 - 06712 PMC3158788 巴特勒 D b谷歌得了流感 自然 2013 02 14 494 7436 155 6 10.1038 / 494155 23407515 494155一个 激光冲 D 肯尼迪 R G Vespignani 一个 大数据。谷歌流感的寓言:大数据分析中的陷阱 科学 2014 03 14 343 6176 1203 5 10.1126 / science.1248506 24626916 343/6176/1203 奥尔森 博士 Konty KJ Paladini Viboud C 西蒙森 l 重新评估谷歌流感趋势数据以检测季节性和大流行性流感:三个地理尺度的比较流行病学研究 PLoS计算机生物学 2013 9 10 e1003256 10.1371 / journal.pcbi.1003256 24146603 pcompbiol - d - 13 - 00957 PMC3798275 谷歌 2016-03-26 谷歌流感趋势 http://www.google.org/flutrends/about/ Broniatowski 保罗 乔丹 Dredze Twitter:大数据机遇 科学 2014 07 11 345 6193 148 10.1126 / science.345.6193.148-a 25013052 345/6193/148-a Aslam AA 祖文萃 Spitzberg 黑洞 一个 l Gawron JM 古普塔 DK Peddecord 公里 内格尔 交流 艾伦 C J 林赛 年代 推特作为季节性流感监测补充方法的可靠性 J Med Internet Res 2014 16 11 e250 10.2196 / jmir.3532 25406040 v16i11e250 PMC4260066 Broniatowski 保罗 乔丹 Dredze 通过Twitter进行国家和地方流感监测:2012-2013年流感流行分析 《公共科学图书馆•综合》 2013 8 12 e83672 10.1371 / journal.pone.0083672 24349542 玉米饼- d - 13 - 35058 PMC3857320 年青男子 一个 塞格雷 Polgreen 在甲型H1N1流感大流行期间,使用Twitter跟踪美国疾病活动水平和公众关注程度 《公共科学图书馆•综合》 2011 6 5 e19467 10.1371 / journal.pone.0019467 21573238 玉米饼- d - 10 - 02464 PMC3087759 纳加尔 R Freifeld CC Santillana Nojima 一个 Chunara R 布朗斯坦 JS 从时间和时空角度对纽约市2012-2013年流感季节的每日地理编码Twitter数据进行案例研究 J Med Internet Res 2014 16 10 e236 10.2196 / jmir.3416 25331122 v16i10e236 PMC4259880 Aramaki E Maskawa 年代 盛田昭夫 Twitter捕捉流感:使用Twitter检测流感流行 2011 经验自然语言处理会议(EMNLP) 2011 苏格兰爱丁堡 1568 1576 Broniatowski Dredze 保罗 乔丹 Dugas 一个 利用社会媒体在市中心医院进行当地流感监测:一项回顾性观察研究 公共卫生监测 2015 1 1 e5 10.2196 / publichealth.4472 27014744 PMC4803078 慷慨的 N 飞兆 G Deshpande 一个 Del Valle SY Priedhorsky R 全球疾病监测和预测与维基百科 PLoS计算机生物学 2014 11 10 11 e1003892 10.1371 / journal.pcbi.1003892 25392913 pcompbiol - d - 14 - 00678 PMC4231164 Hickmann KS 飞兆 G Priedhorsky R 慷慨的 N 海曼 JM Deshpande 一个 Del Valle SY 使用维基百科预测2013-2014年流感季节 PLoS计算机生物学 2015 05 11 5 e1004239 10.1371 / journal.pcbi.1004239 25974758 pcompbiol - d - 14 - 01771 PMC4431683 McIver DJ 布朗斯坦 JS 维基百科的使用情况几乎实时地估计了美国流感样疾病的流行程度 PLoS计算机生物学 2014 04 10 4 e1003581 10.1371 / journal.pcbi.1003581 24743682 pcompbiol - d - 13 - 02242 PMC3990502 劳伦特 先生 维氏 TJ 在线寻找健康信息:维基百科重要吗? 美国医学信息协会 2009 16 4 471 9 10.1197 / jamia.M3059 19390105 M3059 PMC2705249 Tausczik Y Faasse K Pennebaker JW 皮特里 KJ H1N1爆发后公众的焦虑和信息寻求:博客、报纸文章和维基百科访问 健康Commun 2012 27 2 179 85 10.1080 / 10410236.2011.571759 21827326 疾病控制和预防中心 流感活动-美国,2012-2013季节和2013-14流感疫苗的组成 《凡人周刊 2013 62 23 473 479 23760189 年代 布兰顿 l Kniss K Mustaquim D ·斯蒂芬斯 C 沃利斯 T Dhara R 利昂 佩雷斯 一个 查维斯 党卫军 Elal AA Gubareva l X 维拉纽瓦 J Bresee J 考克斯 N Finelli l 布拉姆 l 疾病预防控制中心,国家免疫和呼吸疾病中心,流感科 流感活动-美国,2013-14季节和2014-15年流感疫苗的组成 《凡人周刊 2014 06 6 63 22 483 90 24898165 mm6322a2 阿皮亚 GD 布兰顿 l D 'Mello T Kniss K 史密斯 年代 Mustaquim D ·斯蒂芬斯 C Dhara R 科恩 J 查维斯 党卫军 Bresee J 沃利斯 T X Abd Elal 人工智能 Gubareva l 温特沃斯 卡茨 J Jernigan D 布拉姆 l 美国疾病控制与预防中心 流感活动-美国,2014-15季节和2015-16流感疫苗的组成 《凡人周刊 2015 06 5 64 21 583 90 26042650 mm6421a5 疾病控制和预防中心 2016-03-26 MMWR周 https://wwwn.cdc.gov:443/nndss/document/MMWR_Week_overview.pdf 疾病控制和预防中心 2016-03-26 FluView互动 http://gis.cdc.gov/grasp/fluview/fluportaldashboard.html Dredze R 保罗 Broniatowski D HealthTweets.org:一个使用Twitter进行公共卫生监测的平台 2014 第28届AAAI人工智能会议 2014 魁北克市,加拿大魁北克省 羊肉 一个 保罗 Dredze 区分事实与恐惧:在Twitter上追踪流感感染 计算语言学协会(NAACL)北美分会2013年会议记录:人类语言技术 2013 计算语言学协会北美分会会议:人类语言技术 2013 亚特兰大,乔治亚州 789 795 维基 2016-03-26 维基媒体项目的页面浏览量统计 http://dumps.wikimedia.org/other/pagecounts-raw/ 德·毛罗。 一个 希腊 格里马尔迪 什么是大数据?一个共识的定义和重点研究课题的回顾 AIP会议记录 2015 第四届综合信息国际会议 2014年9月5日至8日 马德里,西班牙 AIP出版有限公司 97 104 10.1063/1.4907823 Erdman C 爱默生 JW bcp:一个R包,用于执行变更点问题的贝叶斯分析 J. Stat.软 2007 23 3. 10.18637 / jss.v023.i03 Erdman C 爱默生 JW 微阵列数据分割的快速贝叶斯变点分析 生物信息学 2008 10 1 24 19 2143 8 10.1093 /生物信息学/ btn404 18667443 btn404 Schluter PJ 汉密尔顿 GJ 静静的 JM Ardagh 兆瓦 综合卫生系统变化的影响,由于地震而加速,对急诊科的就诊率和急性入院:贝叶斯变化点分析 BMJ开放 2016 6 5 e010709 10.1136 / bmjopen - 2015 - 010709 27169741 bmjopen - 2015 - 010709 PMC4874100 埃利斯 汉堡王 斯坦福大学 晶澳 家长 D 斯塔福德 CP Gustafson 戴斯。莱纳姆: 国际象棋 DW 工艺 晶澳 Deleray 汉森 废话 大型湖泊生态系统中营养级联的长期影响 美国国家科学基金委 2011 01 18 108 3. 1070 5 10.1073 / pnas.1013006108 21199944 1013006108 PMC3024674 Kass-Hout 助教 Z McMurray P 公园 年代 Buckeridge 戴斯。莱纳姆: 布朗斯坦 JS Finelli l Groseclose SL 变化点分析在流感样疾病急诊日常就诊中的应用 美国医学信息协会 2012 19 6 1075 81 10.1136 / amiajnl - 2011 - 000793 22759619 amiajnl - 2011 - 000793 PMC3534458 X 爱默生 J arxiv 2015 2016-10-17 一般图上线性模型的贝叶斯变点分析 https://arxiv.org/pdf/1509.00817 Rstudio 2015 2016-03-26 波士顿 RStudio公司 RStudio: R的集成开发 https://www.rstudio.com/ 巴里 D 哈提 J 变更点问题的贝叶斯分析 JASA 1993 88 421 309 319 德国 RR LM 霍兰 JM Milstein RL Pertowski CA 沃勒 疾病控制和预防中心(CDC)指南工作组 评价公共卫生监测系统的最新准则:准则工作组的建议 MMWR建议代表 2001 07 27 50 RR-13 1 35;测验CE1-7 18634202 保罗 乔丹 Dredze Broniatowski D 推特改善流感预报 公共科学图书馆咕咕叫 2014 6 10.1371 / currents.outbreaks.90b9ed0f59bae4ccaa683a39865d9117 25642377 PMC4234396 Kass-Hout T 谷歌 2013 2016-03-26 变更点分析:介绍 https://sites.google.com/site/changepointanalysis/ Pervaiz F Pervaiz 已经取得 RN 赛义夫 U FluBreaks:从谷歌流感趋势中早期发现流行病 J Med Internet Res 2012 14 5 e125 10.2196 / jmir.2102 23037553 v14i5e125 PMC3510767 Wu-Chen 年代 跨多个在线社交网络整合和挖掘虚拟社区:概念、方法和挑战 第四届数字信息与通信技术及其应用国际会议论文集 2014 第四届数字信息通信技术及其应用国际会议 2014 泰国曼谷 199 204 10.1109 / DICTAP.2014.6821682 皮尤研究中心 2016-03-26 互联网用户人口统计 http://www.pewinternet.org/data-trend/internet-use/latest-stats/ Cavazos-Rehg 巴勒斯坦权力机构 克劳斯 乔丹 Sowles 年代 康诺利 年代 罗萨斯 C 巴拉 五角 LJ 抑郁症相关推文的内容分析 计算人类行为 2016 01 1 54 351 357 10.1016 / j.chb.2015.08.023 26392678 PMC4574287 Reavley 新泽西 皮尔金顿 PD 使用Twitter来监测人们对抑郁症和精神分裂症的态度:一项探索性研究 PeerJ 2014 2 e647 10.7717 / peerj.647 25374786 647 PMC4217192 程ydF4y2Ba 年代 康威 在线社区可以告诉我们关于电子烟和水烟的使用:一项使用文本挖掘和可视化技术的研究 J Med Internet Res 2015 17 9 e220 10.2196 / jmir.4517 26420469 v17i9e220 克劳斯 乔丹 Sowles SJ 莫雷诺 Zewdie K 格鲁扎 类风湿性关节炎 五角 LJ Cavazos-Rehg 巴勒斯坦权力机构 与水烟相关的Twitter聊天:一项内容分析 既往慢性疾病 2015 12 E121 10.5888 / pcd12.150140 26226068 E121 PMC4523113 克鲁格 EA 年轻的 SD 推特:研究跨性别群体健康和社会需求的新工具 JMIR健康 2015 2 2 e16天 10.2196 / mental.4113 26082941 PMC4465794 Santillana Dredze 保罗 乔丹 Nsoesie EO 布朗斯坦 JS 结合搜索、社交媒体和传统数据源来改进流感监测 PLoS计算机生物学 2015 10 11 10 e1004513 10.1371 / journal.pcbi.1004513 26513245 pcompbiol - d - 15 - 00856 PMC4626021
Baidu
map