卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JPH

公共卫生监测

公共卫生和监测

2369 - 2960

卡塔尔世界杯8强波胆分析

加拿大多伦多

v2i2e161

27765731

10.2196 / publichealth.5901

原始论文

评估谷歌，Twitter和维基百科作为使用贝叶斯变化点分析的流感监测工具:比较分析

沙利文

帕特里克

Eysenbach

冈瑟

Slok

埃德温

苏

Wu-Chen

保罗

迈克尔

Broniatowski

大卫

夏普

J丹尼尔

女士 1 2

罗林斯公共卫生学院流行病学学系埃默里大学

克利夫顿路东1518号

亚特兰大，佐治亚州，30322

美国 1912 399 2811 1 404 727 8737 danielle.sharpe@emory.edu

http://orcid.org/0000-0003-1898-6202

霍普金斯

理查德·S

马里兰州MSPH 1

http://orcid.org/0000-0003-3765-8810

烹饪

罗伯特·L

英里每小时,医学博士 1

http://orcid.org/0000-0002-7770-3754

Striley

凯瑟琳W

MPE, MSW，博士 1

http://orcid.org/0000-0003-2973-7842

¹ 公共卫生与卫生专业学院流行病学学系佛罗里达大学

盖恩斯维尔,FL

美国 ² 罗林斯公共卫生学院流行病学学系埃默里大学

亚特兰大,乔治亚州

美国

通讯作者:J Danielle Sharpe danielle.sharpe@emory.edu

Jul-Dec 2016

20. 10 2016

2 2

e161

23 4 2016 27 7 2016 31 8 2016 21 9 2016

©J Danielle Sharpe, Richard S Hopkins, Robert L Cook, Catherine W Striley。最初发表于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com)， 2016年10月20日。

2016

这是一篇根据知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR公共卫生与监测上，并适当引用。必须包括完整的书目信息，到http://publichealth.www.mybigtv.com上原始出版物的链接，以及版权和许可信息。

背景

传统的流感监测依赖卫生保健提供者报告的流感样疾病(ILI)综合征。它主要捕获那些寻求医疗保健的人，而忽略了那些不寻求医疗保健的人。最近，由于越来越多的人在寻求医疗护理之前搜索、发布和tweet自己的疾病，人们研究了基于web的数据源，以便将其应用于公共卫生监测。现有研究显示，利用谷歌、Twitter和Wikipedia的数据补充传统的ILI监测具有一定的前景。然而，过去的研究对这些基于web的资源进行了单独或双重评估，而没有对所有3种资源进行比较，因此了解哪一种基于web的资源表现最好，以便被认为是对传统方法的补充，将是有益的。

客观的

本研究的目的是比较分析谷歌、Twitter和Wikipedia，通过检查哪一个最符合疾病控制和预防中心(CDC) ILI数据。假设维基百科最符合CDC ILI数据，因为之前的研究发现，与谷歌和Twitter相比，维基百科受媒体高覆盖率的影响最小。

方法

公开的，未确定的数据收集自疾病预防控制中心，谷歌流感趋势，健康推特和维基百科的2012-2015年流感季节。贝叶斯变化点分析用于检测每个数据源中的季节变化或变化点。谷歌、Twitter和Wikipedia中恰好发生在一周、前一周或CDC变化点后一周的变化点与CDC数据作为金标准进行比较。所有分析均使用RStudio 0.99.484 (RStudio Inc)中的R包“bcp”4.0.0版本进行。此外，还计算了谷歌、Twitter和Wikipedia的敏感性和阳性预测值(PPV)。

结果

在2012-2015年流感季节，谷歌的高敏感性为92%，而谷歌的PPV为85%。Twitter的敏感度较低，为50%;Twitter的PPV也很低，只有43%。维基百科的最低敏感度为33%，最低PPV为40%。

结论

在3个基于web的来源中，谷歌在检测流感相关数据流中的贝叶斯变化点方面具有最佳的灵敏度和PPV组合。研究结果表明，谷歌、Twitter和Wikipedia数据中的变化点偶尔与CDC ILI数据中捕获的变化点保持一致，但这些来源并不能检测到CDC数据中的所有变化，应进一步研究和开发。

互联网社交媒体贝叶斯定理公共卫生监测人类流感,

介绍背景

尽管流感在很大程度上是可以通过疫苗预防的，但它给美国的医疗保健系统带来了负担，每年造成3000- 50000人死亡。 1， 2]。作为众多流感监测系统之一，美国疾病控制和预防中心(CDC)通过计算合作卫生保健提供者向美国流感样疾病门诊监测网络(ILINet)报告的流感样疾病综合征(ILI)门诊就诊人数来监测流感活动。美国疾病控制与预防中心将ILI定义为发烧(≥100°F或37.8°C)和咳嗽和喉咙痛，除了流感以外没有其他已知原因[ 3.]。这种监测方法主要捕获了因流感症状求医者的信息，从而忽略了那些不与卫生保健系统互动的人。此外，这种监测方法受到技术相对陈旧和疾病事件发生与监测信息发布之间延迟长达1至2周的限制[ 4]。

综合征监测可定义为实时或接近实时地监测疾病综合征，以便及早发现疾病暴发，它已纳入使用新的数据来源，如急诊科记录和处方销售，以加强传统的监测系统[ 5- 7]。最近，非传统数据源，特别是基于网络的数据源，在公共卫生监测中得到了更大的应用。这一点尤其明显，因为出现各种症状的人可能会在网上搜索与健康相关的信息，并在寻求医疗服务之前使用社交媒体平台分享他们的疾病经历。使用诸如搜索查询和社交媒体等基于网络的数据源已被称为数字流行病学[ 8- 10]。数字流行病学可以更便宜、更及时，并且可以通过增加可检测的卫生事件范围来扩大检测范围。

相关工作

随着互联网用户数量的增加[ 11]，研究人员已经确定使用谷歌，Twitter和维基百科作为补充传统方法的新型监视方法。b谷歌Flu Trends监测谷歌用户对流感相关信息的搜索，显示出与CDC流感数据的相关性，同时比CDC报告提前1至2周提供估计[ 8， 12]。尽管最初取得了成功，但近年来该体系也并非没有问题。谷歌流感趋势高估了2012-2013年流感季节的流感活动，并在2009年H1N1流感大流行期间低估了流感活动[ 13- 16]。一项研究发现，b谷歌流感趋势的原始(2008年)和修订(2009年)算法在城市、地区和国家范围内都不可靠，特别是在流感季节和媒体报道强度不同的情况下[ 16]。由于其专有算法存在问题，谷歌Flu Trends于2015年8月停产[ 17]。

Twitter是一个传播短消息的社交网络平台，与流感有关的帖子与ILINet报告的流感活动高度相关[ 18， 19]。研究发现，Twitter数据与国家和城市层面的ILI数量高度相关[ 20.]。Signorini等人(2011)也证明推文可以在合理的误差范围内用于估计区域和国家层面的ILI活动[ 21]。此外，研究发现Twitter数据比谷歌数据表现更好。Nagar et al(2014)进行的一项研究表明，与谷歌搜索查询相比，tweet更能反映城市层面的ILI发生率[ 22]。Aramaki等人发现，基于Twitter的模型在正常新闻报道期间的表现优于基于google的模型，尽管Twitter模型在媒体过度报道期间的表现不太理想[ 23]。此外，地理粒度会影响Twitter数据的性能。Broniatowski等人(2015)发现，城市层面的Twitter数据表现优于州和国家层面的Twitter数据，尽管谷歌Flu Trends数据在每个层面都表现得更好[ 24]。

事实证明，维基百科的页面浏览量数据对于跟踪热门话题以及疾病监测和预测都很有价值。 25， 26]。McIver和Brownstein(2014)报告称，流感相关维基百科文章访问量的增加，可以在ILINet前两周对流感活动进行估计，在异常流感季节和媒体高报道期间，其表现优于谷歌Flu Trends的估计[ 27]。一项研究发现，维基百科页面浏览量数据在流感季节高峰期之前具有合适的预测价值[ 26]，而另一项研究也报告说，维基百科的页面浏览量数据既适用于使用28天分析进行预测，也适用于临近预测，或监测当前的疾病发病率[ 25]。然而，作为缺点，维基百科数据的信噪比可能是有问题的[ 25]，因为维基百科已经成为寻找健康信息的首选来源，无论个人是否生病[ 28， 29]。此外，与谷歌和Twitter数据的粒度灵活性不同，Wikipedia不具备在本地或区域级别评估流感活动的能力，因为它只提供页面浏览量计数，而在其公开可用的数据中没有附带的位置或用户信息。

客观的

b谷歌、Twitter和Wikipedia上的这些早期研究表明，尽管存在一些缺陷，挖掘这些基于网络的资源可以通过识别流感活动的指标来提供有价值的流行病情报，这些指标有时或在人群中被更传统的监测系统遗漏。以前的研究已经根据一个标准单独或双重地评估了这3个基于web的资源，但没有将它们彼此和一个标准进行比较。需要进行比较，以了解这些基于网络的来源是否准确反映了CDC ILI数据中的季节变化或变化点。了解这些基于网络的来源中哪一个表现最好，以便被视为对传统监测方法的补充，将是有益的。

因此，本研究旨在对使用谷歌、Twitter和Wikipedia进行流感监测进行比较分析，通过检查哪个基于web的来源产生的数据与CDC ILI数据最一致。具体研究问题如下:在2012-2013年、2013-2014年和2014-2015年流感季节，哪个基于网络的来源(谷歌、Twitter或维基百科)检测到的变化点与CDC ILI数据中检测到的变化点最接近?据推测，由于McIver和Brownstein的[ 27发现与谷歌流感趋势和Twitter的数据相比，维基百科数据受媒体报道的影响较小[ 16， 23]。

方法数据收集研究期间

回顾性收集美国指定的2012-2013年流感季节(2012年9月30日至2013年5月18日)、2013-2014年流感季节(2013年9月29日至2014年5月17日)和2014-2015年流感季节(2014年9月28日至2015年5月23日)的数据[ 30.- 32]。由于资料的限制，选择2012-2015年为研究期。HealthTweets.org的推特数据包含的推文可以追溯到2011年11月。当我们试图分析完整的流感季节时，我们不能包括2011-2012年流感季节，因此也不能包括之前的任何季节。此外，我们无法纳入2014-2015年流感季节之后的数据，因为谷歌在2015年8月停止公开其谷歌流感趋势数据。

所有数据以发病率和死亡率周报(MMWR)周的形式呈现。MMWR周由星期日开始至星期六结束，由1至52或53周不等[ 33]。本研究中包括的每个流感季节都始于每年的MMWR第40周，并于次年的第20周结束。

美国疾病控制与预防中心的数据

疾病预防控制中心ILINet系统的数据是从FluView Interactive下载的，该系统提供门诊疾病、住院、儿科死亡率、病毒学监测和地理活动方面的每周流感监测信息。 34]。ILINet计数数据按MMWR周汇总。ILINet系统每周汇总来自参与的医疗服务提供者的信息，包括按年龄组就诊的ILI患者数量、按年龄组就诊的患者总数以及相应的年份和周[ 34]。本研究使用美国ILI患者就诊计数。虽然大多数先前的研究使用加权ILI率，但我们选择使用ILI计数。我们决定使用CDC ILI计数数据来维持单位比较，因为我们不能使用贝叶斯变点分析将基于web的计数数据转置或建模到与CDC加权ILI率相似的尺度。

谷歌数据

从谷歌流感趋势网站下载了美国与流感相关的未确定的国家级谷歌搜索计数数据[ 17]。这些数据是CDC数据拟合回归模型的输出，并基于谷歌Flu Trends的2009年模型(2012-2013年流感季节)、2013年模型(2013-2014年流感季节)和2014年模型(2014-2015年流感模型)[ 17]。来自谷歌流感趋势的统计数据已经由MMWR周汇总。

Twitter数据

对于Twitter的数据，从HealthTweets.org下载了美国流感相关推文的未识别的国家级计数数据，HealthTweets.org是约翰霍普金斯大学的一个存储流感相关推文的知识库，可追溯到2011年11月[ 35]。使用Twitter应用程序编程接口(API)， HealthTweets团队从关键字流中收集了与流感相关的tweet，这是公共tweet的1% [ 35]。收集后，Dredze等[ 28]使用基于关键字、关键字组合和Lamb及其同事开发的分类器的自动注释器对与流感相关的推文进行分类[ 36]。来自HealthTweets的数据也已经在MMWR周进行了汇总。

维基百科的数据

维基百科已通过维基媒体统计提供文章浏览数据供下载[ 37]。对“流感”条目(英文版本)的查看收集了去识别和汇总的维基百科条目查看数据。来自英文版“流感”条目的统计数据代表了美国国家层面的维基百科浏览量。维基百科的数据以每小时的文章浏览量表示，包括非唯一浏览量[ 37]。由于“流感”条目的维基百科文章查看数据在维基媒体统计中按小时呈现，数据在分析前由MMWR一周汇总。

统计分析贝叶斯变化点分析

本研究采用贝叶斯变化点分析法。从本质上讲，该技术检测时间序列数据中的变化信号，也称为变化点。贝叶斯变化点分析主要用于检测具有大数据属性的数据集中何时发生重大变化，如数量、种类和速度[ 38]。例如，贝叶斯变点分析已被用于估计利率数据何时发生变化[ 39]、染色体微阵列数据[ 39]，以及癌症相关基因表达数据[ 40]。该方法用于检测震后地区卫生系统改造后急诊科就诊率和住院率的变化[ 41]。贝叶斯变化点分析也被用于检测水生生态系统的动态变化，如引入非本地物种[ 42]。除了我们的研究外，这种贝叶斯技术仅用于一次利用急诊科就诊的流感监测[ 43，这与我们的分析不同，我们使用的是基于网络的数据。

图1

由Barry和Hartigan简化的方程。

贝叶斯变点分析是一种被证明比传统的像差检测方法更有效地检测时间序列数据细微变化的方法[ 43]。Kass-Hout等(2012)发现贝叶斯变化点分析不如另外两种变化点分析方法——累积和技术和结构变化模型[ 43]。然而，贝叶斯变点分析最适合应用于微阵列数据[ 39， 40]，它们具有类似于基于web的数据的大数据属性。

所有贝叶斯变更点分析均使用R包“bcp”4.0.0版本进行[ 39， 40， 44在RStudio 0.99.484版本[ 45]。“bcp”包实现了一个复杂的马尔可夫链蒙特卡罗(MCMC)近似[ 39， 40， 44] Barry和Hartigan所描述的贝叶斯变化点方法[ 46]。作为“bcp”包的默认值，在500次MCMC迭代后，时间序列数据在任何给定间隔(即MMWR周)出现变化点的概率由MCMC迭代中满足该间隔出现变化点条件的次数计算[ 39， 40， 44]。

在马尔可夫链的每一步，转移概率， p，对于变化点的条件概率由Barry和Hartigan [ 39， 40， 46]，在图1。每次MCMC迭代后，后验均值和概率都会更新，直到时间序列结束。建议读者参考Erdman and Emerson(2007)、Erdman and Emerson(2008)以及Barry and Hartigan(1993)对贝叶斯方法的进一步数学解释[ 39， 40， 46]。

变化点

我们认为显著变化点是贝叶斯方法表明发生变化的概率≥50%的地方。CDC ILI数据中检测到的变化点是与基于web的来源中发现的变化点进行比较的金标准。基于web的来源的更改点，在准确的一周、前一周或CDC更改点之后的一周内发生的更改点被认为是匹配的或真实的更改点。这样做是为了解释监测数据可能常见的任何报告滞后。比较了每个数据源的变化点数量，并计算了每个基于web的数据源的变化点检测的灵敏度和PPV。

敏感性和阳性预测值

使用与CDC ILINet系统检测到的变化点相匹配的基于web的源检测到的变化点(真阳性)，为ILINet系统检测到的变化点(假阴性)，以及为基于web的源检测到的变化点而不是为ILINet系统检测到的变化点(假阳性)计算每个基于web的源的灵敏度和PPV。敏感度的计算方法是将每个网络源的真阳性除以真阳性和假阴性的总数，即CDC变化点的总数[ 47]。PPV的计算方法是将每个网络信息源的真阳性数除以真阳性数和假阳性数的总和，即该特定网络信息源的总变化点[ 47]。

结果样本特征

以下是为CDC、谷歌、Twitter和Wikipedia收集和分析的2012-2015年流感季节的统计数据摘要( 表1)。每个数据源所包含的平均每周事件数存在逐年变化。对于大多数数据来源而言，2012-2013年流感季节的平均每周感染人数最高。2013-2014年流感季节，CDC和谷歌流感趋势的平均访问量最低，而2014-2015年流感季节，Twitter和Wikipedia的平均访问量最低。请注意，2014-2015年流感季节由34个MMWR周组成，因为大多数流行病学年由52个MMWR周组成，而2014-2015年流行病学年由于之前的日历闰年而有53周。表1进一步总结了数据信息。

表1

疾病控制和预防中心、b谷歌、Twitter和Wikipedia的每周流感样疾病统计数据摘要，2012-2015年流感季节。

	流感季节	疾病预防控制中心^一个ILINet^b	谷歌	推特	维基百科
2012 - 2013
	MMWR^c周(数量/周)	33	33	33	33
	的意思是	19049年	4121	8096	47541年
	最小值	7317	1286	2558	29865年
	马克斯	39896年	10555年	22935年	114919年
2013 - 2014
	周(数/周)	33	33	33	33
	的意思是	16574年	2274	5826	25039年
	最小值	9033	1339	1196	17885年
	马克斯	28654年	5008	10506年	36935年
2014 - 2015
	周(数/周)	34	34	34	34
	的意思是	19940年	2549	2900	21918年
	最小值	9289	1144	451	12958年
	马克斯	40664年	6911	8709	35232年

^一个CDC:美国疾病控制与预防中心。

^bILINet:美国门诊流感样疾病监测网络。

^c发病率和死亡率周报。

2012-2015年流感季节变化点的比较

提供了在每个数据源中找到的所有更改点的摘要(请参阅图2- 4)，变化点的比较见表2。在2012-2013年流感季节，谷歌与CDC ILINet系统共有3个变化点，分别是MMWR第51周、第4周和第5周。Twitter与CDC的变化点有2个共同的变化点，即MMWR第47周和第4周。Wikipedia只有一个更改点与CDC ILINet系统相匹配，即MMWR第5周。

在2013-2014年流感季节，谷歌共有4个变化点(MMWR周48周、50周、51周和5周)，与CDC数据中检测到的变化点相吻合。Twitter有3个变化点(MMWR第48周、第51周和第7周)与CDC ILINet系统数据中的变化点相匹配。Wikipedia与CDC ILI数据有2个共同的变化点，即MMWR第51周和第6周。

对于2014-2015年流感季节，谷歌数据中检测到4个变化点(MMWR第48、50、51和53周)，这些变化点与CDC ILINet系统中确定的变化点一致。Twitter和Wikipedia只有1个变化点与CDC ILI数据中发现的变化点一致，分别是MMWR第50周和第53周。

在网络信息源中检测到的敏感性和阳性预测值比较

接下来，我们使用CDC ILI数据作为金标准，计算了每个基于web的来源的敏感性和PPV。如图所示表3，结果在基于web的资源之间差异很大。谷歌的灵敏度高达92%，而谷歌的PPV为85%。Twitter的敏感度较低，为50%;Twitter的PPV也很低，只有43%。维基百科的最低敏感度为33%，最低PPV为40%。还提供了按特定流感季节比较敏感性和PPV的表格(见多媒体附录1)。

表2

2012-2015年流感季节贝叶斯变化点分析检测变化点的比较^一个。

流感季节	疾病预防控制中心^bILINet^c(引用)	谷歌计数	Twitter计数	维基百科计数
2012 - 2013			周47^一个
	48周的
	星期50
		51周^一个
				52周
			星期1	星期1
			星期3	星期3
		星期4^一个	星期4^一个
	星期5	星期5^一个		星期5^一个
2013 - 2014	48周的	48周的^一个	48周的^一个
	星期50	星期50^一个
		51周^一个	51周^一个	51周^一个
				星期1
		星期3
			星期4
		星期5^一个
	第6周			第6周^一个
			星期7^一个
	15周
			17周
2014 - 2015			周43
				星期44
	48周的	48周的^一个
	周49
	星期50	星期50^一个	星期50^一个
		51周^一个
	周53	周53^一个		周53^一个
			星期2
			星期3	星期3
		星期4
	第6周
			第12周

^一个MMWR周表示与CDC变更点(参考)相对应的变更点。

^bCDC:美国疾病控制与预防中心。

^cILINet:美国门诊流感样疾病监测网络。

图2

2012-2013年流感季节贝叶斯变化点分析检测到的变化点(虚线)。

图3

2013-2014年流感季节贝叶斯变化点分析检测的变化点(虚线)。

图4

2014-2015年流感季节贝叶斯变化点分析检测的变化点(虚线)。

表3

2012-2015年流感季节网络信息源敏感性及阳性预测值比较

基于web的来源	灵敏度(%)	阳性预测值(%)
谷歌	92	85
推特	50	43
维基百科	33	40

讨论主要研究结果

谷歌共有11个真正的变化点(3个在2012-2013年流感季节，4个在2013-2014年流感季节，4个在2014-2015年流感季节)，与CDC ILINet的变化点相吻合。由于谷歌的变化点与CDC ILI数据中检测到的变化点一致，因此我们关于Wikipedia将拥有最多变化点的假设不被支持。事件检测的灵敏度和PPV对于评估监测系统的质量很重要[ 47]。谷歌具有中等阳性预测值，高度敏感，而Twitter和Wikipedia的敏感性率和ppv均较低。谷歌具有最佳对应关系的这一发现与之前发现Twitter和Wikipedia表现更好的研究不一致[ 22， 23， 27， 48]。

谷歌、Twitter和Wikipedia都有一些与CDC ILI数据一致的变化点;然而，他们没有确定疾病预防控制中心数据中确定的所有变化点，这对于了解流感季节何时发生季节性变化非常重要。由于没有基于web的来源确定CDC数据中检测到的所有变化，这可能表明基于web的数据本身可能在捕获CDC ILI数据的所有变化方面受到限制，这是相当合理的，因为并非每个经历ILI症状的个体都求助于在线搜索或共享健康信息。相反，这可能表明贝叶斯变更点分析作为一种技术对于基于web的数据的使用不够敏感。在纳入监测数据以补充传统系统之前，需要使用更标准的统计方法进一步研究和比较这3种基于网络的来源。

限制

值得注意的是，本研究存在局限性。首先，贝叶斯变点分析假设时间序列数据呈正态分布，这可能会产生问题，因为公共卫生监测数据可能是可变的，并且可能具有非正态分布[ 43]。然而，我们无法在RStudio中的“bcp”包上测试这个假设，这是一个限制，因为“bcp”包可能会错误地识别或错过更改点，特别是如果数据中有任何异常值来扭曲贝叶斯分析。使用贝叶斯变化点分析的另一个主要限制是，它不能用作监控实时数据的技术[ 49]。贝叶斯变化点分析最适合用于在收集了所有数据之后评估历史时间序列数据的变化。本研究采用贝叶斯方法对每个流感季节发生后从CDC、谷歌、Twitter和Wikipedia收集的数据进行回顾性评估;因此，该结果不能直接应用于前瞻性应用或实时流感监测。

利用基于网络的数据进行实时流感监测的一个可能的解决办法可能是使用正态分布算法。传统上，疾控中心用于流感监测的方法是基于历史限制和累积金额的正态分布方法[ 50]。此外，Pervaiz等人(2012)证明，与正态分布模型相比，使用基于web的负二项和泊松模型可以更有效地使用基于web的数据进行实时流感监测，因为基于web的数据具有噪声性质，并且互联网用户数量及其活动水平波动较大[ 50]。

其次，对于维基百科视图的分析，只使用了“流感”这篇文章进行分析，不包括其他关于流感药物和流感菌株的文章。McIver和Brownstein描述了将多个与流感相关的维基百科文章结合起来用于监测目的的有效性[ 27]，但这些并未纳入本研究。我们假设维基百科英文词条“流感”的所有观点都来自美国用户;然而，其中一些可能来自其他英语国家的用户，这些国家的流感季节非常不同，例如澳大利亚。

第三，我们的一些数据来源可能有局限性。我们使用CDC ILI计数数据进行分析，这是不标准的。大多数先前的研究都使用加权ILI率而不是ILI计数，因为加权率说明了美国的人口变化。使用ILI计数可能存在抽样偏差，但我们证明计数的使用是合理的，因为我们希望保持数据的一致性，因为基于web的计数数据都无法解释美国的人口和地区差异，也无法标准化。此外，贝叶斯变化点分析不允许我们在与加权ILI率相同的尺度上调换基于web的计数数据，因此考虑到所使用的方法，ILI计数是最佳选择。此外，本研究中使用的谷歌流感趋势数据是一个回归模型的输出，该模型拟合CDC ILI数据，导致谷歌数据与CDC ILI数据更接近。尽管谷歌流感趋势数据与CDC的数据相匹配，但重要的是要注意，这些数据对公众和从业人员都很容易获得，这证明了它们的使用是合理的。

第四，数据重复可能是本研究中使用的每个数据源的问题。互联网用户可以使用一个网站进行多个信息的搜索和共享，而一个互联网用户可以使用多个网站进行同一信息的搜索或共享[ 51]。例如，用户可以多次查看维基百科的“流感”文章，每次查看都会被视为单独的计数[ 37]。谷歌Flu Trends和HealthTweets都不能区分或删除单个用户的多个搜索和tweet。 12， 35]。此外，在公开可用的数据中，没有办法区分单个用户何时同时搜索Wikipedia和谷歌以获取相同的信息。疾病预防控制中心ILINet系统不区分单个患者对同一参与医疗保健提供者进行多次门诊访问，或单个患者对同一疾病的多个医疗保健提供者进行门诊访问。这一数据重复问题应在今后的研究中进一步调查。

最后，互联网用户的平均年龄比美国总人口要小。 52]。尽管这种差异可能被视为使用基于网络的流感监测数据的局限性，但较年轻的年龄组(0-4岁、5-24岁和25-49岁)占报告给CDC ILINet系统的门诊病例的大部分[ 34]。

未来的研究

在基于web的源的内容中有更多的实质性信息，这些信息在基于web的源的计数数据中没有考虑到。最近的研究已经开始对网络资源(如聊天论坛、Facebook和Twitter)进行内容分析，以了解互联网用户的健康体验和需求。内容分析已被证明对传染性和非传染性疾病都很有价值，因为互联网用户分享和搜索各种健康经验，从精神健康到[ 53， 54]到物质使用[ 55， 56]性少数群体的健康需要[ 57]。此外，可以通过结合各种数据来源(无论是基于网络的还是传统的)来加强公共卫生监测。Santillana等人(2015)发现，当b谷歌、Twitter、医院记录和参与式监测系统的数据结合起来时，流感活动的预测比疾病预防控制中心预测前4周更准确[ 58]。应在这一领域开展更多的研究，以确定流感监测的传统和新型数据来源的最佳组合。

结论

据我们所知，这是第一次比较谷歌、Twitter和Wikipedia作为流感监测的可能数据源是否符合共同的黄金标准(CDC ILINet系统)。在3个基于web的来源中，谷歌在检测流感相关数据流中的贝叶斯变化点方面具有最佳的灵敏度和PPV组合。这一发现与现有比较谷歌和Twitter数据或谷歌和Wikipedia数据的研究不一致，这可能归因于对不同流感季节的分析，本研究中贝叶斯方法的新颖使用，或者谷歌流感趋势数据与CDC数据相匹配。进一步的研究应评估这三个基于网络的来源所包含的实质性健康内容，将这些来源结合起来的监测价值，以及这些来源使用其他统计方法检测流感活动的能力。

多媒体附录1

不同流感季节网络信息源敏感性和阳性预测值的比较。

缩写

API

应用程序编程接口

疾病预防控制中心

疾病控制和预防中心

伊犁

流感样疾病

ILINet

美国门诊流感样疾病监测网络

密度

马尔科夫链蒙特卡洛

MMWR

发病率和死亡率周报

PPV

阳性预测值

作者感谢Heather Rubino博士(佛罗里达州卫生部)、Sophie Smith(疾病控制和预防中心)和Matthew Biggerstaff(疾病控制和预防中心)在了解当前流感监测系统方面的洞察力和专业知识。我们也感谢John Emerson博士(耶鲁大学)、Chandra Erdman博士(未来管理领导力)和王晓飞博士(阿默斯特学院)在理解R包“bcp”4.0.0版本方面所提供的帮助。最后，我们特别感谢谷歌公司、Mark Dredze博士和他在HealthTweets.org的团队，以及维基媒体统计，感谢他们将数据公开。

JDS对该研究进行了概念化和设计。RLC、RSH和CWS为研究设计提供反馈。JDS获取数据并进行统计分析。JDS、RLC、RSH和CWS有助于解释研究结果。JDS根据RLC、RSH和CWS提供的反馈起草并修改了稿件。所有作者都认可了手稿的最终版本。

没有宣布。

Chunara

戈尔茨坦

Patterson-Lomba

布朗斯坦

使用参与性队列估计美国流感发作率

Sci代表 2015 5 9540

10.1038 / srep09540

25835538

srep09540

疾病控制和预防中心

与季节性流感有关的死亡估计数——美国，1976-2007年

《凡人周刊 2010 59 33 1057 1062

20798667

疾病控制和预防中心 2015

2016-03-26

美国流感监测概况 http://www.cdc.gov/flu/weekly/overview.htm

飞兆

德席尔瓦

Del Valle

年代

塞格雷

一个

从维基百科文章中获取疾病数据

2015

第九届国际AAAI网络和社交媒体会议

2015

牛津大学,英国

26 33

比勒

霍普金斯

Overhage

Sosin

通

评估早期发现疫情的公共卫生监测系统框架:疾控中心工作组的建议

MMWR建议代表 2004 05 7 53 RR-5 1 11

15129191

rr5305a1

比勒

Sonricker

一个

Paladini

米

酣睡

Mostashari

美国综合征监测实践:来自州、地区和选定的地方卫生部门的调查结果

广告监控 2008 6 3. 1 20.

亨宁

什么是综合征监测?

MMWR增刊 2004 09 24 53 5 11

15714620

贝尔纳多

Rajic

一个

年轻的

我

Robiadek

范教授

太

恐慌

晶澳

对疾病监测的搜索查询和社交媒体的范围审查:创新年表

J Med Internet Res 2013 15 7 e147

10.2196 / jmir.2740

23896182

v15i7e147

PMC3785982

Eysenbach

信息流行病学和信息监测:一套新兴的公共卫生信息学方法框架，用于分析互联网上的搜索、交流和出版行为

J Med Internet Res 2009 11 1 e11

10.2196 / jmir.1157

19329408

v11i1e11

PMC2762766

Salathe

米

本特松

·博德纳尔

布鲁尔

布朗斯坦

Buckee

坎贝尔

新兴市场

Cattuto

口

年代

Mabry

Vespignani

一个

数码流行病学

PLoS计算机生物学 2012 8 7 e1002616

10.1371 / journal.pcbi.1002616

22844241

pcompbiol - d - 12 - 00494

PMC3406005

国际电信联盟 2016-03-26 信息通信技术的事实和数据:2015年的世界 http://www.itu.int/en/ITU-D/Statistics/Documents/facts/ICTFactsFigures2015.pdf

金斯堡

Mohebbi

帕特尔

布拉姆

Smolinski

女士

才华横溢的

利用搜索引擎查询数据检测流感流行

自然 2009 02 19 457 7232 1012 4

10.1038 / nature07634

19020500

nature07634

烹饪

年代

康拉德

Fowlkes

艾尔

Mohebbi

评估2009年甲型H1N1流感病毒大流行期间美国谷歌流感趋势的表现

《公共科学图书馆•综合》 2011 6 8 e23610

10.1371 / journal.pone.0023610

21886802

玉米饼- d - 11 - 06712

PMC3158788

巴特勒

b谷歌得了流感

自然 2013 02 14 494 7436 155 6

10.1038 / 494155

23407515

494155一个

激光冲

肯尼迪

王

Vespignani

一个

大数据。谷歌流感的寓言:大数据分析中的陷阱

科学 2014 03 14 343 6176 1203 5

10.1126 / science.1248506

24626916

343/6176/1203

奥尔森

博士

Konty

Paladini

米

Viboud

西蒙森

重新评估谷歌流感趋势数据以检测季节性和大流行性流感:三个地理尺度的比较流行病学研究

PLoS计算机生物学 2013 9 10 e1003256

10.1371 / journal.pcbi.1003256

24146603

pcompbiol - d - 13 - 00957

PMC3798275

谷歌 2016-03-26 谷歌流感趋势 http://www.google.org/flutrends/about/

Broniatowski

达

保罗

乔丹

Dredze

米

Twitter:大数据机遇

科学 2014 07 11 345 6193 148

10.1126 / science.345.6193.148-a

25013052

345/6193/148-a

Aslam

祖文萃

米

Spitzberg

黑洞

一个

Gawron

古普塔

Peddecord

公里

内格尔

交流

艾伦

杨

林赛

年代

推特作为季节性流感监测补充方法的可靠性

J Med Internet Res 2014 16 11 e250

10.2196 / jmir.3532

25406040

v16i11e250

PMC4260066

20.

Broniatowski

达

保罗

乔丹

Dredze

米

通过Twitter进行国家和地方流感监测:2012-2013年流感流行分析

《公共科学图书馆•综合》 2013 8 12 e83672

10.1371 / journal.pone.0083672

24349542

玉米饼- d - 13 - 35058

PMC3857320

年青男子

一个

塞格雷

我

Polgreen

点

在甲型H1N1流感大流行期间，使用Twitter跟踪美国疾病活动水平和公众关注程度

《公共科学图书馆•综合》 2011 6 5 e19467

10.1371 / journal.pone.0019467

21573238

玉米饼- d - 10 - 02464

PMC3087759

纳加尔

元

问

Freifeld

Santillana

米

Nojima

一个

Chunara

布朗斯坦

从时间和时空角度对纽约市2012-2013年流感季节的每日地理编码Twitter数据进行案例研究

J Med Internet Res 2014 16 10 e236

10.2196 / jmir.3416

25331122

v16i10e236

PMC4259880

Aramaki

Maskawa

年代

盛田昭夫

米

Twitter捕捉流感:使用Twitter检测流感流行

2011

经验自然语言处理会议(EMNLP)

2011

苏格兰爱丁堡

1568 1576

Broniatowski

达

Dredze

米

保罗

乔丹

Dugas

一个

利用社会媒体在市中心医院进行当地流感监测:一项回顾性观察研究

公共卫生监测 2015 1 1 e5

10.2196 / publichealth.4472

27014744

PMC4803078

慷慨的

飞兆

Deshpande

一个

Del Valle

Priedhorsky

全球疾病监测和预测与维基百科

PLoS计算机生物学 2014 11 10 11 e1003892

10.1371 / journal.pcbi.1003892

25392913

pcompbiol - d - 14 - 00678

PMC4231164

Hickmann

飞兆

Priedhorsky

慷慨的

海曼

Deshpande

一个

Del Valle

使用维基百科预测2013-2014年流感季节

PLoS计算机生物学 2015 05 11 5 e1004239

10.1371 / journal.pcbi.1004239

25974758

pcompbiol - d - 14 - 01771

PMC4431683

McIver

布朗斯坦

维基百科的使用情况几乎实时地估计了美国流感样疾病的流行程度

PLoS计算机生物学 2014 04 10 4 e1003581

10.1371 / journal.pcbi.1003581

24743682

pcompbiol - d - 13 - 02242

PMC3990502

劳伦特

先生

维氏

在线寻找健康信息:维基百科重要吗?

美国医学信息协会 2009 16 4 471 9

10.1197 / jamia.M3059

19390105

M3059

PMC2705249

Tausczik

Faasse

Pennebaker

皮特里

H1N1爆发后公众的焦虑和信息寻求:博客、报纸文章和维基百科访问

健康Commun 2012 27 2 179 85

10.1080 / 10410236.2011.571759

21827326

30.

疾病控制和预防中心

流感活动-美国，2012-2013季节和2013-14流感疫苗的组成

《凡人周刊 2013 62 23 473 479

23760189

她

年代

布兰顿

Kniss

Mustaquim

·斯蒂芬斯

沃利斯

Dhara

利昂

米

佩雷斯

一个

查维斯

党卫军

Elal

Gubareva

徐

维拉纽瓦

Bresee

考克斯

Finelli

布拉姆

疾病预防控制中心，国家免疫和呼吸疾病中心，流感科

流感活动-美国，2013-14季节和2014-15年流感疫苗的组成

《凡人周刊 2014 06 6 63 22 483 90

24898165

mm6322a2

阿皮亚

布兰顿

D 'Mello

Kniss

史密斯

年代

Mustaquim

·斯蒂芬斯

Dhara

科恩

查维斯

党卫军

Bresee

沃利斯

徐

Abd Elal

人工智能

Gubareva

温特沃斯

德

卡茨

Jernigan

布拉姆

美国疾病控制与预防中心

流感活动-美国，2014-15季节和2015-16流感疫苗的组成

《凡人周刊 2015 06 5 64 21 583 90

26042650

mm6421a5

疾病控制和预防中心 2016-03-26 MMWR周 https://wwwn.cdc.gov:443/nndss/document/MMWR_Week_overview.pdf

疾病控制和预防中心 2016-03-26 FluView互动 http://gis.cdc.gov/grasp/fluview/fluportaldashboard.html

Dredze

米

程

保罗

米

Broniatowski

HealthTweets.org:一个使用Twitter进行公共卫生监测的平台

2014

第28届AAAI人工智能会议

2014

魁北克市，加拿大魁北克省

羊肉

一个

保罗

米

Dredze

米

区分事实与恐惧:在Twitter上追踪流感感染

计算语言学协会(NAACL)北美分会2013年会议记录:人类语言技术 2013

计算语言学协会北美分会会议:人类语言技术

2013

亚特兰大,乔治亚州

789 795

维基 2016-03-26 维基媒体项目的页面浏览量统计 http://dumps.wikimedia.org/other/pagecounts-raw/

德·毛罗。

一个

希腊

米

格里马尔迪

米

什么是大数据?一个共识的定义和重点研究课题的回顾

AIP会议记录 2015

第四届综合信息国际会议

2014年9月5日至8日

马德里,西班牙

AIP出版有限公司

97 104

10.1063/1.4907823

Erdman

爱默生

bcp:一个R包，用于执行变更点问题的贝叶斯分析

J. Stat.软 2007 23 3.

10.18637 / jss.v023.i03

Erdman

爱默生

微阵列数据分割的快速贝叶斯变点分析

生物信息学 2008 10 1 24 19 2143 8

10.1093 /生物信息学/ btn404

18667443

btn404

Schluter

汉密尔顿

静静的

Ardagh

兆瓦

综合卫生系统变化的影响，由于地震而加速，对急诊科的就诊率和急性入院:贝叶斯变化点分析

BMJ开放 2016 6 5 e010709

10.1136 / bmjopen - 2015 - 010709

27169741

bmjopen - 2015 - 010709

PMC4874100

埃利斯

汉堡王

斯坦福大学

晶澳

家长

斯塔福德

Gustafson

戴斯。莱纳姆:

波

达

国际象棋

工艺

晶澳

Deleray

妈

汉森

废话

大型湖泊生态系统中营养级联的长期影响

美国国家科学基金委 2011 01 18 108 3. 1070 5

10.1073 / pnas.1013006108

21199944

1013006108

PMC3024674

Kass-Hout

助教

徐

McMurray

公园

年代

Buckeridge

戴斯。莱纳姆:

布朗斯坦

Finelli

Groseclose

变化点分析在流感样疾病急诊日常就诊中的应用

美国医学信息协会 2012 19 6 1075 81

10.1136 / amiajnl - 2011 - 000793

22759619

amiajnl - 2011 - 000793

PMC3534458

王

爱默生

arxiv 2015

2016-10-17

一般图上线性模型的贝叶斯变点分析 https://arxiv.org/pdf/1509.00817

Rstudio 2015

2016-03-26

波士顿

RStudio公司

RStudio: R的集成开发 https://www.rstudio.com/

巴里

哈提

变更点问题的贝叶斯分析

JASA 1993 88 421 309 319

德国

李

霍兰

Milstein

Pertowski

沃勒

锰

疾病控制和预防中心(CDC)指南工作组

评价公共卫生监测系统的最新准则:准则工作组的建议

MMWR建议代表 2001 07 27 50 RR-13 1 35;测验CE1-7

18634202

保罗

乔丹

Dredze

米

Broniatowski

推特改善流感预报

公共科学图书馆咕咕叫 2014 6

10.1371 / currents.outbreaks.90b9ed0f59bae4ccaa683a39865d9117

25642377

PMC4234396

Kass-Hout

谷歌 2013

2016-03-26

变更点分析:介绍 https://sites.google.com/site/changepointanalysis/

Pervaiz

米

已经取得

赛义夫

FluBreaks:从谷歌流感趋势中早期发现流行病

J Med Internet Res 2012 14 5 e125

10.2196 / jmir.2102

23037553

v14i5e125

PMC3510767

Wu-Chen

年代

跨多个在线社交网络整合和挖掘虚拟社区:概念、方法和挑战

第四届数字信息与通信技术及其应用国际会议论文集 2014

第四届数字信息通信技术及其应用国际会议

2014

泰国曼谷

199 204

10.1109 / DICTAP.2014.6821682

皮尤研究中心 2016-03-26 互联网用户人口统计 http://www.pewinternet.org/data-trend/internet-use/latest-stats/

Cavazos-Rehg

巴勒斯坦权力机构

克劳斯

乔丹

Sowles

年代

康诺利

年代

罗萨斯

巴拉

米

五角

抑郁症相关推文的内容分析

计算人类行为 2016 01 1 54 351 357

10.1016 / j.chb.2015.08.023

26392678

PMC4574287

Reavley

新泽西

皮尔金顿

使用Twitter来监测人们对抑郁症和精神分裂症的态度:一项探索性研究

PeerJ 2014 2 e647

10.7717 / peerj.647

25374786

647

PMC4217192

程ydF4y2Ba

在

朱

年代

康威

米

在线社区可以告诉我们关于电子烟和水烟的使用:一项使用文本挖掘和可视化技术的研究

J Med Internet Res 2015 17 9 e220

10.2196 / jmir.4517

26420469

v17i9e220

克劳斯

乔丹

Sowles

莫雷诺

米

Zewdie

格鲁扎

类风湿性关节炎

五角

Cavazos-Rehg

巴勒斯坦权力机构

与水烟相关的Twitter聊天:一项内容分析

既往慢性疾病 2015 12 E121

10.5888 / pcd12.150140

26226068

E121

PMC4523113

克鲁格

年轻的

推特:研究跨性别群体健康和社会需求的新工具

JMIR健康 2015 2 2 e16天

10.2196 / mental.4113

26082941

PMC4465794

Santillana

米

阮

在

Dredze

米

保罗

乔丹

Nsoesie

布朗斯坦

结合搜索、社交媒体和传统数据源来改进流感监测

PLoS计算机生物学 2015 10 11 10 e1004513

10.1371 / journal.pcbi.1004513

26513245

pcompbiol - d - 15 - 00856

PMC4626021