这是一篇根据知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR公共卫生与监测上,并适当引用。必须包括完整的书目信息,到http://publichealth.www.mybigtv.com上原始出版物的链接,以及版权和许可信息。
传统的流感监测依赖卫生保健提供者报告的流感样疾病(ILI)综合征。它主要捕获那些寻求医疗保健的人,而忽略了那些不寻求医疗保健的人。最近,由于越来越多的人在寻求医疗护理之前搜索、发布和tweet自己的疾病,人们研究了基于web的数据源,以便将其应用于公共卫生监测。现有研究显示,利用谷歌、Twitter和Wikipedia的数据补充传统的ILI监测具有一定的前景。然而,过去的研究对这些基于web的资源进行了单独或双重评估,而没有对所有3种资源进行比较,因此了解哪一种基于web的资源表现最好,以便被认为是对传统方法的补充,将是有益的。
本研究的目的是比较分析谷歌、Twitter和Wikipedia,通过检查哪一个最符合疾病控制和预防中心(CDC) ILI数据。假设维基百科最符合CDC ILI数据,因为之前的研究发现,与谷歌和Twitter相比,维基百科受媒体高覆盖率的影响最小。
公开的,未确定的数据收集自疾病预防控制中心,谷歌流感趋势,健康推特和维基百科的2012-2015年流感季节。贝叶斯变化点分析用于检测每个数据源中的季节变化或变化点。谷歌、Twitter和Wikipedia中恰好发生在一周、前一周或CDC变化点后一周的变化点与CDC数据作为金标准进行比较。所有分析均使用RStudio 0.99.484 (RStudio Inc)中的R包“bcp”4.0.0版本进行。此外,还计算了谷歌、Twitter和Wikipedia的敏感性和阳性预测值(PPV)。
在2012-2015年流感季节,谷歌的高敏感性为92%,而谷歌的PPV为85%。Twitter的敏感度较低,为50%;Twitter的PPV也很低,只有43%。维基百科的最低敏感度为33%,最低PPV为40%。
在3个基于web的来源中,谷歌在检测流感相关数据流中的贝叶斯变化点方面具有最佳的灵敏度和PPV组合。研究结果表明,谷歌、Twitter和Wikipedia数据中的变化点偶尔与CDC ILI数据中捕获的变化点保持一致,但这些来源并不能检测到CDC数据中的所有变化,应进一步研究和开发。
尽管流感在很大程度上是可以通过疫苗预防的,但它给美国的医疗保健系统带来了负担,每年造成3000- 50000人死亡。
综合征监测可定义为实时或接近实时地监测疾病综合征,以便及早发现疾病暴发,它已纳入使用新的数据来源,如急诊科记录和处方销售,以加强传统的监测系统[
随着互联网用户数量的增加[
Twitter是一个传播短消息的社交网络平台,与流感有关的帖子与ILINet报告的流感活动高度相关[
事实证明,维基百科的页面浏览量数据对于跟踪热门话题以及疾病监测和预测都很有价值。
b谷歌、Twitter和Wikipedia上的这些早期研究表明,尽管存在一些缺陷,挖掘这些基于网络的资源可以通过识别流感活动的指标来提供有价值的流行病情报,这些指标有时或在人群中被更传统的监测系统遗漏。以前的研究已经根据一个标准单独或双重地评估了这3个基于web的资源,但没有将它们彼此和一个标准进行比较。需要进行比较,以了解这些基于网络的来源是否准确反映了CDC ILI数据中的季节变化或变化点。了解这些基于网络的来源中哪一个表现最好,以便被视为对传统监测方法的补充,将是有益的。
因此,本研究旨在对使用谷歌、Twitter和Wikipedia进行流感监测进行比较分析,通过检查哪个基于web的来源产生的数据与CDC ILI数据最一致。具体研究问题如下:在2012-2013年、2013-2014年和2014-2015年流感季节,哪个基于网络的来源(谷歌、Twitter或维基百科)检测到的变化点与CDC ILI数据中检测到的变化点最接近?据推测,由于McIver和Brownstein的[
回顾性收集美国指定的2012-2013年流感季节(2012年9月30日至2013年5月18日)、2013-2014年流感季节(2013年9月29日至2014年5月17日)和2014-2015年流感季节(2014年9月28日至2015年5月23日)的数据[
所有数据以发病率和死亡率周报(MMWR)周的形式呈现。MMWR周由星期日开始至星期六结束,由1至52或53周不等[
疾病预防控制中心ILINet系统的数据是从FluView Interactive下载的,该系统提供门诊疾病、住院、儿科死亡率、病毒学监测和地理活动方面的每周流感监测信息。
从谷歌流感趋势网站下载了美国与流感相关的未确定的国家级谷歌搜索计数数据[
对于Twitter的数据,从HealthTweets.org下载了美国流感相关推文的未识别的国家级计数数据,HealthTweets.org是约翰霍普金斯大学的一个存储流感相关推文的知识库,可追溯到2011年11月[
维基百科已通过维基媒体统计提供文章浏览数据供下载[
本研究采用贝叶斯变化点分析法。从本质上讲,该技术检测时间序列数据中的变化信号,也称为变化点。贝叶斯变化点分析主要用于检测具有大数据属性的数据集中何时发生重大变化,如数量、种类和速度[
由Barry和Hartigan简化的方程。
贝叶斯变点分析是一种被证明比传统的像差检测方法更有效地检测时间序列数据细微变化的方法[
所有贝叶斯变更点分析均使用R包“bcp”4.0.0版本进行[
在马尔可夫链的每一步,转移概率,
我们认为显著变化点是贝叶斯方法表明发生变化的概率≥50%的地方。CDC ILI数据中检测到的变化点是与基于web的来源中发现的变化点进行比较的金标准。基于web的来源的更改点,在准确的一周、前一周或CDC更改点之后的一周内发生的更改点被认为是匹配的或真实的更改点。这样做是为了解释监测数据可能常见的任何报告滞后。比较了每个数据源的变化点数量,并计算了每个基于web的数据源的变化点检测的灵敏度和PPV。
使用与CDC ILINet系统检测到的变化点相匹配的基于web的源检测到的变化点(真阳性),为ILINet系统检测到的变化点(假阴性),以及为基于web的源检测到的变化点而不是为ILINet系统检测到的变化点(假阳性)计算每个基于web的源的灵敏度和PPV。敏感度的计算方法是将每个网络源的真阳性除以真阳性和假阴性的总数,即CDC变化点的总数[
以下是为CDC、谷歌、Twitter和Wikipedia收集和分析的2012-2015年流感季节的统计数据摘要(
疾病控制和预防中心、b谷歌、Twitter和Wikipedia的每周流感样疾病统计数据摘要,2012-2015年流感季节。
|
流感季节 | 疾病预防控制中心一个ILINetb | 谷歌 | 推特 | 维基百科 |
|
|||||
|
MMWRc周(数量/周) | 33 | 33 | 33 | 33 |
|
的意思是 | 19049年 | 4121 | 8096 | 47541年 |
|
最小值 | 7317 | 1286 | 2558 | 29865年 |
|
马克斯 | 39896年 | 10555年 | 22935年 | 114919年 |
|
|||||
|
周(数/周) | 33 | 33 | 33 | 33 |
|
的意思是 | 16574年 | 2274 | 5826 | 25039年 |
|
最小值 | 9033 | 1339 | 1196 | 17885年 |
|
马克斯 | 28654年 | 5008 | 10506年 | 36935年 |
|
|||||
|
周(数/周) | 34 | 34 | 34 | 34 |
|
的意思是 | 19940年 | 2549 | 2900 | 21918年 |
|
最小值 | 9289 | 1144 | 451 | 12958年 |
|
马克斯 | 40664年 | 6911 | 8709 | 35232年 |
一个CDC:美国疾病控制与预防中心。
bILINet:美国门诊流感样疾病监测网络。
c发病率和死亡率周报。
提供了在每个数据源中找到的所有更改点的摘要(请参阅
在2013-2014年流感季节,谷歌共有4个变化点(MMWR周48周、50周、51周和5周),与CDC数据中检测到的变化点相吻合。Twitter有3个变化点(MMWR第48周、第51周和第7周)与CDC ILINet系统数据中的变化点相匹配。Wikipedia与CDC ILI数据有2个共同的变化点,即MMWR第51周和第6周。
对于2014-2015年流感季节,谷歌数据中检测到4个变化点(MMWR第48、50、51和53周),这些变化点与CDC ILINet系统中确定的变化点一致。Twitter和Wikipedia只有1个变化点与CDC ILI数据中发现的变化点一致,分别是MMWR第50周和第53周。
接下来,我们使用CDC ILI数据作为金标准,计算了每个基于web的来源的敏感性和PPV。如图所示
2012-2015年流感季节贝叶斯变化点分析检测变化点的比较一个。
流感季节 | 疾病预防控制中心bILINetc(引用) | 谷歌计数 | Twitter计数 | 维基百科计数 |
|
|
|
周47一个 |
|
|
48周的 |
|
|
|
|
星期50 |
|
|
|
|
|
51周一个 |
|
|
|
|
|
|
52周 |
|
|
|
星期1 | 星期1 |
|
|
|
星期3 | 星期3 |
|
|
星期4一个 | 星期4一个 |
|
|
星期5 | 星期5一个 |
|
星期5一个 |
|
48周的 | 48周的一个 | 48周的一个 |
|
|
星期50 | 星期50一个 |
|
|
|
|
51周一个 | 51周一个 | 51周一个 |
|
|
|
|
星期1 |
|
|
星期3 |
|
|
|
|
|
星期4 |
|
|
|
星期5一个 |
|
|
|
第6周 |
|
|
第6周一个 |
|
|
|
星期7一个 |
|
|
15周 |
|
|
|
|
|
|
17周 |
|
|
|
|
周43 |
|
|
|
|
|
星期44 |
|
48周的 | 48周的一个 |
|
|
|
周49 |
|
|
|
|
星期50 | 星期50一个 | 星期50一个 |
|
|
|
51周一个 |
|
|
|
周53 | 周53一个 |
|
周53一个 |
|
|
|
星期2 |
|
|
|
|
星期3 | 星期3 |
|
|
星期4 |
|
|
|
第6周 |
|
|
|
|
|
|
第12周 |
|
一个MMWR周表示与CDC变更点(参考)相对应的变更点。
bCDC:美国疾病控制与预防中心。
cILINet:美国门诊流感样疾病监测网络。
2012-2013年流感季节贝叶斯变化点分析检测到的变化点(虚线)。
2013-2014年流感季节贝叶斯变化点分析检测的变化点(虚线)。
2014-2015年流感季节贝叶斯变化点分析检测的变化点(虚线)。
2012-2015年流感季节网络信息源敏感性及阳性预测值比较
基于web的来源 | 灵敏度(%) | 阳性预测值(%) |
谷歌 | 92 | 85 |
推特 | 50 | 43 |
维基百科 | 33 | 40 |
谷歌共有11个真正的变化点(3个在2012-2013年流感季节,4个在2013-2014年流感季节,4个在2014-2015年流感季节),与CDC ILINet的变化点相吻合。由于谷歌的变化点与CDC ILI数据中检测到的变化点一致,因此我们关于Wikipedia将拥有最多变化点的假设不被支持。事件检测的灵敏度和PPV对于评估监测系统的质量很重要[
谷歌、Twitter和Wikipedia都有一些与CDC ILI数据一致的变化点;然而,他们没有确定疾病预防控制中心数据中确定的所有变化点,这对于了解流感季节何时发生季节性变化非常重要。由于没有基于web的来源确定CDC数据中检测到的所有变化,这可能表明基于web的数据本身可能在捕获CDC ILI数据的所有变化方面受到限制,这是相当合理的,因为并非每个经历ILI症状的个体都求助于在线搜索或共享健康信息。相反,这可能表明贝叶斯变更点分析作为一种技术对于基于web的数据的使用不够敏感。在纳入监测数据以补充传统系统之前,需要使用更标准的统计方法进一步研究和比较这3种基于网络的来源。
值得注意的是,本研究存在局限性。首先,贝叶斯变点分析假设时间序列数据呈正态分布,这可能会产生问题,因为公共卫生监测数据可能是可变的,并且可能具有非正态分布[
利用基于网络的数据进行实时流感监测的一个可能的解决办法可能是使用正态分布算法。传统上,疾控中心用于流感监测的方法是基于历史限制和累积金额的正态分布方法[
其次,对于维基百科视图的分析,只使用了“流感”这篇文章进行分析,不包括其他关于流感药物和流感菌株的文章。McIver和Brownstein描述了将多个与流感相关的维基百科文章结合起来用于监测目的的有效性[
第三,我们的一些数据来源可能有局限性。我们使用CDC ILI计数数据进行分析,这是不标准的。大多数先前的研究都使用加权ILI率而不是ILI计数,因为加权率说明了美国的人口变化。使用ILI计数可能存在抽样偏差,但我们证明计数的使用是合理的,因为我们希望保持数据的一致性,因为基于web的计数数据都无法解释美国的人口和地区差异,也无法标准化。此外,贝叶斯变化点分析不允许我们在与加权ILI率相同的尺度上调换基于web的计数数据,因此考虑到所使用的方法,ILI计数是最佳选择。此外,本研究中使用的谷歌流感趋势数据是一个回归模型的输出,该模型拟合CDC ILI数据,导致谷歌数据与CDC ILI数据更接近。尽管谷歌流感趋势数据与CDC的数据相匹配,但重要的是要注意,这些数据对公众和从业人员都很容易获得,这证明了它们的使用是合理的。
第四,数据重复可能是本研究中使用的每个数据源的问题。互联网用户可以使用一个网站进行多个信息的搜索和共享,而一个互联网用户可以使用多个网站进行同一信息的搜索或共享[
最后,互联网用户的平均年龄比美国总人口要小。
在基于web的源的内容中有更多的实质性信息,这些信息在基于web的源的计数数据中没有考虑到。最近的研究已经开始对网络资源(如聊天论坛、Facebook和Twitter)进行内容分析,以了解互联网用户的健康体验和需求。内容分析已被证明对传染性和非传染性疾病都很有价值,因为互联网用户分享和搜索各种健康经验,从精神健康到[
据我们所知,这是第一次比较谷歌、Twitter和Wikipedia作为流感监测的可能数据源是否符合共同的黄金标准(CDC ILINet系统)。在3个基于web的来源中,谷歌在检测流感相关数据流中的贝叶斯变化点方面具有最佳的灵敏度和PPV组合。这一发现与现有比较谷歌和Twitter数据或谷歌和Wikipedia数据的研究不一致,这可能归因于对不同流感季节的分析,本研究中贝叶斯方法的新颖使用,或者谷歌流感趋势数据与CDC数据相匹配。进一步的研究应评估这三个基于网络的来源所包含的实质性健康内容,将这些来源结合起来的监测价值,以及这些来源使用其他统计方法检测流感活动的能力。
不同流感季节网络信息源敏感性和阳性预测值的比较。
应用程序编程接口
疾病控制和预防中心
流感样疾病
美国门诊流感样疾病监测网络
马尔科夫链蒙特卡洛
发病率和死亡率周报
阳性预测值
作者感谢Heather Rubino博士(佛罗里达州卫生部)、Sophie Smith(疾病控制和预防中心)和Matthew Biggerstaff(疾病控制和预防中心)在了解当前流感监测系统方面的洞察力和专业知识。我们也感谢John Emerson博士(耶鲁大学)、Chandra Erdman博士(未来管理领导力)和王晓飞博士(阿默斯特学院)在理解R包“bcp”4.0.0版本方面所提供的帮助。最后,我们特别感谢谷歌公司、Mark Dredze博士和他在HealthTweets.org的团队,以及维基媒体统计,感谢他们将数据公开。
JDS对该研究进行了概念化和设计。RLC、RSH和CWS为研究设计提供反馈。JDS获取数据并进行统计分析。JDS、RLC、RSH和CWS有助于解释研究结果。JDS根据RLC、RSH和CWS提供的反馈起草并修改了稿件。所有作者都认可了手稿的最终版本。
没有宣布。