这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
监测在疾病检测中发挥着至关重要的作用,但收集患者数据、向卫生官员报告和编写报告的传统方法既昂贵又耗时。近年来,综合征监测工具得到了扩展,研究人员能够以最低的成本利用互联网上的实时海量数据。信息监控有很多数据源,但本研究主要关注Twitter微博网站的状态更新(tweet)。
这项研究的目的是探索网络空间信息活动(通过关键字特定的推文衡量)与现实世界流感和百日咳发生之间的相互作用。推文按周汇总,并与每周的流感样疾病(ILI)和每周的百日咳发病率进行比较。通过将推文分类为4类:不转发推文、转发推文、带有URL网址的推文和没有URL网址的推文,分析了推文类型的潜在影响。
推文是根据人口规模和疾病数据的可用性选择的,收集了11个美国城市17英里半径内的推文。流感分析涉及所有11个城市。百日咳分析基于距离华盛顿州百日咳爆发最近的2个城市(华盛顿州西雅图和俄勒冈州波特兰)。收集推文的结果是161,821条流感推文、6174条流感推文、160条百日咳推文和1167条百日咳推文。计算推文或推文子组与疾病发生之间的相关系数,并以图形形式呈现趋势。
每周聚集的推文与疾病发生之间的相关性差异很大,但在某些地区相对较强。一般而言,与百日咳分析相比,流感分析的相关系数更强。在每一项分析中,流感推文比流感推文与ILI发病率的相关性更强,百日咳推文比百日咳推文与百日咳发病率的相关性更强。不转发的推文比转发的推文与疾病发生的相关性更大,没有URL网址的推文与实际发病率的相关性比那些主要是流感推文的URL网址的推文更好。
这项研究表明,关键词选择不仅在推文与疾病发生的相关性方面发挥了重要作用,而且用于分析的推文子组也很重要。这一探索性工作显示了推特在信息监控方面的潜力,但需要继续努力进一步完善这一领域的研究方法。
互联网的使用已经从单纯的单向信息传输转变为交互式的多维通道。网络空间是用户可利用的信息来源,用户可通过社交媒体和在线社区对网络空间作出贡献[
每年有数百万美国人感染流感,导致疾病、旷工、旷课和死亡。季节性流感造成的死亡主要发生在幼儿和老年人中,这主要是因为流感并发症和充血性心力衰竭等现有疾病的恶化[
互联网已成为地理信息系统(GIS)技术的基本工具。配备全球定位系统(GPS)接收器和互联网的设备可以提供事件的精确地理信息,用于各种用途,包括集中于公共卫生的用途。例如,“爱干净街道”被用来提醒当局注意社区中的问题,如涂鸦和坑洼。
最近,利用互联网开发了其他创新的综合征监测方法[
公共卫生相关互联网数据的可用性激发了许多创新研究。一项研究评估了社交媒体在监测有意和无意的食源性疾病暴发方面的有用性[
Twitter是社交媒体中疾病追踪的首选服务。在2009年甲型H1N1流感大流行期间,一项著名的研究使用推特跟踪公众关注和流感活动[
在这项研究中,我们旨在探索影响网络空间思想和信息的现实空间健康事件,进而确定这些网络空间信息对现实世界的影响程度。更具体地说,我们调查了2012-2013年流感季节(根据ILI报告估计)和2012年华盛顿州百日咳疫情如何反映在网络空间中,通过特定关键字推文的产生来衡量。我们还研究了这些推文作为疾病发生或公共利益的信号的程度,并调查了关键词选择和推文的特定子组如何与疾病发生相关,以及疾病发病率数据收集的规模(即城市与州级别)如何影响与在城市级别收集的推文的相关性。
本文使用2012-2013年流感季节和2012年百日咳爆发作为案例研究,扩展了之前在本体网络(VISION)框架中创新的可视化信息空间的探索。VISION框架是由我们的研究团队开发的,目的是更好地理解空间、时间和信息之间的联系[
在这项研究中,收集了关键词流感、流感、百日咳和百日咳的推文。尽管“流感”一词嵌套在“流感”一词内,但我们的搜索工具将它们作为独立的搜索词处理。推文是从11个美国城市中心17英里半径内获得的(马萨诸塞州波士顿;芝加哥,IL);克利夫兰,哦;丹佛,有限公司;得克萨斯州沃斯堡;佛罗里达州杰克逊维尔的;Nashville-Davidson TN;纽约,纽约州; Portland, OR; San Diego, CA; and Seattle, WA). Cities were chosen based on their population and the availability of sufficient ILI data at the city or county level. A radius of 17 miles was specified to cover a large urban area while avoiding overlapping with nearby cities.
将得到的推文与城市或相应县级的每周ILI率进行比较。这些报告是一周内所有就诊患者中出现流感样症状(发热≥100°F,无流感以外已知原因时出现咳嗽和/或喉咙痛)的百分比[
2012年6月3日开始收集关于百日咳和百日咳的关键词的推文,截至2012年12月1日,共收集了160条百日咳推文和1167条百日咳推文。将推特与华盛顿州的百日咳病例进行比较。华盛顿州可能和确诊百日咳病例的流行率和发病率每周在华盛顿州卫生部网站上报告。[
研究中使用了11个相关城市(以17英里为半径)的推文,其中包括关键词流感和流感(所有11个城市)、百日咳和百日咳(主要是西雅图和波特兰)。
推特率(每个城市每10万人中推特的数量)被确定。为了保持一致,城市人口的估计范围是在市中心半径17英里以内。推特率和疾病数据随后用柱状图表示,因此两者的波动可以很容易地进行可视化比较。为了便于可视化,我们将百日咳和百日咳的最高发病率(在波特兰和西雅图)和最高疾病发病率进行了缩放,并设置为相等。对于流感和流感,最大推文率和ILI被缩放,并在每个城市设置为彼此相等。
使用R版本2.15.1 (R统计计算基金会,奥地利维也纳)中的皮尔逊相关系数确定每周聚合推文与疾病发病率之间的关联,11个城市中每个城市都有流感,波特兰和西雅图有百日咳。此外,推文还被进一步细分,以确定与疾病病例最相关的推文类型。如前所述,推文收集使用了4个关键词:流感、流感、百日咳和百日咳。这4个数据集分别被划分为非转发、转发、没有URL网址的推文和有URL网址的推文。使用Fisher z变换来评估不同组推文或关键词之间相关系数的显著性差异。研究人员比较了来自不同城市的用于每种疾病的2个关键词的推文之间的相关系数,以及之前列出的4个推文子组之间的相关系数。
每10万人中流感和流感推文率之间的相关系数,以及根据ILI报告估计的流感发病率,显示在
在将每个关键字的推文细分为非转发推文、转发推文、带有URL网址的推文和没有URL网址的推文之后,子组之间的相关性有所不同。的
用于推特和ILI比较的11个城市分布在整个美国大陆,允许对地理差异进行调查。
在
从第37-45周(从2012年9月1日至11月4日,具体取决于某个城市的ILI数据何时可用)到第9周(2013年3月2日),包含关键字流感(粉色)和流感样疾病(ILI)率的所有推文(蓝色)趋势的柱状图。黑色条表示推文丢失的一周。显著相关性加粗显示。
包含关键字流感(粉色)和流感样疾病(ILI)的所有推文的趋势柱状图,从第37-45周开始(从2012年9月1日至11月4日,取决于特定城市的ILI数据何时可用),到第9周结束(2013年3月2日)。黑色条表示推文丢失的一周。显著相关性以粗体显示。
从第51周(2012年12月16日至12月22日)到第2周(2013年1月6日至1月12日),在收集推文的11个城市中,绘制了流感样疾病(ILI)率和每10万人中包含关键词流感的推文率的每周变化。圆圈越大表示比率越高。
每个城市的推文(和推文亚群)和流感样疾病(ILI)报告之间的相关系数为流感和流感关键词。
城市 | 所有微博 |
Nonretweet |
转发 |
|
带有URL的tweet |
没有URL的推文 |
|
总微博 |
|
|
|
|
|
|
|
|
|
|
|
|
波士顿 | .57 | .57 | 的相关性 | <措施 | 报 | .60 | <措施 | 19933年 |
|
芝加哥 | 29 | 。31 | .19 | <措施 | .14点 | .40 | <措施 | 26924年 |
|
克利夫兰 | 无误 | 报 | .30 | <措施 | .40 | .46 | 04 | 7434 |
|
丹佛 | 正c | i = | 53 | <措施 | .62 | i = | <措施 | 8964 |
|
沃斯堡 | 综合成绩 | 综合成绩 | 正 | <措施 | 主板市场 | .77点 | <措施 | 4820 |
|
杰克逊维尔 | 正c | 点 | 收 | <措施 | 点 | 正 | 06 | 3647 |
|
Nashville-Davidson | 53 | 收 | .35点 | <措施 | .37点 | 点 | <措施 | 8755 |
|
纽约 | 23) | 23) | 。 | <措施 | 29 | 。 | <措施 | 55455年 |
|
波特兰 | .33 | 报 | .33 | <措施 | .37点 | 点 | <措施 | 1074 |
|
圣地亚哥 | 正c | 2 | 55 | <措施 | 点 | .68点 | 07 | 10586年 |
|
西雅图 | 综合成绩c | .77点 | 正 | <措施 | 收 | 综合成绩 | . 01 | 14229年 |
|
|
|
|
|
|
|
|
|
|
|
波士顿 | 36 | .41点 | 收 | .10 | 点 | .46 | 07 | 998 |
|
芝加哥 | 。31 | .30 | 低位 | 点 | 点 | .41点 | 02 | 902 |
|
克利夫兰 | 29 | 。31 | 二十五分 | .59 | .35点 | 06 | 措施 | 288 |
|
丹佛 | 55c | .60 | 点 | 。 | 报 | .60 | 低位 | 207 |
|
沃斯堡 | 点 | 主板市场 | 。08 | 。 | 点 | 的相关性 | .85 | 61 |
|
杰克逊维尔 | 。45c | 。45 | 低位 | 点 | 53 | 陈霞 | 低位 | 61 |
|
Nashville-Davidson | 53 | 53 | 29 | .35点 | 的相关性 | 报 | 总收入 | 148 |
|
纽约 | 点 | 主板市场 | 收 | 厚 | 点 | 算下来 | 07 | 2480 |
|
波特兰 | 陈霞 | 。31 | 。08 | .35点 | .09点 | .59 | 措施 | 152 |
|
圣地亚哥 | 56c | 算下来 | 的相关性 | .30 | 算下来 | 。31 | . 01 | 363 |
|
西雅图 | .59c | 正 | 点 | <措施 | 55 | 点 | .19 | 514 |
一个从Fisher z变换比较非转发和转发相关系数。
b通过Fisher z变换,确定有URL的推文与没有URL的推文的相关系数之间的显著差异。
c所有推文的流感和流感相关系数之间的显著差异,当两者的相关性被比较显著时。
每周发布的百日咳和百日咳推文在城市内也产生了不同程度的相关性,按关键词和推文子组(列于
推特被分为非转发推特、转发推特、带有URL网址的推特和没有URL网址的推特,但这些组之间的趋势不像流感分析那样明显。在波特兰,不转发和转发的相关性都很显著。虽然不转发似乎与疾病发病率高度相关,但差异并不显著(
华盛顿州、西雅图和波特兰的推文(和推文亚群)与百日咳发病率之间的相关系数,以百日咳和百日咳为关键词。
城市 | 所有微博 |
Nonretweets |
转发 |
|
带有URL的tweet |
没有URL的推文 |
|
总微博 |
|
|
|
|
|
|
|
|
|
|
|
|
波特兰 | 点 | . 21 | 点 | .90 | 低位 | 13。 | i = | 42 |
|
西雅图 | 陈霞 | . 21 | 。31 | 主板市场 | 二十五分 | 酒精含量 | 算下来 | 118 |
|
|
|
|
|
|
|
|
|
|
|
波特兰 | 收c | 56 | 报 | 点 | 53 | 38 | 陈霞 | 322 |
|
西雅图 | 无误c | 票价 | .37点 | 厚 | .41点 | 无误 | . 01 | 845 |
一个从Fisher z变换比较非转发和转发相关系数。
b通过Fisher z变换,确定有URL的推文与没有URL的推文的相关系数之间的显著差异。
c西雅图和波特兰的相关系数有显著差异。
柱状图显示了在MMWR第23-48周(2013年6月3日至2013年12月1日),华盛顿州波特兰和西雅图所有包含关键词百日咳和百日咳(粉色)和百日咳发病率(绿色)的推文趋势。显著相关性加粗显示。
这项研究表明,推特可以作为疾病活动和公众兴趣的信号。在这篇论文中,我们概述了不同组推文在时间上跟踪社区中测量的流感和百日咳发病率的能力的差异。推文和当地疾病活动之间的相关性是可变的,但在某些地区和特定的推文子组(如不转发推文和没有URL网址的推文)之间的相关性相对较强。另一项关键发现是使用白话术语治疗疾病的好处,比如百日咳而不是百日咳。
2012-2013年流感季节在时间和空间上的传播是独特的。2012-2013年流感季达到高峰的时间比近10年来都要早[
与转发和有URL网址的推特相比,未转发和没有URL网址的推特与ILI活动的相关性更高。带有URL地址的转发和推特不太可能是关于发出它们的个人,而可能是用于分享他人创建的信息。没有转发和没有URL网址的推特可能比它们各自的对应版本与流感活动的相关性更好,因为用户在推特上发的是关于自己的消息,可能表明他们患了流感。当Twitter用户表示他们感染了流感时,不可能知道这是在医疗服务提供者的诊断之后,还是更有可能是用户自己对自己症状的解释。
另一方面,华盛顿州的百日咳疫情为分析网络空间和现实空间之间的相互作用提供了一个独特的机会,在疾病发病率达到顶峰之后。一般来说,推文与百日咳发病率之间的相关系数低于推文与ILI发病率之间的相关系数,但这可能是因为推文较少和疾病的性质。
由于推文数量较多且结果显著,我们的解读将集中在百日咳关键词上。与流感分析一样,没有URL网址的推文比有URL网址的推文与百日咳发病率的相关性更强,但这只在西雅图显著。未转发的相关性仍然高于转发的相关性,尽管这在两个城市都不显著。
回顾一下
流感和百日咳的趋势差异可能是由几个因素造成的。首先,这两种疾病的衡量方法不同。百日咳是一种必须报告的疾病,这意味着华盛顿州的百日咳发病率是基于真实的诊断病例。另一方面,流感病例是通过代理测量的。ILI诊断只能估计可能的流感病例,但也可能是其他呼吸道疾病的指标。与百日咳相关的推文少于与流感相关的推文。这可能反映了这些疾病在现实世界中的流行情况。每年,许多人感染流感,而相对较少的人感染百日咳。流感的共同性和百日咳的罕见性使疫情成为媒体感兴趣的话题。
感染的年龄范围也可能在流感和百日咳与推特相关性之间的不同趋势中发挥作用。所有年龄的人都会感染流感,包括大量成年人。然而,百日咳在婴儿和幼儿中更为常见和最严重。这些较年轻的人群可能不太可能或无法在推特上谈论自己的疾病。此外,疾控中心的新闻稿导致推文大量增加,其中许多推文包含链接到该主题文章的URL网址。
此外,我们能够调查在城市一级收集的推文与城市或州一级的疾病之间的相关性。如前所述,关于为什么流感分析比百日咳分析与疾病发生的相关性更好,我们有几个猜想,但同样重要的是要强调,推文是在城市一级收集的,并与城市ILI发病率或州一级百日咳发病率进行比较。我们选择把重点放在城市一级,因为地方迅速作出反应对防止疾病蔓延至关重要。通常,由于在小范围内报告的局限性,ILI比率被汇总到更大的区域。然而,2009年H1N1流感季节的一项研究报告称,来自大学卫生保健系统的8个哨点的ILI率与州和地区ILI率有很好的相关性,并且能够更早获得[
来自西雅图和波特兰的推文可能也导致了相关系数的差异,这可能不能代表华盛顿州的百日咳活动。作为对比和对照的基础,收集华盛顿州更多城市的推文或获得西雅图和波特兰城市级别的百日咳发病率将是有益的。这也可以解释为什么来自波特兰的推文比来自西雅图的推文与百日咳发病率高度相关。进一步探索疾病暴发的地理特征是今后研究的一个重要方向。
流感和百日咳分析之间的一些相似之处也很明显。在这两种情况下,未转发与转发之间的相关性都更高。对于流感的这种趋势已经给出了一个假设,但对于百日咳,目前还无法给出解释。流感和百日咳研究都表明,用于收集推文的关键词在相关系数中起着至关重要的作用。不出所料,百日咳的推文比百日咳的推文多,可能是因为百日咳是一个口语术语,而百日咳主要是由卫生专业人员使用。流感和流感推文之间也出现了类似的趋势;这两个词被大众互换使用,但流感可能是推特用户更喜欢的词,因为每条推特的字符限制。
本研究在推特收集和疾病报告方面都有局限性。服务器问题中断了VISION信息挖掘工具,导致在MMWR第52周(该周用黑色条表示)丢失了流感和流感推文
由于这项工作的探索性,在这项研究中使用的关键词数量是相当有限的。额外的关键词可能会极大地影响所观察到的推文与疾病发生之间的相关性。这些额外的关键词可能包括其他语言的关键词,尤其是在非英语或多语人口众多的城市。另一个限制是按位置可能对tweet进行错误分类。此前的一项研究表明,2011年10月和11月的两周内,全球收集了2380万条推文,其中只有约2.02%的推文带有GPS定位功能[
由于网络空间,特别是社交媒体不断变化的性质,将互联网数据用于信息流行病学和信息监测研究提供了许多挑战。信息的含义随着时间和空间的变化而变化,留给研究人员一个复杂的系统来导航。然而,这项研究的探索性结果表明,在网络空间的推特和现实世界的疾病发生事件之间有很强的关联。
在未来的工作中,我们的目标是进一步调查实际的推文内容及其与城市、州和国家级别的疾病发病率的关系。此外,需要注意的是,媒体对人口的推特率的影响;例如,推特用户可能会受到启发,对某条新闻报道做出反应。进一步的调查可能会指出哪些类型的推文或这些推文中的特定词汇与疾病活动最相关,并应用于实时检测疾病爆发。研究表明,尽管信息监测方法仍然相对较新,但它们在发现疫情方面的影响正变得越来越明显。发达的信息监测方法可以比传统方法早几周发现疾病扩散,而且成本低得多,使卫生服务机构能够更好地预防和预防疾病。需要在这一领域继续努力,以发挥信息流行病学的潜力,改善公众健康,特别是在综合征监测中的应用。
应用程序编程接口
疾病控制和预防中心
地理信息系统
全球定位系统
流感样疾病
发病率及死亡率周报
本体网络中的信息空间可视化
世界卫生组织
本材料基于美国国家科学基金会资助的项目,项目名为CDI-Type II:将网络空间映射到现实空间:可视化和理解全球思想传播和语义网的时空动态。本材料中表达的任何意见、发现和结论或建议都是作者的观点,并不一定反映美国国家科学基金会的观点。
没有宣布。