JMIR J医学网络杂志 医学互联网研究杂志 14388871 卡塔尔世界杯8强波胆分析JMIR出版公司 加拿大多伦多 v15i10e237 24158773 10.2196 / jmir.2705 原始论文 现实空间事件和网络空间信息的复杂关系:使用推特的流感和百日咳案例研究 Eysenbach 冈瑟 忠实的否决权 Onicio 埃尔南德斯 塔尼亚 内格尔 安娜C 英里每小时 1 祖文萃 Ming-Hsiang 博士学位 2
地理系 圣地亚哥州立大学 暴风大厅326号 5500康铂博士 加利福尼亚州圣地亚哥,92182 美国 1 619 594 0205 1 619 594 4938 mtsou@mail.sdsu.edu
Spitzberg 布莱恩·H 博士学位 3. 一个 博士学位 2 Gawron J标志 博士学位 4 古普塔 迪帕克K 博士学位 5 Jiue-An 2 女士 2 Peddecord K迈克尔 博士学位 1 林赛 苏珊 博士学位 1 索耶 马克H 医学博士 6 7
1 公共卫生研究生院 圣地亚哥州立大学 圣地亚哥,加利福尼亚州 美国 2 地理系 圣地亚哥州立大学 圣地亚哥,加利福尼亚州 美国 3. 传播学院 圣地亚哥州立大学 圣地亚哥,加利福尼亚州 美国 4 语言学系 圣地亚哥州立大学 圣地亚哥,加利福尼亚州 美国 5 政治学系 圣地亚哥州立大学 圣地亚哥,加利福尼亚州 美国 6 儿科传染病科 加州大学圣地亚哥分校医学院 加州拉霍亚 美国 7 流行病学和免疫服务处 圣迭戈市卫生与公共服务部 圣地亚哥,加利福尼亚州 美国 通讯作者:明祥Tsou mtsou@mail.sdsu.edu 10 2013 26 10 2013 15 10 e237 15 05 2013 11 06 2013 06 08 2013 16 09 2013 ©Anna C Nagel, Ming-Hsiang Tsou, Brian H Spitzberg, Li An, J Mark Gawron, Dipak K Gupta, Jiue-An Yang, Su Han, K Michael Peddecord, Suzanne Lindsay, Mark H Sawyer。最初发表在《医学互联网研究杂志》(//www.mybigtv.com), 2013年10月26日。 2013

这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。

背景

监测在疾病检测中发挥着至关重要的作用,但收集患者数据、向卫生官员报告和编写报告的传统方法既昂贵又耗时。近年来,综合征监测工具得到了扩展,研究人员能够以最低的成本利用互联网上的实时海量数据。信息监控有很多数据源,但本研究主要关注Twitter微博网站的状态更新(tweet)。

客观的

这项研究的目的是探索网络空间信息活动(通过关键字特定的推文衡量)与现实世界流感和百日咳发生之间的相互作用。推文按周汇总,并与每周的流感样疾病(ILI)和每周的百日咳发病率进行比较。通过将推文分类为4类:不转发推文、转发推文、带有URL网址的推文和没有URL网址的推文,分析了推文类型的潜在影响。

方法

推文是根据人口规模和疾病数据的可用性选择的,收集了11个美国城市17英里半径内的推文。流感分析涉及所有11个城市。百日咳分析基于距离华盛顿州百日咳爆发最近的2个城市(华盛顿州西雅图和俄勒冈州波特兰)。收集推文的结果是161,821条流感推文、6174条流感推文、160条百日咳推文和1167条百日咳推文。计算推文或推文子组与疾病发生之间的相关系数,并以图形形式呈现趋势。

结果

每周聚集的推文与疾病发生之间的相关性差异很大,但在某些地区相对较强。一般而言,与百日咳分析相比,流感分析的相关系数更强。在每一项分析中,流感推文比流感推文与ILI发病率的相关性更强,百日咳推文比百日咳推文与百日咳发病率的相关性更强。不转发的推文比转发的推文与疾病发生的相关性更大,没有URL网址的推文与实际发病率的相关性比那些主要是流感推文的URL网址的推文更好。

结论

这项研究表明,关键词选择不仅在推文与疾病发生的相关性方面发挥了重要作用,而且用于分析的推文子组也很重要。这一探索性工作显示了推特在信息监控方面的潜力,但需要继续努力进一步完善这一领域的研究方法。

推特 infoveillance infodemiology 网络空间 症状监测 流感 百日咳 百日咳
简介 背景

互联网的使用已经从单纯的单向信息传输转变为交互式的多维通道。网络空间是用户可利用的信息来源,用户可通过社交媒体和在线社区对网络空间作出贡献[ 1].信息流行病学是研究网络空间信息的分布和因果因素及其改善公共卫生的能力[ 2].互联网为流行病学信息提供了许多资源,包括搜索引擎查询(例如,谷歌流感趋势[ 3.])、出版物、营销活动和用户生成的内容,如博客和社交媒体状态更新[ 2].研究人员正在开创使用这些资源进行疾病检测的各种方法和应用(见[ 4)。这项研究的重点是Twitter上与百日咳相关(也称为百日咳)和与流感相关的状态更新的信息流行病学。

每年有数百万美国人感染流感,导致疾病、旷工、旷课和死亡。季节性流感造成的死亡主要发生在幼儿和老年人中,这主要是因为流感并发症和充血性心力衰竭等现有疾病的恶化[ 5].流感造成严重的经济负担,因缺勤而导致生产力下降和保健费用增加[ 6].百日咳感染的人群要小得多,但可导致严重的并发症,特别是在年轻人和未接种疫苗的人群中。大约57%的1岁以下婴儿因百日咳住院,而且年龄越小风险越大[ 7].住院婴儿最常见的并发症是呼吸暂停(67%),或呼吸暂停可能导致发绀,其次是肺炎(23%)。大约1.6%的住院婴儿发生死亡和剧烈抽搐,大约0.4%的住院婴儿发生脑部疾病(脑病)[ 7].截至2012年12月29日,华盛顿州发生了4744例百日咳病例,是2011年同期(807例)的5.9倍[ 8].疾病暴发的早期通报大大提高了受影响社区控制和治疗流行病的能力。传统监测方法是控制疾病的一个重要因素,但在报告个别病例和将这些数据积累成报告之间往往有一段时间滞后[ 9].

相关工作

互联网已成为地理信息系统(GIS)技术的基本工具。配备全球定位系统(GPS)接收器和互联网的设备可以提供事件的精确地理信息,用于各种用途,包括集中于公共卫生的用途。例如,“爱干净街道”被用来提醒当局注意社区中的问题,如涂鸦和坑洼。 10].健康地图根据各种来源(包括用户报告)绘制疾病发生情况[ 11].可根据行人的gps装置所录下的声音,分析噪音污染[ 12].研究人员利用推特中包含的信息探测日本地震[ 13].每个Twitter用户都被标记为传感器;传感器要么是阳性的(用户发布了与地震相关的信息),要么是阴性的(他们没有发布信息)。通过这些方法,作者能够以96%的概率探测到地震,并在日本气象厅(Japan Meteorological Agency)之前通知有关部门[ 13].另一项研究旨在分析2009年法国马赛火灾期间的推特活动。研究人员发现,推特是准确和及时的,但不是对事件的所有阶段。他们认为,要充分利用这一领域的潜力,还需要做更多的工作。 14].

最近,利用互联网开发了其他创新的综合征监测方法[ 15- 25].综合征监测在疾病早期发现中起着至关重要的作用。最简单的形式是,综合征监测旨在在诊断和报告疾病的传统监测方法之前发现表明可能发生疾病暴发的信号。信号通常是症状或症状替代物[ 26],例如药物处方[ 17].日本的研究人员发现,从5000多家药店购买的处方药与官方哨点监测报告的流感活动之间存在高度相关性[ 17].信息监控是信息流行病学的一个组成部分,是对在线文本的监控。网上信息是疾病发生或与疾病相关的公众利益的信号[ 2].这些方法可扩展到调查公众对卫生主题的理解,如对剂量说明的误解和由此导致的抗生素滥用[ 25].

公共卫生相关互联网数据的可用性激发了许多创新研究。一项研究评估了社交媒体在监测有意和无意的食源性疾病暴发方面的有用性[ 9].作者得出的结论是,社交媒体可以比传统方法更快地在识别食源性疾病集群方面发挥重要作用。许多患有食源性疾病的人不寻求医疗救助;然而,他们可能更有可能在网上报告症状,因为它很容易和方便[ 9].尽管存在局限性,但作者得出结论,一个实时利用社交媒体平台上可用的大量数据的系统将有助于检测食源性疾病暴发[ 9].

Twitter是社交媒体中疾病追踪的首选服务。在2009年甲型H1N1流感大流行期间,一项著名的研究使用推特跟踪公众关注和流感活动[ 22].研究人员使用包含疾病传播、疾病对策、猪肉消费和疫苗相关关键词的推文来跟踪公众关注。在一些情况下,随着新闻事件和官方疾病报告的变化,带有这些关键词的推文的百分比发生了变化[ 22].第二个关键字子集用于训练一个预测模型。该模型的估计结果与美国疾病控制与预防中心(CDC)报告的区域流感样疾病(ILI)病例进行了比较,显示出密切的相关性。本研究的实时估计值可在传统监测方法之前1至2周确定[ 22].研究人员使用推特评估了2009年H1N1流感爆发期间公众的关注[ 19].该研究的一个组成部分使用了超过200万的推文来调查采用世界卫生组织(WHO)的H1N1术语与猪流感(最初使用的术语)的比较。在研究期间,使用H1N1病毒的推文百分比从8.8%增加到40.5% [ 19].作者总结说,Twitter是信息流行病学的一个有价值的工具,它可以帮助卫生专业人员认识和解决公众关注的问题[ 19].

目标

在这项研究中,我们旨在探索影响网络空间思想和信息的现实空间健康事件,进而确定这些网络空间信息对现实世界的影响程度。更具体地说,我们调查了2012-2013年流感季节(根据ILI报告估计)和2012年华盛顿州百日咳疫情如何反映在网络空间中,通过特定关键字推文的产生来衡量。我们还研究了这些推文作为疾病发生或公共利益的信号的程度,并调查了关键词选择和推文的特定子组如何与疾病发生相关,以及疾病发病率数据收集的规模(即城市与州级别)如何影响与在城市级别收集的推文的相关性。

方法 数据收集

本文使用2012-2013年流感季节和2012年百日咳爆发作为案例研究,扩展了之前在本体网络(VISION)框架中创新的可视化信息空间的探索。VISION框架是由我们的研究团队开发的,目的是更好地理解空间、时间和信息之间的联系[ 27].创建了两个信息挖掘工具:一个用于收集网页信息,另一个用于收集推文。本文的重点专门放在推特上,假设推特活动比网页内容更能动态地反映疾病扩散。Twitter提供了大量公开可用的数据。Twitter拥有超过1.4亿活跃用户,每天发布数百万条推文(140字符或以下的消息)[ 28].在本研究中,我们利用Twitter搜索和流式应用程序编程接口(api)创建的支持地理搜索的Twitter工具(Twitter Tools)来利用这一资源[ 29].我们的工具结合Twitter api返回一个Microsoft Excel电子表格,其中包含与关键字(在tweet文本、用户名或链接Web页面的标题中)相关的tweet,并且在指定的地理范围内。每条tweet都提供了其他信息,如用户名、创建时间和位置。位置基于用户自称的家乡,或者基于经纬度坐标(如果用户使用的是支持gps的设备)。

在这项研究中,收集了关键词流感、流感、百日咳和百日咳的推文。尽管“流感”一词嵌套在“流感”一词内,但我们的搜索工具将它们作为独立的搜索词处理。推文是从11个美国城市中心17英里半径内获得的(马萨诸塞州波士顿;芝加哥,IL);克利夫兰,哦;丹佛,有限公司;得克萨斯州沃斯堡;佛罗里达州杰克逊维尔的;Nashville-Davidson TN;纽约,纽约州; Portland, OR; San Diego, CA; and Seattle, WA). Cities were chosen based on their population and the availability of sufficient ILI data at the city or county level. A radius of 17 miles was specified to cover a large urban area while avoiding overlapping with nearby cities. 图1显示每个感兴趣城市的地理位置。对于流感和流感关键字,推文收集从2012年8月31日开始,一直持续到2013年3月4日,结果是161,821条流感推文和6174条流感推文。在分析过程中,重点关注CDC发病率死亡率周报(MMWR)第37至45周的推文,这取决于每个城市的ILI数据何时可用(从2012年9月1日至11月4日)到MMWR第9周(截至2013年3月2日)。

将得到的推文与城市或相应县级的每周ILI率进行比较。这些报告是一周内所有就诊患者中出现流感样症状(发热≥100°F,无流感以外已知原因时出现咳嗽和/或喉咙痛)的百分比[ 30.].值得注意的是,ILI报告是可选的。疾控中心没有报告州以下的ILI数据;因此,ILI病例是从各个市或县卫生部门的网站获取的,在圣迭戈,则是从圣迭戈县卫生与公众服务署的联系人获取的[ 31].在少数情况下,某一周的ILI报告丢失了。在这种情况下,对前一周和后一周的ILI百分比进行平均。在连续2周缺失的情况下,第一个缺失的周使用前一周的ILI率,第二个缺失的周由下一周的ILI率推导而来。

2012年6月3日开始收集关于百日咳和百日咳的关键词的推文,截至2012年12月1日,共收集了160条百日咳推文和1167条百日咳推文。将推特与华盛顿州的百日咳病例进行比较。华盛顿州可能和确诊百日咳病例的流行率和发病率每周在华盛顿州卫生部网站上报告。[ 8].twitter收集集中在距离华盛顿州疫情爆发最近的11个城市中的两个:西雅图和波特兰。

研究中使用了11个相关城市(以17英里为半径)的推文,其中包括关键词流感和流感(所有11个城市)、百日咳和百日咳(主要是西雅图和波特兰)。

分析

推特率(每个城市每10万人中推特的数量)被确定。为了保持一致,城市人口的估计范围是在市中心半径17英里以内。推特率和疾病数据随后用柱状图表示,因此两者的波动可以很容易地进行可视化比较。为了便于可视化,我们将百日咳和百日咳的最高发病率(在波特兰和西雅图)和最高疾病发病率进行了缩放,并设置为相等。对于流感和流感,最大推文率和ILI被缩放,并在每个城市设置为彼此相等。

使用R版本2.15.1 (R统计计算基金会,奥地利维也纳)中的皮尔逊相关系数确定每周聚合推文与疾病发病率之间的关联,11个城市中每个城市都有流感,波特兰和西雅图有百日咳。此外,推文还被进一步细分,以确定与疾病病例最相关的推文类型。如前所述,推文收集使用了4个关键词:流感、流感、百日咳和百日咳。这4个数据集分别被划分为非转发、转发、没有URL网址的推文和有URL网址的推文。使用Fisher z变换来评估不同组推文或关键词之间相关系数的显著性差异。研究人员比较了来自不同城市的用于每种疾病的2个关键词的推文之间的相关系数,以及之前列出的4个推文子组之间的相关系数。

结果 流感和流感推文

每10万人中流感和流感推文率之间的相关系数,以及根据ILI报告估计的流感发病率,显示在 表1.只有当两个相关分别显著时,才进行显著性检验。当比较来自所有推文组(第1列)的流感和流感推文时,两个关键词的相关性在6个城市都很显著:丹佛、沃斯堡、杰克逊维尔、纳什维尔-戴维森、圣地亚哥和西雅图。其中4个城市(丹佛、杰克逊维尔、圣地亚哥和西雅图)的相关性存在显著差异。在所有推文中,与流感推文相比,这4个城市的流感相关性显著高于流感推文。

在将每个关键字的推文细分为非转发推文、转发推文、带有URL网址的推文和没有URL网址的推文之后,子组之间的相关性有所不同。的 P非转发与转发比较的Fisher z变换值,以及带有URL的tweet与没有URL的tweet之间的比较 表1.对于流感关键字,有6个城市(丹佛、沃斯堡、杰克逊维尔、纳什维尔-戴维森、圣地亚哥和西雅图)对不转发和转发组都有显著的相关系数。在所有6个城市( P<措施for each comparison). Differences between significant nonretweet and retweet correlations for the influenza keyword were not significant. For the flu keyword, significantly larger correlations ( P<。05for each comparison) were found among tweets without a URL Web address compared to those with a URL Web address in 6 of the 8 cities (Boston, Cleveland, Denver, Fort Worth, Nashville-Davidson, and Seattle) in which both correlations being compared were significant. For influenza, 5 cities (Denver, Fort Worth, Nashville-Davidson, New York, and Seattle) had significant correlations for both tweets with a URL Web address and those without, but none of these comparisons showed significant differences between correlations.

用于推特和ILI比较的11个城市分布在整个美国大陆,允许对地理差异进行调查。 图2而且 3.显示从第39周(2012年9月23日开始)到第9周(2013年3月2日结束)的每周推特率和ILI报告百分比,分别作为流感和流感关键词的柱状图。这些柱状图是根据相应城市的地理区域在表格中组织的。第一列通常是指西部各州,第二列是指东北部各州,第三列是指南部各州。从第51周(2012年12月16日开始)到第2周(2013年1月6日开始),推文率和ILI报告百分比的每周变化可以看到 图4

图2而且 3.,显示了所有(未细分的)推文,其中从所有推文中提取了相应的相关系数。黑条表示MMWR第52周期间丢失的tweet。黑条显示的是实际收集到的推文,但可能还有更多。为了更好的可视化,每个城市的最大ILI和tweet率被缩放并设置为相等,但这限制了查看者比较城市之间频率值的能力。相反,我们建议关注每个城市内ILI比率和tweet之间的总体趋势和相关性。

从第37-45周(从2012年9月1日至11月4日,具体取决于某个城市的ILI数据何时可用)到第9周(2013年3月2日),包含关键字流感(粉色)和流感样疾病(ILI)率的所有推文(蓝色)趋势的柱状图。黑色条表示推文丢失的一周。显著相关性加粗显示。

包含关键字流感(粉色)和流感样疾病(ILI)的所有推文的趋势柱状图,从第37-45周开始(从2012年9月1日至11月4日,取决于特定城市的ILI数据何时可用),到第9周结束(2013年3月2日)。黑色条表示推文丢失的一周。显著相关性以粗体显示。

从第51周(2012年12月16日至12月22日)到第2周(2013年1月6日至1月12日),在收集推文的11个城市中,绘制了流感样疾病(ILI)率和每10万人中包含关键词流感的推文率的每周变化。圆圈越大表示比率越高。

每个城市的推文(和推文亚群)和流感样疾病(ILI)报告之间的相关系数为流感和流感关键词。

城市 所有微博 r Nonretweet r 转发 r P价值一个 带有URL的tweet r 没有URL的推文 r P价值b 总微博n
流感
波士顿 .57 .57 的相关性 <措施 .60 <措施 19933年
芝加哥 29 。31 .19 <措施 .14点 .40 <措施 26924年
克利夫兰 无误 .30 <措施 .40 .46 04 7434
丹佛 c i = 53 <措施 .62 i = <措施 8964
沃斯堡 综合成绩 综合成绩 <措施 主板市场 .77点 <措施 4820
杰克逊维尔 c <措施 06 3647
Nashville-Davidson 53 .35点 <措施 .37点 <措施 8755
纽约 23) 23) <措施 29 <措施 55455年
波特兰 .33 .33 <措施 .37点 <措施 1074
圣地亚哥 c 2 55 <措施 .68点 07 10586年
西雅图 综合成绩c .77点 <措施 综合成绩 . 01 14229年
流感
波士顿 36 .41点 .10 .46 07 998
芝加哥 。31 .30 低位 .41点 02 902
克利夫兰 29 。31 二十五分 .59 .35点 06 措施 288
丹佛 55c .60 .60 低位 207
沃斯堡 主板市场 。08 的相关性 .85 61
杰克逊维尔 。45c 。45 低位 53 陈霞 低位 61
Nashville-Davidson 53 53 29 .35点 的相关性 总收入 148
纽约 主板市场 算下来 07 2480
波特兰 陈霞 。31 。08 .35点 .09点 .59 措施 152
圣地亚哥 56c 算下来 的相关性 .30 算下来 。31 . 01 363
西雅图 .59c <措施 55 .19 514

一个从Fisher z变换比较非转发和转发相关系数。

b通过Fisher z变换,确定有URL的推文与没有URL的推文的相关系数之间的显著差异。

c所有推文的流感和流感相关系数之间的显著差异,当两者的相关性被比较显著时。

百日咳和百日咳推特

每周发布的百日咳和百日咳推文在城市内也产生了不同程度的相关性,按关键词和推文子组(列于 表2).华盛顿州的推文与百日咳发病率之间的显著相关性仅在使用百日咳关键词收集的推文中发现。这可能是因为有关百日咳关键字的推文相对较少。与百日咳关键词推文相比,百日咳关键词与百日咳发病率的相关性似乎更高,这可能反映了推文语言的口语化特性。进一步的解释只关注百日咳推文的结果。与流感分析类似,Fisher z变换用于检验2个个体显著相关之间的显著差异。在所有推文组中,来自波特兰的推文与疾病发病率的相关性明显高于来自西雅图的推文( P<措施)。

推特被分为非转发推特、转发推特、带有URL网址的推特和没有URL网址的推特,但这些组之间的趋势不像流感分析那样明显。在波特兰,不转发和转发的相关性都很显著。虽然不转发似乎与疾病发病率高度相关,但差异并不显著( P=点)。另一方面,在西雅图的推文中,有URL网址的推文和没有URL网址的推文都具有显著的相关性。在这种情况下,没有URL网址的推文与华盛顿州百日咳发病率的相关性显著高于有URL网址的推文( P= . 01)。

图5给出了所有百日咳和百日咳推文与MMWR第23至48周(2012年6月3日至12月1日结束)百日咳发病率的对比。所有推文组与疾病发病率之间的显著相关性以粗体显示。最高的推文率和最大的周发病率被缩放并设置为相等,以便更好地可视化。这张图展示了这两个城市的推特率差异。与百日咳推文(下行)相比,百日咳推文(上行)相对较少。回顾一下 表2在美国,波特兰的推特与华盛顿州百日咳发病率的相关性明显高于西雅图的。

华盛顿州、西雅图和波特兰的推文(和推文亚群)与百日咳发病率之间的相关系数,以百日咳和百日咳为关键词。

城市 所有微博 r Nonretweets r 转发 r P价值一个 带有URL的tweet r 没有URL的推文 r P价值b 总微博n
百日咳
波特兰 . 21 .90 低位 13。 i = 42
西雅图 陈霞 . 21 。31 主板市场 二十五分 酒精含量 算下来 118
百日咳
波特兰 c 56 53 38 陈霞 322
西雅图 无误c 票价 .37点 .41点 无误 . 01 845

一个从Fisher z变换比较非转发和转发相关系数。

b通过Fisher z变换,确定有URL的推文与没有URL的推文的相关系数之间的显著差异。

c西雅图和波特兰的相关系数有显著差异。

柱状图显示了在MMWR第23-48周(2013年6月3日至2013年12月1日),华盛顿州波特兰和西雅图所有包含关键词百日咳和百日咳(粉色)和百日咳发病率(绿色)的推文趋势。显著相关性加粗显示。

讨论 主要研究结果

这项研究表明,推特可以作为疾病活动和公众兴趣的信号。在这篇论文中,我们概述了不同组推文在时间上跟踪社区中测量的流感和百日咳发病率的能力的差异。推文和当地疾病活动之间的相关性是可变的,但在某些地区和特定的推文子组(如不转发推文和没有URL网址的推文)之间的相关性相对较强。另一项关键发现是使用白话术语治疗疾病的好处,比如百日咳而不是百日咳。

2012-2013年流感季节在时间和空间上的传播是独特的。2012-2013年流感季达到高峰的时间比近10年来都要早[ 32],病例最初出现在东海岸。指的是 表1里面的图表 图2而且 3.与东北城市相比,西部城市的相关性更强。因为推文的数量更多,相关性更显著,我们的解释将集中在 图2.在大多数情况下,推特率和ILI率在前三分之二的时间段内都很低,然后在最后三分之一达到峰值,然后下降。在9个推特和ILI率之间存在显著相关性的城市中,有5个城市的推特率在ILI率之前达到峰值。这表明,在传统的ILI报告方法之前,推特有可能成为流感爆发的信号。然而,这只在5个城市很明显;在另外4个国家,ILI在推文发布之前或同时达到峰值。需要进行进一步的调查,以确定在传统方法之前,什么样的关键词组合或推文子组可以预示即将到来的疫情。

与转发和有URL网址的推特相比,未转发和没有URL网址的推特与ILI活动的相关性更高。带有URL地址的转发和推特不太可能是关于发出它们的个人,而可能是用于分享他人创建的信息。没有转发和没有URL网址的推特可能比它们各自的对应版本与流感活动的相关性更好,因为用户在推特上发的是关于自己的消息,可能表明他们患了流感。当Twitter用户表示他们感染了流感时,不可能知道这是在医疗服务提供者的诊断之后,还是更有可能是用户自己对自己症状的解释。

另一方面,华盛顿州的百日咳疫情为分析网络空间和现实空间之间的相互作用提供了一个独特的机会,在疾病发病率达到顶峰之后。一般来说,推文与百日咳发病率之间的相关系数低于推文与ILI发病率之间的相关系数,但这可能是因为推文较少和疾病的性质。 图5显示了与百日咳相比,百日咳的推特频率有多低。我们假设西雅图的推文与华盛顿的百日咳发病率有更好的相关性,因为西雅图在该州,但事实并非如此。事实上,在华盛顿州(波特兰市)以外的5种推文类别中,有4种的相关性更高(除了没有URL网址的推文)。

由于推文数量较多且结果显著,我们的解读将集中在百日咳关键词上。与流感分析一样,没有URL网址的推文比有URL网址的推文与百日咳发病率的相关性更强,但这只在西雅图显著。未转发的相关性仍然高于转发的相关性,尽管这在两个城市都不显著。

回顾一下 图5,可以看出百日咳发病率在25周内开始高,然后慢慢下降。总的来说,百日咳推文在第29周之前有所增加,然后在剩下的时间里有所减少。第29周推特的高峰可能是由于媒体报道了疾控中心关于华盛顿州百日咳疫情的新闻稿[ 33].事实上,那一周的许多推文都提到了新闻稿,并附有一个URL网址。在这个分析中,媒体在推特的产生中扮演的角色似乎比在流感分析中扮演的角色更大。至少,这些发现表明,健康传播运动可以通过可衡量的方式渗透到社交媒体中。由于推文收集是在新的百日咳病例数量达到峰值之后开始的,我们无法得出推文是否可能预示着潜在的百日咳爆发。然而,由于推特和百日咳之间的相关性,例如在波特兰,在这一领域的进一步探索可能被证明是值得的。

流感和百日咳的趋势差异可能是由几个因素造成的。首先,这两种疾病的衡量方法不同。百日咳是一种必须报告的疾病,这意味着华盛顿州的百日咳发病率是基于真实的诊断病例。另一方面,流感病例是通过代理测量的。ILI诊断只能估计可能的流感病例,但也可能是其他呼吸道疾病的指标。与百日咳相关的推文少于与流感相关的推文。这可能反映了这些疾病在现实世界中的流行情况。每年,许多人感染流感,而相对较少的人感染百日咳。流感的共同性和百日咳的罕见性使疫情成为媒体感兴趣的话题。

感染的年龄范围也可能在流感和百日咳与推特相关性之间的不同趋势中发挥作用。所有年龄的人都会感染流感,包括大量成年人。然而,百日咳在婴儿和幼儿中更为常见和最严重。这些较年轻的人群可能不太可能或无法在推特上谈论自己的疾病。此外,疾控中心的新闻稿导致推文大量增加,其中许多推文包含链接到该主题文章的URL网址。

此外,我们能够调查在城市一级收集的推文与城市或州一级的疾病之间的相关性。如前所述,关于为什么流感分析比百日咳分析与疾病发生的相关性更好,我们有几个猜想,但同样重要的是要强调,推文是在城市一级收集的,并与城市ILI发病率或州一级百日咳发病率进行比较。我们选择把重点放在城市一级,因为地方迅速作出反应对防止疾病蔓延至关重要。通常,由于在小范围内报告的局限性,ILI比率被汇总到更大的区域。然而,2009年H1N1流感季节的一项研究报告称,来自大学卫生保健系统的8个哨点的ILI率与州和地区ILI率有很好的相关性,并且能够更早获得[ 34].

来自西雅图和波特兰的推文可能也导致了相关系数的差异,这可能不能代表华盛顿州的百日咳活动。作为对比和对照的基础,收集华盛顿州更多城市的推文或获得西雅图和波特兰城市级别的百日咳发病率将是有益的。这也可以解释为什么来自波特兰的推文比来自西雅图的推文与百日咳发病率高度相关。进一步探索疾病暴发的地理特征是今后研究的一个重要方向。

流感和百日咳分析之间的一些相似之处也很明显。在这两种情况下,未转发与转发之间的相关性都更高。对于流感的这种趋势已经给出了一个假设,但对于百日咳,目前还无法给出解释。流感和百日咳研究都表明,用于收集推文的关键词在相关系数中起着至关重要的作用。不出所料,百日咳的推文比百日咳的推文多,可能是因为百日咳是一个口语术语,而百日咳主要是由卫生专业人员使用。流感和流感推文之间也出现了类似的趋势;这两个词被大众互换使用,但流感可能是推特用户更喜欢的词,因为每条推特的字符限制。

限制

本研究在推特收集和疾病报告方面都有局限性。服务器问题中断了VISION信息挖掘工具,导致在MMWR第52周(该周用黑色条表示)丢失了流感和流感推文 图2而且 3.).我们怀疑,如果没有遗漏一些推文,推文和ILI比率之间的相关性将略有不同,甚至可能更高。另一方面,ILI报告是可选的,提供ILI比率的卫生保健提供者因城市而异。例如,在一些城市,ILI是由急诊部门报告的,而在另一些城市,ILI是由初级保健医生报告的。这两个来源可能有不同的ILI比率,但随着时间的推移,两者的总体趋势可能是相似的。对于百日咳和百日咳的关键词,直到华盛顿州新的百日咳病例数量达到峰值,才开始收集推文。显然,这使得无法评估在这种情况下的tweet是否能先于传统方法检测到病毒爆发。然而,以波特兰为例,在疫情爆发后观察到中度到强相关性,表明百日咳推文与百日咳之间存在关联。需要进一步探索以确定这一趋势是否会在新百日咳病例的高峰之前出现。

由于这项工作的探索性,在这项研究中使用的关键词数量是相当有限的。额外的关键词可能会极大地影响所观察到的推文与疾病发生之间的相关性。这些额外的关键词可能包括其他语言的关键词,尤其是在非英语或多语人口众多的城市。另一个限制是按位置可能对tweet进行错误分类。此前的一项研究表明,2011年10月和11月的两周内,全球收集了2380万条推文,其中只有约2.02%的推文带有GPS定位功能[ 35].对于那些没有GPS定位的推文,我们依赖于用户自称的家乡;然而,家乡的意义可以是不同的。同一项研究通过比较同时包含GPS位置和用户提供位置的推文,调查了美国用户提供数据的准确性。确定了两者的状态,发现约88%的时间是匹配的[ 35].尽管这项研究关注的是城市层面的推特,但之前的研究表明,自称的家乡可能是可靠的。此外,在流感季节和百日咳流行期间收集推文;但是,收集全年的tweet可能有助于更好地确定tweet检测初始爆发的能力。

结论

由于网络空间,特别是社交媒体不断变化的性质,将互联网数据用于信息流行病学和信息监测研究提供了许多挑战。信息的含义随着时间和空间的变化而变化,留给研究人员一个复杂的系统来导航。然而,这项研究的探索性结果表明,在网络空间的推特和现实世界的疾病发生事件之间有很强的关联。

在未来的工作中,我们的目标是进一步调查实际的推文内容及其与城市、州和国家级别的疾病发病率的关系。此外,需要注意的是,媒体对人口的推特率的影响;例如,推特用户可能会受到启发,对某条新闻报道做出反应。进一步的调查可能会指出哪些类型的推文或这些推文中的特定词汇与疾病活动最相关,并应用于实时检测疾病爆发。研究表明,尽管信息监测方法仍然相对较新,但它们在发现疫情方面的影响正变得越来越明显。发达的信息监测方法可以比传统方法早几周发现疾病扩散,而且成本低得多,使卫生服务机构能够更好地预防和预防疾病。需要在这一领域继续努力,以发挥信息流行病学的潜力,改善公众健康,特别是在综合征监测中的应用。

缩写 API

应用程序编程接口

疾病预防控制中心

疾病控制和预防中心

地理信息系统

地理信息系统

全球定位系统(GPS)

全球定位系统

伊犁

流感样疾病

MMWR

发病率及死亡率周报

愿景

本体网络中的信息空间可视化

世界卫生组织

本材料基于美国国家科学基金会资助的项目,项目名为CDI-Type II:将网络空间映射到现实空间:可视化和理解全球思想传播和语义网的时空动态。本材料中表达的任何意见、发现和结论或建议都是作者的观点,并不一定反映美国国家科学基金会的观点。

没有宣布。

卡普兰 Haenlein 全世界的用户,团结起来!社交媒体的挑战和机遇 公共汽车水平的 2010 53 1 59 68 10.1016 / j.bushor.2009.09.003 Eysenbach G 信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架,用于分析互联网上的搜索、通信和发布行为 J医学网络杂志 2009 11 1 e11 10.2196 / jmir.1157 19329408 v11i1e11 PMC2762766 金斯堡 J Mohebbi MH 帕特尔 RS 布拉姆 l Smolinski 女士 才华横溢的 l 使用搜索引擎查询数据检测流感流行 自然 2009 02 19 457 7232 1012 4 10.1038 / nature07634 19020500 nature07634 布朗斯坦 JS Freifeld CC 马多夫 信用证 数字化疾病检测——利用网络进行公共卫生监测 N英语J医学 2009 05 21 360 21 2153 2157 10.1056 / NEJMp0900702 19423867 NEJMp0900702 PMC2917042 疾病控制和预防中心 季节性流感(流感) 2009 07 01 2012-08-22 流感的临床体征和症状 http://www.cdc.gov/flu/professionals/acip/clinical.htm 6 aargu6os 莫伦纳 NA Ortega-Sanchez 红外 Messonnier 毫升 汤普森 WW 沃尔特利 温特劳布 E 桥梁 CB 季节性流感在美国的年度影响:衡量疾病负担和成本 疫苗 2007 06 28 25 27 5086 96 10.1016 / j.vaccine.2007.03.046 17544181 s0264 - 410 x (07) 00385 - 4 疾病控制和预防中心 百日咳 2012 06 20. 2013-01-01 婴儿和儿童 http://www.cdc.gov/pertussis/about/complications.html 6 dns7kfjk 华盛顿州卫生部 2013-01-02 华盛顿州百日咳每周最新情况 http://www.doh.wa.gov/Portals/1/Documents/Pubs/384-254-PertussisUpdate.pdf 6 dnm2neop 亨宁 K 疾病预防控制中心 2004 09 24 2009-03-28 什么是综合征监测? http://www.cdc.gov/mmwr/preview/mmwrhtml/su5301a3.htm 5 fde6jbkx 爱干净的街道 2012-12-12 http://www.lovecleanstreets.org/Reports/Home 6 cqu9snz0 “健康地图” 2012-12-12 http://healthmap.org/en/ 6 cquffiuc Kanjo E NoiseSPY:城市噪音监测和测绘的实时手机平台 移动网络应用 2009 11 20. 15 4 562 574 10.1007 / s11036 - 009 - 0217 - y 淡比 T 冈崎 Mastsuo Y 地震震动推特用户:社交传感器实时事件检测 2010 国际万维网会议委员会 2010年4月26日至30日 罗利数控 978 988 De Longueville B 史密斯 R Luraschi G “天哪,从这里我能看到火焰!”:挖掘基于位置的社会网络以获取森林火灾时空数据的用例 2009年基于位置的社交网络国际研讨会论文集 2009 基于位置的社交网络国际研讨会 2009年11月4-6日 西雅图,华盛顿州 73 80 Arranz Izquierdo J 莱俄文 一个 Carandell贼鸥 E Pujol Buades 一个 门德斯名卡斯特尔 MC 萨尔瓦•Fiol 一个 Esteva章 [初级保健中流感样疾病的综合征监测:对流感发病率增加时期哨点监测网络的补充] 阿托恩Primaria 2012 05 44 5 258 64 10.1016 / j.aprim.2011.03.008 21924796 s0212 - 6567 (11) 00357 - x Culotta 一个 从Twitter消息中估计流感发病率和酒精销量的轻量级方法 郎氏资源与评价 2012 5 13 47 1 217 238 10.1007 / s10579 - 012 - 9185 - 0 Ohkusa Y Sugawara T 伊藤 K N 日本甲型H1N1流感大流行(2009年)的实时估计与预测 J感染化疗药 2011 08 17 4 468 72 10.1007 / s10156 - 010 - 0200 - 3 21387184 Achrekar H Gandhe 一个 拉撒路 R 年代 B 利用Twitter数据预测流感趋势 2011 第一届网络网络系统国际研讨会 2011年4月10-15日 上海 咀嚼 C Eysenbach G 推特时代的流行病:2009年H1N1爆发期间推特的内容分析 《公共科学图书馆•综合》 2010 5 11 e14118 10.1371 / journal.pone.0014118 21124761 PMC2993925 Chunara R 安德鲁斯 布朗斯坦 JS 社会和新闻媒体能够在2010年海地霍乱暴发早期对流行病学模式作出估计 Am J Trop Med Hyg 2012 01 86 1 39 45 10.4269 / ajtmh.2012.11 - 0597 22232449 86/1/39 PMC3247107 Heaivilin N 尔贝特 B 页面 吉布斯 莱托 通过推特对牙痛进行公共卫生监测 J Dent Res 2011 09 90 9 1047 51 10.1177 / 0022034511415273 21768306 0022034511415273 PMC3169887 年青男子 一个 塞格雷 Polgreen 在甲型H1N1流感大流行期间,使用Twitter跟踪美国疾病活动和公众关注的水平 《公共科学图书馆•综合》 2011 6 5 e19467 10.1371 / journal.pone.0019467 21573238 玉米饼- d - 10 - 02464 PMC3087759 Sofean 史密斯 一个使用社交网络的实时疾病监测架构 种马健康技术通知 2012 180 823 7 22874307 纽克 RW 本德 简森-巴顿 Hedberg 连续波 社交媒体作为食品安全和食品恐怖主义监测系统组成部分的潜在能力 食源性病原体病 2012 02 9 2 120 4 10.1089 / fpd.2011.0990 22217109 Scanfeld D Scanfeld V 拉森 埃尔 通过社交网络传播健康信息:推特和抗生素 感染控制 2010 04 38 3. 182 8 10.1016 / j.ajic.2009.11.004 20347636 s0196 - 6553 (10) 00034 - 9 PMC3601456 亨宁 K 疾病控制和预防中心 2009-03-28 二四年九月二十四日 http://www.cdc.gov/mmwr/preview/mmwrhtml/su5301a3.htm 5 fde6jbkx 祖文萃 MH 晶澳 酒鬼 D 年代 Spitzberg B Gawron JM 古普塔 D 一个 l 用社交媒体(Twitter)和网络搜索引擎(雅虎和必应)绘制社交活动和概念:2012年美国总统选举的一个案例研究 2012 自动制图国际研讨会 2012年9月16日至18日 哥伦布,哦 16 18 Twitter博客 推特 2012 03 21 2012-08-01 推特六岁 http://blog.twitter.com/2012/03/twitter-turns-six.html 69年bd02viq Twitter开发者 2012 2012-12-12 使用Twitter搜索API https://dev.twitter.com/docs/using-search 6 cqv8zcwd 疾病控制和预防中心 流感(流感):美国流感监测概述 2012 10 05 2012-12-12 http://www.cdc.gov/flu/pdf/weekly/overview.pdf 6 cqrltumb SDSU映射理念 2012 2013-05-07 2012-2013周ILI http://mappingideas.sdsu.edu/2012-2013-weekly-ILI/ 6 grd7nxlg 疾病控制和预防中心 新闻发布会记录 2012 12 03 2013-03-26 电视简报美国流感活动和当季疫苗接种率 http://www.cdc.gov/media/releases/2012/t1203_influenza_activity.html 6 fojf5e9a 疾病控制和预防中心 新闻发布会记录 2012 07 19 2013-04-15 华盛顿州百日咳流行- 2012年 http://www.cdc.gov/media/releases/2012/t0719_pertussis_epidemic.html 6 ftcsk6k9 贝克 亚历山大-伍尔兹 恩菲尔德 K 较多 B 特纳 JC Sifri CD 2009年H1N1流感大流行期间大学卫生系统的地方流感样疾病监测 感染控制 2012 09 40 7 606 10 10.1016 / j.ajic.2011.12.009 22418609 s0196 - 6553 (11) 01330 - 7 伯顿 上海 坦纳 千瓦 Giraud-Carrier CG 西 JH 巴恩斯 医学博士 “正确的时间,正确的地点”推特上的健康沟通:位置信息的价值和准确性 J医学网络杂志 2012 14 6 e156 10.2196 / jmir.2121 23154246 v14i6e156 PMC3510712
Baidu
map