发表在第15卷第10期(2013):10月

现实空间事件和网络空间信息的复杂关系:使用推特的流感和百日咳案例研究

现实空间事件和网络空间信息的复杂关系:使用推特的流感和百日咳案例研究

现实空间事件和网络空间信息的复杂关系:使用推特的流感和百日咳案例研究

原始论文

1圣地亚哥州立大学公共卫生研究生院,加利福尼亚州圣地亚哥,美国

2圣地亚哥州立大学地理系,美国加州圣地亚哥

3.美国圣地亚哥州立大学传播学院

4美国圣地亚哥州立大学语言学系

5美国圣地亚哥州立大学政治学系

6加州大学圣地亚哥医学院儿科传染病科,美国加州拉霍亚

7流行病学和免疫服务处,圣迭戈市卫生与公众服务部,圣迭戈,加利福尼亚州,美国

通讯作者:

祖明祥,博士

地理系

圣地亚哥州立大学

暴风厅326号

5500康铂博士

加州圣地亚哥,92182

美国

电话:1 619 594 0205

传真:1 619 594 4938

电子邮件:mtsou@mail.sdsu.edu


背景:监测在疾病检测中发挥着至关重要的作用,但收集患者数据、向卫生官员报告和编写报告的传统方法既昂贵又耗时。近年来,症状监测工具得到了扩展,研究人员能够以最低的成本利用互联网上实时可用的大量数据。信息监控有很多数据来源,但这项研究主要关注Twitter微博网站的状态更新(推文)。

摘要目的:这项研究的目的是探索网络空间信息活动(通过关键字特定的推文衡量)与现实世界中流感和百日咳事件之间的相互作用。推文按周聚合,并与每周流感样疾病(ILI)和每周百日咳发病率进行比较。推文类型的潜在影响是通过将推文分为4类进行分析的:未转发的推文、转发的推文、有URL网址的推文和没有URL网址的推文。

方法:推文是根据人口规模和疾病数据的可用性,在11个美国城市17英里半径内收集的。流感分析涉及所有11个城市。百日咳分析基于距离华盛顿州百日咳爆发最近的2个城市(华盛顿州西雅图和俄勒冈州波特兰)。推文收集的结果是161821条流感推文、6174条流感推文、160条百日咳推文和1167条百日咳推文。计算推文或推文子组与疾病发生之间的相关系数,并以图形方式呈现趋势。

结果:每周聚合推文和疾病发生之间的相关性差异很大,但在某些地区相对较强。一般来说,与百日咳分析相比,流感分析的相关系数更强。在每次分析中,流感推文与ILI发病率的相关性比流感推文更强,百日咳推文与百日咳发病率的相关性比百日咳推文更强。不转发的推文比转发的推文与疾病发生的相关性更大,没有URL网址的推文比那些有URL网址的推文与实际发病率的相关性更好。

结论:这项研究表明,关键词选择不仅在推文与疾病发生的相关性方面发挥着重要作用,而且用于分析的推文亚组也很重要。这一探索性工作显示了使用推文进行信息监视的潜力,但需要继续努力进一步完善这一领域的研究方法。

中国医学杂志,2013;15(10):e237

doi: 10.2196 / jmir.2705

关键字



背景

互联网的使用已经从单纯的单向信息传输转变为交互式的多维渠道。网络空间是用户可利用的信息来源,用户可以通过社交媒体和在线社区对网络空间作出贡献[1].信息流行病学是研究网络空间信息的分布和因果因素及其改善公共卫生的能力的学科[2].互联网为信息流行病学提供了许多资源,包括搜索引擎查询(例如,谷歌流感趋势[3.])、出版物、营销活动和用户生成的内容,如博客和社交媒体状态更新[2].研究人员正在利用这些资源开创各种疾病检测方法和应用(见[4)。这项研究的重点是Twitter上百日咳相关(也称为百日咳)和流感相关状态更新的信息流行病学。

每年都有数以百万计的美国人感染流感,导致疾病、旷工、旷课和死亡。季节性流感导致的死亡主要发生在幼儿和老人身上,主要是由于流感并发症和现有病情的恶化,如充血性心力衰竭[5].流感造成了巨大的经济负担,因缺勤和医疗费用而导致生产力下降[6].百日咳感染的人群要少得多,但可导致严重的并发症,特别是在那些年轻和未接种疫苗的人群中。大约57%的1岁以下婴儿因百日咳住院,年龄越小,风险越大[7].住院婴儿最常见的并发症是呼吸暂停(67%),或可能导致紫绀的呼吸暂停,其次是肺炎(23%)。住院婴儿中大约1.6%发生死亡和剧烈惊厥,大约0.4%发生脑部疾病(脑病)[7].截至2012年12月29日,华盛顿州共有4744例百日咳病例,是2011年同期流行率(807例)的5.9倍[8].疾病暴发的早期通报大大提高了受影响社区控制和治疗流行病的能力。传统监测方法是控制疾病的一个重要因素,但从报告个别病例到将这些数据积累成一份报告,往往有一段时间滞后[9].

相关工作

互联网已经成为地理信息系统(GIS)技术的基本工具。配备全球定位系统(GPS)接收器的设备和互联网可提供各种用途的活动的精确地理信息,包括公共卫生方面的活动。例如,爱干净的街道被用来提醒当局社区的问题,如涂鸦和坑洼[10].HealthMap根据各种来源(包括用户报告)绘制疾病发生地图[11].噪音污染可根据行人的gps设备所录下的声音分析[12].研究人员利用推特中包含的信息来探测日本的地震。13].每个Twitter用户都被标记为一个传感器;传感器要么是正的(用户发布了与地震相关的信息),要么是负的(他们没有发布信息)。通过这些方法,作者能够以96%的概率探测到地震,并在日本气象厅之前通知当局[13].另一项研究旨在分析2009年法国马赛火灾期间推特的活动。研究人员发现,推文是准确和及时的,但并不是针对事件的所有阶段。他们认为,要充分利用这一领域的潜力,还需要做更多的工作。14].

最近开发了其他利用互联网的创新综合征监测方法[15-25].综合征监测在早期疾病检测中起着至关重要的作用。从最简单的形式来看,综合征监测旨在在诊断和报告疾病的传统监测方法之前发现表明可能爆发疾病的信号。信号通常是症状或症状替代品[26],例如药物处方[17].日本的研究人员发现,在5000多家药店购买处方药与官方哨点监测报告的流感活动之间存在高度相关性[17].信息监测是信息流行病学的一个组成部分,是对在线文本的监测。网上信息是疾病发生的信号或与疾病相关的公共利益的信号[2].这些方法可扩展用于调查公众对健康问题的理解,例如对给药说明的误解以及由此导致的抗生素滥用[25].

公共卫生相关的互联网数据的可用性激发了许多创新研究。一项研究评估了社交媒体在监测有意和无意的食源性疾病爆发方面的有用性[9].作者得出结论,社交媒体可以比传统方法更快地在识别食源性疾病集群方面发挥重要作用。许多食源性疾病患者不就医;然而,他们可能更有可能在网上报告症状,因为网上很容易和方便[9].尽管存在局限性,但作者得出结论,实时利用社交媒体平台上的大量数据的系统将有助于检测食源性疾病的爆发[9].

Twitter是社交媒体中疾病追踪的首选服务。一项著名的研究在2009年甲型H1N1流感大流行期间使用推文追踪美国公众的关注和流感活动[22].研究人员使用包含疾病传播、疾病对策、猪肉消费和疫苗相关关键词的推文来跟踪公众关注。在一些情况下,带有这些关键词的推文的百分比会随着新闻事件和官方疾病报告的变化而变化[22].关键字的第二个子集用于训练预测模型。该模型的估计值与疾病控制和预防中心(CDC)报告的区域流感样疾病(ILI)病例进行了比较,并显示出密切的相关性。这项研究的实时估计值可比传统监测方法提前1至2周确定[22].研究人员在2009年H1N1流感爆发期间使用Twitter评估公众的关注程度[19].该研究的一个组成部分使用了这200多万条推文来调查世界卫生组织(WHO)对H1N1的术语与猪流感的采用情况,猪流感是最初使用的术语。在研究期间,使用H1N1病毒的推文比例从8.8%上升到40.5% [19].作者总结说,Twitter是信息流行病学的一个有价值的工具,它可以帮助卫生专业人员意识到并解决公众的担忧。19].

目标

在这项研究中,我们旨在探索影响网络空间思想和信息的真实空间健康事件,进而确定这些网络空间信息在多大程度上影响现实世界。更具体地说,我们调查了2012-2013年流感季节(由ILI报告估计)和2012年华盛顿州百日咳爆发如何在网络空间中反映,通过关键字特定推文的产生来衡量。我们还研究了这些推文作为疾病发生或公共利益信号的程度,并调查了关键字选择和推文的特定子组与疾病发生的相关性,以及收集疾病发病率数据的规模(即城市与州级别)如何影响与在城市级别收集的推文的相关性。


数据收集

本文使用2012-2013年流感季节和2012年百日咳爆发作为案例研究,扩展了之前对创新的本体论网络(VISION)框架中的可视化信息空间的探索。VISION框架由我们的研究团队开发,以更好地理解空间、时间和信息之间的联系[27].开发了两种信息挖掘工具:一种用于收集网页信息,另一种用于收集推文。本文的重点专门放在推特上,假设推特活动比网页内容更能动态地反映疾病的扩散。Twitter提供了大量的公开数据来源。推特拥有超过1.4亿活跃用户,每天产生数百万条推文(140个字符或更少的消息)[28].在这项研究中,我们利用支持地理搜索的Twitter工具来挖掘这一资源,这些工具是为Twitter搜索和流媒体应用程序编程接口(api)而创建的。29].我们的工具与Twitter api结合使用,返回与关键字(在推文文本中、用户名或链接Web页面的标题中)关联并在指定地理范围内的推文的Microsoft Excel电子表格。每条tweet都提供了其他信息,比如用户名、创建时间和位置。位置是基于用户自称的家乡,或者是基于用户通过具有gps功能的设备发布推文的经纬度坐标。

在这项研究中,收集了以流感、流感、百日咳和百日咳为关键词的推文。虽然单词“flu”嵌套在单词influenza中,但我们的搜索工具将这些作为单独的搜索词处理。这些推文是从11个美国城市(波士顿,麻萨诸塞州;芝加哥,IL);克利夫兰,哦;丹佛,有限公司;德克萨斯州沃斯堡;佛罗里达州杰克逊维尔的;Nashville-Davidson TN;纽约州纽约; Portland, OR; San Diego, CA; and Seattle, WA). Cities were chosen based on their population and the availability of sufficient ILI data at the city or county level. A radius of 17 miles was specified to cover a large urban area while avoiding overlapping with nearby cities.图1显示每个感兴趣的城市的地理位置。对于流感和流感的关键词,推文收集从2012年8月31日开始,一直持续到2013年3月4日,共收集了161,821条流感推文和6174条流感推文。在分析期间,重点是CDC发病率死亡率周报(MMWR)第37至45周的推文,这取决于每个城市的ILI数据何时可用(2012年9月1日至11月4日)至MMWR第9周(2013年3月2日结束)。

得出的推文与城市或相应县级的每周ILI率进行了比较。这些报告是流感样症状(发烧≥100°F,咳嗽和/或喉咙痛,除流感外无其他已知原因)患者与本周所有患者就诊的百分比[30.].值得注意的是,ILI报告是可选的。疾控中心没有报告州一级以下的ILI数据;因此,ILI病例是从各个市或县卫生部门的网站上获得的,在圣地亚哥,是从圣地亚哥县卫生与公众服务部的联系人那里获得的[31].在少数情况下,某一周的ILI报告丢失了。在这种情况下,对前一周和后一周的ILI百分比进行平均。在连续两周都没有数据的情况下,前一周的ILI率被用于第一个缺失的周,而第二个缺失的周则来自下一周的ILI率。

推文收集从2012年6月3日开始,以百日咳和百日咳为关键词,到2012年12月1日结束,收集了160条百日咳推文和1167条百日咳推文。推特与华盛顿州的百日咳病例进行了比较。华盛顿州可能和确诊百日咳病例的流行率和发病率每周在华盛顿州卫生部网站[8].推文收集集中在距离华盛顿州疫情最近的11个城市中的2个:西雅图和波特兰。

图1。研究中使用了11个感兴趣的城市(以17英里为半径),其中推文包括关键词流感和流感(所有11个城市)以及百日咳和百日咳(主要是西雅图和波特兰)。
查看此图

分析

推特率(每个城市每10万人发布推特的数量)被确定。为了保持一致性,城市人口估计在市中心17英里半径内。推特率和疾病数据随后被表示为条形图,因此两者的波动可以很容易地进行直观比较。为了可视化目的,最大百日咳和百日咳推特率(在波特兰和西雅图)和最大疾病发病率被重新缩放,并设置为彼此相等。对于流感和流感,最大tweet率和ILI被重新调整,并在每个城市中彼此相等。

使用R版本2.15.1 (R统计计算基金会,奥地利维也纳)中的Pearson相关系数确定了每周聚合推文和疾病发病率之间的关联,11个城市的流感和波特兰和西雅图的百日咳。此外,推文被进一步细分,以确定与疾病病例最相关的推文类型。如前所述,tweet收集使用了4个关键词:flu, influenza, pertussis, and百日咳。这4个数据集中的每一个都被分为不转发、转发、没有URL网址的推文和有URL网址的推文。使用Fisher z变换评估不同推文组或关键词之间相关系数的显著性差异。比较了来自不同城市的用于每种疾病的2个关键字的推文之间的相关系数,以及前面列出的4个推文子组。


流感和流感推文

流感和每10万人流感推文率之间的相关系数显示在表1.只有当两个相关项各自显著时,才进行显著性检验。当比较来自所有推文组(第1列)的流感和流感推文时,这两个关键词在6个城市的相关性都很显著:丹佛、沃斯堡、杰克逊维尔、纳什维尔-戴维森、圣地亚哥和西雅图。其中4个城市(丹佛、杰克逊维尔、圣地亚哥和西雅图)的相关性存在显著差异。在所有推文中,与流感推文相比,这4个城市的流感相关性显著高于流感推文。

在将每个关键字的推文细分为未转发、转发、有URL网址的推文和没有URL网址的推文后,子组之间的相关性有所不同。的P来自非转发与转发比较的Fisher z变换值,以及有URL的推文与没有URL的推文之间的比较表1.对于流感关键字,6个城市(丹佛、沃斯堡、杰克逊维尔、纳什维尔-戴维森、圣地亚哥和西雅图)对不转发和转发组都有显著的相关系数。在所有6个城市中,未转发组的相关性显著更高(P<措施for each comparison). Differences between significant nonretweet and retweet correlations for the influenza keyword were not significant. For the flu keyword, significantly larger correlations (P<。在8个城市中的6个(波士顿、克利夫兰、丹佛、沃斯堡、纳什维尔-戴维森和西雅图)中,没有URL网址的推文与有URL网址的推文之间的相关性被比较显著。对于流感,5个城市(丹佛、沃斯堡、纳什维尔-戴维森、纽约和西雅图)对有URL地址的推文和没有URL地址的推文都有显著相关性,但这些比较都没有显示出相关性之间的显著差异。

用于推特和ILI比较的11个城市分布在美国大陆各地,以便调查地理差异。图2而且3.显示从MMWR第39周(2012年9月23日开始)到MMWR第9周(2013年3月2日结束)的每周推特率和ILI报告百分比,分别作为流感和流感关键词的柱状图。条形图在表格中按照相应城市的地理区域进行组织。第一列通常是西部州,第二列是东北部州,第三列是南部州。从MMWR第51周(从2012年12月16日开始)到MMWR第2周(从2013年1月6日开始),推特率和ILI报告百分比的每周变化可以看到图4

图2而且3.,其中显示了从所有推文中提取相应相关系数的总推文(未细分)。黑色条表示MMWR第52周期间丢失的推文。黑色条显示了实际收集的推文,但可能还有更多。为了更好的可视化,每个城市的最大ILI和tweet率被重新调整并设置为相等,但这限制了查看者比较城市之间频率值的能力。相反,我们建议关注每个城市ILI率和推文之间的总体趋势和相关性。

图2。从MMWR第37-45周(2012年9月1日至11月4日,取决于特定城市的ILI数据何时可用)到MMWR第9周(2013年3月2日),显示包含关键词流感(粉色)和流感样疾病(ILI)率(蓝色)的所有推文趋势的柱状图。黑色条表示推文丢失的一周。重要的相关性被加粗。
查看此图
图3。从MMWR第37-45周(2012年9月1日至11月4日,取决于特定城市的ILI数据何时可用)到MMWR第9周(2013年3月2日),显示包含关键词流感(粉色)和流感样疾病(ILI)率的所有推文趋势的条形图。黑色条表示推文丢失的一周。显著相关性以粗体显示。
查看此图
图4。从MMWR第51周(2012年12月16日至12月22日)到MMWR第2周(2013年1月6日至1月12日),在收集推文的11个城市绘制了流感样疾病(ILI)发病率的周变化以及每10万人中包含关键词流感的推文率。圆圈越大,利率越高。
查看此图
表1。每个城市的流感和流感关键字的推文(和推文子组)与流感样疾病(ILI)报告之间的相关系数。
城市 所有微博
r
Nonretweet
r
转发
r
P价值一个 带有URL的推文
r
没有URL的推文
r
P价值b 总微博
n
流感








波士顿 .57 .57 的相关性 <措施 .60 <措施 19933年

芝加哥 29 。31 .19 <措施 .14点 .40 <措施 26924年

克利夫兰 无误 .30 <措施 .40 .46 04 7434

丹佛 c i = 53 <措施 .62 i = <措施 8964

沃斯堡 综合成绩 综合成绩 <措施 主板市场 .77点 <措施 4820

杰克逊维尔 c <措施 06 3647

Nashville-Davidson 53 .35点 <措施 .37点 <措施 8755

纽约 23) 23) <措施 29 <措施 55455年

波特兰 .33 .33 <措施 .37点 <措施 1074

圣地亚哥 c 2 55 <措施 .68点 07 10586年

西雅图 综合成绩c .77点 <措施 综合成绩 . 01 14229年
流感








波士顿 36 .41点 .10 .46 07 998

芝加哥 。31 .30 低位 .41点 02 902

克利夫兰 29 。31 二十五分 .59 .35点 06 措施 288

丹佛 55c .60 .60 低位 207

沃斯堡 主板市场 。08 的相关性 .85 61

杰克逊维尔 。45c 。45 低位 53 陈霞 低位 61

Nashville-Davidson 53 53 29 .35点 的相关性 总收入 148

纽约 主板市场 算下来 07 2480

波特兰 陈霞 。31 。08 .35点 .09点 .59 措施 152

圣地亚哥 56c 算下来 的相关性 .30 算下来 。31 . 01 363

西雅图 .59c <措施 55 .19 514

一个通过Fisher z变换比较非转发和转发的相关系数。

b通过Fisher z变换来确定有URL的推文与没有URL网址的推文相关系数之间的显著差异。

c所有推文的流感和流感相关系数之间存在显著差异,当两种相关性进行比较时都是显著的。

百日咳和百日咳推特

每周的百日咳和百日咳推文也导致了不同程度的相关性在城市内,并通过关键词和推文子组(列在表2).在华盛顿州,推文与百日咳发病率之间的显著相关性仅在使用百日咳关键字收集的推文中发现。这可能是因为“百日咳”这个关键词的推文数量相对较少。与百日咳关键词推文相比,百日咳关键词与百日咳发病率的相关性似乎更高,这可能反映了推文语言的口语化性质。进一步的解释只关注百日咳推文的结果。与流感分析类似,当测试2个个体显著相关性之间的显著差异时,使用Fisher z变换。在所有推文组中,来自波特兰的推文与疾病发病率的相关性明显高于来自西雅图的推文(P<措施)。

推文被分为不转发的推文、转发的推文、有URL网址的推文和没有URL网址的推文,但这些组之间的趋势不像流感分析那样明显。在波特兰,非转发和转发的相关性都很显著。虽然不转发似乎与疾病发病率高度相关,但差异并不显著(P=点)。另一方面,在西雅图的推文中,有URL地址的推文和没有URL地址的推文都具有显著的相关性。在这种情况下,没有URL网址的推文与华盛顿州百日咳发病率的相关性明显高于有URL网址的推文(P= . 01)。

图5将所有百日咳和百日咳推文与MMWR第23至48周(2012年6月3日至12月1日结束)的百日咳发病率进行了对比。所有推文组与疾病发病率之间的显著相关性以粗体显示。最高的推特率和最大的每周发病率被重新缩放,并设置为彼此相等,以便更好地可视化。这张图说明了这两个城市在推特率上的差异。与百日咳推文(下一行)相比,百日咳推文(上一行)相对较少。回顾一下表2很明显,来自波特兰的推文与华盛顿州百日咳发病率的相关性高于来自西雅图的推文。

表2。华盛顿州、西雅图和波特兰的tweets(和tweets子组)与百日咳发病率之间的相关系数为百日咳和百日咳关键词。
城市 所有微博
r
Nonretweets
r
转发
r
P价值一个 带有URL的推文
r
没有URL的推文
r
P价值b 总微博
n
百日咳








波特兰 . 21 .90 低位 13。 i = 42

西雅图 陈霞 . 21 。31 主板市场 二十五分 酒精含量 算下来 118
百日咳








波特兰 c 56 53 38 陈霞 322

西雅图 无误c 票价 .37点 .41点 无误 . 01 845

一个通过Fisher z变换比较非转发和转发的相关系数。

b通过Fisher z变换来确定有URL的推文与没有URL网址的推文相关系数之间的显著差异。

c西雅图和波特兰的相关系数对所有推文都有显著差异。

图5。从MMWR第23-48周(2013年6月3日至2013年12月1日)开始,所有包含关键词百日咳和百日咳(粉色)以及华盛顿州波特兰和西雅图百日咳发病率(绿色)的推文趋势柱状图。重要的相关性被加粗。
查看此图

主要研究结果

这项研究表明,推特可以作为疾病活动和公共利益的信号。在本文中,我们概述了不同推文组在时间上跟踪社区中测量的流感和百日咳发病率的能力差异。推文和当地疾病活动之间的相关性是可变的,但在某些地区和推文的特定子组中相对较强,比如没有转发的推文和没有URL网址的推文。另一项重要发现是使用当地术语来称呼疾病的好处,比如百日咳,而不是百日咳。

2012-2013年流感季节在时间和空间上的传播是独特的。2012-2013年流感季的高峰期比近十年来都要早[32],病例最初出现在东海岸。指的是表1这里的图表图2而且3.与东北城市相比,西部城市的相关性更强。由于推文的数量更多,相关性更显著,我们的解释将重点放在图2.在大多数情况下,tweet率和ILI率在前三分之二的时间段内都很低,然后在后三分之一达到峰值,然后下降。在推文与ILI率存在显著相关性的9个城市中,有5个城市的推文率在ILI率达到峰值之前达到峰值。这表明推文有可能在传统的ILI报告方法之前作为流感爆发的信号。然而,这只在5个城市表现明显;另外4个ILI峰值出现在tweet之前或同时。在传统方法之前,需要进一步调查以确定哪些关键字或推文子组的组合可以预示即将到来的爆发。

与转发和有URL网址的推文相比,未转发和没有URL网址的推文与ILI活动的相关性更高。有URL地址的转发和推文不太可能是关于个人的推文,而可能是用于分享他人创建的信息。没有转发的推文和没有URL网址的推文可能比对应的推文与流感活动的相关性更好,因为用户是在发关于自己的推文,可能表明他们得了流感。当Twitter用户表示他们感染了流感时,我们无法知道这是在医疗服务提供者的诊断之后,还是更有可能是用户自己对症状的解释。

另一方面,华盛顿州的百日咳疫情为分析该疾病发病率达到高峰后网络空间与现实空间之间的相互作用提供了一个独特的机会。一般来说,推文与百日咳发病率之间的相关系数低于推文和ILI发病率之间的相关系数,但这可能是因为推文较少和疾病的性质。图5这表明与百日咳相比,百日咳的推特频率是多么低。我们假设西雅图的推文与华盛顿的百日咳发病率有更好的相关性,因为西雅图在华盛顿州,但事实并非如此。事实上,在华盛顿州以外(波特兰市),5种推文类别中有4种的相关性更高(除了没有URL网址的推文)。

由于推文数量较多且结果显著,我们的解读将集中在百日咳这个关键词上。与流感分析一样,没有URL网址的推文与百日咳发病率的相关性比有URL网址的推文更强,但这仅在西雅图显著。与转发相比,未转发之间的相关性仍然更高,尽管这在两个城市都不显著。

回顾一下图5,可见百日咳发病率在25周内开始高,然后慢慢下降。总的来说,百日咳推文在第29周之前有所增加,然后在其余时间内有所下降。第29周推文的高峰可能是由于媒体报道了CDC关于华盛顿州百日咳流行的新闻稿[33].事实上,那一周的许多推文都提到了新闻稿,并附有一个URL网址。在这项分析中,媒体在推特制作中发挥的作用似乎比在流感分析中更大。至少,这些发现表明,健康传播活动可以以可衡量的方式渗透到社交媒体中。由于推文收集是在新的百日咳病例数量达到高峰后开始的,我们无法得出推文是否预示着潜在的百日咳爆发的结论。然而,以波特兰为例,由于推特和百日咳之间的相关性,在这一领域的进一步探索可能被证明是值得的。

流感和百日咳趋势之间的差异可能是由几个因素造成的。首先,这两种疾病的测量方法不同。百日咳是一种强制报告的疾病,这意味着华盛顿州的百日咳发病率是基于真实的诊断病例。另一方面,流感病例是通过代理来测量的。ILI诊断只能估计可能的流感病例,但也可能是其他呼吸道疾病的一个指标。与百日咳相关的推文少于与流感相关的推文。这可能反映了现实世界中这些疾病的流行情况。每年都有许多人感染流感,而感染百日咳的人相对较少。流感的普遍性和百日咳的罕见性使爆发成为媒体感兴趣的话题。

感染的年龄范围也可能在流感和百日咳与推特相关性之间的不同趋势中发挥作用。所有年龄段的人都会感染流感,包括大量的成年人。然而,百日咳在婴幼儿中更为常见和严重。这些年轻人群可能不太可能或无法在推特上谈论自己的病情。此外,CDC的新闻稿导致推文大量增加,其中许多都包含链接到该主题文章的URL网址。

此外,我们还能够调查在城市一级收集的推文与城市或州一级的疾病之间的相关性。如前所述,关于为什么流感分析比百日咳分析显示出与疾病发生更好的相关性,我们有几个猜想,但同样重要的是要强调,推特是在城市一级收集的,并与城市ILI率或州级百日咳发病率进行比较。我们选择把重点放在城市一级,是因为当地迅速作出反应对防止疾病蔓延至关重要。通常,由于在较小规模上报告有局限性,ILI比率被汇总到较大的区域。然而,2009年H1N1流感季节的一项研究报告称,作为大学医疗保健系统一部分的8个哨点的ILI率与州和地区的ILI率具有良好的相关性,并且可以更早地获得[34].

相关系数的差异也可能是由西雅图和波特兰的推文引起的,这可能并不能代表华盛顿州的百日咳活动。作为对比和对照的基础,如果收集华盛顿州更多城市的推文,或者获得西雅图和波特兰城市一级的百日咳发病率,将是有益的。这也可以解释为什么波特兰的推文比西雅图的推文与百日咳发病率的相关性更高。进一步探索疾病暴发的地理分布是今后研究的重要方向。

流感和百日咳分析之间的一些相似之处也很明显。对于这两种情况,不转发与转发之间的相关性更高。对于流感的这种趋势,已经给出了一个假设,但对于百日咳,目前还没有一个解释。流感和百日咳的研究都表明,为收集推文选择的关键词在相关系数中起着至关重要的作用。不出所料,百日咳的推文比百日咳的推文多,这可能是因为百日咳是一个口语术语,而百日咳主要是由卫生专业人员使用的。流感和流感推文之间也出现了类似的趋势;这两个词都被公众互换使用,但流感可能是推特用户更喜欢的术语,因为每条推文都有字符限制。

限制

本研究在tweet收集和疾病报告方面都有局限性。服务器问题中断了VISION信息挖掘工具,导致在MMWR第52周(在中由黑条表示的周)期间遗漏了流感和流感推文图2而且3.).我们怀疑,如果一些推文没有丢失,推文和ILI率之间的相关性会略有不同,可能会更高。另一方面,ILI报告是可选的,提供ILI比率的卫生保健提供者因城市而异。例如,在一些城市,ILI是由急诊科报告的,而在其他城市,ILI是由初级保健医生报告的。这两个来源可能有不同的ILI率,但随着时间的推移,两者的总体趋势可能是相似的。对于百日咳和百日咳这两个关键词,直到华盛顿州的百日咳新病例数量达到峰值,twitter才开始收集。显然,在这种情况下,这使得不可能评估twitter是否能在传统方法之前检测到病毒爆发。然而,以波特兰为例,疫情爆发后观察到中度到强相关性,表明百日咳推特和百日咳之间存在关联。需要进一步探索以确定这一趋势是否会在百日咳新病例达到高峰之前出现。

由于这项工作的探索性,本研究中使用的关键词数量相当有限。额外的关键词可能会极大地影响推文和疾病发生之间的相关性。这些额外的关键字可能包括其他语言的关键字,特别是在非英语或多语使用者众多的城市中。另一个限制是推文可能根据位置错误分类。此前的一项研究表明,2011年10月和11月的两周内,全球范围内收集的2380万条推文中,只有约2.02%的推文带有GPS定位。35].对于那些没有GPS定位的推文,我们依赖于用户自称的家乡;然而,家乡的含义是不同的。同一项研究通过比较同时包含GPS位置和用户提供位置的推文,调查了美国用户提供数据的准确性。两者都确定了状态,发现大约88%的时间是匹配的[35].虽然这项研究关注的是城市层面的推文,但之前的工作表明,自称的家乡可能是可靠的。此外,在流感季节和百日咳流行期间收集了推文;然而,收集全年的推文可能是有益的,可以更好地确定推文在多大程度上检测到最初的爆发。

结论

由于网络空间的性质不断变化,特别是社交媒体,使用互联网数据进行信息流行病学和信息监测研究带来了许多挑战。信息的含义随着时间和空间的变化而变化,为研究人员留下了一个复杂的系统。然而,这项研究的探索性结果表明,网络空间的推文与现实世界的疾病发生事件之间存在很强的关联。

在未来的工作中,我们的目标是进一步调查实际的推文内容及其与城市、州和国家层面的疾病发病率的关系。此外,需要注意媒体对人口推特率的影响;例如,推特用户可能会被激发对特定新闻故事做出反应。进一步的调查可能会表明哪些类型的推文或这些推文中的特定单词与疾病活动最相关,并应用于实时检测疾病的爆发。研究表明,尽管信息监测方法仍然相对较新,但其在发现疫情方面的影响正变得越来越明显。发达的信息监测方法可以比传统方法早几周发现疾病扩散,而且成本低得多,使卫生服务部门能够更好地防范和预防疾病。需要在这一领域继续努力,以发挥信息流行病学改善公众健康的潜力,特别是在综合征监测中的应用。

致谢

本材料基于美国国家科学基金会资助的项目CDI-Type II:将网络空间映射到现实空间:思想和语义网全球扩散的时空动态可视化和理解。本材料中表达的任何观点、发现、结论或建议都是作者的观点,并不一定反映美国国家科学基金会的观点。

利益冲突

没有宣布。

  1. Kaplan AM, Haenlein M.全世界的用户,团结起来!社交媒体的挑战和机遇。上海交通大学学报(自然科学版),2010;[CrossRef
  2. 信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架,用于分析互联网上的搜索、传播和发布行为。中国医学杂志,2009;11(1):e11 [免费全文] [CrossRef] [Medline
  3. Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.利用搜索引擎查询数据检测流感流行。自然杂志2009年2月19日;457(7232):1012-1014。[CrossRef] [Medline
  4. 布朗斯坦JS,弗雷菲尔德CC,麦道夫LC。数字化疾病检测——利用网络进行公共卫生监测。N Engl J Med 2009 5月21日;360(21):2153- 5,2157 [免费全文] [CrossRef] [Medline
  5. 疾病控制和预防中心。季节性流感(流感)。2009年7月1日。流感的临床体征和症状网址:http://www.cdc.gov/flu/professionals/acip/clinical.htm[访问2012-08-22][WebCite缓存
  6. Molinari NA, Ortega-Sanchez IR, Messonnier ML, Thompson WW, Wortley PM, Weintraub E,等。季节性流感在美国的年度影响:测量疾病负担和成本。疫苗2007年6月28日;25(27):5086-5096。[CrossRef] [Medline
  7. 疾病控制和预防中心。百日咳。2012年6月20日。婴幼儿网址:http://www.cdc.gov/pertussis/about/complications.html[访问2013-01-01][WebCite缓存
  8. 华盛顿州卫生部华盛顿州百日咳每周更新网址:http://www.doh.wa.gov/Portals/1/Documents/Pubs/384-254-PertussisUpdate.pdf[访问过2013-01-02][WebCite缓存
  9. 疾病控制和预防中心,2004年9月24日。什么是综合征监测?URL:http://www.cdc.gov/mmwr/preview/mmwrhtml/su5301a3.htm[访问2009-03-28][WebCite缓存
  10. 爱干净的街道。URL:http://www.lovecleanstreets.org/Reports/Home[访问2012-12-12][WebCite缓存
  11. “健康地图”。URL:http://healthmap.org/en/[访问2012-12-12][WebCite缓存
  12. Kanjo E. NoiseSPY:城市噪音监测和测绘的实时手机平台。移动网络应用2009 11月20日;15(4):562-574。[CrossRef
  13. Sakaki T, Okazaki M, Mastsuo Y.地震震动推特用户:社交传感器实时事件检测。2010年发表于:国际万维网会议委员会;2010年4月26日至30日;罗利,北卡罗来纳州,978-988页。
  14. 王永明,王永明,王永明。“天哪,从这里,我能看到火焰!”:挖掘基于位置的社会网络以获取森林火灾时空数据的用例。2009年基于位置的社交网络国际研讨会论文集,发表于:基于位置的社交网络国际研讨会;2009年11月4日至6日;西雅图,华盛顿州,73-80页。
  15. Arranz Izquierdo J, Leiva Rus A, Carandell Jäger E, Pujol Buades A, Méndez Castell MC, Salvà Fiol A,等[初级保健中流感样疾病的综合征监测:对流感发病率增加时期哨点监测网络的补充]。Aten Primaria 2012 May;44(5):258-264。[CrossRef] [Medline
  16. 从Twitter消息估计流感发病率和酒精销售量的轻量级方法。Lang Resources & Evaluation 2012 5月13日;47(1):217-238。[CrossRef
  17. 大usa Y, Sugawara T, Taniguchi K, Okabe N.日本甲型H1N1流感大流行的实时估计和预测(2009)。中国感染化学杂志2011年8月;17(4):468-472。[CrossRef] [Medline
  18. Achrekar H, Gandhe A, Lazarus R, Yu S, Liu B.利用Twitter数据预测流感趋势。2011年发表于:第一届网络系统国际研讨会;2011年4月10-15日;上海。
  19. Chew C, Eysenbach G.推特时代的流行病:2009年H1N1爆发期间推特的内容分析。PLoS One 2010;5(11):e14118 [免费全文] [CrossRef] [Medline
  20. 丘纳拉R,安德鲁斯JR,布朗斯坦JS。社会媒体和新闻媒体能够在2010年海地霍乱爆发早期估计流行病学模式。中国热带医学杂志2012年1月;86(1):39-45 [免费全文] [CrossRef] [Medline
  21. 海维林,李志强,李志强。通过推特对牙痛进行公共卫生监测。J Dent Res 2011 9月;90(9):1047-1051 [免费全文] [CrossRef] [Medline
  22. A先生,Segre上午,Polgreen下午。在甲型H1N1流感大流行期间,美国使用Twitter追踪疾病活动水平和公众关注。PLoS One 2011;6(5):e19467 [免费全文] [CrossRef] [Medline
  23. Sofean M, Smith M.使用社交网络的实时疾病监测体系结构。种马健康技术通报2012;180:823-827。[Medline
  24. 纽柯克RW,本德JB,赫德伯格CW。社交媒体作为食品安全和食品恐怖主义监测系统组成部分的潜在能力。食源性病原体2012 Feb;9(2):120-124。[CrossRef] [Medline
  25. 斯坎菲尔德D,斯坎菲尔德V,拉森EL。通过社交网络传播健康信息:推特和抗生素。中国感染控制杂志2010年4月;38(3):182-188 [免费全文] [CrossRef] [Medline
  26. 疾病控制和预防中心。2004年9月24日网址:http://www.cdc.gov/mmwr/preview/mmwrhtml/su5301a3.htm[访问2009-03-28][WebCite缓存
  27. 祖MH,杨佳,Lusher D,韩s, Spitzberg B, Gawron JM,等。用社交媒体(Twitter)和网络搜索引擎(雅虎和必应)描绘社会活动和概念:2012年美国总统大选的案例研究。2012年参加AutoCarto自动制图国际研讨会;2012年9月16-18日;哥伦布,OH页16-18。
  28. Twitter博客。2012年3月21日。Twitter 6岁http://blog.twitter.com/2012/03/twitter-turns-six.html[访问2012-08-01][WebCite缓存
  29. Twitter开发者,2012。使用Twitter搜索API URL:https://dev.twitter.com/docs/using-search[访问2012-12-12][WebCite缓存
  30. 疾病控制和预防中心。流感(流感):美国流感监测概述。2012年10月05日。URL:http://www.cdc.gov/flu/pdf/weekly/overview.pdf[访问2012-12-12][WebCite缓存
  31. SDSU制图理念,2012。2012-2013 Weekly ILI网址:http://mappingideas.sdsu.edu/2012-2013-weekly-ILI/[访问2013-05-07][WebCite缓存
  32. 疾病控制和预防中心。2012年12月3日。美国流感活动及本季节疫苗接种率简报网址:http://www.cdc.gov/media/releases/2012/t1203_influenza_activity.html[访问时间:2013-03-26][WebCite缓存
  33. 疾病控制和预防中心。2012年7月19日华盛顿州百日咳流行- 2012网址:http://www.cdc.gov/media/releases/2012/t0719_pertussis_epidemic.html[访问2013-04-15][WebCite缓存
  34. Baker AW, Enfield K, Mehring B, Turner JC, Sifri CD. 2009年H1N1流感大流行期间大学卫生系统的本地流感样疾病监测。中华流行病学杂志,2012年9月30日(7):457 - 457。[CrossRef] [Medline
  35. Burton SH, Tanner KW, girau - carrier CG, West JH, Barnes MD。“正确的时间,正确的地点”推特健康传播:位置信息的价值和准确性。中国医学杂志,2012;14(6):e156 [免费全文] [CrossRef] [Medline


API:应用程序编程接口
疾病预防控制中心:疾病控制和预防中心
地理信息系统:地理信息系统
全球定位系统(GPS):全球定位系统
伊犁:流感样疾病
MMWR:发病率及死亡率周报
愿景:本体网络中信息空间的可视化
人:世界卫生组织


G·艾森巴赫(G Eysenbach)编辑;提交15.05.13;作者:F Chen, O Leal Neto, T Hernández;对作者11.06.13的评论;订正版本收到06.08.13;接受16.09.13;发表26.10.13

版权

©Anna C Nagel, zou Ming-Hsiang, Brian H Spitzberg, Li An, J Mark Gawron, Dipak K Gupta, Yang Jiue-An, Su Han, K Michael Peddecord, Suzanne Lindsay, Mark H Sawyer。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2013年10月26日。

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map