JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析JMIR出版公司 加拿大多伦多 v16i11e250 25406040 10.2196 / jmir.3532 原始论文 原始论文 推文可靠性作为季节性流感监测的补充方法 Eysenbach 冈瑟 国峰 Mekaru Sumiko 周润发 埃德温 Aslam Anoshe一 英里每小时 1 http://orcid.org/0000-0003-0248-3192 祖文萃 Ming-Hsiang 博士学位 2
地理系 圣地亚哥州立大学 风暴大厅313C 坎铂路5500号 加州圣地亚哥,92115 美国 1 619 594 0205 1 619 594 4938 mtsou@mail.sdsu.edu
http://orcid.org/0000-0003-3421-486X
Spitzberg 布莱恩·H 博士学位 3. http://orcid.org/0000-0003-3838-6052 一个 博士学位 2 http://orcid.org/0000-0002-7933-5174 Gawron J标志 博士学位 4 http://orcid.org/0000-0003-2744-937X 古普塔 迪帕克K 博士学位 5 http://orcid.org/0000-0002-2540-5069 Peddecord K迈克尔 博士学位 1 http://orcid.org/0000-0003-4107-8050 内格尔 安娜C 英里每小时 1 http://orcid.org/0000-0003-1929-8006 艾伦 克里斯多夫 2 http://orcid.org/0000-0002-3336-2601 Jiue-An 2 http://orcid.org/0000-0003-4246-0470 林赛 苏珊 博士学位 1 http://orcid.org/0000-0002-4983-0748
1 公共卫生研究生院 圣地亚哥州立大学 圣地亚哥,加利福尼亚州 美国 2 地理系 圣地亚哥州立大学 圣地亚哥,加利福尼亚州 美国 3. 传播学院 圣地亚哥州立大学 圣地亚哥,加利福尼亚州 美国 4 语言学系 圣地亚哥州立大学 圣地亚哥,加利福尼亚州 美国 5 政治科学系 圣地亚哥州立大学 圣地亚哥,加利福尼亚州 美国 通讯作者:Ming-Hsiang Tsou mtsou@mail.sdsu.edu 11 2014 14 11 2014 16 11 e250 13 05 2014 17 07 2014 21 08 2014 22 09 2014 ©Anoshé A Aslam, zou Ming-Hsiang, Brian H Spitzberg, Li An, J Mark Gawron, Dipak K Gupta, K Michael Peddecord, Anna C Nagel, Christopher Allen, Yang Jiue-An, Suzanne Lindsay。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2014年11月14日。 2014

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

美国现有的流感监测主要集中在从哨点医生和医院收集数据;但是,编写和分发报告的工作通常要推迟两个星期。随着社交媒体的日益普及,互联网由于可获得大量数据而成为综合征监测的来源。在这项研究中,从Twitter网站上收集了140个字符或更少的推文,并分析了它们作为季节性流感监测的潜力。

客观的

有三个目的:(1)通过过滤和机器学习分类器提高推文与各城市哨点提供的流感样疾病(ILI)率的相关性,(2)观察推文与各城市急诊部门ILI率的相关性,以及(3)探索推文与圣地亚哥实验室确认的流感病例的相关性。

方法

包含关键词“流感”的推文被收集在17英里半径内的11个美国城市,这些城市被选择为人口和ILI数据的可用性。在收集期结束时,使用159,802条推文与哨兵提供的ILI和相应市或县卫生部门报告的急诊ILI率进行相关性分析。研究人员使用了两种不同的方法来观察推文和ILI率之间的相关性:按类型过滤推文(非转发、转发、有URL的推文、没有URL的推文),以及使用机器学习分类器来确定推文是“有效的”,还是来自可能患了流感的用户。

结果

相关性因城市而异,但观察到总体趋势。没有转发和没有URL的推文具有更高和更显著的( P<.05)的相关性高于转发和带有URL的推文。在大多数城市,推文与急诊科ILI率的相关性高于哨兵提供的ILI率的相关性。当使用哨岗提供的或急诊部门的ILI以及圣地亚哥实验室确认的流感病例数量时,机器学习分类器对许多城市产生了最高的相关性。高相关值(r=.93),在 P<措施were observed for laboratory-confirmed influenza cases for most categories and tweets determined to be valid by the classifier.

结论

与之前流感季节的推文分析相比,这项研究表明,使用推特作为流感的补充监测工具的准确性有所提高,因为更好的过滤和分类方法对2013-2014年流感季节的推文产生了更高的相关性,与之前流感季节的推文相比,急诊科的ILI率与推文的相关性更好。该领域的进一步调查将需要扩大收集推文的地点,以及更多ILI数据的可用性。

推特 微博 infoveillance infodemiology 症状监测 流感 互联网
简介 概述

由疾病控制和预防中心(CDC)建立的监测系统,以及通过国家监测,有可能降低疾病引起的发病率和死亡率,并改善健康状况;然而,它们的效用尚未得到证实[ 1].传统上,对疾病发病率和流行率的监测是持续和系统的,通常依靠临床医生、化验室或急诊科报告的实验室确诊病例。在报告病例和将数据汇编成监测报告之间,往往存在1至2周的时间延迟,这影响了卫生部门对可能暴发的疫情的反应。

在过去十年中,互联网作为公共卫生信息来源的潜力并没有被忽视。据推测,日常使用非正式电子信息(通常是用户生成的)可以减少识别疫情所需的时间,防止政府压制疫情信息,并促进公共卫生干预[ 2].随着社交媒体网站越来越受欢迎,人们公开分享他们日常生活的许多方面,依赖于使用实时数据以对潜在疫情提供快速分析和反馈的综合征监测系统现在有了新的数据来源[ 3.].信息流行病学是一个新兴领域,在基于互联网的场所上,用户生成的数据使挖掘、汇总和分析文本成为可能,从而为公共卫生从业人员和公共政策提供信息,这是一个应用于疾病爆发检测的新兴领域[ 4].信息监视,从信息流行病学收集的信息被用作一种监视方法[ 4],可用于加强综合征监测,并可应用于流感活动。

在疫苗可预防的疾病中,季节性流感对美国成年人的影响最大[ 5].虽然流感病毒的症状与普通感冒相似,但感染流感病毒可导致不同程度的严重症状,易感人士可因此死亡[ 6].根据2007年的一项研究,每年成人流感造成的国家经济负担可达833亿美元[ 7].虽然流感病毒的性质不断变化,每年都有新的流感季节来源,但用传统的监测方法几乎不可能预测感染的发病情况和受影响的人数。通过实施一种补充监测工具,重点关注从社交媒体收集的实时趋势,并快速发布这些数据,公共卫生机构可能会做好更好的准备,并能够遏制社区中可能使人衰弱的疫情。

相关工作

最近的疾病监测网站是Web应用程序的混合体,能够挖掘、分类、过滤和可视化流行病信息,同时实时使用地理信息系统(GIS),从而最大限度地减少延迟并不断更新[ 8- 14].由波士顿儿童医院组织的HealthMap每天有1000至15万用户,以多种语言提供与世界各地所有类型疫情相关的公共卫生报告的实时更新[ 2].互联网上的社交媒体也比传统方法更快地发现食源性疾病的爆发,因为许多受影响的人选择不就医,而是在网上公布他们的症状[ 15].谷歌流感趋势收集了谷歌中与流感症状、治疗方法和并发症相关的5000万个最常见的搜索查询,并将其与疾病预防控制中心报告的全国流感样疾病(ILI)率进行比较[ 16].使用互联网的好处是多方面的,因为这些互联网工具可以帮助公共卫生官员强调疫苗接种和预防措施的重要性,或指导医生做出医疗决策[ 2].然而,信号缺乏特异性、数据嘈杂、虚假报告以及药品召回或流行感冒或流感药物等不寻常事件会导致工具使用不相关的数据,从而导致分析过程中的不准确[ 2].

微博网站Twitter在预测票房收入、地震报道、表情包追踪、大规模火灾突发事件、服务宕机、实时流量更新、国家情绪、货币交易等方面已经显示出了自己的价值。 17],甚至选举结果[ 18].Twitter上的实时更新在许多领域都很有用——无论是增加知识,预测消费者趋势,还是确定用户在讨论什么。例如,密歇根大学的研究人员能够使用推特作为一种工具,通过收集推特,并根据患病率、生活方式影响、语言和自我报告偏头痛的时间线对其进行分类,发现该研究避免了记忆偏差和实验诱导的错误,并突出了偏头痛口语化,因为它们与偏头痛患者使用的现代特征和描述有关[ 19].

已经进行了多项研究来寻找推文和ILI数据之间的相关性,但搜索范围往往非常广泛。一项研究分析了8个月期间的5亿多条推文,发现跟踪少量与流感相关的关键词和关键词组合可以预测未来发病率,相关性为95% [ 20.].Signorini等人还发现,Twitter可以被描述性地使用,作为确定用户对流感的兴趣和关注的一种方式,并可以捕捉实时的疾病活动[ 21].在甲型H1N1流感大流行期间,英国在24周内收集了数十万条推文,以搜索与症状相关的陈述[ 22].事实证明,这种方法既便宜又及时,因为它利用了仅在几个小时内创建的数据流,而传统监测需要1至2周才能发布报告;然而,如果目标是使用Twitter作为流感预测工具,就有必要将媒体炒作和讨论与实际流感病例的报道分开。 22].Chew和Eysenbach在对2009年H1N1流感爆发期间的推文进行内容分析后得出了类似的结论,他们发现超过90%的推文链接到主流和地方新闻网站,但链接到更基于观点或经验的网站(博客、社交网络、网页)的比例也随着收集时间的推移而增加[ 23].

目标

这项研究建立在圣地亚哥州立大学地理系先前进行的探索性研究的基础上,该研究表明,社交媒体信息和搜索的内容与2012-2013年美国流感季节的实际流感监测报告相关[ 24].本研究的目的有三个。第一个目标是通过使用机器学习分类器和基于关键字的搜索技术来过滤推文,使其更加“有效”,从而研究提高Twitter社交媒体内容与传统哨点ILI监测报告之间相关性的能力。其次,我们试图将社交媒体内容中提及流感的内容与急诊科的ILI记录进行比较,第三,进行一项小型试点研究,将与流感相关的推文与加州圣地亚哥实验室确认的流感病例进行比较。与之前使用Twitter和流感监测的研究不同,我们的研究的独特之处在于,我们将特定城市的ILI率与来自该城市的包含“流感”一词的推文进行了比较,从而关注特定城市的相关性。通过将一个城市的推文与该城市特定的ILI率进行比较,我们能够在比以往研究小得多的范围内查看流感的传播趋势。

方法 数据收集

使用Tsou等人创建的地理定位社交媒体搜索工具[ 18],信息挖掘可与Twitter搜索应用程序编程接口(API)一起进行。Twitter拥有超过2亿活跃用户,是一个以数百万条推文形式公开可用数据的巨大资源。通过首先指定一个关键字,研究小组的框架结合Twitter API生成一个Microsoft Excel电子表格,其中包含来自特定地理位置(由用户的全球定位系统坐标决定,如果启用,则由列出的家乡决定)的推文,并通过推文文本或用户名与关键字关联。电子表格还包括其他数据,包括创建推文的时间、发推文的位置、如果是对话的一部分,则推文指向谁、关注者的数量、关注发推文的用户的人数,以及该用户的推文总数。这项研究感兴趣的是推文的文本和发布推文的地理位置。

根据我们之前的研究,没有转发的推文和没有包含关键词“流感”的推文,与“流感”等其他词语相比,与哨发流感监测的相关性要高得多[ 24],包含关键词“流感”的推文从2013年8月25日开始,到2014年3月1日结束,每7天收集和汇总一次。推文收集自11个不同城市(波士顿、芝加哥、克利夫兰、哥伦布、丹佛、底特律、沃斯堡、纳什维尔-戴维森、纽约、圣地亚哥和西雅图)中心17英里半径内的用户。推文的收集半径为17英里,因为这是两个相邻城市之间的最小距离,因此确保了推文在原始城市没有重叠。选择这些城市是因为它们有来自市或县卫生部门的哨点流感样疾病(ILI)监测数据。流感样疾病的定义是发烧等于或大于100华氏度,咳嗽和/或喉咙痛,除流感病毒外没有其他已知原因。ILI是指一周内出现ILI症状的患者与所有就诊患者的比例[ 25].由于疾病预防控制中心不报告州一级以下的ILI数据,ILI报告是在县或市一级卫生部门的网站上找到的,圣地亚哥是通过圣地亚哥县卫生与公众服务部的联系人找到的。在五个城市(波士顿、芝加哥、克利夫兰、哥伦布和圣地亚哥)的子集中,收集了哨点ILI和急诊科ILI。

在收集期结束时,有159,802条推文包含“流感”一词,并用于过滤和分析。根据不同城市的ILI数据,重点是2013年第40周至2014年第9周(2013年9月29日开始的一周至2014年3月1日结束的一周)的推文,由CDC的发病率死亡率周报(MMWR)确定。计算每周产生推文数与相应市县部门报告的每周哨点ILI或急诊部门ILI之间的相关性和相关值的显著性。

分析

针对每个城市包含“流感”的推文,在R (R统计计算基金会,维也纳,奥地利,版本3.0.0)中计算了特定周推文量与流感样疾病发病率之间的Pearson相关系数。推文也被细分为不转发、转发、没有URL的推文和有URL的推文。这些分类并不相互排斥,例如,非转发的推文可以包含有URL的推文,也可以包含没有URL的推文。这样做是为了确定基于推文类型的相关性是否更高。皮尔逊相关系数是一种简单的方法,可以将推文组与ILI进行比较,并且可以很容易地识别出未来对信息监视最有用的推文。研究人员还计算了每个城市每周的推特率,即每10万人发推文的数量。为了确定每个收集推文的城市的人口,确定了中心位于市中心17英里半径内的人口普查区,并统计了它们的人口数量。每周比较每个城市的“流感”推特率,并通过柱状图可视化,柱状图还显示了每个城市每周报告的ILI率。按人口划分的目标是观察流感活动在不同城市是否会有不同的趋势。

另外,用Python (Python Software Foundation, Delaware, USA, version 2.7.6)及其“scikit-learn”软件编写了一个机器学习分类器。我们使用支持向量机(SVM)分类器从数据集中过滤掉噪声。为了训练分类器,我们使用了2012-2013赛季随机采样的1500条包含关键词“流感”的推文作为输入。这1500条训练推文中的每一条都被人工检查,并根据它们表明实际流感病例的可能性标记为有效或无效。使用他们的词频-逆文档频率(TF-IDF)分数将这个手工标记的训练集转换为向量表示,这是文本文档中每个术语的统计显著性的衡量标准。然后将这些TF-IDF向量输入支持向量机进行训练。用户名包含“流感”一词的用户发布的推文会被删除,因为这些推文的收集与推文内容无关,并且会在样本量中引入噪声。被确定代表可能患有流感的用户的推文被标记为有效,而其他没有得到最低分数的推文则被归类为无效,因此在进行相关性分析之前将其删除。中列出了被算法标记为有效或无效的推文类型的示例 表1

为了评估分类器,我们手动标记了一个包含1000条推文的测试集,并运行分类器以获得两个性能指标:召回率,测试集中手工标记为有效的推文的部分,也被分类器正确地分类为有效;精度,分类的“有效”推文的部分,也被手动标记为有效。分类器的召回率为0.9369,精密度为0.6859。这意味着分类器能够正确地将大多数手动标记的有效推文识别为有效,但它很难识别无效推文,并且会将一些标记为有效。

来自机器学习分类器的有效和无效推文示例。

推文 有效或无效
"我讨厌患流感" 有效的
"现在不是感染流感的好时候" 有效的
"前两天因流感在家" 有效的
"打流感疫苗" 无效的
“现在轮到我得了肠胃流感了。啊” 无效的
“对抗流感的食物食谱[URL] 无效的
结果 Sentinel-Provided伊犁

波士顿、芝加哥、克利夫兰、哥伦布、丹佛、底特律、沃斯堡、纳什维尔-戴维森、纽约和圣地亚哥的哨兵医生向市和县卫生部门报告的每周ILI率。 表2显示了哨岗哨提供的每个城市的ILI与源自每个城市的包含关键字“流感”的每周推文数量之间的相关系数,这些推文在对每个类别的推文进行过滤之前和过滤之后。

每个类别的推文(未转发、转发、无URL的推文、有URL的推文)与城市哨点ILI的相关性可以在 表2。表中的相关性有显著性 P<。05一个redenoted with an e上标。丹佛、沃斯堡、纳什维尔-戴维森和圣地亚哥有显著相关性( P<.001),包括所有推文。克利夫兰和底特律在未分割推文(第1列)和除转发推文(第3列)外的所有类别上都有显著相关性。纽约是唯一一个观察到与所有推文都有显著相关性的城市,其他所有类别的相关性都不显著。除了波士顿和丹佛,非转发(第2列)的相关性高于转发。除了哥伦布、底特律、纽约和圣地亚哥,没有URL的推文(第5列)也比有URL的推文(第6列)具有更高的相关性。第4列显示费雪 z转换 P非转发和转发之间的相关性比较值,而第7列包含Fisher的相关性 z转换 P没有URL的tweet和有URL的tweet之间的相关性的比较值。费雪的 z计算转换以证明推文类别之间是否存在差异。

表3显示了所有推文的相关性,推文的数量, P相关性值,以及被Python机器学习分类器标记为有效的推文的相同信息。使用有效推文,5个城市的相关性比所有推文的相关性更大更显著(列1) 表3有雪的 z转换 P未分割推文和有效推文之间的相关性比较值。除克利夫兰外,相关系数之间的差异显著( P<措施)。

图1显示了每个城市有效推文的每周推文率每10万的可视化表示,以及哨兵提供的ILI。x轴是周数,从第36周开始,一直到第9周,y轴有两个:一个是每10万推文率,另一个是当周的ILI,通常以百分比形式报告。的相关性 表2如果相关的显著性在,则列出并加粗 P<。05, alongside the number of valid tweets for each city. Tweet rates are shown in pink and ILI rates in blue. Yellow bars indicate missing ILI data and were calculated by averaging the ILI rate from the week before and after the week of missing data. To ensure better visualization, maximum ILI rates for each city were rescaled.

包含“流感”一词的有效推文趋势,或由可能患有流感的用户发布的推文趋势,以及哨兵提供的ILI在每个城市的柱状图中显示。粉红色表示推文率,蓝色表示ILI率,黄色表示ILI率缺失的一周。每个城市的推文率和ILI率都被重新调整,以显示在同一规模上的趋势,以考虑人口的差异。有效推文与哨兵提供的ILI率以及有效推文总数之间的相关系数为每个城市列出。显著相关( P<.05)加粗。

推文和哨兵提供的ILI之间的相关性一个利率。b

1.所有微博 2.Non-retweets 3.转发 4.费雪的 z转换c 5.没有URL的推文 6.带有URL的tweet 7.费雪的 z转换d 8.推文总数
r r r P r r P
波士顿 −.05 −.19 。08 <措施 .04点 −13。 <措施 17370年
芝加哥 .33 50 .04点 <措施 e 二十五分 <措施 21655年
克利夫兰 e .74点e <措施 56e 55e .703 6632
哥伦布 . 01 0。 −.06点 .019 −.04点 。08 措施 3206
丹佛 .76e .64点e .74点e <措施 结果e e <措施 5706
底特律 结果e 无误 <措施 .62e 尾数就e <措施 8417
沃斯堡 i =e e 。45e <措施 结果e .62e <措施 4755
Nashville-Davidson .77点e .74点e 54e <措施 2e e <措施 5805
纽约 无误e <措施 无误 <措施 64340年
圣地亚哥 尾数就e e .41点e <措施 i =e e <措施 8002

一个流感样疾病

b每个城市所有推文和推文类别与哨兵提供的ILI率的相关系数。推文和ILI数据的比较始于第36-49周(2013年9月1日至2013年11月24日),当时ILI数据按城市分类,并于第9周(2014年3月1日结束)结束。

c此列显示 P费雪值 z比较非转发与转发相关系数的变换。

d此列显示 P费雪值 z比较无URL tweets和有URL tweets的相关系数的转换。

e显著相关系数( P< . 05)。

有效推文与哨兵提供的ILI之间的相关性一个利率。b

1.所有微博,r 2.所有推文数量 3. P-value为所有推文 4.有效的微博,r 5.有效推文数 6. P-value为有效的tweet 7.费雪z变换, P
波士顿 −.05 17370年 .834 .10 3813 <措施
芝加哥 .33 21655年 .139 .64点 5116 .002 <措施
克利夫兰 7152 .002 .60 1497 .003 )
哥伦布 . 01 3288 .978 −。 1034 .274 <措施
丹佛 .76 5706 .003 i = 1942 .009 <措施
底特律 结果 8417 措施 .76 2195 <措施 <措施
沃斯堡 i = 4755 措施 .85 1236 <措施 <措施
Nashville-Davidson .77点 5805 措施 1630 <措施 <措施
纽约 无误 64340年 .047 55 12632 . 01 <措施
圣地亚哥 尾数就 8002 措施 多多 1808 <措施 <措施

一个流感样疾病

b所有推文和有效推文之间的相关系数,由机器学习分类器识别,使用哨兵提供的每个城市的ILI率。推文和ILI数据的比较始于第36-49周(2013年9月1日至2013年11月24日),当时ILI数据按城市分类,并于第9周(2014年3月1日结束)结束。

2013-14流感季节,按城市划分的“有效”推文率每10万与哨兵提供的流感样疾病率。

急诊科ILI比率

急诊科的ILI费率可用于六个城市:波士顿、芝加哥、克利夫兰、哥伦布、圣地亚哥和西雅图。卫生部门报告了每个城市的医院急诊ILI率,除了波士顿,波士顿的数据是通过波士顿公共卫生委员会获得的。 表4包含具有相同推文类别的推文的相关性 表2:所有推文、未转发和转发的推文、没有URL的推文和有URL的推文。总体而言,在与各城市急诊部门ILI率进行比较时,未转发(第2列)的相关性高于转发(第3列),无URL的推文(第5列)的相关性高于有URL的推文(第6列)。费雪的 z第4列的转换比较了非转发与转发和Fisher的相关性 z第7列中比较无URL推文与有URL推文相关性的转换对于所有可获得急诊部门ILI率的城市都是显著的( P< . 05)。

分类器标记为有效的推文,与所有城市的所有推文相比,与急诊科ILI率的相关性更高,如图所示 表5, tweets和ILI数据的相关性从。23 ( P= 0.41)到0.61 ( P=.02),在其他五个城市也观察到类似的相关性增加。费雪的 z转换 P第7列中比较未过滤推文和有效推文与急诊科ILI率相关性的值均显著( P<措施)。

图2显示可用的急诊部门ILI数据的可视化表示,以重新调整每个城市的有效推文率。x轴是周数,从第36周开始,一直到第9周,y轴有两个:一个是每10万推文率,另一个是当周的ILI,通常以百分比形式报告。粉色列表示每100,000条推文的推文率,蓝色列表示ILI率,黄色列表示无法获得急诊部门ILI率的前一周和后一周的平均ILI率。

推特率与急诊科ILI的相关性一个按城市收费。b

1.所有微博 2.Non-retweets 3.转发 4.费雪z变换c 5.没有URL的推文 6.带有URL的tweet 7.费雪z变换d 8.推文总数
r r r P r r P
波士顿 23) 票价 −04 <措施 03 .41点 <措施 17370年
芝加哥 .51e 54e 23) <措施 .59e 。45e <措施 21655年
克利夫兰 .68点e .87点e <措施 .62e 算下来e .005 7152
哥伦布 .62e 54 .018 .62e 票价e <措施 3288
圣地亚哥 .80e .92e .40e <措施 多多e .79e <措施 8002
西雅图 开市e e e 措施 .62e e <措施 9735

一个流感样疾病

b所有推文和推文类别与每个城市急诊部门ILI率的相关系数。推文和ILI数据的比较开始于第40-41周(2013年9月29日至2013年10月6日),随着ILI数据按城市分类,并于第9周(2014年3月1日结束)结束。

c此列显示 P费雪值 z比较非转发与转发相关系数的变换。

d此列显示 P费雪值 z比较无URL tweets和有URL tweets的相关系数的转换。

e显著相关系数( P< . 05)。

有效推文与急诊科ILI之间的相关性一个按城市收费。b

1.所有微博 2.所有推文数量 3.所有微博 4.有效的微博 5.有效推文数 6.有效的微博 7.费雪z变换
r P r r P P
波士顿 23) 17370年 .411 3813 .016 <措施
芝加哥 .51 21655年 .017 .80 5116 <措施 <措施
克利夫兰 .68点 7152 <措施 综合成绩 1497 <措施 <措施
哥伦布 .62 3288 .002 .87点 1034 <措施 <措施
圣地亚哥 .80 8002 <措施 多多 1808 <措施 <措施
西雅图 开市 9735 <措施 总共花掉 2941 <措施 <措施

一个流感样疾病

b所有推文和有效推文之间的相关系数,由机器学习分类器识别,与每个城市的急诊部门ILI率相关。推文和ILI数据的比较开始于第40-41周(2013年9月29日至2013年10月6日),随着ILI数据按城市分类,并于第9周(2014年3月1日结束)结束。

2013-14流感季节,每10万“有效”推文率与各城市急诊部门流感样疾病率的对比。

圣地亚哥实验室确认的流感病例

作为一项小型试点研究,圣地亚哥卫生与公众服务部能够提供2013-2014流感季节第40周至第9周实验室确认的流感病例数量。相关性是使用圣地亚哥每周所有推文和每个推文类别的推文数量来计算的。 表6显示了 r所有细分推文的相关性,以及 P每个都有价值。均显著( P<.001),且相关值最高的分类器( r=.93),其次是不转发、没有URL的推文和所有推文。转发的相关值最低 r= 40美分。

推特与圣地亚哥实验室确认的流感病例数之间的相关性一个

所有微博 所有微博 Non-retweet Non-retweets 转发 转发 没有URL的推文 没有URL的推文 带有UR的推文 带有URL的tweet 有效的微博 有效的微博
r P r P r P r P r P r P
多多 <措施 .92 <措施 .40 <措施 多多 <措施 .79 <措施 公布 <措施

一个所有推文和所有类别推文的相关系数,包括从第40周(2013年10月6日开始)到第9周(2014年3月1日结束)圣地亚哥实验室确认流感病例数的有效推文。

讨论 主要研究结果

这项研究是圣地亚哥州立大学的研究人员在2012-2013流感季节进行的探索性研究的延续,他们使用Twitter作为一种可能的方法来确定11个城市的流感发病率趋势。本文不包括每个城市的具体ILI率,因为我们想建立推文和ILI率之间的相关性,无论它们有多高或多低,而不是流感在城市本身的传播进程。2013-2014年流感季节的严重程度低于2012-2013年流感季节:ILI发病率较低,感染流感病毒株的人数较少。在收集推文的11个城市中,推文率和ILI率在第50周(截至2013年12月14日)和第2周(截至2014年1月11日)之间达到峰值。推文、哨点和急诊科的ILI率都遵循大致同时增加或减少的大致趋势。波士顿是唯一一个推特率在ILI率达到峰值的城市,无论是哨兵提供的还是急诊部门的ILI。然而,在波士顿,推文率和ILI率之间的相关性仅在查看有效推文和急诊科ILI ( P=.02),其他相关系数较低且不显著。

按推文类别进行的单独分析提出了改进ILI率近似的方法。对于大多数城市,不转发的推文比转发的推文具有更高和更显著的相关性,没有URL的推文也比有URL的推文具有更高和更显著的相关性。非转发是完全原创的推文,是从用户的位置发布的,而转发是用户转发的其他人的推文。即使一条推文是从收集之外的区域发布的,由于转发推文的用户所在的位置,仍然可以获得转发。因此,转发可能并不能反映用户自身的健康和疾病。带有URL的推文很可能用于分享来自新闻来源或博客的信息,更可能代表用户的观点或情绪,而不是他们的实际健康状况。

在所有城市中,推文与急诊科ILI率的相关性都高于推文与哨兵提供的ILI率的相关性,圣地亚哥除外。这不仅适用于所有推文,而且适用于所有类别的推文。急诊科的ILI通常被强制报告给卫生部门,而哨点提供的ILI是自愿的,并基于一个地区的哨点医生。每周报告的医生人数可能会有很大差异,导致每周的比率不一致。就诊定点医生的患者可能更有可能接种过流感疫苗,因此报告的ILI率较低。在整个季节,与前哨提供的ILI活动相比,与急诊科ILI活动的相关性非常高,尽管在研究期结束时,相关性的差距已经缩小。

使用机器学习分类器,当使用哨岗提供的或急诊部门的ILI活动数据以及圣地亚哥实验室确认的流感病例数量时,许多城市的相关性最高。我们期望使用有效推文和ILI活动看到最高的相关性,无论是哨点和急诊部门的ILI率,因为通过识别有效推文,或更有可能表明用户患有流感类疾病的推文,可以消除大部分由非转发推文或没有URL的推文引起的噪音。在未来的信息监控活动中,我们建议使用经过机器学习分类器过滤的非转发推文和没有URL的推文,以提高与前哨ILI和急诊科ILI发现的最高水平相关性的有效性。

观察到高相关值( r>.80)和如此高的显著性( P<.001)到实验室确认的流感病例是本研究的另一个有希望的方面。流感样发病率以症状为基础,因此在实际得到实验室证据证实之前,可提供疾病数量的概念。然而,在报告发布之前出现的延迟可能而且确实会给监测工作带来很大问题。我们的研究结果显示推特和实验室确诊病例之间存在高度相关性,这可能会为公共卫生专业人员增加另一个当前信息来源。然而,该领域对大样本量的影响的关注越来越多 P值。有一种可能性是,在推特上发布流感信息的用户更年轻,其中大部分是青少年,他们被带到医生那里进行流感病毒检测,因为他们更容易接触到医生,他们的父母也带着他们去看医生,这是流感病毒感染率特别高的原因 P我们在实验室确诊病例和流感之间的研究中观察到的值。

使用社交媒体调查流感发病率的一个优势是,它可以加快公共卫生部门和卫生保健提供者的反应时间。本案例研究只研究了急诊部门和哨点医生报告的推文与ILI的相关性。通过观察ILI和推文是如何在第48周到第52周之间同时增加的,可以采取一种应对疫情的措施,无论是通过通知邻近社区流感病例的增加,还是提醒人们避开流感的方法。

限制

本研究最大的局限性是ILI疾病报告监测系统。每周ILI报告的开始日期因城市而不同,尽管有些报告全年都有,其他报告在MMWR第40周开始,但丹佛直到MMWR第49周才发布ILI率。各城市的报告也因共享数据类型的不同而有所不同——有些城市同时拥有前哨提供的和急诊科的ILI数据,有些城市只有前哨提供的数据,西雅图只有急诊科的ILI数据。哨点提供者报告ILI的可选性质意味着人口相似的城市可能从不同数量的哨点提供者收集数据。例如,哥伦布通常只有两个或更少的哨兵提供者报告每周ILI率,因此对于一个超过80万居民的城市来说,ILI率是不可靠的。波士顿和芝加哥的推文和来自任何来源的ILI率之间的相关性也很低,无论是哨兵提供者还是急诊部门。很难确定为什么会出现这种情况,因为来自波士顿和芝加哥的报告没有包含被调查的哨点提供者或急诊部门的数量。正如Chew和Eysenbach所观察到的,由于波士顿和芝加哥的人口规模都非常大,收集的推文中可能有太多的噪音,即使不是由新闻来源发布的推文也是基于观点,而不是基于疾病[ 23].虽然在比较与ILI率有效的推文时,这两个城市的相关性有所提高,但如何将Twitter作为波士顿和芝加哥的具体工具仍然存在问题。有一种方法可以帮助我们的研究,以及在这些城市的监测,可能是审查什么是合格的ILI,并寻找更多愿意报告病例的哨点提供者,以及学生健康中心,因为这两个城市都有大量的学生群体,他们可能会使用他们的大学资源,而不是初级保健医生或急诊科。ILI报告的准确性以前曾受到质疑,但这只会增加对另一种可以使用的方法的需求,比如推文。

虽然用户名、位置、关注人数、被关注人数和用户简介等信息可以与推文一起收集,但年龄、性别和种族等人口统计信息无法通过推文收集,因此很难确定谁在发布流感推文,以及应该针对谁开展公共卫生工作。2013年共有31%的推特用户报告他们的年龄在18-29岁之间。 26,这是一个容易受到流感严重影响的年龄组;不过,对于许多流感病毒,我们通常更关心的是儿童和老年人。推文与2013-2014年流感季节ILI监测高度相关的事实可能是由于H1N1病毒株正在传播,15-24岁年龄组的人被认为是易受感染的病毒株。很难知道,如果年轻人和老年人使用Twitter,相关性会更强还是更弱。在这项研究中也只使用了一个关键字(“流感”),而不是在我们的第一个案例研究中使用了大量的关键字。在之前的研究中,发现包含“流感”一词的推文与ILI率的相关性比包含关键词“流感”或其他相关术语的推文更高[ 24].然而,即使只有一个关键字,使用机器学习分类器也能在每周推文数量和ILI数据之间产生如此高的相关性,因此可能只需要改进分类器,而不是包括更多会给数据引入更多噪声的关键字。对分类器的其他改进还包括微调tweet中的分离度。目前,如果一条推文提到“我姐姐”、“儿子”或“同学”得了流感,就会被认定为有效。然而,如果人们在推特上发布的是一位名人或其他流行人物患流感的消息,这个数字可能就会很扭曲。为了防止这个问题,需要更多的训练作为修改算法的一种方式。

结论

社交媒体是数百万人使用的一个日益增长的平台,通过信息流行病学和信息监测研究,社交媒体作为公共卫生资源具有巨大潜力。这项研究证明了使用Twitter作为流感的补充监测工具的可重复性,因为更好的过滤和分类方法产生的相关性高于前一个流感季节的推文。被我们的机器分类器识别为有效的非转发推文和推文都与许多城市报告的ILI率高度相关,并指定未来应该收集哪些推文。

这一领域的进一步调查应包括将范围扩大到这11个城市以外,但还需要获得更多的ILI数据,以便发现可能的关联。我们的研究受到限制,因为只有11个城市的ILI数据可用,但如果更多的城市能够发布每周的ILI率,无论是哨点还是急诊室,或者两者兼有,我们的方法就可以得到更多的改进,也可以获得更多关于推文作为季节性流感趋势指标的可靠性的知识。现有的传统流感监测工作是长期和完善的,但如果通过改进的方法继续增加与社交媒体上用户生成的数据的相关性,对流感病例的实时估计不仅对遏制疫情和实时预测ILI发病率的公共卫生工作有价值,而且对易患病的一般人群也有价值。使用推特作为一种补充的大规模监测工具,以确定当地疾病的传播,以便更早地发现疾病的爆发,并为制定和实施旨在制止疾病传播的干预措施提供更多的时间,这种做法应当更加可信。

缩写 API

应用程序编程接口

疾病预防控制中心

疾病控制和预防中心

伊犁

流感样疾病

MMWR

发病率及死亡率周报

支持向量机

支持向量机

TF-IDF

术语频率-文档频率倒数得分

本材料基于美国国家科学基金会1028177号资助的项目“CDI-Type II:将网络空间映射到现实空间:思想和语义网全球扩散的时空动态可视化和理解”。本材料中表达的任何观点、发现、结论或建议都是作者的观点,并不一定反映美国国家科学基金会的观点。

没有宣布。

比勒 JW 霍普金斯 RS Overhage JM Sosin DM V 评估公共卫生监测系统以早期发现疾病暴发的框架 2004 05 07 2014-05-05 http://www.cdc.gov/mmwr/preview/mmwrhtml/rr5305a1.htm 6 plqwbwwm 布朗斯坦 JS Freifeld CC 马多夫 信用证 数字化疾病检测——利用网络进行公共卫生监测 N英语J医学 2009 05 21 360 21 2153 2157 10.1056 / NEJMp0900702 19423867 NEJMp0900702 PMC2917042 亨宁 K 疾病控制和预防中心 2004 09 24 2014-05-05 综合征监测概述——什么是综合征监测? http://www.cdc.gov/MMWR/preview/mmwrhtml/su5301a3.htm 6 plr8m4jw Eysenbach G 信息流行病学和信息监测跟踪在线健康信息和网络行为的公共卫生 是J Prev Med吗 2011 05 40 5补充2 S154 8 10.1016 / j.amepre.2011.02.006 21521589 s0749 - 3797 (11) 00088 - 2 疾病控制和预防中心 工作场所健康促进:成人免疫 2013 10 13 2014-05-05 http://www.cdc.gov/workplacehealthpromotion/evaluation/topics/immunization.html 6 plraxffr 疾病控制和预防中心 流感症状及严重程度 2013 09 12 2014-05-05 http://www.cdc.gov/flu/about/disease/symptoms.htm 6 plrcsgai 莫伦纳 NA Ortega-Sanchez 红外 Messonnier 毫升 汤普森 WW 沃尔特利 温特劳布 E 桥梁 CB 季节性流感在美国的年度影响:测量疾病负担和成本 疫苗 2007 06 28 25 27 5086 96 10.1016 / j.vaccine.2007.03.046 17544181 s0264 - 410 x (07) 00385 - 4 淡比 T 冈崎 Mastsuo Y 地震震动推特用户:社交传感器实时检测事件 2010 第19届国际万维网会议 2010年4月26日至30日 罗利 罗利数控 国际万维网会议委员会 978 988 De Longueville B 史密斯 R Luraschi G “天哪,从这里,我能看到火焰!”:挖掘基于位置的社会网络以获取森林火灾时空数据的用例 2009年基于位置的社交网络国际研讨会论文集 2009 基于位置的社交网络国际研讨会 2009 西雅图,华盛顿州 73 80 Arranz Izquierdo J 莱俄文 一个 Carandell贼鸥 E Pujol Buades 一个 门德斯名卡斯特尔 Mc 萨尔瓦•Fiol 一个 Esteva章 [初级保健中流感样疾病的综合征监测:对流感发病率增加时期哨点监测网络的补充] 阿托恩Primaria 2012 05 44 5 258 64 10.1016 / j.aprim.2011.03.008 21924796 s0212 - 6567 (11) 00357 - x Culotta 一个 从Twitter消息估计流感发病率和酒精销售量的轻量级方法 朗资源与评估 2012 5 13 47 1 217 238 10.1007 / s10579 - 012 - 9185 - 0 Ohkusa Y Sugawara T 伊藤 K N 2009年日本甲型H1N1流感大流行的实时估计和预测 J感染化疗 2011 08 17 4 468 72 10.1007 / s10156 - 010 - 0200 - 3 21387184 Chunara R 安德鲁斯 布朗斯坦 JS 社会媒体和新闻媒体能够在2010年海地霍乱爆发早期估计流行病学模式 Am J Trop Med Hyg 2012 01 86 1 39 45 10.4269 / ajtmh.2012.11 - 0597 22232449 86/1/39 PMC3247107 Sofean 史密斯 使用社交网络的实时疾病监测架构 种马健康技术通知 2012 180 823 7 22874307 纽克 RW 本德 简森-巴顿 Hedberg 连续波 社交媒体作为食品安全和食品恐怖主义监测系统组成部分的潜在能力 食源性病原体 2012 02 9 2 120 4 10.1089 / fpd.2011.0990 22217109 Pervaiz F Pervaiz 阿布杜尔拉赫曼 N 赛义夫 U FluBreaks:来自谷歌流感趋势的早期流行检测 J医疗互联网服务 2012 14 5 e125 10.2196 / jmir.2102 23037553 v14i5e125 PMC3510767 Achrekar H Gandhe 一个 拉撒路 R 年代 B 利用推特数据预测流感趋势 2011年CPNS会议记录 2011 第一届网络物理网络系统国际研讨会 2011年四月十五日 中国上海 祖文萃 J 酒鬼 D 年代 Spitzberg B Gawron JM 古普塔 D 一个 l 用社交媒体(Twitter)和网络搜索引擎(雅虎和必应)映射社会活动和概念:2012年美国总统大选的案例研究 地图学与地理信息科学“, 2013 09 40 4 337 348 10.1080 / 15230406.2013.799738 Nascimento 道明 DosSantos 曼氏金融 Danciu T DeBoer 范Holsbeeck H 卢卡斯 Aiello C 哈提卜 l 本德 UMSoD (Under) 2014届毕业生 Zubieta JK 达席尔瓦 房颤 在推特上偏头痛的实时分享和表达:一项横断面信息流行病学研究 J医疗互联网服务 2014 16 4 e96 10.2196 / jmir.3265 24698747 v16i4e96 PMC4004155 Culotta 一个 通过分析Twitter消息来检测流感爆发 2010 第一届社会媒体分析研讨会论文集 2011年7月25日至28日 华盛顿特区 年青男子 一个 塞格雷 Polgreen 在甲型H1N1流感大流行期间,美国使用Twitter追踪疾病活动水平和公众关注 《公共科学图书馆•综合》 2011 6 5 e19467 10.1371 / journal.pone.0019467 21573238 玉米饼- d - 10 - 02464 PMC3087759 lampo V Cristianini N 流感探测器:在Twitter上追踪疫情 2010 第二届认知信息处理国际研讨会 2010年6月14日至16日 意大利托斯卡纳 咀嚼 C Eysenbach G 推特时代的流行病:2009年H1N1爆发期间推特的内容分析 《公共科学图书馆•综合》 2010 5 11 e14118 10.1371 / journal.pone.0014118 21124761 PMC2993925 内格尔 交流 祖文萃 MH Spitzberg 黑洞 一个 l Gawron JM 古普塔 DK 晶澳 年代 Peddecord 公里 林赛 年代 索耶 MH 真实空间事件和网络空间信息的复杂关系:使用推特的流感和百日咳的案例研究 J医疗互联网服务 2013 15 10 e237 10.2196 / jmir.2705 24158773 v15i10e237 PMC3841359 疾病控制和预防中心 美国流感监测概况 2013 10 24 2014-05-05 http://www.cdc.gov/flu/weekly/overview.htm 6 plreqgol 达根 史密斯 一个 皮尤研究互联网小组 2013 12 30. 2014-07-31 2013年社交媒体更新 http://www.pewinternet.org/2013/12/30/social-media-%20update-2013/twitter-users/ 6 ru5mqang
Baidu
map