这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
美国现有的流感监测主要集中在从哨点医生和医院收集数据;但是,编写和分发报告的工作通常要推迟两个星期。随着社交媒体的日益普及,互联网由于可获得大量数据而成为综合征监测的来源。在这项研究中,从Twitter网站上收集了140个字符或更少的推文,并分析了它们作为季节性流感监测的潜力。
有三个目的:(1)通过过滤和机器学习分类器提高推文与各城市哨点提供的流感样疾病(ILI)率的相关性,(2)观察推文与各城市急诊部门ILI率的相关性,以及(3)探索推文与圣地亚哥实验室确认的流感病例的相关性。
包含关键词“流感”的推文被收集在17英里半径内的11个美国城市,这些城市被选择为人口和ILI数据的可用性。在收集期结束时,使用159,802条推文与哨兵提供的ILI和相应市或县卫生部门报告的急诊ILI率进行相关性分析。研究人员使用了两种不同的方法来观察推文和ILI率之间的相关性:按类型过滤推文(非转发、转发、有URL的推文、没有URL的推文),以及使用机器学习分类器来确定推文是“有效的”,还是来自可能患了流感的用户。
相关性因城市而异,但观察到总体趋势。没有转发和没有URL的推文具有更高和更显著的(
与之前流感季节的推文分析相比,这项研究表明,使用推特作为流感的补充监测工具的准确性有所提高,因为更好的过滤和分类方法对2013-2014年流感季节的推文产生了更高的相关性,与之前流感季节的推文相比,急诊科的ILI率与推文的相关性更好。该领域的进一步调查将需要扩大收集推文的地点,以及更多ILI数据的可用性。
由疾病控制和预防中心(CDC)建立的监测系统,以及通过国家监测,有可能降低疾病引起的发病率和死亡率,并改善健康状况;然而,它们的效用尚未得到证实[
在过去十年中,互联网作为公共卫生信息来源的潜力并没有被忽视。据推测,日常使用非正式电子信息(通常是用户生成的)可以减少识别疫情所需的时间,防止政府压制疫情信息,并促进公共卫生干预[
在疫苗可预防的疾病中,季节性流感对美国成年人的影响最大[
最近的疾病监测网站是Web应用程序的混合体,能够挖掘、分类、过滤和可视化流行病信息,同时实时使用地理信息系统(GIS),从而最大限度地减少延迟并不断更新[
微博网站Twitter在预测票房收入、地震报道、表情包追踪、大规模火灾突发事件、服务宕机、实时流量更新、国家情绪、货币交易等方面已经显示出了自己的价值。
已经进行了多项研究来寻找推文和ILI数据之间的相关性,但搜索范围往往非常广泛。一项研究分析了8个月期间的5亿多条推文,发现跟踪少量与流感相关的关键词和关键词组合可以预测未来发病率,相关性为95% [
这项研究建立在圣地亚哥州立大学地理系先前进行的探索性研究的基础上,该研究表明,社交媒体信息和搜索的内容与2012-2013年美国流感季节的实际流感监测报告相关[
使用Tsou等人创建的地理定位社交媒体搜索工具[
根据我们之前的研究,没有转发的推文和没有包含关键词“流感”的推文,与“流感”等其他词语相比,与哨发流感监测的相关性要高得多[
在收集期结束时,有159,802条推文包含“流感”一词,并用于过滤和分析。根据不同城市的ILI数据,重点是2013年第40周至2014年第9周(2013年9月29日开始的一周至2014年3月1日结束的一周)的推文,由CDC的发病率死亡率周报(MMWR)确定。计算每周产生推文数与相应市县部门报告的每周哨点ILI或急诊部门ILI之间的相关性和相关值的显著性。
针对每个城市包含“流感”的推文,在R (R统计计算基金会,维也纳,奥地利,版本3.0.0)中计算了特定周推文量与流感样疾病发病率之间的Pearson相关系数。推文也被细分为不转发、转发、没有URL的推文和有URL的推文。这些分类并不相互排斥,例如,非转发的推文可以包含有URL的推文,也可以包含没有URL的推文。这样做是为了确定基于推文类型的相关性是否更高。皮尔逊相关系数是一种简单的方法,可以将推文组与ILI进行比较,并且可以很容易地识别出未来对信息监视最有用的推文。研究人员还计算了每个城市每周的推特率,即每10万人发推文的数量。为了确定每个收集推文的城市的人口,确定了中心位于市中心17英里半径内的人口普查区,并统计了它们的人口数量。每周比较每个城市的“流感”推特率,并通过柱状图可视化,柱状图还显示了每个城市每周报告的ILI率。按人口划分的目标是观察流感活动在不同城市是否会有不同的趋势。
另外,用Python (Python Software Foundation, Delaware, USA, version 2.7.6)及其“scikit-learn”软件编写了一个机器学习分类器。我们使用支持向量机(SVM)分类器从数据集中过滤掉噪声。为了训练分类器,我们使用了2012-2013赛季随机采样的1500条包含关键词“流感”的推文作为输入。这1500条训练推文中的每一条都被人工检查,并根据它们表明实际流感病例的可能性标记为有效或无效。使用他们的词频-逆文档频率(TF-IDF)分数将这个手工标记的训练集转换为向量表示,这是文本文档中每个术语的统计显著性的衡量标准。然后将这些TF-IDF向量输入支持向量机进行训练。用户名包含“流感”一词的用户发布的推文会被删除,因为这些推文的收集与推文内容无关,并且会在样本量中引入噪声。被确定代表可能患有流感的用户的推文被标记为有效,而其他没有得到最低分数的推文则被归类为无效,因此在进行相关性分析之前将其删除。中列出了被算法标记为有效或无效的推文类型的示例
为了评估分类器,我们手动标记了一个包含1000条推文的测试集,并运行分类器以获得两个性能指标:召回率,测试集中手工标记为有效的推文的部分,也被分类器正确地分类为有效;精度,分类的“有效”推文的部分,也被手动标记为有效。分类器的召回率为0.9369,精密度为0.6859。这意味着分类器能够正确地将大多数手动标记的有效推文识别为有效,但它很难识别无效推文,并且会将一些标记为有效。
来自机器学习分类器的有效和无效推文示例。
推文 | 有效或无效 |
"我讨厌患流感" | 有效的 |
"现在不是感染流感的好时候" | 有效的 |
"前两天因流感在家" | 有效的 |
"打流感疫苗" | 无效的 |
“现在轮到我得了肠胃流感了。啊” | 无效的 |
“对抗流感的食物食谱[URL] | 无效的 |
波士顿、芝加哥、克利夫兰、哥伦布、丹佛、底特律、沃斯堡、纳什维尔-戴维森、纽约和圣地亚哥的哨兵医生向市和县卫生部门报告的每周ILI率。
每个类别的推文(未转发、转发、无URL的推文、有URL的推文)与城市哨点ILI的相关性可以在
包含“流感”一词的有效推文趋势,或由可能患有流感的用户发布的推文趋势,以及哨兵提供的ILI在每个城市的柱状图中显示。粉红色表示推文率,蓝色表示ILI率,黄色表示ILI率缺失的一周。每个城市的推文率和ILI率都被重新调整,以显示在同一规模上的趋势,以考虑人口的差异。有效推文与哨兵提供的ILI率以及有效推文总数之间的相关系数为每个城市列出。显著相关(
推文和哨兵提供的ILI之间的相关性一个利率。b
|
1. |
2. |
3. |
4. |
5. |
6. |
7. |
8. |
|
|
|
|
|
|
|
|
|
波士顿 | −.05 | −.19 | 。08 | <措施 | .04点 | −13。 | <措施 | 17370年 |
芝加哥 | .33 | 50 | .04点 | <措施 | 报e | 二十五分 | <措施 | 21655年 |
克利夫兰 | 点e | .74点e | 点 | <措施 | 56e | 55e | .703 | 6632 |
哥伦布 | . 01 | 0。 | −.06点 | .019 | −.04点 | 。08 | 措施 | 3206 |
丹佛 | .76e | .64点e | .74点e | <措施 | 结果e | 点e | <措施 | 5706 |
底特律 | 结果e | 点 | 无误 | <措施 | .62e | 尾数就e | <措施 | 8417 |
沃斯堡 | i =e | 收e | 。45e | <措施 | 结果e | .62e | <措施 | 4755 |
Nashville-Davidson | .77点e | .74点e | 54e | <措施 | 2e | 点e | <措施 | 5805 |
纽约 | 无误e | 点 | 点 | <措施 | 收 | 无误 | <措施 | 64340年 |
圣地亚哥 | 尾数就e | 收e | .41点e | <措施 | i =e | 收e | <措施 | 8002 |
一个流感样疾病
b每个城市所有推文和推文类别与哨兵提供的ILI率的相关系数。推文和ILI数据的比较始于第36-49周(2013年9月1日至2013年11月24日),当时ILI数据按城市分类,并于第9周(2014年3月1日结束)结束。
c此列显示
d此列显示
e显著相关系数(
有效推文与哨兵提供的ILI之间的相关性一个利率。b
|
1. |
2. |
3. |
4. |
5. |
6. |
7. |
波士顿 | −.05 | 17370年 | .834 | .10 | 3813 | 正 | <措施 |
芝加哥 | .33 | 21655年 | .139 | .64点 | 5116 | .002 | <措施 |
克利夫兰 | 点 | 7152 | .002 | .60 | 1497 | .003 | ) |
哥伦布 | . 01 | 3288 | .978 | −。 | 1034 | .274 | <措施 |
丹佛 | .76 | 5706 | .003 | i = | 1942 | .009 | <措施 |
底特律 | 结果 | 8417 | 措施 | .76 | 2195 | <措施 | <措施 |
沃斯堡 | i = | 4755 | 措施 | .85 | 1236 | <措施 | <措施 |
Nashville-Davidson | .77点 | 5805 | 措施 | 点 | 1630 | <措施 | <措施 |
纽约 | 无误 | 64340年 | .047 | 55 | 12632 | . 01 | <措施 |
圣地亚哥 | 尾数就 | 8002 | 措施 | 多多 | 1808 | <措施 | <措施 |
一个流感样疾病
b所有推文和有效推文之间的相关系数,由机器学习分类器识别,使用哨兵提供的每个城市的ILI率。推文和ILI数据的比较始于第36-49周(2013年9月1日至2013年11月24日),当时ILI数据按城市分类,并于第9周(2014年3月1日结束)结束。
2013-14流感季节,按城市划分的“有效”推文率每10万与哨兵提供的流感样疾病率。
急诊科的ILI费率可用于六个城市:波士顿、芝加哥、克利夫兰、哥伦布、圣地亚哥和西雅图。卫生部门报告了每个城市的医院急诊ILI率,除了波士顿,波士顿的数据是通过波士顿公共卫生委员会获得的。
分类器标记为有效的推文,与所有城市的所有推文相比,与急诊科ILI率的相关性更高,如图所示
推特率与急诊科ILI的相关性一个按城市收费。b
|
1. |
2. |
3. |
4. |
5. |
6. |
7. |
8. |
|
|
|
|
|
|
|
|
|
波士顿 | 23) | 票价 | −04 | <措施 | 03 | .41点 | <措施 | 17370年 |
芝加哥 | .51e | 54e | 23) | <措施 | .59e | 。45e | <措施 | 21655年 |
克利夫兰 | .68点e | .87点e | 点 | <措施 | .62e | 算下来e | .005 | 7152 |
哥伦布 | .62e | 54 | 收 | .018 | .62e | 票价e | <措施 | 3288 |
圣地亚哥 | .80e | .92e | .40e | <措施 | 多多e | .79e | <措施 | 8002 |
西雅图 | 开市e | 点e | 正e | 措施 | .62e | 点e | <措施 | 9735 |
一个流感样疾病
b所有推文和推文类别与每个城市急诊部门ILI率的相关系数。推文和ILI数据的比较开始于第40-41周(2013年9月29日至2013年10月6日),随着ILI数据按城市分类,并于第9周(2014年3月1日结束)结束。
c此列显示
d此列显示
e显著相关系数(
有效推文与急诊科ILI之间的相关性一个按城市收费。b
|
1. |
2. |
3. |
4. |
5. |
6. |
7. |
|
|
|
|
|
|
|
|
波士顿 | 23) | 17370年 | .411 | 收 | 3813 | .016 | <措施 |
芝加哥 | .51 | 21655年 | .017 | .80 | 5116 | <措施 | <措施 |
克利夫兰 | .68点 | 7152 | <措施 | 综合成绩 | 1497 | <措施 | <措施 |
哥伦布 | .62 | 3288 | .002 | .87点 | 1034 | <措施 | <措施 |
圣地亚哥 | .80 | 8002 | <措施 | 多多 | 1808 | <措施 | <措施 |
西雅图 | 开市 | 9735 | <措施 | 总共花掉 | 2941 | <措施 | <措施 |
一个流感样疾病
b所有推文和有效推文之间的相关系数,由机器学习分类器识别,与每个城市的急诊部门ILI率相关。推文和ILI数据的比较开始于第40-41周(2013年9月29日至2013年10月6日),随着ILI数据按城市分类,并于第9周(2014年3月1日结束)结束。
2013-14流感季节,每10万“有效”推文率与各城市急诊部门流感样疾病率的对比。
作为一项小型试点研究,圣地亚哥卫生与公众服务部能够提供2013-2014流感季节第40周至第9周实验室确认的流感病例数量。相关性是使用圣地亚哥每周所有推文和每个推文类别的推文数量来计算的。
推特与圣地亚哥实验室确认的流感病例数之间的相关性一个
所有微博 | 所有微博 | Non-retweet | Non-retweets | 转发 | 转发 | 没有URL的推文 | 没有URL的推文 | 带有UR的推文 | 带有URL的tweet | 有效的微博 | 有效的微博 |
|
|
|
|
|
|
|
|
|
|
|
|
多多 | <措施 | .92 | <措施 | .40 | <措施 | 多多 | <措施 | .79 | <措施 | 公布 | <措施 |
一个所有推文和所有类别推文的相关系数,包括从第40周(2013年10月6日开始)到第9周(2014年3月1日结束)圣地亚哥实验室确认流感病例数的有效推文。
这项研究是圣地亚哥州立大学的研究人员在2012-2013流感季节进行的探索性研究的延续,他们使用Twitter作为一种可能的方法来确定11个城市的流感发病率趋势。本文不包括每个城市的具体ILI率,因为我们想建立推文和ILI率之间的相关性,无论它们有多高或多低,而不是流感在城市本身的传播进程。2013-2014年流感季节的严重程度低于2012-2013年流感季节:ILI发病率较低,感染流感病毒株的人数较少。在收集推文的11个城市中,推文率和ILI率在第50周(截至2013年12月14日)和第2周(截至2014年1月11日)之间达到峰值。推文、哨点和急诊科的ILI率都遵循大致同时增加或减少的大致趋势。波士顿是唯一一个推特率在ILI率达到峰值的城市,无论是哨兵提供的还是急诊部门的ILI。然而,在波士顿,推文率和ILI率之间的相关性仅在查看有效推文和急诊科ILI (
按推文类别进行的单独分析提出了改进ILI率近似的方法。对于大多数城市,不转发的推文比转发的推文具有更高和更显著的相关性,没有URL的推文也比有URL的推文具有更高和更显著的相关性。非转发是完全原创的推文,是从用户的位置发布的,而转发是用户转发的其他人的推文。即使一条推文是从收集之外的区域发布的,由于转发推文的用户所在的位置,仍然可以获得转发。因此,转发可能并不能反映用户自身的健康和疾病。带有URL的推文很可能用于分享来自新闻来源或博客的信息,更可能代表用户的观点或情绪,而不是他们的实际健康状况。
在所有城市中,推文与急诊科ILI率的相关性都高于推文与哨兵提供的ILI率的相关性,圣地亚哥除外。这不仅适用于所有推文,而且适用于所有类别的推文。急诊科的ILI通常被强制报告给卫生部门,而哨点提供的ILI是自愿的,并基于一个地区的哨点医生。每周报告的医生人数可能会有很大差异,导致每周的比率不一致。就诊定点医生的患者可能更有可能接种过流感疫苗,因此报告的ILI率较低。在整个季节,与前哨提供的ILI活动相比,与急诊科ILI活动的相关性非常高,尽管在研究期结束时,相关性的差距已经缩小。
使用机器学习分类器,当使用哨岗提供的或急诊部门的ILI活动数据以及圣地亚哥实验室确认的流感病例数量时,许多城市的相关性最高。我们期望使用有效推文和ILI活动看到最高的相关性,无论是哨点和急诊部门的ILI率,因为通过识别有效推文,或更有可能表明用户患有流感类疾病的推文,可以消除大部分由非转发推文或没有URL的推文引起的噪音。在未来的信息监控活动中,我们建议使用经过机器学习分类器过滤的非转发推文和没有URL的推文,以提高与前哨ILI和急诊科ILI发现的最高水平相关性的有效性。
观察到高相关值(
使用社交媒体调查流感发病率的一个优势是,它可以加快公共卫生部门和卫生保健提供者的反应时间。本案例研究只研究了急诊部门和哨点医生报告的推文与ILI的相关性。通过观察ILI和推文是如何在第48周到第52周之间同时增加的,可以采取一种应对疫情的措施,无论是通过通知邻近社区流感病例的增加,还是提醒人们避开流感的方法。
本研究最大的局限性是ILI疾病报告监测系统。每周ILI报告的开始日期因城市而不同,尽管有些报告全年都有,其他报告在MMWR第40周开始,但丹佛直到MMWR第49周才发布ILI率。各城市的报告也因共享数据类型的不同而有所不同——有些城市同时拥有前哨提供的和急诊科的ILI数据,有些城市只有前哨提供的数据,西雅图只有急诊科的ILI数据。哨点提供者报告ILI的可选性质意味着人口相似的城市可能从不同数量的哨点提供者收集数据。例如,哥伦布通常只有两个或更少的哨兵提供者报告每周ILI率,因此对于一个超过80万居民的城市来说,ILI率是不可靠的。波士顿和芝加哥的推文和来自任何来源的ILI率之间的相关性也很低,无论是哨兵提供者还是急诊部门。很难确定为什么会出现这种情况,因为来自波士顿和芝加哥的报告没有包含被调查的哨点提供者或急诊部门的数量。正如Chew和Eysenbach所观察到的,由于波士顿和芝加哥的人口规模都非常大,收集的推文中可能有太多的噪音,即使不是由新闻来源发布的推文也是基于观点,而不是基于疾病[
虽然用户名、位置、关注人数、被关注人数和用户简介等信息可以与推文一起收集,但年龄、性别和种族等人口统计信息无法通过推文收集,因此很难确定谁在发布流感推文,以及应该针对谁开展公共卫生工作。2013年共有31%的推特用户报告他们的年龄在18-29岁之间。
社交媒体是数百万人使用的一个日益增长的平台,通过信息流行病学和信息监测研究,社交媒体作为公共卫生资源具有巨大潜力。这项研究证明了使用Twitter作为流感的补充监测工具的可重复性,因为更好的过滤和分类方法产生的相关性高于前一个流感季节的推文。被我们的机器分类器识别为有效的非转发推文和推文都与许多城市报告的ILI率高度相关,并指定未来应该收集哪些推文。
这一领域的进一步调查应包括将范围扩大到这11个城市以外,但还需要获得更多的ILI数据,以便发现可能的关联。我们的研究受到限制,因为只有11个城市的ILI数据可用,但如果更多的城市能够发布每周的ILI率,无论是哨点还是急诊室,或者两者兼有,我们的方法就可以得到更多的改进,也可以获得更多关于推文作为季节性流感趋势指标的可靠性的知识。现有的传统流感监测工作是长期和完善的,但如果通过改进的方法继续增加与社交媒体上用户生成的数据的相关性,对流感病例的实时估计不仅对遏制疫情和实时预测ILI发病率的公共卫生工作有价值,而且对易患病的一般人群也有价值。使用推特作为一种补充的大规模监测工具,以确定当地疾病的传播,以便更早地发现疾病的爆发,并为制定和实施旨在制止疾病传播的干预措施提供更多的时间,这种做法应当更加可信。
应用程序编程接口
疾病控制和预防中心
流感样疾病
发病率及死亡率周报
支持向量机
术语频率-文档频率倒数得分
本材料基于美国国家科学基金会1028177号资助的项目“CDI-Type II:将网络空间映射到现实空间:思想和语义网全球扩散的时空动态可视化和理解”。本材料中表达的任何观点、发现、结论或建议都是作者的观点,并不一定反映美国国家科学基金会的观点。
没有宣布。