这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
Twitter已经显示出在多个国家和不同地理范围内每周预测流感病例的一些有用性。最近,Broniatowski和他的同事提出了Twitter在纽约市的城市层面上的相关性。在这里,我们希望通过从时间和时空角度分析每日Twitter数据来深入研究纽约市的案例。此外,通过对所有推文进行手动编码,我们希望获得定性的见解,这有助于指导未来的自动搜索。
该研究的目的首先是验证2012-2013年纽约市流感季节期间流感样疾病急诊科(ILI-ED)访问的每日Twitter数据与其他可用和已建立的数据集(谷歌搜索查询或GSQ)的时间预测强度,其次,检查作为潜在病例代理的地理编码推文的空间分布和传播。
从Twitter Streaming API中,纽约市地区收集了2972条匹配关键词“流感”、“流感”、“感冒”和“高烧”的推文。这些推文根据Lamb等人开发的方案进行分类。新的第四个类别被添加为评估者对受试者生病概率的猜测,以说明对陈述有效性的信心强度。将推文与每日ILI-ED访问量和每日GSQ量进行时间相关性。最佳模型用于线性回归预测ILI就诊次数。采用SaTScan软件加权、回顾性Poisson模型(n=1484)和矢量地图进行时空分析。
与感染有关的推文(
虽然其他人研究了每周的区域推文,但这项研究是第一次对推特上纽约市的每日城市级数据进行压力测试。对感染相关推文的个人证词的提取表明,与GSQ等混合了基于意识的数据的替代日常数据集相比,Twitter在定性和定量上都具有ILI-ED预测的优势。此外,细粒度的Twitter数据提供了重要的时空洞见。当无法获得当地的黄金标准数据时,推文矢量图可能有助于可视化城市级别的传播。
据估计,季节性流感流行每年在全世界造成300万至500万例重症病例和25万至50万例死亡[
Eysenbach等人在2006年首次提出了使用GSQ数据量检测疫情的想法[
Twitter作为一种及时信号检测机制的承诺催生了构建监控工具的努力,包括MappyHealth [
官方流感样疾病急诊科就诊次数(ILI-ED)来自纽约市政府发布的《每周流感监测报告》[
谷歌Trends提供给定地理区域内用户进入谷歌的查询量的时间序列索引。查询索引基于查询份额:特定地理区域内有关搜索词的总查询量除以所检查的时间段内该区域的查询总数。最大查询归一化为100,在检查的初始日期的查询共享归一化为零[
使用Twitter Streaming API,从2012年10月15日到2013年5月10日收集地理编码的推文;与Broniatowski及其同事建议的方法不同,我们的方法不涉及将流感相关的推文与每周或每天的推文总数进行标准化。之所以没有这样做,是因为我们看到了每天推文的基线数量的变化,而且每天的推文量很低(高峰季节从0到120条推文不等)。
这些推文是根据地理边界框(40.44,−74.93)到(41.12,−72.63)选择的。选择这个窗口是为了计算从新泽西和长岛通勤到纽约市的人。假设将边界框移到离城市更远的地方,推文的信号位置不会发生显著变化;然而,更大的区域将允许更大的推文量进行分析。为了确定tweet是否在感兴趣的框架内,首先检查tweet的纬度和经度。如果缺少tweet位置,则使用配置文件的纬度和经度。用户还可以为他们的个人资料定义一个基于文本的位置,但这些推文无法可靠地确定是否在边界框内,因此被排除在外。Dredze等人开发了“Carmen”系统,该系统通过交叉引用定位关键字到数据库来对推文进行地理定位,但将带有GPS戳的推文与定位于更广泛区域的推文进行比较仍然存在困难[
然后将关键字过滤器应用于我们的推文集合:“flu”、“gripe”、“influenza”和“high fever”是不区分大小写、有单词限制的包含字符串。“Avian”、“stomach”和“bird”是排除字符串。虽然本研究的目的不是优化关键词选择,但进行了初步研究,以观察添加其他ILI症状和药物的包含词对信噪比的影响。Ginsberg和同事们使用线性回归模型系统地构建了一组45个重要的谷歌流感趋势关键字[
收集过滤后的推文后,所有2972条推文都被手动管理。来自同一用户的重复推文首先从数据集中删除。然后,我们使用Lamb等人建立的模型创建了推特分类的类别[
所有推文在与日期分离后都被贴上标签,以防止预期的常规流感季节对分类产生偏见。这些类别被分为12个四字母代码和一个无关推文的额外代码。总体而言,相关感染-自高/相关感染-自中(RISH/RISM)和相关感染-其他高/相关感染-其他中(RIOH/RIOM)构成了流感或流感样症状人群的推文;相关-感染-自我低/相关-感染-他人低(RISL/RIOL)分组推文针对正在康复的人群;相关意识-自我高/相关意识-自我中(RASH/RASM)通常将对流感疫苗有负面反应的人的推文分组;相关意识-自我低(RASL)对流感疫苗和成功接种的推文进行分组;相关-意识-他者-高/相关-意识-他者-中(RAOH/RAOM)指不同程度的新闻媒体警示;以及关注公众健康意识和治疗的相关意识-他人低(RAOL)分组推文。这个方案的例子可以在
这项研究中使用的推文是公开分发的。用户必须签署Twitter条款和协议,并同意公共隐私设置,才能同意阅读这些推文。由于该项目不符合人体受试者研究的标准,因此获得了IRB的豁免审批。然而,出于这项研究的目的,推特用户的id没有被收集,所以每条推特实体都保持匿名。随后的分析依赖于推文内容、推文频率(聚合)和推文位置。
首先,在每个Twitter类别时间序列和GSQ时间序列与纽约市的ILI-ED时间序列之间构建皮尔逊相关值。接下来,使用AR(自回归)模型对ILI数据进行预测。ILI为因变量,GSQ和最强类别Twitter数据分别为不同模型中的自变量。每个模型在2013年1月6日至2013年2月23日期间进行了7周的测试,以比较在流感季节波动高峰期间ILI访问的预测能力。
由于所选推文是地理编码的,并包含日期戳,因此它们也是事实时空数据。使用SaTScan软件[
2012年10月15日至2013年5月10日期间,在纽约市范围内共使用了1484条RISM和RISH推文进行时空分析。RISH推文被视为潜在的流感病例,而RISM推文被视为对照病例。这些推文也基于它们与黄金标准ILI访问的季节性时间序列相关值进行加权(RISH=。689, RISM=.655),以更好地反映它们与真实流感病例的相对相关性。在分配权重后,使用泊松概率模型为扫描窗口中的每个柱体搜索具有过量RISH推文(与控制RISM推文相比)的高集群。采用Jung和Kulldroff所描述的方法,根据似然比检验统计量确定了主要和次要聚类[
SaTScan提供前瞻性分析功能,预测风险比较高的区域。我们研究了以一种可从Web应用程序访问的方式以另一种方式表示这些结果。方法是为更大的纽约地区构建一个矢量地图。这个想法是使用一个气象图的类比,风从高压地区移动到低压地区。压力是由可能生病的啾啾的密度来模拟的,风代表了密度的局部变化方向。具体来说,对于每个0.1 x 0.1的十进制网格,计算出流感相关推文百分比的每周变化。绘制一个向量,指向流感相关推文正百分比增长最高的相邻单元格的方向,远离百分比下降的单元格。红色代表更高的增长率。该模型的基本假设是,感染在邻近区域之间局部传播。虽然有人认为疾病传播在空间上不是连续的,但该模型展示了城市级别流感动态的许多可能表示形式之一(因此是网格维度),以及如何显示实时公共卫生工具。 Sadilek et al have suggested the importance of colocation with other sick tweeters (friends or otherwise) in their individual-based model of spatiotemporal prediction. Therefore, understanding changes in sick tweeter colocation is importantly indicated by our wind-map. The macro-level validation of our model will come only with the availability of more gold-standard, spatiotemporal data.
时间窗口的空间模型及其与空间预测因子协变量(年龄、种族、人口密度、到学校和地铁的距离、离家的距离、到接种地点的距离)的关系的进一步讨论可以在图8和图9中找到
计算推文计数的时间序列,首先评估数据的质量。我们将收集到的90%以上的推文归类为相关推文。大多数推文都是关于自我(S),关于被感染(I)或有ILI症状,并被列为受试者患病的高概率(H),如图所示
然后将每个时间序列,包括GSQ时间序列,与ILI数据进行比较并进行排名(见
分类推文和搜索查询数据的质量。
推特集团一个 | 推文百分比 | 时间序列 | 皮尔森相关 | |
有关 |
|
0.907 | 感染 | .763 |
自我 |
|
0.689 | 优秀的 | .689 |
感染 |
|
0.628 | 有关 | .687 |
高 |
|
0.497 | GSQ | .683 |
意识 |
|
0.279 | 自我 | .677 |
媒介 |
|
0.223 | 媒介 | .668 |
其他 |
|
0.219 | 其他 | .666 |
低 |
|
0.188 | 高 | .665 |
无关紧要的 |
|
0.082 | RISM | .655 |
|
|
|
RIOH | .616 |
|
|
|
RAOM | .587 |
|
优秀的 | 0.399 | 意识 | .549 |
|
RASL | 0.107 | RASM | .545 |
|
RISM | 0.100 | RISL | .542 |
|
RAOM | 0.058 | RIOM | .511 |
|
RIOH | 0.054 | 低 | .451 |
|
RISL | 0.041 | 现在 | .411 |
|
现在 | 0.040 | RASL | .351 |
|
RASM | 0.037 | 皮疹 | .322 |
|
RAOL | 0.032 | RAOL | .277 |
|
RIOM | 0.027 | RIOL | .254 |
|
RIOL | 0.007 | 无关紧要的 | .213 |
|
皮疹 | 0.005 |
|
|
一个相关(R),意识(A),感染(I),自我(S),其他(O),高(H),中(M),低(L)。
推文类别和ILI-ED访问之间的时间序列比较。
比较感染推文和基于意识的数据。
为了比较Twitter、GSQ和ILI时间序列数据集,我们首先使用带有EVIEWS-7统计包的增强迪基-富勒(ADF)检验来确认单位根的存在。然后调整每个数据集以满足平稳性测试。在执行一阶差分之前,数据集在1%显著性水平上不是平稳的(
然后对时滞数据集进行Englemen Granger协整检验。建立协整性和平稳性允许在我们的回归模型中确定一致估计量。我们的方法存在一个缺点:没有测试季节性,因为可用的数据只包括一个季节。关于工作日效应和为什么周周期项不包括在模型中的讨论可以在
第一个AR模型结合了感染时间序列数据和第一周14天的滞后ILI数据。时间滞后反映了在公开报告更新的ILI-ED访问计数方面的实际延迟。模型和结果如图所示
模型1:ILI=
上述模型的结果表明,时滞ILI数据对预测不显著。这说服我们修改模型,只纳入感染推文时间序列数据。在整个7周内,感染推文时间序列的最佳模型有以下形式:
模型2:ILI=
我们对GSQ数据重复了相同的过程,构建了一个模型,将第一周的GSQ数据和ILI滞后数据结合起来。结果列在
模型3:ILI=
我们再次发现滞后的ILI数据不显著,并将其从后续的GSQ模型中剔除。对于谷歌搜索查询数据,构建以下模型,通过调整时间序列滞后来优化其预测得分。
模型4:ILI=
模型5:ILI=
两个GSQ和Twitter感染模型然后通过它们的平均绝对百分比误差(MAPE)进行比较
使用感染推文时间序列进行时间预测的平均MAPE为8.4。
ILI的增强ADF检验一个、Twitter和谷歌搜索查询数据。
|
伊犁 | Twitter感染 | 谷歌搜索查询 | ||||
|
概率 |
|
概率 |
|
概率 | ||
ADF检验 |
|
−1.902 | 0.331 | −2.569 | 0.101 | −2.844 | 0.054 |
|
|||||||
|
1%的水平 | −3.462 | −3.463 |
|
−3.463 | ||
|
5%的水平 | −2.876 | −2.876 |
|
−2.876 | ||
|
10%的水平 | −2.574 | −2.574 |
|
−2.574 | ||
|
|
非平稳 | 非平稳 | 非平稳 |
一个流感样疾病
b自由度=203
ILI的增强ADF检验一个、Twitter和谷歌搜索查询数据具有一阶滞后。
|
|
Δ伊犁b | ΔTwitter感染b | ΔGoogle搜索查询b | |||
|
|
|
概率 |
|
概率 |
|
概率 |
ADF检验 |
|
−12.544 | 0.000 | −19.358 | 0.000 | −6.920 | 0.000 |
|
|||||||
|
1%的水平 | −3.463 | −3.463 | −3.463 | |||
|
5%的水平 | −2.876 | −2.876 | −2.876 | |||
|
10%的水平 | −2.574 | −2.574 | −2.574 | |||
|
|
静止的 | 静止的 | 静止的 |
一个流感样疾病
bΔ=一阶滞后
c自由度=202
模型(1)的结果。
变量 | 系数 | 标准错误 |
|
概率 |
感染(−1) | −2.174 | 1.016 | −2.140 | 0.036 |
伊犁一个(−14) | 0.224 | 0.142 | 1.576 | 0.120 |
基于“增大化现实”技术b(1) | 1.007 | 0.016 | 61.676 | 0.000 |
一个流感样疾病
b基于“增大化现实”技术:自回归
c自由度=188
模型(3)的结果。
变量 | 系数 | 标准错误 |
|
概率 |
GSQ一个(−3) | 0.069 | 0.031 | 2.218 | 0.030 |
伊犁b(−14) | 0.212 | 0.147 | 1.444 | 0.154 |
基于“增大化现实”技术c(1) | 0.690 | 0.125 | 5.515 | 0.000 |
基于“增大化现实”技术(2) | 0.315 | 0.127 | 2.476 | 0.016 |
一个GSQ:谷歌趋势搜索查询
b流感样疾病
c基于“增大化现实”技术:自回归
d自由度=188
日军一个感染推文和GSQ得分bILI模型c预测。
|
推特模型 | GSQ模型 | ||
Durbin-Watson统计 | 日军(静态) | Durbin-Watson统计 | 日军(静态) | |
1/06-1/12 | 2.00 | 4.7 | 2.04 | 5.5 |
1/13-1/19 | 2.11 | 6.9 | 2.13 | 15.8 |
1/20-1/26 | 2.16 | 11.8 | 2.16 | 12.4 |
1/27-2/02 | 2.07 | 10.4 | 2.04 | 11.3 |
2/03-2/09 | 2.09 | 8.2 | 2.06 | 7.9 |
2/10-2/16 | 2.08 | 14.8 | 2.05 | 15.2 |
2/17-2/23 | 2.08 | 15.3 | 2.05 | 14.5 |
一个MAPE:平均绝对百分比误差
bGSQ:谷歌趋势搜索查询
c流感样疾病
使用感染推特模型(模型2)预测il - ed的访问次数为红色。
根据回顾性分析[
右图:基于流感感染的推文高风险的回顾性主要时空聚类(p < .001),由泊松模型确定,病例为高概率流感推文,对照组为中概率流感推文,按周聚合,并在2012年10月15日至2013年5月10日期间在纽约市使用特定内容的共变量权重。左上:震中位于(40.685,-79.983),半径0.48英里,包括巴克莱中心和大西洋大道终点站等人群聚集的地方。左下:对本地感染推文传播的每周变化建模的前瞻性方法。
这项研究的主要目的是评估推特数据在预测纽约市每日当地流感病例方面的强度。我们使用关键字过滤器和位置过滤器选择Twitter数据的方法返回了一个包含90%以上相关推文的数据集。每日感染推文显示与每日ILI访问量的相关性最高(
推特数据(感染和RISH)显著优于每日GSQ数据(
在考虑时间预测时,感染推文的表现优于GSQ数据。虽然对非流感高峰期的预测具有可比性,但MAPE在2013年1月6日至2月23日之间的差异很明显,其中包括流感季节的峰值和最高波动。感染推文模型的平均MAPE为8.4,而GSQ模型的MAPE为11.8。重要的是,现有的和官方发布的滞后ILI数据在预测实时ILI病例方面没有统计学意义。这进一步强调了对替代实时数据源(如Twitter)的需求。
时空分析也提供了有价值的见解。特别是,在11月至3月的时间段内,在布鲁克林北部发现了一个高概率患病推特用户与中等概率感染推特用户比例较高的主要集群。该集群包括巴克莱中心和大西洋大道终点站,这两个地方都是人群聚集和通勤的地方,因此感染和/或传播流感的可能性增加。目前还不确定是什么因素导致了高可信度感染推文的倾向增加,或者引引性地说,是什么因素导致了该群体中疾病的增加。纽约市卫生局确实有每个行政区的每日时间序列数据(见
这项研究面临着一些局限性。对推文进行分类强调,文本解释是一项艰巨的任务,需要具有相关语言和感兴趣地区上下文知识的人类口译员。识别俚语、拼写错误、Twitter词汇、内部引用、时事、意图和推文情绪的能力,为机器学习算法、经验丰富的研究人员和合同数据分类器提取意义和情绪设置了很高的门槛。对于推文密度较高的大都市地区,多种语言可以发挥作用。例如,“gripe”在英语中是抱怨的意思,但在葡萄牙语和西班牙语中是流感的意思;这也是法语中“grippe”的拼写错误。此外,这些推文仅用英语和西班牙语进行了查询。在推文量已经很低的情况下,需要捕捉其他语言,如意大利语、葡萄牙语、马来语和他加禄语,以完善模型。当涉及到定性编码时,检查评分者之间的可靠性是关键,因为这个过程本质上是主观的。我们正在附加数据集
这里使用的分类方法也是手动的,关键字的选择没有通过从大量关键字中迭代删除来优化。也就是说,我们的目的并不是为了获得最高的相关值,因为最优的关键词在时间框架和地区是不同的。虽然此处使用的手动方法具有消除自动分类可能导致的假阳性/阴性的优点(正如通常报道的那样[
最后,建模方法存在局限性。对于时间建模,在时间序列分析中没有考虑季节性因素。这是由于缺乏回顾性ILI和Twitter数据访问。由于流感是周期性的,季节性问题在预测流感高峰的几周是极其相关的。对于空间模型,地理编码的推文数量很少,这对分析的能力有明显的限制。虽然纽约市的许多推特用户可能也在推特上说他们生病了(没有地理编码),但目前还无法通过可用数据验证他们确实是在纽约市内发推文。然而,地理编码的推文预计在未来几年还会增长,随着这种增长,有可能会有更高的统计能力[
这不是第一个证明Twitter在预测流感病例方面的相关性的研究。Broniatowski和同事最近对纽约市Twitter的研究可以作为时间分析的比较基础[
从时空的基础上,考虑这项工作如何与Sadilek等人提出的框架相关联是很重要的。
最后,我们看到了Lamb等人通过包括评估者猜测来改进分类方案的途径。这个因素可以解释推特人的讽刺、语气和自信。这一因素在为病例与对照组“生病”推文的时空分析建立基础方面也至关重要。
这项研究提出了几个主要的结论。这是第一个将每日城市级别的推特数据作为预测纽约市ILI急诊科实时访问的手段的研究。它还提出了一些有用的模型,可以利用地理编码的Twitter数据来了解潜在的疾病热点(如巴克莱中心和大西洋大道终结点),因为它们在整个流感季节都在移动。这些信息将与考虑疫苗接种地点的可用性和可及性以及监测持续的疫苗接种率有关。Twitter还可以通知公共卫生官员当地即将到来的疾病负担。公共卫生官员已经使用SaTScan和电子病历(EMR)数据来跟踪疾病在空间和时间上的异常爆发。现在,Twitter可以从个人报告中提供加权的潜在案例来改进这些模型。当无法通过其他方式获得超本地确认的流感病例数据时,Twitter提供了一个实时信息数据源。这些信息可以被过滤以选择特定于感染的推荐,作为一个数据集,它优于来自谷歌Trends搜索查询的混合意识的每日数据。这些数据还可以在独特的前瞻性模型中加以利用,以预测ILI在空间和时间上的趋势(参见中图5)
展望未来,定义本地化的阈值将是至关重要的,Twitter可以成为一个有用的预测数据集。为了让Twitter数据得到验证,黄金标准公共卫生数据必须更容易获得。在纽约市行政区测试流感病例的相关值,开始显示Twitter在本地ILI-ED预测方面的能力的局限性(见图7)
分类推文的例子。
搜索短语进行自动搜索;时间模型中工作日效应的考虑;纽约市患病鸣禽的空间模型及其与疫苗接种地点的关系;基于意识的数据的时间趋势;面向在线Web应用的矢量地图构建黄金标准,每日预测在纽约市的行政区级别。
与流感相关的推文及其相关代码。
意识推
自回归
谷歌趋势查询查询
高概率的推文真实性
感染推
流感样疾病急诊科就诊
推文真实性概率低
推文真实性的中等概率
平均绝对误差百分比
纽约市
推文的主题是“其他人”
相关微博
推文的主题是自我
我们要感谢耶鲁大学的Kristina Talbert-Slagle教授和Elizabeth Bradley教授在项目期间的洞察力和支持。我们也要感谢推特通过他们的API和耶鲁全球卫生领域经验奖以及国家医学图书馆的NIH赠款:5 R01 LM010812-05提供数据,这在一定程度上帮助资助了这项研究。
RN、CF、AN采集数据。RN和QY对数据进行编码。RN、QY和MS分析了时间模型。RN分析了空间和时空模型。RN撰写了手稿,并进行了所有后续的修订。MS, QY, RC, CF和JSB对手稿做出了反馈。JSB是主要研究者。赞助者在这份手稿的设计、分析或写作中没有任何作用。
没有报道。