卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析JMIR出版公司

加拿大多伦多

v16i10e236

25331122

10.2196 / jmir.3416

原始论文

纽约市2012-2013年流感季节的案例研究与每日地理编码的推特数据从时间和时空角度

Eysenbach

冈瑟

康

最小值

祖文萃

Ming-Hsiang

忠实的否决权

Onicio

纳加尔

Ruchit

儿童医院信息项目波士顿儿童医院

秋天街1号

波士顿,MA,

美国 1 2817258062 1 6177300267 ruchit.nagar@yale.edu

http://orcid.org/0000-0002-9461-8121

元

庆余

博士学位 1 3.

http://orcid.org/0000-0002-7542-8402

Freifeld

克拉克C

博士学位 4

http://orcid.org/0000-0002-6281-219X

Santillana

毛里西奥

博士学位 1 5 6

http://orcid.org/0000-0002-4206-418X

Nojima

亚伦

1 7

http://orcid.org/0000-0001-9787-4465

Chunara

鲁米

博士学位 1 8

http://orcid.org/0000-0002-5346-7259

布朗斯坦

约翰年代

博士学位 1 6 8

http://orcid.org/0000-0001-8568-5317

¹ 儿童医院信息项目波士顿儿童医院

波士顿

美国 ² 耶鲁大学

康涅狄格州纽黑文

美国 ^3. 管理学院中国科学院大学

北京

中国 ⁴ 波士顿大学生物医学工程系

波士顿

美国 ⁵ 哈佛大学工程与应用科学学院“，

剑桥,麻

美国 ⁶ 哈佛大学公共卫生学院

波士顿

美国 ⁷ 麻省理工学院

剑桥,麻

美国 ⁸ 儿科哈佛医学院

波士顿

美国

通讯作者:Ruchit Nagar ruchit.nagar@yale.edu

10 2014

20. 10 2014

16 10

e236

22 03 2014 15 06 2014 08 08 2014 30. 08 2014

©Ruchit Nagar, Qingyu Yuan, Clark C Freifeld, Mauricio Santillana, Aaron Nojima, Rumi Chunara, John S Brownstein。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2014年10月20日。

2014

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

Twitter已经显示出在多个国家和不同地理范围内每周预测流感病例的一些有用性。最近，Broniatowski和他的同事提出了Twitter在纽约市的城市层面上的相关性。在这里，我们希望通过从时间和时空角度分析每日Twitter数据来深入研究纽约市的案例。此外，通过对所有推文进行手动编码，我们希望获得定性的见解，这有助于指导未来的自动搜索。

客观的

该研究的目的首先是验证2012-2013年纽约市流感季节期间流感样疾病急诊科(ILI-ED)访问的每日Twitter数据与其他可用和已建立的数据集(谷歌搜索查询或GSQ)的时间预测强度，其次，检查作为潜在病例代理的地理编码推文的空间分布和传播。

方法

从Twitter Streaming API中，纽约市地区收集了2972条匹配关键词“流感”、“流感”、“感冒”和“高烧”的推文。这些推文根据Lamb等人开发的方案进行分类。新的第四个类别被添加为评估者对受试者生病概率的猜测，以说明对陈述有效性的信心强度。将推文与每日ILI-ED访问量和每日GSQ量进行时间相关性。最佳模型用于线性回归预测ILI就诊次数。采用SaTScan软件加权、回顾性Poisson模型(n=1484)和矢量地图进行时空分析。

结果

与感染有关的推文( R=.763)的相关性优于GSQ时间序列( R=.683)，在流感最不稳定的1月份，il - ed就诊预测的平均百分比误差(8.4 vs 11.8)较低。SaTScan确定了高概率感染推文的主要爆发集群，与中等概率感染推文相比，相对风险比为2.74 P=。在布鲁克林北部，包括巴克莱中心和大西洋大道终点站在内的半径内。

结论

虽然其他人研究了每周的区域推文，但这项研究是第一次对推特上纽约市的每日城市级数据进行压力测试。对感染相关推文的个人证词的提取表明，与GSQ等混合了基于意识的数据的替代日常数据集相比，Twitter在定性和定量上都具有ILI-ED预测的优势。此外，细粒度的Twitter数据提供了重要的时空洞见。当无法获得当地的黄金标准数据时，推文矢量图可能有助于可视化城市级别的传播。

流感推特纽约市时空谷歌流感趋势 infodemiology 移动健康社交媒体，自然语言处理医学信息学

简介

据估计，季节性流感流行每年在全世界造成300万至500万例重症病例和25万至50万例死亡[ 1］．为了更好地控制季节性流感流行和下一次流感大流行，研究人员提出了几种“信息流行病学”方法[ 2， 3.]利用互联网数据，如谷歌搜索查询(GSQ)，实现近实时监控[ 4- 8]和文本推特数据[ 9- 15］．

Eysenbach等人在2006年首次提出了使用GSQ数据量检测疫情的想法[ 4]，然后由Ginsburg等人在谷歌流感趋势项目中改进[ 5］．直到最近，谷歌流感趋势与每周流感样疾病(ILI)发病率相匹配，但最近2012-2013年美国流感季节被高估了200% [ 16］．尽管在迄今为止最严重的流感季节之一，这一案例为提高警惕提供了动力，但该案例表明，谷歌流感趋势本身对流感预测具有局限性，并促使人们寻求改进的模型[ 17， 18］．新的模型可以寻找完善的算法，但也可以寻找独立的数据集来提高预测能力。有了可能生病的推特用户的个人文本数据，Twitter提供了一个丰富的替代数据集。Twitter流行病监测最早由Ritterman等人(2009)提出[ 9他的研究表明，监测推文可以通过提供H1N1疫情等外部事件的早期预警来提高市场预测模型的准确性。Chew和Eysenbach随后评估了Twitter对2009年猪流感爆发的回应的内容和来源，看到了公共卫生见解的潜力[ 19］．Culotta最近的论文[ 20.， 21]， Signorini [ 22]， Vadileios [ 10， Kim [ 12]，桑托斯[ 23]和Achrekar [ 15]等人已经证明了推特数据在每周回顾性预测国家和地区流感病例方面的有用性。Broniatowski和同事们最近考虑了Twitter对纽约市市级病例的时间预测强度，他们采用了一种前瞻性方法[ 24］．

Twitter作为一种及时信号检测机制的承诺催生了构建监控工具的努力，包括MappyHealth [ 25]， germTracker [ 26]，登革热观察站[ 27]、Infovigil [ 28]，以及SickWeather [ 29］．但对Twitter的时间预测能力的研究并没有充分解决如何将信息带到具体的本地规模。在本文中，我们将通过分析来自时空模型的每日Twitter数据来深入研究纽约市的案例。我们通过第一个考虑每日数据(Twitter和GSQ)来预测流感病例，并通过使用地理位置推文来估计流感在城市内传播的概率，来寻找新的见解。

方法数据源

官方流感样疾病急诊科就诊次数(ILI-ED)来自纽约市政府发布的《每周流感监测报告》[ 30.］．这些报告被编成每日细目。ILI病例的数据使用光学绘图阅读软件(WebPlotDigitizer [ 31])，由每个日值的像素计数验证。纽约市的总计数数据和每个行政区的计数数据是通过这种方法确定的。之所以采用这种方法，是因为纽约市卫生部无法提供其他数据。

谷歌趋势查询数据

谷歌Trends提供给定地理区域内用户进入谷歌的查询量的时间序列索引。查询索引基于查询份额:特定地理区域内有关搜索词的总查询量除以所检查的时间段内该区域的查询总数。最大查询归一化为100，在检查的初始日期的查询共享归一化为零[ 7］．该查询共享也随时间变化。在我们的模型中，使用的搜索查询是“流感”、“抱怨”、“流感”和“高烧”。根据我们的调查，这些问题给出了最高的信号。更重要的是，这些准确的关键词也被用于tweet收集，作为比较的基础。谷歌提供州和(有限的)城市搜索的每周数据。必须通过查询重叠时间段的搜索量，并沿时间序列按比例调整查询索引来提取每日数据。这些趋势数据都是在一天内(2013年5月11日)下载的，因为谷歌会随着时间改变信号显示。值得注意的是，这些数据与每周谷歌流感趋势(GFT)数据不同，后者不提供每日细分数据，也未用于本研究。话虽如此，GSQ可能会成为GFT的潜在代表。 When comparing the 7-day GSQ volume totals with GFT weekly volume hits, their correlation coefficient was .78 between September 23, 2012 and May 5, 2013.

Twitter数据

使用Twitter Streaming API，从2012年10月15日到2013年5月10日收集地理编码的推文;与Broniatowski及其同事建议的方法不同，我们的方法不涉及将流感相关的推文与每周或每天的推文总数进行标准化。之所以没有这样做，是因为我们看到了每天推文的基线数量的变化，而且每天的推文量很低(高峰季节从0到120条推文不等)。

这些推文是根据地理边界框(40.44，−74.93)到(41.12，−72.63)选择的。选择这个窗口是为了计算从新泽西和长岛通勤到纽约市的人。假设将边界框移到离城市更远的地方，推文的信号位置不会发生显著变化;然而，更大的区域将允许更大的推文量进行分析。为了确定tweet是否在感兴趣的框架内，首先检查tweet的纬度和经度。如果缺少tweet位置，则使用配置文件的纬度和经度。用户还可以为他们的个人资料定义一个基于文本的位置，但这些推文无法可靠地确定是否在边界框内，因此被排除在外。Dredze等人开发了“Carmen”系统，该系统通过交叉引用定位关键字到数据库来对推文进行地理定位，但将带有GPS戳的推文与定位于更广泛区域的推文进行比较仍然存在困难[ 32］．

然后将关键字过滤器应用于我们的推文集合:“flu”、“gripe”、“influenza”和“high fever”是不区分大小写、有单词限制的包含字符串。“Avian”、“stomach”和“bird”是排除字符串。虽然本研究的目的不是优化关键词选择，但进行了初步研究，以观察添加其他ILI症状和药物的包含词对信噪比的影响。Ginsberg和同事们使用线性回归模型系统地构建了一组45个重要的谷歌流感趋势关键字[ 5］．Kim等人在韩文Twitter上也使用了类似的方法[ 12］．然而，最佳关键字随着时间和地理区域的变化而变化，因此我们的方法专注于获得一个既强又具体的信号，而不关心下一个最佳关键字的边际值的递减。我们的搜索范围很广，足以涵盖前11个与ili相关的搜索查询主题，这些主题将谷歌流感趋势45个关键字分组。

收集过滤后的推文后，所有2972条推文都被手动管理。来自同一用户的重复推文首先从数据集中删除。然后，我们使用Lamb等人建立的模型创建了推特分类的类别[ 33]:相关(R) vs不相关(Ir)，意识(A) vs感染(I)，自我(S) vs他人(O)。此外，添加了第四个选项(Lamb等人不包括)来标记高(H) vs中(M) vs低(L)——对受试者提到生病概率的猜测。这个分类可以通过对主题生病的真实性进行排序，帮助区分讽刺推文和严肃推文。germTracker和CrowdBreaks也利用用户对主题疾病的猜测来利用基于人为的推文分类[ 34］．

所有推文在与日期分离后都被贴上标签，以防止预期的常规流感季节对分类产生偏见。这些类别被分为12个四字母代码和一个无关推文的额外代码。总体而言，相关感染-自高/相关感染-自中(RISH/RISM)和相关感染-其他高/相关感染-其他中(RIOH/RIOM)构成了流感或流感样症状人群的推文;相关-感染-自我低/相关-感染-他人低(RISL/RIOL)分组推文针对正在康复的人群;相关意识-自我高/相关意识-自我中(RASH/RASM)通常将对流感疫苗有负面反应的人的推文分组;相关意识-自我低(RASL)对流感疫苗和成功接种的推文进行分组;相关-意识-他者-高/相关-意识-他者-中(RAOH/RAOM)指不同程度的新闻媒体警示;以及关注公众健康意识和治疗的相关意识-他人低(RAOL)分组推文。这个方案的例子可以在多媒体附件1．

道德

这项研究中使用的推文是公开分发的。用户必须签署Twitter条款和协议，并同意公共隐私设置，才能同意阅读这些推文。由于该项目不符合人体受试者研究的标准，因此获得了IRB的豁免审批。然而，出于这项研究的目的，推特用户的id没有被收集，所以每条推特实体都保持匿名。随后的分析依赖于推文内容、推文频率(聚合)和推文位置。

预测模型时间

首先，在每个Twitter类别时间序列和GSQ时间序列与纽约市的ILI-ED时间序列之间构建皮尔逊相关值。接下来，使用AR(自回归)模型对ILI数据进行预测。ILI为因变量，GSQ和最强类别Twitter数据分别为不同模型中的自变量。每个模型在2013年1月6日至2013年2月23日期间进行了7周的测试，以比较在流感季节波动高峰期间ILI访问的预测能力。

时空(回顾)

由于所选推文是地理编码的，并包含日期戳，因此它们也是事实时空数据。使用SaTScan软件[ 35]，我们能够对2012-2013年流感季节进行回顾性地理监测，以检测具有统计学意义的时空疾病集群。空时测试统计量由圆底圆柱窗定义。圆形基底表示空间扫描，其大小从0到捕捉给定推文50%的人口风险。这组圆形碱基扫描地图以寻找潜在的集群。类似地，圆柱体的高度表示地图的时间序列，从0到总时间段的50%不等。圆柱体在空间上横向移动，在时间上垂直移动(以每周步骤聚合)，以识别整个研究区域的可能聚类，以生成测试统计量。

2012年10月15日至2013年5月10日期间，在纽约市范围内共使用了1484条RISM和RISH推文进行时空分析。RISH推文被视为潜在的流感病例，而RISM推文被视为对照病例。这些推文也基于它们与黄金标准ILI访问的季节性时间序列相关值进行加权(RISH=。689, RISM=.655)，以更好地反映它们与真实流感病例的相对相关性。在分配权重后，使用泊松概率模型为扫描窗口中的每个柱体搜索具有过量RISH推文(与控制RISM推文相比)的高集群。采用Jung和Kulldroff所描述的方法，根据似然比检验统计量确定了主要和次要聚类[ 36］．

时空(潜在)

SaTScan提供前瞻性分析功能，预测风险比较高的区域。我们研究了以一种可从Web应用程序访问的方式以另一种方式表示这些结果。方法是为更大的纽约地区构建一个矢量地图。这个想法是使用一个气象图的类比，风从高压地区移动到低压地区。压力是由可能生病的啾啾的密度来模拟的，风代表了密度的局部变化方向。具体来说，对于每个0.1 x 0.1的十进制网格，计算出流感相关推文百分比的每周变化。绘制一个向量，指向流感相关推文正百分比增长最高的相邻单元格的方向，远离百分比下降的单元格。红色代表更高的增长率。该模型的基本假设是，感染在邻近区域之间局部传播。虽然有人认为疾病传播在空间上不是连续的，但该模型展示了城市级别流感动态的许多可能表示形式之一(因此是网格维度)，以及如何显示实时公共卫生工具。 Sadilek et al have suggested the importance of colocation with other sick tweeters (friends or otherwise) in their individual-based model of spatiotemporal prediction. Therefore, understanding changes in sick tweeter colocation is importantly indicated by our wind-map. The macro-level validation of our model will come only with the availability of more gold-standard, spatiotemporal data.

时间窗口的空间模型及其与空间预测因子协变量(年龄、种族、人口密度、到学校和地铁的距离、离家的距离、到接种地点的距离)的关系的进一步讨论可以在图8和图9中找到多媒体附件2．

结果时间

计算推文计数的时间序列，首先评估数据的质量。我们将收集到的90%以上的推文归类为相关推文。大多数推文都是关于自我(S)，关于被感染(I)或有ILI症状，并被列为受试者患病的高概率(H)，如图所示表1．这些Pearson相关值对应于2012年10月15日至2013年5月10日的推文。

然后将每个时间序列，包括GSQ时间序列，与ILI数据进行比较并进行排名(见表1)．2012年10月15日至2013年5月10日期间，感染、RISH和相关组和亚组与金标准ILI数据的Pearson相关性较高。图1说明了上述与ILI数据的关系。

图2说明了GSQ和Twitter数据之间的比较，两者都与ILI进行了比较。请注意，GSQ和Twitter“意识”时间序列之间的Pearson相关性为。934。2013年1月10日，波士顿宣布流感进入公共卫生紧急状态。

表1

分类推文和搜索查询数据的质量。

推特集团^一个		推文百分比	时间序列	皮尔森相关
有关		0.907	感染	.763
自我		0.689	优秀的	.689
感染		0.628	有关	.687
高		0.497	GSQ	.683
意识		0.279	自我	.677
媒介		0.223	媒介	.668
其他		0.219	其他	.666
低		0.188	高	.665
无关紧要的		0.082	RISM	.655
			RIOH	.616
子组			RAOM	.587
	优秀的	0.399	意识	.549
	RASL	0.107	RASM	.545
	RISM	0.100	RISL	.542
	RAOM	0.058	RIOM	.511
	RIOH	0.054	低	.451
	RISL	0.041	现在	.411
	现在	0.040	RASL	.351
	RASM	0.037	皮疹	.322
	RAOL	0.032	RAOL	.277
	RIOM	0.027	RIOL	.254
	RIOL	0.007	无关紧要的	.213
	皮疹	0.005

^一个相关(R)，意识(A)，感染(I)，自我(S)，其他(O)，高(H)，中(M)，低(L)。

图1

推文类别和ILI-ED访问之间的时间序列比较。

图2

比较感染推文和基于意识的数据。

线性回归模型

为了比较Twitter、GSQ和ILI时间序列数据集，我们首先使用带有EVIEWS-7统计包的增强迪基-富勒(ADF)检验来确认单位根的存在。然后调整每个数据集以满足平稳性测试。在执行一阶差分之前，数据集在1%显著性水平上不是平稳的( 表2而且 3.)．

然后对时滞数据集进行Englemen Granger协整检验。建立协整性和平稳性允许在我们的回归模型中确定一致估计量。我们的方法存在一个缺点:没有测试季节性，因为可用的数据只包括一个季节。关于工作日效应和为什么周周期项不包括在模型中的讨论可以在多媒体附件2．

第一个AR模型结合了感染时间序列数据和第一周14天的滞后ILI数据。时间滞后反映了在公开报告更新的ILI-ED访问计数方面的实际延迟。模型和结果如图所示表4．注意mu和在后面的模型中分别表示误差和漂移。

模型1:ILI= 米₁伊犁(−14)+ 米₂感染(−1)+ 米_3. μ(−1)+ ε

上述模型的结果表明，时滞ILI数据对预测不显著。这说服我们修改模型，只纳入感染推文时间序列数据。在整个7周内，感染推文时间序列的最佳模型有以下形式:

模型2:ILI= α₁感染(−2)+ α₂ μ(−1)+ α_3. μ(−2)+ ε

我们对GSQ数据重复了相同的过程，构建了一个模型，将第一周的GSQ数据和ILI滞后数据结合起来。结果列在表5．

模型3:ILI= β₁伊犁(−14)+ β₂gsq(−3)+ β_3. μ(−1)+ β₄ μ(−2)+ ε

我们再次发现滞后的ILI数据不显著，并将其从后续的GSQ模型中剔除。对于谷歌搜索查询数据，构建以下模型，通过调整时间序列滞后来优化其预测得分。

模型4:ILI= γ₁gsq(−3)+ γ₂ μ(−1)+ γ_3. μ(−2)+ ε(第一、第二周)

模型5:ILI= γ₁gsq(−4)+ γ₂ μ(−1)+ γ_3. μ(−2)+ ε(第三至第七周)

两个GSQ和Twitter感染模型然后通过它们的平均绝对百分比误差(MAPE)进行比较表6)．数据显示，与GSQ数据(5.5、15.8、12.4和11.3)相比，Twitter在1月份前4周的MAPE得分较低(4.7、6.9、11.8和10.4)。

使用感染推文时间序列进行时间预测的平均MAPE为8.4。图3演示了使用1月份感染推特时间序列(模型2)的ILI预测。

表2

ILI的增强ADF检验^一个、Twitter和谷歌搜索查询数据。

		伊犁		Twitter感染		谷歌搜索查询
		t统计^b	概率	t统计^b	概率	t统计^b	概率
ADF检验		−1.902	0.331	−2.569	0.101	−2.844	0.054
测试临界值
	1%的水平	−3.462		−3.463		−3.463
	5%的水平	−2.876		−2.876		−2.876
	10%的水平	−2.574		−2.574		−2.574
		非平稳		非平稳		非平稳

^一个流感样疾病

^b自由度=203

表3

ILI的增强ADF检验^一个、Twitter和谷歌搜索查询数据具有一阶滞后。

		Δ伊犁^b		ΔTwitter感染^b		ΔGoogle搜索查询^b
		t统计^c	概率	t统计^c	概率	t统计^c	概率
ADF检验		−12.544	0.000	−19.358	0.000	−6.920	0.000
测试临界值
	1%的水平	−3.463		−3.463		−3.463
	5%的水平	−2.876		−2.876		−2.876
	10%的水平	−2.574		−2.574		−2.574
		静止的		静止的		静止的

^一个流感样疾病

^bΔ=一阶滞后

^c自由度=202

表4

模型(1)的结果。

变量	系数	标准错误	t统计^c	概率
感染(−1)	−2.174	1.016	−2.140	0.036
伊犁^一个(−14)	0.224	0.142	1.576	0.120
基于“增大化现实”技术^b(1）	1.007	0.016	61.676	0.000

^一个流感样疾病

^b基于“增大化现实”技术:自回归

^c自由度=188

表5

模型(3)的结果。

变量	系数	标准错误	t统计^d	概率
GSQ^一个(−3)	0.069	0.031	2.218	0.030
伊犁^b(−14)	0.212	0.147	1.444	0.154
基于“增大化现实”技术^c(1）	0.690	0.125	5.515	0.000
基于“增大化现实”技术(2)	0.315	0.127	2.476	0.016

^一个GSQ:谷歌趋势搜索查询

^b流感样疾病

^c基于“增大化现实”技术:自回归

^d自由度=188

表6

日军^一个感染推文和GSQ得分^bILI模型^c预测。

日期	推特模型		GSQ模型
日期	Durbin-Watson统计	日军(静态)	Durbin-Watson统计	日军(静态)
1/06-1/12	2.00	4．7	2.04	5.5
1/13-1/19	2.11	6.9	2.13	15.8
1/20-1/26	2.16	11.8	2.16	12.4
1/27-2/02	2.07	10.4	2.04	11.3
2/03-2/09	2.09	8.2	2.06	7.9
2/10-2/16	2.08	14.8	2.05	15.2
2/17-2/23	2.08	15.3	2.05	14.5

^一个MAPE:平均绝对百分比误差

^bGSQ:谷歌趋势搜索查询

^c流感样疾病

图3

使用感染推特模型(模型2)预测il - ed的访问次数为红色。

时空模型

根据回顾性分析[ 37]，在北布鲁克林发现了RISH推文的主要时空集群[ 38]在2012年11月24日至2013年3月11日期间，相对风险为2.74 (RISH to control RISM)，显著性为 P<措施。2013年1月8日至15日之后一周的前瞻性矢量图可以在图4．

图4

右图:基于流感感染的推文高风险的回顾性主要时空聚类(p < .001)，由泊松模型确定，病例为高概率流感推文，对照组为中概率流感推文，按周聚合，并在2012年10月15日至2013年5月10日期间在纽约市使用特定内容的共变量权重。左上:震中位于(40.685，-79.983)，半径0.48英里，包括巴克莱中心和大西洋大道终点站等人群聚集的地方。左下:对本地感染推文传播的每周变化建模的前瞻性方法。

讨论主要结果

这项研究的主要目的是评估推特数据在预测纽约市每日当地流感病例方面的强度。我们使用关键字过滤器和位置过滤器选择Twitter数据的方法返回了一个包含90%以上相关推文的数据集。每日感染推文显示与每日ILI访问量的相关性最高( R=.763)为2012-2013年期间。虽然我们认为RISH类别最清楚地识别了疾病的个人账户，但与ILI的相关性并不像仅使用感染推文保护伞那样强( R= .689)。这可能是因为感染汇总了来自个人和其他人的报告，以便更好地反映基于症状进展水平的不同确定性水平的流感病例总数。与RISM和RIOH的相关性(.542)相比，RISL组的相关性较低(.542)。616而且.655), however, still are consistent with the evaluator guess in the classification scheme.

推特数据(感染和RISH)显著优于每日GSQ数据( R=.683)与2012年10月15日至2013年5月10日ILI日访视的相关性。从质量上看，这些结果与我们的预期一致。Twitter允许提取与感染相关的推荐信息。这些感染推文比意识推文更能预测潜在病例( 图1)和GSQ数据，两者都不能区分因意识而搜索或因感染而搜索的人。事实上，GSQ类似于Awareness tweets ( 图2)，相关系数为。934。在临近的1月10日波士顿宣布公共卫生紧急状态后，这两个数据集的数据量立即大幅增长(约600%)(纽约州在2天后宣布进入紧急状态，也出现了激增)。谷和同事在分析2013年中国H7N9疫情时注意到，在媒体发布后，Twitter上的公众关注度也出现了类似的飙升，前3天的影响最为明显[ 39］．从公共卫生的角度来看，对媒体反应的意识反应提供的信息要么是夸大的，要么是已经确定的，要么两者兼而有之。感染推文更有相关性，因为它们表明了当前可能的病例，而不一定是医院网络所考虑的。这并不是完全不考虑意识推文。事实上，与意识相关的推文仍然可以提供关于疫苗接种的重要见解。相关、意识和自我类别的数据表明，人们在推特上发布流感疫苗时可能已经太晚了图2在多媒体附件2)．虽然从10月到12月有一些信号，但关于流感疫苗的推文在流感高峰期附近达到峰值，此时这些推文的使用者可能已经接触过病毒，免疫力下降。推迟接种疫苗可能导致了高峰季节强度的增加。

在考虑时间预测时，感染推文的表现优于GSQ数据。虽然对非流感高峰期的预测具有可比性，但MAPE在2013年1月6日至2月23日之间的差异很明显，其中包括流感季节的峰值和最高波动。感染推文模型的平均MAPE为8.4，而GSQ模型的MAPE为11.8。重要的是，现有的和官方发布的滞后ILI数据在预测实时ILI病例方面没有统计学意义。这进一步强调了对替代实时数据源(如Twitter)的需求。

时空分析也提供了有价值的见解。特别是，在11月至3月的时间段内，在布鲁克林北部发现了一个高概率患病推特用户与中等概率感染推特用户比例较高的主要集群。该集群包括巴克莱中心和大西洋大道终点站，这两个地方都是人群聚集和通勤的地方，因此感染和/或传播流感的可能性增加。目前还不确定是什么因素导致了高可信度感染推文的倾向增加，或者引引性地说，是什么因素导致了该群体中疾病的增加。纽约市卫生局确实有每个行政区的每日时间序列数据(见图3在多媒体附件2)．布朗克斯区、曼哈顿区、布鲁克林区和皇后区在整个纽约市的ILI-ED就诊人数中都倾向于遵循类似的趋势;在2013年1月8日至1月18日期间，这四个区都出现了流感就诊高峰。斯塔顿岛的报告少得多，也没有可见的山峰。在行政区一级聚合卫生部的时间序列数据可能不会立即揭示潜在集群的知识，例如SaTScan使用地理编码的推文在布鲁克林北部识别出的集群。前瞻性模型，如本研究中的一个(见图4)，由于缺乏地理金标准数据进行比较，尚未得到验证。然而，我们相信这种表示在证明一种可能的局部扩散模型时是有用的。

限制

这项研究面临着一些局限性。对推文进行分类强调，文本解释是一项艰巨的任务，需要具有相关语言和感兴趣地区上下文知识的人类口译员。识别俚语、拼写错误、Twitter词汇、内部引用、时事、意图和推文情绪的能力，为机器学习算法、经验丰富的研究人员和合同数据分类器提取意义和情绪设置了很高的门槛。对于推文密度较高的大都市地区，多种语言可以发挥作用。例如，“gripe”在英语中是抱怨的意思，但在葡萄牙语和西班牙语中是流感的意思;这也是法语中“grippe”的拼写错误。此外，这些推文仅用英语和西班牙语进行了查询。在推文量已经很低的情况下，需要捕捉其他语言，如意大利语、葡萄牙语、马来语和他加禄语，以完善模型。当涉及到定性编码时，检查评分者之间的可靠性是关键，因为这个过程本质上是主观的。我们正在附加数据集多媒体改进分类方案的反馈。

这里使用的分类方法也是手动的，关键字的选择没有通过从大量关键字中迭代删除来优化。也就是说，我们的目的并不是为了获得最高的相关值，因为最优的关键词在时间框架和地区是不同的。虽然此处使用的手动方法具有消除自动分类可能导致的假阳性/阴性的优点(正如通常报道的那样[ 40])，这种方法的折衷在于分析速度。自动分类器已经取得了成功，并且可以对其进行训练，以包括本研究中的其他流感搜索策略(参见表1在多媒体附件2)以提高速度和准确度。这些基于规则的启发式补充了Paul等人的分类器发现的日益增长的基础[ 33]和Nagel等人[ 41，它显示了单词袋、URL网址、转发状态、表情符号和推文的语法组织，作为疾病的指标。

最后，建模方法存在局限性。对于时间建模，在时间序列分析中没有考虑季节性因素。这是由于缺乏回顾性ILI和Twitter数据访问。由于流感是周期性的，季节性问题在预测流感高峰的几周是极其相关的。对于空间模型，地理编码的推文数量很少，这对分析的能力有明显的限制。虽然纽约市的许多推特用户可能也在推特上说他们生病了(没有地理编码)，但目前还无法通过可用数据验证他们确实是在纽约市内发推文。然而，地理编码的推文预计在未来几年还会增长，随着这种增长，有可能会有更高的统计能力[ 42］．此外，Carmen和其他文本挖掘方法正在考虑提高非gps的、基于位置的数据的保真度[ 32， 43］．根据我们的调查，纽约市的地理编码推文数量最高(占推文总数的2-3%)[ 42)，因此尚不清楚这里使用的模型是否适用于数据不那么普遍的其他城市。令人鼓舞的是，在这个案例研究中，推文的数量在统计上发现了显著的时空集群和时间自相关性 P=。002年和 P=。01levels respectively based on the sample. But even with increased geolocation of tweets, when it comes to tracking disease within cities, two obstacles remain: how to verify tweet content, and how to account for tweeter mobility to treat Infection tweets as footprints rather than static incidents. Interactions with the disease could result from interactions within familiar networks of people or from commuting across vast environments.

与之前工作的比较

这不是第一个证明Twitter在预测流感病例方面的相关性的研究。Broniatowski和同事最近对纽约市Twitter的研究可以作为时间分析的比较基础[ 24］．他们的感染推文算法发现，与这里的方法相比，感染推文与ILI访问的相关性更强( R=。88vs R= .763)。然而，Broniatowski等人更简单的关键字过滤算法与ILI访问量的相关值较低( R=标识)。然而，这些比较并非如此其他条件不变．本研究将日数据而非周数据进行关联，首次考察日数据在城市层面是否具有足够的信号。也不清楚他们的算法中使用了哪些关键词，以及如何比较没有MAPE分数的预测模型对给定周的预测ILI数的预测。

从时空的基础上，考虑这项工作如何与Sadilek等人提出的框架相关联是很重要的。 44］．这里的方法试图简单地根据特定地区的推文密度绘制地理风险图。我们的模型表明，与高密度RISH推文共存意味着感染疾病的风险更高。Sadilek和他的同事们已经在他们的模型中加入了与社交网络中的人进行托管。我们的回顾性和前瞻性模型缺乏协变量来衡量这种网络交互，因此留下了改进的空间。与此同时，公开可用的地理编码推文数量有限，这可能表明这样的框架很难在短时间内在市政层面实施。

最后，我们看到了Lamb等人通过包括评估者猜测来改进分类方案的途径。这个因素可以解释推特人的讽刺、语气和自信。这一因素在为病例与对照组“生病”推文的时空分析建立基础方面也至关重要。

结论

这项研究提出了几个主要的结论。这是第一个将每日城市级别的推特数据作为预测纽约市ILI急诊科实时访问的手段的研究。它还提出了一些有用的模型，可以利用地理编码的Twitter数据来了解潜在的疾病热点(如巴克莱中心和大西洋大道终结点)，因为它们在整个流感季节都在移动。这些信息将与考虑疫苗接种地点的可用性和可及性以及监测持续的疫苗接种率有关。Twitter还可以通知公共卫生官员当地即将到来的疾病负担。公共卫生官员已经使用SaTScan和电子病历(EMR)数据来跟踪疾病在空间和时间上的异常爆发。现在，Twitter可以从个人报告中提供加权的潜在案例来改进这些模型。当无法通过其他方式获得超本地确认的流感病例数据时，Twitter提供了一个实时信息数据源。这些信息可以被过滤以选择特定于感染的推荐，作为一个数据集，它优于来自谷歌Trends搜索查询的混合意识的每日数据。这些数据还可以在独特的前瞻性模型中加以利用，以预测ILI在空间和时间上的趋势(参见中图5) 多媒体附件2)．

展望未来，定义本地化的阈值将是至关重要的，Twitter可以成为一个有用的预测数据集。为了让Twitter数据得到验证，黄金标准公共卫生数据必须更容易获得。在纽约市行政区测试流感病例的相关值，开始显示Twitter在本地ILI-ED预测方面的能力的局限性(见图7) 多媒体附件2)．随着未来几年移动设备和社交媒体活动的预期增长，我们期待在数据驱动的流行病学不断增长的领域中，从Twitter获得新的挑战、见解和应用。

多媒体附件1

分类推文的例子。

多媒体附件2

搜索短语进行自动搜索;时间模型中工作日效应的考虑;纽约市患病鸣禽的空间模型及其与疫苗接种地点的关系;基于意识的数据的时间趋势;面向在线Web应用的矢量地图构建黄金标准，每日预测在纽约市的行政区级别。

多媒体

与流感相关的推文及其相关代码。

缩写

一个

意识推

基于“增大化现实”技术

自回归

GSQ

谷歌趋势查询查询

高概率的推文真实性

我

感染推

ILI-ED

流感样疾病急诊科就诊

推文真实性概率低

米

推文真实性的中等概率

日军

平均绝对误差百分比

纽约

纽约市

推文的主题是“其他人”