原始论文
摘要
背景:正如早在2006年提出的,如果监测搜索查询量的变化,提交给搜索引擎寻求信息的查询日志可以成为检测新出现的流感流行的来源(信息流行病学)。然而,当涉及到产生更好的预测时,选择最可能与流感流行相关的查询是一个特别的挑战。
摘要目的:在这项研究中,我们描述了一种使用搜索查询数据检测流感爆发的方法扩展;我们通过探索从社交媒体数据中收集的上下文信息,为查询选择提供了一种新的方法。此外,我们还评估了是否有可能使用这些查询来监测和预测韩国的流感流行。
方法:我们的研究基于2011年4月3日至2014年4月5日期间免费提供的每周流感发病率数据和来自韩国网站Daum搜索引擎的查询数据。为了选择与流感流行相关的查询,应用了几种方法:(1)在社交媒体数据中探索与流感相关的词汇,(2)确定与流感相关的主要关注点,以及(3)使用Web查询建议。采用最小绝对收缩选择算子(Lasso)和回归支持向量机(SVR)进行最优特征选择,构建流感流行预测模型。
结果:通过我们最初的查询选择方法,总共生成了146个与流感相关的查询。最终模型的相当一部分最优特征来自参考社交媒体数据的查询。SVR模型表现良好:预测值与近期观察到的流感样疾病高度相关(r= .956;P<.001)和病毒学发病率(r= .963;P<措施)。
结论:这些结果证明了在韩国使用搜索查询来加强流感监测的可行性。此外,使用社交媒体数据进行查询选择的方法似乎非常适合支持基于搜索查询数据的流感监测。
doi: 10.2196 / jmir.4955
关键字
简介
利用Internet数据进行健康相关应用程序的一个早期且现在很有名的示例来自使用Web搜索引擎查询的匿名日志估计流感发病率。Eysenbach于2006年在“信息流行病学”这一术语下首次提出,最近的大量研究进一步证明了谷歌搜索查询数据之间的相关性[
- ),雅虎[ ],百度[ ],或其他医疗网站[ 以及用于流感监测的传统数据,如流感样疾病(ILI)和/或实验室确认的数据。这些研究表明,面临疾病或健康状况不佳的个人将在互联网上搜索有关其健康状况和可能的疾病对策的信息;寻求这类信息的个人提交给搜索引擎的查询日志是发现新出现的流行病的潜在信息来源,因为有可能跟踪特定搜索查询量的变化。然而,最近在以前的研究中主要使用的谷歌流感趋势所产生的错误提醒研究人员,这种新的数据范式需要进行批判性评估,并开发更多的实证方法,以探索大数据的预测效用[ , ].显然,当前和未来的研究需要侧重于根据这些信息丰富的来源的数据更精确地确定与流感流行相关的特定阶段的方法。选择最有可能与流感流行相关的查询对生成改进的预测提出了特别的挑战。在之前的研究中,研究人员使用了各种方法选择的查询,例如特定网站提供的特定关键字工具[
],对去过急诊室的病人的调查[ , ],或有关流行性感冒的常识,包括流行性感冒的定义[ , ],以及从搜索日志中识别流感相关查询的全自动方法[ , , ].由于研究人员不能完全访问搜索日志,使用社交媒体数据的方法也可能有助于获取查询选择的信息。最近,社交媒体数据被强调为疾病监测的另一种潜在数据源,因为它们包含更多种类的上下文健康信息,对健康状态有不同的描述。因此,对于希望在基于查询的预测中选择初始目标查询的研究人员来说,这可能是一个有用的参考点。在韩国,目前还没有基于搜索查询数据的传染病预测系统[
, ],尽管韩国的互联网普及率和使用率很高[ ].此外,迄今为止很少有研究评估这些数据是否对国家流感预测有价值[ , ],最近的一项研究表明,韩语中的谷歌趋势不足以用作韩国流感预测的模型[ ].我们需要积极判断,韩国人使用更广泛的搜索引擎的查询是否有能力加强韩国传统的流感监测系统。在搜索日志访问受限的情况下,我们考虑使用社交媒体数据来选择最有可能与流感流行相关的查询。利用两类数据源的互补性可以迅速有效地预测流感的发生及其扩散,从而能够更好地识别流感并采取预防措施。本研究的目的是进一步探讨两个问题:(1)描述一种使用搜索查询数据检测流感爆发的方法扩展,通过探索从社交媒体数据获得的上下文信息提供一种新的查询选择方法,以及(2)评估是否有可能使用这些查询来监测韩国的流感流行。
方法
数据源
流行病学监测数据
国家流感监测数据来自韩国疾病控制和预防中心(KCDC),该中心定期收集与流感发病率有关的流行病学数据和国家统计数据,通常报告滞后1周[
].我们使用2011年4月3日(列为第32周)至2014年4月5日(列为第14周)的临床数据和病毒学数据。对于临床数据,我们使用了ILI患者的就诊率;在病毒学数据方面,指实验室检测流感病毒阳性结果的比率。获得的数据是匿名的,并且是公开的。社交媒体数据
在开发查询选择方法时,我们利用了社交媒体数据。社交媒体数据收集自Naver每日博客(韩国最大门户网站提供的博客服务)。
])和Twitter帖子(3年),使用社交“大数据”挖掘系统SOCIALmetricsAcademy。该系统包含从Twitter和Naver博客收集帖子的社交媒体数据爬虫。该系统还使用最先进的自然语言处理和文本挖掘技术处理文本。Twitter爬虫利用流应用程序接口(API)使用“跟踪关键字”功能进行数据收集。我们跟踪了数千个关键字,这些关键字是根据经验选择和调整的,以最大限度地覆盖几乎实时运行的爬虫程序。我们估计Twitter爬虫程序的每日覆盖率超过80%。收集到的帖子被送入垃圾邮件过滤模块,该模块检查由已知垃圾邮件发送者撰写的包含垃圾邮件关键词的帖子。垃圾邮件关键字和垃圾邮件发送者的列表被半自动监控和管理。Naver博客爬虫类似于通用的Web爬虫,主要的区别是维护并自动扩展用于收集帖子的活跃博客列表。Naver博客爬虫的估计覆盖率也超过了80%。 We applied an extensive spam-filtering process similar to that of the Twitter crawler on the collected blog posts.作者和数据挖掘公司根据Twitter和博客网站的使用条款和条件进行了搜索。所有Twitter和Naver的博客文章都是公开的,所收集的信息并没有透露社交媒体用户的身份;因此,用户机密性得到了保护。
搜索引擎查询数据
查询数据来源于韩国网站Daum上的搜索引擎。
].虽然谷歌是世界上使用最多的搜索引擎,但它在韩国并不占主导地位。与谷歌相比,Daum等韩国本土搜索引擎的使用率更高。Daum是韩国门户网站市场的第二大搜索引擎。 ].由于韩国网站的查询数据无法公开,我们将目标查询列表发送给了Daum,并收到了与所列查询相关的大规模数据。”2011年4月3日至2014年4月5日期间提交给搜索引擎的每周相对查询量被用于分析。相对量的计算方法是将每个查询的数量除以任何给定周的搜索查询总数。Daum网站是韩国语网站,因此提交的查询主要是韩国语。没有任何可能暴露网站访问者身份的信息;因此,完全保密。查询选择
为了获得韩国民众在Daum搜索引擎上提交的有关流感的查询,采用了几种方法。使用以下方法获得搜索查询。
用于探索查询的种子关键字
虽然“流感”是韩国疾病控制中心使用的官方术语,dokgam,inpeulruenja,peulru,sinjongpeulru是韩国用来描述流感的典型词汇。自2009年甲型流感病毒(H1N1)大流行以来,这一术语出现sinjongpeulru在国内,新冠病毒比甲型H1N1流感更受欢迎。因此,dokgam,inpeulruenja,peulru,sinjongpeulru、“流感”和“流感”被定义为探索查询的种子关键字。因为Web搜索查询通常由平均两到三个术语的单词组合组成[
, ],这些种子关键词也被用作词组合中的必要关键词。通过社交媒体数据探索流感相关词汇
为了获得与流感相关的搜索查询,我们考虑了提交到Twitter和博客的累积帖子中通常与流感一词一起出现的单词。的种子关键字进行同义词处理Dokgam, inpeulruenja, peulru,sinjongpeulru并将其命名为flu。然后,我们利用关键3年期间(2010年9月1日至2013年8月31日)的累计帖子,调查了最有可能与流感相关的词汇。通过关联分析,识别出主题关键字和关联关键字的元组。这一分析总共产生了157个相关词汇。
与流感相关的某些词汇与流感季节无关,或者不常被搜索引擎搜索到。我们排除了在流感季节不经常出现的关键字,以及在整个跟踪期间在时间序列中显示非连续模式的关键字。虽然相对罕见,但我们也排除了以不完整句子的形式写成的韩语单词组合。因此,在关键词过滤后,我们排除了被认为不合适的候选词进行搜索查询;在第一阶段,我们生成了103个候选查询,这些查询由使用社交媒体数据确定的与流感相关的种子关键字和/或单词组成。
确定与流感相关的主要问题
通过回顾流感症状(涉及患者主要关注的问题),获得了与流感相关的其他一些询问。疾病管理本部的流感监测系统将ILI定义为突然出现高热(38°C以上)并伴有咳嗽和/或喉咙痛。根据ILI的定义,将这些症状包括在内。此外,我们还纳入了美国疾病控制和预防中心(CDC)使用的流感症状定义[
]和由医生组成的咨询委员会;第二阶段生成了29个关于与流感相关的主要问题的单个单词或单词组合的候选查询,这些单词由种子关键字和相关单词组成。使用Web查询建议
互联网搜索用户通常需要多次迭代的查询细化才能从搜索引擎中找到所需的结果[
].搜索引擎的用户可以通过查询推荐的帮助来改进他们的Web搜索,查询推荐建议相关查询的列表,允许用户提高Web搜索引擎的可用性,并访问更好地代表他们的搜索意图的查询[ ].我们考虑了韩国网站Daum和Naver的关键词推荐提出的查询。在第三阶段,在搜索引擎中输入Flu,我们以单个单词或单词组合的形式识别出75个相关查询。特征选择与预测模型
我们将数据分为训练集和验证集。以2011年4月3日至2013年6月29日的数据作为建模训练集,以2013年6月30日至2014年4月5日的数据作为模型检验的验证集。从216个候选查询集中消除重复查询后获得的6个种子查询和146个相关查询卷用于分析。在将算法应用于每个数据集之前,所有数据都经过适当的转换和归一化方法进行预处理。为了确定最优预测因子,我们应用了最小绝对收缩和选择算子(Lasso)算法。特征选择可用于避免不相关特征的过拟合,并提高预测性能(即,导致更快速和更具成本效益的预测)[
, ].最小绝对收缩和选择算子(Lasso)算法受益于对不相关或冗余特征分配零权重的趋势,因此是收缩和特征选择的有效技术[ ].由于我们的目标是识别流感流行的预测因子,因此使用10倍交叉验证在流感监测数据的训练集部分上的三个时间点(定义为滞后-2、-1和0)执行特征选择处理。我们考虑了每个滞后中选择的所有最优特征来建立模型。采用支持向量机回归(SVR)方法,构建具有特定特征的流感流行预测模型。支持向量机是监督机器学习中基于内核的方法之一,已成功应用于分类任务,最近也应用于回归[
].通过网格搜索和10次交叉验证来选择最优的SVR参数设置,包括惩罚参数C和核函数参数,比如径向基函数核。网格搜索的值范围可以总结如下(每个列表中的元素分别表示要生成的样本的开始、结束和数量):罚参数C(0.01, 10,0.01);Gamma(0.0001, 1,0.0001)。我们使用验证集评估了均方根误差(RMSE)、特定日志误差以及预测值与流感监测数据之间的相关性。所有统计分析均采用R软件包(3.0.3版本;R开发核心团队,奥克兰,新西兰)。道德声明
该研究被首尔大学制度审查委员会排除在伦理审查之外。
结果
通过我们的初始查询选择方法,总共生成了146个与流感相关的查询(参见
).基于152个查询(包括6个种子关键词)进行特征选择,并使用10倍交叉验证选择用于预测流感发病率的最佳特征。 给出了基于ILI监测数据的特征选择结果。在152个查询中,15、14和29个主要特征(不重复的特征总数=36)分别在lag-2、lag-1和0处的lambda值最小。预测ILI发病率的最佳特征来自参考社交媒体数据的查询(29/36特征)、查询推荐(24/36特征)、与流感相关的主要关注点(4/36特征)和种子关键词(1/36特征)( ).我们用验证集评估了基于ILI监测训练集创建的预测模型的性能。我们的结果表明SVR模型(C =1.32;Gamma =0.0002)表现良好;预测值与最近观察到的ILI发病率高度相关(r= .956;P(见<措施)
, 而且 ).在病毒学监测预测方面,我们采用了与ILI相同的原则。
介绍了基于病毒学监测数据的特征选择结果。在152个查询中,28、26和45个主要特征(不重复的特征总数=53)分别在lag-2、lag-1和0处表现出最小的lambda值。病毒学发病率预测的最佳特征还来自参考社交媒体数据的查询(42/53)、查询建议(31/53)、与流感相关的主要关注点(7/53)和种子关键词(1/53)( ).显示了病毒学监测预测模型的性能结果。SVR模型(C =2.14;Gamma =0.0006)表现良好;预测值与最近观察到的病毒学发病率高度相关(r= .963;P(见<措施) , , ).
查询 | 查询参考 | 系数 | ||
Lag-2 | Lag-1 | 落后0 | ||
(拦截) | 0.332 | 0.321 | 0.497 | |
甲型流行性感冒〔甲型流行性感冒〕 | 社交媒体;查询推荐 | 0.745 | 0 | 0.109 |
A hyeong dokgam[甲型流感] | 社交媒体;查询推荐 | 4.928 | 20.154 | 21.503 |
A型流感 | 社交媒体;查询推荐 | 0.065 | 0.761 | 1.127 |
乙型流行性感冒〔乙型流行性感冒〕 | 社交媒体查询;建议 | 0 | 0 | 0.345 |
B hyeong dokgam[乙型流感] | 社交媒体;查询推荐 | 0 | 0.029 | 1.447 |
甲型流感 | 社交媒体;查询推荐 | 2.345 | 0.086 | 0 |
甲型流感hyeong〔甲型流感型〕 | 社交媒体;查询推荐 | 1.894 | 0.927 | 0.029 |
疫苗 | 社交媒体 | 0 | 0 | -0.1151 |
Geongang(健康) | 社交媒体 | 0.393 | 0.395 | 0.109 |
“流感感染” | 社交媒体 | 0.052 | 0 | 0 |
Dokgamgeomsa[流感检查] | 社交媒体;查询推荐 | 4.303 | 8.893 | 4.402 |
流感隔离期[流感隔离期] | 查询推荐 | 0 | 0 | 0.177 |
Dokgam gichim[流感咳嗽] | 社交媒体;主要关心的问题 | 0 | 0 | 1.106 |
流感病毒[流感病毒] | 社交媒体;查询推荐 | 0 | 0 | -0.220 |
感冒热[流感热] | 主要关心的问题 | 0.391 | 0 | 0 |
流感预防 | 社交媒体;查询推荐 | 0 | 0 | -0.152 |
接种流感疫苗 | 社交媒体;查询推荐 | 0 | 0 | -0.1174 |
感冒住院治疗 | 社交媒体;查询推荐 | 0 | 0 | 1.470 |
“流感传染” | 社交媒体;查询推荐 | 0 | 0 | 2.569 |
流感传播 | 社交媒体;查询推荐 | 0.547 | 0.322 | 0.017 |
感冒肺炎[流感肺炎] | 社交媒体;主要关心的问题 | 0 | 0 | 0.005 |
流感学校 | 社交媒体 | 0 | 0.122 | 0 |
Dokgam hwanja[流感患者] | 社交媒体 | 0.066 | 0 | 0 |
Soa dokgamjeungsang[儿童流感症状] | 查询推荐 | 0.811 | 0.323 | 0.135 |
新流感症状 | 社交媒体;查询推荐 | 55.980 | 46.156 | 58.415 |
Simhangamgi[严寒] | 社交媒体 | 0 | 0 | 0.031 |
Eorini dokgamyuhaeng[儿童流感流行] | 查询推荐 | 0 | 0 | 0.002 |
Onmomi apeum[全身疼痛] | 主要关心的问题 | 0 | 0.038 | 0.072 |
Inpeulruenja geomsa[流感检查] | 社交媒体;查询推荐 | 0 | 0.233 | 0 |
Inpeulruenja牦牛[流行性感冒药] | 社交媒体;查询推荐 | 0 | 0 | -0.005 |
流行性感冒的流行 | 社交媒体 | 0 | 0 | 0.003 |
流感症状[流感症状] | 社交媒体;查询推荐 | 6.254 | 0 | 0 |
流行性感冒症状 | 社交媒体;查询推荐 | 0 | 0 | 0.209 |
Junggukdokgam[中国流感] | 查询推荐 | 0 | 0 | -0.056 |
Tamipeulru(达菲) | 社交媒体:查询推荐 | 0 | 0 | 0.517 |
Peulru(流感) | 种子字 | 0.621 | 0.562 | 0.339 |
查询 | 查询参考 | 系数 | ||
Lag-2 | Lag-1 | 落后0 | ||
(拦截) | -1.459 | -3.124 | -2.147 | |
甲型流行性感冒〔甲型流行性感冒〕 | 社交媒体;查询推荐 | 26.413 | 18.899 | 22.579 |
A hyeong dokgam[甲型流感] | 社交媒体;查询推荐 | 0 | 0 | 379.041 |
B hyeong dokgam[乙型流感] | 社交媒体;查询推荐 | 6.007 | 15.324 | 24.039 |
B hyeong dokgamjeungsang [B型流感的症状] | 社交媒体;查询推荐 | 0 | 0 | 0.229 |
甲型流感 | 社交媒体;查询推荐 | 37.953 | 25.021 | 17.449 |
流行性感冒ahyeong〔甲型流行性感冒〕 | 社交媒体;查询推荐 | 24.114 | 19.342 | 11.426 |
感冒病毒 | 社交媒体 | 0 | 0 | 4.898 |
Gamgi pparrinatneunbeop[快速治疗流感的方法] | 查询推荐 | 5.365 | 4.262 | 2.343 |
感冒防寒 | 社交媒体;查询推荐 | 0 | 0 | -0.450 |
如何预防感冒 | 社交媒体 | -0.155 | -2.736 | -4.140 |
Geongang(健康) | 社交媒体 | 4.091 | 3.562 | 3.390 |
肌肉痛[肌肉痛] | 社交媒体;主要关心的问题 | 0 | 0 | -0.265 |
Nalssi(天气) | 社交媒体 | 0 | 0 | -0.111 |
Dokgam ahyeong [A型流感] | 社交媒体;查询推荐 | 0 | 0 | 22.772 |
“流感感染” | 社交媒体 | 12.236 | 1.449 | 0 |
Dokgamgeomsa[流感检查] | 社交媒体;查询推荐 | 38.254 | 31.878 | 0 |
流感隔离期[流感隔离期] | 查询推荐 | 0 | 0 | 12.145 |
流感高热[流感高热] | 社交媒体;主要关心的问题 | 0 | 0 | 1.745 |
Dokgam gichim[流感咳嗽] | 社交媒体;主要关心的问题 | 0 | 0 | 25.911 |
Dokgam noin[老年人的流感] | 社交媒体 | 0 | 0 | -3.739 |
流感病毒[流感病毒] | 社交媒体;查询推荐 | 0 | 0 | -0.777 |
Dokgam i[流感儿童] | 社交媒体 | 0 | 0 | 2.694 |
Dokgam eorini[流感儿童] | 社交媒体 | 0 | 0 | -0.477 |
流感预防 | 社交媒体;查询推荐 | -2.467 | -9.760 | -12.191 |
如何预防流感 | 查询推荐 | 0 | 0 | -0.638 |
流感流行[流行性感冒] | 社交媒体;查询推荐 | 0 | 0 | -0.109 |
感冒住院治疗 | 社交媒体;查询推荐 | 8.156 | 0 | 13.793 |
“流感传染” | 社交媒体;查询推荐 | 38.184 | 81.830 | 9.762 |
流感传播 | 社交媒体;查询推荐 | 2.596 | 5.613 | 3.973 |
Dokgamjusa[流感注射] | 社交媒体;查询推荐 | -3.907 | 0 | 0 |
Dokgamjuuibo[流感观察] | 查询推荐 | 0.883 | 0.310 | 0 |
流感学校 | 社交媒体 | 9.268 | 0 | 0 |
Dokgam hapingyeongjeong[流感并发症] | 社交媒体 | 0 | 0 | 3.513 |
Dokgamhwanja[流感患者] | 社交媒体 | 7.024 | 5.027 | 3.205 |
猪流感[猪流感] | 查询推荐 | 0.358 | 0 | 0 |
Maseukeu(面具) | 社交媒体 | 8.053 | 0 | 0 |
Momsal[身体疼痛] | 社交媒体;主要关心的问题 | 0 | 1.387 | 3.912 |
Soa dokgam jeungsang[儿童流感症状] | 查询推荐 | 4.737 | 8.058 | 9.041 |
Adong dokgam jeungsang[儿童流感流行] | 社交媒体;查询推荐 | 0 | 0 | -5.273 |
成人流感症状[成人流感症状] | 查询推荐 | 5.156 | 1.485 | 0.610 |
脸痛[脸痛] | 主要关心的问题 | -1.057 | 0 | 0 |
Onmomi apeum[全身疼痛] | 主要关心的问题 | 2.962 | 3.725 | 4.791 |
Uisa[医生] | 社交媒体 | -3.153 | -0.436 | -0.712 |
inpeulruenja ahyeong [A型流感] | 社交媒体;查询推荐 | 0 | 8.349 | 5.837 |
流行性感冒致人死亡 | 社交媒体;查询推荐 | 0 | -0.363 | -5.193 |
Inpeulruenja牦牛[流行性感冒药] | 社交媒体;查询推荐 | 0 | 0 | -0.560 |
流行性感冒症状 | 社交媒体;查询推荐 | 3.039 | 2.051 | 5.303 |
Ipwon(住院) | 社交媒体 | 0 | 0 | -0.213 |
禽流感[禽流感] | 查询推荐 | 3.972 | 4.239 | 3.492 |
Tamipeulru(达菲) | 社交媒体;查询推荐 | 0 | 65.618 | 75.462 |
Pyeryeom(肺炎) | 社交媒体;查询推荐;主要关心的问题 | 0 | 0 | -1.288 |
Peulru(流感) | 种子字 | 15.992 | 13.406 | 5.924 |
Hwanja(病人) | 社交媒体 | -4.543 | -3.170 | -2.922 |
讨论
这项研究调查了搜索查询是否有能力增强韩国传统的流感监测系统。为了选择最有可能与流感流行相关的查询,我们采用了一种方法,探索社交媒体数据中可用的上下文信息。我们最终模型的相当一部分最优特征来自于参考社交媒体数据的查询。我们对韩国ILI数据的最佳模型包括36个查询,与观察到的ILI发病率高度相关。我们的病毒学数据模型,包括通过与ILI模型相同的原理生成的53个查询,就其与观察到的病毒学发病率的相关性而言,表现同样出色。因此,我们用于检测全国流感发病率的模型具有监测变化的能力。这些结果证明了搜索查询在加强韩国流感监测方面的可行性。
我们的模型旨在预测全年流感的发病率,包括在高发和低发季节,我们的模型表现与以前的模型一样,这些模型得益于对搜索日志的完全访问,可以使用搜索查询预测流感发病率[
, , ].无法完全访问搜索日志的研究人员需要选择最相关的查询,但这些查询可能很难确定[ ].我们目前使用社交媒体数据进行查询选择的方法似乎非常适合支持基于搜索查询数据的流感监测。首先,它可能有助于获取用于查询选择的信息,因为它们包含更多种类的上下文健康信息,以及对健康状态的不同描述。最重要的是,它可能是收集健康信息的一种更有效、更低调的方式。其次,使用社交媒体数据的方法为理解这些预测因素及其权重提供了线索,这些权重可能会随着时间的推移而变化。在使用搜索查询数据生成预测模型时,重要的是要注意搜索查询随时间而变化。个人的搜索行为是不断变化的,个人提交的关键词可能会受到多种因素的影响,如媒体驱动的兴趣或各种事件[ , , ].这些更改改变或降低了基于搜索查询的监视的性能。最近谷歌流感趋势的高估也可以在同样的背景下理解[ , ].构建一个随时间变化而灵活的模型可能是未来建立健全的监测系统所要完成的最困难,但也是最重要的任务。对社交媒体数据中不断变化的预测因子的系统探索可能有助于在统计学习框架内根据搜索查询更新模型。互联网使用与寻求和分享健康信息的行为密切相关。有的用户通过博客、推特等各种社交媒体渠道,对自己的健康状况进行阐述,有的用户在网站的互联网搜索引擎上留下健康问题的查询日志。这类活动可提供补充资料;社交媒体数据可能包含对个人经历和信息的各种描述,而搜索引擎查询数据则专门与查询相关,其提交的唯一目的是获取信息。从2006年首次提出的利用搜索趋势的研究开始[
],利用基于互联网的数据检测流感活动的概念已扩展到使用社交媒体数据进行试验[ ].迄今为止,已有几项研究试图分别评估每种类型的新数据在检测新发流感发病率方面的科学潜力。虽然先前的实证研究报告了一些重要的结果,但这一探索领域仍然处于起步阶段[ , , ]和一些有关数据源的限制可以被识别出来[ , ].除了简单地使用每种类型的新数据进行实验来重复以前的研究结果之外,也许是时候考虑一种新的策略了,一种对每种类型的数据所包含的有价值的信息采取相互加强的措施的策略。我们使用了来自韩国地方网站Daum的查询数据。Daum虽然是韩国第二大搜索引擎,但市场占有率仅为17.4%;然而,我们的预测与全国ILI发病率表现出很强的一致性。先前使用Daum查询数据的研究发现,通过调查方式选择的一些累积查询也与韩国2009年9月6日至2012年9月1日期间的国家流感监测数据密切相关[
].这些发现共同表明了使用非主流搜索引擎开发流感监测系统的可能性。但是,互联网使用率和健康信息搜索率的变化可能对搜索查询数据的使用构成某种核心限制。来自不相关信息的干扰以及卫生信息寻求者样本代表性的不确定性也是重大限制。这些局限性存在于我们研究中使用的数据中;因此,我们的模型的最优特征可能需要随着时间的推移而更新。
流行病的最初几天是卫生当局采取适当干预措施的关键时期。在线监测系统可通过快速收集数据,对传染病暴发进行经济有效和近乎实时的监测。
尽管存在一些局限性,但这项研究基于一种新的方法,为基于互联网的数据的使用与韩国新发流感发病率监测之间的联系提供了进一步的证据。我们发现,结合搜索引擎查询数据和社交媒体数据的基于互联网的流感监测具有检测流感爆发的能力,与传统监测数据具有很强的一致性。这种方法可为防范严重大流行(如2009年甲型H1N1流感大流行)和控制季节性流感大流行提供宝贵支持。此外,为了利用两种类型数据源的互补性,在本研究中,我们将来自社交媒体的信息与基于查询的流感监测方法融合在一起。我们的结果表明,这些新的数据源在预测流感发病率方面可以相互兼容和互补。我们的方法表明,在韩国官方报告发布之前,在线监测系统可以在几乎实时检测流感等传染病方面发挥重要作用。
致谢
该研究得到了首尔大学脑融合研究基金的支持。资助者在研究设计、数据收集和分析或手稿准备中没有任何作用。本文中报道的观点、结果和结论均为作者个人观点,与资金来源无关。
作者的贡献
构思和设计实验:H Woo, Y Cho, E Shim;进行实验的有:赵y, Woo H, Shim E, Lee J, Lee C;分析数据:H Woo;贡献材料:S Kim;论文写道:H Woo, Y Cho。
利益冲突
没有宣布。
参考文献
- 赵山,孙忠,赵文伟,申山,李志华,柳明生,等。韩国国家流感监测数据与谷歌趋势的相关性PLoS One 2013;8(12):e81422 [j]免费全文] [CrossRef] [Medline]
- Cook S, Conrad C, Fowlkes AL, Mohebbi MH. 2009年甲型H1N1流感大流行期间美国谷歌流感趋势表现评估。PLoS One 2011 Aug;6(8):e23610 [免费全文] [CrossRef] [Medline]
- Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.利用搜索引擎查询数据检测流感流行。自然杂志2009年2月19日;457(7232):1012-1014。[CrossRef] [Medline]
- Polgreen PM, Chen Y, Pennock DM, Nelson FD。利用互联网搜索进行流感监测。临床感染病2008年12月1日;47(11):1443-1448 [免费全文] [CrossRef] [Medline]
- 袁Q, Nsoesie EO,吕波,彭根,朱娜娜R, Brownstein JS。用百度搜索查询监测中国流感流行。PLoS One 2013 5月;8(5):e64323 [免费全文] [CrossRef] [Medline]
- Hulth A, Rydevik G, Linde A. Web查询作为综合征监视的来源。PLoS One 2009;4(2):e4378 [免费全文] [CrossRef] [Medline]
- Lazer D, Kennedy R, King G, Vespignani A.大数据。流感的寓言:大数据分析中的陷阱。科学2014年3月14日;343(6176):1203-1205。[CrossRef] [Medline]
- Lazer D, Kennedy R, King G, Vespignani A. Twitter:大数据机遇——回应。科学2014;345(6193):148 - 149。[Medline]
- 徐德伟,赵文伟,孙超,申世善,李俊华,俞敏,等。利用搜索引擎数据进行流感监测的累积查询方法。J Med Internet Res 2014 12月;16(12):e289 [免费全文] [CrossRef] [Medline]
- 康敏,钟宏,何俊,Rutherford S,杨峰。基于谷歌趋势的华南地区流感监测。PLoS One 2013 1月;8(1):e55205 [免费全文] [CrossRef] [Medline]
- 2015年世界:信息通信技术事实和数据。瑞士日内瓦:国际电信联盟;2014.URL:http://www.itu.int/en/ITU-D/Statistics/Documents/facts/ICTFactsFigures2015.pdf[访问2015-07-09][WebCite缓存]
- 传染病统计系统,韩国疾病控制与预防中心。URL:http://is.cdc.go.kr/dstat/index.jsp[访问2015-07-09][WebCite缓存]
- NAVER。URL:http://section.blog.naver.com[访问2015-07-09][WebCite缓存]
- 多姆。URL:http://www.daum.net/[访问2015-07-09][WebCite缓存]
- 互联网趋势。2015。韩国搜索引擎市场份额http://www.internettrend.co.kr/trendForward.tsp[进入2014-07-06][WebCite缓存]
- 何强,蒋东,廖志。基于顺序查询预测的Web查询推荐。2009年3月29日发表于:IEEE第25届数据工程国际会议;2009年3月29日至4月2日;上海邮编1443-1454网址:http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4812545[WebCite缓存]
- Baeza-Yates R, Hurtado C, Mendoza M.在搜索引擎中使用查询日志进行查询推荐。在:数据库技术的当前趋势- EDBT 2004研讨会。柏林:施普林格柏林海德堡;2004年3月14日:588-596。
- 疾病控制和预防中心,2015。流感症状和并发症网址:http://www.cdc.gov/FLU/ABOUT/disease/symptoms.htm[访问2015-07-09][WebCite缓存]
- Guyon I, Elisseeff A.变量和特征选择的介绍。J Mach Learn Res 2003 3月1日;3:1157-1182。
- 杨建平,杨建平,Larrañaga生物信息学中特征选择技术的研究进展。生物信息学2007 10月1日;23(19):2507-2517 [免费全文] [CrossRef] [Medline]
- 李飞,杨洋,邢娥。从套索回归到特征向量机。2005年发表于:神经信息处理系统的进展18;2005年12月5-8日;温哥华,公元前411-418页。
- Smola AJ, Schölkopf B.支持向量回归教程。统计统计2004年8月;14(3):199-222。[CrossRef]
- Milinovich GJ, Williams GM, Clements AC, Hu W.基于互联网的新发传染病监测系统。Lancet infection Dis 2014 Feb;14(2):160-168。[CrossRef] [Medline]
- Althouse BM, Ng YY, Cummings DA。使用搜索查询监测预测登革热发病率。PLoS Negl Trop Dis 2011 Aug;5(8):e1258 [免费全文] [CrossRef] [Medline]
- Bernardo TM, Rajic A, Young I, Robiadek K, Pham MT, Funk JA。疾病监测搜索查询和社交媒体的范围审查:创新年表。中国医学杂志,2013;15(7):e147 [免费全文] [CrossRef] [Medline]
缩写
API:应用程序接口 |
伊犁:流感样疾病 |
KCDC:韩国疾病控制和预防中心 |
套索:最小绝对收缩和选择算子 |
RMSE:均方根误差 |
SVR:支持向量机回归 |
G·艾森巴赫(G Eysenbach)编辑;提交25.07.15;同行评议:E Nsoesie, SY Shin;对作者03.09.15的评论;修订本收到17.04.16;接受19.05.16;发表04.07.16
版权©Hyekyung Woo, Youngtae Cho, Eunyoung Shim, Jong-Koo Lee, Chang-Gun Lee, Seong Hwan Kim。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2016年7月4日。
这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。