发表在第11卷第1期(2009):1 - 3月

信息流行病学和信息监视:一套新兴的公共卫生信息学方法的框架,用于分析互联网上的搜索、传播和发布行为

信息流行病学和信息监视:一套新兴的公共卫生信息学方法的框架,用于分析互联网上的搜索、传播和发布行为

信息流行病学和信息监视:一套新兴的公共卫生信息学方法的框架,用于分析互联网上的搜索、传播和发布行为

本文作者:

冈瑟Eysenbach1、2

编辑

1全球电子卫生创新中心,大学卫生网络,加拿大多伦多

2多伦多大学卫生政策、管理和评估系,加拿大多伦多

通讯作者:

Gunther Eysenbach,医学博士,公共卫生硕士

全球电子卫生创新中心

大学卫生网络

伊丽莎白街190号

多伦多M5G2C4

加拿大

电话:+1 416 340 4800

传真:+1 416 340 3595

电子邮件:geysenba@gmail.com


信息流行病学可以被定义为研究电子媒介,特别是互联网或人群中信息的分布和决定因素的科学,其最终目的是为公共卫生和公共政策提供信息。信息流行病学数据可以在接近实时的情况下收集和分析。信息流行病学应用的例子包括:分析来自互联网搜索引擎的查询,以预测疾病的爆发(例如。流感);监测人们在微博(如Twitter)上的状态更新,以进行综合征监测;发现和量化卫生信息提供方面的差异;识别和监测互联网上与公共卫生有关的出版物(例如:反疫苗接种网站,还有新闻文章或专家策划的疫情报告);测量信息传播和知识转化的自动化工具,以及跟踪卫生营销活动的有效性。此外,分析人们如何在互联网上搜索和浏览与健康相关的信息,以及他们如何交流和分享这些信息,可以为人们的健康相关行为提供有价值的见解。 Seven years after the infodemiology concept was first introduced, this paper revisits the emerging fields of infodemiology and infoveillance and proposes an expanded framework, introducing some basic metrics such as information prevalence, concept occurrence ratios, and information incidence. The framework distinguishes supply-based applications (analyzing what is being published on the Internet, eg. on Web sites, newsgroups, blogs, microblogs and social media) from demand-based methods (search and navigation behavior), and further distinguishes passive from active infoveillance methods. Infodemiology metrics follow population health relevant events or predict them. Thus, these metrics and methods are potentially useful for public health practice and research, and should be further developed and standardized.

中国医学杂志,2009;11(1):e11

doi: 10.2196 / jmir.1157

关键字



互联网使以前无法测量的东西变得可测量:健康信息在人群中的分布,跟踪(实时)健康信息随时间的变化趋势,并确定信息供应和需求之间的差距。[1]
我们现在就需要构建工具来管理未来的信息学。我会将信息泛滥定义为关于某个问题的大量未经过滤的信息,从而使解决问题变得更加困难。
(Gunther Eysenbach)
数数可数的,衡量可衡量的。不可测量的,要使之可测量。(伽利略)

几周前,与谷歌相关的科学家在《自然》杂志上发表的一篇论文登上了全球头条:Ginsberg和同事讨论了如何监测谷歌上的搜索查询来预测美国的流感爆发[2].本研究的数据用于开发谷歌Flutrends应用程序。外行媒体的报道经常忽略了一个事实,即这并不是一个完全新颖的想法。事实上,自2002年以来,全球电子卫生创新中心在"信息流行病学"的标签下采用和评估了完全相同的方法。Eysenbach在2006年发表的一篇获奖论文首次表明了谷歌上与流感相关的搜索与加拿大接下来一周发生的流感病例之间的相关性[1].由于谷歌没有与外部研究人员共享搜索数据,因此使用了一个“技巧”来获得这些数据:在谷歌上购买了一个关键字触发的广告,从而可以获得反映谷歌用户搜索和点击行为的统计数据。这项开创性的研究还表明,互联网搜索比医生去看定点医生早了一周(这一事实后来也被金斯伯格的研究证实了),表明人们经常在去看医生之前先上网咨询。早在2003年,人们就采用了类似的方法来评估搜索行为在SARS爆发前是否发生了变化;然而,当时“在我们的搜索词实验中,它似乎还不够敏感,[无法探测]SARS”[3.].这些早期研究启发并激励其他人探索搜索行为、互联网信息和公共卫生相关事件之间的相关性。威尔逊和布朗斯坦发表了一篇论文,指出在官方宣布李斯特菌病爆发之前,互联网上的谣言就已经传开了[4].其他一些研究也重复了Eysenbach关于互联网搜索行为与流感发病率之间关系的研究结果[256].库珀及其同事在该杂志上发表的一篇开创性论文探讨了癌症搜索行为(信息需求)、癌症发病率、癌症死亡率和新闻报道(信息供应)之间的关系[7].

这些研究是越来越多的被称为“信息流行病学”的文献的一部分,如果主要目的是监视,则称为“信息监视”[8研究——对互联网上可获得的非结构化的自由文本信息进行自动化和持续的分析。这包括对搜索引擎查询的分析(“需求”端),也包括网站、博客等上发布的内容(“供应”端)。

在第一次提出这个概念的七年后[9],本文回顾了新兴的信息流行病学和信息监测领域,并提出了一个扩展的框架。本文还旨在通过建议应用于公共卫生突发事件的症状监测和管理、互联网信息的质量监测和信息流行管理、知识翻译、卫生传播、卫生营销和流行学,包括收集人口层面的行为测量,用于公共卫生政策和实践,来说明其潜力。为了进一步说明潜在的应用并形成合作的结晶点,我们正在全球电子卫生创新中心开展Infovigil项目,这是一个允许研究人员、公共卫生专业人员和公众收集和监测下面描述的一些指标的系统。

无论信息流行病学指标是跟踪公共卫生相关事件还是预测公共卫生相关事件,本文的主要论点是,信息流行病学指标和方法可能有用,应进一步发展和标准化。


“信息流行病学”一词是信息(information)和流行病学(epidemiology)的合成词。流行病学是研究人群中疾病分布和决定因素的科学,它为研究人员、公共卫生专业人员和政策制定者提供了影响公共卫生和政策决策的工具和数据。不幸的是,使用传统的流行病学数据收集方法,如人口健康调查、队列研究、登记等,往往需要数年或数十年才能使决策者了解公共卫生政策决定对公共卫生的影响。此外,疫情暴发或其他健康状况的早期检测方法往往基于临床数据,而且没有关于人群临床前事件和行为模式的“实时”数据。

信息流行病学可以被定义为研究电子媒介,特别是互联网或人群中信息的分布和决定因素的科学,其最终目的是为公共卫生和公共政策提供信息

潜在的信息流行病学指标和指标包括网站和社交媒体上信息流行程度和模式的自动汇总和分析数据;讨论组、博客和微博(如Twitter)中的“闲聊”指标;搜索引擎上的活动等等。

互联网上信息和通信模式的变化可能是人口健康变化的(早期)"症状" [124-6].相反,在其他情况下,信息和传播模式的改变可能对人口健康产生消极或积极的影响,例如,在错误信息"爆发"的情况下[9或公共卫生运动。无论因果关系箭头的方向如何,信息流行病学植根于这样一种思想——至少在某些领域和应用中——一方面是人口健康,另一方面是电子媒体中的信息和传播模式,如果有可能制定强有力的指标或“信息流行病学指标”,实时反映这些信息和传播模式,然后就可以开发各种有用的公共卫生应用程序。

因此,信息流行病学研究的一个重要目标是制定、收集和评估与流行病学数据有某种关系或对公共卫生和政策制定有用的信息和传播模式的度量标准和指标。

“信息流行病学”一词最初用于建议为互联网上发布的内容制定衡量标准(现在称为“基于供给的信息流行病学”)[9].上世纪90年代末,关于互联网上健康信息质量的讨论主要围绕着这样一种担忧:互联网上质量低的信息可能对公众健康有害。10],正是在这种背景下,这个术语被创造出来。例如,可以合理地假设,反疫苗接种团体的在线运动对疫苗接种率产生了实际影响,从而对健康状况产生了影响。虽然我们可以衡量疫苗接种率和健康状况之间的关系,但没有健全的方法来确定和跟踪(自动)导致疫苗接种率降低的信息的“流行程度”。

虽然“信息流行病学”最初是在分析“供应方”(在网上发布的内容)的背景下使用的[9],信息流行病学的范围现在还包括“以需求为基础”的信息流行病学(即分析人们的需求并监测他们的健康信息寻求行为)[1],因为采用了类似的方法。

无论信息来源如何,信息流行病学都需要一套新颖的消费者和公共卫生信息学方法来衡量信息的流行病学,描述和分析电子媒体(如网络)中的卫生信息和传播模式。虽然可以想象,信息流行病学指标也可以在“离线世界”中获得,但对电子媒体的关注有一个现实的原因:一旦信息以电子形式可用,就可以自动收集和分析。基于供给和需求的信息流行病学方法是相似的,因为它们采用类似的工作流程,面临类似的问题:从大型文本数据集中选择和过滤信息(“感兴趣的概念”),试图从语义上“理解”信息(自然语言处理),对信息进行地理编码,并使用基本的描述性和分析性统计方法,或更先进的时间空间统计方法来检测趋势和集群。

将信息流行病学数据用于监测目的被称为“信息监测”[8].信息监视对供应方和需求方都很重要。例如,公共卫生专业人员想知道,互联网上是否有关于疫苗接种的错误信息激增,以便公共卫生运动和“健康营销”努力能够有效地抵消错误信息。公共卫生专业人员还需要了解信息需求激增的情况,无论是为了应对"恐惧流行病" [3.通过向公众提供适当的信息,或者发现真正的疾病爆发,而互联网搜索或新闻组聊天和微博(Twitter等)上的帖子的激增可能是早期的预测因素。关于行为改变的信息本身就是疫情爆发时的一项重要干预措施,跟踪信息在大流行期间如何有效传播是另一项潜在应用。

接下来,我将更详细地讨论基于供给的指标、基于需求的指标和数据来源。它们共同构成了信息流行病学的愿景,也为Infovigil系统提供了蓝图。


设想一个系统可以持续监控互联网帖子(无论是在网站、博客、微博(包括Twitter、社交媒体、讨论板帖子或其他公开来源),采用自然语言处理和其他方法按主题对帖子进行分类,并获得随时间变化的指标。我们称之为度量供应基于信息病学指标。

信息(概念)流行

最基本的信息流行病学供应指标是信息流行而且信息出现率(或者更准确地说,概念流行而且概念出现比率),量度某个关键字或概念在资讯池中出现的绝对或相对次数。请注意,如果我们只是寻找某些术语的出现,那么我们谈论的是“关键字”,如果我们试图“理解”含义,那么我们谈论的是“概念”,至少要结合多个关键字来考虑同义词。

“信息池”可以是一组文档、帖子、状态行(Twitter、Facebook)、网页或网站的集合。例如,我们可以自动地获得由一组关键字确定的关于某个主题的Internet帖子的(绝对)数量的估计。我们称这些为数据流行的信息。更具体地说,我们是如何获得流行率的,我们还可以讨论一下关键字流行概念流行

信息流行如果我们对数据进行纵向跟踪(即跟踪关于特定健康主题的互联网帖子的数量如何随时间变化),就会特别有用,例如,我们会看到与某些外部事件(如媒体宣传活动或疾病爆发)相关的变化。

一种获取这些的粗糙方法患病率indicators是在搜索引擎中输入一个搜索词(用一个布尔或来包含同义词),它提供了一个随时间出现的绝对数量(然而,请参阅下面关于搜索引擎可靠性的警告)。出现次数(取决于搜索引擎)可以是至少包含一次搜索词的文档数量,也可以是整个数据库中出现的词的数量(单位对于我们的目的并不重要,只要我们始终使用相同的方法)。更先进的方法还会考虑同义词并进行语义搜索(即,跟踪概念而不是关键字),和/或过滤搜索以关注特定的地理区域(例如国家)。

图1说明了加拿大顶级域(.ca)中各种癌症的信息流行率与实际疾病发病率的关系(注意:这些关于信息流行率的数据是基于粗略的谷歌点击量,而不是语义分析)。这样的信息流行率与疾病发病率散点图(或其他比较图,例如信息流行率与死亡率)可能有助于向决策者说明哪些领域可能存在信息不足。从公共卫生的角度来看,发病率高、疾病负担重(死亡率或对生活质量的影响)、可以预防或可以进行筛查的疾病和病症,在媒体和互联网上应比不能预防的疾病和病症得到更好的"报道"。因此,癌症发病率和信息流行率之间并没有严格的相关性,这是不期望的。然而,图1说明与具有类似疾病负担的其他形式癌症相比,乳腺癌是一个极端的异常值,表明乳腺癌和前列腺癌(两者发病率和死亡率相似,但受到的关注和资助水平不同)之间的医疗保健差距更大,这在以前被称为“前列腺癌差距”[11].决策者需要意识到这种不平等和信息差距,基于供应的信息流行病学指标在慢性病管理和公共卫生紧急事件管理方面都可以发挥作用。可以开发一个“信息流行病学仪表板”,显示其中一些指标,以便向决策者通报哪些领域需要开展健康营销媒体活动。

图1。信息流行率与发病率散点图(Eysenbach,正在准备中)
查看此图

信息发病率

作为流行病学术语的类比,我们也可以计算信息发病率速率,它决定的数量每单位时间创建的信息单位。例如,比较各国之间包含关于某个主题(如新的医学发现)信息的Web页面的发生率,将提供有趣的知识传播度量。

资料或概念发生率也可能表明新出现的公共卫生威胁。例如,Infovigil项目监测Twitter微博中提及公共卫生相关关键词和短语的情况,如“我发烧了”。这些数据连同关于用户位置的信息,以及自动对话和引导用户进行调查,可以为公共卫生机构和公众提供有价值的信息。图2说明了一个非常基本的Twitter信息源信息发生率趋势分析。

图2。来自Twitter状态提要(“tweets”)的信息发生率(关键字出现)趋势(DIYCity/sickcity)
查看此图

信息(概念)出现比率

随着网站数量的不断增加,信息流行度的绝对数字不如标准化指标(即比率、比率等相对指标)有意义。如果“信息池”中“信息单元”的总数是已知的,那么用于规范化绝对计数的分母可以简单地是信息单元的总数。例如,如果我们知道Web在给定的时间点上有x个给定语言的Web页面,其中y个页面与癌症有关,那么我们可以将信息流行率表示为y/x的比例。然而,在Web的情况下,分母,即分子关键字的特定语言中所有索引文件和文档的总数(包括,例如,html、excel和powerpoint文件等),通常很难获得或不知道。虽然像谷歌这样的搜索引擎可能拥有某种语言的索引文档总数的数据,但这些信息通常是专有的,研究人员无法访问。

因此,与控制关键字或概念相比,将信息流行度表示为关于某个主题的信息单元的一部分通常更容易。例如,如果提到“前列腺癌”的网络资源数量为2160万,而提到癌症的资源数量为2.14亿,那么前列腺癌与癌症的发生率为21.6:214 = 10%。

研究出现比率可以让我们深入了解国家之间在使用词语和概念方面的语言和文化差异,但它也可以成为研究获得卫生信息方面的不平等和差异的一种方法。表1说明了加拿大、英国和澳大利亚“宫颈癌”信息与“癌症”信息的信息发生比率的差异。但是,这些都是基于谷歌上的关键字的粗略分析。一个适当的信息流行病学调查将试图从语义上“理解”Web页面的内容。

另一个重要的警告是,许多搜索引擎不能给出准确或可靠的点击率。不仅不同的搜索引擎提供不同的结果,而且即使同一搜索引擎在同一天内多次查询也可能给出不同的估计。像Infovigil这样的系统在一天中的不同时间从不同的搜索引擎收集这些信息,并使用统计方法来消除差异。这也最大限度地减少了潜在的偏差,即某些关键字的点击数的变化可能会被搜索引擎算法的变化所混淆。还有其他方法可以完全绕过搜索引擎,例如随机IP采样或随机创建域名,但这些方法都有自己的问题,例如触发安全警报,因为它们类似于黑客企图。

表1。英语工业化国家中各种概念的信息出现率
Google.com(所有国家域名) 加拿大
(.ca在Google.com)
联合王国
(.uk在Google.com)
澳大利亚
(.au在Google.com)
点击量(百万)
“宫颈癌” 7.09 0.08 0.41 0.05
癌症 227 3.95 8.77 3.03
健康 1190 49.7 57.4 67.8
疾病 226 3.67 4.84 3.05
疾病 68.6 1.57 2.8 2.02
健康 147 3.4 1.67 0.74
信息出现率
宫颈癌/癌症 0.03 0.02 0.05 0.02
疾病或健康 0.19 0.07 0.08 0.04
疾病或健康 1.54 1.08 2.90 4.12
疾病/健康 0.06 0.03 0.05 0.03
疾病/健康比 0.47 0.46 1.68 2.73

概念Co-occurences

寻找共生所能提供的不同关键字或概念(例如,疾病名称和药物名称)知识转化或创新扩散度量.例如,在医学杂志上发表了一项证实新药有效性的试验后,研究人员可以通过疾病术语和治疗概念同时出现的发生率来衡量一种新疗法被公众认可和接受需要多长时间。这些指标可能反过来有助于研究不同的方法来加速知识转化(例如,在开放获取期刊上发表文章、举办研讨会、举行新闻发布会和发布新闻稿等)。此外,可以开发算法,一方面监测医学、同行评审的文献,另一方面监测互联网,以收集和提供持续的实时知识翻译指标。

虽然在技术上更具挑战性,但也应该有可能自动识别和分类错误信息或不平衡信息的情况,随着时间的推移跟踪趋势。例如,反疫苗接种网站使用特定的语言,具有特定的属性(例如,链接到其他反疫苗接种网站),并引用特定的医学文献子集,以提供片面的、有偏见的医学证据观点[12].例如,获取偏差度量的通用算法是将系统综述的参考文献列表与给定网站上引用的参考文献进行比较,这将使研究人员能够量化内容偏差的方向和程度。

一旦以纵向方式收集到某一特定领域偏见发生率的信息,公共卫生和健康营销计划的有效性就变得可衡量了。例如,一场针对围绕疫苗接种的神话的媒体运动应该会导致反疫苗接种帖子与支持疫苗接种声明的比例发生变化,这反过来可能是实际疫苗接种率变化的一个预测因素。

这里要提到的最后一个应用领域是政策执行与评估.正如管理格言所说,“无法管理无法测量的东西”,收集信息流行病学数据的情况可以通过测量实现的进展来预测政策目标,例如,涉及卫生信息和卫生传播的政策,具体涉及向公众提供的信息质量。例如,美国公共卫生政策文件《2010年健康人》[13中将"[提高]因特网卫生信息源的质量"作为一项明确的政策目标(目标11-4)。例如,其他政策目标(不在本文件中)可规定增加以特定阅读水平书写的信息,增加针对某些人口群体或以某些语言(如少数民族语言)提供具有文化敏感性的卫生信息。在大多数情况下,可以想象,可以开发信息流行病学方法,并用于获取和跟踪衡量实现这些政策目标的进展的指标。

从二手来源识别和汇总公共卫生相关信息

另一类基于“供应方”的应用程序,例如全球公共卫生情报网(GPHIN)、健康地图系统和EpiSPIDER项目,分析选定的二级数据源,如新闻报道和专家通讯(ProMED邮件),并汇总公共卫生相关信息,特别是关于传染病爆发的信息[14].这些系统可以被视为开源情报(OSINT)收集工具。OSINT是指“为满足特定情报需求而及时收集、利用并传播给适当受众的公开信息产生的情报”(《2006财年国防授权法》公法109-163第931条)。(注意,这里的“开源”指的是公开可用的信息,而不是开源软件。)

这些系统通常使用更有选择性的方法来选择高质量的、专家策划的二手数据源,而不是像Infovigil系统这样的系统,这些系统试图通过分析关于信息供求的更嘈杂的“原始数据”(例如,Twitter订阅或搜索和导航行为)来利用互联网上人们的“集体智慧”。

在社交网络上识别和聚合公共卫生相关信息

可以开发的最后一类系统是分析和提取互联网上关于社会网络结构的信息的系统。对于某些公共卫生情况,特别是在疫情暴发的情况下,但对于卫生营销活动,收集关于人与人之间关系的情报是有利的。例如,可以想象,如果公共卫生专业人员能够随时获得有关Facebook上朋友列表中谁认识谁的信息,可能有助于遏制传染病的传播。显然,在Facebook上“认识”某人、与某人交流或与某人成为“朋友”并不一定意味着这些人有身体接触,因此,为了对公共卫生有用,需要更先进的方法,而不仅仅是从Facebook上提取“朋友列表”。


在基于需求的信息病学指标中,我们通常指的是人们的搜索和“点击”(即导航)行为产生的数据。

潜在的数据源包括来自搜索引擎的数据(只有搜索引擎自己可以访问的数据),以及来自网站日志(单个网站或来自不同网站的集合)的搜索和导航数据,尽管后者被网站的内容严重混淆,因此更难分析。最后一种可能是开发一种浏览器插件或桌面软件,在用户明确同意的情况下,将匿名搜索和可能的导航行为传输到Infovigil数据中心。

来自搜索引擎的查询日志数据允许对信息需求和人类行为进行有价值的洞察。典型的查询日志数据包含一个唯一的用户标识符(例如,一个随机数,它被设置为用户客户端浏览器中的cookie,允许它关联来自同一用户的搜索)和/或用户的IP地址、查询字符串、查询时间和单击URL。用户标识符和IP地址属于隐私敏感信息。如果日志文件中有任何数据被保留,就可以从这些信息重构用户的身份[15].然而,即使是剔除了这些信息的搜索数据也足以识别趋势。1].

的例子需求流行指数从这些数据可以解释为来自特定地区的特定主题的搜索次数,或者特定主题网站的点击次数。虽然单独的搜索数据有时是模棱两可的,通常不允许推断用户的意图(搜索关键字“冷”的人不一定有感冒症状),但与点击数据结合分析的搜索数据更有意义(例如,有人搜索关键字“冷”,然后点击一个链接,上面写着“点击这里,了解如果你有感冒症状该怎么做的综合信息”,或者只需点击一个提供流感信息的医疗网站,就会提供更丰富、更具体的关于用户假定意图的信息)。研究还表明,点击数据(针对流感特定广告)比搜索数据更能预测流感[1].

现有的搜索引擎数据挖掘方法可以使用和聚类查询和点击数据,以便对用户的假定意图做出有意义的推断[16].

图3。信息需求(谷歌上的搜索)、流感病例和哨点医生报告的流感样疾病之间的关系。部分数据来自一项为期五年的前瞻性研究,收集了谷歌2004-2007年的搜索和点击数据(Eysenbach 2007,在2007年芝加哥AMIA年度秋季研讨会上发表,方法见[1])
查看此图


上面概述的信息流行病学和信息监视方法可以被称为被动方法,因为它们试图自动和被动地分析和识别互联网上的趋势,而不主动地涉及用户。然而,由于互联网是一种互动媒体,因此也有可能无缝地从人们那里收集更丰富的数据,或者引导他们进行干预。在综合征监测领域,这完全代表了一种范式转变,因为传统的监测工作,例如,基于监测急诊室入院情况或非处方药销售,甚至在消费者没有注意到或无法提供输入的情况下发生。相反,使用信息监视方法,可以引导消费者提供额外的信息。例如,在使用谷歌Ad方法跟踪流感特定关键字的搜索数据时[1],则有可能触发广告,引导消费者进行快速在线调查,以征求消费者的额外信息。类似地,在新闻组中发布消息或在Twitter上更新状态可能会触发“infovigil机器人”的自动回复,引导他们进行调查或干预。whoissick.org或sicklike等网站。Me要求用户输入他们的症状,这表明消费者愿意主动提供额外的信息,从而积极参与监控工作。


迄今为止,只有少数开拓性研究探讨了信息供应和/或需求与人口健康之间的关系,并对信息流行病学指标进行了试验。如上所述,这些指标的开发和标准化是一个新兴的研究领域,而且如上所示,信息流行病学指标的应用领域包括从早期疾病检测到人口层面的预防和慢性疾病管理,到政策制定和实施,以及知识转化研究。将需求指标和供给指标结合在一起,可以深入了解人口层面上信息提供和信息寻求之间的动态和相互作用。

最后一个观点来自行为科学。分析人们如何在互联网上搜索和浏览与健康相关的信息,以及他们如何交流和分享这些信息,可以为人们的健康相关行为提供有价值的见解,包括例如对健康问题的理解水平、对健康状况的了解等等。这些信息传统上是通过大型而昂贵的人口调查收集的,比如国家癌症研究所的“健康信息全国趋势调查”(hint),该调查要求参与者回忆他们的行为。虽然此类调查仍然是无价的,但信息流行病学方法和指标可以补充这些数据,提供关于健康信息寻求行为的直接和诚实的数据,不受回忆或社会可取性偏见的影响,实时进行,执行成本相对较低。

这符合更广泛的“人口组学”的观点,吉本斯用这个术语来建议收集“人口水平的数据,以便开发‘社区(人口)阵列’或社区范围的风险概况”[17].

2006年,美国国家癌症研究所(National Cancer Institute)和行为与社会科学办公室(Office of Behavioral and Social Sciences)开始推动“人口组学”的概念与“基因组学”和“蛋白质组学”并列,他们认为“将行为科学的常见数据元素纳入国家人口健康评估,对国家规划和团队科学至关重要”。NCI进一步认为,“在医疗保健环境中需要行为措施[…]]而且在公共卫生planning, in which national indices of progress on behavioral measures could guide policy and communication planning” [18].

信息流行病学指标反映了人们在互联网上的行为,包括他们寻求健康的行为或他们的行为改变尝试,如戒烟、体育活动、饮食变化、使用防晒霜和减少酒精消费,这可以通过搜索和发布行为来证明,这些指标可能是实现这一目的的新颖和有价值的措施。


信息流行病学是公共卫生信息学中的一门新兴学科,它是我们时代的一个标志:挑战我们的与其说是信息的可用性,不如说是信息的聚合和分析。该领域是高度跨学科的,需要信息科学家、计算机科学家、流行病学家、医学专家、公共卫生信息学专家、行为科学家和统计学家的合作。事实上,在其他学科(信息计量学、网络计量学和“开源情报”社区)中开发的指标和方法可能在信息流行病学中有直接的应用。需要与私营部门(例如搜索引擎)建立研究伙伴关系。另一方面,信息流行病学也强调了对隐私的威胁,并提出了关于知情同意的新问题,这是由于对大规模公开获取的人们信息的汇总和分析。

尽管存在这些挑战,但大量的潜在应用和社会效益证明了在基础设施和研究方面的投资是合理的,而且不仅是资助机构、慈善组织和医学期刊的同行评议人员应该对这种新颖和非常规的方法保持开放的心态。

利益冲突

没有宣布。

  1. 信息流行病学:在网上跟踪流感相关搜索以进行症状监测。AMIA年度诉讼程序2006:244-248 [免费全文] [Medline]
  2. Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.利用搜索引擎查询数据检测流感流行。自然杂志2009年2月19日;457(7232):1012-1014。[Medline] [CrossRef]
  3. SARS与人口卫生技术。J Med Internet Res 2003 6月30日;5(2):e14 [免费全文] [Medline] [CrossRef]
  4. 威尔逊·K,布朗斯坦·JS。利用互联网及早发现疾病爆发。CMAJ 2009 3月12日[免费全文] [Medline] [CrossRef]
  5. Polgreen PM, Chen Y, Pennock DM, Nelson FD。利用互联网搜索进行流感监测。临床感染杂志2008年12月1日;47(11):1443-1448。[Medline] [CrossRef]
  6. Hulth A, Rydevik G, Linde A. Web查询作为综合征监视的来源。PLoS ONE 2009 Feb 6;4(2):e4378 [免费全文] [Medline] [CrossRef]
  7. Cooper CP, Mallon KP, Leadbetter S, Pollack LA, Peipins LA。癌症互联网搜索活动在一个主要的搜索引擎,美国2001-2003年。中国医学杂志2005年7月1日;7(3):e36 [免费全文] [Medline] [CrossRef]
  8. 信息流行病学与信息监控。2008年3月31日在圣地亚哥举行的NSF/NCI研讨会“行为医学中的网络基础设施”邀请演讲网址:http://www.slideshare.net/eysen/eysenbach-infodemiology-and-infoveillanceWebCite缓存]
  9. 信息流行病学:(错误)信息的流行病学。中华医学杂志,2002;29(4):344 - 344。[Medline] [CrossRef]
  10. 艾森巴赫,鲍威尔J,库斯O,萨。在万维网上为消费者评估健康信息质量的经验研究:系统回顾。中国医学杂志2002;28 (20):2691-2700 [免费全文] [Medline] [CrossRef]
  11. 国家前列腺癌联盟。前列腺癌差距。男性健康危机。全国前列腺癌联盟;2007网址:http://www.zerocancer.org/site/DocServer/2007_Prostate_Cancer_Gap2.pdf?docID=681WebCite缓存]
  12. Zimmerman RK, Wolfe RM, Fox DE, Fox JR, Nowalk MP, Troy JA,等。万维网上对疫苗的批评。中国医学杂志,2005;7(2):e17 [免费全文] [Medline] [CrossRef]
  13. ;美国卫生与公众服务部。2010年《健康人》。第二版。《了解和改善健康以及改善健康的目标》,第2卷。华盛顿特区:美国政府印刷局;2000.
  14. Keller M, Blench M, Tolentino H, Freifeld CC, Mandl KD, Mawudeku A,等。使用非结构化事件报告实时自动化全球传染病监测的早期经验。新发传染病,即将出版。
  15. 巴巴罗M,泽勒T,汉塞尔s。4417749.《纽约时报》2006;9免费全文] [WebCite缓存]
  16. Baeza-Yates R.大型查询图的解剖。《物理与数学》2008;41(22):224002。[CrossRef]
  17. 健康差异的历史概述和电子健康解决方案的潜力。中国医学杂志,2005;7(5):e50 [免费全文] [Medline] [CrossRef]
  18. ;美国心理学会。NCI的资金前景:来自专家的消息。2006.URL:http://www.apa.org/science/psa/may06int.htmlWebCite缓存]

G·艾森巴赫(G Eysenbach)编辑;提交22.03.09;R Smith同行评议;接受26.03.09;发表27.03.09

版权

©Gunther Eysenbach。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2009年3月27日。

除非另有说明,发表在《医学互联网研究杂志》上的文章都是根据创作共用署名许可协议(http://www.creativecommons.org/licenses/by/2.0/)发布的,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是1)正确引用了原创作品,包括完整的参考文献细节和www.www.mybigtv.com上的原始文章URL,以及2)包括本声明。


Baidu
map