除非另有说明,发表在《医学互联网研究杂志》上的文章都是根据创作共用署名许可协议(http://www.creativecommons.org/licenses/by/2.0/)发布的,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是1)正确引用了原创作品,包括完整的参考文献细节和www.www.mybigtv.com上的原始文章URL,以及2)包括本声明。
信息流行病学可以被定义为研究电子媒介,特别是互联网或人群中信息的分布和决定因素的科学,其最终目的是为公共卫生和公共政策提供信息。信息流行病学数据可以在接近实时的情况下收集和分析。信息流行病学应用的例子包括:分析来自互联网搜索引擎的查询,以预测疾病的爆发(例如。流感);监测人们在微博(如Twitter)上的状态更新,以进行综合征监测;发现和量化卫生信息提供方面的差异;识别和监测互联网上与公共卫生有关的出版物(例如:反疫苗接种网站,还有新闻文章或专家策划的疫情报告);测量信息传播和知识转化的自动化工具,以及跟踪卫生营销活动的有效性。此外,分析人们如何在互联网上搜索和浏览与健康相关的信息,以及他们如何交流和分享这些信息,可以为人们的健康相关行为提供有价值的见解。 Seven years after the infodemiology concept was first introduced, this paper revisits the emerging fields of infodemiology and infoveillance and proposes an expanded framework, introducing some basic metrics such as information prevalence, concept occurrence ratios, and information incidence. The framework distinguishes supply-based applications (analyzing what is being published on the Internet, eg. on Web sites, newsgroups, blogs, microblogs and social media) from demand-based methods (search and navigation behavior), and further distinguishes passive from active infoveillance methods. Infodemiology metrics follow population health relevant events or predict them. Thus, these metrics and methods are potentially useful for public health practice and research, and should be further developed and standardized.
互联网使以前无法测量的东西变得可测量:健康信息在人群中的分布,跟踪(实时)健康信息随时间的变化趋势,并确定信息供应和需求之间的差距。[
我们现在就需要构建工具来管理未来的信息学。我会将信息泛滥定义为关于某个问题的大量未经过滤的信息,从而使解决问题变得更加困难。
数数可数的,衡量可衡量的。不可测量的,要使之可测量。
几周前,与谷歌相关的科学家在《自然》杂志上发表的一篇论文登上了全球头条:Ginsberg和同事讨论了如何监测谷歌上的搜索查询来预测美国的流感爆发[
这些研究是越来越多的被称为“信息流行病学”的文献的一部分,如果主要目的是监视,则称为“信息监视”[
在第一次提出这个概念的七年后[
无论信息流行病学指标是跟踪公共卫生相关事件还是预测公共卫生相关事件,本文的主要论点是,信息流行病学指标和方法可能有用,应进一步发展和标准化。
“信息流行病学”一词是信息(information)和流行病学(epidemiology)的合成词。流行病学是研究人群中疾病分布和决定因素的科学,它为研究人员、公共卫生专业人员和政策制定者提供了影响公共卫生和政策决策的工具和数据。不幸的是,使用传统的流行病学数据收集方法,如人口健康调查、队列研究、登记等,往往需要数年或数十年才能使决策者了解公共卫生政策决定对公共卫生的影响。此外,疫情暴发或其他健康状况的早期检测方法往往基于临床数据,而且没有关于人群临床前事件和行为模式的“实时”数据。
潜在的信息流行病学指标和指标包括网站和社交媒体上信息流行程度和模式的自动汇总和分析数据;讨论组、博客和微博(如Twitter)中的“闲聊”指标;搜索引擎上的活动等等。
互联网上信息和通信模式的变化可能是人口健康变化的(早期)"症状" [
因此,信息流行病学研究的一个重要目标是制定、收集和评估与流行病学数据有某种关系或对公共卫生和政策制定有用的信息和传播模式的度量标准和指标。
“信息流行病学”一词最初用于建议为互联网上发布的内容制定衡量标准(现在称为“基于供给的信息流行病学”)[
虽然“信息流行病学”最初是在分析“供应方”(在网上发布的内容)的背景下使用的[
无论信息来源如何,信息流行病学都需要一套新颖的消费者和公共卫生信息学方法来衡量信息的流行病学,描述和分析电子媒体(如网络)中的卫生信息和传播模式。虽然可以想象,信息流行病学指标也可以在“离线世界”中获得,但对电子媒体的关注有一个现实的原因:一旦信息以电子形式可用,就可以自动收集和分析。基于供给和需求的信息流行病学方法是相似的,因为它们采用类似的工作流程,面临类似的问题:从大型文本数据集中选择和过滤信息(“感兴趣的概念”),试图从语义上“理解”信息(自然语言处理),对信息进行地理编码,并使用基本的描述性和分析性统计方法,或更先进的时间空间统计方法来检测趋势和集群。
将信息流行病学数据用于监测目的被称为“信息监测”[
接下来,我将更详细地讨论基于供给的指标、基于需求的指标和数据来源。它们共同构成了信息流行病学的愿景,也为Infovigil系统提供了蓝图。
设想一个系统可以持续监控互联网帖子(无论是在网站、博客、微博(包括Twitter、社交媒体、讨论板帖子或其他公开来源),采用自然语言处理和其他方法按主题对帖子进行分类,并获得随时间变化的指标。我们称之为度量
最基本的信息流行病学供应指标是
“信息池”可以是一组文档、帖子、状态行(Twitter、Facebook)、网页或网站的集合。例如,我们可以自动地获得由一组关键字确定的关于某个主题的Internet帖子的(绝对)数量的估计。我们称这些为数据
一种获取这些的粗糙方法
信息流行率与发病率散点图(Eysenbach,正在准备中)
作为流行病学术语的类比,我们也可以计算信息
资料或概念发生率也可能表明新出现的公共卫生威胁。例如,Infovigil项目监测Twitter微博中提及公共卫生相关关键词和短语的情况,如“我发烧了”。这些数据连同关于用户位置的信息,以及自动对话和引导用户进行调查,可以为公共卫生机构和公众提供有价值的信息。
来自Twitter状态提要(“tweets”)的信息发生率(关键字出现)趋势(DIYCity/sickcity)
随着网站数量的不断增加,信息流行度的绝对数字不如标准化指标(即比率、比率等相对指标)有意义。如果“信息池”中“信息单元”的总数是已知的,那么用于规范化绝对计数的分母可以简单地是信息单元的总数。例如,如果我们知道Web在给定的时间点上有x个给定语言的Web页面,其中y个页面与癌症有关,那么我们可以将信息流行率表示为y/x的比例。然而,在Web的情况下,分母,即分子关键字的特定语言中所有索引文件和文档的总数(包括,例如,html、excel和powerpoint文件等),通常很难获得或不知道。虽然像谷歌这样的搜索引擎可能拥有某种语言的索引文档总数的数据,但这些信息通常是专有的,研究人员无法访问。
因此,与控制关键字或概念相比,将信息流行度表示为关于某个主题的信息单元的一部分通常更容易。例如,如果提到“前列腺癌”的网络资源数量为2160万,而提到癌症的资源数量为2.14亿,那么前列腺癌与癌症的发生率为21.6:214 = 10%。
研究出现比率可以让我们深入了解国家之间在使用词语和概念方面的语言和文化差异,但它也可以成为研究获得卫生信息方面的不平等和差异的一种方法。
另一个重要的警告是,许多搜索引擎不能给出准确或可靠的点击率。不仅不同的搜索引擎提供不同的结果,而且即使同一搜索引擎在同一天内多次查询也可能给出不同的估计。像Infovigil这样的系统在一天中的不同时间从不同的搜索引擎收集这些信息,并使用统计方法来消除差异。这也最大限度地减少了潜在的偏差,即某些关键字的点击数的变化可能会被搜索引擎算法的变化所混淆。还有其他方法可以完全绕过搜索引擎,例如随机IP采样或随机创建域名,但这些方法都有自己的问题,例如触发安全警报,因为它们类似于黑客企图。
英语工业化国家中各种概念的信息出现率
Google.com(所有国家域名) | 加拿大 |
联合王国 |
澳大利亚 |
|
|
||||
“宫颈癌” | 7.09 | 0.08 | 0.41 | 0.05 |
癌症 | 227 | 3.95 | 8.77 | 3.03 |
健康 | 1190 | 49.7 | 57.4 | 67.8 |
疾病 | 226 | 3.67 | 4.84 | 3.05 |
疾病 | 68.6 | 1.57 | 2.8 | 2.02 |
健康 | 147 | 3.4 | 1.67 | 0.74 |
|
||||
宫颈癌/癌症 | 0.03 | 0.02 | 0.05 | 0.02 |
疾病或健康 | 0.19 | 0.07 | 0.08 | 0.04 |
疾病或健康 | 1.54 | 1.08 | 2.90 | 4.12 |
疾病/健康 | 0.06 | 0.03 | 0.05 | 0.03 |
疾病/健康比 | 0.47 | 0.46 | 1.68 | 2.73 |
寻找
虽然在技术上更具挑战性,但也应该有可能自动识别和分类错误信息或不平衡信息的情况,随着时间的推移跟踪趋势。例如,反疫苗接种网站使用特定的语言,具有特定的属性(例如,链接到其他反疫苗接种网站),并引用特定的医学文献子集,以提供片面的、有偏见的医学证据观点[
一旦以纵向方式收集到某一特定领域偏见发生率的信息,公共卫生和健康营销计划的有效性就变得可衡量了。例如,一场针对围绕疫苗接种的神话的媒体运动应该会导致反疫苗接种帖子与支持疫苗接种声明的比例发生变化,这反过来可能是实际疫苗接种率变化的一个预测因素。
这里要提到的最后一个应用领域是
另一类基于“供应方”的应用程序,例如全球公共卫生情报网(GPHIN)、健康地图系统和EpiSPIDER项目,分析选定的二级数据源,如新闻报道和专家通讯(ProMED邮件),并汇总公共卫生相关信息,特别是关于传染病爆发的信息[
这些系统通常使用更有选择性的方法来选择高质量的、专家策划的二手数据源,而不是像Infovigil系统这样的系统,这些系统试图通过分析关于信息供求的更嘈杂的“原始数据”(例如,Twitter订阅或搜索和导航行为)来利用互联网上人们的“集体智慧”。
可以开发的最后一类系统是分析和提取互联网上关于社会网络结构的信息的系统。对于某些公共卫生情况,特别是在疫情暴发的情况下,但对于卫生营销活动,收集关于人与人之间关系的情报是有利的。例如,可以想象,如果公共卫生专业人员能够随时获得有关Facebook上朋友列表中谁认识谁的信息,可能有助于遏制传染病的传播。显然,在Facebook上“认识”某人、与某人交流或与某人成为“朋友”并不一定意味着这些人有身体接触,因此,为了对公共卫生有用,需要更先进的方法,而不仅仅是从Facebook上提取“朋友列表”。
在基于需求的信息病学指标中,我们通常指的是人们的搜索和“点击”(即导航)行为产生的数据。
潜在的数据源包括来自搜索引擎的数据(只有搜索引擎自己可以访问的数据),以及来自网站日志(单个网站或来自不同网站的集合)的搜索和导航数据,尽管后者被网站的内容严重混淆,因此更难分析。最后一种可能是开发一种浏览器插件或桌面软件,在用户明确同意的情况下,将匿名搜索和可能的导航行为传输到Infovigil数据中心。
来自搜索引擎的查询日志数据允许对信息需求和人类行为进行有价值的洞察。典型的查询日志数据包含一个唯一的用户标识符(例如,一个随机数,它被设置为用户客户端浏览器中的cookie,允许它关联来自同一用户的搜索)和/或用户的IP地址、查询字符串、查询时间和单击URL。用户标识符和IP地址属于隐私敏感信息。如果日志文件中有任何数据被保留,就可以从这些信息重构用户的身份[
的例子
现有的搜索引擎数据挖掘方法可以使用和聚类查询和点击数据,以便对用户的假定意图做出有意义的推断[
信息需求(谷歌上的搜索)、流感病例和哨点医生报告的流感样疾病之间的关系。部分数据来自一项为期五年的前瞻性研究,收集了谷歌2004-2007年的搜索和点击数据(Eysenbach 2007,在2007年芝加哥AMIA年度秋季研讨会上发表,方法见[
上面概述的信息流行病学和信息监视方法可以被称为被动方法,因为它们试图自动和被动地分析和识别互联网上的趋势,而不主动地涉及用户。然而,由于互联网是一种互动媒体,因此也有可能无缝地从人们那里收集更丰富的数据,或者引导他们进行干预。在综合征监测领域,这完全代表了一种范式转变,因为传统的监测工作,例如,基于监测急诊室入院情况或非处方药销售,甚至在消费者没有注意到或无法提供输入的情况下发生。相反,使用信息监视方法,可以引导消费者提供额外的信息。例如,在使用谷歌Ad方法跟踪流感特定关键字的搜索数据时[
迄今为止,只有少数开拓性研究探讨了信息供应和/或需求与人口健康之间的关系,并对信息流行病学指标进行了试验。如上所述,这些指标的开发和标准化是一个新兴的研究领域,而且如上所示,信息流行病学指标的应用领域包括从早期疾病检测到人口层面的预防和慢性疾病管理,到政策制定和实施,以及知识转化研究。将需求指标和供给指标结合在一起,可以深入了解人口层面上信息提供和信息寻求之间的动态和相互作用。
最后一个观点来自行为科学。分析人们如何在互联网上搜索和浏览与健康相关的信息,以及他们如何交流和分享这些信息,可以为人们的健康相关行为提供有价值的见解,包括例如对健康问题的理解水平、对健康状况的了解等等。这些信息传统上是通过大型而昂贵的人口调查收集的,比如国家癌症研究所的“健康信息全国趋势调查”(hint),该调查要求参与者回忆他们的行为。虽然此类调查仍然是无价的,但信息流行病学方法和指标可以补充这些数据,提供关于健康信息寻求行为的直接和诚实的数据,不受回忆或社会可取性偏见的影响,实时进行,执行成本相对较低。
这符合更广泛的“人口组学”的观点,吉本斯用这个术语来建议收集“人口水平的数据,以便开发‘社区(人口)阵列’或社区范围的风险概况”[
2006年,美国国家癌症研究所(National Cancer Institute)和行为与社会科学办公室(Office of Behavioral and Social Sciences)开始推动“人口组学”的概念与“基因组学”和“蛋白质组学”并列,他们认为“将行为科学的常见数据元素纳入国家人口健康评估,对国家规划和团队科学至关重要”。NCI进一步认为,“在医疗保健环境中需要行为措施[…]]而且in public health planning, in which national indices of progress on behavioral measures could guide policy and communication planning” [
信息流行病学指标反映了人们在互联网上的行为,包括他们寻求健康的行为或他们的行为改变尝试,如戒烟、体育活动、饮食变化、使用防晒霜和减少酒精消费,这可以通过搜索和发布行为来证明,这些指标可能是实现这一目的的新颖和有价值的措施。
信息流行病学是公共卫生信息学中的一门新兴学科,它是我们时代的一个标志:挑战我们的与其说是信息的可用性,不如说是信息的聚合和分析。该领域是高度跨学科的,需要信息科学家、计算机科学家、流行病学家、医学专家、公共卫生信息学专家、行为科学家和统计学家的合作。事实上,在其他学科(信息计量学、网络计量学和“开源情报”社区)中开发的指标和方法可能在信息流行病学中有直接的应用。需要与私营部门(例如搜索引擎)建立研究伙伴关系。另一方面,信息流行病学也强调了对隐私的威胁,并提出了关于知情同意的新问题,这是由于对大规模公开获取的人们信息的汇总和分析。
尽管存在这些挑战,但大量的潜在应用和社会效益证明了在基础设施和研究方面的投资是合理的,而且不仅是资助机构、慈善组织和医学期刊的同行评议人员应该对这种新颖和非常规的方法保持开放的心态。
没有宣布。