JPH JMIR公共卫生监测 JMIR公共卫生和监视 2369 - 2960 卡塔尔世界杯8强波胆分析 加拿大多伦多 v1i1e6 26925459 10.2196 / publichealth.3953 原始论文 原始论文 使用Twitter衡量公众对疾病的讨论:一个案例研究 Eysenbach 冈瑟 伯顿 斯科特 Salathe 马塞尔 Weeg 克里斯多夫 火星科学实验室 1
积极心理学中心 心理学系 宾夕法尼亚大学 所罗门实验室 核桃街3720号 费城,宾夕法尼亚州,19104-6241 美国 1 206 412 1689 1 215 573 2188 mr.weeg@gmail.com
http://orcid.org/0000-0002-0932-6264
施瓦兹 H安德鲁 博士学位 2 http://orcid.org/0000-0002-6383-3339 Shawndra 博士学位 3. http://orcid.org/0000-0003-1980-727X 商人 莱米 MD MSHP 4 http://orcid.org/0000-0002-9801-6881 阿朗戈 卡特琳娜 废话 5 http://orcid.org/0000-0002-2970-4074 莱尔 博士学位 2 http://orcid.org/0000-0003-2047-1443
1 积极心理学中心 心理学系 宾夕法尼亚大学 费城,宾夕法尼亚州 美国 2 计算机与信息科学系“, 宾夕法尼亚大学 费城,宾夕法尼亚州 美国 3. 营运及资讯管理 沃顿商学院 宾夕法尼亚大学 费城,宾夕法尼亚州 美国 4 社会媒体和健康创新实验室 急诊科 宾夕法尼亚大学 费城,宾夕法尼亚州 美国 5 沃顿商学院 宾夕法尼亚大学 费城,宾夕法尼亚州 美国 通讯作者:Christopher Weeg mr.weeg@gmail.com Jan-Jun 2015 26 06 2015 1 1 e6 20. 10 2014 25 12 2014 28 2 2015 31 5 2015 ©Christopher Weeg, H. Andrew Schwartz, Shawndra Hill, Raina M Merchant, Catalina Arango, Lyle Ungar。原载于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com), 2015年6月26日。 2015

这是一篇根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,http://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。

背景

Twitter越来越多地用于估计疾病流行率,但由于抽样有偏见和自然语言固有的模糊性,这样的测量可能是有偏见的。

客观的

我们描述了这些偏差的程度以及它们如何随着疾病而变化。

方法

我们将Experian西蒙斯全国消费者研究(n=12,305)中22种疾病的自我报告患病率与同期(2012年)这些疾病在Twitter上被提及的次数进行了相关性分析。我们还确定并纠正了推特数据中存在的两种类型的偏见:(1)美国推特用户和美国总人口之间的人口统计学差异;(2)自然语言的模糊性,这就产生了一种可能性,即提到一种疾病的名称可能实际上并不是指这种疾病(例如,Twitter上的“心脏病发作”通常不是指心肌梗死)。我们测量了疾病流行率和Twitter疾病提及率之间的相关性,有和没有偏见校正。这使我们能够量化每种疾病在推特上的过度代表或不足代表,相对于其患病率。

结果

我们的样本包括80,680,449条推文。调整疾病流行率以校正Twitter人口统计数据,将Twitter疾病提及率与普通人群疾病流行率之间的相关性提高了一倍以上(从0.113到0.258, P<措施)。此外,在Twitter上提及疾病名称的频率上存在很大差异,从14.89%(3827/ 25704)(中风)到99.92%(5044/5048)(关节炎)。对我们的Twitter语料库应用歧义校正,实现了疾病提及率和患病率之间的相关性。208 ( P<措施)。同时对人口统计学和模糊性进行校正,将基线相关性提高了三倍以上,达到0.366 ( P<措施)。与患病率相比, 癌症在推特上的比例最高,而 高胆固醇似乎代表性不足。

结论

Twitter是一个潜在的有用工具,可以衡量公众对不同疾病的兴趣和关注,但在比较疾病时,可以通过调整人口统计数据和词语歧义来进行改进。

偏见 数据挖掘 人口统计资料 疾病 流行病学 患病率 公共卫生 社交媒体
简介 背景

Twitter、Facebook、新闻组和谷歌查询中的单词使用模式已被用于调查一系列广泛的健康问题。Twitter可能是这类研究中最受欢迎的在线数据源,部分原因是它的相对可访问性。它被用来监测健康问题,包括流感[ 1 2]、霍乱[ 3.], h1n1 [ 4- 6]、产后抑郁症[ 7],脑震荡[ 8]、癫痫[ 9],偏头痛[ 10]、癌症筛检[ 11]、抗生素的使用[ 12]、医生差错[ 13]、牙痛[ 14],以及对疫苗接种的态度[ 15].

尽管存在潜在的方法挑战,但此类研究已经证明了挖掘社交媒体在公共卫生应用中的实用性,包括:(1)Twitter用户形成了一个有偏见的人群样本[ 16- 18(2)他们在推文中的用词可能是高度模糊的。例如,只关注医疗领域,“中风”有许多非医疗用途(“天才之举”或“仰泳”);大多数人提到的“心脏病发作”都是比喻,而不是字面上的(我刚刚心脏病发作,在我洗澡的时候停电了);尽管医生们将“MI”与心肌梗死联系在一起,但在推特上,它更多地指的是密歇根州。

研究目标

本文量化了使用Twitter等资源作为衡量疾病流行率的代理时产生的错误,并提供了一个部分纠正的框架。我们调查了美国推特上提到疾病的频率与美国人口中相同疾病的患病率之间的关系。理解这种关系可能对各种应用都很有用,包括医疗保健信息传递和疾病监测。我们使用Twitter作为衡量讨论的场所,很大程度上是因为它作为跟踪疾病流行率的廉价代理已经受到了广泛关注。 19 20.].

我们的主要贡献是证明,通过纠正推特上模棱两可的医学语言,以及纠正推特用户和美国普通人口之间的人口统计学差异,可以更好地将推特疾病提及统计数据与实际疾病流行统计数据相一致。我们观察到,一般人群疾病流行统计数据(来自现有调查数据)与每种疾病在Twitter上被提及的次数(根据我们自己的统计)之间存在轻微的相关性。我们发现,我们可以显著增加这种相关性(1)通过将疾病流行人群专门限制为Twitter用户(即通过与专门针对该群体的现有流行数据进行关联),以及(2)通过调整我们的疾病提及计数来纠正词义歧义。

方法 概述

我们首先确定了一系列疾病;然后,针对每种疾病,我们构建了一个涉及该疾病的术语列表(即特定疾病的词典)。我们还收集了大量的推文,并将它们编译成一个推文语料库。接下来,我们从包含任何疾病术语的语料库中检索了一个随机的推文样本。然后,我们在随机样本上使用人工注释,确定了疾病术语的医疗用途(即有效阳性)与非医疗用途(即由于歧义导致的假阳性)的相对频率(百分比)。这使我们能够计算语料库中提到每种疾病的推文数量的正确计数(我们称之为疾病的“有效推文计数”,而未纠正的计数被称为“原始推文计数”)。

我们将修正后的疾病提及频率与西蒙斯国家消费者研究的美国疾病流行统计数据相关联。 21].由此产生的相关性可以用来衡量语料库中提到的疾病数量与美国人口(一般人口或twitter用户)中疾病病例数量之间的关系。比较有修正和没有修正的相关性可以显示修正的大小。

数据收集 疾病的选择

我们使用以下标准来选择本研究中的疾病:(1)可以与美国人口流行率数据和twitter使用数据配对的疾病;以及(2)先前文献认为对医疗保健社区影响最大的疾病。每个标准由不同的数据集满足。

第一个数据集来自全球信息服务公司益百利。益百利还针对各种主题开展消费者调查,包括医疗保健。在这项研究中,我们使用了Experian西蒙斯全国消费者研究的数据,并专注于与一般人口统计数据、健康状况和社交媒体使用有关的调查问题。

各种Experian调查的结果被合并到一个数据库中,并每季度和每年发布一次。Experian对其调查数据进行后分层,为其测量变量创建具有人口统计学代表性的估计值。我们查询了该数据库,以获得2012年的数据集,该数据集包括一般人口统计数据和Twitter使用情况,交叉统计了所有可用疾病(n=52)的患病率。对于说英语或西班牙语的美国成年人(n=230,124,220),我们能够找到患有某种疾病的估计人数(例如,背痛,n= 4200万),以及使用Twitter的疾病患者群体(背痛,n= 260万)。因此,这个数据集为我们提供了美国普通人群和美国推特用户的并行疾病流行统计数据。

第二个数据集来自兰德公司的一项研究,旨在广泛衡量美国医疗保健服务的质量[ 22].通过对文献和国家卫生保健数据的回顾,并通过与医学专家小组的磋商,本报告确定了46个“临床领域”,它们代表了美国疾病、死亡和卫生保健利用的主要原因。

24种疾病的清单(见 多媒体附件1)是由Experian数据集(n=52)和RAND研究(n=46)中所代表的疾病之间的重叠组成的。这种重叠可能是显性的(例如,“哮喘”出现在两个列表中),也可能是隐性的(例如,Experian的两个独立条目,“胃溃疡”和“胃酸反流疾病/GERD”都是由RAND的一个条目“消化性溃疡疾病和消化不良”暗示的)。这项任务的重点不是在两个列表之间精确匹配,而是找到它们之间普遍一致的领域,以从Experian数据集中识别高影响疾病。

疾病术语汇编

对于我们列表中的每一种疾病,我们都构建了一个用于指代该疾病的疾病术语词典。例如,的词典 糖尿病本研究中使用的包含三个疾病术语,即“糖尿病”、“糖尿病”、“niddm”。本研究中的所有词汇都来源于《消费者健康词汇(CHV)》[ 23],这是一个在线开源同义词词典,它将医学概念(包括疾病、医疗程序、药物、解剖学等)与口语化和技术术语相结合。在本研究期间,CHV包含158,519个条目,涵盖57,819个独特(但通常密切相关)的概念。每个条目收集(以及其他数据)至少三个术语元素:(1)CHV术语,(2)描述性短语,以及(3)来自称为“统一医学语言系统(UMLS)”的医学词汇表的相关术语。CHV术语在同义词典中可以有多个条目,从而将CHV术语与任意数量的描述性短语或UMLS术语相关联。然后可以将每个CHV术语视为一个键-值对,其中CHV术语是键,关联术语网络(由描述性短语和UMLS术语组成)是值。

对于研究中包含的24种疾病中的每一种,我们处理CHV以检索相关术语if的整个键值网络 任何一个的术语(在关键或值)似乎是指目标疾病。任何疾病都可以(而且经常)收集多个网络。这些结果一起构成了一个候选疾病术语的疾病列表(然后根据“审查候选疾病术语”一节中描述的过程对这些疾病进行审查)。如果一个术语包含从目标疾病名称派生的搜索字符串(包括缩略形式和拼出来的形式),则判断该术语是对目标疾病的潜在引用(从而触发检索所有相关术语)。例如,“注意力缺陷”是一个搜索字符串 注意缺陷障碍/注意缺陷多动障碍;"心脏病"是一个搜索字符串 心脏病;和“GERD”是搜索字符串 反酸性疾病.搜索字符串中还包括一些常见疾病的同义词,比如“青春痘” 痤疮和“肿瘤” 癌症.每种疾病的搜索字符串数量各不相同,范围从1到7。

推文语料库

我们分析中使用的推文来自2012年所有可用推文的1%的随机样本,这些推文是通过Twitter“1%随机公共流”应用程序编程接口(API)收集的[ 24].为了使我们的数据更接近美国和大多数说英语的Experian Simmons样本,我们过滤了我们的Twitter语料,只保留起源于美国的英语推文。为了过滤英语,我们只考虑在Hunspell英语词典中找到至少50%单词的推文[ 25].通过在位置字段中找到“美国”或明确的美国城市,推文将进一步限制在美国(城市名称来自[])。 26])。例如,“芝加哥”将与美国相匹配,而“伦敦”,即使德克萨斯州有一个伦敦,也不会。结果是有80,680,449条推文。

审查疾病任期候选人 语法

在这项研究中,我们专注于寻找特定的推文 的名字我们的目标疾病。将这一重点扩大到包括相关概念,如症状和治疗,是可取的,但在本文的范围内是不可能的。由于我们专注于命名疾病的术语(而不是描述或暗示疾病的术语),我们删除了所有非名词的候选疾病术语(例如形容词,如“抑郁症”或“关节炎”)。然后我们手动扩展列表,在语法合适的地方添加复数形式。

医疗

我们使用倾向于包容性的关键字搜索策略来挖掘CHV。例如,在搜索“痤疮”时,检索到的医学概念术语最多可能与之毫无关联 痤疮.其中一个概念是 痤疮,酒渣鼻,其相关术语网络包括“痤疮酒渣鼻”、“紊乱性酒渣鼻”、“酒渣鼻”和“酒渣鼻痤疮”。

因为这个概念 痤疮,酒渣鼻合并至少一个包含“痤疮”文本字符串的术语后,其整个网络的术语自动成为候选词 痤疮词典。这种包容性提出了“酒渣鼻”、“痤疮酒渣鼻”、“紊乱性酒渣鼻”等是否表示的问题 痤疮.为了解决这个问题,研究小组的一名医生审查了候选条款。对于每一种疾病,她都删除了不代表该疾病的候选词,以确保在任何疾病词典中只收录医学上合适的术语。

结构

我们为每种疾病制作了一个文本字符串列表,我们可以使用它在Twitter语料库中搜索提及该疾病的信息。为了实现这一目标,我们考虑到了两个现实。首先,许多CHV术语元素使用了在自然语言中不常见的结构(例如,“发烧干草” 鼻过敏/花粉热),“攻击心脏”,“攻击心脏”,或“攻击心脏” 心脏病,以及“疼痛,背部,放射” 背部疼痛).其次,在Twitter语料库中执行搜索时,只需要搜索短语中最短的元素;如果复合搜索短语包含较短的搜索短语,则较长的搜索短语由较短的搜索短语暗示(例如,“哮喘”检索 哮喘 过敏性哮喘 花粉哮喘等;“糖尿病”检索 糖尿病 胰岛素依赖型糖尿病 糖尿病筛查等等)。

由于这两个事实,我们能够显著缩短由半自动CHV搜索程序生成的候选疾病术语列表。所有反向顺序候选词(如“发烧干草”)和复合候选词(如“过敏性哮喘”)都被淘汰。

经过这三个审查程序后,24种疾病词典共包含488个疾病术语(见 多媒体附件1).

手动推文评估

我们确定了488种疾病中的每一种在推特中提到其相关疾病的频率。首先,对出现该术语的语料库中每个疾病术语的推文数量进行基本计数(在应用任何语言歧义纠正之前)。这是一个疾病术语的原始推文数。请注意,如果一条推文包含多个疾病术语,我们允许它被计算两次(无论这两个术语是指相同还是不同的疾病)。在整个研究过程中,我们考虑了推特中出现的疾病术语的随机实例,而不考虑与它们同时出现的其他术语。

然后我们进行人工评估。对于每个疾病术语,我们从我们的推文语料库中随机选择30条包含该术语的推文进行手动分析。选择这个数字是为了平衡研究需求和时间限制。在推文语料库中,一些疾病术语出现在30条或更少的推文中。发生这种情况时,将检索所有可用的tweet。

两名讲英语的研究助理独立阅读每条推文,并做出简单的评估,回答说:“对于每条推文,根据您的判断,标记推文检索的疾病术语是否指的是该术语的医学含义?”每条推文都需要一个是或否的判断,如图所示 表1.两位评分者各自收集了一套完整的“是/否”判断,对另一位评分者保密。

评估每条推文是否涉及所选术语的医学含义的示例。这里的术语是“心脏病发作”。

评定等级1 评定等级2 推特
是的 是的 拜访了一位患过两次心脏病的男士,他为能在这样的环境中分享他对上帝的信任而感到荣幸。# realdeal
是的 没有 能再坐一个人吗?@pjones59:香肠球,心脏病发作的棍子,蘸酱,薯条,鸡翅和奶酪,奶油奶酪/泡菜/火腿卷
没有 没有 我还是不敢相信我前几天在上班的时候看见克里斯了。说到小型心脏病发作。U_U

在这些推文级别的评估完成后,我们将疾病术语级别的分数汇总在一起(独立于每个评分者的判断集合)。对于每个评分者和每个疾病术语(n=488),我们计算了样本中被评估为涉及医学含义的推文的百分比。科恩对评分者间可靠性的kappa为。77。

然后对两个评分者的疾病术语百分比进行平均,得出每个疾病术语的修正因子。我们将这个系数乘以疾病术语的原始推文数( rcount),以得出估计的疾病期限 有效推文数 vcount).

一旦完成了对疾病词汇中的每个疾病术语的估计,就会对疾病术语估计进行汇总,生成我们的最终度量,即每个疾病词汇的经过验证的推文计数( 图1).疾病词汇表的经过验证的推文计数是我们的语料库中对相关疾病有效引用的推文的估计数量,也就是说,纠正疾病词汇表原始推文计数中存在的歧义错误。

以人工鉴定为例 糖尿病疾病词汇表( 图2)说明了从原始推文数9202到经过验证的推文数8896的演变过程。

推导疾病词汇校正因子的方程。

糖尿病词汇中的疾病术语经过人工鉴定。每个学期接受多达30个实例的评估。然后,术语级别的评价被相加,以达到最终的词汇级别的糖尿病验证推文计数(8896)。

结果 初步研究结果

在我们手动审查的2824条包含疾病术语的推文中,两名人类评分者的平均判断表明,2276.5条(80.61%)实际上指的是疾病,不同疾病的有效性差异很大。例如, 中风术语很少涉及医疗紧急情况(只有22%的时间,或55/252),而 糖尿病术语几乎总是指医疗状况(98%的时间,或102/104)。请注意我们报告的百分比 表2(14.89%, 3827/ 25704,中风;(96.67%, 25104 / 25704,糖尿病)根据Twitter语料库中组成疾病词汇库的不同术语的术语频率,对手动导出的百分比进行加权。

将24种疾病的原始推文计数和验证推文计数进行比较 表2,以及修正系数(根据被评估的推文被判定有效的百分比进行调整)。 表2还包括疾病流行率数据(包括美国普通人群和美国推特用户),这些数据直接来自益百利的西蒙斯国家消费者研究。我们注意到所有五种疾病测量的高度异质性。这可能反映了疾病本身的异质性:其中包括急性病毒感染(如, 流感)、一般疾病(例如: 背痛 鼻过敏/花粉热)、慢性疾病(例如: 关节炎 骨质疏松症)、测试措施(例如: 高胆固醇 Hypertension /高血压)、医疗紧急情况(例如 心脏病 中风),以及心理障碍(例如, 抑郁症 添加/多动症).有些疾病是暂时性的(例如, 尿路感染),其他则是长期的(例如, 糖尿病).有些是导致死亡的原因(例如, 癌症 充血性心力衰竭),而另一些则相对肤浅(例如, 痤疮).鉴于这种多样性,在各种疾病列表中看到推文计数、校正因子和患病率的值范围很广也就不足为奇了。

原始和验证的推文计数、校正因子以及每种疾病的美国和推特疾病流行率。

疾病 原始推文数 有效推文数 校正因子一个 美国(百万)b, d 美国推特(百万)c, d
胃酸反流病/胃食管反流病 743 631 84.98 32.4 2.40
痤疮 6936 6027 86.89 11.2 2.00
注意缺陷障碍/注意缺陷多动障碍 2794 2660 95.19 4.9 0.90
关节炎 2524 2522 99.92 34.4 1.30
哮喘 3952 3754 95.00 12.4 1.00
背痛 3035 3028 99.77 42.0 2.60
癌症 110760年 63647年 57.46 5.0 0.46
充血性心力衰竭 928 313 33.76 - - - - - - - - - - - -
心脏病 2741 2410 87.91 - - - - - - - - - - - -
充血性心力衰竭/心脏病e 3669 2723 74.21 5.9 0.46
慢性阻塞性肺疾病 226 188 83.37 5.5 0.86
抑郁症 14294年 10459年 73.17 18.7 2.20
糖尿病 9202 8896 96.67 20.8 1.20
流感 10139年 8810 86.90 17.2 1.80
生殖器疱疹 76 66 86.84 1.8 0.33
心脏病 15027年 2311 15.38 - - - - - - - - - - - -
中风 12852年 1914 14.89 - - - - - - - - - - - -
心脏病和中风f 27879年 4225 15.15 3.0 0.11
高胆固醇 225 218 96.67 37.9 1.70
人乳头状瘤病毒 636 545 85.73 1.5 0.12
Hypertension/高血压 1630 1491 91.49 43.5 1.50
偏头痛 5958 5615 94.24 16.4 1.80
鼻过敏/花粉热 481 473 98.27 18.2 1.30
骨质疏松症 316 306 96.68 6.0 0.13
胃溃疡 80 73 91.25 3.3 0.03
尿路感染 880 479 54.40 10.0 1.00

一个修正因子是被评价为有效的推文的百分比。

bPrev US(百万)代表一种疾病在美国的患病率。

c美国推特(百万)代表一种疾病在美国推特用户中的流行程度。

dPrev US(百万)和Prev US Twitter(百万)的数据来源都是Experian Simmons National Consumer Study。

e在Experian数据集中,充血性心力衰竭和心脏病被分解为单个数据点。我们分别在Twitter上挖掘这些疾病,并将我们的评估方法分别应用于包含每种疾病术语的推文。但是,由于益百利是我们的患病率统计数据来源,我们只能报告这两种疾病在合并状态下的患病率。

f注意“e”代表心脏病发作和中风。

统计分析

我们确定了斯皮尔曼相关系数(全部 P原始和验证的推文数量与美国普通人群和美国推特用户的疾病患病率之间的<.001)( 表3).仅对Twitter使用进行校正,推文数量和流行率之间的相关性就增加了一倍多(从0.113增加到0.258)。仅纠正单词歧义有类似的但稍小的效果(0.208)。两者校正后的基线相关性(.366)超过三倍。

原始和验证推文数与美国人口和推特用户疾病流行率之间的斯皮尔曼相关系数(所有 P<措施)。

患病率
美国人口 美国推特用户
原始推文数 .113 .258
有效推文数 .208 .366
讨论 概述

由于歧义修正,我们发现相关性改善似乎不足为奇。然而,人口统计校正带来的改善并不那么直接,特别是因为我们没有努力将我们的推文分析限制在第一人称自我报告提及疾病的情况下。人们很容易认为,疾病流行率和疾病提及率之间一定存在因果关系。事实上,我们将由于人口统计修正而增加的相关性解释为支持这一假设:这意味着我们测量的信号(即推特上提到的疾病)与该信号的可信来源(即使用推特的疾病患者)表现出正对应关系。然而,我们发现,对于某些个体疾病,疾病流行率和疾病提及率严重不同步。就目前而言,是什么原因导致人们在推特上(或不推特)谈论某种疾病仍然是一个悬而未决的问题,尤其是因为许多提到这种疾病的人并没有遭受这种疾病的折磨。在任何情况下,利用社交媒体来估计疾病患病率的方法都不需要解释因果关系。他们只要求社交媒体可靠地捕捉疾病流行的变化。我们已经证明,通过调整疾病患者和Twitter用户之间的人口统计学差异,可以改进这种测量方法。

偏差纠正

我们发现,由于推特用户的人口统计模式和自然语言的模糊性,naïvely计算推特中疾病术语的提及率产生的结果是有偏见的(就与已知疾病流行统计数据的相关性而言)。这些偏差至少可以部分纠正,导致推文中疾病术语的数量与我们研究的24种疾病的已知流行统计数据之间的相关性增加了三倍。

考虑到已知的推特人口统计数据,使用标准的分层抽样方法,推特人口是美国有偏见的样本,这一观察结果相对容易纠正。我们使用Experian的调查数据确定了这一点,但也可以使用其他关于Twitter人口统计数据的研究。我们证明,人口统计学校正大约使疾病提及率和患病率之间的相关性增加了一倍。

歧义的类型

语言本身的歧义需要更多的工作来纠正。我们观察到语言歧义在不同疾病中有显著差异。提及的疾病术语实际上指的是疾病的比例从高度具体的术语,如关节炎(99.92%,或5044/5048)到不太具体的术语,如中风(14.89%,或3827/25,704)。这种语言歧义主要有两种形式。

第一个是“词汇歧义”。一些疾病,如关节炎、糖尿病和高胆固醇,在实践中所使用的术语几乎总是指其相关的疾病概念。在我们的分析中,推特用户很少使用关节炎词汇来指代“关节炎”以外的疾病。然而,有一些疾病术语经常被用来指不是疾病(或不是预期的疾病)的概念。经常出现的例子包括“癌症”(星象星座)、“抑郁”、“中风”(非医疗用途,也包括中暑)和“流感”(如胃流感,而不是“流感”)。缩写尤其含糊不清。例如,“copd”(即慢性阻塞性肺病)是“copped”(如动词“took”)的一种流行变体拼写;泌尿道感染( 尿路感染)、“人乳头瘤病毒”( 人类乳头状瘤病毒)和“青春痘”( 痤疮)显示在互联网地址(特别是在短链接使用URL重定向);及“CHF”( 充血性心力衰竭)是瑞士法郎的缩写。或者相反,“Gerd”是一个男性的名字,与胃食管反流病(胃食管反流病的一部分)的缩写相吻合 反酸性疾病词典)。词汇歧义也产生于疾病术语的隐喻和俚语用法。“心脏病发作”和“心力衰竭”用来表示惊讶,“注意力不集中”用来表示分心。

第二种类型的模糊性可以被认为是“疾病模糊性”。在这项研究中包括的24种疾病中,有些疾病的描述不如其他疾病清晰。这个问题的一个方面是强度。如果一名推特用户报告自己因为最喜欢的球队输球而抑郁,这是医学抑郁症吗?如果她用“LOL”来结束一条看似严肃的推文呢?疾病模糊性的第二个方面是特异性或准确性。一些推特用户可能会用偏头痛这个词来形容其他类型的头痛,或者说花粉热,但实际上他们对猫过敏。疾病模糊性的第三个方面是复杂性。一个主要的例子是这项研究中心血管疾病的范围(即, 充血性心力衰竭 心脏病 心脏病 高胆固醇 高血压,可能 中风),它们的相互关系和确切边界很难或不可能画出来。

这两种类型的模糊性都会影响疾病的验证系数。第一种类型,词汇歧义(例如,同形词或隐喻词的使用),可能会影响方法的“后端”,需要对观察到的术语计数进行修正(即使用本文中描述的方法)。第二种类型,疾病边界模糊,在“前端”出现问题,使裁剪疾病词汇库变得困难。这种模糊性提出了一个问题:充血性心力衰竭和心脏病之间的潜在等级关系,或者高胆固醇与心脏病发作或中风之间的潜在因果关系,是否可以或应该以某种方式编码在疾病词汇表中。

在这项研究中,我们将每个疾病词汇作为一个独立的实体来处理,这个决定的影响必然会写入我们得到的结果中。我们可以预期,具有更“独立”性质的疾病(即那些相对独立的疾病,如 骨质疏松症,而不是一部分复杂的喜欢 心脏病)自然会更好地由它们各自的疾病词汇表来表示,而不是那些可能与其他疾病存在复杂关系的疾病。从直觉上看,一种疾病在Twitter上的表示与其在疾病词汇表中的表示之间的不匹配,实质上是导致该疾病的验证系数低于100%的原因。

有效推文数与流行率的相关性

就像不同疾病的有效性被证明存在很大差异一样,Twitter讨论相对于疾病流行的水平也各不相同。一些疾病的讨论程度超过了其在人口中的患病率,而其他疾病则很少受到相对重视。有效推文数与美国疾病患病率之间的相关性为0.208 ( 表3 P<措施)。为了更详细地描述这种关系,我们计算了每种疾病的有效推文数作为患病率的函数。为此目的使用以下公式:针对每种疾病 d,预测流行率=(有效推文数 d/所有有效推文计数之和)×所有疾病流行率之和。这可以理解为验证推文计数(不准确)预测每种疾病的患病率。

我们将这一预测患病率与实际患病率进行比较 图3.预测病例和实际病例的所有疾病流行率总和(351,939,580例)是相同的,但分布有很大不同。我们看到了 癌症是一个主要的异常值,“占”预计流行率(176,605,210)的50%以上,而占实际流行率(5,031,120)的不到2%。很明显, 癌症受到的关注远远超过了仅仅流行所保证的。预计患病率是实际患病率的35倍以上。相反, 高胆固醇是代表性不足的极端。预计患病率(604,898)仅为实际患病率(37,861,070)的1.60%。这些数据表明,除了患病率之外,还有其他未知因素会影响一种疾病在Twitter上获得的讨论量。

一种假设是,Twitter的人口统计数据使用户高度关注的疾病的讨论水平向上倾斜,而对不太关注的疾病的讨论水平向下倾斜。考虑到Twitter用户一般都是年轻人,这可以解释为什么 关节炎似乎在推特上太低调了,为什么 痤疮而且 添加/多动症over-tweeted。然而,人口统计学本身并不能解释预测的异常流行 癌症.他们也不太可能解释twitter的过度使用 流感而且 糖尿病.我们假设人口统计数据确实会影响这些结果(注意 痤疮这是一种年轻时的疾病,也是一种投射不足的疾病 Hypertension /高血压一种老年疾病,在 图3),但其他多种因素也起着作用。可能的候选因素包括疾病意识和宣传运动的强度和历史(见 癌症 糖尿病, 人乳头状瘤病毒);疾病病耻感或身体部位病耻感(见 生殖器疱疹而且 尿路感染).对这些和其他可能的因素的调查是未来研究的一个领域。

22种疾病的预计患病率(作为有效推文计数的函数)与美国实际患病率(以百万为单位)(按预计患病率排序)。有些疾病“推特过多”(特别是癌症),而另一些疾病“推特过少”(例如背痛和关节炎)。

限制

目前还不清楚疾病讨论(在Twitter上或一般情况下)与疾病流行之间的本质关系是什么。推特上关于疾病的讨论可能是由比疾病流行率更多的因素驱动的。人们在推特上谈论疾病有很多原因,为了本文的目的,我们不试图解开这些原因。不过,我们确实证明了推特上的疾病提及率与疾病流行率相关,而且在应用了人口统计和词语歧义校正后,这种相关性得到了改善。这一教训可以也应该被纳入其他研究或工具中,这些研究或工具将试图挖掘Twitter(或类似场所)上的语言,以获取更广泛人群的信息。

尽管我们尽了最大的努力,但我们的Twitter语料库和Experian数据集的人口统计数据并不完全匹配。最重要的是,Experian数据集包括英语和西班牙语美国居民的疾病流行率估计,而我们的推文语料仅限于英语推文。本研究用英语进行;未来的工作应该将类似的分析扩展到其他语言。

在这项研究中,我们没有考虑到所有可能影响疾病流行率和关于疾病的推文相互作用的变量。其中一些被遗漏的变量是以疾病为中心的。例如,一些疾病实际上可能比其他疾病更“适合在twitter上发布”,这是由于许多疾病因素,包括强度、持续时间、耻辱性、社会显著性等等,甚至可能是由于形式上的考虑(这种疾病是容易拼写还是容易拼写?)一种不太容易被推特的疾病可能会有更少的相关推文,而不会对推文计数产生任何基于流行病学的影响。

我们只考虑在推文中特别命名(拼写正确)疾病的疾病。一方面,依靠正确的名词形式的疾病名称,这些名称来自公认的健康词汇,如CHV,有助于推动这项研究走向半自动、客观性和可重复性。然而,另一方面,这一决定留下了未知的,但可能是大量的与疾病相关的推文未被挖掘,因此在我们的分析中没有被解释。我们漏掉了俚语(如“糖尿病”)或拼写错误(如“ashtma”,“hi cholesterol”)。在严格的形式层面上,我们目前的方法是以召回率为代价来调整精度的。此外,人们可以在Twitter上通过提及症状、后遗症、地点(如医院)、药物或治疗等来讨论健康问题。我们对疾病名称的关注无法捕捉与健康相关的推文这一更广泛的领域。提高记忆力留待将来研究。

其他被忽略的变量是以Twitter为中心的。Twitter没有透露他们的api中使用了哪些抽样程序,这是有据可查的。 27 28].因此,目前尚不清楚这些推特用户(他们的推文被本研究捕获)在美国推特用户中的代表性有多大。这是不可避免的,也是所有使用Twitter api进行研究的共同缺点。

在这项研究中,我们也没有对推特用户进行歧视。Twitter“用户”可能不是一个独立的人。许多健康相关甚至疾病相关的组织在推特上提到疾病。与此类组织相关的因素(其数量、社交媒体策略等)可能与疾病命名推文的数量有关。其他研究人员已经解决了区分由卫生组织撰写的推文的问题[ 29],但这项研究并没有做出这样的区分。

与之前工作的比较

在正常的生活或业务过程中,个人和组织会生成大量可供挖掘的文本。其中大部分都以这样或那样的形式在网上分享或发表,这些数据对研究人员很有吸引力,包括那些对流行病学和公共卫生感兴趣的人。

一些“信息流行病学”研究(例如,“引言”部分引用的长列表中的许多研究)将Twitter上的单词使用与疾病或医疗状况的流行程度联系起来。除了推特,网络搜索活动也被用于监测莱姆病。 30.]及登革热[ 31],以及与饮食习惯相关的危险行为[ 32]和自杀[ 33].博客文章曾被用来预测流感爆发[ 34].脸书一直被用来预测“国民幸福总值”,也就是整个美国的幸福指数。 35].

这些研究主要将某些媒介(如Twitter或谷歌搜索)在一段时间内(如一天或一周)和某些地区(如美国县或州)的词汇使用与疾病流行水平联系起来。这种相关性方法依赖于对他们所研究的人群的同质性的某些假设,这些假设往往没有说明,因此可能未经检验和纠正。目前尚不清楚人口统计学偏差或词语歧义偏差是否具有代表性。我们假设研究人员含蓄地假设,这些因素将被他们使用的统计回归方法自动处理。如果人口统计学和模糊性偏见在时间和空间上是不变的,这将是正确的。然而,如果人群对目标媒介(如Twitter)的使用不同,预测的准确性也会有所不同,而且这种差异可能是显著的。

流感趋势可能是相关预测方法的“典型代表”。它是一种被广泛引用的在线工具,使用广泛的谷歌搜索词与历史流感水平之间的统计相关性来预测美国流感水平的区域变化[ 36].谷歌流感趋势最初是非常准确的。然而,它也被用作一个案例研究,说明当“大数据”预测所基于的统计模式在描述上不准确时(要么从一开始就不准确,要么由于时间的漂移),它们是如何出错的[ 37 38],他们声称,预测一度被夸大了近两倍[ 39].

少数研究强调了对社交媒体分析有效性的担忧[ 40].也有一些关于选择“高质量”疾病相关推文的工作,大多数是以低灵敏度为代价实现高特异性的。例如,[ 41]使用正则表达式和机器学习方法过滤掉所有第一人称自我报告的推文。我们争取更高的覆盖率,包括对疾病的所有“真实”提及,然后我们寻找先前建立的数据(即疾病流行率)来验证我们的发现。在之前的研究中[ 42],研究人员确定了已知的患者,然后研究他们的Twitter数据,为患有流感的Twitter用户描述一种识别指纹(利用他们的推文和推特个人资料元数据)。然后,他们使用该模型来“诊断”个别Twitter用户患有流感,作者暗示这种方法可以用于人群水平的疾病监测。

在短期内,我们认为社交媒体在公共卫生方面的主要用途可能是了解人们对健康、疾病和治疗的态度。有效的公共政策依赖于对人们所知道和关心的事情的主观调查。他们为什么寻求或避免治疗?它们如何揭示疾病状况?他们对哪些危险行为不屑一顾?对人们可以测量的现象(如疾病流行率)的预测可能效用有限,特别是如果测量是及时和准确的。尽管传统的地面真相测量方法受到了质疑[ 43],疾病控制和预防中心的流感估计似乎比谷歌流感趋势的估计要好[ 44].然而,在线疾病检测和预测是一个快速发展的研究领域,随着这一领域的工作继续进行,我们做出这些类型估计的集体能力可能会增加。

结论

使用社交媒体研究公共卫生的几种类型的研究将受益于本文概述的这种类型的人口变化和语言歧义的修正。社交媒体数据集是有偏见的方便样本,词汇歧义是普遍存在的。然而,社交媒体提供了一种相对廉价的方式来监测无数领域,包括公共卫生和对健康和医疗保健的态度。

在这项研究中,我们从一个大型的“低质量”非随机数据集(即Twitter)开始,并将其与一个小型的“高质量”随机数据集(通过后分层实现)(即Experian的西蒙斯国家消费者研究)进行比较。我们过滤了Twitter数据集,使其人口统计数据与Experian数据集相匹配。然后,我们进行了naïve和经过歧义校正的Twitter疾病提及计数。最后,我们将这些计数与Experian调查中发现的患病率数据进行了比较。我们发现,更正后的Twitter计数与“高质量”Experian数据的相关性要比naïve Twitter计数强得多。

我们认为,这表明了使用非随机便利样本(例如,社交媒体数据或谷歌查询)的其他研究的必要性和能力,例如,使用我们的方法或其他相关或新颖的方法,明确考虑人口统计学和词语歧义因素。

多媒体附件1

这项研究的重点是24种疾病。每种疾病都由一个由一个或多个疾病术语组成的疾病词汇表表示。有24种词汇,包括488个疾病术语。本附录中的第一行是词典名称,随后的行是疾病术语。每一列代表一种不同的疾病。

缩写 添加/多动症

注意缺陷障碍/注意缺陷多动障碍

API

应用编程接口

CHV

消费者健康词汇

uml

统一医学语言系统

没有宣布。

科利尔 N 儿子 NT 纳米 天哪,你得了流感?生物监测共享健康信息分析 J生物语义学 2011 2补充5 S9 10.1186 / 2041 - 1480 - 2 - s5 - s9 22166368 2041 - 1480 - 2 - s5 - s9 PMC3239309 保罗 乔丹 Dredze 你的推文就是你:为公共卫生分析推特 2011 7 17 第五届国际AAAI博客和社交媒体会议(ICWSM) 2011年7月17日至21日 西班牙巴塞罗那 门洛帕克,加利福尼亚州 人工智能发展协会 Chunara R 安德鲁斯 布朗斯坦 JS 社会媒体和新闻媒体能够在2010年海地霍乱爆发早期估计流行病学模式 Am J Trop Med Hyg 2012 01 86 1 39 45 10.4269 / ajtmh.2012.11 - 0597 22232449 86/1/39 PMC3247107 咀嚼 C Eysenbach G 推特时代的流行病:2009年H1N1爆发期间推文的内容分析 《公共科学图书馆•综合》 2010 11 5 11 e14118 10.1371 / journal.pone.0014118 21124761 PMC2993925 年青男子 一个 塞格雷 Polgreen 在甲型H1N1流感大流行期间,美国使用Twitter追踪疾病活动水平和公众关注 《公共科学图书馆•综合》 2011 5 6 5 e19467 10.1371 / journal.pone.0019467 21573238 玉米饼- d - 10 - 02464 PMC3087759 Szomszor Kostkova P 德昆西 E #猪流感:推特预测2009年猪流感爆发 2012 第三届21世纪电子医疗国际ict会议(eHEALTH2010) 2010年12月13日至15日 摩洛哥卡萨布兰卡 德国海德堡 施普林格 18 26 De Choudhury 计数 年代 霍维茨 E 通过社交媒体预测产后情绪和行为的变化 2013 计算机系统中的人为因素SIGCHI会议 2013年4月27日至5月2日 法国巴黎 纽约州纽约 ACM 3267 3276 10.1145/2470654.2466447 沙利文 SJ 施耐德 AG) Cheang C E H 红色头发的人 J 病房 年代 艾哈迈德 麦克罗里 公关 “发生了什么?”Twitter上脑震荡相关流量的内容分析 运动医学 2012 03 46 4 258 263 10.1136 / bjsm.2010.080341 21406451 bjsm.2010.080341 麦克尼尔公司 K Brna 戈登 推特时代的癫痫:需要重新推特我们对癫痫的看法 癫痫Behav 2012 02 23 2 127 130 10.1016 / j.yebeh.2011.10.020 22134096 s1525 - 5050 (11) 00618 - 4 Nascimento 道明 DosSantos 曼氏金融 Danciu T DeBoer HH 卢卡斯 Aiello C 哈提卜 l 本德 UMSoD (Under) 2014届毕业生 Zubieta J 达席尔瓦 房颤 偏头痛在推特上的实时分享和表达:一项横断面信息流行病学研究 J医疗互联网服务 2014 04 16 4 e96 10.2196 / jmir.3265 24698747 v16i4e96 PMC4004155 莱尔斯 CR 洛佩兹 一个 Pasick R Sarkar U “5分钟的不适胜过与癌症打交道一辈子”:推特上宫颈癌和乳腺癌筛查对话的探索性定性分析 癌症教育 2013 03 28 1 127 133 10.1007 / s13187 - 012 - 0432 - 2 23132231 Scanfeld D Scanfeld V 拉森 埃尔 通过社交网络传播健康信息:推特和抗生素 感染控制 2010 04 38 3. 182 188 10.1016 / j.ajic.2009.11.004 20347636 s0196 - 6553 (10) 00034 - 9 PMC3601456 Nakhasi 一个 主席帕萨雷拉 R 贝尔 年代 保罗 Dredze 普罗诺弗斯特 P 医疗事故和不满:分析Twitter上的医疗投诉 2012 2012年AAAI秋季研讨会系列 2012年11月2日至4日 弗吉尼亚州阿灵顿 门洛帕克,加利福尼亚州 人工智能发展协会 84 85 Heaivilin N 尔贝特 B 页面 吉布斯 莱托 通过推特对牙痛进行公共卫生监测 J登特保留区 2011 09 90 9 1047 1051 10.1177 / 0022034511415273 21768306 0022034511415273 PMC3169887 Salathe 年代 利用在线社交媒体评估疫苗接种情绪:对传染病动态和控制的影响 PLoS计算生物学 2011 10 7 10 e1002199 10.1371 / journal.pcbi.1002199 22022249 pcompbiol - d - 11 - 00652 PMC3192813 布伦纳 J 史密斯 一个 72%的成年网民是社交网站用户 2013 2014-09-01 华盛顿特区 皮尤研究中心 http://www.pewinternet.org/files/old-media/Files/Reports/2013/PIP_Social_networking_sites_update_PDF.pdf 达根 史密斯 一个 社交媒体更新 2014 2014-09-01 华盛顿特区 皮尤研究中心 http://www.pewinternet.org/files/2014/01/Social_Networking_2013.pdf 梅丝洛夫 一个 莱曼 年代 Y Onnela J Rosenquist J 了解Twitter用户的人口统计数据 2011 第五届国际AAAI博客和社交媒体会议(ICWSM) 2011年7月17日至21日 西班牙巴塞罗那 门洛帕克,加利福尼亚州 人工智能发展协会 554 557 作为 Fleischauer 一个 Casani J Groseclose SL 下一次公共卫生革命:公共卫生信息融合和社会网络 公共卫生 2010 07 One hundred. 7 1237 1242 10.2105 / AJPH.2009.180489 20530760 100/7/1237 PMC2882406 贝尔纳多 TM Rajic 一个 年轻的 Robiadek K 范教授 恐慌 晶澳 疾病监测搜索查询和社交媒体的范围回顾:创新年表 J医疗互联网服务 2013 07 15 7 e147 10.2196 / jmir.2740 23896182 v15i7e147 PMC3785982 Experian营销服务 西蒙斯全国消费者研究 2014 2014-09-01 爱尔兰都柏林 Experian营销服务 http://www.experian.com/simmons-research/consumer-study.html 克尔 E 阿希 年代 汉密尔顿 E 麦格琳 E 一般医疗条件的护理质量:文献和质量指标的审查 2000 加州圣莫尼卡 兰德 消费者健康词汇 2014-09-01 盐湖城,德克萨斯 开放获取,协同消费者健康词汇计划,犹他大学 http://consumerhealthvocab.org/ Twitter公共流API文档 2014-09-01 https://dev.twitter.com/docs/streaming-apis/streams/public Hunspell字典 2014-09-01 http://hunspell.sourceforge.net/ 美国城市榜单 2014-09-01 http://www.uscitieslist.org/ Gonzalez-Bailon 年代 N Rivero 一个 Borge-Holthoefer J 莫雷诺 Y 评估大型在线网络样本中的偏差 Soc网络 2014 07 38 16 27 10.1016 / j.socnet.2014.01.004 Morstatter F J H Carley K 样品够好吗?比较Twitterââ, ┢流API与Twitterââ, ┢消防软管的数据 2013 第七届国际AAAI博客和社交媒体会议(ICWSM) 2013年7月8日至11日 剑桥,麻 门洛帕克,加利福尼亚州 人工智能发展协会 400 408 Dumbrell D 斯蒂尔 R 澳大利亚背景下的推特和健康:与健康相关的组织在推特上发布什么类型的信息? 2013 第46届夏威夷系统科学国际会议(HICSS) 2013年1月7日至10日 Wailea,嗨 纽约 IEEE 2666 2675 10.1109 / HICSS.2013.578 Seifter 一个 黑森林 一个 盖斯 K Aucott J “谷歌趋势”在流行病学研究中的应用:以莱姆病为例 Geospat健康 2010 05 4 2 135 137 10.4081 / gh.2010.195 20503183 Sahai V 康拉德 C 布朗斯坦 JS 使用网络搜索查询数据监测登革热流行:被忽视热带病监测的新模型 PLoS nel Trop Dis 2011 05 5 5 e1206 10.1371 / journal.pntd.0001206 21647308 pntd - d - 11 - 00327 PMC3104029 西 R 白色 RW 霍维茨 E 从饼干到厨师:通过分析Web使用日志了解饮食模式 2013 第22届国际万维网大会 2013年5月13-17日 里约热内卢巴西,里约热内卢 瑞士日内瓦 国际万维网会议指导委员会 1399 1410 麦卡锡 乔丹 人群自杀风险的网络监测 J情感失调 2010 05 122 3. 277 279 10.1016 / j.jad.2009.08.015 19748681 s0165 - 0327 (09) 00397 - 8 PMC2847052 科里 CD 烹饪 DJ Mikler 基于“增大化现实”技术 辛格 KP 网络和社交媒体流感提及的文本和结构数据挖掘 国际环境与公共卫生 2010 02 7 2 596 615 10.3390 / ijerph7020596 20616993 PMC2872292 克莱默 一个 一个不引人注目的国民幸福总值行为模型 2010 第28届计算机系统人为因素国际会议(CHI 2010) 2010年4月10日至15日 亚特兰大,乔治亚州 287 290 10.1145/1753326.1753369 金斯堡 J Mohebbi MH 帕特尔 RS 布拉姆 l Smolinski 女士 才华横溢的 l 使用搜索引擎查询数据检测流感流行 自然 2009 02 19 457 7232 1012 1014 10.1038 / nature07634 19020500 nature07634 激光冲 D 肯尼迪 R G Vespignani 一个 大数据。流感的寓言:大数据分析中的陷阱 科学 2014 03 14 343 6176 1203 1205 10.1126 / science.1248506 24626916 343/6176/1203 奥尔森 博士 Konty KJ Paladini Viboud C 西蒙森 l 重新评估谷歌流感趋势数据以检测季节性和大流行性流感:三个地理尺度的比较流行病学研究 PLoS计算生物学 2013 10 9 10 e1003256 10.1371 / journal.pcbi.1003256 24146603 pcompbiol - d - 13 - 00957 PMC3798275 巴特勒 D 谷歌把流感看错了 自然 2013 02 14 494 7436 155 156 10.1038 / 494155 23407515 494155一个 Kass-Hout 助教 Alhinnawi H 公共卫生领域的社交媒体 Br医学牛 2013 10 108 5 24 10.1093 / bmb / ldt028 24103335 ldt028 普列托 虚拟机 马托斯 年代 阿尔瓦雷斯 Cacheda F 奥利维拉 莱托 Twitter:一个检测健康状况的好地方 《公共科学图书馆•综合》 2014 1 9 1 e86191 10.1371 / journal.pone.0086191 24489699 玉米饼- d - 13 - 10567 PMC3906034 ·博德纳尔 T 巴克莱 V 内存 N 塔克 C Salathe 通过Twitter和医疗记录验证在线诊断 2014 第23届国际万维网会议 2014年4月7日至11日 首尔,韩国 651 656 里德 C Angulo FJ Swerdlow 戴斯。莱纳姆: Lipsitch说道 Meltzer 心肌梗死 Jernigan D Finelli l 2009年4月至7月美国甲型H1N1流感大流行流行率估计 新兴感染疾病 2009 12 15 12 2004 2007 10.3201 / eid1512.091413 19961687 PMC3375879 奥尔蒂斯 H DK Neuzil 公里 Fowlkes 艾尔 戈斯 CH 监测美国的流感活动:传统监测系统与谷歌流感趋势的比较 《公共科学图书馆•综合》 2011 4 6 4 e18687 10.1371 / journal.pone.0018687 21556151 PMC3083406
Baidu
map