这是一篇根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,http://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
Twitter越来越多地用于估计疾病流行率,但由于抽样有偏见和自然语言固有的模糊性,这样的测量可能是有偏见的。
我们描述了这些偏差的程度以及它们如何随着疾病而变化。
我们将Experian西蒙斯全国消费者研究(n=12,305)中22种疾病的自我报告患病率与同期(2012年)这些疾病在Twitter上被提及的次数进行了相关性分析。我们还确定并纠正了推特数据中存在的两种类型的偏见:(1)美国推特用户和美国总人口之间的人口统计学差异;(2)自然语言的模糊性,这就产生了一种可能性,即提到一种疾病的名称可能实际上并不是指这种疾病(例如,Twitter上的“心脏病发作”通常不是指心肌梗死)。我们测量了疾病流行率和Twitter疾病提及率之间的相关性,有和没有偏见校正。这使我们能够量化每种疾病在推特上的过度代表或不足代表,相对于其患病率。
我们的样本包括80,680,449条推文。调整疾病流行率以校正Twitter人口统计数据,将Twitter疾病提及率与普通人群疾病流行率之间的相关性提高了一倍以上(从0.113到0.258,
Twitter是一个潜在的有用工具,可以衡量公众对不同疾病的兴趣和关注,但在比较疾病时,可以通过调整人口统计数据和词语歧义来进行改进。
Twitter、Facebook、新闻组和谷歌查询中的单词使用模式已被用于调查一系列广泛的健康问题。Twitter可能是这类研究中最受欢迎的在线数据源,部分原因是它的相对可访问性。它被用来监测健康问题,包括流感[
尽管存在潜在的方法挑战,但此类研究已经证明了挖掘社交媒体在公共卫生应用中的实用性,包括:(1)Twitter用户形成了一个有偏见的人群样本[
本文量化了使用Twitter等资源作为衡量疾病流行率的代理时产生的错误,并提供了一个部分纠正的框架。我们调查了美国推特上提到疾病的频率与美国人口中相同疾病的患病率之间的关系。理解这种关系可能对各种应用都很有用,包括医疗保健信息传递和疾病监测。我们使用Twitter作为衡量讨论的场所,很大程度上是因为它作为跟踪疾病流行率的廉价代理已经受到了广泛关注。
我们的主要贡献是证明,通过纠正推特上模棱两可的医学语言,以及纠正推特用户和美国普通人口之间的人口统计学差异,可以更好地将推特疾病提及统计数据与实际疾病流行统计数据相一致。我们观察到,一般人群疾病流行统计数据(来自现有调查数据)与每种疾病在Twitter上被提及的次数(根据我们自己的统计)之间存在轻微的相关性。我们发现,我们可以显著增加这种相关性(1)通过将疾病流行人群专门限制为Twitter用户(即通过与专门针对该群体的现有流行数据进行关联),以及(2)通过调整我们的疾病提及计数来纠正词义歧义。
我们首先确定了一系列疾病;然后,针对每种疾病,我们构建了一个涉及该疾病的术语列表(即特定疾病的词典)。我们还收集了大量的推文,并将它们编译成一个推文语料库。接下来,我们从包含任何疾病术语的语料库中检索了一个随机的推文样本。然后,我们在随机样本上使用人工注释,确定了疾病术语的医疗用途(即有效阳性)与非医疗用途(即由于歧义导致的假阳性)的相对频率(百分比)。这使我们能够计算语料库中提到每种疾病的推文数量的正确计数(我们称之为疾病的“有效推文计数”,而未纠正的计数被称为“原始推文计数”)。
我们将修正后的疾病提及频率与西蒙斯国家消费者研究的美国疾病流行统计数据相关联。
我们使用以下标准来选择本研究中的疾病:(1)可以与美国人口流行率数据和twitter使用数据配对的疾病;以及(2)先前文献认为对医疗保健社区影响最大的疾病。每个标准由不同的数据集满足。
第一个数据集来自全球信息服务公司益百利。益百利还针对各种主题开展消费者调查,包括医疗保健。在这项研究中,我们使用了Experian西蒙斯全国消费者研究的数据,并专注于与一般人口统计数据、健康状况和社交媒体使用有关的调查问题。
各种Experian调查的结果被合并到一个数据库中,并每季度和每年发布一次。Experian对其调查数据进行后分层,为其测量变量创建具有人口统计学代表性的估计值。我们查询了该数据库,以获得2012年的数据集,该数据集包括一般人口统计数据和Twitter使用情况,交叉统计了所有可用疾病(n=52)的患病率。对于说英语或西班牙语的美国成年人(n=230,124,220),我们能够找到患有某种疾病的估计人数(例如,背痛,n= 4200万),以及使用Twitter的疾病患者群体(背痛,n= 260万)。因此,这个数据集为我们提供了美国普通人群和美国推特用户的并行疾病流行统计数据。
第二个数据集来自兰德公司的一项研究,旨在广泛衡量美国医疗保健服务的质量[
24种疾病的清单(见
对于我们列表中的每一种疾病,我们都构建了一个用于指代该疾病的疾病术语词典。例如,的词典
对于研究中包含的24种疾病中的每一种,我们处理CHV以检索相关术语if的整个键值网络
我们分析中使用的推文来自2012年所有可用推文的1%的随机样本,这些推文是通过Twitter“1%随机公共流”应用程序编程接口(API)收集的[
在这项研究中,我们专注于寻找特定的推文
我们使用倾向于包容性的关键字搜索策略来挖掘CHV。例如,在搜索“痤疮”时,检索到的医学概念术语最多可能与之毫无关联
因为这个概念
我们为每种疾病制作了一个文本字符串列表,我们可以使用它在Twitter语料库中搜索提及该疾病的信息。为了实现这一目标,我们考虑到了两个现实。首先,许多CHV术语元素使用了在自然语言中不常见的结构(例如,“发烧干草”
由于这两个事实,我们能够显著缩短由半自动CHV搜索程序生成的候选疾病术语列表。所有反向顺序候选词(如“发烧干草”)和复合候选词(如“过敏性哮喘”)都被淘汰。
经过这三个审查程序后,24种疾病词典共包含488个疾病术语(见
我们确定了488种疾病中的每一种在推特中提到其相关疾病的频率。首先,对出现该术语的语料库中每个疾病术语的推文数量进行基本计数(在应用任何语言歧义纠正之前)。这是一个疾病术语的原始推文数。请注意,如果一条推文包含多个疾病术语,我们允许它被计算两次(无论这两个术语是指相同还是不同的疾病)。在整个研究过程中,我们考虑了推特中出现的疾病术语的随机实例,而不考虑与它们同时出现的其他术语。
然后我们进行人工评估。对于每个疾病术语,我们从我们的推文语料库中随机选择30条包含该术语的推文进行手动分析。选择这个数字是为了平衡研究需求和时间限制。在推文语料库中,一些疾病术语出现在30条或更少的推文中。发生这种情况时,将检索所有可用的tweet。
两名讲英语的研究助理独立阅读每条推文,并做出简单的评估,回答说:“对于每条推文,根据您的判断,标记推文检索的疾病术语是否指的是该术语的医学含义?”每条推文都需要一个是或否的判断,如图所示
评估每条推文是否涉及所选术语的医学含义的示例。这里的术语是“心脏病发作”。
评定等级1 | 评定等级2 | 推特 |
是的 | 是的 | 拜访了一位患过两次心脏病的男士,他为能在这样的环境中分享他对上帝的信任而感到荣幸。# realdeal |
是的 | 没有 | 能再坐一个人吗?@pjones59:香肠球,心脏病发作的棍子,蘸酱,薯条,鸡翅和奶酪,奶油奶酪/泡菜/火腿卷 |
没有 | 没有 | 我还是不敢相信我前几天在上班的时候看见克里斯了。说到小型心脏病发作。U_U |
在这些推文级别的评估完成后,我们将疾病术语级别的分数汇总在一起(独立于每个评分者的判断集合)。对于每个评分者和每个疾病术语(n=488),我们计算了样本中被评估为涉及医学含义的推文的百分比。科恩对评分者间可靠性的kappa为。77。
然后对两个评分者的疾病术语百分比进行平均,得出每个疾病术语的修正因子。我们将这个系数乘以疾病术语的原始推文数(
一旦完成了对疾病词汇中的每个疾病术语的估计,就会对疾病术语估计进行汇总,生成我们的最终度量,即每个疾病词汇的经过验证的推文计数(
以人工鉴定为例
推导疾病词汇校正因子的方程。
糖尿病词汇中的疾病术语经过人工鉴定。每个学期接受多达30个实例的评估。然后,术语级别的评价被相加,以达到最终的词汇级别的糖尿病验证推文计数(8896)。
在我们手动审查的2824条包含疾病术语的推文中,两名人类评分者的平均判断表明,2276.5条(80.61%)实际上指的是疾病,不同疾病的有效性差异很大。例如,
将24种疾病的原始推文计数和验证推文计数进行比较
原始和验证的推文计数、校正因子以及每种疾病的美国和推特疾病流行率。
疾病 | 原始推文数 | 有效推文数 | 校正因子一个 | 美国(百万)b, d | 美国推特(百万)c, d |
胃酸反流病/胃食管反流病 | 743 | 631 | 84.98 | 32.4 | 2.40 |
痤疮 | 6936 | 6027 | 86.89 | 11.2 | 2.00 |
注意缺陷障碍/注意缺陷多动障碍 | 2794 | 2660 | 95.19 | 4.9 | 0.90 |
关节炎 | 2524 | 2522 | 99.92 | 34.4 | 1.30 |
哮喘 | 3952 | 3754 | 95.00 | 12.4 | 1.00 |
背痛 | 3035 | 3028 | 99.77 | 42.0 | 2.60 |
癌症 | 110760年 | 63647年 | 57.46 | 5.0 | 0.46 |
充血性心力衰竭 | 928 | 313 | 33.76 | - - - - - - | - - - - - - |
心脏病 | 2741 | 2410 | 87.91 | - - - - - - | - - - - - - |
充血性心力衰竭/心脏病e | 3669 | 2723 | 74.21 | 5.9 | 0.46 |
慢性阻塞性肺疾病 | 226 | 188 | 83.37 | 5.5 | 0.86 |
抑郁症 | 14294年 | 10459年 | 73.17 | 18.7 | 2.20 |
糖尿病 | 9202 | 8896 | 96.67 | 20.8 | 1.20 |
流感 | 10139年 | 8810 | 86.90 | 17.2 | 1.80 |
生殖器疱疹 | 76 | 66 | 86.84 | 1.8 | 0.33 |
心脏病 | 15027年 | 2311 | 15.38 | - - - - - - | - - - - - - |
中风 | 12852年 | 1914 | 14.89 | - - - - - - | - - - - - - |
心脏病和中风f | 27879年 | 4225 | 15.15 | 3.0 | 0.11 |
高胆固醇 | 225 | 218 | 96.67 | 37.9 | 1.70 |
人乳头状瘤病毒 | 636 | 545 | 85.73 | 1.5 | 0.12 |
Hypertension/高血压 | 1630 | 1491 | 91.49 | 43.5 | 1.50 |
偏头痛 | 5958 | 5615 | 94.24 | 16.4 | 1.80 |
鼻过敏/花粉热 | 481 | 473 | 98.27 | 18.2 | 1.30 |
骨质疏松症 | 316 | 306 | 96.68 | 6.0 | 0.13 |
胃溃疡 | 80 | 73 | 91.25 | 3.3 | 0.03 |
尿路感染 | 880 | 479 | 54.40 | 10.0 | 1.00 |
一个修正因子是被评价为有效的推文的百分比。
bPrev US(百万)代表一种疾病在美国的患病率。
c美国推特(百万)代表一种疾病在美国推特用户中的流行程度。
dPrev US(百万)和Prev US Twitter(百万)的数据来源都是Experian Simmons National Consumer Study。
e在Experian数据集中,充血性心力衰竭和心脏病被分解为单个数据点。我们分别在Twitter上挖掘这些疾病,并将我们的评估方法分别应用于包含每种疾病术语的推文。但是,由于益百利是我们的患病率统计数据来源,我们只能报告这两种疾病在合并状态下的患病率。
f注意“e”代表心脏病发作和中风。
我们确定了斯皮尔曼相关系数(全部
原始和验证推文数与美国人口和推特用户疾病流行率之间的斯皮尔曼相关系数(所有
|
患病率 | |
|
美国人口 | 美国推特用户 |
原始推文数 | .113 | .258 |
有效推文数 | .208 | .366 |
由于歧义修正,我们发现相关性改善似乎不足为奇。然而,人口统计校正带来的改善并不那么直接,特别是因为我们没有努力将我们的推文分析限制在第一人称自我报告提及疾病的情况下。人们很容易认为,疾病流行率和疾病提及率之间一定存在因果关系。事实上,我们将由于人口统计修正而增加的相关性解释为支持这一假设:这意味着我们测量的信号(即推特上提到的疾病)与该信号的可信来源(即使用推特的疾病患者)表现出正对应关系。然而,我们发现,对于某些个体疾病,疾病流行率和疾病提及率严重不同步。就目前而言,是什么原因导致人们在推特上(或不推特)谈论某种疾病仍然是一个悬而未决的问题,尤其是因为许多提到这种疾病的人并没有遭受这种疾病的折磨。在任何情况下,利用社交媒体来估计疾病患病率的方法都不需要解释因果关系。他们只要求社交媒体可靠地捕捉疾病流行的变化。我们已经证明,通过调整疾病患者和Twitter用户之间的人口统计学差异,可以改进这种测量方法。
我们发现,由于推特用户的人口统计模式和自然语言的模糊性,naïvely计算推特中疾病术语的提及率产生的结果是有偏见的(就与已知疾病流行统计数据的相关性而言)。这些偏差至少可以部分纠正,导致推文中疾病术语的数量与我们研究的24种疾病的已知流行统计数据之间的相关性增加了三倍。
考虑到已知的推特人口统计数据,使用标准的分层抽样方法,推特人口是美国有偏见的样本,这一观察结果相对容易纠正。我们使用Experian的调查数据确定了这一点,但也可以使用其他关于Twitter人口统计数据的研究。我们证明,人口统计学校正大约使疾病提及率和患病率之间的相关性增加了一倍。
语言本身的歧义需要更多的工作来纠正。我们观察到语言歧义在不同疾病中有显著差异。提及的疾病术语实际上指的是疾病的比例从高度具体的术语,如关节炎(99.92%,或5044/5048)到不太具体的术语,如中风(14.89%,或3827/25,704)。这种语言歧义主要有两种形式。
第一个是“词汇歧义”。一些疾病,如关节炎、糖尿病和高胆固醇,在实践中所使用的术语几乎总是指其相关的疾病概念。在我们的分析中,推特用户很少使用关节炎词汇来指代“关节炎”以外的疾病。然而,有一些疾病术语经常被用来指不是疾病(或不是预期的疾病)的概念。经常出现的例子包括“癌症”(星象星座)、“抑郁”、“中风”(非医疗用途,也包括中暑)和“流感”(如胃流感,而不是“流感”)。缩写尤其含糊不清。例如,“copd”(即慢性阻塞性肺病)是“copped”(如动词“took”)的一种流行变体拼写;泌尿道感染(
第二种类型的模糊性可以被认为是“疾病模糊性”。在这项研究中包括的24种疾病中,有些疾病的描述不如其他疾病清晰。这个问题的一个方面是强度。如果一名推特用户报告自己因为最喜欢的球队输球而抑郁,这是医学抑郁症吗?如果她用“LOL”来结束一条看似严肃的推文呢?疾病模糊性的第二个方面是特异性或准确性。一些推特用户可能会用偏头痛这个词来形容其他类型的头痛,或者说花粉热,但实际上他们对猫过敏。疾病模糊性的第三个方面是复杂性。一个主要的例子是这项研究中心血管疾病的范围(即,
这两种类型的模糊性都会影响疾病的验证系数。第一种类型,词汇歧义(例如,同形词或隐喻词的使用),可能会影响方法的“后端”,需要对观察到的术语计数进行修正(即使用本文中描述的方法)。第二种类型,疾病边界模糊,在“前端”出现问题,使裁剪疾病词汇库变得困难。这种模糊性提出了一个问题:充血性心力衰竭和心脏病之间的潜在等级关系,或者高胆固醇与心脏病发作或中风之间的潜在因果关系,是否可以或应该以某种方式编码在疾病词汇表中。
在这项研究中,我们将每个疾病词汇作为一个独立的实体来处理,这个决定的影响必然会写入我们得到的结果中。我们可以预期,具有更“独立”性质的疾病(即那些相对独立的疾病,如
就像不同疾病的有效性被证明存在很大差异一样,Twitter讨论相对于疾病流行的水平也各不相同。一些疾病的讨论程度超过了其在人口中的患病率,而其他疾病则很少受到相对重视。有效推文数与美国疾病患病率之间的相关性为0.208 (
我们将这一预测患病率与实际患病率进行比较
一种假设是,Twitter的人口统计数据使用户高度关注的疾病的讨论水平向上倾斜,而对不太关注的疾病的讨论水平向下倾斜。考虑到Twitter用户一般都是年轻人,这可以解释为什么
22种疾病的预计患病率(作为有效推文计数的函数)与美国实际患病率(以百万为单位)(按预计患病率排序)。有些疾病“推特过多”(特别是癌症),而另一些疾病“推特过少”(例如背痛和关节炎)。
目前还不清楚疾病讨论(在Twitter上或一般情况下)与疾病流行之间的本质关系是什么。推特上关于疾病的讨论可能是由比疾病流行率更多的因素驱动的。人们在推特上谈论疾病有很多原因,为了本文的目的,我们不试图解开这些原因。不过,我们确实证明了推特上的疾病提及率与疾病流行率相关,而且在应用了人口统计和词语歧义校正后,这种相关性得到了改善。这一教训可以也应该被纳入其他研究或工具中,这些研究或工具将试图挖掘Twitter(或类似场所)上的语言,以获取更广泛人群的信息。
尽管我们尽了最大的努力,但我们的Twitter语料库和Experian数据集的人口统计数据并不完全匹配。最重要的是,Experian数据集包括英语和西班牙语美国居民的疾病流行率估计,而我们的推文语料仅限于英语推文。本研究用英语进行;未来的工作应该将类似的分析扩展到其他语言。
在这项研究中,我们没有考虑到所有可能影响疾病流行率和关于疾病的推文相互作用的变量。其中一些被遗漏的变量是以疾病为中心的。例如,一些疾病实际上可能比其他疾病更“适合在twitter上发布”,这是由于许多疾病因素,包括强度、持续时间、耻辱性、社会显著性等等,甚至可能是由于形式上的考虑(这种疾病是容易拼写还是容易拼写?)一种不太容易被推特的疾病可能会有更少的相关推文,而不会对推文计数产生任何基于流行病学的影响。
我们只考虑在推文中特别命名(拼写正确)疾病的疾病。一方面,依靠正确的名词形式的疾病名称,这些名称来自公认的健康词汇,如CHV,有助于推动这项研究走向半自动、客观性和可重复性。然而,另一方面,这一决定留下了未知的,但可能是大量的与疾病相关的推文未被挖掘,因此在我们的分析中没有被解释。我们漏掉了俚语(如“糖尿病”)或拼写错误(如“ashtma”,“hi cholesterol”)。在严格的形式层面上,我们目前的方法是以召回率为代价来调整精度的。此外,人们可以在Twitter上通过提及症状、后遗症、地点(如医院)、药物或治疗等来讨论健康问题。我们对疾病名称的关注无法捕捉与健康相关的推文这一更广泛的领域。提高记忆力留待将来研究。
其他被忽略的变量是以Twitter为中心的。Twitter没有透露他们的api中使用了哪些抽样程序,这是有据可查的。
在这项研究中,我们也没有对推特用户进行歧视。Twitter“用户”可能不是一个独立的人。许多健康相关甚至疾病相关的组织在推特上提到疾病。与此类组织相关的因素(其数量、社交媒体策略等)可能与疾病命名推文的数量有关。其他研究人员已经解决了区分由卫生组织撰写的推文的问题[
在正常的生活或业务过程中,个人和组织会生成大量可供挖掘的文本。其中大部分都以这样或那样的形式在网上分享或发表,这些数据对研究人员很有吸引力,包括那些对流行病学和公共卫生感兴趣的人。
一些“信息流行病学”研究(例如,“引言”部分引用的长列表中的许多研究)将Twitter上的单词使用与疾病或医疗状况的流行程度联系起来。除了推特,网络搜索活动也被用于监测莱姆病。
这些研究主要将某些媒介(如Twitter或谷歌搜索)在一段时间内(如一天或一周)和某些地区(如美国县或州)的词汇使用与疾病流行水平联系起来。这种相关性方法依赖于对他们所研究的人群的同质性的某些假设,这些假设往往没有说明,因此可能未经检验和纠正。目前尚不清楚人口统计学偏差或词语歧义偏差是否具有代表性。我们假设研究人员含蓄地假设,这些因素将被他们使用的统计回归方法自动处理。如果人口统计学和模糊性偏见在时间和空间上是不变的,这将是正确的。然而,如果人群对目标媒介(如Twitter)的使用不同,预测的准确性也会有所不同,而且这种差异可能是显著的。
流感趋势可能是相关预测方法的“典型代表”。它是一种被广泛引用的在线工具,使用广泛的谷歌搜索词与历史流感水平之间的统计相关性来预测美国流感水平的区域变化[
少数研究强调了对社交媒体分析有效性的担忧[
在短期内,我们认为社交媒体在公共卫生方面的主要用途可能是了解人们对健康、疾病和治疗的态度。有效的公共政策依赖于对人们所知道和关心的事情的主观调查。他们为什么寻求或避免治疗?它们如何揭示疾病状况?他们对哪些危险行为不屑一顾?对人们可以测量的现象(如疾病流行率)的预测可能效用有限,特别是如果测量是及时和准确的。尽管传统的地面真相测量方法受到了质疑[
使用社交媒体研究公共卫生的几种类型的研究将受益于本文概述的这种类型的人口变化和语言歧义的修正。社交媒体数据集是有偏见的方便样本,词汇歧义是普遍存在的。然而,社交媒体提供了一种相对廉价的方式来监测无数领域,包括公共卫生和对健康和医疗保健的态度。
在这项研究中,我们从一个大型的“低质量”非随机数据集(即Twitter)开始,并将其与一个小型的“高质量”随机数据集(通过后分层实现)(即Experian的西蒙斯国家消费者研究)进行比较。我们过滤了Twitter数据集,使其人口统计数据与Experian数据集相匹配。然后,我们进行了naïve和经过歧义校正的Twitter疾病提及计数。最后,我们将这些计数与Experian调查中发现的患病率数据进行了比较。我们发现,更正后的Twitter计数与“高质量”Experian数据的相关性要比naïve Twitter计数强得多。
我们认为,这表明了使用非随机便利样本(例如,社交媒体数据或谷歌查询)的其他研究的必要性和能力,例如,使用我们的方法或其他相关或新颖的方法,明确考虑人口统计学和词语歧义因素。
这项研究的重点是24种疾病。每种疾病都由一个由一个或多个疾病术语组成的疾病词汇表表示。有24种词汇,包括488个疾病术语。本附录中的第一行是词典名称,随后的行是疾病术语。每一列代表一种不同的疾病。
注意缺陷障碍/注意缺陷多动障碍
应用编程接口
消费者健康词汇
统一医学语言系统
没有宣布。