JMIR公共卫生和监测-使用Twitter衡量公众对疾病的讨论:一个案例研究

原始论文

¹积极心理学中心，心理学系，宾夕法尼亚大学，费城，美国

²宾夕法尼亚大学计算机与信息科学系，费城，美国

^3.运营与信息管理，宾夕法尼亚大学沃顿商学院，费城，宾夕法尼亚州，美国

⁴社交媒体与健康创新实验室，宾夕法尼亚大学急诊医学系，费城，宾夕法尼亚州，美国

⁵美国宾夕法尼亚州费城宾夕法尼亚大学沃顿商学院

通讯作者:

Christopher weg, MSLS

积极心理学中心

心理学系

宾夕法尼亚大学

所罗门实验室

核桃街3720号

费城，宾夕法尼亚州，19104-6241

美国

电话:1 206 412 1689

传真:1 215 573 2188

电子邮件:mr.weeg@gmail.com

背景:Twitter被越来越多地用于估计疾病流行率，但由于采样的偏差和自然语言固有的模糊性，这种测量方法可能存在偏差。

摘要目的:我们描述了这些偏差的程度以及它们如何随疾病而变化。

方法:我们将Experian 's Simmons全国消费者研究(n=12,305)中22种疾病的自我报告患病率与这些疾病在同一时期(2012年)在Twitter上被提及的次数进行了关联。我们还确定并纠正了推特数据中存在的两种类型的偏差:(1)美国推特用户和美国普通人口之间的人口统计学差异;(2)自然语言的歧义，这种歧义产生了一种可能性，即疾病名称的提及可能实际上并不是指疾病(例如，Twitter上的“心脏病发作”通常不是指心肌梗死)。我们测量了疾病流行率和Twitter疾病提及率之间的相关性，无论是否进行了偏见校正。这让我们能够量化每种疾病在Twitter上的过度代表或不足代表，相对于其流行程度。

结果:我们的样本包括80,680,449条tweet。根据推特人口统计数据调整疾病流行率，推特疾病提及率和普通人群疾病流行率之间的相关性增加了一倍以上(从0.113到0.258，P<措施)。此外，在推特上提及疾病名称的频率上，疾病的实际指病率差异很大，从14.89%(3827/25,704)的例子(中风)到99.92%(5044/5048)的例子(关节炎)。对我们的Twitter语料库应用歧义校正，可以得到疾病提及率和患病率之间的相关性。208 (P<措施)。同时对人口统计数据和模糊度进行校正，基线相关性增加了三倍以上，达到0.366 (P<措施)。与患病率相比，癌症在推特上的比例最高，而高胆固醇似乎代表性最弱。

结论:Twitter是衡量公众对不同疾病的兴趣和关注的潜在有用工具，但在比较疾病时，可以根据人口统计数据和词汇歧义进行调整。

JMIR公共卫生监测2015;1(1):e6

doi: 10.2196 / publichealth.3953

关键字

偏见；数据挖掘；人口统计资料；疾病；流行病学；患病率；公共卫生；社交媒体

背景

Twitter、Facebook、新闻组和谷歌查询中的词汇使用模式已被用于调查广泛的健康问题。Twitter可能是这类研究中最受欢迎的在线数据源，部分原因是它的相对可访问性。它被用来监测包括流感在内的健康问题[1，2，霍乱[3.， h1n1 [4-6，产后抑郁[7，脑震荡[8，癫痫[9，偏头痛[10]、癌症筛检[11]，抗生素的使用[12，医生错误[13]、牙痛[14]，以及对疫苗接种的态度[15］．

这类研究证明了挖掘社交媒体对公共卫生应用的效用，尽管在方法上存在潜在挑战，包括以下方面:(1)推特用户构成了一个有偏见的人口样本[16-18)和(2)他们在推特中的词汇使用可能是高度模糊的。例如，只关注医学领域，“中风”有许多非医学用途(“天才中风”或“背部中风”)”）;大多数关于“心脏病发作”的说法都是隐喻性的，而不是字面意义上的(我刚刚心脏病发作死了——我洗澡的时候停电了);尽管医生们把“MI”和心肌梗死联系在一起，但在Twitter上，它更多地指的是密歇根州。

研究目标

这篇论文量化并提供了一个部分纠正的框架，当使用Twitter等资源作为衡量疾病流行率的代理时产生的错误。我们调查了美国推特上提及疾病的频率与美国人口中相同疾病的患病率之间的关系。了解这种关系对各种应用程序都很有用，包括医疗保健消息传递和疾病监测。我们使用Twitter作为衡量讨论的场所，主要是因为它作为跟踪疾病流行率的廉价代理已经获得了大量关注[19，20.］．

我们的主要贡献是，通过纠正Twitter上含糊不清的医学语言，以及纠正Twitter用户和美国总人口之间的人口统计学差异，证明有可能更好地将Twitter疾病提及统计数据与实际疾病流行率统计数据保持一致。我们观察到，普通人群疾病流行率统计数据(来自现有调查数据)与每种疾病在Twitter上被提及的次数(根据我们自己的统计)之间存在轻微的相关性。我们发现，我们可以显著提高这种相关性(1)通过将疾病流行人群专门限制为Twitter用户(即通过与专门关注该群体的现有流行数据相关联)，(2)通过调整我们的疾病提及计数来纠正词义歧义。

概述

我们首先确定了一系列疾病;然后，针对每种疾病，我们构建了一个与之相关的术语列表(即疾病专用词典)。我们还收集了大量的推文，并将它们编译成一个推文语料库。接下来，我们从包含任何疾病术语的语料库中检索了一个随机的推文样本。然后，我们在随机样本上使用人工注释，确定疾病术语的医疗使用(即有效阳性)与非医疗使用(即由于歧义造成的假阳性)的相对频率(百分比)。这允许我们计算语料库中提到每种疾病的推文数量的修正计数(我们称之为疾病的“验证推文计数”，而未修正的推文计数称为“原始推文计数”)。

我们将修正后的疾病提及频率与西蒙斯国家消费者研究的美国疾病流行率统计数据相关联。21］．由此产生的相关性可以用来衡量语料库中提到的疾病数量和美国人口中疾病病例数量之间的关系(针对普通人群或使用twitter的人群)。比较有修正和没有修正的相关性可以显示修正的大小。

数据收集

疾病的选择

我们使用以下标准来选择本研究的疾病:(1)可以与美国人口流行数据和twitter使用数据配对的疾病;(2)先前文献认为对卫生保健社区影响最大的疾病。每个标准都由不同的数据集满足。

第一个数据集来自全球信息服务公司益百利(Experian)。益百利还针对包括医疗保健在内的各种话题开展消费者调查。在这项研究中，我们使用了益百利的西蒙斯全国消费者研究的数据，并专注于与一般人口统计、健康状况和社交媒体使用有关的调查问题。

Experian的各种调查结果被合并到一个数据库中，每季度和每年发布一次。Experian对其调查数据进行后分层，为其测量变量创建具有人口统计学代表性的估计。我们对该数据库进行了查询，以获得2012年的数据集，该数据集对所有可用疾病的患病率(n=52)进行了交叉统计，包括一般人口统计数据和Twitter使用情况。对于估计的说英语或西班牙语的美国成年人(n=230,124,220)，我们能够找到遭受某种疾病(如背痛，n= 4200万)的估计人数，以及使用Twitter的这些疾病患者的亚群(在背痛的情况下，n= 260万)。因此，这个数据集为我们提供了美国普通人口和美国Twitter用户的平行疾病流行统计数据集。

第二个数据集来自兰德公司的一项研究，旨在广泛衡量美国医疗保健服务的质量[22］．通过查阅文献和国家卫生保健数据，并与医学专家小组协商，本报告确定了46个“临床领域”，它们代表着美国疾病、死亡和卫生保健利用的主要原因。

24种疾病的清单(见多媒体附件1)由Experian数据集(n=52)和RAND研究(n=46)中所代表的疾病之间的重叠部分组成。这种重叠可能是显性的(例如，“哮喘”出现在两个列表中)或隐性的(例如，Experian的两个独立条目，“胃溃疡”和“胃酸反流疾病/胃食管反流病”，都由单一的RAND条目“消化性溃疡和消化不良”提示)。这项任务的重点不是确定两个列表之间的精确匹配，而是找到它们之间普遍一致的领域，以从Experian数据集中识别高影响疾病。

疾病术语汇编

对于我们列出的每一种疾病，我们构建了一个疾病术语词典，用来指代这种疾病。例如，关于的词典糖尿病本研究中使用的包含三个疾病术语，即“糖尿病”、“糖尿病”、“niddm”。本研究中的所有词汇均来源于《消费者健康词汇》(CHV)中的术语[23]，这是一个在线开源词库，它将医学概念(包括疾病、医疗程序、药物、解剖学等)与口语化和技术术语混合在一起。在本研究期间，CHV包含158,519个条目，涵盖57,819个独特(但通常密切相关)的概念。每个条目收集(以及其他数据)至少三个术语元素:(1)CHV术语，(2)描述性短语，以及(3)来自称为“统一医学语言系统(UMLS)”的医学词汇的相关术语。CHV术语可以在同义词典中有多个条目，从而将CHV术语与任意数量的描述性短语或UMLS术语关联起来。每个CHV术语可以被视为一个键-值对，其中CHV术语是键，关联术语网络(由描述性短语和UMLS术语组成)是值。

对于纳入研究的24种疾病中的每一种，我们对CHV进行处理，以检索相关术语的整个键值网络if任何一个(在键或值中)似乎指的是目标疾病。对于任何疾病，可以(也经常)收集多个网络。这些结果一起构成了候选疾病术语的疾病列表(然后根据“候选疾病术语审查”一节中描述的过程对这些疾病术语进行审查)。如果一个术语包含从目标疾病名称(包括缩写和拼写形式)派生的搜索字符串，则该术语将被判定为对目标疾病的潜在引用(从而触发所有相关术语的检索)。例如，“注意力缺陷”是一个搜索字符串注意缺陷障碍/注意缺陷多动障碍；"心脏病"是一个搜索字符串心脏病；和" GERD "是搜索字符串胃酸反流病/胃反流病．搜索字符串中还包括一些常见疾病的同义词，如“青春痘”痤疮“肿瘤”是指癌症．对于每种疾病，搜索字符串的数量各不相同，从1到7不等。

推文语料库

我们分析中使用的推文来自2012年所有可用推文中的1%的随机样本，通过Twitter“1%随机公共流”应用程序编程接口(API)收集[24］．为了使我们的数据更接近美国和主要讲英语的Experian Simmons样本，我们过滤了Twitter语料库，只保留源自美国的英语tweet。为了过滤英语，我们只考虑那些至少有50%的单词在Hunspell英语词典中找到的推文。25］．通过在位置字段中找到带有“United States”或明确的美国城市(城市名称取自[])的推文，推文被进一步限制在美国境内。26])。例如，“芝加哥”与美国相匹配，而“伦敦”则不匹配，尽管德克萨斯州有一个伦敦。这导致了80,680,449个tweet的语料库。

审查疾病期候选人

语法

在这项研究中，我们专注于寻找特定的推文的名字我们的目标疾病。将这一重点扩大到包括症状和治疗等相关概念是可取的，但不可能达到本文的范围。由于我们关注的是命名疾病的术语(而不是描述或暗示疾病的术语)，我们删除了所有非名词的候选疾病术语(例如，形容词，如“抑郁症”或“关节炎”)。然后我们手动扩展列表，在语法合适的地方添加复数形式。

医疗

我们使用倾向于包容性的关键字搜索策略挖掘CHV。例如，在搜索“痤疮”时，检索到的医学概念术语可能最多与之没有什么关联痤疮．其中一个概念是痤疮,酒渣鼻它的相关术语网络包含“痤疮酒渣鼻”、“紊乱性酒渣鼻”、“酒渣鼻”和“酒渣鼻痤疮”等术语。

因为这个概念痤疮,酒渣鼻包含包含文本字符串“acne”的至少一个术语，其整个术语网络自动成为痤疮词典。这种包容性提出了“酒渣鼻”、“痤疮酒渣鼻”、“紊乱性酒渣鼻”等是否指痤疮．为了解决这个问题，研究小组的一名医生审查了候选术语。对于每一种疾病，她都删除了不表示该疾病的候选词，以确保只有在医学上适当的术语被纳入任何疾病词典。

结构

我们为每种疾病生成了一个文本字符串列表，可以用来搜索Twitter语料库中提到的该疾病。为了实现这一目标，我们考虑到两个现实。首先，许多CHV术语元素使用了自然语言中不常见的结构(例如，“fever hay”如鼻过敏/花粉热)，“攻击心脏”，“攻击心脏”，或“攻击心脏”，如心脏病以及“疼痛，背部，辐射”之类的背部疼痛)．第二，在Twitter语料库中执行搜索时，只需要搜索短语中最短的元素;如果复合搜索短语包含较短的搜索短语，则较短的搜索短语隐含较长的搜索短语(例如，“asthma”检索哮喘，过敏性哮喘，花粉哮喘等;“糖尿病”检索糖尿病，胰岛素依赖型糖尿病，糖尿病筛查等等)。

由于这两个事实，我们能够显著缩短由半自动CHV搜索程序生成的候选疾病术语列表。所有逆序候选词(如“发烧干草”)和复合候选词(如“过敏性哮喘”)都被删除了。

经过这三个审查程序后，24种疾病词典总共包含488种疾病术语(参见多媒体附件1)．

手动推文评估

我们确定了488个疾病术语中每一个在推特中提到相关疾病的频率。首先对每个疾病术语在语料库中出现的推文数量进行基本统计(在应用任何语言歧义纠正之前)。这是一个疾病术语的原始推文计数。请注意，如果一条tweet包含多个疾病术语(无论这两个术语指的是同一种疾病还是不同的疾病)，我们允许将其计算两次。在整个研究中，我们考虑了在推特中出现的疾病术语的随机实例，而没有考虑与它们一起出现的其他术语。

然后我们进行人工评估。对于每个疾病术语，我们从推文语料库中随机选择30条包含该术语的推文进行手工分析。选择这个数字是为了平衡研究需求和时间限制。在推文语料库中，一些疾病术语出现在30条或更少的推文中。当发生这种情况时，将检索所有可用的tweet。

两名会说英语的研究助理独立阅读了每条推文，并做出了一个简单的评估，回答道:“对于每条推文，根据您的判断，标记该推文检索的疾病术语是否指该术语的医学含义?”每条推文都需要一个是或否的判断，如图所示表1．两位评价者各自编纂了一份完整的是/否判断集，对另一位评价者保密。

表1。对每条推文是否涉及所选术语的医学含义进行评级的示例。这里的术语是“心脏病”。

评定等级1	评定等级2	推特
是的	是的	我拜访了一个两次心脏病发作的人，他觉得自己很荣幸能在这样的环境中分享对上帝的信任。# realdeal
是的	没有	还能再放一个人吗?RT @pjones59:香肠球，木棍上的心脏病发作，蘸酱，薯条，鸡翅和奶酪，奶油奶酪/泡菜/火腿卷
没有	没有	我还是不敢相信前几天我在工作的时候看到了Kris。谈谈迷你心脏病。U_U

在这些推文级别的评估完成后，我们在疾病级别聚合了得分(独立于每个评分者的判断集合)。对于每个评分者和每个疾病术语(n=488)，我们计算了样本中被评价为涉及医学含义的推文的百分比。科恩对评级者之间可靠性的kappa为0.77。

然后对两个评分者的疾病期百分比进行平均，得到每个疾病期的校正系数。我们将该系数乘以疾病术语的原始tweet计数(rcount)，以得出估计的疾病期验证的推文计数（vcount)．

一旦完成了对疾病词汇表中的每个疾病术语的估计，就会对疾病术语估计进行汇总，产生我们的最终度量，即每个疾病词汇表的经过验证的推文计数(图1)．疾病词典的经过验证的推文计数是我们的语料库中对相关疾病有效引用的推文的估计数量，也就是说，修正了疾病词典的原始推文计数中存在的模糊性错误。

以人工鉴定为例糖尿病疾病辞典(图2)说明了从原始推数9202到经过验证的推数8896的演变。

图2。糖尿病词典中的疾病术语经过人工鉴定。每个学期最多接受30次评估。然后对术语级的评价进行求和，以得到最终的词典级糖尿病验证tweet计数(8896)。

初步研究结果

在我们人工审阅的2824条包含疾病术语的推文中，我们的2名打分者的平均判断表明，2276.5条(80.61%)实际上指的是疾病，不同疾病的有效性差异很大。例如,中风术语很少涉及医疗紧急情况(只有22%的时间，或55/252)，而糖尿病术语几乎都是指身体状况(98%的情况，102/104)。注意我们报告的百分比表2(14.89%， 3827/25,704，中风;96.67%， 25,104/25,704，用于糖尿病)根据Twitter语料库中组成疾病词典的不同术语的术语频率，对手动导出的百分比进行加权。

将24种疾病的原始推文计数和验证推文计数进行比较表2，以及一个修正系数(根据被判断为有效的评估推文的百分比进行调整)。表2还包括疾病流行率数据(包括美国普通人口和美国推特用户)，这些数据直接来自益百利的西蒙斯全国消费者研究。我们注意到所有五种疾病测量方法的异质性水平很高。这可能反映了疾病本身的异质性:其中包括急性病毒感染(如:流感)、一般疾病(例如，背痛，鼻过敏/花粉热)、慢性疾病(例如，关节炎，骨质疏松症)、测试措施(例如，高胆固醇，高血压/高血压)、医疗紧急情况(例如心脏病，中风)和心理障碍(例如，抑郁症，添加/多动症)．有些疾病是暂时性的(例如，尿路感染)，另一些则是长期的(例如，糖尿病)．有些是导致死亡的原因(例如，癌症，充血性心力衰竭)，而另一些则相对肤浅(例如，痤疮)．考虑到这种多样性，看到各种疾病的推文计数、校正系数和流行率的差异很大就不足为奇了。

表2。每种疾病的原始和验证推文计数、校正因子以及美国和推特疾病流行率。

疾病	原始推文计数	验证的推文计数	校正因子^一个	美国(百万)^{b, d}	Prev US Twitter(百万)^{c, d}
胃酸反流病/胃食管反流病	743	631	84.98	32.4	2.40
痤疮	6936	6027	86.89	11.2	2.00
注意缺陷障碍/注意缺陷多动障碍	2794	2660	95.19	4．9	0.90
关节炎	2524	2522	99.92	34.4	1.30
哮喘	3952	3754	95.00	12.4	1.00
背痛	3035	3028	99.77	42.0	2.60
癌症	110760年	63647年	57.46	5．0	0.46
充血性心力衰竭	928	313	33.76	- - - - - -	- - - - - -
心脏病	2741	2410	87.91	- - - - - -	- - - - - -
充血性心力衰竭/心脏病^e	3669	2723	74.21	5.9	0.46
慢性阻塞性肺疾病	226	188	83.37	5.5	0.86
抑郁症	14294年	10459年	73.17	18.7	2.20
糖尿病	9202	8896	96.67	20.8	1.20
流感	10139年	8810	86.90	17.2	1.80
生殖器疱疹	76	66	86.84	1．8	0.33
心脏病	15027年	2311	15.38	- - - - - -	- - - - - -
中风	12852年	1914	14.89	- - - - - -	- - - - - -
心脏病和中风^f	27879年	4225	15.15	3．0	0．11
高胆固醇	225	218	96.67	37.9	1.70
人乳头瘤病毒	636	545	85.73	1．5	0.12
高血压/高血压	1630	1491	91.49	43.5	1.50
偏头痛	5958	5615	94.24	16.4	1.80
鼻过敏/花粉热	481	473	98.27	18.2	1.30
骨质疏松症	316	306	96.68	6．0	0.13
胃溃疡	80	73	91.25	3．3	0.03
尿路感染	880	479	54.40	10．0	1.00

^一个修正因子是被评价为有效的推文的百分比。

^bPrev US(百万)代表一种疾病在美国的流行程度。

^cPrev US Twitter(百万)代表一种疾病在美国Twitter用户中的流行程度。

^dPrev US(百万)和Prev US Twitter(百万)的数据来源都是Experian Simmons国家消费者研究。

^e在Experian的数据集中，充血性心力衰竭和心脏病被分解为单个数据点。我们分别在推特上挖掘这些疾病，并将我们的评估方法应用到包含每种疾病术语的推特上。然而，由于Experian是我们流行统计数据的来源，我们只能报告这两种疾病在联合状态下的流行情况。

^f注意，“e”表示心脏病发作和中风。

统计分析

我们确定了斯皮尔曼相关系数(所有P原始和验证推文计数与美国普通人口和美国推特用户之间的疾病患病率之间的<.001)(表3)．仅对推特使用进行校正，推特计数和流行度之间的相关性就翻了一倍多(从0.113到0.258)。仅纠正单词歧义有类似但稍小的效果(.208)。对两者的校正是基线相关性(.366)的三倍多。

表3。原始和验证推文计数与美国人口和推特用户疾病流行率之间的斯皮尔曼相关系数P<措施)。

	患病率
	美国人口	美国推特用户
原始推文计数	.113	.258
验证的推文计数	.208	.366

概述

由于歧义校正，我们发现相关性的改善似乎不足为奇。然而，由于人口统计校正的改进不那么直接，特别是因为没有努力将我们的推特分析限制为第一人称自我报告提及的疾病。很容易假设疾病流行率和疾病提及率之间一定有因果关系。事实上，我们将由于人口统计修正而增加的相关性解释为支持这一假设:这意味着我们测量的信号(即Twitter上的疾病提及)与该信号的可信来源(即使用Twitter的疾病患者)呈正相关。然而，我们发现，对于某些个体疾病，疾病流行率和疾病提及率严重不同步。就目前而言，究竟是什么原因导致人们发(或不发)关于一种疾病的推文，仍然是一个悬而未决的问题，尤其是因为许多提到这种疾病的人并没有患上这种疾病。在任何情况下，利用社交媒体估计疾病流行率的方法都不需要解释因果关系。他们只要求社交媒体可靠地捕捉疾病流行的变化。我们已经证明，通过调整疾病患者和Twitter用户之间的人口统计学差异，可以改进这种测量方法。

偏差纠正

我们发现，由于Twitter用户的人口统计模式和自然语言的模糊性，naïvely统计推文中疾病术语的提及会产生有偏见的结果(就与已知疾病流行统计数据的相关性而言)。这些偏差至少可以部分纠正，导致推特中疾病术语的计数与我们研究的24种疾病的已知流行统计之间的相关性增加了三倍。

Twitter人口是美国的一个有偏见的样本，鉴于Twitter人口的已知人口统计，使用标准分层抽样方法相对容易纠正。我们使用Experian的调查数据确定了这一点，但也可以使用其他Twitter人口统计数据研究。我们证明，人口统计修正大致使疾病提及率和疾病流行率之间的相关性翻了一番。

歧义的类型

语言固有的歧义需要更多的工作来纠正。我们观察到语言歧义在不同疾病中有显著差异。提及疾病术语的比例实际上指的是疾病，从高度具体的术语，如关节炎(99.92%，或5044/5048)到不太具体的术语，如中风(14.89%，或3827/ 25704)。这种语言歧义主要有两种形式。

第一个是“词汇歧义”。有些疾病，如关节炎、糖尿病和高胆固醇，在实践中所使用的术语几乎总是与它们相关的疾病概念有关。在我们的分析中，推特用户很少使用关节炎词汇来指代“关节炎”之外的任何疾病。然而，有一些疾病术语经常被用来指代非疾病(或非预期疾病)的概念。经常出现的例子词汇包括“癌症”(星象星座)、“抑郁症”、“中风”(非医疗用途，也包括中暑)和“流感”(如胃流感，而不是“流感”)。缩写词尤其模棱两可。例如，“copd”(即慢性阻塞性肺病)是“copped”(如动词“took”)的流行变体拼写;泌尿道感染(尿路感染)、“hpv”(人类乳头状瘤病毒)和“zit”(痤疮)出现在互联网地址中(特别是使用URL重定向的短链接);及“CHF”(充血性心力衰竭)是瑞士法郎的缩写。或者相反，“Gerd”是一个男性的名字，与胃食管反流病的缩写相一致(部分胃食管反流病)胃酸反流病/胃反流病词典)。词汇歧义也来源于疾病术语的隐喻和俚语用法。“心脏病发作”和“心力衰竭”用来表示惊讶，“注意力不集中”用来表示分心。

第二种类型的歧义可以被认为是“疾病歧义”。在这项研究包括的24种疾病中，有一些没有其他疾病描述得那么清楚。这个问题的一个方面是强度。如果一个推特用户说她最喜欢的运动队输了比赛，她感到沮丧，这是医学抑郁症吗?如果她用“LOL”来结束一条看起来严肃的推文呢?疾病模糊性的第二个方面是特异性或准确性。一些推特用户可能会用偏头痛这个词来表示其他类型的头痛，或者说花粉热，但实际上他们对猫过敏。疾病模糊性的第三个方面是复杂性。一个主要的例子是这项研究中的心血管疾病的范围(即，充血性心力衰竭，心脏病，心脏病，高胆固醇，高血压,可能中风)，它们之间的关系和确切的界限很难或不可能画出来。

这两种类型的模糊性都会影响疾病的验证系数。第一种类型，词汇歧义(例如，同义异义词或隐喻词的使用)，很可能影响方法论的“后端”，需要对观察到的术语计数进行修正(即使用本文中描述的方法)。第二种类型是疾病边界模糊，它在“前端”出现问题，使疾病词典难以裁剪。这种不明确提出了一个问题:充血性心力衰竭和心脏病之间潜在的等级关系，或者高胆固醇和心脏病发作或中风之间潜在的因果关系，是否可以或应该以某种方式被编入疾病词典。

在这项研究中，我们将每种疾病词汇作为一个独立的实体来处理，而该决定的影响必然会写入我们得到的结果中。我们可以预期，更“独立”性质的疾病(即那些相对独立的疾病，如骨质疏松症，而不是复杂事物的一部分心脏病)自然会比那些可能与其他疾病存在复杂关系的疾病更好地由它们各自的疾病词汇表来表示。从直觉上看，一种疾病在Twitter上的表现与其在疾病词汇表中的表现之间的不匹配本质上是导致该疾病的验证系数低于100%的原因。

验证推文计数与患病率的相关性

正如有效性被证明在不同疾病之间有很大的差异一样，Twitter上的讨论水平与疾病流行程度的关系也各不相同。一些疾病的讨论程度超过了它们在人口中的流行程度，而另一些疾病则很少受到相对关注。验证推文计数与美国疾病流行率之间的相关性为.208 (表3，P<措施)。为了提供这种关系的更详细的图像，我们计算每种疾病的验证推文计数作为流行率的函数。为此目的使用以下公式:针对每种疾病d，预测流行率=(验证的推文计数d/所有有效推文计数的总和)×所有疾病患病率的总和。这可以理解为每种疾病的验证推文计数(不准确)项目的流行程度。

我们将预测患病率与实际患病率进行比较图3．所有疾病的流行总数(351,939 580)在预测病例和实际病例中都是相同的，但分布情况却大不相同。我们看到了癌症是一个主要的异常值，“占”预计流行率(176,605,210)的50%以上，而它只占实际流行率(5,031 1,120)的不到2%。很明显,癌症得到的关注远远超过普通权证。预计流行率是实际流行率的35倍以上。相反,高胆固醇处于代表性不足的极端。预计患病率(604,898)仅为实际患病率(37,861,070)的1.60%。这些数据表明，除了患病率之外，其他未知因素也会影响一种疾病在Twitter上获得的讨论量。

一种假设是，Twitter的人口统计数据使用户高度关注的疾病的讨论水平上升，而使用户不太关注的疾病的讨论水平下降。鉴于推特用户倾向于年轻这一普遍现象，这可以解释其中的原因关节炎推特上的人似乎少了很多，为什么呢痤疮而且添加/多动症over-tweeted。然而，仅凭人口统计数据无法解释预测的异常流行癌症．他们也不太可能解释过度使用推特流感而且糖尿病．我们假设人口统计数据确实会影响这些结果(注意痤疮这是一种年轻人的疾病，也是一种预测不足的疾病高血压/高血压一种老年疾病图3)，但其他多种因素也起了作用。可能的候选项目包括疾病意识和宣传运动的强度和历史(见癌症，糖尿病,人乳头瘤病毒）;疾病病耻感或身体部位病耻感(见生殖器疱疹而且尿路感染)．对这些和其他可能的因素的调查是未来研究的一个领域。

图3。22种疾病的预计流行率(作为验证推文计数的函数)与美国的实际流行率(以百万为单位)(按预计流行率排序)。有些疾病被“过度推特”(特别是癌症)，而其他疾病则被“低估推特”(如背痛和关节炎)。

限制

目前还不清楚疾病讨论(在Twitter上或只是一般情况下)和疾病流行之间的关系本质是什么。推特上的疾病讨论很可能是由比疾病流行率更多的因素驱动的。人们在推特上谈论疾病有很多原因，为了本文的目的，我们不试图解开这些原因。尽管如此，我们确实证明了Twitter疾病提及率与疾病流行率相关，而且在应用了人口统计学和词汇歧义校正后，这种相关性得到了改善。这一教训可以也应该被纳入其他研究或工具中，以寻求挖掘Twitter(或类似场所)上的语言，以获取更广泛人群的信息。

尽管我们尽了最大努力，但我们的Twitter语料库和Experian数据集的人口统计数据并不完全匹配。最重要的是，Experian数据集包括英语和西班牙语美国居民的疾病流行率估计，而我们的推文语料仅限于英语推文。本研究用英语进行;未来的工作应该将类似的分析扩展到其他语言。

在这项研究中，我们没有考虑所有可能影响疾病流行率和关于疾病的推文之间相互作用的变量。有些被遗漏的变量是以疾病为中心的。例如，有些疾病实际上可能比其他疾病更“适合在推特上发布”，这是由于各种疾病因素，包括强度、持续时间、污名、社会突出性等，甚至可能是由于形式上的考虑(这种疾病是容易还是容易拼写?)在不考虑任何基于流行的对推文计数的影响的情况下，一种更不容易在推文上发布的疾病可能会有更少的相关推文。

我们只考虑在推特中明确命名(正确拼写)疾病的提及。一方面，依靠正确的名词形式的疾病名称，这些名称来源于公认的卫生词汇，如CHV，有助于推动这项研究走向半自动化、客观性和可重复性。然而，另一方面，这一决定留下了一个未知的，但可能是大量的与疾病相关的推文未被挖掘，因此在我们的分析中无法解释。我们忽略了俚语(如“糖尿病”)或拼写错误(如“哮喘”，“hi胆固醇”)。在严格的形式上，我们目前的方法是以牺牲召回率为代价来调整精度的。此外，人们可以在Twitter上讨论健康问题，提到症状、后遗症、地点(如医院)、药物或治疗等。我们对疾病名称的关注无法捕捉到与健康相关的推文这个更广泛的领域。提高记忆力留给以后的工作。

其他被遗漏的变量是以Twitter为中心的。有充分的文件证明Twitter没有透露他们的api中使用了什么抽样过程[27，28］．因此，尚不清楚这些推特用户(他们的推文被用于本次研究)在美国推特用户中有多大代表性。这是不可避免的，也是所有使用Twitter api的研究的共同缺点。

在这项研究中，我们也没有区别对待推特用户。Twitter的“用户”可能不是个人。许多与健康相关甚至与疾病相关的组织在Twitter上提到疾病。与此类组织相关的因素(数量、社交媒体策略等)可能与以疾病命名的推文计数有关。其他研究人员已经解决了区分卫生组织发布的推文的问题[29，但这项研究并没有做出这样的区分。

与之前工作的比较

在日常生活或商业活动中，个人和组织会产生大量可供挖掘的文本。其中大部分数据以这样或那样的形式在网上分享或发布，这些数据对研究人员很有吸引力，包括对流行病学和公共卫生感兴趣的人。

一些“信息流行病学”研究(例如，在“介绍”部分引用的长列表中的许多)将推特上的词汇使用与疾病或医疗状况的流行联系起来。除了Twitter，网络搜索活动也被用于监测莱姆病[30.]及登革热[31，以及与饮食习惯相关的风险行为[32和自杀[33］．博客文章已被用来预测流感爆发[34］．脸书被用来预测“国民幸福总值”，也就是整个美国的幸福状况[35］．

这些研究主要将某些媒介(如Twitter或谷歌搜索)在某段时间内(如一天或一周)和某些地区(如美国县或州)的词汇使用与疾病流行水平联系起来。这种相关性研究方法依赖于他们所研究的人口的同质性的某些假设，而这些假设往往没有说明，因此估计也没有得到检验和纠正。目前尚不清楚是否人口统计学或词汇歧义偏见是典型的原因。我们假设，研究人员隐含地假设，这些因素将被他们使用的统计回归方法自动处理。如果人口统计学和模糊性偏见在时间和空间上是恒定的，这将是正确的。然而，如果人群对目标媒体(如Twitter)的使用情况不同，预测的准确性也会不同，而且这种变化可能是显著的。

流感趋势可能是相关性预测方法的“典型代表”。它是一个被广泛引用的在线工具，利用一系列谷歌搜索词与历史流感水平之间的统计相关性，预测美国流感水平的区域变化[36］．流感趋势最初是高度准确的。然而，它也被用作一个案例研究，当“大数据”预测所依据的统计模式在描述上不准确(要么从一开始就是不准确，要么是随着时间的推移而漂移)时，“大数据”预测是如何出错的。37，38，声称预测一度被夸大了近两倍[39］．

少数研究强调了对社交媒体分析有效性的担忧[40］．也有人在选择“高质量”的疾病相关推文方面做了一些工作，大多数是在敏感度较低的情况下实现高特异性。例如，[41]使用正则表达式和机器学习方法过滤除第一人称自我报告外的所有推文。我们努力争取更高的覆盖率，包括所有“真实”提到的疾病，然后我们寻找之前建立的数据(即疾病流行率)，以验证我们的发现。在之前的一项研究中[42，研究人员确定了已知的患者，然后研究他们的推特数据，为感染流感的推特用户描述一种识别指纹(利用他们的推特和推特资料元数据)。然后，他们使用该模型“诊断”单个推特用户的流感，作者暗示，这种方法可以用于人群水平的疾病监测。

在短期内，我们认为社交媒体对公共卫生的主要用途可能是了解人们对健康、疾病和治疗的态度。有效的公共政策依赖于对人们所知道和关心的事物的主观调查。为什么他们寻求或避免治疗?它们如何揭示疾病状况?他们对哪些风险行为不屑一顾?对可以测量的现象(如疾病流行率)的预测可能用处有限，特别是在测量及时和准确的情况下。尽管传统的地面真值测量方法受到质疑[43]，美国疾病控制与预防中心对流感的估计似乎优于谷歌流感趋势的估计[44］．然而，在线疾病检测和预测是一个快速发展的研究领域，随着这一领域的工作继续进行，我们做出这类估计的集体能力可能会提高。

结论

利用社交媒体研究公共卫生的几种类型的研究将受益于本文概述的人口变化和语言歧义的修正。社交媒体数据集是有偏见的便利样本，词汇歧义是普遍存在的。然而，社交媒体提供了一种相对廉价的方式来监控无数领域，包括公共卫生和对健康和保健的态度。

在这项研究中，我们从一个大的、“低质量”的非随机数据集(如Twitter)开始，并将其与一个小的、“高质量”的随机数据集(通过后分层实现)进行比较(如Experian的西蒙斯国家消费者研究)。我们过滤了Twitter数据集，使其人口统计数据与Experian数据集相匹配。然后，我们对naïve和经过歧义修正的Twitter疾病提及计数进行了计算。最后，我们将这些数据与Experian调查中发现的患病率数据进行了比较。我们发现，更正后的Twitter计数比naïve Twitter计数与Experian“高质量”数据的相关性要强得多。

我们认为，这证明了使用非随机便利样本(如社交媒体数据或谷歌查询)的其他研究的需要和能力，以明确考虑人口统计学和词汇歧义因素，例如，使用我们的方法或其他相关或新方法。

利益冲突

没有宣布。

‎

多媒体附件1

这项研究的重点是24种疾病。每种疾病都由一个由一个或多个疾病术语组成的疾病词汇表表示。共有24种词典，488种疾病术语。本附录中的第一行保存词典名称，随后的行保存疾病术语。每一列代表一种不同的疾病。

XLSX文件(Microsoft Excel文件)，14KB

科利尔N，孙NT，阮NM。天哪，你得了流感?生物监测共享健康信息分析。生物医学语义学杂志2011;2增刊5:S9 [免费全文] [CrossRef] [Medline］
Paul MJ, Dredze M.你的推特就是你的推特:分析推特对公共健康的影响。加州门洛帕克:人工智能进步协会;2011年7月17日出席:第五届AAAI国际博客与社交媒体大会(ICWSM);2011年7月17-21日;西班牙巴塞罗那。
朱娜拉R，安德鲁斯JR，布朗斯坦JS。社会和新闻媒体能够在2010年海地霍乱暴发早期对流行病学模式作出估计。Am J Trop Med Hyg 2012 Jan;86(1):39-45 [免费全文] [CrossRef] [Medline］
推特时代的流行病:2009年H1N1爆发期间推特的内容分析。PLoS One 2010年11月;5(11):e14118 [免费全文] [CrossRef] [Medline］
A先生，Segre AM, Polgreen PM。在甲型H1N1流感大流行期间，使用Twitter跟踪美国疾病活动和公众关注的水平。PLoS One 2011 5;6(5):e19467 [免费全文] [CrossRef] [Medline］
Szomszor M, Kostkova P, De Quincey E. #猪流感:推特预测2009年猪流感爆发。德国海德堡:施普林格;2012年出席:第三届ict国际21世纪电子医疗会议(eHEALTH2010);2010年12月13-15日;摩洛哥卡萨布兰卡第18-26页。
De Choudhury M, Counts S, Horvitz E.通过社交媒体预测产后情绪和行为的变化。纽约，纽约:ACM;2013年出席:SIGCHI计算机系统中人为因素会议;2013年4月27日- 5月2日;法国巴黎，3267-3276页。［CrossRef］
苏立文，施耐德股份有限公司，Cheang C, Kitto E, Lee H, Redhead J，等。“发生了什么?”Twitter上脑震荡相关流量的内容分析。《体育医学杂志》2012年3月46(4):258-263。［CrossRef] [Medline］
McNeil K, Brna PM, Gordon KE。推特时代的癫痫:需要重新推特我们对癫痫的看法。癫痫行为学2012 Feb;23(2):127-130。［CrossRef] [Medline］
Nascimento TD, DosSantos MF, Danciu T, DeBoer M, van HH, Lucas SR, UMSoD (Under) 2014届研究生等。在推特上实时分享和表达偏头痛痛苦:一项横断面信息流行病学研究。J Med Internet Res 2014 Apr;16(4):e96 [免费全文] [CrossRef] [Medline］
Lyles CR, López A, Pasick R, Sarkar U。“5分钟的不舒服胜过一生与癌症打交道”:推特上宫颈癌和乳腺癌筛查对话的探索性定性分析。癌症教育杂志2013年3月28日(1):127-133。［CrossRef] [Medline］
斯坎菲尔德D，斯坎菲尔德V，拉尔森EL。通过社交网络传播健康信息:Twitter和抗生素。Am J感染控制2010年4月38(3):182-188 [免费全文] [CrossRef] [Medline］
Nakhasi A, Passarella R, Bell S, Paul M, Dredze M, Pronovost P.医疗事故和不满:分析推特上的医疗投诉。加州门洛帕克:人工智能进步协会;2012年参加:2012 AAAI秋季研讨会系列;2012年11月2-4日;弗吉尼亚州阿灵顿，84-85页。
Heaivilin N, Gerbert B, Page JE, Gibbs JL。通过推特对牙痛进行公共卫生监测。J Dent Res 2011年9月;90(9):1047-1051 [免费全文] [CrossRef] [Medline］
Salathé M, Khandelwal S.利用在线社交媒体评估疫苗接种情绪:对传染病动态和控制的影响。PLoS Comput Biol 2011 10月7日(10):e1002199 [免费全文] [CrossRef] [Medline］
72%的成年人在线是社交网站用户。华盛顿特区:皮尤研究中心;2013.URL:http://www.pewinternet.org/files/old-media/Files/Reports/2013/PIP_Social_networking_sites_update_PDF.pdf[访问2014-09-01][2014-09-01]WebCite缓存］
杜根，史密斯。社交媒体更新。华盛顿特区:皮尤研究中心;2014.URL:http://www.pewinternet.org/files/2014/01/Social_Networking_2013.pdf[访问2014-09-01][2014-09-01]WebCite缓存］
Mislove A, Lehmann S, Ahn Y, Onnela J, Rosenquist J.了解Twitter用户的人口统计数据。加州门洛帕克:人工智能进步协会;2011年出席:第五届AAAI国际博客与社交媒体会议(ICWSM);2011年7月17-21日;西班牙巴塞罗那554-557页。
Khan AS, Fleischauer A, Casani J, Groseclose SL.下一次公共卫生革命:公共卫生信息融合和社交网络。中华公共卫生杂志2010年7月;100(7):1237-1242。［CrossRef] [Medline］
Bernardo TM, Rajic A, Young I, Robiadek K, Pham MT, Funk JA。疾病监测的搜索查询和社交媒体的范围审查:创新的年表。J Med Internet Res 2013 july;15(7):e147 [免费全文] [CrossRef] [Medline］
益百利营销服务。西蒙斯全国消费者研究。爱尔兰都柏林:Experian Marketing Services;2014.URL:http://www.experian.com/simmons-research/consumer-study.html[访问2014-09-01][2014-09-01]WebCite缓存］
Kerr E, Asch S, Hamilton E, McGlynn E.一般医疗条件的护理质量:文献和质量指标的回顾。加州圣莫尼卡:兰德;2000.
消费者健康词汇。犹他州盐湖城:犹他大学开放获取，协同消费者健康词汇计划http://consumerhealthvocab.org/[访问2014-09-01][2014-09-01]WebCite缓存］
Twitter公共流API文档。URL:https://dev.twitter.com/docs/streaming-apis/streams/public[访问2014-09-01][2014-09-01]WebCite缓存］
Hunspell字典。URL:http://hunspell.sourceforge.net/[访问2014-09-01][2014-09-01]WebCite缓存］
美国城市名单。URL:http://www.uscitieslist.org/[访问2014-09-01][2014-09-01]WebCite缓存］
González-Bailón王宁，王晓燕，王晓燕。大型在线网络样本的偏倚评估。Soc Networks 2014 july;38:16-27。［CrossRef］
Morstatter F, Pfeffer J, Liu H, Carley K.样品是否足够好?将TwitterÃ①â， â”①的流API与TwitterÃ①â， â”①的消防软管数据进行比较。加州门洛帕克:人工智能进步协会;2013年出席:第七届国际AAAI博客与社交媒体大会(ICWSM);2013年7月8-11日;剑桥，马萨诸塞州，400-408页。
Dumbrell D, Steele R.澳大利亚背景下的推特与健康:健康相关组织在推特上发布什么类型的信息?纽约:IEEE;2013年发表于:第46届夏威夷国际系统科学年会(HICSS);2013年1月7-10日;您好，电话2666-2675。［CrossRef］
Seifter A, Schwarzwalder A, Geis K, Aucott J.“谷歌趋势”在流行病学研究中的效用:以莱姆病为例。地球卫生2010年5月;4(2):135-137。［CrossRef] [Medline］
Chan EH, Sahai V, Conrad C, Brownstein JS。使用网络搜索查询数据监测登革热流行:被忽视热带病监测的新模型。PLoS nel Trop journal 2011 5;5(5):e1206 [免费全文] [CrossRef] [Medline］
West R, White RW, Horvitz E.从饼干到厨师:通过分析Web使用日志对饮食模式的洞察。瑞士日内瓦:国际万维网会议指导委员会;2013年出席:第22届国际万维网大会;2013年5月13-17日;巴西，里约热内卢，1399-1410页。
麦卡锡乔丹。人群自杀风险的互联网监测。J Affect Disord 2010 5月;122(3):277-279 [免费全文] [CrossRef] [Medline］
Corley CD, Cook DJ, Mikler AR, Singh KP。网络和社交媒体中流感提及的文本和结构数据挖掘。国际环境与公共卫生2010年2月;7(2):596-615 [免费全文] [CrossRef] [Medline］
国民幸福总值的一个不引人注目的行为模型。2010年发表于:第28届计算系统人类因素国际会议(CHI 2010);2010年4月10-15日;亚特兰大，佐治亚州，287-290页。［CrossRef］
Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.使用搜索引擎查询数据检测流感流行。自然2009 Feb 19;457(7232):1012-1014。［CrossRef] [Medline］
雷泽D，肯尼迪R，金G，维斯皮纳尼A.大数据。谷歌流感的寓言:大数据分析中的陷阱。科学2014年3月14日;343(6176):1203-1205。［CrossRef] [Medline］
Olson DR, Konty KJ, Paladini M, Viboud C, Simonsen L.重新评估用于检测季节性和大流行性流感的流感趋势数据:三个地理尺度的比较流行病学研究PLoS Comput Biol 2013 Oct;9(10):e1003256 [免费全文] [CrossRef] [Medline］
巴特勒D.当谷歌患流感的时候。Nature 2013 Feb 14;494(7436):155-156。［CrossRef] [Medline］
Kass-Hout TA, Alhinnawi H.公共卫生中的社交媒体。Br Med Bull 2013 10;108:5-24。［CrossRef] [Medline］
普列托VM, Matos S， Álvarez M, Cacheda F, Oliveira JL。Twitter:一个检测健康状况的好地方。PLoS One 2014 1月;9(1):e86191 [免费全文] [CrossRef] [Medline］
Bodnar T, Barclay V, Ram N, Tucker C, Salathé M.基于Twitter和医疗记录的在线诊断的地面验证。2014年出席:第23届万维网国际会议;2014年4月7-11日;韩国首尔651-656页。
Reed C, Angulo FJ, Swerdlow DL, Lipsitch M, Meltzer MI, Jernigan D，等。2009年4月至7月美国甲型H1N1流感大流行的估计。2009年12月15日(12):2004-2007 [免费全文] [CrossRef] [Medline］
Ortiz JR, Zhou H, Shay DK, Neuzil KM, Fowlkes AL, Goss CH.监测美国流感活动:传统监测系统与谷歌流感趋势的比较。PLoS One 2011年4月6日(4):e18687 [免费全文] [CrossRef] [Medline］

‎

添加/多动症:注意缺陷障碍/注意缺陷多动障碍

API:应用程序接口

CHV:消费者健康词汇

uml:统一医学语言系统

G·埃森巴赫编辑;提交20.10.14;由S Burton和M Salathe同行评议;对作者25.12.14的评论;修订版收到28.02.15;接受31.05.15;发表26.06.15

©Christopher Weeg, H. Andrew Schwartz, Shawndra Hill, Raina M Merchant, Catalina Arango, Lyle Ungar。最初发表于JMIR公共卫生和监测(http://publichealth.www.mybigtv.com)， 2015年6月26日。

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，但必须适当引用首次发表在《JMIR公共卫生与监测》上的原文。必须包括完整的书目信息，http://publichealth.www.mybigtv.com上的原始出版物链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

使用Twitter来衡量公众对疾病的讨论:一个案例研究