发表在18卷, No . 2(2016): 2月

垃圾进,垃圾出:健康研究,信息流行病学和数字疾病检测中社交媒体数据使用的数据收集,质量评估和报告标准

垃圾进,垃圾出:健康研究,信息流行病学和数字疾病检测中社交媒体数据使用的数据收集,质量评估和报告标准

垃圾进,垃圾出:健康研究,信息流行病学和数字疾病检测中社交媒体数据使用的数据收集,质量评估和报告标准

原始论文

伊利诺伊大学芝加哥分校卫生研究与政策研究所卫生媒体合作实验室,美国伊利诺伊州芝加哥市

通讯作者:

金润生博士

健康媒体合作实验室

卫生研究和政策研究所

伊利诺伊大学芝加哥分校

西区研究办公大楼,地下275号

罗斯福西路1747号

芝加哥,伊利诺伊州,60608

美国

电话:1 312 413 7596

传真:1 312 996 2703

电子邮件:ykim96@uic.edu


背景:社交媒体已经改变了通信的格局。人们越来越多地通过网络和社交媒体获取新闻和健康信息。社交媒体平台也为卫生研究(包括信息流行病学、信息监测和数字疾病检测)提供了丰富的观测数据的新来源。虽然使用社交数据的研究数量正在迅速增长,但这些研究中很少有透明地概述他们收集、过滤和报告这些数据的方法。应用于社交数据的关键词和搜索过滤器形成了研究人员可以观察人们就给定话题进行交流的内容和方式的透镜。如果没有正确聚焦的镜头,研究结论可能会有偏见或误导。报告数据源和质量的标准是必要的,这样数据科学家和社交媒体研究的消费者就可以评估和比较各种研究的方法和结果。

摘要目的:我们的目标是开发和应用一个社交媒体数据收集和质量评估的框架,并提出一个报告标准,研究人员和审稿人可以使用它来评估和比较研究中社交数据的质量。

方法:我们提出了一个概念性框架,包括收集社交媒体数据的三个主要步骤:开发、应用和验证搜索过滤器。这个框架基于两个标准:检索精度(检索的数据中有多少是相关的)和检索召回率(检索的相关数据中有多少)。然后,我们讨论了检索精度和召回率的估计依赖于准确的人类编码和完整的数据收集的两个条件,以及如何在偏离这两个理想条件的情况下计算这些统计数据。然后,我们将该框架应用于一个真实世界的示例,该示例使用从Twitter消防水带收集的大约400万条与烟草相关的tweet。

结果:我们开发并应用了一个搜索过滤器,根据三个关键字类别:设备、品牌和行为,从存档中检索与电子烟相关的推文。搜索过滤器从存档中检索了82205条与电子烟相关的推文,并进行了验证。所有病例的检索精度均在95%以上。假设理想条件(没有人为编码错误和完整的数据收集),检索召回率为86%,未检索的消息无法存档时为75%,86%假设编码员没有假阴性错误,93%允许人为编码员的假阴性和假阳性错误。

结论:本文提出了一个社会数据过滤和质量评估的概念框架,解决了几个共同的挑战,并朝着建立报告社会数据的标准迈进。研究人员应该清楚地描述数据的来源,如何访问和收集数据,以及搜索过滤器的构建过程以及如何计算检索精度和召回率。建议的框架可以适用于其他公共社交媒体平台。

医学互联网研究,2016;18(2):e41

doi: 10.2196 / jmir.4738

关键字



社交媒体已经改变了公共和人际沟通。互联网和社交媒体已迅速成为健康信息的主要来源[1-3.],提供广泛和有针对性的信息,并促进信息的查找和共享。随着人们越来越多地转向社交媒体获取新闻和信息[45],这些平台可作为信息流行病学、公共卫生监测(信息监测、数字疾病检测)观测数据的新来源[6-11],追踪健康态度和行为意向[67912-16],并测量与健康结果相关的社区层面的心理特征[1718]。

虽然Facebook仍然是最常用的社交媒体平台,但不同的隐私设置和复杂的应用程序编程接口(API)流使得收集和解释Facebook数据以进行观察研究极具挑战性。相比之下,Twitter本质上是一个面向公众的平台,它拥有数百万活跃用户,这些用户在微博消息(tweets)的内容中提供了丰富的定性数据,也在元数据中嵌入了重要的定量数据。元数据字段描述给定消息的传播范围和模式,以及发布消息的用户的一些有限特征。类似地,YouTube拥有数百万活跃用户,他们观看、发布、评价和评论其丰富的视频内容和广告。在任何一个社交媒体平台上进行简单的搜索,都能提供大量诱人的信息。然而,尽管这些平台在研究和分析方面具有丰富的潜力,但收集、清理和报告社交媒体数据的方法差异很大,这使得使用这些数据的研究很难进行评估和比较。

信息流行病学中的社交媒体数据收集通常由用于从平台检索数据的关键词和搜索过滤器定义[6]。因此,搜索过滤器是我们观察人们交流内容和方式的镜头。如果我们的镜头适当聚焦,我们就可以识别感兴趣的内容,避免收集大量无关信息。相反,如果我们的搜索范围太窄,我们可能会错过重要的数据,我们的结论可能会有偏见。如果范围太广,我们就有可能收集到大量不相关的、可能具有误导性的材料。

搜索过滤器是与指定搜索策略的搜索规则集成的一组关键字。虽然在为给定的研究问题确定关键字和搜索规则方面有一种直观的简单性,但这种表面上的简单性具有欺骗性。首先,关键字的选择并不简单。语言和流行文化因年龄、社会经济地位、种族/民族、地理位置等而异。社交媒体上使用的语言通常是口语化的、有创意的、多变的。此外,用户在不同平台上的交流方式也不同,部分原因是每个平台特有的规范和技术约束,部分原因是每个平台的社交功能[19]。例如,Twitter用户被限制在140个字符以内,通常使用缩写和俚语发布短消息。Facebook的帖子可能更长,因此更有可能包含多个不同的单词来表达一个结构。YouTube上发布的视频都有标题,通常由发布者用关键词标记。Instagram帖子通常有多个标签,可以提供一些内容的指示。如果研究人员不熟练或至少不熟悉特定平台的语言规范,他们的搜索过滤器可能过于宽泛、过于狭窄,或者根本就跑题了。

关键字只是过滤器的一部分;如果没有实际的规则,一个直观的搜索词可能会检索到很多不相关的信息。例如,在烟草研究中,“吸烟”一词对于任何相关内容的搜索都是至关重要的。但如果没有进一步的规则来完善这个词,关键词将检索到大量关于“抽大麻”、“抽排骨”和“抽辣妹”的内容[912]。对使用宽泛的“吸烟”术语检索的数据进行情感分析,将产生与使用搜索过滤器检索的数据不同的结果,该过滤器排除了与“吸烟”非常接近的其他关键术语。因此,开发可靠的搜索过滤器需要严格的流程来剔除不相关的内容,并确保高质量的数据收集[20.]。

虽然许多研究报告了用于检索社交数据的关键字列表[7-1012-1621-24],很少有人描述搜索过滤器的发展[79152223],而更少的人尝试通过提供收集到的数据中有多少是相关的来评估搜索过滤器[915162223]。一项研究通过删除某些关键词提供了丢失可能相关推文的概率[22但没有完全评估他们的搜索过滤器。

由于社交数据的质量和后续分析的解释取决于搜索过滤器的质量,社交媒体研究人员必须提供数据质量和范围的证据:表面效度是不够的。计算机科学家、通信研究人员和图书馆员等,使用精确度和召回率作为搜索过滤器质量的衡量标准[20.2526]。然而,大多数使用社交媒体数据的研究并没有试图客观地评估数据的质量。人们经常混淆精确度和召回率的含义,因为它们被用来评估机器学习分类器或疾病筛查测试的性能,这与我们评估的目标不同:检索数据的质量。为了避免混淆,我们将用于访问检索数据质量的精度和召回率定义为检索精度检索召回.除非需要明确区分,否则我们在整篇论文中交替使用术语精确率/查全率和检索精确率/查全率。

在评估有效性的研究中,搜索过滤器与典型的人类编码的黄金标准进行比较。到目前为止,还没有研究考虑到人类程序员会犯错误这一事实。尽管人类程序员训练有素,但与社交媒体内容编码相关的一些错误是不可避免的。不完善的金本位可能导致效度评估出现偏差[27]。虽然完美的编码标准可能不切实际,但重要的是,研究人员在如何报告编码质量以及基准的优势和局限性方面保持透明和一致。

在本文中,我们描述了一个收集和评估社交媒体数据的框架。目标是向一个报告标准迈进,研究人员和审稿人可以用它来比较不同研究中检索和分析的数据的质量。为了说明问题,我们使用从Twitter收集的数据来说明可以适用于其他面向公众开放的基于文本的社交媒体平台的概念。此外,我们以电子烟(电子烟)内容为例,说明一个正在迅速变化的突出公共卫生主题,不断出现新的品牌和新的俚语[912这挑战了研究人员对社交媒体用户用来交流和营销这些产品的语言的掌握。

下面,我们首先提出一个社交媒体数据收集的概念框架。在这个框架内,我们描述了搜索过滤器的发展,说明了检索精度和召回率的计算,并说明了常见的挑战和潜在的解决方案。接下来,我们将框架应用于使用电子烟内容数据的真实示例:从Twitter消防水带检索到大约400万条tweet。最后,我们讨论了将这种严格的方法应用于数据收集和质量评估的挑战,并提出了报告数据准备的清单。


社会数据收集和质量评估的概念框架

我们提出了一个由三个主要步骤组成的框架来开发和验证搜索过滤器(参见表1).建议的框架是为可以访问部分或全部数据流的用户而设计的,这些用户可以应用于主要依靠人类判断和编码的以人为本的流程,以及由机器学习技术支持的自动化流程,而人工判断较少[28]。

表1。用于Twitter数据收集和验证的框架。
一步 细节
开发搜索过滤器 1.构建搜索关键词列表:(a)根据专家知识、系统搜索主题相关语言和其他资源生成候选关键词列表;(b)通过检查帖子的相关性和频率筛选关键词;(c)丢弃不相关内容比例高或频率相对较低的返回帖子的关键词;(d)当出现新的相关术语和短语时添加和筛选新的关键词。
2.将关键字与搜索规则(如布尔运算符)集成,以实现更集中的搜索。
应用搜索过滤器 3.搜索过滤器检索数据并将其拆分为已检索的数据集和未检索的数据集。
评估搜索过滤器 4.按金标准和搜索过滤器交叉制表数据:(a)从检索到的数据和未检索到的数据中随机抽样;可以应用分层抽样,(b)手动编码采样数据以确定检索集和未检索集的相关性,(c)通过人工编码相关性(编码相关与不相关)和搜索过滤器检索状态(检索与未检索)交叉制表采样数据。
5.计算检索精度和检索召回率。

开发搜索过滤器

建立一个关键字列表

开发搜索过滤器的第一步是关键字选择。根据研究课题,在专家知识的基础上,通过对课题相关语言的系统搜索,生成关键词。头脑风暴和将关键词分类到子组是很有帮助的。在我们的电子烟示例中,我们将电子烟相关的关键字分为三个子组:设备、品牌和行为。

关键字的选择也取决于收集数据的社交媒体平台。由于消息中允许的字符数量有限,Twitter数据在关键字选择方面提出了独特的挑战。Twitter用户经常通过使用标签、缩写、俗语和俚语来缩短他们发布的信息。例如,“square”这个词是香烟的俚语。一个事先不知道这个词的研究人员可能会创建一个不包括这个词的搜索过滤器,很可能会错过许多与吸烟有关的内容。因此,对研究人员来说,在他们的研究课题中跟上当前的缩写、俗语和俚语是至关重要的。资源,例如都市字典[29]和一个多元化的研究团队对于生成和理解这些关键词至关重要。

尽管做出了这些努力,许多重要的条款仍可能被遗漏。因此,有必要策略性地使用广泛的搜索词,而不是高度特定的术语/表达。例如,像“坐在我旁边的一个女孩抽方块”这样的推文,即使一个人不知道“方块”这个词,也会使用广义的“烟”来捕获。虽然使用像“烟雾”这样的广泛搜索词会产生许多不相关的推文,但它降低了遗漏相关内容的可能性。当研究人员无法访问社交媒体平台的历史档案,而是通过流媒体收集数据时,这一点尤其有用。

关键字列表应该根据相关性和频率进行进一步筛选和迭代更新。返回的tweet相对较少(例如,一个月<10条)或返回的相关tweet比例较小(例如,精度<30%)的关键词可能会被丢弃。即应考虑信号(相关数据)与噪声(不相关数据)之比[22],适当的阈值可能取决于研究问题。当新的相关术语和短语出现时,应该将新的关键词添加到列表中(例如,新的电子烟品牌,频繁出现的术语)。重复步骤1-4建立一个搜索关键字列表表1提高关键字的质量,并提供一个很好的理解如何社交媒体用户谈论一个特定的话题。如果收集数据是为了监测或预测,则应定期更新关键词,并考虑相关的媒体报道(如果有)。

整合关键字与搜索规则

搜索过滤器是关键字和搜索规则的组合。将关键字与搜索规则集成,大大提高了搜索过滤器检索相关消息的能力。搜索规则可用于清除通过宽泛术语检索到的不相关消息。例如,在烟草研究中,可以通过指定推文中不出现“烧烤”或“大麻”等术语来排除不相关的推文,而如果推文中同时包含“烟雾”和“广场”这两个术语,则可以保留相关的推文。这些搜索规则可以使用布尔运算符(AND、OR、NOT)和数据预处理技术(如n-grams或接近运算符)构建。

应用搜索过滤器

图1在Twitterverse中显示数据存档、搜索过滤器和相关tweet的结构。存档包含由广泛搜索条件返回的数据(带虚线的蓝色圆圈表示存档,红色矩形表示与特定主题相关的所有tweet)。搜索过滤器返回“a + b”条tweet。由于未知术语、拼写错误等原因,存档可能会遗漏一小部分与主题相关的tweet“e”。

图1所示。Twitterverse中的存档(a+b+c+d)、检索到的tweet (a+b)和相关tweet (a+c+e)。
查看此图

评估搜索过滤器

质量措施:定义

任何搜索过滤器都应该根据其区分相关和不相关消息的能力进行验证。通常使用两个标准:检索召回检索精度(25]。精度度量检索到的数据中有多少不是垃圾。召回度量的是检索到多少相关数据。

表2构造用于根据人类编码对搜索过滤器进行评估。精确度是一个特定的帖子是相关的条件概率,如果它被检索,由a/(a + b)计算。召回率是一个特定的帖子被检索的条件概率,如果它是相关的,由a/(a + c)计算。精确度也被称为正预测值,召回率通常被称为搜索过滤器的灵敏度[30.]。这是一种权衡:高召回率可能以低精度(或低特异性)为代价,反之亦然。F-score用于报告结合精确度和召回率的单一测量[31],计算方法:

F=(1 + β2)(精密)(召回)/(β2精度+召回率)(1)

通常使用β=1,这样的测量被称为F1分数。可以证明,利用贝叶斯定理[32],召回量可按以下公式计算:

查全率=(precision)P(retr)/[(precision)P(retr) + P(relevant|unretr)(1 - P(retr))] (2)

P(retr)表示检索到的推文比例,P(relevant|unretr)表示未检索到的相关推文比例。

除了准确性和召回率,特异性和阴性预测值(NPV)也可以使用。特异性衡量的是有多少不相关的推文被丢弃,用d/(b + d)来定义,并且与精度密切相关。NPV是发现不相关的未检索推文的比例,由d/(c + d)定义。注意P(relevant|unretr)= 1-NPV。假设数据代表总体的随机样本,并且人工编码不存在误差,则相关tweet的比例可由(a + c)/n得到。

表2。以人工编码为金标准的搜索过滤器评估。
搜索过滤器 人类的编码 总计
编码的相关 编码无关
检索 a(真正) b(假阳性) A + b=n1
没有检索到 c(假阴性) d(真负) C + d=n2
总计 A + c B + d n
人类编码的抽样计划

检索精度和召回率的计算取决于对相关和不相关内容的评估。通常,训练有素的编码人员检查检索数据的样本,以手动评估相关性以及未检索数据的样本。这就提出了两个重要的问题:如何采样和采样多少消息。应该确定实际的样本大小,因为手动编码数百万条消息是劳动密集型和耗时的,并且对精度和召回率的估计应该是精确的。

我们建议分层采样,检索状态为分层,并对检索到的信息进行过采样。这是因为通常检索到的消息的大小相对于未检索到的消息(n1/ n2<0.1),并且对检索到的消息进行过采样可以确保所需的统计精度水平。由于估计的原因,检索查全率比检索查准率更难准确估计c通常类似于在大量未检索的消息中找到一根针。因此,召回估计的统计精度受到样本量的影响。图2显示检索召回估计的平均置信区间长度如何随着未检索消息的样本量(=k)的增加而减小,而检索消息的样本量是固定的。统计精度的增益随着未检索消息数量的增加而减小,并且在一定的样本量以上增益最小。通过进行模拟或使用功率分析工具,可以确定满足所需统计精度和可行性水平的样本量。多媒体附录1描述如何图2生成并讨论了更多关于样本量的问题。

图2。随着未检索消息的样本量增加(水平轴),召回率的95%置信区间的平均界限(纵轴),将检索数据的样本量固定在3000。
查看此图
检索精度估计与检索查全率

当(1)人类编码作为金标准表现良好,(2)表2就完成了。我们将详细讨论不满足其中一个或两个条件的情况以及如何解决这些情况。

假设人类编码没有错误
理想条件下

当两个条件同时满足时,直接使用精密度和召回率的定义。如果使用分层不成比例抽样,则应应用适当的权重来计算召回率。置信区间可以根据通常的渐近方法估计[33]。如果使用式(2)计算召回率,则区间估计应考虑精度和P(相关系数)的方差。

无法归档未检索的邮件

匹配搜索过滤器的消息可直接从数据提供者处检索,以便只存档检索到的消息[111521]。搜索过滤精度可以估计,但如何在不知道召回率的情况下估计召回率cd吗?在本例中,未检索的总n2大概可以知道。Joseph等人使用贝叶斯模型来估计只有n1和n2被给予[34]。当数据中包含的信息不足,无法应用通常的方法时,贝叶斯模型通常提供一个可行的解决方案。自一个(因此b)除了n之外,还可以观察到1和n2,我们稍微修改一下他们的方法。

π相关信息的流行程度,年代回忆一下,然后C是搜索过滤器的专一性。推文的次数(一个bcd)表2具有多项分布,其各自的概率形成似然函数。的Beta先验分布π,年代,C看起来很合理,因为它的正密度定义域在(0,1)内。让β(αππ)、β(α年代年代)和β (αCC)表示的先验分布π,年代,C式中,β (α, β)为参数为α和β的β密度函数。完整条件后验分布可以导出所有未知量,包括c,并使用吉布斯采样器从后验分布中采样实现值。Gibbs采样器依次从每个完全条件后验分布中提取,条件是所有其他采样量[32]。可以看出,相关消息的流行率和搜索过滤器的召回率具有如下后验分布:π~ β (a + c + απ, n - a - c+βπ), S ~ β (a + α年代, c + β年代).

的数量c是在前一个采样步骤中得到的。基于后验分布的随机抽取,可以得到未知量的贝叶斯可信区间。所有未知量的吉布斯采样步骤见多媒体附录2

假设人类编码容易出错
人类编码是银标准

使用不完美的人类编码评估搜索过滤器会给数据质量留下有偏见的印象。搜索过滤器的查全率和查准率取决于金标准的查全率和专一性[27]。Staquet等人考虑了金标准具有100%特异性和未知召回的情况。训练有素的编码员可能相对不太可能将给定的不相关tweet评估为相关。例如,编码员可能不会确定“来拿一个。吸烟来自我们的热抽鸡肉卷”与吸烟有关。因此,可以安全地假设,对于给定的主题,人类编码的特异性(接近)100%。当满足这个假设时,搜索过滤器的召回是无偏的,精度的偏差修正方程为precision=a/[S]2(a + b)],其中S2表示人类编码的召回率。因此,当人类编码不具有完美的召回率(假负误差)时,假设理想条件的方法低估了搜索过滤精度。

人类编码不是标准的分类器

尽管在许多情况下,人类编码可以作为金/银标准,但对于某些主题,它可能是一个不充分的标准分类器,因为人类语言可能是模棱两可的(例如,“Leo DiCap正在吸烟”)。Twitter上使用的语言通常是口语化和创造性的,如果不查看相关的对话,可能很难(或不可能)在140个字符内解释意思(例如,“我不知道那是不是巧克力荷兰语”;这是对一条关于荷兰巧克力味小雪茄的推文的回复)。而且,程序员很容易累。因此,编码员可能错误地将不相关的帖子确定为相关的,反之亦然(假阳性和假阴性错误)。Joseph等人将贝叶斯模型扩展到两个过滤器的结果都不是金标准的情况[34]。我们再次修改了他们的方法来估计搜索过滤精度和召回率。

类似于表2,搜索过滤器和人工编码结果交叉制表。每个单元格可以分为真正相关的内容和不相关的内容(参见表3).让y1将相关信息统计出来一个通过搜索过滤器检索到的消息与人工编码相关;不相关信息的计数是- y1.其余的细胞也可以类似地分裂。

表3。观测数据和未知量(真正相关推文的未知量用y表示)的所有可能情况的多项式似然贡献1y2y3.y4).
搜索过滤器(j= 1) 人类编码(j=2)
编码的相关 编码无关
检索 A−y1 B−y2
y1 y2
没有检索到 y3. y4
C - y3. D−y4

π是相关信息的流行程度,S1和C1是搜索过滤器的召回率和特异性,S2和C2具有人类编码的回忆性和特异性。这8个细胞表3可以表示为多项式事件的发生,其概率是五个参数的函数。同样,beta分布可以用来建立每个参数的先验分布。表示年代1,年代2C1,和C2分布β (αS1S1)、β(αS2S2)、β(αC1C1)和β (αC2C2),分别。可以看出,相关信息的流行率与搜索过滤器召回率和特异性具有如下后验分布:

π~ β(∑yπ, n -∑yπ)= 1, 2, 3, 4

年代1~ β (y)1+ y2S1y3.+ y4S1

C1~ (c + d - y3.- y4C1a + b - y1- y2C1

搜索滤波器的精度和净现值可由下式求得:

精度1=年代1π/ (S1π+ (1 - c1) (1 -π)]

净现值1= C1(1 -π) / (C1(1 -π) + (1 - s1π

这些是基于后验分布的随机抽取π,年代1,和C1多媒体附录3描述了从所有未知量的后验分布(包括人类编码的精度和召回率)中获得随机抽取的吉布斯抽样步骤。


开发搜索过滤器

我们通过Gnip, Inc.的一个名为Firehose的API获得Twitter数据,该API被授权提供对Twitter数据的完整流和历史存档的访问。访问Firehose不是免费的,这与公开可用的数据流(如Streaming API)不同。Twitter Firehose在2012年10月返回了3,954,575条与吸烟相关的广泛关键词相匹配的独特推文,形成了一个档案。档案为建设提供了基础表2

我们开发了一个搜索过滤器来检索与电子烟相关的内容,围绕三类与电子烟相关的推文构建:电子烟的替代术语和设备部件、品牌名称和相关行为。我们使用Twitter搜索引擎[35不登录我们的Twitter账户,以避免搜索偏见。我们筛选并丢弃了返回不相关tweet的关键字,这些tweet的返回率高于70%,或者在一个月内返回的tweet <10条。当与我们的关键词同时出现的未知但看似相关的术语和短语出现时,我们会在城市词典和其他社交媒体平台上检查它们,将它们添加到列表中,并在Twitter搜索中筛选它们。我们重复步骤1-4表1直到找不到更重要的关键词。

由此产生的关键词列表包括电子烟术语的单数和复数形式,行为术语的不同动词形式,以及频繁的拼写错误。我们过滤掉了包含关键词“雾化器”和“香水”的推文,因为它们很可能是描述香水瓶的。电子烟推广账号@blucigs发布或提及的推文被收集起来。关键字和规则的最终列表见多媒体附录4

评估电子烟搜索过滤器

人类编码的抽样计划

我们进行分层抽样,检索状态为地层。进行了小型模拟,以确定每个地层的样本量。数据生成假设N为400万,检索精度为95%,检索召回率为84%。仿真细节描述见多媒体附录1(Case 1).根据模拟,我们确定从检索到的tweet中随机抽样4000以上,从未检索到的tweet中随机抽样6000以上就足够了。

假设人类编码没有错误
理想条件下

电子烟搜索过滤器从存档中检索了82205条推文,得到P(retr)=0.0208。我们从检索集中随机抽取4373个样本,并将其中的4176个编码为相关,检索精度为95.5% (95% CI 94.9-96.1)。表4表示通过人工编码和搜索过滤器交叉制表的推文数量;检索tweet的数量根据不成比例的采样分数进行了调整。在6305个随机抽样的未检索tweets中,有20个被发现是相关的,P(relevant|unretr)=0.0032。根据公式(2),检索召回率为86.37% (95% CI为81.4 ~ 91.9),F1评分为90.7%。

表4。搜索过滤器与人工编码对采样数据调整采样分数。
搜索过滤器 人类的编码 总计
编码的相关 编码无关
检索 128 6 134
没有检索到 20. 6285 6305
总计 148 6291 6439
无法归档未检索的邮件

为了演示该方法,我们假设存档只包含由电子烟搜索过滤器检索的tweet。在赋初始值(多媒体附录2),从均匀分布中采样精度值,其限等于精度的95%置信区间(94.9-96.1)。我们用n1=82,205和n2= 3872370。Gibbs进样器重复10万次循环,前1万次循环作为老化而丢弃。先验分布和后验推理结果见表5.流行率表示存档中与电子烟相关的推文的比例。根据我们的经验设置了先验分布:由于患病率低,特异性通常很高,我们相信搜索过滤器捕获了大多数电子烟推文。尽管相当高的不确定性反映在回忆的先验密度上——低至34%。在每个周期结束时,应用公式(1)上的召回率和精度的采样值计算F1得分值。检索查全率的后验均值为75%:在50%到98%之间,有95%的概率。由于没有关于假负面推文数量的信息,导致时间间隔变长。

表5所示。先验和后验均值和95%可信区间时,未检索的信息不能存档。

先验分布 后验分布
的意思是 95%的高清一个 的意思是 95%保护局b
患病率 0.010 1×106-0.031 0.028 0.020 - -0.038
搜索过滤器

回忆 0.667 0.340 - -0.954 0.752 0.505 - -0.979

精度c - - - - - - - - - - - - 0.955 0.949 - -0.961

特异性 0.733 0.474 - -0.962 0.999 0.999 - -0.999

F1的分数c - - - - - - - - - - - - 0.835 0.663 - -0.968

一个HD:最高密度间隔。

bHPD:最高后验密度间隔。对于偏态分布,HPD区间的长度比等尾区间窄(使用R Package BOA计算)[36])。

c不指定精度和F1分数的先验密度函数,而是作为其他参数的函数确定。

假设人类编码容易出错
人类编码是银标准

我们假设编码员能够以100%的特异性准确地评估不相关的内容,尽管他们可能错误地确定相关内容是不相关的(<100%召回率)。当人类编码器出现假阴性错误时,该方法在理想条件下低估了搜索滤波器的检索精度。偏差修正方程的精度为95.7%,表明在两种条件下偏差最小的情况下确定的精度。

人类编码不是标准的分类器

最后,我们假设编码员可以错误地将不相关的内容确定为相关的,反之亦然(<100%召回率和<100%特异性)。的每个细胞表4可以分为真正相关和不相关的推文。还是让y1为搜索过滤器检索到的相关推文和人工编码相关推文中相关推文的个数;不相关推文的计数是128 - y1.吉布斯采样器(见多媒体附录3)重复了10万次,前1万次被视为老化而丢弃。先验分布和后验推理结果见表6.我们相信人类编码比搜索过滤器略好,这反映在先验分布中。电子烟推文流行率的后验均值在存档中为2%。搜索过滤器的后验查全率为93%,人工编码的后验查全率为96%。拥有更多的信息导致更小的不确定性(即更短的HPD间隔)。

表6所示。当人类编码不是标准分类器时,先验和后验均值和95%可信区间。

先验分布 后验分布
的意思是 95%的高清一个 的意思是 95%保护局b
患病率 0.019 1×106-0.031 0.021 0.018 - -0.025
搜索过滤器

回忆 0.667 0.340 - -0.954 0.929 0.862 - -0.992

精度c - - - - - - - - - - - - 0.956 0.914 - -0.994

特异性 0.733 0.474 - -0.962 0.999 0.998 - -1.000

F1的分数c - - - - - - - - - - - - 0.942 0.901 - -0.982
人类的编码

回忆 0.733 0.474 - -0.962 0.961 0.923 - -0.995

精度c - - - - - - - - - - - - 0.897 0.824 - -0.971

特异性 0.800 0.616 - -0.975 0.998 0.996 - -0.999

F1的分数c - - - - - - - - - - - - 0.927 0.883 - -0.971

一个HD:最高密度间隔。

bHPD:最高后验密度间隔。对于倾斜密度,HPD区间的长度比等尾区间窄(使用R包BOA计算)[36])。

c先验精度密度没有指定,而是隐含为其他参数的函数。


主要研究结果

传统的调查数据可能需要数年的时间来收集,而社交媒体数据可以在更短的时间内深入了解健康行为和公众对健康相关话题的看法。它们使研究人员能够进行以前只能通过大规模焦点小组进行的定性研究。然而,大量的数据并不能保证结果的有效性和可靠性。事实上,偏差可能会随着数量的增加而增加。例如,基于不良数据的监测系统可能大大高估或低估疾病流行[3738]。如果没有适当的搜索过滤器,无论使用何种分析技术,从社交媒体数据中推断出的结果的质量都将很差。适当的过滤和质量评估对于使用社交媒体数据进行研究至关重要。

构建搜索过滤器很少是一步到位的过程,而是需要大量的努力[22]。它是一个迭代的过程,提炼搜索关键词和规则,捕获相关的社会数据,这些数据满足预先指定的精度和信噪比阈值。我们通过监测每个关键词的频率和精度来开发电子烟搜索过滤器。搜索过滤器不断改进,直到没有发现更重要的新术语。关键词与搜索规则相结合,提高检索精度。Wang等人提出了一种通过添加相关tweets中出现频率最高的关键词来自动更新关键词列表的方法[28]。我们正在努力通过合并他们的方法来使我们的迭代过程半自动化。

我们通过计算四种不同情况下的检索精度和召回率来量化搜索过滤质量。所有病例的检索精度估计在95%以上。在理想条件下,检索召回率估计为86%,在未检索到的信息无法存档时,检索召回率估计为75%,在假设编码员没有假阴性错误的情况下,检索召回率估计为86%,在假设人类编码员犯假阴性和假阳性错误的情况下,检索召回率估计为93%。研究人员应该根据他们对主题和搜索过滤器的专业知识和经验来确定哪个条件是合适的。无论选择哪种方法,在任何数据和分析的呈现中都应清楚地报告其基本原理和方法。

电子烟搜索过滤器(见多媒体附录4)于2012年开发。从那时起,电子烟的受欢迎程度显著增加[3940],许多新品牌和各种类型的电子烟设备进入了市场,与电子烟相关的语言和俚语也发生了变化。如果我们使用相同的搜索过滤器来研究2015年人们在社交媒体上对电子烟的评论,检索精度和召回率会很差。这强调了报告所使用的搜索过滤器的重要性,以及它们在数据收集时的检索精度和召回率。当跟踪行为、态度和信念的趋势时,为给定主题维护一个更新的关键字/搜索过滤器列表是至关重要的。

使用机器分类器进行过滤

机器学习分类器通常用于内容分析,但也可用于从搜索过滤器检索的数据中删除不相关的消息[922]。一个完善的分类器可以减少人力劳动。分类器的准确性应通过计算分类器的精度和召回率在保留样本上进行验证。我们参考机器学习文献[314142]。

检索精度可以用分类器精度来近似,但检索召回率的估计可能与分类器召回率的估计不同。分类器召回度量模型在搜索过滤器检索的数据中正确识别相关内容的能力,而检索召回估计搜索过滤器捕获的相关内容相对于可能内容的范围(我们示例中的所有Twitter消息)的完整程度。因此,检索召回率的估计本质上是理论性的,因为对未检索的消息进行采样是一项艰巨且资源密集的工作。在实践中,它的评估包括检查来自尽可能多的源/存储库的未检索数据。我们的团队在多个档案中收集和管理Twitter数据,以涵盖与烟草制品和相关行为相关的广泛主题;因此,我们可以从这些其他档案中取样,看看它们是否捕获了任何可能与电子烟相关的内容。其他人可能会存档Twitter的Streaming API或设计另一种采样策略。重要的一点是尽可能地近似相关内容可能出现的范围。

未来的研究

除了数据收集和质量评估之外,报告数据来源也很重要,这会影响推断的有效性。Twitter上的公共数据可以通过Firehose、Search API或Streaming API访问。后两者有速率限制,这可能会妨碍根据主题量检索完整数据。一个小的全流随机样本可能包含关于流行话题的丰富信息,例如,一个电影明星。有些话题在Twitterverse中可能非常稀缺,因此速率限制可能不是问题,但由于速率限制,例如政策变化导致的tweet量突然激增可能无法捕获。需要进一步的研究来调查数据源如何影响推理并提供指导方针。无论数据来源如何,为了评估和比较研究结果,对于使用社交媒体数据的研究人员来说,清楚地报告他们的数据是如何收集的,对未检索数据做出了什么假设,并提供对检索数据质量的估计是至关重要的。虽然策略可能因研究主题和/或数据可用性而异,但透明和彻底的报告对于研究的可信度以及为社交媒体研究建立严格的标准至关重要。

限制

我们的方法有一定的局限性。我们构建了一个存档来存储可能与吸烟有关的推文。这样的档案不是Twitterverse的随机样本,因此会产生选择偏差;它可能会遗漏一小部分相关的推文(“e”)图1).这种选择偏差通过公式(2)中的P(retr)和P(relevant|unretr)影响召回估计。首先,如果使用Twitterverse而不是存档,由于分母大得多,P(retr)将远远小于0.0208。这意味着检索召回应该更低。另一方面,档案中很有可能包含电子烟信息。也就是说,它比Twitterverse的随机样本更有可能包含假阴性内容。因此,如果使用Twitterverse,则P(relevant|unretr)应该更低,并且可能有许多前导零。这意味着检索召回率应该更高。这两个分量对回忆估计的影响方向相反。虽然档案有选择偏差,但它有助于发现假阴性内容并改进搜索过滤器。此外,在存档中检索到的消息与未检索到的消息的比率比在Twitterverse中相对较大。 Validating the search filter quality when this ratio is about 1/800 or smaller requires coders to evaluate an impractically huge number of tweets for reliable recall estimation (see Case 2 in多媒体附录1).

呼吁进行严格的研究

依赖社交媒体数据的研究越来越多[43]。然而,很少有人彻底描述了搜索过滤器的构建过程或充分评估了数据质量。为了评估数据的收集和质量,涉及社交媒体数据的研究应该清楚地描述数据源,包括如何访问和收集数据,如何构建搜索过滤器,以及呈现检索精度和召回率。召回率低的数据不能很好地代表目标主题,精度低的数据会给出误导性的信息。在向报告标准迈进的过程中,我们提出了一个清单(参见文本框1)报告社交媒体数据准备工作。研究结果应具有可重复性和可比性,并具有清晰描述的数据和方法。

社交媒体数据准备和报告清单。

1.数据源

  • 社交网站和时间框架
  • 如何访问数据(例如,流式API)
  • 为什么数据源适合研究课题?数据源有什么限制吗?

2.搜索过滤器的开发

  • 候选关键字是如何生成的
  • 关键词是如何提炼的
  • 最终关键字和搜索规则的完整列表

3.搜索过滤器的评估

  • 关于人类编码的假设
  • 人类编码的采样帧和样本大小
  • 是否有评估搜索过滤器所需的所有数据
  • 是否以及如何估计检索精度和召回率
文本框1。社交媒体数据准备和报告清单。

结论

在本文中,我们提出了一个社交媒体数据收集和验证的框架,并讨论了如何在不同条件下量化数据质量。我们提出的方法并不局限于Twitter,也可以适用于其他公共社交网站(相对于在线论坛或封闭的在线网络)。帖子的长度限制、不同的数据字段(标题、描述、标签、评论等)、主要用户特征、数据流或爬行工具可能会被考虑进行修改。我们的方法主要适用于基于文本的社交数据,但也适用于基于图像的社交媒体。例如,Instagram用户发布带有标签的照片;我们可以根据标签检索潜在的相关内容[44]并使用图像分类器删除不相关的内容。我们希望我们提出的框架和方法有助于使用社交媒体数据进行更严格和透明的健康研究。

致谢

我们要感谢健康媒体合作实验室的成员,他们帮助收集和编码大量Twitter数据(Rachel Kornfield, Steven Binns, Lisa E Vera, Kristen Emory, Glen Szczypka, Eman H Aly, Hy Tran),以及Lisa E Vera编辑文本。如果没有这样的团队合作,这篇论文是不可能完成的。

本研究由美国国立卫生研究院国家癌症研究所和FDA烟草制品中心资助,资助号为U01CA154254,资助号为P50CA179546。内容完全是作者的责任,并不一定代表NIH或FDA的官方观点。

作者的贡献

所有作者都对概念化、数据编码和编写文本做出了贡献。

利益冲突

没有宣布。

多媒体附录1

模拟人类编码的样本量。

PDF档案(adobepdf档案),324KB

多媒体附录2

仅使用检索数据估计精度和召回率。

PDF档案(adobepdf档案),360KB

多媒体附录3

人类编码不是标准分类器时的精确率和召回率估计。

PDF档案(adobepdf档案),373KB

多媒体附录4

电子烟搜索关键词及规则。

PDF档案(adobepdf档案),179KB

  1. 杜根。互联网与美国生活项目。:皮尤研究中心;2013年1月健康在线2013网址:http://www.pewinternet.org/2013/01/15/health-online-2013/[查阅时间:2015-01-10][WebCite缓存
  2. 张丽娟,张丽娟。网络健康信息来源:2007年健康信息国家趋势调查的结果及其影响因素。J卫生通讯2010;15补品3:279-293。(CrossRef] [Medline
  3. McCully SN, Don BP, Updegraff JA。利用互联网帮助控制饮食、体重和身体活动:来自健康信息全国趋势调查(提示)的结果。中国医学杂志,2013;15(8):e148 [J]免费全文] [CrossRef] [Medline
  4. Anderson M, Caumont A. Fact Tank。:皮尤研究中心;2014年9月24日社交媒体如何重塑新闻http://www.pewresearch.org/fact-tank/2014/09/24/how-social-media-is-reshaping-news/[查阅时间:2015-05-18][WebCite缓存
  5. 《纽约时报》2014年10月26日。Facebook如何改变用户消费新闻的方式http://www.nytimes.com/2014/10/27/business/media/how-facebook-is-changing-the-way-its-users-consume-journalism.html[查阅时间:2015-05-19][WebCite缓存
  6. 信息流行病学和信息监控:一套新兴的公共卫生信息学方法框架,用于分析互联网上的搜索、交流和出版行为。医学信息学报,2009;11(1):11 [J]免费全文] [CrossRef] [Medline
  7. Chew C, Eysenbach G. Twitter时代的流行病:2009年H1N1爆发期间Twitter的内容分析。科学通报,2010;5(11):e14118 [j]免费全文] [CrossRef] [Medline
  8. Signorini A, Segre AM, Polgreen PM。在甲型H1N1流感大流行期间,使用Twitter跟踪美国疾病活动水平和公众关注程度。PLoS One 2011;6(5):e19467 [j]免费全文] [CrossRef] [Medline
  9. Myslín M,朱s,查普曼W,康威M.使用twitter调查吸烟行为和新兴烟草产品的认知。中国医学杂志,2013;15(8):e174 [J]免费全文] [CrossRef] [Medline
  10. 张建军,张建军,张建军,等。通过Twitter对牙痛进行公共卫生监测。[J]中国生物医学工程学报,2011;30 (9):1047-1051 [J]免费全文] [CrossRef] [Medline
  11. 金爱华,霍珀T,辛普森S, Nonnemaker J, Lieberman AJ, Hansen H,等。利用推特数据获得电子烟营销和使用地点的洞察:一项信息监控研究。医学与互联网研究,2015;17(11):e251 [J]免费全文] [CrossRef] [Medline
  12. 桑德斯-杰克逊A,布朗CG,普罗查斯卡JJ。运用语言学方法理解Twitter上与吸烟相关的对话。烟草控制2015年3月;24(2):136-138 [j]免费全文] [CrossRef] [Medline
  13. 张宁,Campo S, Janz KF, Eckler P,杨杰,Snetselaar LG,等。推特上关于美国体育活动的电子口碑:探索性信息流行病学研究。中国医学杂志,2013;15(11):e261 [J]免费全文] [CrossRef] [Medline
  14. 郭立强,孙立新,阮明明。天哪,你得了流感?用于生物监测的共享健康信息分析。生物医学进展[J]; journal of chengdu electromechanical college; 2009; 35 (2): 559 - 559 [J]免费全文] [CrossRef] [Medline
  15. 李建军,张建军,张建军,等。社交倾听:推特上电子烟讨论的内容分析医学与互联网研究,2015;17(10):e243 [J]免费全文] [CrossRef] [Medline
  16. 煤矿推特中的金丝雀:社交媒体揭示了公众对阿片类药物非医疗使用的看法。科学通报,2015;10(8):e0135072 [j]免费全文] [CrossRef] [Medline
  17. Eichstaedt JC, Schwartz HA, Kern ML, Park G, Labarthe DR, Merchant RM等。推特上的心理学语言可以预测县级心脏病死亡率。心理科学2015;26(2):159-169 [j]免费全文] [CrossRef] [Medline
  18. Gittelman S, Lange V, Gotway Crawford CA, Okoro CA, Lieb E, dininggra SS,等。公共卫生监测的新数据来源:Facebook点赞。医学互联网研究,2015;17(4):e98 [J]免费全文] [CrossRef] [Medline
  19. Kietzmann JH, Hermkens K, McCarthy IP, Silvestre BS。社交媒体?认真!了解社交媒体的功能构建模块。《商业展望》2011年5月;54(3):241-251。(CrossRef
  20. Petrova M, Sutcliffe P, Fulford KWM, Dale J.检索Medline中与健康相关价值的出版物的搜索词和验证简短搜索过滤器:词频分析研究。中华医学杂志,2012;19(3):479-488 [J]免费全文] [CrossRef] [Medline
  21. 李建军,李建军,李建军,等。疾病检测还是民意反映?2013年荷兰麻疹爆发期间推特、其他社交媒体和在线报纸的内容分析。医学与互联网研究,2015;17(5):e128 [J]免费全文] [CrossRef] [Medline
  22. 李建军,李建军,李建军,等。基于微博的HIV药物治疗不良反应的研究进展。中华医学会公共卫生监测2015年7月27日;1(2):e7 [j]免费全文] [CrossRef
  23. 黄杰,孔菲德,陈晓明。推特上电子烟营销的横断面研究。Tob Control 2014 july;23增刊3:iii26-iii30 [j]免费全文] [CrossRef] [Medline
  24. Ghosh DD, Guha R.关于肥胖,我们在推特上发了什么?用主题建模和地理信息系统映射推文。地理信息学报,2013;40(2):90-102 [j]免费全文] [CrossRef] [Medline
  25. 李建军,李建军,李建军,等。基于数据集的信息检索方法及其应用。《新闻与大众传播季刊》2006年6月1日;83(2):413-430。(CrossRef
  26. White VJ, Glanville JM, Lefebvre C, Sheldon TA。设计搜索过滤器以查找系统评论的统计方法:客观性提高准确性。信息科学学报2001;01;27(6):357-370。(CrossRef
  27. 李玉杰,李玉杰,马吉亚。评估新的二分诊断试验的方法学。中华疾病杂志(英文版);2004;31(6):391 - 391。(Medline
  28. 王帅,王志远,李兵,李雪莉。社交媒体相关帖子搜索的关键词识别。: AAAI-16;2016年2月12日发表于:第30届AAAI人工智能会议;2016年2月;凤凰城,亚利桑那州。
  29. 城市词典。URL:http://www.urbandictionary.com/[查阅时间:2015-05-19][WebCite缓存
  30. 流行病学。费城:Elsevier Saunders;2004.
  31. 刘斌。网络数据挖掘:探索超链接、内容和使用数据(以数据为中心的系统和应用)。海德堡:施普林格;2011.
  32. 葛尔曼A,卡林J, Stern H,鲁宾D.贝叶斯数据分析,第二版。佛罗里达州博卡拉顿:Chapman & Hall;2003.
  33. A.分类数据分析。纽约:Wiley-Interscience;2002.
  34. Joseph L, Gyorkos TW, Coupal L.在没有金标准的情况下疾病流行率和诊断测试参数的贝叶斯估计。中华流行病学杂志,1995;31(3):363 - 368。(Medline
  35. Twitter搜索。URL:https://twitter.com/search-home[访问日期:2016-02-03][WebCite缓存
  36. 贝叶斯输出分析程序(BOA) 1.1版用户手册。爱荷华州爱荷华大学;2005年1月8日。URL:http://www.public-health.uiowa.edu/boa/boa.pdf[访问日期:2016-02-03][WebCite缓存
  37. 冯志强,谢志强,张超,缪爱思,傅凯。埃博拉病毒与社交媒体。Lancet 2014 Dec 20;384(9961):2207。(CrossRef] [Medline
  38. 雷泽D,甘乃迪R,金G,维斯皮纳尼A.大数据。谷歌流感的寓言:大数据分析中的陷阱。Science 2014年3月14日;343(6176):1203-1205。(CrossRef] [Medline
  39. 黄军,金勇,张建军。电子烟在重点人群中的作用:戒烟和控烟政策。中华预防医学杂志,2016;50(2):199-209。(CrossRef] [Medline
  40. 陈建军,陈建军,陈建军。中国初高中学生烟草使用状况研究——中国烟草研究,2011-2014。发病率与死亡率周报2014年11月14日;63(45):1021-1026 [j]免费全文
  41. Mitchell T.机器学习。纽约:麦格劳-希尔出版社;1997.
  42. 李建军,李建军。基于统计学习的数据挖掘、推理和预测。纽约:斯普林格出版社;2009.
  43. 卡普罗D,科尔K, Echavarría MI,乔J, Neogi T,特纳AM。在公共卫生实践和研究中使用社交网站:系统回顾。中国医学杂志,2014;16(3):e79 [J]免费全文] [CrossRef] [Medline
  44. 朱凯,薛杜A,华伦t。电子烟在线营销:多站点、多产品比较。JMIR公共卫生监测2015年9月11日;1(2):11 [j]免费全文] [CrossRef


API:应用程序接口
食品药品监督管理局:美国食品药品监督管理局
高清:密度最高
HPD:最高后验密度
国家卫生研究院:美国国立卫生研究院
净现值:负预测值


G·艾森巴赫编辑;提交21.05.15;朱克红、陈安、张宁等同行评议;对作者18.10.15的评论;修订版本收到09.12.15;接受04.01.16;发表26.02.16

版权

©Yoonsang Kim, Jidong Huang, Sherry Emery。原发表于医学互联网研究杂志(//www.mybigtv.com), 2016年2月26日。

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map