发表在gydF4y2Ba在gydF4y2Ba24卷gydF4y2Ba,第一名gydF4y2Ba(2022)gydF4y2Ba: 1月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/28749gydF4y2Ba,首次出版gydF4y2Ba。gydF4y2Ba
公共卫生监测中机器学习的众包:从亚马逊机械土耳其学到的经验教训gydF4y2Ba

公共卫生监测中机器学习的众包:从亚马逊机械土耳其学到的经验教训gydF4y2Ba

公共卫生监测中机器学习的众包:从亚马逊机械土耳其学到的经验教训gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba美国马萨诸塞州波士顿哈佛大学哈佛医学院生物医学信息系gydF4y2Ba

2gydF4y2Ba数据智能健康实验室,卡尔加里大学卡明医学院,卡尔加里,AB,加拿大gydF4y2Ba

3.gydF4y2Ba加拿大公共卫生署监测和应用研究中心,渥太华,加拿大gydF4y2Ba

4gydF4y2Ba卡尔加里大学卡明医学院社区卫生科学系,加拿大卡尔加里gydF4y2Ba

5gydF4y2Ba卡尔加里大学卡明医学院心脏科学系,卡尔加里,AB,加拿大gydF4y2Ba

通讯作者:gydF4y2Ba

Joon Lee博士gydF4y2Ba

健康实验室数据智能gydF4y2Ba

卡明医学院gydF4y2Ba

卡尔加里大学gydF4y2Ba

3280医院NW医生gydF4y2Ba

卡尔加里,AB, T2N 4Z6gydF4y2Ba

加拿大gydF4y2Ba

电话:1 403 220 2968gydF4y2Ba

电子邮件:gydF4y2Bajoonwu.lee@ucalgary.cagydF4y2Ba


背景:gydF4y2BaAmazon Mechanical Turk (AMT)等众包服务允许研究人员利用广大网络用户的集体智慧来完成劳动密集型任务。由于数据量大、周转时间短,很难对收集结果的质量进行人工验证,因此,关于这些资源用于开发数字公共卫生系统的可靠性,仍有许多问题有待探索。gydF4y2Ba

摘要目的:gydF4y2Ba本研究旨在探索和评估大众外包的应用,特别是AMT在开发数字公共卫生监测系统中的应用。gydF4y2Ba

方法:gydF4y2Ba我们收集了98,722条推文的296,166个群体生成标签,由610名AMT工作人员标记,以开发机器学习(ML)模型,用于检测推特用户中与身体活动、久坐行为和睡眠质量相关的行为。为了推断基础真值标签并探索这些标签的质量,我们研究了4种统计共识方法,这些方法与任务特征无关,只关注工人标记行为。此外,为了建模与每个标记任务相关的元信息,并利用上下文敏感数据在真相推断过程中的潜力,我们开发了7个ML模型,包括传统分类器(离线和主动)、基于深度学习的分类模型和混合卷积神经网络模型。gydF4y2Ba

结果:gydF4y2Ba尽管大多数基于众包的公共卫生研究经常将多数投票与质量等同起来,但我们使用9000条人工标记推文的事实集进行的研究结果表明,基于共识的推理模型掩盖了数据中潜在的不确定性,并忽略了任务元信息的重要性。我们对3种身体活动、久坐行为和睡眠质量数据集的评估表明,真相推断是一个上下文敏感的过程,本文研究的方法在预测真相标签方面没有一种方法始终优于其他方法。我们还发现,在人群标记数据上训练的ML模型的性能对这些标签的质量很敏感,而质量差的标签会导致对这些模型的错误评估。最后,我们提出了一套实用的建议,以提高众包数据的质量和可靠性。gydF4y2Ba

结论:gydF4y2Ba我们的研究结果表明,在开发用于决策目的(如公共卫生监测决策)的ML模型时,群体生成标签的质量非常重要。本研究中概述和分析的推理模型组合可用于定量测量和提高训练ML模型的人群生成标签的质量。gydF4y2Ba

中国医学信息学报;2009;31 (1):888 - 888gydF4y2Ba

doi: 10.2196/28749gydF4y2Ba

关键字gydF4y2Ba



背景gydF4y2Ba

近年来,社交媒体数据被广泛应用于公共卫生的不同领域[gydF4y2Ba1gydF4y2Ba-gydF4y2Ba3.gydF4y2Ba],例如发现疾病爆发和新出现的疾病[gydF4y2Ba4gydF4y2Ba,gydF4y2Ba5gydF4y2Ba],监测药物不良反应[gydF4y2Ba6gydF4y2Ba],并预测或模拟与健康相关的行为和结果[gydF4y2Ba7gydF4y2Ba-gydF4y2Ba9gydF4y2Ba].自2011年以来,Twitter一直是用于公共卫生交流的最流行的社交媒体形式[gydF4y2Ba10gydF4y2Ba,gydF4y2Ba11gydF4y2Ba].2020年,仅Twitter就报告了1.45亿日活跃用户每天产生的5亿条推文。最近对755篇关于数字公共卫生监测的文章进行的范围审查表明,Twitter是所有平台中研究最多的,也是研究传染病、行为风险因素、心理健康、药物使用和疫苗最多的平台[gydF4y2Ba11gydF4y2Ba].除了社交媒体数据的固有局限性,例如缺乏人口统计数据和有偏见的人群,当与人工神经网络等复杂的数据驱动模型相结合时,这些可公开获取的资源可用于人口层面的监测,以更快、成本更低的纵向信息补充传统的公共卫生监测(例如调查)。gydF4y2Ba

尽管语言标注对于开发机器学习(ML)和自然语言处理(NLP)模型至关重要,但由于其高成本和劳动密集型的性质,大量数据的手动标注是一个臭名昭著的问题。近年来,这个问题已经通过众包技术得到解决,例如亚马逊土耳其机械(AMT) [gydF4y2Ba12gydF4y2Ba]、Crowdflower [gydF4y2Ba13gydF4y2Ba],以及多产的学者[gydF4y2Ba13gydF4y2Ba,从而更快速、更容易地获得成本相对较低的标签数据。AMT是一项由亚马逊运营的软件服务,它允许用户将工作众包给大量的工人,这些工人被分成被称为HIT(人类智能任务)的微任务,每完成一个HIT就会得到补偿。众包在公共卫生领域的巨大潜在应用[gydF4y2Ba14gydF4y2Ba-gydF4y2Ba16gydF4y2Ba在过去的10年里,研究界看到了AMT使用的稳步增长。在PubMed中使用该搜索词索引的研究的数量gydF4y2Ba亚马逊土耳其机器人gydF4y2Ba和gydF4y2Ba公共卫生gydF4y2Ba从2015年的42项研究急剧增加到2019年的118项研究。gydF4y2Ba

然而,由于AMT工作人员的素质不确定,他们的专业知识未知,他们的标签有时不可靠,迫使研究人员和从业者进行冗余的信息收集,这给该领域带来了新的挑战。考虑到在大规模的众包任务中,相同的工作人员不能标记所有的例子,衡量注释者之间的一致性和管理工人的质量与内部专家团队的工作人员不同。尽管AMT在公共卫生研究中越来越受欢迎,但这项服务的可靠性和有效性尚未得到调查。至少有几项公共卫生研究在没有外部金标准比较的情况下使用AMT来训练数据驱动的ML模型[gydF4y2Ba17gydF4y2Ba-gydF4y2Ba21gydF4y2Ba].Ayers等[gydF4y2Ba17gydF4y2Ba使用AMT创建了一个黄金标准数据集,用于开发预测模型,以检测社交媒体上的电子尼古丁输送系统。Yin等[gydF4y2Ba18gydF4y2Ba]开发了一个可扩展的分类器,根据AMT工作人员生成的黄金标准数据集,检测Twitter上提到的个人健康情况。在这项研究中,人群标签数据集的可靠性是基于工人之间的协议来衡量的。gydF4y2Ba

同样,为了使用Twitter来描述睡眠质量,McIver等[gydF4y2Ba19gydF4y2Ba]使用AMT对文本数据进行情感注释,并使用注释者间协议来评估工作者的可靠性。Reece等[gydF4y2Ba20.gydF4y2Ba]利用AMT建立了一个数据集,并开发了一个预测模型,以检测Twitter用户中抑郁症的出现和创伤后应激障碍。为了控制所收集数据的质量,他们要求工作人员至少完成了100项任务,并且满意率至少为95%。尽管研究支持使用声誉来评估众包数据质量的有效性[gydF4y2Ba22gydF4y2Ba],在开发基于ml的数字公共卫生系统中使用该指标的可靠性尚未得到调查。因此,在本研究中,除了定义AMT工作人员的资格要求外,我们还研究了在公共卫生监测背景下开发ML模型的人群生成训练数据的可靠性。我们使用AMT收集了98,722条独特推文的296,166个标签,由610名AMT工作人员标记,以开发可以检测Twitter用户的身体活动,久坐行为和睡眠质量(PASS)的ML模型。gydF4y2Ba

目标gydF4y2Ba

本研究的主要目的是通过分析群体生成标签的质量来评估AMT在训练数据驱动的机器学习模型中的应用。无论所研究的任务类型如何,群体生成标签的质量对于基于这些标签训练的机器学习模型的鲁棒性至关重要,因此我们创建了一个标签的金标准数据集,并应用了几个统计和基于ML的模型,从不同的角度(例如,过程、设计和推理)评估使用群体标记任务的可靠性。为了解释我们的质量评估结果,并探索噪声标签对处理这些标签的推理模型适用性的影响,我们的方法包括评估4种共识方法的性能,这些方法在其真值推断中不涉及任务特征,并探索它们在提高人群标记数据质量方面的可行性。由于这些方法纯粹被建模为与标记任务有关的工作人员行为的函数,因此它们无法在推理决策中利用上下文敏感信息(即任务的元信息)的价值。因此,我们为我们的标签数据集收集了额外的特征,并开发了7个ML模型,包括一个深度学习(DL)模型和一个混合卷积神经网络(CNN)架构,用于在推断真值标签时将工人行为与任务的元信息结合起来。为了检测和纠正有噪声的标签,我们还开发了5个基于池的主动学习器,以迭代地检测信息最多的样本(即具有更多不确定性的样本)并将其从验证集中删除。最后,我们使用了SHAP (Shapley Additive explanation) [gydF4y2Ba23gydF4y2Ba探索不同的特征,包括工人行为和上下文敏感特征,对我们的监督推理模型结果的贡献。gydF4y2Ba


标签gydF4y2Ba

这些众包任务被AMT称为hit,旨在根据自我报告和最近的PASS经验两种条件收集5个标签,以开发可以检测Twitter用户PASS相关行为的二元和多类分类模型。根据每个条件的值,将多类预测模型的标签定义为11、10、01和00(图S1)gydF4y2Ba多媒体附录1gydF4y2Ba).我们还让员工选择第五个选项,叫做gydF4y2Ba不清楚gydF4y2Ba,以确保他们不会随意给自己没有信心成功完成的任务贴上标签(gydF4y2Ba图1gydF4y2Ba).我们在推理和分类任务中都排除了这个标签。如果两个条件都满足,则将二进制标签定义为1,否则定义为0。二元标签不是直接来自AMT工人,而是通过对收集到的标签进行二分类生成的。gydF4y2Ba

‎gydF4y2Ba
图1所示。久坐行为的样本标记任务(即人类智力任务[HIT])。每个HIT包含4个问题(第1部分),每个问题询问所呈现的tweet是否是自我报告的身体活动,久坐行为或与睡眠质量相关的行为(第2部分)。第四个问题是一个简单的资格问题,用于检查工作人员的质量(第3部分)。gydF4y2Ba
查看此图gydF4y2Ba

众包的工作流gydF4y2Ba

我们实现了一个管道来创建hit,将它们发布到AMT上,通过质量检查过程收集标签,批准或拒绝hit,并存储结果。为了最大限度地减少噪音和低质量的数据,我们在任务中添加了资格要求,并授予那些在跨AMT执行广泛hit(即硕士资格)方面表现出高度成功的工人标签访问权。此外,我们在每个HIT中添加了一个简单的资格问题,以检测垃圾邮件发送者或不负责任的工作人员。每个HIT包含4个问题,包括资格问题,分配给3名工人(gydF4y2Ba图1gydF4y2Ba图S2和图S3gydF4y2Ba多媒体附录1gydF4y2Ba).工作人员被要求在每条推文中选择一个选项,在审批过程中,没有或多于一个标签的点击被拒绝。通过不同的数据标注迭代,工人在完成每个HIT后获得从0.03美元到0.05美元不等的报酬。从2019年4月到2020年6月,我们通过不同的迭代收集了本研究中使用的98,722条推文的标签。我们定期检查提交任务的质量,以在每次迭代中检测低质量的工作人员,并撤销他们对我们任务的访问权。在正式启动流程之前,我们通过两次不同的迭代对hit的设计、响应时间和复杂性进行了试点测试,并相应地修改了工作流程。在数据标注任务中,我们没有收集工作人员(参与者)的任何个人身份信息。实验按照相关指南和卡尔加里大学联合学院研究伦理委员会的规定进行。我们在Python中实现了整个工作流程,并使用Boto3 Python软件开发工具包连接并使用AMT。gydF4y2Ba

数据收集gydF4y2Ba

我们使用Twitter直播应用程序编程接口(API)从Twitter收集了2018年11月28日至2020年6月30日期间的数据。数据集经过过滤,只包括与PASS相关的加拿大推文。使用与PASS类别相关的关键字和正则表达式,从22,729,110条加拿大推文中共选择了103,911条推文。这103,911条推文中的每一条都由3名AMT工作人员标记,其中98,722条推文收到了3个有效标签,其中几乎一半与体育活动有关。gydF4y2Ba

年龄和性别等人口统计变量以及每条推文的来源信息(例如,组织与真实用户)在从Twitter收集的数据集中不可用。我们使用Python中的M3推理包估算了每条推文的这些变量[gydF4y2Ba24gydF4y2Ba],它使用多模态深度神经架构对社交媒体数据的年龄、性别和信息源进行联合分类。文本(tweet)字段和每个白天、工作日和月份变量都是从Twitter API提供的元数据中提取的。gydF4y2Ba

我们已经公开了本研究中使用的Twitter数据集[gydF4y2Ba25gydF4y2Ba].gydF4y2Ba

数据处理gydF4y2Ba

tweet有一个坐标边界框,可以将其空间映射到各自的城市位置。由于Twitter API以协调世界时返回datetime值,因此我们使用Python中的时区查找器并根据其空间数据调整每条tweet的时间。考虑到白天、月份和工作日可能是twitter关于每个PASS类别的影响因素,并且为了更好地使用日期时间数据(%a %b %d %H: %M: %S %Y),我们提取了a:工作日、b:月份和H:小时字段,并将它们作为单独的特征存储。gydF4y2Ba

我们通过删除所有特殊字符(例如,#,&和@),标点符号,网页链接和数字来清理文本列。我们还用非收缩形式代替了常见的收缩形式;例如,gydF4y2Ba我将gydF4y2Ba被分解为gydF4y2Ba我将gydF4y2Ba。在开发和评估我们的NLP模型时,我们注意到删除停止词、词干提取和将文本转换为小写字母对预测模型性能的影响并不明显。这可能与迁移学习技术(即GloVe嵌入)在未见数据上进行泛化的能力有关。因此,我们既没有对数据集的文本特征应用停止词删除,也没有应用词法清理。此外,由于hashtag和emojis可以作为独立的单词使用,便于情感表达,所以我们在清理过程中没有将其移除。gydF4y2Ba

为了开发机器学习模型,使用one-hot编码将所有分类数据编码为虚拟变量,并且由于我们只批准具有完整答案的hit,因此该数据集不包含任何缺失数据。gydF4y2Ba

标签的一致性gydF4y2Ba

为了衡量工人给出的答案的一致性,我们计算了标签一致性(LC)作为每个PASS类别收集到的标签的平均熵[gydF4y2Ba26gydF4y2Ba].对于每条推文gydF4y2BatgydF4y2Ba我gydF4y2Ba∈gydF4y2BaTgydF4y2Ba年代gydF4y2Ba,在那里gydF4y2BaTgydF4y2Ba年代gydF4y2Ba表示与监控类别相关的所有tweet的集合gydF4y2Ba年代gydF4y2Ba∈{身体活动、睡眠质量、久坐行为},gydF4y2BangydF4y2BaijgydF4y2Ba定义给出的答案的个数gydF4y2BajgydF4y2BathgydF4y2Ba选择(gydF4y2BajgydF4y2Ba∈{1,2,3,4,5},因为每个tweet有5个选择)。我们计算gydF4y2Ba信用证gydF4y2Ba年代gydF4y2Ba如下:gydF4y2Ba

s|表示监视类别的大小gydF4y2Ba年代gydF4y2Ba并且,当我们为每条tweet收集3个标签时,熵公式中的分母得到一个常数值3。gydF4y2Ba信用证gydF4y2Ba范围从0到1,接近1的值表明工人的输入更加一致。gydF4y2Ba

地面真实数据集gydF4y2Ba

为了研究无监督推理模型在从人群标记数据预测真值标签方面的可行性,并将其与监督预测模型进行比较,我们使用数据集的随机样本作为基础真值集(即9000条推文:4000条推文用于体育活动,3000条推文用于睡眠质量,2000条推文用于久坐行为)。总共有6名数据科学家手动标记了该样本,整个标记数据集由ML和公共卫生监测方面经验丰富的内部领域专家手动审查并重新标记。人工检查该数据集与人群标记数据集之间的差异,以排除任何可能影响本研究结果的标记偏差。gydF4y2Ba

推理模型gydF4y2Ba

多数投票(MV)方法根据不同工人提交的大多数标签来估计实际的地面真相。例如,将估计的标签定义为gydF4y2Ba,以及工人提交的标签gydF4y2BawgydF4y2Ba作为gydF4y2BalgydF4y2BawgydF4y2Ba,对于二值标记任务,MV方法将1赋值给gydF4y2Ba如果gydF4y2Ba否则是0。尽管来自不同背景和不同素质水平的工人个体的可靠性有所不同,但MV方法假设工人之间的专业知识是平等的,并且没有模拟工人的行为[gydF4y2Ba27gydF4y2Ba].由于这种方法是完全独立于任务的,它在推理过程中不涉及任务属性;因此,它是快的。gydF4y2Ba

大卫和斯基恩(DS) [gydF4y2Ba28gydF4y2Ba方法使用期望最大化(EM)来同时估计注释器(工作器)和潜在标签类的错误率,当与MV类似,基本事实是未知的,并且假设工作器独立操作时。与MV不同,它与工人行为无关,DS通过创建混淆矩阵将工人k的行为建模为每个任务真实标签的函数gydF4y2BaπgydF4y2BakgydF4y2Ba与大小gydF4y2BalgydF4y2Ba×gydF4y2BalgydF4y2Ba,在那里gydF4y2BalgydF4y2Ba是一个固定的数字,表示单个标签分类任务的可能标签数。DS定义工人gydF4y2BakgydF4y2Ba错误率gydF4y2Ba如下:gydF4y2Ba

由于并非所有工作人员都需要标记所有任务,而且工作人员可能会多次标记同一任务,因此在使用DS方法进行大规模标记任务时,稀疏性可能是一个问题[gydF4y2Ba27gydF4y2Ba].DS根据工人的质量迭代估计每个任务的真实标签,并根据推断的标签估计工人的错误率(质量),直到收敛。虽然特定工人的混淆矩阵生成每个工人的质量分数,但它可能不足以衡量每个工人的实际贡献[gydF4y2Ba29gydF4y2Ba].任务的固有复杂性,特别是在NLP中,或者工作者的偏见可能导致错误的标签,尽管工作者在数量上是准确的。gydF4y2Ba

标签、能力和困难的生成模型(GLAD) [gydF4y2Ba30.gydF4y2Ba]使用参数将工人的素质作为输入任务的函数进行建模gydF4y2BaαgydF4y2Ba。质量参数的范围从-∞到+∞,表示工人总是分别错误或正确地标记任务。当gydF4y2BaαgydF4y2Ba=0时,工作人员无法区分标签,并且他们的输入对任务的正确标签没有贡献。为了估计地面真相,除了工人的素质外,GLAD还模拟了任务的难度gydF4y2BatgydF4y2Ba我gydF4y2Ba作为gydF4y2BadgydF4y2Ba我gydF4y2Ba= 1 /gydF4y2BaβgydF4y2Ba我gydF4y2Ba,在那里gydF4y2BaβgydF4y2Ba我gydF4y2Ba> 0。难度指数取值范围为0 ~∞,其中gydF4y2BadgydF4y2Ba我gydF4y2Ba=∞分类gydF4y2BatgydF4y2Ba我gydF4y2Ba作为最艰巨的任务,和gydF4y2BadgydF4y2Ba我gydF4y2Ba=0表示任务总是接收到正确的标签,即使来自具有gydF4y2BaαgydF4y2Ba≤0。GLAD使用EM方法获得的最大似然估计gydF4y2BaαgydF4y2Ba和gydF4y2BaβgydF4y2Ba的概率模型gydF4y2BakgydF4y2Ba正确的标签gydF4y2BatgydF4y2Ba我gydF4y2Ba使用gydF4y2Ba。gydF4y2Ba

与DS类似,Raykar算法(RY) [gydF4y2Ba31gydF4y2Ba]形成了一个混淆矩阵来模拟工人的素质。此外,在二元分类的情况下,它使用beta先验来模拟工人对积极类(即敏感性)和消极类(即特异性)的偏见[gydF4y2Ba27gydF4y2Ba].在这种情况下,工人偏见通常发生在工人低估或高估任务的真实性时[gydF4y2Ba26gydF4y2Ba].与DS和GLAD一样,RY使用无监督的EM方法来估计每个模型参数和真值标签。根据任务特定特征的可用性,RY可以使用自动监督分类器或返回到无监督EM模型来估计真值标签。gydF4y2Ba

预测模型gydF4y2Ba

由于与每个任务相关的元信息可能会揭示其潜在的复杂性,从而有助于建模工作人员的行为,因此我们开发了一组ML模型来将这些元数据纳入推理过程。模型基于五元组进行训练gydF4y2BaFgydF4y2Ba:(gydF4y2BaWgydF4y2Ba,gydF4y2Ba我gydF4y2Ba,gydF4y2Ba米gydF4y2Ba,gydF4y2BatgydF4y2Ba,gydF4y2BalgydF4y2Ba),gydF4y2BaWgydF4y2Ba= {gydF4y2BawgydF4y2Ba1gydF4y2Ba、……gydF4y2BawgydF4y2BakgydF4y2Ba}表示从AMT工人收集的标签,gydF4y2Ba我gydF4y2Ba= {gydF4y2BaMVgydF4y2Ba,gydF4y2BaDSgydF4y2Ba,gydF4y2Ba变化中gydF4y2Ba,gydF4y2Ba很高兴gydF4y2Ba}表示推理模型的结果gydF4y2Ba米gydF4y2Ba表示与每个tweet相关的元数据,包括时间(即工作日、月份和白天)、性别、年龄组和tweet的来源(即组织与真实的人)。每条推文的文本由gydF4y2BatgydF4y2Ba,gydF4y2BalgydF4y2Ba表示真值标签。gydF4y2Ba

为了降低由特定学习算法引起的偏倚结果的风险并克服过拟合问题,我们开发并评估了5种具有不同架构的标准ML分类器,包括广义线性(逻辑回归[LR])、基于核(支持向量机[SVM])、基于决策树(随机森林和XGBoost)和基于样本(k近邻[KNN])分类器。此外,为了将文本特征整合到我们的分析中,我们开发了一种混合深度学习架构,其中基于长短期记忆(LSTM)的CNN学习文本数据gydF4y2BatgydF4y2Ba多层感知器深度神经网络学习元数据gydF4y2Ba(W, J,米)gydF4y2Ba。清洗后的文本,表示为整数编码的向量,使用GloVe[]将其转换为预训练的tweet词嵌入。gydF4y2Ba32gydF4y2Ba](包含20亿条推文,270亿个令牌,120万个词汇表)。该层的输出通过LSTM层进行序列建模,然后是1个dropout层以避免过拟合和2个密集的ReLU (Rectified Linear Unit,整流线性单元)层。同时,每条tweet的元数据通过ReLU激活通过3个完全连接的层传递。这些网络的输出被连接到一个密集层,然后是2个完全连接的密集层,在带有softmax激活、交叉熵损失和adam优化器的输出层终止。该体系结构的高级表示见gydF4y2Ba图2gydF4y2Ba。gydF4y2Ba

‎gydF4y2Ba
图2。用于使用文本信息和元信息预测标签的深度学习模型的管道。LSTM:长短期记忆。gydF4y2Ba
查看此图gydF4y2Ba

为了对抗类不平衡造成的偏差,对于多类和二元分类任务,我们使用了类权重方法,通过给少数类分配更高的权重,给多数类分配更低的权重,将每个类的权重纳入成本函数。我们还使用了SMOTE(合成少数派过采样技术-名义连续)[gydF4y2Ba33gydF4y2Ba]方法通过基于少数类的特征空间创建合成样本来对其进行过采样。然而,我们没有注意到使用和不使用合成少数过采样技术之间的太大差异。因此,我们的最终模型是使用类权方法训练的。每种方法的超参数都是通过嵌套的10倍交叉验证贝叶斯优化来确定的[gydF4y2Ba34gydF4y2Ba].gydF4y2Ba

由于有监督和无监督标签推理模型的主要目标都是尽量减少假阴性和假阳性推理的数量,为了评估本研究中开发的模型,我们使用了精度,召回率,F1和曲线下精确召回面积(AUC)gydF4y2Ba公关gydF4y2Ba)指标。gydF4y2Ba

所有计算和预测模型均使用Python 3.7和TensorFlow 2.0实现[gydF4y2Ba35gydF4y2Ba], Keras [gydF4y2Ba36gydF4y2Ba]和Scikit-learn [gydF4y2Ba37gydF4y2Ba)库。为了便于我们研究的复制,本研究的代码库在GitHub上公开提供[gydF4y2Ba38gydF4y2Ba].gydF4y2Ba


来自AMT工人的原始标签gydF4y2Ba

总共有610个独特的工人参与了我们的数据标注任务,完成了103,911个HITs,其中5189个因为没有收到3个有效答案而被删除。批准进一步分析任务98722项。大多数工人(530/610,86.9%)完成了<100个HIT,其中164个只完成了1个HIT。在完成超过5000次点击的工人中,1名工人完成了21,801次点击,3名工人完成了5000至10,000次点击(gydF4y2Ba图3gydF4y2Ba).计算gydF4y2Ba信用证gydF4y2Ba对于多类标记的每个PASS类别分别为0.54、0.58和0.55,对于二元标记的PASS类别分别为0.75、0.77和0.74 (gydF4y2Ba表1gydF4y2Ba).这意味着高度的标签不一致性,促使需要进一步对ML模型的开发进行标签质量分析。gydF4y2Ba

‎gydF4y2Ba
图3。完成不同数量的人工智能任务(hit)的工作人员数量。大多数工人完成了相对较少的hit。gydF4y2Ba
查看此图gydF4y2Ba
表1。收集的标签和标签一致性(LC)评分的详细信息,包括每个身体活动、睡眠质量和久坐行为类别。LC的取值范围为0 ~ 1,接近1的值表明工人的投入更加一致。gydF4y2Ba
类型gydF4y2Ba 推文,n (%)gydF4y2Ba 信用证gydF4y2Ba多gydF4y2Ba 信用证gydF4y2Ba二进制gydF4y2Ba 工人,n (%)gydF4y2Ba
体育活动gydF4y2Ba 48576 (49.2)gydF4y2Ba 0.54gydF4y2Ba 0.75gydF4y2Ba 232 (38)gydF4y2Ba
久坐行为gydF4y2Ba 17367 (17.6)gydF4y2Ba 0.55gydF4y2Ba 0.74gydF4y2Ba 157 (25.7)gydF4y2Ba
睡眠质量gydF4y2Ba 32779 (33.2)gydF4y2Ba 0.58gydF4y2Ba 0.77gydF4y2Ba 221 (36.2)gydF4y2Ba
总计gydF4y2Ba 98722 (100)gydF4y2Ba 0.56gydF4y2Ba 0.75gydF4y2Ba 610 (100)gydF4y2Ba

事实推理gydF4y2Ba

表2gydF4y2Ba描述用于训练真值推理模型的9000条tweet的基础真值数据集。gydF4y2Ba表3gydF4y2Ba列出了4个无监督模型和7个有监督预测模型(包括2个DL模型)在ground truth数据集上得到的推理结果。每个模型都在每个PASS类别的数据集的二进制和多类版本上进行评估。在体力活动和睡眠质量的无监督模型中,DS和RY在所有性能指标上都优于MV和GLAD,而MV在睡眠质量数据集上优于其他模型。有趣的是,对于跨所有PASS类别的二元推理,MV的表现优于或表现与其他方法一样好,这表明任务复杂性对推理方法性能的影响。gydF4y2Ba

戴斯。莱纳姆:gydF4y2Ba元gydF4y2Ba在多类分类任务中,以最小的误报次数(精确度:78%)优于其他方法,但其他方法在召回率、F1和AUC方面表现更好gydF4y2Ba公关gydF4y2Ba指标。在每个PASS数据集上进行二进制分类的性能并没有突出任何一个方法总是表现最好。例如,SVM在体力活动方面表现最好,而KNN和LR分别在睡眠质量和久坐行为方面优于其他模型。LR在多类推理任务的所有数据集上都取得了卓越的性能。为了进一步分析这一点,我们修改了中提出的LR算法的超参数gydF4y2Ba表3gydF4y2Ba到随机平均梯度求解器和gydF4y2BalgydF4y2Ba2gydF4y2Ba正则化和优化混合神经网络对随机梯度下降和重复的比较。LR在所有指标上仍然比神经网络模型高出2%以上。本研究中神经网络表现不佳的原因可能是数据(每类)与模型参数的比例不平衡(即高方差)。gydF4y2Ba

表2。用于开发和评估有监督和无监督推理模型的真实数据集的特征。gydF4y2Ba
变量gydF4y2Ba 身体活动(n=4000)gydF4y2Ba 久坐行为(n=2000)gydF4y2Ba 睡眠质量(n=3000)gydF4y2Ba
标签,n (%)gydF4y2Ba

二进制gydF4y2Ba


是的gydF4y2Ba 1629 (40.73)gydF4y2Ba 726 (36.3)gydF4y2Ba 1063 (35.43)gydF4y2Ba


没有gydF4y2Ba 2371 (59.28)gydF4y2Ba 1274 (63.7)gydF4y2Ba 1937 (64.57)gydF4y2Ba

多级gydF4y2Ba


YYgydF4y2Ba一个gydF4y2Ba 1629 (40.73)gydF4y2Ba 726 (36.3)gydF4y2Ba 1063 (35.43)gydF4y2Ba


YNgydF4y2BabgydF4y2Ba 550 (13.75)gydF4y2Ba 395 (19.75)gydF4y2Ba 862 (28.73)gydF4y2Ba


纽约gydF4y2BacgydF4y2Ba 179 (4.48)gydF4y2Ba 19日(0.95)gydF4y2Ba 52 (1.73)gydF4y2Ba


神经网络gydF4y2BadgydF4y2Ba 1642 (41.05)gydF4y2Ba 860 (43)gydF4y2Ba 1023 (34.1)gydF4y2Ba
性别,n (%)gydF4y2Ba

女gydF4y2Ba 1131 (28.28)gydF4y2Ba 576 (28.80)gydF4y2Ba 469 (15.63)gydF4y2Ba

男性gydF4y2Ba 1980 (49.50)gydF4y2Ba 906 (45.30)gydF4y2Ba 490 (16.34)gydF4y2Ba

未知的gydF4y2Ba 889 (22.22)gydF4y2Ba 518 (25.90)gydF4y2Ba 2041 (68.03)gydF4y2Ba
年龄范围gydF4y2Ba(年),n (%)gydF4y2Ba

≤18gydF4y2Ba 204 (5.10)gydF4y2Ba 170 (8.50)gydF4y2Ba 150 (5)gydF4y2Ba

19-29gydF4y2Ba 743 (18.58)gydF4y2Ba 475 (23.75)gydF4y2Ba 331 (11.03)gydF4y2Ba

- 39gydF4y2Ba 897 (22.42)gydF4y2Ba 365 (18.25)gydF4y2Ba 249 (8.30)gydF4y2Ba

≥40gydF4y2Ba 1267 (31.68)gydF4y2Ba 472 (23.60)gydF4y2Ba 229 (7.64)gydF4y2Ba

未知的gydF4y2Ba 889 (22.22)gydF4y2Ba 518 (25.90)gydF4y2Ba 2041 (68.03)gydF4y2Ba
星期几,n (%)gydF4y2Ba

周日gydF4y2Ba 664 (16.60)gydF4y2Ba 325 (16.25)gydF4y2Ba 440 (14.66)gydF4y2Ba

周一gydF4y2Ba 595 (14.88)gydF4y2Ba 307 (15.35)gydF4y2Ba 440 (14.66)gydF4y2Ba

周二gydF4y2Ba 493 (12.32)gydF4y2Ba 245 (12.25)gydF4y2Ba 435 (14.50)gydF4y2Ba

周三gydF4y2Ba 504 (12.60)gydF4y2Ba 278 (13.9)gydF4y2Ba ) 393 (13.10)gydF4y2Ba

周四gydF4y2Ba 525 (13.12)gydF4y2Ba 270 (13.50)gydF4y2Ba 416 (13.86)gydF4y2Ba

星期五gydF4y2Ba 531 (13.28)gydF4y2Ba 274 (13.70)gydF4y2Ba 421 (14.03)gydF4y2Ba

周六gydF4y2Ba 668 (16.70)gydF4y2Ba 283 (14.15)gydF4y2Ba 2433 (14.43)gydF4y2Ba

未知的gydF4y2Ba 20 (0.50)gydF4y2Ba 18 (0.90)gydF4y2Ba 22日(0.76)gydF4y2Ba
时间(24小时),Q1-Q3gydF4y2Ba 10 - 19gydF4y2Ba 10 - 19gydF4y2Ba 5日至18日期间召开gydF4y2Ba
月(范围)gydF4y2Ba 二月至七月gydF4y2Ba 四月至九月gydF4y2Ba 一月至八月gydF4y2Ba
来源,n (%)gydF4y2Ba

组织gydF4y2Ba 563 (14.08)gydF4y2Ba 179 (8.95)gydF4y2Ba 97 (3.23)gydF4y2Ba

用户gydF4y2Ba 3437 (85.93)gydF4y2Ba 1821 (91.05)gydF4y2Ba 2903 (96.77)gydF4y2Ba

一个gydF4y2BaYY:自我报告和最近的身体活动、久坐行为和睡眠质量体验。gydF4y2Ba

bgydF4y2BaYN:自我报告但不包括最近的身体活动、久坐行为和睡眠质量体验。gydF4y2Ba

cgydF4y2BaNY:不是自我报告,而是最近的身体活动、久坐行为和睡眠质量体验。gydF4y2Ba

dgydF4y2Ba尼文·尼文:既没有自我报告,也没有最近的身体活动、久坐行为和睡眠质量体验。gydF4y2Ba

表3。使用9000个标记tweet的真实数据集的真实干扰方法的性能:4000个身体活动,2000个久坐行为和3000个睡眠质量tweet。每个PASS(身体活动、久坐行为和睡眠质量)类别的前4行代表应用无监督真值推理模型的结果。gydF4y2Ba
推文和方法gydF4y2Ba 精度(%)gydF4y2Ba 回忆(%)gydF4y2Ba F1 (%)gydF4y2Ba AUCgydF4y2Ba公关gydF4y2Ba一个gydF4y2Ba(%)gydF4y2Ba

多级gydF4y2Ba 二进制gydF4y2Ba 多级gydF4y2Ba 二进制gydF4y2Ba 多级gydF4y2Ba 二进制gydF4y2Ba 多级gydF4y2Ba 二进制gydF4y2Ba
体育活动gydF4y2Ba

MVgydF4y2BabgydF4y2Ba 72gydF4y2Ba 85gydF4y2Ba 70gydF4y2Ba 85gydF4y2BacgydF4y2Ba 71gydF4y2Ba 84gydF4y2Ba 56gydF4y2Ba 85gydF4y2Ba

DSgydF4y2BadgydF4y2Ba 74gydF4y2Ba 85gydF4y2Ba 68gydF4y2Ba 85gydF4y2Ba 70gydF4y2Ba 84gydF4y2Ba 54gydF4y2Ba 85gydF4y2Ba

很高兴gydF4y2BaegydF4y2Ba 73gydF4y2Ba 84gydF4y2Ba 70gydF4y2Ba 84gydF4y2Ba 71gydF4y2Ba 83gydF4y2Ba 57gydF4y2Ba 84gydF4y2Ba

变化中gydF4y2BafgydF4y2Ba 74gydF4y2Ba 85gydF4y2Ba 68gydF4y2Ba 85gydF4y2Ba 70gydF4y2Ba 84gydF4y2Ba 54gydF4y2Ba 84gydF4y2Ba

LRgydF4y2BaggydF4y2Ba 74gydF4y2Ba 85gydF4y2Ba 75gydF4y2Ba 85gydF4y2Ba 74gydF4y2Ba 85gydF4y2Ba 61gydF4y2Ba 87gydF4y2Ba

然而,gydF4y2BahgydF4y2Ba 74gydF4y2Ba 85gydF4y2Ba 74gydF4y2Ba 85gydF4y2Ba 73gydF4y2Ba 84gydF4y2Ba 60gydF4y2Ba 88gydF4y2Ba

支持向量机gydF4y2Ba我gydF4y2Ba 72gydF4y2Ba 86gydF4y2Ba 73gydF4y2Ba 85gydF4y2Ba 73gydF4y2Ba 85gydF4y2Ba 61gydF4y2Ba 88gydF4y2Ba

射频gydF4y2BajgydF4y2Ba 73gydF4y2Ba 85gydF4y2Ba 74gydF4y2Ba 84gydF4y2Ba 73gydF4y2Ba 85gydF4y2Ba 60gydF4y2Ba 87gydF4y2Ba

XGBoostgydF4y2Ba 72gydF4y2Ba 81gydF4y2Ba 72gydF4y2Ba 81gydF4y2Ba 71gydF4y2Ba 81gydF4y2Ba 58gydF4y2Ba 83gydF4y2Ba

戴斯。莱纳姆:gydF4y2Ba元gydF4y2BakgydF4y2Ba 79gydF4y2Ba 84gydF4y2Ba 68gydF4y2Ba 84gydF4y2Ba 73gydF4y2Ba 84gydF4y2Ba 60gydF4y2Ba 78gydF4y2Ba

戴斯。莱纳姆:gydF4y2Batext_and_metagydF4y2Ba 78gydF4y2Ba 84gydF4y2Ba 70gydF4y2Ba 84gydF4y2Ba 73gydF4y2Ba 84gydF4y2Ba 60gydF4y2Ba 78gydF4y2Ba
久坐行为gydF4y2Ba

MVgydF4y2Ba 71gydF4y2Ba 82gydF4y2Ba 68gydF4y2Ba 82gydF4y2Ba 68gydF4y2Ba 82gydF4y2Ba 54gydF4y2Ba 80gydF4y2Ba

DSgydF4y2Ba 70gydF4y2Ba 81gydF4y2Ba 62gydF4y2Ba 81gydF4y2Ba 65gydF4y2Ba 81gydF4y2Ba 48gydF4y2Ba 79gydF4y2Ba

很高兴gydF4y2Ba 71gydF4y2Ba 79gydF4y2Ba 68gydF4y2Ba 79gydF4y2Ba 68gydF4y2Ba 79gydF4y2Ba 54gydF4y2Ba 77gydF4y2Ba

变化中gydF4y2Ba 70gydF4y2Ba 81gydF4y2Ba 62gydF4y2Ba 81gydF4y2Ba 65gydF4y2Ba 81gydF4y2Ba 48gydF4y2Ba 79gydF4y2Ba

LRgydF4y2Ba 72gydF4y2Ba 83gydF4y2Ba 72gydF4y2Ba 83gydF4y2Ba 70gydF4y2Ba 83gydF4y2Ba 58gydF4y2Ba 81gydF4y2Ba

然而,gydF4y2Ba 71gydF4y2Ba 82gydF4y2Ba 71gydF4y2Ba 82gydF4y2Ba 67gydF4y2Ba 82gydF4y2Ba 56gydF4y2Ba 80gydF4y2Ba

支持向量机gydF4y2Ba 73gydF4y2Ba 83gydF4y2Ba 72gydF4y2Ba 83gydF4y2Ba 70gydF4y2Ba 83gydF4y2Ba 58gydF4y2Ba 81gydF4y2Ba

射频gydF4y2Ba 72gydF4y2Ba 83gydF4y2Ba 72gydF4y2Ba 82gydF4y2Ba 69gydF4y2Ba 83gydF4y2Ba 57gydF4y2Ba 81gydF4y2Ba

XGBoostgydF4y2Ba 68gydF4y2Ba 82gydF4y2Ba 69gydF4y2Ba 82gydF4y2Ba 67gydF4y2Ba 82gydF4y2Ba 54gydF4y2Ba 80gydF4y2Ba

戴斯。莱纳姆:gydF4y2Ba元gydF4y2Ba 78gydF4y2Ba 80gydF4y2Ba 65gydF4y2Ba 80gydF4y2Ba 71gydF4y2Ba 80gydF4y2Ba 56gydF4y2Ba 73gydF4y2Ba

戴斯。莱纳姆:gydF4y2Ba文本/元gydF4y2Ba 78gydF4y2Ba 80gydF4y2Ba 65gydF4y2Ba 80gydF4y2Ba 71gydF4y2Ba 80gydF4y2Ba 56gydF4y2Ba 75gydF4y2Ba
睡眠质量gydF4y2Ba

MVgydF4y2Ba 78gydF4y2Ba 89gydF4y2Ba 74gydF4y2Ba 89gydF4y2Ba 75gydF4y2Ba 89gydF4y2Ba 61gydF4y2Ba 87gydF4y2Ba

DSgydF4y2Ba 80gydF4y2Ba 89gydF4y2Ba 74gydF4y2Ba 89gydF4y2Ba 77gydF4y2Ba 89gydF4y2Ba 62gydF4y2Ba 87gydF4y2Ba

很高兴gydF4y2Ba 79gydF4y2Ba 85gydF4y2Ba 75gydF4y2Ba 85gydF4y2Ba 76gydF4y2Ba 85gydF4y2Ba 62gydF4y2Ba 82gydF4y2Ba

变化中gydF4y2Ba 80gydF4y2Ba 89gydF4y2Ba 74gydF4y2Ba 89gydF4y2Ba 76gydF4y2Ba 89gydF4y2Ba 62gydF4y2Ba 87gydF4y2Ba

LRgydF4y2Ba 76gydF4y2Ba 88gydF4y2Ba 77gydF4y2Ba 87gydF4y2Ba 77gydF4y2Ba 88gydF4y2Ba 64gydF4y2Ba 88gydF4y2Ba

然而,gydF4y2Ba 76gydF4y2Ba 89gydF4y2Ba 77gydF4y2Ba 89gydF4y2Ba 77gydF4y2Ba 89gydF4y2Ba 63gydF4y2Ba 89gydF4y2Ba

支持向量机gydF4y2Ba 76gydF4y2Ba 88gydF4y2Ba 77gydF4y2Ba 88gydF4y2Ba 77gydF4y2Ba 88gydF4y2Ba 64gydF4y2Ba 88gydF4y2Ba

射频gydF4y2Ba 75gydF4y2Ba 89gydF4y2Ba 76gydF4y2Ba 89gydF4y2Ba 76gydF4y2Ba 89gydF4y2Ba 63gydF4y2Ba 89gydF4y2Ba

XGBoostgydF4y2Ba 72gydF4y2Ba 87gydF4y2Ba 72gydF4y2Ba 89gydF4y2Ba 72gydF4y2Ba 87gydF4y2Ba 58gydF4y2Ba 87gydF4y2Ba

戴斯。莱纳姆:gydF4y2Ba元gydF4y2Ba 82gydF4y2Ba 86gydF4y2Ba 72gydF4y2Ba 86gydF4y2Ba 76gydF4y2Ba 86gydF4y2Ba 63gydF4y2Ba 81gydF4y2Ba

戴斯。莱纳姆:gydF4y2Ba文本/元gydF4y2Ba 80gydF4y2Ba 87gydF4y2Ba 72gydF4y2Ba 87gydF4y2Ba 76gydF4y2Ba 87gydF4y2Ba 65gydF4y2Ba 82gydF4y2Ba

一个gydF4y2BaAUCgydF4y2Ba公关gydF4y2Ba:曲线下的精确召回面积。gydF4y2Ba

bgydF4y2BaMV:多数投票。gydF4y2Ba

cgydF4y2Ba斜体表示指标和每个PASS(身体活动、久坐行为和睡眠质量)类别的最佳表现。gydF4y2Ba

dgydF4y2Ba大卫和斯基恩。gydF4y2Ba

egydF4y2BaGLAD:标签、能力和困难的生成模型。gydF4y2Ba

fgydF4y2BaRY: Raykar算法。gydF4y2Ba

ggydF4y2BaLR:逻辑回归。gydF4y2Ba

hgydF4y2Bak近邻。gydF4y2Ba

我gydF4y2BaSVM:支持向量机。gydF4y2Ba

jgydF4y2Ba随机森林。gydF4y2Ba

kgydF4y2BaDL:深度学习。gydF4y2Ba

在所有数据集中,监督模型始终比无监督方法表现得更好。这突出了在训练监督模型时用作元信息的上下文敏感信息的价值。然而,对于睡眠质量,一个与身体活动和久坐行为数据集具有相同特征和复杂程度的数据集,MV似乎足以用于二元推理任务,监督模型提供很少或没有改进。gydF4y2Ba

混合CNN架构在无监督推理模型或监督预测模型(即LR、KNN、SVM、RF、XGBoost和DL)上都没有提供任何增益gydF4y2Ba元gydF4y2Ba),而且在某些方面表现不如他们。由于标记不佳的任务和文本特征之间的不一致,LSTM流可能无法捕获特征的潜在动态。gydF4y2Ba

主动学习gydF4y2Ba

为了进一步探索纠正错标样本的可行性,我们使用了基于池的主动学习[gydF4y2Ba39gydF4y2Ba不确定度抽样。基于池的主动学习假设只有一小部分数据被标记,而大量数据仍然需要通过迭代学习过程进行标记。池中的所有样本都是基于信息性度量进行查询的,这提高了学习者的辨别能力[gydF4y2Ba40gydF4y2Ba].在本研究中,我们的学习器被建模来查询最矛盾和不确定的样本。例如,对于二元标签推理任务,其中的样本gydF4y2BapgydF4y2Ba(gydF4y2Ba=gydF4y2BalgydF4y2Ba|gydF4y2BafgydF4y2Ba)≈0.5是信息量最大的样本,可以通过不同的迭代帮助检测数据集的错误标记样本。我们使用了5种不同架构的基础学习器(即RF、LR、KNN、SVM和XGBoost),批处理大小为5,并通过100次迭代查询未标记池。gydF4y2Ba

我们的研究结果表明,在学习过程中,分类器的准确率总体上有所提高,在一些迭代中略有下降,在KNN的迭代60和其他分类器的迭代20左右稳定(gydF4y2Ba图4gydF4y2Ba).虽然本研究中的主动学习者可以通过自我学习过程提高其预测能力,但他们未能纠正错误标记的样本,并且稳定在低于前面讨论的离线学习者的表现分数(gydF4y2Ba表3gydF4y2Ba).gydF4y2Ba

‎gydF4y2Ba
图4。使用基于池的主动学习增加分类精度。KNN: k近邻;LR:逻辑回归;RF:随机森林;SVM:支持向量机;XGB: XGBoost。gydF4y2Ba
查看此图gydF4y2Ba

实用的建议gydF4y2Ba

在本节的开头,我们提出了一些关于在开发基于ml的公共卫生监测系统时具体使用AMT和一般使用众包的实用建议和指南。即使假设更先进的人工智能模型,包括一般范围数据集的预训练模型和迁移学习技术,可以应对群体生成标签的低质量,本研究提供的指导方针仍然可以改进群体标记以及标签推理过程的实现,设计和资格。这些指导方针得到了前面描述的结果以及本节其余部分讨论的发现和进一步分析的支持。gydF4y2Ba

首先,虽然AMT员工的人口统计数据无法获得,但我们仍然可以以一种容纳更大多样性员工的方式实施众包流程。纵向标记过程,而不是一次性标记,使研究人员能够随着时间的推移监测收集数据的质量,并减轻垃圾邮件发送者、不负责任的工作人员和有偏见或容易出错的工作人员的影响。其次,AMT工作人员的整体素质可能是上下文敏感的,并根据标签任务的类型而变化。例如,工人在睡眠质量数据集中的任务背景下的熟悉程度,与身体活动和久坐行为概念的广泛背景形成对比,导致更高的数据质量。研究人员还应该了解排除率(例如,5189/103,911,本研究中为4.99%),并在规划研究预算和设计时需要考虑到这一点。第三,我们的研究结果表明,不考虑任务特征的基于共识的推理模型可能并不总是有效地集成众包标签,从而对ML模型的性能产生负面影响。第四,除了筛选众包参与者的资格要求外,健全和说明性的指导是提高数据质量的一种不太直接的方式。在这个项目的过程中,我们收到了近70封来自AMT工作人员的电子邮件,其中大部分都询问了说明书中提到的场景。这意味着指令改变了他们对任务的默认理解,从而提高了标签的质量。最后,当使用资格问题控制工人的质量时,我们建议不要告诉工人正在使用这种技术,因为他们可能会根据问题的简单性猜测问题。gydF4y2Ba

重要发现gydF4y2Ba

标签不确定度信息丢失gydF4y2Ba

尽管在本研究中开发了所有的替代模型来提高推理精度,但工人和真值标签之间仍然存在相当大的差异。这些分歧可能归因于数据中潜在的不确定性。虽然通过从更多的工人那里收集更多的标签来减少不确定性可能会简化标签推理的过程,但它限制了ML模型对数据固有不确定性建模的学习能力,并阻止它们从推理过程中早期犯的错误中恢复过来[gydF4y2Ba41gydF4y2Ba].gydF4y2Ba

推理模型的鲁棒性gydF4y2Ba

我们从推理结果中观察到,无论分类任务的类型如何,11种方法都没有在所有数据集上优于其他方法(gydF4y2Ba表3gydF4y2Ba).这表明推理方法对数据集特征很敏感。例如,所有方法在睡眠质量数据集上的表现都优于身体活动和久坐行为数据集,这表明这些模型对任务上下文的鲁棒性较低。gydF4y2Ba

任务特性的重要性gydF4y2Ba

与需要大量标记数据来整合人群生成标签的监督模型相比,使用无监督推理模型简单直接。然而,这种简单性是以抛弃任务的上下文特征为代价获得的,这可能会牺牲上下文敏感场景中的质量。例如,推特在一天中发布的时间可以帮助决定它与身体活动或睡眠质量的相关性。这些特征在多类推理任务中的重要性远比在二元任务(gydF4y2Ba表3gydF4y2Ba),这表明在推断具有高度不确定性的任务的真值标签时需要更复杂的模型。gydF4y2Ba

资格要求的有效性gydF4y2Ba

在这项研究中,我们使用了两个层次的质量控制:(1)通过任务分配过程,只接受具有硕士资格的工人;(2)通过设计和实施任务,在我们的HITs中添加资格问题,并根据工人对该问题的回答迭代观察他们的表现。我们的研究结果表明,尽管定义这些要求在很大程度上提高了众包生成标签的质量,但无论其上下文或复杂程度如何,三名工作者分别有12.45%(493 /4000)、13.3%(266/2000)和7.7%(231/3000)的身体活动、久坐行为和睡眠质量推文仍然被错误标记,这表明需要进一步对众包数据进行质量评估。这些错误标记的样本并没有因为样本的不确定性或难度而被错误分类,我们进一步的分析表明,它们没有足够的信息量(即预测分数)来通过主动学习的迭代过程来提高预测模型的性能(图S4)gydF4y2Ba多媒体附录1gydF4y2Ba).考虑到大规模众包任务中(工人和任务)矩阵的稀疏性,区分不负责任的工人并消除其影响是一项具有挑战性的任务,在基于人群标记数据训练ML模型时应仔细考虑。图5中提供了所有PASS类别的低质量标签的示例列表gydF4y2Ba多媒体附录1gydF4y2Ba。gydF4y2Ba

群体生成标签对预测模型性能的影响gydF4y2Ba

为了进一步研究使用众包开发ML模型的可靠性,我们使用了来自变压器的双向编码器表示[gydF4y2Ba42gydF4y2Ba(即bert-base-uncase);一个基于变压器的模型,有12层,768个隐藏单元,12个头;和1.1亿个参数作为DL模型的上下文输入,使用我们的二元真理标签和人群生成标签对4000条体育活动推文进行分类。我们将SVM推断的标签用于人群生成的标签,因为它在身体活动数据集上优于其他模型(gydF4y2Ba表3gydF4y2Ba).有趣的是,在我们的真实数据集上训练的模型在所有性能指标上都比人群标记的数据集要好至少8%(例如,人群标记的AUC)gydF4y2Ba公关gydF4y2Ba的72%;expert-labeled: AUCgydF4y2Ba公关gydF4y2Ba的82%)。这表明,在开发用于决策目的(如公共卫生监测决策)的ML模型时,群体生成标签的质量非常重要。gydF4y2Ba

标签预测说明gydF4y2Ba

为了根据每个特征对预测结果的单独贡献来解释我们的预测模型的结果,我们使用了SHAP [gydF4y2Ba23gydF4y2Ba,gydF4y2Ba43gydF4y2Ba].SHAP计算数据集的每个样本的局部特征重要性,而不是全局特征重要性,这降低了其他特征重要性技术中与不一致问题相关的风险。gydF4y2Ba图5gydF4y2BaA说明了使用XGBoost对使用SHAP随机选择的体育活动数据集样本进行预测的解释。红色箭头表示导致预测增加的特征,蓝色箭头表示导致预测减少的特征。每个箭头的宽度表示其撞击的高度。从这个例子中,我们可以看到gydF4y2BalgydF4y2Ba1gydF4y2Ba=1和白天=7pm对预测标签的积极影响最大,而gydF4y2BalgydF4y2Ba2gydF4y2Ba=0和年龄≥40的负向影响最大。gydF4y2Ba

‎gydF4y2Ba
图5。在预测真相标签时,每个元信息对XGBoost的估计影响。年龄是以年为单位的。D&S:大卫和斯基恩;GLAD:标签、能力和困难的生成模型;LFC:从人群学习(Raykar算法);Shapley: Shapley加法解释。gydF4y2Ba
查看此图gydF4y2Ba

我们进一步利用shaely值基于样本的解释相似性对数据集进行聚类,使用分层聚类(gydF4y2Ba图5gydF4y2BaB).从图中可以看出,众包标签是对我们数据集中的样本进行分组的最具影响力的特征。该图中突出显示的区域显示了具有相似力图的样本,这意味着这些特征在整个体力活动数据集中的主导和相似贡献。gydF4y2Ba

利用Shapley值的可加性,我们综合了每个数据点的所有局部特征值,并计算了全局贡献(gydF4y2Ba我gydF4y2Ba)。考虑gydF4y2Ba为特征的Shapley值gydF4y2BajgydF4y2Ba为样本gydF4y2Ba我gydF4y2Ba,我们可以计算出该特征的全局重要性为gydF4y2Ba。gydF4y2Ba图5gydF4y2BaC表示最具影响力的特征的特征重要性(y轴)和特征效果(彩色点)的组合,并根据其重要性排序。该图显示众包标签(gydF4y2BalgydF4y2Ba1gydF4y2Ba,我gydF4y2Ba2gydF4y2Ba,gydF4y2Ba和gydF4y2BalgydF4y2Ba3.gydF4y2Ba),然后是gydF4y2Ba白天gydF4y2Ba,结果的gydF4y2Ba推理模型gydF4y2Ba,gydF4y2Ba性别gydF4y2Ba对XGBoost决策的影响最大。从这些结果(可扩展到本研究中开发的其他预测模型)可以推断,无论预测模型的复杂性和架构如何,人群生成标签是影响预测模型预测的最大因素。虽然元信息如gydF4y2Ba白天gydF4y2Ba和gydF4y2Ba性别gydF4y2Ba是最重要的特征之一(gydF4y2Ba图5gydF4y2BaC),在大多数样品中,它们仍然无法与大众生成的标签竞争。这可以解释我们的ML和DL模型对数据集的噪声标签的脆弱性。gydF4y2Ba

为了对众包标签的主导影响进行三角测量,我们排除了以下所有样本gydF4y2Ba或者从我们的数据集中进行监督和非监督技术的测试,并获得了FgydF4y2Ba1gydF4y2Ba分数约为99%。这意味着推断众包数据的真实标签高度依赖于从人群中收集的数据的质量,即使是先进和复杂的预测模型也可能无法弥补这些数据质量的低下。gydF4y2Ba

限制gydF4y2Ba

这项研究有几个局限性。首先,支付给工作人员的报酬会影响收集到的标签的质量,从而影响本研究的评价结果。工人可能会表现出更高的素质来换取更高的报酬。为了调查这一点,在项目过程中,我们将HITs的奖励从0.03美元增加到0.05美元,并没有发现质量有任何显著变化。然而,这仍有争议,需要进一步调查。gydF4y2Ba

其次,为了开发监督模型,我们假设所有的任务都具有相同的复杂程度,然而在现实中,有些例子比其他例子更困难。例如,把“我睡不着”归为自我报告的睡眠问题,比把“我有点羡慕那些能在凌晨两点前入睡的人”归为“我睡不着”要直接得多。我们试图通过开发混合CNN模型,将固有的任务困难纳入预测模型来解决这个问题。然而,群体生成的标签主导了我们数据集的其他特征,这对他们的推理决策有最大的影响。建立对任务复杂性敏感的众包模型,将更多的资源(工人)分配给更困难的任务,是未来值得研究的方向。gydF4y2Ba

第三,我们在AMT上设计和呈现hit的方式可能会以各种方式影响员工的表现。考虑到人在实现众包服务效益最大化方面的核心作用,在设计众包任务时应考虑人的因素[gydF4y2Ba41gydF4y2Ba].为了解决这个问题,我们为每个任务添加了简洁、精确和演示性的说明,并使用说明性示例解释了每个标签(例如,图6)gydF4y2Ba多媒体附录1gydF4y2Ba).此外,通过不同的数据收集迭代,我们调整了设计、表示和指令,以确保我们满足任务设计和表示的基本可用性要求。gydF4y2Ba

第四,我们仅根据工人在整个AMT中完成hit的历史表现(即硕士资格)来定义工人的资格。虽然这对收集到的标签提供了一定程度的质量控制,但其他资格要求,如工人的教育程度、工作背景和语言,也可能影响我们的研究结果。为了进一步研究资格过滤的作用,我们对4500个体育活动任务进行了无资格要求的标注过程试点测试。这些任务在不到12小时内完成,一致性评分(gydF4y2Ba信用证gydF4y2Ba) <0.5,这意味着工人素质在开发群体标签智能系统中的重要性。gydF4y2Ba

第五,各种身体活动,根据其代谢当量(METs)的能量需求,可以分为不同的运动行为,如轻度(1.6-2.9 METs),中度(3-5.9 METs)和剧烈(≥6 METs)[5]。gydF4y2Ba44gydF4y2Ba].然而,由于社交媒体数据提供的细节可能不足以计算MET值,因此在本研究中,我们仅使用与身体活动相关的一般术语(例如,身体健康,锻炼,家庭,体育或职业活动)来过滤并形成身体活动子集。除了特定领域的本体和WordNet之外,确保过滤所有PASS类别的上下文术语列表足够全面[gydF4y2Ba45gydF4y2Ba],我们使用NLP技术(例如,主题建模、语言建模和词法分析)来检测潜在的单词模式,这些模式可用于识别非结构化文本中与pass相关的上下文。然而,在不影响本研究方法和结果的情况下,在讨论本研究使用的数据集时,应考虑数据收集和人口偏差(社交媒体数据固有的)。gydF4y2Ba

尽管存在这些限制,但我们的研究是第一个严格调查使用众包开发基于ml的公共卫生监测系统所面临的挑战的研究之一。我们的研究结果支持这样一种观点,即众包尽管成本低、周转时间短,但产生的数据比内部标签更嘈杂。另一方面,众包可以通过涉及更多不同的注释者来减少注释偏差[gydF4y2Ba41gydF4y2Ba].这种多样性得到了AMT工作人员多样性的支持[gydF4y2Ba46gydF4y2Ba],对主观标记任务非常有益,例如根据短文本检测久坐行为,这在很大程度上取决于工作者对久坐生活方式的理解。gydF4y2Ba

这项研究的结果可能会启发未来的研究,以调查和评估众包在开发基于ml的数字公共卫生监测系统中的应用,这些系统已部署并用于国家监测决策。由于基于机器学习的数字公共卫生监测的成功潜力依赖于稳健和可靠的数据集,因此需要对基于机器学习的监测模型检测到的与健康相关的事件进行敏感性分析,以确定这一潜力。此外,为了评估我们的结论是否对参与者的背景和专业知识敏感,需要使用熟悉所研究的公共卫生背景的一组专家进行进一步调查。同样,为了理清任务上下文的影响和乌鸦生成标签的质量,复制本研究中采用的方法,使用其他领域,包括其他公共卫生领域,仍然是未来的工作。最后,由于群体生成标签的质量有可能受到补偿金额的影响,并与参与者群体的社会经济特征相混淆,因此需要在未来的调查中考虑这些因素来校准本研究的结果。gydF4y2Ba

致谢gydF4y2Ba

这项工作得到了加拿大卡尔加里大学利宾心血管研究所和卡明医学院博士后奖学金的支持。这项工作也得到了加拿大自然科学与工程研究委员会的发现基金(RGPIN-2014-04743)的支持。加拿大公共卫生署资助了亚马逊土耳其机器人的费用。本研究的资助者在研究设计、数据收集和分析、结果解释和手稿准备中没有任何作用。gydF4y2Ba

作者的贡献gydF4y2Ba

ZSHA负责数据收集和整理、模型开发、数据分析和可视化,并撰写论文。GPB和WT审阅了论文并提出了意见。JL构思和设计了这项研究,并修改了手稿。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba
多媒体附录1gydF4y2Ba

更多详细描述亚马逊土耳其机械标签任务、预测模型性能和错误标记推文的图表。gydF4y2Ba

PDF档案(adobepdf档案),1434kbgydF4y2Ba

  1. 马夫拉格尼。信息流行病学与信息监测:范围综述。[J]中国医学信息学报,2020,28;22(4):e16206 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  2. Aiello AE, Renson A, Zivich PN。基于社交媒体和互联网的公共卫生疾病监测。公共卫生年度报告2020年4月02日;41(1):101-118 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. Sinnenberg L, Buttenheim AM, Padrez K, Mancheno C, Ungar L, Merchant RM。推特作为健康研究的工具:系统回顾。中华卫生杂志,2017,31(1):81 - 81。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  4. Bernardo TM, Rajic A, Young I, Robiadek K, Pham MT, Funk JA。对疾病监测的搜索查询和社交媒体的范围审查:创新年表。医学互联网研究,2013;18;15(7):e147 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  5. Hossain L, Kam D, Kong F, Wigand RT, Bossomaier T.埃博拉疫情中的社交媒体。中华流行病学杂志,2016;44(10):2136-2143。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. 刘建军,刘建军,刘建军,等。社交媒体中药物不良反应的识别和提取:范围综述。医学互联网研究,2015;17(7):e171 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. 胡华,潘宁,春萨,盖勒杰,吴华,叶霞,等。基于自学深度学习的Twitter吸毒风险行为洞察分析与检测计算机Soc网2019 Nov 06;6(1):10。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  8. 卡瓦洛DN, Tate DF, Ries AV, Brown JD, devlis RF, Ammerman AS。基于社交媒体的体育活动干预:一项随机对照试验。中华预防医学杂志;2012;43(5):527-532 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  9. 李建军,张建军,张建军,等。社会化媒体干预对精准公共卫生的影响。中华数字医学杂志2018年9月19日;1(1):1-4 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. 刘建军,刘建军。医疗保健领域的大数据分析:前景与潜力。卫生信息科学系统2014年2月7日;2(1):3 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. Shakeri Hossein Abad Z, Kline A, Sultana M, Noaeen M, Nurmambetova E, Lucini F,等。数字公共卫生监测:系统的范围审查。中华医学杂志[j]; 2013;4(1):41 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. Paolacci G, Chandler J, Ipeirotis P.在Amazon Mechanical Turk上运行实验。十二月法官2010;5(5):1-9 [gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  13. [j] . Peer E, brandmarte L, Samat S, Acquisti A.超越土耳其人:众包行为研究的替代平台。][J]心理学报,2017;30(3):563 - 568。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  14. Brabham DC, Ribisl KM, Kirchner TR, Bernhardt JM。公共卫生众包应用。中华预防医学杂志,2014;46(2):179-187。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  15. Kim SJ, Marsch LA, Hancock JT, Das AK。通过社交媒体大数据扩大对药物滥用和成瘾的研究。医学互联网研究,2017 Oct 31;19(10):e353 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. 卢伟,古廷达A, Elbel B, Kiszko K, Abrams C, Kirchner TR.基于Amazon Mechanical Turk的食品采购收据标注众包的可行性研究。医学互联网研究,2019年04月05日;21(4):e12047 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. Ayers JW, Leas EC, Allem J, Benton A, Dredze M, Althouse BM,等。为什么人们使用电子尼古丁输送系统(电子烟)?2012-2015年Twitter内容分析PLoS One 2017年3月1日;12(3):e0170702 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  18. Yin Z, Fabbri D, Rosenbloom ST, Malin B.一个可扩展的框架来检测Twitter上的个人健康提及。医学互联网研究2015年06月05日;17(6):e138 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  19. mcciver DJ, Hawkins JB, Chunara R, Chatterjee AK, Bhandari A, Fitzgerald TP,等。用Twitter描述睡眠问题。医学互联网研究2015年06月08日;17(6):e140 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  20. 李建军,李建军,李建军,李建军,李建军,李建军。利用Twitter数据预测精神疾病的发病和病程。科学通报2017;7(1):13006 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. Adrover C, Bodnar T, Huang Z, Telenti A, salath M.使用Twitter识别HIV药物治疗的不良反应和相关情绪。中华医学会公共卫生监测2015年7月27日;1(2):e7 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  22. Peer E, Vosgerau J, Acquisti a . Amazon Mechanical Turk数据质量的充分条件行为研究2013年12月20日;46(4):1023-1031。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  23. 一种解释模型预测的统一方法——神经信息处理系统的进展。见:第三十一届神经信息处理系统会议论文集(NIPS 2017)。发表于:第31届神经信息处理系统会议(NIPS 2017);2017;长滩,CA, USA第4765-4774页gydF4y2Bahttps://proceedings.neurips.cc/paper/2017/file/8a20a8621978632d76c43dfd28b67767-Paper.pdfgydF4y2Ba
  24. 王忠,Hale S, Adelani D, Grabowicz P, Hartman T, Flöck F等。多语言社交媒体数据的人口统计推断和代表性人口估计。在:WWW '19:网络会议;2019年5月13日至17日;旧金山CA USA第2056-2067页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  25. Shakeri Hossein Abad Z, Butler GP, Thompson W, Lee J. Twitter上的身体活动、久坐行为和睡眠:用于公共卫生监测研究的多国完全标记数据集。JMIR预印本。预印本于2021年7月23日在线发布[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  26. 郑Y,李,李Y,山C,程在众包r .事实推论:问题解决了吗?[j] .计算机工程学报,2017,10(5):541-552。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  27. Sheshadri A, Lease M. Square:计算群体共识研究的基准。发表于:第一届AAAI人类计算与众包会议;2013年11月7日至9日;棕榈泉,加州,美国第156-164页gydF4y2Bahttps://ojs.aaai.org/index.php/HCOMP/article/view/13088gydF4y2Ba
  28. david AP, Skene AM。基于EM算法的观测器错误率的最大似然估计。苹果统计1979;28(1):20。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  29. 王军,王军,王军,王军。亚马逊土耳其机械的质量管理。2010:第16届ACM SIGKDD知识发现与数据挖掘国际会议;2010年7月25日;华盛顿特区第64-67页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  30. 刘建军,吴涛,刘建军,等。基于多专业知识的标签优化整合研究。发表于:第23届神经信息处理系统年会上;2009年12月7日至10日;加拿大不列颠哥伦比亚省温哥华,第2035-2043页gydF4y2Bahttps://papers.nips.cc/paper/2009/hash/f899139df5e1059396431415e770c6dd-Abstract.htmlgydF4y2Ba
  31. Raykar V, Yu S, Zhao L, Valadez G, Florin C, Bogoni L,等。从人群中学习。数学学报,2010;11(11):1297-1322 [J]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  32. 彭宁顿J, Socher R, Manning C. Glove:基于全局向量的词表示。参见:2014年自然语言处理(EMNLP)经验方法会议论文集。2014年发表于:自然语言处理(EMNLP)经验方法会议;2014年10月;卡塔尔多哈1532-1543页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  33. Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP。SMOTE:合成少数派过采样技术。[J]人工智能研究,2002;01;16:31 -357。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  34. 史诺克J, Larochelle H, Adams R.实用贝叶斯优化机器学习算法。见:Proceedings of the Advances In Neural Information Processing Systems 25 (NIPS 2012)。2012发表于:Advances in Neural Information Processing Systems 25 (NIPS 2012);2012年12月3日至6日;太浩湖,内华达州,美国第2951-2959页gydF4y2Bahttps://proceedings.neurips.cc/paper/2012/hash/05311655a15b75fab86956663e1819cd-Abstract.htmlgydF4y2Ba
  35. Abadi M, Barham P, Chen J, Chen Z, Davis A, Dean J,等。TensorFlow:用于大规模机器学习的系统。2016年第12届USENIX操作系统设计与实现会议论文集发表于:第12届USENIX操作系统设计与实现会议;2016年11月2日- 4日;萨凡纳GA USA第265-283页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  36. Chollet F. Keras: python深度学习库。天体物理源代码库。2018。URL:gydF4y2Bahttps://ui.adsabs.harvard.edu/abs/2018ascl.soft06022C/abstractgydF4y2Ba[2021-12-11]访问gydF4y2Ba
  37. Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O,等。Scikit-learn: python中的机器学习。数学学报,2011;12(10):2825-2830 [J]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  38. CrowdSourcing-for-Digital-Public-Health-Surveillance。GitHub。URL:gydF4y2Bahttps://github.com/data-intelligence-for-health-lab/CrowdSourcing-for-Digital-Public-Health-SurveillancegydF4y2Ba[2021-12-16]访问gydF4y2Ba
  39. 李建军,李建军。一种基于序列算法的文本分类器训练方法。伦敦,英国:斯普林格出版社;1994:3-12。gydF4y2Ba
  40. Laws F, Scheible C, sch tze H.基于Amazon Mechanical Turk的主动学习。2011年在自然语言处理经验方法会议上发表;2011年7月;爱丁堡,苏格兰,英国第1546-1556页gydF4y2Bahttps://aclanthology.org/D11-1143/gydF4y2Ba
  41. 关于众包中的质量控制和机器学习。计算机学报,2011;11(11):1-6 [j]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
  42. Devlin J, Chang M, Lee K, Toutanova K. Bert:基于深度双向变换的语言理解预训练。出来了。2018.URL:gydF4y2Bahttps://arxiv.org/abs/1810.04805gydF4y2Ba[2021-12-11]访问gydF4y2Ba
  43. Lundberg SM, Erion G, Chen H, DeGrave A, Prutkin JM, Nair B,等。从局部解释到全球理解,树木的可解释人工智能。Nat Mach intel 2020, 1月17日;2(1):56-67 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  44. Caspersen CJ, Powell KE, Christenson GM.身体活动、运动和身体健康:健康相关研究的定义和区别。公共卫生报告1985;100(2):126-131 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  45. 米勒GA。一个英语词汇数据库。通讯ACM 1995年11月;38(11):39-41。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  46. 李建军,李建军,李建军,等。土耳其机械工人的人口统计学特征。在:WSDM 2018:第十一届ACM网络搜索和数据挖掘国际会议;2018年2月5日- 9日;Marina Del Rey CA USA第135-143页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
AMT:gydF4y2Ba亚马逊土耳其机器人gydF4y2Ba
AUCPR:gydF4y2Ba曲线下的精确召回面积gydF4y2Ba
有线电视新闻网:gydF4y2Ba卷积神经网络gydF4y2Ba
DL:gydF4y2Ba深度学习gydF4y2Ba
DS:gydF4y2Ba大卫和斯基恩gydF4y2Ba
新兴市场:gydF4y2Ba采用gydF4y2Ba
高兴:gydF4y2Ba标签、能力和困难的生成模型gydF4y2Ba
冲击:gydF4y2Ba人类智能任务gydF4y2Ba
资讯:gydF4y2Ba再邻居gydF4y2Ba
LR:gydF4y2Ba逻辑回归gydF4y2Ba
LSTM:gydF4y2Ba长短期记忆gydF4y2Ba
满足:gydF4y2Ba代谢当量gydF4y2Ba
ML:gydF4y2Ba机器学习gydF4y2Ba
MV:gydF4y2Ba多数投票gydF4y2Ba
NLP:gydF4y2Ba自然语言处理gydF4y2Ba
通过:gydF4y2Ba身体活动,久坐行为和睡眠质量gydF4y2Ba
ReLU:gydF4y2Ba线性整流函数gydF4y2Ba
办法:gydF4y2BaRaykar算法gydF4y2Ba
世鹏科技电子:gydF4y2Ba沙普利加法解释gydF4y2Ba
杀:gydF4y2Ba合成少数派过采样技术-标称连续gydF4y2Ba
支持向量机:gydF4y2Ba支持向量机gydF4y2Ba


R库卡夫卡编辑;提交13.03.21;徐R、达斯A同行评议;对作者的评论12.06.21;收到05.07.21修订版本;接受15.11.21;发表18.01.22gydF4y2Ba

版权gydF4y2Ba

©Zahra Shakeri Hossein Abad, Gregory P Butler, Wendy Thompson, Joon Lee。原发表于《医学互联网研究杂志》(//www.mybigtv.com), 2022年1月18日。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba


Baidu
map