这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
糖尿病视网膜病变筛查既有效又经济,但筛查依从性仍不理想。随着筛查的改进,处理筛查数据的新方法可能有助于减少人力资源的需求。众包已经在许多情况下用于利用分布式人类智能来完成小任务,包括图像分类。
我们的目标是开发并验证一种新的眼底照片分级方法。
为亚马逊Mechanical Turk众包平台开发了一个用于眼底照片分类的界面。我们发布了19张专家分级的图片供土耳其人分级,每张照片重复10次,作为最初的概念验证(第一阶段)。土耳其人每张图片获得0.10美元的报酬。在第二阶段,来自四个分级类别的每个原型图像收到500个独特的土耳其人解释。然后使用50次1-50个土耳其人的抽签来估计从随机抽取的人群规模增加的样本中获得的准确性方差,以确定产生有效结果所需的最小土耳其人数量。在第三阶段,对界面进行了修改,试图提高Turker分级。
在第一阶段正常和异常臂的230个分级实例中,187张图像(81.3%)被Turkers正确分类。对每张图像进行分级的平均时间为25秒,其中包括审查训练图像的时间。随着分级类别的增加,每张图像的分级时间增加,正确分级的图像百分比下降。在第二阶段,受试者-操作者特征(ROC)的曲线下面积(AUC)表明,在7级评分后,正常与异常的敏感性和特异性最大化(AUC=0.98),但当turker被要求指定严重程度时,敏感性和特异性显著降低(AUC=0.63)。随着第三阶段界面的改进,四类分类中Turker平均等级的正确分类图像从26.3%(5/19张图像)增加到52.6%(10/19张图像)。在所有试验中,正常与异常的敏感性保持100%。
只需最少的培训,亚马逊土耳其机器人员工就可以快速正确地将糖尿病患者的眼底照片分类为正常或异常,尽管需要进一步改进方法来提高土耳其人对视网膜病变程度的评分。解读图像的总费用为每只眼睛1.10美元。众包可能会提供一种新颖而廉价的方法,以减轻熟练的评分人员的负担,并增加糖尿病视网膜病变的筛查。
由于早期糖尿病视网膜病变(DR)通常是无症状的,在这一阶段的疾病检测要么是偶然的,要么是有意的筛查。DR筛查既有效又具成本效益[
远程保健计划的费用包括眼底照相机、远程保健软件包以及图像采集和解释所需的人力资源。糖尿病视网膜病变筛查的眼底照片判读成本可能很高,因为判读协议是劳动密集型的,而且每位患者需要判读多张图像。计算机化、半自动化的图像分析技术已被开发出来,可能会减少医生的工作量和筛查成本[
Brabham将众包定义为“一种在线的、分布式的解决问题和生产模式,它利用在线社区的集体智慧来服务于特定的组织目标”[
目前的研究以糖尿病视网膜病变为测试条件,探索是否可以使用众包接口来训练工作人员将人类眼底照片分类为正常或异常,并随后对图像进行诊断分级[
为Amazon Mechanical Turk (AMT[]开发了一个用于眼底照片分类的接口。
AMT是一种以声誉为基础的经济,这样土耳其人只有在以前有足够的工作记录时才能获得最理想的HITs。
土耳其人的工作是匿名的,但人口统计研究已经进行过。Ipeirotis在对1000名土耳其人的调查中发现,46.8%的土耳其人位于美国,34%在印度,剩下的19.2%来自其他64个国家[
亚马逊土耳其机器人网页界面的截图,用于眼底照片分级。
对于目前的研究,英国国家筛查计划分级量表[
在研究的第一阶段,这19张图片被发布到AMT上,由Turkers进行评分,每张照片重复10次,用于初步的概念验证。四张照片与第一批照片一起重新发布,重复10次,以评估内部人员的可靠性。土耳其人每张图片获得0.10美元的报酬,10%的佣金支付给亚马逊。为了有资格查看和完成HITs,土耳其人需要成功完成100次HITs,并且HIT的总体通过率达到97%。
在最初的批次中,要求土耳其人将图像分为正常(0)和异常(1)。在随后的批次中,要求土耳其人将相同的19张图像分为三个类别(正常=0,轻度到中度=1,严重=2)和四个类别(正常=0,轻度=1,中度=2,严重=3)。计算分类图像的正确率。计算所有批次的敏感性和特异性,将所有异常类别合并在一起,使用Stata 13进行3类和4类分级任务。根据10个Turker分数的模式,为每张图像分配一个工作者共识等级。在探索性基础上,使用10个Turker评分的平均值计算共识评分。对于两类任务,平均分<0.50为正常,平均分≥0.50为异常。对于三类任务,<0.50定义为正常,≥0.5至<1.5定义为轻度至中度,≥1.5定义为严重。在四类任务中,<0.50定义为正常,≥0.5至<1.5定义为轻度,≥1.5至<2.5定义为中度,≥2.5定义为严重。
第二阶段的目的是双重的。首先,第二阶段试图评估人群的涌现能力,以准确区分不同程度的视网膜病变,基于这样一种想法,即更多的评分者会越来越多地聚集在正确答案周围。其次,第二阶段试图确定并最终确认一个阈值,超过这个阈值,多一个评分者的贡献就不再提供额外的信息。为了实现这一目标,来自四个分级类别的每一个原型图像都被提交给500个独特的土耳其人解释。然后使用折刀重采样方法从500名土耳其人的“总体”中抽取随机子样本,开始是50个2名土耳其人的随机样本,然后是50个3名土耳其人的随机样本,依此类推[
在研究的第三阶段,对19张图像进行了额外的三个迭代批次,以使用四个诊断类别来提高Turker分级。第一批使用之前所有批次的Turker反馈来修改训练图像集。第二批除了修改后的训练图像外,还对土耳其人使用了更严格的标准。至少需要500个完成和批准的HIT,以及99%的整体HIT通过率。第三批是由持有亚马逊“照片审核大师”称号的土耳其人进行的,除了第1批和第2批所做的更改外,他们还将每张照片的补偿提高到0.15美元。实现这一称号所需的标准没有公布,但大师是“在机械土耳其市场上证明了特定类型HITs准确性的精英工人团体。工作人员通过始终如一地在各种请求者中以高度的准确性完成某种类型的HITs来获得大师荣誉”[
威尔斯眼科研究所机构审查委员会裁定这项研究不需要批准。
两名专家评分(OPG, CPS)将12幅图像编码为异常,7幅图像编码为正常(
在第一阶段的两类HITs(正常与异常)中,230个唯一图像的分级实例中,187张(81.3%)的图像被Turkers (
随着第三和第四分类类别的增加,正确分类的图像总数分别下降到64.4%(148/230)和50.9%(117/230)。3类和4类Turkers的特异性和特异性分别为96.3%和66.7%。在Turker共识水平上,三类和四类的敏感性均为100%,三类和四类的特异性分别为71.4%和100%。由于增加了分级标准,分级的速度下降了,有效时薪也是如此。完成三类命中任务的平均时间为51秒,有效时薪为7.08美元。完成四类命中任务的平均时间为55秒,实际时薪为6.60美元(
个别图像的特克分级一个.
图片# | 两分的评级 | Three-category评级 | Four-category评级 | ||||||
|
专家 |
正确的 |
土耳其人 |
专家 |
正确的 |
土耳其人 |
专家 |
正确的 |
土耳其人 |
1 | 也不 | 65 | - - - - - - | 也不 | 90 | - - - - - - | 也不 | 55 | - - - - - - |
2 | Ab | 85 | - - - - - - | M / M | 50 | 塞夫 | 温和的 | 0 | 塞夫 |
3. | 也不 | 70 | - - - - - - | 也不 | 70 | - - - - - - | 也不 | 70 | - - - - - - |
4 | 也不 | 50 | Ab | 也不 | 40 | M / M | 也不 | 60 | - - - - - - |
5 | 也不 | 80 | - - - - - - | 也不 | 70 | - - - - - - | 也不 | 50 | - - - - - - |
6 | Ab | One hundred. | - - - - - - | M / M | 90 | - - - - - - | 温和的 | 20. | 国防部 |
7 | Ab | 90 | - - - - - - | 严重的 | 60 | - - - - - - | 塞夫 | 10 | 国防部 |
8 | 也不 | 50 | Ab | 塞夫 | 40 | M / M | 也不 | 65 | - - - - - - |
9 | Ab | One hundred. | - - - - - - | 塞夫 | 95 | - - - - - - | 塞夫 | One hundred. | - - - - - - |
10 | Ab | One hundred. | - - - - - - | 塞夫 | 40 | M / M | 塞夫 | 70 | - - - - - - |
11 | Ab | 90 | - - - - - - | 塞夫 | 0 | M / M | 塞夫 | 20. | 温和的 |
12 | 也不 | 90 | - - - - - - | 也不 | 80 | - - - - - - | 也不 | 90 | - - - - - - |
13 | Ab | One hundred. | - - - - - - | M / M | 30. | 塞夫 | 国防部 | 20. | 塞夫 |
14 | Ab | 80 | - - - - - - | 塞夫 | 40 | M / M | 塞夫 | 10 | 国防部 |
15 | 也不 | 90 | - - - - - - | 也不 | One hundred. | - - - - - - | 也不 | 90 | - - - - - - |
16 | Ab | 90 | - - - - - - | 塞夫 | 70 | - - - - - - | 塞夫 | 50 | - - - - - - |
17 | Ab | One hundred. | - - - - - - | M / M | 60 | - - - - - - | 温和的 | 10 | 国防部 |
18 | Ab | One hundred. | - - - - - - | M / M | One hundred. | - - - - - - | 国防部 | 95 | - - - - - - |
19 | Ab | 90 | - - - - - - | M / M | 80 | - - - - - - | 温和的 | 20. | 国防部 |
正确的,% | 81.3 | 89.5 |
|
64.4 | 63.2 | 50.9 | 57.9 | ||
灵敏度d, % | 93.6 | 100.0 |
|
96.3 | 100.0 | 96.3 | 100.0 | ||
特异性d, % | 67.8 | 71.4 | 66.7 | 71.4 | 66.7 | 100.0 |
一个和=正常;Ab =异常;M/M=轻度或中度;塞夫=严重;Mod =温和。
b在个别评分者的水平上。
c只有当共识评分与专家评分不同时才会出现。
d按正常水平和任何疾病水平计算。
时间完成评级(以秒为单位)。
两分的评级 | Three-category评级 | Four-category评级 | 四类评分(改进训练) | 四类评级(认可度提高) | 四类评分(硕士生)一个 | |
平均每次点击时间 | 25.16 | 50.87 | 54.52 | 50.98 | 38.79 | 44.14 |
95%可信区间 | 21.93 - -28.38 | 43.18 - -58.55 | 46.15 - -62.88 | 39.66 - -62.30 | 31.65 - -45.93 | 36.00 - -52.27 |
时薪$ | 14.31 | 7.08 | 6.60 | 7.06 | 9.28 | 12.23 |
每张图像的成本,$ | 1.10 | 1.10 | 1.10 | 1.10 | 1.10 | 1.95 |
一个硕士研究生每幅图片收取0.15美元,外加30%的亚马逊佣金,每幅图片的总成本为0.195美元。
II期研究结果同样表明,异常与正常总体评分的敏感性和特异性非常好,产生了高度显著的AUC (0.98;
接收者-操作员特征(ROC)曲线下的面积(AUC),用于增加每个严重级别的原型图像的Turker解释的数量。土耳其人对轻度(A组)和重度图像(C组)的准确性较低,但对中度图像(B组)的准确性可接受。当所有四张图像都仅分析是否存在疾病时,土耳其人表现良好(D组),AUC非常显著。
在第三阶段,由于Turkers在第一阶段将可见的脉络膜血管解释为异常,因此增加了一张正常的训练图像。澄清注释以表明存在单个微动脉瘤被认为是异常的,并且不需要存在硬渗出物来实现中度或重度疾病。增加了放大分级图像的功能。在使用新训练的第一批中,使用共识Turker评分的正确分类图像的百分比并不比以前好:模式分别为42.1%(8/19张图像)对57.9%(11/19张图像),平均为21.1%(4/19张图像)对26.3%(5/19张图像)。在第二批中,采用更严格的Turker选择标准,平均正确分级图像的比例提高到52.6%(10/19张图像)(模式不变)。这一结果在重复运行该批次时得到了证实(数据未显示)。在第三批中,使用“Photo Moderation Masters”,正确分级图像的比例平均下降到36.8%(7/19张图像)(模式不变)。在所有批次中,对任何级别疾病的诊断敏感性保持在100% (
第三阶段的土耳其共识。
数字正确(平均)一个 | 正确率(平均) | 号码正确(模式)一个 | 正确率(模式) | 灵敏度b | 特异性b | |
第一阶段:四类评级 | 5 | 26.3 | 11 | 57.9 | 100.0 | 100.0 |
第三阶段:试验1(改进训练) | 4 | 21.1c | 8d | 42.1 | 100.0 | 57.1 |
第三阶段:试验2(支持率提高) | 10 | 52.6 | 11e | 57.9 | 100.0 | 100.0 |
第三阶段:试三(硕士生) | 7 | 36.8 | 11 | 57.9 | 100.0 | 100.0 |
一个按级别计算(例如,Turker共识匹配专家指定为正常、轻度、中度和严重)。
b使用模式共识评分计算正常与任何疾病水平。
c在排除了一个系统得分较高的土耳其人后,42.1%的人正确。
d三幅图像没有模式,“数字正确”和“%正确”被认为是不正确的,但敏感性和特异性被重新编码为异常。
e一张图像没有模式,“正确数字”和“正确百分比”被认为是不正确的,但敏感度和特异性被重新编码为异常。
通过公共众包平台招募的匿名、未经培训的工作人员,只需接受最少的培训,就可以快速、正确地将糖尿病患者的眼底照片分类为正常或异常。在这项研究中,turker以高灵敏度对这些图像进行分级,这是一种理想的筛选仪器。关键的是,在我们的任何批次中都没有产生假阴性的共识结果,这表明没有遗漏DR病例。当被要求根据视网膜病变的程度对照片进行分类时,土耳其人在土耳其语界面的改变下有所改善,特别是在执行HITs所需的事先批准率增加的情况下。达到可靠的“共识等级”所需的评分者的数量在各个类别中是一致的,每张图像建立10个评分实例就足以获得有效的结果。
解读图像的总费用为每只眼睛1.10美元。虽然目前仍需要进一步评估异常图像,以确定需要现场检查的患者,但这一成本已接近一些研究人员建议的发展中经济体可行的公共健康筛查的极限[
对个别土耳其人分数的事后分析显示,在第一批第三阶段的一个土耳其人不一致地使用四个分级类别(
由于AMT是一个基于声誉的经济,请求者可以拒绝或阻止表现不佳的土耳其人。这两种行为都对土耳其人的声誉产生了负面影响,这反过来又影响了他们未来执行HITs的能力,因此他们有强烈的动机准确和诚实地执行任务。这可能就是为什么将先前的HIT支持率提高到99%对共识准确性有最显著的影响。增加“图片审核大师”资格并没有提高员工的共识。这可能是因为Amazon用于授予此资格的标准与我们的任务无关。此外,由于只有一小部分土耳其人具有资格,要求它减少了可用的劳动力,这可能会增加完成批次所需的时间。特别是考虑到额外的亚马逊佣金,在未来这些类型的任务中,使用硕士资格可能没有必要或没有成本效益。
目前的研究仅限于一组精心挑选的高质量的弥漫性眼底照片,以说明糖尿病视网膜病变的关键发现。筛查人群可能有一个低质量或无法解释的图像子集,也可能有更多的正常眼底图像。在这些照片中鉴定病理需要土耳其人的额外警惕,以便在大组正常照片中发现轻微疾病。更大的数据集,更微妙的病理需要用这种方法进行测试。此外,分析对界面的迭代改进是否会带来更好的结果是令人困惑的,因为土耳其人可能之前已经接触过这项任务,并且可能正在通过实践提高他们的评分。这是不太可能的,因为土耳其人没有收到他们的评级反馈,所以他们不知道他们是否正确评级的图像。此外,虽然目前还不能“阻止”之前完成了我们的任何HITs的土耳其人,但可以在项目中查看他们的评分历史。令人惊讶的是,在所有发布的批次中,我们的大部分HITs都是由土耳其人完成的,否则naïve到我们的项目。在这个项目发布的最后一批190次点击中,在使用相同图片发布了大约3000次点击后,170次(89.5%)是由以前从未进行过任何点击的土耳其人完成的,20次点击是由3名土耳其人完成的,他们每人之前只对4张图片进行了评分(数据未显示)。在未来更大的批次中,随着时间的推移,调整单个评分者的改进可能是必要的。
虽然仍需要进一步完善的方法来解决视网膜病变的程度,但目前的模型可能被用作一种方法,通过在非常大的筛查中消除大多数正常图像,只传递那些异常图像进行进一步表征,从而减轻熟练的分级人员的负担。虽然在AMT上完成HITs的个人是真正匿名的,但他们确实有唯一的数字标识符,并且可以跨HITs和批量的HITs进行跟踪。因此,使用众包接口的一个有趣的可能性可能包括培养一个特定的土耳其人骨干,他们证明了可靠的评级记录。这些评分者可能比一般的土耳其人有更高的分类能力,可以被招募来执行更复杂的评分任务。此外,未来自动化计算机算法也可能在DR和其他疾病的眼底图像分析中发挥作用。这提高了人工智能和人类智能之间更强大互动的可能性。一个系统可以对图像进行分层分级,然后将分级不明确的图像路由到另一个系统进行进一步验证。
这种众包项目的一个意想不到的好处是,它可能会提高人们对糖尿病和糖尿病性视网膜病变的认识。由于我们的界面允许土耳其人留下反馈,让我们完善仪器,我们能够捕捉到诸如“我对糖尿病有一点了解[sic]”,“我真的很喜欢看眼睛的照片,非常有趣”,“这个HIT非常好,从所有的泡沫调查中很好的休息。谢谢你!,这表明我们对这一主题的兴趣超出了其他HITs,也超出了我们一开始的预期。这一发现与生物医学研究以外领域的“虚拟公民科学”是一致的。
众包是一种新颖而廉价的快速识别糖尿病视网膜病变的方法。这项技术还需要进一步改进,需要使用更大的图像集进行外部验证。此外,在临床使用该技术之前,还需要解决多个医学法律和伦理问题,但在未来的大型公共健康筛查和其他环境中,众包医学成像数据可能会发挥作用。
亚马逊土耳其机器人
曲线下面积
糖尿病性视网膜病变
人类智力任务
-操作者特性
这项研究得到了威尔斯眼科医院视网膜研究和教育医学博士J. Arch McNamara纪念基金的支持。赞助者在研究的设计、实施或发表决定中没有任何作用,他们也没有在手稿的审查或批准中发挥任何作用。
该手稿于2014年8月在美国视网膜专家协会年会上发表。
没有宣布。