医学互联网研究杂志-使用众包对糖尿病视网膜病变眼底照片进行快速分级

原始论文

¹威尔斯眼科医院，视网膜服务:中大西洋视网膜，费城，宾夕法尼亚州，美国

²威尔默眼科研究所，约翰霍普金斯大学医学院，巴尔的摩，马里兰州，美国

^3.施罗德烟草研究和政策研究所，遗产，华盛顿特区，美国

⁴波士顿眼科顾问，波士顿，马萨诸塞州，美国

通讯作者:

克里斯托弗J布雷迪，医学博士

威尔默眼科研究所

约翰霍普金斯大学医学院

北沃尔夫街600号。

Maumenee 711

巴尔的摩，马里兰州，21287

美国

电话:1 (410)502 2789

传真:1 (443)287 8343

电子邮件:brady@jhmi.edu

背景:糖尿病视网膜病变的筛查既有效又具有成本效益，但筛查依从率仍然不理想。随着筛查的改进，处理筛查数据的新方法可能有助于减少人力资源需求。众包在许多情况下被用于利用分布式的人类智能来完成小任务，包括图像分类。

摘要目的:我们的目标是开发和验证眼底照片分级的新方法。

方法:为Amazon Mechanical Turk众包平台开发眼底照片分类接口。我们发布了19张专家评分的图像供土耳其人评分，每张照片重复10次，用于初始概念验证(第一阶段)。每张图像支付给土耳其人0.10美元。在第二阶段，来自四个分级类别中的每个类别的一个原型图像获得500个独特的土耳其人解释。然后使用50次抽取1-50次的土耳其人来估计从随机抽取的不断增加的人群规模的样本中得出的准确性方差，以确定产生有效结果所需的土耳其人的最小数量。在第三阶段，对界面进行了修改，试图提高Turker评分。

结果:在I期正常与异常组的230个分级实例中，187张图像(81.3%)被Turkers正确分类。对每张图像进行评分的平均时间为25秒，包括审查训练图像的时间。随着分级类别的增加，对每张图像进行分级的时间增加，正确分级的图像百分比下降。在第二阶段，受试者-操作者特征(ROC)曲线下面积(AUC)显示，在正常与异常评分的7级后，敏感性和特异性达到最大(AUC=0.98)，但当要求Turkers指定严重程度时，敏感性和特异性显著降低(AUC=0.63)。随着第三阶段对界面的改进，四类分级中Turker平均等级对图像的正确率从26.3%(5/19幅)提高到52.6%(10/19幅)。在所有试验中，正常与异常的敏感性保持100%。

结论:通过最少的培训，Amazon Mechanical Turk工作人员可以快速正确地将糖尿病患者的眼底照片分类为正常或异常，尽管需要进一步改进方法以提高Turker对视网膜病变程度的评级。解译图像的总费用为每只眼睛1.10美元。众包可能提供一种新颖而廉价的方法，以减轻熟练评分员的负担，并增加对糖尿病视网膜病变的筛查。

中国医学与互联网杂志，2014;16(10):833

doi: 10.2196 / jmir.3807

关键字

糖尿病性视网膜病变；远程医疗；眼底摄影；众包；亚马逊土耳其机器人

由于早期糖尿病视网膜病变(DR)通常是无症状的，因此在这一阶段发现疾病要么是偶然的，要么是经过刻意筛查的。DR筛查既有效又符合成本效益[1-4]，但对DR筛查指南的遵守率很低，在美国，只有35-60%的糖尿病患者每年接受眼底扩张检查[5-8]。作为提高依从性的一种方式，使用无散瞳眼底摄影和远程判读的远程保健筛查正在增加，特别是在农村和偏远地区[9-11]。DR的早期诊断和适当的治疗机构为防止年轻的工作年龄人口的视力丧失提供了巨大的机会[3.，4]。特别是远程医疗，可能是控制提供者、付款人和社会成本的一种方式。

远程医疗方案的费用包括眼底相机、远程医疗软件包以及图像采集和解释所需的人力资源。糖尿病视网膜病变筛查中的眼底照片解读成本可能很高，因为解读方案劳力密集，而且每位患者需要解读多张图像。计算机化的、半自动化的图像分析技术已经开发出来，可以减少医生的工作量和筛查成本[12-14];然而，这些方法尚未获得fda批准，目前也未在临床上广泛使用。如果远程保健继续扩大，将需要低成本的方法来解释随着糖尿病发病率上升而产生的大量眼底图像，特别是在资源贫乏的环境和大型公共卫生筛查中。

Brabham将众包定义为“一种在线的、分布式的解决问题和生产模式，它利用在线社区的集体智慧来服务于特定的组织目标”[15]。众包的一个子集，他称之为“分布式人类智能任务”，可以包括将较大的任务细分为小部分，然后招募一组个人来完成这些小部分，只有集体完成整个任务。15]。在生物医学研究中使用众包尚处于起步阶段，尽管一些团体已在公共卫生研究中使用这种方法[16以及解读医学影像。例如，疟疾研究人员使用一种基于网络的游戏来招募未经训练的匿名志愿者，在血液涂片的数字图像上标记和计数疟疾寄生虫[17]。研究人员表示，通过结合几个用户的分析，他们能够达到与专家显微镜相似的准确率。最近，众包被用于对一些诊断为正常或异常的眼底照片进行分类。18]。在英国进行的一项使用未经训练的评分员的试验中，正常与严重异常的敏感性≥96%，正常与轻度异常的敏感性在61-79%之间[18]。

本研究以糖尿病视网膜病变为测试条件，探索是否可以使用众包界面来培训工作人员对人体眼底照片进行正常或异常分类，然后对图像进行诊断分级[19]。本项目对糖尿病视网膜病变众包图像分级的有效性和可靠性进行了评估，并与专家分级的标准标准进行了比较。我们的假设是眼底摄影判读的众包分级可以快速、准确和可靠地筛查糖尿病视网膜病变。

众包

为Amazon Mechanical Turk (AMT)开发了眼底照片分类接口。20.众包平台(图1）.AMT是一个在线劳动力市场，成千上万的人可以用很少的钱快速完成小而分散的任务。典型的AMT任务包括标记照片、翻译单词或为网站撰写非常短的文章。AMT亦被用于为烟草销售点零售环境的照片加上注释[21]，评估口腔健康促进材料[22]，调查抑郁与病耻感之间的关系[23，评估人们对可怕的禁烟运动的反应[24]，并评估公众对卵巢癌的认识[25]，以及许多其他以研究为导向的应用[26-28]。Amazon Mechanical Turk有自己的词汇表，供AMT工作人员(Turkers)和AMT任务管理员(Requestors)使用。人工智能任务(HIT)是一项小任务，可能在几秒钟或几分钟内完成，一旦工作得到请求者的批准，根据HIT的复杂程度，每个任务可能支付0.01- 0.25美元或更多。一组hit称为“批处理”，由类似的hit组成。根据任务的复杂性和请求方提供的付款方式，批处理通常在发布后几分钟或几小时内完成。

AMT是一种基于声誉的经济，因此土耳其人只有在拥有足够的先前接受工作的记录后才能访问最理想的hit [29]。高质量的turker可能会避免新的请求者的点击，直到请求者在批准和拒绝工作方面证明了他或她自己的公平性。事实上，即使是很少的点击率被拒绝，土耳其人的声誉也会受到影响。AMT是一个复杂的生态系统，在这个生态系统中，土耳其人的高质量工作和请求者的公平都得到了奖励。

土耳其人的工作是匿名的，但已经进行了人口统计研究。Ipeirotis在对1000名土耳其人的调查中发现，46.8%的土耳其人位于美国，34%位于印度，其余19.2%来自其他64个国家[30.]。在美国，大多数工人是女性，其中大多数人将AMT报告为补充收入来源，而在印度，大多数工人是男性，并将AMT报告为主要收入来源。纵观各国，土耳其人比一般人更年轻，受教育程度更高。30.]。

设计

对于目前的研究，英国国家筛查计划分级量表[31]由2名视网膜主治外科医生(OPG, CPS)对19张匿名教学图像进行分类。专家评分员使用与土耳其人相同的AMT界面和图像分辨率。通过对存在分歧的图像进行讨论，达成了共识。为了研究的目的，英国分级量表中的术语被翻译成通俗易懂的语言:“背景”视网膜病变被称为“轻度”，“增生前”被称为“中度”，“增生”被称为“严重”。“黄斑病变”被定义为在训练图像上异常，其他情况为中度疾病，但没有单独编码。AMT接口的设计是为了在每个HIT中提供DR分级的培训。该训练包括6张图像，用简单的语言标注了视网膜病变每个级别的显著特征。土耳其人看到了下面的文字:“这是眼睛内部的照片。就糖尿病而言，我们希望给眼睛贴上健康或不健康的标签。评价这只眼睛。” Turkers could hover their mouse over 6 adjacent training images (1 normal, 1 mild, 1 moderate, 3 severe) while reviewing the active test image. This layout allowed for all of the training and grading to occur in one browser window. More examples of proliferative/severe disease were provided due to the heterogeneity of findings constituting this level of disease. There were no restrictions on the type of device or display/monitor used by Turkers to complete the task.

第一阶段

在研究的第一阶段，这19张图片被发布到AMT上，由土耳其人进行评分，每张照片重复10次，作为初步的概念验证。四张照片与这批初始照片一起重新发布了10次，以评估内部可靠性。每张图片支付给土耳其人0.10美元，亚马逊支付10%的佣金。为了有资格查看和完成HITs，土耳其人需要成功完成100个先前的HITs，并且总体HIT批准率为97%。

在最初的批次中，发布hit，要求Turkers将图像分为正常(0)和异常(1)。在随后的批次中，Turkers被要求使用三个类别(正常=0，轻度到中度=1，严重=2)对相同的19张图像进行评分，然后使用四个类别(正常=0，轻度=1，中度=2，严重=3)。计算正确分类图像的百分比。计算所有批次的敏感性和特异性，使用Stata 13将所有异常类别合并为三类和四类分级任务。根据10个Turker分数的模式，为每个图像分配一个工人共识等级。使用10个Turker分数的平均值的共识等级也在探索性基础上计算。对于两类任务，平均得分<0.50定义为正常，≥0.50定义为异常。对于三类任务，<0.50定义为正常，≥0.5至<1.5定义为轻度至中度，≥1.5定义为重度。在四类任务中，<0.50定义为正常，≥0.5至<1.5定义为轻度，≥1.5至<2.5定义为中度，≥2.5定义为重度。

二期

第二阶段的目的是双重的。首先，第二阶段试图评估人群准确区分不同程度视网膜病变的应急能力，基于越来越多的评分者将越来越多地围绕正确答案团结起来的想法。第二，第二阶段设法查明并最终确定一个阈值，超过这个阈值，一个评价者的贡献将不再提供额外的资料。为了实现这一目标，从四个分级类别中每个类别提交一个原型图像，进行500种独特的土耳其人解释。然后使用叠刀重采样方法从500名土耳其人的“总体”中抽取随机子样本，从50个随机样本中抽取2名土耳其人，然后抽取50个随机样本中抽取3名土耳其人，以此类推[21，32]。这样就可以估计每个随机抽取的评分者在每个人群规模下的准确度方差，并计算接受者-操作者特征(ROC)曲线下的面积(AUC)，表明他们相对于专家评分的表现。

第三阶段

在研究的第三阶段，对19张图像进行了三个额外的迭代批次，以努力提高使用四种诊断类别的Turker分级。第一批使用之前所有批次的Turker反馈来修改训练图像集。第二批除了修改后的训练图像外，还对土耳其人使用了更严格的标准。至少需要500个完成和批准的HIT，总体HIT批准率为99%。第三批是使用亚马逊指定的“照片审核大师”的土耳其人进行的，除了对第1批和第2批进行的更改外，还将每张图片的赔偿金提高到0.15美元。获得这一称号的必要标准没有公布，但大师是“在机械土耳其市场上对特定类型的hit表现出准确性的工人精英团体”。工作人员通过在不同的请求者中始终如一地完成某种类型的hit，并具有高度的准确性，从而获得大师的区别。[33]。在阶段1中，对于这三个迭代批次，正确分类的百分比，工作人员共识得分，以及完成hit的平均时间进行了估计。

威尔斯眼科研究所机构审查委员会裁定这项研究不需要批准。

第一阶段

两位专家评分者(OPG, CPS)将12幅图像编码为异常，7幅图像编码为正常(表1）.第一阶段的三个批次中，每批包括23张照片(19张唯一的，4张重复的)和10个独特的评分者，总共230个评分实例。图像的Turker分级完成时间随分级类别的数量而变化。2类(正常/异常)评分20分钟完成，3类评分3小时完成，4类评分2小时完成。由于图像的解释速度很快，工作人员可以根据需要完成尽可能多或尽可能少的HITs，因此，四张重复图像中的大多数都是由唯一的土耳其人评定的，因此，我们无法评估内部的可靠性。

在第一阶段的两类hit(正常与异常)的230个唯一图像分级实例中，187个(81.3%)图像被Turkers (表1）.使用个体Turker评分的敏感性和特异性分别为93.6%和67.8%。采用Turker共识评分，敏感性100%，特异性71.4%。对每张图像进行评分的平均时间为25秒，包括审查训练图像的时间。每次评分0.11美元，每张图像的评分为1.10美元，评分的有效时薪为14.31美元(表2）.

随着第三和第四个分级类别的增加，正确分类的图像总数分别下降到64.4%(148/230)和50.9%(117/230)。特异度为96.3%，特异度为66.7%。在Turker共识水平上，3类和4类敏感性均为100%，3类和4类特异性分别为71.4%和100%。有了额外的评分标准，评分的速度就会下降，有效时薪也会下降。完成三类hit的平均时间为51秒，而实际时薪为7.08美元。完成四类hit的平均时间为55秒，实际时薪为$6.60 (表2）.

表1。单个图像的Turker分级^一个。

图片#	两分的评级			Three-category评级			Four-category评级
	专家评级	正确的诊断^b, %	土耳其人共识^c	专家评级	正确的诊断^b, %	土耳其人共识^c	专家评级	正确的诊断^b, %	土耳其人共识^c
1	也不	65	- - - - - -	也不	90	- - - - - -	也不	55	- - - - - -
2	Ab	85	- - - - - -	M / M	50	塞夫	温和的	0	塞夫
3.	也不	70	- - - - - -	也不	70	- - - - - -	也不	70	- - - - - -
4	也不	50	Ab	也不	40	M / M	也不	60	- - - - - -
5	也不	80	- - - - - -	也不	70	- - - - - -	也不	50	- - - - - -
6	Ab	One hundred.	- - - - - -	M / M	90	- - - - - -	温和的	20.	国防部
7	Ab	90	- - - - - -	严重的	60	- - - - - -	塞夫	10	国防部
8	也不	50	Ab	塞夫	40	M / M	也不	65	- - - - - -
9	Ab	One hundred.	- - - - - -	塞夫	95	- - - - - -	塞夫	One hundred.	- - - - - -
10	Ab	One hundred.	- - - - - -	塞夫	40	M / M	塞夫	70	- - - - - -
11	Ab	90	- - - - - -	塞夫	0	M / M	塞夫	20.	温和的
12	也不	90	- - - - - -	也不	80	- - - - - -	也不	90	- - - - - -
13	Ab	One hundred.	- - - - - -	M / M	30.	塞夫	国防部	20.	塞夫
14	Ab	80	- - - - - -	塞夫	40	M / M	塞夫	10	国防部
15	也不	90	- - - - - -	也不	One hundred.	- - - - - -	也不	90	- - - - - -
16	Ab	90	- - - - - -	塞夫	70	- - - - - -	塞夫	50	- - - - - -
17	Ab	One hundred.	- - - - - -	M / M	60	- - - - - -	温和的	10	国防部
18	Ab	One hundred.	- - - - - -	M / M	One hundred.	- - - - - -	国防部	95	- - - - - -
19	Ab	90	- - - - - -	M / M	80	- - - - - -	温和的	20.	国防部
正确的,%		81.3	89.5		64.4	63.2		50.9	57.9
灵敏度^d, %		93.6	100.0		96.3	100.0		96.3	100.0
特异性^d, %		67.8	71.4		66.7	71.4		66.7	100.0

^一个和=正常;Ab =异常;M/M=轻度或中度;塞夫=严重;Mod =温和。

^b在个别评分者的层面上。

^c共识评级只有在与专家评级不同的情况下才会出现。

^d根据正常水平和疾病水平计算。

表2。完成评级的时间(以秒计)。

	两分的评级	Three-category评级	Four-category评级	四类评定(改进培训)	四类评级(增加认可)	四类评分(硕士级)^一个
平均每次命中时间	25.16	50.87	54.52	50.98	38.79	44.14
95%可信区间	21.93 - -28.38	43.18 - -58.55	46.15 - -62.88	39.66 - -62.30	31.65 - -45.93	36.00 - -52.27
每小时工资，$	14.31	7.08	6.60	7.06	9.28	12.23
每张图像的成本，$	1.10	1.10	1.10	1.10	1.10	1.95

^一个大师级评分者收到每张图像0.15美元，加上30%的亚马逊佣金，总成本为每张图像0.195美元。

二期

II期结果同样表明，对异常与正常的总体评分的敏感性和特异性非常好，产生了非常显著的AUC (0.98;图2当被要求区分四个严重程度时，土耳其人并不准确。然而，事后对比分析表明，当被要求识别严重程度中等的异常时，Turkers表现良好(ROC=0.85;图2结果模式显示，诊断轻度疾病的准确率较低(ROC=0.57;图2A组)和重度(AUC=0.73;图2(C组)异常是由于倾向于将所有异常评定为中度严重程度，而不是无法更普遍地识别正常与轻度和严重异常。结果还表明，当人群规模达到7到10个turker之间时，通常会达到最大的AUC，这证实了用于评估更大图像集的人群规模的有效性(图2）.这肯定了，如果我们为每个HIT寻求更多的土耳其人，那么第一阶段和第三阶段的结果不会有什么不同。

图2。接收者-操作者特征(ROC)曲线下面积(AUC)，用于从每个严重级别增加对原型图像的Turker解释次数。Turkers对轻度(A组)和重度(C组)图像的准确性较低，但对中度(B组)图像的准确性可接受。当所有四幅图像仅分析有无疾病时，Turkers表现良好(D组)，AUC非常显著。

第三阶段

在III期，由于Turkers在i期将可见脉络膜血管解释为异常，因此增加了额外的正常训练图像。这些注释被澄清，表明单个微动脉瘤的存在被认为是异常的，并且不需要存在硬渗出物来判断中度或重度疾病。增加了放大正在分级的图像的功能。在使用新训练的第一批中，使用共识Turker分数正确分类图像的百分比并不比以前更好:42.1%(8/19幅图像)对57.9%(11/19幅图像)，分别是模式和21.1%(4/19幅图像)对26.3%(5/19幅图像)。在第二批中，通过更严格的Turker选择标准，在模式不变的情况下，正确分级的图像比例平均提高到52.6%(10/19张图像)。这一结果在该批次的重复运行中得到了证实(数据未显示)。在第三批中，使用“Photo Moderation Masters”，按平均值(模式不变)，正确分级的图像比例下降到36.8%(7/19张图像)。在所有批次中，对任何疾病水平的诊断敏感性都保持在100% (表3）

表3。Turker共识在第三阶段。

	正确率(平均值)^一个	正确率(平均值)	数字正确(模式)^一个	% correct(模式)	灵敏度^b	特异性^b
第一阶段:四类评级	5	26.3	11	57.9	100.0	100.0
第3阶段:试验1(改进培训)	4	21.1^c	8^d	42.1	100.0	57.1
第三阶段:试验二(提高支持率)	10	52.6	11^e	57.9	100.0	100.0
第三阶段:试验三(大学部)	7	36.8	11	57.9	100.0	100.0

^一个按级别计算(例如，Turker共识匹配专家指定的正常，轻度，中度和严重)。

^b使用模式共识评分计算正常与任何疾病水平。

^c在排除一个得分较高的土耳其人后，正确率为42.1%。

^d三幅图像没有模式，“数字正确”和“百分比正确”被认为是不正确的，但灵敏度和特异性被重新编码为异常。

^e一幅图像没有模式，在“数字正确”和“百分比正确”方面被认为是不正确的，但在灵敏度和特异性方面被重新编码为异常。

主要研究结果

通过公共众包平台招募一个匿名的、未经培训的工作人员，只需最少的培训，就可以快速、正确地将糖尿病患者的眼底照片分类为正常或异常。在这项研究中，Turkers用高灵敏度对这些图像进行分级，这是一种理想的筛选工具。关键是，在我们的任何批次中都没有产生假阴性一致结果，表明没有遗漏DR病例。当被要求根据视网膜病变程度对照片进行分类时，土耳其人随着土耳其界面的改变而改善，特别是执行HITs所需的事先批准等级的增加。达到可靠的“一致评分”所需的评分员数量在各个类别之间是一致的，并且每个图像建立10个评分实例足以获得有效结果。

解译图像的总费用为每只眼睛1.10美元。虽然目前仍需要对异常图像进行进一步评估，以确定需要进行现场检查的患者，但这一成本已接近一些研究人员建议的发展中经济体可行的公共卫生筛查的极限[34]。事实上，在我们的研究中，每张图像的报销范围从有效时薪6.60美元到14.31美元不等，可能会减少，因为AMT工人的合理目标时薪是每小时7.25美元或更低的联邦最低工资[35]。此外，发布更大批量的图像可能会降低每张图像的报销，因为Turker的速度可能会在任务变得更熟练后增加，从而使他们保持相同的有效工资。虽然高质量的反应与高工资之间可能没有直接关系[36]，高工资与快速完成图像分级之间可能存在联系，因此大幅减少报销可能并不明智。

对个别土耳其人得分的事后分析显示，在第3阶段的第一批中，一个土耳其人不一致地使用了四个评分类别(表3）.通过考虑这批特定的产品，可以发现几个问题。首先，所有类别的不一致使用是罕见的，这表明土耳其人是尽职尽责的工人。这一点在Turkers完成HITs时的评论中也很明显，其中包括对界面改进的深思熟虑的建议，以及对感觉模糊的HITs的关注。其次，使用众包响应的平均值可能会产生对异常值相当敏感的输出。出于这个原因，使用模式来计算共识通常是可取的，尽管有些图像可能没有纯模式(表3)，在这种情况下，任何“平局”得分较高的将用于临床。第三，更广泛地说，AMT可能容易受到Turker账户的影响，这些账户试图利用该系统，通过随机响应快速完成HITs，要么是与真人，要么是与自动程序或“机器人”[29]。展望未来，可能有必要分析这种现象的原始Turker分数，并可能开发方法来排除系统不可靠的分数。

由于AMT是一种基于声誉的经济，请求者可以拒绝或阻止那些表现不佳的土耳其人。这两种行为都会对Turkers的声誉产生负面影响，进而影响他们未来执行hit的能力，因此有强烈的动机准确而诚实地执行任务。这可能就是为什么将先前的HIT支持率提高到99%对共识准确性产生最大影响的原因。增加“照片管理大师”资格并没有提高工人的共识。这可能是由于Amazon用于授予此资格的标准与我们的任务无关。此外，由于只有一小部分土耳其人有资格，要求它减少了可用的劳动力，这可能会增加完成批次所需的时间。特别是考虑到额外的亚马逊佣金，对于这些类型的任务来说，使用硕士资格证书可能不是必要的，也不划算。

目前的研究仅限于一组精心挑选的高质量散瞳眼底照片，以说明糖尿病视网膜病变的关键发现。筛查人群可能有一小部分低质量或无法解释的图像，也可能有更多正常眼底的图像。在这样的一组照片中识别病理，需要土耳其人格外警惕，才能在一大组正常照片中发现轻微的疾病。更大的数据集和更微妙的病理需要用这种方法进行测试。此外，分析界面的迭代改进是否会带来更好的结果，因为Turkers可能以前接触过这个任务，并且可能通过实践提高了他们的评分。这是不可能的，因为土耳其人没有收到关于他们评分的反馈，所以他们不知道他们是否正确地对图像进行了评分。此外，虽然目前无法“阻止”之前完成任何hit的土耳其人，但可以在项目中查看他们的评分历史。令人惊讶的是，在所有批次发布中，我们的大多数HITs都是由土耳其人完成的，否则naïve到我们的项目。在为这个项目发布的最后一批190个HITs中，在使用相同的图像发布了大约3000个HITs之后，170个(89.5%)是由以前从未做过我们的任何HITs的土耳其人完成的，20个HITs是由3个单独的土耳其人完成的，他们之前只对4个图像进行了评分(数据未显示)。在未来更大规模的批量生产中，可能有必要针对个别评分者的进步进行调整。

未来的考虑

虽然还需要进一步改进方法来解决视网膜病变的程度，但目前的模型可以作为一种方法，通过在非常大的筛选中消除大多数正常图像，只传递那些异常图像以进一步表征，从而减轻熟练评分者的负担。虽然在AMT上完成HITs的个人是真正匿名的，但他们确实有唯一的数字标识符，并且可以跨HITs和批次HITs进行跟踪。因此，使用众包界面的一个有趣的可能性可能包括开发一个特定的土耳其人骨干，他们展示了可靠的评分记录。这些评分员可能比一般的土耳其人有更高的分类水平，可以被招募来完成更复杂的评分任务。此外，自动化计算机算法很可能也将在未来DR和其他条件下的眼底图像分析中发挥作用。这增加了人工智能和人类智能之间更强大互动的可能性。一个系统可以以分层的方式对图像进行分级，然后将那些分级不明确的图像路由到另一个系统进行进一步验证。

这种众包项目的一个意想不到的好处是，它可能会提高人们对糖尿病和糖尿病视网膜病变的认识。由于我们的界面允许Turkers留下反馈，以便我们改进仪器，我们能够捕捉到诸如“我对糖尿病有所了解”，“我真的很喜欢看到眼睛的照片，非常有趣”，“这个HIT非常好，从所有的泡泡调查中得到了很好的休息。”谢谢你！，这表明我们对这个主题的兴趣超出了其他hit，也超出了我们一开始的预期。这一发现与生物医学研究以外的领域中所谓的“虚拟公民科学”相一致[37]。

结论

众包代表了一种快速识别糖尿病视网膜病变的新颖而廉价的方法。需要对该技术进行进一步的改进，以及使用更大的图像集进行外部验证。此外，在临床使用这项技术之前，还需要解决多个医学法律和伦理问题，但在未来的大型公共卫生筛查和其他环境中，众包医学成像数据可能会发挥作用。

致谢

这项研究得到了J. Arch McNamara，医学博士纪念基金视网膜研究和教育在威尔斯眼科医院的支持。赞助方在研究的设计、实施或发表决定中没有任何作用，在手稿的审查或批准中也没有任何作用。

该论文发表于2014年8月美国视网膜专家学会年会上。

利益冲突

没有宣布。

贝克RW。糖尿病对公众健康的影响:眼科医生的作用。眼科杂志2011;29(2):225-229。(CrossRef] [Medline］
李建军，李建军，李建军，等。1型糖尿病视网膜病变的诊断与治疗。卫生政策模型。眼科1990年4月;97(4):483-94;讨论494年。(Medline］
Javitt JC, Aiello LP。检测和治疗糖尿病视网膜病变的成本效益。中华医学杂志，1996,1(2):1 - 4。(Medline］
王志强，王志强。糖尿病视网膜病变筛查的研究进展。糖尿病医学杂志，2010;27(3):249-256。(CrossRef] [Medline］
肖恩菲德，格林JM，吴世义，Leske MC.糖尿病视网膜病变认知项目对糖尿病视力保健指南的依从性模式。中华眼科杂志;2009;31(3):563-571。(Medline］
潘志强，吴杰，陈志强，洛杉矶拉丁裔眼科研究小组。拉美裔2型糖尿病患者视力护理指南不遵守情况:洛杉矶拉美裔眼科研究中华眼科杂志;2006;33(8):1372-1377。(CrossRef] [Medline］
李PP, Feldman ZW, Ostermann J, Brown DS, Sloan FA。糖尿病和慢性眼病患者每年眼科检查的纵向比率。眼科杂志2003;11(10):1952-1959。(CrossRef] [Medline］
方德生，陈伟，陈文杰，李鹏。糖尿病患者视力丧失的群体模型健康维护组织(HMO)。中华眼科杂志2002;33(2):236-241。(Medline］
夏普锋，Olson J, Strachan F, Hipwell J, Ludbrook A, O'Donnell M，等。数字成像在糖尿病视网膜病变中的价值。卫生技术评估2003;7(30):1-119 [j]免费全文] [Medline］
英国国家威胁视力的糖尿病视网膜病变筛查项目。中华医学杂志;2008;15(1):1-4。(CrossRef] [Medline］
吴敏，吴志强，吴志强，吴志强。改善眼科护理的可及性:加拿大阿尔伯塔省的远程眼科。中华糖尿病杂志2009;3(2):289-296 [J]免费全文] [Medline］
李建军，李建军，李建军，等。糖尿病视网膜病变智能诊断系统的研究进展。中国生物医学工程学报，2002;40(1):2-13。(Medline］
Abràmoff M, Folk JC, Han DP, Walker JD, Williams DF, Russell SR等。自动分析视网膜图像检测可参考的糖尿病视网膜病变。中华眼科杂志，2013;31(3):351-357。(CrossRef] [Medline］
刘建军，刘建军，刘建军，等。验证视网膜眼底图像分析算法:问题和建议。中华眼科杂志;2013;35 (5):346 - 359 [j]免费全文] [CrossRef] [Medline］
布拉罕。众包。麻省理工学院出版社基本知识系列。马萨诸塞州剑桥:麻省理工学院出版社;2013.
Brabham DC, Ribisl KM, Kirchner TR, Bernhardt JM。公共卫生众包应用。中华预防医学杂志，2014;46(2):179-187。(CrossRef] [Medline］
Luengo-Oroz MA, Arranz A, Frean J.众包疟疾寄生虫定量:用于分析感染的粘稠血液涂片图像的在线游戏。中国医学信息学报，2012;14(6):1161 [J]免费全文] [CrossRef] [Medline］
Mitry D, Peto T, Hayat S, Morgan JE, Khaw KT, Foster PJ。众包作为视网膜眼底摄影分类的新技术:代表英国生物银行眼与视觉协会的EPIC诺福克队列图像分析。科学通报，2013;8(8):771 - 774 [j]免费全文] [CrossRef] [Medline］
李洪波，何志强，李志强，张志强，张志强，美国远程医疗协会糖尿病视网膜病变远程医疗建议工作组，等。糖尿病视网膜病变远程医疗实践建议，第二版。中华医学杂志;2011;17(10):814-837。(CrossRef] [Medline］
亚马逊土耳其机器人。URL:https://www.mturk.com/mturk/welcome[2014-08-25访问][WebCite缓存］
Ilakkuvan V, Tacelosky M, Ivey KC, Pearson JL, Cantrell J, Vallone DM，等。用于公共卫生监测的摄像机:销售点照片众包注释的方法协议。中国生物医学工程学报，2014;3(2):22 [j]免费全文] [CrossRef] [Medline］
Turner AM, Kirchhoff K, Capurro D.使用众包技术测试多语言公共卫生宣传材料。中国医学杂志，2012;14(3):e79 [J]免费全文] [CrossRef] [Medline］
Henshaw EJ。病得太重，还是不够重?治疗类型和时间对抑郁症病耻感的影响。中国生物医学工程学报，2014,32(4):292-299。(CrossRef] [Medline］
令人厌恶和恐惧的反吸烟广告是增加还是减少了对烟草控制政策的支持?国际麻醉品杂志，2014;25(4):744-747。(CrossRef] [Medline］
Carter RR, DiFeo A, Bogie K，张国强，孙杰。众包意识:通过亚马逊土耳其机器人探索卵巢癌知识缺口。公共科学学报，2014;9(1):e85508 [j]免费全文] [CrossRef] [Medline］
众包健康研究:公共健康研究生态系统中临床试验的重要补充。中国医学杂志，2012;14(2):e46 [J]免费全文] [CrossRef] [Medline］
Good BM, Loguercio S, Griffith OL, Nanis M, Wu C, Su AI。治疗:设计和评估用于乳腺癌生存预测的基因选择众包游戏。JMIR严肃游戏2014年7月29日;2(2):e7。(CrossRef］
Dasgupta N, Freifeld C, Brownstein JS, Menone CM, Surratt HL, Poppish L等。众包处方阿片类药物的黑市价格。中国医学杂志，2013;15(8):e178 [J]免费全文] [CrossRef] [Medline］
Martin D, Hanrahan BV, O'Neill j。参见:第17届ACM计算机支持的协同工作与社会计算会议论文集。2014年发表于:第17届ACM计算机支持的协同工作与社会计算会议;2014年2月15日至19日;巴尔的摩，马里兰州，美国(CrossRef］
Ipeirotis PG. CeDER工作文件-10-01。2010.土耳其机械的人口统计数据http://hdl.handle.net/2451/29585[2014-09-26访问][WebCite缓存］
肖特利夫K，邓肯G.糖尿病视网膜病变:分级和管理标准综述。中华医学杂志，2006年11月;23(9):418-420。(CrossRef］
关于估计偏差的说明。生物统计学1956;43(3 - 4):353 - 360。(CrossRef］
亚马逊土耳其机器人常见问题。URL:https://requester.mturk.com/help/faq[2014-08-25访问][WebCite缓存］
李建军，李建军，李建军，等。发展中国家糖尿病视网膜病变的诊断与治疗。中华眼科杂志，2011;31(2):391 - 391。(CrossRef] [Medline］
霍顿JJ，奇尔顿LB.付费众包的劳动经济学。参见:第11届美国计算机协会电子商务会议论文集。2010年发表于:第11届ACM电子商务会议;2010年6月7日至11日;剑桥，马萨诸塞州，美国(CrossRef］
梅森·W，瓦特·DJ。财政激励和“群体表现”。在:2009年ACM SIGKDD人类计算研讨会会议录;2009年6月28日至7月1日;巴黎,法国。(CrossRef］
Reed J, Raddick MJ, Lardner a .参与Zooniverse(虚拟公民科学项目集合)动机的探索性因素分析。第46届夏威夷系统科学国际会议。2013年发表于:第46届夏威夷国际系统科学会议(HICSS);2013年1月7日至10日;威利亚，毛伊岛，夏威夷。(CrossRef］

‎

AMT:亚马逊土耳其机器人

AUC:曲线下面积

博士:糖尿病性视网膜病变

冲击:人类智能任务

中华民国:-操作者特性

G·艾森巴赫编辑;提交25.08.14;由D . Brabham, G . Leontidis同行评审;对作者10.09.14的评论;修订版本收到15.09.14;接受16.09.14;发表30.10.14

©Christopher J Brady, Andrea C Villanti, Jennifer L Pearson, Thomas R Kirchner, Omesh P Gupta, Chirag P Shah。原载于医学互联网研究杂志(//www.mybigtv.com)， 2014年10月30日。

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

使用众包技术快速分级糖尿病视网膜病变眼底照片

使用众包技术快速分级糖尿病视网膜病变眼底照片

原始论文

通讯作者:

摘要

关键字

介绍

方法

众包

设计

第一阶段

二期

第三阶段

结果

第一阶段

二期

第三阶段

讨论

主要研究结果

未来的考虑

结论

致谢

利益冲突

参考文献

缩写