卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析JMIR出版公司

加拿大多伦多

v16i10e233

25356929

10.2196 / jmir.3807

原始论文

基于众包的糖尿病视网膜病变眼底照片快速分级

Eysenbach

冈瑟

布拉罕

那

Leontidis

欧斯

布雷迪

Christopher J

医学博士 1 2

威尔默眼科研究所约翰霍普金斯大学医学院

沃尔夫街600号

Maumenee 711

巴尔的摩，马里兰州，21287

美国 1 (410) 502 2789 1 (443) 287 8343 brady@jhmi.edu

http://orcid.org/0000-0001-7847-3914

Villanti

安德里亚·C

英里每小时,博士 3.

http://orcid.org/0000-0003-3104-966X

皮尔森

Jennifer L

英里每小时,博士 3.

http://orcid.org/0000-0002-1400-5932

基什内尔

托马斯·R

博士学位 3.

http://orcid.org/0000-0001-5764-4980

古普塔

Omesh P

MBA,医学博士 1

http://orcid.org/0000-0003-4845-0409

沙阿

是P

英里每小时,医学博士 4

http://orcid.org/0000-0001-6369-4917

¹ 威尔斯眼科医院视网膜服务:中大西洋视网膜

费城,宾夕法尼亚州

美国 ² 威尔默眼科研究所约翰霍普金斯大学医学院

马里兰州巴尔的摩

美国 ^3. 施罗德烟草研究和政策研究所遗产

华盛顿特区

美国 ⁴ 波士顿眼科顾问

波士顿

美国

通讯作者:Christopher J Brady brady@jhmi.edu

10 2014

30. 10 2014

16 10

e233

25 08 2014 10 09 2014 15 09 2014 16 09 2014

©Christopher J Brady, Andrea C Villanti, Jennifer L Pearson, Thomas R Kirchner, Omesh P Gupta, Chirag P Shah。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2014年10月30日。

2014

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

糖尿病视网膜病变筛查既有效又经济，但筛查依从性仍不理想。随着筛查的改进，处理筛查数据的新方法可能有助于减少人力资源的需求。众包已经在许多情况下用于利用分布式人类智能来完成小任务，包括图像分类。

客观的

我们的目标是开发并验证一种新的眼底照片分级方法。

方法

为亚马逊Mechanical Turk众包平台开发了一个用于眼底照片分类的界面。我们发布了19张专家分级的图片供土耳其人分级，每张照片重复10次，作为最初的概念验证(第一阶段)。土耳其人每张图片获得0.10美元的报酬。在第二阶段，来自四个分级类别的每个原型图像收到500个独特的土耳其人解释。然后使用50次1-50个土耳其人的抽签来估计从随机抽取的人群规模增加的样本中获得的准确性方差，以确定产生有效结果所需的最小土耳其人数量。在第三阶段，对界面进行了修改，试图提高Turker分级。

结果

在第一阶段正常和异常臂的230个分级实例中，187张图像(81.3%)被Turkers正确分类。对每张图像进行分级的平均时间为25秒，其中包括审查训练图像的时间。随着分级类别的增加，每张图像的分级时间增加，正确分级的图像百分比下降。在第二阶段，受试者-操作者特征(ROC)的曲线下面积(AUC)表明，在7级评分后，正常与异常的敏感性和特异性最大化(AUC=0.98)，但当turker被要求指定严重程度时，敏感性和特异性显著降低(AUC=0.63)。随着第三阶段界面的改进，四类分类中Turker平均等级的正确分类图像从26.3%(5/19张图像)增加到52.6%(10/19张图像)。在所有试验中，正常与异常的敏感性保持100%。

结论

只需最少的培训，亚马逊土耳其机器人员工就可以快速正确地将糖尿病患者的眼底照片分类为正常或异常，尽管需要进一步改进方法来提高土耳其人对视网膜病变程度的评分。解读图像的总费用为每只眼睛1.10美元。众包可能会提供一种新颖而廉价的方法，以减轻熟练的评分人员的负担，并增加糖尿病视网膜病变的筛查。

糖尿病性视网膜病变远程医疗眼底摄影众包亚马逊土耳其机器人

简介

由于早期糖尿病视网膜病变(DR)通常是无症状的，在这一阶段的疾病检测要么是偶然的，要么是有意的筛查。DR筛查既有效又具成本效益[ 1- 4]，但对已公布的DR筛查指南的坚持率很低，在美国只有35-60%的糖尿病患者每年接受扩张眼底检查[ 5- 8］．作为一种提高依从性的方法，使用非弥漫性眼底摄影和远程解译的远程健康筛查正在增加，特别是在农村和偏远地区[ 9- 11］．DR的早期诊断和适当的治疗机构代表着在年轻的工作年龄人口中预防视力丧失的巨大机会[ 3.， 4］．特别是，远程医疗可能是控制提供者、支付者和社会成本的一种方式。

远程保健计划的费用包括眼底照相机、远程保健软件包以及图像采集和解释所需的人力资源。糖尿病视网膜病变筛查的眼底照片判读成本可能很高，因为判读协议是劳动密集型的，而且每位患者需要判读多张图像。计算机化、半自动化的图像分析技术已被开发出来，可能会减少医生的工作量和筛查成本[ 12- 14];然而，这些方法没有得到fda的批准，目前也没有在临床上广泛使用。如果远程医疗继续扩大，将需要低成本的方法来解释随着糖尿病发病率上升而预计的大量眼底图像，特别是在资源贫乏的环境和大型公共卫生筛查中。

Brabham将众包定义为“一种在线的、分布式的解决问题和生产模式，它利用在线社区的集体智慧来服务于特定的组织目标”[ 15］．众包的一个子集，他称之为“分布式人类智能任务”，可以包括将较大的任务细分为小部分，然后招募一组人来完成这些小部分，只有共同完成整个任务[ 15］．众包在生物医学研究中的应用尚处于起步阶段，不过一些团体已经在公共卫生研究中使用了这种方法[ 16以及解释医学影像。例如，疟疾研究人员利用一个基于网络的游戏，招募未经训练的匿名志愿者，在血液涂片的数字图像上标记和计数疟疾寄生虫[ 17］．研究人员表示，通过结合几个用户的分析，他们能够达到与专业显微镜专家相似的准确率。众包最近被用来将一些有各种诊断的眼底照片分类为正常或异常[ 18］．在英国使用未经训练的评分员进行的一项试验中，正常与严重异常的敏感性≥96%，正常与轻度异常的敏感性在61-79%之间[ 18］．

目前的研究以糖尿病视网膜病变为测试条件，探索是否可以使用众包接口来训练工作人员将人类眼底照片分类为正常或异常，并随后对图像进行诊断分级[ 19］．本项目评估了糖尿病视网膜病变图像众包分级的有效性和可靠性，并与专家分级的标准标准进行了比较。我们的假设是，在糖尿病视网膜病变的筛查中，众包眼底摄影判分可以快速、准确和可靠。

方法众包

为Amazon Mechanical Turk (AMT[]开发了一个用于眼底照片分类的接口。 20.])众包平台( 图1)．AMT是一个在线劳动力市场，可以让成千上万的人以少量的钱快速完成小的、离散的任务。典型的AMT任务包括给照片贴标签、翻译单词或为网站写很短的文章。AMT亦被用于批注烟草销售点零售环境的照片[ 21]，评估口腔健康推广材料[ 22]，探讨抑郁症与病耻感的关系[ 23]，评估人们对可怕的禁烟运动的反应[ 24]，并评估公众对卵巢癌的认识[ 25]，以及许多其他以研究为导向的应用[ 26- 28］．Amazon Mechanical Turk有自己的词汇表，供AMT工人(turker)和AMT任务管理员(Requestors)使用。人类智能任务(HIT)是一项可能在几秒钟或几分钟内完成的小工作，一旦工作被请求者批准，根据HIT的复杂性，每个任务可能需要支付0.01- 0.25美元或更多。一组HITs称为“批”，由相似的HITs组成。根据任务的复杂程度和请求者提供的报酬，批处理通常在发布后几分钟或几小时内完成。

AMT是一种以声誉为基础的经济，这样土耳其人只有在以前有足够的工作记录时才能获得最理想的HITs。 29］．高质量的土耳其人可能会避免新的请求者的HITs，直到请求者证明他或她自己在批准和拒绝工作时的公平性。事实上，即使是少数热门作品被拒绝，土耳其人的声誉也会受到影响。AMT是一个复杂的生态系统，在这个系统中，土耳其人的高质量工作和请求者的公平都得到了奖励。

土耳其人的工作是匿名的，但人口统计研究已经进行过。Ipeirotis在对1000名土耳其人的调查中发现，46.8%的土耳其人位于美国，34%在印度，剩下的19.2%来自其他64个国家[ 30.］．在美国，大多数工人是女性，她们中的大多数人将AMT作为补充收入的来源，而在印度，大多数工人是男性，并将AMT作为主要收入来源。在各个国家，土耳其人都比一般人更年轻，受教育程度更高[ 30.］．

图1

亚马逊土耳其机器人网页界面的截图，用于眼底照片分级。

设计

对于目前的研究，英国国家筛查计划分级量表[ 312名主治视网膜外科医生(OPG, CPS)使用该方法对19张匿名教学图像进行分类。土耳其人使用的AMT界面和图像分辨率也被专家评分者使用。通过对有分歧的图像进行讨论达成了共识。为了研究的目的，英国分级表中的术语被翻译成通俗易懂的语言:“背景性”视网膜病变被称为“轻度”，“增殖前”被称为“中度”，“增殖性”被称为“严重”。“黄斑病变”在训练图像上被定义为异常，在其他方面为中度疾病，但没有单独编码。AMT接口设计用于在每个HIT中提供DR分级培训。该训练包括6张图像，用通俗易懂的语言标注了视网膜病变各层次的显著特征。土耳其人看到的文字是:“这是一张眼睛内部的照片。就糖尿病而言，我们想要给眼睛贴上健康或不健康的标签。给这只眼睛打分。” Turkers could hover their mouse over 6 adjacent training images (1 normal, 1 mild, 1 moderate, 3 severe) while reviewing the active test image. This layout allowed for all of the training and grading to occur in one browser window. More examples of proliferative/severe disease were provided due to the heterogeneity of findings constituting this level of disease. There were no restrictions on the type of device or display/monitor used by Turkers to complete the task.

第一阶段

在研究的第一阶段，这19张图片被发布到AMT上，由Turkers进行评分，每张照片重复10次，用于初步的概念验证。四张照片与第一批照片一起重新发布，重复10次，以评估内部人员的可靠性。土耳其人每张图片获得0.10美元的报酬，10%的佣金支付给亚马逊。为了有资格查看和完成HITs，土耳其人需要成功完成100次HITs，并且HIT的总体通过率达到97%。

在最初的批次中，要求土耳其人将图像分为正常(0)和异常(1)。在随后的批次中，要求土耳其人将相同的19张图像分为三个类别(正常=0，轻度到中度=1，严重=2)和四个类别(正常=0，轻度=1，中度=2，严重=3)。计算分类图像的正确率。计算所有批次的敏感性和特异性，将所有异常类别合并在一起，使用Stata 13进行3类和4类分级任务。根据10个Turker分数的模式，为每张图像分配一个工作者共识等级。在探索性基础上，使用10个Turker评分的平均值计算共识评分。对于两类任务，平均分<0.50为正常，平均分≥0.50为异常。对于三类任务，<0.50定义为正常，≥0.5至<1.5定义为轻度至中度，≥1.5定义为严重。在四类任务中，<0.50定义为正常，≥0.5至<1.5定义为轻度，≥1.5至<2.5定义为中度，≥2.5定义为严重。

二期

第二阶段的目的是双重的。首先，第二阶段试图评估人群的涌现能力，以准确区分不同程度的视网膜病变，基于这样一种想法，即更多的评分者会越来越多地聚集在正确答案周围。其次，第二阶段试图确定并最终确认一个阈值，超过这个阈值，多一个评分者的贡献就不再提供额外的信息。为了实现这一目标，来自四个分级类别的每一个原型图像都被提交给500个独特的土耳其人解释。然后使用折刀重采样方法从500名土耳其人的“总体”中抽取随机子样本，开始是50个2名土耳其人的随机样本，然后是50个3名土耳其人的随机样本，依此类推[ 21， 32］．这使得估计每个人群规模下随机抽取的评分者样本的准确性方差成为可能，并计算接受者-操作员特征(ROC)曲线下的面积(AUC)，表明他们的表现相对于专家评分。

第三阶段

在研究的第三阶段，对19张图像进行了额外的三个迭代批次，以使用四个诊断类别来提高Turker分级。第一批使用之前所有批次的Turker反馈来修改训练图像集。第二批除了修改后的训练图像外，还对土耳其人使用了更严格的标准。至少需要500个完成和批准的HIT，以及99%的整体HIT通过率。第三批是由持有亚马逊“照片审核大师”称号的土耳其人进行的，除了第1批和第2批所做的更改外，他们还将每张照片的补偿提高到0.15美元。实现这一称号所需的标准没有公布，但大师是“在机械土耳其市场上证明了特定类型HITs准确性的精英工人团体。工作人员通过始终如一地在各种请求者中以高度的准确性完成某种类型的HITs来获得大师荣誉”[ 33］．与阶段I一样，对这三个迭代批进行了正确分类的百分比、工作人员共识分数和完成HITs的平均时间的估计。

威尔斯眼科研究所机构审查委员会裁定这项研究不需要批准。

结果第一阶段

两名专家评分(OPG, CPS)将12幅图像编码为异常，7幅图像编码为正常( 表1)．第一阶段的三个批次中，每个批次包括23张照片(19张唯一的，4张重复的)和10个唯一的评分者，共230个评分实例。完成Turker图像分级的时间随分级类别的数量而变化。两类(正常/异常)分级用时20分钟，三类分级用时3小时，四类分级用时2小时。由于图像被快速解读，工作人员可以根据需要完成或多或少的HITs，四张重复图像中的大多数都由唯一的土耳其人评定，因此，我们无法评估内部入侵的可靠性。

在第一阶段的两类HITs(正常与异常)中，230个唯一图像的分级实例中，187张(81.3%)的图像被Turkers ( 表1)．个体Turker评分的敏感性和特异性分别为93.6%和67.8%。采用Turker共识评分，敏感性和特异性分别为100%和71.4%。对每张图像进行分级的平均时间为25秒，其中包括审查训练图像的时间。按每次评分0.11美元计算，每张图片的评分为1.10美元，评分的实际时薪为14.31美元( 表2)．

随着第三和第四分类类别的增加，正确分类的图像总数分别下降到64.4%(148/230)和50.9%(117/230)。3类和4类Turkers的特异性和特异性分别为96.3%和66.7%。在Turker共识水平上，三类和四类的敏感性均为100%，三类和四类的特异性分别为71.4%和100%。由于增加了分级标准，分级的速度下降了，有效时薪也是如此。完成三类命中任务的平均时间为51秒，有效时薪为7.08美元。完成四类命中任务的平均时间为55秒，实际时薪为6.60美元( 表2)．

表1

个别图像的特克分级^一个．

图片#	两分的评级			Three-category评级			Four-category评级
	专家评级	正确的诊断^b, %	土耳其人共识^c	专家评级	正确的诊断^b, %	土耳其人共识^c	专家评级	正确的诊断^b, %	土耳其人共识^c
1	也不	65	- - - - - -	也不	90	- - - - - -	也不	55	- - - - - -
2	Ab	85	- - - - - -	M / M	50	塞夫	温和的	0	塞夫
3.	也不	70	- - - - - -	也不	70	- - - - - -	也不	70	- - - - - -
4	也不	50	Ab	也不	40	M / M	也不	60	- - - - - -
5	也不	80	- - - - - -	也不	70	- - - - - -	也不	50	- - - - - -
6	Ab	One hundred.	- - - - - -	M / M	90	- - - - - -	温和的	20.	国防部
7	Ab	90	- - - - - -	严重的	60	- - - - - -	塞夫	10	国防部
8	也不	50	Ab	塞夫	40	M / M	也不	65	- - - - - -
9	Ab	One hundred.	- - - - - -	塞夫	95	- - - - - -	塞夫	One hundred.	- - - - - -
10	Ab	One hundred.	- - - - - -	塞夫	40	M / M	塞夫	70	- - - - - -
11	Ab	90	- - - - - -	塞夫	0	M / M	塞夫	20.	温和的
12	也不	90	- - - - - -	也不	80	- - - - - -	也不	90	- - - - - -
13	Ab	One hundred.	- - - - - -	M / M	30.	塞夫	国防部	20.	塞夫
14	Ab	80	- - - - - -	塞夫	40	M / M	塞夫	10	国防部
15	也不	90	- - - - - -	也不	One hundred.	- - - - - -	也不	90	- - - - - -
16	Ab	90	- - - - - -	塞夫	70	- - - - - -	塞夫	50	- - - - - -
17	Ab	One hundred.	- - - - - -	M / M	60	- - - - - -	温和的	10	国防部
18	Ab	One hundred.	- - - - - -	M / M	One hundred.	- - - - - -	国防部	95	- - - - - -
19	Ab	90	- - - - - -	M / M	80	- - - - - -	温和的	20.	国防部
正确的,%		81.3	89.5		64.4	63.2		50.9	57.9
灵敏度^d, %		93.6	100.0		96.3	100.0		96.3	100.0
特异性^d, %		67.8	71.4		66.7	71.4		66.7	100.0

^一个和=正常;Ab =异常;M/M=轻度或中度;塞夫=严重;Mod =温和。

^b在个别评分者的水平上。

^c只有当共识评分与专家评分不同时才会出现。

^d按正常水平和任何疾病水平计算。

表2

时间完成评级(以秒为单位)。

	两分的评级	Three-category评级	Four-category评级	四类评分(改进训练)	四类评级(认可度提高)	四类评分(硕士生)^一个
平均每次点击时间	25.16	50.87	54.52	50.98	38.79	44.14
95%可信区间	21.93 - -28.38	43.18 - -58.55	46.15 - -62.88	39.66 - -62.30	31.65 - -45.93	36.00 - -52.27
时薪$	14.31	7.08	6.60	7.06	9.28	12.23
每张图像的成本，$	1.10	1.10	1.10	1.10	1.10	1.95

^一个硕士研究生每幅图片收取0.15美元，外加30%的亚马逊佣金，每幅图片的总成本为0.195美元。

二期

II期研究结果同样表明，异常与正常总体评分的敏感性和特异性非常好，产生了高度显著的AUC (0.98; 图2当被要求区分四个严重程度时，土耳其人的准确率不高。然而，事后对比分析表明，当被要求识别中度严重异常时，土耳其人表现良好(ROC=0.85; 图2(图B)。结果模式表明，识别轻度的准确性较低(ROC=0.57; 图2重度(AUC=0.73; 图2， C组)异常是由于倾向于将所有异常评定为中度严重，而不是无法更普遍地识别正常与轻度和严重异常。结果还表明，当人群规模达到7到10个Turkers之间时，通常会达到最大AUC，这证实了用于对较大图像集进行评级的人群规模的有效性( 图2)．这证实了如果我们为每个HIT寻求更多数量的土耳其人，第一阶段和第三阶段的结果不会有什么不同。

图2

接收者-操作员特征(ROC)曲线下的面积(AUC)，用于增加每个严重级别的原型图像的Turker解释的数量。土耳其人对轻度(A组)和重度图像(C组)的准确性较低，但对中度图像(B组)的准确性可接受。当所有四张图像都仅分析是否存在疾病时，土耳其人表现良好(D组)，AUC非常显著。

第三阶段

在第三阶段，由于Turkers在第一阶段将可见的脉络膜血管解释为异常，因此增加了一张正常的训练图像。澄清注释以表明存在单个微动脉瘤被认为是异常的，并且不需要存在硬渗出物来实现中度或重度疾病。增加了放大分级图像的功能。在使用新训练的第一批中，使用共识Turker评分的正确分类图像的百分比并不比以前好:模式分别为42.1%(8/19张图像)对57.9%(11/19张图像)，平均为21.1%(4/19张图像)对26.3%(5/19张图像)。在第二批中，采用更严格的Turker选择标准，平均正确分级图像的比例提高到52.6%(10/19张图像)(模式不变)。这一结果在重复运行该批次时得到了证实(数据未显示)。在第三批中，使用“Photo Moderation Masters”，正确分级图像的比例平均下降到36.8%(7/19张图像)(模式不变)。在所有批次中，对任何级别疾病的诊断敏感性保持在100% ( 表3）

表3

第三阶段的土耳其共识。

	数字正确(平均)^一个	正确率(平均)	号码正确(模式)^一个	正确率(模式)	灵敏度^b	特异性^b
第一阶段:四类评级	5	26.3	11	57.9	100.0	100.0
第三阶段:试验1(改进训练)	4	21.1^c	8^d	42.1	100.0	57.1
第三阶段:试验2(支持率提高)	10	52.6	11^e	57.9	100.0	100.0
第三阶段:试三(硕士生)	7	36.8	11	57.9	100.0	100.0

^一个按级别计算(例如，Turker共识匹配专家指定为正常、轻度、中度和严重)。

^b使用模式共识评分计算正常与任何疾病水平。

^c在排除了一个系统得分较高的土耳其人后，42.1%的人正确。

^d三幅图像没有模式，“数字正确”和“%正确”被认为是不正确的，但敏感性和特异性被重新编码为异常。

^e一张图像没有模式，“正确数字”和“正确百分比”被认为是不正确的，但敏感度和特异性被重新编码为异常。

讨论主要研究结果

通过公共众包平台招募的匿名、未经培训的工作人员，只需接受最少的培训，就可以快速、正确地将糖尿病患者的眼底照片分类为正常或异常。在这项研究中，turker以高灵敏度对这些图像进行分级，这是一种理想的筛选仪器。关键的是，在我们的任何批次中都没有产生假阴性的共识结果，这表明没有遗漏DR病例。当被要求根据视网膜病变的程度对照片进行分类时，土耳其人在土耳其语界面的改变下有所改善，特别是在执行HITs所需的事先批准率增加的情况下。达到可靠的“共识等级”所需的评分者的数量在各个类别中是一致的，每张图像建立10个评分实例就足以获得有效的结果。

解读图像的总费用为每只眼睛1.10美元。虽然目前仍需要进一步评估异常图像，以确定需要现场检查的患者，但这一成本已接近一些研究人员建议的发展中经济体可行的公共健康筛查的极限[ 34］．事实上，在我们的研究中，每张图像的报销金额从有效时薪6.60美元到14.31美元不等，可能会减少，因为AMT工人的合理目标时薪是联邦最低时薪7.25美元或更低[[ 35］．此外，发布更大批量的图像可能会降低每张图像的补偿，因为在任务变得更熟练后，土耳其人的速度可能会提高，使他们能够保持相同的有效工资。虽然高质量的回应与高工资之间可能没有直接关系[ 36，高工资和快速完成图像分级之间可能存在联系，因此大幅减少报销可能并不明智。

对个别土耳其人分数的事后分析显示，在第一批第三阶段的一个土耳其人不一致地使用四个分级类别( 表3)．通过考虑这一特定批次，可以揭示几个问题。首先，很少出现不一致使用所有类别的情况，这表明土耳其人是认真的工人。从Turkers在完成HITs时所做的评论中也可以明显看出这一点，其中包括对界面改进的深思熟虑的建议，以及对一些感觉模糊的HITs的关注。其次，使用众包响应的平均值可能会产生对异常值相当敏感的输出。因此，使用模式来计算共识通常是可取的，尽管一些图像可能没有纯模式( 表3)，在这种情况下，任何“平局”的较高分数将被用于临床。第三，更广泛地说，AMT可能容易受到Turker账户的影响，这些账户试图利用系统，通过实时个人或自动程序或“机器人”快速完成随机响应的HITs [ 29］．展望未来，可能有必要分析这种现象的原始Turker分数，并可能开发出排除系统不可靠分数的方法。

由于AMT是一个基于声誉的经济，请求者可以拒绝或阻止表现不佳的土耳其人。这两种行为都对土耳其人的声誉产生了负面影响，这反过来又影响了他们未来执行HITs的能力，因此他们有强烈的动机准确和诚实地执行任务。这可能就是为什么将先前的HIT支持率提高到99%对共识准确性有最显著的影响。增加“图片审核大师”资格并没有提高员工的共识。这可能是因为Amazon用于授予此资格的标准与我们的任务无关。此外，由于只有一小部分土耳其人具有资格，要求它减少了可用的劳动力，这可能会增加完成批次所需的时间。特别是考虑到额外的亚马逊佣金，在未来这些类型的任务中，使用硕士资格可能没有必要或没有成本效益。

目前的研究仅限于一组精心挑选的高质量的弥漫性眼底照片，以说明糖尿病视网膜病变的关键发现。筛查人群可能有一个低质量或无法解释的图像子集，也可能有更多的正常眼底图像。在这些照片中鉴定病理需要土耳其人的额外警惕，以便在大组正常照片中发现轻微疾病。更大的数据集，更微妙的病理需要用这种方法进行测试。此外，分析对界面的迭代改进是否会带来更好的结果是令人困惑的，因为土耳其人可能之前已经接触过这项任务，并且可能正在通过实践提高他们的评分。这是不太可能的，因为土耳其人没有收到他们的评级反馈，所以他们不知道他们是否正确评级的图像。此外，虽然目前还不能“阻止”之前完成了我们的任何HITs的土耳其人，但可以在项目中查看他们的评分历史。令人惊讶的是，在所有发布的批次中，我们的大部分HITs都是由土耳其人完成的，否则naïve到我们的项目。在这个项目发布的最后一批190次点击中，在使用相同图片发布了大约3000次点击后，170次(89.5%)是由以前从未进行过任何点击的土耳其人完成的，20次点击是由3名土耳其人完成的，他们每人之前只对4张图片进行了评分(数据未显示)。在未来更大的批次中，随着时间的推移，调整单个评分者的改进可能是必要的。

未来的考虑

虽然仍需要进一步完善的方法来解决视网膜病变的程度，但目前的模型可能被用作一种方法，通过在非常大的筛查中消除大多数正常图像，只传递那些异常图像进行进一步表征，从而减轻熟练的分级人员的负担。虽然在AMT上完成HITs的个人是真正匿名的，但他们确实有唯一的数字标识符，并且可以跨HITs和批量的HITs进行跟踪。因此，使用众包接口的一个有趣的可能性可能包括培养一个特定的土耳其人骨干，他们证明了可靠的评级记录。这些评分者可能比一般的土耳其人有更高的分类能力，可以被招募来执行更复杂的评分任务。此外，未来自动化计算机算法也可能在DR和其他疾病的眼底图像分析中发挥作用。这提高了人工智能和人类智能之间更强大互动的可能性。一个系统可以对图像进行分层分级，然后将分级不明确的图像路由到另一个系统进行进一步验证。

这种众包项目的一个意想不到的好处是，它可能会提高人们对糖尿病和糖尿病性视网膜病变的认识。由于我们的界面允许土耳其人留下反馈，让我们完善仪器，我们能够捕捉到诸如“我对糖尿病有一点了解[sic]”，“我真的很喜欢看眼睛的照片，非常有趣”，“这个HIT非常好，从所有的泡沫调查中很好的休息。谢谢你！，这表明我们对这一主题的兴趣超出了其他HITs，也超出了我们一开始的预期。这一发现与生物医学研究以外领域的“虚拟公民科学”是一致的。 37］．

结论

众包是一种新颖而廉价的快速识别糖尿病视网膜病变的方法。这项技术还需要进一步改进，需要使用更大的图像集进行外部验证。此外，在临床使用该技术之前，还需要解决多个医学法律和伦理问题，但在未来的大型公共健康筛查和其他环境中，众包医学成像数据可能会发挥作用。

缩写

AMT

亚马逊土耳其机器人

AUC

曲线下面积

博士

糖尿病性视网膜病变

打击

人类智力任务

中华民国

-操作者特性

这项研究得到了威尔斯眼科医院视网膜研究和教育医学博士J. Arch McNamara纪念基金的支持。赞助者在研究的设计、实施或发表决定中没有任何作用，他们也没有在手稿的审查或批准中发挥任何作用。

该手稿于2014年8月在美国视网膜专家协会年会上发表。

没有宣布。

贝克

糖尿病对公众健康的影响:眼科医生的作用

角膜切削 2011 02 129 2 225 9

10.1001 / archophthalmol.2010.331

21320972

129/2/225

Javitt

罐头

弗兰克

Steinwachs

大梁

一个

I型糖尿病患者视网膜病变的检测和治疗。卫生政策模型

眼科学 1990 04 97 4 483 94;讨论494年

2109299

Javitt

Aiello

检测和治疗糖尿病视网膜病变的成本-效益

实习医生 1996 01 1 124 1 Pt 2 164 9

8554212

琼斯

年代

爱德华兹

糖尿病视网膜病变筛查:经济证据的系统回顾

Diabet地中海 2010 03 27 3. 249 56

10.1111 / j.1464-5491.2009.02870.x

20536486

DME2870

Schoenfeld

呃

格林

吴

Leske

坚持糖尿病视力护理指南的模式:糖尿病视网膜病变意识计划的基线发现

眼科学 2001 03 108 3. 563 71

11237912

s0161 - 6420 (00) 00600 - x

巴斯

上海

Varma

克莱因

吴

Azen牌

洛杉矶拉丁裔眼科研究小组

拉丁裔2型糖尿病患者不遵守视力护理指南:洛杉矶拉丁裔眼科研究

眼科学 2006 08 113 8 1372 7

10.1016 / j.ophtha.2006.04.018

16769120

s0161 - 6420 (06) 00566 - 5

李

页

费尔德曼

Ostermann

棕色（的）

斯隆管理学院

足总

糖尿病和慢性眼病患者每年眼部检查的纵向比率

眼科学 2003 10 110 10 1952 9

10.1016 / s0161 - 6420 (03) 00817 - 0

14522771

s0161 - 6420 (03) 00817 - 0

方

Sharza

米

陈

复活节的

摩根富林明

Ariyasu

李

页

健康维护组织(HMO)在糖尿病群体模型中的视力丧失

Am J眼科 2002 02 133 2 236 41

11812428

S0002939401013642

锋利的

奥尔森

斯特

Hipwell

Ludbrook

一个

奥唐纳

米

华莱士

年代

Goatman

格兰特

一个

沃

NgydF4y2Ba

McHardy

弗雷斯特

合资企业

数字成像在糖尿病视网膜病变中的应用价值

卫生技术评估 2003 7 30. 1 119

14604499

94-18-05

斯坎伦

PH值

威胁视力的糖尿病视网膜病变的英国国家筛查计划

J医学屏幕 2008 15 1 1 4

10.1258 / jms.2008.008015

18416946

米

Nathoo

NgydF4y2Ba

Rudnisky

坦南特

太

改善眼科护理:加拿大阿尔伯塔省的远程眼科

糖尿病科技杂志 2009 03 3. 2 289 96

20144360

PMC2771508

腾

Lefley

米

克莱蒙特

糖尿病眼部自动筛查的进展:糖尿病视网膜病变的图像分析和智能系统综述

医学生物工程计算 2002 01 40 1 2 13

11954703

艾布拉姆

医学博士

民间

汉

沃克

威廉姆斯

罗素

老

Massin

Cochener

获得

唐

Lamard

米

莫卡

直流

Quellec

Niemeijer

米

自动分析视网膜图像以检测可参考的糖尿病视网膜病变

JAMA角膜切削 2013 03 131 3. 351 7

10.1001 / jamaophthalmol.2013.1743

23494039

1668203

Trucco