JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析JMIR出版公司 加拿大多伦多 v16i10e233 25356929 10.2196 / jmir.3807 原始论文 原始论文 基于众包的糖尿病视网膜病变眼底照片快速分级 Eysenbach 冈瑟 布拉罕 Leontidis 欧斯 布雷迪 Christopher J 医学博士 1 2
威尔默眼科研究所 约翰霍普金斯大学医学院 沃尔夫街600号 Maumenee 711 巴尔的摩,马里兰州,21287 美国 1 (410) 502 2789 1 (443) 287 8343 brady@jhmi.edu
http://orcid.org/0000-0001-7847-3914
Villanti 安德里亚·C 英里每小时,博士 3. http://orcid.org/0000-0003-3104-966X 皮尔森 Jennifer L 英里每小时,博士 3. http://orcid.org/0000-0002-1400-5932 基什内尔 托马斯·R 博士学位 3. http://orcid.org/0000-0001-5764-4980 古普塔 Omesh P MBA,医学博士 1 http://orcid.org/0000-0003-4845-0409 沙阿 是P 英里每小时,医学博士 4 http://orcid.org/0000-0001-6369-4917
1 威尔斯眼科医院 视网膜服务:中大西洋视网膜 费城,宾夕法尼亚州 美国 2 威尔默眼科研究所 约翰霍普金斯大学医学院 马里兰州巴尔的摩 美国 3. 施罗德烟草研究和政策研究所 遗产 华盛顿特区 美国 4 波士顿眼科顾问 波士顿 美国 通讯作者:Christopher J Brady brady@jhmi.edu 10 2014 30. 10 2014 16 10 e233 25 08 2014 10 09 2014 15 09 2014 16 09 2014 ©Christopher J Brady, Andrea C Villanti, Jennifer L Pearson, Thomas R Kirchner, Omesh P Gupta, Chirag P Shah。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2014年10月30日。 2014

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

糖尿病视网膜病变筛查既有效又经济,但筛查依从性仍不理想。随着筛查的改进,处理筛查数据的新方法可能有助于减少人力资源的需求。众包已经在许多情况下用于利用分布式人类智能来完成小任务,包括图像分类。

客观的

我们的目标是开发并验证一种新的眼底照片分级方法。

方法

为亚马逊Mechanical Turk众包平台开发了一个用于眼底照片分类的界面。我们发布了19张专家分级的图片供土耳其人分级,每张照片重复10次,作为最初的概念验证(第一阶段)。土耳其人每张图片获得0.10美元的报酬。在第二阶段,来自四个分级类别的每个原型图像收到500个独特的土耳其人解释。然后使用50次1-50个土耳其人的抽签来估计从随机抽取的人群规模增加的样本中获得的准确性方差,以确定产生有效结果所需的最小土耳其人数量。在第三阶段,对界面进行了修改,试图提高Turker分级。

结果

在第一阶段正常和异常臂的230个分级实例中,187张图像(81.3%)被Turkers正确分类。对每张图像进行分级的平均时间为25秒,其中包括审查训练图像的时间。随着分级类别的增加,每张图像的分级时间增加,正确分级的图像百分比下降。在第二阶段,受试者-操作者特征(ROC)的曲线下面积(AUC)表明,在7级评分后,正常与异常的敏感性和特异性最大化(AUC=0.98),但当turker被要求指定严重程度时,敏感性和特异性显著降低(AUC=0.63)。随着第三阶段界面的改进,四类分类中Turker平均等级的正确分类图像从26.3%(5/19张图像)增加到52.6%(10/19张图像)。在所有试验中,正常与异常的敏感性保持100%。

结论

只需最少的培训,亚马逊土耳其机器人员工就可以快速正确地将糖尿病患者的眼底照片分类为正常或异常,尽管需要进一步改进方法来提高土耳其人对视网膜病变程度的评分。解读图像的总费用为每只眼睛1.10美元。众包可能会提供一种新颖而廉价的方法,以减轻熟练的评分人员的负担,并增加糖尿病视网膜病变的筛查。

糖尿病性视网膜病变 远程医疗 眼底摄影 众包 亚马逊土耳其机器人
简介

由于早期糖尿病视网膜病变(DR)通常是无症状的,在这一阶段的疾病检测要么是偶然的,要么是有意的筛查。DR筛查既有效又具成本效益[ 1- 4],但对已公布的DR筛查指南的坚持率很低,在美国只有35-60%的糖尿病患者每年接受扩张眼底检查[ 5- 8].作为一种提高依从性的方法,使用非弥漫性眼底摄影和远程解译的远程健康筛查正在增加,特别是在农村和偏远地区[ 9- 11].DR的早期诊断和适当的治疗机构代表着在年轻的工作年龄人口中预防视力丧失的巨大机会[ 3. 4].特别是,远程医疗可能是控制提供者、支付者和社会成本的一种方式。

远程保健计划的费用包括眼底照相机、远程保健软件包以及图像采集和解释所需的人力资源。糖尿病视网膜病变筛查的眼底照片判读成本可能很高,因为判读协议是劳动密集型的,而且每位患者需要判读多张图像。计算机化、半自动化的图像分析技术已被开发出来,可能会减少医生的工作量和筛查成本[ 12- 14];然而,这些方法没有得到fda的批准,目前也没有在临床上广泛使用。如果远程医疗继续扩大,将需要低成本的方法来解释随着糖尿病发病率上升而预计的大量眼底图像,特别是在资源贫乏的环境和大型公共卫生筛查中。

Brabham将众包定义为“一种在线的、分布式的解决问题和生产模式,它利用在线社区的集体智慧来服务于特定的组织目标”[ 15].众包的一个子集,他称之为“分布式人类智能任务”,可以包括将较大的任务细分为小部分,然后招募一组人来完成这些小部分,只有共同完成整个任务[ 15].众包在生物医学研究中的应用尚处于起步阶段,不过一些团体已经在公共卫生研究中使用了这种方法[ 16以及解释医学影像。例如,疟疾研究人员利用一个基于网络的游戏,招募未经训练的匿名志愿者,在血液涂片的数字图像上标记和计数疟疾寄生虫[ 17].研究人员表示,通过结合几个用户的分析,他们能够达到与专业显微镜专家相似的准确率。众包最近被用来将一些有各种诊断的眼底照片分类为正常或异常[ 18].在英国使用未经训练的评分员进行的一项试验中,正常与严重异常的敏感性≥96%,正常与轻度异常的敏感性在61-79%之间[ 18].

目前的研究以糖尿病视网膜病变为测试条件,探索是否可以使用众包接口来训练工作人员将人类眼底照片分类为正常或异常,并随后对图像进行诊断分级[ 19].本项目评估了糖尿病视网膜病变图像众包分级的有效性和可靠性,并与专家分级的标准标准进行了比较。我们的假设是,在糖尿病视网膜病变的筛查中,众包眼底摄影判分可以快速、准确和可靠。

方法 众包

为Amazon Mechanical Turk (AMT[]开发了一个用于眼底照片分类的接口。 20.])众包平台( 图1).AMT是一个在线劳动力市场,可以让成千上万的人以少量的钱快速完成小的、离散的任务。典型的AMT任务包括给照片贴标签、翻译单词或为网站写很短的文章。AMT亦被用于批注烟草销售点零售环境的照片[ 21],评估口腔健康推广材料[ 22],探讨抑郁症与病耻感的关系[ 23],评估人们对可怕的禁烟运动的反应[ 24],并评估公众对卵巢癌的认识[ 25],以及许多其他以研究为导向的应用[ 26- 28].Amazon Mechanical Turk有自己的词汇表,供AMT工人(turker)和AMT任务管理员(Requestors)使用。人类智能任务(HIT)是一项可能在几秒钟或几分钟内完成的小工作,一旦工作被请求者批准,根据HIT的复杂性,每个任务可能需要支付0.01- 0.25美元或更多。一组HITs称为“批”,由相似的HITs组成。根据任务的复杂程度和请求者提供的报酬,批处理通常在发布后几分钟或几小时内完成。

AMT是一种以声誉为基础的经济,这样土耳其人只有在以前有足够的工作记录时才能获得最理想的HITs。 29].高质量的土耳其人可能会避免新的请求者的HITs,直到请求者证明他或她自己在批准和拒绝工作时的公平性。事实上,即使是少数热门作品被拒绝,土耳其人的声誉也会受到影响。AMT是一个复杂的生态系统,在这个系统中,土耳其人的高质量工作和请求者的公平都得到了奖励。

土耳其人的工作是匿名的,但人口统计研究已经进行过。Ipeirotis在对1000名土耳其人的调查中发现,46.8%的土耳其人位于美国,34%在印度,剩下的19.2%来自其他64个国家[ 30.].在美国,大多数工人是女性,她们中的大多数人将AMT作为补充收入的来源,而在印度,大多数工人是男性,并将AMT作为主要收入来源。在各个国家,土耳其人都比一般人更年轻,受教育程度更高[ 30.].

亚马逊土耳其机器人网页界面的截图,用于眼底照片分级。

设计

对于目前的研究,英国国家筛查计划分级量表[ 312名主治视网膜外科医生(OPG, CPS)使用该方法对19张匿名教学图像进行分类。土耳其人使用的AMT界面和图像分辨率也被专家评分者使用。通过对有分歧的图像进行讨论达成了共识。为了研究的目的,英国分级表中的术语被翻译成通俗易懂的语言:“背景性”视网膜病变被称为“轻度”,“增殖前”被称为“中度”,“增殖性”被称为“严重”。“黄斑病变”在训练图像上被定义为异常,在其他方面为中度疾病,但没有单独编码。AMT接口设计用于在每个HIT中提供DR分级培训。该训练包括6张图像,用通俗易懂的语言标注了视网膜病变各层次的显著特征。土耳其人看到的文字是:“这是一张眼睛内部的照片。就糖尿病而言,我们想要给眼睛贴上健康或不健康的标签。给这只眼睛打分。” Turkers could hover their mouse over 6 adjacent training images (1 normal, 1 mild, 1 moderate, 3 severe) while reviewing the active test image. This layout allowed for all of the training and grading to occur in one browser window. More examples of proliferative/severe disease were provided due to the heterogeneity of findings constituting this level of disease. There were no restrictions on the type of device or display/monitor used by Turkers to complete the task.

第一阶段

在研究的第一阶段,这19张图片被发布到AMT上,由Turkers进行评分,每张照片重复10次,用于初步的概念验证。四张照片与第一批照片一起重新发布,重复10次,以评估内部人员的可靠性。土耳其人每张图片获得0.10美元的报酬,10%的佣金支付给亚马逊。为了有资格查看和完成HITs,土耳其人需要成功完成100次HITs,并且HIT的总体通过率达到97%。

在最初的批次中,要求土耳其人将图像分为正常(0)和异常(1)。在随后的批次中,要求土耳其人将相同的19张图像分为三个类别(正常=0,轻度到中度=1,严重=2)和四个类别(正常=0,轻度=1,中度=2,严重=3)。计算分类图像的正确率。计算所有批次的敏感性和特异性,将所有异常类别合并在一起,使用Stata 13进行3类和4类分级任务。根据10个Turker分数的模式,为每张图像分配一个工作者共识等级。在探索性基础上,使用10个Turker评分的平均值计算共识评分。对于两类任务,平均分<0.50为正常,平均分≥0.50为异常。对于三类任务,<0.50定义为正常,≥0.5至<1.5定义为轻度至中度,≥1.5定义为严重。在四类任务中,<0.50定义为正常,≥0.5至<1.5定义为轻度,≥1.5至<2.5定义为中度,≥2.5定义为严重。

二期

第二阶段的目的是双重的。首先,第二阶段试图评估人群的涌现能力,以准确区分不同程度的视网膜病变,基于这样一种想法,即更多的评分者会越来越多地聚集在正确答案周围。其次,第二阶段试图确定并最终确认一个阈值,超过这个阈值,多一个评分者的贡献就不再提供额外的信息。为了实现这一目标,来自四个分级类别的每一个原型图像都被提交给500个独特的土耳其人解释。然后使用折刀重采样方法从500名土耳其人的“总体”中抽取随机子样本,开始是50个2名土耳其人的随机样本,然后是50个3名土耳其人的随机样本,依此类推[ 21 32].这使得估计每个人群规模下随机抽取的评分者样本的准确性方差成为可能,并计算接受者-操作员特征(ROC)曲线下的面积(AUC),表明他们的表现相对于专家评分。

第三阶段

在研究的第三阶段,对19张图像进行了额外的三个迭代批次,以使用四个诊断类别来提高Turker分级。第一批使用之前所有批次的Turker反馈来修改训练图像集。第二批除了修改后的训练图像外,还对土耳其人使用了更严格的标准。至少需要500个完成和批准的HIT,以及99%的整体HIT通过率。第三批是由持有亚马逊“照片审核大师”称号的土耳其人进行的,除了第1批和第2批所做的更改外,他们还将每张照片的补偿提高到0.15美元。实现这一称号所需的标准没有公布,但大师是“在机械土耳其市场上证明了特定类型HITs准确性的精英工人团体。工作人员通过始终如一地在各种请求者中以高度的准确性完成某种类型的HITs来获得大师荣誉”[ 33].与阶段I一样,对这三个迭代批进行了正确分类的百分比、工作人员共识分数和完成HITs的平均时间的估计。

威尔斯眼科研究所机构审查委员会裁定这项研究不需要批准。

结果 第一阶段

两名专家评分(OPG, CPS)将12幅图像编码为异常,7幅图像编码为正常( 表1).第一阶段的三个批次中,每个批次包括23张照片(19张唯一的,4张重复的)和10个唯一的评分者,共230个评分实例。完成Turker图像分级的时间随分级类别的数量而变化。两类(正常/异常)分级用时20分钟,三类分级用时3小时,四类分级用时2小时。由于图像被快速解读,工作人员可以根据需要完成或多或少的HITs,四张重复图像中的大多数都由唯一的土耳其人评定,因此,我们无法评估内部入侵的可靠性。

在第一阶段的两类HITs(正常与异常)中,230个唯一图像的分级实例中,187张(81.3%)的图像被Turkers ( 表1).个体Turker评分的敏感性和特异性分别为93.6%和67.8%。采用Turker共识评分,敏感性和特异性分别为100%和71.4%。对每张图像进行分级的平均时间为25秒,其中包括审查训练图像的时间。按每次评分0.11美元计算,每张图片的评分为1.10美元,评分的实际时薪为14.31美元( 表2).

随着第三和第四分类类别的增加,正确分类的图像总数分别下降到64.4%(148/230)和50.9%(117/230)。3类和4类Turkers的特异性和特异性分别为96.3%和66.7%。在Turker共识水平上,三类和四类的敏感性均为100%,三类和四类的特异性分别为71.4%和100%。由于增加了分级标准,分级的速度下降了,有效时薪也是如此。完成三类命中任务的平均时间为51秒,有效时薪为7.08美元。完成四类命中任务的平均时间为55秒,实际时薪为6.60美元( 表2).

个别图像的特克分级一个

图片# 两分的评级 Three-category评级 Four-category评级
专家评级 正确的诊断b, % 土耳其人共识c 专家评级 正确的诊断b, % 土耳其人共识c 专家评级 正确的诊断b, % 土耳其人共识c
1 也不 65 - - - - - - 也不 90 - - - - - - 也不 55 - - - - - -
2 Ab 85 - - - - - - M / M 50 塞夫 温和的 0 塞夫
3. 也不 70 - - - - - - 也不 70 - - - - - - 也不 70 - - - - - -
4 也不 50 Ab 也不 40 M / M 也不 60 - - - - - -
5 也不 80 - - - - - - 也不 70 - - - - - - 也不 50 - - - - - -
6 Ab One hundred. - - - - - - M / M 90 - - - - - - 温和的 20. 国防部
7 Ab 90 - - - - - - 严重的 60 - - - - - - 塞夫 10 国防部
8 也不 50 Ab 塞夫 40 M / M 也不 65 - - - - - -
9 Ab One hundred. - - - - - - 塞夫 95 - - - - - - 塞夫 One hundred. - - - - - -
10 Ab One hundred. - - - - - - 塞夫 40 M / M 塞夫 70 - - - - - -
11 Ab 90 - - - - - - 塞夫 0 M / M 塞夫 20. 温和的
12 也不 90 - - - - - - 也不 80 - - - - - - 也不 90 - - - - - -
13 Ab One hundred. - - - - - - M / M 30. 塞夫 国防部 20. 塞夫
14 Ab 80 - - - - - - 塞夫 40 M / M 塞夫 10 国防部
15 也不 90 - - - - - - 也不 One hundred. - - - - - - 也不 90 - - - - - -
16 Ab 90 - - - - - - 塞夫 70 - - - - - - 塞夫 50 - - - - - -
17 Ab One hundred. - - - - - - M / M 60 - - - - - - 温和的 10 国防部
18 Ab One hundred. - - - - - - M / M One hundred. - - - - - - 国防部 95 - - - - - -
19 Ab 90 - - - - - - M / M 80 - - - - - - 温和的 20. 国防部
正确的,% 81.3 89.5 64.4 63.2 50.9 57.9
灵敏度d, % 93.6 100.0 96.3 100.0 96.3 100.0
特异性d, % 67.8 71.4 66.7 71.4 66.7 100.0

一个和=正常;Ab =异常;M/M=轻度或中度;塞夫=严重;Mod =温和。

b在个别评分者的水平上。

c只有当共识评分与专家评分不同时才会出现。

d按正常水平和任何疾病水平计算。

时间完成评级(以秒为单位)。

两分的评级 Three-category评级 Four-category评级 四类评分(改进训练) 四类评级(认可度提高) 四类评分(硕士生)一个
平均每次点击时间 25.16 50.87 54.52 50.98 38.79 44.14
95%可信区间 21.93 - -28.38 43.18 - -58.55 46.15 - -62.88 39.66 - -62.30 31.65 - -45.93 36.00 - -52.27
时薪$ 14.31 7.08 6.60 7.06 9.28 12.23
每张图像的成本,$ 1.10 1.10 1.10 1.10 1.10 1.95

一个硕士研究生每幅图片收取0.15美元,外加30%的亚马逊佣金,每幅图片的总成本为0.195美元。

二期

II期研究结果同样表明,异常与正常总体评分的敏感性和特异性非常好,产生了高度显著的AUC (0.98; 图2当被要求区分四个严重程度时,土耳其人的准确率不高。然而,事后对比分析表明,当被要求识别中度严重异常时,土耳其人表现良好(ROC=0.85; 图2(图B)。结果模式表明,识别轻度的准确性较低(ROC=0.57; 图2重度(AUC=0.73; 图2, C组)异常是由于倾向于将所有异常评定为中度严重,而不是无法更普遍地识别正常与轻度和严重异常。结果还表明,当人群规模达到7到10个Turkers之间时,通常会达到最大AUC,这证实了用于对较大图像集进行评级的人群规模的有效性( 图2).这证实了如果我们为每个HIT寻求更多数量的土耳其人,第一阶段和第三阶段的结果不会有什么不同。

接收者-操作员特征(ROC)曲线下的面积(AUC),用于增加每个严重级别的原型图像的Turker解释的数量。土耳其人对轻度(A组)和重度图像(C组)的准确性较低,但对中度图像(B组)的准确性可接受。当所有四张图像都仅分析是否存在疾病时,土耳其人表现良好(D组),AUC非常显著。

第三阶段

在第三阶段,由于Turkers在第一阶段将可见的脉络膜血管解释为异常,因此增加了一张正常的训练图像。澄清注释以表明存在单个微动脉瘤被认为是异常的,并且不需要存在硬渗出物来实现中度或重度疾病。增加了放大分级图像的功能。在使用新训练的第一批中,使用共识Turker评分的正确分类图像的百分比并不比以前好:模式分别为42.1%(8/19张图像)对57.9%(11/19张图像),平均为21.1%(4/19张图像)对26.3%(5/19张图像)。在第二批中,采用更严格的Turker选择标准,平均正确分级图像的比例提高到52.6%(10/19张图像)(模式不变)。这一结果在重复运行该批次时得到了证实(数据未显示)。在第三批中,使用“Photo Moderation Masters”,正确分级图像的比例平均下降到36.8%(7/19张图像)(模式不变)。在所有批次中,对任何级别疾病的诊断敏感性保持在100% ( 表3

第三阶段的土耳其共识。

数字正确(平均)一个 正确率(平均) 号码正确(模式)一个 正确率(模式) 灵敏度b 特异性b
第一阶段:四类评级 5 26.3 11 57.9 100.0 100.0
第三阶段:试验1(改进训练) 4 21.1c 8d 42.1 100.0 57.1
第三阶段:试验2(支持率提高) 10 52.6 11e 57.9 100.0 100.0
第三阶段:试三(硕士生) 7 36.8 11 57.9 100.0 100.0

一个按级别计算(例如,Turker共识匹配专家指定为正常、轻度、中度和严重)。

b使用模式共识评分计算正常与任何疾病水平。

c在排除了一个系统得分较高的土耳其人后,42.1%的人正确。

d三幅图像没有模式,“数字正确”和“%正确”被认为是不正确的,但敏感性和特异性被重新编码为异常。

e一张图像没有模式,“正确数字”和“正确百分比”被认为是不正确的,但敏感度和特异性被重新编码为异常。

讨论 主要研究结果

通过公共众包平台招募的匿名、未经培训的工作人员,只需接受最少的培训,就可以快速、正确地将糖尿病患者的眼底照片分类为正常或异常。在这项研究中,turker以高灵敏度对这些图像进行分级,这是一种理想的筛选仪器。关键的是,在我们的任何批次中都没有产生假阴性的共识结果,这表明没有遗漏DR病例。当被要求根据视网膜病变的程度对照片进行分类时,土耳其人在土耳其语界面的改变下有所改善,特别是在执行HITs所需的事先批准率增加的情况下。达到可靠的“共识等级”所需的评分者的数量在各个类别中是一致的,每张图像建立10个评分实例就足以获得有效的结果。

解读图像的总费用为每只眼睛1.10美元。虽然目前仍需要进一步评估异常图像,以确定需要现场检查的患者,但这一成本已接近一些研究人员建议的发展中经济体可行的公共健康筛查的极限[ 34].事实上,在我们的研究中,每张图像的报销金额从有效时薪6.60美元到14.31美元不等,可能会减少,因为AMT工人的合理目标时薪是联邦最低时薪7.25美元或更低[[ 35].此外,发布更大批量的图像可能会降低每张图像的补偿,因为在任务变得更熟练后,土耳其人的速度可能会提高,使他们能够保持相同的有效工资。虽然高质量的回应与高工资之间可能没有直接关系[ 36,高工资和快速完成图像分级之间可能存在联系,因此大幅减少报销可能并不明智。

对个别土耳其人分数的事后分析显示,在第一批第三阶段的一个土耳其人不一致地使用四个分级类别( 表3).通过考虑这一特定批次,可以揭示几个问题。首先,很少出现不一致使用所有类别的情况,这表明土耳其人是认真的工人。从Turkers在完成HITs时所做的评论中也可以明显看出这一点,其中包括对界面改进的深思熟虑的建议,以及对一些感觉模糊的HITs的关注。其次,使用众包响应的平均值可能会产生对异常值相当敏感的输出。因此,使用模式来计算共识通常是可取的,尽管一些图像可能没有纯模式( 表3),在这种情况下,任何“平局”的较高分数将被用于临床。第三,更广泛地说,AMT可能容易受到Turker账户的影响,这些账户试图利用系统,通过实时个人或自动程序或“机器人”快速完成随机响应的HITs [ 29].展望未来,可能有必要分析这种现象的原始Turker分数,并可能开发出排除系统不可靠分数的方法。

由于AMT是一个基于声誉的经济,请求者可以拒绝或阻止表现不佳的土耳其人。这两种行为都对土耳其人的声誉产生了负面影响,这反过来又影响了他们未来执行HITs的能力,因此他们有强烈的动机准确和诚实地执行任务。这可能就是为什么将先前的HIT支持率提高到99%对共识准确性有最显著的影响。增加“图片审核大师”资格并没有提高员工的共识。这可能是因为Amazon用于授予此资格的标准与我们的任务无关。此外,由于只有一小部分土耳其人具有资格,要求它减少了可用的劳动力,这可能会增加完成批次所需的时间。特别是考虑到额外的亚马逊佣金,在未来这些类型的任务中,使用硕士资格可能没有必要或没有成本效益。

目前的研究仅限于一组精心挑选的高质量的弥漫性眼底照片,以说明糖尿病视网膜病变的关键发现。筛查人群可能有一个低质量或无法解释的图像子集,也可能有更多的正常眼底图像。在这些照片中鉴定病理需要土耳其人的额外警惕,以便在大组正常照片中发现轻微疾病。更大的数据集,更微妙的病理需要用这种方法进行测试。此外,分析对界面的迭代改进是否会带来更好的结果是令人困惑的,因为土耳其人可能之前已经接触过这项任务,并且可能正在通过实践提高他们的评分。这是不太可能的,因为土耳其人没有收到他们的评级反馈,所以他们不知道他们是否正确评级的图像。此外,虽然目前还不能“阻止”之前完成了我们的任何HITs的土耳其人,但可以在项目中查看他们的评分历史。令人惊讶的是,在所有发布的批次中,我们的大部分HITs都是由土耳其人完成的,否则naïve到我们的项目。在这个项目发布的最后一批190次点击中,在使用相同图片发布了大约3000次点击后,170次(89.5%)是由以前从未进行过任何点击的土耳其人完成的,20次点击是由3名土耳其人完成的,他们每人之前只对4张图片进行了评分(数据未显示)。在未来更大的批次中,随着时间的推移,调整单个评分者的改进可能是必要的。

未来的考虑

虽然仍需要进一步完善的方法来解决视网膜病变的程度,但目前的模型可能被用作一种方法,通过在非常大的筛查中消除大多数正常图像,只传递那些异常图像进行进一步表征,从而减轻熟练的分级人员的负担。虽然在AMT上完成HITs的个人是真正匿名的,但他们确实有唯一的数字标识符,并且可以跨HITs和批量的HITs进行跟踪。因此,使用众包接口的一个有趣的可能性可能包括培养一个特定的土耳其人骨干,他们证明了可靠的评级记录。这些评分者可能比一般的土耳其人有更高的分类能力,可以被招募来执行更复杂的评分任务。此外,未来自动化计算机算法也可能在DR和其他疾病的眼底图像分析中发挥作用。这提高了人工智能和人类智能之间更强大互动的可能性。一个系统可以对图像进行分层分级,然后将分级不明确的图像路由到另一个系统进行进一步验证。

这种众包项目的一个意想不到的好处是,它可能会提高人们对糖尿病和糖尿病性视网膜病变的认识。由于我们的界面允许土耳其人留下反馈,让我们完善仪器,我们能够捕捉到诸如“我对糖尿病有一点了解[sic]”,“我真的很喜欢看眼睛的照片,非常有趣”,“这个HIT非常好,从所有的泡沫调查中很好的休息。谢谢你!,这表明我们对这一主题的兴趣超出了其他HITs,也超出了我们一开始的预期。这一发现与生物医学研究以外领域的“虚拟公民科学”是一致的。 37].

结论

众包是一种新颖而廉价的快速识别糖尿病视网膜病变的方法。这项技术还需要进一步改进,需要使用更大的图像集进行外部验证。此外,在临床使用该技术之前,还需要解决多个医学法律和伦理问题,但在未来的大型公共健康筛查和其他环境中,众包医学成像数据可能会发挥作用。

缩写 AMT

亚马逊土耳其机器人

AUC

曲线下面积

博士

糖尿病性视网膜病变

打击

人类智力任务

中华民国

-操作者特性

这项研究得到了威尔斯眼科医院视网膜研究和教育医学博士J. Arch McNamara纪念基金的支持。赞助者在研究的设计、实施或发表决定中没有任何作用,他们也没有在手稿的审查或批准中发挥任何作用。

该手稿于2014年8月在美国视网膜专家协会年会上发表。

没有宣布。

贝克 RW 糖尿病对公众健康的影响:眼科医生的作用 角膜切削 2011 02 129 2 225 9 10.1001 / archophthalmol.2010.331 21320972 129/2/225 Javitt JC 罐头 JK 弗兰克 RG Steinwachs DM 大梁 一个 I型糖尿病患者视网膜病变的检测和治疗。卫生政策模型 眼科学 1990 04 97 4 483 94;讨论494年 2109299 Javitt JC Aiello LP 检测和治疗糖尿病视网膜病变的成本-效益 实习医生 1996 01 1 124 1 Pt 2 164 9 8554212 琼斯 年代 爱德华兹 RT 糖尿病视网膜病变筛查:经济证据的系统回顾 Diabet地中海 2010 03 27 3. 249 56 10.1111 / j.1464-5491.2009.02870.x 20536486 DME2870 Schoenfeld 格林 JM SY Leske MC 坚持糖尿病视力护理指南的模式:糖尿病视网膜病变意识计划的基线发现 眼科学 2001 03 108 3. 563 71 11237912 s0161 - 6420 (00) 00600 - x 巴斯 上海 Varma R 克莱因 R J Azen牌 SP 洛杉矶拉丁裔眼科研究小组 拉丁裔2型糖尿病患者不遵守视力护理指南:洛杉矶拉丁裔眼科研究 眼科学 2006 08 113 8 1372 7 10.1016 / j.ophtha.2006.04.018 16769120 s0161 - 6420 (06) 00566 - 5 费尔德曼 ZW Ostermann J 棕色(的) DS 斯隆管理学院 足总 糖尿病和慢性眼病患者每年眼部检查的纵向比率 眼科学 2003 10 110 10 1952 9 10.1016 / s0161 - 6420 (03) 00817 - 0 14522771 s0161 - 6420 (03) 00817 - 0 DS Sharza W 复活节的 摩根富林明 Ariyasu RG 健康维护组织(HMO)在糖尿病群体模型中的视力丧失 Am J眼科 2002 02 133 2 236 41 11812428 S0002939401013642 锋利的 PF 奥尔森 J 斯特 F Hipwell J Ludbrook 一个 奥唐纳 华莱士 年代 Goatman K 格兰特 一个 NgydF4y2Ba McHardy K 弗雷斯特 合资企业 数字成像在糖尿病视网膜病变中的应用价值 卫生技术评估 2003 7 30. 1 119 14604499 94-18-05 斯坎伦 PH值 威胁视力的糖尿病视网膜病变的英国国家筛查计划 J医学屏幕 2008 15 1 1 4 10.1258 / jms.2008.008015 18416946 Ng Nathoo NgydF4y2Ba Rudnisky CJ 坦南特 改善眼科护理:加拿大阿尔伯塔省的远程眼科 糖尿病科技杂志 2009 03 3. 2 289 96 20144360 PMC2771508 T Lefley 克莱蒙特 D 糖尿病眼部自动筛查的进展:糖尿病视网膜病变的图像分析和智能系统综述 医学生物工程计算 2002 01 40 1 2 13 11954703 艾布拉姆 医学博士 民间 JC DP 沃克 JD 威廉姆斯 DF 罗素 Massin P Cochener B 获得 P l Lamard 莫卡 直流 Quellec G Niemeijer 自动分析视网膜图像以检测可参考的糖尿病视网膜病变 JAMA角膜切削 2013 03 131 3. 351 7 10.1001 / jamaophthalmol.2013.1743 23494039 1668203 Trucco E 最近 一个 Karnowski T Giancardo l Chaum E Hubschman 摩根大通 Al-Diri B CY D 艾布拉姆 Lim G 库马尔 D Burlina P 布瑞斯勒 纳米 内克 高频 Meriaudeau F Quellec G 麦吉利弗雷 T Dhillon B 视网膜眼底图像分析算法的验证:问题与建议 投资眼科Vis科学 2013 05 54 5 3546 59 10.1167 / iovs.12 - 10347 23794433 54/5/3546 布拉罕 直流 众包。麻省理工学院出版社基本知识系列 2013 剑桥,麻 麻省理工学院出版社 布拉罕 直流 Ribisl 公里 基什内尔 TR 伯恩哈特 JM 公共卫生领域的众包应用 是J Prev Med吗 2014 02 46 2 179 87 10.1016 / j.amepre.2013.10.016 24439353 s0749 - 3797 (13) 00589 - 8 Luengo-Oroz Arranz 一个 Frean J 众包疟疾寄生虫量化:一款在线游戏,用于分析被感染的厚血涂片图像 J医疗互联网服务 2012 14 6 e167 10.2196 / jmir.2338 23196001 v14i6e167 PMC3510720 Mitry D 皮托 T 年代 摩根 新加坡 KT 福斯特 PJ 众包作为一种视网膜眼底摄影分类的新技术:代表英国生物库眼睛和视觉联盟的EPIC诺福克队列中的图像分析 《公共科学图书馆•综合》 2013 8 8 e71154 10.1371 / journal.pone.0071154 23990935 玉米饼- d - 13 - 23630 PMC3749186 香港 霍顿 Bursell SE Cavallerano J Zimmer-Galler 坦南特 艾布拉姆 Chaum E Debuc 直流 Leonard-Martin T 温彻斯特 美国远程医疗协会糖尿病视网膜病变远程医疗实践建议工作组 劳伦斯 毫克 鲍曼 W 加德纳 Hildebran l Federman J 糖尿病视网膜病变远程医疗实践建议,第二版 Telemed J E Health 2011 12 17 10 814 37 10.1089 / tmj.2011.0075 21970573 亚马逊土耳其机器人 2014-08-25 https://www.mturk.com/mturk/welcome 6 s5lymqkr Ilakkuvan V Tacelosky 艾维 KC 皮尔森 莱托 卡佩尔 J Vallone DM 艾布拉姆斯 DB 基什内尔 TR 用于公共卫生监测的摄像机:销售点照片众包注释的方法协议 JMIR Res Protoc 2014 3. 2 e22 10.2196 / resprot.3277 24717168 v3i2e22 PMC4004156 特纳 基尔霍夫 K Capurro D 利用众包技术测试多语种公共卫生宣传材料 J医疗互联网服务 2012 14 3. e79 10.2196 / jmir.2063 22664384 v14i3e79 PMC3414863 亨肖 EJ 病得太重,还是病得不够?治疗类型和时间对抑郁症病耻感的影响 神经病 2014 04 202 4 292 9 10.1097 / NMD.0000000000000121 24647215 Halkjelsvik T 令人厌恶和恐惧的反吸烟广告会增加或减少对烟草控制政策的支持吗? 国际禁毒政策 2014 07 25 4 744 7 10.1016 / j.drugpo.2014.01.021 24630079 s0955 - 3959 (14) 00024 - 3 卡特 RR DiFeo 一个 转向架 K 《GQ》 太阳 J 众包意识:通过亚马逊土耳其机器人探索卵巢癌知识差距 《公共科学图书馆•综合》 2014 9 1 e85508 10.1371 / journal.pone.0085508 24465580 玉米饼- d - 13 - 31754 PMC3899016 天鹅 众包健康研究:公共卫生研究生态系统中对临床试验的重要补充 J医疗互联网服务 2012 14 2 e46 10.2196 / jmir.1988 22397809 v14i2e46 PMC3376509 BM Loguercio 年代 格里菲思 OL 纳尼 C 人工智能 治愈:乳腺癌生存预测基因选择众包游戏的设计和评估 JMIR严肃游戏 2014 07 29 2 2 e7 10.2196 / games.3350 达斯古普塔 NgydF4y2Ba Freifeld C 布朗斯坦 JS Menone 厘米 ·苏拉特 霍奇金淋巴瘤 Poppish l 绿色 莱托 Lavonas EJ 飞镖 钢筋混凝土 众包处方阿片类药物的黑市价格 J医疗互联网服务 2013 15 8 e178 10.2196 / jmir.2810 23956042 v15i8e178 PMC3758048 马丁 D 汉拉罕 BV 奥尼尔 J 做一个土耳其人 第17届ACM计算机支持合作工作和社会计算会议论文集 2014 第17届ACM计算机支持合作工作和社会计算会议 2014年2月15日至19日 巴尔的摩,马里兰州,美国 10.1145/2531602.2531663 Ipeirotis PG CeDER工作文件-10-01 2010 2014-09-26 机械土耳其人的人口统计 http://hdl.handle.net/2451/29585 6 stcwi3a8 Shotliff K 邓肯 G 糖尿病性视网膜病变:分级和管理标准综述 实践Diab Int 2006 11 23 9 418 420 10.1002 / pdi.1029 Quenouille MH 关于估计偏差的注释 生物统计学 1956 43 3 - 4 353 360 10.1093 / biomet / 43.3 - -4.353 亚马逊土耳其机器人常见问题 2014-08-25 https://requester.mturk.com/help/faq 6 s5ljfant 弗里德曼 DS 阿里 F Kourgialis NgydF4y2Ba 发展中国家的糖尿病视网膜病变:如何识别和治疗服务不足的人群 Am J眼科 2011 02 151 2 192 4. e1 10.1016 / j.ajo.2010.10.014 21251492 s0002 - 9394 (10) 00813 - 5 霍顿 JJ 奇尔顿 付费众包的劳动经济学 第11届ACM电子商务会议记录 2010 第11届ACM电子商务会议 2010年6月7日至11日 剑桥,马萨诸塞州,美国 10.1145/1807342.1807376 梅森 W 美国瓦茨 DJ 财务激励与“群体表现” ACM SIGKDD人类计算研讨会论文集 2009 2009年ACM SIGKDD人类计算研讨会 2009年6月28日至7月1日 法国巴黎 10.1145/1600150.1600175 里德 J Raddick 乔丹 拉德纳 一个 参与Zooniverse的动机的探索性因素分析,一个虚拟公民科学项目的集合 第46届夏威夷系统科学国际会议 2013 第46届夏威夷系统科学国际会议 2013年1月7日至10日 威利亚,毛伊岛,你好 10.1109 / HICSS.2013.85
Baidu
map