本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/33771,首次出版
帮助自闭症检测的异常手运动分类:机器学习研究

帮助自闭症检测的异常手运动分类:机器学习研究

帮助自闭症检测的异常手运动分类:机器学习研究

原始论文

1美国加州斯坦福大学儿科系系统医学部

2斯坦福大学电气工程系,加州斯坦福,美国

3.美国加州斯坦福大学生物医学数据科学系

4斯坦福大学生物工程系,加州斯坦福,美国

5神经科学系,斯坦福大学,斯坦福,加州,美国

6信息与计算机科学,夏威夷大学Mānoa分校,檀香山,HI,美国

通讯作者:

彼得·华盛顿博士

信息与计算机科学

夏威夷大学Mānoa分校

校园路2500号

檀香山,HI, 96822

美国

电话:1 5126800926

电子邮件:peter.y.washington@hawaii.edu


背景:正式的自闭症诊断可能是一个低效而漫长的过程。尽管有证据表明,早期干预会带来更好的治疗效果,但家庭可能要等几个月或更长时间才能得到孩子的诊断结果。检测自闭症相关行为的数字技术可以扩大儿科诊断的覆盖面。自闭症存在的一个强有力的指标是自我刺激行为,如拍手。

摘要目的:本研究旨在证明深度学习技术用于检测非结构化家庭视频中的手扑的可行性,作为验证统计模型与数字技术相结合是否可以用于帮助自闭症的自动行为分析的第一步。为了支持此类家庭视频的广泛共享,我们通过将每个视频转换为手动地标坐标,探索了对输入空间的隐私保护修改,并测量了相应时间序列分类器的性能。

方法:我们使用了自我刺激行为数据集(SSBD),其中包含75个儿童展示的拍手、撞头和旋转的视频。从这个数据集中,我们提取了100个手拍视频和100个对照视频,每个视频的持续时间在2到5秒之间。我们评估了五个独立的特征表示:MediaPipe检测到的四个隐私保护的手地标子集,以及从SSBD上微调的MobileNetV2模型的倒数第二层输出中获得的一个特征表示。我们将这些特征向量输入一个长短期记忆网络,以预测每个视频片段中手掌拍打的存在。

结果:性能最高的模型使用MobileNetV2提取特征,并获得了84的测试F1分数(SD 3.7;精度89.6,SD 4.3,召回率80.4,SD 6),对SSBD数据上的100个随机种子(总共500个不同的折叠)进行5倍交叉验证。在我们使用隐私保护数据训练的模型中,使用所有手部地标训练的模型F1得分达到66.6 (SD 3.35)。另一个这样的模型用选择的6个地标进行训练,F1得分达到68.3 (SD 3.6)。使用手部底部的单个地标进行训练的隐私保护模型和使用所有手部地标位置的平均值进行训练的模型分别达到了64.9 (SD 6.5)和64.2 (SD 6.8)的F1分数。

结论:我们创建了5个轻量级神经网络,可以从非结构化视频中检测手部拍打。使用卷积特征向量训练长短期记忆网络优于使用手坐标特征向量训练,并且使用的模型参数少了近900,000个。这项研究为开发精确的深度学习方法来检测自闭症相关行为提供了第一步。

JMIR Biomed Eng 2022;7(1):e33771

doi: 10.2196/33771

关键字



在美国,每44人中就有1人患有自闭症。1]也是美国发展最快的发育迟缓[23.].虽然自闭症可以在24个月大时被准确识别[45],平均诊断年龄略低于4.5岁[6].这是有问题的,因为早期干预会改善治疗结果[7].移动数字诊断和治疗可以帮助弥合这一差距,为缺乏医疗服务的人群提供可扩展和可获得的服务。使用数字和移动疗法来支持自闭症儿童已经在可穿戴设备上进行了探索和验证[8-15]和智能手机[16-22通过机器学习模型来帮助自动化和简化治疗过程。

以前的文献中已经探讨过使用机器学习对自闭症进行移动诊断的努力。自闭症可以用10个或更少的行为特征来分类为高表现[23-28].虽然一些未经训练的人可以可靠地区分这些行为特征[2529-36],最终目标是从“人在回路”的解决方案转向自动化和保护隐私的诊断解决方案[3738].在这一领域的初步努力包括自动检测自闭症相关行为,如撞头[39],情感唤起[40-42],以及眼睛凝视[43].

限制性和重复性的运动,如手刺激,是自闭症诊断仪器使用的主要行为特征[44].因为目前还不存在用于异常手部运动的计算机视觉分类器,至少在公共领域,我们努力创建一个分类器,可以检测这种与自闭症相关的特征,作为自动化临床支持系统的第一步,用于自闭症等发育迟缓。

姿态估计和活动识别已被探索作为一种检测自我刺激行为的方法。维亚斯等[45]重新训练二维掩码区域卷积神经网络(R-CNN) [46],以获得15个身体标志的坐标,然后将这些坐标转换为姿势运动(Pose Motion, PoTion)表示[47]并输入卷积神经网络(CNN)模型来预测自闭症相关的非典型运动。该方法的分类准确率为72.4%,精密度为72%,召回率为92%。Rajagopalan和Goecke [48]使用主导运动直方图(HDM)表示来训练一个模型来检测自我刺激行为[48].自我刺激行为数据集(SSBD) [49],我们也在本研究中使用了该方法,作者在区分头部撞击和旋转时达到了86.6%的二进制精度,在区分头部撞击、旋转和手拍打的3种方式任务中达到了76.3%的精度。我们注意到,他们没有用没有任何自我刺激行为的控制类来训练分类器。赵等[50]使用头部旋转范围和每分钟在偏航、俯仰和滚动方向上的旋转作为自闭症检测分类器的特征。以头部在滚转方向上的旋转范围和每分钟在偏航方向上的旋转量为特征的决策树模型,分类准确率达到92.11%。

在这些前期工作的基础上,我们开发了一种用于儿童异常手部运动的计算机视觉分类器。与之前基于运动的自闭症检测方法相比,我们的目标是检测自闭症相关的行为,这些行为可能有助于自闭症诊断,但也可能与其他行为症状有关。我们在SSBD上训练了我们的异常手运动分类器,因为它是唯一公开的描述儿童异常手运动的视频数据集。我们使用交叉验证,通过将经过微调的MobileNetV2模型输入到长短期记忆(LSTM)中,使用每帧发出的卷积特征,我们获得了84%的F1分数。我们还探索了保护隐私的手工设计特征表示,它可能支持家庭视频的广泛共享。


概述

我们比较了五种不同的训练方法:输入LSTM的四个MediaPipe手标子集和输入LSTM的微调MobileNetV2卷积特征。手标方法对基于隐私保护特征表示的活动检测进行了探索。由于我们努力在低资源环境(如移动设备)中使用机器学习分类器,我们还致力于使我们的模型和特征表示尽可能轻。

数据集

我们使用SSBD [49来训练和测试我们的模型。据我们所知,SSBD是唯一公开的自我刺激行为数据集,其中包括撞头、拍手和旋转。SSBD包括75个YouTube视频的url,每个视频都有每次自我刺激行为发生的时间周期(例如,秒1到秒35)的注释。多个视频包含相同行为的多个时间段(例如,第1-3秒和第5-9秒都包含拍手)以及多个行为(例如,第1-3秒显示头部撞击,第5-9秒显示拍手)。我们只使用了拍打手掌的注释。

预处理

为了获得没有手掌拍打显示的对照视频,我们首先下载了SSBD中包含手掌拍打部分的所有YouTube视频。视频中展示手拍打的每个部分都被提取出来创建一个新剪辑。视频中没有手拍的部分(即,没有注释)被隔离出来创建控制剪辑。此数据管理过程说明在图1

在从下载的视频中提取所有积极和控制剪辑后,我们的目标是最大化每个类的训练数据量。因为拍手事件发生在几秒钟内,我们将任何超过2秒的剪辑分割成更小的剪辑。我们手动删除了任何质量不稳定或低质量的视频。我们总共提取了50个显示拍手动作的视频片段和50个对照视频。

图1。阳性和对照视频的提取。演示手拍打的视频片段被分开来创建正视频,手拍打部分之间的片段被用作控制视频。
查看此图

特征提取

我们评估了五种不同的特征提取方法。对于其中四个,我们使用检测到的手地标的数值坐标拼接成一个一维向量作为主要特征表示。对于剩下的模型,我们微调了一个移动优化的CNN, MobileNetV2 [51],以学习从原始图像序列中获得的特征。我们注意到,基于地标的特征表示是隐私保护的,因为它们不需要在给定的数据中显示参与者的面部以进行适当的分类。

为了提取手部坐标,我们使用了MediaPipe,这是一个由谷歌托管的框架,它可以检测一个人脸上、手上和身体上的地标[52].MediaPipe的手部地标检测模型提供了它在每只手上检测到的21个地标中的每一个的(x, y, z)坐标。x坐标和y坐标分别描述了该地标在水平和垂直维度上的距离。z坐标提供了地标距离摄像机的估计距离。当MediaPipe没有检测到某个地标时,该地标的(x, y, z)坐标都被设置为0。

我们尝试的第一种基于地标的特征表示方法使用MediaPipe提供的每只手上的所有21个地标来创建输入LSTM的位置向量。SSBD的视频中,大多数孩子的手地标因手小而靠得更近。这可能是一个问题,当推广到年龄较大的人之间的手势间隔较大。为了帮助模型泛化手部形状以外的东西,一种可能的解决方案是使用一个精心策划的地标子集。

要消除所有的手型,人们只能使用一个地标。我们尝试了这种方法,在手掌底部使用一个单一的标记。但是,由于SSBD中的视频可能不稳定,依赖MediaPipe能够检测这个里程碑可能会导致一些帧的空特性。规避这个问题的一种方法是取所有(x, y, z)检测到的地标坐标的平均值,并使用每只手的平均坐标。我们称这种方法为“平均地标”方法。

我们取视频的前90帧,对于每一帧,我们将特征向量连接起来,并将它们作为LSTM模型的每个时间步的输入(图2).我们尝试使用MediaPipe提供的地标子集;我们尝试使用全部21个标记,6个标记(每个指尖5个,手心1个),以及单个标记。我们注意到,地标的连接坐标将始终形成一个比所使用的地标数量大6倍的向量,因为单个地标有3个坐标,每个地标可以检测到2个指针。

图2。手拍检测工作流程。单个视频的最初90帧都转换为一个特征向量,由MediaPipe检测到的坐标位置(如图所示)或从MobileNetV2模型的卷积层提取的特征向量组成。对于所有的特征提取方法,得到的特征向量都被传递到LSTM中。LSTM在最后时间步上的输出被馈送到多层感知器层,以提供最终的二进制预测。LSTM:长短期记忆。
查看此图

模型架构

我们用于所有实验的神经网络结构由一个64维输出的LSTM层组成。LSTM的输出被传递到具有sigmoid激活的全连接层以获得二进制预测。为了减少过拟合,我们还在LSTM和密集层之间插入了一个dropout层,dropout率为30%。基于地标的模型包含近300万个参数。(表1).我们注意到参数的数量取决于特征方法;表1显示基于我们使用所有21个地标的最重特征方法的参数数量。

在选择这个模型之前,我们尝试了其他模型架构。我们发现,添加多个LSTM或全连接层并没有导致任何显著的性能差异;因此,我们删除了这些层,以最小化模型过拟合的能力。我们还对LSTM的输出维数进行了实验;我们试过8、16、32和64。我们发现使用32和64的性能相似,64的性能通常略好。

表1。以手部标志为特征的神经网络中参数的数量。两种特征提取模型共包含3133336个参数。相比之下,MobileNetV2特征提取包含2个输出类的2,260,546个参数。
参数,n
MediaPipe手探测器 1757766年
MediaPipe地标提取器 1375570年
LSTM一个(64单位) 48896年
辍学(30%) 0
密集的 65
总计 3182297年

一个LSTM:长短期记忆。

模型训练

我们使用Adam优化训练所有二元交叉熵损失模型[53].我们尝试了0.0005、0.0001、0.0005、0.001和0.1的学习率,发现在几乎所有情况下,0.01的效果最好。所有的模型和增强都是使用Keras [54使用TensorFlow [55后端在木星上运行。由于低维特征表示不需要gpu或专门的硬件,并且在具有32GB RAM的CPU上训练单个模型只需几分钟。

对于所有的模型,我们训练模型,直到有一致的收敛10个或更多的时代。这导致在所有模型上进行了75次训练。训练结束后,我们将模型的权重恢复到它表现最好的权重。我们对所有的特性方法都使用了这种策略。


概述

我们使用5次交叉验证来评估每个模型在训练和测试中所有折叠的平均准确性、精密度、召回率和F1分数。然而,由于我们的数据集很小,每个折叠中视频的特定排列在很大程度上影响了模型的性能。为了尽量减少这种影响,我们运行了100次5次交叉验证程序,每次使用不同的随机种子,结果总共有500次不同的折叠。我们进一步确保每一次折叠在训练集和测试集都是完全平衡的(50%的头部碰撞和50%的头部不碰撞)。在所有折叠中,有10个视频显示拍手,10个视频显示撞头。

我们报告了所有500次折叠中每个指标的平均值和SD,以及接受者工作特征(AUROC)下的面积。对于所有特征方法,我们还显示了所有折叠的平均接收器工作特征(ROC)曲线。

所有手地标

这种方法使用了双手的所有21个地标,总共有42个独特的地标。我们在中展示了这种方法的结果表2.在图3,我们显示了添加和未添加增强的模型的ROC曲线。

在使用所有地标时,我们使用图形插值来填充缺失地标的坐标,以帮助减少相机不稳定的影响。然而,当我们尝试这样做时,我们发现它通常会降低准确性,并导致更高的SDs。因此,我们决定在评估下一节中描述的方法时不再使用插值。我们推测,MediaPipe无法检测手部关键点可能是手部扑动检测的显著特征,而一旦关键点被插入,该特征就变得模糊了。

表2。在特征表示中使用所有手部标志时,用于训练和测试的模型性能。
运行类型 准确性(SD;%) 精度(SD;%) 回忆(SD;%) F1 (SD;%)
培训 79.7 (1.6) 82.4 (2.67) 76.5 (3.0) 79.0 (1.7)
测试 68.0 (2.66) 70.3 (3.6) 65.34 (5.0) 66.6 (3.35)
图3。当使用所有手部标志时,受试者工作特征(ROC)曲线贯穿所有运行。我们在受试者工作特征下的面积为0.748 (SD为0.26)。
查看此图

单手地标

在这里,我们描述了均值和一个地标方法,这两种方法都依赖于每只手上的一个地标作为特征表示。我们展示了两种方法的结果,有和没有增强,在表3.在图4,我们显示两种方法的平均ROC曲线。

表3。有和没有数据增强的平均与单一地标特征表示的模型性能。
方法 火车/测试 准确性(SD;%) 精度(SD;%) 回忆(SD;%) F1 (SD;%)
的意思是具有里程碑意义的 培训 69.2 (4.1) 70.4 (5.3) 70.6 (7.0) 68.9 (5.12)
的意思是具有里程碑意义的 测试 65.5 (4.5) 66.7 (7.4) 66.9 (9.6) 64.2 (6.8)
一个具有里程碑意义的 培训 69.2 (3.4) 70.47 (4.4) 69.71 (6.7) 68.7 (4.4)
一个具有里程碑意义的 测试 65.8 (4.3) 66.5 (7.5) 68.0 (6.7) 64.9 (6.5)
图4。均值(左图)和一个(右图)地标方法的平均ROC曲线。平均标记方法的受试者工作特征面积(AUROC)为0.73 (SD 0.04),一个标记方法的AUROC为0.751 (SD 0.03)。ROC:受试者工作特征。
查看此图

六手地标

我们使用指针边缘的六个地标来创建位置框架。我们获得了F1分数,分类准确率约为72.3% (表4).我们还实现了AUROC为0.76 (图5).

在所有基于地标的方法中,六个地标的方法产生了最佳结果。这种方法的所有验证指标都比前面讨论的要高。

表4。包含六个地标的特征表示的训练和测试中的模型性能。
运行类型 准确性(SD;%) 精度(SD;%) 回忆(SD;%) F1 (SD;%)
培训 76.8 (1.95) 78.7 (2.9) 74.7 (3.5) 76.2 (2.1)
测试 69.55 (2.7) 71.7 (3.5) 67.5 (5.5) 68.3 (3.6)
图5。受试者工作特征(ROC)曲线为所有试验的六个里程碑方法。采用这种方法,我们在受试者工作特征下的面积为0.76 (SD为0.027)。
查看此图

MobileNetV2模型

在到目前为止讨论的方法中,MediaPipe一直被用作特征提取器,将每个视频帧转换为低维向量表示。在这里,我们将MediaPipe特征提取器替换为MobileNetV2的[51卷积层(在ImageNet上预训练[56]并在SSBD上进行微调)作为特征提取器。与基于地标的方法一样,这个提取的向量被输入到LSTM网络中,以获得视频中是否存在手扑的预测。我们在相同的100个数据集(总共500次折叠)上评估了这个模型,就像我们用于所有其他方法一样。模型的ROC曲线如图所示图6,而量度的详细资料载于表5

MobileNetV2模型的准确率和F1分数都在85%左右,超过了所有基于地标的方法的性能。MobileNetV2模型也有更高的过拟合能力,在训练中达到近乎完美的准确性(>99.999%),而所有基于地标的方法在任何训练指标上都从未超过90%。我们推测这是因为MobileNet V2模型已经学习了监督学习过程的特征提取和判别步骤。

图6。移动网络的接收者工作特征(ROC)曲线。通过这种方法,我们获得了0.85 (SD 0.03)的受试者工作特征下的面积。
查看此图
表5所示。当使用MobileNetV2卷积层作为特征提取器时,在训练和测试中的模型性能。
运行类型 准确性(SD;%) 精度(SD;%) 回忆(SD;%) F1 (SD;%)
培训 97.7 (1.0) 99.5 (0.0) 95.9 (1.7) 97.6 (1.0)
测试 85.0 (3.14) 89.6 (4.3) 80.4 (6.0) 84.0 (3.7)

结果比较

我们进行了一个双面实验t测试,以确定我们观察到的每种方法(包括MobileNetV2方法)的差异是否具有统计学意义。我们在比较中应用Bonferroni校正,认为aP值<。005一个s statistically significant. We show theP在上述4个指标上比较所有方法的值表6

Bonferroni校正后,两种方法之间的比较大多具有统计学意义。两种单一地标方法(平均值和一个地标)对任何指标都没有统计学意义。

表6所示。我们进行了双侧t检验,以确定每种方法的结果差异是否具有统计学意义。我们显示P500的精度、精密度、召回率和F1值。

所有地标vs平均地标(P值) 所有地标vs一个地标(P值) 所有地标vs六个地标(P值) 所有地标与移动网络(P值) 六个地标vs平均地标(P值) 六个地标vs一个地标(P值) 六座地标vs流动网络(P值) 平均地标vs一个地标(P值) 平均地标vs流动网络(P值) 一个地标vs移动网络(P值)
精度 <措施 <措施 <措施 <措施 <措施 <措施 <措施 <措施 <措施
精度 <措施 <措施 .007 <措施 <措施 <措施 <措施 .85 <措施 <措施
回忆 酒精含量 . 01 04 <措施 .59 <措施 <措施 <措施
F1 .002 02 措施 <措施 <措施 <措施 <措施 50 <措施 <措施

主要结果

我们探索了几种轻量级手扑分类器的特征表示,这些分类器在SSBD上取得了不错的性能。性能最高的模型使用MobileNetV2提取特征,并获得了84的测试F1分数(SD 3.7)。用所有手部标志训练的模型F1得分达到66.6 (SD 3.35)。经过6个选定地标训练的模型F1得分达到68.3 (SD 3.6)。使用手掌底部的单个地标进行训练的模型F1得分达到64.9 (SD 6.5)。

本研究的一个兴趣点是在诊断机器学习任务中隐私保护解决方案和性能之间的权衡。虽然MobileNetV2模型优于所有MediaPipe分类器,但MobileNetV2模型缺乏保护参与者隐私的能力,因为参与者的脸最终被用于分类所需的数据中。我们预计这将成为行为诊断领域未来研究的一个难点。

限制

这种方法的主要限制是,在各种与手相关的活动和数据集上没有进一步的类标签,当推广到SSBD之外的其他数据集时,该模型可能缺乏特异性。手可以移动,但不能显示拍手或自我刺激的动作。此外,在没有正式的自闭症诊断的情况下,手的刻板使用也可能发生。这种精度需要能够区分手部运动模式的多类模型。如果没有相应的标记数据集,就不能建立这样的模型,因此我们强调了对显示与发育性卫生保健相关行为的数据集的管理的需要。

为了使这项研究真正泛化,需要在SSBD之外的数据集上进一步验证。虽然SSBD在策划时考虑到了自闭症诊断,但描述原始数据集的论文不一定包括确诊为自闭症的儿童。现有的移动疗法收集自闭症儿童的结构化视频[16-1840]可以用来获取数据集来训练更高级的模型,这些更新的模型可以集成回数字治疗中,以提供实时反馈和自适应体验。

未来工作机会

计算机视觉识别复杂的人类社会行为有无数的挑战和机遇[57,包括社交动机的手势。未来工作的其他前景包括替代特征表示和现代架构(如变压器和其他基于注意力的模型)的合并。

我们在这里描述的手运动分类器是一种潜在的分类器组合之一,它不仅可以用于提取与自闭症诊断相关的特征,还可以提供对自闭症儿童表现出哪些特定症状的洞察。这种方法的主要好处是在医学诊断中具有更强的解释性,并努力实现自动化诊断工作的特异性。

与之前工作的比较

凝视模式

自闭症患者和对照组的注视模式通常不同。张等[58研究发现,与正常发育的人相比,自闭症患者花更多的时间看分散注意力的玩具,而不是在电影中进行社交行为的人。这表明凝视模式和对社会刺激的偏好是自闭症的一个指标。凝视模式已被用作机器学习分类器的一个特征。蒋等[59他创建了一个随机森林分类器,将参与者在分类情绪和其他关于他们的凝视和面部特征方面的表现作为输入。他们用这种方法对自闭症进行分类的准确率达到86%。利亚卡特等[60]已使用的cnn [61和LSTMs对凝视模式的数据集进行了分类,并在自闭症分类上达到了60%的准确率。

面部表情

另一个与自闭症检测相关的行为特征是面部表情。患有自闭症的儿童唤起的情绪往往与正常的同龄人不同。沃尔克等人[62他们发现,与对照组相比,正常发育的评分者更难识别自闭症患者面部表情中的悲伤。Manfredonia等人证实了这一发现[20.他们使用自动面部识别软件来比较自闭症患者和正常神经系统患者在被问及时表达情绪的容易程度。他们发现,与对照组相比,自闭症患者在提示时更难做出正确的面部表情。自闭症患者的面部对称性通常较差[63].李等[64通过使用CNN提取图像中的面部表情特征,然后用于自闭症分类,获得了76%的F1分数。cnn,以及循环神经网络[65],在Zunino等人的[66研究人员用视频对自闭症进行分类。他们对自闭症患者进行分类的准确率为72%,对正常发育的对照组进行分类的准确率为77%。

对身体的设备

基于智能手表的系统和传感器已被用于检测重复行为,以帮助自闭症患者进行干预。韦斯泰恩等人[67]使用隐马尔可夫模型来检测7种不同的刺激模式,使用加速度计数据。使用这种方法,他们的准确率达到了69%。Albinali等[68他们尝试在自闭症患者的手腕和躯干上使用加速计来检测刺激。他们的准确率达到了88.6%。Sarker等[69]使用市面上可以买到的智能手表来收集成年人进行刺激行为的数据,比如撞头、拍手和重复摔倒。他们使用来自加速度计和陀螺仪数据流的70个特征构建了一个梯度增强模型,精度为92.6%,F1分数为88.1%。

姿态估计

姿态估计和活动识别也被用于检测自我刺激行为。维亚斯等[45]重新训练2D面具R-CNN [46]以获得15个关键点的坐标,然后将其转换为药水表示[47并输入CNN模型来预测自闭症相关行为。该方法的分类准确率为72.4%,精密度为72%,召回率为92%。我们注意到,他们使用了来自行为成像公司的私人视频的8349集来训练他们的模型。Rajagopalan和Goecke [48]使用了一段视频中的HDM,该视频提供了检测到的主导运动,以训练一个判别模型来检测自我刺激行为。在SSBD上[49],我们也在本研究中使用了该方法,它们在区分头部撞击和旋转行为方面达到了86.6%的准确性,在区分头部撞击、旋转和手拍打行为方面达到了76.3%的准确性。我们注意到他们没有用控制类训练分类器。另一项研究试图确定自闭症患者在点头或摇头时是否与正常的同龄人不同。他们使用头部旋转范围和每分钟在偏航、俯仰和滚动方向上的旋转量作为机器学习分类器的特征,以检测自闭症[50].他们从一个决策树模型中获得了92.11%的准确性,该决策树模型使用了滚转方向上的头部旋转范围和偏航方向上的每分钟旋转量作为特征。

致谢

该研究部分由美国国立卫生研究院DPW基金支持(1R01EB025025-01, 1R01LM013364-01, 1R21HD091500-01, 1R01LM013083);国家科学基金(奖励2014232);哈特韦尔基金会;比尔及梅琳达·盖茨基金会;库尔特基金会;露西尔·帕卡德基金会;辅机养老;伊斯兰开发银行改造基金;Weston Havens基金会;斯坦福大学以人为本的人工智能项目、精准健康和综合诊断中心、贝克曼中心、Bio-X中心、预测和诊断加速器、Spectrum、Spark转化研究项目、MediaX和吴蔡神经科学研究所的神经科学:翻译项目的项目资助。 We also acknowledge generous support from David Orr, Imma Calvo, Bobby Dekesyer, and Peter Sullivan. PW would like to acknowledge support from Mr Schroeder and the Stanford Interdisciplinary Graduate Fellowship as the Schroeder Family Goldman Sachs Graduate Fellow.

利益冲突

DPW是Cognoa.com的创始人。这家公司正在为儿科医疗开发数字健康解决方案。AK是Cognoa.com的兼职顾问。所有其他作者声明没有竞争利益。

  1. 马纳,肖克,巴基安,毕尔德,杜金,埃斯勒,等。8岁儿童自闭症谱系障碍的患病率和特征——自闭症和发育障碍监测网络,11个站点,美国,2018。疾病控制和预防中心,2021年。URL:https://www.cdc.gov/mmwr/volumes/70/ss/ss7011a1.htm[2022-05-31]访问
  2. Ardhanareeswaran K, Volkmar F.简介:关注焦点:自闭症谱系障碍。耶鲁大学医学杂志2015;88:4。
  3. Gordon-Lipkin E, Foster J, Peacock G.缩短等待时间:探索模型以最大限度地减少从最初关注到诊断和治疗自闭症谱系障碍的延迟。儿科诊所2016年10月;63(5):851-859 [免费全文] [CrossRef] [Medline
  4. Lord C, Risi S, DiLavore PS, Shulman C, Thurm A, Pickles A. 2至9岁自闭症。Arch Gen Psychiatry 2006 Jun;63(6):694-701。[CrossRef] [Medline
  5. 孙文杰,孙文杰,孙文杰。自闭症谱系障碍患儿早期发育与干预研究。中华儿童神经杂志2015年12月30日(14):1921-1929。[CrossRef] [Medline
  6. 重点:从第一个关注点到访问服务之间的延迟。美国疾病控制与预防中心,2019。URL:https://www.cdc.gov/ncbddd/autism/addm-community-report/delay-to-accessing-services.html[2022-04-29]访问
  7. Estes A, Munson J, Rogers SJ, Greenson J, Winter J, Dawson G. 6岁自闭症谱系障碍儿童早期干预的长期结果。中华医学会儿童青少年精神病学杂志2015 july;54(7):580-587 [免费全文] [CrossRef] [Medline
  8. 李文杰,李志强,李志强,等。为自闭症儿童设计的可穿戴社交辅助设备。arXiv预印本于2020年4月19日在线发布。
  9. daniel J, Schwartz J, Haber N, Voss C, Kline A, Fazel A,等。5.13自闭症儿童社会情感学习可穿戴设备的设计与效果。美国儿童青少年精神病学杂志2017年10月;56(10):S257。[CrossRef
  10. Kline A, Voss C, Washington P, Haber N, Schwartz H, Tariq Q,等。超级大国的玻璃。GetMobile移动计算社区2019年11月14日;23(2):35-38。[CrossRef
  11. 李文杰,李志强,李志强,等。可穿戴式数字干预对改善自闭症谱系障碍儿童社会化的影响:一项随机临床试验美国医学会儿科杂志2019年5月01日;173(5):446-454 [免费全文] [CrossRef] [Medline
  12. 李志强,李志强,李志强,等。为自闭症儿童设计的可穿戴社交辅助设备。在:2016年CHI会议关于计算系统中的人为因素的扩展摘要。2016年发表于:CHI EA '16;2016年5月7-12日;圣何塞,加利福尼亚州,第2348-2354页。[CrossRef
  13. 丹尼尔斯J,施瓦茨JN,沃斯C, Haber N,法泽尔A, Kline A,等。一项探索性研究,考察了自闭症儿童社会情感学习可穿戴工具的在家可行性。NPJ数字医学2018;1:32。[CrossRef] [Medline
  14. 李志强,李志强,李志强,等。可穿戴行为辅助工具用于自闭症儿童社会学习的可行性测试。应用临床通报2018年1月;9(1):129-140 [免费全文] [CrossRef] [Medline
  15. 李文杰,李文杰,李文杰,等。超级玻璃:在可穿戴系统中提供不显眼的实时社交线索。见:2016年ACM普适和普适计算国际联合会议论文集:附属。2016年发表于:UbiComp '16;2016年9月12-16日;德国海德堡,1218-1226年。[CrossRef
  16. Kalantarian H, Jedoui K, Washington P, Wall DP。一款自动给图像贴上情感标签的手机游戏。IEEE Trans Games 2020 Jun;12(2):213-218 [免费全文] [CrossRef] [Medline
  17. Kalantarian H, Washington P, Schwartz J, Daniels J, Haber N, Wall DP。你猜怎么着?:从结构化视频中使用面部表情来理解自闭症。J Healthc Inform Res 2019;3:43-66 [免费全文] [CrossRef] [Medline
  18. Kalantarian H, Jedoui K, Washington P, Tariq Q, Dunlap K, Schwartz J,等。用面部表情标记图像以及儿科保健的潜力。Artif Intell Med 2019 7月;98:77-86 [免费全文] [CrossRef] [Medline
  19. Kalantarian H, Washington P, Schwartz J, Daniels J, Haber N, Wall D.用于自闭症研究的众包视频游戏化移动系统。2018年发表于:2018年IEEE医疗保健信息学国际会议;2018年6月4日至7日;纽约市,纽约州。[CrossRef
  20. 李志强,李志强,李志强,等。自闭症谱系障碍患者面部表情表情的自动识别。《中国自闭症杂志》2019年1月27日,第2期。[CrossRef] [Medline
  21. 张勇,张志强,张志强,等。深度神经网络对眼神接触的检测和人类专家一样准确。Nat Commun 2020年12月14日;11(1):6386。[CrossRef] [Medline
  22. Mitsuzumi Y, Nakazawa A, Nishida T. DEEP眼神接触检测器:基于卷积神经网络的鲁棒眼神接触竞价检测。2017年出席:2017英国机器视觉大会;2017;伦敦。[CrossRef
  23. 李维,杜达,李伟。稀疏机器学习模型确定了自闭症行为检测预测特征的稳定子集。Mol自闭症2017;8:65 [免费全文] [CrossRef] [Medline
  24. 科斯米基JA,索查特V,杜达M,沃尔DP。通过基于特征选择的机器学习,搜索用于自闭症检测的最小行为集。Transl Psychiatry 2015年3月24日;5:e514。[CrossRef] [Medline
  25. Wall DP, Dally R, Luyster R, Jung J, Deluca TF。利用人工智能缩短自闭症的行为诊断。PLoS One 2012;7(8):e43855 [免费全文] [CrossRef] [Medline
  26. Tariq Q, Daniels J, Schwartz JN, Washington P, Kalantarian H, Wall DP。通过家庭视频的机器学习进行自闭症的移动检测:一项发展和前瞻性验证研究。PLoS Med 2018 11月;15(11):e1002705 [免费全文] [CrossRef] [Medline
  27. 李国强,李国强,李国强,等。通过使用孟加拉国儿童家庭视频的机器学习模型检测发育迟缓和自闭症:发展和验证研究。J medical Internet Res 2019 april 24;21(4):e13822 [免费全文] [CrossRef] [Medline
  28. Washington P, Tariq Q, Leblanc E, Chrisman B, Dunlap K, Kline A,等。众包特征标签用于可扩展和隐私保护的自闭症诊断。medRxiv预印本于2020年12月17日在线发布。[CrossRef
  29. 阿巴斯H,加伯森F,格洛弗E,沃尔DP。结合问卷调查和家庭视频筛查的自闭症早期检测机器学习方法。美国医学信息学会2018年8月01日;25(8):1000-1007 [免费全文] [CrossRef] [Medline
  30. 杜达M,科斯米基JA,沃尔DP。测试基于观察的分类器的准确性,以快速检测自闭症风险。翻译精神病学2014年8月12日;4:e424。[CrossRef] [Medline
  31. 杜达,马R,哈伯N,沃尔DP。机器学习用于自闭症和多动症的行为区分。Transl Psychiatry 2016年3月09日;6:e732。[CrossRef] [Medline
  32. Washington P, Kalantarian H, Tariq Q, Schwartz J, Dunlap K, Chrisman B,等。自闭症在线筛查的有效性:比较有偿和无偿诊断任务的众包研究。J Med Internet Res 2019年5月23日;21(5):e13668 [免费全文] [CrossRef] [Medline
  33. 李志强,李志强,李志强,等。儿童自闭症谱系障碍远程医疗可信人群的选择。2021年发表于:生物计算2021:太平洋研讨会论文集;2021;大岛,你好。[CrossRef
  34. 李志强,李志强,李志强,等。通过众包机器学习的精确远程医疗:测试人群工作者基于视频的自闭症特征识别的可变性。J Pers Med 2020年8月13日;10(3):86 [免费全文] [CrossRef] [Medline
  35. Washington P, Tariq Q, Leblanc E, Chrisman B, Dunlap K, Kline A,等。用于机器学习ASD检测的家庭短视频的众包隐私保护功能标记。科学通报2021年4月07日;11(1):7620。[CrossRef] [Medline
  36. 华盛顿P, Leblanc E,邓拉普K, Kline A, Mutlu C, Chrisman B,等。人群注释可以从有隐私保护的家庭短视频中近似地描述临床自闭症的印象。medRxiv预印本于2021年7月6日在线发布。[CrossRef
  37. 李志刚,杨世峰,李志刚,李志刚,李志刚。实现值得信赖的生物医学数据解决方案。2020年发表于:生物计算2021年:太平洋研讨会论文集;2020;大岛,你好。[CrossRef
  38. 华盛顿P, Park N, Srivastava P, Voss C, Kline A, Varma M,等。数据驱动诊断和移动人工智能在计算精神病学中的数字治疗表型的潜力。生物精神病学认知神经科学神经影像学2020年8月;5(8):759-769 [免费全文] [CrossRef] [Medline
  39. 李志强,李志强,李志强,等。使用移动摄像机和少量训练示例的活动识别:用于检测与自闭症相关的头部撞击的应用。在:2021年CHI会议关于计算系统中的人为因素的扩展摘要。2021年发表于:CHI EA '21;2021年5月8日至13日;横滨,日本,第1-7页。[CrossRef
  40. Kalantarian H, Jedoui K, Dunlap K, Schwartz J, Washington P, Husic A,等。情绪分类器对父母报告的自闭症儿童的表现:定量可行性研究。JMIR Ment Health 2020年4月01日;7(4):e13174 [免费全文] [CrossRef] [Medline
  41. 华盛顿P, Kalantarian H, Kent J, Husic A, Kline A, Leblanc E,等。使用用于儿童发育障碍的移动治疗游戏中的框架训练情绪检测分类器。arXiv预印本于2020年12月16日在线发布[免费全文] [CrossRef
  42. 华盛顿P, Mutlu OC, Leblanc E, Kline A, Hou C, Chrisman B,等。通过众包软目标标签训练情感计算机视觉模型。arXiv预印本于2021年1月10日在线发布。[CrossRef
  43. 范玛M,华盛顿P, Chrisman B, Kline A, Leblanc E, Paskov K,等。使用基于游戏的移动应用程序识别与自闭症谱系障碍相关的社会参与指标。medRxiv预印本于2021年6月25日在线发布。[CrossRef
  44. Lord C, Risi S, Lambrecht L, Cook EH, Leventhal BL, DiLavore PC,等。自闭症诊断观察时间表-通用:与自闭症谱系相关的社会和沟通缺陷的标准测量。中华自闭症杂志2000 6月刊;30(3):205-223。[Medline
  45. 马瑞敏,刘淑娟,刘志强,刘志强,等。从视频中使用姿势估计识别自闭症诊断中的非典型行为。2019发表于:2019 IEEE第29届信号处理机器学习国际研讨会;2019年10月13日至16日;宾夕法尼亚州匹兹堡,第1-6页。[CrossRef
  46. Girdhar R, Gkioxari G, Torresani L, Paluri M, Tran D.检测和跟踪:视频中的有效姿态估计。2018年发表于:2018 IEEE/CVF计算机视觉与模式识别会议;2018年6月18日至23日;盐湖城,德克萨斯[CrossRef
  47. Choutas V, Weinzaepfel P, Revaud J, Schmid C. PoTion:动作识别的姿态动作表示。2018发表于:2018 IEEE/CVF计算机视觉和模式识别会议;2018年6月18日至23日;盐湖城,德克萨斯[CrossRef
  48. 自我刺激行为在自闭症诊断中的应用。2014年发表于:2014 IEEE图像处理国际会议;2014年10月27-30日;法国巴黎,1470-1474页。[CrossRef
  49. 张志刚,王志刚,张志刚,等。自刺激行为在自闭症诊断中的应用。2012年发表于:2013 IEEE计算机视觉国际会议研讨会;2013年12月2日至8日;澳大利亚新南威尔士州悉尼,第755-761页。[CrossRef
  50. 赵忠,朱忠,张旭,唐辉,邢军,胡霞,等。通过实施机器学习算法识别头部运动特征的自闭症。J自闭症开发障碍2021年7月11日。[CrossRef] [Medline
  51. 霍华AG,朱敏,陈波,Kalenichenko D,王伟,Weyand T,等。MobileNets:用于移动视觉应用的高效卷积神经网络。arXiv预印本于2017年4月17日在线发布[免费全文
  52. 卢加雷西,唐j,哈希N,麦克拉纳汉C, Uboweja E, Hays M,等。MediaPipe:用于构建感知管道的框架。arXiv预印本于2019年6月14日在线发布[免费全文
  53. 金马平,巴杰。亚当:一种随机优化方法。arXiv预印本于2014年12月22日在线发布[免费全文
  54. 夏莱特·f·克拉斯,2015。URL:https://keras.io/[2022-04-28]访问
  55. 陈志强,陈志强,陈志强,等。TensorFlow:异构系统上的大规模机器学习。arXiv预印本于2016年3月14日在线发布。[CrossRef
  56. 邓娟,董伟,Socher R,李丽娟,李凯,飞飞。ImageNet:一种大规模分层图像数据库。2009年发表于:2009 IEEE计算机视觉与模式识别会议;2009年6月20-25日;佛罗里达州迈阿密[CrossRef
  57. 华盛顿P, Mutlu CO, Kline A, Paskov K, Stockham NT, Chrisman B,等。机器学习从图像中分类行为和精神状态的挑战和机遇。arXiv预印本于2022年1月26日在线发布[免费全文
  58. 张志刚,张志刚,张志刚,张志刚,等。测量自闭症谱系障碍幼儿注视模式的计算方法。美国医学会儿科杂志2021 Aug 01;175(8):827-836 [免费全文] [CrossRef] [Medline
  59. 姜敏,Francis SM, Srishyla D, Conelea C,赵q, Jacob S.基于面部情绪识别和眼球追踪的ASD个体分类。2019年发表于:第41届IEEE医学与生物学工程国际年会;2019年7月23-27日;德国柏林。[CrossRef
  60. 廖加特,吴C, Duggirala PR,张SS, Chuah C, Ozonoff S,等。用合成和基于图像的眼睛注视数据预测儿童ASD诊断。信号处理图像通讯2021年5月;94:116198。[CrossRef] [Medline
  61. LeCun Y, Boser B, Denker JS, Henderson D, Howard RE, Hubbard W,等。反向传播在手写邮政编码识别中的应用。神经网络计算1989 Dec;1(4):541-551。[CrossRef
  62. 李志强,李志强,李志强。高功能自闭症患儿的面部编码研究。关注自闭症和其他发育障碍2009年10月06日;24(4):195-204。[CrossRef
  63. 郭海涛,杨喆,罗摩克里希纳,格罗斯曼,赫德利,李,等。自闭症谱系障碍儿童面部表情相关非典型性的定量研究。2015年发表于:2015 IEEE声学、语音与信号处理国际会议;2015年4月19-24日;南布里斯班,昆士兰,澳大利亚。[CrossRef
  64. 李B,梅塔D, Aneja D, Foster C, Ventola P, Shic F,等。自闭症谱系障碍的面部情感分析系统。2019出席:2019 IEEE图像处理国际会议;2019年9月22日至25日;台北,台湾。[CrossRef
  65. 鲁默哈特德,辛顿GE,威廉姆斯RJ。通过错误传播学习内部表示。国防技术Inf 1985:318-362。[CrossRef
  66. 朱妮诺,马志刚,马志刚,等。视频手势分析用于自闭症谱系障碍检测。2018年发表于:2018年第24届模式识别国际会议;2018年8月20-24日;北京,中国。[CrossRef
  67. 韦斯泰恩T,瓦达斯K,边X,斯塔纳T,鲍德GD。利用hmm识别模仿自闭症的自我刺激行为。2005年发表于:第九届IEEE可穿戴计算机国际研讨会(ISWC’05);2005年10月18日至21日;日本大阪,第164-167页。[CrossRef
  68. Albinali F, Goodwin MS, Intille SS.在实验室和教室中识别刻板的运动动作:自闭症儿童的案例研究。见:第11届普适计算国际会议论文集。2009年发表于:UbiComp '09;2009年9月30日至10月3日;佛罗里达州奥兰多,第71-80页。[CrossRef
  69. Sarker H, Tam A, Foreman M, Fay T, Dhuliawala M, Das A.使用基于智能手表的系统检测自闭症的刻板运动。AMIA年度会议Proc 2018;2018:952-960 [免费全文] [Medline


AUROC:接收机工作特性下的面积
有线电视新闻网:卷积神经网络
HDM:主导运动直方图
LSTM:长短期记忆
药剂:造成运动
R-CNN:基于区域的卷积神经网络
中华民国:接收机工作特性
SSBD:自我刺激行为数据集


A Mavragani编辑;提交22.09.21;作者:H Li, S You, S Nagavally;对作者14.10.21的评论;订正版本收到29.12.21;接受10.04.22;发表06.06.22

版权

©Anish Lakkapragada, Aaron Kline, Onur Cezmi Mutlu, Kelley Paskov, Brianna Chrisman, Nathaniel Stockham, Peter Washington, Dennis Paul Wall。最初发表在JMIR生物医学工程(http://biomsedeng.www.mybigtv.com), 06.06.2022。

这是一篇开放获取的文章,根据创作共用归属许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用了首次发表在JMIR生物医学工程上的原创作品。必须包括完整的书目信息,https://biomedeng.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map