医学互联网研究杂志-使用基于网络的语音任务检测帕金森病:观察性研究gydF4y2Ba

原始论文gydF4y2Ba

Wasifur拉赫曼gydF4y2Ba^1gydF4y2Ba^＊gydF4y2Ba,硕士gydF4y2Ba ;gydF4y2Ba
《李gydF4y2Ba^1gydF4y2Ba^＊gydF4y2Ba二元同步通信,gydF4y2Ba ;gydF4y2Ba
Md Saiful IslamgydF4y2Ba^1gydF4y2Ba二元同步通信,gydF4y2Ba ;gydF4y2Ba
维克多·尼克希尔·安东尼gydF4y2Ba^1gydF4y2Ba二元同步通信,gydF4y2Ba ;gydF4y2Ba
Harshil RatnugydF4y2Ba^1gydF4y2Ba二元同步通信,gydF4y2Ba ;gydF4y2Ba
穆罕默德·拉法耶特·阿里gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ;gydF4y2Ba
阿卜杜拉·阿尔·马蒙gydF4y2Ba^1gydF4y2Ba二元同步通信,gydF4y2Ba ;gydF4y2Ba
艾伦·瓦格纳gydF4y2Ba^2gydF4y2Ba,硕士gydF4y2Ba ;gydF4y2Ba
Stella Jensen-RobertsgydF4y2Ba^2gydF4y2Ba二元同步通信,gydF4y2Ba ;gydF4y2Ba
艾玛WaddellgydF4y2Ba^2gydF4y2Ba二元同步通信,gydF4y2Ba ;gydF4y2Ba
泰勒迈尔斯gydF4y2Ba^2gydF4y2Ba,英航gydF4y2Ba ;gydF4y2Ba
梅根··鲍里克gydF4y2Ba^2gydF4y2Ba,英航gydF4y2Ba ;gydF4y2Ba
朱莉娅·索托gydF4y2Ba^2gydF4y2Ba二元同步通信,gydF4y2Ba ;gydF4y2Ba
玛德琳科菲gydF4y2Ba^2gydF4y2Ba,英航gydF4y2Ba ;gydF4y2Ba
Aayush SarkargydF4y2Ba^2gydF4y2Ba二元同步通信,gydF4y2Ba ;gydF4y2Ba
露丝施耐德gydF4y2Ba^{2，gydF4y2Ba}^3.gydF4y2Ba医学博士gydF4y2Ba ;gydF4y2Ba
克里斯托弗TarolligydF4y2Ba^{2，gydF4y2Ba}^3.gydF4y2Ba医学博士gydF4y2Ba ;gydF4y2Ba
卡尔洛LizarragagydF4y2Ba^{2，gydF4y2Ba}^3.gydF4y2Ba医学博士gydF4y2Ba ;gydF4y2Ba
杰米•亚当斯gydF4y2Ba^{2，gydF4y2Ba}^3.gydF4y2Ba医学博士gydF4y2Ba ;gydF4y2Ba
Max A LittlegydF4y2Ba^{4，gydF4y2Ba}^5gydF4y2Ba博士gydF4y2Ba ;gydF4y2Ba
雷·多尔西gydF4y2Ba^2gydF4y2Ba，工商管理硕士，医学博士gydF4y2Ba ;gydF4y2Ba
伊桑·霍克gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba罗彻斯特大学计算机科学系，美国纽约州罗彻斯特市gydF4y2Ba

^2gydF4y2Ba美国纽约州罗彻斯特市罗彻斯特大学医学中心健康与技术中心gydF4y2Ba

^3.gydF4y2Ba罗彻斯特大学医学中心神经内科，美国纽约州罗彻斯特gydF4y2Ba

^4gydF4y2Ba伯明翰大学计算机科学学院，英国伯明翰gydF4y2Ba

^5gydF4y2Ba麻省理工学院媒体实验室，麻省理工学院，剑桥，马萨诸塞州，美国gydF4y2Ba

这些作者的贡献相同gydF4y2Ba

通讯作者:gydF4y2Ba

瓦西弗·拉赫曼理学硕士gydF4y2Ba

计算机科学系gydF4y2Ba

罗切斯特大学gydF4y2Ba

哈钦森道250号gydF4y2Ba

罗切斯特，纽约州，14620gydF4y2Ba

美国gydF4y2Ba

电话:1 5857487677gydF4y2Ba

电子邮件:gydF4y2Baechowdh2@ur.rochester.edugydF4y2Ba

背景:gydF4y2Ba对于全世界数百万人来说，特别是在资源有限的国家，获得帕金森病(PD)的神经系统护理是一种罕见的特权。2013年，拥有13亿人口的印度只有1200名神经科医生;在非洲，每个神经科医生的平均人口超过330万人。相比之下，仅在美国，每年就有6万人被诊断为帕金森病，而且类似的帕金森病病例增长模式——主要是由环境污染和人口老龄化推动的——在全世界都可以看到。目前预测，到2040年，全球PD患者将超过1200万，这只是情况的一部分，因为超过20%的PD患者仍未得到诊断。及时诊断和频繁评估是确保及时、适当的医疗干预，从而提高PD患者生活质量的关键。gydF4y2Ba

摘要目的:gydF4y2Ba在本文中，我们提出了一个基于web的框架，它可以帮助世界上任何地方的任何人记录一个简短的语音任务，并分析记录的数据来筛查PD。gydF4y2Ba

方法:gydF4y2Ba我们收集了726名独特参与者的数据(PD: 262/726, 36.1%为女性;非pd: 464/726，女性63.9%;平均年龄61岁)，来自美国各地和其他地区。一小部分数据(约54/ 726,7.4%)是在实验室环境中收集的，以比较用嘈杂的家庭环境数据训练的模型与高质量的实验室环境数据的性能。参与者被要求说出一个包含英语字母表中所有字母的流行短语:“敏捷的棕色狐狸跳过懒惰的狗。”我们从语音数据中提取了标准声学特征(mel频率倒谱系数和抖动和闪烁变量)和基于深度学习的嵌入特征。利用这些特征，我们训练了几个机器学习算法。我们还应用了Shapley加性解释等模型解释技术来确定每个特征在确定模型输出中的重要性。gydF4y2Ba

结果:gydF4y2Ba通过xgboost(一种梯度增强决策树模型)对标准声学特征进行建模，我们获得了0.753的曲线下面积，用于确定自我报告PD的存在。进一步的分析表明，广泛使用的mel-frequency倒谱系数特征和先前验证的语音障碍特征子集，设计用于从口头发音任务(发“ahh”)中检测PD，对模型的决策影响最大。gydF4y2Ba

结论:gydF4y2Ba我们的模型在受控实验室环境中收集的数据和gydF4y2Ba在野外gydF4y2Ba跨越不同的性别和年龄组。使用这个工具，我们可以通过音频设备从几乎任何地方的任何人收集数据，并帮助参与者远程筛查PD，从而促进神经系统护理的公平性和可及性。gydF4y2Ba

[J] .中国医学信息学报，2013;23(10):563 - 563gydF4y2Ba

doi: 10.2196/26305gydF4y2Ba

关键字gydF4y2Ba

帕金森病gydF4y2Ba;gydF4y2Ba 语音分析gydF4y2Ba;gydF4y2Ba 改善卫生保健的可及性和公平性gydF4y2Ba;gydF4y2Ba 移动电话gydF4y2Ba

帕金森病(PD)是全球增长最快的神经系统疾病。不幸的是，估计有20%的PD患者仍未得到诊断。这在很大程度上是由于全世界神经科医生的短缺[gydF4y2Ba1gydF4y2Ba，gydF4y2Ba2gydF4y2Ba以及获得医疗保健的机会有限。早期诊断和持续监测，从而调整药物剂量，是控制这种不治之症症状的关键。目前的诊断标准需要亲自到诊所就诊，由专家评估疾病症状，同时观察患者执行运动障碍学会统一帕金森病评定量表(MDS-UPDRS)中的任务[gydF4y2Ba3.gydF4y2Ba]。MDS-UPDRS包括24项运动相关任务，以评估语言、面部表情、肢体运动、行走、记忆和认知能力。尽管许多研究表明通过分析手部运动取得了成功[gydF4y2Ba4gydF4y2Ba]、肢体运动模式[gydF4y2Ba5gydF4y2Ba]和面部表情[gydF4y2Ba6gydF4y2Ba]，语言尤为重要，因为大约90%的PD患者表现出声音障碍[gydF4y2Ba7gydF4y2Ba，gydF4y2Ba8gydF4y2Ba]，这通常是帕金森病的早期指标之一[gydF4y2Ba9gydF4y2Ba]。gydF4y2Ba

为了进行语音分析，研究人员研究了录音中的发音(发“ahhh”的音)。gydF4y2Ba10gydF4y2Ba量化节奏、重音和语调[gydF4y2Ba11gydF4y2Ba]。Little等[gydF4y2Ba12gydF4y2Ba[]引入音高周期熵(PPE)作为区分健康人与PD患者的语音障碍指标，准确率高达91%。后来，Tsanas [gydF4y2Ba13gydF4y2Ba]在此基础上进行了扩展，计算了132种发声障碍的测量方法，以接近99%的准确率对PD和对照组进行了分类。此外，Peker等[gydF4y2Ba14gydF4y2Ba使用了一种新颖的特征选择技术与复杂值人工神经网络。Rueda和Krishnan [gydF4y2Ba15gydF4y2Ba]确定了一组mel-frequency倒谱系数(MFCCs)和本征模态函数来表示PD的特征。在分析真实音频数据的领域，Wroge等[gydF4y2Ba16gydF4y2Ba分析了从智能手机上收集的语音数据;viciukynas等[gydF4y2Ba17gydF4y2Ba用卷积神经网络从语音中检测PD;Vásquez-Correa等[gydF4y2Ba18gydF4y2Ba]用手持设备在不受控制的噪音条件下收集语音样本;Dubey等[gydF4y2Ba19gydF4y2Ba设计了一个基于智能手表的语音和语音监测系统，用于接受语言病理学家语言治疗的PD患者。虽然目前最先进的方法已经显示出有希望的结果，但它有局限性，如样本量小[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba19gydF4y2Ba，gydF4y2Ba20.gydF4y2Ba]，从同一参与者中进行过抽样[gydF4y2Ba14gydF4y2Ba]、噪音控制数据收集[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba15gydF4y2Ba]， PD与对照组的年龄差异[gydF4y2Ba21gydF4y2Ba]。gydF4y2Ba

本文分析了36.1% (262/726)PD患者和63.9%(464/726)非PD患者的726段语音录音。这些录音是通过一个基于网络的工具收集的gydF4y2Ba远程运动任务的帕金森分析gydF4y2Ba(公园)gydF4y2Ba22gydF4y2Ba]。PARK工具要求参与者说出一个包含英语字母表中所有字母的流行短语，“敏捷的棕色狐狸跳过懒惰的狗”，并将其记录下来。这使我们能够快速收集数据集，这些数据集更有可能包含与地理边界、社会经济地位、年龄组和各种异构记录设备相关的现实世界变异性。这项研究的发现建立在这个独特的真实世界数据集的基础上;因此，我们相信它可以推广到实际的部署中。gydF4y2Ba

从个人收集音频数据通常需要亲自前往诊所，这限制了数据点的数量和数据的多样性。最近的进展已经允许从可穿戴传感器收集震颤数据[gydF4y2Ba23gydF4y2Ba]和来自无线电频率信号的睡眠数据[gydF4y2Ba24gydF4y2Ba]。现有的语音和音频分析工作使用复杂的设备来收集通常没有噪音的数据[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba25gydF4y2Ba并且不包含现实世界的可变性。由于相当一部分人口可以使用具有录音功能的移动设备(例如，81%的美国人拥有智能手机)[gydF4y2Ba26gydF4y2Ba，我们选择使用一个允许参与者在家中记录数据的框架。从录制的音频文件中，我们提取了声学特征，包括mfcc，它代表声音的短期功率谱，抖动或闪烁变体(代表病理语音质量)，音高相关特征，频谱功率和发音障碍相关特征，旨在捕捉pd引起的声带损伤[qh]gydF4y2Ba12gydF4y2Ba]。gydF4y2Ba

此外，我们从基于深度学习的编码器-问题不可知论语音编码器(PASE)中提取特征[gydF4y2Ba27gydF4y2Ba]，它通过编码向量列表表示原始音频实例中包含的信息。这些特征用四种不同的机器学习模型建模——支持向量机(SVM)、随机森林、LightGBM和xgboost——对患有和不患有PD的个体进行分类。gydF4y2Ba

图1gydF4y2Ba提供数据分析系统的概述。我们的贡献可以总结如下:gydF4y2Ba

我们报告了来自具有真实世界可变性的最大数据集之一的发现，其中包含726个独特的参与者，大多数来自他们的家庭。gydF4y2Ba
我们分析了语音的音频特征来预测PD与非PD，曲线下面积(AUC)得分为0.753。gydF4y2Ba
我们提供的证据表明，我们的模型优先考虑MFCC特征和语音障碍特征的子集[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba28gydF4y2Ba]，这与之前的文献一致。gydF4y2Ba
当在受控的实验室环境和野外环境中对收集的性别和年龄分层数据进行测试时，我们的模型始终表现良好。gydF4y2Ba

图1所示。我们解决“the quick brown fox…”语音任务的方法大纲。gydF4y2Ba

招聘和数据收集gydF4y2Ba

我们收集了726人的数据gydF4y2Ba独特的gydF4y2Ba参与者说出这样的句子:“敏捷的棕色狐狸跳过了懒惰的狗。”狗醒了，跟着狐狸进了森林，但是敏捷的棕色狐狸又一次跳过了懒惰的狗。gydF4y2Ba29gydF4y2Ba)的网站。gydF4y2Ba图2gydF4y2Ba简要介绍数据收集、存储、传输和分析机制。用户通过连接到个人电脑或笔记本电脑的网络摄像头和麦克风进行录音，并将录音上传到服务器上。gydF4y2Ba图3gydF4y2Ba展示了一些研究参与者的照片gydF4y2Ba图4gydF4y2Ba显示参与者的年龄分布。无PD的人数是PD人数的1.8倍。PD患者多集中在40 ~ 80岁年龄段。然而，在20至40岁年龄组中，无帕金森病的参与者多于患有帕金森病的参与者。同样，在80至90岁年龄组中，患有帕金森病的参与者明显多于没有帕金森病的参与者。gydF4y2Ba表1gydF4y2Ba提供研究参与者的人口统计信息。gydF4y2Ba

图3。在提供数据时，我们的研究对象的一些截图。除B外，所有受试者均在无人监督的情况下提供数据。B、D、E和F被诊断患有帕金森病。从参与者那里获得了电子知情同意书，以使用他们的照片进行出版。gydF4y2Ba

图4。柱状图显示了我们数据集中帕金森病患者和非帕金森病患者的年龄分布。PD:帕金森病。gydF4y2Ba

表1。我们数据集的人口统计学组成(N=726)。gydF4y2Ba

特征gydF4y2Ba		PD患者gydF4y2Ba^{一个gydF4y2Ba}	没有PD的参与者gydF4y2Ba
总数，n (%)gydF4y2Ba		262 (36.1)gydF4y2Ba	464 (63.9)gydF4y2Ba
性别，n (%)gydF4y2Ba
	女gydF4y2Ba	101 (38.5)gydF4y2Ba	300 (64.6)gydF4y2Ba
	男性gydF4y2Ba	161 (61.4)gydF4y2Ba	164 (22.5)gydF4y2Ba
年龄(岁)，平均(SD)gydF4y2Ba		65gydF4y2Ba。gydF4y2Ba92 (9gydF4y2Ba。gydF4y2Ba2）gydF4y2Ba	57gydF4y2Ba。gydF4y2Ba98 (14gydF4y2Ba。gydF4y2Ba2）gydF4y2Ba
国家，n (%)gydF4y2Ba
	美国gydF4y2Ba	199 (75.9)gydF4y2Ba	419 (90.3)gydF4y2Ba
	其他gydF4y2Ba	63 (24)gydF4y2Ba	45 (9.7)gydF4y2Ba
诊断后年数，平均(SD)gydF4y2Ba		7gydF4y2Ba。gydF4y2Ba88 (5gydF4y2Ba。gydF4y2Ba41)gydF4y2Ba	N/AgydF4y2Ba^bgydF4y2Ba

^{一个gydF4y2Ba}PD:帕金森病。gydF4y2Ba

^bgydF4y2Ba-不适用。gydF4y2Ba

在我们的726名独特的参与者中，262名(36.1%)被诊断为PD，而其他参与者则没有PD。我们从当地诊所和各种PD支持团体获得PD患者的联系信息。没有PD的参与者是从亚马逊土耳其机械公司招募的。在数据收集过程中，根据研究人员与罗切斯特大学机构审查委员会达成的协议，获得所有参与者的知情同意。在726名独特的参与者中，只有54名(7.4%)在研究协调员使用PARK工具的指导下在实验室提供数据;其余672名(92.6%)参与者在家中使用PARK系统提供数据。让参与者在家里和实验室里完成任务，我们可以比较两种情况下的结果。两组都没有参与者出现gydF4y2Ba所有gydF4y2Ba我们的参与者使用相同的PARK协议。gydF4y2Ba

数据集中的性别分布是倾斜的，尤其是女性参与者。在所有参与者中，女性占55.2%(401/726)，男性占44.8%(325/726)。然而，在患有PD的参与者中，只有38.5%(101/262)是女性，而在没有PD的参与者中，64.6%(300/464)是女性。大多数PD患者的年龄在40 - 80岁之间，但大多数年轻(20-40岁)和年长(80-90岁)的参与者分别来自非PD组和PD组。gydF4y2Ba

由于我们的数据是通过基于网络的框架收集的，我们没有参与者的MDS-UPDRS分数，因为收集这些分数需要医生的额外输入。在我们PD组的所有参与者中，只有3名参与者肯定地回答他们在测试前2小时服用了药物;其他人的回答是否定的。因此，在本研究中，我们假设药物效应可以忽略不计。gydF4y2Ba

数据预处理gydF4y2Ba

在数据收集过程中，参与者通常需要一些额外的时间来开始说出任务句子，一旦句子被说出就停止记录。因此，我们在大多数数据实例的开始和结束处都有大量嘈杂和不相关的数据(gydF4y2Ba图1gydF4y2Ba）.为了去除不相关的数据，我们使用了宾夕法尼亚大学语音实验室强制校准工具包(P2FA) [gydF4y2Ba30.gydF4y2Ba]。给定一个音频文件和文本，它试图预测文本中每个单词发音的时间界限。P2FA应用了隐藏马尔可夫模型[gydF4y2Ba31gydF4y2Ba]预测给定音频的最可能音素序列和高斯混合模型，将这些音素组合成单词，并使用预定义的字典获得它们的时间边界[gydF4y2Ba32gydF4y2Ba]。从该系统的输出中，我们可以得到P2FA识别的第一个单词的开始时间和P2FA识别的最后一个单词的结束时间。我们利用他们之间的音频片段进行进一步分析。gydF4y2Ba

声学特征提取gydF4y2Ba

我们通过组合多个源的输出来提取特征:Praat特征[gydF4y2Ba33gydF4y2Ba]通过Parselmouth Python接口获得[gydF4y2Ba34gydF4y2Ba]和先前使用的与PD分析相关的语音障碍特征[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba35gydF4y2Ba，gydF4y2Ba36gydF4y2Ba]。在计算完所有的特征后，我们构建特征值的相关矩阵来计算它们之间的相关程度。然后，我们以无序的方式迭代每对特征，如果它们之间的相关系数高于0.9，我们从进一步的分析中删除其中一个特征[gydF4y2Ba37gydF4y2Ba]。gydF4y2Ba表2gydF4y2Ba包含我们分析中使用的功能的简短概述;斜体文本中的特征名称是用于构建模型的特征名称。中的特性提供了更全面的描述gydF4y2Ba多媒体附录1gydF4y2Ba［gydF4y2Ba12gydF4y2Ba，gydF4y2Ba14gydF4y2Ba，gydF4y2Ba36gydF4y2Ba，gydF4y2Ba38gydF4y2Ba]。我们的一些定义改编自Praat官方文档[gydF4y2Ba33gydF4y2Ba]。gydF4y2Ba

表2。所有特性的名称，用于收集它们的代码源，以及简短的描述gydF4y2Ba^{一个gydF4y2Ba}。gydF4y2Ba

功能gydF4y2Ba			代码源gydF4y2Ba		简短的描述gydF4y2Ba
球场gydF4y2Ba
	MedianPitchgydF4y2Ba^bgydF4y2Ba	Little等[gydF4y2Ba36gydF4y2Ba]gydF4y2Ba		中位主频率gydF4y2Ba
	MeanPitchgydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		平均主频率gydF4y2Ba
	StdDevPitchgydF4y2Ba	Little等[gydF4y2Ba36gydF4y2Ba]gydF4y2Ba		主频率SDgydF4y2Ba
抖动gydF4y2Ba
	MeanJittergydF4y2Ba	Little等[gydF4y2Ba36gydF4y2Ba]gydF4y2Ba		主频率扰动(平均变异)gydF4y2Ba
	MedianJittergydF4y2Ba	Little等[gydF4y2Ba36gydF4y2Ba]gydF4y2Ba		主频率扰动(中位数变化)gydF4y2Ba
	LocalJittergydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		连续周期之间的平均绝对差，除以平均周期gydF4y2Ba
	LocalAbsoluteJittergydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		连续周期之间的平均绝对差，以秒为单位gydF4y2Ba
	RapJittergydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		一个周期和它与相邻两个周期的平均值之间的平均绝对差gydF4y2Ba
	Ppq5JittergydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		5点周期微扰商gydF4y2Ba
	DdpJittergydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		主频率周期的差异gydF4y2Ba
微光gydF4y2Ba
	MeanShimmergydF4y2Ba	Little等[gydF4y2Ba36gydF4y2Ba]gydF4y2Ba		振幅摄动(使用平均值)gydF4y2Ba
	MedianShimmergydF4y2Ba	Little等[gydF4y2Ba36gydF4y2Ba]gydF4y2Ba		振幅扰动(使用中位数)gydF4y2Ba
	LocalShimmergydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		连续周期振幅之间的平均绝对差gydF4y2Ba
	LocaldbShimmergydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		连续周期振幅差的以10为底的平均绝对对数gydF4y2Ba
	Apq3ShimmergydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		三点振幅摄动商gydF4y2Ba
	Apq5ShimmergydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		5点振幅摄动商gydF4y2Ba
	Apq11ShimmergydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		11点振幅摄动商gydF4y2Ba
	DdaShimmergydF4y2Ba	Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		由振幅差的差值计算的微光gydF4y2Ba
MFCCgydF4y2Ba^cgydF4y2Ba
	MeanMFCC(经历)gydF4y2Ba	Little等[gydF4y2Ba36gydF4y2Ba]gydF4y2Ba		平均MFCC的13个特征gydF4y2Ba
	VariationMFCC(经历)gydF4y2Ba	Little等[gydF4y2Ba36gydF4y2Ba]gydF4y2Ba		MFCC平均变化的13个特征gydF4y2Ba
	RelBandPower (0 - 3)gydF4y2Ba	Tsanas等[gydF4y2Ba39gydF4y2Ba]gydF4y2Ba		4个特征在4个频谱范围内捕获相对频带功率gydF4y2Ba
曼公司gydF4y2Ba^dgydF4y2Ba			Boersma和Weenink [gydF4y2Ba33gydF4y2Ba]gydF4y2Ba		信噪比gydF4y2Ba
RPDEgydF4y2Ba^egydF4y2Ba			Little等[gydF4y2Ba36gydF4y2Ba]gydF4y2Ba		螺距估计不确定度gydF4y2Ba
DFAgydF4y2Ba^fgydF4y2Ba			Little等[gydF4y2Ba36gydF4y2Ba]gydF4y2Ba		湍流噪声中随机自相似性的度量gydF4y2Ba
个人防护用品gydF4y2Ba^ggydF4y2Ba			Little等[gydF4y2Ba36gydF4y2Ba]gydF4y2Ba		不能保持恒定音高的量度gydF4y2Ba

^{一个gydF4y2Ba}我们使用相应的代码-源代码条目中描述的代码或方法收集特性。gydF4y2Ba

^bgydF4y2Ba去除相关特征，使用斜体文本中的特征构建模型。特性名称前面是它们所属的松散定义的总括类别。gydF4y2Ba

^cgydF4y2BaMFCC: mel-frequency倒谱系数。gydF4y2Ba

^dgydF4y2BaHNR:谐波噪声比。gydF4y2Ba

^egydF4y2Ba重复周期密度熵。gydF4y2Ba

^fgydF4y2Ba无趋势波动分析。gydF4y2Ba

^ggydF4y2BaPPE:基音周期熵。gydF4y2Ba

嵌入特征提取gydF4y2Ba

我们提取了基于深度学习的PASE嵌入[gydF4y2Ba27gydF4y2Ba下载我们的音频文件。PASE通过编码向量列表表示原始音频实例中包含的信息。为了确保编码矢量包含与输入音频文件相同的信息，它从编码矢量中解码音频文件的各种属性，包括音频波形、对数功率谱、mfccc、四种韵律特征(基频的插值对数、浊音或浊音概率、过零率和能量)和本地InfoMax。编码矢量必须保留输入音频文件的相关信息，才能成功解码所有这些属性。gydF4y2Ba

由于这些属性代表了输入音频文件的固有特征，而不是任何特定于任务的特征，因此它们已被用于解决许多下游任务，如语音分类、说话人识别和情绪识别。因此，我们也使用它们进行PD检测。gydF4y2Ba

实验gydF4y2Ba

对于每个特征集，我们应用了一组标准的机器学习算法，例如SVM [gydF4y2Ba40gydF4y2Ba]， XGBoost [gydF4y2Ba41gydF4y2Ba]， LightGBM [gydF4y2Ba42gydF4y2Ba]和随机森林[gydF4y2Ba43gydF4y2Ba]，对PD和非PD进行分类。支持向量机将数据分成几个类别，同时保持类别之间的最大可能差值。随机森林是一组决策树的集合;每个决策树使用特征子集构建一个树，并学习if-else类型的决策规则来进行预测。我们还使用了XGBoost和LightGBM，这是基于梯度增强的算法，它们通过改进手头的模型来构建更好的模型。gydF4y2Ba

我们使用了留一交叉验证训练策略;使用这种策略，数据集中的一个样本数据被忽略，其他n - 1个样本用于创建模型并预测剩余的样本。我们使用二元精度和AUC等指标来评估模型的性能。AUC是接收者工作特性曲线下的面积。ROC曲线是通过计算在改变决策阈值时取真阳性率与假阳性率之比所产生的AUC来构建的。AUC的最大值为1，表示两类可以完美分离，而AUC的值为0.5，表示模型无法区分这两类。因为我们的数据集是不平衡的，所以AUC是理解模型真实性能的更好指标。为了减少数据不平衡的影响，我们使用了数据增强技术，如合成少数派过采样技术[gydF4y2Ba44gydF4y2Ba]和支持向量机合成少数派过采样技术[gydF4y2Ba45gydF4y2Ba]。gydF4y2Ba

模型解释技术gydF4y2Ba

为了解释这些模型，我们使用了基于Shapley值的Shapley加性解释(SHAP)技术。Shapley值是一个博弈论概念，指的是在玩家之间公平分配奖金[gydF4y2Ba46gydF4y2Ba]。在机器学习环境中，一个实例的每个单独特征都可以被认为是一个玩家，而支付是一个实例的预测和平均预测之间的差异。我们选择SHAP有两个原因:(1)它非常适合解释任何机器学习模型的输出，(2)它是唯一满足公平性数学定义的特征归因方法。gydF4y2Ba

为了使用SHAP来解释梯度增强和基于树的模型，如XGBoost, Lundberg等[gydF4y2Ba47gydF4y2Ba]介绍了提供多项式时间模型来计算优化解释的方法。他们的方法可以生成局部解释——特征如何影响数据实例的一个特定预测——然后将这些局部解释结合起来，对整个数据集中存在的特征做出全局解释。通过设置一类需要条件的特征，它们以以下方式遍历树:如果我们正在遍历一个基于我们所条件的特征而分裂的节点，我们只需遵循决策路径;否则，将递归地计算来自当前节点的左子树和右子树的结果，并通过加权求和策略将其结果相加，从而计算所讨论的特征的SHAP值。gydF4y2Ba

概述gydF4y2Ba

对数据进行预处理，提取标准声学特征(如基音、抖动、闪烁和MFCC)和基于深度学习的音频嵌入特征(以音频片段为特征向量);从今往后，我们称这些为gydF4y2Ba标准特性gydF4y2Ba和gydF4y2Ba嵌入的特性gydF4y2Ba。在剩下的gydF4y2Ba结果gydF4y2Ba在本节中，我们讨论了建立在整个数据集上的模型的结果，对整个数据集上最佳模型的解释，以及对性别分层和年龄裁剪数据集的专门模型的结果和解释。gydF4y2Ba

从整个数据集检测PDgydF4y2Ba

表3gydF4y2Ba包含四个机器学习模型的AUC和精度分数gydF4y2Ba标准特性gydF4y2Ba和gydF4y2Ba嵌入的特性gydF4y2Ba分开。在标准特性上应用XGBoost的最佳性能为0gydF4y2Ba。gydF4y2Ba75 AUC和0gydF4y2Ba。gydF4y2Ba74年的准确性。我们还注意到，模型的训练对象是gydF4y2Ba标准特性gydF4y2Ba比那些受过训练的人工作得更好gydF4y2Ba嵌入的特性。gydF4y2Ba

表3。整个数据集的性能。在结合家庭和实验室环境数据的数据集上使用标准和嵌入特征的各种机器学习算法的性能gydF4y2Ba^{一个gydF4y2Ba}。gydF4y2Ba

算法gydF4y2Ba	标准特性gydF4y2Ba		嵌入的特性gydF4y2Ba
	AUCgydF4y2Ba^bgydF4y2Ba	精度gydF4y2Ba	AUCgydF4y2Ba	精度gydF4y2Ba
支持向量机gydF4y2Ba^cgydF4y2Ba	0.751gydF4y2Ba	0.735gydF4y2Ba	0.738gydF4y2Ba	0.692gydF4y2Ba
随机森林gydF4y2Ba	0.745gydF4y2Ba	0.720gydF4y2Ba	0.726gydF4y2Ba	0.708gydF4y2Ba
LightGBMgydF4y2Ba	0.753gydF4y2Ba	0.720gydF4y2Ba	0.737gydF4y2Ba	0.693gydF4y2Ba
XGBoostgydF4y2Ba	0.750gydF4y2Ba^dgydF4y2Ba	0.741gydF4y2Ba	0.722gydF4y2Ba	0.689gydF4y2Ba

^{一个gydF4y2Ba}使用标准特征的模型在二值精度和曲线下面积方面都优于使用嵌入特征的模型。尽管这些模型的性能在曲线下面积指标方面几乎相似，但XGBoost通过同时考虑曲线下面积和精度指标而优于其他模型。gydF4y2Ba

^bgydF4y2BaAUC:曲线下面积。gydF4y2Ba

^cgydF4y2BaSVM:支持向量机。gydF4y2Ba

^dgydF4y2Ba变量优于所有其他方法，因为它同时考虑了曲线下的面积和准确性。gydF4y2Ba

模型的解释gydF4y2Ba

SHAP的目标是将模型对任何实例的预测解释为其特征值贡献的总和;如果一个数据实例可以被认为是XgydF4y2Ba_我gydF4y2Ba= [fgydF4y2Ba_1gydF4y2BafgydF4y2Ba_2gydF4y2Baf,……gydF4y2Ba_NgydF4y2Ba]， SHAP将为每个f分配一个数字gydF4y2Ba_jgydF4y2Ba特征，表示该特征对模型预测的影响——包括大小和方向。然后，将所有这些局部解释聚合起来，为整个数据集创建一个全局解释。的第一部分给出了一个全局的解释gydF4y2Ba图5gydF4y2Ba;以下是十大最具影响力的功能，按照影响最大到影响最小的顺序进行排名。为了计算每个特性的影响，收集所有数据实例中的所有SHAP值，然后计算其绝对值的平均值。gydF4y2Ba

图5。Shapley加性解释分析了我们在3个数据集上表现最好的模型:(A)主模型(即整个数据集)，(B)女性模型(即仅女性)和(C)年龄调整模型(所有受试者年龄均大于50岁)。gydF4y2Ba

影响模型性能的特征通常是频谱特征:MFCC在每个频谱范围内的平均值或变化。除此之外，一些其他复杂的特征，如递归周期密度熵(RPDE;(F0估计中的不确定性度量)，PPE(无法保持恒定F0的度量)和谐波噪声比(HNR)也影响了第一部分中提出的解释gydF4y2Ba图5gydF4y2Ba。gydF4y2Ba

性别和年龄分层分析gydF4y2Ba

一个人的声音特征受年龄和性别的影响很大。在gydF4y2Ba图6gydF4y2Ba，我们发现，随着年龄的增长，男性和女性的声音表现出一种变化的特征。女性声音的F0值较高，但随着年龄的增长而降低。男性在年轻时的F0值通常较高，随着年龄的增长而下降，然后在45岁之后大致增加。因此，在从音频中分析PD时会产生混淆效应，其中机器学习模型使用音频特征来检测PD。为了尽量减少混杂因素的影响，研究人员对男性和女性参与者的数据分别训练了模型[gydF4y2Ba28gydF4y2Ba]或通过考虑50岁以上参与者的数据来分析剔除年龄的数据集[gydF4y2Ba4gydF4y2Ba，gydF4y2Ba29gydF4y2Ba]。gydF4y2Ba

图6。声音基频F0随性别和年龄的变化(数据来自Tsanas等人[gydF4y2Ba13gydF4y2Ba]）.gydF4y2Ba

为每个性别和年龄修剪分析建立专门的模型gydF4y2Ba

在男性、女性和年龄调整数据集上训练的机器学习模型的性能指标见gydF4y2Ba表4gydF4y2Ba。通过将性能与中给出的指标进行比较gydF4y2Ba表3gydF4y2Ba，我们可以看到，与使用整个数据集进行训练的模型相比，使用男性或年龄调整数据集的模型表现相当或更好。然而，使用女性数据集的模型的性能有所下降。gydF4y2Ba表1gydF4y2Ba显示，女性在非PD组中比例过高，而在PD组中比例过低，导致数据不平衡，并可能降低女性模型的性能。gydF4y2Ba

表4。性别和年龄分层模型。构建了三个独立的数据集:包含男性参与者的男性数据集，包含女性参与者的女性数据集，以及通过排除年龄小于50岁的参与者而调整年龄的数据集。对于每个数据集，我们构建了一个单独的模型，其性能报告如下(N=726)。gydF4y2Ba

算法gydF4y2Ba	男性(n = 415)gydF4y2Ba		女(n = 477)gydF4y2Ba			年龄调整(男性，n=366，女性，n=426)gydF4y2Ba
	AUCgydF4y2Ba^{一个gydF4y2Ba}	精度gydF4y2Ba	AUCgydF4y2Ba	精度gydF4y2Ba	AUCgydF4y2Ba		精度gydF4y2Ba
支持向量机gydF4y2Ba^bgydF4y2Ba	0.795gydF4y2Ba	0.717gydF4y2Ba	0.659gydF4y2Ba	0.763gydF4y2Ba	0.755gydF4y2Ba		0.723gydF4y2Ba
随机森林gydF4y2Ba	0.758gydF4y2Ba	0.702gydF4y2Ba	0.699gydF4y2Ba	0.788gydF4y2Ba	0.739gydF4y2Ba		0.713gydF4y2Ba
LightGBMgydF4y2Ba	0.725gydF4y2Ba	0.665gydF4y2Ba	0.717gydF4y2Ba	0.768gydF4y2Ba	0.749gydF4y2Ba		0.712gydF4y2Ba
XGBoostgydF4y2Ba	0.762gydF4y2Ba	0.717gydF4y2Ba	0.682gydF4y2Ba	0.771gydF4y2Ba	0.742gydF4y2Ba		0.704gydF4y2Ba

^{一个gydF4y2Ba}AUC:曲线下面积。gydF4y2Ba

^bgydF4y2BaSVM:支持向量机。gydF4y2Ba

我们还通过SHAP分析分析了驱动这些专用模型性能的特性。第二部分gydF4y2Ba图5gydF4y2Ba显示了根据其SHAP值排序的最显著特征以及每个特征对模型决策的影响分布。最重要的特征仍然是与mfcc相关的特征或复杂特征，如HNR、不同频率范围内的相对频带功率(RelBandPower1、RelBandPower3)、RPDE (F0估计的不确定性)、F0的摄动(DdpJitter)或幅度的摄动(Apq11Shimmer)。然而，一个值得注意的事实是，三音调和抖动相关的特征——medianpitch(主频率中位数)、StdDevPitch(主频率中位数)和MedianJitter (F0的中位数变化)——也会影响模型的预测，这在全数据模型上运行的SHAP分析中没有注意到。gydF4y2Ba

同样，我们在第三部分中解释了年龄修剪数据集的显着特征gydF4y2Ba图5gydF4y2Ba。我们注意到，最显著的特性通常来自MFCC特性组、复杂特性(RPDE、PPE和HNR)、相对频带功率(RelBandPower1、RelBandPower2和RelBandPower3)以及与节距相关的特性。此外，音高相关的特征也推动了模型的预测。gydF4y2Ba

限制gydF4y2Ba

在我们所有的实验中，我们选择留一交叉验证来保持不同模型、数据增强和数据集组合之间的统一实验设置，因为K-fold交叉验证可以显示基于折叠分层程度的性能差异很大。然而，我们承认，我们的选择引入了过拟合问题，并增加了计算复杂性流形。因此，我们不能运行广泛的超参数调优来提高模型的性能。通过仔细地对折叠进行分层，并为可比的实验设置保持相同的折叠设置，K-fold交叉验证可以使我们以更低的计算复杂度实现更高的性能。gydF4y2Ba

此外，我们选择的指标，准确性和ROC AUC，可能过于乐观，因为我们的数据集的不平衡性质。ROC-Precision-Recall平衡的准确性等指标，以及更多关于敏感性和特异性的信息，可能会让我们更清楚地了解我们在少数群体中的表现。在未来，我们计划应用其他交叉验证技术和更好的度量来进行我们的实验并报告我们的性能。gydF4y2Ba

从日常对话中检测PDgydF4y2Ba

PD引起的一些最常见的声音障碍是发音障碍(声音扭曲或异常)，构音障碍(言语发音问题)和低音症(声音减少)。两项与言语相关的诊断任务通常通过利用由这些疾病引起的声音模式的变化来检测PD:(1)持续发声(参与者被要求长时间以恒定的音调说出一个元音)和(2)运行言语(参与者说一个标准的句子)。Little等[gydF4y2Ba12gydF4y2Ba]开发了检测PD患者语音障碍的特征。Tsanas等[gydF4y2Ba25gydF4y2Ba]重点研究了远程监测自我给予的持续元音发声任务，以预测帕金森病统一评定量表(帕金森病评定量表2003)的评定，这是一种常用的量化帕金森病症状的指标。这些研究用复杂设备(例如，可穿戴设备、高分辨率录像机和英特尔家庭测试设备远程监控系统)捕获的数据来训练他们的模型，这些设备通常不是所有人都能访问，也很难扩展。在对家庭声学数据进行分类时，这些模型的性能会显著降低。此外，正确地完成持续发声任务需要遵循一套特定的指导方针，比如一口气完成任务，这对老年人来说可能很难。gydF4y2Ba

相比之下，我们通过使用基于网络的数据收集平台收集的数据来分析正在运行的语音任务，该平台可以被世界上任何地方的任何人访问，只需要一个带有集成摄像头和麦克风的联网设备。此外，运行语音任务不需要遵守特定指令，更类似于常规对话;因此，该模型可以潜在地扩展到从常规对话中预测PD -这是PD评估的潜在游戏规则改变者。未来，用户同意的插件可能会被开发出来，用于Alexa、Google Home或Zoom等应用程序，在这些应用程序中，音频可以在人与人之间传输。任何同意下载插件并在电话上、通过Zoom或进行虚拟或面对面演示时使用它的人，都可以在适当的时候获得非正式的神经科医生推荐。该插件不会存储参与者的数据，除非他们选择建立一个个性化的配置文件，以确保隐私和道德地使用我们的框架。gydF4y2Ba

验证模型解释gydF4y2Ba

SHAP发现的对建模决策有影响的特征得到了先前研究的很好支持。例如，MFCC功能已经被证明在广泛的音频任务中是有用的，如说话人识别[gydF4y2Ba48gydF4y2Ba]、音乐信息检索[gydF4y2Ba38gydF4y2Ba]、语音活动检测[gydF4y2Ba49gydF4y2Ba]，最重要的是，在语音质量评估方面[gydF4y2Ba50gydF4y2Ba]。同样，HNR的高影响和F0估计的不确定性(RPDE)以及无法保持恒定的F0 (PPE)对模型输出的影响与Little等人的研究结果一致[gydF4y2Ba12gydF4y2Ba]。然而，解释的第一部分gydF4y2Ba图5gydF4y2Bapd诱发的声带损伤是一项艰巨的任务。MFCC特征是通过将音频信号转换到频域来计算的，它们表示信号中的能量在不同频率范围内的分布情况。因此，提供与MFCC特征相对应的SHAP值的物理解释并不简单。同样，Little等[gydF4y2Ba12gydF4y2Ba]设计RPDE和PPE功能来模拟持续发声任务(发出“啊”)，假设健康的参与者能够保持平稳和有规律的声音模式。相反，说出多个句子会在数据中引入相当大的变化，增加大量的异构模式。因此，构建这些特征背后的潜在假设并不适用于我们说多个句子的任务。gydF4y2Ba

我们对第一部分所示的SHAP输出进行了实证验证gydF4y2Ba图5gydF4y2Ba。我们一次增量地添加一个特征来构建一个动态特征集，在该特征集上训练连续的模型，并报告准确性和AUC性能。我们看到，在添加7到8个特征后，我们的模型的性能趋于饱和。因此，我们可以说SHAP分析成功地梳理出了驱动模型性能的最重要的特征。gydF4y2Ba

为什么不只进行分层分析?gydF4y2Ba

出于几个原因，我们建立了包含所有性别的模型。首先，所有性别的声音模式之间存在潜在的共同特征，这些特征可能与PD的检测有关。其次，将数据集分成两部分减少了每个模型的可用训练数据，这反过来又可能降低每个模型的泛化能力。此外，我们的模型分析了所有年龄段患者的数据。虽然大多数PD患者的年龄在60岁以上，但约有10%至20%的PD患者年龄在50岁以下，其中约有一半年龄在40岁以下[gydF4y2Ba51gydF4y2Ba]。作为轶事证据，Michael J Fox在29岁时被诊断出患有PD [gydF4y2Ba52gydF4y2Ba穆罕默德·阿里患帕金森病早了42年[gydF4y2Ba53gydF4y2Ba]。在我们的数据集中，也有少数PD患者年龄小于50岁(gydF4y2Ba图4gydF4y2Ba）.在这些观察的基础上，我们认为我们的系统应该不分年龄向所有人提供访问。PD在影响个人时不会因年龄而歧视，自动化系统不应因年龄而歧视，并为所有年龄的人提供公平的服务。然而，这些因素可以作为PD分析的混杂因素。因此，我们提供了额外的分析，以确保我们的模型不使用群体特定信息的特质来进行预测。gydF4y2Ba

不包括实验室环境数据gydF4y2Ba

当数据在实验室收集时，参与者可以使用一致的记录设置和专用带宽访问提供支持的临床医生。相比之下，在家庭环境中收集的数据不涉及辅助，并且包括现实世界中异构记录设置的可变性和不一致的互联网速度。理论上，在gydF4y2Ba实验室gydF4y2Ba和gydF4y2Ba首页gydF4y2Ba我们彼此非常不同。gydF4y2Ba

确保我们的模型在没有gydF4y2Ba清洁实验室数据gydF4y2Ba，我们设计了两个实验。在实验1中，我们删除了干净的实验室数据，约占整个数据集的7.4%(54/726)，使用留一验证程序对剩余的672名参与者重新训练我们的模型，并计算了性能指标。在实验2中，我们随机删除了7%(大约54个数据点)gydF4y2Ba首页gydF4y2Ba从整个数据集中获取数据(同时保留gydF4y2Ba实验室gydF4y2Ba数据完整)，用剩下的93%的数据用留一交叉验证方法构建模型。然后，我们进行了10次实验，并计算了gydF4y2Ba平均gydF4y2Ba这10次运行的表现。我们发现这三个实验中的AUC度量是相当一致的，当删除实验室数据时，AUC有非常小的0.015的减少，这表明我们的框架在整个实验中执行得同样好gydF4y2Ba实验室gydF4y2Ba和gydF4y2Ba首页gydF4y2Ba数据。gydF4y2Ba

标签不一致性和预测震颤评分gydF4y2Ba

使用公园[gydF4y2Ba29gydF4y2Ba我们收集了最大的数据集之一，参与者按照MDS-UPDRS PD评估协议进行一系列运动、面部表情和言语任务[gydF4y2Ba3.gydF4y2Ba]。虽然我们在本研究中只分析了语音任务，但该数据集可以潜在地用于自动化评估大量MDS-UPDRS任务，并促进早期PD检测，从而改善全球数百万人的生活质量。然而，在网络上部署数据收集协议并方便世界上任何地方的任何人访问是有代价的。到目前为止，我们所有的PD患者都被临床证实为PD。因此，PD数据点的标签是可靠的。然而，没有PD的参与者没有进行临床验证。我们的数据收集方案向他们提出适当的问题，以检查他们是否被诊断为PD，并在他们回答为阴性时收集数据。然而，我们不能忽视这样一种可能性，即没有帕金森病的人群中有一小部分人处于帕金森病的早期阶段，并且对它一无所知。目前，在美国3.3亿人口中，估计约有100万PD患者[gydF4y2Ba51gydF4y2Ba]， PD患病率为0.3%。然而，由于我们的非pd数据集主要倾向于50岁以上的人群，我们的数据集中的比率可能高于0.3%。即使我们考虑到1%的患病率，我们的对照人群中未确诊PD的人数可能很低(最多4.6人)。因此，我们认为非pd数据标签通常是可靠的。在未来，我们计划为每个任务建模震颤评分在0-4范围内;0表示无震颤，4表示严重震颤)，而不是遵循MDS-UPDRS协议的二进制标签，以更彻底地解决此问题。gydF4y2Ba

构建更具代表性的数据集gydF4y2Ba

PARK协议是网络启用的，允许任何访问互联网的人贡献数据。我们计划通过增加更多非英语母语者、女性和PD患者来扩大我们的数据集。由于我们的PD数据是通过当地PD诊所的联系收集的，而非PD数据是通过亚马逊土耳其机械收集的，因此我们的大多数参与者来自美国或其他英语国家。为了使我们的模型对来自非英语母语者的数据更加稳健，我们正在收集来自非英语母语国家的PD和非PD数据。此外，我们目前的协议只能从有电脑和互联网接入的人那里收集数据，因此，它可能会排除服务不足的人。在未来，我们计划构建桌面和移动应用程序，可以离线收集数据，以建立一个更具包容性的框架。gydF4y2Ba

我们对女性数据的最佳模型表现得比男性模型差，如下所示gydF4y2Ba表4gydF4y2Ba。在我们的数据集中，我们将这种性能下降归因于女性参与者的PD或非PD失衡:女性的PD与非PD比率为101 / 300 (gydF4y2Ba表1gydF4y2Ba）.以往的流行病学研究显示，男性帕金森病的发病率和流行率都是女性的1.5至2倍[gydF4y2Ba54gydF4y2Ba，gydF4y2Ba55gydF4y2Ba]。因此，任何随机抽样的PD数据集都会有更高的男性患病率，从而导致模型更偏向于男性。我们目前的计划是优先收集来自所有性别、年龄和种族的平衡数据，从而形成一个平衡的数据集。gydF4y2Ba

我们的数据集也存在诊断测试中普遍存在的数据不平衡问题:来自非PD参与者的数据量是PD参与者的1.8倍。因此，有一种风险，即模型将偏向于预测大多数非pd类作为默认，并产生高假阴性分数。为了解决这个问题，我们计划在未来招募更多的PD参与者，使我们的数据集更加平衡。另一种可能的方法是通过对PD患者和非PD患者进行适当的年龄、性别和匹配而产生的数据集子集进行分析。gydF4y2Ba

如图所示gydF4y2Ba表1gydF4y2Ba，我们的参与者被诊断患有帕金森病gydF4y2Ba。gydF4y2Ba88 (sd 5)gydF4y2Ba。gydF4y2Ba41)年前。由于数据有限，我们没有对早期PD预测进行分析。在未来，我们计划让更多的参与者参与PD的早期阶段，并建立可以检测它们的模型。我们将特别关注招募年龄在20至40岁之间的PD患者，以分析年轻人中早期发病的PD。此外，我们计划收集和分析每个人的多个语音实例，以减少个体特异性变异，并获得更全面的PD状态视图。gydF4y2Ba

提高模型性能gydF4y2Ba

虽然我们认为AUC对于我们的数据集来说是一个更好的度量，但我们的模型在二元精度方面比总是选择非pd作为预测要好10%。为了在临床环境中实际部署，性能需要进一步提高。我们将专注于四个有前途的途径:使数据集平衡，设计更好的特征，能够对数据中的细微模式进行建模，使我们的模型对数据中存在的噪声具有弹性，以及从年龄和性别变量中解耦PD预测。gydF4y2Ba

为了去除噪声，我们计划增强Poorjam等人提出的技术[gydF4y2Ba56gydF4y2Ba通过检测符合实验设计的数据片段来自动提高数据质量。此外，如上所述，性别和年龄可能成为PD预测任务中的混淆变量。在本文中，我们已经证明了我们的统一模型和分层性别特定模型具有相似的性能。然而，我们计划建立更好的模型来系统地分析年龄和性别变量的影响，同时从中受益。我们可以通过结合因果自举技术来实现这一点。因果自举技术是一种重新采样方法，它考虑变量之间的因果关系，并否定虚假的间接相互作用的影响，正如Little和Badawy所概述的[gydF4y2Ba57gydF4y2Ba]。gydF4y2Ba

致谢gydF4y2Ba

本研究由美国国立卫生研究院神经疾病和中风研究所资助，资助号为P50NS108676。gydF4y2Ba

作者的贡献gydF4y2Ba

WR, SL, MSI和VNA负责数据分析，特征提取，模型训练，模型解释和手稿准备。HR、AAM、EW和SJR帮助构建、维护和协调数据收集过程。MRA、MAL和RD帮助改进了稿件;建议重要实验;并提供对代码和数据等关键资源的访问。所有其他作者都帮助收集数据。EH是该项目的主要研究者;他为整个项目提供了便利，并帮助塑造了手稿的叙述。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附录1gydF4y2Ba

对特性的描述。gydF4y2Ba

DOCX文件，20kbgydF4y2Ba

印度的神经病学。中华神经医学杂志，2013;16(4):465-466 [j]gydF4y2Ba免费全文gydF4y2Ba］［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Howlett WP。非洲的神经病学。神经病学杂志，2014,11(7):654-655。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Goetz CG, Tilley BC, Shaftman SR, Stebbins GT, Fahn S, Martinez-Martin P，运动障碍学会UPDRS修订工作组。运动障碍学会赞助的统一帕金森病评定量表(MDS-UPDRS)的修订:量表的呈现和临床测试结果。现代医学，2008;23(15):2129-2170。［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Ali M, Hernandez J, Dorsey E, Hoque E, McDuff D.基于网络视频的帕金森病分类的时空注意和放大。参见:第15届IEEE自动人脸和手势识别国际会议论文集(FG 2020)。2020年出席:第15届IEEE自动人脸和手势识别国际会议(FG 2020);2020年11月16日至20日;布宜诺斯艾利斯，阿根廷。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Lonini L, Dai A, Shawen N, Simuni T, Poon C, Shimanovich L，等。帕金森病可穿戴传感器:哪些数据值得收集用于训练症状检测模型。中华医学杂志2018;11 (1):64-68 [j]gydF4y2Ba免费全文gydF4y2Ba］［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Bandini A, Giovannelli F, Orlandi S, Barbagallo S, Cincotta M, Vanni P，等。特发性帕金森病异常的自动识别。生物医学信号过程控制2015;17:47-54。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Ho AK, Iansek R, Marigliani C, Bradshaw JL, Gates S.帕金森病患者的语言障碍。中华神经医学杂志1999;11(3):131- 131。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Logemann JA, Fisher HB, Boshes B, Blonsky ER。大量帕金森患者言语中声道功能障碍的频率和发生率。[J] .言语与听觉障碍;1978;43(1):47-57。［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
运动言语障碍电子书:底物，鉴别诊断和管理。第4版。阿姆斯特丹:爱思唯尔;2019:201。gydF4y2Ba
陈建军，陈建军，陈建军，等。使用智能手机检测和监测帕金森病的症状:一项试点研究。帕金森病相关障碍2015;21(6):650-653。［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
玩家J, Hindle JV。老年患者的帕金森病伦敦:CRC出版社;2008:1 - 432。gydF4y2Ba
李建军，李建军，李建军，等。帕金森病患者语音障碍监测方法的研究进展。Nat Prec 2008 Sep 12:1。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
基于非线性语音信号处理和统计机器学习的帕金森病症状严重程度的精确远程监测。博士论文，牛津大学，英国。2012.URL:gydF4y2Bahttps://ora.ox.ac.uk/objects/uuid:2a43b92a-9cd5-4646-8f0f-81dbe2ba9d74gydF4y2Ba[2021-09-08]访问gydF4y2Ba
李建军，李建军，李建军，等。基于复杂神经网络的帕金森病计算机辅助诊断。中华卫生杂志;2015;6(3):281-302 [J]gydF4y2Ba免费全文gydF4y2Ba］［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
语音障碍对帕金森病监测的特征分析。见:第39届IEEE医学与生物工程学会(EMBC)国际年会论文集。2017年发表于:第39届IEEE医学与生物工程学会(EMBC)国际年会;2017年7月11日至15日;济州岛，韩国(South) p. 2308-2311。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Wroge T， Özkanca Y, Demiroglu C, Si D, Atkins D, Ghomi R.基于机器学习和语音的帕金森病诊断。见:IEEE信号处理医学与生物学研讨会论文集(SPMB)。2018年发表于:IEEE医学与生物学信号处理研讨会(SPMB);2018年12月1日;费城，宾夕法尼亚州，美国［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
张建军，张建军，张建军，等。基于卷积神经网络的帕金森病检测。2017年智能对象与社会公益技术国际会议报告:智能对象与社会公益技术国际会议报告;2017年11月29-30日;比萨，意大利，第206-215页。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Vásquez-Correa陈建军，赵建军，赵建军，Nöth E.帕金森病患者构音障碍水平的自动评估。[J]社会纠纷2018;76:21-36。［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Dubey H, Goldberg J, Abtahi M, Mahler L, Mankodiya K. echowar:智能手表技术在帕金森病患者语音和言语治疗中的应用。参见:2015年无线健康会议论文集，发表于:2015年无线健康会议;2015年10月14 - 16日;马里兰州贝塞斯达第1-8页。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Vásquez-Correa J, Arias-Vergara T, Orozco-Arroyave J, Vargas-Bonilla J, Arias-Londoño J, Nöth E.非控制噪声条件下连续语音记录的帕金森病自动检测。发表于:国际语音通信协会第六届年会;2015;德国德累斯顿。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
陈宏，王刚，马超，蔡忠，刘伟，王松。一种高效的混合核极限学习机方法在帕金森病早期诊断中的应用。神经计算机学报(英文版);2016;［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
公园测试。URL:gydF4y2Bahttps://parktest.net/gydF4y2Ba[2020-09-02]访问gydF4y2Ba
日本久保田公司K,陈J,小m .大规模可穿戴传感器数据的机器学习在帕金森病:概念、承诺,陷阱和期货。Mov disorder 2016, sept;31(9):1314-1326。［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
岳松，杨勇，王慧，Rahul H . Katabi D.身体罗盘:无线信号监测睡眠姿势。2020年6月15日发表于:ACM交互式、移动、可穿戴和无处不在技术;2020年6月15日;纽约，美国，第1-25页。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军，等。基于非侵入性语言测试的帕金森病进展远程监测。生物医学工程学报，2010,31(4):884-893。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
移动简报。皮尤研究中心，互联网与技术，2019。URL:gydF4y2Bahttps://www.pewresearch.org/internet/fact-sheet/mobile/gydF4y2Ba[2021-09-08]访问gydF4y2Ba
张建军，张建军，张建军。基于自监督任务的语音表征学习。国际语音通信协会- INTERSPEECH国际年会上发表:国际语音通信协会- INTERSPEECH国际年会上;2019年4月6日;格拉茨，奥地利gydF4y2Bahttp://arxiv.org/abs/1904.03416gydF4y2Ba［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Tsanas A, Little M, McSharry P, Ramig L.利用蜂窝移动电话网络远程监测帕金森病症状的严重程度。语义的学者。URL:gydF4y2Bahttps://www.semanticscholar.org/paper/Using-the-cellular-mobile-telephone-network-to-%E2%80%9F-s-Tsanas-Little/17180d351b33f13f7fe681ddf8411cf6aad74b64gydF4y2Ba[2021-09-08]访问gydF4y2Ba
Langevin R, Ali MR, Sen T, Snyder C, Myers T, Dorsey ER，等。用于帕金森病特征自动分析的PARK框架。ACM交互暴民可穿戴无所不在技术2019年6月21日;3(2):1-22。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
宾夕法尼亚大学语音实验室Python3强制校准工具包(P2FA)。GitHub。URL:gydF4y2Bahttps://github.com/jaekookang/p2fa_py3gydF4y2Ba[2021-09-02]访问gydF4y2Ba
HTK语音识别工具包。URL:gydF4y2Bahttp://htk.eng.cam.ac.uk/gydF4y2Ba[2021-09-02]访问gydF4y2Ba
袁军，李立民。美国最高法院语料库的说话人识别。[J]会计学报，2008;33(5):391 - 391。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
莫尔图，史丹森，韦思，等。合作研究者授权的协商——服务使用者进行心理健康合作研究的经验。残障康复杂志，2012;34(19):1608-1616。［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Jadoul Y, Thompson B, de Boer B.介绍Parselmouth: Praat的Python接口。中国语音学杂志2018年11月;71:1-15 [J]gydF4y2Ba免费全文gydF4y2Ba］［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
帕金森病症状严重程度远程监测中语音障碍措施的稳健简约选择。语义的学者。URL:gydF4y2Bahttps://www.semanticscholar.org/paper/Robust-parsimonious-selection-of-dysphonia-measures-Tsanas-Little/43b91147f0b5ab900b29ea7943d58fe761f0e26bgydF4y2Ba[2019-10-14]访问gydF4y2Ba
Little MA, McSharry PE, Roberts SJ, Costello DA, Moroz IM。利用非线性递归和分形标度特性进行语音紊乱检测。生物医学工程学报，2007;6(1):23。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Goldberger计量经济学硕士课程。剑桥，马萨诸塞州:哈佛大学出版社;1991:1 - 426。gydF4y2Ba
李建军。音乐与运动信息检索。瑞士:施普林格;2007.gydF4y2Ba
李建军，李建军，李建军，李建军。新的语音信号处理算法用于帕金森病的高精度分类。生物医学工程学报，2012,31(5):1264-1271。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
张建军，张建军。支持向量网络。Mach Learn 1995 Sep;20(3):273-297。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
陈涛，Guestrin C. Xgboost:一种可扩展的树提升系统。2016年第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集，发表于:KDD '16:第22届ACM SIGKDD知识发现与数据挖掘国际会议;2016年8月13日- 17日;旧金山加利福尼亚第785-794页。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
柯刚，孟强，Finley T，王涛，陈伟，马伟，等。Lightgbm:一个高效的梯度增强决策树。神经网络信息处理系统，2017:354 [j]gydF4y2Ba免费全文gydF4y2Ba]gydF4y2Ba
随机决策森林。见:第三届文件分析与识别国际会议论文集，1995年，发表于:第三届文件分析与识别国际会议;1995年8月14日至16日;加拿大蒙特利尔，QC。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP。SMOTE:合成少数派过采样技术。[J]人工智能研究，2002;01;16:31 -357。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Nguyen HM, Cooper EW, Kamei K.不平衡数据分类的边界过采样。[J] .计算机科学与技术，2011;31(1):1 - 4。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
n人博弈的一个值。1953;2(28):307-317。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
Lundberg SM, Erion G, Chen H, DeGrave A, Prutkin JM, Nair B，等。从局部解释到全球理解，通过可解释的树木人工智能。Nat Mach intel 2020, 1月17日;2(1):56-67 [gydF4y2Ba免费全文gydF4y2Ba］［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Bhattarai K, Prasad P, Alsadoon A, Pham L, Elchouemi A. MFCC在说话人识别中的应用实验。见:第七届信息科学与技术国际会议。发表于:第七届信息科学与技术国际会议(ICIST);2017年4月16日至19日;岘港，越南，第32-37页。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
李华，李洪波，李洪波，王志强，王志强，Fränti。基于MFCC特征和支持向量机的语音检测。见:演讲与计算机国际会议论文集(SPECOM07)。2007年发表于:国际演讲与计算机会议(SPECOM07);2007;莫斯科，俄罗斯，第556-561页gydF4y2Bahttp://cs.uef.fi/sipu/pub/svm-vad-SPECOM07.pdfgydF4y2Ba
Tsanas A, Little MA, McSharry PE, Ramig LO。非线性语音分析算法映射到一个标准度量实现临床有用的量化平均帕金森病症状严重程度。J R Soc Interface 2011, 06;8(59):842-855 [J]gydF4y2Ba免费全文gydF4y2Ba］［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李华，李洪波，李洪波，王志强，王志强，Fränti。基于MFCC特征和支持向量机的语音检测。见:演讲与计算机国际会议论文集(SPECOM07)。2007年发表于:国际演讲与计算机会议(SPECOM07);2007;莫斯科，俄罗斯，第556-561页gydF4y2Bahttp://cs.uef.fi/sipu/pub/svm-vad-SPECOM07.pdfgydF4y2Ba
迈克尔的故事。迈克尔·J·福克斯。URL:gydF4y2Bahttps://www.michaeljfox.org/michaels-storygydF4y2Ba[2021-09-02]访问gydF4y2Ba
麦卡勒姆·k·穆罕默德·阿里对帕金森病的倡导在拳击界留下了宝贵的遗产。帕金森今日新闻2016。URL:gydF4y2Bahttps://parkinsonsnewstoday.com/2016/06/10/muhammad-alis-advocacy-parkinsons-disease-endures-boxing-legacy/gydF4y2Ba[2021-09-02]访问gydF4y2Ba
Van Den Eeden SK, Tanner C, Bernstein A, Fross R, Leimpeter A, Bloch D，等。帕金森病的发病率:年龄、性别和种族/民族的差异中华流行病学杂志，2003;31(1):391 - 391。［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
李建军，李建军，李建军，李建军，等。帕金森病的性别差异。中华神经外科杂志[J]; 2007; 31 (3): 391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba］［gydF4y2BaCrossRefgydF4y2Ba］［gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
Poorjam AH, Kavalekalam MS, Shi L, Raykov JP, Jensen JR, Little MA等。基于语音的远程帕金森病检测的自动质量控制和增强。2021年3月;127:1-16。［gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
小M, Badawy r，因果引导。出来了。2019.URL:gydF4y2Bahttps://arxiv.org/abs/1910.09648gydF4y2Ba[2021-09-08]访问gydF4y2Ba

‎gydF4y2Ba

AUC:gydF4y2Ba曲线下面积gydF4y2Ba

曼:gydF4y2Baharmonic-to-noise比率gydF4y2Ba

MDS-UPDRS:gydF4y2Ba运动障碍学会统一帕金森病评定量表gydF4y2Ba

MFCC:gydF4y2Bamel频率倒谱系数gydF4y2Ba

P2FA:gydF4y2Ba宾夕法尼亚大学语音实验室强制校准工具包gydF4y2Ba

公园:gydF4y2Ba远程运动任务的帕金森分析gydF4y2Ba

请进:gydF4y2Ba问题不可知论语音编码器gydF4y2Ba

帕金森病:gydF4y2Ba帕金森病gydF4y2Ba

个人防护用品:gydF4y2Ba基音周期熵gydF4y2Ba

中华民国:gydF4y2Ba接收机工作特性gydF4y2Ba

RPDE:gydF4y2Ba重复周期密度熵gydF4y2Ba

世鹏科技电子:gydF4y2Ba沙普利加法解释gydF4y2Ba

支持向量机:gydF4y2Ba支持向量机gydF4y2Ba

编辑:R库卡夫卡，G艾森巴赫;提交19.02.21;经M . Goni、C . Fincham、D . Zhai同行评审;对作者03.04.21的评论;修订版本收到13.04.21;接受07.08.21;发表19.10.21gydF4y2Ba

©Wasifur Rahman, Sangwu Lee, Md Saiful Islam, Victor Nikhil Antony, Harshil Ratnu, Mohammad Rafayet Ali, Abdullah Al Mamun, Ellen Wagner, Stella Jensen-Roberts, Emma Waddell, Taylor Myers, Meghan Pawlik, Julia Soto, Madeleine Coffey, Aayush Sarkar, Ruth Schneider, Christopher Tarolli, Karlo Lizarraga, Jamie Adams, Max A Little, E Ray Dorsey, Ehsan Hoque。原载于医学互联网研究杂志(//www.mybigtv.com)， 2021年10月19日。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

使用基于网络的语音任务检测帕金森病:观察性研究gydF4y2Ba