发表在23卷第六名(2021): 6月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/25247,首次出版
通过语音识别进行声带疾病预测的深度学习应用:初步发展研究

通过语音识别进行声带疾病预测的深度学习应用:初步发展研究

通过语音识别进行声带疾病预测的深度学习应用:初步发展研究

原始论文

1国立阳明交通大学临床医学研究所,台北市

2台湾新北市辅仁大学附属辅仁医院耳鼻咽喉头颈外科

3.台湾新北市辅仁天主教大学医学院医学院

4台湾台北市正新总医院耳鼻咽喉科语音中心

5Muen生物医学和光电子技术公司,台北,台湾

6台湾新北市辅仁天主教大学工商管理研究生院

7台中中华医科大学附属医院骨科

8国立阳明交通大学干细胞研究中心,台北市

9台北市荣民总医院医学研究部,台北市

通讯作者:

李光生,医学博士

临床医学研究所

国立阳明交通大学

北投区黎弄街二段155号

台北,11221年

台湾

电话:886 2 28757391

传真:886 2 28757841

电子邮件:oscarlee9203@gmail.com


背景:言语障碍通过干扰交流影响生活质量。然而,喉镜检查是昂贵的,不容易在初级保健单位。需要有经验的喉科医生才能做出准确的诊断。

摘要目的:本研究旨在通过人工智能的病理性语音识别来检测各种声带疾病。

方法:我们收集了189份正常语音样本和552份嗓音障碍患者样本,包括声带萎缩(n=224)、单侧声带瘫痪(n=50)、器质性声带病变(n=248)和内收肌痉挛性发音障碍(n=30)。将741个样本分为2个集:593个样本作为训练集,148个样本作为测试集。应用卷积神经网络方法来训练模型,并将发现与人类专家的发现进行比较。

结果:卷积神经网络模型在区分正常语音、声带萎缩、单侧声带瘫痪、有机声带病变和内收肌痉挛性发音障碍方面的灵敏度为0.66,特异性为0.91,总体准确率为66.9%。与人类专家的准确率相比,2名喉科医生的总体准确率分别为60.1%和56.1%,2名普通耳鼻喉科医生的总体准确率分别为51.4%和43.2%。

结论:在使用我们的普通话病理语音数据库进行训练后,通过深度学习方法,仅使用语音就可以用于常见的声带疾病识别。这种涉及人工智能的方法可用于临床使用声音筛查一般声带疾病。该方法包括快速调查和一般健康检查。它可以在初级保健单位缺乏喉镜能力的地区应用于远程医疗。它可以支持医生对病例进行预筛选,允许仅对涉及自动识别或听力问题的病例进行侵入性检查,并对其他临床检查结果进行专业分析,以揭示对病理存在的怀疑。

中国医学杂志,2017;23(6):e25247

doi: 10.2196/25247

关键字



语音障碍的影响已日益被认为是一个公共卫生问题。言语障碍通过干扰交流影响身体、社会和职业生活质量[1].在全国范围内对寻求治疗的发音障碍的保险索赔数据分析显示,在5500万人中患病率为0.98% [2],而在70岁以上的人群中,这一比例达到2.5% [2].然而,老年人口的整体发音困难发生率估计要高得多(12%-35%)[3.],这可能意味着语音障碍通常被患者忽视,导致诊断不足。

根据美国耳鼻喉头颈外科学会基金会最先进的语音障碍临床实践指南,如果语音障碍在4周内未能解决或改善,建议进行喉镜检查[4].在多学科语音诊所,初级保健医生与具有频闪检查解释经验的喉科医生和言语病理学家所作诊断的比较表明,初级保健医生对语音障碍的诊断在45%-70%的病例中存在差异[4].然而,喉镜检查是一种侵入性检查。为了得到准确的诊断,必须由经验丰富的喉科医生进行。检查设备很昂贵,初级保健单位通常没有。在医疗资源不足的地方,延误诊断和治疗很常见。5].因此,需要一种非侵入性诊断工具来解决这一问题。虽然这种工具不能取代由经验丰富的医生进行的喉镜检查,但它是值得开发的,因为一种非侵入性的筛查重要临床症状的工具可以鼓励患者访问语音诊所进行进一步评估。

最近的几项研究试图通过使用各种基于机器学习的分类器来区分正常和异常的声音,这些分类器有检测病理声音的潜力[5-9].迄今为止,通过使用深度神经网络实现的病理语音检测的最高准确率已达到99.32% [5].然而,各种类型病理性嗓音的鉴别诊断尚未得到广泛报道。声带萎缩、单侧声带麻痹、器质性声带病变等常见声带疾病,高速视频观察到的声带振动模式完全不同[10].我们假设不同的振动模式会导致不同的语音特征。本研究试图通过使用深度学习方法的病理性语音识别来检测各种声带疾病。


样品收集

本研究遵循《赫尔辛基宣言》所表达的原则,并获诚新总医院及辅仁天主教大学机构伦理与研究委员会批准。声音样本来自陈新总医院语音中心及天主教辅仁医院耳鼻咽喉头颈外科。这些样本包括189个正常语音样本和552个语音障碍样本,包括声带萎缩(n=224)、单侧声带瘫痪(n=50)、器质性声带病变(n=248)和内收肌痉挛性发音障碍(n=30)。普通话段落中连续元音/a:/的语音样本[11) (多媒体附件1)录音时,使用带有数字放大器的高品质麦克风,麦克风与嘴部的距离约为15-20厘米,背景噪音为40- 45分贝。采样率为44100 Hz,分辨率为16位,数据以未压缩的。wav格式保存。

比较与评价

我们首先将741个样本分为2个集:593个样本作为训练集,148个样本作为测试集。使用基于计算机的随机化,我们选择了189个正常语音样本中的152个,50个单侧声带瘫痪样本中的40个,30个内收肌痉挛性发音障碍样本中的24个,224个声带萎缩样本中的179个,以及248个有机声带病变样本中的198个作为训练集(表1).

表1。用于实验的语音样本的细节(N=741)。
样本 训练集(n=593) 测试集(n=148)
正常的 152 37
单侧声带麻痹 40 10
内收肌痉挛性发音障碍 24 6
声带萎缩 179 45
声带器质性病变 198 50

为了管理训练集的有限大小,我们使用了一种混合方法来进行数据增强[12].混合方法已应用于卷积神经网络(cnn)音频场景分类,以减少过拟合,获得更高的预测精度[13].我们随机选取2个语音文件,并将其混合成一个权重随机选取的语音文件,构建虚拟训练示例。接下来,我们对每个语音文件进行随机裁剪,得到10个语音文件,长度为11.88秒(根据我们的初步测试,在我们硬件的图形处理单元内存限制内,训练长度的平台点)。此外,我们使用过采样来调整数据的类分布[14].

使用cnn时,2D图是提取特征的理想选择。因此,我们对处理后的语音文件执行Mel频率倒谱系数(MFCCs)来获得频谱图。采用预强调、加窗、快速傅里叶变换、Mel滤波、非线性变换和离散余弦变换[15].第一个特征由40维mfc组成[1617].接下来,对于第二和第三个特征,我们计算了MFCC随时间的轨迹(delta MFCCs)和MFCCs的二阶delta。因此,有3个通道的输入特征可以被认为是一个彩色图像(即计算机视觉领域中的红绿蓝)。

cnn具有明显的与特征表示相关的特征,其中较低层提供一般的特征提取能力,较高层包含越来越具体于原始分类任务的信息[18].这允许逐字重用广义特征提取和较低CNN层的表示;较高层针对具有与原始问题相关特征的次要问题域进行微调。因此,与其设计一个随机参数初始化的新CNN,不如采用预先训练好的CNN,并对其参数化进行针对特定分类域的微调。光谱图乍一看与正常图像大不相同。然而,低级别的特征,包括边缘、角落和形状,在正常的图像和光谱图中很常见[19].在之前的一项研究中,使用ImageNet数据集中预训练的CNN模型进行的基于声谱图的人群声音分析显示,在区分人群情绪时具有很高的准确性[19].另一项研究也证明,在分类正常或病理病例时,预训练的CNN模型比未训练的CNN模型表现更好[18].我们使用了不同的CNN架构,如EfficientNet-B0到B6 [20.], SENet154 [21], Se_resnext101_32x4d [21]和se_resnet152 [21]模型,来自ImageNet数据集,这些数据集已经被预先训练用于迁移学习。我们将病理情况分为2种(正常声音;内收肌痉挛性发音障碍加器质性声带病变加单侧声带麻痹加声带萎缩),3例(声音正常;内收肌痉挛性发音困难;器质性声带病变加单侧声带瘫痪加声带萎缩),4(声音正常;内收肌痉挛性发音困难;声带器质性病变;单侧声带瘫痪加声带萎缩),或5(声音正常;内收肌痉挛性发音困难;声带器质性病变; unilateral vocal paralysis; vocal atrophy) different conditions and trained the CNN. For the final prediction of an input instance, we used the maximum probability to obtain the label.

在训练集中进行微调的超参数设置方面,593个样本中的474个(79.9%)用于初始训练,593个样本中的119个(20.1%)用于验证。我们添加了dropout函数和不同的数据增强方法,以防止模型在我们的数据集中过拟合[2223].将退出率设置为0.25-0.5进行正则化。然后,我们使用基于内存消耗选择的32个小批来训练模型[24].学习率的调整基于余弦退火和1周期策略[2526].该模型采用余弦退火算法,将梯度反复拟合到局部最小值。使用Adam优化算法对网络进行端到端训练,并将交叉熵作为损失函数进行优化[27].针对模型头部的不同分类问题,我们采用SoftMax层作为输出层进行多类分类,采用sigmoid层进行二进制分类。最后,通过平均输出概率对模型进行装配,得到更稳健的结果,以最小化预测误差的偏差,提高CNN模型的预测精度[25].机器学习过程使用Python 3.8 (Python软件基金会)和PyTorch 1.7.1 for Ubuntu 18.04 (Facebook的AI研究实验室[FAIR])执行。此外,我们邀请了2名会讲普通话的喉科医生和2名耳鼻喉科(ENT)医生,将测试集的语音样本分为5类。我们将他们的分类与我们的模型进行了比较。

统计分析

我们的模型的有效性通过几个指标进行评估,包括准确性、敏感性、特异性、F1评分、受试者工作特征(ROC)曲线和曲线下面积(AUC)。所有指标都是使用Python计算的。


本研究中的语音样本由一个持续的元音和一个连续的短文语音组成。我们首先通过训练不同的部分来比较结果:单独训练元音,单独训练文章,以及整个声音样本(即元音和文章)。由于元音和作文组(F1分数=0.65)的F1分数高于元音组(F1分数=0.54)和作文组(F1分数=0.57),我们在后续的机器学习中应用了完整的语音样本。图1显示了损失函数值在训练集和验证集上的变化,这表明我们的模型可以在运行优化多个epoch后收敛。

图1。损失函数值在训练集和验证集上的变化说明。
查看此图

表2给出了不同分类方法的训练结果,包括2(正常语音;内收肌痉挛性发音障碍加器质性声带病变加单侧声带麻痹加声带萎缩),3例(声音正常;内收肌痉挛性发音困难;器质性声带病变加单侧声带瘫痪加声带萎缩),4(声音正常;内收肌痉挛性发音困难;声带器质性病变;单侧声带麻痹;声带萎缩),或5(声音正常;内收肌痉挛性发音困难;声带器质性病变; unilateral vocal paralysis; vocal atrophy) different conditions trained by the CNN. The 2-classification condition could equally distinguish pathological voices from normal voices. In our model, the accuracy of pathological voice detection reached 95.3%; the sensitivity was 99%, specificity was 84%, and AUC was 0.98. Using the 3-classification condition, we aimed to identify adductor spasmodic dysphonia patients from those with other vocal fold pathologies. The accuracy was 91.2%, sensitivity was 82%, specificity was 93%, and AUC was 0.91. Using the 4-classification condition, vocal atrophy and unilateral vocal paralysis could be clinically grouped as “glottic insufficiency.” For this condition, the accuracy was 71.0%, sensitivity was 75%, specificity was 89%, and AUC was 0.88. Using the 5-classification condition, the accuracy was 66.9%, sensitivity was 66%, specificity was 91%, and AUC was 0.85.图2显示了这些结果的混淆矩阵。图3所得结果的ROC曲线为。

表2。不同分类条件下语音障碍分类人工智能模型的性能。
灵敏度 特异性 准确性,% F1的分数 曲线值下的平均面积
2 0.99 0.84 95.3 0.97 0.98
3. 0.82 0.93 91.2 0.80 0.96
4 0.75 0.89 71.0 0.75 0.88
5 0.66 0.91 66.9 0.66 0.85
图2。2、3、4和5个分类的混淆矩阵。AN =病态的声音;NC =正常语音;SD =内收肌痉挛性发音障碍;PAATOL =单侧声带瘫痪/声带萎缩/器质性声带病变;OL =器质性声带病变;PAAT =单侧声带麻痹/声带萎缩;单侧声带麻痹;语音萎缩。
查看此图
图3。2、3、4、5分类的受试者工作特征曲线。NC =正常语音;SD =内收肌痉挛性发音障碍;PAATOL =单侧声带瘫痪/声带萎缩/器质性声带病变;OL =器质性声带病变;PAAT =单侧声带麻痹/声带萎缩;单侧声带麻痹;语音萎缩。
查看此图

此外,我们邀请了四位耳鼻喉科专家使用这5种分类方法通过语音识别声带病理。结果显示在表3而且图4.2名喉科医师的准确率分别为60.1%和56.1%,2名耳鼻喉科专科医师的准确率分别为51.4%和43.2%。

表3。我们的人工智能模型和4位人类专家对5类条件的性能比较。
测试参与者 灵敏度 特异性 准确性,%
深度学习模型 0.66 0.91 66.9
喉科医师A(11年经验) 0.61 0.89 60.1
喉科医师B级(10年经验) 0.63 0.88 56.1
一般ENT一个C(8年工作经验) 0.54 0.88 51.4
普通耳鼻喉科D(14年工作经验) 0.42 0.85 43.2

一个耳鼻喉:耳朵、鼻子和喉咙。

图4。人类专家5种分类的混淆矩阵。NC =正常语音;SD =内收肌痉挛性发音障碍;OL =器质性声带病变;单侧声带麻痹;语音萎缩。
查看此图

主要研究结果

在本研究中,我们构建了一个CNN模型,该模型仅基于声音就能区分常见声乐疾病的不同病理声音,特异性高(91%)。据我们所知,以前没有研究使用人工智能来区分说普通话的不同类型的病态声音。使用我们的模型,我们用完整的语音样本训练CNN获得了比只训练元音或只训练文章语音更好的结果。

我们的模型可以区分正常语音和内收肌痉挛性发音障碍,在5类情况下表现良好(AUC值分别为0.985和0.997)。我们模型的整体准确性也优于参与研究的所有耳鼻喉科专家。这与我们的临床观察相吻合,病理声音的第一印象通常被喉镜检查所掩盖。此外,喉科医生在诊断语音障碍时比普通耳鼻喉科专家表现出更高的准确性。这可能意味着,通过增加临床经验,可以提高人类医生对病理声音印象的准确性。在比较每种分类的准确性后,我们发现,在识别有机声带病变时,人工智能明显优于喉科医生(人工智能,68%;喉科医生A, 60%;喉科医生B, 24%)。然而,喉科医生在声带萎缩识别方面稍好一些(人工智能,51%;喉科医生A, 51%; laryngologist B, 56%).

器质性声带病变、单侧声带瘫痪和声带萎缩可导致发声时出现闭合间隙,导致微弱的呼吸声[28-30.],以及声带张力不平衡,导致复音障碍(当一个声音被认为是同时发出两个音高时)[31].具体来说,在振动过程中出现器质性声带病变时,病变将声带分为2个振子。然而,在单侧声带瘫痪的情况下,正常声带和瘫痪声带的振动频率是不同的。声带萎缩会表现为振动的破坏,每隔几个声门周期就会出现正常振动的明显重复丧失[10].然而,振动模式的差异只能通过高速视频和多层数字视频运动来观察[10],由此产生的病态声音很难被人类识别。我们推测,我们的模型可以通过深度学习来识别相关特征,从而获得更好的结果。

喉科医生可以区分老年和年轻患者,并在检查过程中根据自己的知识验证自己的判断。声带萎缩是老年患者最常见的声带病变[3.].因此,如果喉科医生判断这是一个老年人的声音,他们可能会把病理性的声音归类为声带萎缩。

关于错误分类,我们发现我们的模型可以成功地识别正常语音和痉挛性语音障碍。但器质性声带病变、单侧声带麻痹、声带萎缩三者之间的鉴别较为困难。虽然这三种疾病的振动模式不同,但疾病严重程度的不同可能导致不同程度的嘶哑。例如,微小的声带结节相对于巨大的声带息肉,代偿性尚可的单侧声带麻痹相对于闭合间隙较大的单侧声带麻痹,轻度前闭合间隙的声带萎缩相对于闭合间隙较大的声带萎缩,在同一组中可能存在不同程度的嘶哑。我们假设各组中较轻的病例可能没有表现出典型的病理振动模式。需要进一步的研究来证实我们的假设。

四名人类专家需要40-80分钟来识别测试集中的148个语音样本;然而,我们的模型只需要30秒就能完成同样的任务。我们模型的处理时间对于未来筛选工具的发展是很有希望的。

与之前工作的比较

以前的大多数研究都是使用持续的元音来检测病理语音[578].然而,其他研究使用连续语音样本进行分析[6].cnn自动从录音谱图中提取特征,用于语音障碍诊断,训练数据量越大,结果越好[32].因此,这里使用的CNN可能从这些完整的语音样本中提取了更多的特征,从而用我们的模型得到更好的训练结果。

在这项研究中,我们使用我们的语音数据库进行深度学习方法。使用最广泛的语音障碍数据库是马萨诸塞州眼耳医院(MEEI)语音障碍数据库(可从KayPENTAX Inc.购买)。MEEI语音样本(53个正常语音和662个病理语音)由元音/ah/(53个正常语音和657个病理语音)和一个句子的发音(“当阳光照射在空气中的雨滴时,它们就像棱镜一样,形成彩虹”)[33].然而,MEEI数据库中的录音是以不同的采样率(10、25和50千赫)录制的,正常和病态的录音是在2个不同的环境中录制的[32].因此,在使用MEEI样本进行训练时,人工智能是否对语音特征或环境进行了分类尚不清楚。

另一个广泛使用的语音障碍数据库是萨尔布吕肯语音数据库,其中包含2000多人的语音记录。每个参与者文件都包含/a/、/i/和/u/的低音、中性、高音和低-高-低音元音的录音,以及一个连续的语音句子(“Guten Morgen, wie geht as Ihnen?”)。所有这些样本都以50 khz采样率和16位分辨率记录[32].萨尔布吕肯语音数据库被认为优于MEEI数据库,因为它使用相同的录音环境和相同的采样率。然而,它包含71种不同的发音障碍病理和许多患者记录在这个数据库有多种障碍。因此,在机器学习之前很难实现外延。

我们的数据库有几个优点。首先,所有的语音数据都来自我们诊所的患者,他们都有详细的图表文件,由2名经验丰富的喉科医生(H-CH和S-YC)仔细审查。因此,原始数据的质量优于其他研究的原始数据,其中语音数据是从公共数据库检索的。其次,所有的语音数据都是使用44.1 khz采样率和16位分辨率记录的,这些采样率和分辨率组成了标准的音频CD格式。这种广泛使用的格式可以提高该数据集的可用性。第三,我们重点研究了由经验丰富的喉科医生根据声嘶的原因、临床意义和疾病的患病率选择的4种声带疾病。

就嘶哑的原因而言,内收肌痉挛性发音障碍是一种局灶性喉张力障碍,其特征是不规则和不受控制的语音中断,打断正常的言语[34].然而,器质性声带病变、单侧声带瘫痪和声带萎缩可引起不同复音模式的呼吸音[10].内收肌痉挛性发音障碍的声音模式与本研究涉及的其他病理有很大的不同,经典的内收肌痉挛性发音障碍病例,经验丰富的喉科医生仅凭声音即可诊断。在本研究中,喉科医生使用5级分类条件诊断内收肌痉挛性发音困难的准确率分别为100%和83%。因此,我们预计诊断内收肌痉挛性发音障碍的敏感性和特异性可能高于其他类别。然而,在CNN训练的第一次尝试中,内收肌痉挛性发音障碍识别的准确性很差(数据未显示)。当我们在训练模型时尝试将原始语音文件拼接成1秒的片段时,我们发现内收肌痉挛性发音障碍的语音中断并不总是在每1秒的时间段内出现。在训练模型中延长语音片段的持续时间后,结果有了很大的改善。这也强调了领域知识可以根据临床实际情况对训练模型进行调整,从而显著影响训练结果。

根据一项荟萃分析,就临床意义而言,神经性语音障碍患者比炎症性或创伤性喉疾病患者面临更多挑战[1].其中,内收肌痉挛性发音障碍的声音障碍指数(VHI)评分最差,单侧声带瘫痪次之[1].这一结果与我们的临床观察相一致,即内收肌痉挛性发音障碍会显著干扰患者日常生活中的交流和社交。虽然内收肌痉挛性发音障碍是一种罕见疾病,患病率为十万分之十四[35],提供一种快速筛查的模式是值得的,因为定期在咽内注射a型肉毒毒素或手术可简单有效地治疗症状[35].

根据VHI评分,单侧声带瘫痪也可能导致严重的声音障碍[1].单侧声带麻痹最常见的原因是特发性或病毒后感染,占病例的67% [36].然而,6%的患者有侵袭喉返神经或迷走神经的潜在恶性肿瘤[36].在寻找语音障碍的潜在原因时,经常建议对颅底、颈部和胸部进行计算机断层扫描[37].甲状腺疾病,包括良性结节、甲状腺恶性肿瘤、甲状腺炎、甲状腺功能亢进及甲状腺功能减退,也可导致声带麻痹[38].赫曼-阿卡等[38报道称,47.4%的单侧声带瘫痪患者被诊断为并发甲状腺疾病。因此,确定单侧声带麻痹的早期诊断,以调查潜在疾病的存在是很重要的。

声带器质性病变包括良性病变,如结节、息肉、囊肿、息肉样声带、癌前白斑及恶性病变[3940].声带良恶性病变导致声音沙哑的原因包括喉黏膜的改变及肿块效应[1040].迄今为止,由于有机声带病变涉及多种病理,仅通过声音很难进一步鉴别。然而,告知患者声带器质性病变的可能性并建议他们接受进一步的检查是值得的。早期恶性病变和良性病变均可在办公室手术治疗,较手术室手术更安全,费用也相对较低[294142

声带萎缩最常见的原因是年龄增长。老化可导致肌肉组织萎缩及声带固有层变薄[43].然而,声带萎缩也可能发生在相对年轻的人群中[28].可能是先天性异常或长期喉咽反流所致[44].与其他声带疾病相比,声带萎缩的相关症状相对较轻微[45].声带萎缩也减少了对重大潜在疾病的关注。然而,声带萎缩是65岁以上患者最常见的声带病理[3.].随着人口的老龄化,声带萎缩可能成为一个重要的老年问题在未来。

限制

我们的研究有一些缺陷。首先,所有的语音文件都是在演播室中录制的,在安静的环境下,使用敏感的录音技术,并使用一定的格式。在不同的记录环境中验证这种方法还需要进一步的研究。其次,本研究中所有的语音数据都来自普通话使用者。需要进一步的研究来比较不同语言使用者的结果。第三,由于疾病流行程度不同,各类语音样本数量不相等。我们应用了几种数据增强方法来改善这些不平等数据的影响。脆弱等[46]的研究结果表明,基于MFCC的语音记录和事先性别区分的喉病理检测可以显著提高性能。方等[47]也表明,将超向量与医疗记录相结合的深度神经网络可以改善病理语音分类。因此,在未来,我们将结合人口统计数据和语音记录来改进我们的模型。

结论

我们证明,在使用我们的普通话病理语音数据库进行训练后,使用深度学习应用程序,仅使用语音就可以用于常见的声带疾病识别。具体来说,内收肌痉挛性发音障碍、器质性声带病变、单侧声带瘫痪和声带萎缩可以被识别,这可能会增加这种方法的潜力,比简单地区分病理声音和正常声音更有益。这种方法显示了在基于声音的不同声带疾病的一般筛查中使用的临床潜力,并可包括在一般健康检查中的快速评估中。它还可以用于初级保健单位缺乏喉镜服务的偏远地区的远程医疗。总的来说,它可以通过允许侵入性检查仅对涉及自动识别或听力问题的病例进行检查,以及对其他临床检查结果进行专业分析来支持医生对病例的预筛选,这些临床检查结果揭示了对病理存在的怀疑。

致谢

作者感谢科技部(MOST 109-2926-I-010-501, MOST 107-2314-B-010-015-MY3, MOST 109-2926-I-010-502, MOST 109-2321-B-010-005, MOST 108-2923-B-010-002-MY3, MOST 109-2823-8-010-003-CV, MOST 109-2622-B-010-006, MOST 109-2321-B-010-006)和辅仁天主教医院(PL-201908012-V和PL-202008005-V)的财政支持。这项工作得到了国立阳明大学(现国立阳明交通大学)医学院“发展建设计划”(107F-M01-0504)和教育部“争创一流大学计划”的支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备中没有任何作用。

利益冲突

没有宣布。

多媒体附件1

普通话通过。

DOCX文件,12 KB

  1. Cohen SM, Dupont WD, Courey MS.非肿瘤性语音障碍对生活质量的影响:荟萃分析。安耳鼻喉杂志2006年2月;115(2):128-134。[CrossRef] [Medline
  2. 柯汉,金J,罗伊N, Asche C, Courey M.在一个大的寻求治疗的人群的患病率和原因。喉镜2012 Feb;122(2):343-348。[CrossRef] [Medline
  3. david T, Klein AM, Johns MM.目前65岁以上患者的发音困难趋势:声带萎缩越来越普遍吗?喉镜2012 Feb;122(2):332-335。[CrossRef] [Medline
  4. Stachler RJ, Francis DO, Schwartz SR, Damask CC, Digoy GP, Krouse HJ,等。临床实践指南:声音嘶哑(发音困难)(更新)。耳鼻咽喉头颈外科2018年3月;158(1_supl):S1-S42。[CrossRef] [Medline
  5. 方硕,曹勇,肖俊梅,陈建勇,赖永华,林春峰,等。基于倒谱向量的病理声音检测:一种深度学习方法。J Voice 2019 Sep;33(5):634-641。[CrossRef] [Medline
  6. Umapathy K, Krishnan S, Parsa V, Jamieson DG。用时频法鉴别病理声音。IEEE生物工程学报,2005,3(3):421-430。[CrossRef] [Medline
  7. Godino-Llorente JI, Gómez-Vilda P, Blanco-Velasco .基于高斯混合模型和短期倒谱参数的病理语音质量评估系统的降维。IEEE生物医学工程学报2006 10月;53(10):1943-1953。[CrossRef] [Medline
  8. 郭晓明,李志强,李志强。基于倒谱分析、矢量量化和隐马尔可夫模型的病理语音识别。2008年发表于:第八届IEEE生物信息学与生物工程国际会议;2008年10月8-10日;希腊雅典。[CrossRef
  9. 王晓明,李志强,王晓明。基于神经网络的语音障碍识别方法。科学通报2010年4月;2(7):177-185 [免费全文
  10. 用高速视频和振动谱分析研究复调音的振动特性。J Voice 2019 Jan;33(1):7-15。[CrossRef] [Medline
  11. 语调对普通话和闽语说话频率和强度的影响。声学学报2005年5月;17(5):366 - 366。[CrossRef] [Medline
  12. 张海红,西塞M,杜芬Y, Lopez-Paz D. Mixup:超越经验风险最小化。arXiv 2018年4月[免费全文
  13. 徐坤,冯东,米红,朱斌,王东,张磊,等。基于混合的多通道卷积神经网络声场景分类。瑞士:施普林格自然2018年出席:第19届环太平洋多媒体会议;2018年9月21-22日;合肥,中国。
  14. 李国强,李国强。基于非平衡分布的预测模型研究。arXiv 2015年5月[免费全文
  15. 音乐建模的频率倒谱系数。2000年发表于:第一届音乐信息检索国际研讨会;2000年10月23日至25日;普利茅斯,马萨诸塞州https://ismir2000.ismir.net/papers/logan_paper.pdf
  16. 拉维库马尔KM, Ganesan S.比较多维MFCC特征向量客观评估结巴不流畅。中国计算机工程学报(英文版);2011;29 (3):344 - 344 [J]免费全文
  17. 彭宁,陈安,周刚,陈伟,张伟,刘杰,等。基于视觉多特征融合和GRU-AWS的环境声分类。IEEE Access 2020;8:191100-191114。[CrossRef
  18. 王志强,王志强,王志强,等。基于CNN迁移学习的图像分类方法。2018年发表于:第18届英国计算智能年度研讨会;2018年9月5日至7日;英国诺丁汉。[CrossRef
  19. Franzoni V, Biondi G, Milani A.人群的情绪声音:基于频谱的分析,使用深度学习。Multimed Tools应用2020年8月17日;79:36063-36075。[CrossRef
  20. 谭敏,乐Q. EfficientNet:对卷积神经网络模型缩放的再思考。arXiv 2020 Sep [免费全文
  21. 胡健,沈亮,孙刚。挤压-激励网络。2018年发表于:IEEE/CVF计算机视觉和模式识别会议;2018年6月18日至23日;盐湖城,德克萨斯[CrossRef
  22. 王杰。基于深度学习的数据增强在图像分类中的有效性。arXiv 2017 12月[免费全文
  23. 吴华,顾霞。卷积神经网络的退出训练研究。神经网络2015年11月;71:1-10。[CrossRef] [Medline
  24. 李国栋,李国栋,李国栋,李国栋。基于小批量序列化的CNN训练。arXiv 2018年5月[免费全文
  25. 黄刚,李杨,Pleiss G,刘震,Hopcroft J, Weinberger K.快照集合:列车1,免费获得M。arXiv 2017 Apr 01 [免费全文
  26. 神经网络超参数的一种有纪律的方法:第1部分-学习率,批量大小,动量和权重衰减。arXiv 2018 Apr 24 [免费全文
  27. 金玛,巴杰。亚当:一种随机优化方法。arXiv 2017 1月30日[免费全文
  28. 胡慧慧,洪宜勇,林思思,董涛,张思思。基于office的自体脂肪注射喉成形术治疗50岁以下患者声门功能不全。J Voice 2019 Sep;33(5):747-750。[CrossRef] [Medline
  29. 胡浩辉,洪宜涛,林思生,张思生。基于办公室的自体脂肪注射喉成形术治疗声突肉芽肿。J Voice 2016 11月30日(6):758.e7-758.e11。[CrossRef] [Medline
  30. john MM, Arviso LC, Ramadan F.老龄化声音管理中的挑战和机遇。耳鼻咽喉头颈外科2011 7月;145(1):1-6。[CrossRef] [Medline
  31. 洪浩,金洪科。单侧声带麻痹和声带内囊肿的复音障碍。中华耳鼻咽喉头颈外科杂志1999年12月;21(6):815-819。[CrossRef] [Medline
  32. 吴海涛,吴海涛,刘志强,刘志强。基于卷积神经网络的病理语音检测方法。IEEE工程医学生物Soc 2018年7月;2018:1-4。[CrossRef] [Medline
  33. Daoudi K, Bertrac B.使用MEEI-KayPENTAX数据库对正常和病理声音的分类:问题和后果。2014年发表于:国际语音交流协会第15届年会;2014年9月14-18日;新加坡URL:https://www.isca-speech.org/archive/archive_papers/interspeech_2014/i14_0198.pdf
  34. 辛策JM,勒德洛CL,班斯伯格SF,阿德勒CH,洛特DG。痉挛性言语障碍的研究进展。第一部分:致病因素。耳鼻咽喉头颈外科杂志2017年10月;157(4):551-557。[CrossRef] [Medline
  35. 胡尔华,罗奇。痉挛性发音障碍的鉴别诊断和治疗综述。《耳鼻喉头颈外科》2016年6月24日(3):203-207。[CrossRef] [Medline
  36. 考夫曼JA,邮政总经理,康明斯MM,巴洛克PD。声带麻痹。耳鼻咽喉头颈外科2000年4月;122(4):537-541。[CrossRef] [Medline
  37. 艾维厘米。声带麻痹。耳鼻咽喉临床2019年8月;52(4):637-648。[CrossRef] [Medline
  38. Heman-Ackah YD, Joglekar SS, Caroline M, Becker C, Kim E, Gupta R,等。症状性声带麻痹患者中未确诊甲状腺疾病的患病率。J Voice 2011 july;25(4):496-500。[CrossRef] [Medline
  39. 良性声带病变:命名、病因、诊断和治疗的最新进展。《耳鼻喉头颈外科杂志》2017年12月25日(6):453-458。[CrossRef] [Medline
  40. Rzepakowska A, Sielska-Badurek E, Cruz R, Sobol M, Osuch-Wójcikiewicz E, Niemczyk K.窄带成像与喉频闪检查在癌前和恶性声带病变中的应用。头颈2018年5月;40(5):927-936。[CrossRef] [Medline
  41. 胡浩辉,林思生,洪宜涛,张思生。在办公室使用二氧化碳激光进行喉部手术的可行性及相关限制。JAMA耳鼻喉头颈外科杂志2017 May 01;143(5):485-491 [免费全文] [CrossRef] [Medline
  42. 徐永斌,兰兆昌,张世勇。经皮皮质类固醇注射治疗声带息肉。耳鼻咽喉头颈外科2009年8月;135(8):776-780。[CrossRef] [Medline
  43. Kendall K. Presbyphonia:综述。中国耳鼻喉头颈外科杂志2007年6月;15(3):137-140。[CrossRef] [Medline
  44. Habesoglu TE, Habesoglu M, Sürmeli M, Deveci I, Toros SZ, Gunes P,等。实验性咽喉反流暴露大鼠软腭的组织学改变。咽喉耳2010年12月;37(6):730-736。[CrossRef] [Medline
  45. 高特纳-施密特J,罗森C.年龄相关声带萎缩的治疗成功。喉镜2011年3月;121(3):585-589。[CrossRef] [Medline
  46. frar, Sáenz-Lechón N, Godino-Llorente JI, Osma-Ruiz V, Fredouille C.利用mel-频率倒谱系数参数和患者性别分化自动检测持续元音记录中的喉部病理。植物学报2009;61(3):146-152 [免费全文] [CrossRef] [Medline
  47. 方硕,王婷婷,陈建勇,曹勇,林春峰。将声学信号与病历相结合,提高病理语音分类。APSIPA通讯2019;8(e14):1-11。[CrossRef


AUC:曲线下面积
cnn:卷积神经网络
五官科:耳朵,鼻子和喉咙
MEEI:马萨诸塞州眼耳医院
MFCCs:梅尔频率倒谱系数
中华民国:接受者操作特征
VHI:语音障碍指数


R·库卡夫卡编辑;提交25.10.20;同行评议:YB Hsu, V Franzoni;对作者09.12.20的评论;修订稿收到06.04.21;接受25.04.21;发表08.06.21

版权

©胡浩春,张士义,王传恒,李开军,赵小云,陈怡婷,卢昌荣,蔡子沛,奥斯卡·李光生。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2021年6月8日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map