审查
摘要
背景:在远程医疗服务越来越多地被用于向前分类的时代,需要准确地检测自杀风险。使用人工智能分析的声音特征现在被证明能够检测自杀风险,其准确性优于传统的基于调查的方法,这表明了一种有效且经济的方法来确保患者的持续安全。
摘要目的:本系统综述旨在确定与其他队列相比,哪些声音特征在区分自杀风险较高的患者方面表现最好,并确定用于派生每个特征的系统的方法学规范以及分类结果的准确性。
方法:通过Ovid、Scopus、Computers and Applied Science Complete、CADTH、Web of Science、ProQuest Dissertations and Theses A&I、Australian Policy Online和Mednar对MEDLINE进行了检索,检索时间为1995年至2020年,并于2021年进行了更新。纳入标准是没有语言、年龄或设置限制的人类受试者;随机对照研究、观察性队列研究和论文;研究使用了一些声音质量的测量;这些人被评估为自杀风险高的人与其他自杀风险低的人相比使用有效的自杀风险测量方法。使用非随机研究的偏倚风险工具评估偏倚风险。随机效应模型荟萃分析用于任何报告声音质量的平均测量。
结果:检索得到1074条唯一引用,其中30条(2.79%)通过全文筛选。共有21项研究包括1734名受试者符合所有纳入标准。大多数研究(15/21,71%)通过Vanderbilt II记录数据库(8/21,38%)或Silverman和Silverman知觉研究记录数据库(7/21,33%)获得参与者。在区分自杀高风险人群和对照人群方面表现最好的候选声音特征包括语音的时间模式(中位数准确率95%)、功率谱密度子带(中位数准确率90.3%)和梅尔频率倒谱系数(中位数准确率80%)。随机效应荟萃分析比较了14%(3/21)研究中嵌套的22个特征,发现第一和第二共振峰频率的标准化平均差异显著(标准化平均差异范围在- 1.07和- 2.56之间),抖动值的标准化平均差异显著(标准化平均差异=1.47)。在43%(9/21)的研究中,偏倚风险被评估为中度,而在其余研究(12/21,57%)中,偏倚风险被评估为高。
结论:尽管在审查的研究中存在几个关键的方法问题,但在使用声音特征来检测自杀风险升高方面有希望,特别是在远程医疗或会话代理等新环境中。
试验注册:普洛斯彼罗国际前瞻性系统评价登记册CRD420200167413;https://www.crd.york.ac.uk/prospero/display_record.php?ID=CRD42020167413
doi: 10.2196/42386
关键字
介绍
背景
远程医疗替代方案可能很快取代对初级卫生保健提供者的亲自访问[
]。远程医疗可有效降低精神疾病的严重程度[ ],促使澳大利亚政府承诺普及远程医疗替代方案[ ]。远程保健服务对社区的潜在效用是不可否认的,它非常适合覆盖历史上面临准入障碍的人群。特别是农村和偏远社区在经济差距和地理位置方面面临着独特的挑战[
]。远程保健服务也吸引了较年轻(19-44岁)的保健消费者[ ]。这些人群与自杀风险最高的人群有很大的重叠[ , ]。远程医疗也被用于其他更新颖的方式。美国的初级卫生保健提供者越来越多地使用提出分类在那里,患者在抵达前通过远程医疗手段和通常通过对话代理进行评估[
]。然而,当精神健康是主要的表现问题时,这可能是具有挑战性的,因为自杀是大多数精神健康障碍的一个特征[ ]。因此,从亲自提供保健的转变引起了重要的伦理考虑。例如,如何在没有亲自提示的情况下准确有效地评估自杀风险的上升?在超过50年的研究中,传统的自杀风险评估方法(即调查)在识别高自杀风险方面的准确性仅为偶然[
]。Franklin等[ 表明自杀风险评估将受益于可以同时评估多个预测因素的风险算法的使用。然而,他们在综述中并未考虑生物标记物的使用。这样的标记不依赖于病人的证词,在评估自杀风险时可能会更准确[ ]。与自杀相关的生物标记研究主要集中在识别与自杀风险升高相关的神经生物学变化。然而,这些神经生物学变化的下游影响可能也很明显,但仍未得到充分研究。特别地,言语产生和发音的变化——这篇综述的主题——与自杀风险升高有关,如本节所述。有必要利用这些新技术,提供实时自适应个性化的咨询内容,以配合消费者的情绪[
]。这与Balcombe和De Leo最近的建议是一致的[ 他们还主张通过机器学习训练的预测模型来实时跟踪消费者的情绪,这有助于提供更及时、更有效的大规模精神卫生保健支持。在他们对用来识别自杀风险的声音特征的回顾中,Cummins等人[
发现许多特征在检测和区分自杀风险表现方面是可行的。他们确定了用于此目的的4种声音特征:韵律(节奏,重音和语调的长期变化),声音产生,形成(声道特性的变化)和频率(音高)。康明斯等人[ 注意到自杀风险高的个体的讲话通常以空洞、无音调和单调的质量或呼吸音调来区分,这与光谱斜率的显著变化相对应(当使用该变量预测自杀风险时,准确度为90%)[ ]。康明斯等人[ ]还指出,在0到1000 Hz之间的第二形成峰带宽和功率谱密度是进一步研究的有希望的候选者(使用这些特征的组合获得了90%的精度)。Homan等[
最近回顾了使用语音信号和基于文本的数据来预测自杀风险。Cummins等人的研究结果[ ]得到了Homan等人的支持[ 他还建议暂停长度和抖动(声门脉搏的时间)作为额外的候选项。然而,作者没有讨论预测的准确性或方法规范,告知使用的分类系统。然而康明斯等人[ ]和Homan等人[ ]同意,尽管普遍存在方法上的问题,即样本量小、缺乏协变量控制和基本事实的有效性,但有证据表明,自杀风险确实会以实质性和重要的方式改变人的声音,并可能预测自杀风险的增加。其他作者也注意到目前研究结果的模糊性和进一步确证性研究的必要性[ ]。目标
因此,本系统综述的主要目的是评估声音特征在区分有自杀风险的个体和没有自杀风险的个体方面的准确性。第二个目标是评估这些分类系统中使用的方法规范。
方法
设计
本系统评审采用PRISMA(系统评审及荟萃分析首选报告项目)标准进行[
) ( )及核对清单( ).该系统评价方案已于2020年4月28日在PROSPERO注册(注册号CRD420200167413) [ ]。人口、干预、比较物、结果和研究设计框架定义了研究问题和搜索词。研究问题如下:哪些声音特征可以区分成人和青少年自杀风险的高低,并且准确率很高?使用什么方法规范来推导声音特征并告知所获得的准确性水平?信息来源
MEDLINE通过Ovid、Scopus、Computers and Applied Sciences Complete和CADTH,以及灰色文献数据库Web of Science、ProQuest Dissertations and Theses A&I、Australian Policy Online和Mednar进行检索,最初检索时间为1990年1月1日至2020年12月31日,并于2022年1月更新。
搜索策略
搜索策略使用医学主题标题和关键字字符串搜索,其中包括同义词“自杀”,“声音”和“算法”作为单独的块。通过对文献的初步调查,还添加了各种声音特征的最后一个块。灰色文献被纳入以确保来源的广度,并且来自未发表资源的见解也可能被包括在内(即,论文)。作为最后一步,审查了所有纳入研究的参考文献清单,以确保纳入所有可能的研究。指
对于使用的所有术语和搜索策略。纳入和排除标准
参与者都是人类,没有语言和年龄限制。调查的重点是声音质量的单个或多个测量,包括音量,速度,音高,速率,节奏,流利度,发音,发音和音调。存在自杀意念或最近的行为被认为是干预,而没有这种意念或行为是比较。主要结果是自杀风险的有效测量,而没有设置限制。研究设计包括随机对照试验、仅限队列研究和其他未发表的研究(即论文)。
我们遵循《国际疾病分类》第11版,其中定义了自杀意念自杀:关于结束生命的可能性的思想、想法或沉思;自杀的行为指为完成结束生命的愿望而准备采取的具体行动;和企图自杀作为一种特定的自残行为,有意识地想要结束自己的生命。
涉及动物种群的研究被排除在外;与声音质量评估或自杀风险无关;没有比较组;是单例研究;或者没有提供足够的细节来建立所有的人群、干预、比较物、结果和研究设计标准。
选择和数据收集过程
两位作者独立审阅了根据纳入和排除标准确定的每篇出版物的标题、摘要(步骤1)和全文(步骤2)。NVivo(版本12;QSR国际)[
[]用于将每篇出版物分类为纳入(绿色)、有疑问(琥珀色)和排除(红色),有疑问的出版物由作者在达成共识之前进一步讨论。每篇出版物也被编码以提供排除的理由(即,1=自杀不是主要焦点,2=与语言无关,3=动物研究,4=组间无比较)。数据提取和质量评估
根据以下五个类别从纳入的研究中提取信息:(1)参与者招募和特征,(2)预处理方法考虑,(3)声音特征,(4)准确性,(5)分类算法方法。
纳入的研究还通过RI评估证据质量,并使用牛津循证医学证据水平中心进行DM确认。每项研究的评分为1到5分,其中随机对照试验的得分通常高于非随机研究(得分=3)(得分=2)。分歧通过讨论得到解决。
Risk-of-Bias评估
RI使用Cochrane Collaboration开发的非随机研究的偏倚风险(Risk of Bias in非随机研究)工具评估最终研究的方法学质量[
]。非随机研究的偏倚风险工具包括3个评估阶段,包括研究问题的说明(第1阶段)和兴趣效应的说明,评估结果,混杂因素和共同干预的识别,每个领域的偏倚风险判断,以及每个研究的总体偏倚风险确定(第2阶段)。然后将其综合为所有研究的总体偏倚风险评估(第3阶段)。参与者的选择、干预措施的分类、计划干预措施的偏差、缺失数据、结果测量、结果报告和总体偏倚。偏倚风险被评估为低、中、高。偏倚风险评估可在 ( , - ]。合成方法
纳入的研究在评估和报告声音特征方面存在异质性,一些研究包括分类准确性,另一些研究包括平均结果测量。采用叙述性综合方法对未报告平均结果测量的纳入研究的信息进行整理。Rodgers等人的指南[
]应用,其中包括对关系的初步分析和探索,然后评估综合的稳健性。只要有可能,数据都以表格形式呈现,信息大致围绕研究和参与者特征进行组织,然后是两个研究问题:第一部分使用声音特征对自杀风险的分类准确性,第二部分采用的方法步骤。
虽然在少数研究中通常报告了多种声音特征,但在报告了平均结果测量值的情况下,进行了随机效应模型荟萃分析以综合可用信息。使用R包metafor(版本3.8 1;R Foundation for Statistical Computing),标准化平均差异来自报告的平均结果测量值。然后使用森林图说明每个声音特征的标准化平均差异。本系统综述中使用的所有数据均可在
.结果
说明初步确定、筛选、认定合格并纳入最终分析的研究数量。
纳入研究摘要
最初总共确定了1074项研究。经过仔细筛选,发现来自4个国家的21项研究符合所有纳入和排除标准。这些研究总结于
.纳入的研究共有1734名参与者,其中14%(3/21)的研究[ , , 只涉及青少年群体。坎贝尔的出版物[ ], Sanadi [ ]和辛哈语[ ]是论文,而其余的研究(18/ 21,86%)是同行评议的期刊文章。大多数研究(11/21,52%)本质上是观察性的,大多数研究使用来自Vanderbilt II数据库(8/21,38%)或Silverman和Silverman知觉研究(7/21,33%)的参与者记录。这些数据源总结在 .每年发表的研究数量见 从2006年开始可以看到略有增加。作者,年份(国家) | 参与者,N | 设计 | 样本 | 评估测量 | 参与者年龄(岁) |
Anunvrapong和Yingthawornthuk [ | , 2014年(泰国)30名女 | 观察 | 精神病住院患者 | 精神科访谈 | - - - - - -一个 |
Belouali等[ | , 2021年(美国)124 | 纵向 | 退伍军人 | 患者健康问卷-9 | - - - - - - |
坎贝尔( | , 1995年(美国)3. | 观察 | 电话录音 | 医生评分 | - - - - - - |
Figueroa Saavedra等[ | , 2020年(智利)100人(女性60人,男性40人) | 横截面 | 大学的学生 | Okasha自杀量表 | 18日至19日 |
法国等[ | , 2000(美国)115人(女性38人,男性77人) | 观察 | 精神病住院患者 | 贝克抑郁量表和汉密尔顿抑郁评定量表 | 25 - 65 |
Keskinpala等[ | , 2007年(美国)169人(女性92人,男性77人) | 观察 | 精神病住院患者 | 医生评分 | - - - - - - |
Nik Hashim等[ | , 2015年(马来西亚)89人(女性54人,男性35人) | 观察 | 精神病住院患者 | 贝克抑郁量表、汉密尔顿抑郁评定量表、迷你国际神经精神病学访谈、皮尔斯自杀意图量表 | - - - - - - |
Nik Hashim等[ | , 2015年(马来西亚)126 | 对照研究 | 精神病住院患者 | 汉密尔顿抑郁评定量表 | 22-62(平均42.6,标准差10.2) |
Ozdas等人[ | , 2000(美国)20男 | 对照研究 | 精神病住院患者 | 汉密尔顿抑郁评定量表 | 25 - 65 |
Ozdas等人[ | , 2004年(美国)30岁的男性 | 对照研究 | 精神病住院患者 | 医生评分 | 25 - 65 |
Ozdas等人[ | , 2004年(美国)30岁的男性 | 对照研究 | 精神病住院患者 | 医生评分 | 25 - 65 |
Pestian等[ | , 2017年(美国)379 | 对照研究 | 精神科住院病人或门诊病人 | 医生评分 | 青少年 |
Sanadi [ | , 2011年(美国)60 | 观察 | 精神病住院患者 | 医生评分 | - - - - - - |
Scherer等[ | , 2013年(美国)381 | 控制 | 录音数据库 | 患者健康问卷-9及贝克抑郁量表 | 成人(平均44.7,标准差12.37)和青少年(13-17) |
Scherer等[ | , 2015年(美国)60 | 控制 | 精神病住院患者 | 哥伦比亚自杀严重程度评定量表、青少年自杀意念问卷、无所不在问卷 | 13 - 17 |
Sinha [ | , 2013年(美国)17 | 观察 | 精神病住院患者 | 医生评分 | 25 - 65 |
Subari等[ | , 2010年(马来西亚)30. | 观察 | 精神病住院患者 | 医生评分 | 25 - 65 |
Venek等[ | , 2017年(美国)60 | 控制 | 精神病住院患者 | 哥伦比亚自杀严重程度评定量表、青少年自杀意念问卷、无所不在问卷 | 13-17(平均15.47,标准差1.5) |
Yingthawornsuk等[ | , 2006年(美国)32岁的男性 | 观察 | 精神病住院患者 | 贝克抑郁量表ii | 25 - 65 |
Yingthawornsuk等[ | , 2007年(美国)20女 | 观察 | 精神病住院患者 | 贝克抑郁量表ii | 25 - 65 |
英塔沃恩苏克和沙维[ | ], 2008年(泰国)25公 | 观察 | 精神病住院患者 | 贝克抑郁量表ii | 25 - 65 |
一个不可用。
参与者来源,年份 | 细节 | 研究 |
Vanderbilt II数据库,1993年[ | ]对响应低成本心理治疗广告的个人的访谈记录数据库;与会者会见了DSM-IV一个重度抑郁症的标准 |
|
认知行为疗法与精神药理学研究,1992 [ | ]比较认知行为治疗与心理药理学干预效果的心理治疗记录数据库 |
|
西尔弗曼和西尔弗曼知觉研究b( | ]心理治疗的录音数据库,以及在录音后数小时到数周内企图或完成自杀的病人的自杀笔记 |
|
范德比尔特大学医院急诊科 | 研究涉及范德比尔特大学医院急诊科住院病人的记录 |
|
辛辛那提儿童医院访谈语料库 | 60名青少年参加了一项前瞻性研究,其中30名以自杀意念和行为就诊于急诊科,而30名以骨科损伤就诊的对照组 |
|
DAICc, 2014 [ | ]数据库包含621名被诊断为焦虑、抑郁和创伤后应激障碍的痛苦和非痛苦个体的记录;采访是亲自进行的,也通过一个自主代理进行的 |
|
用d | 292个通过自主代理对抑郁症参与者进行访谈的视听记录的数据库 |
|
Temuco数据集 | 对特穆科智利自治大学健康科学学院60名一年级大学生的访谈记录数据库 |
|
华盛顿特区e退伍军人事务医疗中心试验 | 对被诊断为海湾战争综合症的退伍军人进行的大规模前瞻性试验 |
|
一个DSM-IV:精神疾病诊断与统计手册,第四版。
b没有约会。
c遇险评估访谈语料库。
d视听抑郁症语料库。
eDC:哥伦比亚特区。
哪些语音信号特征能区分高自杀风险人群?
大多数研究(8/21,38%)使用基于频率的特征来区分自杀高风险参与者与抑郁和健康人群,而33%(7/21)的研究使用功率谱密度,29%(6/21)使用mel-frequency背谱系数,24%(5/21)使用声门周期特征,14%(3/21)使用语音时序模式。使用语音计时模式获得的准确度中位数最高(85.5%),其次是功率谱密度(81.5%)。最小和最高精度水平均来自功率谱密度的使用(分别为30.1%和98.1%)。总共有19%(4/21)的研究使用了混合类别的声音特征。对于那些报告分类准确率水平(15/ 21,71%)的研究,中位数准确率报告于
.主要功能部件 | 研究 | 精度(%),量程 | 准确度(%),中位数 |
Frequency-based |
|
61.0 - -85.0 | 77.3 |
功率谱密度 |
|
30.1 - -98.1 | 81.5 |
mel频率倒谱系数 |
|
60.0 - -90.0 | 78.3 |
声门循环特征 |
|
60.0 - -85.0 | 78.9 |
说话的时间模式 |
|
66.0 - -100.0 | 85.5 |
一个结合其他语音生物识别技术。
22种识别高风险自杀的方法之比较
随机效应模型荟萃分析比较了14%(3/21)出版物中22种不同的测量方法。纳入的研究[
, , ]涉及80名参与者和22种不同的声音特征。在森林图中总结了每个声音特征的标准化平均差 .正的标准化平均差异表明,高自杀风险人群的声音特征水平较高,而负的标准化平均差异表明,低风险人群的声音特征水平较高。
由Figueroa Saavedra等人报道的3种情况下的第一和第二共振峰的频率组成的子群[
在区分自杀风险升高和没有自杀风险升高的参与者方面具有重要意义。这些显著的负标准化平均差异表明,自杀风险高的人的声道共振频率较低,特别是在较低的共振峰区域,而不是在较高的共振峰区域(即高于频率的第二个共振峰)。在Figueroa Saavedra等人的研究中,同样值得注意的是保持“A”元音条件下的抖动值[ ]。在这种情况下,抖动对有和没有高自杀风险的参与者产生了显著的正分化,这表明自杀风险较高的参与者表现出更高水平的粗糙或声音嘶哑。使用了什么方法规范?
预处理是声音特征分类前的一个重要阶段。这涉及到对语音信号的修改,以确保更精确地隔离其特定特征。
说明了一个理想的预处理工作流程。回顾的研究使用了一系列软件对声音特征进行预处理和分析,包括Microsound Editor [
, , , , ]来识别和去除静音段,MATLAB [ , , , , , , ], covarep [ , , , ]和Praat [ , ]以方便后续分析。大多数研究(11/21,52%)[
, , , , - , - ]首先使用16位记录,以10千赫的采样率将模拟信号转换为数字信号。然而,自2010年以来,录音的采样率提高了。Venek等[ ]和Scherer等[ , ],例如,对16千赫的语音进行采样,而其余的研究(19/ 21,90 %)[ , , , , 在44.1 kHz采样。所有研究(21/21,100%)然后使用带通抗混叠滤波器将数字信号限制在0到5000 Hz的频率范围内。坎贝尔(
]是唯一一个分析来自电话录音的作者;因此,将频率范围限制在300和3000 Hz之间的带通滤波器被自动应用。滤波后对信号进行归一化处理[ , , , , , - ]和detrended [ , , - ]以方便扬声器之间的比较,并分别隔离可变信号组件。按照这些步骤,14%(3/21)的研究将语音信号区分为浊音和不浊音。Subari等[
]通过背谱峰的存在对浊音段进行分类,Ozdas等[ 用离散小波变换区分浊音和浊音信号,而Sinha [ ]采用了这种方法,包括5个带通滤波器,而不是选择性地识别对应于每个子带的信号能量。如前所述,在几项研究中研究了功率谱密度(6/ 21,29 %)[
, , , - ]。功率谱密度由语音信号的短窗段导出。所有研究(21/21,100%)都使用非重叠的汉明窗来过滤每个40毫秒或51.2毫秒的信号段。共有10%(2/21)的研究[ ]使用线性预测编码应用于15和25.6毫秒的段持续时间,得出前3个共振峰和带宽。最后,大多数研究(7/21,33%)使用二次判别分析对其他队列中自杀高风险参与者的语音信号进行分类,57%(12/21)的研究使用最大似然、线性判别分析或支持向量机。如
使用二次判别分析获得最高中位精度水平。使用二次判别分析也记录了最小和最高准确度水平(分别为21.4%和100%)。分类精度的中位数水平总结为 .算法 | 研究 | 分类精度(%) | |
范围 | 中位数 | ||
最大似然 |
|
60.0 - -85.0 | 80.0 |
线性判别分析 |
|
30.1 - -98.1 | 79.7 |
二次判别分析 |
|
21.4 - -100.0 | 85.4 |
层次混合模型 |
|
69.0 - -81.0 | 75.0 |
支持向量机 |
|
61.0 - -85.0 | 75.9 |
偏倚风险与质量评估
评估偏倚风险以探讨纳入出版物质量的可变性。纳入的研究均无低偏倚风险。在43%(9/21)的研究中,偏倚风险为中等[
, , , , - , , - ],而在其余57%(12/21)中,偏倚风险被评估为高[ , , , , - ]。偏倚的主要来源是混杂因素、参与者的选择和结果的选择性报告。大多数纳入研究(18/ 21,86%)的证据质量[ , , , - , - ]的评估评分为3,而14%(3/21)的研究[ , , ]被评为最低的5分。讨论
主要研究结果
系统回顾(1995-2021)有两个目标:确定哪些声音特征可以准确区分自杀风险高的个体与自杀风险低的个体,确定方法规范,为每种声音特征的推导和分类准确性提供信息。
研究发现,一些声音特征可以区分自杀风险高的人群和比较人群,准确率很高。值得注意的是,使用语音定时模式获得的中位数精度(中位数精度85.5%)和功率谱密度(中位数精度81.5%)。此外,一项包含14%(3/21)研究的22个声音特征的随机效应荟萃分析显示,低共振峰(1和2)和抖动的频率在高自杀风险信号和低自杀风险信号之间提供了显著的标准化平均差异,这表明自杀风险高的参与者在说话更粗糙时可能有更低的声道共振频率。
这些结果与最近的几项研究大致一致,这些研究也发现,在压力条件下,较低的形成峰频率显著增加,这表明发音清晰度降低[
];自杀风险高的人说话量减少[ ];以及抖动的变化,这是一种测量基频周期性变化的方法,在产生焦虑的条件下,基频会减少[ ]。这项研究的发现,mel-frequency倒谱系数表征了肌肉紧张和声道控制,这是一种对压力变化特别敏感的测量,也得到了先前研究的支持[
]。然而,尽管在最近的研究中发现,在自杀风险高的说话者中,振幅或响度的均方根增加[ ],该变量的使用仅限于选定的研究(2/ 21,10 %)[ , ]。本综述还旨在确定用于派生每种声音特征及其准确性水平的系统规范。所有研究(21/21,100%)都采用了类似的预处理步骤工作流程,大致包括(1)模拟信号到数字信号的转换,(2)带通滤波,(3)归一化和去趋势,(4)区分浊音和浊音信号,(5)去除无声通道,(6)分类前的信号分割。
虽然大多数研究(12/ 21,57 %)使用带通滤波去除> 5000hz的频率,但只有Campbell [
]使用了来自电话的录音。正如作者所指出的,这些源自动过滤信号到300和3000赫兹之间。虽然降低了噪声,但这种方法也从信号特征中去除了基频,但已知会将第一形成峰频率值高估13% [ ]。这些可能是未来研究的重要考虑因素,这些研究旨在从更新颖的环境(如电话求助热线或会话代理)中获取数据。大多数研究(14/21,67%)讨论了使用信号归一化来确保说话者之间的比较。然而只有在Subari等人的研究中[
]为所调查的不同形式的归一化对总体准确性的影响。根据分类精度的不同,对最大似然衍生的扭曲因子和基于中位数第三形元值的归一化进行了优化。作者指出,考虑到其较低的计算负荷和考虑参与者的性别,来源的方法是可取的。当说话者的声道相差可达7厘米时,标准化是一个至关重要的考虑因素[ ]。一些研究讨论了趋势性(5/ 21,24%)。据推测,通过去除平均信号,作者试图揭示可能更好地区分说话者的非平稳信号成分。虽然声音信号只在短时间内(<40毫秒)是静止的,[
],一些研究(8/ 21,38 %)使用超过50毫秒的信号分割。使用潜在非平稳信号的均值去除策略有可能在衰减高频声音的同时抑制低频声音,并且还可能引入可能影响正在进行的分析的二次伪影[ ]。在一些研究(5/ 21,24%)中,通过离散小波变换来消除趋势的偏好克服了上述许多问题,并且似乎非常适合在较长的捕获时间框架内分析非平稳信号。考虑到浊音和非浊音在频率和振幅谱上的差异,大多数文献(11/21,52%)选择在分类前区分这些信号类型也就不足为奇了。总共使用了三种不同的方法来区分浊音或非浊音信号:通过倒谱峰的存在来逼近浊音信号;频率映射通过离散小波变换使用最高尺度的小波(2)5)对语音信号进行分类;频率>2500 Hz的选择性带通滤波为静音,而频率在320 ~ 2499 Hz之间的信号为浊音。需要进一步的研究来确定哪种方法最能优化分类的准确性;然而,选择性带通滤波具有不以任何方式改变信号的优点。
对于那些分析功率谱密度的研究(9/ 21,43 %),非重叠汉明窗是推导短时间帧傅里叶变换的首选方法,将信号从时间域转换为频域。这种非标准方法的效果是,以与窗宽相对应的规则间隔捕获频率,同时随着每个窗口逐渐减小而引入高频。标准方法包括重叠的窗口,平滑尾部的效果,似乎比通常使用的非标准方法更可取[
]。在审查的研究中,只有少数(3/ 21,14%)使用了监督机器学习(支持向量机)。然而,当使用这些高级形式的分类时,准确度的中位数水平最高,而是当使用无监督二次判别分析时获得的。与被大肆吹捧的有监督机器学习方法的优越性相反,我们的研究结果表明,使用不太复杂的分类方法可以获得更高的准确性。然而,使用更复杂的方法(如神经网络)进行进一步调查显然是有必要的。
仅在Scherer等人的研究中[
是使用的混合效应模型。与其他方法相比,该方法可以更好地捕获语音信号片段的相关结构,并更好地解释说话人内部的方差。未来的方向和对实践的影响
在初步评估后,自杀风险被视为静态、稳定和不变的。最近的研究表明,自杀风险实际上会随着时间的推移而发生巨大变化,这表明未来的研究可能会利用生态瞬间评估的见解[
, ]。或者,未来的研究可以采用Campbell [ 通过使用训练有素的人员来评估每次录音中以及录音之间自杀风险随时间的变化水平。这样的方法也许能更好地反映出自杀行为的实时变化,承认个人频繁地进出风险。在已审查的文献中,风险评估通常由合著者进行(例如,Campbell [
或所罗门在Sinha的研究中[ ]),这种方法可能会对风险的客观评估产生偏差。未来的研究可能会使用多个自杀风险评估器,其中可以分析相互可靠性的措施,并可以隔离和解决可能的偏差。我们对预处理工作流程的分析表明,迫切需要在方法考虑方面提高透明度。被审查的出版物显然是针对见多识广的工程读者的,并且通常使用技术术语(例如,窗口)来提及复杂的方法。更详细地理解预处理决策(即窗口类型)将有助于再现性。
某些声音特征已被证明可以更准确地区分自杀风险的高低。特别是,语音的时间模式和不同说话者发音所占用的元音空间具有相当大的前景。同样值得注意的是来自功率谱密度和频率相关类别的见解,未被充分利用的方法,如Liljencrants-Fant声门流模型,以及mel-frequency倒谱系数。然而,正如Pestian等人所证明的[
]和Venek等[ ],该领域的未来研究倾向于将高性能机器学习算法(如支持向量机)中的多个特征结合起来,尽管应该注意的是,本综述中出现的低功率方法可以产生更高水平的准确性(即二次判别分析)。这些先进的机器学习算法的力量只能在足够强大的样本中使用。康明斯等人[
呼吁研究团队之间加强合作来解决这个持续存在的问题。另一种方法可能是确保更大的行业合作伙伴关系,并寻求具有高呼叫量的新环境,如远程心理健康。鉴于最近的一项研究发现传统的自杀筛查方法不受支持[ ],显然有理由将基于语音信号的分析纳入现有的远程保健和其他电子服务,特别是自杀求助热线。这些设置通常呼叫量大,自杀风险越来越高,特别是在COVID-19时代。然而,这种合作也引发了其他伦理问题,例如如何最好地保护呼叫者的隐私权和获得同意。限制
本综述有一些局限性。值得注意的是,对自杀高风险的定义缺乏特异性。在分析的研究中,只有43%(9/21)的高风险队列真正反映了即将发生的自杀风险。这些研究使用了参与者的记录,这些记录来自Silverman数据库,该数据库是企图或完成自杀的患者留下的自杀遗书,或者来自辛辛那提儿童医院的访谈语料库,在那里,参与者在急诊科出现急性自杀倾向后立即被招募和访谈。在其余的研究中(12/21,57%),参与者根据各种心理测试的截止分数被分配到高风险队列,包括贝克抑郁量表和汉密尔顿抑郁评定量表。几次大规模评论[
, - ]证明了自杀评级量表的低精确度和召回率,这表明在这些研究中,被分配到自杀风险高的队列中的参与者也可能有一定比例的假阳性,相反,在对照组中也有一定比例的假阴性。也有不同的声音特征试验。在审查的出版物中,很难找到在其他样本中复制的相同特征集。更常见的是找到一个单一的特征与其他特征相结合,以优化自杀风险水平之间的区分。这在确定哪些特征可能在不同的设置中可靠准确时提出了困难。
除了一个著名的大规模多中心试验[
],大多数被回顾的研究(17/21,81%)涉及小样本,通常<60名参与者,有时分为3个对照组[ , ]。如Button等[ ],小样本研究受到许多问题的困扰,即功率降低,结果的可重复性低,所获得的结果反映真实效果的可能性降低。毫无疑问,当对照组的样本量小于10时,这些问题就会被放大,正如所回顾的几个研究中的情况(8/ 21,38 %)[ , , - , , , ]。还需要考虑的是,涉及精神病住院患者的研究比例很高(17/21,81%),以及招募参与者的数据库的同质性,进一步限制了通用性。同样值得注意的是进行试验的受控条件。参与者通常被邀请到一个远离外界噪音的房间,并被要求阅读规定的文本,如彩虹段落(例如,Yingthawornsuk等人)。
])或发出长元音(例如,Scherer et al [ ])。尽管这些研究方案增加了发现候选声音特征的可能性,但它们也降低了研究结果在其他环境中的普遍性,特别是在电话和其他基于电子健康的新型应用中,这些控制措施不切实际,噪音是规则而不是例外。除了坎贝尔的研究[ ],没有研究从这些生态更有效的环境中寻找参与者。在审查的研究中普遍存在高偏倚风险,因此缺乏与特定预处理要素相关的细节。累积科学的基本要求之一是方法是可复制的[
]。出版物越来越多地限制允许使用的单词数量。潜在的作者可能会倾向于限制对方法的描述,以支持结果和讨论。然而,大多数出版物也允许附录,以提供与方法有关的补充信息。然而,本综述也有显著的优势。这篇综述扩展了康明斯等人的研究结果[
]和Homan等人[ 在重要的方面。我们已经将研究结果更新到2021年,基于自杀风险水平之间区分的准确性,我们能够识别出一些有希望的候选声音特征,值得进一步研究。我们还能够识别和讨论语音信号分类之前使用的一些预处理步骤。结论
数据表明,几个特征成功地区分了自杀风险高和低的个体。功率谱密度子带的分析在比较组之间的区分准确率很高(例如,在Yingthawornsuk等人的研究中,准确率为90.3% [
]);然而,使用功率谱密度的研究在低频子带还是高频子带至关重要的问题上存在分歧,并且在需要进行单一特征分析还是组合特征分析的问题上也存在分歧。其次,几项研究(4/21,19%)发现,自杀风险较高的人群中形成峰频率更高,带宽更窄[ , , , ]。当形成体特征与其他特征相结合时,发现更高水平的预测准确性(例如,法国等人的研究中准确率为80% [ ])。第三,Nik Hashim等[ , ]和Scherer等[ 研究人员发现,自杀风险高的说话人说话的时间模式在许多重要方面与自杀风险低的说话人不同。尤其是那些自杀风险较高的人,他们的停顿时间更长,而某些元音的停顿时间更长。第四,Anunvrapong和Yingthawornthuk的研究[ ]和Ozdas等人的研究[ 发现对梅尔频率倒谱系数的分析——试图模仿人类听力的能谱——成功地区分了自杀风险高和低的说话者。然而,减少滤波器组(前4个频率)产生更高的精度。最后,Scherer等[ ]和Venek等[ 研究人员发现,Liljencrants-Fant声门流模型的某些系数显著区分了自杀风险高和低的人,这表明自杀风险高的人说话时音调更急促。这在青少年中尤为明显。尽管这一系统综述揭示了该领域当前文献的一些局限性,但所取得的准确性水平是有希望的,这表明未来的研究,特别是在远程心理健康的更新颖领域,对社区自杀的检测和预防具有相当大的希望。
利益冲突
没有宣布。
PRISMA(系统评价和荟萃分析首选报告项目)清单。
DOCX文件,31 KB
代表性搜索策略。短时框架傅里叶变换。
PNG文件,104 KB
Risk-of-bias评估。
DOCX文件,23 KB
检查数据。
XLSX文件(Microsoft Excel文件),1504 KB
理想的预处理工作流程。
DOCX文件,14kb参考文献
- Duffy S, Lee TH。临床医学进展[J] .中华医学杂志,2018;31(2):104-106。(CrossRef] [Medline]
- 劳斯-威克沃S, McBain H, Mulligan K.远程医疗支持严重精神疾病管理的应用和有效性:系统综述。中华医学会心理健康分会2018年11月21日;5(4):e62 [j]免费全文] [CrossRef] [Medline]
- 2020年11月27日上门采访。部长们,卫生和老年保健部。2020年11月27日。URL:https://www.health.gov.au/ministers/the-hon-greg-hunt-mp/media/doorstop-interview-on-27-november-2020[2021-02-09]访问
- 心理健康和COVID-19:对远程医疗未来的影响。[J]中华医学杂志,2010;7(4):433- 436 [J]免费全文] [CrossRef] [Medline]
- Jaffe DH, Lee L, Huynh S, Haskell TP。从COVID-19的角度看美国远程医疗使用中的卫生不平等现象。人口健康管理2020 Oct;23(5):368-377。(CrossRef] [Medline]
- 世界卫生组织。世界上的自杀:全球健康估计。世界卫生组织,2019。URL:https://apps.who.int/iris/bitstream/handle/10665/326948/WHO-MSD-MER-19.3-eng.pdf[2021-02-12]访问
- Crnek-Georgeson KT, Wilson LA, Page a .影响农村老年男性自杀的因素:澳大利亚研究综述。农村远程卫生2017;17(4):4020-4024 [j]免费全文] [CrossRef] [Medline]
- 霍兰德JE,卡尔BG。几乎完美的吗?Covid-19远程医疗。中国生物医学工程学报,2016,31(2):379 - 381。(CrossRef] [Medline]
- 图雷基G,布伦特DA。自杀和自杀行为。柳叶刀;2016;387(10024):1227-1239 [j]免费全文] [CrossRef] [Medline]
- Franklin JC, Ribeiro JD, Fox KR, Bentley KH, Kleiman EM, Huang X,等。自杀想法和行为的风险因素:50年研究的荟萃分析。心理学报,2017;43(2):187-232。(CrossRef] [Medline]
- Sudol K, Mann JJ。自杀企图行为的生物标记:迈向风险的生物学模型。中华精神病学杂志,2017;19(6):31。(CrossRef] [Medline]
- 曲琦,陈志强,李志强,等。应用程序在抑郁症治疗中的应用研究进展[j]。中华医学杂志,2020年2月21日;7(2):e18042 [j]免费全文] [CrossRef] [Medline]
- Balcombe L, De Leo D. 2019冠状病毒病期间数字精神卫生服务综合蓝图。中华医学杂志,2020;7(7):21718 [j]免费全文] [CrossRef] [Medline]
- 康明斯,谢瑞尔,克拉耶夫斯基,施耐德,艾普斯,季立军。基于言语分析的抑郁和自杀风险评估综述。演讲通讯2015;71:10-49。(CrossRef]
- 张建军,张建军,张建军。自杀青少年的言语特征调查。2013年10月21日发表于:2013年IEEE国际声学会议,语音信号处理;2013;温哥华。(CrossRef]
- 李建军,李建军,李建军,等。自杀想法和行为的语言特征:系统回顾。中华精神病学杂志(英文版);2009;31 (5):391 - 391 [j]免费全文] [CrossRef] [Medline]
- 张丽娟,张丽娟,张丽娟,张丽娟,张丽娟。大学生即兴演讲的语音和语言特征及其与焦虑的关系。中华医学会心理健康分会2022;08;9(7):e36828 [j]免费全文] [CrossRef] [Medline]
- 李建军,张建军,张建军,等。关于报告评价卫生保健干预措施的研究的系统审查和荟萃分析的PRISMA声明:解释和阐述。PLoS Med 2009;6(7):e1000100 [j]免费全文] [CrossRef] [Medline]
- 刘建军,刘建军,刘建军,等。言语生物标志物在自杀风险中的应用。普洛斯彼罗。2020.URL:https://www.crd.york.ac.uk/prospero/display_record.php?ID=CRD42020167413[2020-01-31]访问
- NVIVO。NVIVO QSR国际。URL:https://www.qsrinternational.com/nvivo-qualitative-data-analysis-software/home[2020-02-01]访问
- Sterne JA, Hernán MA, Reeves BC, savoviki J, Berkman ND, Viswanathan M,等。ROBINS-I:一种评估干预措施非随机研究偏倚风险的工具。中国医学杂志(英文版);2016;39 (5):591 [j]免费全文] [CrossRef] [Medline]
- 张建军,张建军,张建军,等。语音空间缩减对心理压力的影响:一个跨语体分析。参见:IEEE声学、语音和信号处理国际会议论文集。: IEEE;2015年发表于:IEEE声学、语音和信号处理国际会议(ICASSP);2015;布里斯班。(CrossRef]
- 张建军,张建军,李建军,等。青少年自杀风险评估研究进展。中文信息学报,2017,31(2):394 - 394。(CrossRef]
- 李建平。自杀患者言语基本频率分布的统计特征。纳什维尔:范德比尔特大学;1995.
- Sanadi W, Hasan WA。基于功率谱密度特征的语音声学分析在女性患者自杀风险检测中的应用。范德比尔特大学机构资料库。2011。URL:https://etd.library.vanderbilt.edu/etd-03252011-142343[2022-12-09]访问
- 人类和机器对自杀声音特征的识别。范德比尔特大学,2013年12月https://ir.vanderbilt.edu/bitstream/handle/1803/15036/SINHA.pdf?sequence=1[2022-12-09]访问
- 李建军,李建军,李建军,等。抑郁语音样本中MCFF的特征及其对自杀风险的影响。参见:2014年先进计算技术与创意媒体国际会议论文集(ICACTCM)。发表于:国际先进计算技术与创意媒体会议(ICACTCM?)8月;2014;芭堤雅。(CrossRef]
- Belouali A, Gupta S, Sourirajan V, Yu J, Allen N, Alaoui A,等。美国退伍军人自杀意念言语的声学和语言分析。BioData Min 2021 Feb 02;14(1):11 [免费全文] [CrossRef] [Medline]
- 费格罗亚·萨维德拉,奥岑Hernández T, Alarcón Godoy C, Ríos psamurez A, Frugone Salinas D, Lagos Hernández R.自杀意念与大学生声音和言语声学参数关系的初步研究。声学学报,2017,46(2):55-62。(CrossRef] [Medline]
- 王晓明,王晓明,王晓明,等。言语声学特性对抑郁和自杀风险的影响。生物医学工程学报,2000;47(7):829-837。(CrossRef] [Medline]
- 王晓东,王晓东,王晓东,等。基于频率谱谱的高自杀风险筛查方法。发表于:2007年第15届欧洲信号处理会议;2007年9月03-07日;波兹南URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7099204&isnumber=7067186(CrossRef]
- 王晓明,王晓明。言语时间模式对近期自杀风险的潜在影响。中华医学杂志,2015;3:1102-1116 [J]免费全文]
- 王晓东,王晓东,王晓东,王晓东。评价声音声学作为临床抑郁评分的预测因子。语音学报,2017;31(2):256.e1-256.e6。(CrossRef]
- 张建军,张建军,张建军。基于基本频率的近期自杀风险评估。发表于:IEEE国际系统、人与控制论会议论文集;2000年10月08-11日;田纳西州纳什维尔,美国。(CrossRef]
- 欧达斯A, Shiavi RG, Wilkes DM, Silverman MK, Silverman SE。近期自杀风险评估的声道特征分析。方法中华医学杂志2018;43(01):36-38。(CrossRef]
- 张建军,张建军,张建军。声音抖动和声门血流谱对抑郁和近期自杀风险的影响。生物医学工程学报,2004;31(9):1530-1540。(CrossRef] [Medline]
- 裴思安,苏特M,康诺利B, Bretonnel Cohen K, McCullumsmith C, Gee JT,等。识别自杀者思想标记的机器学习方法:一项前瞻性多中心试验。自杀生命威胁行为,2017;47(1):112-121。(CrossRef] [Medline]
- 王晓明,王晓明,王晓明,等。基于语音的情绪障碍分类方法研究。2010年IEEE EMBS生物医学工程与科学会议论文集,发表于:IEEE EMBS生物医学工程与科学会议;2010年11月30日至12月2日;吉隆坡。(CrossRef]
- 王晓东,王晓东,王晓东,等。基于声音输出特征的自杀风险评估。发表于:Interspeech - 9th International Conference on Spoken Language Processing. 2006;2006年9月17日至21日;匹兹堡URL:https://www.isca-speech.org/archive/archive_papers/interspeech_2007/i07_0766.pdf(CrossRef]
- 李建军,李建军,李建军,等。基于谱能量和迭代EM算法的自杀语音分类。发表于:Interspeech -第八届国际口语处理会议;2007年8月27日至31日;比利时安特卫普。(CrossRef]
- 李建军,李建军。基于情感声道反应频率的男性抑郁和自杀风险的研究。发表于:国际控制、自动化和系统会议论文集;2008年10月14日至17日;首尔。(CrossRef]
- Rodgers M, Sowden A, Petticrew M, Arai L, Roberts H, Britten N,等。系统评价中叙事综合行为的测试方法指导。评估2009;15(1):49 - 73。(CrossRef]
- Henry WP, Strupp HH, Butler SF, Schacht TE, Binder JL。限时动态心理治疗训练的效果:治疗师行为的改变。中华精神病学杂志1993;31(3):444 - 444。(CrossRef]
- Hollon SD, DeRubeis RJ, Evans MD, Wiemer MJ, Garvey MJ, Grove WM等。抑郁症的认知疗法和药物疗法。单独地和组合地Arch general Psychiatry; 1992;49(10):774-781。(CrossRef] [Medline]
- 从声音到沉默:使用声音参数预测近期自杀风险的初步调查。医学心理治疗杂志2000:1-10(即将出版)。
- 郭建军,陈建军,李建军,等。基于人机对话的访谈语料库分析。第9届国际语言资源与评价会议论文集。2014,发表于:第9届国际语言资源与评价会议;2014年5月26-31日;雷克雅未克。(CrossRef]
- Microstudio。MTU Technology Unlimited (MTU)。URL:http://www.mtu.com/upgrades/microstudio.htm[2020-03-12]访问
- MATLAB version 7。The Mathworks公司URL:https://au.mathworks.com/products/matlab.html[2020-03-10]访问
- 杨建军,杨建军,李建军,等。基于COVAREP的语音分析系统。见:IEEE声学、语音和信号处理国际会议论文集(ICASSP)2014年IEEE声学、语音和信号处理国际会议(ICASSP);2014年5月04-09日;佛罗伦萨。(CrossRef]
- 莫尔图,史丹森,韦思,等。合作研究者授权的协商——服务使用者进行心理健康合作研究的经验。残障康复杂志,2012;34(19):1608-1616。(CrossRef] [Medline]
- 王晓明,王晓明,王晓明,等。言语时间模式对抑郁症患者近期自杀风险的影响。计算机科学与技术(英文版);2012;58:6。
- 张建军,李建军,李建军,等。调查自杀意念的动态。2018年危机;39(1):65 - 69。(CrossRef] [Medline]
- Galatzer-Levy I, Abbas A, Ries A, Homan S, Sels L, Koesmahargyo V,等。急性自杀精神病住院患者自杀的视觉和听觉数字标记的验证:概念验证研究。[J]医学互联网研究与发展,2013;23(6):e25199 [J]免费全文] [CrossRef] [Medline]
- König A, Riviere K, Linz N, Lindsay H, Elbaum J, Fabre R,等。在COVID-19大流行期间使用自动语音分析通过电话测量卫生专业人员的压力:观察性试点研究[J] .中国医学信息学报,2011;23(4):391 - 391 [J]免费全文] [CrossRef] [Medline]
- 李建军,李建军,李建军,等。基于语音生物标志物的成人远程医疗患者自杀风险分类研究。中华医学杂志,2015;9(8):e39807 [j]免费全文] [CrossRef] [Medline]
- Kunzel HJ。小心“电话效应”:电话传输对峰频率测量的影响。法律语言学2001;8(1):80-99。(CrossRef]
- 张建军,张建军。基于共振峰频率的声道长度短时估计。科学通报,2015;10(7):e0132193 [j]免费全文] [CrossRef] [Medline]
- 李建军,李建军。数字语音处理的理论与应用。上马鞍河:皮尔逊;2011.
- 李建军,黄勇,李建军。语音处理技术研究进展。见:斯普林格语音处理手册。柏林:施普林格;2008:1-4。
- 引用本文:李建军,李建军,李建军,李建军。自杀意念的实时波动及其危险因素:两项生态瞬间评估研究的结果。中华精神病学杂志,2017;26(6):726-738。(CrossRef] [Medline]
- 刘志强,刘志强。自杀风险评估方法的研究进展。心理健康临床医生2015;5:16 -223。(CrossRef]
- Runeson B, Odeberg J, Pettersson A, Edbom T, Jildevik Adamsson I, Waern M.自杀风险评估的工具:评估证据确定性的系统回顾。PLoS One 2017; 07 (7):e0180292 [j]免费全文] [CrossRef] [Medline]
- Carter G, Milner A, McGill K, Pirkis J, Kapur N, spital MJ。使用临床工具预测自杀行为:风险量表阳性预测值的系统回顾和荟萃分析。中华精神病学杂志,2017;21(6):387-395。(CrossRef] [Medline]
- Button KS, Ioannidis JP, Mokrysz C, Nosek BA, Flint J, Robinson ES,等。电源故障:为什么小样本量会破坏神经科学的可靠性。中华神经科学杂志,2013;14(5):365-376。(CrossRef] [Medline]
- Asendorpf JB, Conner M, De Fruyt F, De Houwer J, Denissen JJ, Fiedler K,等。增加心理学可复制性的建议。生态学报,2020;27(2):108-119。(CrossRef]
缩写
棱镜:系统评价和荟萃分析的首选报告项目 |
编辑:A Mavragani;提交01.09.22;P Upadhyaya, A Teles的同行评审;对作者27.10.22的评论;收到01.12.22修订版本;接受01.12.22;发表22.12.22
版权©Ravi Iyer, Denny Meyer。最初发表于JMIR生物医学工程(http://biomsedeng.www.mybigtv.com), 2022年12月22日。
这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR Biomedical Engineering上,并适当引用。必须包括完整的书目信息,到https://biomedeng.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。