JMIR老化-验证远程和全自动故事回忆任务评估老年人早期认知障碍:纵向病例对照观察研究

原始论文

¹Novoic有限公司，伦敦，英国

²美国马萨诸塞州波士顿哈佛医学院布里格姆妇女医院神经内科阿尔茨海默病研究和治疗中心

^3.美国马萨诸塞州波士顿哈佛医学院马萨诸塞州总医院神经内科

通讯作者:

卡洛琳Skirrow博士

Novoic有限公司

文洛克工作室，G.05办公室

伊斯灵顿和富道50-52号

伦敦,N1 7欧盟

联合王国

电话:44 7759 093006

电子邮件:caroline@novoic.com

背景:故事回忆是一种简单而敏感的认知测试，通常用于测量早期阿尔茨海默病(AD)的情景记忆功能的变化。最近数字技术和自然语言处理方法的进步使该测试成为自动化管理和评分的候选。需要多个并行测试刺激来进行更高频率的疾病监测。

摘要目的:本研究旨在开发和验证一种远程的全自动故事回忆任务，适用于纵向评估，受试者为患有和不患有轻度认知障碍(MCI)或轻度AD的老年人。

方法:“淀粉样蛋白在早期阿尔茨海默病中的预测”(AMYPRED)研究招募了英国(AMYPRED- uk: NCT04828122)和美国(AMYPRED- us: NCT04928976)的参与者。参与者被要求在7到8天内通过智能设备远程完成可选的每日自我管理评估。评估包括从自动故事回忆任务(ASRT)中立即和延迟回忆3个故事，这是一个多重平行刺激(18个短篇故事和18个长故事)的测试，平衡了关键的语言和话语指标。口头回答被记录下来，并从参与者的个人设备安全传输，并自动转录和评分，使用源文本和复述之间的文本相似度指标，以得出一个广义的匹配得分。使用逻辑模型和线性混合模型分别检验依从性和任务表现的组间差异。相关分析检验了asrt的平行形式信度和认知测试(逻辑记忆测试和临床前阿尔茨海默氏症认知复合与语义处理)的收敛效度。可接受性和可用性数据是通过远程管理问卷获得的。

结果:在AMYPRED研究招募的200名参与者中，151名(75.5%)-78名认知功能未受损(CU)和73名MCI或轻度ad参与了可选的远程评估。每日评估的依从性中等，没有随着时间的推移而下降，但在CU参与者中更高(73/106,68.9%的MCI或轻度AD参与者和78/ 94,83%的CU参与者每天完成asrt)。参与者报告了良好的任务可用性:很少出现技术问题，应用程序易于使用，对任务有广泛的兴趣。任务表现在一周内略有改善，在即时回忆方面表现更好。MCI或轻度AD患者的广义匹配得分较低(Cohend= 1.54)。对于即时回忆(平均rho为0.73，范围为0.56-0.88)和延迟回忆(平均rho为0.73，范围为0.54-0.86)，ASRT故事的平行形式信度为中等到较强。asrt与既定认知测试显示中度收敛效度。

结论:无监督的、自我管理的ASRT任务对MCI和轻度AD的认知障碍很敏感。该任务在已有的认知测试中表现出良好的可用性、高的并行形式信度和高的收敛效度。远程、低成本、低负担和自动评分的语音评估可以支持诊断筛查、医疗保健和治疗监测。

JMIR老化2022;5 (3):e37090

doi: 10.2196/37090

关键字

神经学；内存；情景；演讲；心理测验学；可靠性；有效性；老化；老；年长的成年人；阿尔茨海默病；轻度认知障碍；移动应用程序；移动健康；移动健康；智能手机；认知；认知能力下降；认知障碍；发展；验证；回忆；内存；故事；故事；观察性研究；可接受性；可用性；语义；认知测试；演讲；语言；移动电话

随着第一个针对阿尔茨海默病(AD)的疾病矫正疗法问世[1]，越来越需要对疾病进展和治疗反应进行更广泛的筛查和改进监测。认知评估是目前用于筛查AD及其相关损伤的侵入性最小、成本效益最高的方法之一。此外，包括美国食品和药物管理局在内的主要监管机构支持将它们用作AD早期治疗疗效的终点。[2]和欧洲药物管理局[3.］．

然而，许多认知评估是漫长的，需要训练有素的人员管理和评分，并提供很少的平行测试变体，使它们容易受到实践效果的影响。更重要的是，测试性能受到睡眠等一系列状态因素的显著影响[4)、运动(5,情绪6，以及重音[7］．随着时间的推移，这种变化会导致对改善或衰退的不准确印象[8］．通过控制状态效应，更高频率的采样可以对感兴趣的结构产生更稳定和可靠的估计[9并从与治疗反应和疾病进展相关的长期变化中区分短期认知波动[8］．

故事回忆是一种认知测试范式，用于评估言语情景记忆，通常用于跟踪与ad相关的衰退，通常作为认知复合测试的一个组成部分[10-14］．阿尔茨海默症患者的故事回忆能力受损[15]，显示轻度认知障碍(MCI)个体与认知未受损(CU)个体的差异[16]，并预测从轻度认知障碍到阿尔茨海默症的进展[17］．

大多数故事回忆测试都是亲自进行并手动评分，但研究表明，使用自然语言处理技术可以完全自动评分[18］．这表明故事回忆测试可以在临床中以较低的成本和减少临床医生的时间负担进行。此外，这些测试可能适合用于远程评估，只要它们得到适当的开发和验证，并且测试管理可以自动化。

尽管远程数字评估并不新鲜，但COVID-19大流行加速了采用远程或混合临床评估或研究方法的必要性[19，20.］．随着技术和连接的进步，这导致人们对使用个人数字设备收集临床信息数据越来越感兴趣。除此之外，数字卫生技术还可以增强包容性，改善行动不便者或有经济、地理或时间限制者的获得机会[21］．对大流行风险大幅增加的老年人来说，继续推动远程评估可能特别重要[22］．尽管数字化评估方法有望改善便利性和可及性，但人们担心，数字化评估方法在这一人群中是否特别具有挑战性，特别是对那些患有痴呆或轻度认知障碍的人群[23］．

这项研究描述了自动故事回忆任务(ASRT)，这是一种远程、自我管理和自动评分的测试，用于重复认知评估，为更细致的纵向数据分析提供了机会。对CU、MCI或轻度AD患者的测试特征进行了检查。参与者被反复评估超过1周。本研究考察了(1)远程ASRT评估的可接受性，(2)每日ASRT评估的依从性，(3)平行表信度，(4)认知和临床评估的收敛效度，(5)任务绩效特征，(6)每日内部状态因素的影响。

招聘

参与者于2020年11月至2021年8月在英国(伦敦、吉尔福德、普利茅斯和伯明翰)和美国(加利福尼亚州圣安娜)招募。研究参与者如果是CU或在过去5年内被诊断为轻度认知障碍。在英国的研究中，在过去5年中被诊断为轻度AD的参与者也被包括在内。根据国家衰老-阿尔茨海默病协会核心临床标准，对AD和轻度AD进行诊断。24］．如果参与者之前进行了β淀粉样蛋白正电子发射断层扫描或脑脊液测试(30个月内确诊为β淀粉样蛋白阴性或60个月内确诊为β淀粉样蛋白阳性)，就会接触他们。通过使用安全Zoom (Zoom video Inc)链接的视频电话筛选(英国研究)或临床评估(美国研究)来确定资格，在此期间，小型精神状态检查(MMSE) [25)是管理。对于远程管理，没有实现对朝向问题(日历、时钟、手表等)的潜在环境提示的控制。

纳入标准:年龄50 ~ 85岁;MCI或轻度AD患者的MMSE原始评分为23 - 30分，CU患者为26 - 30分;近5年有MCI或轻度AD的CU或临床诊断;英语为第一语言;临床痴呆症评定量表(CDR)研究伙伴的可获得性[26半结构式访谈;以及能够使用装有Android 7或以上或iOS 11或以上操作系统的智能手机。

排除标准如下:当前诊断为全身性焦虑障碍，最近(6个月)有不稳定精神疾病史，过去2年内有中风史，或在过去12个月内有记录的短暂性脑缺血发作或原因不明的意识丧失史。在研究开始前和整个研究过程中，使用药物治疗AD相关症状的参与者被要求至少8周稳定使用这些药物。目前被诊断为重度抑郁症的参与者(英国)或目前或2年有重度抑郁症病史的参与者(美国)被排除在外。

伦理批准

本研究获得了相关研究当局的机构审查委员会的批准(英国研究伦理委员会参考文献:20/WM/0116;美国机构审查委员会参考:8460-JGDuffy)。在研究地点(美国)或根据卫生研究当局准则以电子方式取得知情同意(联合王国)。这些研究已在ClinicalTrials.gov上注册(NCT04828122和NCT04928976)。

过程

临床评估

参与者通过安全Zoom链接(英国)或在诊所(美国)完成临床评估，由训练有素的心理测量学家完成。下面将详细描述本研究报告的测试。

韦氏逻辑记忆(LM)测试“安娜·汤普森”故事变体根据25个预先定义的信息单位(一个量化所回忆信息数量的指标[27)在演示结束后立即进行，并在延迟30分钟后进行。提出的变体包括美国样本的韦氏记忆量表(WMS)原文[28]和英国样本的WMS第三版文本[29］．两种文本变体的答案都接受改述，评分是根据指导并与管理和评分指导方针相一致的手工完成的。获得即时和延迟回忆评分。

在临床前阿尔茨海默症认知复合语义处理(PACC5)中纳入认知测试。测试是手动评分的，平均值Z-score的计算方法如前所述[11］．该综合指数包括五个测量指标的综合得分:(1)MMSE [25]，一个全球认知筛选测试;(2) LM延迟召回[28，29，延迟故事回忆测试;(3)数字符号编码[30.，符号替换测试;(4)自由和提示选择性提醒测验的自由回忆和总回忆之和[31，多模态联想记忆测试;(5)类别流畅性(动物、蔬菜和水果)，语义记忆测试。

CDR [26]是一种评估痴呆认知症状严重性的半结构化访谈，由参与者及其研究伙伴完成，并基于CDR-Sum of Boxes (CDR-SB)量表进行评分。审查员对实施的其他评估并不知情。在美国的研究中，参与者在研究访问前1个月内完成了PACC5或CDR评估的子测试，测试不进行重新管理，但使用了最近的历史测试结果。

参与者完成了ASRT，这是一个在封闭领域内引出自然语言的任务。由一位英国男性演讲者以稳定的阅读速度(大约每分钟140字)播放预先录制的asrt。平行刺激包括36个故事:18个短篇故事(每故事119个单词，标准差4.83)和18个长篇故事(每故事224个单词，标准差14.86)。任务特征如表S1所示多媒体附录1研究表明，故事包含了一系列主题，并且在关键的语言和话语指标上达到了平衡。在临床评估期间，连续进行了3个长ASRT故事。在讲述完每个故事后，参与者被要求立即尽可能多地复述他们所记得的故事细节。同样的故事，以同样的顺序回忆，在延迟后再次测试。

在临床评估期间，研究人员支持参与者在自己的智能手机设备上安装Novoic移动应用程序(“该应用程序”)，并向他们展示如何使用它。参与者在研究访问结束和远程评估之前的参与得到补偿(英国参与者65英镑[US $86]，美国参与者75美元)。在远程随访期间，不要求为参与者提供充分报酬的使用门槛。

远程评估

研究人员鼓励参与者在研究访问后的8天内，每天在应用程序上完成无监督的可选自我评估(时长<30分钟)。评估包括asrt和其他未在此报告的远程语音任务(口头和类别流利性评估、阅读任务、图片描述和程序性话语任务)以及远程问卷。asrt在每次评估开始时进行管理，其他测试的顺序、包含和管理每天都不同。

不同的评估组件(asrt[适当的+流利性任务]，问卷和其他任务)被划分，这样，参与者一旦完成一个组件，就会被告知他们的进展，并有机会继续。这意味着参与者可以在评估组件之间休息。所有的asrt都是在这些评估组件中的一个中管理的，没有中断。如果由于其他因素(注意力分散等)而中断了参与，那么执行的单个音频任务不会重复，但参与者能够继续进行以下部分的评估。

每天，在每个评估阶段开始时，使用三组(三胞胎)远程asrt。在远程评估的第一天执行的ASRT故事与前一天在临床监督评估中执行的故事相同，以便对实践效果进行评估(这里没有报告)。其余的ASRT故事，从远程评估的第2天开始呈现，是新颖的，只执行一次。

在讲述完每个故事后，参与者被要求立即尽可能多地复述他们所记得的故事细节。同样的故事，以同样的顺序回忆，在延迟后再次测试。该计划包括在完成所有立即回忆后或在完成简短的分心任务(流利性任务:类别或口头流利性)后的延迟回忆，每天的测试管理不同(见表S2)多媒体附录1)．语音回答的录音由应用程序按照指示自动启动，由参与者手动停止。这些音频文件被记录在参与者的个人智能设备上，并自动上传到一个安全的服务器。

由于参与者主动反馈的负担高(远程评估时间过长、过累)，在研究进行到一半时，更改了评估计划。新的时间表实现了更短的故事，并减少了asrt之后附加评估的数量(这里没有报告)。然而，在每次评估开始时，继续每日服用asrt。同时将远程考核天数从7天增加到8天，分散考核，减少日常负担。的表S2提供了详细信息多媒体附录1．

在每次远程评估结束时，通过一份包含4个项目的自我报告问卷来评估日常状态的影响，问卷询问参与者当天的感受(当前情绪、睡眠量、走神和努力程度)，用7分制的反应量表来评分，从“比平时差得多/少”到“比平时好得多/多”。应用程序和任务可用性在第2天(初始评估计划)或第5天(修订后的评估计划)通过自我报告问卷进行评估。可用性问卷要求参与者报告在评估过程中遇到的技术困难，技术困难是否阻碍了他们完成评估，使用应用程序有多容易，任务有多有趣。调查问卷见年的表S3和表S4多媒体附录1．

统计分析

使用谷歌的speech-to-text转录ASRT任务应答[32]自动语音识别系统，采用增强的语音识别模式(“视频”模式，适用于可能含有背景噪音的录音)。所有的任务回答也按照标准化的程序手动转录，包括注释、填充停顿和部分单词的转录。使用HuggingFace包计算自动抄写的错误率(WER) [33]，作为每个人工抄录单词的平均错误数。这是在删除标点符号、将所有文本字符设置为小写、并在比较之前从抄本中删除填充停顿和部分单词之后计算出来的。

抄写之后是使用通用匹配(G-match)评分完成的自动文本分析。g匹配用Python计算，作为原始ASRT文本嵌入和转录复述之间余弦相似度的加权和，提供了两个文本之间相似度的自动定量评估。G-match提供了每个故事的比例回忆指数，潜在得分从0到1(假设完美表现)。同时计算每个三元组的平均g匹配。模型的底层表示基于预训练的BERT模型[34]，这是一个在超过3亿单词的语料库上预先训练的大型语言模型，可以生成语言及其使用方式的广义表示。

使用统计软件包R v.4.0进行进一步分析。评估数据的正态性，然后进行适当的参数和非参数分析。坚持被定义为每天至少参与一个ASRT故事。使用逻辑回归模型检查依从性模式，预测立即和延迟回忆时的依从性，与参与者组、人口统计、评估日和时间表有关。很大一部分参与者只完成了7天的远程评估，因此依从性的纵向分析仅限于第1天至第7天的评估。参与者被纳入随机效应。人口统计数据(性别、年龄和受教育年限)、评估天数(1-7)、研究计划(计划1或计划2)和参与者组(CU和MCI或轻度AD)被纳入固定因素。

采用两两相关分析检验了asrt的平行形式可靠性。只分析了在两个测试计划中执行的ASRT故事，在比较中保持相似的样本量，并允许在MCI或轻度AD和CU亚组中进行测试。这些相同的ASRT故事的收敛效度与LM、pac5和CDR-SB的关系进行了检验。使用每组的平均g匹配得分重复分析。斯皮尔曼等级相关系数报告贯穿始终，以保持报告的一致性和可比性。

使用纵向线性混合效应模型对组间任务绩效差异、任务管理变化和随时间的变化进行建模。分析的数据被限制在远程评估第2至7天，评估是新的，并对所有参与者实施。混合模型分析包括g匹配作为响应变量，固定效应的参与者组，远程评估天数(2-7)，顺序(第1、2或3 ASRT提出)，长或短故事，立即或延迟回忆。人口统计数据(年龄、性别和教育程度)被纳入附加固定效应。指定了具有随机斜率和截距的参与者的随机效应。科恩d利用lme计算了多层次模型对象的效应大小。dscore命令在EMAtools包中。

除了不包括故事顺序之外，我们使用每个三元组的平均g匹配重复分析，并使用等效的随机和固定效果规格。然后，通过在上述模型中加入自我报告的情绪、睡眠、努力和走神的固定效应，检验自我报告每日状态的三组之间平均ASRT任务绩效的共变。通过检验残差与拟合值的分布和模式，研究了所有回归模型的假设。

在临床评估过程中，由训练有素的心理测量学家通过Zoom或亲自完成的传统认知测试也评估了组间差异和效应大小。只对不直接或间接属于研究选择标准(数字符号编码、自由和提示选择性提醒测试和类别流畅性测试)的测试进行比较，因此排除了MMSE(直接选择标准)、LM延迟回忆和PACC5(间接)。由于参与者是从之前完成的试验中招募的，其中一些LM延迟回忆的性能阈值与MCI和轻度AD组的纳入标准有关，因此没有评估LM和pac5 (LM是其中的一个组成部分)。对传统认知评估的测试分布进行正态性评估，然后根据情况进行参数或非参数测试。

参与者

共招募了200名参与者，其中67名来自美国研究，133名来自英国研究，完成了临床评估方案。总的来说，75.5%(151/200)的参与者至少完成了一次远程ASRT。年长的参与者(r=−0.15;P=.03)， MMSE分数较低的(r=−0.26;P<.001)， MCI或轻度AD患者(33/106,31.1% MCI或轻度AD, 16/94, 17% CU;χ²₁= 5.4;P= 0.02)更多的时候没有完成任何远程评估。性别比例差异无统计学意义(χ²₁= 0.4;P= 0.50)或受教育年限(r=−0.01;P= 0.87)进行了至少一次远程评估的参与者与没有进行远程评估的参与者之间的差异。

提供远程数据的参与者的人口统计信息载于表1．在这个样本中，MCI组或轻度AD组和CU组在年龄、受教育年龄、性别或淀粉样蛋白状态方面没有差异。与英国的样本(51/117,43.6%诊断为轻度认知障碍或轻度AD)相比，美国的研究纳入了更多的认知障碍参与者(22/34,65%患有轻度认知障碍)。MCI组或轻度AD组包括诊断为轻度AD的少数参与者(10/ 73,14%)，所有参与者都按照纳入标准被招募到英国样本中。美国和英国研究的样本特征的详细分类载于附表S5多媒体附录1．

表1。认知功能未受损的参与者和轻度认知障碍的参与者的人口统计学特征^一个或轻微的广告^b．

			集团				统计值
			认知没有(n = 78)		MCI或轻度AD (n=73)	检验统计量		P价值
性,n (%)							χ²₁= 0.3		收
	女	47 (60)		41 (56)
	男性	31 (40)		32 (44)
居住国，n (%)							χ²₁= 4.7		03
	联合王国	66 (85)		51 (70)
	美国	12 (15)		22日(30)
测试进度，n (%)							χ²₁= 7.0		.008
	表1	40 (51)		22日(30)
	表2	38 (49)		51 (70)
β淀粉样蛋白状态，n (%)							χ²₁= 0.8		36
	淀粉样蛋白-	38 (49)		41 (56)
	淀粉样蛋白阳性	40 (51)		32 (44)
平均受教育年限(SD)			15.24 (3.37)		15.06 (2.80)	r=−0.05		.57
年龄(年)，平均值(SD)			70.37 (4.35)		69.58 (7.30)	r=−0.01		点
患者的^c意思是(SD)			28.92 (1.15)		27.00 (2.07)	r= 0.50		<措施

^一个MCI:轻度认知障碍。

^b广告:阿尔茨海默病。

^cMMSE:小型精神状态检查。

可用性

63.6%的受访者完成了可用性问卷调查(96/151;CU: n=52, MCI或轻度AD: n=44)完成远程评估(图1)．那些完成可用性问卷的人在教育水平方面没有差异(r=−0.02;P=尾数就)、年龄(r=−0.12;P=.14)，或MMSE分数(r=−0.08;P= 0.32)与那些参与远程评估但没有完成可用性问卷的人相比。男女比例差异无统计学意义(χ²₁= 0.1;P=.75)或CU参与者与MCI或轻度AD参与者的比值(χ²₁= 0.7;P= 0.41)完成和没有完成可用性问卷的人。

总的来说，8%(4/52)的CU参与者和20%(9/44)的MCI或轻度AD参与者报告了技术困难。在遇到技术困难的地方，大多数参与者报告说这并不妨碍他们完成评估，没有组间差异(χ²₁= 3.3;P=。07年和χ²₁= 1.0;P=。32，respectively for technical difficulties reported, and inability to complete assessments). Most participants responded that the app was easy to use and that the task was reasonably interesting, with no group differences (r=−0.08;P=。47一个ndr=−0.04;P=。70, respectively for ease of use and interest in tasks).

依从性

MCI或轻度AD的参与者完成的远程评估少于CU参与者(坚持立即回忆:64.5% vs 77.5%;延迟召回:61.5% vs 77.3%;图2)．混合logistic回归分析证实组间差异(即时回忆估计=−0.97;P=。01和延迟召回估计=−0.84;P= .02点)。在评估期间，依从性没有变化(即时回忆估计=−0.04;P=。34一个nd delayed recall estimate=−0.07;P= 0.11)，但对于修订后的测试计划，观察到延迟召回的依从性较低(估计=−0.86;P= 03)。依从性与性和教育无关P>.20)，但年轻参与者完成的即时回忆评估更多(即时回忆估计=−0.07;P=。02和延迟召回估计=−0.06;P= 0。06)。

图2显示了坚持模式和任务表现的热图。在该图中，每个参与者用一行表示，在评估期间的任务响应和绩效用沿着x轴的彩色块表示。任务性能用颜色表示，从红色到黄色表示从低到高的g匹配分数。丢失的数据显示为灰色。这一数字反映了上述报告的结果，CU组依从性较高，在评估期间依从性没有明显下降。

转录的准确性

参与者录音的自动抄本与手动抄本的平均WER为0.11。不同参与者组的平均WER不同，CU组的WER=0.09, MCI或轻度AD组的WER=0.13 (t_108.1=−3.81;P<措施;科恩d= 0.63)。

任务特征

asrt和三胞胎的g匹配具有良好的心理测量特性。所得数据显示，并无天花板或地板的效果(图3一个;数据S1-S4多媒体附录1)．任务性能特征如表S6-S8所示多媒体附录1．

图3。重复评估的广义匹配(g -匹配):(A)单个自动故事回忆任务故事的g -匹配箱线图，水平上由短故事和长故事划分，垂直上由即时和延迟回忆划分，(B)在单个评估天(2-7天和即时回忆)和测试顺序上的平均g -匹配(即时回忆)。组平均值用粗线显示，个人参与者的评估轨迹和天数用更浅、更细的线显示。广告:阿尔茨海默病;ASRT:自动故事回忆任务;MCI:轻度认知障碍。

复本信度

给出了即时回忆时单个ASRT故事的并行信度图4．按临床组划分的延迟回忆的等效数据见中的图S5-S9多媒体附录1．按立即回忆和延迟回忆以及临床组分开的三胞胎的相关矩阵见图S10-S12多媒体附录1．

图4。自动故事回忆任务(ASRT)故事在即时回忆时的平行形式信度和收敛效度。asrt用s(短)和l(长)表示，后面是故事号(参见多媒体附录1中的表S1)。与其他评估的相关性显示(韦氏逻辑记忆测试-即时回忆[LMIR]，临床痴呆评分量表-箱和量表[CDR-SB]，临床前阿尔茨海默氏症认知复合与语义处理[PACC5])。为了一致性，CDR-SB相关性的符号是反向的。相关系数来自75至116名参与者，取决于坚持的模式。

全样本的相关系数为中等到强的即时回忆(rho范围=0.56-0.88;平均0.73)，在限制对MCI或轻度AD参与者的分析后仍然如此(rho范围=0.31-0.87;平均0.65)和CU参与者(rho范围为0.39-0.85;意思是0.65)。同样，对于延迟回忆，平行ASRT故事之间的相关性是中等到高的(全样本:rho范围=0.54-0.86;均值0.73)，当将分析限制在MCI或轻度AD参与者时(rho范围=0.37-0.88;平均0.65)和CU参与者(rho范围=0.32-0.83;意思是0.64)。

平行形式的可靠性是更高的，当检查的平均得分在三胞胎(直接:rho范围=0.77-0.88，平均0.83;迟发性:rho范围=0.76-0.89，平均0.85)，MCI或轻度AD持续高(即时:rho范围=0.57-0.88，平均0.73;延迟:rho范围=0.60 ~ 0.89，平均0.75)和CU子组(即时:rho范围=0.67 ~ 0.83，平均0.76;延迟:rho范围=0.68-0.85，平均值0.77)。

聚合效度

在即时和延迟回忆中，全样本的ASRT任务绩效与其他认知和临床测量(LM、CDR-SB和pac5)呈正相关(图4)．即时回忆asrt与lm -即时回忆、PACC5和CDR-SB的平均相关系数分别为0.56、0.65和0.51。asrt与LM-delayed recall、PACC5和CDR-SB之间的平均相关系数分别为0.54、0.66和0.50。中的图S5-S9给出了延迟召回的分析结果和图以及按参与者分组的结果多媒体附录1．在对MCI或轻度AD的参与者进行限制分析后，相关系数仍然在中等范围内，但在CU参与者中通常较低。ASRT三联组与其他认知测试的相关性见图S10-S12多媒体附录1．

组间任务性能比较

提出了纵向混合模型表2对单个asrt和三胞胎的结果类似。任务表现在一周内有所改善，g匹配在评估日有适度的线性改善。MCI得分较低组或轻度AD组对单个故事和三胞胎均有影响，其影响大小为Cohend= 1.54。g匹配在即时回忆和短故事组更高，在每组中使用后一种asrt组更高。人口统计数据与任务绩效无关。纵向数据显示在图3B，显示受试者内部和受试者之间的差异性。

表2。纵向混合模型估计的任务特征、参与者群体和人口统计对任务绩效指标的影响。二元预测(性别，ASRT^一个长度和回忆类型)引用类别列在前面。

	G-match个人故事		G-match三胞胎
	估计(SE)	P价值	估计(SE)	P价值
拦截	0.53 (0.08)	<措施	0.57 (0.08)	<措施
组(组1:CU^b第二组:MCI^c或轻微的广告^d）	−0.11 (0.01)	<措施	−0.11 (0.01)	<措施
评估的一天	0.005 (0.001)	<措施	0.005 (0.001)	<措施
召回类型(即时和延迟)	−0.02 (0.001)	<措施	−0.02 (0.002)	<措施
ASRT长度(长短)	−0.04 (0.003)	<措施	−0.04 (0.003)	<措施
ASRT的呈现顺序(1、2、3)	0.02 (0.001)	<措施	- - - - - -^e	- - - - - -
性别(女性和男性)	−0.02 (0.01)	。08	−0.02 (0.01)	07
教育(年)	0.0004 (0.002)	点	0.0003 (0.002)	.85
年龄(年)	−0.002 (0.001)	点	−0.002 (0.001)	13。

^一个自动故事回忆任务。

^b铜:认知能力受损。

^cMCI:轻度认知障碍。

^d广告:阿尔茨海默氏症。

^e固定效果不包括在模型。

在将自我报告评估纳入预测三胞胎g匹配的混合模型后，模型揭示了情绪的显著影响(估计=0.007;SE 0.002;P<.001)和走神(估计=−0.007;SE 0.002;P<.001)，更好的日常情绪和较低的走神与更好的日常任务绩效相关。

与传统神经心理学测试的比较

在临床评估期间亲自进行的传统神经心理学测试也可预测MCI或轻度AD的诊断状态，确定了较大的效应量:数字符号编码:t₈₂= 5.40,P <措施,科恩d= 1.07;类别流畅性总分:t t₁₄₈= 7.16,P<措施，科恩d= 1.17;自由和提示选择提醒试验的自由回忆和总回忆之和:t₁₀₈= 5.56,P<措施，科恩d= 1.01。

主要研究结果

这项研究表明，日常无监督和自我管理的基于语音的测试对于有和没有认知障碍的老年参与者是可以接受和可行的。受试者进行每日选择性评估，坚持程度适中。在为期一周的评估期间，依从性水平没有明显下降。参与者很少遇到技术问题，并报告说这些测试很容易使用，相当有趣。

结果表明，远程自动测试管理和故事回忆自动评分可以为高危人群提供敏感的认知测量。ASRT g匹配(一种自动评分的比例回忆测量方法)显示，认知健康的参与者与轻度认知障碍患者或轻度AD患者在任务表现上存在一致的差异。在整个评估期间和各个ASRT病例中，诊断组之间的任务表现分离是一致的(图3)，显示出在区分CU参与者与MCI或轻度AD的参与者时具有很强的效应大小(Cohend=1.54)，并控制了年龄、教育和性别。根据之前发表的等价表，接收器工作特征曲线下的等效面积为0.86 [35］．

asrt的效应量比一系列传统认知测试的效应量要大，这些测试通常是亲自进行并在监督下进行的。本研究的参与者是从先前的试验中招募的，在这些试验中，对LM延迟回忆的测试表现构成了MCI或轻度AD患者的试验纳入标准的一部分，这可能会增加这些试验的效应大小。

在这里报道的临床组之间的asrt区分优于先前报道的使用其他传统的当面和在诊所进行的认知测试来区分CU个体和MCI患者的方法，如MMSE (Cohend=0.69)， 6项认知障碍测试(Cohend=0.65)、Addenbrooke认知测验修正(Cohend=0.73)，尽管之前蒙特利尔认知评估组(Cohend= 1.45) (36］．与Cogstate简短电池相比，当远程管理和无监督时，该测试也表现良好，在子测试中MCI和CU组之间的差异的效应大小从科恩不等d= 0.22,科恩d= 0.62 (37］．

尽管本分析中所检查的混合临床组限制了与先前发表的仅患有MCI的受试者的指标进行直接比较，但本研究中的轻度AD组仅占MCI或轻度AD组的一小部分(10/ 72,14%)。在从线性混合模型分析中排除轻度AD的参与者后，得出了Cohen的效应大小d=1.45(曲线下等效面积=0.85 [35])，以了解CU参与者与MCI参与者之间的差异。

ASRT刺激是精心设计和平衡的关键语言和语篇指标，包括单词的数量，句子的数量，从属子句的数量，平均句子长度，从属子句与t单位(最短的语法完整单位的数量，一串书面或口头语言可以被划分成)的比率。这种刺激的平衡也反映在ASRT平行刺激之间良好的平行形式的可靠性中，在即时和延迟回忆中，在临床亚组(MCI或轻度AD和CU)的分析中，一致性较高。ASRT分析管道在测试-重测试的可靠性和并行表单的可靠性方面也有显著的优势，因为文本相似度每次都以相同的方式进行评估，产生了一个跨并行测试表单的标准化评分系统。使用大型语言语料库进行训练，对文本相似度进行更客观的量化，消除了故事回忆任务评分中常见的一些更随意的特征，其中接受特定的释义，信息单元的大小显示出一些可变性[29］．

重复暴露在测试刺激下可能会导致不必要的练习效果，从而降低作为衡量新学习的测试的有效性。研究还显示，在列表学习测试和LM等测试的临床诊断组之间，练习效果存在差异。38］．当考虑在纵向研究或临床监测中重复使用相同的故事回忆刺激，或在诊断阈值设定中作为研究研究或临床试验的截断时，实践效应可能特别重要[16，39］．其他可用的故事回忆测试通常具有有限的并行形式。

可用的并行形式的ASRT测试的数量允许在更短的时间内进行更高频率(每日)的评估，没有测试重复，例如在本研究中进行的测试。或者，测试可以在更大的间隔(每周、每月或更长时间)进行，以评估很少或不重复刺激的长期变化，从而可能减少练习效果。

尽管交替的测试变体可以帮助减少实践的影响，但它们并不完全适合重新测试，可以通过重复暴露于任务和更熟悉测试结构或方法来修改[40］．在这项研究中，尽管在每次评估中出现了新的刺激，测试分数在一周内略有提高，这表明随着时间的推移，对应用程序、测试程序和测试结构的熟悉程度的增加导致了微妙的改善。在为期一周的评估期间，任务性能的改善是适度的(估计g匹配的每日变化仅为初始拦截估计值的0.4%)。测试性能的改善，结合在研究过程中没有坚持的变化，没有表明任何强烈的疲劳影响。

ASRT测试与一项完善的言语情景记忆测试、认知复合测试和临床医生报告的结果呈正相关，表明可接受的收敛效度，其结果与其他计算机化或无监督远程评估研究相当或优于[41-43］．与LM和临床医生报告结果的相关性在中等范围内，较低的相关系数与测试不变性有关，这是由于CU个体在这些传统临床和神经心理学评估中的最高或最低水平表现。

任务的表现也因研究设计的不同而不同，在三联组中，故事在后面进行的记忆更全面。这些效应似乎导致了单个ASRT故事之间更大的差异，但当g匹配在整个故事三联中进行检查时，这些影响被平均掉了。故事三组的分析显示，虽然在组表现上基本没有变化，但在使用的asrt组和分析的asrt组之间有更高的相似形式的可靠性。用G-match测试的任务表现，短故事的任务表现通常更高，这表明参与者在被要求回忆较少材料的情况下，反应更全面地涵盖了故事源文本。

这项研究还显示了任务表现的被试内部差异，部分反映了状态因素对认知表现的测量影响，特别是日常情绪和努力。受试者内部差异的差异可能使区分临床变化与测量误差具有挑战性[8，而纵向进行的更高频率的评估可以帮助生成对认知功能和变化的更可靠的估计。重复测量允许同时测量这些状态效应，并在纵向分析中包括或控制。

限制

为了满足资格标准，参与者被要求能够使用和访问智能手机。这可能因为过度选择了那些对技术更熟悉的人而对样本产生了偏见。年龄较大和认知能力较差的参与者不太可能参与远程研究，而且当他们参与远程评估时，他们的参与频率也较低。然而，这里提供的依从性统计数据反映了参与者在选择性评估中的参与度，如果这些评估是强制性的，则可能会有所不同。许多家庭测试方案至少需要一定程度的技术熟练程度，一些老年人可能会觉得这很有挑战性，这些挑战可能会因认知障碍或共病而加剧[44］．

因此，所提供的数据可能无法反映受损程度较重的个体或技术熟悉程度较低的个体的任务表现。在诊所或远程医疗访问的监督下进行评估，并在需要时提供额外支持，可能更适合受损程度较重的个人。

通过在远程评估期间收集可用性数据，我们能够确定大多数参与者没有遇到任何技术问题，应用程序通常很容易使用。然而，关于可用性类型和任何技术问题的更详细的定性反馈并没有被收集。需要进一步评价这些困难的性质。这些信息可以用来改进用户界面和远程评估参与者的参与度。

针对参与者和研究中心对初始测试计划参与者负担高的反馈，在研究中期修改了测试计划以减轻负担，从而限制了某些ASRT测试变体的可用数据。

研究的设计使得区分单个故事本身的效果(即，使用哪个ASRT故事)和研究设计的效果(如测试顺序或评估日期)变得困难。未来的研究可能受益于采用随机设计，随机选择asrt并分配到不同的测试实例，以获得独立于这些附加混杂因素的测试性能指标。对于纵向研究，应该采用短故事或长故事，以提高测试分数随时间推移的一致性，并帮助更好地描述认知变化。

我们发现，在比较CU参与者和MCI或轻度AD患者的自动和手动抄本时，WER存在差异，这表明这两组人的语音清晰度或录音质量存在差异。自动转录性能的差异将影响分析过程中的进一步分析，这表明分组得分的差异可能不仅反映了分组在比例回忆方面的差异，还可能包括语音可理解性和参与者的设备使用特征。然而，这些影响值得进一步研究。

本研究的参与者构成了一个精选的样本。样本的选择排除了同时患有神经和精神健康疾病的患者。他们是从先前在美国和英国完成的临床试验中招募的，反映了一群积极从事临床研究的个人。参与者缺乏种族多样性(大多数样本被认定为白人，只有2.6% [N=4]具有亚洲、黑人、非洲或非裔美国人的背景)。现在需要在更多的临床和人口统计学异质性样本中进行复制。

概述及未来发展方向

美国食品和药物管理局(fda)最近批准了针对AD风险人群的首个疾病缓解疗法，这突显了充分筛查和早期发现的重要性，以及监测治疗反应的重要性。与冗长的一次性评估相比，更简短、方便和负担更低的每日评估可能为评估疾病进展或治疗反应提供更可靠的数据[9］．与目前的临床标准相比，在家中完成的简短的数字评估和随着时间的推移可重复的评估可以提高AD筛查的可及性，目前的临床标准通常需要临床访问和广泛的神经心理学评估。

这项研究表明，简单、远程管理和自动评分的asrt对通过更广泛的临床评估通常识别的早期认知障碍非常敏感。该测试显示了良好的重复性给药性能和与既定的情景记忆、认知复合和临床医生报告结果(CDR-SB)测试的收敛效度。该测试显示了良好的可接受性和可用性，老年人是否有认知障碍。此外，由于asrt的自动管理和评分，该测试提供了最小的管理负担，不需要训练有素的人员或专业设备。

语音是日常功能的重要组成部分，也是参与者对当前智能设备(如智能手机)的自然反应方式。言语反应也是认知测试的常见组成部分;然而，这些测试中生成的数据，包括本研究中报告的数据，通常与响应准确性的简单通过或失败特征有关。使用基于音频和文本的人工智能模型的新指标，瞄准语音数据中可测量的其他变化(声学[45，46)、语义(47-49]、语言学[46)可以进一步利用asrt的信息内容，开发出一种新的强大的全自动语音生物标记物。

致谢

作者非常感谢参与研究的参与者以及支持他们参与的家人和护理人员。作者还感谢研究站点及其科研团队为招募人员、协调研究、进行访谈和收集数据所做的努力。该研究由Novoic资助，Novoic是一家开发基于人工智能的语音生物标记的临床阶段数字医疗技术公司。

数据可用性

语音数据是可识别的，不能共享;然而，本研究中产生的所有定量数据均可根据作者的合理要求获得。

作者的贡献

EF、MM和JW设计了研究方案。MM协调了研究研究和数据收集。CS、UM和EF完成了分析。CS和EF完成了初稿。所有作者都对稿件的修改作出了贡献。

的利益冲突

EF、JW、MM、CS、RL和UM是Novoic Ltd的现任或前任员工。KVP是该公司的顾问。EF、JW、RL和MM是股东，CS、MM、UM和KVP是公司的期权持有人。JW和EF都是Novoic的董事，并在Novoic ltd申请的多个语音处理专利中被命名为发明者。KVP曾担任Biogen Idec和Digital Cognition Technologies的付费顾问。

‎

多媒体附录1

自动故事回忆任务的日常远程管理的补充信息、表和图。

DOC文件，1923 KB

FDA加速批准阿尔茨海默氏症药物。美国食品和药物管理局2021年6月7日。URL:https://www.fda.gov/news-events/press-announcements/fda-grants-accelerated-approval-alzheimers-drug[2021-06-29]访问
早期阿尔茨海默病的监管创新和药物开发。中华医学杂志2013年3月28日;368(13):1169-1171。［CrossRef] [Medline］
阿尔茨海默病药物临床研究指南。欧洲药品管理局2018年2月22日。URL:https://www.ema.europa.eu/en/documents/scientific-guideline/guideline-clinical-investigation-medicines-treatment-alzheimers-disease-revision-2_en.pdf[2021-04-12]访问
罗锦江，Groeger JA，郑海华，Dijk D, Chee MW。老年人自我报告的睡眠时间和认知表现:一项系统综述和荟萃分析。睡眠医学2016年1月;17:87-98 [免费的全文] [CrossRef] [Medline］
Chang YK, Labban JD, Gapin JI, Etnier JL。急性运动对认知表现的影响:一项元分析。Brain Res 2012年5月09;1453:87-101。［CrossRef] [Medline］
Mitchell RL, Phillips LH。积极情绪和消极情绪对执行功能影响的心理、神经化学和功能神经解剖学中介。神经心理学2007年3月02;45(4):617-629。［CrossRef] [Medline］
安吉利迪斯A，索利斯E，劳滕巴赫F，范德多斯W，普特曼p，我要失败了!急性认知表现焦虑增加威胁干扰，损害WM表现。PLoS One 2019;14(2):e0210824 [免费的全文] [CrossRef] [Medline］
Meier IB, Buegler M, Harms R, Seixas A， Çöltekin A, Tarnanas I.使用数字神经信号测量阿尔茨海默病的纵向个体水平变化:Altoida大队列研究。NPJ Digit Med 2021 6月24日;4(1):101 [免费的全文] [CrossRef] [Medline］
史怀哲P, Husky M, Allard M, Amieva H, Pérès K, Foubert-Samier A，等。移动认知测试在年龄相关性认知衰退调查中的可行性和有效性。2017年9月26日(3):e1521 [免费的全文] [CrossRef] [Medline］
Donohue MC, Sperling RA, Salmon DP, Rentz DM, Raman R, Thomas RG，澳大利亚成像，生物标志物，衰老的生活方式旗舰研究，阿尔茨海默病神经成像倡议，阿尔茨海默病合作研究。临床前阿尔茨海默症认知复合:测定淀粉样蛋白相关的衰退。JAMA Neurol 2014 Aug;71(8):961-970 [免费的全文] [CrossRef] [Medline］
帕普KV, Rentz DM, Orlovsky I, Sperling RA, Mormino EC。优化临床前阿尔茨海默症认知复合与语义加工:PACC5。老年痴呆症(N Y) 2017年11月;3(4):668-677 [免费的全文] [CrossRef] [Medline］
尹泽文，魏纳，麦金瑞，莫米诺，林青梅，等。确定临床前阿尔茨海默病的临床意义下降。神经病学2019 7月23日;93(4):e322-e333 [免费的全文] [CrossRef] [Medline］
Lim YY, Snyder PJ, Pietrzak RH, Ukiqi A, Villemagne VL, Ames D，等。复合评分对临床前阿尔茨海默病淀粉样蛋白负担的敏感性:介绍非痴呆老年人复合评分的注意力、语言流畅性和情景记忆的z评分。老年痴呆症(Amst) 2016;2:19-26 [免费的全文] [CrossRef] [Medline］
Jonaitis EM, Koscik RL, Clark LR, Ma Y, Betthauser TJ, Berman SE，等。测量纵向认知:单项测试与复合测试。老年痴呆症(Amst) 2019年12月;11:74-84 [免费的全文] [CrossRef] [Medline］
波尔图MF，贝尼特斯-阿古代洛JC，阿吉雷-阿塞韦多DC, Barceló-Martinez E，阿莱格里RF。UDS 3.0神经心理学电池在哥伦比亚老年痴呆症队列中的诊断准确性应用神经精神成人2021年3月24日1-9。［CrossRef] [Medline］
李国强，李国强，李国强，等。参加阿尔茨海默病试验的迷你精神状态测试和逻辑记忆分数。阿尔茨海默Res Ther 2016年2月22日;8:9 [免费的全文] [CrossRef] [Medline］
Belleville S, Fouquet C, Hudon C, Zomahoun HT, Croteau J，阿尔茨海默病早期诊断协会魁北克。预测老年人从轻度认知障碍发展为阿尔茨海默氏症型痴呆的神经心理学测量:一项系统综述和荟萃分析。Neuropsychol Rev 2017 12月27日(4):328-353 [免费的全文] [CrossRef] [Medline］
Lehr M, Prud 'hommeaux E, Shafran I, Roark B.检测轻度认知障碍的全自动神经心理学评估。发表于:INTERSPEECH 2012，国际言语传播协会第十三届年会论文集;第四,2012年9月;美国俄勒冈州波特兰。［CrossRef］
ferar J, Griffith GJ, Skirrow C, Cashdollar N, Taptiklis N, Dobson J，等。为远程临床研究开发数字工具:如何评估现场环境中主动评估的有效性和实用性。J Med Internet Res 2021年6月18日;23(6):e26004 [免费的全文] [CrossRef] [Medline］
Ousset PJ, Vellas B.观点:Covid-19疫情对记忆诊所临床和研究活动的影响:一个面临Covid-19危机的阿尔茨海默病中心。中华老年痴呆症杂志2020;7(3):197-198 [免费的全文] [CrossRef] [Medline］
国家科学院、工程院和医学院，健康和医学部，健康科学政策委员会，药物发现、开发和翻译论坛。虚拟临床试验的挑战与机遇:研讨会论文集。华盛顿(DC):国家科学院出版社(美国);2019.
Yanez ND, Weiss NS, roand J, Treggiari MM.老年男性和女性的COVID-19死亡风险。BMC公共卫生2020年11月19日;20(1):1742 [免费的全文] [CrossRef] [Medline］
王宏，王晓东，王晓东。2019冠状病毒病疫情下的老年精神病学。Int psychergerr 2020 Oct;32(10):1101-1105 [免费的全文] [CrossRef] [Medline］
Albert MS, DeKosky ST, Dickson D, Dubois B, Feldman HH, Fox NC，等。阿尔茨海默病引起的轻度认知障碍的诊断:国家老龄研究所-阿尔茨海默病协会工作组关于阿尔茨海默病诊断指南的建议。阿尔茨海默痴呆2011 5;7(3):270-279 [免费的全文] [CrossRef] [Medline］
福尔斯坦MF，福尔斯坦SE，麦克休PR。“心理状态”。一种临床医生对患者认知状态进行分级的实用方法。《精神病学杂志》1975年11月12(3):189-198。［CrossRef] [Medline］
莫里斯JC。临床痴呆分级(CDR):当前版本和评分规则。神经学1993年11月,43(11):2412 - 2414。［CrossRef] [Medline］
McNeil MR, Doyle PJ, Fossett TR, Park GH, Goda AJ。故事复述过程的信息单元评分指标的信度和并发效度。失语症2010年9月10日;15(10-11):991-1006。［CrossRef］
韦氏临床用标准化记忆量表。心理学杂志1945年1月19日(1):87-95。［CrossRef］
WMS-III技术手册(韦氏成人智力量表&韦氏记忆量表)。圣地亚哥，加利福尼亚州，美国:Harcourt Brace & Company;1997.
韦氏成人智力量表修订版。圣安东尼奥，德克萨斯州:心理公司;1981.
Grober E, Ocepek-Welikson K, Teresi JA。免费和提示选择性提醒测试:心理测量充分性的证据。心理科学Q 2009;51(3):266-282 [免费的全文］
语音识别。谷歌云。URL:https://cloud.google.com/speech-to-text[2022-06-07]访问
Lhoest Q, del MA, Jernite Y, Thakur A, von PP, Patil S.数据集:自然语言处理的社区库。arXiv 2021。［CrossRef］
Devlin J, Change M, Lee K, Toutanova K. BERT:深度双向变形的语言理解预训练。arXiv 2019。［CrossRef］
Rice ME, Harris GT.比较后续研究中的效应大小:ROC区域，Cohen的d和r定律Hum Behav 2005年10月29日(5):615-620。［CrossRef] [Medline］
学AJ。实用诊断准确性研究中认知筛选工具的效应大小(Cohen’s d)。Dement Geriatr Cogn Dis Extra 2014 5月;4(2):236-241 [免费的全文] [CrossRef] [Medline］
Edgar CJ, Siemers E, Maruff P, Petersen RC, Aisen PS, Weiner MW，阿尔茨海默病神经成像计划。ADNI-2中无监督的家庭cogstate简短电池的试点评估。中华老年痴呆症杂志2021;83(2):915-925 [免费的全文] [CrossRef] [Medline］
Gavett BE, Gurnani AS, Saurman JL, Chapman KR, Steinberg EG, Martin B，等。老年人神经心理评估中练习对故事记忆和列表学习测试的影响PLoS One 2016;11(10):e0164492 [免费的全文] [CrossRef] [Medline］
Duff K，阿尔茨海默氏症神经成像计划。ADNI中的遗忘性MCI:可能记忆障碍还不够?神经学2021年8月2日595-596。［CrossRef] [Medline］
Gross AL, Inouye SK, Rebok GW, Brandt J, Crane PK, Parisi JM，等。平行但不等同:随着时间的推移对认知的重复评估的挑战和解决方案。中华神经科杂志2012;34(7):758-772 [免费的全文] [CrossRef] [Medline］
Papp KV, Samaroo A, Chou H, Buckley R, Schneider OR, Hsieh S，等。用于临床前阿尔茨海默病的无监督移动认知测试老年痴呆症(Amst) 2021;13(1):e12243 [免费的全文] [CrossRef] [Medline］
麦金瑞，罗德斯，英赛尔，诺申，芬利，阿什福德，等。基于家庭的语音识别学习记忆自我管理计算机测试信度和效度。Neuropsychol Dev Cogn B Aging Neuropsychol Cogn 2021 Jun 17:1-15。［CrossRef] [Medline］
布施RM，霍格O，弗格森L，帕森斯MW，库布CS，弗洛登DP。在不同临床样本中进行神经心理学评估的计算机情景记忆测量的验证。clinin Neuropsychol 2019 Apr;33(3):557-570 [免费的全文] [CrossRef] [Medline］
Sabbagh MN, Boada M, Borson S, Chilukuri M, Doraiswamy PM, Dubois B，等。新兴数字技术支持的轻度认知障碍(MCI)早期诊断的基本原理。中华老年痴呆症杂志2020;7(3):158-164。［CrossRef] [Medline］
Martínez-Nicolás我，略伦特TE, Martínez-Sánchez F, Meilán JJ。对阿尔茨海默病和轻度认知障碍患者进行自动语音和语音分析的十年研究:一篇系统综述文章。Front Psychol 2021;12:620251 [免费的全文] [CrossRef] [Medline］
Roark B, Mitchell M, Hosom J, Hollingshead K, Kaye J.检测轻度认知障碍的口语衍生方法。IEEE Trans Audio Speech Lang Process 2011年9月01;19(7):2081-2090 [免费的全文] [CrossRef] [Medline］
Foldi NS。掌握窍门:优先记住要点，而不是逐字复述故事，注意能力和情景缓冲在阿尔茨海默病中的作用。中华神经精神科学杂志2011年1月17(1):69-79。［CrossRef] [Medline］
Mueller KD, Koscik RL, Du L, Bruno D, Jonaitis EM, Koscik AZ，等。在认知功能未受损、有患阿尔茨海默病风险的成年人中，故事中的专有名称与β -淀粉样蛋白有关。Cortex 2020 Oct;131:137-150 [免费的全文] [CrossRef] [Medline］
德拉蒙德C，库蒂尼奥G，冯塞卡RP, Assunção N，特尔德斯基A，德奥利维拉-苏扎R，等。由视觉刺激引起的叙事话语缺陷在轻度认知障碍患者中已经存在。老龄神经科学2015;7:96 [免费的全文] [CrossRef] [Medline］

‎

广告:阿尔茨海默病

ASRT:自动回忆故事任务

CDR:临床痴呆评定量表

CDR-SB:临床痴呆评分量表-箱和

铜:认知未受损伤的

G-match:广义匹配

LM:逻辑内存

MCI:轻度认知障碍

患者:细微精神状态检查

PACC5:临床前阿尔茨海默症认知合成与语义加工

回答:词错误率

梁涛、王杰编辑;提交07.02.22;Au R、Lui G的同行评议;对作者04.06.22的评论;修订版收到07.07.22;接受13.07.22;发表30.09.22

©Caroline Skirrow, Marton Meszaros, Udeepa Meepegama, Raphael Lenain, Kathryn V Papp, Jack Weston, Emil Fristed。最初发表于JMIR Aging (https://aging.www.mybigtv.com)， 30.09.2022。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是原始作品首次发表在《JMIR Aging》上，并被适当引用。必须包括完整的书目信息，https://aging.www.mybigtv.com上的原始出版物链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

远程和全自动故事回忆任务评估老年人早期认知障碍的有效性:纵向病例对照观察研究