JMIR心理健康-评估会话人工智能在老年人压力和焦虑治疗中的影响:随机对照试验

原始论文

¹信号与交互系统实验室，信息科学研究院，Università特伦托研究中心，意大利特伦托波沃

²IDEGO -数字心理学协会，罗马，意大利

通讯作者:

Morena Danieli心理医生

信号与交互系统实验室

信息科学的分支

Università degli Studi di Trento

通过Sommarive 9

特伦托波沃-特伦托，38123

意大利

电话:39 5381237 ext 686

电子邮件:morena.danieli@unitn.it

背景:虽然越来越多的用户可以使用心理健康应用程序，但缺乏关于此类应用程序影响的对照试验。人工智能(AI)授权代理在帮助有认知障碍的成年人时已进行了评估;然而，很少有应用程序适用于仍在积极工作的老年人。这些成年人通常因工作场所的变化而压力很大，相关症状最终会影响他们的生活质量。

摘要目的:我们旨在评估TEO(治疗赋权机会)的贡献，这是一种具有对话AI的移动个人医疗保健代理。TEO通过与患者对话，让患者回忆增加他们焦虑的事件细节，并提供治疗性练习和建议，促进心理健康和福祉。

方法:该研究基于压力和焦虑管理的规范化干预。有压力症状和轻度到中度焦虑的参与者接受了为期8周的远程认知行为疗法(CBT)干预。一组参与者也与特务长进行了互动。参与者都是55岁以上的在职工人。实验组分为:1组，传统治疗;第二组，传统疗法和移动健康制剂;组3，移动健康代理;第4组，没有治疗(分配到等候名单)。在治疗前(T1)、治疗结束时(T2)和治疗后3个月(T3)，使用标准化心理问卷评估与压力相关的症状(焦虑、身体疾病和抑郁)。并于干预前(T1)、中期(T2)、干预结束(T3)、3个月后(T4)分别进行患者健康问卷-8和一般焦虑障碍-7量表的评定。 At the end of the intervention, participants in groups 1, 2, and 3 filled in a satisfaction questionnaire.

结果:尽管是随机的，但在T1时组间存在显著的统计学差异。与第1组相比，第4组的焦虑和抑郁水平较低，压力水平较第2组较低。T2组与T3组比较，结果无明显差异。在组内进行的分析显示，第2组在时间上有显著差异，压力水平和与整体幸福感相关的分数有更大的改善。各组T2与T3间应激水平总体呈恶化趋势，其中2组应激水平明显升高。第二组报告了更高水平的感知有用性和满意度。

结论:在单独使用mHealth应用程序的参与者和在传统CBT设置下的参与者之间没有观察到统计学上的显著差异。然而，结果表明，接受治疗的组之间存在显著差异，并有稳定的改善趋势，这仅限于个人对压力相关症状的感知。

试验注册:ClinicalTrials.gov NCT04809090;https://clinicaltrials.gov/ct2/show/NCT04809090

JMIR Ment Health 2022;9(9):e38067

doi: 10.2196/38067

关键字

精神卫生保健；对话型人工智能；移动健康；移动健康；个人保健代理

背景

与积极老龄化有关的各种问题多年来一直列在世界各国国家机构和卫生机构的议程上。欧洲联盟关于工作场所健康和安全框架指令(89/391/ EEC) [1]表明有必要对身体和社会工作环境进行切实可行的调整，以防止或减少对老龄工人的过度身体和精神要求。许多研究表明，工作场所的高压力是导致与年龄相关的健康风险的一个主要因素，包括心血管疾病、病假、焦虑、抑郁和倦怠综合征[2-5］．因此，如最近的一项系统审查报告所述，已实施了若干干预措施并对其进行了评估，以预防身体疾病和精神障碍，并加强老年雇员的力量[6］．尽管这篇综述并没有只关注年长的工人群体，但它为我们的研究报告了一些有趣的相关发现。根据回顾中出现的适度证据，认知行为疗法(CBT)和压力管理项目有望减少感知压力。然而，这些干预措施的持续性和可持续性是不够的或有限的。

另一项系统性综述分析了为工作场所的数字心理干预提供证据的研究结果[7］．由于职业卫生部门的资源有限和耻辱，作者审查了旨在解决一般工作人口获得精神卫生保健这一众所周知的问题的数字干预措施。在回顾的研究中，形容词“数字化”代表的干预措施的主要交付方式是网站，参与者可以访问不同类型的作业，并在完成作业后通过电子邮件、短信或电话从教练或治疗师那里获得反馈。所有总结的研究都是随机对照试验(rct)，但只有一项研究报告了移动应用程序的数据，没有一项研究提到人工智能(AI)授权的治疗。

以前曾指出，需要方便和大规模的精神卫生保健支助[8并因COVID-19大流行及其后果而恶化[9，10］．越来越多的研究表明，将对话型人工智能系统(也称为聊天机器人)开发为精神卫生领域的应用，可以以简单和廉价的方式改善获得精神卫生保健支持的机会[8，11，12］．尽管传统的面对面治疗仍然是提供支持的最常见框架，但对于压力、焦虑和抑郁等各种精神障碍，对话AI代理已被证明是一种有效的替代方法[8］．特别是，在2019冠状病毒病大流行期间，心理健康治疗的可获得性问题增加了用户对远程治疗的赞赏，从而为视频治疗提供了一个机会，在这个世界上，这些类型的通信代表着新常态[13］．

TEO(治疗赋权机会)是一种移动个人健康护理代理(m-PHA)，旨在为预防和治疗压力和焦虑提供认知行为治疗支持[12］．它是与认知行为疗法治疗师合作设计和开发的[12］．在干预过程中，TEO通过基于文本的对话与用户进行对话。从这些对话中，TEO识别用户的情绪状态、信念和个人事件，并实施由专业人员设计的策略。

客观的

本文讨论的观察性研究旨在评估引入人工智能技术对出现各种压力症状的老年工人的心理治疗的影响，这些症状假设与工作场所中至高水平的感知压力有关。实验方案旨在回答以下问题:(1)人工智能对话技术的使用是否有助于人们的心理健康;(2)接受人工智能对话技术支持与传统心理治疗在减轻症状方面是否存在差异;(3)在比较接受治疗和未接受治疗的人群时，观察到的变化是否不同;(4)与在远程环境下接受心理学家标准课程的一组人相比，是否存在差异。

设计

实验设计包括比较几种不同症状的存在，如焦虑和抑郁，以及通过标准化的自我评估心理问卷测量的心理态度。我们在治疗前(T1)和治疗结束(T2)应用了这些指标。在治疗结束3个月后进行另一次测量，纵向评估疗效(T3)。我们采用的自我评估量表为症状自评量表-90-修订(SCL-90-R)、职业压力指标(OSI)和感知压力量表(PSS)。SCL-90-R是一份自我管理的问卷，评估了广泛的精神病理症状，如抑郁、焦虑、精神病和其他。OSI是一份评估组织中社会心理压力的问卷。PSS是一份用于检测普遍心理应激的简短问卷。此外，在治疗开始(T1)、4周后(T2)、治疗结束(T3)和3个月后(T4)分别进行2份简短版本的患者健康问卷-8 (PHQ-8)和一般焦虑障碍-7 (GAD-7)。PHQ-8是一份包含8个项目的问卷，用于评估和监测抑郁症的严重程度[14]，而GAD-7是一份用于评估和监测广泛性焦虑障碍的简短问卷[15］．

治疗包括实施8周的认知行为心理治疗，特别面向获得压力管理技能。此外，实验设计还包括在基于人工智能的对话代理的持续协助下支持压力管理培训(cbt)的可能性，以用于精神卫生保健(TEO) [12］．实验设计包括四组受试者:第1组在远程环境下接受CBT治疗师的传统心理治疗;2组患者在接受传统治疗的同时，也接受人工智能对话型智能体的支持;组3只得到对话型AI代理的支持;第四组为对照组，不接受任何治疗。被分配到第4组的参与者也被分配到等待名单中，并在实验的8周结束时接受治疗。

IDEGO(数字心理学研究中心，罗马，意大利)进行了心理测量测试和数据分析。RCT的实验设计、训练和AI算法和系统的评估由特伦托大学完成。

伦理批准

在HORIZON2020 CO-ADAPT项目的研究活动背景下，该方法得到了特伦托大学伦理委员会的批准，实验方案已在ClinicalTrials.gov (NCT04809090)上注册。

招聘

我们在2021年春秋季期间收集了这项研究的数据，当时COVID-19大流行的第三波疫情正从该国北部地区开始袭击意大利。由于保持社会距离的措施，传统的招聘策略是不充分或有限的。为了克服这些困难，我们在社交媒体上设计了新的招聘策略，包括吸引人的帖子和图片。比较Facebook和Instagram这两个社交网络的使用统计数据，我们的目标群体中Facebook提供了最高的用户比例(分别为21.3%和11.7%)[16］．这些活动在意大利各地广泛开展，目的是激励人们访问我们的网站[17，并参加我们的研究。该网站包括所有关于研究的信息和一个用户可以请求参与的表格。此外，用户可以询问更多的信息，从而形成一对一的面试来回答所有的问题。为了选择合格的参与者，对每个受试者进行了几份问卷调查和一次临床访谈。排除标准为存在严重抑郁(PHQ-8评分≥20)、自杀念头、药物滥用和轻度认知障碍(蒙特利尔认知评估评分<26)[18］．

参与者

样品的特性在表1．共有65名潜在参与者接受了检查，其中有60人被招募。每个参与者都被分配了一个代码，通过一个随机的数字生成器，所选的受试者被分成4组。分配后，2名受试者(3组1名，4组1名)出现心理健康问题，需要将他们重新分配到1组和2组，以提供更准确的监测，在整个实验过程中，他们可以得到心理支持。其他受试者在实验中表现出批判性的一面，他们被引导到标准的心理支持服务中。随后，这些受试者被排除在分析之外(图1)．只考虑了45名受试者进行分析。第1组男性占27%(4/15)，女性占73%(11/15)，平均年龄54.08岁(SD 4.11;平均年龄54岁。第二组男性占17%(2/12)，女性占83%(10/12)，平均年龄55.17岁(SD 3.69);平均年龄55岁。第三组男性占25%(2/8)，女性占75%(6/8)，平均年龄55.63 (SD 4.50;中位数55.5)年。4组男性占20%(2/10)，女性占80%(8/10)，平均年龄57.20岁(SD 7.96;平均60年。

表1。样本特征(N=45)。

特征		价值
年龄(年)，平均值(SD)		55.58 (5.08)
性别，n (%)
	男性	10 (22)
	女	35 (78)
组，n (%)
	组1	15 (33)
	组2	12 (27)
	组3	8 (18)
	组4	10 (22)
正规教育，n (%)
	中学	4 (9)
	高中	14 (31)
	学位	16 (36)
	硕士或博士学位	2 (4)
	其他	9 (20)
婚姻状况，n (%)
	单	6 (13)
	同居	2 (5)
	结婚了	21 (47)
	分离	15 (33)
	鳏夫	1 (2)

图1。CONSORT(报告试验综合标准)图表显示了干预的流程，参与者的登记，他们的治疗分配，他们的随访和数据分析。PHA:个人保健剂;SMT-CBT:压力管理训练-认知行为疗法;T2:治疗结束;T3:治疗后3个月。

张志贤

TEO是一个m-PHA [19，是一种AI对话代理，以移动应用程序的形式，支持通过自然语言与用户进行输入/输出交互。目前为心理健康领域开发的许多PHAs显示，与用户交互的灵活性有限，只有系统导向的交互和预定义的对话流[11］．因此，用户无法控制对话的流程，只能在整个对话过程中遵循系统指令。这些限制导致了肤浅的对话和较弱的用户粘性[8］．

TEO允许用户使用自由形式的自然语言分享他们的思想和情感，并让用户参与针对每个用户的事件的个性化交互。TEO可以在两种类型的对话中吸引用户。对于第一种类型，TEO旨在方便用户编写ABC(激活、信念和结果)笔记。ABC笔记是工作表使用的认知行为疗法治疗师帮助病人识别的激活事件(A)、(B)他们的信仰有关事件,(C)和后果的事件。在计划从用户分享他/她正在经历,张志贤吸引用户在对话,它要求设计的一系列控制问题CBT治疗师和从用户那里收集ABC注意形式的个人叙述的事件和他/她的情绪。对于第二种类型的对话(后续)，TEO通知用户前一天写的ABC笔记，并询问用户对事件的感受，问题是否已经解决，或者用户是否体验到了不同的情绪[20.］．然后，TEO倾向于与用户进行简短的个性化对话，检测用户正在经历的情绪和生活事件的复发[21]，并提供有益的建议，以确保更健康的精神状态。

此外，TEO受益于从治疗师和领域专家收集的治疗建议、推荐和练习的知识库。使用者每周都会根据他们的治疗干预进展收到个性化的提示和锻炼。与TEO的所有互动都在治疗之前每周提供给治疗师，以便治疗师能够就回忆和笔记中所表达的事件和情绪提供必要的支持。

措施

根据Sullivan和Artino的发现[22]关于参数检验与非参数检验在检测小样本间差异方面的能力，采用重复测量方差分析(受试者内部和受试者间混合设计)进行参数分析，以评估时间(T1、T2和T3)与组(组1、组2、组3和组4)之间的差异，以及它们之间的相互作用效应与PSS、SCL-90-R和OSI检验结果相关。多次比较采用Bonferroni平差进行校正。进行了同样的分析phq - 8和GAD-7管理干预前(T1)、中期(T2),结束的时候干预(T3),和3个月后(T4)评估时间之间的差异(T1、T2、T3和T4)和组(组1、组2组3和4)。关于OSI测试,只有少数鳞片被认为是分析,也就是说,那些关于应对策略(社会支持、家庭作业的关系、面向任务的逻辑,时间,和参与)，心理健康和身体健康。

PSS和SCL-90-R结果

通过管理PSS和SCL-90-R试验获得的结果报告在表2．PSS、全球严重程度指数(GSI)、阳性症状总数(PST)、阳性症状痛苦指数(PSDI)、强迫、人际敏感、抑郁量表/亚量表均未违反球形假设;而在敌意和精神质分量表中，假设被违背(多媒体附件1给出了Mauchly测试的结果)。

对于PSS而言，得分越低意味着压力水平越低，幸福感越好。2组间T1(平均22.4，标准误差[SE] 1.97)与T2(平均11.6,SE 2.36)差异有统计学意义(SE 2.52;P<.001)， T2(平均值11.6,SE 2.36)和T3(平均值16.6,SE 1.90) (SE 1.80;PT1(平均值22.4,SE 1.97)和T3(平均值16.6,SE 1.90)之间(SE 2.01;P= .02点;表2)．进一步的组间时间比较显示T1时组间有显著差异(F_{3, 32}= 3.34;P= .03点;η²p=0.24)，特别是第2组(平均22.4,SE 1.97)和第4组(平均13.88,SE 2.20) (SE 2.95;P=.04)。

对于SCL-90-R的GSI分量表，较低的值表示较少的心理困扰。2组间T1(平均59.4,SE 2.64)与T2(平均48.9,SE 3.99)差异有统计学意义(SE 2.83;P= .002;表2)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

对于PST分量表，得分越低表明报告的症状越少。2组间T1(平均59.7,SE 2.50)与T2(平均51.9,SE 3.17)差异有统计学意义(SE 2.24;P= 04;表2)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

对于PSDI子量表，得分越低表示痛苦强度越低。2组间T1(平均57,SE 2.51)与T2(平均45.1,SE 3.94)差异有统计学意义(SE 3.37;P= 04;表2)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

对于强迫症亚量表，得分越低表示症状症状越少。2组间T1(平均57.6,SE 2.29)与T2(平均47.9,SE 3.53)差异有统计学意义(SE 3.02;P= .009;表2)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

在人际关系超敏感量表中，得分越低表示不充分感和自卑感的存在越少。2组间T1(平均54.9,SE 2.05)与T2(平均48,SE 2.36)差异有统计学意义(SE 2.21;P= . 01;表2)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

在抑郁量表中，得分越低表明抑郁症状越少。2组间T1(平均63.1,SE 3.29)与T2(平均51.8,SE 4.79)差异有统计学意义(SE 3.58;P= . 01;表2)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

在敌意分量表中，得分越低表明与愤怒相关的个人特征越少。2组间T1(平均57.6,SE 4.22)与T2(平均45.4,SE 2.21)差异有统计学意义(SE 4.49;P= .03点;表2)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

在精神质亚量表中，得分越低表示孤立倾向越少，症状的存在也越少。2组间T1(平均56.7,SE 3.29)与T2(平均50.2,SE 3.58)差异有统计学意义(SE 2.18;P= .02点;表2)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

躯体化、焦虑、恐惧焦虑和偏执思维(PAR)分量表的结果显示在多媒体附件1．

表2。重复测量方差分析对感知压力量表和症状检查表-90修正检验时间和组间差异的参数分析。

量表/亚量表和分组^一个			时间^b						F（df）		P价值		η²p
			T1，平均值(SD)		T2，均值(SD)		T3，平均值(SD)
PSS^c分数
	组1	21.17 (6.24)		15.58 (7.81)		16.92 (5.45)		3.22 (31)		.053		0.17
	组2	22.40 (5.66)		11.60 (5.85)		16.60 (6.29)		8.95 (31)		<措施		0.37
	组3	21.50 (8.17)		14.00 (9.38)		18.67 (7.53)		2.86 (31)		07		0.16
	组4	13.87 (5.19)		14.63 (7.15)		15.13 (5.25)		0.17 (31)		.85		0.01
助教^d
	组1	58.42 (11.47)		56.33 (18.73)		53.17 (12.58)		2.16 (31)		13。		0.12
	组2	59.40 (5.72)		48.90 (7.36)		54.70 (11.31)		6.77 (31)		04		0.30
	组3	54.67 (6.89)		48.83 (6.59)		50.50 (9.89)		1.44 (31)		二十五分		0.09
	组4	53.25 (6.07)		49.88 (8.74)		51.50 (9.47)		0.57 (31)		.57		0.04
太平洋标准时间^e分数
	组1	57.00 (9.41)		54.92 (11.99)		53.50 (11.97)		1.10 (31)		.35点		0.07
	组2	59.70 (6.38)		51.90 (9.21)		55.00 (12.24)		5.97 (31)		.006		0.28
	组3	56.00 (9.10)		48.67 (8.04)		50.50 (9.94)		3.14 (31)		.057		0.17
	组4	56.88 (5.99)		51.63 (8.91)		53.13 (9.75)		2.14 (31)		.14点		0.12
PSDI^f
	组1	57.08 (10.25)		53.00 (16.83)		51.75 (9.96)		1.90 (31)		。		0.11
	组2	57.00 (8.49)		45.10 (6.59)		51.60 (9.57)		6.49 (31)		04		0.30
	组3	53.00 (4.73)		53.00 (14.99)		49.33 (9.48)		0.33 (31)		开市		0.02
	组4	48.75 (3.88)		46.88 (7.00)		48.50 (8.19)		0.12 (31)		.89		0.01
躯体化分数
	组1	57.25 (15.02)		53.83 (21.91)		52.83 (15.12)		1.15 (31)		.33		0.07
	组2	55.90 (10.96)		47.30 (7.43)		49.60 (8.75)		2.99 (31)		06		0.16
	组3	49.67 (6.65)		45.83 (6.37)		42.83 (3.87)		1.40 (31)		点		0.08
	组4	51.38 (8.78)		50.50 (8.33)		50.88 (8.63)		0.02 (31)		.98点		0．00
Obsessiveness-compulsiveness得分
	组1	56.83 (8.62)		56.00 (15.58)		54.75 (11.34)		0.34 (31)		开市		0.02
	组2	57.60 (7.04)		47.90 (7.91)		53.50 (11.08)		4.99 (31)		. 01		0.24
	组3	55.83 (7.63)		51.67 (7.03)		50.67 (11.24)		1.13 (31)		点		0.07
	组4	53.38 (4.21)		51.00 (8.47)		51.88 (8.06)		0.26 (31)		尾数就		0.02
人际敏感度得分
	组1	52.25 (6.11)		48.67 (7.23)		50.17 (10.47)		1.53 (31)		23)		0.09
	组2	54.90 (6.33)		48.00 (6.60)		51.60 (11.46)		4.71 (31)		02		0.23
	组3	53.67 (8.43)		45.83 (5.31)		52.33 (9.07)		3.87 (31)		03		0.20
	组4	53.88 (5.57)		49.50 (9.84)		52.63 (15.90)		1.55 (31)		23)		0.09
抑郁得分
	组1	59.25 (12.13)		57.67 (22.76)		55.67 (11.26)		0.72 (31)		50		0.04
	组2	63.10 (9.79)		51.80 (9.46)		56.60 (13.13)		5.34 (31)		. 01		0.26
	组3	55.33 (9.27)		48.17 (7.63)		54.00 (13.23)		1.19 (31)		收		0.07
	组4	54.63 (8.86)		52.13 (8.86)		51.88 (9.03)		0.36 (31)		2		0.02
焦虑得分
	组1	56.92 (13.59)		57.50 (23.62)		53.50 (10.37)		0.89 (31)		点		0.05
	组2	56.50 (11.57)		47.80 (5.45)		54.10 (9.61)		2.27 (31)		点		0.13
	组3	55.83 (6.94)		51.33 (8.57)		52.67 (11.29)		0.48 (31)		.62		0.03
	组4	50.75 (5.31)		46.00 (6.16)		48.38 (6.78)		0.59 (31)		56		0.04
敌意的分数
	组1	47.50 (17.58)		48.33 (7.05)		47.33 (8.69)		0.12 (31)		.89		0.01
	组2	57.60 (14.52)		45.40 (3.69)		48.80 (7.90)		4.12 (31)		03		0.21
	组3	53.50 (7.99)		49.83 (9.33)		52.00 (8.90)		0.39 (31)		.68点		0.03
	组4	51.75 (3.28)		46.88 (8.08)		48.63 (6.50)		0.60 (31)		56		0.04
恐惧焦虑评分
	组1	51.58 (11.02)		57.67 (21.64)		50.50 (9.56)		2.25 (31)		点		0.13
	组2	50.00 (16.67)		50.60 (6.02)		56.30 (11.38)		2.38 (31)		厚		0.13
	组3	48.83 (5.14)		45.67 (3.14)		44.83 (1.60)		0.34 (31)		开市		0.02
	组4	48.50 (5.43)		48.38 (5.34)		50.00 (10.92)		0.13 (31)		多多		0.01
偏执思维得分
	组1	59.92 (10.98)		52.33 (11.76)		53.92 (13.07)		6.58 (31)		04		0.30
	组2	54.20 (9.66)		49.50 (7.82)		54.90 (15.42)		3.49 (31)		.04点		0.18
	组3	56.50 (10.77)		46.83 (4.96)		48.83 (7.14)		5.35 (31)		. 01		0.26
	组4	52.25 (8.80)		45.25 (7.44)		50.63 (11.41)		4.57 (31)		02		0.23
精神质得分
	组1	56.50 (12.75)		54.67 (15.20)		49.67 (8.79)		3.17 (31)		06		0.17
	组2	56.70 (9.56)		50.20 (8.87)		57.20 (12.64)		4.41 (31)		02		0.22
	组3	48.33 (6.15)		48.17 (6.01)		48.33 (7.47)		0.00 (31)		>。		0．00
	组4	52.63 (9.74)		52.88 (9.75)		52.38 (12.42)		0.01 (31)		获得		0．00

^一个1组仅采用传统疗法;第2组既接受传统治疗，又接受人工智能对话代理的支持;第3组只得到一个可对话的人工智能代理的支持;4组不作任何处理(对照组)。

^bT1为治疗前，T2为治疗结束时，T3为治疗结束后3个月。

^cPSS:感知压力量表。

^dGSI:全球严重性指数。

^ePST:阳性症状总数。

^fPSDI:阳性症状痛苦指数。

OSI的结果

OSI的主要结果在表3．在任务导向、逻辑、心理健康和身体健康分量表中，球形假设未被违反(多媒体附件1给出了Mauchly测试的结果)。

在任务导向量表中，较低的分数表示关键。2组间T1(平均5.2,SE 0.56)与T2(平均6.9,SE 0.55)差异有统计学意义(SE 0.62;P= .04点;表3)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

表3。重复测量方差分析对职业压力量表时间和组间差异的参数分析。

亚量表和组^一个		时间^b				F（df）		P价值		η²p
		T1，平均值(SD)	T2，均值(SD)	T3，平均值(SD)
社会支持评分
	组1	7.13 (1.73)	6.50 (2.62)	5.88 (2.85)	1.57 (18)		。		0.15
	组2	5.20 (2.15)	6.10 (1.85)	6.10 (2.77)	1.68 (18)		. 21		0.16
	组3	5.00 (3.00)	5.00 (1.73)	5.33 (3.79)	0.07 (18)		公布		0.01
	组4	7.00 (2.83)	7.50 (2.12)	7.50 (0.71)	0.10 (18)		.90		0.01
面向任务的分数
	组1	5.25 (1.98)	5.88 (2.30)	5.50 (3.12)	0.40 (18)		正		0.04
	组2	5.20 (1.55)	6.90 (1.45)	6.70 (2.50)	3.97 (18)		.04点		0.31
	组3	6.33 (1.16)	5.33 (0.58)	4.33 (3.06)	1.16 (18)		点		0.11
	组4	7.00 (2.83)	6.00 (0.00)	7.00 (1.41)	0.33 (18)		开市		0.04
家庭与工作关系得分
	组1	6.63 (1.69)	7.00 (1.07)	5.75 (1.58)	2.12 (18)		酒精含量		0.19
	组2	5.80 (1.32)	6.30 (1.64)	7.00 (1.33)	1.93 (18)		。		0.18
	组3	6.33 (2.08)	5.00 (1.73)	6.67 (2.52)	1.56 (18)		。		0.15
	组4	8.00 (1.41)	7.50 (0.71)	8.50 (0.71)	0.33 (18)		开市		0.04
逻辑分
	组1	3.88 (1.64)	5.63 (2.50)	4.63 (2.33)	5.48 (18)		. 01		0.38
	组2	5.20 (1.81)	5.20 (1.75)	5.10 (2.08)	0.02 (18)		获得		0．00
	组3	6.00 (1.00)	5.00 (0.00)	3.33 (2.52)	2.50 (18)		厚		0.22
	组4	6.00 (1.41)	6.00 (2.83)	6.00 (0.00)	0.00 (18)		>。		0．00
一次分数
	组1	4.63 (2.13)	4.63 (2.26)	4.25 (1.75)	0.15 (18)		.86		0.02
	组2	5.00 (2.00)	6.00 (1.83)	5.70 (2.45)	1.62 (18)		23)		0.15
	组3	4.33 (1.16)	5.33 (2.08)	4.67 (1.53)	0.57 (18)		.57		0.06
	组4	6.00 (4.24)	7.00 (2.83)	7.00 (1.41)	0.33 (18)		开市		0.04
参与评分
	组1	5.25 (1.58)	6.50 (1.31)	5.13 (1.81)	1.79 (18)		.20		0.17
	组2	5.70 (2.31)	6.70 (1.57)	6.00 (2.21)	1.16 (18)		点		0.11
	组3	6.33 (1.16)	6.00 (1.00)	6.00 (2.65)	0.06 (18)		.95		0.01
	组4	7.50 (2.12)	6.50 (4.95)	7.50 (0.71)	0.26 (18)		.77点		0.03
心理健康评分
	组1	6.00 (2.98)	5.13 (2.59)	5.75 (1.67)	0.70 (18)		.51		0.07
	组2	4.50 (2.01)	3.00 (2.00)	5.10 (3.32)	6.70 (18)		.007		0.43
	组3	4.33 (3.06)	3.33 (2.52)	5.00 (3.61)	1.27 (18)		。31		0.12
	组4	2.00 (1.41)	2.00 (1.41)	1.00 (0.00)	0.42 (18)		正		0.04
身体健康评分
	组1	6.75 (2.87)	5.75 (2.05)	5.75 (1.28)	0.90 (18)		点		0.09
	组2	7.60 (1.90)	5.70 (2.00)	5.50 (2.99)	4.17 (18)		03		0.32
	组3	6.00 (3.00)	4.67 (2.52)	5.33 (4.16)	0.61 (18)		55		0.06
	组4	4.50 (2.12)	3.00 (1.41)	7.50 (3.54)	2.70 (18)		.09点		0.23

^bT1为治疗前，T2为治疗结束时，T3为治疗结束后3个月。

对于逻辑分量表，较低的分数表示临界。组内不同时间间T1与T2差异有统计学意义(均值3.88,SE 0.59)(均值5.63,SE 0.72) (SE 0.52;P= . 01;表3)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

在心理健康分量表中，得分越低表示心理健康水平越高。2组间T2(均值3.0,SE 0.72)与T3(均值5.1,SE 0.87)差异有统计学意义(SE 0.56;P= 04;表3)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

就身体健康分表而言，得分越低表明身体健康水平越高。2组间T1(平均7.6,SE 0.77)与T2(平均5.7,SE 0.65)差异有统计学意义(SE 0.66;P= .03点;表3)．两组之间在时间内进行的进一步比较没有突出任何显著差异。

社会支持、家庭工作关系、时间和投入分量表的结果显示在多媒体附件1．

PHQ-8和GAD-7结果

PHQ-8和GAD-7的主要结果在表4．在PHQ-8测试中，得分越低表示抑郁程度越低。唯一显著的差异是T1时两组间的差异(F_3、31日= 3.85;P= .02点;η²p=0.27)，特别是第1组(平均9.42,SE 1.16)和第4组(平均3.43,SE 1.51) (SE 1.91;P= .02点)。

在GAD-7测试中，得分越低表明广泛性焦虑水平越低。组内T1(平均9.5,SE 1.21)与T4(平均4.83,SE 1.1)差异有统计学意义(SE 1.24;P= 04;表4)．此外，组间时间内的比较显示T1时组间有显著差异(F_3、31日= 3.53;P= .03点;η²p=0.25)，特别是第1组(平均9.5,SE 1.21)和第4组(平均3.14,SE 1.58) (SE 1.99，P= .02点)。

时间与群体交互作用的PSS、SCL-90-R、OSI、PHQ-8、GAD-7结果均在多媒体附件1．

表4。重复测量方差分析对患者健康问卷-8和一般焦虑障碍-7的时间和组间差异的参数分析。

规模/组^一个			时间^b								F（df）		P价值		η²p
			T1，平均值(SD)		T2，均值(SD)		T3，平均值(SD)		T4，平均值(SD)
phq - 8^c分数
	组1	9.42 (4.89)		7.50 (4.76)		7.58 (5.58)		5.83 (4.95)		3.17 (29)		.04点		０．２５
	组2	6.30 (4.72)		6.70 (5.14)		5.60 (5.10)		6.70 (5.74)		0.52 (29)		正		0.05
	组3	4.83 (2.14)		5.50 (5.36)		5.17 (4.02)		4.50 (3.56)		0.10 (29)		.96点		0.01
	组4	3.43 (1.40)		5.00 (2.71)		5.43 (2.64)		3.14 (1.46)		0.90 (29)		。45		0.09
GAD-7^d分数
	组1	9.50 (5.23)		8.00 (6.67)		7.08 (5.14)		4.83 (4.02)		4.45 (29)		. 01		0.32
	组2	7.10 (3.64)		5.70 (2.45)		4.50 (2.76)		5.80 (3.80)		1.19 (29)		.33		0.11
	组3	6.00 (4.43)		5.67 (6.25)		5.00 (4.86)		4.50 (4.76)		0.25 (29)		.86		0.03
	组4	3.14 (2.04)		4.43 (1.72)		5.14 (1.77)		2.57 (2.23)		1.16 (29)		点		0.11

^bT1为治疗开始，T2为4周后，T3为治疗结束，T4为治疗3个月后。

^cPHQ-8:患者健康问卷-8。

^dGAD-7:一般焦虑障碍-7。

参与者的反馈

在治疗结束时，通过本研究设计的满意度问卷收集所有参与者的反馈。对于问卷的每个项目，用户被要求用李克特五分制表示他们的同意程度，从1(非常不同意)到5(非常同意)。为了评估所有组的满意度，问卷的一个项目询问用户是否对所接受的治疗总体满意。以同样的方式，为了评估有效性，他们被问及是否觉得治疗是有用的。满意度和感知有用性的一般结果显示在表5．

除了针对所有组的一般性问题外，还提出了一些具体的问题，以评估能够与TEO互动的参与者(即第2组和第3组)的体验，重点是参与者与会话代理的体验。结果显示在表6．“易于使用”是指与TEO交互的容易程度，“有用性”是指应用程序的感知有用性。“个人使用”是为了调查，如果会话代理在应用商店(iOS或Android)上可用，用户是否会使用它(使用问题“如果TEO在Android/iOS商店可用，你会为个人使用而使用/下载它吗?”)。采用单因素方差分析(one-way ANOVA)进行统计分析，评估上述变量在组间是否存在显著差异。没有发现显著性。具体结果报告在多媒体附件1．

表5所示。治疗的满意度和感知效用。

变量	组1^一个	组2^b	组3^c
满意度得分，平均值(SD)	4.21 (0.89)	4.54 (0.66)	4.29 (0.76)
有用性得分，平均值(SD)	4.21 (0.89)	4.69 (0.63)	4.29 (0.76)

^一个1组仅接受传统治疗。

^b第二组既接受传统治疗，又接受人工智能对话代理的支持。

^c第3组只得到了一个可对话的人工智能代理的支持。

表6所示。参与者对移动个人健康护理代理交互的自我评估。

变量	组2^a、b	组3^a、c
易于使用的得分，平均值(SD)	3.62 (1.04)	3.43 (1.40)
有用性得分，平均值(SD)	3.38 (0.87)	3.29 (1.38)
个人使用评分，平均值(SD)	3.77 (1.09)	3.14 (1.77)

^一个所有报告的数值代表组得分的平均值。

^b第二组既接受传统治疗，又接受人工智能对话代理的支持。

^c第3组只得到了一个可对话的人工智能代理的支持。

主要研究结果

由于每组被试人数较少，我们讨论了关于组间差异和组内时间差异的结果。统计学分析显示组间差异有统计学意义:T1时，组2和组4在PSS上有差异，组1和组4在GAD-7和PHQ-8量表上有差异。更具体地说，第2组报告的压力水平高于第4组，第1组报告的焦虑水平高于第4组，第1组报告的抑郁水平高于第4组。虽然进行了组的随机化(在方法部分的参与者小节中解释)，GAD-7、PSS和PHQ-8量表的T1差异可能是由于样本量减少和来自意大利不同地理区域的受试者组的不均匀分布，如表7．总体而言，所有组的几乎所有量表都呈恶化趋势(表2而且3.)在T2和T3之间，尽管它似乎不显著。当我们将与一些受试者的访谈和意大利COVID-19流行病学统计数据进行比较时，我们可以观察到COVID-19阳性病例的增加，以及在总体稳定几个月后从参与者收集T3统计数据时，对病毒Delta变体产生的普遍担忧。这可能是从T2到T3观察到的整体恶化的原因。

表7所示。样品按照意大利的区域(北部、中部和南部)分布。

区	集团^一个， n (%)					合计(N=45)， N (%)
	第一组(n=15)	第二组(n=12)	第三组(n=8)	第四组(n=10)
北	1 (6.7)	4 (33.3)	2 (25.0)	0 (0.0)	7 (15.6)
中心	12 (80.0)	6 (50.0)	6 (75.0)	9 (90.0)	33 (73.3)
南	2 (13.3)	2 (16.7)	0 (0.0)	1 (10.0)	5 (11.1)

在每组中分别进行的分析表明，在第二组中，时间之间有许多显著的差异。总而言之，第2组在PSS, GSI, PST, PSDI，强迫，人际超敏感，抑郁，敌意和精神病评分(表2)，以及任务导向、心理健康和身体健康评分(表3)．尽管第2组PSS有明显改善，但在T2和T3之间，PSS明显恶化，T3时应力有所增加，但低于T1时。在OSI问卷的心理健康量表中，与压力相关的心理症状也在恶化表3如上图所示)。尽管从T2到T3阶段的PSS和心理健康(OSI)分数显著恶化，但身体健康(OSI)分数得到了改善。这可能表明，第2组的受试者更容易受到突然变化的影响，也就是说，在他们居住的T3地区(特别是在意大利北部)，可能会增加心理压力的传染病病例增加。然而，其他量表的结果表明，生活在该地理区域的参与者可以充分应对covid -19相关担忧的增加，而不会出现更高水平的与压力相关的身体症状。

第3组报告T2和T3之间SCL-90-R问卷的人际过敏和PAR量表得分有显著改善表2)．第1组的PAR改善(表2)，逻辑(表3)和GAD-7 (表4)得分。此外，第4组的PAR得分在不同时间之间有显著改善(表2)．在第3组中，有几个人撤回了参加的同意。其中，2人因出现组织问题撤回了同意，2人因对对话AI代理的期望过高而未能维持而撤回同意。他们认为，与他们所认为的好处相比，参与这项研究是浪费时间。

为了解用户体验而执行的反馈问卷显示，第2组比其他组(即心理支持和移动健康[mHealth]代理的使用)体验到更高的满意度和感知所接受治疗的有效性表5．此外，对比2组和3组，2组的参与者表现出了与TEO互动的更容易，他们发现TEO比3组(即在没有人类心理支持的情况下与对话AI agent互动的组)更有用。事实上，“个人使用”分数显示，第二组参与者更倾向于使用TEO。

每个组都有一些具体的问题，以探索一些预期。在第1组中，目的是了解用户是否会接受或认为使用移动健康应用程序与传统治疗相结合是有用的。结果显示得分为3.07。在第3组中，目的是了解用户是否会接受或认为使用移动健康应用程序与传统治疗相结合是有用的。结果是4.57分。总的来说，考虑到使用移动健康应用程序的第3组参与者有更高的期望，我们发现了与传统治疗与移动健康应用程序相结合的积极预期。在第二组，目的不是了解预期，而是了解使用移动健康应用程序促进传统治疗的效果。结果是3.93分。

总之，这些结果表明，以人际接触为特征的心理治疗，加上聊天移动健康代理，将在满意度和有效性方面提高治疗的影响。

在评估这些结果时需要考虑的另一个方面是，如方法部分所述，该实验是在意大利第三波COVID-19大流行期间进行的。我们的结果表明，尽管这一事件对参与者的压力水平和总体心理健康有影响，但观察到的和感知到的改善随着时间的推移在身体压力相关症状的减少方面保持不变。

限制

在招募过程中，参与本研究的积极参与者数量较少，这可能会削弱推论和结论。此外，虽然招聘活动是通过社交媒体平台进行的，覆盖了意大利所有地区，但我们的大多数参与者来自意大利中部。研究对象主要是女性，而女性比男性更倾向于寻求心理帮助这一事实此前也有研究。23，24］．然而，观察到的性别优势削弱了对两性所作推论的泛化。

结论

本研究的目的是评估在心理干预中引入基于人工智能的移动健康应用程序可能带来的改善，旨在减少老年工人与压力相关的身体和心理症状。我们进行了不同的标准心理测试，以测量感知压力、广泛性焦虑和抑郁的水平，以及其他心理维度。我们无法观察到单独使用移动健康应用程序的参与者与在传统心理治疗背景下使用该应用程序的参与者之间在统计上的显著差异。相反，我们可以观察到组内显著差异，接受治疗的受试者有所改善。此外，我们观察到，在由人类治疗师和移动健康会话代理支持的参与者中，他们的满意度和对有用性的主观感知水平更高。

致谢

导致目前结果的研究获得了欧盟H2020规划的资助，资助协议为826266:COADAPT。

利益冲突

没有宣布。

‎

多媒体附件1

补充的结果。

DOCX文件，26 KB

‎

多媒体附件2

财团电子健康检查表(v1.6.1)。

PDF档案(adobepdf档案)，1219kb

《欧盟的职业安全和健康:回归基础》。在:Vanhercke B, Natali D, Bouget D，编辑。欧盟的社会政策:2016年的现状。布鲁塞尔:欧洲工会研究所和欧洲社会观察所;2017:131 - 155。
Varianou-Mikellidou C, Boustras G, Dimopoulos C, Wybo J, Guldenmund FW, Nicolaidou O，等。在劳动力老龄化背景下的职业健康和安全管理。安全科学2019 7月;116:231-244。［CrossRef］
Lecca L, Campagna M, Portoghese I, Galletta M, Mucci N, Meloni M，等。飞行后勤工作人员的工作压力、健康与心血管风险:一项观察性研究。国际环境与公共卫生2018年9月07;15(9):1952 [免费全文] [CrossRef] [Medline］
Götz S, Hoven H, Müller A, Dragano N, Wahrendorf m全职雇员压力工作和疾病缺勤之间的年龄差异:来自德国社会经济小组的证据。2018年5月28日;91(4):479-496 [免费全文] [CrossRef] [Medline］
张敏，张晓燕，张晓燕。工作压力与冠心病的关系:基于工作压力、努力-回报平衡和组织公平模型的前瞻性研究综述。JAHA 2018 5月;7(9):a。［CrossRef］
皮珀C, Schröer S，埃勒茨AL.工作场所干预的证据-系统评价的系统评价。2019年9月23日;16(19):3553 [免费全文] [CrossRef] [Medline］
carol S, Harris PR, Cavanagh K.改善员工福利和有效性:基于网络的工作场所心理干预的系统回顾和元分析。J Med Internet Res 2017 7月26日;19(7):e271 [免费全文] [CrossRef] [Medline］
Abd-Alrazaq AA, Alajlani M, Ali N, Denecke K, Bewick BM, Househ M.患者对心理健康聊天机器人的认知和意见:范围审查。J Med Internet Res 2021年1月13日;23(1):e17828 [免费全文] [CrossRef] [Medline］
Molodynski A, McLellan A, Craig T, Bhugra D. COVID对英国的精神卫生保健意味着什么?国际社会精神病学2021年11月10日;67(7):823-825 [免费全文] [CrossRef] [Medline］
Rossi R, Socci V, Talevi D, Mensi S, Niolu C, Pacitti F，等。COVID-19大流行和封锁措施对意大利普通民众的心理健康产生影响。前沿精神病学2020年8月7日;11:790 [免费全文] [CrossRef] [Medline］
Abd-Alrazaq AA, Alajlani M, Alalwan AA, Bewick BM, Gardner P, Househ M.聊天机器人在心理健康中的特征概述:范围审查。Int J Med Inform 2019 Dec;132:103978。［CrossRef] [Medline］
Danieli M, Ciulli T, Mousavi SM, Riccardi G.用于心理健康护理应用程序的会话人工智能代理:参与式设计的评价研究。JMIR Form Res 2021年12月01日;5(12):e30053 [免费全文] [CrossRef] [Medline］
贝里克DM。“新常态”的选择。JAMA 2020年6月02;323(21):2125-2126。［CrossRef] [Medline］
克伦克K，斯皮策RL。PHQ-9:一种新的抑郁症诊断和严重程度测量方法。精神病学年鉴2002年9月01;32(9):509-515。［CrossRef］
Kroenke K, Spitzer RL, Williams JB, Monahan PO, Löwe B.初级保健中的焦虑症:患病率、损害、共病和检测。安实习医学2007年3月06;146(5):317。［CrossRef］
2021年1月意大利的Facebook用户。NapoleonCat统计数据。URL:https://napoleoncat.com/stats/facebook-users-in-italy/2021/01/[2022-03-08]访问
CO-ADAPT。URL:https://www.co-adapt.it/[2022-08-24]访问
Conti S, Bonazzi S, Laiacona M, Masina M, Coralli MV。蒙特利尔认知评估(MoCA)意大利语版:基于回归的规范和等效分数。神经科学2015 Feb 20;36(2):209-214。［CrossRef] [Medline］
面向医疗保健个人代理人。2014年发表于:2014年多模式交互未来研究道路规划研讨会，包括商业机会和挑战;2014年11月16日;土耳其伊斯坦布尔，53-56页。［CrossRef］
穆萨维SM，瑟沃内A，达涅利M，里卡尔迪g，你想告诉我更多吗?生成心理治疗对话的语料库。《第二届医学会话自然语言处理研讨会论文集》，2021年发表于:第二届医学会话自然语言处理研讨会;2021年6月;第1-9页。［CrossRef］
从心理健康领域的个人叙事中提取生活事件的无监督方法。CEUR。URL:http://ceur-ws.org/Vol-3033/paper12.pdf[2022-08-23]访问
Sullivan GM, Artino AR.分析和解释来自李克特量表的数据。J研究生医学教育2013年12月5日(4):541-542 [免费全文] [CrossRef] [Medline］
Sagar-Ouriaghli I, Godfrey E, Bridge L, Meade L, Brown JSL。改善男性心理健康服务的利用:针对寻求帮助的干预措施中的行为改变技术的系统回顾和综合。Am J men Health 2019年10月27日;13(3):1557988319857009-1557988319851286 [免费全文] [CrossRef] [Medline］
Liddon L, Kingerlee R, Barry JA。心理治疗偏好、应对策略和求助诱因的性别差异。中华临床精神病学杂志2018年3月09日;57(1):42-58。［CrossRef] [Medline］

‎

美国广播公司(ABC):激活、信念和结果

人工智能:人工智能

认知行为疗法:认知行为疗法

GAD-7:一般焦虑障碍7

助教:全球严重程度指数

健康:移动健康

m-PHA:移动个人保健代理

OSI:职业压力指示器

票面价值:偏执意念

phq - 8:患者健康问卷-8

PSDI:阳性症状痛苦指数

PSS:感知压力量表

太平洋标准时间:阳性症状合计

个随机对照试验:随机对照试验

sci - 90 r:检查表90修改

SE:标准错误

张志贤:治疗赋权机会

编辑:J Torous;提交17.03.22;K Uludag, M Birk, H Tanaka, M Rampioni同行评议;对作者09.06.22的评论;修订版收到21.07.22;接受23.07.22;发表23.09.22

©Morena Danieli, Tommaso Ciulli, Seyed Mahed Mousavi, Giorgia Silvestri, Simone Barbato, Lorenzo Di Natale, Giuseppe Riccardi。最初发表在JMIR心理健康(https://mental.www.mybigtv.com)， 2022年9月23日。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，但必须适当引用《JMIR心理健康》杂志首次发表的原文。必须包括完整的书目信息，https://mental.www.mybigtv.com/上的原始出版物链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

评估对话人工智能在老年人压力和焦虑治疗中的影响:随机对照试验