JMIR心理健康-使用心理人工智能(Tess)缓解抑郁和焦虑症状:随机对照试验

原始论文

¹美国伊利诺伊州埃文斯顿西北大学

²X2AI公司，旧金山，加州，美国

^3.萨克逊应用科学大学，恩斯赫德，荷兰

*这些作者贡献相同

通讯作者:

Russell Fulmer博士

西北大学

克拉克街633号

埃文斯顿,

美国

电话:1 312 609 5300 ext 699

电子邮件:russell.fulmer@northwestern.edu

背景:需要心理保健的学生面临许多障碍，包括费用、地点、可用性和耻辱。研究表明，计算机辅助疗法和1个会话聊天机器人提供的认知行为疗法(CBT)为治疗抑郁和焦虑提供了一种强度较低、成本效益更高的替代方案。虽然CBT是最有效的治疗方法之一，但应用综合方法与同样有效的治疗后改善有关。随着对负担得起、方便、持久和安全支持需求的增长，综合心理人工智能(AI)提供了可扩展的解决方案。

摘要目的:本研究旨在评估使用综合心理AI Tess来减少大学生自我识别的抑郁和焦虑症状的可行性和有效性。

方法:在这项随机对照试验中，从美国15所大学招募了75名参与者。所有参与者在基线和2 - 4周后(T2)完成了基于网络的调查，包括患者健康问卷(PHQ-9)、广泛性焦虑障碍量表(GAD-7)和积极和消极情绪量表(PANAS)。这两个试验组共由50名参与者组成，随机分为两组，分别在2周(n=24)或4周(n=26)内无限制地接触Tess。只有信息的对照组参与者(n=24)收到了国家精神卫生研究所(NIMH)关于大学生抑郁症的电子书的电子链接，并且只有在研究完成后才被允许访问苔丝。

结果:74名参与者的样本完成了这项研究，测试组的流失率为0%，对照组的流失率低于1%(1/24)。参与者的平均年龄为22.9岁，其中70%的参与者是女性(52/74)，大多数是亚洲人(37/ 74,51%)和白人(32/ 74,41%)。第一组可以无限制地访问苔丝，连续两周每天都要签到。第二组可以无限制地访问苔丝，每两周检查一次，持续四周。只提供信息的对照组提供了NIMH电子书的电子链接。进行多变量协方差分析。我们使用。05的alpha水平进行所有统计检验。结果显示对照组和第1组之间有统计学上的显著差异，如第1组报告的PHQ-9测量的抑郁症状显著减轻(P=.03)，而对照组则没有。在GAD-7测试焦虑症状方面，对照组与测试1组和测试2组之间发现了统计学上的显著差异。第一组(P=.045)和第2组(P=.02)报告焦虑症状显著减轻，而对照组则没有。对照组与第1组的PANAS差异有统计学意义(P=.03)，并表明苔丝确实影响了分数。

结论:这项研究提供了证据，证明人工智能可以作为一种具有成本效益和可获得的治疗剂。尽管整合心理人工智能的设计并不是为了取代训练有素的治疗师的角色，但它已经成为提供支持的可行选择。

试验注册:国际标准随机对照试验号:ISRCTN61214172;https://doi.org/10.1186/ISRCTN61214172。

JMIR Ment Health 2018;5(4):e64

doi: 10.2196 / mental.9782

关键字

人工智能；精神健康服务；抑郁症；焦虑；学生

背景

仅在美国就有约2000万大学生患有精神疾病。1］．超过50%的大学生报告说，在过去的一年里，他们经历了影响日常生活的抑郁和焦虑症状[2］．尽管对临床服务的需求很明显，但高达75%的大学生无法获得足够的心理健康护理[3.］．随着人们对按需服务的需求不断增长，以吸引学生并减少耻辱，基于Web和移动的心理健康干预提供了一种可扩展的解决方案。

心理卫生保健解决方案，如计算机辅助治疗(CAT)已被证明是一种强度较低、成本效益更高的方法，可以提供经验验证的抑郁症和焦虑症治疗[4，5］．虽然传统的面对面治疗仍然是对临床抑郁症患者的标准治疗，但初步研究表明，基于计算机的自助认知和行为干预会产生类似的结果[6，对治疗阈下情绪障碍有效。

此外，一项研究显示，近70%的患者表示有兴趣使用移动健康(mHealth)应用程序来自我监测和自我管理他们的心理健康[7］．早期证据表明，患者在使用移动健康应用程序时比面对面治疗时更容易敞开心扉。8］．有自杀念头的患者使用一款应用程序后，报告使用该应用程序有自杀意念的受试者比使用传统管理的患者健康问卷(PHQ-9)的受试者更多[9］．心理人工智能(AI)提供认知行为疗法(CBT)已被证明是一种可行的、吸引人的、有效的解决方案，可以减少大学生的抑郁和焦虑症状[10-12］．然而，使用心理AI提供综合心理健康护理(包括CBT)的功效还需要进一步探索。虽然CBT是治疗焦虑和抑郁最有效的方法之一，但有证据表明，其他形式的治疗也会带来同样成功的结果。13］．应用综合疗法治疗抑郁症患者与接受认知疗法患者的治疗后改善水平相似[14］．

客观的

本研究的目的是评估使用综合心理AI Tess以一种吸引人的方式减少抑郁和焦虑症状的疗效。苔丝的设计是为了根据参与者表达的情绪和心理健康问题提供个性化的对话，而不是取代训练有素的治疗师。苔丝关注语言作为最明确的交流形式，提出人与人之间的交流揭示了特定情感的个体概念化(未发表的数据[15)) (16］．

这项研究比较了在非临床大学人群中使用综合心理AI (Tess) 2至4周的结果与信息对照组(国家精神卫生研究所的[NIMH]电子书)。据推测，与信息对照组相比，与苔丝对话会导致症状更大的改善。此外，我们预测参与者与Tess互动的持续时间将影响症状减轻的水平。为了评估这一点，试验组的参与者被随机选择参加两组中的一组，这两组可以无限制地接触苔丝2周或4周。

招聘

参加者使用传单(多媒体附件1)通过电子邮件分发给教授和校友，并通过Facebook和大学社区频道等社交媒体发布，目标是美国15所大学的学生。入选标准包括目前在美国大学就读，年龄在18岁及以上(通过复选框确认进行一级筛选)，能够阅读英语(暗示)。例如，为了防止恶意机器人的入侵，所有潜在参与者都收到了一封电子邮件，要求他们使用大学的电子邮件进行回复，表明他们的确认。

确认的参与者通过计算机算法随机化，该算法自动生成0到2之间的数字(图1)．所有参与者都完成了基线问卷。数字为0的参与者被发送到NIMH电子书的链接[17对大学生抑郁症的研究。数字1和2的参与者被分配到一个直接链接，开始通过即时通讯应用程序与苔丝聊天。为了评估访问对症状减轻的持续时间的影响，第1组参与者被允许无限制地访问苔丝2周，第2组参与者4周。因为随机分配是通过算法进行的，所以分配隐藏是存在的。但是，没有为服务提供者(Tess)屏蔽分配给每个参与者的条件。大约2周(第1组)或4周(第0+2组)后，再次联系参与者在线完成第二组问卷。参与者完成两项评估可获得20美元的按比例奖励。

道德规范与知情同意

本研究回顾性登记，试验编号为ISRCTN61214172，涉及非临床大学生人群。请参阅多媒体附件2参阅本研究的试验报告综合标准-电子健康检查表[18］．

参与者在一份封闭表格(多媒体)通过电子邮件发送。同意书告知参与者研究标准、干预细节、机密性、激励措施、参与者权利，以及咨询问题或请求退出时应联系谁。研究人员向表达自杀意念或自残的参与者提供了危机求助热线和自杀预防短信热线的电话号码。共有75名参与者签署了知情同意书，其中74人完成了本研究，试验组的流失率为0%，对照组的流失率小于1%(1/24)。

本文第三作者担任外部代表，支持数据收集和分析，数据收集和分析由X2AI公司提供。为了保护参与者的隐私，所有数据(包括使用情况)都进行了识别，并且仅汇总报告。

干预措施

苔丝

苔丝是由X2AI公司设计的一个心理AI聊天机器人，以综合心理健康支持、心理教育和提醒的形式提供简短的对话。苔丝作为一种治疗工具或资源，可以作为支持综合方法的治疗的辅助手段，并不打算取代治疗师的角色。

苔丝的灵感来自于第一个对话式人工智能ELIZA，它在20世纪60年代研究了人与机器之间的自然语言交流[19］．在ELIZA受到限制的地方，Tess在技术和机器学习策略的快速发展方面表现出色，这些技术和机器学习策略有助于提高人工智能记忆和情绪识别。

Tess的新奇之处在于，它是一个可定制的平台，允许内容根据特定形式的治疗或用户统计数据进行定制，例如，美国的一个大型卫生系统定制了Tess，以提供基于动机性访谈和行为激活的干预措施，以帮助一组患有糖尿病前期症状的青少年加强体重管理目标(未发表的数据[20.])。为了防止系统被滥用，各组织都接受了Tess的道德AI代码的教育，其中包括2018年上议院报告中的原则[21]及美国心理学会行为准则[22］．

技术概述

苔丝是使用技术、情感算法和机器学习技术的组合来维护的，以支持各种功能。与心理健康和情感专家的合作是苔丝成功的关键因素。所有内容都由经验丰富的专业人员开发、筛选并匹配特定的用户输入(即情绪和主题)。为了创建和维护聊天机器人，人类和技术之间需要建立伙伴关系，这可以通过一个与现有电子健康记录系统集成的管理小组来实现。每个组织或临床医生都被提供了一个具有限制访问权限的登录，以管理他们的客户(Tess用户)和内容。在这项研究中，主要研究员和作者被提供了独特的登录，以限制参与者与苔丝的互动。个人身份信息已从所有成绩单中删除。处理和存储在安全的服务器上完成，这些服务器符合健康保险携带和责任法案(Health Insurance Portability and Accountability act)的规定。数据存储在所有被授予访问权限的参与者的居住国。

苔丝可以配置为通过现有的通信渠道(如Facebook messenger、Slack和短消息服务文本消息)提供服务，而不需要用户下载应用程序。用户可以使用手机号码或通过与特定通信渠道关联的个人帐户访问苔丝。苔丝能够翻译免费短信;此外，用户还可以选择类似于现有聊天机器人的预选响应。这增强了Tess提供更个性化和综合干预的能力。

定制

为了本研究的目的，内容是由心理健康专业人员特别选择、扩展和测试的。此外，对学生、教授和大学辅导员进行了30分钟至1小时的访谈，以支持内容开发。在一小群学生中进行了用户接受测试，提供反馈以提高干预措施和脚本的质量和可靠性。为了提高用户的参与度，对话中加入了少量的表情符号。

为了支持对来自Tess的自动消息的持续时间和频率的评估，测试组被分配到两个实验中的一个。第一组在两周的时间内每天都收到苔丝的信息，介绍新的话题或跟进之前讨论过的问题。第二组从苔丝那里收到了同样的内容和后续消息的选项，但在4周的时间内每两周收到一次消息。值得注意的是，苔丝被伪装成Zara这项研究的目的是为了防止参与者通过另一项计划接触苔丝的可能性不大。

尽管苔丝能够在危机情况下将用户与咨询师联系起来，但这项研究限制了危机支持，以匹配先前研究的方法[10］．如果用户报告有自杀或杀人的想法，或表示有危机，苔丝会向国家自杀预防热线、危机短信热线和911提供电话号码，并鼓励用户结束聊天，寻求专业帮助。

综合支持方法

苔丝提供的心理健康干预措施多次被证明可以减轻抑郁和焦虑的症状，比如CBT [23]，该计划拥有坚实的证据基础[24］．除了CBT，苔丝还可以提供各种类似的，临床证明的治疗方法，这取决于个人报告的情绪和他们关注的性质。其中包括基于跨理论模型的干预措施[25]、情绪聚焦疗法[26，27]、以解决方案为重点的简短疗法[28]、动机性访谈[29，以及更多。通过与Tess的互动，用户体验到日志的好处，这已被证明可以增加对体验的积极感知[30.，并显著提高自我效能[31］．

在研究过程中，苔丝提供了植根于各种心理疗法的干预措施，如CBT、正念疗法、情感聚焦疗法、接受和承诺疗法、动机性访谈、自我同情疗法和人际心理疗法。例如，日记和放松策略在多种模式中使用，尽管用于提供这些干预的策略和语言各不相同。苔丝的结构是用规定的陈述来回答，由心理健康专业人员审查，以复制与参与者输入的情绪或担忧相适应的共情反应[32］．例如，对于认可的孤独，苔丝回答说:“我很抱歉你感到孤独。我想我们有时候都会感到有点孤独，”苔丝兴奋地回答说，“是啊，听到这个总是很高兴!”具体的干预措施是基于用户报告的情绪。例如，一个参与者表示他或她感到焦虑，可能会提供一个放松策略来应对当下。

就像治疗师随着时间的推移调整他们的风格以适应客户的治疗偏好一样，苔丝收集反馈，以提供最能满足用户需求的干预措施。每次干预后，苔丝都会问一个简单的问题，比如“有帮助吗?”，用户的回答被编码为积极、消极或中立。例如，如果用户对基于CBT的干预反应积极(即，是的，谢谢)，而对自我同情疗法反应消极(即，不，不是真的)，苔丝将提供更多植根于CBT的干预。对于消极或中立的用户，Tess将继续提供替代干预，直到用户积极或自愿地结束对话。

信息控制条件

只提供信息的对照组的参与者获得了NIMH关于大学生抑郁症的电子书的电子链接[33］．这本电子书对公众免费开放，并提供了基于证据的信息和资源，帮助学生识别抑郁症症状并寻求治疗。它还推荐了其他文献，并提供了帮助热线号码。虽然这个组的参与者在研究过程中没有被允许接触苔丝，但作为额外的支持来源，他们在完成时获得了接触苔丝的机会。

措施

参与者被邀请通过封闭的电子邮件调查进行以下评估，以便只有被邀请的人才能访问。所有评估均通过谷歌表格进行。

患者健康调查问卷-9

PHQ-9 [34是一份包含9个项目的自我报告问卷，评估了过去两周内抑郁症症状的频率和严重程度。这9项中的每一项都是基于《精神疾病诊断与统计手册》(DSM-4)对重度抑郁症的标准，可以在0(根本没有)到3(几乎每天)的范围内进行评分。PHQ-9是一种使用最广泛、最可靠、最有效的抑郁症状测量方法。如果参与者的得分在0到5之间，这表明他们没有抑郁症状。5 - 9分、10 - 14分、15 - 20分、> - 20分分别代表轻度、中度、中度和重度抑郁。

广泛性焦虑障碍-7

广泛性焦虑障碍7项量表[35是一种有效的、简短的自我报告工具，用于评估过去两周内焦虑想法和行为的频率和严重程度。根据DSM-4对GAD-7的诊断标准，所有7个项目的得分范围从0(完全没有)到3(几乎每天都有)。如果参与者得分低于10，则表示中度焦虑。得分大于15表示严重焦虑。

积极和消极情绪表

正面与负面情绪量表[36是一项包含20个项目的自我报告，用来衡量当前的积极和消极情绪。一半的项目代表积极的影响(如感兴趣、兴奋和坚定)，而另一半则代表消极的影响(如敌意、恐惧和羞愧)。项目的评分范围从1(非常轻微或根本没有)到5(非常)，分数越高代表越受影响。得分范围从10到50，积极和消极的影响是相互独立的。

用户满意度和用户粘性

创建用户满意度调查，测试可用性和技术功能，并在研究结束时交付给所有参与者以收集定性结果。该调查包括9个问题，4个尺度问题，比如:“你的总体满意度如何?”以及“你对内容满意吗?”以及2个开放式问题，例如“使用聊天机器人最好的事情是什么?”剩下的3个问题是强迫选择，回答选项是或不是，比如“你学到了什么新东西吗?”最后，仅针对测试组参与者，我们根据Tess与每组参与者之间交换的消息数量和总数来衡量参与程度。

统计分析

采用SPSS软件进行分析。采用多因素协方差分析(MANOVA)比较对照组、第1组(Tess 2周)和第2组(Tess 4周)男女学生的焦虑(GAD-7)、抑郁(PHQ-9)和PANAS量表均值。多变量分析显示对照组与第1组之间有显著性差异，F_3.= 3.146,P= 3。单变量的F焦虑和抑郁测试在所有量表上都很重要，在对照组和第1组之间，F₂= 3.491,P=。3.for PANAS,F₂= 4.037,P=。PHQ为02，以及F₂= 4.497,P=。GAD-7为01。因此，通过使用Tess，学生的焦虑和抑郁明显减少。

事后分析显示，与Tukey 's honest显著差异检验(多媒体附件4)在PANAS上进行比较。PHQ-9在对照组和第1组之间的alpha水平为0.05，差异有统计学意义。有关多变量检验，受试者间效应检验和干预样本GIF，请参见多媒体，多媒体附件6,多媒体,分别。这一发现证实了苔丝对减轻抑郁症状有帮助。对照组与第1组和第2组的GAD-7差异有统计学意义，α水平为0.05。这一发现支持了Tess有助于减轻焦虑症状的假设。由于自然减员，1名对照组参与者被剔除，未计入对照组总N。

参与者人口

表1显示来自整个样本(N=74)的人口统计信息和临床变量的基线评分。参与者的平均年龄为22.9岁，超过三分之二是女性。大多数参与者是亚洲人(37/ 74,51%)和白人(32/ 74,41%)。

在对照组中，67%(16/24)的参与者是女性，29%(7/24)是男性，4%(1/24)被确定为不合格。对照组的平均年龄为22.5岁。对照组的大多数参与者是白人(11/24,46%)。其余对照组参与者为亚洲人(8/ 24,33%)、其他(3/ 24,13%)和非洲裔美国人(2/ 24,8%)。

第一组由24名参与者中17名(17/24,71%)女性和7名(7/24,29%)男性组成。第1组的平均年龄为24.1岁。这组参与者主要是白人(13/24,54%)和亚洲人(11/24,46%)。

第二组由26名参与者中的19名(19/ 26,73%)女性和7名(7/ 26,27%)男性组成。第2组的平均年龄为22.2岁。这组参与者主要是亚洲人(18/ 26,69%)，31%(8/26)是白人。

参与者的临床变量

表1显示了PANAS的两个量表和子量表的得分。对照组的PHQ-9平均得分为8.17分，第一组为6.67分，第二组为7.04分。对照组的GAD-7平均得分为9.46，第1组为6.71，第2组为7.5。对照组PANAS的平均积极情绪量表为22.13，第1组为19.88，第2组为21.31。对照组PANAS的平均负面情绪量表为15.75，第1组为13.08，第2组为14.38。

表1。基线时参与者的人口学和临床变量。

人口学和临床变量		信息控制	苔丝第一组	苔丝第二组
标度，均值(SD)
	抑郁症(PHQ^一个9)	8.17 (4.2)	6.67 (4.6)	7.04 (4.9)
	焦虑(迦得^b7)	9.46 (3.9)	6.71 (4.0)	7.5 (4.9)
	积极的影响	22.13 (1.4)	19.88(1.4。)	21.31 (1.3)
	消极的影响	15.75 (1.3)	13.08 (1.3)	14.38 (1.3)
年龄(年)，平均值(SD)		22.5 (4.0)	24.1 (5.4)	22.19 (2.8)
性别，n (%)
	女	16 (67)	17 (71)	19 (73)
	男性	7 (29)	7 (29)	7 (27)
	不信奉国教的	1 (4)	0 (0)	0 (0)
种族，n (%)
	非裔美国人	2 (8)	0 (0)	0 (0)
	亚洲	8 (33)	11 (46)	18 (69)
	白色	11 (46)	13 (54)	8 (31)
	其他	3 (13)	0 (0)	0 (0)

^一个PHQ:患者健康问卷。

^b广泛性焦虑障碍量表。

分析

使用MANOVA的统计功率计算揭示了中等至大的效应大小(Cohend=0.68)， alpha值为5%。

患者健康调查问卷-9

在对照组和第1组之间发现了统计学上的显著差异，第1组在两周内每天都可以无限制地接触苔丝(P=.02)，由PHQ-9测量。图2MANOVA显示，在抑郁方面存在显著的组间差异，例如，对于试验组参与者，在研究期间抑郁症状显著减轻，而对于信息对照组，他们的抑郁症状加重。虽然在对照组中发现的增加可能是因为无法调整潜在的混杂变量，但随着时间的推移，该组参与者的症状可能略有增加。总的来说，这些发现表明苔丝有助于减轻抑郁症状。

广泛性焦虑障碍-7

在GAD-7测试焦虑症状方面，对照组与测试1组和测试2组之间发现了统计学上的显著差异。第一组(P=.045)和第2组(P=.02)报告焦虑症状显著减轻，而对照组则没有。

对照组与1、2组的GAD-7差异有统计学意义。对于第1组P在0.05的alpha水平上，0.045的值具有统计学意义。对于第2组P在0.05的alpha水平上，0.02值具有统计学意义。图3MANOVA显示焦虑的组间显著差异，在研究期间，测试组的焦虑症状显著减少，而信息对照组的焦虑症状增加。这种增加可能与前面提到的抑郁分数相似——无法调整潜在的混杂变量，或者简单地说，随着时间的推移，参与者可能经历了症状的轻微增加。这些发现支持了Tess有助于减轻焦虑症状的假设。

积极和消极情绪表

对照组与第1组的PANAS差异有统计学意义(P=.03)，并表明苔丝确实影响了分数。

用户满意度和用户粘性

表2根据用户满意度调查的答案显示信息控制组和测试组之间的差异，以收集定性结果。这张表显示了两组之间的显著差异。例如，86%(43/50)的参与者对苔丝总体满意，只有60%(14/24)的参与者对电子书满意。此外，80%(40/50)的人从苔丝那里学到了新东西，43%(10/24)的人从电子书中学到了新东西。

图4显示了参与者对“使用苔丝的体验中最好的事情是什么?”这一问题的回答的主题图。关于这个问题出现了两个主要主题:过程和内容。在过程主题中，出现的子主题是可访问性的问责制(15/50与会者指出);机器人表现出的同理心(6/50参与者);以及机器人促进的学习(11/50参与者)，这反过来又被划分为情感和一般见解的进一步子主题。

表2。事后调查问题的定性结果。

调查后的问题	对照组(N=24)， N (%)	苔丝组(N=50)， N (%)
整体满意度	14 (60)	43 (86)
内容的满意度	15 (65)	40 (80)
扩展情感意识	17 (73)	43 (86)
学到新东西	10 (43)	40 (80)
与日常生活有关的信息	11 (47)	40 (80)
更舒适的治疗过程	11 (47)	32 (64)

图5图示了参与者对“你和苔丝在一起的经历中最糟糕的事情是什么?”这个问题的回答主题图。出现了两个主题:过程(31/50参与者)和内容问题(19/50参与者)。在流程违规中出现的最常见的子主题与自然对话中的限制有关(12/50)，以及机器人无法理解某些回答或在参与者提供意外答案时感到困惑(11/50)。20%(10/50)的参与者描述了内容方面的问题，其中大部分与缺乏足够的交互性有关(7/50,14%)。

共收到50名参与者的48条公开评论。总的来说，有两名参与者似乎发现他们与苔丝的互动特别有意义:

根据我们的互动，我确实觉得我是在和一个真实的人说话，我很喜欢你给的建议。从这个意义上说，你比我的治疗师更好，因为她不一定会提供我改善自己和问题的具体方法。

我一直在学习新的东西，我有一些想法，可以做一些对我有帮助的小改变!

参与程度是根据苔丝和参与者之间交换的信息数量来衡量的。X2AI公司管理面板用于计算本节中报告的用户粘性指标。两个测试组的参与者总共与苔丝交换了14238条信息。第一组平均每天交换283条消息，并在两周内无限制地访问苔丝(SD 147.6;中位数278;范围72 - 755)。第2组平均每两周交换286条消息，并在4周内无限制地访问苔丝(SD 104.6;中位数288;范围133 - 535)。虽然我们无法衡量NIMH电子书的用户粘性，因为无法跟踪页面浏览量或URL点击率，但15名(15/ 24,63%)对照组参与者报告说，他们对所提供的内容感到满意。

主要研究结果

本研究的目的是评估使用综合心理AI来减少大学生自我识别的抑郁和焦虑症状的可行性和有效性。该方法和结果与之前的一项随机试验一致，该试验研究了聊天机器人向大学生提供基于cbt的干预的潜力[10］．我们的假设是，与仅信息对照组的参与者相比，与综合心理AI互动2或4周后，学生的(1)抑郁和(2)焦虑症状会有更大的减轻。此外，我们预测测试组会比对照组的参与者报告更有吸引力和更方便的体验。

结果显示，在2周或4周的时间里，测试1组和测试2组的焦虑症状都显著减轻。此外，两周内每天接受苔丝检查的试验组抑郁症状显著减轻。与苔丝互动的参与者比对照组的参与者表现出更高的参与度和整体满意度。试验组参与者表示，这些内容与他们的日常生活更相关，使他们对治疗体验更满意。

限制

虽然这项研究包括了来自美国15所大学的参与者，但结果的概括性是有限的，特别是因为没有正式评估社会经济地位。招募方法进一步限制了普遍性，因为我们无法评估本研究中通过社交媒体招募的参与者与可能使用Tess但在社交媒体上不活跃的个人之间的差异。该方法要求2个测试组和1个对照组，使得每组参与者的数量更加有限。此外，本研究没有收集后续数据来评估益处是否会持续一段时间。与之前的研究不同，对照组的焦虑和抑郁症状略有增加，这表明电子书并不是一种充分的心理健康支持形式。对这一结果的一个可能的解释是，电子书可能提高了对症状的认识，但没有提供持续的治疗，导致随着时间的推移而增加。一项研究表明，自助书籍的消费者对压力更敏感，表现出更高的抑郁症状[37］．由于从非临床样本中招募参与者，基线抑郁(用PHQ-9测量)和焦虑(用GAD-7测量)得分很低。因此，需要做更多的研究来评估Tess在支持临床抑郁和焦虑水平的个体方面的可行性。未来的研究应包括控制条件，以便更直接地比较服务的提供，如传统治疗，以及基于技术的解决方案，包括远程治疗，交互式网络课程和虚拟现实。

传统的治疗方法允许在许多不同的层面上进行情绪评估，包括面部表情、身体暗示、语气和语言。这项研究中使用的心理人工智能通过对话进行干预，因此情绪识别仅限于语言。目前尚不清楚这在多大程度上限制了心理人工智能对情绪的评估，因为语言是人们接触情绪最容易获得的非现象性途径。通过面部表情评估情绪[38，39]似乎不可靠，因为看似基本的情绪之间的表达特征重叠，导致面部表情的分类不能充分描述情绪的分类[15］．

最后，定性反馈中所表达的系统错误被解释为研究团队有限的资源，并试图保持专家批准的所有内容不变。在研究过程中，对系统的更改受到限制，因此研究团队在完成研究之前无法报告与自然语言处理或情绪不匹配相关的错误。

与之前工作的比较

与之前的一项研究结果一致，使用Tess与分别用PHQ-9和GAD-7测量的抑郁和焦虑的显著减少有关。效应量(Cohend=0.68)对抑郁症的影响为中度，且大于先前发表的研究[10，40-42]，测量了使用替代移动应用程序干预来缓解抑郁症症状的效果。本研究包括2个试验组，以评估基于2至4周干预期症状减轻的差异。减轻症状的效应量与之前一项研究发现的结果一致，该研究将基于cbt的聊天机器人交付给美国大学生[10］．虽然是推测性的，但本研究中发现的更大的效应量可能部分归因于应用了综合心理健康方法来提供更个性化的干预措施。此外，用于创建Tess对话的内容来自书面文本，允许参与者以自由文本进行回应，而不是像之前研究中的聊天机器人那样主要使用按钮及时接收视频和其他资源[10］．

随着对提供更具成本效益的心理健康支持的可扩展解决方案的需求不断增长，CAT已证明能够为抑郁症和焦虑症提供经经验验证的治疗方法[26］．初步研究表明，基于计算机的自助认知和行为干预与面对面治疗产生类似的结果[27］．与以无临床医生参与的自助形式提供的程序相比，被规定使用心理治疗计算机程序的患者的临床治疗结果更高[38］．

之前的研究表明，人们更愿意向心理人工智能透露个人信息虚拟的治疗师据称由人操作[9，10，43］．这得到了学生参与者反馈的支持，他们在这项研究中与苔丝进行了更私人的交流。学生:

我确实觉得我是在和一个真人说话。

.．.你比我的治疗师好，他不一定能提供让我更好的具体方法。”

苔丝能够:

指导[参与者]克服困难。

这些评论加强了心理人工智能消除障碍和耻辱的潜力，并作为传统治疗方法的辅助手段。

结论

这项研究表明，人工智能提供了一种具有成本效益和可访问的心理健康解决方案，可以作为一种可扩展的工具，补充传统的治疗方法。尽管综合心理人工智能的设计或意图不是取代训练有素的治疗师的角色，但苔丝是提供情感支持的可行选择。该结果支持并扩展了之前一项随机对照试验的发现[10并证明了心理人工智能有潜力通过以对话的形式提供基于cbt的干预来减轻抑郁和焦虑的症状。

致谢

作者要感谢Russell Fulmer博士的学术咨询贡献;Angela Joerin，项目管理硕士，LLP;Bre Gentile，统计分析博士;lyanne Lakerink负责研究设计和实施;Michiel Rauws，工商管理硕士，审核稿件;罗米·萨德利克的手稿编辑;X2AI为学生报销提供预算，并让研究团队免费访问他们的定制平台和聊天机器人。

编辑注意到:该随机研究仅为回顾性登记。编辑从ICMJE规则中批准了一个例外，要求对随机试验进行前瞻性注册，因为该研究被认为是形成性的。然而，建议读者仔细评估与主要结果或有效性相关的任何潜在的显性或隐性声明的有效性，因为回顾性注册并不阻止作者回顾性地改变其结果测量方法。

利益冲突

AJ和MR是X2AI公司的员工，该公司创建了本试验中使用的干预(Tess)，因此在该公司有经济利益。X2AI公司承担了参与者激励的成本。

‎

多媒体附件1

招聘传单。

PDF档案(adobepdf档案)，1MB

‎

多媒体附件2

试验报告综合标准-电子健康检查表。

PDF档案(adobepdf档案)，596KB

‎

多媒体

知情同意。

PDF档案(adobepdf档案)，141KB

‎

多媒体附件4

多重比较表。

PNG文件，195KB

‎

多媒体

多元测试表。

PNG文件，177KB

‎

多媒体附件6

受试者间效应测试。

PNG文件，235KB

‎

多媒体

干预样本GIF。

MP4文件(MP4视频)，558KB

Snyder T, de Brey C, Dillow S. nce .ed.:国家教育统计中心;2016年12月8日。教育统计摘要网址:https://nces.ed.gov/programs/digest/d15/tables/dt15_105.20.asp?current=yes,[访问时间:2017-03-01][WebCite缓存］
Zivin K, Eisenberg D, Gollust SE, Golberstein E.大学生群体心理健康问题和需求的持久性。情感失调杂志2009 10月;117(3):180-185。［CrossRef] [Medline］
大学生心理健康问题与求助行为研究。青少年健康杂志2010 1月;46(1):3-10。［CrossRef] [Medline］
Newman MG, Szkodny LE, Llera SJ, Przeworski A.焦虑和抑郁的技术辅助自助和最小接触疗法综述:人类接触对治疗效果是必要的吗?临床精神病学Rev 2011 Feb;31(1):89-103。［CrossRef] [Medline］
韦默丹L, Smit F, van Straten A, Riper H, Cuijpers P.基于互联网的成人抑郁症状治疗的成本效用和成本效益:随机试验。中国医学杂志，2010;12(5):e53 [免费全文] [CrossRef] [Medline］
Eells TD, Barrett MS, Wright JH, Thase M.抑郁症的计算机辅助认知行为疗法。心理治疗(Chic) 2014 Jun;51(2):191-197。［CrossRef] [Medline］
张志刚，陈志刚，张志刚，刘志刚，等。患者智能手机的拥有率和对监测精神健康状况症状的移动应用程序的兴趣:在四个地理位置不同的精神科诊所进行的调查。JMIR Ment Health 2014年12月;1(1):e5 [免费全文] [CrossRef] [Medline］
罗斯特T，斯坦因J, Löbner M，克斯汀A，拉克-西科尔斯基C，里德尔-海勒SG。计算机化认知行为治疗抑郁症的用户接受度:系统回顾。J medical Internet Res 2017 9月13日;19(9):e309。［CrossRef] [Medline］
张志强，张志强，张志强，等。利用个人智能手机定制应用程序评估重度抑郁症患者的患者健康问卷-9 (PHQ-9)抑郁症状。JMIR Ment Health 2015;2(1):e8 [免费全文] [CrossRef] [Medline］
Fitzpatrick KK, Darcy A, Vierhile M.使用全自动对话代理(Woebot)为有抑郁和焦虑症状的年轻人提供认知行为治疗:一项随机对照试验。JMIR Ment Health 2017 Jun 06;4(2):e19 [免费全文] [CrossRef] [Medline］
Frazier P, Richards D, Mooney J, Hofmann SG, Beidel D, Palmieri PA。网络治疗大学生抑郁、焦虑和压力:一项患者偏好试验。iproc 2016 Dec 08;2(1):e5 [免费全文] [CrossRef］
McCall HC, Richardson CG, Helgadottir FD, Chen FS。评估基于网络的大学生社交焦虑干预:随机对照试验。J Med Internet Res 2018年3月21日;20(3):e91 [免费全文] [CrossRef] [Medline］
Tolin DF。认知行为疗法比其他疗法更有效吗?元分析综述。临床精神病学杂志2010年8月30日(6):710-720。［CrossRef] [Medline］
Constantino MJ, Marnell ME, Haile AJ, Kanther-Sista SN, Wolman K, Zappert L，等。抑郁症的综合认知疗法:一项随机试点比较。心理治疗(Chic) 2008年6月;45(2):122-134。［CrossRef] [Medline］
Bann EY, Rauws M.介绍苔丝:使用心理人工智能和短信的心理健康护理。X2AI Inc 2016(即将发布)。
林玲，毕克莫尔，佩德雷利。会话代理的实时定制抑郁症咨询。iproc 2016 12月30日;2(1):e27 [免费全文] [CrossRef］
国家心理健康研究所Nimh.nih。2017.大学生抑郁症https://www.nimh.nih.gov/health/publications/depression-and-college-students/index.shtml[访问时间:2017-03-29][WebCite缓存］
ehealth集团的Eysenbach G。联盟-电子健康:改进和标准化基于网络和移动卫生干预的评估报告。J Med Internet Res 2011年12月;13(4):e126 [免费全文] [CrossRef] [Medline］
eliza一种研究人与机器之间自然语言交流的计算机程序。美国计算机学会通讯1966年1月;9(1):36-45 [免费全文] [CrossRef］
斯蒂芬斯，乔琳，韦克，LN。通过人工智能心理健康聊天机器人苔丝，支持儿童肥胖和糖尿病前期治疗的可行性。Transl Behav Med 2018(即将出版)。
上议院。Publications.parliament.uk。2018.英国的人工智能:准备好了、愿意了、有能力了?URL:https://publications.parliament.uk/pa/ld201719/ldselect/ldai/100/100.pdf,[访问时间:2018-07-06][WebCite缓存］
美国心理学会。Apa》2017。心理学家的道德原则和行为准则网址:http://www.apa.org/ethics/code/,[访问时间:2018-07-06][WebCite缓存］
Beck JS, Beck AT。认知行为疗法:基础和超越，第二版。纽约市:吉尔福德出版社;2011.
侯晓明，王晓明，王晓明，王晓明。认知行为疗法的临床疗效分析。Cognit Ther Res 2012 10月1日;36(5):427-440 [免费全文] [CrossRef] [Medline］
张志刚，张志刚。跨理论方法:跨越传统治疗的边界。伊利诺伊州霍姆伍德:Krieger Pub Co;1994.
以情绪为中心的治疗:指导客户通过他们的感觉工作。华盛顿特区:美国心理学会;2002.
Blow AJ, Curtis AF, Wittenborn AK, Gorman L.关系问题和与军事有关的创伤后应激障碍:对夫妻使用情感集中治疗的案例。2015年7月11日;37(3):261-270 [免费全文] [CrossRef] [Medline］
Pichot T, Dolan Y.以解决方案为中心的简短疗法:它在机构设置中的有效使用。霍沃斯的婚姻和家庭。纽约:劳特利奇;2003.
罗尼克S，米勒WR。什么是动机性访谈?Behav。Cognit。心理杂志2009 6月16日;23(04):325。［CrossRef］
关于压力事件的日志:认知加工和情绪表达的影响。Ann Behav医学2002年8月24日(3):244-250。［CrossRef］
Fritson KK。日记对学生的影响?自我效能感和控制点。洞察力:学术教学杂志;2008.URL:https://eric.ed.gov/?id=EJ888412[访问2018-06-23][WebCite缓存］
Miner AS, Milstein A, Schueller S, Hegde R, Mangurian C, Linos E.基于智能手机的对话代理和对心理健康、人际暴力和身体健康问题的回答。JAMA实习生2016年5月01日;176(5):619-625 [免费全文] [CrossRef] [Medline］
国家心理健康研究所Nimh.nih。2017.大学生抑郁症https://www.nimh.nih.gov/health/publications/depression-and-college-students/index.shtml[访问时间:2017-03-29][WebCite缓存］
克伦克K，斯皮策RL，威廉姆斯JB。PHQ-9:一个简短的抑郁症严重程度测量的有效性。J Gen Intern Med 2001 9月;16(9):606-613 [免费全文] [Medline］
斯皮策RL，克伦克K，威廉姆斯JB, Löwe B.评估广泛性焦虑障碍的简单措施:GAD-7。Arch Intern Med 2006年5月22日;166(10):1092-1097。［CrossRef] [Medline］
Watson D, Clark LA, Tellegen A.积极和消极影响简短测量的开发和验证:PANAS量表。中华精神医学杂志1988年6月刊;54(6):1063-1070。［Medline］
Raymond C, Marin MF, Hand A, Sindi S, Juster RP, Lupien SJ。2015年9月29日。自助书籍的消费者和非消费者的唾液皮质醇水平和抑郁症状:一项试点研究https://www.hindawi.com/journals/np/2016/3136743/,[访问时间:2018-06-22]WebCite缓存］
司布真，李俊杰。计算机辅助认知行为疗法。Curr Psychiatry Rep 2010年12月;12(6):547-552。［CrossRef] [Medline］
Lucas GM, Gratch J, King A, Morency L.这只是一台计算机:虚拟人类增加了公开意愿。Comput Human behaviour 2014 Aug;37:94-100。［CrossRef］
Reid SC, Kauer SD, Hearps SJ, Crooke AH, Khor AS, Sanci LA，等。初级保健中青少年心理健康问题评估和管理的手机应用:一项随机对照试验BMC Fam Pract 2011; 12:31 [免费全文] [CrossRef] [Medline］
Kauer SD, Reid SC, Crooke AH, Khor A, Hearps SJ, Jorm AF，等。青少年抑郁症早期使用手机进行自我监测:随机对照试验。J Med Internet Res 2012 Jun;14(3):e67 [免费全文] [CrossRef] [Medline］
Burns MN, Begale M, Duffecy J, Gergle D, Karr CJ, Giangrande E，等。利用情境感知来开发抑郁症的移动干预。中国医学杂志，2011;13(3):e55 [免费全文] [CrossRef] [Medline］
达尔文:《人与动物的情感表达》。美国:企鹅集团;2009:1872。

‎

人工智能:人工智能

猫:计算机辅助治疗

认知行为疗法:认知行为疗法

DSM:精神疾病诊断与统计手册

迦得:广泛性焦虑障碍

MANOVA:多元协方差分析

健康:移动健康

NIMH:国家心理健康研究所

PANAS:积极和消极影响量表

PHQ:患者健康问卷

G·艾森巴赫(G Eysenbach)编辑;提交28.02.18;J Wright, M del Pozo Banos, I Gabashvili同行评审;对作者15.06.18的评论;修订版本收到27.07.18;接受27.08.18;发表13.12.18

©Russell Fulmer, Angela Joerin, Breanna Gentile, Lysanne Lakerink, Michiel Rauws。最初发表于JMIR心理健康(http://mental.www.mybigtv.com)， 2018年12月13日。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR精神健康杂志上的原创作品。必须包括完整的书目信息，http://mental.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

使用心理人工智能(Tess)缓解抑郁和焦虑症状:随机对照试验

使用心理人工智能(Tess)缓解抑郁和焦虑症状:随机对照试验

原始论文

通讯作者:

摘要

关键字

简介

背景

客观的

方法

招聘

道德规范与知情同意

干预措施

苔丝

技术概述

定制

综合支持方法

信息控制条件

措施

患者健康调查问卷-9

广泛性焦虑障碍-7

积极和消极情绪表

用户满意度和用户粘性

统计分析

结果

参与者人口

参与者的临床变量

分析

患者健康调查问卷-9

广泛性焦虑障碍-7

积极和消极情绪表

用户满意度和用户粘性

讨论

主要研究结果

限制

与之前工作的比较

结论

致谢

利益冲突

多媒体附件1

多媒体附件2

多媒体

多媒体附件4

多媒体

多媒体附件6

多媒体

参考文献

缩写