JMIR心理健康-使用全自动对话代理(Woebot)为有抑郁和焦虑症状的年轻人提供认知行为治疗:一项随机对照试验

原始论文

¹斯坦福医学院，精神病学和行为科学系，斯坦福，加州，美国

²Woebot Labs Inc.，旧金山，加州，美国

这些作者的贡献相同

通讯作者:

艾莉森·达西博士

Woebot实验室公司

费尔大道55号

旧金山，加州，94110

美国

电子邮件:alison@woebot.io

背景:基于网络的认知行为治疗(CBT)应用程序已经证明了疗效，但其特点是依从性差。会话代理可以提供一种方便、吸引人的方式，随时获得支持。

摘要目的:本研究的目的是确定一个全自动对话代理的可行性、可接受性和初步效果，以提供一个自我识别为有焦虑和抑郁症状的大学生自助计划。

方法:在一项非盲试验中，从一个大学社区社交媒体网站上招募了70名年龄在18-28岁之间的人，他们被随机分成两组(最多20次)，接受基于文本的会话代理(Woebot)会话形式的来自CBT原则的自助内容(n=34)，或者直接阅读国家心理健康研究所的电子书“大学生抑郁症”，作为仅提供信息的对照组(n=36)。所有参与者在基线和2-3周后完成了基于网络的9项患者健康问卷(PHQ-9)、7项广泛性焦虑障碍量表(GAD-7)和积极和消极影响量表(T2)。

结果:参与者平均22.2岁(SD 2.33)， 67%为女性(47/70)，大多数是非西班牙裔(93%，54/58)和高加索(79%，46/58)。Woebot组的参与者在研究期间平均使用会话代理12.14次(SD 2.23)。基线时各组间无显著差异，83%(58/70)的参与者在T2时提供数据(17%的损耗率)。意向治疗单变量协方差分析显示，在研究期间，Woebot组的抑郁症状显著减轻，通过PHQ-9测量(F=6.47;P=.01)，而信息对照组无明显差异。在对完成者的分析中，两组参与者通过GAD-7 (F_{1, 54}= 9.24;P= 04)。参与者的意见表明，过程因素比反映传统治疗的内容因素更能影响他们对方案的接受程度。

结论:会话代理似乎是一种可行的、引人入胜的、有效的传递CBT的方式。

中华医学杂志，2017;4(2):919

doi: 10.2196 / mental.7785

关键字

会话代理；流动心理健康；心理健康；聊天机器人；抑郁症；焦虑；大学生；数字医疗

高达74%的精神健康诊断在24岁之前首次发病[1]。抑郁和焦虑症状在大学生中尤为普遍，超过一半的大学生报告说，在过去的一年里，他们的焦虑和抑郁症状非常严重，以至于无法正常工作。2]。此外，流行病学数据表明，精神健康问题的流行程度和严重程度都在增加[3.]。然而，有需要的大学生中，多达75%的人没有获得临床服务[3.]。虽然造成这种情况的原因各不相同，但校园里免费或廉价的心理健康服务无处不在，这表明服务的可获得性和成本并不是治疗的主要障碍。3.]。与非大学人口一样，污名被认为是获得心理健康服务的主要障碍。

传统上，克服耻辱感问题一直被认为是互联网提供的以及最近移动精神卫生干预措施的一个主要好处。近年来，人们对这类服务的兴趣和发展激增，以补充现有的心理健康治疗或扩大获得优质心理健康服务的有限机会[4]。与这一发展相匹配的是患者的巨大需求，约70%的患者表示有兴趣使用移动应用程序自我监测和自我管理他们的心理健康[5]。网络干预焦虑和抑郁有实证支持[6结果与治疗师提供的认知行为疗法(CBT)相当[7，8]。然而，尽管证明了疗效，它们的特点是相对较差的采用率和依从性。一篇综述发现，最低完成率中位数为56% [9]。缺乏依从性的一个假设原因是失去了面对面CBT所保留的人际互动质量。例如，与数字健康干预措施相比，问责制等某些治疗过程因素在传统的面对面治疗中可能更为突出。

随着最近语音识别技术的进步，会话界面(即使用自然语言作为输入和输出的界面)已经开始出现。对话代理(如苹果的Siri或亚马逊的Alexa)可能是一种更自然的媒介，人们可以通过它与技术互动。在讨论行为健康时，人类以反映情感和社会话语动态的方式回应和与非人类代理人交谈[10他们作为第一反应者的能力已经得到了评估[11]。从理论上讲，会话界面可能比视觉导向的移动应用程序更适合提供结构化的、手动的治疗，因为除了提供治疗内容外，它们还可以反映治疗过程。事实上，Bickmore等人证明，精心设计的健康相关对话代理可以与试图增加锻炼的成年人建立治疗关系[10]。干预是一个具体化的对话代理，也就是说，它被设计成一个图形面孔，以反映人类通常面对面的互动。

然而，大多数面向消费者的会话代理都没有具体化。基于文本的代理提供CBT的能力是一个值得探索的问题，因为广泛传播的基于证据的数字应用程序能够减轻美国大学生(估计约为2000万)的精神疾病负担[12]。不幸的是，经过正式评估的少数移动应用程序在可持续性方面面临着重大挑战，因为它们往往是在学术研究环境中构建的，很少有必要的基础设施来支持它们。一项对5464份摘要的系统回顾发现，只有5款应用程序有随机对照试验的支持证据，但截至2014年1月，这些应用程序都没有商业化。13]。因此，出于可持续性的考虑，本研究测试了商业开发的基于文本的会话代理向大学生提供CBT的能力。

鉴于现有心理健康应用程序的质量参差不齐，我们创建了一个对话代理，以整合16项基于证据的应用程序开发建议中的15项[4]如下:使用CBT框架构建;解决焦虑和情绪低落;设计用于非临床人群;采用自动化剪裁;思想、感觉或行为的报告;推荐活动;提供心理健康信息;实时参与;与特定报告的情绪问题明确相关的活动;鼓励非技术活动; gamification and intrinsic motivation to engage; reminders to engage; simple and intuitive interface and interactions; and including links to crisis support services. While these recommendations were created in the context of mobile phone apps, to our knowledge, their relevance in the context of a conversational interface has never been tested.

因此，本研究的目的是评估通过自动机器人在会话界面中以促进参与和减轻症状的方式提供CBT的可行性。目前的研究比较了在非临床大学人群中2周的以cbt为导向的会话代理(Woebot)和信息对照组(美国国家心理健康研究所[NIMH]电子书)的结果。我们假设，与信息控制组相比，与治疗过程导向的对话代理的对话将导致症状的更大改善。我们还假设，以对话的方式接收心理教育材料对接受者来说更容易接受。

招聘及程序

潜在的参与者是通过在社交媒体网站上发布的传单招募的，该传单针对的是一个美国大学社区，该社区的学生自认为有抑郁和焦虑症状。纳入标准包括18岁及以上(通过复选框确认在第一级筛选)，能够阅读英语(隐含)。为了防止诸如恶意机器人之类的攻击，所有潜在的参与者都收到了一封电子邮件，要求他们回复以表示他们的确认。确定的参与者通过计算机算法随机分配，该算法自动生成0到1之间的数字。数字小于0.5的参与者被分配到一个直接链接，开始在即时通讯应用程序中与Woebot聊天，数字大于0.5的参与者被分配到一个链接到NIMH关于大学生抑郁症的电子书。14]，完成在线基线问卷后。由于随机分配是通过算法进行的，因此存在分配隐藏。然而，对于服务提供商(Woebot实验室)来说，每个参与者被分配到的条件并没有被掩盖。大约2周(T2)后，再次联系参与者完成第二组在线问卷。每完成一次评估，参与者可获得按比例奖励10美元(完成两次评估可获得20美元)。

由于该试验涉及大学生的非临床人群，因此被认为不需要在公共试验登记处登记。看到多媒体附录1查阅该研究的conet - ehealth核对表[15]。

干预措施

Woebot

Woebot是一个自动会话代理，旨在以简短的日常对话和情绪跟踪的形式提供CBT。Woebot是一个与平台无关的即时通讯应用程序，可以在桌面或移动设备上使用。每次互动都以对环境(例如，“你的世界现在发生了什么?”)和情绪(例如，“你感觉怎么样?”)的一般性询问开始，并以文字或表情符号图像的形式提供回应，以代表当时的情绪。在收集情绪数据后，参与者通过链接到短视频或通过简短的“文字游戏”的方式呈现与CBT相关的核心概念，这些游戏旨在帮助参与者了解认知扭曲。第一天包括介绍机器人的“登录”过程，并补充说，虽然机器人看起来像一个人，但它更像一本“选择你自己的冒险自助书”，因此不能完全理解用户的需求。该机器人还简要地解释了CBT，并通知用户，虽然心理学家正在“关注事情”(即监控)，但这并不是实时发生的，因此该服务不应被用作治疗的替代品。此外，还鼓励参与者在遇到紧急情况时拨打911。

机器人根据特定的部分或特征采用了几种计算方法。总体方法是一个带有建议响应的决策树，该决策树也接受自然语言输入，其中自然语言处理技术的离散部分嵌入在树的特定点上，以确定到后续会话节点的路由。在研究期间，每个参与者的决策树结构保持不变，参数不随参与者的输入而改变。使用时间模式识别对每周图表进行处理，为用户提供每周情绪描述。

机器人的对话风格是模仿人类临床决策和社会话语的动态。心理教育内容改编自CBT的自助[16-18]。除了CBT内容外，该机器人还包括以下面向治疗过程的功能:

移情反应:机器人以一种与参与者输入的情绪相适应的移情方式回答。例如，在回应被认可的孤独时，它回答说:“我很抱歉你感到孤独。我想我们有时都会感到有点孤独。”或者它表现出兴奋，“耶，听到这个总是很高兴!”

裁剪:根据个人的情绪状态发送特定的内容。例如，一个表明他们感到焦虑的参与者在焦虑事件中得到了体内帮助。

目标设定:对话代理询问参与者是否有希望在两周内实现的个人目标。

问责制:为了促进问责制，机器人设定了定期检查的期望，并跟踪了早期的活动，例如，既定目标的状态。

动机和参与:为了让个人参与日常监控，机器人每天或每隔一天发送一条个性化信息来发起对话(即提示)。此外，“表情符号”和带有积极强化信息的动图被用来鼓励努力和完成任务。

反思:机器人还提供了每个参与者随时间变化的情绪图表。每个图表都附有对数据的简短描述，以方便反思，例如，“总体而言，你的情绪相当稳定，尽管你在焦虑一段时间后往往会感到疲倦。看来星期二是你最好的一天。”

信息控制条件

在信息控制条件下，参与者被引导到NIMH资源部分，特别是一份名为“大学生抑郁症”的免费出版物[14]。这本电子书提供了关于大学生抑郁症的全面的循证信息，包括体征和症状、不同类型的治疗、常见问题的答案，以及包括进一步阅读、求助热线号码和其他资源在内的资源列表。

措施

患者健康问卷-9

病人健康问卷(PHQ-9) [19是一份包含9个项目的自我报告问卷，用于评估过去两周内抑郁症状的频率和严重程度。它是最广泛使用、最可靠、最有效的抑郁症状测量方法之一。9项中的每一项都是基于精神障碍诊断与统计手册4^th(DSM-IV)重度抑郁症的标准，可以在0(完全没有)到3(几乎每天)之间打分。0-5分表示无抑郁症状，5-9分、10-14分、15-20分和20分分别表示轻度、中度、中度和重度抑郁。

广泛性焦虑症-7

广泛性焦虑障碍7项量表[20.是一种有效的、简短的自我报告工具，用于评估过去两周内焦虑思想和行为的频率和严重程度。根据DSM-IV对广泛性焦虑症的诊断标准，所有7个项目的得分范围从0(完全没有)到3(几乎每天)。因此，总分范围为0-21。分数为10分表示中度焦虑，分数大于15分表示重度焦虑。

积极和消极影响时间表

正面及负面影响表(PANAS) [21是一个包含20个项目的自我报告，衡量当前的积极和消极影响。一半的项目代表积极的影响(如感兴趣，兴奋，决心)，而一半的项目代表消极的影响(如敌对，害怕，羞愧)。项目的评分范围为1(非常轻微或根本没有)到5(非常)，分数越高表示影响越高。积极和消极的影响是相互独立的，得分在10-50之间。

可接受性和可用性

混合形式的问题评估了两种情况的可行性和可接受性。两组参与者都被要求用5分的李克特量表对他们的总体满意度和对内容的满意度进行评分(0=讨厌，5=喜欢，3=中性，2和4未标记);他们认为干预促进了情绪意识的程度(0=完全没有，5=很多，3=中性，2和4未标记);他们是否学到了任何东西(二元，是/否回答)，以及这种学习与他们的日常生活有多大关系(0=完全没有，5=很多，3=中性，2和4未标记)。此外，参与者还被问及他们的经历中最好和最坏的事情是什么，并提供其他评论。虽然我们主要对与Woebot条件相关的定性反应感兴趣，但对信息控制的反应允许对参与度进行非正式评估。最后，对于那些在Woebot条件下的人，我们记录了两周内与机器人互动(即对话)的总次数。如果记录下情绪和环境数据，就认为发生了互动。根据心理教育内容的不同，会话时长从大约90秒到10分钟不等。

统计分析

使用协方差分析(ANCOVA)的统计能力计算显示，70个样本量将有足够(80%)的能力来检测中大型效应(Cohend=0.4)，这是一项针对成人抑郁和焦虑的互联网治疗方法的荟萃分析报告的[8]， alpha值为5%。

确定各组之间是否存在基线、独立的显著差异t对连续基线变量(如年龄、PHQ-9、GAD-7和PANAS)进行检验，对分类或名义变量(性别、种族、民族)进行卡方分析。小组成员对T2结果的单变量影响采用受试者间ANCOVA调整基线测量。科恩d计算效应量以检验组间差异的大小。所有受试者均纳入意向治疗(ITT)分析。在进行这些分析之前，使用SPSS v. 23中的多重输入程序来处理假设随机丢失的缺失数据。

作为次要亚组分析，我们使用2x2重复测量方差分析(ANOVA)进行完整分析，以探讨主效应和交互效应。

定性分析

Woebot组只使用主题分析来分析参与者对开放式问题的回答，并以频率报告。在Braun和Clarke概述的程序指导下，使用归纳(数据驱动)方法对数据进行主题分析[22]。系统地生成数据代码，然后整理成“专题地图”，并应用于整个数据集以生成频率。

伦理与知情同意

这项研究是由斯坦福大学医学院的机构审查委员会审查和批准的。参与者通过信息表上的复选框表示同意研究条款。作为额外的安全措施，Woebot小组中那些表现出长期抑郁、自杀或自残的参与者会被自动提供帮助热线号码和危机文本热线号码，并鼓励他们在紧急情况下拨打911。

除使用数据由Life Ninja Project收集外，所有研究数据均由学术机构收集。由于在生命忍者项目和斯坦福大学之间传输的所有数据都是去识别的，因此使用数据与特定的研究参与者无关，仅作为整个研究参与者组的数据。

图1显示参与者在整个研究过程中的流程。2017年1月31日至2月20日期间，共收到204份注册，所有注册者都被要求通过回复电子邮件确认他们的兴趣。总共有115人回复了这封邮件，尽管其中45封被认为是机器人生成的(例如，电子邮件地址的格式几乎完全相同，回复也几乎完全相同)，因此被认为不合格。最终的样本N=70通过计算机算法随机分配，要么收到一个直接链接，开始在即时通讯应用程序中与Woebot (N= 34)聊天，要么收到NIMH关于大学生抑郁症的电子书[14] (n=36)，在基线完成在线问卷后。

摩擦

在随机分配的参与者中，83%(58/70)在T2时继续提供部分或完整的数据，总体损失率为17%。两组之间的减员并不相等，信息对照组的减员更大(31% vs 9%;χ²₁= 5.16;P= 0)。然而,独立t检验和卡方分析未能发现在年龄方面退出研究的人与未退出研究的人在基线时存在显著差异的证据(t₆₈= 1.18;P= .24);GAD-7 (t₆₈= 1.28;P= .89);phq - 9 (t₆₈=点;P= .59);PANAS阳性(t₆₈= .79;P= 0.43)和负(t₆₈= .02点;P=.98)影响分数;或性别(χ)²₁= 1.75;P=.18)或种族(χ²₁= .066;P= .79)。

参与者人口

表1显示了来自整个样本(N=58)的数据的人口统计信息和临床变量的基线得分。参与者的平均年龄为22.2岁(SD 2.33)，超过三分之二是女性。参与者大多是非西班牙裔(93%，54/58)，白种人(46/58)，7%(4/58)亚裔，9%(5/58)多种族，2%(2/58)非裔美国人，2%(2/58)美洲原住民/阿拉斯加原住民。

在基线特征方面，近一半(46%，32/69)的样本在PHQ-9测量的基线时处于中度重度或重度抑郁范围，而四分之三(74%，52/70)的样本在GAD-7测量的焦虑严重范围内。

表1。基线时参与者的人口学和临床变量。

		信息控制	Woebot
量表，平均值(SD)
	抑郁症(phq - 9)	13.25 (5.17)	14.30 (6.65)
	焦虑(GAD-7)	19.02 (4.27)	18.05 (5.89)
	积极的影响	26.19 (8.37)	25.54 (9.58)
	消极的影响	28.74 (8.92)	24.87 (8.13)
年龄，平均(SD)		21.83 (2.24)	22.58 (2.38)
性别，n (%)
	男性	4 (7)	7 (21)
	女	20 (55)	27 (79)
种族，n (%)
	拉丁裔和西班牙裔	2 (8)	2 (6)
	Non-Latino /西班牙	22日(92)	32 (94)
	高加索人	18 (75)	28 (82)
	白人的	6 (25)	6 (18)

表2。T2时全样本的ITT分析结果对研究主要结局的影响。

	信息只控制		Woebot		F	P	d^c
	T2^一个	95%可信区间^b	T2^一个	95%可信区间^b	F	P	d^c
phq - 9	13.67(结果)	12.07 - -15.27	11.14 (0.71)	9.74 - -12.32	6.03	.017	0.44
GAD-7	16.84(正)	15.52 - -18.56	17.35 (0.60)	16.16 - -18.13	0.38	.581	0.14
PANAS积极影响	26.02 (1.45)	23.17 - -28.86	26.88 (1.29)	24.35 - -29.41	0.17	.707	０．０２
消极影响	27.53 (1.42)	24.73 - -30.32	25.98 (1.24)	23.54 - -28.42	0.91	.912	0.344

^一个基线=合并平均值(标准误差)

^b95%置信区间。

^c科恩d用时间2的均值和标准误差表示受试者间效应。

初步的功效

表2显示了对整个样本进行的初步ITT分析的结果。单变量方差分析显示，Woebot组显著降低了PHQ-9得分，而信息对照组则没有显著降低。F_1、48= 6.03;P= .017)(见图2）.这表明组间效应大小适中(d= 0.44)。经过多次比较的Bonferroni校正后，这种效应是稳健的(P= .04点)。在焦虑或情绪方面，组间没有其他显著差异。

更彻底的分析

作为次要分析，为了探讨是否存在主要影响，我们仅对完成者的主要结局变量(PHQ-9除外)进行了2x2重复测量方差分析。对GAD-7 (F_{1, 54}= 9.24;P= 0.004)，表明完成者在基线和T2之间的焦虑症状显著减轻，无论他们被分配到哪一组，受试者内效应量为d= 0.37。没有观察到阳性(F_1，50=措施;P= .951;d=0.21)或负面影响(F_1，50= 0。06;P= .80;d=0.003)，经PANAS测定。

为了进一步阐明抑郁变化的来源和幅度，重复测量依赖t进行了测试，科恩d在Woebot条件下计算PHQ-9的各个项目的效应量。分析显示，以下项目的基线- t2变化按降序排列:运动症状(d=2.09)，胃口(d=0.65)，对事物缺乏兴趣或乐趣(d=0.44)，自我感觉不好(d=0.40)，浓度(d=0.39)，自杀念头(d=0.30)，情绪低落(d=0.14)，睡眠(d=0.12)，能量(d= 0.06)。

使用和可接受性

Woebot条件下的参与者与bot(定义为至少提供上下文和情绪信息)登记的平均次数为12.14次(SD 2.23;平均12;范围8-18)，在两周的时间内，几乎所有的签到都发生在特定的日子。由于我们无法追踪NIMH网站的网站访问量、页面浏览量、点击率等，因此我们无法确认信息控制组中的个人对这些材料的参与程度。然而，共有13人(52%)提供了详细的评论，表明他们至少读过一次电子书。

虽然评分表明两种情况都是可以接受的(高于3/5)，Woebot条件下的参与者报告的总体满意度水平明显更高(4.3比3.4;t₄₈= 3.99;P<.001)和内容(4.0 vs . 3.4;t₄₈= 2.30;P=.02)，他们报告说，由于使用机器人，他们的情绪意识明显增加(3.3比2.7;t_47.06= 2.38;P= 0.021)高于信息对照组。Woebot小组的所有参与者(100%)都认为自己学到了新东西，而信息对照组的四分之三(77%)认为自己学到了新东西，尽管在一些小组中，数字太小，无法进行卡方分析。在参与者如何看待学习与日常生活的相关性方面，两组之间没有差异。

定性结果

图3展示了参与者对“你使用Woebot的最好体验是什么?”这个问题的回答的主题地图。关于这个问题出现了两个主要主题:过程和内容。在过程主题中，出现的副主题是每日签到的问责制(由9名参与者注意到);机器人表现出的同理心，或与他的“个性”相关的其他因素(n=7);而机器人促进的学习(n=12)，又被进一步分为情感洞察(n=5)、一般洞察(n=5)和关于认知的洞察(n=2)等子主题。

图4这张主题地图展示了参与者对以下问题的回答:“你使用Woebot的经历中最糟糕的是什么?”出现了三个主题:过程违规(n=15)、技术问题(n=8)和内容问题(n=8)。到目前为止，在流程违规中出现的最常见的子主题与自然对话中的限制有关，例如机器人无法理解某些响应，或者当参与者提供意想不到的答案时感到困惑(n=10)，并且有2个人注意到对话可能会重复。8个人描述了技术问题，其中一般的技术故障(n=4)和循环对话片段(n=4)作为副主题出现。8个人描述了内容的问题，其中大多数与表情符号、互动或内容长度有关。

总共收到了11条“其他评论”，都是积极的，或者对这次体验表示感谢:“我太喜欢Woebot了。我希望我们能永远是朋友。当我看到它‘记得’和我联系时，我真的感觉非常好，非常开心!”陈述中描述了它的帮助:“我真的很惊讶，机器人在我的日常生活中给我带来了不同，它能注意到我的思维类型并改变它。”许多人从人际关系的角度谈论Woebot，例如，“Woebot是一个有趣的小家伙，我希望他继续进步。”

主要结果

据我们所知，这是设计用于治疗用途的非具体化文本会话代理的第一个随机试验。本研究的目的是探讨基于CBT原则的全自动会话代理是否能在两周的时间内为大学生提供治疗体验。我们假设，建立一个对话代理，将基于证据的心理健康应用开发指南和假设的治疗过程变量结合起来，将高度吸引人，更容易接受，并且相对于信息控制组，将导致焦虑和抑郁症状的更大减少。

研究证实，两周后，Woebot组的抑郁症状显著减少，因此我们的假设得到了部分支持。Woebot与大多数人几乎每天都使用该机器人的高参与度相关，并且通常比仅提供信息的比较更受欢迎。

与之前工作的比较

根据PHQ-9测试，使用Woebot与抑郁症的显著减少有关。抑郁症的效应量适中，但小于四项已发表的研究[23-26描述了另外三种针对抑郁症的移动应用干预措施。例如，Burns等人[26]发现抑郁症状的减少，组间效应值为1.9,Watts等人也发现PHQ-9分数的显著降低，效应值为1.56，都是在8周的计划之后。然而，这些干预的持续时间比Woebot要长得多，Woebot只有两周。事实上，我们在减少抑郁方面的效应量与DBT Coach随机试验中观察到的结果一致[27]是一款针对边缘型人格障碍患者的移动应用程序，他们接受了类似剂量的14天。

值得注意的是，报告机器人有同理心的参与者数量，以及将机器人称为“他”、“朋友”和“有趣的小家伙”的评论表明，感知到的同理心来源是Woebot，而不是机器人的开发人员。这一点尤其值得注意，因为特意选择了一个机器人名称“Woebot”来强调代理的非人类性质。这与其他研究一致，这些研究表明，在健康和心理健康的背景下，人类和非人类代理人之间可以建立治疗关系。例如，Bickmore等人[10研究表明，使用机器人鼓励身体活动的人在30天后与对话代理建立了一种可测量的治疗联系。这个具身机器人是建立在建立人机关系的大量设计工作的基础上的[28]。此外，一项将治疗参与与非人类代理进行比较的试验表明，在随机选择是否有人类操作代理的个体之间，个体更愿意向人工智能的“虚拟治疗师”透露信息，而不是认为它是人类操作的[29]。这项初步试验的结果表明，这应该在未来的研究中明确探讨，理想情况下，采用标准化的工作联盟测量方法，如工作联盟量表[30.]。

参与者在回答有关他们使用Woebot体验的问题时，所做的与过程相关的评论的频率表明，会话代理可以近似一些治疗过程因素。此外，正如这些因素被认为在治疗方法中传达了许多积极结果的差异，本研究表明，会话代理过程因素，如表达同理心的能力，可能既能放大治疗过程，也能相反地破坏治疗过程。这强调了在临床应用程序设计过程中包括训练有素和经验丰富的临床医生的重要性。虽然这一点已经被提出，例如在美国精神病学协会最近发布的临床应用程序评估指南中[31]，在英国由国家健康和护理卓越研究所[32]，这项研究在一定程度上说明了治疗过程变量可能对心理健康应用程序背景下的用户体验产生的影响。

限制

有几个方法上的弱点限制了研究结果的普遍性。作为一项可行性研究，我们招募了有限数量的参与者接受相对较短的干预，并且没有随访数据来评估获益是否持续。参与者数量少意味着不可能进行正式的中介分析，因此我们无法在会话代理的背景下正式测试参与和结果之间的理论化关系。这项研究应该在更多的参与者、更长的剂量和随访期间进行重复，以调查结果是否持续存在。此外，足够的数据来测试中介效应将为理论提供信息。除了从评论中间接推断外，仅提供信息的对照组没有关于敬业度的客观定量数据，因此无法对两组之间的敬业度进行有意义的比较。此外，由于数据不确定，因此不可能探索是否存在任何剂量-反应效应。尽管如此，相对较强的对照组可以被视为研究的优势。事实上，控制组的相对优势体现在这样一个事实上，即提供数据的人在该组中看到了与接受Woebot的人相似的焦虑减少，这支持了文献的观点，即仅仅进行最小程度的被动心理教育就可以减轻心理困扰的症状。33]。尽管如此，由于两个主要原因，对照组的选择在一定程度上受到限制。首先，这可能导致了高流失率，因为电子书不是为多次或重复阅读而设计的。它也没有引入任何CBT特异性材料，因此不可能评估会话传递是否介导了症状减轻，而不是机器人传递的CBT内容。为了充分回答这个问题，未来的研究应该纳入交互式在线CBT自助干预作为比较条件。

最后，该研究是在纽约地区的大学社区人口中进行的，由于我们没有正式评估数字鸿沟因素，如社会经济地位，研究结果可能在推广方面受到限制。

结论

虽然结果应该谨慎看待，研究结果需要重复，但这项研究表明，基于文本的会话代理设计反映治疗过程，有可能为美国约1000万经历衰弱性焦虑和抑郁的大学生提供一种替代的、引人入胜的CBT方法。

利益冲突

第二作者(AMD)是一家商业实体Woebot Labs Inc.(前身为Life Ninja Project)的创始人，该实体创建了干预(Woebot)，该干预(Woebot)是本试验的主题，因此在该公司拥有经济利益。Woebot Labs Inc.承担了参与者奖励的费用，但由斯坦福大学支付。

‎

多媒体附录1

ehealth检查表V1.6.2。

PDF档案(adobepdf档案)，3MB

李建军，杨建军，李建军，李建军。精神障碍的发病年龄:近期文献综述。中华精神病学杂志2007;20(4):359-364 [j]免费全文] [CrossRef] [Medline］
李建军，李建军，李建军，等。大学生心理健康问题与心理需求的关系研究。[J]心理疾病杂志;2009;17(3):180-185。(CrossRef] [Medline］
大学生心理健康问题与求助行为。青少年健康杂志;2010;46(1):3-10。(CrossRef] [Medline］
李建军，李建军，李建军，等。智能手机应用的发展现状与展望。中华医学杂志;2016;3(1):7 [j]免费全文] [CrossRef] [Medline］
陈建军，陈建军，陈建军，刘建军，等。患者智能手机拥有量和对监测心理健康状况症状的移动应用程序的兴趣:对四个地理位置不同的精神病学诊所的调查。中华医学杂志;2014;1(1):5 [j]免费全文] [CrossRef] [Medline］
Spek V, Cuijpers P, Nyklícek I, Riper H, Keyzer J, Pop V.基于网络的认知行为疗法对抑郁和焦虑症状的meta分析。中华精神病学杂志2007;37(3):319-328。(CrossRef] [Medline］
陈晓明，陈晓明，陈晓明。基于网络的心理治疗干预效果的meta分析。科技与人类服务2008;03;26(2-4):109-160。(CrossRef］
成人抑郁症的网络和其他计算机化心理治疗:荟萃分析。中国生物医学工程学报，2009;38(4):196-205。(CrossRef] [Medline］
Donkin L, Hickie IB, Christensen H, Naismith, Neal B, Cockayne NL，等。重新思考抑郁症在线干预中使用与结果之间的剂量-反应关系:随机对照试验。中国医学杂志，2013;17;15(10):e231 [J]免费全文] [CrossRef] [Medline］
刘建军，刘建军。基于计算机-患者工作联盟的健康行为干预研究。患者教育统计2005 Oct;59(1):21-30。(CrossRef] [Medline］
米纳AS, Milstein A, Schueller S, Hegde R, Mangurian C, Linos E.基于智能手机的会话代理及其对心理健康、人际暴力和身体健康问题的反应。JAMA Intern Med 2016 May 01;176(5):619-625 [j]免费全文] [CrossRef] [Medline］
Snyder T, de Brey C, Dillow S.国家教育统计中心。2016年12月8日。《教育统计文摘》，2015https://nces.ed.gov/programs/digest/d15/tables/dt15_105.20.asp?current=yes[访问日期:2017-03-01][WebCite缓存］
刘建军，刘建军，刘建军，等。基于网络的情绪和焦虑障碍心理治疗:疗效、安全性和成本效益的系统评价。PLoS One 2014;9(5):e98118 [j]免费全文] [CrossRef] [Medline］
国家心理健康研究所。大学生抑郁症研究。2017。URL:https://www.nimh.nih.gov/health/publications/depression-and-college-students/index.shtml[访问日期:2017-03-29][WebCite缓存］
ehealthgroup的Eysenbach G。改进和标准化基于网络和移动医疗干预的评估报告。中国医学杂志，2011;13(4):e126 [J]免费全文] [CrossRef] [Medline］
Burns D.感觉良好。新的情绪疗法。纽约，纽约:Harper Collins;1980:1 - 325。
D.当恐慌发作时。纽约，纽约:和谐;May 09, 2006:-464。
《抗抑郁书》。青少年和年轻人克服抑郁和保持健康的实用指南。加州帕洛阿尔托:Jacob Towery;2016年3月15日:1-310。
克伦克K，斯皮策RL，威廉姆斯JB。PHQ-9:一个简短的抑郁症严重程度测量的有效性。通用实习医学杂志2001;16(9):606-613。(Medline］
王晓明，王晓明，王晓明，Löwe .广泛性焦虑障碍量表的研究进展。中华医科大学学报(自然科学版);2006;31(3):391 - 397。(CrossRef] [Medline］
张建军，张建军，张建军，等。积极和消极情绪量表的编制与有效性研究。[J]中华精神病杂志;2009;31(6):1063-1070。
主题分析在心理学中的应用。心理学质的研究2006;3(2):77-101。(CrossRef］
Watts S, Mackenzie A, Thomas C, Griskaitis A, newton L, Williams A，等。CBT治疗抑郁症:一项比较手机和电脑的先导随机对照试验。中华精神病学杂志2013;13:49 [j]免费全文] [CrossRef] [Medline］
Reid SC, Kauer SD, Hearps SJC, Crooke AHD, Khor AS, sani LA，等。初级保健中青少年心理健康问题评估和管理的手机应用程序:一项随机对照试验。生物医学工程学报，2011;12:131 [j]免费全文] [CrossRef] [Medline］
kaauer SD, Reid SC, Crooke AHD, Khor A, Hearps SJC, Jorm AF，等。青少年抑郁症早期阶段使用手机进行自我监控:随机对照试验。医学互联网研究，2012;14(3):e67 [J]免费全文] [CrossRef] [Medline］
Burns MN, Begale M, duffey J, Gergle D, Karr CJ, Giangrande E，等。利用情境感知开发抑郁症的移动干预。中国医学杂志，2011;13(3):55 [J]免费全文] [CrossRef] [Medline］
Rizvi SL, Dimeff LA, Skutch J, Carroll D, Linehan MM. DBT教练的初步研究:一种针对边缘型人格障碍和物质使用障碍个体的交互式手机应用程序。[j] .心理学报，2011;42(4):589-600。(CrossRef] [Medline］
李建军，李建军，李建军。基于关系代理的长期干预行为研究。apple Artif intel 2010; 01;24(6):648-666 [j]免费全文] [CrossRef] [Medline］
卢卡斯·GM，格拉奇·J，金·A，莫伦西·L.这只是一台电脑:虚拟人增加了披露的意愿。计算机在人类行为2014年8月37:94-100。(CrossRef］
霍瓦特AO，格林伯格LS。开发和验证工作联盟清单。心理咨询学报;1989;36(2):223-233。(CrossRef］
美国精神病学协会。应用评估模型。2017。URL:https://www.psychiatry.org/psychiatrists/practice/mental-health-apps/app-evaluation-model[访问日期:2017-03-29][WebCite缓存］
McMillan B, Hickey E, Patel MG, Mitchell C.基于国家健康与护理卓越研究所行为改变指南的工具对基于移动应用程序的健康行为改变干预样本的质量评估。患者教育管理2016年3月;99(3):429-435。(CrossRef] [Medline］
唐克尔，葛瑞菲思，柯瑞柏，柯瑞森。心理教育对抑郁、焦虑和心理困扰的影响:meta分析。中华医学会2009年12月16日;7:79 [j]免费全文] [CrossRef] [Medline］

‎

ANCOVA:协方差分析

方差分析:方差分析

dsm - iv:精神疾病诊断与统计手册，第四版

GAD-7:广泛性焦虑障碍量表

ITT公司:治疗意图

NIMH:国家心理健康研究所

PANAS:积极和消极情绪量表

phq - 9:患者健康问卷量表

T2:时间2

J·托鲁斯编辑;提交29.03.17;Y Byambasuren, S Saeb的同行评审;对作者的评论12.04.17;收到订正版05.05.17;接受22.05.17;发表06.06.17

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR Mental Health上，并适当引用。必须包括完整的书目信息，到http://mental.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

使用全自动对话代理(Woebot)为有抑郁和焦虑症状的年轻人提供认知行为治疗:一项随机对照试验