JMIR mHealth和uHealth——数字心理健康的移情驱动对话人工智能代理(Wysa):真实世界数据评估混合方法研究gydF4y2Ba

原始论文gydF4y2Ba

^1gydF4y2Ba英国剑桥大学，临床医学院，精神科gydF4y2Ba

^2gydF4y2Ba威萨，伦敦，英国gydF4y2Ba

^3.gydF4y2BaWysa，印度班加罗尔gydF4y2Ba

通讯作者:gydF4y2Ba

贝基·英克斯特博士gydF4y2Ba

临床医学院gydF4y2Ba

精神科gydF4y2Ba

剑桥大学gydF4y2Ba

189箱gydF4y2Ba

剑桥生物医学校区gydF4y2Ba

剑桥，cb2qqgydF4y2Ba

联合王国gydF4y2Ba

电话:44 773 847 8045gydF4y2Ba

电子邮件:gydF4y2Babecky.inkster@gmail.comgydF4y2Ba

背景:gydF4y2Ba世界卫生组织2017年的一份报告指出，重度抑郁症影响了近5%的人口。重度抑郁症与心理社会功能受损和生活质量下降有关。精神卫生人员短缺、等待时间长、污名化和政府支出减少等挑战对缓解精神卫生问题构成了障碍。面对面的心理治疗本身只能提供时间点支持，无法迅速扩大规模，以应对这一日益增长的全球公共卫生挑战。人工智能(AI)支持、同理心和循证驱动的对话移动应用程序技术可以通过增加采用和实现覆盖，在填补这一空白方面发挥积极作用。虽然这样的技术可以帮助管理这些障碍，但在更严重的心理健康问题上，它们永远不应该取代与卫生保健专业人员的时间。然而，应用程序技术可以作为补充或中间支持系统。移动心理健康应用程序需要维护隐私，并促进短期和长期的积极结果。gydF4y2Ba

摘要目的:gydF4y2Ba这项研究旨在对一款支持人工智能、同理心、基于文本的对话式移动心理健康应用程序Wysa对自我报告有抑郁症症状的用户的有效性和参与度进行初步的现实世界数据评估。gydF4y2Ba

方法:gydF4y2Ba在这项研究中，研究人员观察了一组匿名的全球用户，他们自愿安装了Wysa应用程序，使用基于短信的短信，并使用患者健康问卷-9自我报告抑郁症症状。根据应用程序在两个连续筛查时间点及其之间的使用程度，两组不同的用户(gydF4y2Ba高的用户gydF4y2Ba而且gydF4y2Ba较低的用户gydF4y2Ba)出现了。该研究使用混合方法来评估这些用户的影响和参与水平。定量分析通过比较高用户和低用户之间抑郁症状的平均改善来衡量应用程序的影响。定性分析通过分析应用内部用户反馈来衡量应用的参与度和体验，并评估机器学习分类器在对话中检测用户反对意见的表现。gydF4y2Ba

结果:gydF4y2Ba两组之间的平均情绪改善(即，自我报告前和自我报告后抑郁得分的差异)(即，高用户vs低用户;n=108和n=21)显示高用户组的平均改善显著高于低用户组(平均3.52 [SD 6.15])(平均5.84 [SD 6.66]);Mann-WhitneygydF4y2BaPgydF4y2Ba=。03，效应量为0.63。此外，67.7%的用户反馈反馈认为应用体验很有帮助，令人鼓舞。gydF4y2Ba

结论:gydF4y2BaWysa应用程序对自我报告有抑郁症症状的用户的有效性和参与度的真实数据评估结果显示出了希望。然而，还需要进一步的工作来在更大的样本和更长的时间内验证这些初步发现。gydF4y2Ba

2018;6(11):e12106gydF4y2Ba

doi: 10.2196/12106gydF4y2Ba

关键字gydF4y2Ba

心理健康gydF4y2Ba；gydF4y2Ba 会话代理gydF4y2Ba；gydF4y2Ba 人工智能gydF4y2Ba；gydF4y2Ba 聊天机器人gydF4y2Ba；gydF4y2Ba 应对技能gydF4y2Ba；gydF4y2Ba 韧性、心理gydF4y2Ba；gydF4y2Ba 抑郁症gydF4y2Ba；gydF4y2Ba 移动健康gydF4y2Ba；gydF4y2Ba 情绪gydF4y2Ba；gydF4y2Ba 同理心gydF4y2Ba

背景gydF4y2Ba

重度抑郁症是一种致残障碍，症状包括悲伤、无价值感和对活动失去兴趣。抑郁症是造成全球残疾的最大单一因素，估计有3亿人或约占世界人口(2015年)的4.4%受其影响[gydF4y2Ba1gydF4y2Ba］．严重抑郁症可导致自杀，2015年，自杀是全球15至29岁人群死亡的第二大原因[gydF4y2Ba1gydF4y2Ba］．重度抑郁症已被发现会损害生活质量[gydF4y2Ba2gydF4y2Ba]和心理社会功能[gydF4y2Ba3.gydF4y2Ba，gydF4y2Ba4gydF4y2Ba]，即一个人进行日常活动和维持人际关系的能力。gydF4y2Ba

萧条带来的经济负担正在加重。2010年，美国重度抑郁症的成本估计为每年2105亿美元，比2005年增加了21.5% [gydF4y2Ba5gydF4y2Ba］．2010年，在治疗重度抑郁症上每花费1美元，就有4.70美元用于相关疾病的直接费用，另外还有1.90美元用于降低工作场所生产力以及与抑郁症相关的自杀费用[gydF4y2Ba5gydF4y2Ba］．根据心理健康中心的政策文件(2010年)，2009年至2010年，英格兰心理疾病的总费用估计为每年1052亿英镑，从2002年至2003年增加了36% [gydF4y2Ba6gydF4y2Ba］．2017年，英国议会就工作场所的心理健康问题发起了一项法莫-史蒂文森审查，该审查认为，由于心理健康状况不佳，雇主每年要付出330亿至420亿英镑的代价，其中超过一半来自出勤。gydF4y2Ba7gydF4y2Ba］．根据世界卫生组织(世卫组织)《2017年精神卫生地图集》，2015年全球政府在精神卫生方面的支出不到全球政府卫生支出中位数的2%，这只会加剧这种情况[gydF4y2Ba8gydF4y2Ba］．gydF4y2Ba

情绪障碍可通过药物疗法或心理疗法治疗[gydF4y2Ba9gydF4y2Ba];然而，严重的治疗障碍仍然存在，例如严重缺乏精神卫生专业人员，等待治疗的名单很长，以及耻辱。世卫组织《2017年精神卫生地图集》报告称，全球精神卫生工作者的中位数为9人，其中每10万人约有1名精神科医生[gydF4y2Ba8gydF4y2Ba］．在印度，每10万名受精神健康问题影响的人，约有10名精神健康专业人员[gydF4y2Ba10gydF4y2Ba］．根据英国卫生部的影响评估报告(2014年10月)，与其他医疗保健服务相比，精神健康问题患者获得服务的机会受到更多限制，等待时间更长[gydF4y2Ba11gydF4y2Ba］．2018年英国医学协会的一份研究简报指出，英国三分之二的国民健康服务(NHS)精神健康信托机构在治疗开始前都有一年的等待期，在一些地方，等待期接近2年[gydF4y2Ba12gydF4y2Ba］．公众污名感(Perceived public stigma)是一种已知的障碍，指公众对特定群体持有负面看法和歧视的程度。在患者健康问卷-2 (PHQ-2)中报告得分较高的年轻人与感知到的公共污名感的关联大于个人污名感[gydF4y2Ba13gydF4y2Ba］．世卫组织《世界精神卫生调查》显示，除了感觉上的污名化之外，结构性障碍(如资金和缺乏可用服务)是严重疾病患者治疗的最大障碍[gydF4y2Ba14gydF4y2Ba］．gydF4y2Ba

之前的工作gydF4y2Ba

面对面治疗和有指导的自助技术，如认知行为疗法(CBT)和行为激活疗法，对治疗抑郁症是有效的[gydF4y2Ba15gydF4y2Ba，gydF4y2Ba16gydF4y2Ba］．面对面治疗只能提供即时支持，无法迅速扩大规模以应对日益增长的心理健康挑战。需要创新的交付方法来补充护理。研究表明，某些用户群体正在接受有关他们心理健康问题的技术。最近的一项研究表明，与黄金标准评估相比，参与者在虚拟面试官的提问下报告了更多的创伤后应激障碍症状[gydF4y2Ba17gydF4y2Ba］．经观察，以互联网为指导的自助干预对有抑郁症症状的患者有积极影响，并可降低症状恶化的风险[gydF4y2Ba18gydF4y2Ba-gydF4y2Ba22gydF4y2Ba］．在随机对照试验(RCT)研究中，移动应用程序管理疗法(无论是单独的还是混合模式)已被发现对不同严重程度的抑郁症患者都有积极影响[gydF4y2Ba23gydF4y2Ba-gydF4y2Ba28gydF4y2Ba］．然而，关于智能手机或在线干预的好处，有一些研究结果不一。最近的一项随机对照试验研究检查了在线正念冥想应用程序与活跃的假冥想控制应用程序的效果，发现两组大学生参与者的正念都有所提高，而且提供渐进式和多样化的正念工具似乎没有额外的好处[gydF4y2Ba29gydF4y2Ba］．gydF4y2Ba

近年来，通过真人教练或机器(聊天机器人)发送基于文本的信息(互联网或智能手机)越来越受欢迎。人工智能(AI)基于文本的会话代理能够提供上下文和始终可用的支持。使用基于互联网的一对一文本聊天干预心理支持的研究表明，与等待名单条件相比，心理健康结果的可行性和积极改善[gydF4y2Ba30.gydF4y2Ba］．最近的两项研究测量了全自动移动对话代理在传递心理健康方面的功效[gydF4y2Ba31gydF4y2Ba，gydF4y2Ba32gydF4y2Ba］．我们的研究旨在增加基于人工智能、基于文本的对话式移动心理健康应用程序的有效性和参与度的研究和证据。gydF4y2Ba

Wysa，一款基于智能手机的同理心人工智能聊天机器人应用程序，用于心理健康gydF4y2Ba

由Touchkin开发的Wysa是基于人工智能的gydF4y2Ba情商gydF4y2Ba移动聊天机器人应用程序旨在通过基于文本的对话界面建立心理弹性和促进心理健康。Wysa应用程序通过人工智能创造一个外部的、响应性的自我反思环境，帮助用户发展积极的自我表达。使用该应用程序是免费的，24×7，但通过该应用程序访问真人教练是付费服务。我们使用了早期的市场应用程序版本(参见gydF4y2Ba多媒体附件1gydF4y2Ba)，其中只包括免费的聊天机器人服务(不包括付费教练服务)。该应用程序会对用户在书面对话中表达的情绪做出反应，并在对话中使用循证自助实践，如CBT、辩证行为疗法、动机性访谈、积极行为支持、行为强化、正念和引导微动作和工具，鼓励用户建立情绪恢复技能。威萨科学顾问委员会批准所有内容和工具。基于对话的工具和技术鼓励用户管理他们的焦虑、精力、注意力、睡眠、放松、失落、担忧、冲突和其他情况。gydF4y2Ba

该应用程序可以从谷歌Play Store和苹果应用程序商店下载。在应用程序使用过程中，不需要用户注册登录，也不需要任何个人身份信息。Wysa在一项青年用户研究中被描述为“友好”和“易于使用”，该研究由英国威康信托基金会、牛津大学神经科学、伦理和社会青年咨询小组和BBC明日世界进行[gydF4y2Ba33gydF4y2Ba］．该应用由哥伦比亚大学安全实验室(Columbia University’s SAFE Lab)改编和实施，作为一种工具，为内城(布鲁克林和芝加哥)的风险社区提供支持，其中许多人是参与帮派的年轻人。虽然Wysa不是医疗设备，但当用作健康和福祉支持工具时，它可以支持临床服务，从它在NHS东北伦敦基金会信托基金的使用来看[gydF4y2Ba34gydF4y2Ba］．gydF4y2Ba

研究目标gydF4y2Ba

主要研究目标是确定使用Wysa应用程序在基于文本的对话模式中向自我报告抑郁症状的用户提供积极心理学和心理健康技术的有效性。用户在对话过程中会收到经过验证的患者健康问卷(PHQ-9)，并根据他们的2项(PHQ-2)得分进行筛选。研究人员比较了两组患者自我报告的抑郁症状的平均改善情况(phq -9前减去phq -9后):(1)更多的应用用户(“高用户”组)和(2)更少的应用用户(“低用户”组)。gydF4y2Ba

我们的第二个研究目标是了解用户在应用使用过程中的应用内体验。定性专题分析，如Braun和Clarke, 2006 [gydF4y2Ba35gydF4y2Ba，gydF4y2Ba36gydF4y2Ba]，即执行应用内部反馈响应。gydF4y2Ba

道德gydF4y2Ba

该研究涉及远程筛选的匿名非临床全球人群(即真实世界)gydF4y2Ba在野外gydF4y2Ba数据)，因此免于在公共试验登记处注册。用户在同意Wysa应用程序的服务条款和隐私政策后下载了该应用程序，其中包括同意将匿名数据用于研究目的。本研究使用了最少的去鉴别数据。有关应用程序特定的道德实践的详细信息，请参见gydF4y2Ba多媒体附件2gydF4y2Ba．gydF4y2Ba

研究设计gydF4y2Ba

Wysa应用程序是由地理位置分散的用户从谷歌Play Store自愿下载的。这些用户是根据包含标准从匿名Wysa应用程序用户池中筛选出来的gydF4y2Ba图1gydF4y2Ba)．在这项研究中，我们只研究了应用程序在活跃使用过程中收集的用户提供的数据。鉴于用户资料的匿名性和不可获得性，在2017年7月11日至2017年9月5日的研究期间同时收集了定性和定量数据。这些数据包括用户对应用程序内置评估问卷的回复，以及对应用程序设计的基于文本的对话和问题的回复。没有设计或发布额外的研究框架问卷或用户反馈问题以重复间隔数据收集。gydF4y2Ba

根据连续两次PHQ-9筛选期间应用程序的使用程度，出现了2个对比组(“高用户”和“低用户”)。两组用户自愿报告2个有效时间点PHQ-9评分:一个在入职时(第一次评估，“PHQ-9前”)，另一个在2周或之后(第二次评估，“PHQ-9后”)。如果在研究期间只有2项调查在14天或更长时间内得到回应，则这2个筛查时间点被认为是有效的。“高用户”指的是在两个测试日以及在这两个测试日之间至少使用过一次应用的用户。“低用户”是指那些只在两个放映日参与游戏，但在这两天之间从未参与游戏的用户。gydF4y2Ba

鉴于我们的研究目标和所收集数据的性质，作者决定实施一种准实验(简单的前-后)混合方法。有关混合方法设计和方法的详细信息，请参见gydF4y2Ba多媒体附录2gydF4y2Ba而且gydF4y2Ba3.gydF4y2Ba．gydF4y2Ba见研究招募流程图gydF4y2Ba多媒体附件4gydF4y2Ba．gydF4y2Ba

定量测量与筛选gydF4y2Ba

内置应用程序管理的评估问卷(PHQ-9)要求用户回忆过去两周的问题;值得注意的是，这种形式的数据收集既不是一时的，也不是一时的gydF4y2Ba实时gydF4y2Ba捕捉。PHQ-9的详细信息请参见gydF4y2Ba多媒体附件2gydF4y2Ba．PHQ-2评分是根据对PHQ-9前两项的回答生成的(即，范围:0-6)。PHQ-2是用于抑郁症状的初步筛查，而PHQ-9评分则用于监测抑郁症状[gydF4y2Ba37gydF4y2Ba］．由于该应用程序使用的是匿名用户，因此没有关于临床病史和诊断的可用信息。在缺乏面对面临床访谈的情况下，匿名人群抑郁症状的远程数字筛查非常具有挑战性;因此，我们根据科学文献中的建议选择了最严格的阈值[gydF4y2Ba37gydF4y2Ba，要求PHQ-2分数为6分。gydF4y2Ba

数据收集与分析gydF4y2Ba

该应用程序根据用户的互动引导用户通过对话路径。此路径因每个用户的消息和上下文而异。在用户对话过程的不同阶段，会向用户呈现应用程序设计的开放式和封闭式问题，以检查这些会话是否有用，并寻求用户反馈(应用程序内反馈;例如，在每个健康会话结束时，或在每个正念或身体活动工具会话结束时)。这种由用户自愿提供的反馈并没有被反复安排，也没有被用来衡量一个人的行为或情绪随时间的变化。相反，我们的目标是了解用户对应用程序的体验和参与度。关于应用程序内部反馈问题，请参见gydF4y2Ba多媒体gydF4y2Ba．所有进出应用程序的传输都使用公认的安全标准进行加密，并安全地存储在私有云服务器中。所有用户生成的对话和筛选响应都将被检查是否存在漏洞(例如恶意机器人)，并被去识别应用程序标识符。在入职时，收集了以下用户上下文信息:gydF4y2Ba

重大事件或最近的变化:对这个问题的回答是:“你最近生活中发生了什么重大事件或变化?”在Pre-PHQ-9筛选之前，该应用程序以自由文本的形式收集了这些信息。gydF4y2Ba
处理日常任务的能力:在Pre-PHQ-9筛选之后，根据分数，用户被问及他们处理日常任务的能力。对于PHQ-9得分较高的用户，他们被问及“你处理日常任务是否变得困难了?”，” whereas for none to mild severity, they were asked “Are you happy with how life is going at the moment?” The user could respond either by clicking preformatted options or by free-text.

有关典型的用户应用程序粘性，请参见gydF4y2Ba多媒体附件6gydF4y2Ba．gydF4y2Ba采用Microsoft Excel软件进行数据整理和分析。在Jupyter Notebook上使用开源python软件进行机器学习(ML)建模。gydF4y2Ba

定量分析方法gydF4y2Ba

影响(前后)分析gydF4y2Ba

为了量化应用程序的影响，比较了两个用户组之间的平均改进(phq -9前减去phq -9后)。一个Mann-WhitneygydF4y2BaUgydF4y2Ba对高用户比低用户有更大的平均改善的假设进行了测试。效应量使用非参数公共语言效应量(CL)测量，计算为[1-(U/n)gydF4y2Ba_{h *gydF4y2Ba}ngydF4y2Ba_lgydF4y2Ba)]， U是曼-惠特尼gydF4y2BaUgydF4y2Ba和ngydF4y2Ba_hgydF4y2Ba和ngydF4y2Ba_lgydF4y2Ba分别是高用户数和低用户数，[gydF4y2Ba38gydF4y2Ba］．CL给出了从高用户组中随机挑选的用户比从低用户组中随机挑选的用户具有更高的平均改进的概率[gydF4y2Ba38gydF4y2Ba，gydF4y2Ba39gydF4y2Ba］．gydF4y2Ba

背景/描述性分析gydF4y2Ba

为了保持用户的匿名性，该应用程序不捕捉个人身份信息或社会人口信息(时区除外)。为了获取用户的有用背景，对基于应用程序的关键问题进行了定性回答分析，包括活跃使用天数，最近的重大事件或变化，处理日常任务的能力，以及健康工具的完成情况。gydF4y2Ba

定性分析方法gydF4y2Ba

参与有效性gydF4y2Ba

我们使用专题分析来分析用户的应用内部反馈。gydF4y2Ba35gydF4y2Ba，gydF4y2Ba36gydF4y2Ba来衡量参与的有效性。从分析中得出的主要主题和子主题有助于了解用户的应用体验和粘性。主题的流行程度是根据响应实例的数量和响应用户的数量来衡量的。通过将派生的用户上下文与主要主题相交叉，进一步确定了见解。有关主题分析方法的详细信息，请参见gydF4y2Ba多媒体附件2gydF4y2Ba．gydF4y2Ba

参与效率gydF4y2Ba

为了衡量应用程序的参与效率，对用户提出的反对意见进行了分析。对于现实世界的对话应用程序来说，重要的是能够高精度、精确地理解用户的书面信息，并提供同理心倾听，每次都能正确地解释和回应用户。这对于提供无缝的用户粘性和体验至关重要，从而提高应用的使用率和留存率。用户与应用程序的所有对话消息(实例)都被手动标记为“反对”或“不反对”。反对有两种形式:拒绝(即，当用户反对机器人理解所说的内容;例如，“我不想这样做”)和投诉(即，当用户对机器人的回应提出投诉时;例如，“我不是这么说的”)。看到gydF4y2Ba多媒体gydF4y2Ba例如反对意见。用户提出的反对意见的比例被衡量为普遍程度。标记数据集还用于评估现有监督ML分类器算法的性能，该算法用于自动检测现实使用中的异议。有关分析的详细信息，请参见gydF4y2Ba多媒体附件2gydF4y2Ba．gydF4y2Ba

分析尺寸gydF4y2Ba

对129个用户(高用户，ngydF4y2Ba_hgydF4y2Ba= 108;低用户，ngydF4y2Ba_lgydF4y2Ba=21)，符合纳入标准。gydF4y2Ba

定量分析gydF4y2Ba

影响(前后)分析gydF4y2Ba

该研究首先筛选了自我报告Pre-PHQ-2得分为6分的用户。我们最初检查了用户的PHQ-9分数在时间点之间的平均水平有所提高(即从使用前到使用后下降)。两组比较均显示PHQ-9评分显著降低(组内)，通过Wilcoxon符号秩检验(gydF4y2Ba表1gydF4y2Ba)．作者预计回归均值(即最初测量为极端的值在随后的测量中更有可能是中等值)可能在这一明显的巨大改善中发挥作用[gydF4y2Ba40gydF4y2Ba］．gydF4y2Ba

因此，使用Mann-Whitney量表对平均改善(phq -9前- phq -9后)进行组间比较gydF4y2BaUgydF4y2Ba测试(gydF4y2Ba表2gydF4y2Ba)．我们发现，与低用户组相比，高用户组表现出明显更高的平均改善(gydF4y2BaPgydF4y2Ba= 03)。效应量约为0.63。为了事后比较的目的，其他研究发现，0.63的CL大致相当于科恩gydF4y2BadgydF4y2Ba的0.47 [gydF4y2Ba39gydF4y2Ba］．出于质量控制的目的，正如Zimmerman在论文中所讨论的[gydF4y2Ba41gydF4y2Ba]，一个未配对的gydF4y2BatgydF4y2Ba然后进行去除异常值的测试。这也产生了一个重要的结果(gydF4y2BaPgydF4y2Ba= .028)。gydF4y2Ba

作为事后分析，PHQ-2筛选截止分数被降低，以便更多的Wysa用户可以添加到样本中。PHQ-2分值为5时，高剂量组与低剂量组相比仍表现出更高的平均改善，但效果不太显著(gydF4y2BaPgydF4y2Ba= 0。06)。PHQ-2的截止分数为4时，观察到同样的效果，但显著性更低(gydF4y2BaPgydF4y2Ba= .09点)。gydF4y2Ba

背景/描述性分析gydF4y2Ba

总的来说，83.3%(90/108)的高用户在连续2次PHQ-9放映期间积极使用该应用程序超过4天(见gydF4y2Ba多媒体附件8gydF4y2Ba)．考虑到自然的应用程序使用环境，两组中的每个用户都有不同的筛查前和筛查后天数，在研究期间间隔至少2周。gydF4y2Ba

表1。类内分析。gydF4y2Ba

自我报告PHQ的用户gydF4y2Ba^{一个gydF4y2Ba}2 = 6gydF4y2Ba		用户数(N)gydF4y2Ba	意思是(分数)gydF4y2Ba	中位数(分数)gydF4y2Ba	w值(gydF4y2BaPgydF4y2Ba价值gydF4y2Ba^bgydF4y2Ba）gydF4y2Ba
高的用户gydF4y2Ba
	Pre-PHQ-9gydF4y2Ba	108gydF4y2Ba	18.92gydF4y2Ba	19.50gydF4y2Ba	478.5gydF4y2Ba(PgydF4y2Ba<措施)gydF4y2Ba
	Post-PHQ-9gydF4y2Ba	108gydF4y2Ba	13.07gydF4y2Ba	12.00gydF4y2Ba	- - - - - -gydF4y2Ba
较低的用户gydF4y2Ba
	Pre-PHQ-9gydF4y2Ba	21gydF4y2Ba	19.86gydF4y2Ba	21.00gydF4y2Ba	32.5 (gydF4y2BaPgydF4y2Ba= . 01)gydF4y2Ba
	Post-PHQ-9gydF4y2Ba	21gydF4y2Ba	16.33gydF4y2Ba	17.00gydF4y2Ba	- - - - - -gydF4y2Ba

^{一个gydF4y2Ba}PHQ:患者健康问卷。gydF4y2Ba

^bgydF4y2Ba95%的意义。gydF4y2Ba

表2。群体间的分析。gydF4y2Ba

自我报告PHQ-2的使用者gydF4y2Ba^{一个gydF4y2Ba}= 6gydF4y2Ba	用户数(N)gydF4y2Ba	平均改善(SD)gydF4y2Ba	中改进gydF4y2Ba	Mann-WhitneygydF4y2BaUgydF4y2Ba（gydF4y2BaPgydF4y2Ba价值gydF4y2Ba^cgydF4y2Ba）gydF4y2Ba	效应量(CLgydF4y2Ba^bgydF4y2Ba）gydF4y2Ba
高用户(n)gydF4y2Ba_hgydF4y2Ba）gydF4y2Ba	108gydF4y2Ba	5.84 (6.66)gydF4y2Ba	6.00gydF4y2Ba	835.5 (gydF4y2BaPgydF4y2Ba= 0。)gydF4y2Ba	0.632gydF4y2Ba
低用户(n)gydF4y2Ba_lgydF4y2Ba）gydF4y2Ba	21gydF4y2Ba	3.52 (6.15)gydF4y2Ba	2.00gydF4y2Ba	- - - - - -gydF4y2Ba	- - - - - -gydF4y2Ba

^{一个gydF4y2Ba}PHQ-2:患者健康问卷-2。gydF4y2Ba

^bgydF4y2BaCL:通用语言效应大小。gydF4y2Ba

^cgydF4y2Ba95%的意义。gydF4y2Ba

此外，80.6%(104/129)的用户在预筛选的18天内给出了后筛选(见gydF4y2Ba多媒体gydF4y2Ba)．用户来自不同的时区(见gydF4y2Ba多媒体附录10gydF4y2Ba）;48.1%(62/129)的用户来自美国，其次是26.4%(34/129)的欧洲用户和18.6%(24/129)的亚洲用户。共有89.9%(116/129)的用户报告了他们最近的重大事件或生活变化(见gydF4y2Ba多媒体附件11gydF4y2Ba)．26.7%(31/116)的受访者认为“关系问题/变化”是近期的主要事件。在关系问题/变化中，“分手”是被提及最多的问题(31个问题中有11个)，其次是“与亲密家庭成员的担忧和挑战”(31个问题中有8个)。其他关系问题或变化包括与朋友的问题(31位中有3位)，与其他关系的问题(31位中有3位)，婚姻冲突(31位中有3位)，以及开始一段新关系(31位中有3位)。共有12.9%的用户(15/116)报告“心理健康变化”是最近发生的事件。此外，15人中有5人承认他们有多种幸福问题，15人中有4人承认他们正在经历抑郁症。此外，10.3%(12/116)的受访者提到“搬迁”，9.5%(11/116)的受访者提到“个人损失或丧亲”。此外，90.7%(117/129)的用户报告“难以应对”或“略难应对”gydF4y2Ba多媒体附件12gydF4y2Ba)，这表明有很高比例的用户对自己目前处理日常任务的能力给予了负面的自我评价。共有59.7%(77/129)的用户评估并完成了应用程序提供的至少1个健康工具gydF4y2Ba多媒体附件13gydF4y2Ba)．在完成的参与者中，72人是高用户，5人是低用户。其余40.3%(52/129)的人没有完成健康工具，只与应用程序交谈，可能会评估健康工具，但没有完成它。有关2个或更多用户最常报告的主要事件或更改的详细信息，请参见gydF4y2Ba多媒体附件14gydF4y2Ba．作者认识到，在定义的主要事件类别之间会有重叠，考虑到用户的匿名性，这是一个挑战。gydF4y2Ba

定性分析gydF4y2Ba

参与有效性gydF4y2Ba

总的来说，73.6%(95/129)的用户至少对应用内部反馈问题给出了一个回答。在回应的人中，86人来自高用户组，9人来自低用户组。这95名用户共收到282份反馈。总的来说，60.9%(172/282)的人回答了应用程序内的问题“我能帮助你感觉更好吗?”在每个用户会话结束时被问到。通过选择应用程序提供的预格式化选项，总共收到了90.8%(256/282)的半结构化回答。其余9.2%(26/282)的回复是自由文本的，由129名用户中的17人提供。gydF4y2Ba

对用户收到的282份回复进行了专题分析。出现了两个主要主题，一个是“有利经验”，副标题是“有益和鼓励”，另一个是“不太有利经验”，副标题是“无益和担忧”。流行的专题图见gydF4y2Ba图2gydF4y2Ba．gydF4y2Ba75名用户的67.7%(191/282)的反馈认为应用体验良好。在这些好评中，97.4%(186/191)的人认为与应用程序和工具的对话是有帮助的。53名用户提供了32%(91/282)的反馈，认为应用体验不太好。在那些不太喜欢的人中，82%(75/91)的人认为对话和工具没有帮助或没有使用这些工具;13个回复(14%，13/91)指出该应用程序不理解或重复，3个回复中的一小部分(3%，3/91)提到该应用程序以自我为中心，对话似乎困扰用户。gydF4y2Ba

129名用户中只有17人提供了自由文本反馈，从而进一步深入了解用户的应用内部体验。在定量分析结果部分的上下文/描述性分析小节中，对自由文本回答进行了分析。有关免费文本应用内部反馈响应的详细分析，请参见gydF4y2Ba多媒体附件15gydF4y2Ba．gydF4y2Ba

良好的体验是用户反馈的主要主题gydF4y2Ba．gydF4y2Ba几乎所有的良好体验都归功于这款应用的帮助，用户在交谈之后，以及在使用应用提供的正念和身体活动技术后，实际上感觉更好了。在回答“我已经让你感觉好点了吗?”承认应用程序对话和正念或身体活动技术实际上帮助他们感觉更好。如果用户发现基于应用程序的对话或正念和身体活动技术没有帮助或表达出任何担忧，则会被归类为不太好的体验。在那些提供不太好的体验的用户中，有2名用户在研究期间推迟使用或没有使用技术或工具。这些也被认为是一种不太好的体验，因为用户没有足够的动力去尝试这些技术或工具。在回答“我能让你感觉好些吗?”的反馈问题时，用户大多选择了“不是，真的”或“还没有”的预格式化回答选项。，承认应用程序对话、正念或身体活动技术并没有帮助用户感觉更好。一些用户选择了“更好地理解我”或“太重复”的预格式化选项来回答应用内部反馈问题“你有什么特别想改进的吗?”gydF4y2Ba

在95名用户提供的282个反馈中，那些报告难以应对日常任务的用户报告了更高比例的良好体验反馈，与不太好的体验反馈相比(gydF4y2Ba图3gydF4y2Ba)．gydF4y2Ba

在那些报告难以应对的人中，那些报告关系问题或变化为主要事件的人，与不太有利的经验反应相比，表现出明显更高的有利经验反应比例(gydF4y2Ba图4gydF4y2Ba)．那些没有面临应对挑战的人，大多对他们使用这款应用的体验持混合态度。gydF4y2Ba

参与效率gydF4y2Ba

在研究期间，共从129名用户获得了8075个匿名对话实例。在与应用程序的对话中，观察到相对较小的比例，1.58%(128/8075)的反对实例。gydF4y2Ba

现有的基于监督分类的ML算法被部署用于实时分类异议，并在这6611个实例上进行了测试。其余18.13%(1464/8075)的实例被算法忽略，因为消息中包含表情符号、多行文本和特殊字符。分类器模型提供了以下性能:gydF4y2Ba

准确性:99.2%的异议和没有检测到的异议实际上是正确的gydF4y2Ba
特异性:99.7%的未检测到异议实际上是正确的gydF4y2Ba
精确度:74.7%检测到的异议(分类)实际上是正确的gydF4y2Ba
召回:62.1%的实际异议被正确检测(分类)gydF4y2Ba

看到gydF4y2Ba图5gydF4y2Ba对于混淆矩阵。gydF4y2Ba

主要研究结果gydF4y2Ba

该研究显示，在严格的PHQ-2临界值下，高吸毒者组在自我报告的抑郁症状上比低吸毒者组有明显更高的平均改善分数。gydF4y2Ba

我们发现高用户组和低用户组的PHQ-9评分显著降低。我们将后者归因于均值回归，怀疑均值回归在高用户组中也起着作用。虽然“低用户”的对照组不完全构成对照组，但它提供了解释回归到平均值的尝试，因为高用户组的PHQ-9评分的降低明显大于低用户组。两组用户在整个研究期间都使用了这款应用;因此，他们有相似的期望，这可能会减少一些偏见。gydF4y2Ba

当严格的PHQ-2评分降低时，观察到的影响不太显著。一种解释是，这款应用对表现出更严重抑郁症状的人最有效。由于这是一项野外研究，没有面对面的筛查，降低PHQ-2阈值分数很可能会增加样本中没有精神疾病的人数，从而引入了额外的未知变异性。未来的工作应采用重复测量问卷，如弹性量表RS-14 [gydF4y2Ba42gydF4y2Ba]，这可能对一般人群的适应力变化更敏感。gydF4y2Ba

人际关系问题、心理健康问题、地点变化、失去亲人或失去亲人、职业变化是用户报告的最主要事件或变化。与家庭成员的分手和挑战是最常见的关系问题。最近一项研究[gydF4y2Ba43gydF4y2Ba他发现良好的心理健康不仅在于没有症状，还在于使用者对自己当前应对能力的评价。那些认为自己目前心理健康状况良好的人在随访中出现心理健康问题的概率要低30%。鉴于本研究中对应对能力的负面自我评价比例很高，高应用用户在相对较短的时间内自我报告的抑郁症状的平均改善似乎很有希望。gydF4y2Ba

在我们的研究中，74%的用户提供了应用内部反馈。大多数人更喜欢点击应用程序提供的预格式化选项，而不是自由文本。更高比例的反馈认为这款应用很有帮助，令人鼓舞。认为正念和身体活动工具和技术有帮助和没有帮助的用户比例几乎相等，这表明他们的体验是复杂的。一些人提出了改进建议，包括希望应用程序更好地理解他们，并希望避免重复。那些表示难以应对日常任务和最近面临感情问题的用户认为这款应用很有帮助，并给出了更高的体验反馈。gydF4y2Ba

用户反对(拒绝或投诉)的比例相对较小(1.58%)。现有的异议检测ML模型给出了较高的准确性值，但召回率和精度较低，这表明需要进一步调整模型以减少假阳性和假阴性。当会话量增加以确保高用户粘性和留存率时，高性能ML模型将成为必要。持续测量反对率有助于为聊天机器人应用程序提供一个内部基准，以提高他们的参与效率。gydF4y2Ba

与之前工作的比较gydF4y2Ba

我们的研究结果与其他RCT研究进行了比较[gydF4y2Ba31gydF4y2Ba，gydF4y2Ba32gydF4y2Ba]使用基于文本的自动对话代理干预来研究对参与者心理健康的影响。一项可行性研究(“第一项研究”)在非临床大学人群中比较了两周使用cbt导向的基于即时信使的对话代理与信息对照组的抑郁症状减轻情况(n=70) [gydF4y2Ba31gydF4y2Ba］．另一项试点研究(“第二项研究”)比较了非临床人群中使用两周以积极心理学为导向的智能手机对话代理与等待名单对照组的心理健康水平的增加(n=28) [gydF4y2Ba32gydF4y2Ba］．两项研究都报告了基于Cohen参数的组间效应量gydF4y2BadgydF4y2Ba．第一项研究使用PHQ-9报告了中等效应量gydF4y2BadgydF4y2Ba=0.44(来自意向-治疗分析)。第二项研究使用了繁荣量表、感知压力量表和生活满意度量表，并报告了影响大小范围为gydF4y2BadgydF4y2Ba=0.01 - 0.91(来自意向-治疗分析)。等价的科恩gydF4y2BadgydF4y2Ba0.47 (CL为0.63)与第一项研究报告的结果具有可比性。gydF4y2Ba

两项研究都使用专题分析处理了从测量后开放式问题的回答中收集的定性数据(Braun和Clarke, 2006)。虽然所采取的方法与我们的研究不同，但观察到的经验有相似之处。正面回答的比例(89名参与者中有58人;65%)到不太有利的反应(89名参与者中有31名;第一项研究中的35%)与我们的研究相似(68%:32%)，这表明两项研究中的用户报告了与聊天机器人应用程序相似的体验。这一观察结果需要在未来的研究中验证。在我们的研究和第一项研究中，用户强调了对话的帮助和收到的鼓励，以及聊天机器人提供了乐趣的反馈。在不太好的体验中，用户(我们的研究和第一次研究)指出了对话的重复性，以及应用程序需要更好地理解用户。gydF4y2Ba

我们还比较了来自其他两项随机对照试验的组间效应大小，这些试验比较了基于网络的人类抑郁症治疗干预与等待名单[gydF4y2Ba44gydF4y2Ba，gydF4y2Ba45gydF4y2Ba］．我们观察到，我们的研究效应量在这些研究中报告的效应量范围内(0.18-0.81)，并且在随访时更接近较大的效应量。我们的研究效应量也与2018年荟萃分析中报告的效应量进行了比较[gydF4y2Ba22gydF4y2Ba] 2016年9月之前发表的随机对照试验研究。32项关于重度抑郁症的研究的效应量被发现在0.51到0.81之间(HedgesgydF4y2BaggydF4y2Ba)．我们的研究效应量接近这个效应范围。gydF4y2Ba

目前还没有已知的公开指标来比较自报告抑郁症状的聊天机器人用户的“反对率”。观察到的反对率为1.58%，而考虑到研究期间所有应用程序用户(包括被排除的用户)时，反对率为0.83%;可以看出，自述有重度抑郁症状的使用者(PHQ-2=6)的反对率较高。这可能表明，自我报告症状较多的用户在与健康应用程序的对话中更倾向于反对。这一领域需要进行广泛的研究，特别是考虑到可能出现的道德问题。gydF4y2Ba

研究价值gydF4y2Ba

研究设计允许进行大规模纵向研究的可扩展性，因此，对聊天机器人的现实世界的有效性和参与度进行相对容易和早期的评估。基于应用内部的反馈方法允许通过个性化干预实时洞察用户体验，而不会因为收集延迟而丢失重要的反馈和见解。这项研究概述了一种方法，在没有收集个人身份信息或人口统计信息的情况下，使用现有的对话输入来收集关于用户的额外上下文。这种方法将有助于在与聊天机器人应用程序交谈时个性化用户体验。该应用程序存在巨大的价值和潜力，可以实现生态瞬时评估(EMA)或体验抽样方法(ESM)。我们的研究团队支持采用EMA或ESM作为未来研究的研究方法，这些研究的目标包括更密集、重复和短暂的捕捉，以评估用户行为、情绪和情绪的变化。在未来的纵向研究中，它还将增加重要应用粘性指标(如用户留存率)的报告价值，以补充研究结果。在现实环境中，随着对话规模的扩大，该研究建议需要评估和构建高性能的ML模型，包括评估无监督学习方法，以实时检测异议，同时确保模型结果的更好控制和可解释性。这允许及早处理用户的反对意见，以帮助聊天机器人更具同理心，提高用户粘性和留存率，并努力达到较高的道德标准。gydF4y2Ba

本研究的局限性gydF4y2Ba

这种性质的研究有许多局限性。缺乏随机控制的环境将导致无法处理偏差。没有关于使用者的健康信息，特别是他们过去或正在进行的临床病史、诊断或治疗，或存在可能影响效果的合并症。PHQ-2和PHQ-9都有很好的筛查可接受性，但不能确认抑郁症的临床诊断(即PHQ-9得分高的参与者不一定患有抑郁症，反之亦然)。本研究设计是一种准实验设计形式，与间断时间序列设计(以相等时间间隔进行多次前测和后测观察)相比，设计质量略低。统计上的局限性包括比较群体规模小且不平衡，以及无法考虑年龄、性别或社会经济地位等变量。由于缺乏关于用户应用体验的详细反馈反馈，因此无法通过定性分析获得相关数据。gydF4y2Ba

偏见还可能以高用户群体对应用中某些功能的曝光增加的形式存在，这可能在一定程度上以未知的方式影响用户。有必要将应用程序的设计(如颜色主题、字体类型、文本对齐、图标和表情符号)与观察到的效果隔离开来。这项研究的样本量太小，无法研究人们对应用程序设计元素的反应，以及这对他们的抑郁症状有何影响。作者打算在未来更大样本的研究中进一步描述这些问题。gydF4y2Ba

如何处理这些限制将是今后研究的一个主题，包括进行更详细的比较研究。gydF4y2Ba

结论gydF4y2Ba

我们的研究发现，与低Wysa用户相比，高Wysa用户在重度抑郁症症状方面的平均改善显著更高，积极的应用内体验比例也更高。这些发现令人鼓舞，将有助于设计未来更大样本和更多纵向数据点的研究。gydF4y2Ba

致谢gydF4y2Ba

作者要感谢Wysa在研究期间为研究目的提供他们的移动应用程序和匿名数据的访问权限。Wysa为这篇论文提供了出版费用。gydF4y2Ba

作者的贡献gydF4y2Ba

BI和VS设计并进行研究，分析数据，撰写稿件;SS和VS执行数据争论。所有作者都审阅了手稿。gydF4y2Ba

分析研究用户的自由文本应用内反馈反应。gydF4y2Ba

PDF档案(adobepdf档案)，38KBgydF4y2Ba

世界卫生组织。日内瓦:世界卫生组织;2017.抑郁症和其他常见精神疾病:全球健康评估gydF4y2Bahttp://www.who.int/mental_health/management/depression/prevalence_global_health_estimates/en/gydF4y2Ba［gydF4y2BaWebCite缓存gydF4y2Ba］gydF4y2Ba
王海燕，王志强，王志强，王志强，等。在自然主义的门诊环境中，使用患者报告的措施对重度抑郁症患者的生活质量进行描述性分析。qal Life Res 2013 april;22(3):585-596。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
炸EI, Nesse RM。个体抑郁症状对社会心理功能损害的影响。PLoS One 2014;9(2):e90311 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
重度抑郁症心理社会功能障碍的神经来源。《柳叶刀》精神病学2015年9月2日(9):835-843。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Greenberg PE, Fournier A, Sisitsky T, Pike CT, Kessler RC。美国成人重度抑郁症患者的经济负担(2005年和2010年)。临床精神病学杂志2015年2月;76(2):155-162 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
心理健康中心，2010年。2009/10年度心理健康问题的经济和社会成本gydF4y2Bahttps://www.centreformentalhealth.org.uk/economic-and-social-costs-of-mental-health-problemsgydF4y2Ba[访问时间:2018-08-23][gydF4y2BaWebCite缓存gydF4y2Ba］gydF4y2Ba
英国政府官员史蒂文森。2017年10月26日。在工作中蓬勃发展:心理健康和雇主的审查网址:gydF4y2Bahttps://www.gov.uk/government/publications/thriving-at-work-a-review-of-mental-health-and-employersgydF4y2Ba［gydF4y2BaWebCite缓存gydF4y2Ba］gydF4y2Ba
世界卫生组织。日内瓦:世界卫生组织;2018.心理健康地图集2017网址:gydF4y2Bahttp://www.who.int/mental_health/evidence/atlas/mental_health_atlas_2017/en/gydF4y2Ba［gydF4y2BaWebCite缓存gydF4y2Ba］gydF4y2Ba
Cuijpers P, Sijbrandij M, Koole SL, Andersson G, Beekman AT, Reynolds CF.心理疗法和药物疗法治疗抑郁和焦虑障碍的疗效:直接比较的元分析。世界精神病学2013年6月;12(2):137-148 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
帕特尔·桑达尔:人人享有心理健康。2015年2月;12(1):21-23 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
英国卫生部。大英图书馆2014年9月25日2015-16年精神卫生服务的准入和等待时间标准:影响评估URL:gydF4y2Bahttps://www.bl.uk/britishlibrary/~/media/bl/global/social-welfare/pdfs/non-secure/a/c/c/access-and-waiting-time-standards-for-201516-in-mental-health-services-impact-assessment.pdfgydF4y2Ba[访问时间:2018-08-23][gydF4y2BaWebCite缓存gydF4y2Ba］gydF4y2Ba
英国医学会2018年2月26日。新的BMA研究揭示了心理保健的盲点gydF4y2Bahttps://www.bma.org.uk/news/media-centre/press-releases/2018/february/new-bma-research-unveils-blindspot-in-mental-healthcaregydF4y2Ba［gydF4y2BaWebCite缓存gydF4y2Ba］gydF4y2Ba
Pedersen ER, Paves AP.比较在年轻成人样本中寻求心理健康治疗的公共耻辱感和个人耻辱感。精神病学杂志2014年9月30日;219(1):143-150 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Andrade LH, Alonso J, Mneimneh Z, Wells JE, al - hamzawi A, Borges G，等。心理健康治疗的障碍:世卫组织世界心理健康调查的结果。精神医学2014 Apr;44(6):1303-1317 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Tindall L, Mikocka-Walus A, McMillan D, Wright B, Hewitt C, Gascoyne S.行为激活在治疗年轻人抑郁症中有效吗?系统回顾和荟萃分析。2017年12月;90(4):770-796 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Cuijpers P T亚粘土,范海峡,李J,安德森g .引导自助一样有效的面对面的心理治疗抑郁症和焦虑症吗?比较结果研究的系统回顾和荟萃分析。精神医学2010年12月;40(12):1943-1957。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Lucas GM, Rizzo A, Gratch J, Scherer S, Stratou G, Boberg J，等。报告心理健康症状:用虚拟人类采访者打破护理障碍。3 .前方机器人AI 2017年10月12日;［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Callan JA, Wright J, Siegle GJ, Howland RH, Kepler BB。计算机和移动技术在抑郁症治疗中的应用。2017年12月31日(3):311-318。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Carlbring P, Andersson G, Cuijpers P, Riper H, Hedman-Lagerlöf E.基于网络与面对面的精神和躯体障碍认知行为治疗:最新的系统综述和元分析。2018年1月;47(1):1-18。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李志强，李志强，李志强，等。基于网络的抑郁症自助指导会造成伤害吗?一项关于随机对照试验中恶化率及其调节因子的个体参与者数据元分析。精神医学2016 10月;46(13):2679-2693。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
核型研究E, Riper H, Twisk J, Hoogendoorn A, Kleiboer A, Mira，等。基于互联网的自我引导认知行为疗法治疗抑郁症状的疗效:个体参与者数据的元分析美国医学精神病学杂志2017年4月1日;74(4):351-359。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
杨文杰，王志强，王志强，等。计算机治疗焦虑和抑郁障碍是有效的，可接受的和实用的保健:一项最新的荟萃分析。焦虑障碍2018年4月;55:70-78 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Rathbone AL, Clarry L, Prescott J.使用认知行为疗法的基本原则评估移动健康应用程序的功效:系统回顾。J Med Internet Res 2017 11月28日;19(11):e399 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李文杰，李文杰，李文杰，等。基于智能手机的心理健康干预对抑郁症状的疗效:一项随机对照试验的元分析世界精神病学2017年10月;16(3):287-298 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李，李志强，李志强，李志强，Bergström J，李志强，等。智能手机支持与抑郁症的完全行为激活:一项随机对照试验。PLoS One 2015;10(5):e0126559 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Ly KH, Trüschel A, Jarl L, Magnusson S, Windahl T, Johansson R，等。通过智能手机应用程序实施的行为激活与基于正念的引导自助治疗:一项随机对照试验。Br Med Open 2014;4(1):e003440 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李志强，李志强，李志强，等。引导智能手机为基础的行为激活治疗抑郁症的经验:定性研究。互联网互动2015年3月2日(1):60-68。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Ben-Zeev D, Brian RM, Jonathan G, Razzano L, Pashka N, Carpenter-Song E，等。针对严重精神疾病患者的移动医疗(mHealth)与基于临床的团体干预:一项随机对照试验精神科服务2018年5月25日:appips201800063。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Noone C, Hogan MJ。一项随机主动对照试验，以大学生为样本，研究在线正念干预对执行控制、批判性思维和关键思维倾向的影响。BMC Psychol 2018 april 05;6(1):13 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Hoermann S, McCabe KL, Milne DN, Calvo RA。基于文本的同步对话系统在心理健康干预中的应用:系统综述。J Med Internet Res 2017 july 21;19(8):e267 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Fitzpatrick KK, Darcy A, Vierhile M.使用全自动对话代理(Woebot)为有抑郁和焦虑症状的年轻人提供认知行为治疗:一项随机对照试验。JMIR Ment Health 2017 Jun 06;4(2):e19 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Ly KH, Ly A, Andersson G.促进心理健康的全自动对话代理:使用混合方法的试点随机对照试验。互联网Interv 2017年12月10:39-46。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
BBC明天的世界。英国广播公司。2017.你会相信一个聊天机器人治疗师吗?URL:gydF4y2Bahttp://www.bbc.co.uk/guides/zt8h2nbgydF4y2Ba[访问时间:2018-09-04][gydF4y2BaWebCite缓存gydF4y2Ba］gydF4y2Ba
Emma S. Wysa。Wysa案例研究;2018年4月18日。NHS儿童服务:伦敦东北部NHS基金会信托如何使用Wysa用于儿童心理健康网址:gydF4y2Bahttps://www.wysa.io/blog/nhs-children-servicesgydF4y2Ba[访问时间:2018-09-04][gydF4y2BaWebCite缓存gydF4y2Ba］gydF4y2Ba
Braun A, Clarke V.使用心理学的主题分析。精神病学鉴定2006年1月;3(2):77-101。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Braun V, Clarke V.“主题分析”能为健康和幸福研究人员提供什么?国际健康与健康杂志2014;9:482 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Mitchell AJ, Yadegarfar M, Gill J, Stubbs B.患者健康问卷(PHQ-9和PHQ-2)对初级保健抑郁症的病例发现和筛查临床效用:40项研究的诊断荟萃分析。2016年3月2日(2):127-138 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
基于概率的效应量测量:对基准率和其他因素的稳健性。精神方法2008年3月13日(1):19-30。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Rice ME, Harris GT.比较后续研究中的效应量:ROC Area, Cohen’s d, and r. Law Hum Behav 2005 10月;29(5):615-620。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Barnett AG van der Pols JC Dobson AJ。回归均值:它是什么以及如何处理它。国际流行病学杂志2005年2月;34(1):215-220。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
齐默尔曼DW。参数和非参数统计检验因同时违反两个假设而失效。科学通报，1998年1月(1):55-68。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Wagnild总经理，Young HM。弹性量表的发展与心理测量评估。中华泌尿外科杂志1993;1(2):165-178。［gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
McAlpine DD, McCreedy E, Alang S.自评心理健康在有心理健康问题的人中的意义和预测价值。中国卫生杂志;2018年6月;59(2):200-214。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Kramer J, Conijn B, Oijevaar P, Riper H.基于解决方案的简短聊天治疗抑郁症青少年的有效性:随机对照试验。中国医学杂志，2014;16(5):e141 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Kessler D, Lewis G, Kaur S, Wiles N, King M, Weich S，等。初级保健中治疗师提供的抑郁症网络心理治疗:一项随机对照试验。《柳叶刀》2009年8月22日;374(9690):628-634。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba

‎gydF4y2Ba

人工智能:gydF4y2Ba人工智能gydF4y2Ba

认知行为疗法:gydF4y2Ba认知行为疗法gydF4y2Ba

肤色线:gydF4y2Ba通用语言效应量gydF4y2Ba

教育津贴:gydF4y2Ba生态瞬时评估gydF4y2Ba

ESM:gydF4y2Ba经验抽样法gydF4y2Ba

ML:gydF4y2Ba机器学习gydF4y2Ba

国民健康保险制度:gydF4y2Ba国民保健制度gydF4y2Ba

PHQ-2:gydF4y2Ba2项患者健康问卷gydF4y2Ba

phq - 9:gydF4y2Ba9项病人健康问卷gydF4y2Ba

个随机对照试验:gydF4y2Ba随机对照试验gydF4y2Ba

人:gydF4y2Ba世界卫生组织gydF4y2Ba

G·艾森巴赫(G Eysenbach)编辑;提交05.09.18;M Mulvenna, KL Ong同行评审;对作者26.09.18的评论;修订版于18年10月9日收到;接受09.10.18;发表23.11.18gydF4y2Ba

©Becky Inkster, Shubhankar Sarda, Vinod Subramanian。最初发表于JMIR Mhealth和Uhealth (http://mhealth.www.mybigtv.com)， 2018年11月23日。gydF4y2Ba

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR mhealth和uhealth上的原创作品。必须包括完整的书目信息，http://mhealth.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

数字心理健康的共情驱动对话人工智能代理(Wysa):真实世界数据评估混合方法研究gydF4y2Ba

数字心理健康的共情驱动对话人工智能代理(Wysa):真实世界数据评估混合方法研究gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

摘要gydF4y2Ba

关键字gydF4y2Ba

简介gydF4y2Ba

背景gydF4y2Ba

之前的工作gydF4y2Ba

Wysa，一款基于智能手机的同理心人工智能聊天机器人应用程序，用于心理健康gydF4y2Ba

研究目标gydF4y2Ba

方法gydF4y2Ba

道德gydF4y2Ba

研究设计gydF4y2Ba

定量测量与筛选gydF4y2Ba

数据收集与分析gydF4y2Ba

定量分析方法gydF4y2Ba

影响(前后)分析gydF4y2Ba

背景/描述性分析gydF4y2Ba

定性分析方法gydF4y2Ba

参与有效性gydF4y2Ba

参与效率gydF4y2Ba

结果gydF4y2Ba

分析尺寸gydF4y2Ba

定量分析gydF4y2Ba

影响(前后)分析gydF4y2Ba

背景/描述性分析gydF4y2Ba

定性分析gydF4y2Ba

参与有效性gydF4y2Ba

参与效率gydF4y2Ba

讨论gydF4y2Ba

主要研究结果gydF4y2Ba

与之前工作的比较gydF4y2Ba

研究价值gydF4y2Ba

本研究的局限性gydF4y2Ba

结论gydF4y2Ba

致谢gydF4y2Ba

作者的贡献gydF4y2Ba

利益冲突gydF4y2Ba

多媒体附件1gydF4y2Ba

多媒体附件2gydF4y2Ba

多媒体gydF4y2Ba

多媒体附件4gydF4y2Ba

多媒体gydF4y2Ba

多媒体附件6gydF4y2Ba

多媒体gydF4y2Ba

多媒体附件8gydF4y2Ba

多媒体gydF4y2Ba

多媒体附录10gydF4y2Ba

多媒体附件11gydF4y2Ba

多媒体附件12gydF4y2Ba

多媒体附件13gydF4y2Ba

多媒体附件14gydF4y2Ba

多媒体附件15gydF4y2Ba

参考文献gydF4y2Ba

缩写gydF4y2Ba