JMIR J医学网络杂志 医学互联网研究杂志 1438 - 8871 卡塔尔世界杯8强波胆分析 加拿大多伦多 v22i11e20251 33141095 10.2196/20251 原始论文 原始论文 吸引无动机吸烟者走向戒烟:通过迭代交互设计基于动机访谈的聊天机器人 Eysenbach 冈瑟 起重机 大卫 Carcone 4月 Bellei Ericles Almusharraf 法赫德 德文 1 https://orcid.org/0000-0002-6696-2750 玫瑰 乔纳森 博士,FIEEE, FACM, FM NAE, FRSC 1
爱德华·s·罗杰斯电气与计算机工程系 应用科学与工程学院 多伦多大学 英皇学院道10号 多伦多,ON, M5S, 3G4 加拿大 1 4169786992 jonathan.rose@ece.utoronto.ca
https://orcid.org/0000-0002-3551-2175
塞尔比 彼得 黑带大师,CCFP 2 3. https://orcid.org/0000-0001-5401-2996
爱德华·s·罗杰斯电气与计算机工程系 应用科学与工程学院 多伦多大学 在多伦多 加拿大 尼古丁依赖诊所 成瘾和精神健康中心 在多伦多 加拿大 达拉拉纳公共卫生学院 家庭与社区医学系 多伦多大学 在多伦多 加拿大 通讯作者:Jonathan Rose jonathan.rose@ece.utoronto.ca 11 2020 3. 11 2020 22 11 e20251 14 5 2020 8 7 2020 2 10 2020 4 10 2020 ©Fahad Almusharraf, Jonathan Rose, Peter Selby。最初发表于《医学互联网研究杂志》(//www.mybigtv.com), 2020年11月3日。 2020

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。

背景

在任何时候,人群中的大多数吸烟者都是矛盾的,没有戒烟的动机。动机性访谈(MI)是一种基于证据的技术,旨在诱导矛盾吸烟者做出改变。MI从业人员既稀缺又昂贵,而且很难接触到吸烟者。吸烟者可以通过网络联系到,如果一个自动聊天机器人可以模仿MI对话,它可以形成一个低成本和可扩展的干预的基础,激励吸烟者戒烟。

客观的

这项研究的主要目标是设计、训练和测试一个基于mis的自动聊天机器人,它能够在与吸烟者的对话中引发反思。本研究描述了收集训练数据的过程,以提高聊天机器人生成面向信息管理的响应的能力,特别是反思和总结语句。本研究的第二个目标是通过与聊天机器人完成对话后的自愿反馈来观察对参与者的影响。

方法

一名MI专家与计算机工程和自然语言处理(NLP)方面的专家进行了跨学科合作,共同设计了聊天机器人的对话和算法。从一个基于网络的平台上招募了121名成年吸烟者,分为11个连续组,进行单臂前瞻性迭代设计研究。这个聊天机器人的设计目的是利用MI的跑步领先技术,激发人们对吸烟利弊的思考。参与者还被要求确认聊天机器人对他们的自由形式回答的分类,以衡量底层NLP模型的分类准确性。每一组提供的回答用于训练下一组的聊天机器人。

结果

在14周内共收到来自11个连续组的121名参与者的6568份回复。从这些回答中,我们能够分离出21种支持和反对吸烟的独特原因,以及每种原因的相对频率。在11次迭代中,逐步收集作为输入的回答和作为标签的吸烟原因,使聊天机器人内部的分类F1分从第一组的0.63提高到最后一组的0.82。每个参与者与聊天机器人交互的平均时间为21.3分钟(SD 14.0)(最小6.4分钟,最大89.2分钟)。我们还发现,34.7%(42/121)的参与者喜欢与聊天机器人的互动,8.3%(10/121)的参与者在自愿反馈中指出了明确的戒烟好处,而不是明确要求。

结论

通过网络招募矛盾的吸烟者是训练聊天机器人提高反思和总结陈述准确性的一种可行方法,这是MI的基本组成部分 吸烟的原因(支持和反对)已经确定。从吸烟者的经验中得到的初步反馈显示了将其用于干预的希望。

戒烟 动机性访谈 聊天机器人 自然语言处理
简介 背景

吸烟每年造成全世界600多万例可预防的死亡[ 1].加拿大人也面临同样的威胁,2017年有460万加拿大人吸烟[ 2].尽管有许多循证戒烟干预措施,包括行为咨询和药物治疗[ 3.,这些方法只对有动机的吸烟者有效。然而,大多数吸烟者对吸烟持矛盾态度,不积极寻求帮助。 4 5].一个关键步骤是激励吸烟者寻求帮助,这在传统上是由临床医生和治疗师在临床接触中完成的。动机性访谈[ 6已经被证明是一种有效的方法。

MI是一种以患者为中心的协作咨询方法,关注变化的语言,作为解决矛盾心理常见问题的一种方式[ 6].训练有素的MI治疗师使用4个过程:与患者接触,关注对患者重要的事情,以确定行为改变的潜在目标,激发患者改变的动机,规划具体步骤以实现预期的结果。MI的基本精神是同情、接受、合作和唤起,而不是引导患者寻求解决方案。MI的实践者听预备 改变谈话(欲望、能力、原因和需要改变),并使用开放式问题、肯定、反思和总结陈述来引出对改变的承诺和对改变的准备。执行者确定已经采取的步骤,这些步骤可以建立在这些步骤的基础上,或放大这些步骤,以达到预期的结果。MI已被证明对包括戒烟在内的各种健康行为具有小到中等的效果[ 7 8].

基于心理信息的治疗的一个障碍是治疗师需要时间来学习这种模式,获得掌握,并随着时间的推移与他们的客户保持一致的反应。此外,没有足够的卫生保健专业人员亲自为所有可能受益于MI的吸烟者提供此类干预。如果基于计算机的会话代理(也称为聊天机器人)能够成功地采用MI技术,将很容易扩大许多吸烟者对这种已知的成功干预的访问。它不仅成本低,而且通过当今众多可用的聊天平台更容易访问。但是,要创建这样一个会话代理,还需要克服许多障碍。

对话系统

直到最近,计算机还很难理解自由形式的文本答案并作出适当的响应。此功能将允许键所需的反射和摘要语句 改变谈话自然语言处理(NLP)领域的最新进展已使将自由形式的答案分类成为可能,从而使计算机能够从适当的、特定于类别的答案中进行选择[ 9].自然语言处理主要研究语言表达中特定或隐含信息的提取和处理。会话系统接收来自人类的文本或语音话语作为输入,并生成一个或多个响应作为输出。更长的对话聊天机器人(如微软的社交聊天机器人Xiaolce [ 10 11)需要三种能力:从话语中提取意义的能力、保持对话语境的能力和产生适当反应的能力[ 12].

会话系统通常使用两种方法中的一种来从语言表达式中获取信息:基于规则的方法(例如著名的1960年代的ELIZA聊天机器人[ 13])和概率方法[ 14].在基于规则的方法中,处理基于特定领域的专家知识定义的规则。规则的一个体现可能是对话的创建在给出一个具体的答案后,该问什么问题。相比之下,概率NLP方法学习如何对答案进行分类,并可能从演示了许多相关对话示例的训练文本语料库中生成应答。

现代聊天机器人使用基于规则和概率方法的组合——自然语言理解(NLU)模型告知对话上下文和响应生成的规则。此外,聊天机器人越来越多地被用于心理健康方面 闲谈,聊天平台,如Messenger (Facebook)、WhatsApp (Facebook)和微信(腾讯)[ 15- 17].例如,Woebot [ 18 19使用认知行为疗法帮助焦虑和抑郁的人,并被证明在治疗抑郁症方面是有效的。ElizzBot可用于咨询家庭照顾者[ 20.].虽然这些系统可以用于已经寻求帮助的人,但以前很少有关于自动聊天机器人的研究,解决了激励个人寻求行为改变的步骤。

目标

这项研究的长期目标是创建一个聊天机器人,帮助吸烟者做出戒烟的决定。如果这样的聊天机器人是有效的,它将是非常简单和低成本的部署,以与一大批没有戒烟动机的吸烟者互动。这可以通过前面提到的平台或通过社交媒体渠道的招聘广告来实现。本研究描述了创建这样一个代理的第一步:一个单臂前瞻性研究,用于改进聊天机器人的反应,并报告受试者在与聊天机器人进行关于吸烟的自动对话时的经验。

方法

第一步是设计一个最小会话代理的结构,它既自动化又采用了MI的原理。这是通过MI专家和临床医生以及计算机工程和NLP专家之间的讨论和互动而发展起来的。MI行为改变方法是参与一种对话,引起自我反思,目的是减少吸烟者对戒烟的矛盾心理。 21].第一个关键的决定是让代理提示被试阐明吸烟的利与弊,因为他们在 对话结构部分。一个关键特征是,聊天机器人需要通过反映回答,总结它们,然后邀请进一步的反思,来提供一个不带评判的对话。这个原型聊天机器人随后在吸烟者的样本上进行了测试 学科招募节和迭代来收集训练数据,以增加聊天机器人可以正确分类的正反分类集。利用被试在迭代过程中给出的回答和标签来训练和改进聊天机器人使用的NLU分类器。

学科招募

研究对象通过网络从多产平台[ 22该网站允许研究人员为个人提供参与人体研究实验的机会,以换取经济补偿。“多产”允许研究人员从超过6万人的庞大人口统计中选择特定的特征。许多参与者居住在公司总部所在的英国,但也有相当数量的参与者来自世界各地。 文本框1列出在受试者招募中使用的纳入和排除标准。的 多产的评级 文本框1是参与者在之前的研究中被认可的研究的百分比,这意味着进行实验的人同意参与者的工作是可以接受的。同样值得注意的是,没有与受试者戒烟动机相关的标准,因为这一阶段的研究旨在收集具有不同戒烟动机的受试者的数据。

纳入标准和排除标准。

入选标准:

说英语的人

每天抽烟

居住在英国、美国或加拿大

年龄在16到60岁之间

排除标准:

多产评分<9

过程

研究人员在“多产”网站上向受试者提交了一份同意书,上面详细列出了研究信息,并要求他们与聊天机器人交谈,以训练它。征得同意后,受试者被要求访问部署聊天机器人的网站,并完成两项任务:第一,与聊天机器人交谈,第二,对与聊天机器人交谈的整体体验给出反馈,并提出改进建议。后者在与聊天机器人接触结束时被问到以下问题:“在你完成研究之前,请花点时间评论一下你与聊天机器人聊天的经历。除了能够更好地理解你的反应,你能给我们什么样的建议来改进它呢?”

参与者被招募为一组,每次10或11人。这使得我们可以在两组之间重新训练聊天机器人,并提高它对下一组的分类精度。它还使支持和反对吸烟的新类别得以增加,这构成了对话的中心部分,如 对话结构部分。在每一组被招募后,我们根据发现的新的不同类别的数量和吸烟原因分类器所实现的分类的准确性来确定培训是否足够,或者是否需要更多的组。

对话结构

聊天机器人通过3个阶段向被试传递对话:介绍、反思和结束。在介绍阶段,聊天机器人向被试描述其目的,并请求允许继续对话。反思阶段是谈话的核心。它提出的大多数问题的目标是引出关于吸烟行为的反思陈述。为了建立这种反思,聊天机器人让受试者进行两个练习。首先,它使用MI跑领先技术[ 21通过要求被试给出他们吸烟的理由(称为 优点)和他们反对吸烟的理由(称为 缺点).我们也把这些优点和缺点称为 吸烟 原因.其次,在此基础上,研究人员针对每一个赞成或反对的问题专门设计了一系列问题,刺激受试者思考每一个赞成或反对的因素对他们行为的影响。 图1说明了反思阶段中对话的关键部分的整体流程。详情见 图1将在以下部分详细解释。

聊天机器人反射阶段的整体流程。

反应生成

一般来说,回答是根据对话的当前状态和聊天机器人对受试者回答的分类来选择的。聊天机器人可以生成两种类型的脚本响应。第一种类型包括对会话树中某个特定情况的期望的逐字应答。例如,聊天机器人总是问受试者:“你喜欢抽烟吗?”这是谈话的反思阶段。第二种类型是脚本响应,聊天机器人可以生成包含与主题对话的变量的响应。例如,聊天机器人可以生成以下变量响应:" You said '…’,我认为可以归为‘……’。”回复中的第一个省略号是聊天机器人正在回忆的句子,后面的省略号是它对该句子的理解。在这两种类型的回答中,聊天机器人可以选择不同的句子变体,以减少对话中的重复。在生成响应的任何时刻,聊天机器人从可用的逐字或可变响应集合中随机选择。

跑步领先

在谈话的介绍阶段之后,聊天机器人开始使用跑步先行技术,明确询问被试者吸烟的利弊。这种方法为讨论提供了一个具体的基础,它已被MI用作启动变革谈话的一种方式,这是本研究的最终目标[ 21].

受试者被问及以下3个问题:(1)你喜欢吸烟吗?吸烟有什么好处?(3)吸烟有什么坏处?第一个问题的答案决定了被试对吸烟的情绪,并被用来为后面的两个问题排序。如果被试对第一个问题的回答是肯定的,那么被试就会被问到:“吸烟有什么好处?”“第一。同样地,如果回答是否定的,那么被试就会被问到:“吸烟有什么坏处?”“第一。这种排序符合MI原则,即保持对话的开放性和以客户为中心[ 21].第二个和第三个问题的目的是积累受试者吸烟的利弊,以追求反思和总结的MI关键概念[ 21].

当被问及吸烟的利弊时,主语提供了自由形式的文本回答。NLU需要一个训练数据的语料库,该语料库包含自由形式的响应的示例,以及将响应分类到相关类别的标签。聊天机器人这个训练阶段的一个关键方面是确定所有矛盾吸烟者中存在的利弊(吸烟原因)的不同类别的名称和数量。一旦建立了这些分类,我们将能够在干预研究中为受试者提供量身定制的响应,这将在本文的最后讨论。

聊天机器人对受试者给出的每一个赞成或反对的意见都提供了初始回应,这反映了他们赞成或反对的分类(即分类)。这模仿了MI从业者向客户传达理解的一般MI方法。例如,当一个实验对象说:“吸烟给我一种愉快和快乐的感觉”,聊天机器人会回答:“我明白,你从吸烟中获得快乐和满足。”这种确认性的回复反映出对聊天机器人的明显理解。反思对于被试者来说是最有用的,当他们写下可以被提炼成小句的长篇大论时,或者当他们表达属于同一类别的多个赞成或反对意见时[ 21].

一旦被试者提供完所有的优点和缺点,聊天机器人就会在每个类别内逐字逐句地重复被试者所写的内容。例如,聊天机器人可能会写,“你说了‘它让我感觉的方式’,我认为这本质上是感觉良好或满足。”此外,如果被试者写下了归入同一类别的多个赞成或反对意见,聊天机器人会正确地做出反应。它通过在一个话语中总结每个类别来做到这一点。例如,聊天机器人在总结压力这一项的两个优点时说:“你说了‘镇静神经’和‘缓解压力’,我认为这和压力有关。”为了展示聊天机器人如何应用跑步领先技术, 文本框2提供一个从与招募对象的对话中选取的例子。

总之,在对话设计中的第一个反思阶段的练习遵循几个MI原则:它与被试对吸烟的情绪一致,以决定是否应该首先讨论赞成或反对吸烟。其次,对话探讨了利弊,以更简短的形式反映每一个。最后,聊天机器人将所有的优点和缺点汇集在一起,在对话的适当点进行总结。的 例外案例问题部分描述了具体的后续问题,每个总结的赞成和反对,由主体给出。

在对话中反思和总结的例子。

谈话的例子:

机器人:“你喜欢抽烟吗?”

主题:“我愿意”

机器人:“你喜欢抽烟吗?”

这是一个在任务之间消磨时间的好方法。

机器人:“我明白了,吸烟是有益的,因为它为你提供了有益的分心。”

机器人:“你还喜欢抽烟吗?”

做一些有压力的事情是放松的。

机器人:“让我看看我是否理解了:吸烟可以缓解你的压力。”

机器人:“你说‘这是消磨任务间隙时间的好方法’,我认为这和注意力分散有关。”

Bot:“你还说‘做一些有压力的事情会让人放松’,我认为这可以归为压力。”

机器人:“我的总结正确吗?”

机器人:“好吧。现在让我们来谈谈吸烟的坏处。”

例外案例问题

预测寻求改变的人是否会采取行动的最大决定因素之一是自我效能。 23,这可以概括为一个人相信自己有能力实现改变。为了刺激人们对此进行反思,聊天机器人会邀请被试反思他们支持和反对吸烟的理由。这种方法有两个预期的结果:第一,让受试者增强自己对特定的赞成或反对如何导致他们吸烟或不吸烟的理解;第二,确定受试者能够克制吸烟的情况,并反思如何以及为什么能够做到,以及如何做到 概括从这些情况中,能够抵制更频繁地吸烟的冲动。

为了达到这些效果,聊天机器人会询问被试者通常行为的例外情况。每给出一个赞成或反对的问题,聊天机器人会问3个问题。第一个问题要求被试回忆他们经历过的有利或不利的情况,以及它是如何导致他们吸烟的 积极的例)。第二个问题要求他们回忆一种情况,在这种情况下,他们经历了同样的赞成或反对,但最终没有吸烟例)。第三个问题要求被试通过反思可能导致结果差异的原因来识别阳性和阴性病例之间的差异。这些问题旨在让受试者思考是什么触发了他们吸烟,并在他们成功推迟或避免吸烟时引出例子。这些问题与MI方法一致,采用指导性的沟通形式,而不是指导性的形式[ 21].从我们的培训数据收集中提取的3个问题的一个例子显示在 文本框3

3个例外情况问题的一个例子。

机器人:“请描述一下你经历过压力而最终吸烟的经历。”

对我来说,吸烟与‘减压’有关。如果我感到焦虑,吸烟可以缓解焦虑。”

机器人:“请描述一个你经历过压力但最终没有吸烟的例子。”

这句话的意思是:“在我离婚之前,我的前夫经常给我很大的压力,但他也让我对吸烟感到不好受。很多时候他会让我很紧张,我不会选择在他身边抽烟。”

Bot:“回想一下,当你能够阻止自己吸烟的时候。这和你抽烟的时候有什么不同?”

主题:“远离香烟带来的情感负担超过了我从吸烟中获得的快乐,所以我没有抽。”

吸烟原因分类与迭代改进

在第一次训练迭代之前,有必要有一组初始的吸烟原因(赞成和反对)类别,以便NLU模型可以尝试对它们进行分类,以通知聊天机器人如何做出反应。最初的10个原因来自以下两个来源:前6个原因来自“我为什么吸烟”问卷[ 24:快乐、刺激、压力、例行公事、渴望或“手里有东西”。另外4个原因被戒烟和MI专家认为是吸烟的常见原因:上瘾、健康、成本和酷。

虽然这10个类别通常表示赞成吸烟的理由,但其中一些也可以被视为反对吸烟的理由。例如,压力类别中的一个缺点是吸烟者在香烟用完时会感到焦虑。这就是吸烟的坏处。因此,对于每一个类别,我们也要确定一个理由是赞成的,还是反对的,或者两者都是。检测这一点很重要,因为聊天机器人选择的反思和总结反应会根据理由是赞成还是反对而有所不同。

除了上面提到的10个分类,在训练研究中,聊天机器人会要求被试判断聊天机器人选择的分类是否正确,如果不正确,则从列表中给出正确的分类。如果被试者认为一个分类列表不包括原因,聊天机器人就会要求被试者提出一个新的分类。我们将这种类别确认过程称为 训练模式中的2个例子来说明 文本框4

聊天机器人训练模式。

机器人:“你对吸烟有什么积极的看法吗?告诉我你能想到什么"

主题:“帮助我与其他吸烟者建立联系并进行社交”

机器人:“我把‘帮助我与其他吸烟者建立联系并进行社交’理解为与‘社交’相关的东西。”

机器人:“我说的对吗?”

主题:“正确”

机器人:“谢谢你确认我的知识。”

机器人:“我明白了,吸烟对你来说是一种社交习惯。”

机器人:“你对吸烟还有什么积极的看法?”

主题:“我喜欢烟的味道”

机器人:“我把‘我喜欢烟的味道’理解为与‘感觉不错’有关。”

机器人:“我说的对吗?”

主题:“错误”

机器人:“是下列选项之一吗?上瘾,刺激,…”,其他

主题:“其他”

机器人:“你能用一两个词告诉我这是什么吗?”

主题:“味道”

机器人:“谢谢你教我新东西!”

机器人:“你还不喜欢抽烟吗?”

主题:“黄手指”

机器人:“我把‘黄手指’理解为与‘健康’有关。”

机器人:“我说的对吗?”

主题:“错误”

机器人:“是下列选项之一吗?上瘾,刺激,…外表,……”,其他

主题:“外貌”

在每组受试者完成各自的对话后,关于吸烟原因类别的新信息出现了,需要研究人员考虑。该信息可以是以下信息之一,如中所示 文本框4:(1)类别检测的确认;(2)类别检测的修正;(3)新类别的引入。为了保证被试提供的类别信息的有效性和一致性,我们在每个训练组结束后,在为下一个训练组重新训练聊天机器人之前,回顾了每个确认、更正和介绍。在我们的评审中,我们验证确认和更正确实有效,而不是键入或主题错误的结果。

我们还考虑过通过回顾对话和提出新分类的受试者的反应来引入新分类。如果在讨论中,我们不能就一个回答是否适合现有类别达成共识,那么就创建一个新的类别,并给它一个描述性的名称。因此,我们需要创建脚本响应,以便聊天机器人能够反映和总结检测的新类别。编写新响应脚本的过程类似于我们如何商定一个新类别;这是在研究人员讨论的基础上决定的。随着我们在吸引受试者和训练聊天机器人的过程中采用迭代策略,随着受试者在对话中通过这种训练模式向聊天机器人介绍新的理由,出现了更多的赞成和反对的分类。

分析

研究的主要目标是建立一个数据集的例子,赞成和反对吸烟的理由和他们的类别。第二个目标是使与聊天机器人的对话体验尽可能愉快。为了评估这些目标,我们统计了优点和缺点的例子数量以及它们的类别。我们还计算了聊天机器人的分类器的精度、召回率和F1分,这些分类器是在一组没有经过训练的示例上进行的,以衡量其性能。精度度量分类器对测试数据进行的所有检测中正确检测的百分比,而召回度量分类器错误分类响应或无法确定任何分类的频率。F1分数是精度和召回率的调和平均值,它衡量分类器产生正确检测(精度)和不遗漏任何检测(召回率)的能力的性能。 表1列出用于评估2个分类器的3个度量值。所有3个指标都被计算为微指标:真阳性(TP)、假阳性(FP)和假阴性(FN)是在分类器类中全局计算的。

精确度、召回率和F1分数的定义。

测量 定义
精度 TP一个(tp + fpb
回忆 Tp / (Tp + fnc
F1的分数 TP / (TP + 0.5 x [FP + FN])

一个TP:真阳性。

bFP:假阳性。

cFN:假阴性。

在计算度量时 表1, TP事件定义为聊天机器人能够正确检测到被试话语中存在类别并产生适当回应的事件。当聊天机器人生成错误的分类并对主题的话语提供脱题的响应时,就会观察到FP事件。最后,当聊天机器人无法对给定主题的话语产生任何分类时,就会观察到FN。

伦理审查

多伦多大学健康科学研究伦理委员会(REB)审查并批准了该研究。REB方案编号为35962,于2018年5月28日获得批准。

结果 参与者

共有121名参与者在14周内完成了这项研究。 表2提供参与者的人口统计信息,包括他们的年龄、性别、吸烟频率、最后一次戒烟尝试、就业状况和居住国家。该信息是参与者在第一次注册高产时输入的,可能不是所有字段都有来自所有参与者的响应。参与者没有向多产提供的信息被标记为 失踪 表2

研究对象的人口统计数据(N=121)。

特征
年龄(年),平均值(SD) 35.2 (9.8)
年龄(年),n (%)
16 - 19 0 (0.0)
为20 - 29 40 (32.8)
- 39 42 (34.4)
40至49 23日(18.9)
50-59 13 (10.7)
60 1 (0.8)
失踪 3 (2.5)
性别,n (%)
60 (49.2)
男性 59 (48.4)
失踪 3 (2.5)
吸烟频率,n (%)
一天一次 5 (4.1)
每天2-5次 20 (16.4)
每天6-10次 29 (23.8)
一天11-19次 48 (39.3)
每天≥20次 19日(15.6)
失踪 1 (0.8)
最后一次退出尝试,n (%)
从来没有 16 (13.1)
> 12个月 30 (24.6)
7 - 12个月 10 (8.2)
4 - 6个月 14 (11.5)
1 - 3个月 15 (12.3)
目前在 14 (11.5)
失踪 23日(18.8)
就业状况,n (%)
全职 61 (50.0)
兼职 21日(17.2)
不从事有报酬的工作 17 (13.9)
失业(和找工作) 15 (12.3)
其他 7 (5.7)
失踪 1 (0.8)
居住国,n (%)
联合王国 66 (54.1)
美国 50 (41.0)
加拿大 6 (4.9)
参与者的交互

聊天机器人收到了来自121名参与者的6568个回复,其中4271个是自由形式的回复,2297个是从聊天机器人的建议回复中选出的。每个参与者与聊天机器人互动的平均时间为21.3分钟(SD 14.0)。最短的对话为6.4分钟,而最长的对话持续了89.2分钟。最长的对话是由于特定的参与者对吸烟有更多的赞成和反对意见,并对聊天机器人做出了长时间的回应。

吸烟原因数据集

除原来的10类吸烟原因外,另外确定了11类截然不同的吸烟原因。 表3提供整个列表,并指示一个类别是否可以被视为赞成、反对或两者兼有。它还提供了每个类别的研究参与者的例子陈述。

这项研究产生了1010个样本的数据集,参与者如何表达21种不同的吸烟是好是坏的分类。在这1010个样本中,有79个样本和10个类别是由研究人员在最初的一组参与者之前合成的,如前所述。其余931个样本和11个类别是通过招募参与者的输入生成的。在1010个样本中,490个对吸烟表示赞成,520个对吸烟表示反对。在21个不同的类别中,5个是有利的类别(无聊、酷、感觉良好、有东西在手和刺激),6个是不利的类别(成本、脏、火灾危险、外表、糟糕的榜样和耻辱),其余10个是有利和不利的类别(上瘾、分心、味道、专注力、健康、常规、气味、吸烟限制、社交和压力)。 表3还列出了在每个原因类别中获得的回答的数量。

在对话中使用的所有吸烟原因类别的列表。

分类和赞成或反对 例子
上瘾
反对 1 "我醒来想到的第一件事就是我的第一根烟"
55 "我渴望尼古丁"
无聊
16 “我抽烟是因为无聊”
很酷的
9 “让我看起来很酷”
成本
反对 67 “花了那么多钱换来这么一点快乐”
反对 16 “烟灰四处飞溅”
分散注意力
52 “这给了我独处和思考的时间”
反对 11 "它如何打断你的工作"
感觉很好
85 “我喜欢它给我的感觉”
火灾隐患
反对 7 “它烧毁了我的房子和家具”
味道
25 "我喜欢烟的味道"
反对 7 “烟在你嘴里留下的味道”
焦点
15 “帮助我集中精力做电脑工作”
反对 3. “如果我需要一支烟,我就无法集中精神”
健康
25 “香烟有助于排便”
反对 133 "所有与吸烟有关的健康问题"
在我手中
30. "让我有东西可以用"
外表
反对 31 “衰老或外貌变化总是一种恐惧”
糟糕的榜样
反对 14 “我很内疚,因为我儿子不喜欢我抽烟和唠叨。”
例程
9 “这是值得期待的事情”
反对 5 “常规香烟”
气味
9 “香烟的味道很好闻”
反对 74 "让你的手指,衣服和呼吸都散发着气味"
吸烟限制
2 “有时候禁烟令会迫使我到外面去,然后我意识到这是一个美丽的夜晚,我很高兴它迫使我到外面去。”
反对 22 “你不能在很多地方抽烟”
社会
58 "我喜欢和抽烟的人交往"
反对 11 “我周围的人不抽烟,只有我抽烟”
耻辱
反对 62 “不吸烟的人不欢迎你”
刺激
37 "烟草呛住我喉咙的感觉"
压力
177 “帮助我放松和减少压力”
反对 2 “当我用光的时候感到焦虑”
分类器训练结果

在实现聊天机器人的软件时,我们最初使用了一个名为Wit的基于web的第三方分类系统。人工智能( 25],称为分类器SR1(吸烟原因[分类器]1)。虽然它使分类的升级更容易,但我们没有能力理解和控制 黑盒分类器。这促使我们使用来自太空的NLP框架构建自己的分类器[ 26],称为分类器SR2(吸烟原因[分类器]2)。使用从121名参与者(810/1010,81.2%用作训练数据,200/1010,19.8%用作测试数据)获得的整个数据集,我们测量了两种分类器的性能。 表4给出了收集所有训练数据后使用的2个分类器的总体能力。尽管分类器SR1的精度略好于SR2,但后者的召回率要高得多,因此给出的F1总分要高得多。回忆可以被非正式地认为是聊天机器人正确反映主题表达的能力。更高的回忆度意味着聊天机器人能够发现更多被试者的优点和缺点,并对它们进行反思。

吸烟原因分类器1和吸烟原因分类器2自然语言理解分类器的精度、召回率和F1评分。

测量 吸烟原因分类1 吸烟原因分类2
精度 0.98 0.87
回忆 0.28 0.84
F1的分数 0.44 0.86

文中给出了分类器在训练组迭代过程中的进展度量 表5,它显示了每个参与者组在实际训练过程中经历的精度、回忆和F1分数。(这与研究的结果截然不同 表4因为这些是在训练分类器并使用整个语料库和标签进行评估时给出的。)随着时间的推移,这些结果的获取发生了一些变化——类别的数量在增加,用于训练分类器的训练数据量也在增加。此外,如前所述,从组1到10使用的分类器是SR1,而组11使用的分类器是SR2。 表5说明了在训练中使用的分类器的进展,以一个显著更好的F1总分结束,以及分类器SR2。

聊天机器人的正反检测的精度、召回率和F1分。

集团 精度 回忆 F1的分数 分类器使用
1 0.93 0.48 0.63 SR1一个
2 0.97 0.56 0.71 SR1
3. 0.96 0.26 0.41 SR1
4 0.96 0.46 0.62 SR1
5 0.93 0.67 0.78 SR1
6 0.92 0.63 0.75 SR1
7 1.00 0.61 0.76 SR1
8 0.96 0.68 0.80 SR1
9 0.93 0.58 0.71 SR1
10 0.95 0.60 0.73 SR1
11 0.91 0.75 0.82 SR2b

一个SR1:吸烟原因分类器

bSR2:吸烟原因分类2。

自愿的自由形式的反馈

在与聊天机器人的接触结束时,参与者被要求自愿回答以下问题:“在你完成研究之前,请花点时间谈谈你与聊天机器人聊天的经历。除了能够更好地理解你的反应,你能给我们什么样的建议来改进它呢?”大多数对这个问题的回答都建议对聊天机器人进行改进。然而,在反馈中还出现了其他信号。其他的回答包括参与者喜欢与聊天机器人交谈,发现它有益,或对它感到沮丧。为了定量测量这些数据,并基于研究人员之间的讨论,我们在每个参与者的反馈中添加了以下4个相互包容(即重叠)的标签:改进建议、乐趣、益处和挫折。 文本框5描述4个标签中的每一个。在本研究中,76.9%(93/121)的参与者回答了反馈问题。4个标签的反馈比例如下:44.6%(54/121)表示改善建议,34.7%(42/121)表示满意,8.3%(10/121)表示受益,2.5%(3/121)表示失望。 文本框6提供了一些例子的好处和挫折反馈从参与者在研究中收到。

反馈标签的描述。

改进建议

任何建议bug修复、新功能或与功能相关的评论的反馈

享受

表明与聊天机器人有积极愉快体验的反馈

好处

反馈明确表明聊天机器人导致参与者反思自己的行为或促使他们退出

挫折

任何表明受试者有过负面体验或造成负面影响的反馈

来自研究的反馈样本。

好处

“这项研究实际上让我对戒烟有了更多的思考。”

好处

“这真的非常有帮助。它让我的思想得以释放。我已经吸烟很长时间了,信不信由你,这是我第一次真正对自己的行为有了一些认识,爱它。”

挫折

“这个聊天机器人真的需要重新设计。标点符号似乎会让人觉得“Yes”是可以接受的,但“Yes”是可以接受的。不是。而且,当它只是说‘显然你永远无法阻止自己’时,它就会让人们变得好斗,就像我一样。”

挫折

令人沮丧的是,这些问题毫无意义。我写了“it smell bad”,它让我描述一个“it smell bad”的动作导致你吸烟的情景。很多自我反省也感觉毫无意义。我每天抽一包烟,经常想都没想。,so pinpointing a time when something caused me to smoke is really hard.”

来自参与者的自由形式的反馈为他们的体验提供了一个信息性的观点:近35%(42/121,34.7%)的参与者认为与聊天机器人交谈是一种愉快的体验。此外,表示受益(42/121,8.3%)多于表示沮丧(3/121,2.5%)的受试者。我们认为挫折效应从长远来看是无害的,因为目标受众是没有动力的主体,持续吸烟不会产生短期的有害影响。

讨论 主要研究结果

迭代地招募参与者来收集训练数据,并让他们参与关于吸烟的对话,从而实现了基于mi的聊天机器人的训练和验证。虽然我们的聊天机器人并没有严格遵循MI中提到的4个过程 简介部分,它遵循MI的精神原则。它通过根据受试者对吸烟的情绪定制跑步领先技术,使对话以客户为中心。它对受试者所表达的吸烟的利弊进行了反思和总结。最后,它使用例外情况的问题,每个赞成和反对,可能揭示可能解决矛盾的情况。此外,我们能够提高聊天机器人的性能,并提高它与相对较少的参与者进行对话的能力。有趣的信息出现在实验结束时提出的自愿反馈问题中。超过三分之一的参与者喜欢与聊天机器人交谈,定性数据表明,尽管一小部分参与者发现与聊天机器人交谈有好处,但需要进行更多的改进,以减少可能影响行为改变参与度的挫败感。

在本研究的重点领域,已有一些基于戒烟的聊天机器人的前期工作。Perski等人[ 27]通过随机对照试验,探索在已有的戒烟支持移动应用程序中添加聊天机器人。他们的干预使用了我们在这项研究中使用的一些技术,包括确定想戒烟和不想戒烟的原因,并适当地调整互动。研究表明,在手机应用程序中使用聊天机器人增加了参与感和戒烟成功的几率。然而,他们没有利用反思倾听,这是我们聊天机器人的核心功能之一。

我们设计的对话的一个关键部分是使用反思性倾听来引出吸烟的利与弊,以及随后的简短反思和重述。虽然我们的主要目标是收集训练数据,并在招募的参与者身上测试我们的聊天机器人,但我们已经了解到如何改进我们的聊天机器人,以适应未来的干预。我们的经验表明,研究对象通常不会清晰地描述吸烟的利与弊。相反,它们解释了与特定的赞成或反对意见相关的感觉。例如,一个被试可能会说,“帮助我与其他吸烟者建立联系”来进行交流 社交活动作为吸烟的专家。因此,系统必须有一套合理完整的类别来表达吸烟的利弊,例如 社交活动.这些类别的名称必须反映出受试者可能表达赞成或反对意见的多种方式,这样当聊天机器人在训练研究中进行分类时,受试者才能正确地同意(或不同意)。此外,聊天机器人给出的反射响应针对每个类别进行调优;因此,选择适当数量的不同类别,使这些反应有效是很重要的。

值得注意的是,在这个聊天机器人的环境中,精确度没有回忆重要。高回忆率是提供给被试的反映所需要的。目前用于检测优缺点的NLU分类器的实现是一个互斥的分类器。主体所表达的任何赞成或反对吸烟的言论都只对应一个类别。然而,正面和反面的分类确实部分重叠,而且是主观的。例如,我们的聊天机器人将“它如何打断你的工作”这句话分类为 焦点类别而不是 分散注意力类别。这种分类的结果是,聊天机器人会回答“我明白,吸烟会让你注意力不集中”,而不是“我明白,吸烟会让你分心。”在这种情况下,聊天机器人生成的响应很可能会满足主题,就像对其他意义相近的类别一样。

根据佩雷拉和迪亚兹[ 28],大多数与健康相关的聊天机器人关注的是神经和营养障碍,而吸烟属于成瘾障碍的范畴,是聊天机器人解决的不太关注的健康问题之一。此外, 易用性(对用户端到端技术体验的描述)和个性化是聊天机器人在健康领域的两个主要推动因素。在这项研究中,我们也关注这些使能者,将聊天机器人带到服务不足的健康问题吸烟成瘾。我们的聊天机器人在优化类似人类的对话体验过程中,通过围绕受试者关于吸烟的积极和消极方面的观点定制对话,实现了个性化。

最后,我们很有希望观察到,一些参与者对聊天机器人提出的问题给出了广泛的回答,这些回答是深思熟虑和反思的。这表明,当作为一种干预手段使用时,可能会对一些未来的参与者产生良好的效果。

局限性和未来的改进

这项研究有4个主要局限性。第一个限制是使用跑先跑技术。尽管当观察到缺少 改变谈话 21,我们用它来创建一个简单的讨论和反思的基础。我们认识到,对于已经表现出改变行为的受试者,这可能是不合适的或有帮助的,在未来,我们计划改进聊天机器人,以便在对话早期发现改变行为,并采用不同的策略。

第二个限制是假设受试者没有放弃的动机;然而,我们从人口统计数据中得知 表1一些研究对象可能正在尝试或最近尝试戒烟。由于聊天机器人使用跑步先发MI策略来诱导受试者进行反思,这类受试者可能会发现正面和反面的诱导令人沮丧,因为他们已经有了退出的动机[ 21].解决这个问题的一个可能的方法是使用准备尺和结束与他们的对话等技术来筛选有动机的吸烟者。聊天机器人还可以引导他们找到其他适合他们的行为改变阶段的资源。

第三个限制是受试者在多产平台上自我报告的人口统计数据[ 22].收集的人口统计数据 表1可能过时了。一个重要的例子是“你最后一次尝试戒烟是什么时候”的信息,一旦受试者加入该平台,就会报告该信息。这些信息可能是过时的,不能反映主题的当前状态。在我们未来的工作中,我们打算让受试者在与聊天机器人对话之前回答一项调查。在这项调查中,我们可以向受试者询问他们加入多产后可能发生变化的变量的最新答案。

第四个限制是聊天机器人在收到对异常情况问题的响应后结束对话。这种对例外情况问题或谈话中其他问题的缺乏跟进会使谈话对象感到沮丧,并可能导致意想不到的负面影响。在对话的例外情况问题阶段生成对一般情景反思的响应需要正在积极研究的一般NLU响应生成能力。然而,我们希望在未来对这些反思提供有用的回应,并继续进行富有成效的对话。

结论

本研究描述了会话代理的设计和训练,其目的是与矛盾吸烟者互动,促使他们戒烟。代理采用来自MI的策略,并利用跑步领先技术启动具体的讨论。该设计的一个关键方面是允许对问题进行自由形式的文本回答,并使用NLU技术对自由形式的回答进行正确分类。我们能够展示一种训练NLU引擎准确识别响应的方法,然后用于选择适当的响应序列。培训的一个副作用是确定了21种不同的支持和反对吸烟的原因,这些原因是由培训对象帮助定义的。下一步是对目前训练有素的干预措施进行可行性研究,并再次迭代设计,以提高其有效性。

缩写 FN

假阴性

《外交政策》

假阳性

心肌梗死

动机性访谈

NLP

自然语言处理

NLU

自然语言理解

犹太人的尊称

研究伦理委员会

SR1

吸烟原因分类1

SR2

吸烟原因分类2

TP

真阳性

没有宣布。

Reitsma MB Fullman NgydF4y2Ba Ng Salama JS Abajobir 一个 减弱 KH Abbafati C Abera 科幻小说 亚伯拉罕 B Abyu 孔侑 Adebiyi AO Al-Aly Z 的话 AV 阿里 R 艾尔Alkerwi 一个 Allebeck P Al-Raddadi RM 阿玛雷 Amberbir 一个 阿玛 W Amrock SM 安东尼奥 CA Asayesh H Atnafu NT 泽帕迪 P 巴纳吉 一个 Barac 一个 Barrientos-Gutierrez T Basto-Abreu 交流 Bazargan-Hejazi 年代 贝蒂 NgydF4y2Ba 贝尔 B 贝罗 正义与发展党 Bensenor 即时通讯 伊恩 作为 Bhala NgydF4y2Ba 科夫 年代 螺栓 K 布伦纳 H 屁股 Z Cavalleri F Cercy K H 克里斯多夫 DJ Ciobanu LG Colistro V Colomar Cornaby l X Damtew SA Dandona l Dandona R Dansereau E Davletov K Dayama 一个 Degfie TT Deribew 一个 Dharmaratne SD Dimtsu 双相障碍 柯南道尔 Endries Ermakov SP Estep K Faraon EJA Farzadfar F 费金 六世 Feigl AB 费舍尔 F 弗里德曼 J G / hiwot TT SL W Gillum也 射频 黄金 艾尔 Gopalani SV 戈泰 CC 古普塔 R 古普塔 R 古普塔 V Hamadeh RR 纸巾 G 哈布 霍奇金淋巴瘤 干草 如果 Horino Horita NgydF4y2Ba Hosgood 高清 侯赛尼 一个 Ileanu BV Islami F G Y 乔纳斯 简森-巴顿 卡比尔 Z 卡迈勒 R Kasaeian 一个 Kesavachandran CN 埃塞俄比亚 y 卡里尔 Khang Y Khera 年代 Khubchandani J D YJ Kimokoti RW Kinfu Y Knibbs LD Kokubo Y Kolte D 科帕克 J 牵手 年代 Kotsakis 遗传算法 Koul 巴勒斯坦权力机构 森野奎 一个 Krohn KJ 克鲁格 H Defo 汉堡王 灰蓝色 汉堡王 Kulkarni C 库马尔 遗传算法 皮带 莱托 一个 Leinsalu T 年代 P 年代 l 洛佩兹 广告 年代 El拉扎克谈话 马吉德 一个 Malekzadeh带领 R 马耳他 直流 Manamo 佤邦 Martinez-Raga J Mekonnen AB 门多萨 W 米勒 TR 默罕默德 Morawska l 穆萨 KI 内格尔 G 纽帕妮 SP G Oyekale 作为 巴勒斯坦权力机构 Pana 一个 公园 E 帕蒂尔 巴顿 GC 佩德罗 J Qorbani Rafay 一个 拉赫曼 意大利广播电视公司 RK 内存 U Ranabhat CL Refaat Reinig NgydF4y2Ba Roba 海关 罗德里格斯 一个 罗马 Y 罗斯 G 罗伊 一个 Sagar R 所罗门 晶澳 Sanabria J 德·索萨·桑托斯 缝匠肌 B Satpathy还 索耶 年代 Saylan 国会议员 施拉格 NgydF4y2Ba 舒特等人 AE Sepanlou SG Serdar B 谢赫 J 胫骨 期刊 R Shishani K Shiue Sigfusdottir ID 西尔弗伯格 辛格 J 辛格 V Slepak 埃尔 Soneji 年代 索利亚诺 简森-巴顿 Soshnikov 年代 Sreeramareddy CT 斯坦 DJ 奇怪的 年代 Subart 毫升 Swaminathan 年代 Szoeke CE Tefera WM Topor-Madry R Tran B Tsilimparis NgydF4y2Ba Tymeson H Ukwaja KN 厄普代克 R 奥斯曼 办公自动化 Violante FS Vladimirov SK Vlassov V Vollset SE Vos T Weiderpass E C Werdecker 一个 威尔逊 年代 Wubshet l Yakob B 矢野 Y P Yonemoto NgydF4y2Ba 年代 尤尼斯 MZ C 扎伊迪 Z 艾尔·赛义德·扎基 艾尔 Zipkin B 穆雷 CJ Forouzanfar MH Gakidou E 1990-2015年195个国家和地区的吸烟流行率和疾病负担:来自2015年全球疾病负担研究的系统分析 《柳叶刀》 2017 05 389 10082 1885 906 10.1016 / s0140 - 6736 (17) 30819 - x 加拿大烟草、酒精和毒品调查(CTADS): 2017年结果摘要 加拿大卫生部 2017 2020-03-19 https://www.canada.ca/en/health-canada/services/canadian-tobacco-alcohol-drugs-survey/2017-summary.html#n2 Heydari G Masjedi Ahmady AE Leischow SJ 兰多 Shadmehr MB Fadaizadeh l 戒烟方法的比较研究:定量系统综述 国际预防医学 2014 06 5 6 673 8 25013685 PMC4085918 Hardcastle SJ 汉考克斯 J Hattar 一个 Maxwell-Smith C Thøgersen-Ntoumani C 女巫 女士 激励无动机者:如何改变那些不愿改变的人的健康行为? 前面Psychol 2015 6 835 10.3389 / fpsyg.2015.00835 26136716 PMC4468355 Wewers Stillman 足总 哈特曼 Shopland 博士 每日吸烟者按变化阶段的分布:当前人口调查结果 Prev地中海 2003 06 36 6 710 20. 10.1016 / s0091 - 7435 (03) 00044 - 6 12744915 S0091743503000446 Hettema 亨德里克斯 PS 戒烟动机性访谈:一项元分析综述 J咨询临床精神科 2010 12 78 6 868 84 10.1037 / a0021498 21114344 2010-24305-005 Hettema J 斯蒂尔 J 米勒 或者说是 动机性访谈 安奴Rev精神病诊所 2005 1 91 111 10.1146 / annurev.clinpsy.1.102803.143833 17716083 Lundahl BW 昆兹 C 布劳内尔 C Tollefson D 伯克 提单 动机性访谈的元分析:25年的实证研究 Res Soc工作实践 2010 01 11 20. 2 137 60 10.1177 / 1049731509347850 Jurafsky D 马丁 JH 语音和语言处理:自然语言处理、计算语言学和语音识别导论 2021 上马鞍河,新泽西州,美国 普伦蒂斯霍尔 微软XiaoIce 2020-01-21 https://www.msxiaobing.com 像电话一样:微软在中国的社交聊天机器人小冰在自然对话方面取得突破 微软消息 2019 2020-01-21 https://news.microsoft.com/apac/features/like-a-phone-call-xiaoice-microsofts-social-chatbot-in-china-makes-breakthrough-in-natural-conversation/ McTear Callejas Z 巴尔 DG 对话界面:与智能设备对话 2016 美国纽约 施普林格国际出版 透过计算机 J 一种研究人与机器之间自然语言交流的计算机程序 Commun ACM 1966 01 9 1 36 45 10.1145/365153.365168 曼宁 CD Schutze H 统计自然语言处理基础“, 1999 剑桥,麻 麻省理工学院出版社 Facebook Messenger 2020-01-21 https://www.messenger.com/ WhatsApp 2020-01-21 https://www.whatsapp.com 微信 2020-01-21 https://www.wechat.com/en 菲茨帕特里克 达西 一个 Vierhile 使用全自动对话代理(WoeBot)为有抑郁和焦虑症状的年轻成人提供认知行为治疗:一项随机对照试验 JMIR Ment Health 2017 06 6 4 2 e19 10.2196 / mental.7785 28588005 v4i2e19 PMC5478797 巴特勒 交流 查普曼 福尔曼 新兴市场 贝克 认知行为疗法的经验地位:元分析综述 临床精神科Rev 2006 01 26 1 17 31 10.1016 / j.cpr.2005.07.003 16199119 s0272 - 7358 (05) 00100 - 5 ElizzBot 2017 2020-01-21 https://elizz.com/elizzbot/ 米勒 或者说是 Rollnick 年代 动机性访谈:帮助人们改变 2012 美国纽约 吉尔福德出版社 多产:在线招募调查和市场研究参与者 2020-01-21 https://www.prolific.co/ 班杜拉 一个 自我效能:控制的练习 1997 美国纽约 W·H·弗里曼 罗素 皮托 J 帕特尔 UA 吸烟动机的阶因结构分类 J R Stat Soc系列B 1974 137 3. 313 10.2307 / 2344953 智慧。人工智能 2020-01-21 https://wit.ai/ space:用Python进行工业强度的自然语言处理 2020-01-21 https://spacy.io/ Perski O 起重机 D 胡子 E 棕色(的) J 添加支持性聊天机器人是否能促进戒烟应用程序的用户参与?实验研究 数字健康 2019 5 2055207619880676 10.1177 / 2055207619880676 31620306 10.1177 _2055207619880676 PMC6775545 佩雷拉 J 迪亚兹 O 使用健康聊天机器人改变行为:一项映射研究 医学系统 2019 04 4 43 5 135 10.1007 / s10916 - 019 - 1237 - 1 30949846 10.1007 / s10916 - 019 - 1237 - 1
Baidu
map