这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
在任何时候,人群中的大多数吸烟者都是矛盾的,没有戒烟的动机。动机性访谈(MI)是一种基于证据的技术,旨在诱导矛盾吸烟者做出改变。MI从业人员既稀缺又昂贵,而且很难接触到吸烟者。吸烟者可以通过网络联系到,如果一个自动聊天机器人可以模仿MI对话,它可以形成一个低成本和可扩展的干预的基础,激励吸烟者戒烟。
这项研究的主要目标是设计、训练和测试一个基于mis的自动聊天机器人,它能够在与吸烟者的对话中引发反思。本研究描述了收集训练数据的过程,以提高聊天机器人生成面向信息管理的响应的能力,特别是反思和总结语句。本研究的第二个目标是通过与聊天机器人完成对话后的自愿反馈来观察对参与者的影响。
一名MI专家与计算机工程和自然语言处理(NLP)方面的专家进行了跨学科合作,共同设计了聊天机器人的对话和算法。从一个基于网络的平台上招募了121名成年吸烟者,分为11个连续组,进行单臂前瞻性迭代设计研究。这个聊天机器人的设计目的是利用MI的跑步领先技术,激发人们对吸烟利弊的思考。参与者还被要求确认聊天机器人对他们的自由形式回答的分类,以衡量底层NLP模型的分类准确性。每一组提供的回答用于训练下一组的聊天机器人。
在14周内共收到来自11个连续组的121名参与者的6568份回复。从这些回答中,我们能够分离出21种支持和反对吸烟的独特原因,以及每种原因的相对频率。在11次迭代中,逐步收集作为输入的回答和作为标签的吸烟原因,使聊天机器人内部的分类F1分从第一组的0.63提高到最后一组的0.82。每个参与者与聊天机器人交互的平均时间为21.3分钟(SD 14.0)(最小6.4分钟,最大89.2分钟)。我们还发现,34.7%(42/121)的参与者喜欢与聊天机器人的互动,8.3%(10/121)的参与者在自愿反馈中指出了明确的戒烟好处,而不是明确要求。
通过网络招募矛盾的吸烟者是训练聊天机器人提高反思和总结陈述准确性的一种可行方法,这是MI的基本组成部分
吸烟每年造成全世界600多万例可预防的死亡[
MI是一种以患者为中心的协作咨询方法,关注变化的语言,作为解决矛盾心理常见问题的一种方式[
基于心理信息的治疗的一个障碍是治疗师需要时间来学习这种模式,获得掌握,并随着时间的推移与他们的客户保持一致的反应。此外,没有足够的卫生保健专业人员亲自为所有可能受益于MI的吸烟者提供此类干预。如果基于计算机的会话代理(也称为聊天机器人)能够成功地采用MI技术,将很容易扩大许多吸烟者对这种已知的成功干预的访问。它不仅成本低,而且通过当今众多可用的聊天平台更容易访问。但是,要创建这样一个会话代理,还需要克服许多障碍。
直到最近,计算机还很难理解自由形式的文本答案并作出适当的响应。此功能将允许键所需的反射和摘要语句
会话系统通常使用两种方法中的一种来从语言表达式中获取信息:基于规则的方法(例如著名的1960年代的ELIZA聊天机器人[
现代聊天机器人使用基于规则和概率方法的组合——自然语言理解(NLU)模型告知对话上下文和响应生成的规则。此外,聊天机器人越来越多地被用于心理健康方面
这项研究的长期目标是创建一个聊天机器人,帮助吸烟者做出戒烟的决定。如果这样的聊天机器人是有效的,它将是非常简单和低成本的部署,以与一大批没有戒烟动机的吸烟者互动。这可以通过前面提到的平台或通过社交媒体渠道的招聘广告来实现。本研究描述了创建这样一个代理的第一步:一个单臂前瞻性研究,用于改进聊天机器人的反应,并报告受试者在与聊天机器人进行关于吸烟的自动对话时的经验。
第一步是设计一个最小会话代理的结构,它既自动化又采用了MI的原理。这是通过MI专家和临床医生以及计算机工程和NLP专家之间的讨论和互动而发展起来的。MI行为改变方法是参与一种对话,引起自我反思,目的是减少吸烟者对戒烟的矛盾心理。
研究对象通过网络从多产平台[
入选标准:
说英语的人
每天抽烟
居住在英国、美国或加拿大
年龄在16到60岁之间
排除标准:
多产评分<9
研究人员在“多产”网站上向受试者提交了一份同意书,上面详细列出了研究信息,并要求他们与聊天机器人交谈,以训练它。征得同意后,受试者被要求访问部署聊天机器人的网站,并完成两项任务:第一,与聊天机器人交谈,第二,对与聊天机器人交谈的整体体验给出反馈,并提出改进建议。后者在与聊天机器人接触结束时被问到以下问题:“在你完成研究之前,请花点时间评论一下你与聊天机器人聊天的经历。除了能够更好地理解你的反应,你能给我们什么样的建议来改进它呢?”
参与者被招募为一组,每次10或11人。这使得我们可以在两组之间重新训练聊天机器人,并提高它对下一组的分类精度。它还使支持和反对吸烟的新类别得以增加,这构成了对话的中心部分,如
聊天机器人通过3个阶段向被试传递对话:介绍、反思和结束。在介绍阶段,聊天机器人向被试描述其目的,并请求允许继续对话。反思阶段是谈话的核心。它提出的大多数问题的目标是引出关于吸烟行为的反思陈述。为了建立这种反思,聊天机器人让受试者进行两个练习。首先,它使用MI跑领先技术[
聊天机器人反射阶段的整体流程。
一般来说,回答是根据对话的当前状态和聊天机器人对受试者回答的分类来选择的。聊天机器人可以生成两种类型的脚本响应。第一种类型包括对会话树中某个特定情况的期望的逐字应答。例如,聊天机器人总是问受试者:“你喜欢抽烟吗?”这是谈话的反思阶段。第二种类型是脚本响应,聊天机器人可以生成包含与主题对话的变量的响应。例如,聊天机器人可以生成以下变量响应:" You said '…’,我认为可以归为‘……’。”回复中的第一个省略号是聊天机器人正在回忆的句子,后面的省略号是它对该句子的理解。在这两种类型的回答中,聊天机器人可以选择不同的句子变体,以减少对话中的重复。在生成响应的任何时刻,聊天机器人从可用的逐字或可变响应集合中随机选择。
在谈话的介绍阶段之后,聊天机器人开始使用跑步先行技术,明确询问被试者吸烟的利弊。这种方法为讨论提供了一个具体的基础,它已被MI用作启动变革谈话的一种方式,这是本研究的最终目标[
受试者被问及以下3个问题:(1)你喜欢吸烟吗?吸烟有什么好处?(3)吸烟有什么坏处?第一个问题的答案决定了被试对吸烟的情绪,并被用来为后面的两个问题排序。如果被试对第一个问题的回答是肯定的,那么被试就会被问到:“吸烟有什么好处?”“第一。同样地,如果回答是否定的,那么被试就会被问到:“吸烟有什么坏处?”“第一。这种排序符合MI原则,即保持对话的开放性和以客户为中心[
当被问及吸烟的利弊时,主语提供了自由形式的文本回答。NLU需要一个训练数据的语料库,该语料库包含自由形式的响应的示例,以及将响应分类到相关类别的标签。聊天机器人这个训练阶段的一个关键方面是确定所有矛盾吸烟者中存在的利弊(吸烟原因)的不同类别的名称和数量。一旦建立了这些分类,我们将能够在干预研究中为受试者提供量身定制的响应,这将在本文的最后讨论。
聊天机器人对受试者给出的每一个赞成或反对的意见都提供了初始回应,这反映了他们赞成或反对的分类(即分类)。这模仿了MI从业者向客户传达理解的一般MI方法。例如,当一个实验对象说:“吸烟给我一种愉快和快乐的感觉”,聊天机器人会回答:“我明白,你从吸烟中获得快乐和满足。”这种确认性的回复反映出对聊天机器人的明显理解。反思对于被试者来说是最有用的,当他们写下可以被提炼成小句的长篇大论时,或者当他们表达属于同一类别的多个赞成或反对意见时[
一旦被试者提供完所有的优点和缺点,聊天机器人就会在每个类别内逐字逐句地重复被试者所写的内容。例如,聊天机器人可能会写,“你说了‘它让我感觉的方式’,我认为这本质上是感觉良好或满足。”此外,如果被试者写下了归入同一类别的多个赞成或反对意见,聊天机器人会正确地做出反应。它通过在一个话语中总结每个类别来做到这一点。例如,聊天机器人在总结压力这一项的两个优点时说:“你说了‘镇静神经’和‘缓解压力’,我认为这和压力有关。”为了展示聊天机器人如何应用跑步领先技术,
总之,在对话设计中的第一个反思阶段的练习遵循几个MI原则:它与被试对吸烟的情绪一致,以决定是否应该首先讨论赞成或反对吸烟。其次,对话探讨了利弊,以更简短的形式反映每一个。最后,聊天机器人将所有的优点和缺点汇集在一起,在对话的适当点进行总结。的
谈话的例子:
机器人:“你喜欢抽烟吗?”
主题:“我愿意”
机器人:“你喜欢抽烟吗?”
这是一个在任务之间消磨时间的好方法。
机器人:“我明白了,吸烟是有益的,因为它为你提供了有益的分心。”
机器人:“你还喜欢抽烟吗?”
做一些有压力的事情是放松的。
机器人:“让我看看我是否理解了:吸烟可以缓解你的压力。”
机器人:“你说‘这是消磨任务间隙时间的好方法’,我认为这和注意力分散有关。”
Bot:“你还说‘做一些有压力的事情会让人放松’,我认为这可以归为压力。”
机器人:“我的总结正确吗?”
机器人:“好吧。现在让我们来谈谈吸烟的坏处。”
预测寻求改变的人是否会采取行动的最大决定因素之一是自我效能。
为了达到这些效果,聊天机器人会询问被试者通常行为的例外情况。每给出一个赞成或反对的问题,聊天机器人会问3个问题。第一个问题要求被试回忆他们经历过的有利或不利的情况,以及它是如何导致他们吸烟的
机器人:“请描述一下你经历过压力而最终吸烟的经历。”
对我来说,吸烟与‘减压’有关。如果我感到焦虑,吸烟可以缓解焦虑。”
机器人:“请描述一个你经历过压力但最终没有吸烟的例子。”
这句话的意思是:“在我离婚之前,我的前夫经常给我很大的压力,但他也让我对吸烟感到不好受。很多时候他会让我很紧张,我不会选择在他身边抽烟。”
Bot:“回想一下,当你能够阻止自己吸烟的时候。这和你抽烟的时候有什么不同?”
主题:“远离香烟带来的情感负担超过了我从吸烟中获得的快乐,所以我没有抽。”
在第一次训练迭代之前,有必要有一组初始的吸烟原因(赞成和反对)类别,以便NLU模型可以尝试对它们进行分类,以通知聊天机器人如何做出反应。最初的10个原因来自以下两个来源:前6个原因来自“我为什么吸烟”问卷[
虽然这10个类别通常表示赞成吸烟的理由,但其中一些也可以被视为反对吸烟的理由。例如,压力类别中的一个缺点是吸烟者在香烟用完时会感到焦虑。这就是吸烟的坏处。因此,对于每一个类别,我们也要确定一个理由是赞成的,还是反对的,或者两者都是。检测这一点很重要,因为聊天机器人选择的反思和总结反应会根据理由是赞成还是反对而有所不同。
除了上面提到的10个分类,在训练研究中,聊天机器人会要求被试判断聊天机器人选择的分类是否正确,如果不正确,则从列表中给出正确的分类。如果被试者认为一个分类列表不包括原因,聊天机器人就会要求被试者提出一个新的分类。我们将这种类别确认过程称为
机器人:“你对吸烟有什么积极的看法吗?告诉我你能想到什么"
主题:“帮助我与其他吸烟者建立联系并进行社交”
机器人:“我把‘帮助我与其他吸烟者建立联系并进行社交’理解为与‘社交’相关的东西。”
机器人:“我说的对吗?”
主题:“正确”
机器人:“谢谢你确认我的知识。”
机器人:“我明白了,吸烟对你来说是一种社交习惯。”
机器人:“你对吸烟还有什么积极的看法?”
主题:“我喜欢烟的味道”
机器人:“我把‘我喜欢烟的味道’理解为与‘感觉不错’有关。”
机器人:“我说的对吗?”
主题:“错误”
机器人:“是下列选项之一吗?上瘾,刺激,…”,其他
主题:“其他”
机器人:“你能用一两个词告诉我这是什么吗?”
主题:“味道”
机器人:“谢谢你教我新东西!”
机器人:“你还不喜欢抽烟吗?”
主题:“黄手指”
机器人:“我把‘黄手指’理解为与‘健康’有关。”
机器人:“我说的对吗?”
主题:“错误”
机器人:“是下列选项之一吗?上瘾,刺激,…外表,……”,其他
主题:“外貌”
在每组受试者完成各自的对话后,关于吸烟原因类别的新信息出现了,需要研究人员考虑。该信息可以是以下信息之一,如中所示
我们还考虑过通过回顾对话和提出新分类的受试者的反应来引入新分类。如果在讨论中,我们不能就一个回答是否适合现有类别达成共识,那么就创建一个新的类别,并给它一个描述性的名称。因此,我们需要创建脚本响应,以便聊天机器人能够反映和总结检测的新类别。编写新响应脚本的过程类似于我们如何商定一个新类别;这是在研究人员讨论的基础上决定的。随着我们在吸引受试者和训练聊天机器人的过程中采用迭代策略,随着受试者在对话中通过这种训练模式向聊天机器人介绍新的理由,出现了更多的赞成和反对的分类。
研究的主要目标是建立一个数据集的例子,赞成和反对吸烟的理由和他们的类别。第二个目标是使与聊天机器人的对话体验尽可能愉快。为了评估这些目标,我们统计了优点和缺点的例子数量以及它们的类别。我们还计算了聊天机器人的分类器的精度、召回率和F1分,这些分类器是在一组没有经过训练的示例上进行的,以衡量其性能。精度度量分类器对测试数据进行的所有检测中正确检测的百分比,而召回度量分类器错误分类响应或无法确定任何分类的频率。F1分数是精度和召回率的调和平均值,它衡量分类器产生正确检测(精度)和不遗漏任何检测(召回率)的能力的性能。
精确度、召回率和F1分数的定义。
测量 | 定义 |
精度 | TP一个(tp + fpb) |
回忆 | Tp / (Tp + fnc) |
F1的分数 | TP / (TP + 0.5 x [FP + FN]) |
一个TP:真阳性。
bFP:假阳性。
cFN:假阴性。
在计算度量时
多伦多大学健康科学研究伦理委员会(REB)审查并批准了该研究。REB方案编号为35962,于2018年5月28日获得批准。
共有121名参与者在14周内完成了这项研究。
研究对象的人口统计数据(N=121)。
特征 | 值 | |
年龄(年),平均值(SD) | 35.2 (9.8) | |
|
||
16 - 19 | 0 (0.0) | |
为20 - 29 | 40 (32.8) | |
- 39 | 42 (34.4) | |
40至49 | 23日(18.9) | |
50-59 | 13 (10.7) | |
60 | 1 (0.8) | |
失踪 | 3 (2.5) | |
|
||
女 | 60 (49.2) | |
男性 | 59 (48.4) | |
失踪 | 3 (2.5) | |
|
||
一天一次 | 5 (4.1) | |
每天2-5次 | 20 (16.4) | |
每天6-10次 | 29 (23.8) | |
一天11-19次 | 48 (39.3) | |
每天≥20次 | 19日(15.6) | |
失踪 | 1 (0.8) | |
|
||
从来没有 | 16 (13.1) | |
> 12个月 | 30 (24.6) | |
7 - 12个月 | 10 (8.2) | |
4 - 6个月 | 14 (11.5) | |
1 - 3个月 | 15 (12.3) | |
目前在 | 14 (11.5) | |
失踪 | 23日(18.8) | |
|
||
全职 | 61 (50.0) | |
兼职 | 21日(17.2) | |
不从事有报酬的工作 | 17 (13.9) | |
失业(和找工作) | 15 (12.3) | |
其他 | 7 (5.7) | |
失踪 | 1 (0.8) | |
|
||
联合王国 | 66 (54.1) | |
美国 | 50 (41.0) | |
加拿大 | 6 (4.9) |
聊天机器人收到了来自121名参与者的6568个回复,其中4271个是自由形式的回复,2297个是从聊天机器人的建议回复中选出的。每个参与者与聊天机器人互动的平均时间为21.3分钟(SD 14.0)。最短的对话为6.4分钟,而最长的对话持续了89.2分钟。最长的对话是由于特定的参与者对吸烟有更多的赞成和反对意见,并对聊天机器人做出了长时间的回应。
除原来的10类吸烟原因外,另外确定了11类截然不同的吸烟原因。
这项研究产生了1010个样本的数据集,参与者如何表达21种不同的吸烟是好是坏的分类。在这1010个样本中,有79个样本和10个类别是由研究人员在最初的一组参与者之前合成的,如前所述。其余931个样本和11个类别是通过招募参与者的输入生成的。在1010个样本中,490个对吸烟表示赞成,520个对吸烟表示反对。在21个不同的类别中,5个是有利的类别(无聊、酷、感觉良好、有东西在手和刺激),6个是不利的类别(成本、脏、火灾危险、外表、糟糕的榜样和耻辱),其余10个是有利和不利的类别(上瘾、分心、味道、专注力、健康、常规、气味、吸烟限制、社交和压力)。
在对话中使用的所有吸烟原因类别的列表。
分类和赞成或反对 | 数 | 例子 | |||
|
|||||
|
反对 | 1 | "我醒来想到的第一件事就是我的第一根烟" | ||
|
箴 | 55 | "我渴望尼古丁" | ||
|
|||||
|
箴 | 16 | “我抽烟是因为无聊” | ||
|
|||||
|
箴 | 9 | “让我看起来很酷” | ||
|
|||||
|
反对 | 67 | “花了那么多钱换来这么一点快乐” | ||
|
|||||
|
反对 | 16 | “烟灰四处飞溅” | ||
|
|||||
|
箴 | 52 | “这给了我独处和思考的时间” | ||
|
反对 | 11 | "它如何打断你的工作" | ||
|
|||||
|
箴 | 85 | “我喜欢它给我的感觉” | ||
|
|||||
|
反对 | 7 | “它烧毁了我的房子和家具” | ||
|
|||||
|
箴 | 25 | "我喜欢烟的味道" | ||
|
反对 | 7 | “烟在你嘴里留下的味道” | ||
|
|||||
|
箴 | 15 | “帮助我集中精力做电脑工作” | ||
|
反对 | 3. | “如果我需要一支烟,我就无法集中精神” | ||
|
|||||
|
箴 | 25 | “香烟有助于排便” | ||
|
反对 | 133 | "所有与吸烟有关的健康问题" | ||
|
|||||
|
箴 | 30. | "让我有东西可以用" | ||
|
|||||
|
反对 | 31 | “衰老或外貌变化总是一种恐惧” | ||
|
|||||
|
反对 | 14 | “我很内疚,因为我儿子不喜欢我抽烟和唠叨。” | ||
|
|||||
|
箴 | 9 | “这是值得期待的事情” | ||
|
反对 | 5 | “常规香烟” | ||
|
|||||
|
箴 | 9 | “香烟的味道很好闻” | ||
|
反对 | 74 | "让你的手指,衣服和呼吸都散发着气味" | ||
|
|||||
|
箴 | 2 | “有时候禁烟令会迫使我到外面去,然后我意识到这是一个美丽的夜晚,我很高兴它迫使我到外面去。” | ||
|
反对 | 22 | “你不能在很多地方抽烟” | ||
|
|||||
|
箴 | 58 | "我喜欢和抽烟的人交往" | ||
|
反对 | 11 | “我周围的人不抽烟,只有我抽烟” | ||
|
|||||
|
反对 | 62 | “不吸烟的人不欢迎你” | ||
|
|||||
|
箴 | 37 | "烟草呛住我喉咙的感觉" | ||
|
|||||
|
箴 | 177 | “帮助我放松和减少压力” | ||
|
反对 | 2 | “当我用光的时候感到焦虑” |
在实现聊天机器人的软件时,我们最初使用了一个名为Wit的基于web的第三方分类系统。人工智能(
吸烟原因分类器1和吸烟原因分类器2自然语言理解分类器的精度、召回率和F1评分。
测量 | 吸烟原因分类1 | 吸烟原因分类2 |
精度 | 0.98 | 0.87 |
回忆 | 0.28 | 0.84 |
F1的分数 | 0.44 | 0.86 |
文中给出了分类器在训练组迭代过程中的进展度量
聊天机器人的正反检测的精度、召回率和F1分。
集团 | 精度 | 回忆 | F1的分数 | 分类器使用 |
1 | 0.93 | 0.48 | 0.63 | SR1一个 |
2 | 0.97 | 0.56 | 0.71 | SR1 |
3. | 0.96 | 0.26 | 0.41 | SR1 |
4 | 0.96 | 0.46 | 0.62 | SR1 |
5 | 0.93 | 0.67 | 0.78 | SR1 |
6 | 0.92 | 0.63 | 0.75 | SR1 |
7 | 1.00 | 0.61 | 0.76 | SR1 |
8 | 0.96 | 0.68 | 0.80 | SR1 |
9 | 0.93 | 0.58 | 0.71 | SR1 |
10 | 0.95 | 0.60 | 0.73 | SR1 |
11 | 0.91 | 0.75 | 0.82 | SR2b |
一个SR1:吸烟原因分类器
bSR2:吸烟原因分类2。
在与聊天机器人的接触结束时,参与者被要求自愿回答以下问题:“在你完成研究之前,请花点时间谈谈你与聊天机器人聊天的经历。除了能够更好地理解你的反应,你能给我们什么样的建议来改进它呢?”大多数对这个问题的回答都建议对聊天机器人进行改进。然而,在反馈中还出现了其他信号。其他的回答包括参与者喜欢与聊天机器人交谈,发现它有益,或对它感到沮丧。为了定量测量这些数据,并基于研究人员之间的讨论,我们在每个参与者的反馈中添加了以下4个相互包容(即重叠)的标签:改进建议、乐趣、益处和挫折。
改进建议
任何建议bug修复、新功能或与功能相关的评论的反馈
享受
表明与聊天机器人有积极愉快体验的反馈
好处
反馈明确表明聊天机器人导致参与者反思自己的行为或促使他们退出
挫折
任何表明受试者有过负面体验或造成负面影响的反馈
好处
“这项研究实际上让我对戒烟有了更多的思考。”
好处
“这真的非常有帮助。它让我的思想得以释放。我已经吸烟很长时间了,信不信由你,这是我第一次真正对自己的行为有了一些认识,爱它。”
挫折
“这个聊天机器人真的需要重新设计。标点符号似乎会让人觉得“Yes”是可以接受的,但“Yes”是可以接受的。不是。而且,当它只是说‘显然你永远无法阻止自己’时,它就会让人们变得好斗,就像我一样。”
挫折
令人沮丧的是,这些问题毫无意义。我写了“it smell bad”,它让我描述一个“it smell bad”的动作导致你吸烟的情景。很多自我反省也感觉毫无意义。我每天抽一包烟,经常想都没想。,so pinpointing a time when something caused me to smoke is really hard.”
来自参与者的自由形式的反馈为他们的体验提供了一个信息性的观点:近35%(42/121,34.7%)的参与者认为与聊天机器人交谈是一种愉快的体验。此外,表示受益(42/121,8.3%)多于表示沮丧(3/121,2.5%)的受试者。我们认为挫折效应从长远来看是无害的,因为目标受众是没有动力的主体,持续吸烟不会产生短期的有害影响。
迭代地招募参与者来收集训练数据,并让他们参与关于吸烟的对话,从而实现了基于mi的聊天机器人的训练和验证。虽然我们的聊天机器人并没有严格遵循MI中提到的4个过程
在本研究的重点领域,已有一些基于戒烟的聊天机器人的前期工作。Perski等人[
我们设计的对话的一个关键部分是使用反思性倾听来引出吸烟的利与弊,以及随后的简短反思和重述。虽然我们的主要目标是收集训练数据,并在招募的参与者身上测试我们的聊天机器人,但我们已经了解到如何改进我们的聊天机器人,以适应未来的干预。我们的经验表明,研究对象通常不会清晰地描述吸烟的利与弊。相反,它们解释了与特定的赞成或反对意见相关的感觉。例如,一个被试可能会说,“帮助我与其他吸烟者建立联系”来进行交流
值得注意的是,在这个聊天机器人的环境中,精确度没有回忆重要。高回忆率是提供给被试的反映所需要的。目前用于检测优缺点的NLU分类器的实现是一个互斥的分类器。主体所表达的任何赞成或反对吸烟的言论都只对应一个类别。然而,正面和反面的分类确实部分重叠,而且是主观的。例如,我们的聊天机器人将“它如何打断你的工作”这句话分类为
根据佩雷拉和迪亚兹[
最后,我们很有希望观察到,一些参与者对聊天机器人提出的问题给出了广泛的回答,这些回答是深思熟虑和反思的。这表明,当作为一种干预手段使用时,可能会对一些未来的参与者产生良好的效果。
这项研究有4个主要局限性。第一个限制是使用跑先跑技术。尽管当观察到缺少
第二个限制是假设受试者没有放弃的动机;然而,我们从人口统计数据中得知
第三个限制是受试者在多产平台上自我报告的人口统计数据[
第四个限制是聊天机器人在收到对异常情况问题的响应后结束对话。这种对例外情况问题或谈话中其他问题的缺乏跟进会使谈话对象感到沮丧,并可能导致意想不到的负面影响。在对话的例外情况问题阶段生成对一般情景反思的响应需要正在积极研究的一般NLU响应生成能力。然而,我们希望在未来对这些反思提供有用的回应,并继续进行富有成效的对话。
本研究描述了会话代理的设计和训练,其目的是与矛盾吸烟者互动,促使他们戒烟。代理采用来自MI的策略,并利用跑步领先技术启动具体的讨论。该设计的一个关键方面是允许对问题进行自由形式的文本回答,并使用NLU技术对自由形式的回答进行正确分类。我们能够展示一种训练NLU引擎准确识别响应的方法,然后用于选择适当的响应序列。培训的一个副作用是确定了21种不同的支持和反对吸烟的原因,这些原因是由培训对象帮助定义的。下一步是对目前训练有素的干预措施进行可行性研究,并再次迭代设计,以提高其有效性。
假阴性
假阳性
动机性访谈
自然语言处理
自然语言理解
研究伦理委员会
吸烟原因分类1
吸烟原因分类2
真阳性
没有宣布。