这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
工作联盟是指卫生专业人员和客户之间的重要关系质量,与治疗成功密切相关。最近的研究表明,客户可以与聊天机器人建立一种情感纽带。然而,很少有研究调查这种感知到的关系是否受到聊天机器人可以模拟的不同亲密程度的社会角色的影响,以及允许用户选择聊天机器人的社会角色。
本研究旨在了解聊天机器人的社会角色如何通过一组人际亲密线索来表达,并根据客户的特征(即年龄和性别)以及他们是否可以自由选择聊天机器人的社会角色,研究这些社会角色如何影响客户的体验和与聊天机器人的情感纽带的发展。
在社会角色理论和社会反应理论的指导下,我们为具有不同社会角色的聊天机器人在人际亲密连续体上开发了一个设计代码本。基于这个代码本,我们操纵了一个虚拟的医疗保健聊天机器人来模拟医疗保健环境中常见的四种不同的社会角色之一——机构、专家、同伴和对话自我,并在一个基于网络的实验室研究中检验了对感知情感纽带和使用意图的影响。该研究共纳入251名参与者,平均年龄41.15岁(SD 13.87);女性占57.0%(143/251)。参与者要么被随机分配到其中一个聊天机器人条件(无选择:n= 202,80.5%),要么可以自由选择与这些聊天机器人角色之一互动(自由选择:n= 49,19.5%)。进行单独的多变量方差分析来分析(1)无选择组中聊天机器人角色之间的差异,(2)无选择组和自由选择组之间的差异。
而聊天机器人角色对情感联系和使用意图的主要影响不显著(
操纵聊天机器人的社会角色是医疗保健聊天机器人设计师利用用户特定的人口统计因素定制客户聊天机器人体验并改善客户对聊天机器人的感知和行为意图的一种可能途径。我们的研究结果还强调了让客户自由选择聊天机器人的好处。
在卫生保健方面,客户持续和积极地参与治疗和护理对实现最佳健康结果至关重要[
由于卫生保健专业人员监测和促进病人参与治疗的人力和财政资源有限[
工作联盟——通常也被称为治疗或帮助联盟——最初是为心理治疗环境而开发的,是心理健康障碍临床环境中治疗师-来访者合作的关键结构,反映了来访者和卫生专业人员之间的协作质量[
最近一项针对36,070名文本聊天机器人Woebot用户的研究发现,客户可能会在5天内与聊天机器人建立工作联盟[
社会反应理论下的研究,也被称为
然而,在实践中,聊天机器人经常被无意识地设计成“扮演传统上与人类相关的社会角色”[
通过这项研究,我们旨在通过以下方式缩小这一差距:首先,调查哪些设计选择允许聊天机器人的社会角色的表现(研究问题1),以及聊天机器人的社会角色如何影响用户与聊天机器人的情感联系以及他们使用聊天机器人的意图(研究问题2)。其次,我们探索了个人的人口统计资料(即性别和年龄;研究问题3)和自由选择聊天机器人的社会角色的选项会影响这些评估(研究问题4)。
社会角色理论“关注的是三个概念:社会行为的模式和特征,社会参与者所假定的部分或身份,以及为所有人所理解并为表演者所遵守的行为脚本或期望”[
将聊天机器人视为社会行动者(参见社会反应理论),个体也可以期望将现成的人类社会脚本应用于与聊天机器人的互动,特别是当特定线索表明它扮演特定角色时。
《美国心理学会心理学词典》对社会角色的定义是:“在社会环境中担任特定职位或履行特定职能的个人所应具备的一系列态度和特征行为,如配偶或照顾年迈的父母”[
客户在现实世界的卫生保健环境中遇到的典型社会角色包括,例如,了解其病情的医学专家、具有相同病情的支持性同伴、为其提供卫生保健服务的机构,以及必须根据这种情况采用自己的社会角色的客户本身。后一种角色的概念化和可操作性来自于人们通过内部对话(即与“对话自我”)与自己对话的倾向。这是因为人们知道,通过独白式的、目标导向的自我对话(例如,“我相信你!”)或与一个或多个想象的对话者进行更多沉思和反思的内部对话,人际沟通可以提供自我调节功能。
会话代理可用的社交、人际亲密线索包括(1)视觉线索(如虚拟形象),(2)语言风格线索(如称呼形式),(3)非语言风格线索(如表情符号),以及(4)语言关系内容线索(如自我表露和笑话)[
定量分析表明,大多数研究(76.6%)要么调查了视觉线索的影响,如抽象形象与人类形象[
虽然这些文章中的一些研究了这些线索的组合或相互作用,但之前没有研究调查过如何使用它们来设计整体聊天机器人角色,这些角色是基于各种人际亲密线索的适应来模拟特定的人类社会角色的。
通过统一社会角色理论和社会反应理论,
考虑到人际亲密度结构与工作联盟的情感纽带子目标密切相关,并且考虑到人际亲密度至少部分由聊天机器人在与客户接触时所扮演的社会角色决定,
而个人的个人特征,如人口因素[
个性化是指自动定制服务产品,例如,根据偏好、过去的使用行为[
鉴于已发现人口统计学特征(即年龄和性别)以不一致的方式影响用户对会话代理的评估[
当个人有机会主动选择不同的选项时,例如不同的聊天机器人角色或其中的特定设计元素,就会发生定制[
虽然自由选择与感知或与对话代理建立关系的过程之间的联系之前尚未建立,
为了回答我们的第一个研究问题,并作为实证评估聊天机器人模拟的社会角色对感知人际亲密度、情感纽带和使用它们的意愿的影响的先决条件,我们回顾了社会心理学、传播学和人机交互研究的文献,开发了一个针对不同社会角色的聊天机器人的设计代码本。设计代码本的先前版本和研究设计已在2018年欧洲信息系统会议(ECIS 2018)上发表,并作为正在进行的研究工作发表在会议论文集中[
鉴于我们关注的是在医疗保健环境中运行的聊天机器人,以及情感纽带在医患关系中起着核心作用,
作为开发具有不同社会角色的聊天机器人设计代码本的基础,我们从Bickmore和Picard提出的体现会话代理的关系行为框架中提出了8种“行为”中的7种[
为了开发聊天机器人角色,我们遵循了Bickmore和Picard的[
为具有不同社会角色的聊天机器人设计代码本。该设计代码本的研究进展版本已在2018年欧洲信息系统会议上提出,并在会议论文集中发表。本文中的版本代表最新版本。T/V区分设计线索仅适用于在不同社交背景下使用不同代词的语言中运行的聊天机器人;这里的定语代词是德语。T / V:
由于我们的研究集中在以短信形式运行的聊天机器人上,我们只考虑了一个视觉线索:静态头像。操纵聊天机器人角色的图形表示使我们能够利用先前研究的结果。这项研究发现,视觉线索引发社会和情境心理和行为反应的启动效应[
语言风格线索是传达重要的社会和语境信息的关键方面,因此有助于促进社会理解[
称呼的形式被认为是一种社会语言学线索,它口头传达了两个对话者之间的亲密关系所施加的正式程度和礼貌程度,这种现象被称为“社会指示”,在语用学和社会语言学研究中得到了广泛的研究。
与称呼的形式类似,T/V的区别被认为是另一种社会指示线索[
专业术语是指在特定职业群体中使用的一种习得的、共享的、专门的语言,这种语言可以携带有关其产生者的社会和关系信息。[qh]
一般来说,以电脑为媒介的交流缺乏传达经典非语言风格线索的可能性,比如手势或凝视。然而,由于非语言暗示“对人际交往过程(传达和解释)感情和态度至关重要”[
五个口头关系内容线索直接来自Bickmore和Picard [
问候和告别行为直接反映了对话者之间的社会关系所施加的正式程度和礼貌程度(参见Laver [
社交对话指的是闲聊的使用,“从表面上看,(可能)似乎根本不会推动对话”,但对于“人类如何获取彼此的目标和计划的信息,并决定合作工作是否值得参与”至关重要。
元关系对话需要对关系进行沟通,例如“讨论关系的本质[或]透露某人对关系的渴望”[
相互自我表露指的是相互表露自己越来越私人和亲密的信息(如个人经历、信仰和价值观)的过程。社会渗透理论认为,人际关系的发展取决于对话者相互透露信息的程度(即广度)和亲密程度(即深度)。
移情交流指的是传递理解和温暖的感觉,被描述为“建立和维持关系的核心过程之一”。[
幽默指的是使用“不协调的[评论],[被]接受者认为是一种娱乐的尝试,并成功地使人发笑”[
最后,连续性行为指的是旨在建立和“[维持]一段关系中的持久感”的行为[
我们进行了一项基于网络的实验,以调查医疗聊天机器人的社会角色(即假设2)、参与者的人口统计资料(即性别和年龄;假设3),以及自由选择聊天机器人角色(即假设4)的感知人际亲密度,情感纽带的发展以及使用聊天机器人的意图。根据提交网上电子调查结果核对表[
实验设计符合4(聊天机器人角色:机构、专家、同伴或对话自我)x2(参与者性别:女性或男性)x2(参与者年龄:年轻或年长)组间设计。样本进一步分为两个实验亚组:(1)5名参与者中有4名(80%)被随机分配到“无选择组”,在该组中,他们被随机分配到一种聊天机器人条件,介绍到场景中(图S1)
研究设计。参与者的号码列在选择组的箭头上。
参与者是通过在线小组提供商Talk online panel招募的,并根据供应商基于积分的激励系统对他们的努力进行奖励。整个研究于2017年7月在德国进行。小组供应商通过电子邮件向参与者发送了一个匿名的封闭调查链接。在提供关于研究条件的知情同意后,对参与者进行资格筛选(即18岁或以上和母语为德语的人)。
在完成一份询问人口统计和社会经济数据的介绍性问卷后,参与者被介绍到一个场景中(图S1)
在与各自的聊天机器人互动后,参与者被重新引导完成问卷调查,包括所有结果变量和操作检查,并听取实验目的的汇报。参与者平均花费15 - 62分钟完成调查(平均30.23分钟,标准差9.13分钟)。
实验刺激是基于一个虚构的医疗聊天机器人的原型设计的,该机器人促进了人格改变干预,改编自Stieger等人[
我们首先创建了一个最小可行的对话脚本“骨架”版本,其中包含了典型的干预元素。在第二步中,为了诱导聊天机器人各自的社会角色,我们系统地操纵脚本,根据概念派生的代码本(
在调查中,所有的角色都是这样介绍的(翻译成英文):“[chatbotName]是由苏黎世大学的研究人员、专家和心理治疗师开发的‘数字教练’,根据多年来对‘人格发展’研究的最新发现,它配备了各种技能。’”这句话之后是对人物角色的具体描述,如图所示
由于大多数人际亲密线索在制度条件下不存在,该条件下的脚本明显短于所有其他条件(制度:51个聊天机器人语句和32个用户响应;专家:73个聊天机器人语句和46个用户响应;Peer: 77个聊天机器人语句和48个用户响应;对话自我:74个聊天机器人语句和45个用户回复;
聊天机器人角色和他们在对话中的介绍。
聊天机器人角色 | 介绍一个 |
机构 | “人格教练是苏黎世大学心理研究所的代表,该研究所在人格研究领域享有很高的声誉。” |
专家 | " Change医生被设定为在人格指导领域有多年经验的专业心理治疗师" |
同行 | “Milo/Mila被设计成代表一个曾经参加过人格改变项目的同龄人,他/她自己将与你分享他/她自己的经历。” |
自我对话 | “你的MySelfCoach经过编程,会给你一种通过模拟内心对话与自己对话的感觉,从而帮助你从新的角度看待自己的经历。” |
一个由本文作者翻译成英文。
参与者与四个聊天机器人角色的入职对话的示例摘录。图中内容已由作者为本文翻译成英文。
整个研究是通过基于网络的调查工具SoSci survey进行的。为了全面定制医疗聊天机器人,我们使用开源软件平台MobileCoach构建了自己的聊天应用原型[
可用性测试由一名计算机工程师、两名聊天机器人研究人员和两名领域专家进行,他们定性地评估并确认了聊天机器人角色和研究设计的真实性。此外,完整的研究设置经过两次迭代,由22名来自作者网络的先前未参与的个人进行预测试,以确保可理解性和技术功能。
效能分析的依据是现有的几项关于具身会话代理的研究,这些研究调查了关系线索对情感纽带和使用意图的影响[
所有测量均采用已建立的多项目或单项目量表;感知的人际亲密度是用“自我包含他人”量表来测量的[
当构念包含多个项目时,进行信度分析以辨别所有构念得分大于0.70阈值的Cronbach α [
为了符合道德标准,我们采用了以下程序。在研究开始之前,所有参与者都收到了关于研究项目、参与的好处和风险的书面信息。此外,他们被告知有权拒绝或撤销同意而无需说明理由,他们有权在研究过程中随时退出参与研究,他们有权在联系研究小组时随时收到答复进一步问题的信息。他们还收到了关于研究项目主要资金来源的透明信息,以及他们在研究期间将与之互动的聊天机器人只是一个最小可行的原型的透明信息。在评估之前和与原型交互之前获得知情同意。在研究结束时,参与者被告知研究的实际目的。
根据苏黎世联邦理工学院伦理委员会关于人体受试者研究的合规指南[
除了参与者的年龄和性别,我们没有收集个人信息。我们研究中收集的其他社会和行为数据是完全匿名收集的。年龄和性别信息总是以汇总的、匿名的方式报告。
弱势群体或依赖群体显然不包括在内。
对聊天机器人的实验操作并不影响干预的功能方面,但只影响聊天机器人的风格和设计相关特征。
正在研究的实验操作不太可能使参与者感到不安或不安,也没有使用社会敏感话题作为情景发展的基础。
单独的方差分析证实了聊天机器人角色在地址形式(
根据聊天机器人角色、参与者性别和参与者年龄对所有结果变量(即人际亲密度、情感纽带和使用意图)指定的MANOVA模型显示,聊天机器人角色(
由于单因素方差分析发现了显著的影响,因此按照领域[]中描述的程序,为每个结果变量指定了与之前相同的因素的单独单因素方差分析。
这些方差分析显示,被试性别对感知的人际亲密度有显著的主要影响(
参与者年龄和聊天机器人角色的交互作用对感知到的人际亲密度有显著影响(
多变量检验结果为指定的多变量方差分析模型。
效果 | 威尔 |
|
|
|
|||||
|
|||||||||
|
聊天机器人角色 | 0.976 | 0.490 (9,448) | 多多 | 0.008 | ||||
|
参与者年龄(<40岁) | 0.897 | 7.010 (3,184) | <措施 | 0.103 | ||||
|
参与者的性别 | 0.952 | 3.095 (3,184) | 03 | 0.048 | ||||
|
|||||||||
|
聊天机器人角色x参与者年龄 | 0.887 | 2.518 (9,448) | .008 | 0.040 | ||||
|
聊天机器人角色x参与者性别 | 0.969 | 0.655 (9,448) | 综合成绩 | 0.011 | ||||
|
参与者年龄×参与者性别 | 0.988 | 0.756 (3,184) | 点 | 0.012 | ||||
|
|||||||||
|
聊天机器人角色×参与者性别×参与者年龄 | 0.968 | 0.670 (9,448) | .74点 | 0.011 |
方差分析(ANOVA)模型结果为参与者性别和参与者年龄的主要影响和聊天机器人角色与参与者年龄的双向交互作用。
独立变量一个 | 因变量 | ||||||||||
人与人之间的亲密关系 | 情感的纽带 | 使用意向 | |||||||||
|
|
|
|
|
|
|
|
|
|
||
参与者的性别 | 5.923 (1,186) | 02 | 0.031 | 8.081 (1,186) | .005 | 0.042 | 2.170 (1,186) | .14点 | 0.012 | ||
参与者的年龄 | 2.952 (1,186) | .09点 | 0.016 | 1.094 (1,186) | .30 | 0.006 | 4.528 (1,186) | .04点 | 0.024 | ||
聊天机器人角色x参与者年龄 | 3.046 (3,186) | 03 | 0.047 | 4.836 (3,186) | .003 | 0.072 | 2.099 (3,186) | .10 | 0.033 |
一个方差分析中只分析在多变量方差分析中有显著意义的因素。
使用Bonferroni校正的两两比较显示,无论聊天机器人的角色是什么,女性参与者始终获得了更好的结果;例如,女性参与者报告的情感纽带比男性参与者高0.450分(
由于聊天机器人角色和参与者年龄之间的交互作用是显著的,我们检查了交互图(
对每个聊天机器人角色的简单效果分析揭示了以下显著差异。对于人际关系更亲密的对话自我聊天机器人,年龄较大的参与者报告的人际亲密度显著更高(平均差为1.354,SE 0.527;
对每个参与者年龄组的简单效应分析证实,年轻的参与者报告的情感纽带得分显着降低(平均差异- 1.015,SE 0.363;
聊天机器人角色与参与者性别的互动对人际亲密度(A)、情感纽带(B)和使用意愿(C)的影响。
聊天机器人角色与参与者年龄的互动对人际亲密度(A)、情感纽带(B)和使用意愿(C)的影响。
在自由选择组中,卡方拟合优度检验显示,对聊天机器人角色的偏好具有统计学意义(
为了检验自由选择与强制选择的影响,我们指定了另一个MANOVA模型,其中包括选择类型、参与者性别和参与者年龄,与之前相同的结果测量;然而,我们只比较了对同伴聊天机器人的看法,因为自由选择组中的机构、专家和对话自我聊天机器人的群体规模可以说是很小的。
方差分析揭示了选择类型的显著主效应(Wilks
我们为具有不同社会角色的聊天机器人设计的代码本提供了一种新颖的方法,可以沿着人际亲密连续体设计聊天机器人,其灵感来自客户在其客户旅程中遇到的不同社会医疗保健角色:基于网络的实验结果表明,聊天机器人的模拟社会角色会影响用户的感知,并根据用户的人口统计资料发展情感纽带。由于聊天机器人角色对结果测量的主要影响并不显著,我们的研究加强了在开发通用的一刀切设计(即假设3)之前考虑用户特定因素的建议。
具体来说,我们发现在对聊天机器人的评估中存在显著的年龄差异,也就是说,年龄较大的参与者对对话自我角色的评价明显比年轻的参与者更积极,而年轻的参与者始终更喜欢专家角色。我们假设年轻的参与者看重来自较远的“权威角色”的指导[
最后,我们的研究表明,让个人在一系列呈现的聊天机器人角色之间进行选择会对他们的聊天机器人偏好产生影响(即假设4)。具体而言,在我们的研究中,我们发现自由选择显著提高了参与者对同伴聊天机器人的看法。这加强了我们的建议,即即使是简单的定制和个性化选项也值得额外的努力。
这项工作有几个局限性,指出未来的研究方向,研究人员可以抓住。
首先,尽管采用了严谨的科学方法,通过操纵源自先前研究的一整套人际亲密线索,开发了四种不同的聊天机器人角色,但概念化的社会角色只能被视为设计原型。未来的实验可以检查概念化的社会角色的细微差别,以及哪些设计线索与客户对社会角色的感知最相关(研究方向1)。此外,我们的场景涵盖了提供特定类型健康干预的医疗保健聊天机器人。鉴于生活方式干预中提供者-客户关系中的社会角色动态在本质上可能与其他健康干预(即高度敏感、情绪化、个人和人际关系强烈)相似,未来的研究可以明确比较不同健康背景下的差异,例如,不同慢性疾病的医疗保健聊天机器人与预防保健聊天机器人之间的差异(研究方向2)。
其次,我们研究的另一个局限性是仅限于18至65岁的讲德语的人群。针对这个年龄范围以外的年轻或年长客户(例如,患有痴呆症的老年人)的数字干预措施[
第三,另一个需要考虑的问题是客户-聊天机器人关系的持续时间。在我们的实验中,参与者与一个聊天机器人原型进行互动,该原型以延时方式模拟了三个非连续的“天”虚拟医疗干预,只有大约16分钟。然而,随着时间的推移,关系的深度和广度会发展和变化[
第四,即使我们的研究结果之一是为每个客户匹配他们个性化的完美聊天机器人,或者至少在几个聊天机器人字符之间提供足够的选择自由,以提高客户对聊天机器人的评价,但提供相同干预的多个聊天机器人的开发增加了数字健康干预开发的复杂性,从而需要更多的财力和时间。未来的研究应该寻求通过对比开发资源来探索个性化、定制和选择选项的最佳水平(研究方向10)。同样,未来的研究人员还应该研究作为潜在控制变量的其他个体特征,例如人们将人工物体拟人化的倾向,或者他们在与拟人化技术互动时感受到的恐惧感(研究方向11)[
最后,本研究表明,在横断面设计中,对不同会话代理的感知存在实质性的年龄影响。如果这些年龄效应可以被复制,未来的研究需要调查纵向设计(研究方向12),以更好地了解在人格改变的背景下,这些潜在效应是否受到特定人群和特定年龄的影响(例如,Marsh等[
据我们所知,这是第一个对医疗保健聊天机器人进行配置和比较的研究,这些机器人在医疗保健环境中具有不同的模拟社会角色。通过研究聊天机器人的社会角色的影响,并整合社会角色理论的知识,这项工作扩展了先前调查关系线索影响的研究[
此外,我们的研究有助于先前关于个人特征在人们决定与聊天机器人互动中的重要性的研究[
由于聊天机器人在客户的医疗服务体验中变得越来越普遍,医疗服务提供者的成功取决于他们有效设计聊天机器人的能力。特别是在慢性病的背景下,数字健康干预的目标是陪伴客户多年,至于哪种设计选择促进了聊天机器人与客户之间强烈情感联系的发展,仍然是开放的。为此,我们开发了一个代码本,允许研究人员和从业者系统地设计具有医疗保健环境中常见的特定社会角色的医疗保健聊天机器人,我们探索这些社会角色是否或如何影响用户和聊天机器人之间情感纽带的发展。总的来说,我们的研究结果表明,积极的影响可以来自自定义聊天机器人角色,以方便访问用户特征,如年龄和性别,或允许客户选择他们认为最需要的社会角色。未来的工作需要研究在长期干预期间客户-聊天机器人关系中的角色动态。
补充材料。
方差分析
数字健康干预中心
2018年欧洲信息系统会议
多变量方差分析
作者感谢2018年6月23日至28日在英国朴茨茅斯举行的第26届ECIS 2018上提交的研究方案审稿人的所有评论。本研究的参与者招募由瑞士国家科学基金会(No. 162724;首席研究员:硕士)。
MN和TK将研究从聊天机器人的概念化发展到研究设计。MN, DR和TK负责原型设计,应用程序开发和研究的实施。MS, CF, MA和FvW对研究和原型设计进行了测试和审查。MN负责数据收集、整理和分析,并撰写了稿件,纳入了所有作者的评论。所有作者在投稿前都对稿件进行了审定。
MN、DR、TK和FvW隶属于数字卫生干预中心(CDHI),该中心是苏黎世联邦理工学院管理、技术和经济系与圣加仑大学技术管理研究所联合发起的一项倡议,部分资金由瑞士健康保险公司CSS保险提供。然而,CSS在研究设计、数据分析、数据解释或撰写、审查或批准发表稿件方面没有任何作用。TK是CDHI的科学主任,FvW是CDHI的联合主席。TK也是Pathmate Technologies AG的联合创始人,这是一家大学衍生公司,在聊天机器人的帮助下创建和提供数字临床路径。DR于2022年开始为Pathmate Technologies工作。然而,Pathmate Technologies在本文所述的研究中没有任何作用。