这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba
人工智能(AI)驱动的症状检查器可供全球数百万用户使用,并被提倡作为更有效地提供卫生保健的工具。为了实现症状检查器的推广效益,外行人必须信任并随后遵循其指示。在人工智能中,解释被视为传达黑箱决策背后的基本原理的工具,以鼓励信任和采用。然而,人工智能驱动的症状检查器中使用的解释类型的有效性尚未得到研究。解释可以有多种形式,包括gydF4y2Ba
本研究的目的是确定症状检查者提供的解释是否影响外行人的解释信任,以及这种信任是否受到他们现有疾病知识的影响。gydF4y2Ba
对750名健康参与者进行了横断面调查。研究人员向参与者展示了一段聊天机器人模拟的视频,根据他们不同的流行病学流行程度,对偏头痛或颞动脉炎进行了诊断。这些诊断伴有四种解释中的一种。选择每种解释类型,要么是因为它目前在症状检查器中的使用,要么是因为它被对比解释理论所告知。对被试的回答进行探索性因素分析,然后采用均值比较检验来评估组间信任的差异。gydF4y2Ba
根据治疗组的不同,产生了两到三个变量,反映了参与者持有的先验知识和随后的心理模型。当不同疾病的解释类型不同时,发现偏头痛不显著(gydF4y2Ba
为症状检查应用程序开发解释的系统构建者应该考虑接收者对疾病的了解,并根据每个用户的具体需求量身定制解释。应努力为症状检查器的每个用户提供个性化的解释,以充分考虑他们可能知道的疾病,并缩小他们的信息差距。gydF4y2Ba
保健是一种普遍需要,因此《世界人权宣言》明文规定了获得适当医疗保健的权利[gydF4y2Ba
这些压力培养了人们对“使用计算机算法帮助患者自我诊断或自我分类的工具”的兴趣,这些工具被称为症状检查器(SCs)。gydF4y2Ba
开发这些应用程序的私人公司[gydF4y2Ba
鉴于它们在全球的快速部署,SCs面临着严格的审查。争论的焦点是它们的准确性,包括它们无法检测出危险疾病的可能性。gydF4y2Ba
与SCs一样,可信赖性被视为广泛采用人工智能的必要条件。可信度的一个重要组成部分是系统(或其操作员)解释其行为的能力,例如,特定诊断背后的基本原理。解释被视为一种工具,用于传达黑盒决策背后的基本原理,以鼓励用户信任和采用。gydF4y2Ba
最近的研究已经开始检验不同类型的人工智能解释的有效性[gydF4y2Ba
本文提出了一项探索性研究的结果外行人感知SC解释。信任被用来衡量解释质量,因为好的解释可以增加对人工智能系统的信任[gydF4y2Ba
由于本研究的重点是不同类型的SC解释对外行信任的影响,因此首先有必要了解解释在人工智能中的目的和用途。长期以来,研究人员一直在研究理论和实践中的解释,从而产生了有关该主题的大量文献。这里我们采用Lewis的[gydF4y2Ba
解释理论通常把重点放在解释的功能上,作为一种传递信息的机制gydF4y2Ba
SC解释的目标是对接受者产生足够的信任,以便他们遵循分诊指示,以减轻卫生系统的负担[gydF4y2Ba
解释可能在人类和社会互动中普遍存在,但它们并非无处不在。人们选择何时寻求解释[gydF4y2Ba
由Lowenstein描述的有影响力的信息缺口理论[gydF4y2Ba
知识和解释是紧密相连的[gydF4y2Ba
解释可以采取多种形式,例如,科学的,因果的,目的论的,或gydF4y2Ba
刘易斯(gydF4y2Ba
a的事实分量gydF4y2Ba
解释对比可能比解释事实本身更容易,因为P不需要足以使事件发生,只要它能区分P和Q的因果差异[gydF4y2Ba
人类很少提供一个详尽的因果链作为解释,而宁愿选择一两个相关的原因。gydF4y2Ba
要在解释的复杂性方面取得适当的平衡是困难的。Thagard的gydF4y2Ba
狭窄:gydF4y2Ba
停止锻炼(体重增加的原因)。gydF4y2Ba
单核细胞增多症(解释疲劳)。gydF4y2Ba
胃部感染病毒(解释了恶心)。gydF4y2Ba
布罗德:她怀孕了(解释了所有三个)。gydF4y2Ba
连词:1中的所有原因都为真。gydF4y2Ba
参与者更喜欢对怀孕的广泛解释(选项2),更喜欢原因较少、解释更多事件的简单解释。gydF4y2Ba
当代以实验室为基础的研究重申了人类对简单解释的偏好,而不是复杂的解释[gydF4y2Ba
通常,认知心理学研究通过讨论外星种族的疾病来检验诊断性解释,以避免依赖先前的知识。这消除了一个混杂因素;然而,考虑到解释和知识之间的关系,我们应该谨慎地将这些发现应用于现实生活中的SCsgydF4y2Ba
简而言之,在实验室和自然实验设置之间,解释偏好的差异已经被注意到。此外,还对具有不同于一般人群特征的研究群体进行了实验。这表明,在推广到外行人使用的技术之前,需要验证偏好。gydF4y2Ba
不应该假设AI系统中的解释呈现与人类的解释行为和需求相匹配。尽管在特定情况下,人类解释自己的需要通常被认为是理所当然的,但关于人工智能是否有必要解释自己的问题,人们一直在争论。图灵奖得主杰弗里·辛顿认为,解释是没有必要的,因为人类无法解释自己的神经过程。gydF4y2Ba
认识到人工智能系统经常被用来(帮助)做出有影响力的决策,可以说至少有两个原因需要解释。首先,用户采用人工智能技术需要解释。当提供解释时,信任和依赖系统的倾向会增加[gydF4y2Ba
这导致了对解释人工智能系统决策的关注[gydF4y2Ba
由于其复杂性和不透明性,人工智能模型通常被视为黑盒。可解释的人工智能领域主要侧重于提高模型如何产生输出的透明度,通常供计算机程序员和专家用户使用。这实际上回答了gydF4y2Ba
有大量的技术被用来解释人工智能模型如何做出决定或以其他方式产生输出[gydF4y2Ba
输入影响:列出输入模型的变量列表,并定量衡量它们对结果的贡献(积极或消极)[gydF4y2Ba
基于案例的推理:显示模型训练数据中最接近被分类的案例[gydF4y2Ba
这两种解释方法都要求其人类接受者具有领域知识来评估解释。两者都没有提供明确的对比解释或答案gydF4y2Ba
当人工智能系统被部署到更广泛的社会中时,系统建设者(如软件工程师和设计师)必须将技术打包到软件中。对于一般用户,系统构建者使用这些gydF4y2Ba
像许多人工智能系统一样,sc通常作为对话代理或助手呈现。人类倾向于拟人化[gydF4y2Ba
外行对…的看法之间的冲突gydF4y2Ba
反事实解释是指被认为要达成一项决定的因素必须如何改变才能作出另一项决定[gydF4y2Ba
反事实解释在人类认知中自然出现。它们在我们的日常思维中是一种显著的模式[gydF4y2Ba
本研究旨在探讨外行人对SC解释的信任。人类对……有强烈的偏好gydF4y2Ba
为探讨说明文件解释的现况,我们调查了10个市售的说明文件(gydF4y2Ba
目前的SCs不允许用户指出他们需要什么样的解释。相反,解释类型和内容是由系统构建者预定义的。所提供的解释简洁,通常由一句话组成。这种简洁性可能是由软件用户体验原则驱动的,该原则将复杂性归类为技术采用的不利因素[gydF4y2Ba
SCs通常与提示的引起症状的疾病一起提供一种形式的解释。观察到它们有两种形式:(1)收缩输入影响解释,提供最积极影响最高法院决定的一种或两种健康症状;(2)社会认同。gydF4y2Ba
社会证明,由Cialdini推广给系统构建者[gydF4y2Ba
对当前SCs的评估表明,它们要么提供了一种输入影响解释,要么提供了一种社会证明解释,两者都是gydF4y2Ba
在解释的目的、人类的解释偏好和SCs中的解释使用的背景下,本探索性研究试图回答两个研究问题:gydF4y2Ba
研究问题1:解释的类型是否会影响外行人对症状检查者提供的解释的信任?gydF4y2Ba
研究问题2:人们的信任程度是否受到现有疾病知识的影响?gydF4y2Ba
为了回答这些问题,我们构建了一个2×4受试者间实验设计,参与者被随机分配到一个治疗组。gydF4y2Ba
为了回答研究问题1,我们选择了四种解释类型,它们反映了人工智能和人工智能输出的解释现状:输入影响、社会证明、反事实解释和不解释。在无解释类型的情况下,没有提出具体的陈述,暗示模型如何或为什么做出决定;它被包括在内,为聊天机器人交互中的解释质量感知提供基线。在乳房x光片的例子中,无解释类型将简单地输出“此扫描为阴性”。gydF4y2Ba
为了解决研究问题2,选择了两种人口认识程度不同的疾病:gydF4y2Ba
偏头痛:它被选为众所周知的疾病是因为七分之一的人口受其影响[gydF4y2Ba
颞动脉炎:这是一种鲜为人知的疾病,因为它在50岁以上人群中的发病率很低,约为0.035% [gydF4y2Ba
这两种疾病都与头痛有关,之所以选择头痛是因为大多数人都有过头痛的经历[gydF4y2Ba
向参与者展示四种解释类型和两种疾病的每种组合的解释。gydF4y2Ba
解释类型和疾病gydF4y2Ba | 解释gydF4y2Ba | |
|
||
|
偏头痛gydF4y2Ba | “我这么想是因为你的头痛会慢慢加重,而且会感到恶心。”gydF4y2Ba |
|
颞动脉炎gydF4y2Ba | “我认为这是因为你的太阳穴一侧头痛得很厉害,头皮和下巴也很痛。”gydF4y2Ba |
|
||
|
偏头痛gydF4y2Ba | “我认为这是因为有8217名与你有同样症状的人被诊断为偏头痛。”gydF4y2Ba |
|
颞动脉炎gydF4y2Ba | “我认为这是因为8217名有你这种症状的人被诊断出患有颞动脉炎。”gydF4y2Ba |
|
||
|
偏头痛gydF4y2Ba | “如果你不觉得不舒服,我会建议你是紧张性头痛。”gydF4y2Ba |
|
颞动脉炎gydF4y2Ba | “如果你的头皮和下巴不疼,我会说你是偏头痛。”gydF4y2Ba |
|
||
|
偏头痛gydF4y2Ba | 未提交声明gydF4y2Ba |
|
颞动脉炎gydF4y2Ba | 未提交声明gydF4y2Ba |
聊天机器人模拟视频是使用设计和原型制作工具(Botsociety Inc .)制作的。信息以卡尔加里-剑桥医患咨询模型的方式呈现[gydF4y2Ba
要验证刺激的呈现和问题措辞(参见gydF4y2Ba
在症状检查器流末尾显示的信息顺序。gydF4y2Ba
所提供的解释内容是根据医学顾问的临床知识设定的。对于输入影响,选择了两种最可能向医生表明疾病的症状。同样,通过反事实解释,选择最有可能改变临床医生最终意见的症状。对于社会证明,决定不反映当前的SC演示(例如,“8/10有X症状的人有Y症状”),因为已知概率信息影响对解释的看法[gydF4y2Ba
聊天机器人刺激的截图显示偏头痛的社会证明治疗的开始(左)和结束(右)。gydF4y2Ba
信任是一种无法直接观察或测量的假想结构[gydF4y2Ba
本研究的信任量表基于霍夫曼解释满意度量表,并针对外行用户量身定制[gydF4y2Ba
参与者是通过网络平台“多产”招募的。随后使用Qualtrics (Qualtrics, LLC)将参与者随机分配到治疗组并收集调查反馈。那些在210秒内完成实验的参与者被排除在外,因为这意味着他们花了不到30秒的时间来完成调查,表明满意。最终的数据集包括750名参与者,他们的工资为1.45英镑(相当于1.96美元的最低工资)。gydF4y2Ba
在设计这项研究时考虑了一些伦理问题,包括:gydF4y2Ba
对有症状的个体进行测试需要遵循适当的临床试验程序。gydF4y2Ba
如果参与者没有临床医生的监督,必须提供100%准确的SC,以避免误诊。这样的常设委员会目前并不存在[gydF4y2Ba
商业SCs被设计用于诊断多种疾病,从而产生过多的诊断途径。SC模型机制通常是不确定的,使得真实的SC在实验环境中不可控。gydF4y2Ba
向参与者展示的刺激必须是医学上安全且准确的,以避免误导他们。gydF4y2Ba
观察行为可能导致健康焦虑的发展[gydF4y2Ba
为了减轻这些担忧,无症状的参与者被要求观看SC互动的视频。她们被告知,这不是为她们自己的健康需要量身定制的。一位在SC设计方面经验丰富的普通医学委员会注册的初级保健医生对所呈现的材料提出建议,以确保医疗准确性、安全性和现实性。参与者仅限于居住在联合王国的个人,联合王国提供全民保健,如果他们感到担忧,他们可以获得临床支持。该研究获得了牛津大学的伦理批准(参考号:SSHOIIC1A19007)。gydF4y2Ba
来自750名参与者的数据使用R (R基金会)进行分析。参与者年龄从18岁到87岁不等(平均35.8岁,标准差12.6)。在750名参与者中,有512人(68.3%)从事全职或兼职工作。大多数(723/750,96.5%)经历过头痛。偏头痛治疗组的大多数应答者认为他们的疾病是良性的,而颞动脉炎(gydF4y2Ba
受访者对疾病严重程度的百分比(N=750;偏头痛,n = 367;颞动脉炎,n=383)。gydF4y2Ba
严重性gydF4y2Ba | 疾病gydF4y2Ba | |
|
偏头痛,n (%)gydF4y2Ba | 颞动脉炎,n (%)gydF4y2Ba |
不是很严重gydF4y2Ba | 256 (69.8)gydF4y2Ba | 40 (10.4)gydF4y2Ba |
比较严重的gydF4y2Ba | 105 (28.6)gydF4y2Ba | 266 (69.5)gydF4y2Ba |
非常严重的gydF4y2Ba | 6 (1.6)gydF4y2Ba | 77 (20.1)gydF4y2Ba |
数据按主题细分,并进行探索性因子分析,从测量信任的12个调查问题中产生因变量。为了测试解释类型对外行人信任的影响(rq1),数据按疾病子集划分,允许在保持疾病不变的情况下评估不同解释类型的影响。同样,为了评估对疾病的了解是否会影响对解释的信任(rq2),将数据按解释类型细分,允许在保持解释类型不变的情况下评估不同的疾病。由于测量量表量化了信任的不同方面,因此潜在因素可能是相关的。为了实现相关性,采用斜向旋转。gydF4y2Ba
根据子集的不同,出现了两到三个因变量。在负载导致两个变量的情况下,这些变量始终被解释为态度gydF4y2Ba
关于疾病对信任的影响,见gydF4y2Ba
项目、因子负荷和疾病与oblimin旋转的相关性摘要,其中因子以其解释的变量名称显示(N=750;偏头痛,n = 367;颞动脉炎(n=383)gydF4y2Ba一个gydF4y2Ba。gydF4y2Ba
问题gydF4y2Ba | 颞动脉炎gydF4y2Ba | 偏头痛gydF4y2Ba | |||||||||
|
信仰gydF4y2Ba | 理解gydF4y2Ba | 信仰gydF4y2Ba | 理解gydF4y2Ba | 深度gydF4y2Ba | ||||||
16gydF4y2BabgydF4y2Ba | 0.83gydF4y2Ba | N/AgydF4y2BacgydF4y2Ba | 0.80gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | ||||||
17gydF4y2Ba | 0.83gydF4y2Ba | N/AgydF4y2Ba | 0.79gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | ||||||
18gydF4y2Ba | 0.74gydF4y2Ba | N/AgydF4y2Ba | 0.68gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | ||||||
19gydF4y2Ba | 0.58gydF4y2Ba | N/AgydF4y2Ba | 0.62gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | ||||||
20.gydF4y2Ba | 0.54gydF4y2Ba | N/AgydF4y2Ba | 0.57gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | ||||||
21gydF4y2Ba | 0.78gydF4y2Ba | N/AgydF4y2Ba | 0.77gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | ||||||
22gydF4y2Ba | 0.75gydF4y2Ba | N/AgydF4y2Ba | 0.74gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | ||||||
23gydF4y2Ba | 0.55gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.57gydF4y2Ba | ||||||
24gydF4y2Ba | - - - - - -gydF4y2BadgydF4y2Ba | - - - - - -gydF4y2BadgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.92gydF4y2Ba | ||||||
25gydF4y2Ba | N/AgydF4y2Ba | 0.88gydF4y2Ba | N/AgydF4y2Ba | 0.83gydF4y2Ba | N/AgydF4y2Ba | ||||||
26gydF4y2Ba | N/AgydF4y2Ba | 0.71gydF4y2Ba | N/AgydF4y2Ba | 0.65gydF4y2Ba | N/AgydF4y2Ba | ||||||
27gydF4y2Ba | N/AgydF4y2Ba | 0.46gydF4y2Ba | N/AgydF4y2Ba | 0.42gydF4y2Ba | N/AgydF4y2Ba | ||||||
28gydF4y2Ba | N/AgydF4y2Ba | 0.79gydF4y2Ba | N/AgydF4y2Ba | 0.76gydF4y2Ba | N/AgydF4y2Ba | ||||||
|
|||||||||||
|
信仰gydF4y2Ba | - - - - - -gydF4y2BaegydF4y2Ba | N/AgydF4y2Ba | - - - - - -gydF4y2BaegydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | |||||
|
理解gydF4y2Ba | 0.58gydF4y2Ba | - - - - - -gydF4y2BaegydF4y2Ba | 0.50gydF4y2Ba | - - - - - -gydF4y2BaegydF4y2Ba | N/AgydF4y2Ba | |||||
|
深度gydF4y2Ba | - - - - - -gydF4y2BadgydF4y2Ba | - - - - - -gydF4y2BadgydF4y2Ba | 0.52gydF4y2Ba | 0.39gydF4y2Ba | - - - - - -gydF4y2BaegydF4y2Ba |
一个gydF4y2Ba为清晰起见,只给出了>0.4的因子加载。gydF4y2Ba
bgydF4y2Ba调查问卷的问题载于表格S1gydF4y2Ba
cgydF4y2Ba-不适用。gydF4y2Ba
dgydF4y2Ba被删除的问题的加载和未通过分析生成的因素的相关性。gydF4y2Ba
egydF4y2Ba自相关。gydF4y2Ba
项目摘要,因子加载gydF4y2Ba一个gydF4y2Ba,以及解释类型与oblimin旋转的相关性,其中因子以其解释变量名称显示(N=750;输入影响,n=189;社会认同,n=183;反事实解释,n=192;无解释,n=186)。gydF4y2Ba
>问题gydF4y2Ba | 输入的影响gydF4y2Ba | 社会证明gydF4y2Ba | 反事实的解释gydF4y2Ba | 没有任何解释gydF4y2Ba | |||||||||
|
FgydF4y2BabgydF4y2Ba | CgydF4y2BacgydF4y2Ba | FgydF4y2Ba | CgydF4y2Ba | DgydF4y2BadgydF4y2Ba | FgydF4y2Ba | CgydF4y2Ba | FgydF4y2Ba | CgydF4y2Ba | DgydF4y2Ba | |||
16gydF4y2Ba | 0.88gydF4y2Ba | N/AgydF4y2BaegydF4y2Ba | 0.77gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.81gydF4y2Ba | N/AgydF4y2Ba | 0.76gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | |||
17gydF4y2Ba | 0.75gydF4y2Ba | N/AgydF4y2Ba | 0.65gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.86gydF4y2Ba | N/AgydF4y2Ba | 0.82gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | |||
18gydF4y2Ba | 0.63gydF4y2Ba | N/AgydF4y2Ba | 0.71gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.68gydF4y2Ba | N/AgydF4y2Ba | 0.68gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | |||
19gydF4y2Ba | 0.64gydF4y2Ba | N/AgydF4y2Ba | 0.59gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.46gydF4y2Ba | N/AgydF4y2Ba | 0.60gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | |||
20.gydF4y2Ba | 0.44gydF4y2Ba | N/AgydF4y2Ba | 0.65gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.56gydF4y2Ba | N/AgydF4y2Ba | 0.66gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | |||
21gydF4y2Ba | 0.79gydF4y2Ba | N/AgydF4y2Ba | 0.80gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.82gydF4y2Ba | N/AgydF4y2Ba | 0.78gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | |||
22gydF4y2Ba | 0.71gydF4y2Ba | N/AgydF4y2Ba | 0.70gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.71gydF4y2Ba | N/AgydF4y2Ba | 0.83gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | |||
23gydF4y2Ba | - - - - - -gydF4y2BafgydF4y2Ba | - - - - - -gydF4y2BafgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.65gydF4y2Ba | 0.43gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.66gydF4y2Ba | |||
24gydF4y2Ba | 0.43gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.71gydF4y2Ba | 0.46gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.90gydF4y2Ba | |||
25gydF4y2Ba | N/AgydF4y2Ba | 0.90gydF4y2Ba | N/AgydF4y2Ba | 0.75gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.85gydF4y2Ba | N/AgydF4y2Ba | 0.86gydF4y2Ba | N/AgydF4y2Ba | |||
26gydF4y2Ba | N/AgydF4y2Ba | 0.69gydF4y2Ba | N/AgydF4y2Ba | 0.60gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.73gydF4y2Ba | N/AgydF4y2Ba | 0.70gydF4y2Ba | N/AgydF4y2Ba | |||
27gydF4y2Ba | N/AgydF4y2Ba | 0.50gydF4y2Ba | 0.41gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.44gydF4y2Ba | N/AgydF4y2Ba | 0.59gydF4y2Ba | N/AgydF4y2Ba | |||
28gydF4y2Ba | N/AgydF4y2Ba | 0.78gydF4y2Ba | N/AgydF4y2Ba | 0.79gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 0.74gydF4y2Ba | N/AgydF4y2Ba | 0.86gydF4y2Ba | N/AgydF4y2Ba | |||
|
|||||||||||||
FgydF4y2Ba | - - - - - -gydF4y2BaggydF4y2Ba | N/AgydF4y2Ba | - - - - - -gydF4y2BaggydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | - - - - - -gydF4y2BaggydF4y2Ba | N/AgydF4y2Ba | - - - - - -gydF4y2BaggydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | |||
CgydF4y2Ba | 0.54gydF4y2Ba | - - - - - -gydF4y2BaggydF4y2Ba | 0.47gydF4y2Ba | - - - - - -gydF4y2BaggydF4y2Ba | N/AgydF4y2Ba | 0.51gydF4y2Ba | - - - - - -gydF4y2BaggydF4y2Ba | 0.50gydF4y2Ba | - - - - - -gydF4y2BaggydF4y2Ba | N/AgydF4y2Ba | |||
DgydF4y2Ba | - - - - - -gydF4y2BafgydF4y2Ba | - - - - - -gydF4y2BafgydF4y2Ba | 0.47gydF4y2Ba | 0.35gydF4y2Ba | - - - - - -gydF4y2BaggydF4y2Ba | - - - - - -gydF4y2BafgydF4y2Ba | - - - - - -gydF4y2BafgydF4y2Ba | 0.59gydF4y2Ba | 0.45gydF4y2Ba | - - - - - -gydF4y2BaggydF4y2Ba |
一个gydF4y2Ba为清晰起见,只给出了>0.4的因子加载。gydF4y2Ba
bgydF4y2BaF:信仰。gydF4y2Ba
cgydF4y2BaC:理解。gydF4y2Ba
dgydF4y2BaD:深度。gydF4y2Ba
egydF4y2Ba-不适用。gydF4y2Ba
fgydF4y2Ba被删除的问题的加载和未通过分析生成的因素的相关性。gydF4y2Ba
ggydF4y2Ba自相关。gydF4y2Ba
通过对每个疾病子集进行多变量方差分析(MANOVAs)来检查解释类型对信任情绪的差异。方差分析检验后,对每个因变量进行单独的方差分析。gydF4y2Ba
对于颞动脉炎,方差分析显示解释类型对解释信任的边际效应;gydF4y2Ba
对于偏头痛,方差分析显示解释类型对解释信任没有显著影响;gydF4y2Ba
为了研究所呈现的疾病的变化,使用单个自变量(所提供的疾病)对每个解释类型子集进行方差分析。方差分析检验之后是双尾检验gydF4y2Ba
输入影响(gydF4y2Ba
给出了不同疾病解释可信度的平均得分和标准差(N=750;输入影响,n=189;社会认同,n=183;反事实解释,n=192;无解释,n=186)。gydF4y2Ba
解释类型和疾病gydF4y2Ba |
信仰意味着(SD)gydF4y2Ba | 理解,平均(SD)gydF4y2Ba | 深度,平均值(SD)gydF4y2Ba | |
|
||||
|
偏头痛gydF4y2Ba | -0.141 (1.12)gydF4y2Ba | 0.0799 (0.968)gydF4y2Ba | N/AgydF4y2Ba一个gydF4y2Ba |
|
颞动脉炎gydF4y2Ba | 0.137 (0.736)gydF4y2Ba | -0.0774 (0.902)gydF4y2Ba | N/AgydF4y2Ba |
|
||||
|
偏头痛gydF4y2Ba | -0.116 (0.931)gydF4y2Ba | 0.0661 (0.883)gydF4y2Ba | -0.0614 (0.939)gydF4y2Ba |
|
颞动脉炎gydF4y2Ba | 0.113 (0.955)gydF4y2Ba | -0.0639 (0.917)gydF4y2Ba | 0.0594 (0.826)gydF4y2Ba |
|
||||
|
偏头痛gydF4y2Ba | 0.023 (0.856)gydF4y2Ba | 0.144 (0.839)gydF4y2Ba | N/AgydF4y2Ba |
|
颞动脉炎gydF4y2Ba | -0.022 (1.042)gydF4y2Ba | -0.142 (0.984)gydF4y2Ba | N/AgydF4y2Ba |
|
||||
|
偏头痛gydF4y2Ba | 0.0381 (0.974)gydF4y2Ba | 0.219 (0.823)gydF4y2Ba | 0.0134 (0.913)gydF4y2Ba |
|
颞动脉炎gydF4y2Ba | -0.035 (0.946)gydF4y2Ba | -0.201 (1)gydF4y2Ba | -0.0123 (0.936)gydF4y2Ba |
一个gydF4y2Ba-不适用。gydF4y2Ba
概述了参与者会考虑使用这种性质的SC的情况gydF4y2Ba
倾向于使用症状检查器(N=750;受访者可以回答多个问题)。gydF4y2Ba
什么时候使用这种症状检查器?gydF4y2Ba | 受访者,n (%)gydF4y2Ba |
我永远不会使用这种症状检查器gydF4y2Ba | 64 (8.5)gydF4y2Ba |
每当我感觉不好的时候gydF4y2Ba | 126 (16.8)gydF4y2Ba |
如果我觉得有点不舒服gydF4y2Ba | 317 (42.3)gydF4y2Ba |
如果我不能和人类临床医生说话gydF4y2Ba | 328 (43.7)gydF4y2Ba |
在这种情况下,我现在会谷歌我的症状gydF4y2Ba | 383 (51.1)gydF4y2Ba |
对于解释对外行用户对日益普及的人工智能sc的信任的影响,我们知之甚少。本研究旨在探讨外行人对信任的影响gydF4y2Ba
研究结果揭示了解释的微妙影响,首先通过不同的解释类型进行检验(见gydF4y2Ba
由于探索性因素分析对每种疾病产生了不同的成分,参与者似乎对信任有不同的概念。与颞动脉炎不太清楚的因素结构相比,偏头痛反应的干净负载为三个组成部分表明在解释上有更大的细微差别。颞动脉炎未产生gydF4y2Ba
考虑到解释和理解之间的联系[gydF4y2Ba
不同的解释类型对偏头痛的解释信任没有显著差异。这可能归因于参与者对偏头痛的了解。gydF4y2Ba
研究表明,患者会根据自己的基础知识来评估医疗信息[gydF4y2Ba
信息缺口强烈预示着个人需要得到解释[gydF4y2Ba
据报道,颞动脉炎的不同解释类型具有边际意义(gydF4y2Ba
聊天机器人的视频最后会通知用户,这种疾病需要立即进行临床治疗,并向用户展示与全科医生的预约。参与者注意到这种严重程度,其中90%(345/383)的人将颞动脉炎判断为中度或非常严重(gydF4y2Ba
在颞动脉炎组中,有两个潜在的因素刺激了更大的解释需求。首先,作为一种症状鲜为人知的罕见疾病,颞动脉炎造成了信息空白,导致人们渴望得到解释(见gydF4y2Ba
回到关于参与者需要解释的主要讨论,边际结果表明,解释可能提高了信任,但没有明显的效果。考虑到没有解释的实验治疗,缺乏显著性是令人惊讶的。在实验形式的背景下考虑结果,说明了为什么应该这样做的可能性。gydF4y2Ba
所有的试验性治疗,甚至没有任何解释,都涉及观看3分钟的聊天机器人互动。互动的对话性质传递了解释性信息[gydF4y2Ba
剩下的三种解释类型提供了a的答案gydF4y2Ba
有可能SC解释被认为不太有效,因为一种被称为因果贴现的现象:“如果存在其他合理的原因,则给定原因在产生给定结果中的作用就会被贴现[gydF4y2Ba
对因果折扣的进一步支持可以在参与者完成调查后留下的文字评论中找到。在750名参与者中,195人(26%)留下了评论。在这195人中,59人(30.3%)表示他们担心可能会遗漏一种更严重的疾病,这两种疾病之间的比例相等。这是一个普遍的问题,55%的患者担心误诊[gydF4y2Ba
本研究中提供的简单解释可能不足以弥补接受者的信息差距[gydF4y2Ba
在评估了对特定疾病的解释改变解释类型对信任的影响后,现在讨论转向本研究的第二个角度:保持解释类型不变,改变被解释的疾病。gydF4y2Ba
本节以前面的发现为基础,即被解释的疾病是决定对解释的信任的关键因素。由于这些发现是微妙的,本节将依次检查每种解释类型的结果。从这条调查路线中出现了两个一般主题:(1)症状的独特性更好地填补了信息空白;(2)不同的解释类型促使用户根据解释的重点做出反应。在强调与用户自己的心理模型不一致的情况下,这会导致认知失调,突出了当用户的明确箔没有被理解时提供解释的危险。gydF4y2Ba
在进入这个探索之前,应该指出的是,尽管对四种解释类型中的三种进行的manova是显著的,事后的gydF4y2Ba
当按解释类型检查结果时,最有趣的发现是,关于输入影响,gydF4y2Ba
通过这个镜头观察输入的影响还提出了另一个重要的问题。不可能判断参与者是否认为解释是错误的gydF4y2Ba
社会认同是唯一的解释形式,这是明确的答案gydF4y2Ba
令人惊讶的是,社会认同产生了一个gydF4y2Ba
虽然反事实的解释在理论上可能被社会科学提倡为在sc类型的情况下是有效的,但一个好的解释必须“与问题和被解释者的心理模型相关[gydF4y2Ba
对于无解释类型,gydF4y2Ba
尽管对SC解释的信任程度中等,但91.5%(686/750)的参与者表示他们会考虑使用这种类型的SC (gydF4y2Ba
在偏头痛组的367名参与者中,211名(57.5%)同意或强烈同意患者应该遵循提供的医疗建议,71.2%(273/383)的颞动脉炎患者也是如此。似乎有很大一部分参与者认为有必要采取不同的干预措施。这是不可能告诉参与者谁显示颞动脉炎,并认为病人不应该看全科医生紧急认为症状是良性的(和病人应该呆在家里)或严重到应该叫救护车。参与者不同意分诊指示可能是由于担心他们认为可能的其他疾病没有被考虑和排除,需要进一步的医学调查。也可能是他们意识到有更大的紧急情况。这突出表明SC诊断不受自动化偏差的影响[gydF4y2Ba
由于这项研究是为了反映当前SC的经验而进行的,因此有许多混杂因素可能会影响结果。这些解释是孤立地进行检验的;然而,在现实生活中,诸如疼痛、担忧和认知障碍等内在输入可能会改变外行人的偏好。考虑到对技术本身的信任等其他混杂因素,也有可能样本量不足以发现解释类型之间的小影响。gydF4y2Ba
最终,这些结果表明,该领域的进一步探索已经成熟。未来调查的生产性线可以包括测量对疾病解释的渴望,评估解释前后的信息差距和寻求解释的行为,诊断产生的情绪和随后对解释的反应,SC诊断解释中首选的复杂程度,以及对用户所关心的疾病的理解。至关重要的是,未来的研究必须设法了解用户在所有这些情况下的缺点。gydF4y2Ba
如今,全世界数百万人在寻求非紧急医疗护理时,被鼓励将SCs作为第一站。尽管SC普遍存在,但没有具体的研究对SC环境下向外行人提供人工智能解释的有效性进行过研究。今天的sc提供了解释gydF4y2Ba
我们的研究结果表明,被解释的疾病是决定对后续解释信任的主要因素(rq2)。这支持了这样一种观点,即当外行人面对现实情景时,他们会使用先验知识[gydF4y2Ba
本研究还提供了一些证据,表明不同的解释类型会影响外行人对解释的信任(RQ 1),尽管这些结果是微妙的。对于众所周知的疾病,没有形成信息缺口;因此,改变解释类型没有效果。对于不太为人所知的疾病,不同的解释类型导致信任的边际显著差异。当解释类型保持不变而疾病发生变化时,四种解释中的三种导致显著的manova,表明信任的各个方面相互作用以创造信任的整体感知。最重要的是,事后处理gydF4y2Ba
这项研究的核心发现强调,为了缩小用户的信息差距,人工智能解释必须在理解用户独特的衬托的基础上生成。系统构建者不能想当然地认为自己知道外行会向系统提出什么问题。虽然今天的系统建设者致力于以简单的格式阐明人工智能系统的机制,但更重要的是缩小外行人的一般医学知识与诊断疾病之间的差距。这一过程的一部分必须传达用户所知道的其他疾病已被考虑在内。因此,系统构建者需要在沟通简单、通用的解释之外,进一步了解从用户那里接收实时信息的能力。gydF4y2Ba
可用症状检查者调查的方法和结果。gydF4y2Ba
向研究参与者提出的调查问题。gydF4y2Ba
对不同疾病解释的信任方差进行了多因素和单因素分析。gydF4y2Ba
人工智能gydF4y2Ba
方差分析gydF4y2Ba
多变量方差分析gydF4y2Ba
研究问题gydF4y2Ba
症状检查程序gydF4y2Ba
特别感谢Keith Grimes博士,他以国民健康服务全科医生的身份就聊天机器人刺激医疗有效性和安全网提供了咨询。还要感谢Emily Liquin博士和M Pacer博士在解释和心智模型方面的精彩对话。如果没有牛津大学的支持,这项研究是不可能完成的。数据收集由牛津互联网研究所和牛津大学凯洛格学院资助。文章出版费用由牛津大学开放获取提供。gydF4y2Ba
CW和DB此前曾受雇于巴比伦健康公司(Babylon Health),并持有该公司的股票期权。巴比伦健康公司开发了一款症状检查聊天机器人。巴比伦健康中心没有参与这项研究。DB还公布了苹果公司目前的就业情况和股份,苹果公司提供了COVID-19症状检查器。苹果公司没有参与这项研究。BM目前担任GSK Consumer Healthcare的顾问职务,此前曾获得DeepMind Technologies Limited提供的会议相关差旅报销。gydF4y2Ba