发表在gydF4y2Ba在gydF4y2Ba23卷gydF4y2Ba11号gydF4y2Ba(2021)gydF4y2Ba: 11月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/29386gydF4y2Ba,首次出版gydF4y2Ba。gydF4y2Ba
人工智能驱动的症状检查应用程序的解释对外行人信任的影响:实验研究gydF4y2Ba

人工智能驱动的症状检查应用程序的解释对外行人信任的影响:实验研究gydF4y2Ba

人工智能驱动的症状检查应用程序的解释对外行人信任的影响:实验研究gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

克莱尔·伍德科克,文学学士,理学硕士gydF4y2Ba

牛津互联网研究所gydF4y2Ba

牛津大学gydF4y2Ba

1 .圣吉尔斯gydF4y2Ba

牛津,ox13jsgydF4y2Ba

联合王国gydF4y2Ba

电话:44 1865 287210gydF4y2Ba

电子邮件:gydF4y2Bacwoodcock.academic@gmail.comgydF4y2Ba


背景:gydF4y2Ba人工智能(AI)驱动的症状检查器可供全球数百万用户使用,并被提倡作为更有效地提供卫生保健的工具。为了实现症状检查器的推广效益,外行人必须信任并随后遵循其指示。在人工智能中,解释被视为传达黑箱决策背后的基本原理的工具,以鼓励信任和采用。然而,人工智能驱动的症状检查器中使用的解释类型的有效性尚未得到研究。解释可以有多种形式,包括gydF4y2Ba为什么gydF4y2Ba解释和gydF4y2Ba如何gydF4y2Ba解释。社会理论认为gydF4y2Ba为什么gydF4y2Ba解释更有助于外行之间的知识交流和信任培养。gydF4y2Ba

摘要目的:gydF4y2Ba本研究的目的是确定症状检查者提供的解释是否影响外行人的解释信任,以及这种信任是否受到他们现有疾病知识的影响。gydF4y2Ba

方法:gydF4y2Ba对750名健康参与者进行了横断面调查。研究人员向参与者展示了一段聊天机器人模拟的视频,根据他们不同的流行病学流行程度,对偏头痛或颞动脉炎进行了诊断。这些诊断伴有四种解释中的一种。选择每种解释类型,要么是因为它目前在症状检查器中的使用,要么是因为它被对比解释理论所告知。对被试的回答进行探索性因素分析,然后采用均值比较检验来评估组间信任的差异。gydF4y2Ba

结果:gydF4y2Ba根据治疗组的不同,产生了两到三个变量,反映了参与者持有的先验知识和随后的心理模型。当不同疾病的解释类型不同时,发现偏头痛不显著(gydF4y2BaPgydF4y2Ba= 0.65)和颞动脉炎,差异有统计学意义(gydF4y2BaPgydF4y2Ba= .09点)。不同解释类型的疾病导致输入影响的统计显著性(gydF4y2BaPgydF4y2Ba=.001),社会认同(gydF4y2BaPgydF4y2Ba= 0.049),且无解释(gydF4y2BaPgydF4y2Ba=.006),并附有反事实的解释(gydF4y2BaPgydF4y2Ba= .053)。结果表明,对解释的信任受到被解释疾病的显著影响。当外行人对一种疾病已有了解时,解释对信任的影响很小。在信息需求较大的情况下,不同的解释类型产生的信任水平显著不同。这些结果表明,要想取得成功,症状检查器需要根据每个用户的具体问题量身定制解释,并忽略他们可能也知道的疾病。gydF4y2Ba

结论:gydF4y2Ba为症状检查应用程序开发解释的系统构建者应该考虑接收者对疾病的了解,并根据每个用户的具体需求量身定制解释。应努力为症状检查器的每个用户提供个性化的解释,以充分考虑他们可能知道的疾病,并缩小他们的信息差距。gydF4y2Ba

[J] .中国医学信息学报,2011;23(11):391 - 391gydF4y2Ba

doi: 10.2196/29386gydF4y2Ba

关键字gydF4y2Ba



概述gydF4y2Ba

保健是一种普遍需要,因此《世界人权宣言》明文规定了获得适当医疗保健的权利[gydF4y2Ba1gydF4y2Ba]。然而,在全球范围内,政府面临着长期挑战。高收入国家在为有复杂需求的老龄人口提供卫生保健方面面临财政负担[gydF4y2Ba2gydF4y2Ba]。与此同时,世界上有一半人口"无法获得基本卫生服务"。gydF4y2Ba3.gydF4y2Ba)……”更为紧迫的是,COVID-19大流行正在给医疗保健系统带来压力,同时有必要在可能的情况下远程提供医疗服务[gydF4y2Ba4gydF4y2Ba]。gydF4y2Ba

这些压力培养了人们对“使用计算机算法帮助患者自我诊断或自我分类的工具”的兴趣,这些工具被称为症状检查器(SCs)。gydF4y2Ba5gydF4y2Ba]。虽然SCs的开发使用了广泛的技术,包括贝叶斯[gydF4y2Ba6gydF4y2Ba]、基于规则和深度学习方法[gydF4y2Ba7gydF4y2Ba],一般被称为使用人工智能(AI) [gydF4y2Ba8gydF4y2Ba]。SCs通常以智能手机聊天机器人应用的形式出现,有两个目的。首先,类似于对初级保健医生的访问,一些SCs的建立允许个人检查可能导致所有常见健康状况之外的健康症状的原因。其次,作为一个特定的子集,一些SCs只检查一种疾病的症状,通常是COVID-19。gydF4y2Ba

开发这些应用程序的私人公司[gydF4y2Ba8gydF4y2Ba]和政府官员[gydF4y2Ba9gydF4y2Ba]相信SCs可以通过两种方式改善医疗保健的提供:(1)良性疾病的患者可以很容易地分流到资源密集程度较低的护理中,使人类临床医生能够专注于有需要的患者[gydF4y2Ba10gydF4y2Ba(2) SCs减少了个人旅行的需求。这提高了高收入国家的效率[gydF4y2Ba11gydF4y2Ba]并使那些在医疗服务较少的国家的人能够从偏远地区获得医疗咨询。gydF4y2Ba

鉴于它们在全球的快速部署,SCs面临着严格的审查。争论的焦点是它们的准确性,包括它们无法检测出危险疾病的可能性。gydF4y2Ba12gydF4y2Ba]或提供过于谨慎的诊断[gydF4y2Ba5gydF4y2Ba,gydF4y2Ba8gydF4y2Ba]。同样重要的是gydF4y2Ba人的方面gydF4y2BaSCs。就其性质而言,SCs是从病人和医生之间的人际互动中抽象出来的[gydF4y2Ba5gydF4y2Ba]。所呈现的诊断可能会也可能不会为应用程序做出特定决定的原因提供额外的见解(gydF4y2Ba多媒体附录1gydF4y2Ba)。即使假设SC提供了准确的诊断,非专业人员仍然必须遵循分诊指示,以在人群水平上实现SCs的预期益处。因此,如果SCs要在减少全球卫生保健系统面临的压力方面实现其预期效益,确保用户信任SCs至关重要。gydF4y2Ba

与SCs一样,可信赖性被视为广泛采用人工智能的必要条件。可信度的一个重要组成部分是系统(或其操作员)解释其行为的能力,例如,特定诊断背后的基本原理。解释被视为一种工具,用于传达黑盒决策背后的基本原理,以鼓励用户信任和采用。gydF4y2Ba

最近的研究已经开始检验不同类型的人工智能解释的有效性[gydF4y2Ba13gydF4y2Ba-gydF4y2Ba15gydF4y2Ba],但到目前为止,还没有研究专门研究SC的解释。对医疗会话人工智能代理的普遍情绪的定性分析揭示了不同的接受情况[gydF4y2Ba16gydF4y2Ba],这表明在SCs中选择正确的解释类型对于系统的良好接受至关重要。缺乏对SCs解释的研究带来了挑战,因为不合理的解释可能会降低一个人使用SCs的倾向,加剧健康焦虑[gydF4y2Ba17gydF4y2Ba或导致他们向人类临床医生寻求第二意见,所有这些都将进一步增加卫生保健系统的负担。此外,解释可以采取多种形式,包括gydF4y2Ba为什么gydF4y2Ba解释和gydF4y2Ba如何gydF4y2Ba-解释,每种解释都可能在不同程度上鼓励用户信任。社会理论认为gydF4y2Ba为什么gydF4y2Ba-解释更有利于传播知识和培养外行人的信任,但这一假设尚未在高级口译员中得到验证。gydF4y2Ba

本文提出了一项探索性研究的结果外行人感知SC解释。信任被用来衡量解释质量,因为好的解释可以增加对人工智能系统的信任[gydF4y2Ba18gydF4y2Ba],增加了接受者跟随其输出的可能性[gydF4y2Ba19gydF4y2Ba]。在本节中,我们首先将对比解释的哲学理论与因果关系的认知心理学研究结合起来。这些理论强调,当产生信息缺口时,人类需要解释。虽然SCs目前通过解释系统如何得出答案来解决解释的需要,但人类通常更喜欢gydF4y2Ba为什么gydF4y2Ba解释。在gydF4y2Ba方法gydF4y2Ba第一部分,我们讨论了用于进行750名外行人研究的方法,其中每个参与者都被诊断为两种疾病之一,并伴有四种解释之一。研究结果见gydF4y2Ba结果gydF4y2Ba部分。在gydF4y2Ba讨论gydF4y2Ba在本节中,我们讨论了一些研究结果,表明对于一种不太为人所知的疾病,信任可能会因解释类型的不同而有所不同,并且对解释的信任会受到被解释疾病的显著影响。在gydF4y2Ba结论gydF4y2Ba部分,我们为SC系统构建者提供建议。复现所有调查结果所需的资料及代码已公开[gydF4y2Ba20.gydF4y2Ba]。gydF4y2Ba

理论与实践中的解释gydF4y2Ba

概述gydF4y2Ba

由于本研究的重点是不同类型的SC解释对外行信任的影响,因此首先有必要了解解释在人工智能中的目的和用途。长期以来,研究人员一直在研究理论和实践中的解释,从而产生了有关该主题的大量文献。这里我们采用Lewis的[gydF4y2Ba21gydF4y2Ba将解释定义为提供事件的因果历史。我们也借鉴了希尔顿[gydF4y2Ba22gydF4y2Ba]和米勒[gydF4y2Ba23gydF4y2Ba认为解释既是动词又是名词是模棱两可的,而解释者的意思是gydF4y2Ba解释了gydF4y2Ba(动词)gydF4y2Ba某物gydF4y2Ba(名词)gydF4y2Ba产生理解gydF4y2Ba(动词)在接受者身上。gydF4y2Ba

解释及其目的gydF4y2Ba

解释理论通常把重点放在解释的功能上,作为一种传递信息的机制gydF4y2Ba待解释的词gydF4y2Ba(被解释的事件或现象)进一步告知接受者的知识[gydF4y2Ba24gydF4y2Ba]。然而,解释可以用在很多方面,包括说服[gydF4y2Ba25gydF4y2Ba],推卸责任gydF4y2Ba26gydF4y2Ba],甚至欺骗收件人[gydF4y2Ba27gydF4y2Ba,gydF4y2Ba28gydF4y2Ba]。鉴于这些目的,解释者和接受者可能经常有不同的目标[gydF4y2Ba25gydF4y2Ba]。gydF4y2Ba

SC解释的目标是对接受者产生足够的信任,以便他们遵循分诊指示,以减轻卫生系统的负担[gydF4y2Ba8gydF4y2Ba,gydF4y2Ba10gydF4y2Ba]。这与接受者的目标不同,接受者的目标是了解是什么导致了他们的症状[gydF4y2Ba29gydF4y2Ba]。gydF4y2Ba

求知与解释gydF4y2Ba

解释可能在人类和社会互动中普遍存在,但它们并非无处不在。人们选择何时寻求解释[gydF4y2Ba26gydF4y2Ba]。寻求解释的内在刺激,即寻求解释的好奇心,被未来的学习和未来的效用强烈预测,被缺乏知识适度预测[gydF4y2Ba30.gydF4y2Ba]。gydF4y2Ba

由Lowenstein描述的有影响力的信息缺口理论[gydF4y2Ba31gydF4y2Ba提出,个人现有知识和他们想要的知识之间的差距会培养好奇心。当一个事件或现象不符合一个人的心智模式时,寻求解释是规范上正确的[gydF4y2Ba32gydF4y2Ba]。经验表明,信息差距在两个孩子中都引发了寻求解释的行为[gydF4y2Ba33gydF4y2Ba]和成人[gydF4y2Ba34gydF4y2Ba]。gydF4y2Ba

知识和解释是紧密相连的[gydF4y2Ba35gydF4y2Ba]。当提供信息时,接受者必须意识到他们缺乏知识来寻求解释[gydF4y2Ba31gydF4y2Ba]。解释必须充分传达信息[gydF4y2Ba36gydF4y2Ba],根据先前的信念和知识进行评估,特别是在知识丰富的领域[gydF4y2Ba25gydF4y2Ba],期望的结果是接受者的心智模式得到更新[gydF4y2Ba26gydF4y2Ba]。接受者对解释的感知随后提供了他们对被解释的现象或事件的知识的洞察力[gydF4y2Ba22gydF4y2Ba,gydF4y2Ba37gydF4y2Ba]。因此,解释的质量是至关重要的,因为“好的、让用户满意的解释可以让用户建立一个好的心理模型。”反过来,他们良好的心智模式会使他们对人工智能产生适当的信任[gydF4y2Ba18gydF4y2Ba)。”gydF4y2Ba

日常的解释gydF4y2Ba

解释可以采取多种形式,例如,科学的,因果的,目的论的,或gydF4y2Ba日常gydF4y2Ba。普遍接受的分类法并不存在[gydF4y2Ba38gydF4y2Ba]。考虑到这项研究的重点是外行人,以及之前的学术研究表明他们在人工智能中的效用[gydF4y2Ba23gydF4y2Ba,gydF4y2Ba38gydF4y2Ba,我们的重点将放在日常解释上。这是一种解释形式,通常在社会交往中观察到,被定义为对问题的回答gydF4y2Ba为什么gydF4y2Ba问题(gydF4y2Ba21gydF4y2Ba,gydF4y2Ba23gydF4y2Ba,gydF4y2Ba39gydF4y2Ba]。gydF4y2Ba

刘易斯(gydF4y2Ba21gydF4y2Ba断言,大多数解释都是典型的答案gydF4y2Ba为什么gydF4y2Ba例如,“你为什么那样做?”或者“为什么会这样?”gydF4y2Ba为什么gydF4y2Ba问题是隐含的对比,问题的形式是“为什么做这个决定”gydF4y2Ba而不是别的?gydF4y2Ba[gydF4y2Ba21gydF4y2Ba)。”当人类回答gydF4y2Ba为什么gydF4y2Ba问题,我们提供一个解释(P)相对于没有发生(Q)的其他事件。这被称为对比解释,其中P被称为gydF4y2Ba事实gydF4y2Ba(发生的事件),Q是gydF4y2Ba箔gydF4y2Ba(未发生的事件)[gydF4y2Ba39gydF4y2Ba]。gydF4y2Ba

a的事实分量gydF4y2Ba为什么gydF4y2Ba问题可能有很多潜在的缺点。想想这个问题:“你为什么要看《权力的游戏》?”它的陪衬可能包括“而不是新闻?”或者“不出去?”陪衬本身为要提供的解释生成上下文。在人际交往中,箔常常没有明确地说明gydF4y2Ba为什么gydF4y2Ba的问题。相反,人们从互动的语气和语境中推断出陪衬[gydF4y2Ba39gydF4y2Ba]。重要的是,所解释的原因取决于通过对话暗示的提问者的兴趣。这进一步强调了米勒[gydF4y2Ba23gydF4y2Ba解释是社会性的和会话性的[gydF4y2Ba22gydF4y2Ba]。gydF4y2Ba

解释对比可能比解释事实本身更容易,因为P不需要足以使事件发生,只要它能区分P和Q的因果差异[gydF4y2Ba40gydF4y2Ba]。对比解释也有限制所提供信息的好处[gydF4y2Ba39gydF4y2Ba]。对比解释的约束效应对人类是有帮助的,因为它减少了处理解释的认知负担[gydF4y2Ba26gydF4y2Ba]。gydF4y2Ba

人类很少提供一个详尽的因果链作为解释,而宁愿选择一两个相关的原因。gydF4y2Ba25gydF4y2Ba,gydF4y2Ba36gydF4y2Ba]。在选择电视节目的例子中,一个外行人不会通过提供他们的生活故事来证明他们的选择,列出有影响的童年事件。相反,解释者可能会分别回答:“这比现实生活更令人兴奋”和“我很累”。这些解释可能不能完全解释P;然而,他们充分和简洁地区分了P和q。对于本文的其余部分,为了简单起见,对比解释将被称为gydF4y2Ba为什么- - - - - -gydF4y2Ba的解释。gydF4y2Ba

解释复杂gydF4y2Ba

要在解释的复杂性方面取得适当的平衡是困难的。Thagard的gydF4y2Ba41gydF4y2Ba解释连贯理论指出,人们更喜欢简单、一般的解释。这种偏好已被经验证实[gydF4y2Ba23gydF4y2Ba]。例如,Read和Marcus-Newhall [gydF4y2Ba42gydF4y2Ba用一个有三种症状的女人的场景来评估这一点:体重增加、疲劳和恶心。研究参与者收到了以下三种解释类型中的一种来描述导致她健康状况不佳的原因:gydF4y2Ba

  1. 狭窄:gydF4y2Ba
    1. 停止锻炼(体重增加的原因)。gydF4y2Ba
    2. 单核细胞增多症(解释疲劳)。gydF4y2Ba
    3. 胃部感染病毒(解释了恶心)。gydF4y2Ba
  2. 布罗德:她怀孕了(解释了所有三个)。gydF4y2Ba
  3. 连词:1中的所有原因都为真。gydF4y2Ba

参与者更喜欢对怀孕的广泛解释(选项2),更喜欢原因较少、解释更多事件的简单解释。gydF4y2Ba

当代以实验室为基础的研究重申了人类对简单解释的偏好,而不是复杂的解释[gydF4y2Ba13gydF4y2Ba,gydF4y2Ba36gydF4y2Ba,gydF4y2Ba43gydF4y2Ba-gydF4y2Ba45gydF4y2Ba]。然而,在自然环境中的实验表明,复杂性增加了解释的满意度[gydF4y2Ba28gydF4y2Ba,gydF4y2Ba46gydF4y2Ba复杂性偏好与事件本身的复杂性是一致的[gydF4y2Ba47gydF4y2Ba-gydF4y2Ba49gydF4y2Ba]。gydF4y2Ba

通常,认知心理学研究通过讨论外星种族的疾病来检验诊断性解释,以避免依赖先前的知识。这消除了一个混杂因素;然而,考虑到解释和知识之间的关系,我们应该谨慎地将这些发现应用于现实生活中的SCsgydF4y2Ba求知与解释gydF4y2Ba部分)。重要的是,大多数实验都需要高水平的读写能力和理解力。他们对认知心理学专业的学生或识字能力的新兵进行了测试。这与现实情况形成鲜明对比:七分之一的英国人是功能性文盲,很难阅读药品标签[gydF4y2Ba50gydF4y2Ba],只有一半拥有本科学位[gydF4y2Ba51gydF4y2Ba]。gydF4y2Ba

简而言之,在实验室和自然实验设置之间,解释偏好的差异已经被注意到。此外,还对具有不同于一般人群特征的研究群体进行了实验。这表明,在推广到外行人使用的技术之前,需要验证偏好。gydF4y2Ba

AI中的解释gydF4y2Ba

概述gydF4y2Ba

不应该假设AI系统中的解释呈现与人类的解释行为和需求相匹配。尽管在特定情况下,人类解释自己的需要通常被认为是理所当然的,但关于人工智能是否有必要解释自己的问题,人们一直在争论。图灵奖得主杰弗里·辛顿认为,解释是没有必要的,因为人类无法解释自己的神经过程。gydF4y2Ba52gydF4y2Ba]。一项针对医学生的研究支持了这一观点,因为研究发现,半数医学生在做出诊断决策时依赖于直觉思维。gydF4y2Ba53gydF4y2Ba]。gydF4y2Ba

认识到人工智能系统经常被用来(帮助)做出有影响力的决策,可以说至少有两个原因需要解释。首先,用户采用人工智能技术需要解释。当提供解释时,信任和依赖系统的倾向会增加[gydF4y2Ba23gydF4y2Ba,gydF4y2Ba54gydF4y2Ba-gydF4y2Ba57gydF4y2Ba]。如果人工智能系统不被信任,它们就不太可能被用户采用,从而限制了该技术的功效[gydF4y2Ba19gydF4y2Ba,gydF4y2Ba58gydF4y2Ba]。其次,欧盟关于数据保护和隐私的法律《通用数据保护条例》(General Data Protection Regulation)对人工智能系统提出了两个相关要求:它们(1)必须提供“有关决策过程中涉及的逻辑的有意义的信息”;(2)理想情况下应提供“对决策的解释[gydF4y2Ba59gydF4y2Ba)。”gydF4y2Ba

这导致了对解释人工智能系统决策的关注[gydF4y2Ba57gydF4y2Ba]。为此,检查算法过程以生成解释(产品),随后将包含的知识传达给接收者(社会过程)[gydF4y2Ba23gydF4y2Ba]。与人类的解释偏好相反,目前的人工智能解释主要提供以下问题的答案gydF4y2Ba如何gydF4y2Ba问题,不gydF4y2Ba为什么gydF4y2Ba的问题。gydF4y2Ba

AI中的解释gydF4y2Ba

由于其复杂性和不透明性,人工智能模型通常被视为黑盒。可解释的人工智能领域主要侧重于提高模型如何产生输出的透明度,通常供计算机程序员和专家用户使用。这实际上回答了gydF4y2Ba如何gydF4y2Ba问:“你是怎么决定的?”gydF4y2Ba

有大量的技术被用来解释人工智能模型如何做出决定或以其他方式产生输出[gydF4y2Ba13gydF4y2Ba]。这些功能解释将被称为gydF4y2Ba——如何gydF4y2Ba的解释。两个这样的gydF4y2Ba——如何gydF4y2Ba解释目前用于解释SCs的输出(见gydF4y2Ba现象检查中的解释gydF4y2Ba部分):gydF4y2Ba

  1. 输入影响:列出输入模型的变量列表,并定量衡量它们对结果的贡献(积极或消极)[gydF4y2Ba60gydF4y2Ba]。考虑一个读取乳房x光片的系统。输入影响解释可能会突出扫描的视觉区域,这些区域强烈影响肿瘤的诊断。gydF4y2Ba
  2. 基于案例的推理:显示模型训练数据中最接近被分类的案例[gydF4y2Ba61gydF4y2Ba]。在乳房x光片的例子中,基于病例的推理解释可能会宣布扫描结果为阴性,并提供另一个人的乳房x光片来解释结论。gydF4y2Ba

这两种解释方法都要求其人类接受者具有领域知识来评估解释。两者都没有提供明确的对比解释或答案gydF4y2Ba为什么gydF4y2Ba的问题。相反,人类专家接受者的认知负担是评估和对比大量数据点,以确定他们是否同意决策。在乳房x光片的例子中,一个没有接受过放射学培训的人没有足够的知识来理解这两种解释,这可能导致接受者认为它们的质量很差。gydF4y2Ba

当人工智能系统被部署到更广泛的社会中时,系统建设者(如软件工程师和设计师)必须将技术打包到软件中。对于一般用户,系统构建者使用这些gydF4y2Ba——如何gydF4y2Ba解释并将其翻译成非专业人士也能理解的形式[gydF4y2Ba15gydF4y2Ba]。尽管对于许多计算机科学家和律师来说,这种方法似乎很自然,但对于sc来说,这并不一定是最好的方法。gydF4y2Ba

像许多人工智能系统一样,sc通常作为对话代理或助手呈现。人类倾向于拟人化[gydF4y2Ba62gydF4y2Ba],并且虚拟助手具有许多特征,可以使用户在助手的行为中推断出类似人类的代理[gydF4y2Ba63gydF4y2Ba]。在人类的谈话中,我们更喜欢社交gydF4y2Ba为什么- - - - - -gydF4y2Ba解释(见gydF4y2Ba日常的解释gydF4y2Ba部分)。如果智能系统要充当对话代理,这表明所提供的解释应该遵循人类对话的规范,通过在系统和人类接收者之间建立对决策的共同理解[gydF4y2Ba64gydF4y2Ba]。鉴于目前是系统构建者为人工智能系统提供解释,大量基于社会学、哲学和认知理论的解释工作未得到充分利用。gydF4y2Ba38gydF4y2Ba]。gydF4y2Ba

为什么——AI中的解释gydF4y2Ba

外行对…的看法之间的冲突gydF4y2Ba——如何gydF4y2Ba解释和gydF4y2Ba为什么- - - - - -gydF4y2Ba解释是本研究的重点。考虑到人类的偏好,假设会有偏好gydF4y2Ba为什么- - - - - -gydF4y2BaSC输出的解释。的一种gydF4y2Ba为什么- - - - - -gydF4y2Ba已经提出的更有效和更容易理解的解释将包括反事实解释。gydF4y2Ba

反事实解释是指被认为要达成一项决定的因素必须如何改变才能作出另一项决定[gydF4y2Ba26gydF4y2Ba,gydF4y2Ba40gydF4y2Ba,gydF4y2Ba65gydF4y2Ba]。反事实的解释隐含地回答了gydF4y2Ba为什么gydF4y2Ba问题:“你为什么选择结果P而不是结果Q?”通过检查如果变量gydF4y2BaVgydF4y2Ba= (gydF4y2BavgydF4y2Ba1gydF4y2Ba, vgydF4y2Ba2gydF4y2Ba,…gydF4y2Ba)是不同的[gydF4y2Ba65gydF4y2Ba,gydF4y2Ba66gydF4y2Ba]。回到乳房x光检查的例子,用户可能会问“gydF4y2Ba为什么gydF4y2Ba你诊断出有肿瘤(而不是没有肿瘤)吗?反事实的解释可能会说“如果。gydF4y2Ba这些gydF4y2Ba像素不是白色的,我就不会诊断出肿瘤。”gydF4y2Ba

反事实解释在人类认知中自然出现。它们在我们的日常思维中是一种显著的模式[gydF4y2Ba67gydF4y2Ba],两岁左右开始具备反事实思考的能力[gydF4y2Ba68gydF4y2Ba]。它们也是对比的,与人类的解释性偏好一致gydF4y2Ba日常的解释gydF4y2Ba部分)。反事实解释被认为是传达因果推理的有效方式[gydF4y2Ba66gydF4y2Ba,gydF4y2Ba69gydF4y2Ba]。它们有效地突出了模式歧视[gydF4y2Ba70gydF4y2Ba对于这项工作来说,重要的是,他们提供了一种gydF4y2Ba为什么- - - - - -gydF4y2Ba解释(gydF4y2Ba27gydF4y2Ba,gydF4y2Ba40gydF4y2Ba,gydF4y2Ba66gydF4y2Ba]。反事实的解释确实需要接受者的认知努力。然而,就其性质而言,它们限制了解释的范围,减轻了认知负担[gydF4y2Ba69gydF4y2Ba],并被提倡为非技术用户更容易使用的方法[gydF4y2Ba65gydF4y2Ba]。gydF4y2Ba

本研究旨在探讨外行人对SC解释的信任。人类对……有强烈的偏好gydF4y2Ba为什么- - - - - -gydF4y2Ba而迄今为止用于解释人工智能系统的技术方法通常给出的解释是gydF4y2Ba——如何gydF4y2Ba的解释。已经确定了三种相关性的解释类型进行评估。为了直接解决本研究的重点,研究了SCs解释的现状。像其他人工智能系统一样,SCs目前倾向于提供gydF4y2Ba——如何gydF4y2Ba的解释。gydF4y2Ba

现象检查中的解释gydF4y2Ba

为探讨说明文件解释的现况,我们调查了10个市售的说明文件(gydF4y2Ba多媒体附录1gydF4y2Ba)。所有被调查的SCs都以聊天机器人的形式呈现,以模仿他们与临床医生交谈的体验,为用户提供一种自然的数据收集机制。这进一步强化了“因果解释采用对话的形式,因此受制于解释规则”的观点。gydF4y2Ba22gydF4y2Ba],也就是说,接受者首先需要一个gydF4y2Ba为什么- - - - - -gydF4y2Ba解释。gydF4y2Ba

目前的SCs不允许用户指出他们需要什么样的解释。相反,解释类型和内容是由系统构建者预定义的。所提供的解释简洁,通常由一句话组成。这种简洁性可能是由软件用户体验原则驱动的,该原则将复杂性归类为技术采用的不利因素[gydF4y2Ba71gydF4y2Ba]。再一次,这个演示与通常在可解释的AI领域为专家用户生成的丰富解释形成对比。gydF4y2Ba

SCs通常与提示的引起症状的疾病一起提供一种形式的解释。观察到它们有两种形式:(1)收缩输入影响解释,提供最积极影响最高法院决定的一种或两种健康症状;(2)社会认同。gydF4y2Ba

社会证明,由Cialdini推广给系统构建者[gydF4y2Ba72gydF4y2Ba]和Eyal [gydF4y2Ba73gydF4y2Ba基于广泛的心理学研究,这些研究表明,人类在做决定时,无论是有意识还是无意识地都容易受到他人暗示的影响。社交证明策略可以包括社交媒体上的用户评论和点赞等线索。就SCs而言,社会证明是通过解释有多少具有相同症状的人以前被诊断患有某种特定疾病来提供的。生成一个更详细的社会证明视图将涉及提供由该模型分类的其他案例的细节,即基于案例的解释。因此,社会证明解释可以看作是基于案例的推理解释的收缩。gydF4y2Ba

对当前SCs的评估表明,它们要么提供了一种输入影响解释,要么提供了一种社会证明解释,两者都是gydF4y2Ba——如何gydF4y2Ba的解释。gydF4y2Ba

在解释的目的、人类的解释偏好和SCs中的解释使用的背景下,本探索性研究试图回答两个研究问题:gydF4y2Ba

研究问题1:解释的类型是否会影响外行人对症状检查者提供的解释的信任?gydF4y2Ba

研究问题2:人们的信任程度是否受到现有疾病知识的影响?gydF4y2Ba


实验设计gydF4y2Ba

为了回答这些问题,我们构建了一个2×4受试者间实验设计,参与者被随机分配到一个治疗组。gydF4y2Ba

为了回答研究问题1,我们选择了四种解释类型,它们反映了人工智能和人工智能输出的解释现状:输入影响、社会证明、反事实解释和不解释。在无解释类型的情况下,没有提出具体的陈述,暗示模型如何或为什么做出决定;它被包括在内,为聊天机器人交互中的解释质量感知提供基线。在乳房x光片的例子中,无解释类型将简单地输出“此扫描为阴性”。gydF4y2Ba

为了解决研究问题2,选择了两种人口认识程度不同的疾病:gydF4y2Ba

  1. 偏头痛:它被选为众所周知的疾病是因为七分之一的人口受其影响[gydF4y2Ba74gydF4y2Ba],使其成为一种具有较高人群意识的疾病,其症状被广泛了解。gydF4y2Ba
  2. 颞动脉炎:这是一种鲜为人知的疾病,因为它在50岁以上人群中的发病率很低,约为0.035% [gydF4y2Ba75gydF4y2Ba]。gydF4y2Ba

这两种疾病都与头痛有关,之所以选择头痛是因为大多数人都有过头痛的经历[gydF4y2Ba76gydF4y2Ba]。流行病学数据被用作外行知识的代理,以限制研究范围,因为知识,如信任,是一个无形的变量来衡量。所示的解释载于gydF4y2Ba表1gydF4y2Ba。方差分析(ANOVA)计划比较各治疗组的平均得分。由于先前的研究有限,预期的效应量是未知的,而且效应量很小(Cohen’sgydF4y2BadgydF4y2Ba=0.2)。采用G*Power (Heinrich Heine University)在4组中计算该效应量所需的样本量,功率β= 0.8。为了谨慎起见,他们设定了每组200人的目标。gydF4y2Ba

表1。向参与者展示四种解释类型和两种疾病的每种组合的解释。gydF4y2Ba
解释类型和疾病gydF4y2Ba 解释gydF4y2Ba
输入的影响gydF4y2Ba

偏头痛gydF4y2Ba “我这么想是因为你的头痛会慢慢加重,而且会感到恶心。”gydF4y2Ba

颞动脉炎gydF4y2Ba “我认为这是因为你的太阳穴一侧头痛得很厉害,头皮和下巴也很痛。”gydF4y2Ba
社会证明gydF4y2Ba

偏头痛gydF4y2Ba “我认为这是因为有8217名与你有同样症状的人被诊断为偏头痛。”gydF4y2Ba

颞动脉炎gydF4y2Ba “我认为这是因为8217名有你这种症状的人被诊断出患有颞动脉炎。”gydF4y2Ba
反事实的解释gydF4y2Ba

偏头痛gydF4y2Ba “如果你不觉得不舒服,我会建议你是紧张性头痛。”gydF4y2Ba

颞动脉炎gydF4y2Ba “如果你的头皮和下巴不疼,我会说你是偏头痛。”gydF4y2Ba
没有任何解释gydF4y2Ba

偏头痛gydF4y2Ba 未提交声明gydF4y2Ba

颞动脉炎gydF4y2Ba 未提交声明gydF4y2Ba

刺激方案设计gydF4y2Ba

聊天机器人模拟视频是使用设计和原型制作工具(Botsociety Inc .)制作的。信息以卡尔加里-剑桥医患咨询模型的方式呈现[gydF4y2Ba77gydF4y2Ba],与当前SCs中使用的会话式演示风格一致。为了避免视觉元素干扰实验,聊天机器人的设计仅限于文本交互。这与现代的SCs形成对比,后者使用图形来指示额外的解释因素,如人工智能模型置信度。gydF4y2Ba

要验证刺激的呈现和问题措辞(参见gydF4y2Ba创建信任测量量表gydF4y2Ba章节),通过对11名年龄在28岁至62岁之间的人进行认知访谈,对刺激和调查进行了试点。访谈显示,在SC互动结束时,参与者期望收到与他们典型咨询经验相匹配的信息。这包括关于疾病和医疗安全网的信息。安全网是一种临床管理策略,旨在确保对有症状的患者进行监测,目的是避免对严重疾病的误诊或不治疗,例如,“如果您的症状持续或恶化,请寻求医疗建议。”因此,这些被包括在内。最后的SC视频长度约为3分钟,每种疾病的大部分内容都是相同的。一旦最高法院得出结论,信息将按如下顺序呈现gydF4y2Ba图1gydF4y2Ba。gydF4y2Ba

‎gydF4y2Ba
图1所示。在症状检查器流末尾显示的信息顺序。gydF4y2Ba
查看此图gydF4y2Ba

所提供的解释内容是根据医学顾问的临床知识设定的。对于输入影响,选择了两种最可能向医生表明疾病的症状。同样,通过反事实解释,选择最有可能改变临床医生最终意见的症状。对于社会证明,决定不反映当前的SC演示(例如,“8/10有X症状的人有Y症状”),因为已知概率信息影响对解释的看法[gydF4y2Ba36gydF4y2Ba,gydF4y2Ba44gydF4y2Ba]。相反,它选择陈述大量的参考案例,因为认知访谈表明,较少的数字表明较不先进的人工智能模型。中给出了刺激的示例屏幕截图gydF4y2Ba图2gydF4y2Ba。gydF4y2Ba

‎gydF4y2Ba
图2。聊天机器人刺激的截图显示偏头痛的社会证明治疗的开始(左)和结束(右)。gydF4y2Ba
查看此图gydF4y2Ba

创建信任测量量表gydF4y2Ba

信任是一种无法直接观察或测量的假想结构[gydF4y2Ba78gydF4y2Ba]。人工智能系统的测量尺度必须最低限度地调查两个问题:“你信任输出吗?”(信心)和“你会听从系统的建议吗?”(信赖)[gydF4y2Ba79gydF4y2Ba]。分析信任量表可靠性的实验发现,Cronbach's α值较高,表明这些量表是衡量信任的可靠工具[gydF4y2Ba80gydF4y2Ba]。然而,在人机交互领域,如何衡量解释的信任缺乏共识。霍夫曼(gydF4y2Ba18gydF4y2Ba]强调了许多尺度是特定于应用程序上下文的。现有的量表也倾向于评估专家用户的意见,这些专家用户在一段时间内反复使用一个系统。这与在个人可能不经常使用的情况下(即当他们有医疗需要时)使用SC形成对比。gydF4y2Ba

本研究的信任量表基于霍夫曼解释满意度量表,并针对外行用户量身定制[gydF4y2Ba18gydF4y2Ba]。开发了四种测量类型:信仰(在系统中),信赖(基于解释执行行动的倾向),满意(对解释的态度)和理解(对解释的理解)。每个类别总共有3个问题。这些问题的灵感来自人机交互社区开发的量表[gydF4y2Ba80gydF4y2Ba-gydF4y2Ba83gydF4y2Ba],它们有许多共同点。完整的调查问题载于表格S1及S2gydF4y2Ba多媒体附录2gydF4y2Ba。gydF4y2Ba

数据收集gydF4y2Ba

参与招聘gydF4y2Ba

参与者是通过网络平台“多产”招募的。随后使用Qualtrics (Qualtrics, LLC)将参与者随机分配到治疗组并收集调查反馈。那些在210秒内完成实验的参与者被排除在外,因为这意味着他们花了不到30秒的时间来完成调查,表明满意。最终的数据集包括750名参与者,他们的工资为1.45英镑(相当于1.96美元的最低工资)。gydF4y2Ba

道德的考虑gydF4y2Ba

在设计这项研究时考虑了一些伦理问题,包括:gydF4y2Ba

  • 对有症状的个体进行测试需要遵循适当的临床试验程序。gydF4y2Ba
  • 如果参与者没有临床医生的监督,必须提供100%准确的SC,以避免误诊。这样的常设委员会目前并不存在[gydF4y2Ba5gydF4y2Ba]。gydF4y2Ba
  • 商业SCs被设计用于诊断多种疾病,从而产生过多的诊断途径。SC模型机制通常是不确定的,使得真实的SC在实验环境中不可控。gydF4y2Ba
  • 向参与者展示的刺激必须是医学上安全且准确的,以避免误导他们。gydF4y2Ba
  • 观察行为可能导致健康焦虑的发展[gydF4y2Ba84gydF4y2Ba]。gydF4y2Ba

为了减轻这些担忧,无症状的参与者被要求观看SC互动的视频。她们被告知,这不是为她们自己的健康需要量身定制的。一位在SC设计方面经验丰富的普通医学委员会注册的初级保健医生对所呈现的材料提出建议,以确保医疗准确性、安全性和现实性。参与者仅限于居住在联合王国的个人,联合王国提供全民保健,如果他们感到担忧,他们可以获得临床支持。该研究获得了牛津大学的伦理批准(参考号:SSHOIIC1A19007)。gydF4y2Ba


参与者gydF4y2Ba

来自750名参与者的数据使用R (R基金会)进行分析。参与者年龄从18岁到87岁不等(平均35.8岁,标准差12.6)。在750名参与者中,有512人(68.3%)从事全职或兼职工作。大多数(723/750,96.5%)经历过头痛。偏头痛治疗组的大多数应答者认为他们的疾病是良性的,而颞动脉炎(gydF4y2Ba表2gydF4y2Ba)。gydF4y2Ba

表2。受访者对疾病严重程度的百分比(N=750;偏头痛,n = 367;颞动脉炎,n=383)。gydF4y2Ba
严重性gydF4y2Ba 疾病gydF4y2Ba

偏头痛,n (%)gydF4y2Ba 颞动脉炎,n (%)gydF4y2Ba
不是很严重gydF4y2Ba 256 (69.8)gydF4y2Ba 40 (10.4)gydF4y2Ba
比较严重的gydF4y2Ba 105 (28.6)gydF4y2Ba 266 (69.5)gydF4y2Ba
非常严重的gydF4y2Ba 6 (1.6)gydF4y2Ba 77 (20.1)gydF4y2Ba

探索性因素分析gydF4y2Ba

数据按主题细分,并进行探索性因子分析,从测量信任的12个调查问题中产生因变量。为了测试解释类型对外行人信任的影响(rq1),数据按疾病子集划分,允许在保持疾病不变的情况下评估不同解释类型的影响。同样,为了评估对疾病的了解是否会影响对解释的信任(rq2),将数据按解释类型细分,允许在保持解释类型不变的情况下评估不同的疾病。由于测量量表量化了信任的不同方面,因此潜在因素可能是相关的。为了实现相关性,采用斜向旋转。gydF4y2Ba

根据子集的不同,出现了两到三个因变量。在负载导致两个变量的情况下,这些变量始终被解释为态度gydF4y2Ba信仰gydF4y2Ba和gydF4y2Ba理解gydF4y2Ba。在加载产生三个变量的情况下,主题为gydF4y2Ba信仰gydF4y2Ba和理解仍然出现,同时还有一个额外的gydF4y2Ba深度gydF4y2Ba变量。在这种情况下,gydF4y2Ba信仰gydF4y2Ba被定义为对解释本身的盲目信任gydF4y2Ba理解gydF4y2Ba作为对所提供信息的理解,并且gydF4y2Ba深度gydF4y2Ba作为信息提供的丰富性。gydF4y2Ba

关于疾病对信任的影响,见gydF4y2Ba表3gydF4y2Ba,有关按说明类型加载信任的信息,请参见gydF4y2Ba表4gydF4y2Ba。gydF4y2Ba

表3。项目、因子负荷和疾病与oblimin旋转的相关性摘要,其中因子以其解释的变量名称显示(N=750;偏头痛,n = 367;颞动脉炎(n=383)gydF4y2Ba一个gydF4y2Ba。gydF4y2Ba
问题gydF4y2Ba 颞动脉炎gydF4y2Ba 偏头痛gydF4y2Ba

信仰gydF4y2Ba 理解gydF4y2Ba 信仰gydF4y2Ba 理解gydF4y2Ba 深度gydF4y2Ba
16gydF4y2BabgydF4y2Ba 0.83gydF4y2Ba N/AgydF4y2BacgydF4y2Ba 0.80gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
17gydF4y2Ba 0.83gydF4y2Ba N/AgydF4y2Ba 0.79gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
18gydF4y2Ba 0.74gydF4y2Ba N/AgydF4y2Ba 0.68gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
19gydF4y2Ba 0.58gydF4y2Ba N/AgydF4y2Ba 0.62gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
20.gydF4y2Ba 0.54gydF4y2Ba N/AgydF4y2Ba 0.57gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
21gydF4y2Ba 0.78gydF4y2Ba N/AgydF4y2Ba 0.77gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
22gydF4y2Ba 0.75gydF4y2Ba N/AgydF4y2Ba 0.74gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
23gydF4y2Ba 0.55gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.57gydF4y2Ba
24gydF4y2Ba - - - - - -gydF4y2BadgydF4y2Ba - - - - - -gydF4y2BadgydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.92gydF4y2Ba
25gydF4y2Ba N/AgydF4y2Ba 0.88gydF4y2Ba N/AgydF4y2Ba 0.83gydF4y2Ba N/AgydF4y2Ba
26gydF4y2Ba N/AgydF4y2Ba 0.71gydF4y2Ba N/AgydF4y2Ba 0.65gydF4y2Ba N/AgydF4y2Ba
27gydF4y2Ba N/AgydF4y2Ba 0.46gydF4y2Ba N/AgydF4y2Ba 0.42gydF4y2Ba N/AgydF4y2Ba
28gydF4y2Ba N/AgydF4y2Ba 0.79gydF4y2Ba N/AgydF4y2Ba 0.76gydF4y2Ba N/AgydF4y2Ba
因子的相关性gydF4y2Ba

信仰gydF4y2Ba - - - - - -gydF4y2BaegydF4y2Ba N/AgydF4y2Ba - - - - - -gydF4y2BaegydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba

理解gydF4y2Ba 0.58gydF4y2Ba - - - - - -gydF4y2BaegydF4y2Ba 0.50gydF4y2Ba - - - - - -gydF4y2BaegydF4y2Ba N/AgydF4y2Ba

深度gydF4y2Ba - - - - - -gydF4y2BadgydF4y2Ba - - - - - -gydF4y2BadgydF4y2Ba 0.52gydF4y2Ba 0.39gydF4y2Ba - - - - - -gydF4y2BaegydF4y2Ba

一个gydF4y2Ba为清晰起见,只给出了>0.4的因子加载。gydF4y2Ba

bgydF4y2Ba调查问卷的问题载于表格S1gydF4y2Ba多媒体附录2gydF4y2Ba。gydF4y2Ba

cgydF4y2Ba-不适用。gydF4y2Ba

dgydF4y2Ba被删除的问题的加载和未通过分析生成的因素的相关性。gydF4y2Ba

egydF4y2Ba自相关。gydF4y2Ba

表4。项目摘要,因子加载gydF4y2Ba一个gydF4y2Ba,以及解释类型与oblimin旋转的相关性,其中因子以其解释变量名称显示(N=750;输入影响,n=189;社会认同,n=183;反事实解释,n=192;无解释,n=186)。gydF4y2Ba
>问题gydF4y2Ba 输入的影响gydF4y2Ba 社会证明gydF4y2Ba 反事实的解释gydF4y2Ba 没有任何解释gydF4y2Ba

FgydF4y2BabgydF4y2Ba CgydF4y2BacgydF4y2Ba FgydF4y2Ba CgydF4y2Ba DgydF4y2BadgydF4y2Ba FgydF4y2Ba CgydF4y2Ba FgydF4y2Ba CgydF4y2Ba DgydF4y2Ba
16gydF4y2Ba 0.88gydF4y2Ba N/AgydF4y2BaegydF4y2Ba 0.77gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.81gydF4y2Ba N/AgydF4y2Ba 0.76gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
17gydF4y2Ba 0.75gydF4y2Ba N/AgydF4y2Ba 0.65gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.86gydF4y2Ba N/AgydF4y2Ba 0.82gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
18gydF4y2Ba 0.63gydF4y2Ba N/AgydF4y2Ba 0.71gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.68gydF4y2Ba N/AgydF4y2Ba 0.68gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
19gydF4y2Ba 0.64gydF4y2Ba N/AgydF4y2Ba 0.59gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.46gydF4y2Ba N/AgydF4y2Ba 0.60gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
20.gydF4y2Ba 0.44gydF4y2Ba N/AgydF4y2Ba 0.65gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.56gydF4y2Ba N/AgydF4y2Ba 0.66gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
21gydF4y2Ba 0.79gydF4y2Ba N/AgydF4y2Ba 0.80gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.82gydF4y2Ba N/AgydF4y2Ba 0.78gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
22gydF4y2Ba 0.71gydF4y2Ba N/AgydF4y2Ba 0.70gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.71gydF4y2Ba N/AgydF4y2Ba 0.83gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
23gydF4y2Ba - - - - - -gydF4y2BafgydF4y2Ba - - - - - -gydF4y2BafgydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.65gydF4y2Ba 0.43gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.66gydF4y2Ba
24gydF4y2Ba 0.43gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.71gydF4y2Ba 0.46gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.90gydF4y2Ba
25gydF4y2Ba N/AgydF4y2Ba 0.90gydF4y2Ba N/AgydF4y2Ba 0.75gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.85gydF4y2Ba N/AgydF4y2Ba 0.86gydF4y2Ba N/AgydF4y2Ba
26gydF4y2Ba N/AgydF4y2Ba 0.69gydF4y2Ba N/AgydF4y2Ba 0.60gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.73gydF4y2Ba N/AgydF4y2Ba 0.70gydF4y2Ba N/AgydF4y2Ba
27gydF4y2Ba N/AgydF4y2Ba 0.50gydF4y2Ba 0.41gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.44gydF4y2Ba N/AgydF4y2Ba 0.59gydF4y2Ba N/AgydF4y2Ba
28gydF4y2Ba N/AgydF4y2Ba 0.78gydF4y2Ba N/AgydF4y2Ba 0.79gydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba 0.74gydF4y2Ba N/AgydF4y2Ba 0.86gydF4y2Ba N/AgydF4y2Ba
因子的相关性gydF4y2Ba
FgydF4y2Ba - - - - - -gydF4y2BaggydF4y2Ba N/AgydF4y2Ba - - - - - -gydF4y2BaggydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba - - - - - -gydF4y2BaggydF4y2Ba N/AgydF4y2Ba - - - - - -gydF4y2BaggydF4y2Ba N/AgydF4y2Ba N/AgydF4y2Ba
CgydF4y2Ba 0.54gydF4y2Ba - - - - - -gydF4y2BaggydF4y2Ba 0.47gydF4y2Ba - - - - - -gydF4y2BaggydF4y2Ba N/AgydF4y2Ba 0.51gydF4y2Ba - - - - - -gydF4y2BaggydF4y2Ba 0.50gydF4y2Ba - - - - - -gydF4y2BaggydF4y2Ba N/AgydF4y2Ba
DgydF4y2Ba - - - - - -gydF4y2BafgydF4y2Ba - - - - - -gydF4y2BafgydF4y2Ba 0.47gydF4y2Ba 0.35gydF4y2Ba - - - - - -gydF4y2BaggydF4y2Ba - - - - - -gydF4y2BafgydF4y2Ba - - - - - -gydF4y2BafgydF4y2Ba 0.59gydF4y2Ba 0.45gydF4y2Ba - - - - - -gydF4y2BaggydF4y2Ba

一个gydF4y2Ba为清晰起见,只给出了>0.4的因子加载。gydF4y2Ba

bgydF4y2BaF:信仰。gydF4y2Ba

cgydF4y2BaC:理解。gydF4y2Ba

dgydF4y2BaD:深度。gydF4y2Ba

egydF4y2Ba-不适用。gydF4y2Ba

fgydF4y2Ba被删除的问题的加载和未通过分析生成的因素的相关性。gydF4y2Ba

ggydF4y2Ba自相关。gydF4y2Ba

不同解释类型下的解释信任比较gydF4y2Ba

通过对每个疾病子集进行多变量方差分析(MANOVAs)来检查解释类型对信任情绪的差异。方差分析检验后,对每个因变量进行单独的方差分析。gydF4y2Ba

对于颞动脉炎,方差分析显示解释类型对解释信任的边际效应;gydF4y2BaVgydF4y2Ba= 0.0289;gydF4y2BaFgydF4y2Ba6758gydF4y2Ba= 1.85;gydF4y2BaPgydF4y2Ba= .09点。方差分析显示治疗效果不显著gydF4y2Ba信仰gydF4y2Ba,gydF4y2BaFgydF4y2Ba3379gydF4y2Ba= 1.32;gydF4y2BaPgydF4y2Ba=。27和gydF4y2Ba理解,FgydF4y2Ba3379gydF4y2Ba= 2;gydF4y2BaPgydF4y2Ba=厚。gydF4y2Ba

对于偏头痛,方差分析显示解释类型对解释信任没有显著影响;gydF4y2BaVgydF4y2Ba= 0.0187;gydF4y2BaFgydF4y2Ba91089年gydF4y2Ba= 0.759;gydF4y2BaPgydF4y2Ba=主板市场。方差分析显示对gydF4y2Ba信仰gydF4y2Ba,gydF4y2BaFgydF4y2Ba3363gydF4y2Ba= 0.7;gydF4y2BaPgydF4y2Ba= 55;gydF4y2Ba理解gydF4y2Ba,gydF4y2BaFgydF4y2Ba3363gydF4y2Ba= 1.13;gydF4y2BaPgydF4y2Ba=点;和gydF4y2Ba深度gydF4y2Ba,gydF4y2BaFgydF4y2Ba3363gydF4y2Ba= 1.34;gydF4y2BaPgydF4y2Ba=点。gydF4y2Ba

不同疾病解释信任的比较gydF4y2Ba

为了研究所呈现的疾病的变化,使用单个自变量(所提供的疾病)对每个解释类型子集进行方差分析。方差分析检验之后是双尾检验gydF4y2BatgydF4y2Ba对每个因变量执行的测试。gydF4y2Ba

输入影响(gydF4y2BaPgydF4y2Ba=.001),社会认同(gydF4y2BaPgydF4y2Ba= 0.049),且无解释(gydF4y2BaPgydF4y2Ba=.006)被发现是显著的,并有反事实解释(gydF4y2BaPgydF4y2Ba= .053);gydF4y2BatgydF4y2Ba试验被用作事后检验。均值和标准差见gydF4y2Ba表5gydF4y2Ba,参数试验结果见gydF4y2Ba多媒体附录3gydF4y2Ba。gydF4y2Ba

表5所示。给出了不同疾病解释可信度的平均得分和标准差(N=750;输入影响,n=189;社会认同,n=183;反事实解释,n=192;无解释,n=186)。gydF4y2Ba
解释类型和疾病gydF4y2Ba

信仰意味着(SD)gydF4y2Ba 理解,平均(SD)gydF4y2Ba 深度,平均值(SD)gydF4y2Ba
输入的影响gydF4y2Ba

偏头痛gydF4y2Ba -0.141 (1.12)gydF4y2Ba 0.0799 (0.968)gydF4y2Ba N/AgydF4y2Ba一个gydF4y2Ba

颞动脉炎gydF4y2Ba 0.137 (0.736)gydF4y2Ba -0.0774 (0.902)gydF4y2Ba N/AgydF4y2Ba
社会证明gydF4y2Ba

偏头痛gydF4y2Ba -0.116 (0.931)gydF4y2Ba 0.0661 (0.883)gydF4y2Ba -0.0614 (0.939)gydF4y2Ba

颞动脉炎gydF4y2Ba 0.113 (0.955)gydF4y2Ba -0.0639 (0.917)gydF4y2Ba 0.0594 (0.826)gydF4y2Ba
反事实的解释gydF4y2Ba

偏头痛gydF4y2Ba 0.023 (0.856)gydF4y2Ba 0.144 (0.839)gydF4y2Ba N/AgydF4y2Ba

颞动脉炎gydF4y2Ba -0.022 (1.042)gydF4y2Ba -0.142 (0.984)gydF4y2Ba N/AgydF4y2Ba
没有任何解释gydF4y2Ba

偏头痛gydF4y2Ba 0.0381 (0.974)gydF4y2Ba 0.219 (0.823)gydF4y2Ba 0.0134 (0.913)gydF4y2Ba

颞动脉炎gydF4y2Ba -0.035 (0.946)gydF4y2Ba -0.201 (1)gydF4y2Ba -0.0123 (0.936)gydF4y2Ba

一个gydF4y2Ba-不适用。gydF4y2Ba

倾向于使用SCgydF4y2Ba

概述了参与者会考虑使用这种性质的SC的情况gydF4y2Ba表6gydF4y2Ba。卡方检验显示这些反应没有显著差异。为简洁起见,这里不报告统计数据。gydF4y2Ba

表6所示。倾向于使用症状检查器(N=750;受访者可以回答多个问题)。gydF4y2Ba
什么时候使用这种症状检查器?gydF4y2Ba 受访者,n (%)gydF4y2Ba
我永远不会使用这种症状检查器gydF4y2Ba 64 (8.5)gydF4y2Ba
每当我感觉不好的时候gydF4y2Ba 126 (16.8)gydF4y2Ba
如果我觉得有点不舒服gydF4y2Ba 317 (42.3)gydF4y2Ba
如果我不能和人类临床医生说话gydF4y2Ba 328 (43.7)gydF4y2Ba
在这种情况下,我现在会谷歌我的症状gydF4y2Ba 383 (51.1)gydF4y2Ba

概述gydF4y2Ba

对于解释对外行用户对日益普及的人工智能sc的信任的影响,我们知之甚少。本研究旨在探讨外行人对信任的影响gydF4y2Ba——如何gydF4y2Ba解释,这是常用的系统建设者,与理论接地gydF4y2Ba为什么- - - - - -gydF4y2Ba解释。gydF4y2Ba

研究结果揭示了解释的微妙影响,首先通过不同的解释类型进行检验(见gydF4y2Ba不同解释类型的影响gydF4y2Ba章节),随后通过不同的疾病(见gydF4y2Ba不同疾病的影响gydF4y2Ba部分)。最后,讨论了参与者使用SCs的高倾向,表明次优解释可能限制了SCs更有效地提供医疗保健的能力(见gydF4y2Ba使用SCs的倾向gydF4y2Ba部分)。gydF4y2Ba

不同解释类型的影响gydF4y2Ba

信任与知识的因子分析gydF4y2Ba

由于探索性因素分析对每种疾病产生了不同的成分,参与者似乎对信任有不同的概念。与颞动脉炎不太清楚的因素结构相比,偏头痛反应的干净负载为三个组成部分表明在解释上有更大的细微差别。颞动脉炎未产生gydF4y2Ba深度gydF4y2Ba成分分析和因子分析要求去除与之相关的问题gydF4y2Ba足够的细节gydF4y2Ba。如前所述,选择颞动脉炎是期望接受者对颞动脉炎的了解比偏头痛少。gydF4y2Ba

考虑到解释和理解之间的联系[gydF4y2Ba37gydF4y2Ba,gydF4y2Ba85gydF4y2Ba],因此,接受者对解释质量的感知可以洞察他们对解释的心理模型。缺乏清晰的认识gydF4y2Ba深度,gydF4y2Ba再加上不明确的因素负荷,表明参与者对颞动脉炎的了解较少。换句话说,与他们对偏头痛的了解相比,参与者对颞动脉炎的一般医学知识之间存在更大的信息差距。当存在信息缺口时,就会产生一种不对称的知识条件,即参与者需要传递知识[gydF4y2Ba63gydF4y2Ba]。gydF4y2Ba

解释类型对偏头痛解释信任的影响gydF4y2Ba

不同的解释类型对偏头痛的解释信任没有显著差异。这可能归因于参与者对偏头痛的了解。gydF4y2Ba

研究表明,患者会根据自己的基础知识来评估医疗信息[gydF4y2Ba86gydF4y2Ba-gydF4y2Ba88gydF4y2Ba]。很有可能,当参与者看到实验中描述的症状时,他们依赖于他们现有的知识,并对可能的原因形成了一个假设。由于偏头痛的症状是众所周知的,随后的偏头痛诊断与参与者的知识一致。gydF4y2Ba

信息缺口强烈预示着个人需要得到解释[gydF4y2Ba34gydF4y2Ba]。有证据表明,只有当解释和现有知识之间存在信息差距时,才需要解释偏头痛的结果[gydF4y2Ba33gydF4y2Ba]。此外,由于偏头痛是一种常见病,它的可能性很大;众所周知,高先验会增加解释的接受度[gydF4y2Ba36gydF4y2Ba]。缺乏效果表明,对于一种常见的、良性的、众所周知的疾病,参与者通常不会询问gydF4y2Ba为什么gydF4y2BaSC选择诊断或gydF4y2Ba如何gydF4y2Ba终于有了答案。这个诊断要么有意义,要么没有意义。因此,该解释不被评估[gydF4y2Ba14gydF4y2Ba],说明对用户信任没有影响。gydF4y2Ba

解释类型对颞动脉炎解释可信度的影响gydF4y2Ba

据报道,颞动脉炎的不同解释类型具有边际意义(gydF4y2BaPgydF4y2Ba= .09点)。提出这一主张是因为在检查不同疾病的影响时发现了重大发现(见gydF4y2Ba不同疾病的影响gydF4y2Ba部分)进一步支持正在观察到的效应的证据。可能颞动脉炎比偏头痛更需要一个解释。这种解释需要导致参与者批判性地评价颞动脉炎的解释。在探索这些需求之前,首先考虑参与者所看到的刺激是有益的。gydF4y2Ba

聊天机器人的视频最后会通知用户,这种疾病需要立即进行临床治疗,并向用户展示与全科医生的预约。参与者注意到这种严重程度,其中90%(345/383)的人将颞动脉炎判断为中度或非常严重(gydF4y2Ba表2gydF4y2Ba)。当被诊断为颞动脉炎时,大多数参与者都不知道其症状。一种未知的严重疾病的诊断可能会让参与者感到惊讶甚至惊慌,从而引起情绪反应。gydF4y2Ba

在颞动脉炎组中,有两个潜在的因素刺激了更大的解释需求。首先,作为一种症状鲜为人知的罕见疾病,颞动脉炎造成了信息空白,导致人们渴望得到解释(见gydF4y2Ba求知与解释gydF4y2Ba部分)。第二,我们知道人类的情绪会影响解释[gydF4y2Ba37gydF4y2Ba并能影响我们经历事件的方式[gydF4y2Ba89gydF4y2Ba]。在评估刺激与先前信念的一致性时,惊讶是寻求解释的一个已知预测因素[gydF4y2Ba34gydF4y2Ba,gydF4y2Ba90gydF4y2Ba]。因此,由诊断产生的诸如惊讶甚至恐惧之类的情绪可能引发了对解释的更大需求。由于情绪的测量超出了本研究的范围,这将是未来研究的一个有希望的方向。gydF4y2Ba

回到关于参与者需要解释的主要讨论,边际结果表明,解释可能提高了信任,但没有明显的效果。考虑到没有解释的实验治疗,缺乏显著性是令人惊讶的。在实验形式的背景下考虑结果,说明了为什么应该这样做的可能性。gydF4y2Ba

所有的试验性治疗,甚至没有任何解释,都涉及观看3分钟的聊天机器人互动。互动的对话性质传递了解释性信息[gydF4y2Ba22gydF4y2Ba]。在观看视频时,参与者会参考他们现有的医学知识来建立诊断假设。最后,对疾病的描述本身包含事实信息。因此,参与者很可能将所有治疗,包括不解释,视为一种解释形式。尽管无解释类型没有提供明确的细节gydF4y2Ba如何gydF4y2Ba或gydF4y2Ba为什么gydF4y2BaSC得出了它的诊断。gydF4y2Ba

剩下的三种解释类型提供了a的答案gydF4y2Ba为什么gydF4y2Ba或gydF4y2Ba如何gydF4y2Ba的问题。当考虑到需要关闭颞动脉炎的信息缺口时,这些解释似乎并没有完全成功。看来这个解释还不够完整,没有说服力。gydF4y2Ba45gydF4y2Ba]。缺乏完整的医学解释突出了一个严重的问题。有成千上万的疾病和状况会影响人类。gydF4y2Ba91gydF4y2Ba]。其中,一个外行可能知道一些常见病和那些公众意识运动的主题。对于一个外行人来说,他们给出的解释可能并不能排除他们所知道的其他疾病。例如,当一个外行人评估反事实解释所呈现的症状时,他们可能会想知道头痛和下颚疼痛是否也表明中风?回到事实和箔(见gydF4y2Ba日常的解释gydF4y2Ba章节),个人只能产生他们所知道的疾病的部分,这是合乎逻辑的。这一点很重要,因为目前sc不知道每个用户生成的特定箔。gydF4y2Ba

有可能SC解释被认为不太有效,因为一种被称为因果贴现的现象:“如果存在其他合理的原因,则给定原因在产生给定结果中的作用就会被贴现[gydF4y2Ba92gydF4y2Ba)。”在这种情况下,原因(颞动脉炎)在产生结果(健康症状)时被忽略,因为其他疾病可能引起它们。gydF4y2Ba

对因果折扣的进一步支持可以在参与者完成调查后留下的文字评论中找到。在750名参与者中,195人(26%)留下了评论。在这195人中,59人(30.3%)表示他们担心可能会遗漏一种更严重的疾病,这两种疾病之间的比例相等。这是一个普遍的问题,55%的患者担心误诊[gydF4y2Ba93gydF4y2Ba]。因此,在解释诊断时,外行人需要确信其他严重疾病已被考虑和排除,这是一个重要因素。虽然这些评论在两种疾病之间平均分布,但对于造成较大信息差距的疾病,更需要解决因果折扣问题。gydF4y2Ba

本研究中提供的简单解释可能不足以弥补接受者的信息差距[gydF4y2Ba46gydF4y2Ba并回答他们的陪衬。尽管人类可能更喜欢简单的解释[gydF4y2Ba44gydF4y2Ba],他们不会盲目地喜欢它们,而是根据解释的背景来调整自己的偏好[gydF4y2Ba47gydF4y2Ba]。这项研究的发现支持了之前的研究,即被视为不完整的解释对接受者来说不太令人满意。gydF4y2Ba30.gydF4y2Ba,gydF4y2Ba48gydF4y2Ba]。在诊断的复杂细微差别的情况下,这项研究与人们期望与事件本身相匹配的复杂性水平的发现相一致[gydF4y2Ba48gydF4y2Ba]。这与格赖斯[gydF4y2Ba94gydF4y2Ba解释不应该暗示他们认为被解释者知道的原因。在SC情景中,这项研究表明SC必须解释它考虑了被解释者知道的疾病。gydF4y2Ba

在评估了对特定疾病的解释改变解释类型对信任的影响后,现在讨论转向本研究的第二个角度:保持解释类型不变,改变被解释的疾病。gydF4y2Ba

不同疾病的影响gydF4y2Ba

概述gydF4y2Ba

本节以前面的发现为基础,即被解释的疾病是决定对解释的信任的关键因素。由于这些发现是微妙的,本节将依次检查每种解释类型的结果。从这条调查路线中出现了两个一般主题:(1)症状的独特性更好地填补了信息空白;(2)不同的解释类型促使用户根据解释的重点做出反应。在强调与用户自己的心理模型不一致的情况下,这会导致认知失调,突出了当用户的明确箔没有被理解时提供解释的危险。gydF4y2Ba

在进入这个探索之前,应该指出的是,尽管对四种解释类型中的三种进行的manova是显著的,事后的gydF4y2BatgydF4y2Ba测试结果并不一定如此(表2)gydF4y2Ba多媒体附录2gydF4y2Ba)。这表明,信任一个解释的各个方面结合起来会产生效果。还承认,通过将受访者分为四个解释类型组,事后测试的能力不足,需要更大的样本量进行验证。gydF4y2Ba

输入的影响gydF4y2Ba

当按解释类型检查结果时,最有趣的发现是,关于输入影响,gydF4y2Ba信仰gydF4y2Ba不同的疾病(gydF4y2BaPgydF4y2Ba= 0.053),颞动脉炎的解释比偏头痛的解释更可信(gydF4y2Ba表5gydF4y2Ba)。颞动脉炎的解释是头痛伴有头皮和下颌疼痛,而偏头痛则是缓慢发作的头痛和恶心(gydF4y2Ba表1gydF4y2Ba)。回到简单-复杂悖论和因果折扣的讨论,颞动脉炎联合症状的独特性可能更好地缩小了参与者的信息差距[gydF4y2Ba95gydF4y2Ba]。这些不寻常的症状提供了一个简单的解释,排除了被解释者可能知道的其他疾病,培养了更大的信心[gydF4y2Ba46gydF4y2Ba]。与此同时,头痛和恶心的症状可以用偏头痛以外的疾病来解释,这使得它不那么可信。作为gydF4y2Ba信仰gydF4y2Ba解释了信任因素中最大的方差,这里的意义强调了通过颞动脉炎的解释类型检查信任时的边际结果。gydF4y2Ba

通过这个镜头观察输入的影响还提出了另一个重要的问题。不可能判断参与者是否认为解释是错误的gydF4y2Ba——如何gydF4y2Ba解释或gydF4y2Ba为什么- - - - - -gydF4y2Ba解释。上述推理表明,参与者正在进行对比评价(表明gydF4y2Ba为什么gydF4y2Ba);然而,我们知道,输入影响解释的扩展将导致agydF4y2Ba——如何gydF4y2Ba解释(见gydF4y2BaAI中的解释gydF4y2Ba部分)。gydF4y2Ba

社会证明gydF4y2Ba

社会认同是唯一的解释形式,这是明确的答案gydF4y2Ba如何gydF4y2BaSC生成了一个诊断。众所周知,解释的提供可以影响不同特征在理解类别隶属关系中的重要性[gydF4y2Ba96gydF4y2Ba,gydF4y2Ba97gydF4y2Ba]。此外,观察人工智能系统的外行人会构建软件本身认知过程的内部心智模型[gydF4y2Ba98gydF4y2Ba,gydF4y2Ba99gydF4y2Ba]。有趣的是,第27题“很容易理解系统的运作。”)下载gydF4y2Ba信仰gydF4y2Ba,而对于其他类型的解释,这个问题加载到gydF4y2Ba理解gydF4y2Ba(gydF4y2Ba表4gydF4y2Ba)。这表明gydF4y2Ba如何gydF4y2Ba社会认同提示改变了被试对SC认知机制的认知。参与者含蓄地相信社会认同是一种聚类技术,而不是理解机制本身。gydF4y2Ba

令人惊讶的是,社会认同产生了一个gydF4y2Ba深度gydF4y2Ba因素,考虑到这个解释的性质。回到SC的会话性质,使参与者在观察被回答的问题时形成疾病的心理模型。由于没有提供包含医学信息的解释,接受者只能根据诊断来评估他们的心理模型。这就提出了一个问题:对于外行人来说,提供某种形式的解释是否会产生更多的问题而不是答案?gydF4y2Ba

反事实的解释gydF4y2Ba

理解gydF4y2Ba被发现是重要的(gydF4y2BaPgydF4y2Ba=.03),效应量较小,偏头痛比颞动脉炎(gydF4y2Ba表5gydF4y2Ba)。这再次指向了之前关于信息差距和现有医学知识的辩论。偏头痛的反事实解释gydF4y2Ba毁掉了gydF4y2Ba恶心,众所周知的偏头痛症状,符合偏头痛的一般知识。对于颞动脉炎,建议“如果你的头皮和下巴不疼,我会建议你偏头痛”并不能充分缩小参与者的信息差距。在本例中,用户gydF4y2Ba做了gydF4y2Ba有这些症状。消除它们的存在并不能排除参与者知道的其他疾病。不难想象,当参与者看到反事实的解释时,他们会想:“但他们确实有头皮和下巴疼痛,难道这些疼痛不是由中风等其他严重疾病引起的吗?”gydF4y2Ba

虽然反事实的解释在理论上可能被社会科学提倡为在sc类型的情况下是有效的,但一个好的解释必须“与问题和被解释者的心理模型相关[gydF4y2Ba23gydF4y2Ba,gydF4y2Ba95gydF4y2Ba,gydF4y2BaOne hundred.gydF4y2Ba)。”本研究中提供的反事实解释虽然在医学上是有效的,但并没有解决参与者的gydF4y2Ba为什么gydF4y2Ba的问题。这对两种疾病之间的理解产生了重大影响;然而,当比较同一疾病的解释类型时,没有显着影响。现有文献要求使用反事实的解释[gydF4y2Ba38gydF4y2Ba],通常面向专业用户。由于专家用户的信息差距比外行用户小,因此传输所需的信息水平可能不同。例如,医生在观察SC视频时能够排除严重的常见疾病,而研究结果表明,非专业人员可能无法做到这一点。再一次,这强调了在解释之前理解外行的具体含义的重要性。gydF4y2Ba

没有任何解释gydF4y2Ba

对于无解释类型,gydF4y2Ba理解gydF4y2Ba是显著的(gydF4y2BaPgydF4y2Ba=.002),中等效应量,偏头痛比颞动脉炎更好理解。值得注意的是,在没有解释的情况下产生的因素比在其他解释类型下产生的因素(gydF4y2Ba多媒体附录2gydF4y2Ba)。无解释格式没有解释gydF4y2Ba如何gydF4y2Ba最高法院工作或gydF4y2Ba为什么gydF4y2Ba它暗示着一种特殊的疾病。再一次,参与者被要求查阅他们自己的医学知识。这些结果建立在这样一种讨论的基础上,即提供一种解释可能会引起接受者的怀疑,因为它与他们自己对医学知识和SC如何得出结果的心理模型不一致(见gydF4y2Ba社会证明gydF4y2Ba部分)。gydF4y2Ba

使用SCs的倾向gydF4y2Ba

尽管对SC解释的信任程度中等,但91.5%(686/750)的参与者表示他们会考虑使用这种类型的SC (gydF4y2Ba表6gydF4y2Ba)。这表明,在有实际卫生需要时,大部分懂数字技术的非专业人口将准备使用SC。gydF4y2Ba

在偏头痛组的367名参与者中,211名(57.5%)同意或强烈同意患者应该遵循提供的医疗建议,71.2%(273/383)的颞动脉炎患者也是如此。似乎有很大一部分参与者认为有必要采取不同的干预措施。这是不可能告诉参与者谁显示颞动脉炎,并认为病人不应该看全科医生紧急认为症状是良性的(和病人应该呆在家里)或严重到应该叫救护车。参与者不同意分诊指示可能是由于担心他们认为可能的其他疾病没有被考虑和排除,需要进一步的医学调查。也可能是他们意识到有更大的紧急情况。这突出表明SC诊断不受自动化偏差的影响[gydF4y2Ba101gydF4y2Ba,盲目相信计算机指令,因为它是由智能系统生成的。相反,用户对SC的结果持怀疑态度。回到使用SCs减轻卫生保健系统负担的社会原则,本研究表明,必须改进SC解释,以避免在不适当的分类水平上产生第二种人类临床意见,从而增加卫生系统的负担。gydF4y2Ba

限制gydF4y2Ba

由于这项研究是为了反映当前SC的经验而进行的,因此有许多混杂因素可能会影响结果。这些解释是孤立地进行检验的;然而,在现实生活中,诸如疼痛、担忧和认知障碍等内在输入可能会改变外行人的偏好。考虑到对技术本身的信任等其他混杂因素,也有可能样本量不足以发现解释类型之间的小影响。gydF4y2Ba

最终,这些结果表明,该领域的进一步探索已经成熟。未来调查的生产性线可以包括测量对疾病解释的渴望,评估解释前后的信息差距和寻求解释的行为,诊断产生的情绪和随后对解释的反应,SC诊断解释中首选的复杂程度,以及对用户所关心的疾病的理解。至关重要的是,未来的研究必须设法了解用户在所有这些情况下的缺点。gydF4y2Ba

结论gydF4y2Ba

如今,全世界数百万人在寻求非紧急医疗护理时,被鼓励将SCs作为第一站。尽管SC普遍存在,但没有具体的研究对SC环境下向外行人提供人工智能解释的有效性进行过研究。今天的sc提供了解释gydF4y2Ba如何gydF4y2Ba尽管社会科学文献表明人类更喜欢人工智能,但人工智能的决定是通过认知得出的gydF4y2Ba为什么- - - - - -gydF4y2Ba的解释。高质量的解释对于产生对人工智能系统的信任是必要的,这对SCs尤其重要,因为缺乏信任会导致用户向人类临床医生寻求第二意见。这种额外的需求可能会使卫生保健系统负担过重,并且无法提供使用SCs所促进的好处。gydF4y2Ba

我们的研究结果表明,被解释的疾病是决定对后续解释信任的主要因素(rq2)。这支持了这样一种观点,即当外行人面对现实情景时,他们会使用先验知识[gydF4y2Ba102gydF4y2Ba]。诊断出的疾病可能会也可能不会产生信息缺口,从而导致对解释和知识传播的不同需求。我们的结果表明,SC必须解释被解释者,并证明它已经考虑了被解释者所知道的疾病,以充分缩小他们的信息差距。因此,传递知识并不像选择模型的相关认知元素那么简单。先前的医学诊断研究已经从人类情景中抽象出来,以隔离解释效应[gydF4y2Ba13gydF4y2Ba,gydF4y2Ba30.gydF4y2Ba]。这项研究与日常的发现相一致,人类的解释比实验室实验所显示的要微妙和复杂得多。gydF4y2Ba48gydF4y2Ba]。gydF4y2Ba

本研究还提供了一些证据,表明不同的解释类型会影响外行人对解释的信任(RQ 1),尽管这些结果是微妙的。对于众所周知的疾病,没有形成信息缺口;因此,改变解释类型没有效果。对于不太为人所知的疾病,不同的解释类型导致信任的边际显著差异。当解释类型保持不变而疾病发生变化时,四种解释中的三种导致显著的manova,表明信任的各个方面相互作用以创造信任的整体感知。最重要的是,事后处理gydF4y2BatgydF4y2Ba有意义的测试表明,对于某些解释类型,颞动脉炎的解释更可信,而对于某些解释类型,偏头痛的解释更可信。这些解释类型可能会使参与者对解释中突出的特定信号做出反应,从而导致这些差异。尽管如此,解释类型确实影响了对解释本身的信任程度。这些发现突出了本研究设计的一个特殊挑战:由于不知道参与者的具体箔,一般构建的解释无法传达足够的知识,阻碍了对结果的评估gydF4y2Ba——如何gydF4y2Ba解释和gydF4y2Ba为什么- - - - - -gydF4y2Ba解释格式。gydF4y2Ba

这项研究的核心发现强调,为了缩小用户的信息差距,人工智能解释必须在理解用户独特的衬托的基础上生成。系统构建者不能想当然地认为自己知道外行会向系统提出什么问题。虽然今天的系统建设者致力于以简单的格式阐明人工智能系统的机制,但更重要的是缩小外行人的一般医学知识与诊断疾病之间的差距。这一过程的一部分必须传达用户所知道的其他疾病已被考虑在内。因此,系统构建者需要在沟通简单、通用的解释之外,进一步了解从用户那里接收实时信息的能力。gydF4y2Ba

致谢gydF4y2Ba

特别感谢Keith Grimes博士,他以国民健康服务全科医生的身份就聊天机器人刺激医疗有效性和安全网提供了咨询。还要感谢Emily Liquin博士和M Pacer博士在解释和心智模型方面的精彩对话。如果没有牛津大学的支持,这项研究是不可能完成的。数据收集由牛津互联网研究所和牛津大学凯洛格学院资助。文章出版费用由牛津大学开放获取提供。gydF4y2Ba

利益冲突gydF4y2Ba

CW和DB此前曾受雇于巴比伦健康公司(Babylon Health),并持有该公司的股票期权。巴比伦健康公司开发了一款症状检查聊天机器人。巴比伦健康中心没有参与这项研究。DB还公布了苹果公司目前的就业情况和股份,苹果公司提供了COVID-19症状检查器。苹果公司没有参与这项研究。BM目前担任GSK Consumer Healthcare的顾问职务,此前曾获得DeepMind Technologies Limited提供的会议相关差旅报销。gydF4y2Ba

‎gydF4y2Ba
多媒体附录1gydF4y2Ba

可用症状检查者调查的方法和结果。gydF4y2Ba

DOCX文件,32kbgydF4y2Ba

‎gydF4y2Ba
多媒体附录2gydF4y2Ba

向研究参与者提出的调查问题。gydF4y2Ba

DOCX文件,21 KBgydF4y2Ba

‎gydF4y2Ba
多媒体附录3gydF4y2Ba

对不同疾病解释的信任方差进行了多因素和单因素分析。gydF4y2Ba

DOCX文件,21 KBgydF4y2Ba

  1. 《世界人权宣言》。联合国。URL:gydF4y2Bahttps://www.un.org/en/universal-declaration-human-rights/gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  2. 《老龄与健康世界报告》。世界卫生组织。URL:gydF4y2Bahttps://www.who.int/ageing/publications/world-report-2015/en/gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  3. 跟踪全民健康覆盖:2017年全球监测报告。世界卫生组织和国际复兴开发银行/世界银行,2017。URL:gydF4y2Bahttps://apps.who.int/iris/bitstream/handle/10665/259817/9789241513555-eng.pdfgydF4y2Ba[2021-09-23]访问gydF4y2Ba
  4. 杜克·s·巴比伦(Duke S. Babylon)的症状检查应用程序得到了健康的推动。URL:gydF4y2Bahttps://www.thetimes.co.uk/article/babylon-gets-a-healthy-boost-for-its-symptom-checking-app-kfnwnqsxlgydF4y2Ba[2021-09-23]访问gydF4y2Ba
  5. 张建军,张建军,张建军,等。自我诊断与分诊评估的临床研究。中国医学杂志2015年7月08日;351:h3480 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. 刘建军,刘建军,刘建军,等。人工智能与人类医生在分诊诊断中的比较研究。出来了。2018.URL:gydF4y2Bahttps://arxiv.org/abs/1806.10698gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  7. 浮标运行状况-症状检查器。受欢迎的。URL:gydF4y2Bahttps://www.welcome.ai/tech/deep-learning/buoy-health-symptom-checkergydF4y2Ba[2021-09-23]访问gydF4y2Ba
  8. 一天一款应用,医生远离我。《新科学家》,2017。URL:gydF4y2Bahttps://www.newscientist.com/article/2141247-an-app-a-day-keeps-the-doctor-away/gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  9. 我对技术驱动型国民保健服务的看法。卫生和社会保健大臣马特·汉考克在2018年NHS博览会上的演讲。2018.URL:gydF4y2Bahttps://www.gov.uk/government/speeches/my-vision-for-a-more-tech-driven-nhsgydF4y2Ba[2021-09-23]访问gydF4y2Ba
  10. 王晓明,王晓明,王晓明。使用在线症状检查器与患者寻求护理计划的关联。JAMA网络公开赛2019年12月02日;2(12):e1918561 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  11. 李建军,李建军,李建军,李建军,李建军,李建军。确定远程医疗是否可以降低卫生系统成本:范围审查。[J]互联网研究与发展,2020,vol . 19;22(10): 1177 - 1177]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. 在医生投诉后,备受瞩目的健康应用程序受到审查。《金融时报》。URL:gydF4y2Bahttps://www.ft.com/content/19dc6b7e-8529-11e8-96dd-fa565ec55929gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  13. Narayanan M, Chen E, He J, Kim B, Gershman S, Doshi-Velez F.人类如何理解机器学习系统的解释?对解释的人类可解释性的评价。arXiv.org。2018.URL:gydF4y2Bahttp://arxiv.org/abs/1802.00682gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  14. 贺建军,李建军,李建军。协同过滤推荐的理论分析。参见:2000年ACM计算机支持的协同工作会议论文集。2000年发表于:CSCW '00: 2000年ACM计算机支持协同工作会议论文集;2000;美国宾夕法尼亚州费城。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  15. Ribeiro M, Singh S, Guestrin C.“我为什么要相信你?”解释任何分类器的预测。参见:ACM SIGKDD知识发现与数据挖掘国际会议论文集。2016年发表于:ACM SIGKDD知识发现与数据挖掘国际会议;2016年8月13-17日;美国加州旧金山第1135-1144页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  16. Milne-Ives M, de Cock C, Lim E, Shehadeh MH, de Pennington N, Mole G,等。人工智能对话代理在医疗保健中的有效性:系统综述。医学信息学报,2020;22(10):e20346 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. 张丽娟,张丽娟,张丽娟。健康焦虑、网络健康信息搜索与网络疑病的关系:系统评价和meta分析。[J]情感障碍2019年2月15日;245:270-278。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  18. Hoffman R, Mueller S, Klein G, Litman J.可解释人工智能的指标:挑战与前景。arXiv.org。2018.URL:gydF4y2Bahttp://arxiv.org/abs/1812.04608gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  19. 李建军,李建军,李建军,等。临床决策支持系统对信任和依赖的影响。发表于:2015年国际医疗信息会议;2015年10月21-23日;达拉斯,德克萨斯州,美国[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  20. Woodcock C.“人工智能驱动的症状检查应用程序中解释对外行人信任的影响:实验研究”中的结果再现代码。GitHub。URL:gydF4y2Bahttps://github.com/clairewoodcock/impact-explanations-ai-scgydF4y2Ba[2021-09-23]访问gydF4y2Ba
  21. 刘易斯D.因果解释。见:哲学论文第二卷。牛津大学:牛津在线奖学金;1987.gydF4y2Ba
  22. 希尔顿DJ。会话过程和因果解释。心理通报1990;107(1):65-81。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  23. Miller T.人工智能的解释:来自社会科学的见解。人工智能2019年2月;267:1-38。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  24. 解释解释。伦敦,英国:劳特利奇出版社;1993.gydF4y2Ba
  25. Lombrozo T.解释的结构和功能。科学动态,2006;10(10):464-470。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  26. Lombrozo T.解释与溯因推理。见:《牛津思考与推理手册》。牛津:牛津手册在线;2012.gydF4y2Ba
  27. 李建军,李建军,李建军,等。解释解释:实证基础。智能系统学报,2017,32(4):78-86。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  28. 赫尔曼B.人类评估模型可解释性的希望与危险。出来了。2017.URL:gydF4y2Bahttp://arxiv.org/abs/1711.07414gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  29. Meyer AN, Giardina TD, Spitzmueller C, Shahid U, Scott TM, Singh H.患者对人工智能辅助症状检查器有用性的看法:横断面调查研究。医学信息学报,2020,30 (1):464 - 467 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  30. 李金,龙布罗佐,T.探究、理论形成与解释现象学。在:认知科学学会第41届年会上发表于:认知科学学会第41届年会上;2019;蒙特利尔。gydF4y2Ba
  31. 罗文斯坦G.好奇心理学:回顾与重新诠释。精神病学杂志1994;116(1):75-98。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  32. Wong W, Yudell Z.对解释需求的规范性描述。synthesis 2015 Feb 21;192(9):2863-2885。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  33. Mills CM, Sands KR, Rowles SP, Campbell IL。“我想知道更多!”儿童在探索新信息时对解释的质量很敏感。生物工程学报,2019;43(1):1 - 4。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  34. 李志强,李志强。一种探索解释寻求好奇心的功能方法。中华精神病杂志[j]; 2009; 19 (3): 391 - 391 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  35. 深度与顺从:我们何时以及为何将理解归为理解。Philos Stud 2015年5月7日;173(2):373-393。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  36. 解释性偏好影响学习和推理。科学进展,2016;20(10):748-759。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  37. 凯尔FC。解释和理解。心理学报2006;57:227-254 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  38. Mittelstadt B, Russell C, Wachter s。提交于:FAT* '19:公平、问责和透明度会议纪要;2019年1月29日至31日;美国亚特兰大。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  39. Lipton P.对比解释。罗伊研究所Philos供应2010年1月08日;27:47 -266。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  40. 刘易斯D.因果关系。中华医学杂志[J]; 1993; 30(1):556-567。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  41. 塔加德P.解释连贯。行为脑科学1989;12(3):435-467。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  42. 阅读SJ, Marcus-Newhall a .社会解释中的解释一致性:一个平行的分布式处理账户。[J]心理学报,1993;16(3):429-447。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  43. 李建军,张建军,张建军。解释范围对因果强度推断的影响。发表于:认知科学学会第36届年会;2014;魁北克,2453-2458页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  44. 因果解释中的简单性和概率。中华心理医学杂志,2007;55(3):232-257。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  45. 奥卡姆的剃刀一针见血:因果解释的简单性。[J]中国心理医学杂志,2017,31(2):391 - 391。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  46. Kulesza T, Stumpf S, Burnett M, Yang S, Kwan I, Wong w。太多,太少,还是刚刚好?解释影响最终用户心智模型的方式。2013 IEEE Visual Languages and Human Centric Computing Symposium on Visual Languages and Human Centric Computing;2013年9月15日至19日;圣何塞,加州,美国。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  47. Johnson SG, Valenti J, Keil FC。因果解释中的简单性和复杂性偏好:一个对立启发式解释。中华心理医学杂志2019年9月13日:101222。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  48. 林杰比,奥本海默DM.复杂性匹配的解释偏好。PLoS One 2020 Apr 21;15(4):e0230929 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  49. 韦肯菲尔德D,隆布罗佐t。语境效用影响解释的感知质量。心理学报,2017;10(5):1436-1450。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  50. Leitch A. Leitch技能回顾。GOV.UK。2006.URL:gydF4y2Bahttps://www.gov.uk/government/organisations/leitch-review-of-skillsgydF4y2Ba[2021-09-23]访问gydF4y2Ba
  51. 高等教育学生统计:英国,2017/18 -已获得资格证书。HESA。2019.URL:gydF4y2Bahttps://www.hesa.ac.uk/news/17-01-2019/sb252-higher-education-student-statistics/qualificationsgydF4y2Ba[2021-09-23]访问gydF4y2Ba
  52. 谷歌的人工智能专家西蒙尼特·T.希望计算机能像大脑一样思考。《连线》杂志》2018。URL:gydF4y2Bahttps://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  53. Tay SW, Ryan PM, Ryan CA.医学生的系统1和系统2思维过程和认知反射测试。中国医学杂志,2016;7(2):97-103。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  54. 张建军,张建军,张建军,等。可解释人工智能(XAI):负责任人工智能的概念、分类、机遇和挑战。中国生物医学工程学报(英文版);58:82-115。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  55. Hoffman RR, Klein G, Mueller ST.对“可解释人工智能”的解释。发表于:人因与工效学学会年会上;2018;费城,第197-201页。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  56. Clancey WJ。基于规则的专家系统的认识论——解释的框架。人工智能,1983;20(3):215-251。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  57. 解释人工智能做出的决定。信息专员办公室。2020。URL:gydF4y2Bahttps://ico.org.uk/for-organisations/guide-to-data-protection/key-data-protection-themes/explaining-decisions-made-with-artificial-intelligence/gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  58. 朱杰,Liapis A, Risi S, Bidarra R, Youngblood G.可解释的人工智能:以人为本的混合主动共同创造视角。参见:2018年IEEE计算智能与游戏会议论文集(CIG)。2018年发表于:IEEE计算智能与游戏会议,CIG;2018年8月14日至17日;荷兰马斯特里赫特,。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  59. 英国通用数据保护条例指南(英国GDPR)。信息专员办公室。URL:gydF4y2Bahttps://ico.org.uk/for-organisations/guide-to-the-general-data-protection-regulation-gdpr/gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  60. 李建平,李建平。基于数据输入影响的算法透明度研究。参见:2016年IEEE安全和隐私研讨会论文集(SP)。2016年IEEE安全与隐私研讨会(SP);2016年5月22日至26日;圣何塞,加州,美国。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  61. McSherry D.解释CBR结论的利弊。见:第七届欧洲会议论文集,ecbr。2004年发表于:第七届欧洲会议,ecbr;2004年8月30日至9月2日;马德里,西班牙。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  62. 埃普利N,维茨A,卡西奥波JT。论看人:拟人论的三因素理论。心理学报,2007;14(4):864-886。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  63. Graaf MD, Malle B.人们如何解释行为(自主智能系统也应该如此)。行为的解释人们如何用心智理论来解释机器人的行为。2017.URL:gydF4y2Bahttps://www.researchgate.net/publication/320930548_How_people_explain_action_and_AIS_should_toogydF4y2Ba[2021-09-23]访问gydF4y2Ba
  64. 《心理如何解释行为:民间解释、意义与社会互动》。剑桥:麻省理工学院出版社;2006.gydF4y2Ba
  65. Wachter S, Mittelstadt B, Russell C.不打开黑匣子的反事实解释:自动化决策与GDPR。arXiv.org。2017.URL:gydF4y2Bahttps://arxiv.org/abs/1711.00399gydF4y2Ba[2021-09-23]访问gydF4y2Ba
  66. 《为什么:新科学的因果关系》。纽约:Basic Books;2018.gydF4y2Ba
  67. 吉洛维奇T,梅德韦杰夫VH。悔恨经历的时间模式。中华精神病学杂志,1994;37(3):357- 361。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  68. 李建军,李建军。学前儿童反事实思维:心理状态与因果推论。见:《儿童推理与心智》。英国:Taylor & Francis;2000:87 - 99。gydF4y2Ba
  69. 伯恩RM。关于可能发生的事情的心理模型和反事实的想法。科学动态2002;6(10):426-431。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  70. 王晓明,王晓明,王晓明,王晓明,Schölkopf .基于因果推理的性别歧视研究。发表于:NIPS'17:第31届神经信息处理系统国际会议论文集;2017年12月4-9日;美国加州长滩。gydF4y2Ba
  71. Krug S.《不要让我思考,重新审视:Web可用性的常识方法》第3版。旧金山:桃坑;2013.gydF4y2Ba
  72. 影响:说服心理学。纽约:Harper Business;2006.gydF4y2Ba
  73. Eyal N. hook:如何打造养成习惯的产品。纽约:企鹅出版社;2014.gydF4y2Ba
  74. GBD 2016头痛合作者。1990-2016年全球、区域和国家偏头痛和紧张性头痛负担:2016年全球疾病负担研究的系统分析柳叶刀神经杂志2018年11月;17(11):954-976 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  75. 瓦拉。2.巨细胞动脉炎的流行病学综述。风湿病学2014年7月22日;53(补充2):i1-i2。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  76. Rasmussen BK, Jensen R, Schroll M, Olesen J.普通人群头痛流行病学研究。中华流行病学杂志,2001;19(11):1147-1157。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  77. 什么是咨询模式?创新科技2013年9月6日;6(9):592-599。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  78. 缪尔BM。自动化中的信任:第一部分:自动化系统中信任与人为干预研究中的理论问题。人机工程2007;31;37(11):1905-1922。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  79. 亚当斯BD,布鲁恩LE。信任自动化系统。美国国防部,2003年。URL:gydF4y2Bahttps://cradpdf.drdc-rddc.gc.ca/PDFS/unc17/p520342.pdfgydF4y2Ba[2021-09-19]访问gydF4y2Ba
  80. 贾建军,陈建军,陈建军。基于实证的自动化系统信任规模研究。国际医学杂志,2000;4(1):53-71。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  81. 王东,杨强,Abdul A, Lim b。设计理论驱动的以用户为中心的可解释人工智能。2019: CHI '19: 2019 CHI计算系统中人因会议论文集;2019年5月4日- 9日;格拉斯哥,英国苏格兰。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  82. 马德森M,格雷戈尔S.人机信任测量。发表于:第11届澳大拉西亚信息系统会议论文集。2000;2000;珀斯。gydF4y2Ba
  83. 预测使用是否能提高信任和探索能力?一个巡航控制系统的例子。安全科学,2009;47(9):1260-1270。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  84. 李建军,李建军,李建军,等。治疗健康焦虑:认知-行为方法。纽约:吉尔福德出版社;2004:56。gydF4y2Ba
  85. 解释和先验知识相互作用,引导学习。中华心理医学杂志,2013;36(1):55-84。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  86. Luger TM, Houston TK, Suls J.老年人在线诊断经验:基于场景的有声思考方案的结果。医学与互联网研究,2014,16(1):16 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  87. 张志强,张志强。基于知识的医学推理解决策略。地球物理学报,1986;10(1):91-116。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  88. 史考特SE,沃尔特FM,韦伯斯特A,萨顿S,埃默里J.治疗途径模型:概念化与现有理论的整合。[J]中华卫生杂志,2013;18(1):45-65。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  89. Wilson TD, Centerbar DB, Kermer DA, Gilbert DT。不确定性带来的乐趣:以人们意想不到的方式延长积极情绪。中华精神病学杂志,2005,31(1):1 - 5。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  90. Frazier B, Gelman S, Wellman H.学龄前儿童在成人-儿童对话中对解释性信息的搜索。儿童发展[j]; 2009; 31 (6):1592-1611 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  91. 国际疾病和相关健康问题统计分类(ICD)。世界卫生组织。URL:gydF4y2Bahttps://www.who.int/classifications/classification-of-diseasesgydF4y2Ba[2021-09-23]访问gydF4y2Ba
  92. 因果图式与归因过程。归因:感知行为的原因。新泽西州:Lawrence Erlbaum Associates, Inc;1987:151 - 174。gydF4y2Ba
  93. 格雷伯。医学诊断错误的发生率。中华医学杂志2013;10;22 vol . 2: 1- 2 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  94. 逻辑和对话。在:言语行为。纽约:学术出版社;1975:41-58。gydF4y2Ba
  95. 希尔顿DJ。心理模型和因果解释:可能原因和解释相关性的判断。理性思考1996年11月;2(4):273-308。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  96. Giffin C, Wilkenfeld D, Lombrozo T.标签的解释效应:带有命名类别的解释更令人满意。《认知》2017年11月;168:357-369。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  97. 解释和分类:“为什么?”如何影响“什么?”认知2009;110(2):248-253。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  98. 熟悉度在儿童解释物理因果关系中的作用。儿童发展1971年9月42日(3):705-715。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  99. Tullio J, Dey A, Chalecki J, Fogarty J.它是如何工作的:非技术用户与智能系统交互的实地研究。在:CHI07: CHI Conference on Human Factors In Computing Systems;2007年4月28日至5月3日;美国加州圣何塞。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  100. 伯恩RM。解释的构造。见:《人工智能与认知科学》,1990。伦敦:施普林格;1991.gydF4y2Ba
  101. Skitka LJ, Mosier KL, Burdick M.自动化对决策的影响?[J] .计算机工程学报,1999;51(5):991-1006。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  102. Zemla JC, Sloman S, Bechlivanidis C, Lagnado DA。评估日常解释。心理学报,2017;24(5):1488-1500。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
人工智能:gydF4y2Ba人工智能gydF4y2Ba
方差分析:gydF4y2Ba方差分析gydF4y2Ba
MANOVA:gydF4y2Ba多变量方差分析gydF4y2Ba
中移动:gydF4y2Ba研究问题gydF4y2Ba
SC:gydF4y2Ba症状检查程序gydF4y2Ba


R库卡夫卡编辑;提交06.04.21;J Knitza, J Ropero的同行评审;对作者的评论28.06.21;修订版本收到11.07.21;接受27.07.21;发表03.11.21gydF4y2Ba

版权gydF4y2Ba

©Claire Woodcock, Brent Mittelstadt, Dan Busbridge, Grant Blank。原载于医学互联网研究杂志(//www.mybigtv.com), 2021年11月3日。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba


Baidu
map