发表在9卷第二名(2022): Apr-Jun

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/33960,首次出版
影响临床医生对院内恶化预测临床决策支持系统信任的因素:定性描述性研究

影响临床医生对院内恶化预测临床决策支持系统信任的因素:定性描述性研究

影响临床医生对院内恶化预测临床决策支持系统信任的因素:定性描述性研究

原始论文

1美国纽约哥伦比亚大学生物医学信息系

2美国纽约哥伦比亚大学护理学院

3.布里格姆妇女医院,波士顿,马萨诸塞州,美国

4哈佛医学院,马萨诸塞州,美国波士顿

5加拿大卑诗省维多利亚维多利亚大学卫生信息科学学院

6威尔康奈尔医学院,纽约,纽约,美国

7美国纽约哥伦比亚大学急诊医学系

通讯作者:

杰西卡·M·施瓦茨,注册护士,博士

生物医学信息系

哥伦比亚大学

西168街622号

PH20 3720

纽约,纽约,10032

美国

电话:1 212 305 5334

电子邮件:jms2468@cumc.columbia.edu


背景:临床医生对基于机器学习的临床决策支持系统(CDSS)的信任对于预测院内恶化(一种预测性CDSS)的采用至关重要。证据表明,临床医生对预测性cdss的信任受到感知可理解性和感知准确性的影响。

摘要目的:本研究的目的是通过确认和描述已知影响信任的因素(可理解性和准确性),揭示和描述其他影响因素,并比较护士和处方提供者对预测性CDSSs的信任,探讨临床医生对院内恶化的预测性CDSSs的信任现象。

方法:我们遵循定性描述方法,对访谈数据进行定向演绎和归纳内容分析。在人机信任概念框架的指导下进行定向演绎分析。在马萨诸塞州布里格姆市的2家医院,对使用预测性CDSS的护士和处方提供者(医生、医师助理或执业护士)进行了半结构化访谈。

结果:共采访了17名临床医生。来自人机信任概念框架的概念-认为可理解性感知的技术能力(即,感知准确性)-被发现影响临床医生对院内恶化的预测性cdss的信任。临床医生对患者临床状态的印象和系统预测之间的一致性影响了临床医生对系统准确性的看法。可理解性受到系统解释(包括全局和局部)以及培训的影响。归纳分析总共产生了3个附加主题。第一,认为可控诉的情形,捕获了临床医生对预测cdss的期望的变化,以推荐离散的行动。第二个,的证据,描述了宏观(科学)和微观(轶事)证据对培养信任的重要性。最后一个主题,,描述了系统预测中的公平性。护士和开处方的医生的调查结果基本相似。

结论:尽管在基于机器学习的CDSS准确性和可理解性之间存在明显的权衡,但我们的研究结果证实,两者对于培养临床医生对预测性CDSS的信任非常重要。我们发现在临床工作流程中对预测性CDSS的依赖可能会影响临床医生对信任的要求。未来的研究应探讨信任的影响、提高可理解性的最佳解释设计以及感知可作为性在驱动信任中的作用。

JMIR Hum Factors 2022;9(2):e33960

doi: 10.2196/33960

关键字



背景

如果要将最佳实践整合到标准的临床工作流程中,临床医生采用临床决策支持系统(CDSSs)是至关重要的。随着cdss发展到包括基于机器学习的cdss,机器学习的力量可以用来增强诊断或结果的患者风险预测模型。然而,与使用基于规则的逻辑的系统相比,这样的系统在采用上面临着独特的挑战,这些系统在历史上得到了更广泛的实现[1]。一个挑战是,在基于机器学习的cdss中,预测背后的逻辑可能很难或不可能对临床最终用户透明。这是最近许多研究的焦点。2-4]以回应欧盟《一般数据保护条例》,该条例有效地规定有权解释根据个人数据作出的任何预测[5]。在一项关于医生理解和解释基于机器学习的CDSS逻辑的能力的研究中,Diprose等人[6发现可理解性和可解释性都与英语水平呈正相关信任.当预测背后的逻辑不被理解时,医生就不相信它们。这种不信任已被证明是对采用基于机器学习的cdss的挑战[7-10],而信任与采用基于机器学习的cdss的意愿增加有关[11]。

基于机器学习的早期预警系统,一种流行的CDSS类型[12],旨在识别在医院有恶化风险的患者(例如,发生败血症或心脏骤停)。这是一种预测信用违约掉期- - - - - -基于机器学习的系统,预测患者未来的结果或对治疗的反应。与基于机器学习的cdss相比,预测性cdss对临床医生来说更难以信任诊断cdss要求临床医生即使在没有结果的客观迹象的情况下也要相信预测的准确性。预测性cdss很难实现有影响力的采用[101314]。研究表明,向临床医生提供模型的整体准确性不足以建立对预测性cdss的信任[2]。因此,临床医生如何信任并采用预测性cdss仍然是一个研究兴趣浓厚的领域。此外,大多数关于临床医生信任的研究都集中在医生对预测性cdss和基于机器学习的诊断性cdss的信任上[2615]。然而,护士也是医院环境中预测性cdss的目标用户[716]并且可能对信任预测性cdss有不同的看法和要求。

其他人已经调查了这个话题。例如,一项旨在探索影响将预测性cdss整合到临床工作流程的因素的研究发现,信任是急诊科的一个影响因素[7]。其他人已经探索了影响可解释性的因素,以及可解释性何时增加信任的特征[2]。另一项研究测试了医生在不同解释和理解水平下对预测cdss的信任程度[6]。后两者是通过参考模拟而不是实际实施的预测性cdss进行的。我们的研究与现有的关于这一主题的研究不同,因为它是第一个以阐明影响信任的因素为目标的研究,参考了广泛住院医院环境(医疗、外科和重症监护病房)中实施的、正在使用的系统。

目标

为了解决我们在理解临床医生如何建立对预测性CDSS的信任以及不同专业群体之间可能存在的差异方面的差距,我们探索了护士和处方提供者(医生、医师助理[pa]或护士执业者)在实施预测性CDSS后对院内恶化的经验。我们的调查是在一个概念框架的指导下进行的,即人机信任框架[17],这就解释了前面提到的影响信任感知可理解性和准确性的已知因素。因此,我们的研究目的是通过(1)确认和描述人机信任概念,(2)揭示和描述任何其他影响临床医生信任的因素,(3)比较护士和处方提供者对预测性CDSS的信任,来探索医院内恶化的预测性CDSS用户之间的临床医生信任现象。


概念框架

人类-电脑的信任概念架构[17) (图1)指导我们的调查。在该框架中,总体信任被定义为“用户对人工智能决策辅助工具的建议、行动和决策的信心程度,并愿意在此基础上采取行动”[17]。在这个框架中,信任被进一步描述为基于认知的信任(反映用户对系统的智力感知)和基于情感的信任(反映用户对系统的情感感知)。本研究主要研究基于认知的信任体验,以及认知信任的2个概念:感知可理解性和感知技术能力。感知可理解性被定义为“人类监督者或观察者能够形成一个心智模型并预测未来系统行为的感觉”[17]。感知技术能力被定义为“基于输入的信息,感知系统准确而正确地执行任务”[17]。虽然感知的可理解性和感知的技术能力是相关的概念-理想情况下,临床医生将理解一个系统来判断其准确性-包含感知到的每个概念都强调临床医生的观点,以及这些观点如何影响信任,无论它们是否准确。

图1所示。人机信任概念框架。感知可理解性、感知技术能力和基于认知的信任在本研究中被考察。
查看此图

我们没有直接检查感知可靠性,因为它依赖于重复的系统使用,这在参与者中是没有保证的,而且因为结构方程模型导致研究人员质疑它对基于认知的信任的影响[17]。因此,我们的调查重点是参与者对他们对预测性CDSS的理解的看法,对预测性CDSS准确性的看法,基于该预测性CDSS采取行动的意愿,以及影响这些因素及其相互关系的因素。使用半结构化访谈指南对这些兴趣概念进行操作和探索(表S1)多媒体附件1).

研究设计

定性描述方法学指导我们的方法[1819],包括访谈数据的定向演绎和归纳内容分析[20.]。半结构式访谈指南(表S1)多媒体附件1)由研究团队开发,包括由人机信任框架指导的问题,以及开放式问题,以诱导临床医生对预测性CDSS的信任,特别是对注册护士(CONCERN) CDSS的沟通叙述关注。CONCERN是一种预测性CDSS,在布里格姆卫生系统的2家医院实施,目前正在调查其预测住院恶化的能力(5R01NR016941-05)。该系统于2020年7月在8个试点单位实施,并于2020年9月在另外16个研究单位实施。研究单位包括急性和重症监护病房,不包括儿科、新生儿、临终关怀、急诊、肿瘤科、分娩、行为或精神科、观察、围手术期、当日手术和整形外科病房。

CONCERN使用机器学习和自然语言处理来建模护理文件数据,以预测患者住院恶化的风险。因此,它利用证据表明,当护士关注患者不断变化的临床状态时,他们会改变记录行为或在叙述笔记中使用选定的语言[21-24]。如图2CONCERN以彩色圆圈的形式向临床医生提供预测,表明患者病情恶化的风险:绿色表示风险低,黄色表示风险增加,红色表示风险高。通过单击颜色,临床医生打开CONCERN仪表板,其中显示了驱动预测的5个特征(即预测器)类别,每个特征类别在告知患者预测方面的相对重要性,每个特征类别中贡献的患者特定文档,患者入院期间预测的趋势线,患者在CONCERN分布中的位置,以及了解更多关于CONCERN发展或提供反馈的链接。CONCERN预测中使用的五个主要特征类别是(1)护理记录内容,(2)生命体征频率,(3)护理记录频率,(4)生命体征评论频率,以及(5)用药。

图2。由注册护士(CONCERN)输入的临床决策支持系统。
查看此图

参与招聘

在急症或重症监护室工作的所有临床医生的患者名单中增加了CONCERN。然而,预测仅显示在研究单位(24个急性或重症监护病房的随机样本)入院的患者。这些单位的临床医生接受了有关CONCERN的培训,然后,在所有研究单位实施CONCERN 3个月后(2020年12月),邀请使用CONCERN的临床医生报名。研究人员还采用了雪球抽样(即要求参与者宣传这项研究或推荐他们的同行)。如果临床医生没有选择将CONCERN纳入他们的常规实践,我们不会排除他们,因为我们不想让我们的结果只偏向那些对CONCERN有积极看法的人。临床医生的特征是护士或开处方的提供者(医生、助理医师和执业护士)。参与者获得了价值50美元的礼品卡。

伦理批准

哥伦比亚大学欧文医学中心(AAAR1389)和布里格姆妇女医院(2019P001910)的机构审查委员会批准了这项研究。

数据收集

半结构化的访谈指南用于迭代地指导每次访谈(表S1)多媒体附件1).有意地,我们没有介绍这个术语机器学习在访谈开始时,对临床医生在实践中使用预测性cdss的看法保持开放态度,而不是根据他们对机器学习的看法来潜在地偏见他们的回答。访谈是在临床医生工作时间之外使用Zoom (Zoom视频通信)远程进行的。访谈时长20 - 56分钟(平均时长39分钟,标准差9.5分钟)。访谈记录和转录使用符合健康保险携带和责任法案的转录软件(NVivo转录;QSR International),并由首席研究员(JMS)清洗。

我们招募参与者,直到数据饱和表表明我们达到了数据充分性(即,在随后的访谈中没有学到新的信息[25]),护士和处方提供者的人数几乎相等,以增加我们对两个专业组之间调查结果比较的信心。第11次访谈时出现数据饱和(表S2)多媒体附件1).我们继续招募了多达17名面试者,以平衡我们的专业群体样本。

数据分析

使用归纳和演绎的定向内容分析,我们创建了一个初始代码本,定义了我们的代码,为它们的应用建立了边界,并包括了示例引用[26(表S3多媒体附件1).主要编码员(JMS,护理信息学科学家)使用此码本来指导其他转录本的编码,并根据需要修改码本。第二个编码员(SRM,非临床信息学研究生)完成了47%(8/17)成绩单的有目的样本(一半处方提供者和一半护士)的归纳编码。JMS和SRM每周开会讨论他们的发现。与MG(一名没有信息学背景的定性专家)进行的双月汇报有助于达成共识。第三位编码员(EL,医师信息学家)使用人机信任框架的概念完成了35%(6/17)的有目的样本(一半处方提供者和一半护士)的演绎编码。编码器之间的可靠性计算为Cohenκ度量执行演绎编码(JMS和EL)的编码员之间的一致性的系数。与定性范式一致,密码的重要性不是由它们的绝对频率决定的[27]。因此,我们报告了常见和不常见的看法。

数据收集和分析的严谨性

我们使用了多种策略来增强我们发现的可信度,正如Guba [28]。为提高可信度(即使我们的调查结果更真实)[28],我们使用同行汇报[29]和成员检查(在与新参与者的访谈中验证新出现的代码和类别),并评估我们的最终主题以进行结构确证(以确认研究结果彼此不矛盾)。提高可移植性(即真实地表示上下文和样本)[28],我们报告了我们的样本和地点的详细人口统计描述,并有意抽样,以代表护士和处方提供者。使调查结果具有可靠性或一致性[28],我们创建了代码本和审计跟踪记录了整个研究过程中所有数据收集和分析决策。最后,为了提高可验证性(即减少偏见)[28,编码员练习反身性,以确定研究人员对数据的影响。此外,我们由编码员和研究人员组成的跨专业团队以及我们有目的的抽样策略(包括招募不同的临床医生职业)使我们能够对数据进行三角测量;也就是说,使用多种视角来增加我们对研究结果的信心。


概述

我们总共采访了17名临床医生,询问他们对预测性CDSS的总体信任程度,特别是对CONCERN CDSS的信任程度。总体而言,53%(9/17)的参与者是处方提供者(8/ 9,89%的医生和1/ 9,11%的助理医师),47%(8/17)是护士。大多数临床医生(9/ 17,53%)在全科医学单位或轮岗工作,他们在当前专业角色中平均有5.43年的经验,平均年龄为30.65岁。参与者报告在CONCERN CDSS工作了1到6个月。大多数临床医生(14/ 17,82%)来自1家医院(A点)。表1显示总体参与者统计信息。

表1。参与者统计数据(N=17)。
人口统计变量
临床医师类型,n (%)

处方提供者 9 (53)


医生 8 (47)


医师助理 1 (6)

护士 8 (47)


注册护士 7 (41)


护士教育工作者 1 (6)
当前实践设置,n (%)

住院内科 9 (53)

心脏病学,心脏外科或血管外科 4 (24)

COVID-19(原内科) 2 (12)

手术 1 (6)

Hospitalist 1 (6)
在职年数,平均(SD;范围) 5.43 (8.59;-35 - 0.5)
在布里格姆麻省总院的学习年限,平均(SD;范围) 6.12 (7.95;-32 - 0.5)
最高专业学位,n (%)

医学博士 8 (47)

护理学学士学位 7 (41)

硕士学位 2 (12)
年龄(年),平均值(SD;范围) 30.65 (8.66;24-58)
种族,n (%)

亚洲人或亚裔美国人 7 (41)

混血儿 1 (6)

白色 8 (47)

没有报告 1 (6)
种族,n (%)

巴西 1 (6)

中国人 2 (12)

东欧 1 (6)

拉美裔 1 (6)

韩国人或韩裔美国人 2 (12)

非西班牙裔 8 (47)

没有报告 2 (12)
性别,n (%)

13 (76)

男性 4 (24)
站点,n (%)

网站一 14 (82)

Site B 3 (18)

演绎编码为概念框架提供了支持

2个演绎法编码员的总体Cohen κ为0.81。我们发现支持该模型的两个概念:感知技术能力(Cohen κ=0.77)和感知理解能力(Cohen κ=0.86)。

感知技术能力

临床医生描述他们的信任受到他们对CONCERN的准确性和正确性的看法的影响。例如,一位医生说:

越准确,在我看来……我就越信任这个工具。
[医生2]
认为可理解性

临床医生对CONCERN的理解能力也是影响信任的重要因素。临床医生描述了想要评估导致CONCERN的因素,以确定他们是否相信预测(也称为“评分”):

CONCERN分数已经改变了,比如,你知道,他们现在是黄色或其他什么,这可能是一个很好的点,哦,我们认为是什么促成了这一点,甚至是审查,因为我认为有一种方法来审查,比如什么,是什么导致了这一点。就像,我们相信这个吗?不是吗?
(医生4)

归纳编码

概述

基于认知信任的两个概念,感知的技术能力认为可理解性,成为归纳编码的主题。此外,还确定了三个新的主题,反映临床医生对预测性cdss的信任:(1)证据, (2)可控诉的情形,和(3)图3).站点A和站点B之间的紧急代码没有显著差异(表S2)多媒体附件1).

图3。影响信任的因素的主题、类别和子类别。CDSS:临床决策支持系统。
查看此图
感知技术能力

关于感知的技术能力, 5个类别表征了临床医生对CONCERN和预测性cdss的准确性和正确性的看法:(1)和谐, (2)合理的方法和数据, (3)临床医生参与(4)系统只能增强,和(5)系统的优势和临床医生的弱点。

和谐

临床医生对患者临床状态的印象与CONCERN的预测之间的一致性成为影响临床医生对CONCERN准确性的看法的重要因素(1)。和谐建立信任, (2)不一致会侵蚀信任,和(3)不一致的影响取决于对CDSS决策的依赖

和谐建立信任

当CONCERN的预测与临床医生对患者的印象一致时,他们对系统的信任受到了积极的影响:

我感觉很好,它与病人的进展非常一致,无论他们做得好还是不好。
[注册护士1]

临床医生还假设,如果他们对患者的担忧与concern预测表明高风险之间存在一致性,他们可以使用预测作为支持升级护理的证据:

所以,我想在某种情况下,我可以说,哦,这个病人的CONCERN分数是…红色,就像,这只是我们需要进行干预的证据。
RN [4]
不一致会侵蚀信任

相反,临床医生表示,在CONCERN的预测和他们的评估之间缺乏一致性降低了他们的信任:

我想可能我们都注意到了,但我们并没有真正谈论它,因为有时它与病人的临床表现并没有真正的联系。
(PA - 1)

同样,一名护士说:

这种信任可能会受到阻碍,比如说,如果我有一个我担心的病人,而且他们是新手。
RN [4]
不一致性影响依赖于CDSS的决策依赖

对于一些临床医生来说,CONCERN预测与他们对患者的印象之间的不一致并没有减少他们的信任,因为他们认为CONCERN只是他们考虑的一个数据点。这些临床医生表示,他们很欣赏提醒他们关注病人的提示,并且没有看到不准确的预测有任何危害:

有时候我会想,“哦,我在里面呆了一整天,为什么它不是红色的?”但同样,我也没有频繁地说,“哦,这是垃圾。”我,我仍然尊重它的投入(笑)……这是我在开始轮班时看到的东西……随着时间的推移,我会注意是否有变化。
RN [3]
唯一一次停止,我想,只是有很多文件因为其他原因而发生,不是很好的临床恶化。这个病人身上还有很多其他的事情需要经常记录。所以,它是黄色的。但是,知道就好了,就像,哦,我实际上应该看看发生了什么。
[医生1]
可靠的方法和数据

当提到CONCERN的准确性时,许多临床医生描述了他们对模型中使用的数据质量的印象,可以改进模型的数据,以及不同粒度级别的建模方法。一些医生表示支持CONCERN的方法,因为它利用了护理文件数据:

我的整个训练就像是,相信你的护士,如果他们担心,你也会担心……所以我认为任何方式,比如,进一步让你了解正在发生的事情,从护理的角度来看,都是有帮助的。
[医生1]

另一些人想进一步检查模型开发的严谨性:

我想知道更多关于它是如何发展的,所以假设CONCERN训练的数据完全是ICU败血症和器官衰竭,死亡率,全因死亡率,让我们说……那么我会说这个工具只适用于ICU设置。
(医生3)

许多人讨论了数据质量,一些临床医生怀疑护理记录的频率预示着病情恶化:

【护理注意事项】频率,一轮班只发生一次……无论是否发生了重大事件,我都会在轮班结束时记录下我的笔记。
RN [4]
临床医生参与

一些与会者希望了解临床医生是否参与了系统的开发,或者在系统实施后,临床医生是否有机会就系统性能提供反馈。一位护士说:

我认为做任何事情,有一个真正在那里工作过的人会做得更多,让你开发的东西更准确,更有用,更勤奋。
RN [5]
系统只能增强

临床医生发现了预测CDSSs相对于临床医生的几个局限性,并强调CDSSs只是他们在做出临床决策时考虑的众多信息来源之一。这一类别通过三个子类别来说明:(1)临床医生已获得知识和本能,并能推理, (2)有些病人可能不符合这种模式,和(3)数据可能无法反映实时情况

临床医生已获得知识和本能,并能推理

临床医生描述了利用他们获得的专业知识或直觉来减轻患者病情恶化的风险,以及他们将客观数据纳入背景的能力:

我觉得很多时候我们只是知道一个人的状况不好,特别是当我们每天都有同样的病人。
RN [1]
你需要那些人看着这些数字,比如病人的心动过速,心脏移植,然后说,“是的,这是不正常的,但这是正常的。”从某种意义上说,你无法真正将这些东西计算机化。这就是为什么临床医生的判断如此重要……你需要有人思考,比如,这些数字到底意味着什么?
RN [4]
有些病人可能不符合这种模式

临床医生对该系统解释独特或复杂患者特征的能力表示怀疑:

因为它太复杂了,我的意思是,我不愿说它是唯一的,但它有很多很多的因素。训练数据集很难包含足够复杂的病人,比如说,300个病人同时在右肋骨,左肩膀和左膝感染。让它(系统)知道在这一点上该做什么。
(医生3)
数据可能无法反映实时情况

临床医生经常描述系统使用的数据丢失的场景。例子包括紧急情况、病情迅速恶化、新病人,或临床医生工作或文件负担过重:

我并不是说这样的系统不聪明,但我只是觉得这在很大程度上取决于当时发生了什么。很多时候,你知道,我们的文档并不总是与当前正在发生的事情保持一致。
RN [7]
系统优势和临床医生的弱点

临床医生还确定了为什么预测cdss在预测住院恶化风险方面可能比临床专家更准确的几个原因。这一类别通过三个子类别来说明:(1)人类的决策能力不足, (2)渐进的改变,和(3)数据处理

人类决策能力不足

临床医生描述了他们自己和他们的同事在疲劳、经验有限(例如,多年的实践经验或与特定的患者群体打交道)、负担过重或不是“优秀”临床医生时做出准确预测的有限能力。例如,许多临床医生提到,在夜班期间,当他们被分配照顾更多的患者时,他们可能会更多地依赖预测性cdss:

我在夜间做报道,所以我不太了解病人,所以在那种情况下,我可能会更依赖这样的工具。
(医生4)
我想说,当一个新手在他们的角色上时,cdss会比临床医生更好。比如七月(笑着说什么时候开始新住院医生)或者任何新护士之类的。
RN [3]
渐进的改变

临床医生描述,在患者状态的变化是渐进的而不是快速的情况下,预见性cdss能够更好地做出预测:

也许这个算法更擅长于推动我们重新调整一些可能每天都在变化的东西,所以如果我们没有真正意识到趋势,我们可能会错过。
(医生4)
数据处理

临床医生还认识到,电子健康记录(EHR)中有大量数据需要综合,系统可能更适合处理大量数据,特别是来自临床记录的数据。引用范例见表S4 in多媒体附件1

认为可理解性

认为可理解性主要表现为四类:(1)解释, (2)理解是必须获得的, (3)相当于…(仅限医生),及(4)我这样做对吗?(护士)。

解释

许多临床医生关于具体理解CONCERN和预测性cdss的讨论通常涉及对系统逻辑和个体预测的解释。这一类别以三个子类别的形式呈现:(1)全球的解释, (2)当地的解释,和(3)解释所需的细节取决于决策对CDSS的依赖

全球的解释

临床医生想要全面的解释,这意味着关于CONCERN模型如何计算预测的信息:

我的问题是,什么样的短语和单词,你知道,CONCERN工具多久会回顾一次?他们是在看一张纸条吗?他们在看三个音符吗?你说的生命体征频率是什么意思?
(医生7)
我认为[理解像CONCERN这样的算法]只是更多地考虑它所考虑的东西,无论是你知道的,他们的生命体征还是实验室值,我真的不知道它是如何计算的,如果他们被标记为黄色或绿色。
RN [7]
当地的解释

临床医生还希望在护理点对个别患者的预测进行解释。一名医生说他们想看到“生命体征或任何导致分数变化的因素”(内科医生3)。一名护士说他们会寻找“是什么因素导致算法说这个人不稳定”(RN 2)。

从解释中需要的细节依赖于CDSS的决策

这第三个子类别来自于一些临床医生的声明,他们不需要对CONCERN的详细解释,因为这只是他们评估的一个组成部分:

事实上,这是一个额外的数据点对我来说,这并没有让我那么关心,嗯,你知道,机器学习是如何工作的,什么时候会用到它?对我来说,我就像,嗯,我知道机器学习是什么,我知道它可以帮助我更好地告知我的一些临床决策,也许给了我一个额外的理由,重新检查我自己的临床评估。所以,从这个意义上说,我觉得这对我来说是一个足够多的信息。
(医生8)
理解必须获得

临床医生描述了他们理解或不理解CONCERN的各种方式。这可分为三个子类别:(1)自我激励学习, (2)培训,和(3)没有获得

自我激励学习

在这个子类别中,一些临床医生将自己描述为自我激励的学习。例如,他们可能看到了一张关于CONCERN的海报或收到了一封电子邮件,这促使他们阅读它,更频繁地查看预测,或调查仪表板。引用范例见表S4 in多媒体附件1

培训

一些临床医生以前参加过CONCERN设计焦点小组,他们认为这是一种有用的培训形式,而其他人则接受过正式的培训。临床医生认为正式培训应该是新员工入职的一部分。引用范例见表S4 in多媒体附件1

没有获得

相反,一些临床医生对CONCERN的理解很差,少数认为自己没有接受教育的人对此表示沮丧。引用范例见表S4 in多媒体附件1

尽管之前的所有分类都是由处方提供者和护士共同提供的,但有两类是针对特定职业的:只有医生使用类比,只有护士关心他们的记录如何影响预测。

相当于……

在这一类别中,一些医生在描述他们对CONCERN的理解时使用了类比:

我认为这和成像是一样的,就像我通常依赖于放射学报告一样,因为我不是放射科医生,但我确实喜欢自己看图像,因为……有时候你要找的东西有不同的背景而放射科医生不知道。
(医生4)
我这样做对吗?

一些护士知道他们的记录将告知CONCERN预测,他们想知道他们是否遗漏了一些可以使CONCERN预测更准确的东西。一些人说,他们已经或将改变他们的记录行为,试图使预测反映他们对患者的印象:

我觉得我确实试着把关注分数的一部分放进去,但它并不总是,像关注分数并不总是反映它,所以我不确定我输入的数据是否正确?或者我只是没有把它放在正确的评论框里或者像填写我的笔记一样,你知道,我不知道,我是不是那个没有提高关注水平的人,因为我只是没有,我没有,像,没有正确地执行算法,让它能识别出它是一个关注。
RN [6]

最后,从数据分析中出现了新的主题,这些主题没有映射到概念框架上。其中包括(1)证据, (2)认为可控诉的情形,和(3)

证据

证据临床医生讨论了cdss积极影响患者护理的证据如何增加他们对系统预测的信任。总共出现了两类:

,预测CDSS对患者护理影响的科学证据对促进信任很重要:

我认为,就像一项研究表明分数已经被使用,背后的证据……如果它被发表并经过同行评审,我个人肯定会更倾向于使用它。
(医生6)

临床医生还描述了积极影响的轶事报告的重要性:

我觉得很有趣,如果我认识的其他人说,“嘿,你知道,我碰巧发现了一个病情恶化的病人,我们实际上能够,你知道,早期介入,我们能够防止这个病人快速或可能转移到ICU。”我觉得这些东西很有分量。
[医生1]
认为可控诉的情形

一些临床医生想要一个明确的行动建议来信任预测性CDSS (CONCERN没有提供)。其他人讨论了cdss如何为他们进一步检查患者的临床状态提供理由。

cdss应建议具体行动

一些临床医生表达了想要知道如何处理患者的风险评分来信任它的愿望:

我想,了解预测部分是如何出现的,会给我更多信心……类似于if/then工具,如果分数大于这个,你就应该执行这种操作。
(医生3)
cdss为进一步探索提供了理由

临床医生还指出,CDSS预测表明风险升高,已经或将促使他们进一步调查,要么通过EHR数据审查,要么与另一名团队成员讨论:

如果你说的是信任,我觉得我看着一个红色的病人…它可以归结为,好吧,这个病人是红色的,我想看看他们的病历。
RN [4]
如果我看到红色或者不是绿色,我会点击那个病人,看他们的流程图,如果他们是心动过速,两小时前他们还没有,那我就会去拜访病人,和护理团队一起检查他们是否有任何担忧。
(医生3)

一位临床医生表达了预测模型公平的重要性:

[对机器学习]的一个警告是,如果它使用,你不知道它使用了什么数据,我对探索机器是否是系统性种族主义者或阶级主义者或其他什么的研究很感兴趣……因此,进行某种研究以确保对所有人群都是公平的是很重要的。
(医生6)

在已知的背景下的主要发现

我们使用人机信任框架的定性描述性调查[17对护士和处方提供者对预测性cdss的信任(和不信任)进行了广泛而深入的描述。我们证实,感知的可理解性和感知的技术能力影响临床医生对预测性cdss的信任,并确定了其他因素:证据、感知的可操作性和公平性。此外,我们还发现了可理解性与信任之间关系的特定职业因素。

虽然我们关注的是基于认知的信任,但我们的研究结果对重新定义人机信任框架具有重要意义。在每次访谈中,临床医生都被问及什么会增加或减少他们对CONCERN的信任。总体而言,框架中的3个概念(感知可靠性、信念和个人依恋)没有被参与者识别出来。然而,这些概念可能更依赖于持续的系统使用,而不是所有的参与者都有。其他研究将信任定义为受个人信任倾向的影响[11]。虽然这一概念在我们的研究中也没有明确出现,但有可能是那些在学习CONCERN时自我激励的临床医生间接地表现出了信任的倾向。

关于基于机器学习的cdss的准确性和可理解性之间的重要性和可感知的权衡,已经写了很多文章[30.31]。我们的调查发现,两者都很重要,并为临床医生在预测cdss的情况下对两者的期望提供了背景。由于在COVID-19大流行期间实施了CONCERN,现场教育的机会有限,对临床工作人员的需求增加了。这可能导致临床医生对CONCERN及其仪表板上的全球和本地解释理解不足。事实上,当一些临床医生被问及如何确定CONCERN工具是准确的时,他们的回答是表达了一种更彻底地理解它的愿望——表明理解性高于准确性,正如其他人所发现的那样[2]。这种偏好可能与基于机器学习的诊断cdss不同,正如Diprose等人所假设的那样[6]。

然而,传递一个准确的和可取的解释机器学习逻辑仍然是一个挑战。当描述他们对局部解释的渴望时,许多临床医生表示倾向于基于规则的因果逻辑。他们想知道一个特征或价值,使病人的预测是黄色或红色的。在许多预测性cdss的情况下,这样的简化是不可能的,对因果关系的解释也不准确。当我们的团队在CONCERN设计上迭代时,我们将寻找解释设计框架,如Barda等人所概述的[32来优化解释对可理解性的影响。然而,旨在增加临床医生在机器学习方面接受教育的长期战略也可能是需要的,因为其他人也从他们的调查中报告了[73334]。

我们发现,一些影响临床医生对系统准确性(即感知技术能力)的认知的因素与以前的研究结果不同。Tonekaboni等[2]报告说临床医生希望看到与CDSS预测一起呈现的确定性评分;然而,在我们的访谈中,没有临床医生要求这种或任何类型的准确性指标。当被提示时,他们说一个准确的度量标准将是有帮助的,但差异可能归因于上下文。Tonekaboni等[2]采访临床医生,他们指的是模拟的而不是实施的预测性cdss。我们发现,临床医生主要根据他们自己对患者恶化风险的印象来判断CONCERN的准确性,这可能是临床医生在真正的临床护理中所做的。事实上,临床医生在Tonekaboni等人的研究中提出了这一建议。2]。

重要的是,这项研究中归纳出来的许多类别与其他人的发现是一致的。例如,Sandhu等人[7报告称,“即使医生不相信模型输出,他们仍然会更密切地关注患者的临床进展”,这与我们的分类一致cdss提供了进一步调查的理由。所知(35]还发现证据对临床医生很重要,尤其是“轶事证据和对特定病例和患者结果的讨论”,与我们的类别一致微观证据。此外,许多人强调了在整个开发和实施过程中吸引临床最终用户的重要性[735-38]。然而,大多数预测性CDSS研究没有报告临床医生参与开发,这表明这是未来工作的一个领域[39]。

其他人则警告过度依赖不准确的基于机器学习的CDSS预测或分类[30.40]。事实上,雅各布斯等人[15发现临床医生相信了不正确的建议。同样,Cabitza等人[40]认为,使用EHR数据的基于机器学习的cdss的临床用户需要意识到数据“质量远远不是最佳的”,并警告临床医生不要失去对EHR中不存在的重要临床因素的认识。然而,我们研究中的临床医生并没有表现出过度依赖CONCERN预测的倾向,并指出他们认识到预测性cdss的缺点。

在我们的研究中,只有护士想要了解如何“正确地”记录CONCERN评分,其中一些人表示他们将改变或已经改变他们的记录行为,以使CONCERN评分更准确(在他们的估计中)。这对模型性能和文档负担都有影响,因为CONCERN被有意设计为在不增加临床医生工作量的情况下工作。这也反映了一种范式的转变。护士习惯了基于规则的评分系统,如莫尔斯跌倒风险[41],他们输入明确的评估点,直接计算风险评分,而CONCERN使用机器学习对现有文件建模,而不征求临床医生的直接输入。由于诸如CONCERN之类的预测性cdss不涉及这种直接联系,护士可能需要与患者结果的直接联系,或者对信任预测进行更彻底和详细的本地解释。最后,只有医生使用类比来描述他们对CONCERN的理解。这可能反映了李[42人类倾向于将目标导向的智能系统拟人化,并且可能是本研究中医生所独有的,因为CONCERN利用护理而不是医生文件。

限制

这项研究有几个局限性。我们使用的人机信任框架[17可能会使临床医生对某些概念产生偏见。例如,我们促使临床医生在Madsen和Gregor感知技术能力的操作化指导下,将预测性cdss与专家临床医生进行比较[17]。如果没有这个提示,临床医生可能不会将他们的能力与预测cdss的能力进行比较。我们关于CONCERN(以及一般的预测cdss)的具体问题以及暴露于CONCERN的异质性限制了我们了解哪些发现是CONCERN独有的能力。未来对其他预测性cdss的研究应该控制系统暴露,以进一步表征临床医生信任的现象。与任何定性研究一样,我们的研究结果可能无法适用于其他环境和人群。例如,年长的临床医生的培训和实习可能不涉及ehr和cdss,他们的看法可能不同。我们也没有成功招募到任何在重症监护室工作的临床医生;因此,我们的研究结果可能不适用于在重症监护环境中使用预测性cdss的临床医生。通过视频进行远程访谈也有固有的局限性。我们阅读非语言的能力有限,6%(1/17)的参与者选择不打开他们的相机。 However, field notes were taken during the interviews, capturing tone of voice and nonverbal language. Finally, social desirability may have affected responses as the participants knew that the interviewer was with the CONCERN team, which may have led them to self-censor negative perceptions of CONCERN.

对研究、实践和政策的影响

这项调查的结果阐明了未来的研究领域。首先,探索不同版本的预测性cdss之间信任需求的差异是很重要的。例如,CONCERN不推荐离散操作,而其他系统则将预测与推荐操作配对。我们发现,临床医生对推荐行动的偏好不同,并影响信任。此外,临床医生对预测CDSS的依赖程度表明影响不一致预测的影响和解释所需的细节。这可能表明,对工作流程具有规定性或必要的预测性cdss将比那些具有信息性的cdss(如早期预警系统)需要更多的一致性或解释细节。

同样重要的是,评估对CONCERN全球和当地关于持续使用和加强教育的解释的接受情况。从这些发现中可以清楚地看出,临床医生倾向于基于规则的逻辑,这应该在可解释的人工智能研究中得到解释。未来的研究还应该调查使用CONCERN的护士是否真的改变了他们的记录,如果是这样,这些变化是否会导致记录负担的增加或预测模型性能的变化。最后,未来的工作应致力于研究临床医生的个人属性可能导致影响信任的因素的变化。

对于医院管理者来说,实施旨在增加信任和采用的预测性cdss的开发和实施政策可能是有利的。我们的研究结果表明,让临床医生参与模型开发,允许他们在实施后提供反馈,为预测性cdss设计以用户为中心的解释,并对临床医生进行机器学习教育可能是增加信任的有效政策。

结论

临床医生对预测性cdss的信任对于增加数据驱动的患者护理的采用至关重要。我们对临床医生对院内病情恶化的预测性CDSSs的信任现象的调查,产生了影响临床医生信任的因素所需的知识。我们发现,护士和处方提供者之间的信任感基本相同。未来的工作应该调查感知可操作性和信任之间的关系,研究提高可理解性的解释,并探索旨在促进信任的政策。

致谢

这项工作得到了国家护理研究所资助5T32NR007969和5R01NR016941-05。作者对参与他们访谈的临床医生表示感谢,并感谢他们慷慨地分享他们的时间和见解。作者也要感谢Min Jeoung Kang博士、Graham Lowenthal、Sandy Cho和Michelle Nghiem在招聘方面的帮助和对本项目的全面支持。在进行这项工作时,JMS隶属于哥伦比亚大学护理学院,目前隶属于哥伦比亚大学生物医学信息系。EL在进行这项工作时隶属于哥伦比亚大学生物医学信息系,目前隶属于威尔康奈尔医学院。

作者的贡献

JMS、KDC、SCR和PCD是研究目标的概念。JMS收集数据。JMS、SRM、EL和MG进行数据分析。MG建议数据收集和分析。JMS根据MG、SCR、PCD、SRM、EL和KDC的反馈和修订编写了初稿。

利益冲突

没有宣布。

多媒体附件1

研究材料和扩展结果。

DOCX文件,32kb

  1. Middleton B, Sittig DF, Wright a .临床决策支持:25年回顾和25年愿景。Yearb Med Inform 2016 Aug 02;增刊1:S103-S116 [免费全文] [CrossRef] [Medline
  2. Tonekaboni S, Joshi S, McCradden M, Goldenberg A.临床医生想要什么:将可解释的机器学习用于临床最终用途。在:机器学习研究进展。2019年发表于:医疗保健机器学习;2019年8月8日至10日;密歇根州安阿伯市http://proceedings.mlr.press/v106/tonekaboni19a/tonekaboni19a.pdf
  3. 王东,杨强,林波。基于理论驱动的可解释人工智能设计。2019年CHI '19: CHI计算系统中人因会议论文集。2019年5月4日至9日;英国苏格兰格拉斯哥。[CrossRef
  4. Holzinger A, Biemann C, Pattichis C, Kell D.我们需要为医疗领域构建可解释的人工智能系统?arXiv 2017:1-28 [免费全文
  5. 欧洲议会和欧盟理事会。第三章数据主体的权利。欧洲联盟官方公报2016年4月27:39-47 [免费全文] [CrossRef
  6. Diprose WK, Buist N, Hua N, Thurier Q, Shand G, Robinson R.医生对假设机器学习风险计算器的理解,可解释性和信任。美国医学通报协会2020年4月01日;27(4):592-600 [免费全文] [CrossRef] [Medline
  7. 孙文杰,王志强,王志强,等。将机器学习系统集成到临床工作流程:定性研究。J Med Internet Res 2020年11月19日;22(11):e22421 [免费全文] [CrossRef] [Medline
  8. Beede E, Baylor E, Hersch F, Iurchenko A, Wilcox L, Ruamviboonsuk P,等。以人为本的深度学习系统的评估部署在诊所检测糖尿病视网膜病变。2020年CHI '20: CHI计算系统中人因会议论文集。2020年4月25日至30日;檀香山你好,美国。[CrossRef
  9. Strohm L, Hehakaya C, Ranschaert ER, Boon WP, Moors EH。人工智能(AI)在放射学中的应用:阻碍和促进因素。欧元Radiol 2020年10月26日;30(10):5525-5532 [免费全文] [CrossRef] [Medline
  10. Romero-Brufau S, Wyatt KD, Boyum P, Mickelson M, Moore M, coneta - rieke C.实施中的教训:基于人工智能的临床决策支持提供者经验的前后研究。国际医学杂志2020年5月;137:104072。[CrossRef] [Medline
  11. 范伟,刘杰,朱山,帕达罗斯PM。探讨医疗人员采用人工智能医疗诊断支持系统(AIMDSS)的影响因素。安操作Res 2020年11月;294:567-592。[CrossRef
  12. Muralitharan S, Nelson W, Di S, McGillion M, Devereaux PJ, Barr NG,等。基于机器学习的临床恶化预警系统:系统范围审查。J Med Internet Res 2021 Feb 04;23(2):e25187 [免费全文] [CrossRef] [Medline
  13. Ginestra JC, Giannini HM, Schweickert WD, Meadows L, Lynch MJ, Pavan K,等。临床医生感知基于机器学习的早期预警系统,旨在预测严重败血症和感染性休克。重症监护医学2019;47(11):1477-1484。[CrossRef
  14. Giannini HM, Ginestra JC, Chivers C, Draugelis M, Hanish A, Schweickert WD,等。预测严重败血症和感染性休克的机器学习算法:开发、实施和对临床实践的影响。重症监护医学2019年11月;47(11):1485-1492 [免费全文] [CrossRef] [Medline
  15. Jacobs M, Pradier MF, McCoy TH, Perlis RH, Doshi-Velez F, Gajos KZ。机器学习建议如何影响临床医生的治疗选择:抗抑郁药选择的例子。Transl Psychiatry 2021 Feb 04;11(1):108 [免费全文] [CrossRef] [Medline
  16. Zlotnik A, Alfaro MC, Pérez MC, Gallardo-Antolín A, Martínez JM。利用曼彻斯特分诊系统和行政签到变量构建住院患者入院预测决策支持系统。Comput Inform Nurs 2016 5月;34(5):224-230。[CrossRef] [Medline
  17. 马德森M,格雷戈S.测量人机信任。见:第11届澳大拉西亚信息系统会议论文集。2000年发表于:第11届澳大拉西亚信息系统会议论文集;2000;澳大利亚布里斯班Qld网址:http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.93.3874
  18. 定性描述怎么了?Res Nurs Health 2000 8月;23(4):334-340。[CrossRef] [Medline
  19. 李文杰,李文杰,李文杰。定性描述性研究的特征:系统综述。Res Nurs Health 2017 Feb;40(1):23-42 [免费全文] [CrossRef] [Medline
  20. 谢秀华,夏珊。定性内容分析的三种方法。合格卫生决议2005年11月;15(9):1277-1288。[CrossRef] [Medline
  21. 康明杰,戴克斯,高志强,周琳,高志强,Thate J,等。使用标准护理术语确定护士对病人病情恶化的关注概念。Int J Med Inform 2020年1月;133:104016 [免费全文] [CrossRef] [Medline
  22. Rossetti SC, knanplund C, Albers D, Dykes PC, Kang MJ, Korach TZ,等。医疗保健过程建模表型临床医生的行为,以利用临床专业知识的信号增益(hpm专家信号):一个概念框架的开发和评估。J Am Med Inform association 2021年6月12日;28(6):1242-1251 [免费全文] [CrossRef] [Medline
  23. Collins SA, Vawdrey DK。流程图数据的“字里行间阅读”:与心脏骤停结果相关的护士可选文件。应用Nurs Res 2012 11月;25(4):251-257 [免费全文] [CrossRef] [Medline
  24. Collins SA, Cato K, Albers D, Scott K, Stetson PD, Bakken S,等。护理文件与患者死亡率的关系。Am J Crit Care 2013 7月;22(4):306-313 [免费全文] [CrossRef] [Medline
  25. 莫尔斯JM。饱和度的意义。合格卫生决议1995年5月1日;5(2):147-149。[CrossRef
  26. 麦奎因KM, McLellan E, Kay K, Milstein B.基于团队定性分析的代码本开发。CAM j 1998;10(2):31-36。[CrossRef
  27. 护理定性研究:推进人本主义势在必行。美国宾夕法尼亚州费城:Wolters Kluwer Health/Lippincott Williams & Wilkins;2011:20-23。
  28. Guba如。评估自然主义调查可信度的标准。教育科学学报1981年6月;29(2):75-91。[CrossRef
  29. 定性研究中的同行汇报:新兴的操作模式。质量调查1998年6月1日;4(2):280-292。[CrossRef
  30. Caruana R, Lou Y, Gehrke J, Koch P, Sturm M, Elhadad N.可理解的医疗保健模型:预测肺炎风险和住院30天再入院。在:第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集。2015年发表于:KDD '15:第21届ACM SIGKDD知识发现和数据挖掘国际会议;2015年8月10日至13日;澳大利亚新南威尔士的悉尼。[CrossRef
  31. 停止为高风险决策解释黑盒机器学习模型,而是使用可解释的模型。2019年5月13日;1(5):206-215。[CrossRef
  32. Barda AJ, Horvat CM, Hochheiser H.医疗保健中机器学习模型预测以用户为中心的解释展示设计的定性研究框架。BMC Med Inform Decis Mak 2020年10月08日;20:257 [免费全文] [CrossRef] [Medline
  33. Sutton RA, Sharma P.克服在消化病学中实施人工智能的障碍。最佳实践Res临床胃肠醇2021年6月;52-53:101732。[CrossRef] [Medline
  34. 谢兹,罗斯柴尔德P,麦吉尼斯M, Hadoux X, Soyer HP, Janda M,等。对临床医生在眼科、皮肤科、放射学和放射肿瘤学中使用人工智能的调查。科学通报2021 Mar 04;11:5193 [免费全文] [CrossRef] [Medline
  35. 不确定性的利害关系:在临床护理中开发和整合机器学习。民族志实践行业会议2019年1月24日;2018(1):364-380。[CrossRef
  36. Payrovnaziri SN,陈忠,Rengifo-Moreno P, Miller T,卞杰,陈建华,等。使用真实世界电子健康记录数据的可解释人工智能模型:系统范围审查。美国医学通报协会2020年7月01日;27(7):1173-1185 [免费全文] [CrossRef] [Medline
  37. Verghese A, Shah NH, Harrington RA。这台计算机需要的是一位医生:人文主义和人工智能。中国医学杂志2018年1月2日;319(1):19-20。[CrossRef] [Medline
  38. 刘维欣,王志强,王志强,等。无害:负责任的机器学习在医疗保健领域的路线图国际医学杂志2019年9月25日(9):1337-1340。[CrossRef] [Medline
  39. 施瓦茨JM,莫伊AJ,罗塞蒂SC,埃尔哈达德N,卡托KD。临床医生参与医院环境中基于机器学习的预测性临床决策支持的研究:范围审查。J Am Med Inform association 2021年3月01日;28(3):653-663 [免费全文] [CrossRef] [Medline
  40. Cabitza F, Rasoini R, Gensini GF。机器学习在医学领域的意外后果。JAMA 2017 Aug 08;318(6):517-518。[CrossRef] [Medline
  41. 莫尔斯JM,莫尔斯RM, Tylko SJ。开发一种量表来识别容易跌倒的病人。中国老年医学杂志,2002;8(4):366-377。[CrossRef
  42. 对NHS人工智能驱动技术行为准则中信任概念化的哲学评价。《医学伦理学》2022年4月16日;48(4):272-277。[CrossRef] [Medline


信用违约互换:临床决策支持系统
担忧:交流注册护士填写的叙述问题
电子健康档案:电子健康记录
PA:医师助理
RN:注册护士


编辑:A Kushniruk;提交30.09.21;作者:Z Yin, J Xiao, J Bagby;对作者20.01.22的评论;修订版本收到02.03.22;接受21.03.22;发表12.05.22

版权

©Jessica M Schwartz, Maureen George, Sarah Collins Rossetti, Patricia C Dykes, Simon R Minshall, Eugene Lucas, Kenrick D Cato。最初发表于JMIR Human Factors (https://humanfactors.www.mybigtv.com), 12.05.2022。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Human Factors上的原创作品。必须包括完整的书目信息,https://humanfactors.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。


Baidu
map