这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
考虑到机器学习实施的成本,一个系统的方法来优先考虑将哪些模型实施到临床实践中可能是有价值的。
主要目标是确定在优先考虑机器学习模型实施时,2家儿科机构的受访者认为重要的医疗保健属性。次要目标是用定性方法说明他们对执行工作的看法。
在这项混合方法研究中,我们向2家儿科机构的卫生系统负责人、医生和数据科学家分发了一项调查。我们要求受访者根据实施有用性对以下5个属性进行排名:临床问题是常见的,临床问题导致了大量的发病率和死亡率,风险分层导致了可以合理改善患者结果、减少医生工作量和节省资金的不同行动。重要的是那些排在第一或第二重要的品质。对受访者的子样本进行了个别定性访谈。
613名合格受访者中,275人(44.9%)做出了回应。对17名受访者进行了定性访谈。最常见的重要属性是导致不同行为的风险分层(205/275,74.5%)和导致大量发病率或死亡率的临床问题(177/275,64.4%)。最不重要的因素是减少医生工作量和省钱。定性访谈始终优先考虑改善患者结果的实施。
受访者优先考虑了机器学习模型的实施,因为风险分层会导致不同的行动和导致大量发病率和死亡率的临床问题。改善患者预后的实施被优先考虑。这些结果有助于为机器学习模型的实现提供一个框架。
随着电子健康记录的广泛采用,机器学习在临床环境中越来越受欢迎[
影响效用的一个重要考虑因素是选择要实施机器学习模型的临床环境和问题[
考虑到这些成本,确定哪些机器学习模型应该优先用于临床实践的系统方法可能是有价值的。在确定优先事项时,重要的是让计划部署的机构的主要利益相关者参与进来。我们选择调查2个儿科中心,一个在美国,有一个更成熟的生物医学信息学项目,一个在加拿大,有一个不太成熟的生物医学信息学项目,以深入了解经验和专业知识是否影响机器学习模型优先级的偏好。因此,主要目标是确定2家儿科机构的受访者在优先考虑机器学习模型实施时的医疗保健属性。第二个目标是用定性方法描述他们对机器学习模型实现的观点。
这是一项混合方法研究,包括定量和定性成分。这些机构分别是加拿大安大略省多伦多市的病童医院(SickKids)和美国加利福尼亚州帕洛阿尔托市的露西尔·帕卡德儿童医院。
在调查分发时,我们包括SickKids和Lucile Packard儿童医院的卫生系统负责人、医生和数据科学家。我们排除了实习生。
该调查是由研究团队根据受访者可能认为重要的医疗保健属性的印象制定的;以机器学习为重点的问题表示为
然后,我们用李克特量表(Likert scale) 5分制询问他们对人工智能的了解程度,范围从1(完全不了解)到5(了解很多)。我们要求他们对如何构建和解释机器学习模型,以及如何进行和解释统计数据进行评估,使用5点李克特量表,范围从1(不理解)到5(完全理解)。我们询问他们是否有在其工作环境中实施人工智能计划的决策能力,以及在过去5年里他们的机构部署了多少机器学习模型。
下一部分要求受访者根据机器学习实施是否有用,对以下5个临床问题和实施后果属性进行排名:“要解决的临床问题是常见的”,“临床问题会导致大量的发病率或死亡率”,“风险分层将导致不同的临床行动,这些行动可以合理地改善患者的结果”,“实施该模型可以减少医生的工作量”,“实施该模型可以节省资金”。重要属性被定义为受访者认为最重要或第二重要的属性(排名为1或2)。然后,调查提出了两个开放式问题,重点是能够准确预测结果可能有用的临床领域,以及优先排序或重组等待名单可能有用的临床领域。最后,调查询问他们是否愿意参加定性访谈。
在定性方面,我们特意对受访者进行抽样,以最大限度地提高机构和对机器学习的自评理解的差异。半结构化访谈使用Zoom (Zoom Video Communications, Inc.)或Microsoft Teams进行,由SickKids团队(EP)的一名成员进行定性访谈。受访者被要求列出三种情况,其中机器学习模型的风险分层可能有用,然后说明哪一种情况是首先实施的最重要的,以及选择的理由。然后,他们被问及与目前的方法相比,使用机器学习模型进行风险分层的感觉如何,并描述他们对使用机器学习模型指导患者护理的担忧。采访被逐字记录下来。
来自SickKids和Lucile Packard儿童医院的定量调查数据使用Fisher精确检验进行比较。使用RStudio 3.6.1版本在R (R Core Team)中进行分析[
定性数据分析依据扎根理论方法论原则进行;数据收集和分析同时进行。定性成绩单由两名独立评审员(NA和EP)使用恒定比较法进行分析,以建立一个基于受访者个人经验和理解的机器学习观点的理论框架。采样继续进行,直到达到饱和,饱和被定义为数据中没有出现新的主题。
这项研究得到了SickKids研究伦理委员会的批准。露西尔·帕卡德儿童医院不需要机构审查委员会的批准,因为数据收集是由SickKids人员完成的。对于定量调查,完成调查被视为隐含同意参与研究。对于定性部分,受访者提供口头同意参与。
这项定量调查于2021年11月1日至2022年1月6日在SickKids分发,并于2022年3月15日至2022年4月12日在Lucile Packard儿童医院分发。613名合格受访者中,275人(44.9%)做出了回应。
CONSORT(试验报告综合标准)参与者识别、选择和参与的图表。
2个儿科机构参与者的人口学特征(N=275)。
特征 | 病童(n=195), n (%) | 露西尔帕卡德儿童医院(n=80), n (%) |
|
||||
男性的性别 | 93 (47.7) | 35 (43.8) | .64点 | ||||
|
|
|
|
||||
|
医生 | 165 (84.6) | 73 (91.3) | .20 | |||
|
卫生系统负责人 | 22日(11.3) | 17 (21.3) | 0。 | |||
|
数据科学家 | 15 (7.7) | 2 (2.5) | 只要 | |||
|
|
|
<措施 | ||||
|
血液学肿瘤 | 33 (16.9) | 14 (17.5) |
|
|||
|
一般内科 | 21日(10.8) | 7 (8.8) |
|
|||
|
重症监护医学 | 11 (5.6) | 12 (15.0) |
|
|||
|
急诊医学 | 14 (7.2) | 0 (0) |
|
|||
|
心脏病学 | 9 (4.6) | 7 (8.8) |
|
|||
|
神经学 | 11 (5.6) | 3 (3.8) |
|
|||
|
内分泌和代谢 | 10 (5.1) | 6 (7.5) |
|
|||
|
胃肠病学 | 9 (4.6) | 0 (0) |
|
|||
|
Respirology | 4 (2.1) | 4 (5.0) |
|
|||
|
传染性疾病 | 2 (1.0) | 5 (6.3) |
|
|||
|
手术 | 0 (0) | 6 (7.5) |
|
|||
|
青少年医学 | 6 (3.1) | 0 (0) |
|
|||
|
其他 | 20 (10.3) | 7 (8.8) |
|
|||
|
不知道 | 45 (23.1) | 9 (11.3) |
|
|||
|
|
|
.006 | ||||
|
<1 | 6 (3.1) | 0 (0) |
|
|||
|
1 - 4 | 38 (19.5) | 5 (6.3) |
|
|||
|
5 - 10 | 38 (19.5) | 25 (31.3) |
|
|||
|
11 + | 113 (57.9) | 50 (62.5) |
|
|||
执行人工智能计划的决策能力 | 99 (50.8) | 41 (51.3) | >。 | ||||
|
|
点 | |||||
|
没有一个 | 31 (15.9) | 11 (13.8) |
|
|||
|
1 | 7 (3.6) | 6 (7.5) |
|
|||
|
2 - 4 | 14 (7.2) | 9 (11.3) |
|
|||
|
5 - 10 | 2 (1.0) | 1 (1.3) |
|
|||
|
11 + | 4 (2.1) | 0 (0) |
|
|||
|
不知道 | 137 (70.3) | 53 (66.3) |
|
一个受访者可能会选择一个以上的选项,因此,数字不等于100%。
对人工智能知识的自评,对机器学习和统计学的理解。
区域 | 病童(n=195), n (%) | 露西尔帕卡德儿童医院(n=80), n (%) |
|
|
|
|
|
公布 | |
|
没有一个 | 10 (5.1) | 5 (6.3) |
|
|
很少 | 67 (34.4) | 30 (37.5) |
|
|
一些 | 83 (42.6) | 31 (38.8) |
|
|
温和的 | 30 (15.4) | 11 (13.8) |
|
|
很多 | 5 (2.6) | 3 (3.8) |
|
|
|
|
开市 | |
|
没有一个 | 44 (22.6) | 18 (22.5) |
|
|
很少 | 56 (28.7) | 28日(35.0) |
|
|
有些 | 64 (32.8) | 25 (31.3) |
|
|
温和的 | 24 (12.3) | 8 (10.0) |
|
|
完全 | 7 (3.6) | 1 (1.3) |
|
|
|
|
.19 | |
|
没有一个 | 4 (2.1) | 1 (1.3) |
|
|
很少 | 18 (9.2) | 7 (8.8) |
|
|
有些 | 67 (34.4) | 38 (47.5) |
|
|
温和的 | 78 (40.0) | 29 (36.3) |
|
|
完全 | 28日(14.4) | 5 (6.3) |
|
被列为重要一个受访者对机器学习的优先级。
被认为重要的属性 | 病童(n=195), n (%) | 露西尔帕卡德儿童医院(n=80), n (%) |
|
重要性评分中位数(IQR)b |
正在解决的临床问题是普遍的 | 66 (33.8) | 35 (43.8) | 16 | 3 (2 - 3) |
临床问题导致大量的发病率或死亡率 | 133 (68.2) | 44 (55.0) | 0。 | 2 (2 - 3) |
风险分层将导致不同的临床行动,可以合理地改善患者的结果 | 145 (74.4) | 60 (75.0) | >。 | 1 (1 - 2) |
该模型的实施可以减少医生的工作量 | 29 (14.9) | 11 (13.8) | .96点 | 4 (3 - 4) |
实现这个模型可以节省资金 | 11 (5.6) | 2 (2.5) | 点 | 5 (4 - 5) |
一个重要定义为就机器学习模型是否有用而言,排名最重要或第二重要的属性(排名1或2)。
b在两个机构中。
从定性访谈看机器学习在儿科医学中的应用。
主题和子主题 | 例如报价 | ||||
机器学习实现的好处 | |||||
|
|
|
|||
|
|
复杂的场景 |
|
||
|
|
支持缺乏经验的临床医生 |
|
||
|
|
减少认知负荷 |
|
||
|
|
减少认知偏差 |
|
||
|
|
|
|||
|
|
规范护理 |
|
||
|
|
更有效的分类 |
|
||
|
|
促进精准医疗 |
|
||
|
|
|
|||
|
|
为医生腾出时间 |
|
||
|
|||||
|
|
|
|||
|
|
算法的偏见 |
|
||
|
|
缺乏透明度和信任 |
|
||
|
|
没有将临床专业知识纳入决策 |
|
||
|
|
||||
|
|
结果评估的需要 |
|
||
|
|
数据质量 |
|
||
|
|
|
|||
|
|
工作流实现的挑战 |
|
||
|
|
问责制 |
|
||
|
|
|
|||
|
|
医生角色的不确定性 |
|
在这项混合方法研究中,我们发现最常被列为机器学习模型实现的重要属性是风险分层,导致可以合理改善患者结果的不同行动,以及导致大量发病率或死亡率的临床问题。很少有受访者认为减少医生工作量和省钱很重要。我们还发现,尽管两家机构的生物医学信息项目建立水平不同,医疗保健体系不同,但重要属性相似。
机器学习模型实施的广泛推荐领域突出表明,考虑到开发、部署和监控机器学习模型的能力可能有限,即使在拥有成熟生物信息学项目的大型机构,也需要优先排序。这项研究很重要,因为它提供了一个框架,通过这个框架,机构领导人可以决定优先实施哪些机器学习模型。虽然我们发现改善患者结果的风险分层是最常见的重要属性,但其他考虑因素包括高风险和低风险标签所产生的行动,差异行动将改善结果的证据,以及确定风险分类的理想阈值。即使部署了模型,对模型性能的持续监测以及模型部署对患者护理和临床工作流程的影响也是实施后的额外考虑因素。
当我们评估不同受访者类型的属性重要性时,wear和Berg [
我们还发现,在这两个机构中,受访者对他们对统计学的理解有更大的信心,而对他们对机器学习的理解有相对较低的信心。尽管这两所机构的生物医学信息学项目的建立水平不同,但这些观点在两所机构之间没有差异。我们的研究结果表明,在儿科医学领域,在培训和继续教育期间需要更多专注于机器学习的教育。
我们的结果补充了其他人的工作,他们强调了临床决策支持的要求,包括那些基于机器学习的工作。需要考虑的重要事项包括:除了确保相关性、尊重和科学有效性之外,还需要避免黑箱、过多的时间要求和复杂性[
本研究的优势包括其混合方法设计和按国家纳入2个不同的儿科机构,并建立其生物医学信息计划。然而,我们的结果应该根据它们的局限性来解释。我们的回复率相对较低;受访者可能偏向于对机器学习感兴趣。因此,非受访者可能对机器学习的熟悉程度较低,并且可能对机器学习优先级的重要属性没有强烈的意见。医生的比例也高于系统领导者或数据科学家的比例;这些组可能有不同的优先级或实现关注点。
总之,受访者优先考虑了机器学习模型的实施,因为风险分层会导致不同的行动和导致大量发病率和死亡率的临床问题。改善患者预后的实施被优先考虑。这些结果可以帮助提供一个优先考虑机器学习模型实现的框架。
定量调查。
人工智能知识高与不高的参与者的比较(N=275)。
从定量调查中得出的儿科护理中机器学习应优先考虑的领域的建议示例。
LS得到了加拿大儿科肿瘤学研究主席的支持
没有宣布。