这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
人工智能(AI)在医学的各个领域都显示出了可喜的成果。它具有促进共享决策(SDM)的潜力。然而,目前还没有关于人工智能如何用于SDM的全面映射。
我们的目标是确定和评估已发表的测试或实施人工智能以促进SDM的研究。
我们根据Levac等人提出的方法学框架、对最初Arksey和O'Malley范围评估框架的修改以及Joanna Briggs Institute范围评估框架进行了范围评估。我们根据PRISMA-ScR(系统评价的首选报告项目和范围评价的元分析扩展)报告指南报告了我们的结果。在识别阶段,一名信息专家对6个电子数据库从成立到2021年5月进行了全面搜索。纳入标准为:所有人群;所有用于促进SDM的AI干预,如果AI干预没有用于SDM的决策点,则将其排除在外;与患者、卫生保健提供者或卫生保健系统有关的任何结果;在任何卫生保健环境下的研究,仅以英语发表的研究,以及所有研究类型。总体而言,2名审稿人独立完成了研究选择过程并提取了数据。任何分歧都由第三位审查员解决。进行描述性分析。
搜索过程产生了1445条记录。去除重复后,筛选出894篇文献,6篇同行评议的文献符合我们的纳入标准。总体而言,其中2个在北美,2个在欧洲,1个在澳大利亚,1个在亚洲。大部分文章发表于2017年之后。总的来说,3篇文章集中在初级保健,3篇文章集中在二级保健。所有的研究都使用了机器学习方法。此外,有3篇文章在AI干预的验证阶段包括医疗保健提供者,1篇文章在临床验证中包括医疗保健提供者和患者,但没有一篇文章在AI干预的设计和开发中包括医疗保健提供者或患者。所有这些都使用AI来支持SDM,提供临床建议或预测。
在SDM中使用人工智能的证据尚处于起步阶段。我们在所收录的文章中发现AI以类似的方式支持SDM。我们观察到缺乏对患者价值观和偏好的重视,以及对人工智能干预措施的不良报道,导致对不同方面缺乏清晰的认识。几乎没有努力解决人工智能干预措施的可解释性问题,也没有让最终用户参与干预措施的设计和开发。需要进一步努力加强和规范人工智能在SDM不同步骤中的使用,并评估其对各种决策、人群和环境的影响。
共享决策(SDM)是指患者和卫生保健提供者根据最新的医疗证据以及患者的偏好和价值观合作做出决策的过程[
Elwyn等人[
人工智能,定义为“计算智能”或“制造智能机器的科学和工程”[
在过去的20年里,人工智能已被应用于各个领域,例如电信[
人工智能有潜力通过告知决策并允许医疗保健提供者集中精力花更多时间与患者在一起来促进SDM [
范围审查的目的是审查关于在SDM中使用人工智能的证据,即探索已经做了什么,以及在SDM中使用人工智能可能存在哪些未来角色。
我们的具体研究问题如下:(1)在SDM中使用AI干预的现有知识是什么?(2)如何将AI用于SDM的决策点?
Levac等人提出的范围审查方法框架[
属性定义了搜索的资格标准
包括提供卫生保健的任何人群(如全科医生、护士、社会工作者、药剂师和公共卫生从业人员)和接受保健的任何个人(如患者及其家属和护理人员)。
在临床背景下的SDM过程中实施或测试的任何AI干预都包括在研究中。AI的定义是根据McCarthy提供的定义[
没有限制。
任何与患者、卫生保健提供者或卫生保健系统相关的结果都包括在本研究中。
在任何卫生保健环境下(如初级保健和二级保健)进行的研究;所有研究均采用定性、定量和混合方法设计;而且只包括用英语发表的研究。评论、观点文章、社论、评论、新闻文章、信件和会议摘要被排除在外。
由一位经验丰富的信息专家与研究团队协商,设计并进行了全面的文献检索。种子文章由团队中的专家确定,最终的搜索策略由主要作者审查。文献检索的过程是迭代的。从成立到2021年5月,我们搜索了以下六个电子数据库:MEDLINE (Ovid)、EMBASE (Ovid)、Web of Science Core Collection、CINAHL、Cochrane Library (CENTRAL)和IEEE Xplore数字图书馆。手动检索纳入研究的参考文献列表。检索到的记录使用EndNote X9.2 (Clarivate)进行管理,并导入到DistillerSR评审软件(Evidence Partners)中,以促进选择过程。每个数据库的最终搜索策略和关键术语可根据要求提供。
我们删除了重复的内容,然后使用标准化的纳入标准网格应用第1级(标题和摘要)和第2级(全文)筛选的纳入标准。对55项研究(占总引用458次的12%)进行了1级筛选的先导试验。熟悉相关文献后,我们修改了先验资格标准,以在必要时调整我们的研究选择。随后,2位审稿人(PG、MC和YH)独立对标题和摘要进行了筛选。记录排除原因,进行全文选择。任何关于纳入研究的分歧由第三审稿人(SAR)解决。
根据团队成员的反馈,起草并最终确定了数据提取表单。数据提取的要素包括研究特征(例如,发表年份、通讯作者的国家和研究环境)、人工智能干预措施的特征(例如,干预措施的目的、使用的方法/技术、数据源和表现)、最终用户参与干预措施的开发(例如,医疗保健提供者和患者)、人工智能干预措施的各个方面(例如,人工智能的可解释性和干预措施的可重复性),人工智能是否被实施或测试,人工智能干预如何用于SDM的决策,以及结果(例如,与患者、卫生保健提供者和卫生保健系统相关)。共有2名审稿人(YH、PG和MC)独立地从每项纳入的研究中提取相关数据。所有数据均由第三审稿人(SAR)验证。
为了与所提议的范围审查的方法学指导框架保持一致,我们没有进行质量评估。范围评审中的批判性评估不被认为是强制性的[
我们使用描述性统计数据总结了我们的发现,并进行了叙述综合,描述了人工智能干预的特征,最终用户是否参与了开发和/或其验证,人工智能干预如何支持SDM的决策点,以及如果在临床环境中实施,结果是什么。我们通过Popay等人发表的工作和工具包来了解我们的合成[
结果将提供给团队成员以获得他们的反馈。在由第一作者(SAR)在2个国际科学会议(即第十届国际共享决策会议和北美初级保健研究小组年会)上领导的2个研讨会上,还向研究人员和医疗保健提供者提供了研究进展。
检索过程从选定的电子数据库中找到了1445条记录,其中551条记录作为重复项被排除在外。在剩余的894项研究中,我们排除了677项1级筛查,因为它们不符合纳入标准,其余217项进行了全文回顾。人工检索引文(n=227),其中检索3篇研究并评估其合格性。在参考文献检索中未发现符合条件的研究。最终,有6篇文章符合我们的纳入标准(
PRISMA(系统评价和元分析首选报告项目)流程图。改编自Page et al [
自2017年以来,每年发表的研究数量有所增加,其中大部分在北美和欧洲进行。纳入研究的分布和发表日期见
所收录论文的发表年份和研究的国家。
在
人工智能(AI)干预的特征
研究 | 人工智能方法 | 数据集及其特征 | 性能 |
弗里泽等[ |
机器学习,人工神经网络,以及基于案例的推理 |
没有提供 |
没有提供 |
王等[ |
机器学习、多标签分类方法、k-近邻和随机k-标签集 |
电子健康记录 2542名患者 65.6%男性,34.4%女性 平均年龄66.46岁(SD 13.81岁) 其中70%用于培训,30%用于测试 |
性能精度0.76 |
Twiggs等[ |
机器学习,贝叶斯信念网络,贝叶斯网络 |
数据来自美国国立卫生研究院骨关节炎研究 330例患者,年龄在45岁至79岁之间,接受了全膝关节置换术 |
没有提供 |
贾古玛等[ |
机器学习(未指定类型) |
没有提供 |
没有提供 |
Kökciyan等一个[ |
元数据层论证框架 |
没有提供 |
没有提供 |
一个这指的是描述Kökciyan等人开发的系统的两篇文章[
在收录的文章中,所有的文章都使用了机器学习作为人工智能的类型。只有2篇文章介绍了用于开发人工智能干预的数据集的信息[
大多数纳入的文章(n=4)没有报告用于开发人工智能干预的数据集;在这些研究中(n=2),只有1个报告了患者数据的性别分布[
可解释人工智能是一个广泛的新领域,正在人工智能领域进行研究。一般来说,我们可以在整个AI开发过程中考虑可解释性:(1)
在医疗保健领域,患者和医疗保健提供者需要可解释性和可解释性,以理解为什么人工智能干预会产生某种预测或建议,并信任这种输出[
弗里泽等[
王等[
Twiggs等[
贾古玛等[
Kökciyan等[
就最终用户(即患者和医疗保健提供者)参与人工智能系统的设计、开发和/或验证而言,我们发现其中3篇文章[
其中一篇文章[
总共有4篇纳入的文章测试了其干预措施的可用性和可接受性[
所有包含的文章都提供了与他们用于训练或测试算法的数据集的总体相关的某种程度的详细信息。只有一篇文章通过报告所涉参与者的社会人口学特征,全面介绍了人口情况[
弗里泽等[
Kökciyan等[
王等[
贾古玛等[
Twiggs等[
在收录的文章中,有3篇为初级保健设计了人工智能干预措施[
总结人工智能干预措施,以及它们如何在所包括的研究中用于决策。
研究 | 设置 | 决策问题 | 人工智能一个的决策 |
王等[ |
初级护理 | 抗高血糖药物的知识和选择 | 该工具通过整合电子健康记录数据,为患者和医疗保健提供者提供有关抗高血糖药物的定制知识和选择。患者和医生可以更全面地检查患者的病情,并根据患者当前的病情量身定制咨询。 |
弗里泽等[ |
二级护理 | 新生儿重症监护决策 | 该工具使卫生保健提供者能够预测新生儿重症监护的结果,并就决定开始或停止治疗的利弊向家庭提供咨询。该工具还促进父母参与决策过程。 |
Twiggs等[ |
二级护理 | 关于全膝关节置换术的决定 | 人工智能干预为最终用户(患者和外科医生)提供了与全膝关节置换术后无改善风险相关的可解释信息。这有助于他们决定是否进行全膝关节置换术。 |
贾古玛等[ |
二级护理 | 关于全膝关节置换术的决定 | 人工智能系统为患者提供个性化的结果报告,然后在决策讨论期间与外科医生进行讨论。 |
Kökciyan等[ |
初级护理 | 决定中风幸存者的治疗方案和选择 | 该工具通过提供基于个性化指标的患者情况的最新视图来支持决策点,并为其建议提供解释。 |
一个AI:人工智能。
b这指的是描述Kökciyan等人开发的系统的两篇文章[
Wang等人的人工智能干预[
Frize等人的人工智能干预[
Twiggs等人提出的工具[
Jayakumar等人的干预[
Kökciyan等人的CONSULT系统[
我们进行了范围审查,作为全面概述在SDM中使用AI的文献的第一步。这个概述为将来的系统回顾提供了基础。我们的研究结果使我们做出以下观察。
所收录的文章以类似的方式介绍了在SDM期间用于决策的人工智能干预。在纳入的文章中,人工智能干预被专门用于预测具有临床意义的结果和临床建议。决策步骤可以受益于人工智能干预,因为人工智能可以提供全面和个性化的治疗方案清单,以及风险和收益,从而增加与病情、治疗、副作用、风险和结果相关的知识。人工智能模型能够学习和处理与患者护理相关的所有信息,并可以生成基于证据的建议,以支持SDM [
决策步骤是SDM的核心步骤,其中患者-医疗保健提供者的交互是必不可少的,应该独立于人工智能干预,不受人工智能干预的限制。患者-医疗保健提供者关系是基于为关系发展提供基础的责任。尽管承认人工智能在促进SDM方面可能有好处,但患者仍然希望他们的医疗保健提供者对治疗计划保留最终裁量权,并监督他们的护理,以及根据他们的独特情况调整人工智能干预的任何贡献[
人工智能干预措施可以为卫生保健提供者腾出更多时间与患者建立联系;然而,他们可能会将医疗保健提供者置于一个类似调解人的角色,他们将负责向患者解释人工智能的输出。这可能很难实现,特别是在某些AI模型(如深度学习)中可能存在可解释性和可解释性不足的情况下。这种可解释性和可解释性的缺乏可能导致信任的缺乏,从而导致决策延迟或冲突,这是SDM旨在解决的因素[
将现代人工智能干预措施纳入医疗保健的主要挑战之一是可解释性和可解释性。这指的是人工智能干预为向观众阐明其功能所提供的洞察力;也就是说,
尽管人工智能的表现很有前景,但在临床实践中的实施仍然具有挑战性。对人工智能的信任是临床实践中采用人工智能的主要障碍之一[
在我们的回顾中,收录的文章中有2篇[
此外,不同的利益相关者对人工智能工具的可解释性和可解释性的理解水平可能有所不同。例如,在该领域受过训练的人工智能专家可以比非人工智能专家更好更快地理解和解释人工智能算法背后的推理。因此,医疗保健提供者和患者关于人工智能的教育可以更好地理解算法,从而更好地理解人工智能干预的可解释性。简而言之,终端用户对人工智能干预做出的预测/决策的理解,以及人工智能工具的可解释性和可解释性的增加,可以增加终端用户
在卫生保健和可持续发展管理中实施人工智能干预时,缺乏可信度是可能出现的许多生物伦理障碍之一;因此,提高患者和医疗保健提供者的人工智能素养,以及提高人工智能系统的可解释性和可解释性,可以增加信任。此外,在医疗保健环境中,为确保对算法提供的结果的正确理解和信任所需的可解释性水平,文献中存在差异[
在收录的文章中,有3篇[
AI和SDM社区都需要进一步努力,让医疗保健提供者和患者(作为开发的AI系统的最终用户)参与AI-SDM工具的设计、开发、验证和实施。SDM是以患者为中心的核心护理;因此,在定义过程的每一步都需要考虑患者的价值观和偏好。伦理学家认为,通过不使用患者的偏好或价值观作为输入或影响输出,而是将患者的偏好或价值观作为输入或影响输出
因此,为了确保在引入人工智能干预措施时从根本上实现SDM,必须将患者的偏好纳入设计。被称为
在我们的综述中,我们发现纳入的研究中人工智能干预的报告不佳。报告人工智能干预的研究应使用经过验证的框架和指南来报告其结果。支持SDM的人工智能干预措施的透明和完整报告对于检测错误和潜在偏差以及评估干预措施的有用性非常重要[
本综述中没有一篇文章提到遵守特定的报告框架或考虑可重复性。这导致所收录的文章在不同方面缺乏清晰度,包括训练数据集是否具有代表性,如何考虑潜在的偏差(如代表性和算法偏差)和缺失的数据,如何在临床环境中使用人工智能,以及人工智能实施的结果是什么。事实上,只有1篇文章[
我们没有对收录的文章进行质量评估,尽管这并不常见,也不需要在范围审查中包含。然而,我们的回顾揭示了这一重要领域,并且有一些需要改进的地方。我们的纳入标准非常严格,只纳入了在SDM中使用AI干预来支持决策点的文章。因此,我们可能错过了与SDM的其他方面相关的工作。在这一领域可能需要进一步的系统审查,以确保审查的结果能够应用于政策和实践。
在这篇范围综述中,我们展示了在SDM中测试和实施的人工智能系统的程度和种类,表明该领域正在扩大,并强调知识差距仍然存在,应该在未来的研究中优先考虑。我们的研究结果表明,使用人工智能来支持SDM的现有证据尚处于起步阶段。纳入研究的数量较少表明,在测试、实施和评估人工智能对SDM的影响方面进行的研究并不多。未来的研究需要加强和标准化人工智能干预在SDM不同步骤中的使用,并评估其对特定决策、人群和环境的影响。研究界需要更多地关注和努力解决可解释性、可解释性、可重复性和以人为本的人工智能方面的问题,特别是在开发自己的干预措施时。最后,未来的研究应进一步调查哪些SDM步骤将从何种类型的人工智能中受益最多,以及如何应用人工智能干预来加强患者-医疗保健提供者关系。
PRISMA-ScR(系统评价和元分析扩展范围评价的首选报告项目)检查表,其中包含每个报告标准的页码。
详细数据提取表。
人工智能
电子健康记录
系统评审的首选报告项目和范围评审的元分析扩展
共同决策
个体预后或诊断的多变量预测模型的透明报告
本研究由麦吉尔大学的启动基金资助(主要研究人员:SAR)。作者要感谢这种支持。SAR获得Québec-Santé研究基金会的工资支持,即研究学者初级职业发展奖,她的研究项目得到自然科学与工程研究委员会的支持(发现拨款2020-05246)。FL是加拿大共享决策和知识翻译一级研究主席。作者感谢Milad Ghanbari, Sara Makaremi和Stewart McLennan对这项工作的贡献。作者还感谢魁北克SPOR SUPPORT(支持以人为本的研究和试验)单位在方法学上的支持。
作者根据贡献者角色分类法报告了贡献。SAR和PP有助于概念化。SAR, RG, PP, HTVZ和GG对方法有贡献。SAR和MC对数据管理做出了贡献。SAR, YH, PG和MC对形式分析做出了贡献(参见致谢部分)。SAR在资金获取、项目管理和资源方面做出了贡献。SAR, YH和GG参与了调查。本文的初稿由SAR和MC共同撰写。SAR, YH, PG, MC, RG, GG, HTVZ, FL, PP, DP参与了文章的审阅和编辑工作。
没有宣布。