发表在第21卷,第11期(2019):11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/16272,首次出版
人工智能会将大数据转化为更好的医疗服务,还是成为令人困惑的入侵之源?一个(谨慎的)医师信息学学者与一个(乐观的)医学信息学学者的讨论

人工智能会将大数据转化为更好的医疗服务,还是成为令人困惑的入侵之源?一个(谨慎的)医师信息学学者与一个(乐观的)医学信息学学者的讨论

人工智能会将大数据转化为更好的医疗服务,还是成为令人困惑的入侵之源?一个(谨慎的)医师信息学学者与一个(乐观的)医学信息学学者的讨论

讨论文件

乔治华盛顿大学,美国华盛顿特区

通讯作者:

Qing Zeng-Treitler博士

乔治华盛顿大学

弗吉尼亚大街西北2600号

华盛顿特区,20037

美国

电话:1 (202)994 2987

传真:1 (202)994 2987

电子邮件:zengq@gwu.edu


人工智能(AI)是一种计算机化的完成任务的能力,直到最近才被认为是人类智能的专属领域,但在过去十年中取得了巨大的进步。玩游戏、驾驶汽车和对口语做出反应的能力是显著的成功。医学的挑战和机遇与这些挑战有何不同?我们如何才能最好地将这些数据驱动的技术应用于患者护理和结果?1980年发表在《新英格兰医学杂志》(New England Journal of Medicine)上的一篇论文指出,更明确定义的“专业化”医疗任务更适合计算机辅助,而定义问题和缩小问题空间所需的方法的广度就不那么需要了,也许是无法实现的。另一方面,有人可能会说,使用数据驱动方法的现代版本的人工智能将在解决临床医生和患者通常难以完成的结果预测等任务方面最有用。如今,收集单个人的大量数据(例如,通过可穿戴设备)的能力,以及关于接受医疗护理的多个人的大型数据集的积累,有可能应用于个人护理。随着这些分析、列举、聚合和表示技术在医学领域的应用,出现了它们在该领域的实用性和适用性的问题。早期在决策支持方面的努力被发现是有帮助的;随着系统的激增,后来的经验表明,警惕性疲劳和医生职业倦怠等困难变得更加普遍。数据驱动的预测会产生类似的结果吗? Will empowering patients by equipping them with information gained from data analysis help? Patients, providers, technology, and policymakers each have a role to play in the development and utilization of AI in medicine. Some of the challenges, opportunities, and tradeoffs implicit here are presented as a dialog between a clinician (SJN) and an informatician (QZT).

中国医学信息学报,2019;21(11):662 - 662

doi: 10.2196/16272

关键字


Nelson博士和Zeng-Treitler博士一起在乔治华盛顿大学生物医学信息中心工作。在接下来的文章中,我们提出了一个假想的对话,这是他们在考虑他们对人工智能(AI)如何发展及其走向的不同观点时进行的讨论。虽然曾-特雷特勒博士对人工智能未来的看法非常乐观,但纳尔逊博士的观点则更为谨慎。纳尔逊博士是一名执业学术内科医生,多年前开始从事信息学研究。他与Scott Blois合作了rethink(早期临床决策支持系统)和统一医学语言系统(UMLS)项目。他最终搬到了国家医学图书馆,担任医学学科标题的负责人。在国家医学图书馆工作期间,他创立了RxNorm,同时继续他在UMLS和涉及UMLS的项目上的工作。Zeng-Treitler博士拥有计算机科学背景,并在哥伦比亚大学获得医学信息学博士学位。她领导了临床数据挖掘、自然语言处理和消费者健康信息学方面的许多项目。在过去的几年里,她的团队一直在积极研究人工智能技术在临床研究中的应用,包括开发一种新的可解释的深度学习方法。

曾特勒博士(“乐观主义者”):

在经历了几十年的承诺和失望之后,由于看似无限的计算资源和新颖的数据驱动方法,人工智能技术终于到来了。从《危险边缘》(Jeopardy)和Siri,到人脸识别和自动驾驶汽车,数据驱动的方法已经实现了从实验室实验到应用的飞跃,这些应用正在改变我们在医疗保健之外的生活。在某些情况下,这些方法已经接近于通过图灵测试——一种测试机器表现出类似人类智能的能力的测试;机器现在可以完成一些复杂的任务,比如图像识别和真正的游戏,甚至比人类做得更好。有些人会说,必要的方法绝对不是人类的。然而,无论实现这些创新的手段是什么,在取得这些成功之后,保健方面并没有取得类似的成功。

这种成就差异的一个戏剧性例子是AlphaZero,它是一款电脑游戏引擎,可以精通国际象棋、Shogi和围棋。甚至在当前这一代数据驱动的人工制品出现之前,国际象棋引擎就已经被证明能够比国际象棋冠军的水平更高。然而,围棋(一种被认为比国际象棋复杂得多的棋盘游戏)的棋手认为,在这场比赛中,计算机无法与高水平的专业人士匹敌。这种信念首先被AlphaGo打破,它彻底击败了围棋世界冠军。然后是AlphaZero。新闻不再是这样的方法可以击败围棋、国际象棋或Shogi的冠军。相反,值得注意的事实是,AlphaZero没有从人类的经验中学习,它击败了Stockfish等之前最好的国际象棋引擎。AlphaZero与自己对弈的次数超过了所有人类棋手的对弈次数。这是我们在医疗保健领域无法轻易复制的方法。

纳尔逊博士(“谨慎”的那位):

赢得一场有明确规则和目标的游戏,真的是对人类智力的最好考验吗?事后看来,答案是“不”。例如,复杂的国际象棋程序已经存在了近50年;从这样的程序中,我们学会了如何组织计算资源,以可扩展的方式应用简单的算法。换句话说,我们没有学到任何关于国际象棋的知识,也没有学到人类,甚至是专家是如何下棋的。相反,我们了解到,一个被认为需要智力的任务很容易受到计算方法的影响。我们需要问,这种方法在哪里以及如何适用于卫生保健。

例如,当执行通常被认为是人类和创造性的任务时,机器是否能够识别出它的深度?有时候,人类有能力做到这一点。然而,如果我们能足够精确地定义这个领域,我同意机器可以创造奇迹。那么,我们如何定义领域呢?

在Blois关于临床判断和计算机的开创性论文中[1,他描述了医生在看病人时的思维过程,如图所示图1。对医生来说,A点是病人第一次走进诊室的地方。投诉的性质,投诉发生的背景,以及所有无数的可能性都存在。随着问题定义向B点移动,计算机能够更好地管理高质量护理所需的信息和知识。定义领域的一种方式是,我们正在向b点移动。一些计算机科学家认为,A点只是关于管理事实,但是,正如布洛伊斯观察到的,它更多的是关于相关性——一些已被证明难以在计算上复制的东西。

图1所示。诊断时需要的认知广度。
查看此图

Zeng-Treitler博士:

为AI应用程序定义领域确实很重要。医疗保健领域的许多任务比游戏玩法复杂得多,我们还没有看到类似方法在生物医学领域取得的成功,就像在游戏玩法中取得的成功一样。相当多的研究将最新的深度学习技术(一种关键的人工智能方法)应用于生物医学数据集[2-4].具体应用包括图像处理、自然语言处理和风险预测。与传统的统计和机器学习方法相比,深度学习往往表现出适度的改进,而不是突破[5-7].

Nelson博士:

无论这些方法的细节如何,它们将几乎无限的计算资源应用于非常大量的数据,这在医疗保健领域尚未发生。因此,这些方法可能被证明是有用的,但我们还不确定。

例如,一位同事提出的一个简单的问题超出了我们目前的能力范围:假设一个病人一开始就有代谢综合征的特征,他或她接下来会表现出这种综合征的哪一种特征?简单地说,这正是数据驱动的方法应该帮助解决的那种挑战,然而,由于过去收集的数据不足,它目前“在地平线上”。

Zeng-Treitler博士:

在将数据驱动的方法应用于患者护理时,数据是一个关键挑战。首先,生物医学数据非常复杂。有许多不同类型的数据,包括图像、文本、数值、分类分类和DNA序列,代表成千上万的实验室测试、程序、诊断、药物、遗传标记等。每种数据类型也有自己的特征;例如,实验室测试值可能需要根据年龄、性别和当前状况进行解释。然而,不同疾病的诊断代码具有不同程度的准确性。

在生物医学数据分析中,同时也存在数据过多和数据不足的悖论。一方面,有大量的医疗记录、社交媒体和文献数据。像百万退伍军人计划这样的努力8也收集了大量的DNA数据。使用设备进行活动跟踪和连续血糖监测等任务产生的数据比我们目前的医疗记录系统所能消化的还要多。另一方面,病人的健康记录是一个开放的系统,有很多缺失的信息,而国际象棋或围棋游戏的封闭系统,所有的数据都是可用的。患者不定期观察(例如,在门诊就诊或住院期间),从不接受所有可能的检查或治疗。有时候,死亡是唯一确定的结果。

Nelson博士:

我同意数据类型是多种复杂的。简单的解决方案是不够的,而且记录中不相关数据的激增,更不用说当前的剪切-粘贴或填写模板的流行,模糊了重要的内容。

医疗数据的主要困难之一不仅在于数据不够,而且还在于它的理论含量很高,也就是说,很少有数据是常规记录的。观察中的许多数据只有在临床医生认为适当的时候才会被收集,也就是说,在检测疾病是否存在的时候。如果没有需要进行测试的原因,则不执行测试。只有少数测试是常规进行的;一组记录下来的物理观察(如在体检中所做的)很少有足够详细的记录(更不用说经常发生的观察失败),无法为更全面的分析提供足够的数据。仅仅因为这个原因,基于记录观察的研究往往是不完整的,而且可能具有误导性。然而,对于预测来说,没有做的观察可能是关键的。想想上面提到的代谢综合征患者。我们遗漏了什么数据?

同样,临床试验的结果也不是一个完整的图景。尽管参与者已经被选定,但由于条件复杂,通常会排除许多人,收集的参与者数据是为了测试某些假设而设计的,结果的定义很窄。一种常见的批评是,这种试验是如此人为,以至于它们无关紧要。

Zeng-Treitler博士:

缺乏整合和标准化的数据集是另一个问题。虽然我们可以找到许多大型数据集,但它们往往是不完整的,很难与其他信息联系起来。例如,当我们检查单个患者的记录时,环境暴露、饮食、身体活动和遗传特征都是常见的缺失信息。详细的临床试验数据集往往缺乏长期随访。隐私问题和金钱激励也是数据集成工作的障碍。

Nelson博士:

集成和标准化数据集的真正语义互操作性需要在术语和如何使用术语方面得到支持。目前,通常需要人工干预来解释一个系统所说的内容,以便在另一个系统中使用。这种情况很不幸;我们可以希望,随着时间的推移,必要的连接将会发生(想想美国是如何从每个电话都由接线员协助到今天发生的自动切换的)。只有当许多人看到需要并实现通用标准时,才会发生这种变化。

此外,在医疗保健数据的背景下,“大”的概念只是相对的。相反,想想谷歌进行的许多实验;如果他们愿意,可用于开发和测试模型的数据量比医疗保健中可用的数据量大几个数量级。

Zeng-Treitler博士:

在数据驱动的方法已经证明成功的领域,有些结果可以由人类专家或机器本身来判断。例如,说双语的人可以判断自然语言翻译是否有效,棋盘或电脑游戏的结果可以很容易地确定。这使得机器学习更容易模拟或注释数据。这样的任务在生物医学领域要困难得多;对人类疾病病因或治疗方法的调查涉及昂贵的长期研究。在某些情况下,伦理方面的考虑禁止了这些实验;例如,将潜在有害的基因突变引入健康的人类受试者是不可能的。我们缺乏许多治疗方法的长期结果数据。

Nelson博士:

我不确定是否会有这样一个没有完全任意定义的黄金标准。个体之间的差异也是一个主要障碍。尽管我们使用多个受试者进行研究以解释生物变异性,但我们的结果仅与给定个体的相关性大致相关。例如,至少可以说,确保临床试验中的基因多样性是具有挑战性的。即使是最简单的任务也可能是多因素的;例如,华法林代谢基因检测的信息含量可以通过患者午餐是否吃生菜来衡量。

为了进一步扩展这一观察结果,假设您有一辆不能正常工作的汽车。今天,你可以参考传感器和计算机读出的信息,它们会给你非常精确的信息,告诉你哪里出了问题。汽车具有特定的设计,具有可测量的特定参数。所有同一年的汽车品牌和型号在这些重要方面可以被认为是相似的。重要的是要认识到每个人(除了同卵双胞胎)在基因上都是独一无二的。在这方面,人与汽车或其他机械设备有很大的不同。为了使解决人类问题的原因变得更加复杂,每个人一生的经历都是独一无二的。尽管我们有很好的抽象或方法来识别具有某些共同特征的个体(是否存在疾病,对药物的反应或缺乏反应,相似的环境或其他考虑因素),但这些只是一个简短的符号。目前世界上有70亿人,这个问题似乎是无止境的。在数据分析中,我们常常认为诊断代码具有深刻的含义。 These are accepted without any recognition of the degree of uncertainty of the diagnosis. All our data may be helpful and useful, but we need to continue to view them with a large grain of salt. The fact that Google Translate works as well as it does gives us hope, but as complex as natural language translation is, it is simpler than some clinical tasks.

Zeng-Treitler博士:

尽管存在这些挑战,应用数据驱动的方法仍有可能改变医疗保健。今天的医疗保健是劳动密集型的,从日程安排和分类到诊断和治疗。许多目前由人类承担的任务可以通过智能软件解决方案来完成,并有足够的数据支持。例如,改进的语音识别和摘要技术可能有助于减少患者和临床医生花在文书工作上的时间。改进的决策支持工具应该能够帮助患者决定寻求护理的适当性。对短期和长期风险和收益的准确评估将为治疗选择和生活方式的改变提供信息。

Nelson博士:

提供另一个用例,有证据表明2型糖尿病可能是可逆的,但很难将这一知识应用于单个患者。考虑到我面前的病人,我应该做什么,或者推荐什么,带着什么样的期望?人口统计学、基因组学、合并症、心理、竞争风险和其他药物都发挥了作用。在一个特定的人身上,我如何调和所有的可能性?

Zeng-Treitler博士:

为了开发这些有用的人工智能工具,我们需要更好的数据、技术和政策。为了积累全面的、终生的数据,患者必须处于控制之中,并且应该鼓励他们分享他们的数据用于研究和护理。保险、制药和医疗机构随着时间的推移而变化。目前,个人成为收集自己数据的中心存在障碍。在数据输入、收集和存储方面存在障碍;例如,一些个性化的健康记录产品与一个机构捆绑在一起,而另一些则需要患者或护理人员进行大量的转录工作。然而,在没有患者同意和合作的情况下,收集和联系纵向环境、遗传、临床和行为数据既不可行,也不符合伦理。目前的情况是一个巨大的障碍,任何尝试使用数据驱动的方法,在医疗保健之外的工作。

包括PatienstLikeMe [9]和美国国立卫生研究院的“我们所有人”研究项目[10]是管理更大、更好的数据集的创新方法的例子。然而,大多数患者并没有做出这样的努力。患者天生就想改善自己的健康状况,但自然也会担心隐私问题,而且往往看不到参与长期研究的直接好处。需要适当的激励措施(例如,常规预防保健的折扣)加上安全和认证技术,以吸引大量不同的患者收集和分享他们的数据。如今,医疗保健行业拥有部分患者数据,但从客户那里购买数据的动机有限。随着数据价值的增加,患者作为合作伙伴的价值将越来越高。

Nelson博士:

我同意患者需要承担携带和分享自己信息的责任。然而,经验告诉我们,不是每个人都有能力或愿意这样做。它需要文化和政治气候的变化来鼓励这种发展。

当我们能够收集到的数据不是哲学家们所说的“充满理论”的直接数据时,我们也许能够改进我们对病人的诊断和护理的粗糙方法。我期待着那一天的到来。如果患者是这些数据的载体,将更容易获得和用于分析。

Zeng-Treitler博士:

我们还需要设计和实施专门用于处理非常庞大和“混乱”的临床数据的方法。例如,我们需要了解丢失数据和错误的背景,以便更好地了解地面真相。实验结果可能因为没有指示、实践偏好、替代评估方法或数据输入失败而被遗漏。想象一下,如果人类棋手或象棋引擎只能以不规则的时间间隔观察棋盘上的一些方格,并且观察结果会出现一些错误或扭曲,那么象棋游戏将会变得多么困难。

此外,我们对卫生保健中的“基本事实”没有可操作的定义;一个简单的建议是,基础真相的一个特征是它具有预测价值——临床医生和患者都将重视这一点。

Nelson博士:

谷歌已经证明,他们可以使用大量数据来预测其他领域缺失数据的可能值[11];然而,这是否能在医学上起作用还有待确定,但可能值得一试。无论我们是否可以使用大量数据来推断缺失值,探索如何处理缺失观察的问题是至关重要的,特别是当我们试图将数据驱动方法的结果应用于个体患者时。

另一种想法是,由于任何原因而丢失的数据本身就是一种观察;没有获得和记录数据的事实可能很重要。想想这个发现,测试的日期和时间比测试的结果更能预测结果[12].我们知道缺失的数据会有一些预测价值。

Zeng-Treitler博士:

另一方面,数据驱动模型的解释不仅对它们的采用至关重要,而且对它们的影响也至关重要[13].预测患者在未来几天或几年内会发生某些不良事件是可取的。有人可能会说,更重要的是要知道可以降低风险和提高结果的可改变因素。由于深度学习模型可以是高度非线性的,我们有机会发现新颖和复杂的模式。

Nelson博士:

我同意解释预测是至关重要的;这是一种将医疗保健与识别图像是狗还是猫区分开来的东西。不过,我想你的意思是预测病人的病情可能有一些不利的结果。生命中没有什么是确定的,除了它会结束。然而,我们可以说“看起来这种行为或发现可能会对你的未来产生影响”,并希望能够对这种预测表达某种程度的信心。

学习如何表达对预测的信心也很重要。有多少人真正了解今天发生的预测背后的统计数据?任何概率模型背后的潜在假设是什么?更有可能的是,随着更频繁地使用和熟悉为人工智能模型派生的度量方法的使用,将导致它们被接受。

Zeng-Treitler博士:

我同意。这些都是为了通过人工智能优化大数据的使用,以改善医疗保健而采取的步骤。

Nelson博士:

临别时的想法是,我们需要谨慎对待数据驱动的方法在护理过程中可能造成的干扰。虽然麦克唐纳[14[证明有了提醒,护理人员的表现会得到改善]14,后来的经历已经是太多的提醒之一,导致警觉性疲劳。当照顾者因为负担过重而选择忽略有用的信息时,我们完成了什么吗?

我希望系统的精心设计和对临床工作流程的考虑能够缓解过度侵入的问题。尽管“让人工智能来做”很诱人,但最近波音737 MAX的经验表明,这样做是有危险的。人工智能和飞行员都不是最佳的飞行策略。在医疗保健方面,让患者更广泛地参与到他们的护理中,与人工智能和提供者一起,可能最终是一种有效的方法。

利益冲突

没有宣布。

  1. 临床判断与计算机。中华医学杂志[J]; 1980; 31(4): 393 - 397。(CrossRef
  2. 米托荣,王峰,王生,姜鑫,杜德利季涛。医疗保健领域的深度学习:回顾、机遇和挑战。生物通报2018年11月27日;19(6):1236-1246 [j]免费全文] [CrossRef] [Medline
  3. Weng SF, Reps J, Kai J, Garibaldi JM, Qureshi N. .机器学习能提高心血管风险预测吗?科学通报,2017;12(4):e0174944。(CrossRef
  4. 李立平,李立平,李立平,李立平。深度患者:从电子健康记录预测患者未来的无监督表示。科学通报2016;17;6(1):26094 [j]免费全文] [CrossRef] [Medline
  5. 桂克:收银台。2019.销售惨淡后,IBM Watson Health削减“人工智能”药物研发https://www.theregister.co.uk/2019/04/18/ibm_watson_health[2019-10-23]访问
  6. Rajkomar A, Oren E, Chen K, Dai AM, Hajaj N, Hardt M,等。具有电子健康记录的可扩展和准确的深度学习。中华数字医学杂志2018年5月8日;1(1):18 [j]免费全文] [CrossRef] [Medline
  7. 李J,小君,赵Y,李H,金正日GB, Seo JB,等。医学成像中的深度学习:概述。中华放射医学杂志,2017;18(4):570。(CrossRef
  8. 美国退伍军人事务部。百万老兵计划(MVP)https://www.research.va.gov/mvp/[2019-10-23]访问
  9. Patientslikeme公司。URL:https://www.patientslikeme.com[2019-10-23]访问
  10. 我们所有人研究项目。URL:https://allofus.nih.gov[2019-10-23]访问
  11. Halevy A, Norvig P, Pereira F.数据的不合理有效性。IEEE intel system 2009;24(2):8-12。(CrossRef
  12. Agniel D, Kohane IS, Weber GM.电子健康记录数据中因医疗保健系统流程而产生的偏差:回顾性观察研究。英国医学杂志2018年4月30日:k1479。(CrossRef
  13. 贺青杰,杨建军,杨建军,杨建军。人工智能在医学研究中的应用。数据挖掘知识发现2019年04月02日:e1312。(CrossRef
  14. 麦当劳CJ。基于协议的计算机提醒、护理质量和人的不可完善性。中华医学杂志[J]; 2002(2):1 - 7。(CrossRef


人工智能:人工智能
uml:统一医学语言系统


G·艾森巴赫编辑;提交15.09.19;由A Holzinger同行评议;对作者的评论14.10.19;修订版本收到15.10.19;接受20.10.19;发表27.11.19

版权

©Qing Zeng-Treitler, Stuart J Nelson。原载于《医学互联网研究》(//www.mybigtv.com), 2019年11月27日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map