本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/24372,首次出版
学习分析应用于临床诊断推理使用基于自然语言处理的虚拟病人模拟器:案例研究

学习分析应用于临床诊断推理使用基于自然语言处理的虚拟病人模拟器:案例研究

学习分析应用于临床诊断推理使用基于自然语言处理的虚拟病人模拟器:案例研究

原始论文

1意大利米兰人道大学生物医学科学系

2IRCCS,人道研究医院,罗萨诺,米兰,意大利

3.IBM,主动智能中心,博洛尼亚,意大利

4米兰-比可卡大学医学和外科,米兰,意大利

5IBM研究所,苏黎世,瑞士

*这些作者贡献相同

通讯作者:

Raffaello Furlan医学博士

生物医学科学系

Humanitas大学

4 Via Rita Levi Montalcini

米兰,20090

意大利

电话:39 0282247228

电子邮件:raffaello.furlan@hunimed.eu


背景:虚拟病人模拟器(vps)记录所有用户的操作,从而能够创建学生医学知识的多维表示。这种表示可以用来创建指标,为教师提供有价值的学习信息。

摘要目的:本研究的目的是描述我们开发的用于分析医学生临床诊断推理的指标,提供其应用实例,并初步验证这些指标在本科医学生的班级。这些指标是通过一种新颖的VPS嵌入自然语言处理技术获得的数据计算出来的。

方法:总共创建了2个临床病例模拟(测试)来测试我们的指标。在每次模拟过程中,学生们一步一步的动作都被记录到程序数据库中进行离线分析。学生的表现被分为七个维度:在给定的临床场景中识别相关信息、病史获取、体格检查、医学检查排序、诊断假设设置、二元分析实现和最终诊断设置。灵敏度(发现相关信息的百分比)和精度(执行正确操作的百分比)指标计算每个问题,并合并为谐波平均值(F1),从而获得评估学生表现的单一分数。这7项指标被进一步归类,以反映学生的能力收集而且分析获取总体性能分数的信息。根据学生遵循的诊断路径与教师先前定义的参考路径之间的不一致性计算出方法学分数。人道主义大学医学院五年级的25名学生接受了模拟呼吸困难患者的测试1。第二项测试是关于腹痛的,在另一天有36名学生参加。为了验证,我们评估了这些分数的表现与每个学生在血液学课程考试中获得的分数之间的斯皮尔曼等级相关性。

结果:试验1(平均0.59,SD 0.05)和试验2(平均0.54,SD 0.12)的平均总分一致。对于每个学生来说,总体表现是通过收集和分析信息的不同贡献来实现的。方法学分数突出了以前由教师设定的参考诊断模式和学生所追求的模式之间的不一致。VPS评分与血液学检查评分无显著相关性。

结论:学生诊断过程的不同组成部分可以通过适用于学生在处理虚拟案例时记录的行为的适当指标进行分离和量化。这种方法可以帮助教师为学生提供个性化的反馈,旨在填补能力缺陷和方法上的不一致。血液学课程考试成绩与任何拟议分数之间没有相关性,因为这些分数涉及学生医学知识的不同方面。

JMIR Med Educ 2022;8(1):e24372

doi: 10.2196/24372

关键字



背景

虚拟病人模拟器(vps)是教学工具,要求学生面对各种临床场景。为学生提供以软件为基础的医疗培训,并可与亲身临床实习相结合,可帮助他们发展诊断技能[1-8].此外,通过分析用户的记录操作获得适当的度量标准,vps可以生成学生医疗能力的多维表示,从而为教师提供潜在有价值的教学信息[9-13].vps可能包括使用自然语言处理(NLP)技术,以更好地模拟医患互动,并促进医学院学生使用这些技术[13-15].

在许多vps中,指标的设置仅仅是为了评估整体患者诊断管理的部门方面,例如病史采集[14]或临床检查[13],而在其他vps中,重要的诊断活动,例如进行身体检查和安排体检,则不被考虑在内[15].因此,许多vps及其相关指标旨在解决特定的教学项目,而不是包括整体的临床诊断方法。后者在本科医学培训中至关重要,因为初级医生的大多数诊断错误都是由于数据收集或数据整合的缺陷造成的[15].我们需要新的vps来针对诊断过程的所有领域,同时保持NLP技术提供的用户友好特性。

除了vps,另一项可能有益于医学教育的技术是智能辅导系统(ITS) [9-13]因为它为学生提供循序渐进的特别反馈,并提供适当的补救建议[1617].例如,cirism - tutor [18是为了教授医学院一年级学生血压调节概念而创建的。COMET算法[19]通过结合文本和图像的多模态界面,应用于基于问题的学习。StoichTutor [20.帮助学生学习化学计量学,尽管它的应用主要局限于高中教学。从教学的角度来看,这些工具经证明能有效地帮助学生在学习过程中促进推理和认知联想,从而提高他们的技能[9-132122].然而,在这些案例中,ITS技术并没有应用到整个临床案例模拟中。

我们最近开发了一款VPS, Hepius,它集成了ITS组件[23它们涉及医生在管理病人时进行的两项主要活动:数据收集和数据分析。NLP技术被用来模拟医患互动。数据收集包括四个主要部分:(1)在模拟电子病历中检查患者信息(即输入场景),(2)病史收集,(3)体格检查,(4)诊断测试顺序。数据分析模型包含四个主要组成部分:(1)假设生成,(2)二元分析,(3)模式分析,(4)最终诊断。通过设置适当的指标和一般学习分析来处理和量化学生数据收集和分析表现。

客观的

在这项研究中,我们描述了通过跟踪医学生使用Hepius执行2个虚拟患者模拟而获得的学习分析。特别介绍了从人道主义大学医学院的一组五年级学生那里获得的结果,并就其潜在的学习意义进行了讨论。从第一次模拟测试中获得的学习分析也初步用于医学生在血液学期末考试中获得的分数。


伦理批准

为了与我们的内部审查委员会的政策保持一致,IRCCS- Istituto Clinico Humanitas没有申请伦理批准,因为这是一个教学研究,而不是临床研究。数据经过适当匿名处理,并在原始数据收集时获得所有参与者的知情同意。最后,该研究对参与者没有任何潜在的损害风险,也没有任何副作用。已按要求向内部审查委员会发送了一份简单的书面来文。

诊断过程模拟器组件

本节提供了Hepius诊断模型的主要特征的综合描述,这对于全面理解学习分析是必要的。有关该计划的详细描述请参阅别处[23].

输入场景

向学生提供一段简短的文字,描述病人目前的病情。在这一阶段,学生需要识别文本中包含的相关诊断因素。诊断因素是一条明确的临床信息,可以帮助做出诊断(例如,患者发烧或布隆伯格征呈阳性)。

病史收藏

学生必须收集进一步的诊断因素,提出问题,就像采访一个真正的病人。Hepius NLP算法管道检查输入问题,并在模拟作者(即教师)准备的问题集中搜索匹配的答案(如果有)。如果找到匹配项,程序将显示模拟问题和相应的答案。例如,如果学生要打字你气短吗?在自由文本对话框中,NLP管道将在模拟案例数据库中查找匹配的问题(例如,你有呼吸困难吗?),并自动提供相应的答案(例如,是的,我有).这种先进的NLP算法利用了我们小组以前开发的NLP算法,从管理数据库中自动识别晕厥患者[24].

体格检查

学生被要求了解哪些身体检查与特定的临床病例相关。学生可以从下拉菜单中进行选择,也可以在自由文本对话框中输入适当的身体检查。应执行的相关检查已由模拟作者事先确定。学生所做的所有相关和不相关的行为都可以被跟踪和测量。

体检申请

学生可以选择进行诊断测试。要求检查的任务与身体检查的方式相同。只有在模拟作者认为相关的情况下,测试请求才被认为是正确的。当正确时,将提供测试结果。

诊断假说

根据前几个阶段收集到的信息,学生需要提出一个或多个诊断假设。这是通过在自由文本对话框中插入自然语言的假设来实现的。Hepius的NLP组件负责将假设的诊断与模拟作者选择的最相关的假设相匹配。该NLP组件将学生的描述与标准的医学-临床术语系统化命名法(SNOMED-CT)描述相匹配[25,并保存在模拟数据库中。如果学生提出的假设存在于作者设定的合理诊断假设列表中,则给予正反馈,诊断假设出现在二元分析中。

二元分析

要求学生在所有确定的诊断因素和诊断假设之间建立相关性,以提高分析收集到的信息并形成联系的能力。对于每一对诊断因素-诊断假设关系,学生必须确定单个诊断因素是否增加、减少或既不增加也不减少(即,它是中性的)该诊断假设的概率。二元分析是脚本一致性测试(SCT)的简化形式,其Likert量表只有3个值(1,0和- 1),而不是标准的5个值,称为“锚描述符”[26].的确,在二元分析中,增加减少,中性作为经典SCT中的锚描述符[2627].例如,期望学生设置诊断因素之间的二元分析体温38°C诊断假设肺炎作为(增加)。其他任何输入都将被认为是错误的。

重要的是,经典SCT和Hepius二元分析之间的关键区别之一是,诊断因素和诊断假设不是先验的,而是必须由学生制定。这需要学习者积极的反思过程,具有内在的教育价值。关于这两种教育工具之间差异的更详细的讨论可以在多媒体附件1232628-32].

模式分析

在本节中,将自动创建一个图来表示二进制分析。该图显示了诊断因素和诊断假设节点。根据二元分析,只要诊断因子和诊断假设是增加相关或减少相关的,就会产生一条边。图自动转换为认知模糊图[2833],显示每个节点和边的相关数字权重。学生可以根据支持某种疾病可能性的特定诊断因素的估计重要性,修改诊断因素-诊断假设边的权重。这种操作的效果可以可视化为诊断假设节点的维数相应的增加或减少(多媒体附件1).这为学生提供了即时的反馈。

最后的诊断

在这最后一步,学生必须从诊断假设列表中选择最终诊断;也就是说,它具有最大的正确概率。

学习分析与Hepius

学习分析通过收集、分析和解释学生生成的数据来改进和深入了解学习过程[34].每当学生使用Hepius执行一个动作时,该动作都会被记录在程序数据库中。由于模拟作者(即教师)已经明确指定了正确的动作,因此可以通过分析模拟执行日志来构建学生表现的详细表示。

从这个详细的表示中,我们计算了提供的综合指标补救的见解进入学生目前的能力,以应用他们的能力。通过补救,我们的意思是,学生、教师或其他利益相关者可以使用这些见解来改进学习和教学过程。

测试描述

我们使用Hepius进行了2次临床病例模拟(测试)来设置我们的指标。测试1(2018年4月12日)包括25名参加人道主义大学患者管理课程(医学院五年级)的学生。学生们对主诉为呼吸困难的虚拟病人进行了模拟,正确的最终诊断是霍奇金淋巴瘤继发的胸腔积液。测试2(2018年5月21日)包括36名同一课程的学生,他们对一名腹痛患者进行了模拟,最终诊断为急性胆囊炎。

所有参与者都熟悉该程序的使用,被指示独立工作,并且没有时间限制。在这两个测试中,执行的所有操作都被记录下来并随后进行分析。

学习标准

总体而言,学生的表现分为七个部分,包括:(1)在给定的临床场景中识别相关信息,(2)病史记录(即记忆),(3)进行体检,(4)安排医学检查,(5)制定诊断假设,(6)通过将模拟中获得的临床数据与鉴别诊断相匹配来完成二元分析,以及(7)做出最终诊断。对于每个部分,我们计算了一个灵敏度度量(即,学生能够找到多少包含在每个部分中的相关信息)和一个精度度量(即,学生执行的多少操作被认为是正确的)。这两个分量用谐波平均值(F1),得出一个介于0到1之间的分数(1=完美的灵敏度和精度)。这个分数被用作学生在每个部分(表1).

表1。截面度量描述。
部分 敏感性指标 精度指标 截面度量描述
输入场景 DFs百分比一个从输入场景中出现的所有DFs中识别出来 在学生选择的所有文本中,文本中确定的DFs的百分比 在不选择不相关文本的情况下识别输入场景中存在的DFs的性能
既往症 在模拟中出现的所有相关记忆问题中识别出的相关记忆问题的百分比 学生所提出的所有问题中与记忆相关的问题所占的百分比 能问出所有相关的问题而不问多余的问题
体格检查 在模拟中进行的所有相关身体检查中所占的百分比 所进行的相关身体检查占学生所进行的所有身体检查的百分比 进行所有相关的身体检查,而不进行多余的身体检查
医学检验 要求进行的相关医学测试占模拟中所有相关医学测试的百分比 要求进行的相关体检占学生要求进行的所有体检的百分比 要求进行所有相关的医学检查而不要求进行多余的医学检查的表现
DHb 在模拟中所有合理DHs中识别出的合理DHs的百分比 从学生制定的所有DHs中确定的合理DHs的百分比 在确定所有合理的DHs而不制定不适当的DHs方面的表现
英航c 在模拟中出现的BA映射总数中,第一次尝试时正确执行的BA映射的百分比 第一次尝试时正确执行的BA映射占该学生执行的BA映射总数的百分比 第一次尝试时识别正确的DF-DH关系(增加、中性和减少)的性能
最后的诊断 由学生确定的正确诊断在模拟中出现的正确诊断总数中的百分比 学生确定的正确诊断占学生制定的诊断总数(正确和不正确)的百分比 在确定正确最终诊断方面的表现

一个DF:诊断因子。

bDH:诊断假设。

cBA:二元分析。

通过结合7f1度量分数,我们获得了一个单一的数字,用作学生的总分,并将其与平均班级表现进行比较。

此外,这7个指标被分为两组:一个表示收集信息的能力(第1、2、3和4项),另一个表示分析信息的能力(第5、6和7项)。选择开发基于准确性的度量标准来评估临床数据收集的表现,而不是每当获得新信息时简单地增加累积分数,这源于大量文献支持的概念,即优秀的诊断医生主要根据“疾病脚本”进行集中数据收集[35-39].换句话说,这一指标旨在衡量所收集的临床数据的质量而不是数量。

此外,每次模拟的结果都在雷达图上描绘出来。这提供了在每个练习中单个学生和平均班级表现的综合视图。单个雷达图可以叠加,因此可以与同级的雷达图进行比较。

在虚拟患者模拟中,例如在真实的临床病例中,正确的诊断动作顺序通常对正确的诊断至关重要[40].在Hepius中,这些行为被定义为关键诊断行为,当按照预期的执行顺序执行时,它们就构成了关键诊断行为期望执行路径.因此,不仅可以分析是否执行了所有关键的诊断行为,而且还可以分析它们的顺序是否与预期的执行路径保持一致。这是由一个额外的度量合成的方法论的分数,以评估整体诊断过程[41-43].

为了计算方法学分数,学生执行的关键诊断行为序列被转换为一个字符串,其中每个字符代表一个特定的模拟部分。然后通过删除连续相同字符的重复来简化字符串。因此,如果学生首先确定3个场景因素,然后问2个记忆问题,最后执行2个身体检查,这将最初转换为字符串sssaapp.在这样的字符串中,年代代表场景,一个为了记忆,还有p体检。这个字符串可以进一步简化为sap

是与前一段中描述的特定模拟实例相关联的字符串。我们首先计算以下5个参数:[p1]为Levenshtein相似度[44的前3个字符组成的字符串和引用字符串sap正如我们假设的那样,收集临床数据的预期路径是从输入场景到获取病史,然后到体检[4546].[p2的最后2个字符组成的字符串之间的Levenshtein相似度和引用字符串brb代表二元分析和r表示结果或最终诊断选择。之所以这样做,是因为在模拟病例中,预期的最后步骤应该是分析收集的临床数据,以根据假设演绎模型选择被认为是正确的诊断假设[4748].[p3.如果第一次出现,则值为1h(假设产生)先于的第一次发生(体检);否则,它是0。事实上,我们认为,只有在提出至少一个诊断假设后,才应要求进行医学测试[49],也根据明智的选择运动(50].[p4中出现的分段百分比在7个可能的部分中。因此,例如,如果Φ= sapr,那么这个参数是4/7。这是为了确保学生对模拟病人做出全面的评估,而不遗漏病例的任何部分。[p5]参数1/(1 +R),R重复的次数在吗.这是倾向于采用线性方法来处理病例,而不是在整个章节中重复来回移动,因为这可能发生在不熟练的诊断医生身上[3536]可能容易过早关闭[5152].

然后,通过计算这5个参数的向量的欧几里得范数,将这5个参数组合成一个分数:

√(p1 2+ p2 2+ p3. 2+ p4 2+ p5 2).

指标验证

使用测试1的结果初步验证了我们提出的度量标准。由于测试1中的模拟临床案例是关于霍奇金淋巴瘤的,为了验证我们的新指标,我们将结果与现行的参考标准进行了比较,以评估我校学生在血液学方面的知识,即血液学课程考试。该检查包括血液疾病流行病学、危险因素、临床表现和诊断的多项选择题测试。取值范围为0 ~ 33。

为了验证,我们使用Spearman等级相关检验将总体评分、收集评分、分析评分和方法学评分与血液学检查评分进行了比较。


概述

测试1的平均班级表现(平均0.59,标准差0.05)略高于测试2(平均0.54,标准差0.12),测试2的分数离散度较大,这表明SD较大。图1显示了在测试1和2期间获得的总分分布评估的班级表现。从左偏的柱状图可以看出,总体分数并非正态分布。这表明少数学生的表现低于班级平均水平,特别是在测试2中。

图1。在测试1和测试2中,班级的总体表现分数以柱状图分布显示。在测试2中,左侧条形图的出现表明存在整体表现较弱的学生。每个柱的范围为0.05。
查看此图

通过将7个指标分组到2个知识领域(即数据收集和数据分析;图2),我们可以进一步了解学生的专业知识。注意在两次测试中单项分数的不同分散。测试1中单个分数的聚类越大,表明班级表现越同质。此外,如果只考虑整体成绩,例如202025年和202041年的学生(见箭头)似乎处于相同的成绩水平。然而,在他们的案例中,以不同的方式获得了相同的总分(0.63):学生202041在数据收集练习中表现较差(收集排名12,分析排名5),而学生202025在数据分析练习中表现较差(收集排名3,分析排名11)。

学生表现的进一步分析可使用雷达图,如图3.在每个图表中,可以汇总7个模拟部分的分数,并与其他学生的表现进行比较,以发现学生需要提高的主题。

图2。在测试1(4月12日)和测试2(5月21日)期间收集和分析分数的关系。每个点代表一个学生的成绩。理想(最大)性能分数对应于1.0。虚线表示班级总分的中位数。请注意,202025年和202041年(箭头)的学生以不同的方式获得了类似的总分(0.63)。学生202041在数据收集练习中表现较差(收集排名12,分析排名5),而学生202025在数据分析练习中表现较差(收集排名3,分析排名11)。
查看此图
图3。在测试1中,表现最好和最差的学生的雷达图和平均班级成绩。图表能够比较模拟中不同练习部分的分数,这些分数是由顶部(连续线)和底部(长虚线和灰色区域)参与者和类别(短虚线)获得的。请注意,表现最好的学生在除历史练习外的所有任务上的得分都高于全班平均水平。相比之下,得分最低的人在除记忆外的每项练习中得分都较低。老师可以为这两名学生提供个性化的建议,以克服每个具体的弱点。结果参照试验2。一个:记忆;BA:二元分析;HY:假设生成; MT: medical tests; PE: physical examination; RS: results; SC: scenario.
查看此图

请注意,除了历史部分,表现最好的学生在所有任务中的得分都高于班级平均水平。相反,表现最差的人只有在给定临床场景任务中的相关信息识别(即对输入场景的解释)方面达到了班级平均水平。

图4提供关于学生临床方法学技能的见解。每个学生在测试1和2中获得的方法学分数与总分的关系被绘制出来。箭头表示在测试2中就临床方法而言得分较低的学生,尽管总分可接受。

图5显示学生在模拟测试2期间执行的关键诊断行为的序列,以及执行每个序列的用户的数量和百分比。测试2的5个关键诊断行为是分析输入场景(S)、触诊腹部(P)、寻找墨菲符号(M)、要求腹部超声检查(U)和选择正确的最终诊断(D)。在36名学生中,只有3人(8%;SPUD)按照预期的顺序执行了所有3个关键的诊断行为,而16个(44%)在没有进行体检的情况下做出了正确的最终诊断。

图4。在测试2中获得的个人综合分数与相应的方法分数之间的关系。箭头表示就临床方法而言,得分较低的学生,尽管总体分数是可以接受的。因此,这个学生特别缺乏处理诊断的方法,需要特别的老师的建议。
查看此图
图5。测试2期间的关键诊断行为和预期执行路径。在模拟游戏中,最可能的诊断结果是胆囊炎,而用户从一开始(S)就希望执行的关键操作是:(1)触诊腹部(右上象限;P),(2)检查Murphy征像(M),(3)要求腹部超声检查(U),(4)最终诊断(D),对应PMUD通路(黄色细箭头)。每个箭头代表一个不同的执行流。箭头的宽度与跟随该流的学生人数成正比。请注意,在36名学生中,只有3名(8%)按照预期的顺序执行了所有3个关键诊断操作,而16名(44%)在没有进行体检的情况下得到了正确的最终诊断,8名(22%)优先考虑腹部超声检查。
查看此图

指标验证

在参加测试1的25名学生中,20人(80%)透露了他们的血液学检查成绩。在这20名学生中,1人(5%)得25分,6人(30%)得29分,其余13人(65%)得33分。正如在表2,血液学检查评分与各Hepius指标评分之间无相关性。

表2。血液学检查评分与4项主要Hepius指标Spearman秩相关检验结果。
度规 相关指数 P价值
总分 0.2867 口径。
收集分数 0.2786 23)
分析分数 −0.0404 .87点
方法论的分数 0.0836

主要研究结果

在本文中,我们描述了使用VPS Hepius [23]通过分析人道主义大学国际医学院五年级学生进行的两项测试结果。此外,通过与测试1中血液学课程考试成绩的比较,初步验证了学习分析的有效性。

学习分析可以为教师提供有关学生医学专业知识和诊断推理技能的宝贵信息。然而,可治疗的应该是教育绩效指标所期望的关键特征,在特定意义上适合于补救行动。并不是所有的度量标准都具有这一特征,并且大多数指标只是为评估目的而设计的。例如,考试分数是一个特定领域能力的整体指标,对学生应该关注哪些方面来提高能力提供了有限的直接暗示。普通考试成绩的主要目标是评估,而不是补救。53-56].相比之下,这里提出的主要指标(即总分、收集得分、分析得分和方法得分)主要是为教育工作者提供以学生为中心的线索补救行动

在这项研究中,我们首先设置了基本的统计指标来评估学生在模拟的单个部分的表现。通过结合这些指标,计算出一个方便的指数(即总分),反映学生的整体表现。并绘制了相关图对主要结果进行了综合。

这种分析提供了许多信息(图1),可分为以下几类:(1)课堂内信息;比如左边的条形图图1-测试2的直方图表明,有些学生的表现比班上大多数学生都差;从教育的角度来看,这部分学生可能是特定教学行动的目标将它们滑动到图表的右侧(2)跨班级信息(例如,不同学年的同一班级之间的比较),这可以为教师提供有关他们在一段时间内整体教学表现的信息。

另一个有价值的问题是使用雷达图比较学生和班级表现的可能性。这总结了在模拟的不同练习中获得的单项分数。雷达图可以为单个学生或整个班级的表现绘制。在图3在美国,成绩最好的学生在除一项(即历史)外的所有练习中都比班上其他学生得分高。这可能反映了一种过于自信的行为聪明的仅凭少量信息对临床病例进行直观解读的学生,没有深入了解病史,导致重要信息丢失,陷入所谓“早结错误”[57].从教学的角度来看,从模拟中获得的每个结果都可以提供关于整个班级能力水平和每个学生知识的特定特征的具体见解。

总分可以提供学生准确分析临床病例能力的信息。如果使用适当的策略来避免懒惰,并预设严格的时间限制,我们可能会期望就相关主题而言,总分是考试成绩的代理衡量标准,尽管本研究的结果不支持这样的假设。

然而,作为一种补救工具,总体分数并不会特别有用。反过来,通过将总分的2个组成部分(即数据分析和数据收集得分)进行关联,可以获得学生诊断过程的重要操作性信息。例如,可以评估数据分析或数据收集分数对个人总分的相对贡献,可能会给学生具体的建议,以克服任何弱点。此外,分析成绩不理想的学生应把注意力集中在学习特定的“最新到目前为止”[58] Hepius学习模型自动推荐的文件或通过医学文献修订提高他们在特定疾病方面的专业知识。相比之下,那些数据收集得分不理想的人应该更多地练习Hepius临床病例或直接采访真实患者。值得注意的是,这样的假设尚未得到验证,需要进行特别研究。

我们提出的方法分数旨在估计学生遵循充分和现实的诊断过程的程度。我们相信临床方法学,并相信医学生必须学习其主要原则[41-43尽管最近人们普遍支持将技术用于诊断目的。对患者采取适当的诊断和治疗方法,并可能以证据为基础,可以优化诊断[59]和治疗[60]同时减少副作用[6162].此外,这样的明智的选择这种方法可能通过显著减少不必要的检查、检查和治疗而最终影响医疗费用[63-66].在模拟急性胆囊炎时,Hepius通过识别所做的诊断动作并跟踪其执行顺序,发现在达到最终诊断的过程中,>40%的学生(16/ 36,44%)跳过了腹部体检,22%(8/36)直接进行了腹部超声检查(图4).这一发现有两种可能的解释。这可能是因为学生们面对的是一个虚拟的模拟,而不是一个真正的病人,他们将对他进行完整的腹部体检。另一方面,这一发现可能反映了学生由于对自己的诊断能力缺乏信心而对医学测试的过度依赖。在这两种情况下,都提出了一个重要的教育挑战,既需要认识到,也需要适当有针对性的教学行动。后者的一个例子是,教师将方法分数不足的学生介绍给适当的指导方针或流程图,以解决疾病或障碍的具体管理问题。

为了与这些考虑保持一致,我们还试图通过最初设定2个分数,然后绘制方法分数与总分的关系,来评估单个学生总分中方法成分的大小。如图4,部分学生在临床方法学方面表现欠佳[67尽管总分还可以接受。事实上,他们的总分接近班级平均水平。因此,这样的方法使我们能够确定哪些学生如果被项目或老师及时推荐到适当的最新章节或疾病管理指南,就可以获得学习优势。

使用模拟器解决认知过程是一项艰巨的任务,已经以不同的方式自动实现。例如,Hege等人[68]使用VPS结合概念映射工具来评估学生执行的一系列操作,包括问题识别、鉴别诊断设置、测试请求、治疗方案和建立的联系。同样,Hepius可以跟踪学生与模拟器之间的互动,并将其综合在一个模糊认知地图中。与Hege等人使用的工具不同[68], Hepius可以识别关键的诊断行为及其执行顺序,而不关注诊断的准确性,诊断的准确性定义为第一次尝试就能得出正确的最终诊断的能力[67].我们先验地假设,对于每一种症状,学生都应该采取一系列基本措施来做出正确的诊断。重要的是,正确的行动顺序也至关重要,因为它可以简化诊断途径,而不需要不必要的测试[6364].最后,我们假设在模拟中识别这些动作及其执行顺序可以作为代理,可能反映学生的整体认知过程和方法技能。虽然所有学生(36/ 36,100%)都能得到正确的最终诊断,但我们的数据表明,其中只有8%(3/36)的学生遵循了预期的序列(SPMUD路径)图5),而其余的则采用了5种不同的方法。通过我们的模拟器,我们能够识别那些忽略了关键行动的学生,指出他们在对待患者的方法方法上的缺陷,这些缺陷可以通过学习特定的管理路径指南等补救行动加以修正。

在比较总体、收集、分析和方法学分数与学生血液学考试分数时,我们发现没有统计学上的显著相关性。然而,这是意料之中的,因为分数涉及不同的技能。53].多项选择题测试评估了对疾病的全面和深入的能力。VPS分数旨在评估学生的能力收集临床相关信息(即收集评分);制定鉴别诊断从头开始,建立正确的联系诊断假设与收集到的临床信息(即分析得分)之间的关系,并运用一种方法解决临床病例正确的临床方法(即方法学评分)。此外,值得注意的是,血液学检查成绩相当均匀,65%(13/20)的学生得分为33(总分33),95%(19/20)的学生得分为>29。虽然这可能反映出班级教育水平的同质性,但也可能表明该评估方法在正确把握医学生准备工作的广泛可变性方面存在潜在的局限性[54-56].

事实上,尽管多项选择题测试目前代表着医学生评估的主流,但许多人都强调了这种评估工具的弱点[6970].

限制

这些结果是通过2项测试和有限数量的参与者获得的。这削弱了Hepius作为医学学生诊断技能评估工具的有效性结果的可泛化性。此外,我们提出的学习分析应该经过更强有力的验证,可能是通过心理测量方法[29];然而,这将需要更大的学生群体。在本研究中提出的学习分析的心理测量特征被强调和讨论多媒体附件1

结论

五年级医科学生使用Hepius使我们能够获得根据所提出的学习分析组织的有价值的教育信息。使用学习分析获得的见解可能更好地指导教师的反馈,旨在填补学生在医学知识和诊断方法方面的空白。需要强调的是,Hepius学习分析也可以用于不同的研究生设置,例如在继续医学教育背景下,用于住院医师临床培训和全科医生准备的年度评估。

未来需要进行特别研究,以充分验证我们提出的学习分析。

致谢

作者感谢Giorgio Ferrari (Humanitas大学首席执行官)、Luciano Ravera (Humanitas研究医院首席执行官)和Fabrizio Renzi (IBM意大利技术与创新总监)最初和持续的支持。主要利益相关者:Alessandra Orlandi (Humanitas首席创新官)、Victor Saveski (Humanitas首席创新官集团)、Valeria Ingrosso (Humanitas项目经理)和Giovanna Camorali (IBM业务发展主管)。开发团队:Luca Vinciotti (IBM意大利,数据库架构师)、Michele Savoldelli (IBM意大利,后端架构师)、Jacopo Balocco (IBM意大利,学习模型开发人员)和Valerio Chieppa (IBM意大利,模式分析开发人员)。

利益冲突

没有宣布。

多媒体附件1

Hepius学习者分析心理测量特征。

DOCX文件,19kb

  1. McGaghie WC, Issenberg SB, Cohen ER, Barsuk JH, Wayne DB。有刻意练习的模拟医学教育是否比传统的临床教育效果更好?证据的元分析比较回顾。Acad Med 2011 Jun;86(6):706-711 [免费全文] [CrossRef] [Medline]
  2. Issenberg B, Gordon MS, Gordon DL, Safford RE, Hart IR。模拟和新的学习技术。医学教学2001年1月23日(1):16-23。[CrossRef] [Medline]
  3. Issenberg SB, McGaghie WC, Hart IR, Mayer JW, Felner JM, Petrusa ER,等。卫生保健专业技能培训与考核的仿真技术。中国医学杂志1999年9月1日;28(9):861-866。[CrossRef] [Medline]
  4. Ziv A, Wolpe PR, Small SD, Glick S.基于模拟的医学教育。中国医学杂志,2003;29(3):344 - 344。[CrossRef]
  5. 韦勒JM。本科医学教育中的模拟:弥合理论与实践之间的差距。医学教育杂志2004 01;38(1):32-38。[CrossRef] [Medline]
  6. Cook D, Triola MM:虚拟病人:一个重要的文献回顾和建议下一步。医学教育杂志2009,4(4):303-311。[CrossRef] [Medline]
  7. 帕拉纳贾佩K, Schinkel M, Nannan Panday R, Car J, Nanayakkara P.人工智能训练在医学教育中的应用。JMIR Med Educ 2019 Dec 03;5(2):e16048 [免费全文] [CrossRef] [Medline]
  8. Sapci AH, Sapci HA。医学与卫生信息学专业的人工智能教育与工具:系统综述。JMIR Med Educ 2020年6月30日;6(1):e19285 [免费全文] [CrossRef] [Medline]
  9. 蔡瑞丽,李志强,李志强,李志强。基于web的虚拟病例模拟环境Web-SP的开发、实现和试点评估。BMC Med Educ 2006 Feb 21;6:10 [免费全文] [CrossRef] [Medline]
  10. Isaza-Restrepo A, Gómez MT, Cifuentes G, Argüello A.虚拟患者作为学习工具:混合定量定性研究。BMC Med Educ 2018 Dec 06;18(1):297 [免费全文] [CrossRef] [Medline]
  11. 李志强,李志强,李志强,等。基于网络的沉浸式虚拟病人模拟器:对医学教育中临床推理的积极影响。J Med Internet Res 2015年11月17日;17(11):e263 [免费全文] [CrossRef] [Medline]
  12. Kleinert R, Plum P, Heiermann N, Wahba R, Chang D, Hölscher AH,等。在交互式外科讲座中嵌入虚拟病人模拟器。中华实用外科杂志,2016;23(3):433-441。[CrossRef] [Medline]
  13. Oliven A, Nave R, Gilad D, Barch A.基于web的交互式虚拟病例模拟作为医学生的培训和评估工具的实现。种马健康技术信息2011;169:233-237。[Medline]
  14. 陈晓明,张晓明,陈晓明。基于虚拟患者与临床医师对医学生病历记录技能评估的比较研究。JMIR Med Educ 2020年3月12日;6(1):e14428 [免费全文] [CrossRef] [Medline]
  15. 阿夫扎尔·s·AI医学院导师:建模和实施。正确的做法:医学中的人工智能。可汗:施普林格;2020.
  16. 8月库。Meshkah。URL:http://dstore.alazhar.edu.ps/xmlui/[2022-01-18]访问
  17. 下一代自适应学习系统的可能未来。智能学习环境2016年11月14日;3(1)。[CrossRef]
  18. CIRCSIM-tutor项目。CIRCSIM。URL:http://www.cs.iit.edu/~circsim/[2022-01-19]访问
  19. 李志强,李志强。基于医学问题学习的协同智能辅导系统。见:第九届智能用户界面国际会议论文集。2004年发表于:IUI '04:第九届智能用户界面国际会议论文集;2004年1月13日至16日;丰沙尔,葡萄牙马德拉岛。[CrossRef]
  20. McLaren B, Lim SJ, Gagnon F, Yaron D, Koedinger KR.在基于网络的智能导师的背景下研究个性化语言和工作示例的影响。正确的做法:智能辅导系统。柏林,海德堡:施普林格;2006.
  21. Mousavinasab E, Zarifsanaiey N, R. Niakan Kalhori S, Rakhshan M, Keikha L, Ghazi Saeedi M.智能辅导系统:特征、应用和评估方法的系统综述。互动学习环境2018年12月18日;29(1):142-163。[CrossRef]
  22. 库利克JA,弗莱彻JD。智能辅导系统的有效性:元分析综述。Rev Educ Res 2016年3月1日;86(1):42-78。[CrossRef]
  23. Furlan R, Gatti M, Menè R, Shiffer D, Marchiori C, Giaj Levra A,等。基于自然语言处理的虚拟病人模拟器和临床诊断过程智能辅导系统:模拟器开发和案例研究。JMIR Med Inform 2021年4月09;9(4):e24073 [免费全文] [CrossRef] [Medline]
  24. Dipaola F, Gatti M, Pacetti V, Bottaccioli AG, Shiffer D, Minonzio M,等。人工智能算法和自然语言处理用于急诊室病历上晕厥患者的识别。中国临床医学杂志2019年10月14日;8(10):1677 [免费全文] [CrossRef] [Medline]
  25. Bodenreider O, Cornet R, freeman D.临床术语的最新进展- SNOMED CT, LOINC和RxNorm。2018年8月;27(1):129-139 [免费全文] [CrossRef] [Medline]
  26. 福尼耶JP,德梅斯特A,查林B.脚本一致性测试:构建指南。BMC Med Inform Decis Mak 2008年5月06日;8:18 [免费全文] [CrossRef] [Medline]
  27. Charlin B, Roy L, Brailovsky C, Goulet F, van der Vleuten C.脚本一致性测试:一种评估反思临床医生的工具。医学杂志2000;12(4):189-195。[CrossRef] [Medline]
  28. Pierce C, Corral J, Aagaard E, Harnke B, Irby DM, Stickrath C. BEME现实主义综合回顾临床环境中使用的教学策略对卫生专业人员临床技能发展的有效性:BEME指南第61号。医学教学2020年6月;42(6):604-615。[CrossRef] [Medline]
  29. 库克DA,贝克曼TJ。心理测量仪器效度与信度的最新概念:理论与应用。美国医学杂志2006年2月;119(2):166.e7-166.16。[CrossRef] [Medline]
  30. 医学诊断中的模糊集理论。电子工程学报1986;16(2):260-265。[CrossRef]
  31. Adlassnig KP。计算机辅助医学诊断的模糊逻辑模型。方法Inf . 1980;19(3):141-148。[Medline]
  32. 陈宏,吴超,杜波,张磊。基于深度连体多尺度卷积网络的多时相VHR图像变化检测。第10届国际多时相遥感影像分析研讨会论文集,2019年发表于:MultiTemp '19;2019年8月5日至7日;上海p. 1-4。[CrossRef]
  33. 医疗决策支持系统的模糊认知图结构研究。见:欧洲模糊逻辑与技术学会第八届会议论文集(EUSFLAT-13)。2013年发表于:欧洲模糊逻辑与技术学会第八届会议论文集(EUSFLAT-13);2013年9月11-13日;米兰,意大利。[CrossRef]
  34. 穿透迷雾:学习与教育中的分析。EDUCAUSE评论,2011。URL:https://er.educause.edu/articles/2011/9/penetrating-the-fog-analytics-in-learning-and-education[2022-01-19]访问
  35. Schmidt HG, Norman GR, Boshuizen HP。医学专业知识的认知视角:理论与意涵。中国医学杂志1990年10月;65(10):611-621。[CrossRef] [Medline]
  36. 鲍恩杰。促进临床诊断推理的教育策略。英国医学杂志2006年11月23日;355(21):2217-2225。[CrossRef] [Medline]
  37. 柯德雷,曼丁,哈莱西姆,菲克。诊断推理策略与诊断成功。医学教育2003年8月;37(8):695-703。[CrossRef] [Medline]
  38. 王志刚,王志刚,王志刚。医学生与医生对临床病例记忆的差异。医学教育杂志1986 Jan;20(1):3-9。[CrossRef] [Medline]
  39. 张瑞文,郭志刚,李志刚。在案例陈述中,早期问题陈述的重要性。Acad Med 1998 10月;73(10增刊):S109-S111。[CrossRef] [Medline]
  40. Heitzmann N, Seidel T, Hetmanek A, Wecker C, Fischer MR, Ufer S,等。促进高等教育模拟诊断能力的框架和研究议程。前线学习Res 2019 12月3日;7(4):1-24。[CrossRef]
  41. Kassirer JP。临床推理教学:基于案例和指导。2010年7月;85(7):1118-1124。[CrossRef] [Medline]
  42. Schmidt HG, Mamede S.如何改进临床推理教学:一个叙述回顾和建议。医学教育2015年10月;49(10):961-973。[CrossRef] [Medline]
  43. Eva KW.每位老师都需要知道的临床推理知识。医学教育杂志2005 1月;39(1):98-106。[CrossRef] [Medline]
  44. 能够纠正删除、插入和反转的二进制代码。苏联物理学博士1965;10(8):707-710。
  45. Hampton JR, Harrison MJ, Mitchell JR, Prichard JS, Seymour C.记录病史、体检和实验室调查对门诊病人诊断和管理的相对贡献Br Med杂志1975年5月31日;2(5969):486-489 [免费全文] [CrossRef] [Medline]
  46. Gruppen LD, wooliscroft JO, Wolf FM。临床接触的不同组成部分在产生和消除诊断假设方面的贡献。医学教育,1988;27:42 -247。[Medline]
  47. -。艾尔斯坦,亚瑟S.,李S.舒尔曼,莎拉A.斯普拉夫卡等。医学问题解决:临床推理分析。马萨诸塞州剑桥:哈佛大学出版社,1978年。科技人类价值通讯2016年8月19日;3(3):50-51。[CrossRef]
  48. Elstein A, Schwartz A, Schwarz A.临床问题解决和诊断决策:认知文献的选择性回顾。BMJ 2002 3月23日;324(7339):729-732 [免费全文] [CrossRef] [Medline]
  49. 科拉扎GR,伦蒂MV,豪德尔PD。内科诊断推理:一种实用的重新评价。实习急诊医生2021年3月16日(2):273-279 [免费全文] [CrossRef] [Medline]
  50. Levinson W, Born K, Wolfson D.明智地选择运动:一项正在进行的工作。JAMA 2018 5月15日;319(19):1975-1976。[CrossRef] [Medline]
  51. Dhaliwal G.过早关闭?没那么快。BMJ Qual Saf 2017 Feb;26(2):87-89。[CrossRef] [Medline]
  52. 斯科特IA。临床推理错误:原因及补救策略。英国医学杂志2009 06;38:b1860。[CrossRef] [Medline]
  53. 克劳泽BE,马戈利斯MJ,斯旺森DB。基于计算机的案例模拟对USMLE步骤3考试的贡献的检查。Acad Med 2002 10月;77(10增刊):S80-S82。[CrossRef] [Medline]
  54. adedj J, Ducrocq G, Bouleti C, Reinhart L, Fabbro E, Elbez Y,等。与医学生评价游戏相比,选择题的评价比较严肃。JMIR Serious Games 2017年5月16日;5(2):e11 [免费全文] [CrossRef] [Medline]
  55. 沙发B,哈伯德JK,巴西CE。多对多错的问题揭示了选择题在检测理解不完全的学生方面的局限性。生物科学,2018年6月;68(6):455-463。[CrossRef]
  56. 评估方法对学生学习方式的影响:选择题考试与作业作文。高等教育学报1998;35(4):453-472。[CrossRef]
  57. 学习诊断虚拟病人:医学问题解决中的认知错误调查。正确的做法:教育中的人工智能。瑞士:施普林格国际出版社;2015.
  58. 最新:循证临床决策支持。Wolters Kluwer。URL:https://www.wolterskluwer.com/en/solutions/uptodate[2022-01-19]访问
  59. van Dijk W, Faber MJ, Tanke MA, Jeurissen PP, west GP。医疗化和过度诊断:社会对医学的影响。国际卫生政策杂志2016年11月1日;5(11):619-622 [免费全文] [CrossRef] [Medline]
  60. 赫克MT,阿隆DC,帕特尔NP,莱曼MK,唐斯基CJ。住院患者不必要使用抗微生物药物:当前滥用模式,重点是抗厌氧活性谱。Arch Intern Med 2003年4月28日(8):972-978。[CrossRef] [Medline]
  61. 海沃德RA,霍弗TP。评估医疗事故导致的医院死亡:审稿人认为可预防。中国医学杂志2001年7月25日;286(4):415-420。[CrossRef] [Medline]
  62. Winterstein AG, Sauer BC, Hepler CD, Poole C.可预防的与毒品有关的住院。Ann Pharmacother 2016 Dec 04;36(7-8):1238-1248。[CrossRef]
  63. 吕华,徐涛,Brotman D, Mayer-Blackwell B, Cooper M, Daniel M,等。美国的过度治疗。PLoS One 2017;12(9):e0181970 [免费全文] [CrossRef] [Medline]
  64. 莫伊尼汉R,史密斯R,药吃多了?英国医学杂志2002 april 13;324(7342):859-860 [免费全文] [CrossRef] [Medline]
  65. Furlan L, Erba L, Trombetta L, Sacco R, Colombo G, Casazza G,等。肺炎的短期和长期抗生素治疗:SIMI明智选择运动的系统评价和指南的比较。2019年4月14日(3):377-394。[CrossRef] [Medline]
  66. Montano N, Costantino G, Casazza G, Sbrojavacca R, Lenti MV, Falsetti L,等。意大利内科医学会明智的选择运动。2016年12月1日;11(8):1125-1130。[CrossRef] [Medline]
  67. 林森A, Elshout G, Pols D, Zwaan L, Mamede S.临床推理教育:培养新医学生学习活动参与策略的实验研究。卫生专业教育2018年6月;4(2):86-96。[CrossRef]
  68. Hege I, Kononowicz AA, Kiesewetter J, fosterjohnson L.揭示临床推理与诊断准确性的关系——基于虚拟患者学习者临床推理过程的分析。PLoS One 2018;13(10):e0204900 [免费全文] [CrossRef] [Medline]
  69. 爱泼斯坦RM。医学教育评估。中华医学杂志2007年1月25日;356(4):387-396。[CrossRef]
  70. Nedeau-Cayo R, Laughlin D, Rus L, Hall J.多项选择题写作缺陷的评估。护士专业发展2013;29(2):52-57。[CrossRef]


其:智能辅导系统
NLP:自然语言处理
SCT:脚本一致性测试
SNOMED-CT:医学临床术语系统化命名
副总裁:虚拟病人模拟器


G·艾森巴赫(G Eysenbach)编辑;提交16.09.20;L Sheets, D Chartash, J Chen同行评审;对作者30.11.20的评论;修订版本收到28.02.21;接受23.11.21;发表03.03.22

版权

©Raffaello Furlan, Mauro Gatti, Roberto Mene, Dana Shiffer, Chiara Marchiori, Alessandro Giaj Levra, Vincenzo Saturnino, Enrico Brunetta, Franca Dipaola。最初发表于JMIR医学教育(https://mededu.www.mybigtv.com), 03.03.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用最初发表在JMIR医学教育上的原创作品。必须包括完整的书目信息,https://mededu.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map