发表在第5卷第3期(2022):7月至9月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/40241,首次出版
使用基于规则的自然语言处理的医疗记录识别护理人员可用性:回顾性队列研究

使用基于规则的自然语言处理的医疗记录识别护理人员可用性:回顾性队列研究

使用基于规则的自然语言处理的医疗记录识别护理人员可用性:回顾性队列研究

原始论文

1美国密歇根州安阿伯市密歇根大学医学院家庭医学系

2美国密歇根州安阿伯市密歇根大学医疗保健政策与创新研究所

3.美国密歇根州安阿伯市密歇根大学公共卫生学院生物统计系

4美国密歇根州安娜堡市密歇根大学医学院

5美国密歇根州安阿伯市密歇根大学医学院学习健康科学系

通讯作者:

Elham Mahmoudi博士

家庭医学系

医学院

密歇根大学

NCRC 14号楼G234室

普利茅斯路2800号

安娜堡,密歇根州,48109

美国

电话:1 248 765 3927

电子邮件:mahmoudi@med.umich.edu


背景:确定护理人员的可用性,特别是为痴呆症患者或残疾人提供护理人员,对于卫生系统、医院和提供者制定适当的护理计划至关重要。这些信息并不容易获得,而且缺乏实用的方法来自动识别护理人员的可用性和类型。

摘要目的:我们的主要目标是使用医疗记录来评估住院痴呆症患者的护理人员可用性和类型。我们的第二个目标是确定患者是住在家里还是住在机构里。

方法:在这项回顾性队列研究中,我们使用了来自单一机构的2016-2019年电话医疗记录,开发了一种基于规则的自然语言处理(NLP)算法,以确定患者的护理人员可用性和居住地。使用笔记级数据,我们将NLP算法的结果与人类进行的图表抽象进行了比较,用于训练(749/976,77%)和测试集(227/976,23%),共有223名65岁及以上的成年人被诊断为痴呆症。我们的结果包括确定患者是否(1)住在家里或在机构,(2)有一个正式的照顾者,(3)有一个非正式的照顾者。

结果:测试集结果表明,我们的NLP算法在识别患者是否有非正式护理人员方面具有较高的准确性和可靠性(F1=0.94,准确性=0.95,敏感性=0.97,特异性=0.93),但相对较不能够识别患者是否生活在机构(F1=0.64,准确性=0.90,敏感性=0.51,特异性=0.98)。对所有类别的NLP错误分类最常见的解释是(1)设施名称不完整或拼写错误;(2)过去的、不确定的或未定的状态;(3)不常见的缩略语;(4)模板使用不规范。

结论:这项创新的工作是第一次使用医疗记录来实际确定护理人员的可用性。我们的NLP算法确定了住院的痴呆症患者是否有正式或非正式的照顾者,并且在较小程度上确定了他们是住在家里还是在机构环境中。使用自然语言处理来识别护理人员是有优点的。这项研究证明了这一概念。未来的工作可以使用其他方法,进一步确定护理人员及其可用程度。

JMIR Aging 2022;5(3):e40241

doi: 10.2196/40241

关键字



临床实践产生了大量结构化和非结构化数据[12].虽然电子病历(EMR)已经允许医疗保健系统收集临床病例数据,但收集过程和报告仍然效率低下。这种低效率给卫生保健工作者和提供者带来了负担,并可能对患者护理产生负面影响[12].此外,医疗保健方面的数据有很大一部分是自由文本格式。这些数据是由多个个人(医学生、护士、社会工作者等)输入系统的,缺乏特定的模板,医务工作者不容易检索,也不容易用于临床决策。将自然语言处理(NLP)应用于医疗记录在诊断某些疾病方面显示出有希望的结果[3.4],预测不良健康事件[56],以及确定健康的社会决定因素[7].

在EMR中系统收集护理人员信息是一项具有挑战性的任务[8].尽管护理人员在有复杂护理需求的人的健康和福祉方面发挥着至关重要的作用,例如痴呆症患者或残疾人[9]的情况下,卫生保健系统不具备随时识别护理人员可用性(或缺乏护理人员)、所提供的护理类型、可用时间和其他有关护理人员支持的有用信息的能力。尽管在医疗保健领域出现了自然语言处理[10-14],对护理人员信息的实用收集进行研究的工作很少[9].

美国大约有600万老年人患有痴呆症。到2050年,这一数字预计将翻一番[15].与其他老年人相比,由于更多的认知和身体限制,痴呆症患者往往有复杂的护理管理需求,他们的健康取决于他们的照顾者[16-19].例如,与患者护理人员的出院后护理协调可减少再入院或其他不良健康事件。对于卫生系统来说,对于有复杂护理需求的患者,特别是在出院后,快速识别并根据可获得的护理人员信息采取行动至关重要。

在这项工作中,我们的目标是提供一个概念证明,即NLP可以通过医疗记录可靠地识别护理人员的可用性和类型。我们检查了以下三个结果:(1)患者是住在家里还是住在机构里,(2)患者是否有正式的护理人员(有偿),以及(3)患者是否有非正式的护理人员(如家庭成员)。我们假设,使用NLP,我们将能够可靠地确定上述每个结果。


数据源

为了检查痴呆症患者的护理人员可用性和护理人员类型(如果有的话),我们使用了密歇根州东南部一家大型学术医疗中心密歇根医学(MM)的医疗记录。我们最初的患者队列是使用国际疾病分类,第10次修订代码(表S1)确定的多媒体附件1)于2015年10月至2020年1月期间的结构化电子病历。通过1年的回顾期,我们确定了2205名至少有一次住院的老年痴呆症患者。

MM中有60种不同类型的医疗笔记。我们从每个类别中随机探索10种笔记,以确定本研究中最有前途的笔记类型。此外,我们还向一位老年MM护士寻求专家建议,以确定最有前途的医疗记录,以提供有关护理人员的信息。这两种方法都使我们使用电话遇到笔记。在2205名独立患者中,2017年至少有一次电话接触记录。我们随机抽取并标注了976份电话遭遇记录(n=224名患者唯一数量),其中749份(77%)和227份(23%)记录分别划分为训练集(n=167名患者唯一数量)和测试集(n=57名患者唯一数量)。此外,我们确保每个患者的所有笔记都保存在同一集中。图1给出了我们的采样过程的流程图。

图1。流程图示意图(来源:2016-2019年密歇根医学电子病历)。急诊室。
查看此图

注释

为了达到较高的相互评价的可靠性,2名团队成员,一名在MM有阅读和撰写医疗记录的经验的护士和一名没有医学背景的社会科学家,独立注释了所有的记录。在所有团队成员的参与下,注释中的差异得到了解决。我们的研究问题包括:

  1. 病人是住在家里还是在机构里?
  2. 患者是否有正式的(雇佣的)护理人员?
  3. 患者是否有非正式的(家庭成员或朋友)照顾者?

选择上述研究问题是因为居住地点和护理人员的可用性是相互关联的。此外,我们的照顾者特征并不相互排斥,因为患者同时拥有非正式和正式的照顾者是合理的[9].每个标准有以下两个级别的注释:0(基于缺乏信息或明确否定)和1(基于注释中隐含或明确的叙述)。如果笔记中没有关于潜在结果的信息,我们将所有特征都编码为零。由于患者的情况(居住地和护理人员的可用性)可能会随着时间的推移而变化,我们的分析单位是病历(嵌套在单个患者中)。每个笔记都是独立注释的,只依赖于该笔记中的信息。使用这种方法,我们试图在每个特定时间纵向确定患者的居住地和护理人员的可用性。

模型

首先,我们根据在训练集中看到的模式对数据进行预处理,然后使用2个词汇来构建基于规则的方法来表征每个音符。我们测量了模型的表现在训练和测试集,分别使用F1-评分,准确性,敏感性和特异性的模型相对于我们的金标准-手册注释的注释。F1-score将算法的预测能力总结为精度和召回率的调和平均值。准确度衡量的是有多少观测结果——积极的和消极的——被正确分类。20.].

预处理

通过我们的注释过程,我们发现了多个经常导致误报的术语。例如,“家庭医学”将“家庭”显示为假阳性,而“患者门户”将“患者”显示为假阳性。此外,一些笔记包含模板部分和小标题短语,如“家族史”,其中列出了多个家庭关系,在这种情况下,这些家庭关系不会成为照顾者。在应用我们的算法之前,这些单词和短语从医疗记录中删除(下面“基于规则的算法描述”中的第3和第4项)。

词典

我们的两个词汇是用来识别(1)居住地点和(2)照顾者类型(如果有的话)的术语词典。具体的术语(例如,“家”,“阿特里亚安arbor,”和“林登广场”)被用来确定目前的居住地。为了确定患者是住在机构还是家里,我们使用了沃什特诺县的养老院和护理设施清单(从密歇根大学获得)和密歇根州的熟练护理设施清单(从医疗保险和医疗补助服务中心网站获得)[21].照护者类型被分为两类:正式的和非正式的——使用照护者的一般术语(如“姐妹”、“丈夫”或“探访护士”)。为了确定护理人员的存在和类型,我们根据与从业人员(MM的护士、医生和护理协调员)的咨询,使用了一份用于朋友、家庭成员和正式护理人员的常用术语列表。

我们的数据字典可以在表S2中按字母顺序找到多媒体附件1.如果在医疗病历中发现了字典中的术语,我们将使用与该术语相关的相应标签来描述该病历。例如,如果在病历中同时发现了“探访护士”和“配偶”,算法就会判定患者同时有正式(探访护士)和非正式(配偶)照顾者。

实施了多个规则,以解释在确定居住地和照顾者存在或类型时更复杂的逻辑。在整个算法中,使用了一个4个单词的窗口,而不是一个更少或更多单词的窗口,因为4个单词的窗口在训练集中达到了最好的准确性。

病人动词邻居

创建了一个词典,其中包括“同意”、“询问”或“报告”等动词,如果这些动词出现在以下术语的四个单词窗口内:“pt”、“病人”或“病人的”,则表明患者住在家里(表S3)多媒体附件1).这是用来确定患者是否有任何相关的护理人员信息,即使在字典中识别的术语没有在笔记中找到。由于医护人员经常会在与护理人员无关的语境中讨论“病人”,我们不能简单地搜索前3个单词。

制度否定邻里

在许多情况下,医疗机构的名称出现在病历中,与患者目前居住的地方或护理人员支持的状态没有任何关系。例如,当患者出院或与家庭成员讨论转诊到机构时,或如果患者在亚急性康复机构,该机构将不被视为居住地或照顾者时,可能会制定计划。我们创建了一个机构否定词汇的词典,并在每个机构名称的4个单词窗口中搜索它们。如果找到了指定的否定词,那么该机构就会被忽略。

如果没有找到任何术语,则认为该说明没有可用的信息来预测居住地点或照顾者的存在,并且所有字段都被设置为零。

基于规则的算法描述

注释指南中提供了13个选择标准,并在算法中按顺序编码,描述如下:

  1. 将原始病历中的“PT”(大写)替换为“physical therapy”(物理治疗),以避免错误地将“PT”作为“patient”(病人)的缩写。
  2. 将原始文本转换为小写字母。
  3. 删除小写注释中的以下模式以避免误报:“护士导航员”、“导航员护士”、“患者入口”、“患者姓名”、“与患者的关系”,后面跟着没有答案的空格,“例如,探访护士”、“患者和护理人员”、“患者或护理人员”、“患者和/或护理人员”、“家庭医学”、“家庭实践”、“家庭医生”、“家庭医生”、“单独与家人在一起”、“口头理解”和“口头理解”。
  4. 为了避免将“家庭”错误地标记为非正式的照顾者,我们删除了“家族史”的每一个出现以及后面的所有单词,直到出现一个新的行字符。
  5. 如果出现以下任何一种情况:“助眠”、“助眠”、“助眠”、“助眠”、“助听器”、“助听器”、“助听器”和“助听器”,请删除所有出现小写符号的“助听器”和“助听器”。
  6. 用“patient”替换下面的模式,以避免在“patient”或“pt”附近错误地捡到“want”:“want the patient”,“wants the patient”,“wanted the patient”,“want the pt”,“wants the pt”,“wanted the pt”,“want pt”,“wants pt”,“wants pt”,“wanted pt”,“wants pt”和“wanted pt”。
  7. 将“pt或ot”,“pt和ot”,或“pt/ot”替换为“物理治疗和ot”,以避免错误地将“pt”误认为“患者”。
  8. 在标记化之前,将“e-mail”替换为“email”,以避免“e-mail”被分为“e”和“mail”。
  9. 将“患者伙伴”的变体(例如,“患者的伙伴”,“患者伙伴”和“患者伙伴”,其中“\n”是一个新的行字符)替换为自身。
  10. 通常情况下,“探访护士”的证据本身可能是一种变体(例如,“来自家庭护理护士的探访”)。为避免遗漏此类情况,对于每一句含有“护士”的句子,我们在该句中出现“护士”之前搜索“来访”(例如“访问”)的变体,或者在该句中及下一句中出现“护士”之后搜索“来访”的变体。
  11. 为了避免在机构护理人员在场时错误地标记非正式护理人员或家庭,在每个小写的医疗记录中,我们删除了所有包含机构n-gram的句子中出现的“病人”、“pt”、“护理人员”、“护理人员”和“监护人”。
  12. 如果笔记中出现了词典中的任何机构术语,就有证据表明有机构看护人。为了排除潜在的、过去的或未经批准的机构护理人员的假阳性,或者当服务仅用于康复目的时(例如,“患者从冰川山出院”,“从冰川山回家”和“在冰川山等候名单上”),我们寻找了“返回”(例如,“返回”和“返回”),“出院”(例如,“出院”和“正在从”),“等候名单”(例如,“等候名单”和“等候名单”),“取消”,“拒绝”,在包含机构术语的句子中使用“批准”、“要求”、“建议”、“请求”和“康复”(如“康复”)。如果在句子中出现了任何变体,那么在注释中出现的所有机构术语都将被忽略。
  13. 为了看看当机构护理人员不在时,是否有在家自我护理的证据(家=1),我们在预先指定的(n=4)单词窗口中寻找“病人”、“pt”或“病人的”患者动词。如果在某个社区中至少有一个患者动词,就有证据表明患者在某种程度上参与了自己健康的决策。此外,在笔记中出现“与患者的关系:”,后面跟着“患者”,“pt”或“自我”,也构成了家庭自我护理的证据。

分类错误的潜在原因

使用带注释的医疗记录作为我们的黄金标准的算法错误分类的主要原因将被讨论和总结。

使用其他医疗记录的普遍性

为了测试我们的算法在其他病历中的可泛化性,我们检查了在其他病历中可以找到数据字典特征的百分比。这些笔记都没有注释。这些发现为下一步提供了一些初步数据,下一步是使用其他医疗记录,使算法更具普适性。

伦理批准

该研究已获得密歇根医学机构审查委员会(HUM00129193)的批准。


我们使用R包3.6.3版本(The R Foundation)来开发和测试我们的NLP算法。图1给出了我们的采样流程示意图。在我们的患者队列的304,186份可用的电话交谈记录中,我们注释了749份培训笔记和227份测试笔记。

表1显示了我们的患者队列(n=223)的一些特征。平均年龄78岁(SD 10.94岁),以女性为主(n= 128,57%)。约79% (n=176)为白人,15% (n=33)为黑人。平均住院时间6.78天(SD 6.54天)。大约24% (n=54)的患者在出院后30天内再次入院或死亡。

表2显示基于规则的算法在训练集和测试集中的结果。在我们感兴趣的特征中(住在家里,住在机构,有一个正式的照顾者,和有一个非正式的照顾者),确定一个非正式的照顾者是最可靠的特征。我们测试集的结果表明,识别非正式护理人员的准确性和可靠性较高(F1=0.942,准确度=0.947,敏感性=0.970,特异性=0.928)。确定病人是否住在机构是最不可靠的措施,算法容易出现假阳性(F1=0.638,准确度=0.899,敏感性=0.512,特异性=0.978)。训练集和测试集中所有4个特征的总体准确性水平分别为0.858和0.655。

表3总结了错误分类的潜在原因,并列举了一些例子和合理解释。最常见的错误与(1)设施名称不完整或拼写错误有关;(二)过去的、不确定的、未定的情形;(3)缺乏特异性;(四)使用不常用的缩略语;(5)模板使用不规范。

为了使用其他医疗笔记来检验我们算法的可泛化性,我们测量了我们的数据字典中定义的特征在5种不同类型的医疗笔记(患者护理会议、药房、精神急诊科临床医生、社会工作和学生)中所占的百分比,用于我们的患者队列(表4).结果表明非正式照顾者具有最高水平的普遍性。例如,83% (n=1768)和76% (n=595)的“患者护理会议”和“社会工作”笔记包含了非正式护理人员的信息。另一方面,约69% (n=333)的“药房”笔记有关于正式护理人员的可提取信息。这些信息可用于今后检查其他类型的医疗记录。

表1。包含在训练集和测试集的个体的描述特征(N=223)一个).
特征
入院时年龄,平均值(SD) 77.96 (10.94)
性别,n (%)

128 (57.4)

男性 95 (42.6)
种族,n (%)

白色 176 (78.9)

黑色的 33 (14.8)

拉美裔 3 (1.4)

其他人 11 (4.9)
平均住院时间(SD) 6.78 (6.54)
付款人,n (%)

医疗保险+私人 103 (46.2)

医疗保险+医疗补助 34 (15.3)

医疗保险只 53 (23.8)

私人只 6 (2.7)

其他或失踪 27日(12.1)
出院后30天内再入院或死亡n (%) 54 (24.2)

一个样本中唯一个体的数量。每个人都有一份或多份“电话接触”医疗记录。

表2。训练和测试集的模型性能总结。
模型 培训(N = 749) 测试(N = 227)

居住地点 照顾者 居住地点 照顾者
首页 机构 正式的 非正式的 首页 机构 正式的 非正式的
F1一个 0.942 0.675 0.746 0.951 0.873 0.638 0.640 0.942
精度b 0.923 0.964 0.923 0.964 0.837 0.899 0.841 0.947
灵敏度c 0.947 0.609 0.680 0.971 0.870 0.512 0.571 0.970
特异性d 0.875 0.987 0.971 0.960 0.778 0.978 0.930 0.928

一个F1-score:算法作为精度和召回率的调和平均值的预测能力。F1-score的取值范围为0 ~ 1,越接近1越好。F1-score=2 *(精度*召回率)/(精度+召回率)。

b正确分类的阳性和阴性观察数。准确度=(真阳性+真阴性)/(真阳性+假阳性+真阴性+假阴性)。

c模型预测每个类别的真实正值的能力。

d模型预测每个类别的真负值的能力。

表3。分类错误的潜在原因,并举例说明。
错误原因 例子 解释
不完整或拼写错误的名字
  • "病人说住院的护士抽血有困难"
  • "药物由吉尔伯特医院的员工管理"
  • “安阿伯的哈特兰”
  • 住宅是“住宅家庭健康”的简称。如果我们只在数据字典中添加“Residential”,假阳性就会增加。
  • 吉尔伯特之家不在字典里。正式名称是吉尔伯特住宅。
  • 哈特兰不在字典里。正式名称是哈特兰医疗保健中心。
过去的、不确定的或未决定的情况
  • 还需要“居家护理”的订单。
  • “他分享说,他已经探索了家庭保健机构(发现它们不适合他正在寻找的东西)。”
  • “我很高兴她已经确定了长期目标,而冰川山是她的最终选择。”
  • “在不久的将来会有一个护士来看望我(会在姐姐家)。”
  • “家庭护理”被NLP视为正式=1。
  • 误以为“家庭健康”是正式的=1。
  • 误选的机构=1,形式=1。
  • 误接来访护士为正式护士=1。
缺乏特异性
  • "和照顾xxx先生的唐娜谈过了"
  • “艾伦使用月度整理工具管理药物。”
  • "我是康复中心打来的有几个关于伤口护理的问题"
  • 目前尚不清楚“唐娜”是正式的还是非正式的照顾者。算法取到了formal=1。
  • 算法忽略了Ellen作为正式的照顾者(formal=0)。
  • 在某些情况下,患者待在康复机构(机构=1,正式=1),在某些情况下,患者待在家里,去康复机构(机构=0,正式=0)。由于这种模糊性,我们没有将rehab facility纳入词典。
不常见的缩写
  • “pt的dtr”
  • “她的dau在白天工作。”
  • DTR和dau是女儿的缩写。它们没有列在字典里。
表4。自然语言处理护理人员算法在其他医疗笔记中的结果(结果显示在其他医疗笔记中可以找到数据字典特征的百分比)。
注意类型 数n 总的来说,n (%)一个 居住在家中,n (%) 居住在某机构,n (%) 正式护理人员,n (%) 非正式护理人员,n (%)
电话遇到 2000 1744 (87.2) 1326 (66.3) 426 (21.3) 704 (35.2) 1612 (80.6)
病人护理会议 2130 1825 (85.7) 1442 (67.7) 481 (22.6) 688 (32.3) 1768 (83.0)
药店 483 411 (85.0) 128 (26.4) 320 (66.2) 333 (68.9) 140 (29.0)
精神艾德b临床医生 488 351 (71.9) 394 (80.7) 41 (8.4) 55 (11.3) 345 (70.7)
社会工作 783 621 (79.3) 612 (78.2) 147 (18.8) 212 (27.1) 593 (75.7)
学生 1201 921 (76.7) 873 (72.7) 160 (13.3) 240 (20.0) 852 (70.9)

一个总体百分比表示数据字典中的至少一个特征在所列医疗记录中使用的比例,而特定特征百分比表示包含有关特定结果信息的记录的比例。这样做是为了测试该算法在其他医疗记录中的可泛化性,以供将来的工作使用。

b急诊室。


主要研究结果

这个项目是第一个评估医疗记录是否可以用来确定护理人员的可用性和居住地点的项目。我们使用基于规则的NLP算法,对2016年至2019年期间为诊断为痴呆症的患者记录的电话交谈记录的子集进行分析,以确定护理人员的可用性(正式和非正式)和居住地(家庭或机构)。我们的算法可靠地识别了非正式护理人员的可用性(F1-得分=0.94),一般认为家是居住的地方(F1-得分=0.87),如果患者生活在机构中,则很难识别(F1-得分=0.64)或有正式的照顾者(F1分数= 0.64)。

与之前工作的比较

医院和卫生系统已经并将继续对其电子病历系统进行大量投资。虽然系统收集重要医疗和社会数据的工作仍在进行中,但使用NLP算法的成功努力已经能够有效地挖掘丰富的自由文本医疗记录,用于各种风险评估或决策工具,旨在减少不良健康事件的发生和浪费的开支[22-24].我们的研究与这项工作相一致,以确定患者的健康取决于护理人员的护理人员可用性。

对于许多老年患者,特别是认知能力下降或残疾的患者,有关护理人员可用性的信息有许多应用。例如,Choi等人最近的研究[9的研究显示,在痴呆症或残疾患者中,那些拥有更多非正式照顾者(即家庭成员或亲密朋友)的人不太可能被收容。医疗环境中护理人员信息的可用性可能有助于更好的护理过渡(即从医院出院计划)、护理使用(即机构vs家庭)和护理成本[25-29].通过与护理人员的护理协调,患者可以更好地遵守随访预约,并更有效地遵循规定的饮食和药物治疗方案。此外,社会工作者或护理协调员可识别需要照顾者但很少或没有家庭支持的患者,以主动引导他们使用正式护理(即养老院或付费家庭护理)[29-32].

在这项研究中,我们使用了电话交谈记录,基于与患者或他们的护理人员的电话交谈。这些记录大多是由护士根据他们在不同时间点与患者或患者家属的对话撰写的。也许是因为电话交谈记录是基于与患者或家庭成员(或其他非正式护理人员)的直接对话,该算法在识别非正式护理人员方面非常准确。此外,由于非正式照顾者通常是亲密的家庭成员,我们有一个更好的数据字典来识别他们的文本。相反,考虑到有大量的地方提供从成人日托中心到独立生活的一系列服务,也许我们在训练集中过度拟合了模型。因此,测试集中其他3个变量的准确性有所下降。还需要做更多的工作来检测短期和长期居住场所或有偿护理组织或机构。

此外,在许多情况下,很难通过人工解读来破译这些笔记。医疗记录要么没有标准模板,要么现有模板没有标准化或使用不规范。各种卫生保健专业人员(住院医生、医生、护士、社会工作者等)在资源有限和时间压力下撰写这些笔记。因此,非标准化的缩写(例如,“dau”表示“daughter”)、拼写错误以及不正确和不常见的名字经常被使用。其中许多问题不能使用现成的包或程序来解决。相比之下,尽管不能泛化,但基于规则的NLP算法作为解决许多机构特定术语的概念证明。我们计划在未来的工作中解决以下许多限制。

局限性、优势和未来工作

我们的研究有一些值得注意的局限性。首先,医疗记录基于非结构化文本。我们发现,所提供信息的数量和类型存在很大差异。3132].我们使用电话就诊记录是因为,根据我们对我们机构内创建的60多份不同的医疗记录的检查,它们提供了有关护理人员的最相关信息。然而,我们在其他注释中至少检测到数据字典中的一些元素,结果是合理的。在未来,我们计划通过训练和使用其他医疗记录和来自其他医疗中心的数据来验证我们的算法,从而使我们的算法具有普遍性。其次,手工标注笔记是资源密集型的。因此,我们的样本量相对较小,我们计划在未来扩大样本量。我们还将探索更复杂和无监督的机器学习算法的使用。第三,为了使算法更直观,我们没有区分缺乏客观证据和缺乏负面证据。因此,如果没有关于看护者或居住地的证据,我们将结果标记为零。在我们未来的工作中,我们计划通过确定有多少音符具有(1)正指标,(2)负指标和(3)无指标,使算法更加细化。 Further, to identify whether the patient lived in an institution, we used a list of skilled nursing facilities provided by the Centers for Medicare and Medicaid Services. There are, however, many unlisted independent living centers, adult day care centers, and other facilities designed to provide various services (residential and otherwise). It is challenging to include a comprehensive list of these facilities and their services. Having a reliable national directory of these facilities would help improve the model’s accuracy in determining whether a patient lives in a facility or is the recipient of paid or formal services. Finally, in this exploratory work, we only examined the binary availability of caregivers. Our future work will be focused on more critical information such as the caregiver’s proximity to the patient, the days and times of availability, the caregiver’s relation with the patient, and their capacity to help.

结论

在这项研究中,我们使用基于规则的方法来训练、测试和开发一种NLP算法,使用我们机构的电话会面记录来确定患者是否有正式和非正式的护理人员,以及患者在每个时间点是住在家里还是住在机构中。我们的验证测试结果显示了高水平的准确性和可靠性,特别是在确定患者是否有一个非正式的护理人员。这一信息对于痴呆患者等弱势患者群体至关重要。我们的算法可以作为一个独立的模块使用,也可以与其他工具结合使用,以确定高危患者群体中的护理人员可用性。未来的工作将集中在使算法更细粒度和可泛化,以便它可以用于其他机构。

致谢

我们要感谢注册护士和临床信息学家维多利亚·布里斯特利(Victoria Bristley)在注释医疗记录方面的帮助。

本刊报道的研究得到了美国国立卫生研究院老龄化研究所(P30AG066582和K01AG06361)和阿尔茨海默病协会研究基金(AARG-NTF-20-685960)的支持。发起人在研究设计、数据收集、数据分析和研究结果中没有任何作用。

数据可用性

由于医疗记录包含可识别的患者信息,因此不适用数据共享。数据字典可以在基于web的附录中找到。自然语言处理算法也可用[33].

作者的贡献

EM和JB负责研究策略的设计和发展。WW、CN和EM负责算法开发和数据验证。所有作者都进行了手稿的起草和修改。

利益冲突

没有宣布。

多媒体附件1

补充表1-3。

DOCX文件,41 KB

  1. 电子健康记录导致医生倦怠。CMAJ 2017 11月13日;189(45):E1405-E1406 [免费全文] [CrossRef] [Medline
  2. 陈志强,陈志强,刘志强,等。使用电子健康记录的医生和护士之间临床文件负担的测量:范围审查。美国医学通报协会2021年4月23日;28(5):998-1008 [免费全文] [CrossRef] [Medline
  3. 张志强,李志强,李志强,等。基于nlp的癌症相关病历信息提取的框架语义研究。J Biomed Inform 2019年12月;100:103301 [免费全文] [CrossRef] [Medline
  4. Castro VM, Minnier J, Murphy SN, Kohane I, Churchill SE, Gainer V,双相情感障碍国际队列收集联盟。双相情感障碍病例和对照的电子健康记录表型验证。Am J Psychiatry 2015 Apr;172(4):363-372 [免费全文] [CrossRef] [Medline
  5. 鲁姆斯基A, Ghassemi M, Naumann T, Szolovits P, Castro VM, McCoy TH,等。用叙述出院总结的自然语言处理预测早期精神病再入院。Transl Psychiatry 2016 10月18日;6(10):e921-e921 [免费全文] [CrossRef] [Medline
  6. Cook BL, Progovac AM, Chen P, Mullin B, Hou S, Baca-Garcia E.在马德里基于文本的心理健康干预中,新颖地使用自然语言处理(NLP)来预测自杀意念和精神症状。2016:8708434-8708438 [免费全文] [CrossRef] [Medline
  7. Patra B, Sharma M, Vekaria V, Adekkanattu P, Patterson O, Glicksberg B,等。使用自然语言处理从电子健康记录中提取健康的社会决定因素:一项系统综述。J Am Med通知协会2021年11月25日;28(12):2716-2727 [免费全文] [CrossRef] [Medline
  8. Alami H, Lehoux P, Gagnon M, Fortin J, Fleet R, Ag Ahmed MA。通过四个目标重新思考电子健康记录:时间使其价值与卫生系统相一致。BMC Med Inform Decis Mak 2020年2月17日;20(1):32 [免费全文] [CrossRef] [Medline
  9. 崔H, Heisler M, Norton EC, Langa KM, Cho T, Connell CM。美国成人痴呆症患者使用的非正式和正式护理的家庭护理可用性和影响。卫生事务员(米尔伍德)2021年9月01日;40(9):1359-1367 [免费全文] [CrossRef] [Medline
  10. Hanauer DA, Mei Q, Vydiswaran VGV, Singh K, Landis-Lewis Z, wc .临床病历编号的复杂性、变化和错误:对信息提取和队列识别的潜在影响。BMC Med Inform Decis Mak 2019 Apr 04;19(Suppl 3):75 [免费全文] [CrossRef] [Medline
  11. Vydiswaran VGV, Strayhorn A, Zhao X, Robinson P, Agarwal M, Bagazinski E,等。描述队列识别选择标准的混合方法袋。J Am Med Inform association 2019年11月01日;26(11):1172-1180 [免费全文] [CrossRef] [Medline
  12. Vydiswaran VGV,张勇,王勇,徐慧。BMC医学信息学与健康自然语言处理决策特刊。BMC Med Inform Decis Mak 2019 Apr 04;19(Suppl 3):76 [免费全文] [CrossRef] [Medline
  13. 赵霞,于东。数据科学与自然语言处理在临床领域信息提取中的应用。2022年出席:第5届数据科学与数据管理联合国际会议(第9届ACM IKDD CODS和第27届COMAD);2022年1月8日至10日;印度班加罗尔,第352-353页。(CrossRef
  14. 拜纳姆JP,多尔达,利马J,麦卡锡EP,麦克里迪E,普拉特R,等。在痴呆症患者及其护理人员的嵌入式实用临床试验中使用医疗保健数据:最新状况。J Am Geriatr Soc 2020 july 26;68增刊2(S2):S49-S54 [免费全文] [CrossRef] [Medline
  15. 减少风险因素对阿尔茨海默病流行的预期影响。Lancet Neurol 2011 Sep;10(9):819-828 [免费全文] [CrossRef] [Medline
  16. Sinvani L, Warner-Cohen J, Strunk A, Halbert T, Harisingani R, Mulvany C,等。改善老年认知障碍患者医院护理的多成分模型:倾向得分匹配分析。中国老年医学杂志2018年9月11日;66(9):1700-1707。(CrossRef] [Medline
  17. 郑s, Hanchate A, Shwartz M.有30天再入院和没有30天再入院的一年费用和增强的风险调整。BMC Health services Res 2019 3月12日;19(1):155 [免费全文] [CrossRef] [Medline
  18. 朱cw, Cosentino S, Ornstein K, Gu Y, Andrews H, Stern Y.痴呆症患者的住院使用和住院费用:来自社区研究的纵向结果。国际老年精神病学杂志2014年10月29日;30(8):833-841。(CrossRef
  19. Mahmoudi E, Kamdar N, Kim N, Gonzales G, Singh K, Waljee AK。电子病历在再入院风险预测模型开发和验证中的应用:系统回顾。BMJ 2020 april 08;369:m958。(CrossRef] [Medline
  20. Yacouby R, Axman D.准确率、召回率和F1分数的概率扩展,以更彻底地评估分类模型。2020年发表于:第一次NLP系统评估和比较研讨会论文集;2020年11月20日;在线第79-91页。(CrossRef
  21. 疗养院包括康复服务数据集。医疗保险和医疗补助服务中心。URL:https://data.cms.gov/provider-data/search?theme=Nursing%20homes%20including%20rehab%20services[2021-08-30]访问
  22. 宋松,陈凯,吴德平,洪亮,苏勇,胡艳。应用自然语言处理技术开发脑卒中及时溶栓EMR接口的可行性研究。国际医学杂志2018年4月;112:149-157。(CrossRef] [Medline
  23. 李志伟,李志强,李志强,等。临床记录的自然语言处理,以确定艾滋病毒感染者中的精神疾病和药物使用:回顾性队列研究。JMIR Med Inform 2021年3月10日;9(3):e23456 [免费全文] [CrossRef] [Medline
  24. 王杰,邓辉,刘波,胡安,梁军,范林,等。近20年来医学自然语言处理研究进展的系统评价:PubMed文献计量学研究。J Med Internet Res 2020年1月23日;22(1):e16816 [免费全文] [CrossRef] [Medline
  25. Kocher RP, Adashi EY。医院再入院和平价医疗法案:为协调的高质量医疗付费。美国医学杂志2011年10月26日;306(16):1794-1795。(CrossRef] [Medline
  26. Kripalani S, Theobald CN, Anctil B, Vasilevskis EE。降低再入院率:当前策略和未来方向。2014年1月14日;65(1):471-485 [免费全文] [CrossRef] [Medline
  27. Joynt KE, Jha AK。三十天再入院——真相和后果。中华外科杂志2012年4月12日;366(15):1366-1369。(CrossRef
  28. kisstler CE, Beeber AS, Winzelberg GS, Gabriel SL, Wretman CJ, Hanson LC。评估培训工具包,以提高临床医生的痴呆症提前护理计划技能。J Palliat Med 2021 Aug 01;24(8):1183-1190。(CrossRef] [Medline
  29. Wennberg A, Dye C, Streetman-Loy B, Pham H.老年痴呆症患者家庭照顾者:负担和干预的回顾。健康社会工作2015年8月25日;40(4):e162-e169。(CrossRef
  30. Bressan V, Visintini C, Palese A.痴呆症患者的家庭照顾者需要什么?混合方法系统综述。卫生社会护理社区2020年11月16日;28(6):1942-1960。(CrossRef] [Medline
  31. Jagannatha A, Liu F, Liu W, Yu H.关于从电子健康记录记录(MADE 1.0)中提取药物、适应症和不良药物事件的第一个自然语言处理挑战的概述。药物saf2019 Jan 16;42(1):99-111 [免费全文] [CrossRef] [Medline
  32. Perera S, Sheth A, Thirunarayan K, Nair S, Shah N.理解临床记录的挑战:为什么nlp引擎不足,背景知识可以在哪里提供帮助。2013年发表于:2013年医疗保健数据管理与分析国际研讨会论文集;2013年11月1日;美国纽约,第21-26页。(CrossRef
  33. ADRD-NLP。GitHub。URL:https://github.com/Mahmoudi-Lab/ADRD-NLP[2022-09-15]访问


EMR:电子病历
MM:密歇根大学医学
NLP:自然语言处理


编辑:T Leung;提交12.06.22;L Xia, J Kuriakose同行评审;对作者10.07.22的评论;修订版本收到28.07.22;接受16.08.22;发表22.09.22

版权

©Elham Mahmoudi, Wenbo Wu, Cyrus Najarian, James Aikens, Julie Bynum, V G Vinod Vydiswaran。最初发表在JMIR Aging (https://aging.www.mybigtv.com), 22.09.2022。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Aging上的原创作品。必须包括完整的书目信息,https://aging.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。


Baidu
map