发表在10卷第11名(2022): 11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/41342,首次出版
训练国际疾病分类的深度上下文化语言模型,第十次修订分类通过联邦学习:模型开发和验证研究

训练国际疾病分类的深度上下文化语言模型,第十次修订分类通过联邦学习:模型开发和验证研究

训练国际疾病分类的深度上下文化语言模型,第十次修订分类通过联邦学习:模型开发和验证研究

原始论文

1国立台湾大学生物医学电子与生物资讯研究所,台北市

2台湾新北市远东纪念医院麻醉科

3.国立台湾大学计算机科学与资讯工程系,台北市

4台北荣民总医院资讯管理部,台北市

5医疗人工智能发展中心,台北市荣民总医院,台北市

6国立台北护理与健康科学大学资讯管理学系,台北市

7国立台湾大学电机工程系,台北市

8国立台湾大学网路与多媒体研究所,台北市

9台湾新北市远东纪念医院内科

10台北市,台大医学院附属台大医院内科

11台湾新北市远东纪念医院医学部

12台湾新北市远东纪念医院外科加护部

13台湾新北市远东纪念医院儿科

14国立阳明交通大学医学院,台北,台湾

15台湾新北市远东纪念医院人工智能中心

16台湾新北市远东纪念医院医学部健康保险科

17台湾新北市远东纪念医院病历部

18台湾新北市远东纪念医院资讯科技科

19台湾新北市远东纪念医院心血管中心心血管内科

*这些作者贡献相同

通讯作者:

Yang Chi-Yu,医学博士

资讯科技部

远东纪念医院

板桥区南亚南路二段21号

新北市,220216

台湾

电话:886 2 8966 7000

电子邮件:chiyuyang1959@gmail.com


背景:临床文本文件的自动编码《国际疾病分类》第十版(ICD-10)可用于统计分析和报销。随着自然语言处理模型的发展,新的具有注意机制的变压器体系结构优于以前的模型。虽然多中心训练可以提高模型的性能和外部有效性,但临床文件的隐私应该得到保护。我们使用联邦学习来训练一个多中心数据模型,而不是共享数据本身。

摘要目的:本研究旨在通过联邦学习训练分类模型,用于ICD-10多标签分类。

方法:电子病历中出院记录的文本数据来自以下三个医疗中心:远东纪念医院、国立台湾大学医院和台北退伍军人总医院。在比较了来自变压器(BERT)的双向编码器表示的不同变体的性能后,选择PubMedBERT进行词嵌入。在预处理方面,由于去除非字母数字字符后模型性能下降,因此保留了非字母数字字符。为了解释模型的输出,我们在模型架构中添加了标签注意机制。该模型分别使用来自三家医院的数据并通过联邦学习进行训练。通过联邦学习训练的模型和使用本地数据训练的模型在由三家医院的数据组成的测试集上进行比较。微F1评分用于评估所有3个中心的模型性能。

结果:F1PubMedBERT、RoBERTa(鲁棒优化BERT预训练方法)、ClinicalBERT和bibert(生物医学文本挖掘BERT)的分数分别为0.735、0.692、0.711和0.721。的F1保留非字母数字字符的模型得分为0.8120,保留非字母数字字符的模型得分为0.8120F1去掉这些字符后的评分为0.7875,下降了0.0245(3.11%)。的F1联邦学习模型、远东纪念医院模型、台大医院模型和台北市退伍军人总医院模型的测试集得分分别为0.6142、0.4472、0.5353和0.2522。可解释的预测通过标签注意架构以高亮的输入词显示。

结论:在保护数据隐私的同时,使用联邦学习在多中心临床文本上训练ICD-10分类模型。该模型的表现优于局部训练的模型。

JMIR Med Inform 2022;10(11):e41342

doi: 10.2196/41342

关键字



背景

世界卫生组织发布了一套统一的疾病诊断分类系统《国际疾病分类》(ICD),而ICD第十次修订版(ICD-10)则广泛使用[1].编码员根据ICD的规则对疾病进行分类,得到的ICD代码用于调查、统计和报销。ICD-10临床修改(ICD-10- cm)用于对医疗诊断进行编码,包括约69,000个编码[23.].ICD-10-CM编码包含7位数字;结构如图所示图1

图1。的结构国际疾病分类,第十次修订,临床修订代码。
查看此图

在医院里,每个病人的诊断首先以文字描述的形式写在电子健康记录中。然后编码员读取这些记录,将诊断分类为ICD代码。因为诊断最初是写成自由文本的,文本的模糊性使得诊断很难编码。对每种诊断进行分类非常耗时。一个出院记录可以包含1到20个代码。根据试验的估计,编码员平均花费20分钟为每个患者分配代码[4].利用自动化工具可以提高ICD分类的效率,减少人工。

相关工作

最近,深度学习和自然语言处理(NLP)模型已经开发出来,可以将纯文本转换为向量,从而使自动分类成为可能。史等[5]提出了一种具有注意机制的分层深度学习模型。Sammani等人[6]引入双向门控循环单元模型,根据放电字母预测ICD码的前3位或4位。王等[7]提出了一种具有注意机制和门控残差网络的卷积神经网络模型,用于将中文记录分类为ICD码。马可洪等[8]表明,具有注意力机制的深度学习有效地增强了ICD-10预测。先前的研究也提到了庞大数据集的必要性,以及隐私敏感的临床数据如何限制ICD-10自动分类模型的发展[6].

联邦学习在医疗领域取得了令人印象深刻的成果,被用于在多中心数据上训练模型,同时保持它们的私密性。联邦学习广泛应用于医学图像和信号分析,如脑成像分析[9]及脑电图信号的分类[10].在临床NLP领域,Liu等[11]提出了一种两阶段联合方法,包括使用来自不同医院的临床记录来提取医疗任务的表型。

此前,我们应用带有双向门控循环单元的Word2Vec模型对电子病历中的ICD-10-CM代码进行分类[12].我们分析了ICD-10-CM编码的分布,并从出院记录中提取特征。模型有一个F1ICD-10-CM代码分类得分为0.625。为了提高模型的性能,我们实现了变压器(BERT)的双向编码器表示,并发现了一个改进的F1ICD-10-CM代码分类得分为0.715 [4].我们还发现,当编码员使用分类模型辅助时,编码时间减少;中位数F1得分由0.832显著提高至0.922 (P<.05)试验中[4].此外,我们构建了一个系统以提高易用性,包括数据处理、特征提取、模型构建、模型训练和web服务接口[4].最后,我们在预处理过程中加入了基于规则的算法,并对算法进行了改进F1ICD-10-CM分级为0.853 [13].

客观的

本研究旨在进一步提高ICD-10分类模型的性能,并使该模型能够在医院中使用。在这项研究中,我们调查了联邦学习对一个模型性能的影响,该模型是在需要ICD-10分类的医学文本上训练的。


伦理批准

研究方案由远东纪念医院(FEMH;批准号:109086-F),国立台湾大学医院(NTUH;批准文号:201709015RINC)、台北市荣民总医院(VGHTPE;批准号:2022-11-005AC),并且该研究坚持了《赫尔辛基宣言》的原则。由于使用的是未识别数据,因此不适用知情同意。

数据收集

我们的数据来自FEMH(2018年1月至2020年12月记录的数据)、NTUH(2016年1月至2018年7月记录的数据)和VGHTPE(2018年1月至2020年12月记录的数据)的电子健康记录。数据包括出院通知单和ICD-10-CM代码。每个医院的编码员都对ICD-10编码进行了注释。

数据描述

在删除重复记录后,我们的数据集分别包含来自FEMH、NTUH和VGHTPE的100,334、239,592和283,535份出院记录。每条记录包含1到20个ICD-10-CM标签。每个章节的标签分布如图所示图2.这些章节是按前三位数字分类的。V01章至Y98章的代码不用于保险报销;因此,它们被排除在我们的数据集中。U00 ~ U99章ICD-10-CM标签数量最小,J00 ~ J99章ICD-10-CM标签数量最大。三家医院的ICD-10-CM标签计数见多媒体附件1

数据集中的文本包含字母、标点符号和一些汉字。中所示的标点符号数量和使用次数最多的10个汉字多媒体附件2.最常见的标点符号是句号(" . "),最不常见的是右括号("}")。

图2。来自(A)远东纪念医院、(B)国立台湾大学医院和(C)台北退伍军人总医院的22个章节的ICD-10-CM标签计数。ICD-10-CM:国际疾病分类,第十次修订,临床修订
查看此图

预处理

我们首先从数据集中删除重复的医疗记录。然后,我们将所有全宽字符转换为半宽字符,并将所有字母字符转换为小写字母。短于5个字符的记录被删除,因为这些通常是无意义的单词,如“nil”和“none”。我们还删除了无意义的字符,例如换行符、回车符、水平制表符和已形成的字符(分别为“\n”、“\r”、“\t”和“\f”)。最后,将所有文本字段连接起来。

为了在预处理阶段选择一种更好的方法来管理标点和汉字,我们使用FEMH数据来确定模型的性能,假设这些字符包含在数据中。每个实验使用两个版本的数据。在第一个版本中,我们保留了这些特定的角色,而在第二个版本中,我们删除了它们。实验P考察了标点符号的影响,实验C考察了汉字的影响,实验PC考察了标点符号和汉字的影响。保留汉字信息的另一种方法是使用汉字的英文翻译。因此,我们还比较了保留汉字时模型的性能与使用谷歌Translate获取英语翻译时模型的性能。

标签采用单热编码。在69,823个可用的ICD-10-CM编码中,有17,745个出现在我们的组合数据集中,导致单热编码向量长度为17,745。最终队列分别包括来自FEMH、NTUH和VGHTPE的100,334、239,592和283,535条记录;20% (femh: 20067 / 100334;台大医院:47918/239592;随机选取VGHTPE: 56,707/283,535)的记录作为测试集,其余记录作为训练集。

分类模型

我们比较了不同变种的BERT的性能,包括PubMedBERT [14], RoBERTa(稳健优化BERT预训练方法)[15], ClinicalBERT [16],以及BioBERT(用于生物医学文本挖掘的BERT) [17].BioBERT使用来自pubmed的文本进行预训练,pubmed是健康和医学科学领域最受欢迎的书目数据库。ClinicalBERT使用MIMIC-III (Medical Information Mart for Intensive Care III)数据集进行预训练,其词汇来自英语维基百科和BookCorpus数据集。PubMedBERT是BERT的另一个变体,它使用PubMed的训练数据。PubMedBERT和BioBERT的主要区别在于它们的词汇表。BioBERT的词汇表来自英文维基百科和BookCorpus数据集——bert的词汇表也是如此——而PubMedBERT的词汇表则来自PubMed。这种词汇的差异影响了临床文本中的单词识别能力。RoBERTa使用了原来的BERT模型,但它也使用了更长的训练时间、更大的批大小和更多的训练数据。训练数据来自BookCorpus、CC-News (CommonCrawl News)和OpenWebText数据集。RoBERTa还应用了动态屏蔽,这意味着屏蔽令牌将被多次更改,而不是在原始BERT中被固定。 The vocabularies and corpora of these BERT variants are summarized in表1

为了进行比较,首先将文本输入BERT标记器,该标记器将字符串转换为标记。然后,对于满足512输入长度限制的每个文本数据,令牌的数量被截断为512。线性层将模型生成的词嵌入连接到单热编码多标签的输出层。线性层的输出大小为17745,与标签的one-hot编码向量大小相匹配。采用二元交叉熵计算模型损失。我们训练我们的模型100个epoch,学习率为0.00005。为ICD-10-CM多标签分类任务对这些模型进行了微调,以比较它们的性能。图3总结了模型的结构和预处理流程。选择性能最好的模型和预处理方法进行后续的联邦学习。

表1。来自变压器(BERT)模型的各种双向编码器表示的词汇表和语料库源的摘要。
模型 词汇的来源 语料库来源(训练数据)
PubMedBERT PubMed PubMed
罗伯塔一个 The BookCorpus, CC-Newsb和OpenWebText数据集 BookCorpus、CC-News和OpenWebText数据集
ClinicalBERT 英文维基百科和BookCorpus数据集 的MIMIC-IIIc数据集
BioBERTd 英文维基百科和BookCorpus数据集 PubMed

一个鲁棒优化BERT预训练方法。

bcc新闻:CommonCrawl新闻。

cmimi -III:重症监护医疗信息集市。

dBioBERT:用于生物医学文本挖掘的BERT。

图3。模型体系结构及处理流程图。CLS:类标记;ICD-10-CM:国际疾病分类,第十次修订,临床修订
查看此图

联合学习

通过联邦学习,可以在不共享数据的情况下训练模型[18].客户端(即本地机器)在交换模型参数权重的同时,将它们的训练数据保存在相同的模型架构上。服务器从每个客户端接收权重并取其平均值。在更新模型之后,服务器将新的权重发送回客户端。然后客户可以开始新一轮的培训。函数更新了模型参数的权重FederatedAveraging算法(18]并使用Flower进行联邦学习[19].

Flower是一个面向研究人员的开源联邦学习框架[19].Flower有一个服务器-客户机结构。服务器和客户端需要分别启动,并且需要为每个客户端分配一个服务器。它们通过开源的谷歌远程过程调用(gRPC;谷歌LLC) [20.].使用gRPC,客户端应用程序可以直接调用服务器应用程序上的方法,这可以在不同的机器上完成。服务器上有一个注册中心,用于管理与所有客户端的通信。服务器中有3个主要模块。第一个连接管理模块维护当前所有gRPC连接。在服务器上,每个gRPC对应于每个客户机。当gRPC建立时,触发register函数将客户端信息存储在数组中。如果客户端发起断开连接或连接超时,将调用register函数来清除客户端。第二个模块(桥接模块)缓存信息,而不管来自客户机还是服务器的gRPC信息将存储在该模块中。然而,由于缓冲区是双向共享的,因此有必要使用状态转换方法来确保缓冲区中的所有信息都是相同的。 There are five states—the关闭等待客户端写入等待客户端读取等待服务器写入,等待服务器读取州。第三个模块——服务器处理程序——管理服务器和客户端之间的通信。

客户被设置在这三家医院,模型在当地数据上进行训练。每个客户机的权重被转移到服务器,在服务器上对权重进行平均,并建立全局模型(图4).我们为客户机上的每一轮培训设置5个epoch,为服务器聚合设置20轮。我们的研究在2个节点上进行。每个节点都有一个具有64 GB RAM的NVIDIA RTX 2080 Ti图形处理单元(NVIDIA Corporation),一个节点有2个具有64 GB RAM的NVIDIA TITAN RTX图形处理单元(NVIDIA Corporation)。

图4。联邦学习架构。FEMH:远东纪念医院;国立台湾大学附属医院;台北市退伍军人总医院。
查看此图

标签的关注

为了解释我们模型的输出,我们添加了一个标签注意架构[21].它分别根据词向量和每个标签向量的内积计算注意力。图5展示了如何将标签注意力体系结构添加到模型中。首先,通过使用ICD-10-CM代码的定义来生成标签向量,我们对BERT模型进行了微调。其次,我们构造了一个全连接层,其中权值用标签向量初始化。第三,BERT产生的输出通过双曲正切函数传递,从而产生词向量。我们将词向量(Ζ)输入到全连通层和softmax层中。softmax层的输出(⍺)是注意力。第四,我们将词向量的双曲正切函数(H)与注意力(⍺)相乘,输入到另一个全连通层和sigmoid层。这与我们最初的架构相似。输出(y)可以从单热编码标签中减去,用于损失计算。最后,用注意力来解释模型如何预测标签。 Attention was given to the input text for corresponding ICD-10-CM codes. The performance of the model after adding the label attention architecture was compared to its performance without this architecture.

图5。我们的模型架构与标签注意。来自变压器的双向编码器表示。
查看此图

指标

我们使用了微观F1评分来评估性能,因为它是精度和召回率的调和平均值,因此产生的结果比仅使用精度或召回率时产生的结果更平衡。微F1评分计算方法如下:

在哪里

而且

TP总和表示真阳性的和,《外交政策》总和表示误报和FN总和表示假阴性的总和。


不同BERT模型的性能比较

F1PubMedBERT、RoBERTa、ClinicalBERT和BioBERT评分分别为0.735、0.692、0.711和0.721。的F1PubMedBERT得分最高,RoBERTa得分最低(表2).由于这些结果,我们在后续的实验中使用了PubMedBERT。

表2。来自变压器(BERT)模型的不同双向编码器表示的性能。
模型 F1分数 精度 回忆
PubMedBERT 0.735 0.756 0.715
罗伯塔一个 0.692 0.719 0.666
ClinicalBERT 0.711 0.735 0.689
BioBERTb 0.721 0.754 0.691

一个鲁棒优化BERT预训练方法。

bBioBERT:用于生物医学文本挖掘的BERT。

模型在保留或删除标点符号或汉字时的表现

表3显示每个数据集预处理情况下令牌的平均值。去掉标点符号和汉字后,平均标记数为52.9个。实验P(标点符号)、实验C(汉字)和实验PC(标点符号和汉字)中保留字符时的平均标记数分别为65.0、53.1和65.1。在我们的数据中,标点符号和汉字分别占18.3%(1,301,988/7,096,460)和0.1%(7948/7,096,460)。

表3。用于保留或删除标点符号或汉字的数据标记的平均数量。
实验 平均令牌数
删除标点和汉字(基线) 52.9
保留了标点符号 65.0
保留汉字 53.1
保留标点和汉字 65.1

表4显示了F1每个数据集预处理案例的得分。去除标点符号和汉字后,模型的基线性能为0.7875。在实验P中F1标点符号保留得分为0.8049,增加了0.0174分(2.21%)。在实验C中F1汉字记忆得分为0.7984分,提高0.0109分(1.38%)。在PC实验中F1标点和汉字的保留得分为0.8120,增加了0.0245分(3.11%)。在所有实验中,保留这些字符都比删除它们更好,其中PC实验表现出最大的性能改进。

表4。F 1保留或删除标点符号或汉字的分数。
实验 F1分数 绝对增长(百分比)
删除标点和汉字(基线) 0.7875 N/A一个
保留了标点符号 0.8049 0.0174 (2.21%)
保留汉字 0.7984 0.0109 (1.38%)
保留标点和汉字 0.8120 0.0245 (3.11%)

一个N/A:不适用。

翻译前后模型的表现

在我们将汉语翻译成英语的实验中F1汉字记忆得分为0.7984分,汉字翻译得分为0.7983分。

联合学习

表5显示了在三家医院训练过的模型的表现。在FEMH、NTUH和VGHTPE中训练的模型具有验证性F1得分分别为0.7802、0.7718、0.6151。FEMH模型进行了测试F1在FEMH、NTUH和VGHTPE数据集上的得分分别为0.7412、0.5116和0.1596。NTUH模型进行了测试F1在FEMH、NTUH和VGHTPE数据集上的得分分别为0.5583、0.7710和0.1592。VGHTPE模型进行了测试F1在FEMH、NTUH和VGHTPE数据集上的得分分别为0.1081、0.1058和0.5692。加权平均检验F1FEMH、NTUH和VGHTPE模型的评分分别为0.4472、0.5353和0.2522。

表6展示了联邦学习模型在三家医院的表现。联邦学习模型得到了验证F1在FEMH、NTUH和VGHTPE数据集上的得分分别为0.7464、0.6511和0.5979。联邦学习模型有测试F1在FEMH、NTUH和VGHTPE数据集上的得分分别为0.7103、0.6135和0.5536。加权平均检验F1联邦学习模型的得分为0.6142。

表5所示。在三家医院接受训练的模特《国际疾病分类》第十版分类。
医院 验证F1分数 测试F1分数 加权平均检验F1分数
FEMH一个 0.7802
  • 0.7412 (FEMH)
  • 0.5116(台大医院b
  • 0.1596 (VGHTPEc
0.4472
台大医院 0.7718
  • 0.5583 (FEMH)
  • 0.7710(台大医院)
  • 0.1592 (VGHTPE)
0.5353
VGHTPE 0.6151
  • 0.1081 (FEMH)
  • 0.1058(台大医院)
  • 0.5692 (VGHTPE)
0.2522

一个远东纪念医院。

b国立台湾大学附属医院。

c台北市退伍军人总医院。

表6所示。联邦学习模型在三家医院的表现。
数据 验证F1分数 测试F1分数一个
FEMHb数据 0.7464 0.7103
台大医院c数据 0.6511 0.6135
VGHTPEd数据 0.5979 0.5536

一个加权平均检验F1得分为0.6142。

b远东纪念医院。

c国立台湾大学附属医院。

d台北市退伍军人总医院。

标签的关注

F1有标签注意机制和没有标签注意机制的模型得分分别为0.804(精密度=0.849;召回率=0.763)和0.813(精密度=0.852;分别召回= 0.777)。

图6显示了对ICD-10-CM代码及其相关输入文本的关注的可视化。根据不同标签的注意力得分,这些单词被涂成蓝色。蓝色的强度代表了注意力得分的大小。我们以ICD-10-CM编码E78.5(“高脂血症,未指明”)和I25.10(“原生冠状动脉粥样硬化性心脏病,无心绞痛”)为例。

图6。关注国际疾病分类,第十次修订,临床修订代码(A) E78.5(“高脂血症,未指明”)和(B) I25.10(“无心绞痛的原生冠状动脉粥样硬化性心脏病”)。蓝色的强度代表了注意力得分的大小。
查看此图

主要研究结果

在外部数据上测试时,联邦学习模型的表现优于每个本地模型。加权平均数F1联邦学习、FEMH、NTUH和VGHTPE模型在测试集上的得分分别为0.6142、0.4472、0.5353和0.2522 (表5而且表6).在外部数据上测试时,该模型的性能下降。因为不同的医院有不同的医生、编码员和疾病,所以不同医院的临床记录风格可能不同。克服医院之间的这种差距具有挑战性。虽然联邦学习模型在本地数据上测试时的性能不如在本地数据上训练的模型,但在外部数据上测试时,其性能高于在本地数据上训练的模型。此外,在VGHTPE数据集中,标签分布与其他两家医院数据集中的标签分布有很大差异(图2).因此,VGHTPE模型仅实现F1NTUH和FEMH测试集的得分分别为0.1058和0.1081。FEMH和NTUH模型有F1VGHTPE测试集的得分分别为0.1596和0.1592 (表5).

联邦学习提高了模型在外部数据上的性能。联邦学习可用于构建跨医院使用的ICD编码系统。但是,联邦学习所需的训练时间比局部深度学习所需的训练时间要长。联邦学习大约需要1周,本地培训大约需要2天。这有两个原因。首先,如果模型很大,服务器和客户机之间的通信需要更长的时间。我们的模型大小约为859 MB。其次,不同的客户端可能有不同的计算能力,较慢的客户端成为瓶颈[2223].其他客户端可能会等待速度较慢的客户端完成其工作。

PubMedBERT的性能优于BioBERT、ClinicalBERT和RoBERTa。表2表明BERT模型的词汇量是影响模型性能的重要因素。PubMedBERT的词汇表主要包含医学术语,而其他三个模型的词汇表则包含常用词。这种差异影响了识别临床文本中的单词的能力。大多数已发布的BERT模型使用30,522个单词[24].但是,这些词汇表数据不包含一些来自特殊领域的词汇。例如,医学术语“淋巴瘤”在PubMedBERT的词汇表中,但在BioBERT、ClinicalBERT和RoBERTa的词汇表中没有。术语“淋巴瘤”可以通过PubMedBERT标记器转换为标记“淋巴瘤”,但该术语将被BioBERT、ClinicalBERT和RoBERTa分为3个标记-“l”、“## ymh”和“##oma”。

在大多数情况下,非字母数字字符被删除,因为它们被认为对模型无用[25].与具有注意机制的模型相比,早期的NLP模型不能注意标点符号。额外的字符会使模型无法很好地聚焦于关键字。在NLP中,英语文本和其他语言(如阿拉伯语)文本中的标点符号已被删除[26].Ek等[27]比较了两组日常会话文本数据集——一组保留了标点符号,另一组没有。他们的结果显示,保留标点符号的数据集表现更好。

对于实验P, C和PC,当保留额外的字符时,所有模型都表现得更好(表4).实验P证明了PubMedBERT可以使用嵌入标点符号。由于标点符号用于分隔不同的句子,删除它们将所有句子连接起来,从而使模型更难理解文本内容。我们的改善F1保留标点符号的得分与Ek等人之前的研究结果相似。27].我们的研究结果表明,保留标点符号可以提高临床领域文本分类模型的性能。实验C证明了PubMedBERT可以使用嵌入式汉字。尽管PubMedBERT是用英语文本进行预训练的,但它的词汇量包含了许多汉字。来自汉字的标记可能有助于ICD-10临床文本的分类任务,因为它们提供了地名、创伤机制和当地习俗等信息。PC实验结果表明,保留标点符号和保留汉字的好处是相加的。在翻译实验中F1分数差别不大。这一结果表明,该模型可以从中英文临床文本中提取信息。BERT的注意机制的使用增加了我们的模型对关键字的注意能力。标点和汉字为这些模型提供了有用的信息。因此,这种预处理策略(保留更多有意义的标记)为ICD-10分类任务模型提供了更多信息。

在我们之前的研究中,我们引入了一种注意机制,以可视化对ICD-10定义输入文本的注意[4].通过这种方法,我们训练了一个模型来预测ICD-10代码,并训练了另一个模型来提取注意力数据。这种方法可能会导致预测和关注之间的不一致。在这项研究中,我们引入了标签注意架构来可视化对ICD-10代码输入文本的注意[21].这种方法更好地说明了对用于预测ICD代码的输入词的关注,因为它与预测模型使用的方法一致。

F1加入标签注意机制后,模型得分下降0.009。虽然F1分数下降,我们得到了可解释的预测。对于ICD-10-CM代码E78.5(“高脂血症,未明确”)和I25.10(“无心绞痛的原生冠状动脉粥样硬化性心脏病”),我们的模型成功地对“高脂血症”和“冠状动脉”相关词语进行了高度关注(图6).我们的可视化方法(即突出显示输入单词)允许用户理解我们的模型如何从文本中识别ICD-10-CM代码。

限制

我们的研究有几个局限性。首先,我们的数据来自台湾的3家三级医院。我们的研究结果对其他地区医院的外推有待进一步研究。其次,尽管我们的结果表明,保留标点符号和汉字时,模型性能更好,但这种影响可能仅限于特定的音符类型。这一发现应在对其他类型的临床文献进行分类的背景下进一步研究。第三,我们最后一个实验中的译文可能不如母语人士的译文准确。然而,手动翻译大量数据是很困难的。因此,我们只能使用谷歌translate自动翻译文本。

应该注意的是,每个出院记录都有一个主要和次要诊断代码。虽然选择主要代码会使补偿有所不同,但本研究中提出的模型并没有确定主要代码。为了使我们的模型能够识别主要代码,我们在之前的工作中提出了一个序列到序列的模型[4].它转换按字母顺序连接的原始预测标签,使它们按诊断代码排序。该结构可以添加到本研究提出的模型中。基于初级诊断代码和次级诊断代码的预测可以进一步提高系统的可用性。

结论

在保护数据隐私的同时,使用联邦学习在多中心临床文本上训练ICD-10分类模型。该模型的表现优于局部训练的模型。我们通过标签注意架构突出显示输入单词来显示可解释的预测。我们还发现PubMedBERT模型可以使用标点符号和非英语字符的含义。这一发现表明,改变ICD-10多标签分类的预处理方法可以改善模型性能。

致谢

本研究由台湾科技部资助(资助MOST 110-2320-B-075-004-MY和MOST 110-2634-F-002-032-);台湾远东纪念医院(批准FEMH-2022-C-058);台北退伍军人总医院(授予V111E-002和V111E-005-2)。发起人在研究设计、数据收集和分析、发表决定或手稿起草中没有任何作用。

利益冲突

没有宣布。

多媒体附件1

三家医院的ICD-10-CM标签计数。(A)病历中标签数量的排序。(B) ICD-10-CM编码计数排序。ICD-10-CM:国际疾病分类,第十次修订,临床修订

DOCX文件,662 KB

多媒体附件2

标点符号的数量和前10个汉字。

DOCX文件,17kb

  1. 世界卫生组织。《国际疾病和相关健康问题统计分类》,第十次修订:第一卷,表格清单,2016年第五版。瑞士日内瓦:世界卫生组织;2016.
  2. Mills RE, Butler RR, McCullough EC, Bao MZ, Averill RF。向ICD-10过渡对医疗保险住院患者住院付款的影响。2011年6月06日;1(2):001.02。a02 [免费全文] [CrossRef] [Medline
  3. Kusnoor SV, Blasingame MN, Williams AM, DesAutels SJ, Su J, Giuse NB。叙述性回顾向ICD-10和ICD-10- cm /PCS过渡的影响。JAMIA公开赛2019年12月26日;3(1):126-131 [免费全文] [CrossRef] [Medline
  4. 陈芬芬,王明民,廖文昌,郭立龙,陈凯春,林玉春,等。ICD-10自动编码与训练系统:基于监督学习的深度神经网络。JMIR Med Inform 2021年8月31日;9(8):e23230 [免费全文] [CrossRef] [Medline
  5. 石辉,谢鹏,胡忠,张敏,邢爱普。利用深度学习实现ICD编码自动化。出来了。预印本于2017年11月11日在网上发布[免费全文
  6. Sammani A, Bagheri A, van der Heijden PGM, Te Riele ASJM, Baas AF, Oosters CAJ,等。利用神经网络自动多标签检测荷兰心脏病出院信中的ICD10代码。NPJ数字医学2021年2月26日;4(1):37 [免费全文] [CrossRef] [Medline
  7. 王旭,韩娟,李波,潘霞,徐慧。基于多头注意机制和门控残差网络的ICD-10自动编码。2022年出席:2021年IEEE生物信息学和生物医学国际会议;2021年12月9日至12日;休斯顿,德克萨斯州536-543页。[CrossRef
  8. 马晓红,李艳。基于MIMIC和CodiEsp的ICD-10编码多标签分类和临床记录。2021年发表于:2021 IEEE EMBS生物医学和健康信息学国际会议(BHI);2021年7月27-30日;希腊雅典,第1-4页。[CrossRef
  9. Silva S, Gutman BA, Romero E, Thompson PM, Altmann A, Lorenzi M.分布式医疗数据库中的联邦学习:大规模皮层下大脑数据的元分析。出席:2019 IEEE第16届生物医学成像国际研讨会(ISBI 2019);2019年4月8日至11日;意大利威尼斯,第270-274页。[CrossRef
  10. 高东,鞠超,魏晓霞,刘勇,陈涛,杨强。基于分层异构水平联合学习的脑电图研究。出来了。预印本于2019年9月11日在线发布[免费全文
  11. 刘东,李志强,李志强。两阶段联合表型与患者表征学习。2019出席:第18届BioNLP研讨会及共享任务;2019年8月1日;意大利佛罗伦萨,页283-291网址:https://aclanthology.org/W19-5030v1.pdfCrossRef
  12. 王明明,张永华,郭立龙,赖峰,陈燕云,余飞,等。利用深度学习对自由文本数据进行Icd-10自动分类。欧洲生物医学通报2020;16(1):1-10 [J]免费全文] [CrossRef
  13. 陈芬芬,陈凯春,廖文昌,赖峰,何丽林,林顺生,等。国际疾病自动分类编码系统:基于规则的深度语境化语言模型。JMIR Med Inform 2022年6月29日;10(6):e37557 [免费全文] [CrossRef] [Medline
  14. 顾勇,R Tinn,程华,Lucas M, N Usuyama N,刘旭,等。生物医学自然语言处理领域特定语言模型预训练。ACM Trans Comput Healthc 2022 Jan;3(1):1-23。[CrossRef
  15. 刘勇,Ott M, Goyal N,杜杰,Joshi M,陈东,等。RoBERTa:一种稳健优化的BERT预训练方法。出来了。预印本于2019年7月29日在线发布[免费全文
  16. 黄凯,Altosaar J, Ranganath R.临床记录建模和再入院预测。出来了。预印本于2019年4月10日在线发布[免费全文
  17. 李俊,尹伟,金松,金丁,金松,苏超,等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240 [免费全文] [CrossRef] [Medline
  18. McMahan HB, Moore E, Ramage D, y Arcas BA。使用模型平均的深度网络联邦学习。出来了。预印本于2016年2月17日在网上发布[免费全文
  19. Beutel DJ, Topal T, Mathur A, Qiu X, Parcollet T, Lane ND。Flower:友好的联邦学习研究框架。出来了。预印本于2020年7月28日在线发布[免费全文
  20. gRPC作者。gRPC:一个高性能、开源的通用RPC框架。gRPC。URL:https://grpc.io[2022-09-17]访问
  21. 马立平,王志强,王志强。临床文本中医学编码的可解释预测。2018年发表于:2018年计算语言学协会北美分会会议:人类语言技术;2018年6月1日至6日;新奥尔良,路易斯安那州p. 1101-1111网址:https://aclanthology.org/N18-1100.pdfCrossRef
  22. 李林,范勇,谢敏,林健。联邦学习中的应用综述。计算科学2020年11月;149:106854。[CrossRef
  23. 王淑娟,李娟,王晓明。资源受限物联网设备的联邦学习研究。IEEE物联网学报2022年1月1日;9(1):1-24。[CrossRef
  24. 赵山,古普塔R,宋勇,周东。基于混合词汇训练的极小BERT模型。2021年发表于:第16届计算语言学协会欧洲分会会议;2021年4月19日至23日;在线p. 2753-2759网址:https://aclanthology.org/2021.eacl-main.238.pdfCrossRef
  25. 张鹏飞,张建平,张建平。基于可解释ICD编码的TransICD编码注意模型。2021年发表于:第19届医学人工智能国际会议,AIME 2021;2021年6月15日至18日;虚拟事件第469-478页。[CrossRef
  26. Abdullah M, AlMasawa M, Makki I, Alsolmi M, mahous S.阿拉伯语推文情感提取。国际计算机与应用杂志2018年6月07;42(7):661-675。[CrossRef
  27. 刘志强,刘志强,刘志强。标点符号如何影响自然语言推理中的神经模型。2020发表于:概率和意义会议(PaM 2020);2020年10月14-15日;瑞典哥德堡,p. 109-116网址:https://aclanthology.org/2020.pam-1.15.pdf


伯特:来自变压器的双向编码器表示
BioBERT:用于生物医学文本挖掘的变压器的双向编码器表示
CC-News:CommonCrawl新闻
FEMH:远东纪念医院
gRPC:谷歌远程过程调用
诊断结果:《国际疾病分类》第十版
ICD-10-CM:国际疾病分类,第十次修订,临床修订
ICD:《国际疾病分类》
MIMIC-III:重症监护医疗信息集市三
NLP:自然语言处理
台大医院:台大医院
洛蓓塔:基于变压器预训练方法的稳健优化双向编码器表示
VGHTPE:台北市退伍军人总医院


C·洛维斯编辑;提交24.07.22;I Li, N Nuntachit同行评审;对作者15.08.22的评论;修订本收到日期:03.10.22;接受08.10.22;发表10.11.22

版权

©陈佩富、何太亮、林圣哲、朱元嘉、郭振松、赖飞培、王思明、朱万轩、陈宽之、郭禄成、洪方明、林玉成、蔡宜昌、邱志浩、张淑芝、杨志宇。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 10.11.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map