JMIR预印本# 41342:联合学习icd - 10分类:深更符合实际的语言模型与一个标签的注意机制

当前预印本设置

(作者所选择的)

1。提交手稿时,允许同行评审:

(一)任何人(开放社区同行评审)
(b) Editor-selected评论者(封闭的同行评审)

2。提交手稿时,显示预印本PDF:

(一)任何人,在任何时间
(b)登录用户
(c)任何人,在任何时间(仅标题和摘要)
(d)

3所示。手稿被接受时,显示接受手稿PDF:

(一)任何人,在任何时间
(b)登录用户
(c)任何人,在任何时间(仅标题和摘要)

联合学习icd - 10分类:深更符合实际的语言模型与一个标签的注意机制

Pei-Fu陈;
Tai-Liang他;
Sheng-Che林;
Yuan-Chia楚;
Chen-Tsung郭;
Feipei赖;
Ssu-Ming王;
Wan-Xuan朱;
Kuan-Chih陈;
Lu-Cheng郭;
方明挂;
Yu-Cheng林;
I-Chang蔡;
Chi-Hao赵;
Shu-Chih张;
Chi-Yu杨

文摘

背景:

临床文本文档的自动编码使用国际疾病分类第十版(icd - 10)可用于统计分析和报销。随着自然语言处理(NLP)的发展模式,新的变压器架构与注意力机制优于先前的模型。虽然多中心培训可能会增加模型性能和外部有效性,临床文档的隐私应该受到保护。联合学习训练模型与多中心数据没有共享数据本身。

摘要目的:

本文旨在与联合训练分类模型学习icd - multilabel分类。

方法:

文本数据收集从放电电子医疗记录的笔记从三个医疗中心,包括远东纪念医院(FEMH),国立台湾大学医院(台大医院)和台北荣民总医院(VGHTPE)。伯特比较不同变体的性能后,PubMedBERT被选为“嵌入”这个词。nonalphanumeric角色被保留,因为这个预处理的模型性能优于删除它们。解释我们的模型的输出,我们添加了标签注意模型架构。模型训练数据从三个医院本身和联合学习。模型训练和联合学习与本地数据比较和模型训练从三家医院组成的一组测试数据。微F1-score来评估模型的性能在所有三个中心。

结果:

PubMedBERT F1-scores,罗伯塔、临床伯特和BioBERT是0.735,0.692,0.711,和0.721,分别。模型的F1-score同时保留nonalphanumeric字符为0.8120,而消除这些字符是0.7875之后,增加了0.0245 (3.11%)。测试集上的F1-scores分别为0.6142,0.4472,0.5353,0.2522,联邦学习,FEMH,台大医院,分别和VGHTPE模型。可辩解的预测显示通过强调输入文字标签的关注架构。

结论:

联合学习可以从多中心临床训练icd - 10分类模型的文本和数据隐私保护。模型的性能优于本地模型训练。

引用

请列举:

林他TL,陈PF SC,楚YC,郭CT,赖F,王SM,朱,陈KC,郭LC,挂调频,林YC,蔡IC,赵CH, Chang SC,杨CY

培训深更符合实际的语言模型对国际疾病分类,10日修订通过联合学习分类:模型开发和验证研究

地中海JMIR通知2022;10 (11):e41342

DOI:10.2196/41342

PMID:36355417

PMCID:9693720

下载

请求排队。生成的文件,请稍等。可能需要一些时间。

卡塔尔世界杯8强波胆分析

JMIR预印本

接受/发表在:JMIR医学信息

提交日期:2022年7月24日

接受日期:2022年10月8日

联合学习icd - 10分类:深更符合实际的语言模型与一个标签的注意机制

文摘

引用

版权