维护通知

由于必要的定期维护,JMIR出版物网站将不可用卡塔尔世界杯8强波胆分析星期三,2020年7月1日晚上8点到10点。我们提前对由此造成的不便道歉。

谁将受到影响?

广告

接受/发表在:JMIR医学信息

提交日期:2022年7月24日
接受日期:2022年10月8日

最后,同行评议这预印本的发布版本可以在这里找到:

培训深更符合实际的语言模型对国际疾病分类,10日修订通过联合学习分类:模型开发和验证研究

林他TL,陈PF SC,楚YC,郭CT,赖F,王SM,朱,陈KC,郭LC,挂调频,林YC,蔡IC,赵CH, Chang SC,杨CY

培训深更符合实际的语言模型对国际疾病分类,10日修订通过联合学习分类:模型开发和验证研究

地中海JMIR通知2022;10 (11):e41342

DOI:10.2196/41342

PMID:36355417

PMCID:9693720

联合学习icd - 10分类:深更符合实际的语言模型与一个标签的注意机制

  • Pei-Fu陈;
  • Tai-Liang他;
  • Sheng-Che林;
  • Yuan-Chia楚;
  • Chen-Tsung郭;
  • Feipei赖;
  • Ssu-Ming王;
  • Wan-Xuan朱;
  • Kuan-Chih陈;
  • Lu-Cheng郭;
  • 方明挂;
  • Yu-Cheng林;
  • I-Chang蔡;
  • Chi-Hao赵;
  • Shu-Chih张;
  • Chi-Yu杨

文摘

背景:

临床文本文档的自动编码使用国际疾病分类第十版(icd - 10)可用于统计分析和报销。随着自然语言处理(NLP)的发展模式,新的变压器架构与注意力机制优于先前的模型。虽然多中心培训可能会增加模型性能和外部有效性,临床文档的隐私应该受到保护。联合学习训练模型与多中心数据没有共享数据本身。

摘要目的:

本文旨在与联合训练分类模型学习icd - multilabel分类。

方法:

文本数据收集从放电电子医疗记录的笔记从三个医疗中心,包括远东纪念医院(FEMH),国立台湾大学医院(台大医院)和台北荣民总医院(VGHTPE)。伯特比较不同变体的性能后,PubMedBERT被选为“嵌入”这个词。nonalphanumeric角色被保留,因为这个预处理的模型性能优于删除它们。解释我们的模型的输出,我们添加了标签注意模型架构。模型训练数据从三个医院本身和联合学习。模型训练和联合学习与本地数据比较和模型训练从三家医院组成的一组测试数据。微F1-score来评估模型的性能在所有三个中心。

结果:

PubMedBERT F1-scores,罗伯塔、临床伯特和BioBERT是0.735,0.692,0.711,和0.721,分别。模型的F1-score同时保留nonalphanumeric字符为0.8120,而消除这些字符是0.7875之后,增加了0.0245 (3.11%)。测试集上的F1-scores分别为0.6142,0.4472,0.5353,0.2522,联邦学习,FEMH,台大医院,分别和VGHTPE模型。可辩解的预测显示通过强调输入文字标签的关注架构。

结论:

联合学习可以从多中心临床训练icd - 10分类模型的文本和数据隐私保护。模型的性能优于本地模型训练。


引用

请列举:

林他TL,陈PF SC,楚YC,郭CT,赖F,王SM,朱,陈KC,郭LC,挂调频,林YC,蔡IC,赵CH, Chang SC,杨CY

培训深更符合实际的语言模型对国际疾病分类,10日修订通过联合学习分类:模型开发和验证研究

地中海JMIR通知2022;10 (11):e41342

DOI:10.2196/41342

PMID:36355417

PMCID:9693720

下载


请求排队。生成的文件,请稍等。可能需要一些时间。

作者©。保留所有权利。这是一个特权文档目前同行评审/社区审查(或接受/拒绝的手稿)。作者JMIR出版物提供了独家许可证发布这个预卡塔尔世界杯8强波胆分析印在它的网站上为审查和先于印刷仅引用目的。虽然最后的同行评议的论文可能cc-by许可的刊物,在此阶段作者和出版商意味深长地禁止再分配的草稿纸除了用于审查。

Baidu
map