发表在gydF4y2Ba在gydF4y2Ba9卷gydF4y2Ba,没有8gydF4y2Ba(2021)gydF4y2Ba:8月gydF4y2Ba

本文的预印本(早期版本)是可用的gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/23230gydF4y2Ba,第一次出版gydF4y2Ba。gydF4y2Ba
自动icd - 10编码和培训体系:基于监督学习的神经网络gydF4y2Ba

自动icd - 10编码和培训体系:基于监督学习的神经网络gydF4y2Ba

自动icd - 10编码和培训体系:基于监督学习的神经网络gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba生物医学电子学和生物信息学研究所,国立台湾大学,台北,台湾gydF4y2Ba

2gydF4y2Ba麻醉学,亚东医院,新台北市,台湾gydF4y2Ba

3gydF4y2Ba国立台湾大学医院内科,国立台湾大学医学院,台北,台湾gydF4y2Ba

4gydF4y2Ba远东纪念医院,内科新台北市,台湾gydF4y2Ba

5gydF4y2Ba医学事务部,亚东医院,新台北市,台湾gydF4y2Ba

6gydF4y2Ba医疗管理部门、东方理工学院新台北市,台湾gydF4y2Ba

7gydF4y2Ba信息技术部,亚东医院,新台北市,台湾gydF4y2Ba

8gydF4y2Ba部分心血管医学、心血管中心,亚东医院,新台北市,台湾gydF4y2Ba

9gydF4y2Ba部分医疗保险,医疗事务部,亚东医院,新台北市,台湾gydF4y2Ba

10gydF4y2Ba医疗记录,亚东医院,新台北市,台湾gydF4y2Ba

11gydF4y2Ba计算机科学与信息工程系,台湾大学,台北,台湾gydF4y2Ba

12gydF4y2Ba国立台湾大学电机工程系,台北,台湾gydF4y2Ba

通讯作者:gydF4y2Ba

Feipei Lai博士gydF4y2Ba

计算机科学与信息工程系gydF4y2Ba

国立台湾大学gydF4y2Ba

没有1,秒4,罗斯福路gydF4y2Ba

台北,10617年gydF4y2Ba

台湾gydF4y2Ba

电话:886 0911126526gydF4y2Ba

电子邮件:gydF4y2Baflai@ntu.edu.twgydF4y2Ba


背景:gydF4y2Ba国际疾病分类(ICD)代码被广泛用作参考在医疗系统和计费。然而,疾病分类ICD编码仍然主要依靠人类阅读大量的书面材料作为编码的基础。编码既费力又费时。自ICD-9 icd -,转换编码的任务变得更加复杂,深度学习和自然语言processing-related方法研究了协助疾病编码人员。gydF4y2Ba

摘要目的:gydF4y2Ba本文旨在构建一个深度学习icd - 10编码,模型,该模型是为了自动确定相应的诊断和程序代码完全基于自由文本医学笔记来提高精度和减少人类的努力。gydF4y2Ba

方法:gydF4y2Ba我们使用诊断记录国立台湾大学医院的资源和应用自然语言处理技术,包括全球向量,词向量,从语言模型,嵌入的双向编码器陈述变压器、单头递归神经网络的关注,在深层神经网络架构实现icd -自动编码。此外,我们引入了注意力机制从诊断到分类模型中提取关键词和可视化为训练新生icd - 10编码参考。六十放电笔记被随机选中检查F的变化gydF4y2Ba1gydF4y2Ba分数由程序员和编码时间之前和之后使用我们的模型。gydF4y2Ba

结果:gydF4y2Ba在医学实验数据集的国立台湾大学医院,我们的预测结果显示FgydF4y2Ba1gydF4y2Ba0.715和0.618的分数icd -临床修改代码和程序编码系统代码,分别用gydF4y2Ba从变压器双向编码器表示gydF4y2Ba在封闭的复发性单元分类模型嵌入方法。icd - web服务的训练有素的模型应用icd -用户编码和培训。使用这种服务,程序员可以用F代码gydF4y2Ba1gydF4y2Ba得分显著增加从0.832到0.922的值(gydF4y2BaPgydF4y2Ba< . 05),但不减少间隔。gydF4y2Ba

结论:gydF4y2Ba该模型显著提高了FgydF4y2Ba1gydF4y2Ba得分,但没有减少疾病编码的程序员的时间消耗。gydF4y2Ba

地中海JMIR通知2021;9 (8):e23230gydF4y2Ba

doi: 10.2196/23230gydF4y2Ba

关键字gydF4y2Ba



国际疾病分类(ICD)是由世界卫生组织发布的一份医疗分类列表,它定义了宇宙的疾病,疾病,伤害,和其他相关疾病诊断和分类标准(gydF4y2Ba1gydF4y2Ba]。自1893年第一次出版以来,ICD已成为最重要的一个指标在医疗管理系统、医疗保险,或文学研究。gydF4y2Ba

目前,在大多数医疗机构,icd - 10编码被用于诊断相关组补贴住院患者主要依靠手工编码的许可和职业疾病程序员在个案基础上,谁花了很多时间阅读大量医学资料。另一方面,其他一些cases-especially outpatients-are编码由内科医生。gydF4y2Ba

自从转换从ICD-9 icd - 2014年,台湾使用icd -作为诊断相关组的参考补贴。然而,由于icd -结构的复杂性和编码规则,如代码命令,纳入和排除标准,和巨大的越来越多的icd - 10编码,icd - 10编码变得更加费力而耗时的工作,即使一种疾病编码器与专业能力平均每箱大约需要30分钟。据分析gydF4y2Ba手册在医疗和生物医学信息学的研究gydF4y2Ba,采用icd - 10的成本系统,包括培训的疾病编码人员,医生,和代码用户;供应商之间的初始和长期损失的生产力;和连续转换,估计范围从1次4.25亿美元到11.5亿美元的成本除了有些百万美元每年损失生产力(gydF4y2Ba2gydF4y2Ba]。gydF4y2Ba

先前的研究已经建立了一个模型ICD-9系统。2008年,法卡斯和Szarvas [gydF4y2Ba3gydF4y2Ba)利用基于规则的方法查询其他参考工具实现ICD自动编码任务。然而,ICD-9相比,icd -包含超过60000码。建立一个基于规则的自动系统是劳动密集型和耗时。此外,icd - 10的规则系统的全部甚至是复杂疾病编码人员。由于上述原因,最近的研究强调深度学习和自然语言处理(NLP) -相关方法;例如,Zhang et al (gydF4y2Ba4gydF4y2Ba)使用一个封闭的复发性单元(格勒乌)与基于内容的网络关注预测药物处方的基础上疾病编码,和王等gydF4y2Ba5gydF4y2Ba应用和NLP技术相比,如全球向量(手套)在电子健康记录(EHR)数据分类的任务。gydF4y2Ba

在先前的研究中,我们已经应用词向量(Word2Vec),一个NLP方法,icd -自动编码任务,实现了FgydF4y2Ba1gydF4y2Ba分数0.67/0.58在临床变更(CM) /程序编码系统(pc)。此外,我们还建立了icd -代码为icd -用户推荐系统(gydF4y2Ba6gydF4y2Ba,gydF4y2Ba7gydF4y2Ba]。在这项研究中,我们做了一个比较最近的NLP Word2Vec等方法,从语言模型嵌入(艾尔摩)和双向编码器从变形金刚(BERT)表示。此外,我们引入了注意力机制分类模型可视化培训新程序员的词重要性icd - 10编码。gydF4y2Ba

所示的ICD分类框架gydF4y2Ba图1gydF4y2Ba,左侧面板表示自由文本数据的大量医生写的,这将是阅读和学习的分类器在右面板图与监督学习。训练有素的分类器将被应用到预测每个病人的icd - 10编码准确。此外,区分主、次要或额外的诊断、连续回调是由编码顺序的icd - 10编码格式,使用sequence-to-sequence模型之后,结合分类编码结果和顺序排列的结果。gydF4y2Ba

‎gydF4y2Ba
图1所示。培训和验证过程的icd - 10分类和注意力模型。BBW:出生体重;GA:胎龄;PRP:富含血小板血浆。gydF4y2Ba
把这个图gydF4y2Ba

注意段落框架强调也说明gydF4y2Ba图1gydF4y2Ba。不同的分类框架,在左边面板中输入数据包括诊断和相应的icd -定义从国家健康保险管理,而不是仅仅使用诊断,和输出数据的面板是关注权重矩阵从预测过程中提取,而不是分类的结果。这两种方法的结合,我们构造了一个icd -自动编码和培训系统协助icd -代码的用户。gydF4y2Ba

我们的研究旨在构建一个自动icd - 10编码和基于NLP技术培训体系,关注机制,和深层神经网络模型(款),申请从EHR数据中提取信息,从提取的特征,突出要点和实施顺序调整icd - 10分类任务,协助所有icd -用户分别。gydF4y2Ba


数据描述gydF4y2Ba

我们从患者获得的数据在国立台湾大学医院从2016年1月至2018年7月(台大医院)。真实的icd - 10编码注释的程序员在台大医院。数据属性和类型包括账户id,输入内容,课程和治疗,出院诊断。icd - 10编码我们之前所示的分布研究[gydF4y2Ba7gydF4y2Ba]。gydF4y2Ba

系统架构gydF4y2Ba

整个过程系统的构建框架由数据处理、特征提取、模型构建、模型训练和web服务构建。细节和可视化icd - web服务显然在这项研究中,完整的工作流的icd - 10编码和培训体系gydF4y2Ba图2gydF4y2Ba。gydF4y2Ba

‎gydF4y2Ba
图2。完整的icd -框架自动编码和培训系统。API:应用程序编程接口;ICU:重症监护室。gydF4y2Ba
把这个图gydF4y2Ba

数据处理gydF4y2Ba

预处理gydF4y2Ba

预处理,包括汉字,null或重复的元素,标点符号,停止的话,和罕见的话说,之前应用标记的文本。基本的预处理方法应用使用自然语言工具包(gydF4y2Ba8gydF4y2Ba]和Scikit-Learn [gydF4y2Ba9gydF4y2Ba)图书馆。然后我们随机分割比例9:1的数据集分为训练集和验证集的Scikit-Learn图书馆。gydF4y2Ba

后处理gydF4y2Ba

icd - 10编码、组合规范仍然是一个棘手的问题,因为在某些情况下,疾病程序员不能——以及不应该没给多个诊断代码,一个代码组合明显识别病人的诊断的所有方面(gydF4y2Ba10gydF4y2Ba]。在这项研究中,提供了user-defining面板自动编码系统的处理组合编码代替错误的结果,要么是预测的组合密码不正确或分为两种不同的代码的基础上给定的代码。gydF4y2Ba

特征提取gydF4y2Ba

在特征提取中,我们应用NLP技术,包括手套(gydF4y2Ba11gydF4y2Ba],Word2Vec [gydF4y2Ba12gydF4y2Ba,埃尔莫gydF4y2Ba13gydF4y2Ba],伯特[gydF4y2Ba14gydF4y2Ba),单头注意递归神经网络(SHA-RNN),这个词上下文转换为数值数据和提取词和上下文信息。除了BERT-based pretrained重量,我们也试图clinicalBERT [gydF4y2Ba15gydF4y2Ba]和BioBERT [gydF4y2Ba16gydF4y2Ba],它与临床训练笔记从MIMIC-III PubMed和公共医学中心。Hyperparameters嵌入模型的连接gydF4y2Ba表1gydF4y2Ba。gydF4y2Ba

表1。Hyperparameters word-embedding模型。gydF4y2Ba
HyperparametersgydF4y2Ba 尺寸/数量gydF4y2Ba
全球向量gydF4y2Ba

字嵌入大小gydF4y2Ba One hundred.gydF4y2Ba
词向量gydF4y2Ba

字嵌入大小gydF4y2Ba 300年gydF4y2Ba
从语言模型嵌入gydF4y2Ba

卷积神经网络字符嵌入大小gydF4y2Ba 50gydF4y2Ba

卷积神经网络嵌入的大小gydF4y2Ba One hundred.gydF4y2Ba

高速公路数量gydF4y2Ba 2gydF4y2Ba

中间尺寸gydF4y2Ba 512年gydF4y2Ba
从变压器双向编码器表示gydF4y2Ba一个gydF4y2Ba

字嵌入大小gydF4y2Ba 768年gydF4y2Ba

句子中嵌入大小gydF4y2Ba 768年gydF4y2Ba

位置嵌入大小gydF4y2Ba 768年gydF4y2Ba

中间尺寸gydF4y2Ba 3072年gydF4y2Ba

注意头数量gydF4y2Ba 12gydF4y2Ba

隐层数gydF4y2Ba 12gydF4y2Ba

辍学gydF4y2Ba 0.1gydF4y2Ba
单头递归神经网络的关注gydF4y2Ba

字嵌入大小gydF4y2Ba 1024年gydF4y2Ba

隐藏的大小gydF4y2Ba 1024年gydF4y2Ba

层数gydF4y2Ba 4gydF4y2Ba

一个gydF4y2Ba临床双向编码器从变形金刚(BERT)和伯特表示生物医学文本挖掘与伯特分享同一个hyperparameters。gydF4y2Ba

分类模型gydF4y2Ba

神经网络分类模型由4层,包括RNN和完全连接神经网络(FCNN) hyperparameters显示的地方gydF4y2Ba表2gydF4y2Ba和架构所示gydF4y2Ba图3gydF4y2Ba。第一层是这个词嵌入层,它将标记化的单词列表的输入转换成词向量。第二层是一个双向格勒乌(BiGRU)层(gydF4y2Ba17gydF4y2Ba]。剩下的2层完全连接层,最后完全连接层应设置为维度的大小我们希望预测。在我们的例子中,我们进行了2分类任务,包括整个标签分类与标签14602/9780厘米/ CM和pc电脑在台大医院数据记录。因此,最后完全连接层的大小应该设置为14602年和9780年的维度,分别。做个比较,分类模型只有1完全连接层——完全连接层2用作基准模型。此外,注意机制基于Bahdanau [gydF4y2Ba18gydF4y2Ba)注意模型被介绍给我们的分类模型,进一步提取关键词的icd - 10编码计算的重量信息context-ICD title-vector双;信息的重要性,对当前目标词。gydF4y2Ba

表2。Hyperparameters的分类模型。gydF4y2Ba
HyperparametersgydF4y2Ba 大小gydF4y2Ba
双向格勒乌gydF4y2Ba一个gydF4y2Ba层gydF4y2Ba 256年gydF4y2Ba
完全连接图层1gydF4y2Ba 700年gydF4y2Ba
完全连接层2厘米/电脑gydF4y2BabgydF4y2Ba 14602/9780gydF4y2Ba
辍学gydF4y2Ba 0.2gydF4y2Ba

一个gydF4y2Ba格勒乌:封闭的复发。gydF4y2Ba

bgydF4y2Ba厘米/ pc:临床修改/程序编码系统。gydF4y2Ba

‎gydF4y2Ba
图3。深层神经网络分类模型的体系结构。BiGRU:双向封闭的复发性单元;格勒乌:封闭的复发性单元;PReLU:参数修正线性单元。gydF4y2Ba
把这个图gydF4y2Ba

模型评估gydF4y2Ba

微FgydF4y2Ba1gydF4y2Ba分数是调和平均数的查全率和查准率,这是真阳性结果的数量的总和除以总数量的积极成果,真阳性结果的数量的总和除以所有相关样本的数量的总和,分别。微FgydF4y2Ba1gydF4y2Ba分考虑每个标签的数量,查全率和查准率计算;因此,它适合评估多标记分类任务的性能与不平衡数据集。gydF4y2Ba

现实的应用程序的自动编码系统、recall@K这第K计算正确答案的比例预测分类器返回的结果,也是申请验证模型的性能。在我们的例子中,考虑到CM的数量的限制和电脑代码,被选为20 K值。gydF4y2Ba

icd - 10编码和培训体系框架gydF4y2Ba

icd - 10自动编码和培训系统原型构建与python3 ASP。网络核心2.2 MVC, SQL Server, Vue.js。当用户执行一个动作,如输入放电诊断或从数据库检索信息在前端界面用Vue建造的。js、axios浏览器和节点的基于承诺的HTTP客户端。js,称之为Web应用程序编程接口的后端用ASP。网络核心2.2 MVC将案件信息发送到后端预测和处理通过python3或为数据保存在SQL Server数据库。完整的系统框架中说明了gydF4y2Ba图4gydF4y2Ba。在icd - 10编码和教练,与出院诊断作为数据输入,相关的前20名ICD-10-CM /电脑代码和每个单词的重要性与对应的代码将返回所有icd -用户辅助。gydF4y2Ba

‎gydF4y2Ba
图4。系统架构的icd -自动编码和培训的web服务。API:应用程序编程接口。gydF4y2Ba
把这个图gydF4y2Ba

比较的时间消耗和FgydF4y2Ba1gydF4y2Ba分数有或没有自动编码系统gydF4y2Ba

我们收集了60放电指出从2021年2月从远东纪念医院(新台北市,台湾)随机。九个编码人员参加了这个实验。最有经验的程序员提供地面真理。其他8编码人员被分成4组,和每种情况下分配给每个小组可以由2程序员编码。在这个实验中有两个部分。在第1部分中,我们只提供医疗记录的数字,和程序员编码随机分配医疗记录每天。每组被分配一个不同的组10例。在第2部分中,我们提供的医疗记录数字和ICD编码预测的最好的分类模型款。每组随机分配5例。我们比较了时间消耗和FgydF4y2Ba1gydF4y2Ba分数与第1部分和第2部分进行了配对样本Wilcoxon符号秩检验。一个2-tailedgydF4y2BaPgydF4y2Ba<。05年被认为是显著的。此外,设计一份调查问卷来收集这个系统编码人员的意见。gydF4y2Ba


ICD-10-CM整个标签分类gydF4y2Ba

在台大医院数据集,完成ICD-10-CM编码(即具有3 - 7厘米码字符)对应于放电诊断记录总共包括14602标签。最好的分类模型基于伯特款嵌入和FCNN BiGRU可以实现一个FgydF4y2Ba1gydF4y2Ba得分0.715和0.873 recall@20。gydF4y2Ba表3gydF4y2Ba显示所有整个标签分类的比较。分类结果与不同伯特pretrained模型显示性能无显著影响的基线和BiGRU模型。gydF4y2Ba

表3。FgydF4y2Ba1gydF4y2Ba所有嵌入模型的得分和Recall@20 Diseases-10国际分类临床修改。gydF4y2Ba
嵌入模型gydF4y2Ba 基线FgydF4y2Ba1gydF4y2Ba分数gydF4y2Ba FgydF4y2Ba1gydF4y2Ba分数gydF4y2Ba Recall@20gydF4y2Ba
词向量gydF4y2Ba 0.355gydF4y2Ba 0.680gydF4y2Ba 0.873gydF4y2Ba
全球向量gydF4y2Ba 0.220gydF4y2Ba 0.635gydF4y2Ba 0.836gydF4y2Ba
从语言模型嵌入gydF4y2Ba 0.633gydF4y2Ba 0.631gydF4y2Ba 0.852gydF4y2Ba
从transformers-based双向编码器表示gydF4y2Ba 0.715gydF4y2Ba 0.710gydF4y2Ba 0.869gydF4y2Ba
临床双向编码器从变形金刚模型表示gydF4y2Ba 0.712gydF4y2Ba 0.714gydF4y2Ba 0.869gydF4y2Ba
双向编码器表征变压器的生物医学文本挖掘gydF4y2Ba 0.709gydF4y2Ba 0.701gydF4y2Ba 0.863gydF4y2Ba
单头递归神经网络的关注gydF4y2Ba 0.402gydF4y2Ba 0.570gydF4y2Ba 0.835gydF4y2Ba

ICD-10-PCS整个标签分类gydF4y2Ba

在整个ICD-10-PCS标签分类任务中,完整的ICD-10-PCS代码(即具有7电脑码字符)相应的放电诊断记录由9513年标签。进步和出院诊断培训款模型。结果进行了总结gydF4y2Ba表4gydF4y2Ba意味着我们最好的分类模型基于伯特款嵌入和FCNN BiGRU可以实现一个FgydF4y2Ba1gydF4y2Ba0.618和0.887 recall@20得分。gydF4y2Ba

表4。FgydF4y2Ba1gydF4y2Ba所有嵌入模型的得分和recall@20 Diseases-10国际分类过程编码系统。gydF4y2Ba
嵌入模型gydF4y2Ba 基线FgydF4y2Ba1gydF4y2Ba分数gydF4y2Ba FgydF4y2Ba1gydF4y2Ba分数gydF4y2Ba Recall@20gydF4y2Ba
词向量gydF4y2Ba 0.278gydF4y2Ba 0.580gydF4y2Ba 0.850gydF4y2Ba
全球向量gydF4y2Ba 0.120gydF4y2Ba 0.520gydF4y2Ba 0.841gydF4y2Ba
从语言模型嵌入gydF4y2Ba 0.547gydF4y2Ba 0.557gydF4y2Ba 0.874gydF4y2Ba
从transformers-based双向编码器表示gydF4y2Ba 0.618gydF4y2Ba 0.611gydF4y2Ba 0.880gydF4y2Ba
临床双向编码器从变形金刚模型表示gydF4y2Ba 0.596gydF4y2Ba 0.615gydF4y2Ba 0.887gydF4y2Ba
双向编码器表征变压器的生物医学文本挖掘gydF4y2Ba 0.611gydF4y2Ba 0.613gydF4y2Ba 0.880gydF4y2Ba
单头递归神经网络的关注gydF4y2Ba 0.269gydF4y2Ba 0.527gydF4y2Ba 0.879gydF4y2Ba

icd - 10分类与关注gydF4y2Ba

通过将注意力机制引入分类模型,可以计算词对之间的关系和重要性和可视化。例如,对于2的句子,“他有冠状动脉疾病。而且,他发烧了。”和“心脏病”,重量信息“心”可能专注于“冠状”或“动脉。“因此,通过提取出关注权重的诊断和icd -定义,如何诊断中程序员关注单词icd - 10编码过程中可以充分理解(gydF4y2Ba图5gydF4y2Ba)。此外,提取诊断注意重量和相应的icd -代码可以可视化通过突出关键词,的重量将高于某个阈值,训练一个新的编码器疾病编码。通过考虑所有正例和负抽样40例,分类模型的注意机制可以实现FgydF4y2Ba1gydF4y2Ba得分为0.86。gydF4y2Ba

‎gydF4y2Ba
图5。可视化的关注权重。gydF4y2Ba
把这个图gydF4y2Ba

icd - 10编码和培训体系框架gydF4y2Ba

本研究的目的是建立一个诊断结果自动编码和培训系统协助疾病编码人员提高他们的工作效率和编码的准确性。icd - 10 auto-predicting接口与出院诊断在互联网上可用的引用是(gydF4y2Ba19gydF4y2Ba)加快编码效率。款模型执行的python脚本将返回前20名ICD-10-CM和ICD-10-PCS代码recall@20为0.87和0.88,分别。每种情况下的预测过程只需要不到30秒,大大缩短编码时间的平均每箱30分钟。此外,培训也提供了icd - 10编码选项卡下训练。给定一段放电诊断、关键词支持的代码可以通过单击目标代码高亮显示。gydF4y2Ba

使预测更加灵活和适应疾病编码人员在不同的医院,后处理规则处理异常,如结合规范和医院达成共识,可以定义规则定义下面板。用户可以使用默认设置或建立自己的设置应用特定的编码风格。的icd -自动编码、培训和规则定义面板所示gydF4y2Ba图6gydF4y2Ba分别为7和8。gydF4y2Ba

‎gydF4y2Ba
图6。icd -自动编码面板。gydF4y2Ba
把这个图gydF4y2Ba
‎gydF4y2Ba
图7。icd - auto-training面板。gydF4y2Ba
把这个图gydF4y2Ba
‎gydF4y2Ba
图8。后处理用户定义面板。gydF4y2Ba
把这个图gydF4y2Ba

时间消耗和FgydF4y2Ba1gydF4y2Ba分数有或没有自动编码系统gydF4y2Ba

icd - 10自动编码系统与我们的最佳款分类模型显著提高程序员的意思是FgydF4y2Ba1gydF4y2Ba得分从0.832到0.922的值(gydF4y2BaPgydF4y2Ba< . 05),但不能降低平均编码时间(gydF4y2BaPgydF4y2Ba= .64点),如所示gydF4y2Ba表5gydF4y2Ba。调查问卷显示,一个编码器约20 - 40分钟平均编码,和62.5%的程序员愿意使用这个系统的工作。这个系统可能帮助他们不仅增加ICD-coding的准确性,而且节省他们的时间。gydF4y2Ba

表5所示。时间消耗和FgydF4y2Ba1gydF4y2Ba分数有或没有自动编码系统。gydF4y2Ba
编码器gydF4y2Ba 同时在第1部分中使用gydF4y2Baa、bgydF4y2Ba(分:秒)gydF4y2Ba 同时在第2部分中使用gydF4y2Bac, d, egydF4y2Ba(分:秒)gydF4y2Ba 意思是FgydF4y2Ba1gydF4y2Ba在第1部分中得分gydF4y2Ba一个fgydF4y2Ba 意思是FgydF4y2Ba1gydF4y2Ba在第2部分中得分gydF4y2Bac、g hgydF4y2Ba
1gydF4y2Ba 07:49gydF4y2Ba 05:11gydF4y2Ba 0.801gydF4y2Ba 0.893gydF4y2Ba
2gydF4y2Ba 08:19gydF4y2Ba 06:01gydF4y2Ba 0.900gydF4y2Ba 0.960gydF4y2Ba
3gydF4y2Ba 04:57gydF4y2Ba 06:16gydF4y2Ba 0.980gydF4y2Ba 0.951gydF4y2Ba
4gydF4y2Ba 05:02gydF4y2Ba 07:32gydF4y2Ba 0.867gydF4y2Ba 0.950gydF4y2Ba
5gydF4y2Ba 06:23gydF4y2Ba 05:18gydF4y2Ba 0.766gydF4y2Ba 0.978gydF4y2Ba
6gydF4y2Ba 05:23gydF4y2Ba 03:53gydF4y2Ba 0.652gydF4y2Ba 0.892gydF4y2Ba
7gydF4y2Ba 05:45gydF4y2Ba 05:25gydF4y2Ba 0.815gydF4y2Ba 0.838gydF4y2Ba
8gydF4y2Ba 05:33gydF4y2Ba 06:43gydF4y2Ba 0.848gydF4y2Ba 0.827gydF4y2Ba

一个gydF4y2Ba没有自动编码系统。gydF4y2Ba

bgydF4y2Ba中位数时间消耗在第1部分中= 5分39秒(95% CI 5分钟1秒到7分钟54秒)。gydF4y2Ba

cgydF4y2Ba自动编码系统。gydF4y2Ba

dgydF4y2Ba平均消耗部分2 = 5分钟43秒(95% CI 4分钟56秒6分52秒)。gydF4y2Ba

egydF4y2Ba同时被程序员无意义的区别研究(2-tailed的第1部分和第2部分gydF4y2BaPgydF4y2Ba=。64derived from a paired samples Wilcoxon signed-rank test).

fgydF4y2Ba中值FgydF4y2Ba1gydF4y2Ba第1部分中得分= 0.832 (95% CI 0.744 - -0.915)。gydF4y2Ba

ggydF4y2Ba中值FgydF4y2Ba1gydF4y2Ba第2部分中得分= 0.922 (95% CI 0.836 - -0.963)。gydF4y2Ba

hgydF4y2Ba显著差异意味着FgydF4y2Ba1gydF4y2Ba第1部分和第2部分(2-tailed之间的分数gydF4y2BaPgydF4y2Ba<。05年来自Wilcoxon等级配对样本和测试)。gydF4y2Ba


主要研究结果gydF4y2Ba

与85522年相比先前研究ICD-9分类训练数据和FgydF4y2Ba1gydF4y2Ba得分为0.41 (gydF4y2Ba20.gydF4y2Ba),我们最好的分类模型基于伯特款嵌入方法和FCNN BiGRU实现了FgydF4y2Ba1gydF4y2Ba得分0.715和0.873 recall@20。比较的基准模型只有1完全连接层,模型与BiGRU显示更好的性能在嵌入方法使用嵌入固定词向量。然而,在嵌入的方法更加灵活,如伯特,BiGRU分类模型显示性能无显著影响。这表明高级嵌入技术,如埃尔莫和伯特肯定能够按顺序考虑上下文语义信息;因为他们广泛介绍BiGRU和BiLSTM层或其他上下文信息提取方法在他们的模型架构。另一方面,在所有的嵌入方法,伯特显示最佳性能;然而,似乎初始化不同伯特pretrained重量无显著影响分类结果。然而,简化伯特模型SHA-RNN只能达到0.57分类任务,不能实现超过0.41的基准模型。这可能由于缺乏嵌入模型的训练语料库,对比伯特模型的训练从Bookcorpus数以百万计的文章,维基百科,等;我们只使用自己的出院诊断记录SHA-RNN培训。 This implies the ability of the BERT model to learn and extract the information well in a specific field via only the fine-tuning process; thus, there is no need to train our BERT model from scratch with our own data set, but rather only to initialize with the pretrained weight and fine-tune with our own data set.

另一个先前的研究而icd -伯特与其他款自动编码在非技术动物实验的总结。他们实现了微FgydF4y2Ba1gydF4y2Ba与BioBERT分数的73.02%,这与我们的结果(gydF4y2Ba21gydF4y2Ba]。然而,非技术的摘要动物实验并不是那么复杂的医疗记录工作和BioBERT可以执行比伯特在他们的数据集,但无显著差异,而在医疗记录,如图所示。另一项研究发现,更符合实际的深度学习表示模型包括伯特和艾尔摩比noncontextualized表示模型发现医疗同义词(gydF4y2Ba22gydF4y2Ba),这与我们的研究结果是一致的。gydF4y2Ba

我们的系统提高了编码器的意思是FgydF4y2Ba1gydF4y2Ba分数(gydF4y2BaPgydF4y2Ba< . 05),但并没有降低平均编码时间(gydF4y2BaPgydF4y2Ba= .64点)。其中一个解释是,程序员没有熟悉这个系统,和其他的解释是,相对简单的病例包括在这个实验中,导致他们采取不到20 - 40分钟每箱在他们的日常工作,作为他们的问卷显示响应。的长期影响icd -自动编码系统在未来应该调查以确定是否可以节省编码时间。gydF4y2Ba

限制gydF4y2Ba

我们的研究有一些局限性。首先,我们的训练数据是来自只有1医疗中心。其他医院的性能可能会受到不同的写作习惯的影响,和不同的疾病流行。其次,结合代码是一个棘手的问题,因为在某些情况下,疾病程序员不能也不应该分配多个诊断代码的情况下一个组合代码清晰识别病人的诊断的所有方面。在我们的研究结果,结合代码要么是预测不正确或分为两种不同的代码。此外,还有多个诊断,对应于多个代码;初步诊断、辅助诊断、三级诊断等(gydF4y2Ba10gydF4y2Ba]。然而,分类模型只能给每个代码的概率,而不是相应的秩序。解决问题的同时保持高绩效在分类任务中,我们提出了一个新颖的方法结合Seq2Seq模型,使代码的顺序。最后,我们的系统仍然是新程序员,很少有程序员使用。收集后用户的反应,进一步分析和修改可以改善我们的执行系统。gydF4y2Ba

结论gydF4y2Ba

在这项研究中,一个使用NLP icd - 10分类模型开发和深度学习模型没有任何背景知识从EHR数据产生一个FgydF4y2Ba1gydF4y2Ba得分0.715和0.618厘米和电脑,分别。此外,我们构建和发布平台,自动诊断结果预测和培训基于我们训练有素的全球模型免费icd -用户,进一步缩短编码时间从30秒每箱20 - 40分钟。我们的平台可以在互联网上找到gydF4y2Ba19gydF4y2Ba]。我们的系统可以极大地提高程序员的FgydF4y2Ba1gydF4y2Ba分数在icd - 10编码。gydF4y2Ba

在未来的研究中,我们将尝试开发和提供其他功能,如用户反馈和auto-training新的输入数据模型。icd - 10编码在不同的医院有不同的编码风格也将建造依照用户信息和预测历史记录的数量进一步提高自动icd - 10编码和培训系统。gydF4y2Ba

确认gydF4y2Ba

本研究由科技部支持的,台湾(大多数f - 002 - 032 - 110 - 2634)。gydF4y2Ba

作者的贡献gydF4y2Ba

FL和南都设计的研究。南都和水控制法设计和开发系统。PFC、LCK关注永昌龙、CYY肉干,SCC收集数据。PFC与KCC进行了实验。南都、水控制法和PFC进行统计分析,起草了手稿。所有作者回顾了最后的手稿。gydF4y2Ba

的利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

  1. 国际疾病分类,10日修订。世界卫生组织,2015年。URL:gydF4y2Bahttps://icd.who.int/browse10/2015/engydF4y2Ba[2021-08-04]访问gydF4y2Ba
  2. Lazakidou AA。手册在医疗和生物医学信息学的研究。宾夕法尼亚州:IGI全球;2006年。gydF4y2Ba
  3. 法卡斯R, g Szarvas自动基于规则的ICD-9-CM编码系统的建设。BMC生物信息学2008年4月11日,9,85:S10 [gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  4. 陈张Y, R,唐J,斯图尔特WF太阳J .飞跃:学习开出有效和安全的治疗组合Multimorbidity。2017年发表于:第23届ACM SIGKDD国际会议上的知识发现和数据挖掘;2017年8月,北京;哈利法克斯,NS p。1315 - 1324。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  5. 傅王Y,阿夫扎尔N, S,王L,沈F, Rastegar-Mojarad M, et al . MedSTS:临床资源的语义文本相似。朗Resour Eval 2018 10月24日,54 (1):57 - 72。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  6. 王,赖F,陈唱C, y icd -自动编码系统使用深度学习。2020年发表于:10计算机科学与工程国际研讨会;6月19日,2020;上海46-51页。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  7. 王SM, Chang YH、郭LC赖F,陈YN,于年度,等。利用FreeText深度学习自动icd - 10分类数据。欧元J生物医学通知2020;16 (1):1 - 10 (gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  8. 洛佩尔E,鸟s NLTK:自然语言工具包。2002年发表于:ACL-02研讨会上有效的工具和方法对自然语言处理及计算语言学上的教导;2002年7月7日;费城,宾夕法尼亚州。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  9. Pedregosa F, G Varoquaux, Gramfort,米歇尔V,蒂里翁B, Grisel O, et al . Scikit-learn:机器学习在Python中。2830 J马赫学习Res 12:2825 2011;gydF4y2Ba免费的全文gydF4y2Ba]gydF4y2Ba
  10. 国际疾病分类、十修订、临床修改。Qeios。URL:gydF4y2Bahttps://www.qeios.com/read/SA6DYUgydF4y2Ba[2021-08-04]访问gydF4y2Ba
  11. 彭宁顿J, Socher R,曼宁c .手套:全球词向量表示。2014年发表于:2014年会议上实证方法在自然语言处理(EMNLP);2014年10月;多哈。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  12. Mikolov T, Sutskever我,陈K, Corrado G院长j .分布表示的单词和短语及其组合。出来了。预印本网上发布2013年10月16日。(gydF4y2Ba免费的全文gydF4y2Ba]gydF4y2Ba
  13. 加德纳M,天鹤座J,诺伊曼M, Tafjord O, Dasigi P, N, et al。AllenNLP:深度语义自然语言处理平台。2018年发表于:研讨会NLP开源软件(NLP-OSS);2018年7月;墨尔本。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  14. Devlin J, Chang兆瓦,李K, Toutanova K·伯特:训练的语言理解的深度双向变形金刚。2019年发表于:17日北美协会的年度会议上对计算语言学:人类语言技术(NAACL-HLT 2019);2019年6月2 - 7日;明尼阿波利斯、锰。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  15. 黄K, Altosaar J, Ranganath r . ClinicalBERT:建模临床记录和预测再次住院。2019年发表于:ACM会议上健康、推理、学习;2020年4月2 - 4日;多伦多。(gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  16. 李J, Yoon W,金,金D,金正日年代,CH, et al。BioBERT: pre-trained生物医学生物医学文本挖掘语言表征模型。生物信息学2020年2月15日,36 (4):1234 - 1240 (gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. 钟J, Gulcehre C,曹K, Bengio y的经验评估的递归神经网络建模序列。出来了。预印本网上公布的12月11日,2014年。(gydF4y2Ba免费的全文gydF4y2Ba]gydF4y2Ba
  18. Bahdanau D,曹K, Bengio y神经机器翻译的共同学习和翻译一致。出来了。预印本网上公布的9月1日,2014年。(gydF4y2Ba免费的全文gydF4y2Ba]gydF4y2Ba
  19. ICD网络。URL:gydF4y2Bahttps://nets.csie.ntu.edu.tw/gydF4y2Ba[2021-08-05]访问gydF4y2Ba
  20. 陈Rajkomar,奥伦E、K,戴,Hajaj N,尹浩然,哈特。可伸缩的和准确的深度学习与电子健康记录。NPJ数字杂志2018;18 (gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  21. 阿明,诺伊曼G, Dunfield K, Vechkaeva,查普曼KA, Wixted可。MLT-DFKI谱号2019年电子健康:多标记分类与伯特icd - 10编码。2019发表于:10日会议和实验室评价论坛;2019年9月9 - 12日;卢加诺URL:gydF4y2Bahttp://ceur-ws.org/Vol-2380/paper_67.pdfgydF4y2Ba
  22. 舒马赫E, Dredze m .无监督学习上下文表示为医疗同义词发现。JAMIA 12月开2019;2 (4):538 - 546 (gydF4y2Ba免费的全文gydF4y2Ba][gydF4y2BaCrossRefgydF4y2Ba][gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba


‎gydF4y2Ba
伯特:gydF4y2Ba从变压器双向编码器表示gydF4y2Ba
BiGRU:gydF4y2Ba双向封闭的复发性单元gydF4y2Ba
BioBERT:gydF4y2Ba双向编码器表征变压器的生物医学文本挖掘gydF4y2Ba
CM:gydF4y2Ba临床修改gydF4y2Ba
款:gydF4y2Ba深层神经网络gydF4y2Ba
电子健康档案:gydF4y2Ba电子健康记录gydF4y2Ba
埃尔莫:gydF4y2Ba从语言模型嵌入gydF4y2Ba
FCNN:gydF4y2Ba全神经网络gydF4y2Ba
手套:gydF4y2Ba全球向量gydF4y2Ba
格勒乌:gydF4y2Ba封闭的复发性单元gydF4y2Ba
ICD:gydF4y2Ba国际疾病分类gydF4y2Ba
台大医院:gydF4y2Ba国立台湾大学医院gydF4y2Ba
NLP:gydF4y2Ba自然语言处理gydF4y2Ba
电脑:gydF4y2Ba程序编码系统gydF4y2Ba
SHA-RNN:gydF4y2Ba单头递归神经网络的关注gydF4y2Ba
Word2Vec:gydF4y2Ba词向量gydF4y2Ba


编辑C洛维斯;提交05.08.20;同行评议的Kimia G Lim E Frontoni;评论作者19.01.21;修订版本收到15.03.21;接受25.07.21;发表31.08.21gydF4y2Ba

版权gydF4y2Ba

©Pei-Fu Chen Ssu-Ming Wang徐粹辽、Lu-Cheng郭,Kuan-Chih Chen Yu-Cheng Lin Chi-Yu杨Chi-Hao赵,Shu-Chih Chang Feipei赖。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 31.08.2021。gydF4y2Ba

这是一个开放分布式根据条知识共享归属许可(https://creativecommons.org/licenses/by/4.0/),它允许无限制的使用、分配、和繁殖在任何媒介,提供原工作,首次出版于JMIR医学信息学是正确引用。完整的书目信息,原始发布在https://medinform.www.mybigtv.com/上的链接,以及这个版权和许可信息必须包括在内。gydF4y2Ba


Baidu
map