%0期刊文章%@ 1438-8871 %I JMIR Publicat卡塔尔世界杯8强波胆分析ions %V 19 %N 11 %P e380 %T利用外部资源对出院记录中的诊断代码进行分类的人工智能学习语义%林阿,徐阿珍,楼佳贞,楼玉生,叶佳珍,李佳成,苏佳成,陈佳龙,陈祥成%+台北市内湖民春东路六段161号国防医学中心三军总医院内科风湿病/免疫/变态反应科114,台湾,886 2 7927135,hccheng@ndmctsgh.edu.tw %K字嵌入%K卷积神经网络%K神经网络(计算机)%K自然语言处理%K文本挖掘%K数据挖掘%K机器学习%K电子病历%K电子健康记录%D 2017 %7 06.11.2017 %9原始论文%J J医学互联网Res %G英文%X背景:使用自由文本医疗信息的自动疾病代码分类对公共卫生监测非常重要。然而,传统的自然语言处理(NLP)管道是有限的,因此我们提出了一种将词嵌入与卷积神经网络(CNN)相结合的方法。目的:我们的目标是比较传统管道(NLP +监督机器学习模型)与词嵌入结合CNN在进行分类任务时识别出院记录中的国际疾病分类,第十版,临床修改(ICD-10-CM)诊断代码的性能。方法:我们使用了两种分类方法:(1)从出院记录中提取一些特征(术语,n-gram短语和SNOMED CT类别),我们用来训练一组有监督的机器学习模型(支持向量机,随机森林和梯度增强机);(2)通过预训练的词嵌入模型构建特征矩阵,我们用来训练CNN。我们使用这些方法在一组出院记录中识别章节级别的ICD-10-CM诊断代码。我们使用2015年6月1日至2017年1月31日在台湾台北市三科综合医院住院的103390例出院单进行了评估。我们使用受试者工作特征曲线作为评价指标,并计算曲线下面积(AUC)和f测度作为有效性的整体测度。结果:在5次交叉验证试验中,本方法具有较高的检验精度(平均AUC 0.9696;平均F-measure 0.9086)比传统基于nlp的方法(平均AUC范围0.8183-0.9571; mean F-measure range 0.5050-0.8739). A real-world simulation that split the training sample and the testing sample by date verified this result (mean AUC 0.9645; mean F-measure 0.9003 using the proposed method). Further analysis showed that the convolutional layers of the CNN effectively identified a large number of keywords and automatically extracted enough concepts to predict the diagnosis codes. Conclusions: Word embedding combined with a CNN showed outstanding performance compared with traditional methods, needing very little data preprocessing. This shows that future studies will not be limited by incomplete dictionaries. A large amount of unstructured information from free-text medical writing will be extracted by automated approaches in the future, and we believe that the health care field is about to enter the age of big data. %M 29109070 %R 10.2196/jmir.8344 %U //www.mybigtv.com/2017/11/e380/ %U https://doi.org/10.2196/jmir.8344 %U http://www.ncbi.nlm.nih.gov/pubmed/29109070
Baidu
map