这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba
使用免费文本医疗信息进行疾病代码自动分类对于公共卫生监测非常重要。然而,传统的自然语言处理(NLP)管道是有限的,因此我们提出了一种将词嵌入与卷积神经网络(CNN)相结合的方法。gydF4y2Ba
我们的目标是比较传统管道(NLP +监督机器学习模型)与词嵌入结合CNN在进行分类任务识别时的性能gydF4y2Ba
我们使用了两种分类方法:(1)从出院记录中提取一些特征(术语,n-gram短语和SNOMED CT类别),我们用来训练一组有监督的机器学习模型(支持向量机,随机森林和梯度增强机);(2)通过预训练的词嵌入模型构建一个特征矩阵,我们用来训练CNN。我们使用这些方法来识别章节级别gydF4y2Ba
在5次交叉验证试验中,我们的方法具有较高的检验精度(平均AUC 0.9696;平均F-measure 0.9086)比传统基于nlp的方法(平均AUC范围0.8183-0.9571;平均F-measure range 0.5050-0.8739)。根据日期分割训练样本和测试样本的真实世界模拟验证了这一结果(平均AUC 0.9645;使用所提出的方法,平均F-measure 0.9003)。进一步分析表明,CNN的卷积层可以有效地识别大量的关键词,并自动提取足够的概念来预测诊断代码。gydF4y2Ba
与传统方法相比,词嵌入结合CNN算法表现出了出色的性能,所需要的数据预处理非常少。这表明,未来的研究将不会局限于不完整的词典。自由文本医学写作中的大量非结构化信息将在未来通过自动化的方法提取出来,我们相信医疗领域即将进入大数据时代。gydF4y2Ba
公共卫生监测系统对于识别具有公共卫生重要性的异常事件非常重要,并将为公共卫生行动提供信息[gydF4y2Ba
由于电子医疗数据的数量和可访问性不断增加,自动化监测方法正在得到越来越多的研究,而且一系列研究已经证明了从临床叙述中提取结构化信息的可行性[gydF4y2Ba
自动化监测算法面临的另一个重要挑战是新出现的疾病。例如,H1N1流感在2009年爆发,在2008年之前的任何医疗记录中都没有记录。传统的基于项向量的自动方法不能使用新的项[gydF4y2Ba
词嵌入是一种特征学习技术,将词汇表映射到实数向量[gydF4y2Ba
该项目旨在比较传统的机器学习管道(NLP加监督机器学习模型)与结合CNN的词嵌入,以识别章节级gydF4y2Ba
台湾台北市三科综合医院于2015年6月1日至2017年1月31日期间提供经鉴定的自由文本出院通知书。研究伦理经机构伦理委员会和三科综合医院病历办公室批准,可在直接收集数据的地点未经个人同意收集数据。三科综合医院位于台北市内湖区,以国防医疗中心的名义,为军人、家属和平民提供医疗服务。被台湾卫生福利部评为医疗中心级一流教学医院。医院约有1700张病床,每月有6000名住院病人,大多数住院病人是平民。我们共收集了103,390份出院通知书,并使用Hunspell版本2.3包更正了拼写错误[gydF4y2Ba
我们使用了2个测试程序来评估模型的性能。首先,我们进行了5倍交叉验证测试。其次,我们通过按日期(2016年7月1日)分割样本来创建训练集和测试集,因为这更现实。分类器只能使用现实世界中的回顾性数据进行训练,并将其用于对未来的数据进行分类;第二个测试过程复制了这个过程。所有计算均在富士通RX2540M1 48核CPU、768 GB RAM服务器(富士通有限公司,日本东京)上进行,全闪存阵列为AccelStor NeoSapphire NS3505 (AccelStor, Inc,台湾台北市),采用5 TB串行先进技术连接接口固态硬盘,连接速度为56 GB/秒FDR InfiniBand Quad小尺寸可插拔(Fiberon Technologies, Inc, Westborough, MA, USA)。gydF4y2Ba
不同的患病率gydF4y2Ba
|
定义gydF4y2Ba | 研究阶段gydF4y2Ba | ||
2016年6月30日前(n=64,023)gydF4y2Ba |
2016年7月1日后(n=39,367)gydF4y2Ba |
整个研究周期(n=103,390)gydF4y2Ba |
||
A00-B99gydF4y2Ba | 某些传染病和寄生虫病gydF4y2Ba | 7731例(12.1%)gydF4y2Ba | 5455例(13.9%)gydF4y2Ba | 13186例(12.8%)gydF4y2Ba |
C00-D49gydF4y2Ba | 肿瘤gydF4y2Ba | 20585例(32.2%)gydF4y2Ba | 13993例(35.5%)gydF4y2Ba | 34578例(33.5%)gydF4y2Ba |
D50-D89gydF4y2Ba | 血液和造血器官疾病以及涉及免疫机制的某些疾病gydF4y2Ba | 4516例(7.1%)gydF4y2Ba | 3132例(8.0%)gydF4y2Ba | 7648例(7.4%)gydF4y2Ba |
E00-E89gydF4y2Ba | 内分泌、营养和代谢疾病gydF4y2Ba | 13223例(20.7%)gydF4y2Ba | 8765例(22.3%)gydF4y2Ba | 21988例(21.3%)gydF4y2Ba |
F01-F99gydF4y2Ba | 精神、行为和神经发育障碍gydF4y2Ba | 4612例(7.2%)gydF4y2Ba | 2942例(7.5%)gydF4y2Ba | 7554例(7.3%)gydF4y2Ba |
G00-G99gydF4y2Ba | 神经系统疾病gydF4y2Ba | 3703例(5.8%)gydF4y2Ba | 2602例(6.6%)gydF4y2Ba | 6305例(6.1%)gydF4y2Ba |
H00-H59gydF4y2Ba | 眼睛和附件疾病gydF4y2Ba | 2337例(3.7%)gydF4y2Ba | 1374例(3.5%)gydF4y2Ba | 3711例(3.6%)gydF4y2Ba |
H60-H95gydF4y2Ba | 耳朵和乳突的疾病gydF4y2Ba | 802例(1.3%)gydF4y2Ba | 470例(1.2%)gydF4y2Ba | 1272例(1.2%)gydF4y2Ba |
I00-I99gydF4y2Ba | 循环系统疾病gydF4y2Ba | 17650例(27.6%)gydF4y2Ba | 11465例(29.1%)gydF4y2Ba | 29115例(28.2%)gydF4y2Ba |
J00-J99gydF4y2Ba | 呼吸系统疾病呼吸系统疾病gydF4y2Ba | 7743例(12.1%)gydF4y2Ba | 5584例(14.2%)gydF4y2Ba | 13327例(13.0%)gydF4y2Ba |
K00-K95gydF4y2Ba | 消化系统疾病消化系统疾病gydF4y2Ba | 12849例(20.1%)gydF4y2Ba | 8444例(21.4%)gydF4y2Ba | 21293例(20.6%)gydF4y2Ba |
L00-L99gydF4y2Ba | 皮肤和皮下组织疾病gydF4y2Ba | 2568例(4.0%)gydF4y2Ba | 1711例(4.3%)gydF4y2Ba | 4279例(4.1%)gydF4y2Ba |
M00-M99gydF4y2Ba | 肌肉骨骼系统和结缔组织疾病gydF4y2Ba | 9170例(14.3%)gydF4y2Ba | 5152例(13.1%)gydF4y2Ba | 14322例(13.9%)gydF4y2Ba |
N00-N99gydF4y2Ba | 泌尿生殖系统疾病gydF4y2Ba | 9929例(15.5%)gydF4y2Ba | 7325例(18.6%)gydF4y2Ba | 17254例(16.8%)gydF4y2Ba |
O00-O9AgydF4y2Ba | 怀孕、分娩和产褥期gydF4y2Ba | 2509例(3.9%)gydF4y2Ba | 1271例(3.2%)gydF4y2Ba | 3780例(3.7%)gydF4y2Ba |
P00-P96gydF4y2Ba | 某些疾病起源于围产期gydF4y2Ba | 793例(1.2%)gydF4y2Ba | 493例(1.3%)gydF4y2Ba | 1286例(1.2%)gydF4y2Ba |
Q00-Q99gydF4y2Ba | 先天性畸形、变形和染色体异常gydF4y2Ba | 927例(1.4%)gydF4y2Ba | 513例(1.3%)gydF4y2Ba | 1440例(1.4%)gydF4y2Ba |
R00-R99gydF4y2Ba | 其他地方未分类的症状、体征和异常临床和实验室发现gydF4y2Ba | 5271例(8.2%)gydF4y2Ba | 3824例(9.7%)gydF4y2Ba | 9095例(8.9%)gydF4y2Ba |
S00-T88gydF4y2Ba | 受伤、中毒及其他外因所造成的后果gydF4y2Ba | 6272例(9.8%)gydF4y2Ba | 4564例(11.6%)gydF4y2Ba | 10836例(10.6%)gydF4y2Ba |
V00-Y99gydF4y2Ba | 发病的外部原因gydF4y2Ba | 791例(1.2%)gydF4y2Ba | 68例(0.2%)gydF4y2Ba | 859例(0.8%)gydF4y2Ba |
Z00-Z99gydF4y2Ba | 影响健康状况和与保健服务接触的因素gydF4y2Ba | 15488例(24.2%)gydF4y2Ba | 10093例(25.6%)gydF4y2Ba | 25581例(24.8%)gydF4y2Ba |
传统的分类技术通常结合NLP管道和分类器来执行自由文本医学写作的分类任务。我们利用NLP管道从排放记录中提取详细特征;然后gydF4y2Ba
在本研究中,我们使用了一个两部分的NLP管道来提取放电音符特征。首先,直接从自由文本描述中提取基于词的特征,由RWeka 0.4-30版本包生成n-gram短语(n range 2-5) [gydF4y2Ba
支持向量机(svm)是机器学习领域中常见的分类器。他们将所有样本映射到一个超平面上,并将它们除以一个明确的间隙。此外,内核技巧用于扩展这个超平面。与朴素贝叶斯分类器、C4.5决策树和自适应增强相比,支持向量机被证明在自由文本医学写作分类中具有最佳性能[gydF4y2Ba
随机森林(RFs)构造多个决策树,并使用来自每棵树的信息来进行预测。在之前的文本分类研究中,它是表现最好的分类模型[gydF4y2Ba
梯度增强机(GBMs)也是弱决策树的集合,其中梯度增强方法用于提高每棵树的预测能力[gydF4y2Ba
利用“天下没有免费的午餐”定理[gydF4y2Ba
传统的NLP管道受到其预先存在的字典的限制,需要构建复杂的处理流。在此,我们提出了一种结合词嵌入模型和CNN的方法。词嵌入技术对于集成同义词很有用,我们使用预先训练好的GloVe模型(英语维基百科加Gigaword)来向量化单词。由于计算时间的限制,我们选择了一个50维的40万字模型。然而,我们认为这已经足够了,因为我们的103,390份出院记录中只有19,064个单词。我们将每个出院记录转换为n×50矩阵用于后续分类(其中n是出院记录中的字数),并使用这些标记的矩阵训练CNN。gydF4y2Ba
虽然已经开发了各种结构的CNN,但我们重点研究了一个1层的CNN,其过滤区域大小为1-5(对应于1-5个n-gram短语),以增加与传统机器学习技术的可比性。事实上,这些简单的模型最近已经取得了非常强大的性能[gydF4y2Ba
我们使用MXNet 0.8.0版本包[gydF4y2Ba
具有5个卷积通道和1个全连接(FC)层的模型架构。ReLU:整流线性单元。gydF4y2Ba
我们进行过采样处理,以充分考虑积极的情况,但不会因压倒性的消极情况而偏斜[gydF4y2Ba
训练和测试auc的全球(最低5)方法gydF4y2Ba一个gydF4y2Ba在5倍交叉验证测试中。gydF4y2Ba
管道gydF4y2Ba | 训练集gydF4y2Ba | 测试组gydF4y2Ba | |||
|
AUCgydF4y2BabgydF4y2Ba | F-measuregydF4y2Ba | AUCgydF4y2BabgydF4y2Ba | F-measuregydF4y2Ba | |
|
|||||
|
NLPgydF4y2BacgydF4y2Ba+支持向量机gydF4y2BadgydF4y2Ba(线性)gydF4y2Ba | 0.9947 (0.9836)gydF4y2Ba | 0.9546 (0.8560)gydF4y2Ba | 0.9571 (0.8891)gydF4y2Ba | 0.8606 (0.6387)gydF4y2Ba |
|
NLP + SVM(多项式)gydF4y2Ba | 0.8627 (0.6736)gydF4y2Ba | 0.5630 (0.2498)gydF4y2Ba | 0.8183 (0.6332)gydF4y2Ba | 0.5050 (0.2023)gydF4y2Ba |
|
NLP + SVM(径向基)gydF4y2Ba | 0.9565 (0.9146)gydF4y2Ba | 0.7984 (0.6613)gydF4y2Ba | 0.9363 (0.8582)gydF4y2Ba | 0.7569 (0.5352)gydF4y2Ba |
|
NLP + SVM (sigmoid)gydF4y2Ba | 0.9518 (0.9021)gydF4y2Ba | 0.7852 (0.6368)gydF4y2Ba | 0.9325 (0.8526)gydF4y2Ba | 0.7498 (0.5313)gydF4y2Ba |
|
NLP + rfgydF4y2BaegydF4y2Ba | 0.9999 (0.9995)gydF4y2BafgydF4y2Ba | 0.9864 (0.9628)gydF4y2Ba | 0.9570 (0.8800)gydF4y2Ba | 0.8739 (0.6475)gydF4y2Ba |
|
NLP + GBMgydF4y2BaggydF4y2Ba | 0.9996 (0.9990)gydF4y2Ba | 0.9868 (0.9660)gydF4y2Ba | 0.9544 (0.8722)gydF4y2Ba | 0.8691 (0.6458)gydF4y2Ba |
|
|||||
|
手套gydF4y2BahgydF4y2Ba+有线电视新闻网gydF4y2Ba我gydF4y2Ba | 0.9964 (0.9890)gydF4y2Ba | 0.9837 (0.9588)gydF4y2Ba | 0.9696 (0.9135)gydF4y2BafgydF4y2Ba | 0.9086 (0.7651)gydF4y2Ba |
一个gydF4y2BaAUC:曲线下面积,用接受者工作特性曲线计算。gydF4y2Ba
bgydF4y2Ba结果以平均AUC或f -测度表示(最低5个AUC或f -测度的平均值)。每个章节级别的详细auc和f测量gydF4y2Ba
cgydF4y2BaNLP:用于特征提取(术语、n-gram短语和SNOMED CT类别)的自然语言处理。gydF4y2Ba
dgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba
egydF4y2BaRF:随机森林。gydF4y2Ba
fgydF4y2Ba针对特定索引的最佳方法。gydF4y2Ba
ggydF4y2BaGBM:梯度增压机。gydF4y2Ba
hgydF4y2BaGloVe:一个50维单词嵌入模型,使用英语维基百科和Gigaword进行预训练。gydF4y2Ba
我gydF4y2BaCNN:卷积神经网络。gydF4y2Ba
我们将为真实世界测试选择的3个卷积滤波器可视化为gydF4y2Ba
训练和测试auc的全局(和最低5)均值gydF4y2Ba一个gydF4y2Ba在实际测试中。gydF4y2Ba
管道gydF4y2Ba | 训练集gydF4y2Ba | 测试组gydF4y2Ba | |||
|
AUCgydF4y2BabgydF4y2Ba | F-measuregydF4y2Ba | AUCgydF4y2BabgydF4y2Ba | F-measuregydF4y2Ba | |
|
|||||
|
NLPgydF4y2BacgydF4y2Ba+支持向量机gydF4y2BadgydF4y2Ba(线性)gydF4y2Ba | 0.9921 (0.9768)gydF4y2Ba | 0.9365 (0.7983)gydF4y2Ba | 0.9477 (0.8549)gydF4y2Ba | 0.8458 (0.5984)gydF4y2Ba |
|
NLP + SVM(多项式)gydF4y2Ba | 0.9103 (0.7975)gydF4y2Ba | 0.6316 (0.4045)gydF4y2Ba | 0.8716 (0.7400)gydF4y2Ba | 0.5761 (0.2802)gydF4y2Ba |
|
NLP + SVM(径向基)gydF4y2Ba | 0.9577 (0.9208)gydF4y2Ba | 0.7954 (0.6484)gydF4y2Ba | 0.9349 (0.8476)gydF4y2Ba | 0.7588 (0.5258)gydF4y2Ba |
|
NLP + SVM (sigmoid)gydF4y2Ba | 0.9522 (0.9058)gydF4y2Ba | 0.7840 (0.6261)gydF4y2Ba | 0.9259 (0.8196)gydF4y2Ba | 0.7515 (0.5209)gydF4y2Ba |
|
NLP + rfgydF4y2BaegydF4y2Ba | 0.9996 (0.9985)gydF4y2BafgydF4y2Ba | 0.9869 (0.9664)gydF4y2BafgydF4y2Ba | 0.9483 (0.8484)gydF4y2Ba | 0.8582 (0.5901)gydF4y2Ba |
|
NLP + GBMgydF4y2BaggydF4y2Ba | 0.9995 (0.9985)gydF4y2Ba | 0.9821 (0.9562)gydF4y2Ba | 0.9462 (0.8416)gydF4y2Ba | 0.8568 (0.5948)gydF4y2Ba |
|
|||||
|
手套gydF4y2BahgydF4y2Ba+有线电视新闻网gydF4y2Ba我gydF4y2Ba | 0.9956 (0.9868)gydF4y2Ba | 0.9803 (0.9523)gydF4y2Ba | 0.9645 (0.8952)gydF4y2BafgydF4y2Ba | 0.9003 (0.7204)gydF4y2BafgydF4y2Ba |
一个gydF4y2BaAUC:曲线下面积,用接受者工作特性曲线计算。gydF4y2Ba
bgydF4y2Ba结果以平均AUC或f -测度表示(最低5个AUC或f -测度的平均值)。每个章节级别的详细auc和f测量gydF4y2Ba
cgydF4y2BaNLP:用于特征提取(术语、n-gram短语和SNOMED CT类别)的自然语言处理。gydF4y2Ba
dgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba
egydF4y2BaRF:随机森林。gydF4y2Ba
fgydF4y2Ba针对特定索引的最佳方法。gydF4y2Ba
ggydF4y2BaGBM:梯度增压机。gydF4y2Ba
hgydF4y2BaGloVe:一个50维单词嵌入模型,使用英语维基百科和Gigaword进行预训练。gydF4y2Ba
我gydF4y2BaCNN:卷积神经网络。gydF4y2Ba
所选卷积滤波器的可视化。gydF4y2Ba
卷积滤波器在每个分类任务中提取特征的信息增益。AUC:曲线下面积;IG:信息获取。gydF4y2Ba
该方法将词嵌入与CNN相结合,无论在何种情况下,都比所有传统的基于nlp的方法具有更高的测试精度。进一步分析表明,卷积滤波器具有模糊匹配能力,大大降低了最终分类任务的数据维数。此外,传统方法的训练auc非常接近于1。这意味着没有改进的可能性,训练集和测试集性能之间的较大差异意味着过拟合。gydF4y2Ba
任意的自由文本医学叙述包括许多单词组合,并且没有使用当前NLP管道集成类似术语的好方法。先前的研究强调了这一问题,并提出通过更有效地处理临床子语言的特质是有可能改善的。gydF4y2Ba
与传统方法相比,该方法不仅提高了精度,而且避免了繁琐的数据预处理。我们避免麻烦的数据预处理的解决方案是基于词嵌入,它可以从外部资源学习语义。词汇表被映射到实数向量,类似概念的词向量也很接近。在我们的工作中,出院记录被转换为n×50矩阵,其中n是字数,CNN根据我们设计的卷积滤波器对这个矩阵进行分类。因为相似概念的词向量在术语上也很接近,所以卷积层有效地在卷积过滤器中识别了大量的关键字(数据见gydF4y2Ba
本研究中使用的所有分类器在V00-Y99(发病外因)编码任务中表现不佳,这可能归因于稀疏的测试数据(0.2%)。之前的一项研究发现,分类器在常见癌症上的表现优于在罕见癌症上的表现[gydF4y2Ba
所有传统的基于术语的分类器都面临着新出现疾病无法正确分类的问题。例如,H1N1流感不可能在2000年至2007年的临床叙述中被记录,因此基于术语的分类器不可能意识到2009年的H1N1大流行[gydF4y2Ba
以前的研究描述了人类专家使用的分类方法,一些基于规则的方法已经证明了优越的性能[gydF4y2Ba
如不立即采取公共卫生行动,蓄意和自然传染病的爆发可导致大量人员伤亡[gydF4y2Ba
应该承认本研究的几个潜在局限性。首先,我们只使用50维GloVe模型来处理数据,以减少计算时间。然而,即使是50维模型也比传统方法有更好的性能。因此,我们认为这不会影响我们的结果,并且我们的建议是执行自由文本医疗叙事编码任务的更好解决方案。其次,这项研究只包括了一家医院的出院证明,所以我们不能确定它在多大程度上可以推广到其他数据源。虽然这项研究只是提供了一个可行性评估外推随着时间的推移,我们相信它仍然证明了我们的方法的优越性。第三,本研究仅在出院记录中进行分类任务。出院记录只描述疾病的存在,但不包括负面陈述。我们的CNN架构包括3到5克的短语标识符,但仍需要进一步的研究来将这种方法应用于患者的病程记录,以证明其能力。gydF4y2Ba
我们的研究表明,将cnn与词嵌入相结合是一种可行的分析管道,用于从自由文本医学叙述中进行疾病分类。与使用机器学习分类器的传统自然语言处理相比,该方法表现出了优异的性能,可以避免麻烦的数据预处理。更复杂的cnn可以用来进一步提高预测性能,未来的研究将不受不完整字典的限制。由于我们的数据来自单一中心,进一步的研究可以在其他医院实施该算法。我们希望我们的实验将导致一系列研究,以开发更有效的自动分类方法,并从自由文本医学写作中提取大量非结构化信息。我们开发了一个Web应用程序来演示我们的工作[gydF4y2Ba
ICD-10-CM诊断代码教程。gydF4y2Ba
详细的训练和测试auc和5倍交叉验证测试的f -measure。gydF4y2Ba
详细的训练和测试auc和f -measure用于实际测试。gydF4y2Ba
曲线下面积gydF4y2Ba
卷积神经网络gydF4y2Ba
梯度增压机gydF4y2Ba
国际疾病分类,第十版,临床修订gydF4y2Ba
自然语言处理gydF4y2Ba
支持向量机gydF4y2Ba
随机森林gydF4y2Ba
本研究由台湾国防部医疗事务局“智慧健康计划”资助。由科技部(105-2314-B-016-053)和国防部医疗事务局(MAB-104-013)资助。作者感谢三服务总医院的病历办公室提供的非链接数据源。gydF4y2Ba
没有宣布。gydF4y2Ba