卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIRgydF4y2Ba

J医疗互联网服务gydF4y2Ba

医学互联网研究杂志gydF4y2Ba

1438 - 8871gydF4y2Ba

卡塔尔世界杯8强波胆分析

加拿大多伦多gydF4y2Ba

v19i11e380gydF4y2Ba

29109070gydF4y2Ba

10.2196 / jmir.8344gydF4y2Ba

原始论文gydF4y2Ba

基于外部资源的人工智能学习语义在出院记录中的诊断代码分类gydF4y2Ba

EysenbachgydF4y2Ba

冈瑟gydF4y2Ba

道gydF4y2Ba

ShiqianggydF4y2Ba

罗宾逊gydF4y2Ba

罗伯特。gydF4y2Ba

楚gydF4y2Ba

陈志明gydF4y2Ba

林gydF4y2Ba

下巴gydF4y2Ba

博士学位gydF4y2Ba 1gydF4y2Ba 2gydF4y2Ba

http://orcid.org/0000-0003-2337-2096gydF4y2Ba

许gydF4y2Ba

Chia-JunggydF4y2Ba

废话gydF4y2Ba 3.gydF4y2Ba

http://orcid.org/0000-0001-9969-4855gydF4y2Ba

卢gydF4y2Ba

宥晟gydF4y2Ba

废话gydF4y2Ba 1gydF4y2Ba

http://orcid.org/0000-0001-9115-2656gydF4y2Ba

叶gydF4y2Ba

Shih-JengydF4y2Ba

博士学位gydF4y2Ba 4gydF4y2Ba

http://orcid.org/0000-0001-5393-3996gydF4y2Ba

李gydF4y2Ba

Chia-ChenggydF4y2Ba

医学博士gydF4y2Ba 3.gydF4y2Ba

http://orcid.org/0000-0002-7450-504XgydF4y2Ba

苏gydF4y2Ba

Sui-LunggydF4y2Ba

博士学位gydF4y2Ba 1gydF4y2Ba

http://orcid.org/0000-0003-3122-1116gydF4y2Ba

陈gydF4y2Ba

Hsiang-ChenggydF4y2Ba

医学博士gydF4y2Ba 5gydF4y2Ba

内科风湿病/免疫/变态反应科gydF4y2Ba 三科综合医院gydF4y2Ba 国防医疗中心gydF4y2Ba

内湖区民淳东路6段161号gydF4y2Ba

台北,114年gydF4y2Ba

台湾gydF4y2Ba 886 2 7927135gydF4y2Ba hccheng@ndmctsgh.edu.twgydF4y2Ba

http://orcid.org/0000-0002-0753-6161gydF4y2Ba

^1gydF4y2Ba 公共卫生学院gydF4y2Ba 国防医疗中心gydF4y2Ba

台北gydF4y2Ba

台湾gydF4y2Ba ^2gydF4y2Ba 研发部gydF4y2Ba 国防医疗中心gydF4y2Ba

台北gydF4y2Ba

台湾gydF4y2Ba ^3.gydF4y2Ba 策划及管理处gydF4y2Ba 三科综合医院gydF4y2Ba 国防医疗中心gydF4y2Ba

台北gydF4y2Ba

台湾gydF4y2Ba ^4gydF4y2Ba 大叶大学gydF4y2Ba

彰化gydF4y2Ba

台湾gydF4y2Ba ^5gydF4y2Ba 内科风湿病/免疫/变态反应科gydF4y2Ba 三科综合医院gydF4y2Ba 国防医疗中心gydF4y2Ba

台北gydF4y2Ba

台湾gydF4y2Ba

通讯作者:陈祥程gydF4y2Ba hccheng@ndmctsgh.edu.twgydF4y2Ba

11gydF4y2Ba 2017gydF4y2Ba

06gydF4y2Ba 11gydF4y2Ba 2017gydF4y2Ba

19gydF4y2Ba 11gydF4y2Ba

e380gydF4y2Ba

20.gydF4y2Ba 7gydF4y2Ba 2017gydF4y2Ba 7gydF4y2Ba 9gydF4y2Ba 2017gydF4y2Ba 25gydF4y2Ba 9gydF4y2Ba 2017gydF4y2Ba 4gydF4y2Ba 10gydF4y2Ba 2017gydF4y2Ba

©林琴，徐佳贞，娄玉生，叶世仁，李佳成，苏穗龙，陈祥成。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2017年11月6日。gydF4y2Ba

2017gydF4y2Ba

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。gydF4y2Ba

背景gydF4y2Ba

使用免费文本医疗信息进行疾病代码自动分类对于公共卫生监测非常重要。然而，传统的自然语言处理(NLP)管道是有限的，因此我们提出了一种将词嵌入与卷积神经网络(CNN)相结合的方法。gydF4y2Ba

客观的gydF4y2Ba

我们的目标是比较传统管道(NLP +监督机器学习模型)与词嵌入结合CNN在进行分类任务识别时的性能gydF4y2Ba 国际疾病分类，第十版，临床修订gydF4y2Ba（gydF4y2Ba ICD-10-CMgydF4y2Ba)出院记录中的诊断代码。gydF4y2Ba

方法gydF4y2Ba

我们使用了两种分类方法:(1)从出院记录中提取一些特征(术语，n-gram短语和SNOMED CT类别)，我们用来训练一组有监督的机器学习模型(支持向量机，随机森林和梯度增强机);(2)通过预训练的词嵌入模型构建一个特征矩阵，我们用来训练CNN。我们使用这些方法来识别章节级别gydF4y2Ba ICD-10-CMgydF4y2Ba一套出院记录中的诊断代码。我们使用2015年6月1日至2017年1月31日在台湾台北市三科综合医院住院的103390例出院单进行了评估。我们使用受试者工作特征曲线作为评价指标，并计算曲线下面积(AUC)和f测度作为有效性的整体测度。gydF4y2Ba

结果gydF4y2Ba

在5次交叉验证试验中，我们的方法具有较高的检验精度(平均AUC 0.9696;平均F-measure 0.9086)比传统基于nlp的方法(平均AUC范围0.8183-0.9571;平均F-measure range 0.5050-0.8739)。根据日期分割训练样本和测试样本的真实世界模拟验证了这一结果(平均AUC 0.9645;使用所提出的方法，平均F-measure 0.9003)。进一步分析表明，CNN的卷积层可以有效地识别大量的关键词，并自动提取足够的概念来预测诊断代码。gydF4y2Ba

结论gydF4y2Ba

与传统方法相比，词嵌入结合CNN算法表现出了出色的性能，所需要的数据预处理非常少。这表明，未来的研究将不会局限于不完整的词典。自由文本医学写作中的大量非结构化信息将在未来通过自动化的方法提取出来，我们相信医疗领域即将进入大数据时代。gydF4y2Ba

字嵌入gydF4y2Ba 卷积神经网络gydF4y2Ba 神经网络(计算机)gydF4y2Ba 自然语言处理gydF4y2Ba 文本挖掘gydF4y2Ba 数据挖掘gydF4y2Ba 机器学习gydF4y2Ba 电子病历gydF4y2Ba 电子健康记录gydF4y2Ba

简介gydF4y2Ba

公共卫生监测系统对于识别具有公共卫生重要性的异常事件非常重要，并将为公共卫生行动提供信息[gydF4y2Ba 1gydF4y2Ba］．然而，大多数监控系统只能使用结构化数据，例如gydF4y2Ba 国际疾病分类，第十版，临床修订gydF4y2Ba（gydF4y2Ba ICD-10-CMgydF4y2Ba)诊断代码。目前收集这种结构化信息的方法通常涉及人工识别，但从自由文本临床叙述中手动识别疾病代码既费力又昂贵。此外，大多数监测系统没有足够的临床专家编码员进行实时监测，这导致疾病统计数据的发布延迟。政府卫生行政人员需要及时的信息，以便迅速评估疾病预防和健康保护的优先事项。需要一种及时和以计算机为基础的疾病分类方法，以进一步协助公共卫生行动。gydF4y2Ba

由于电子医疗数据的数量和可访问性不断增加，自动化监测方法正在得到越来越多的研究，而且一系列研究已经证明了从临床叙述中提取结构化信息的可行性[gydF4y2Ba 2gydF4y2Ba-gydF4y2Ba 6gydF4y2Ba］．先前的研究表明，这些文本挖掘方法需要有效地处理临床子语言的特质，以进一步提高性能[gydF4y2Ba 7gydF4y2Ba］．然而，由于临床词汇的多变性，编写一部完整的医学词典可能是不可能的。此外，传统的自然语言处理(NLP)管道可以处理同义词，但不能处理相似的术语，因此有监督的机器学习模型经常面临维数的诅咒。例如，如果我们只想识别与传染病相关的医疗文件、细菌名称等gydF4y2Ba 链球菌引起的肺炎gydF4y2Ba而且gydF4y2Ba 结核分枝杆菌gydF4y2Ba实际上，出于分类的目的，它们可以被视为相似的。有效的文本预处理方法需要学习如何组合相似的概念，而目前的NLP管道通常无法处理这个问题。gydF4y2Ba

自动化监测算法面临的另一个重要挑战是新出现的疾病。例如，H1N1流感在2009年爆发，在2008年之前的任何医疗记录中都没有记录。传统的基于项向量的自动方法不能使用新的项[gydF4y2Ba 2gydF4y2Ba-gydF4y2Ba 6gydF4y2Ba］．这个弱点意味着传统方法不可能实现完全自动化的管道。人类专家能够成功识别新发疾病的关键原因是人类可以从外部资源中学习语义。传统上，这些外部资源通常采用字典的形式，这就是将在NLP管道中使用的。然而，词典的构建是费力的，要完全包含所有的语义关系仍然很困难。总之，传统的NLP管道是复杂和低效的，成功的自动化监视方法还需要包括语义的自动处理。gydF4y2Ba

词嵌入是一种特征学习技术，将词汇表映射到实数向量[gydF4y2Ba 8gydF4y2Ba，gydF4y2Ba 9gydF4y2Ba］．Word2vec [gydF4y2Ba 10gydF4y2Ba]和手套[gydF4y2Ba 11gydF4y2Ba]是两种最流行的词嵌入算法。这些方法展示了词向量空间中有趣的线性子结构:相似概念的词向量在余弦相似度和欧氏距离方面同样接近。这个性质可以帮助我们在未来的机器学习算法中识别概念组和降低数据维数。但是，临床叙事将转化为矩阵，不同长度向量的标准化对于一般的机器学习模型来说是很困难的。卷积神经网络(cnn)使用带有卷积滤波器的层，应用于局部特征，它们可以处理矩阵输入[gydF4y2Ba 12gydF4y2Ba］．cnn最初是为计算机视觉应用而发明的，后来已被证明在语义解析方面取得了出色的结果[gydF4y2Ba 13gydF4y2Ba]，搜索查询检索[gydF4y2Ba 14gydF4y2Ba]，以及句子分类[gydF4y2Ba 15gydF4y2Ba］．cnn成功的关键原因是使用卷积滤波器进行模糊匹配，我们相信卷积滤波器是处理涉及相同概念的相似文本的好方法。通过模糊匹配技术，可以将大量概念相似的单词和短语组合在卷积滤波器中，从而降低数据维数，避免过拟合。gydF4y2Ba

该项目旨在比较传统的机器学习管道(NLP加监督机器学习模型)与结合CNN的词嵌入，以识别章节级gydF4y2Ba ICD-10-CMgydF4y2Ba出院记录中的诊断代码。我们希望为疾病统计开发一个高效和有效的实时监测管道。此外，我们进一步分析了CNN的卷积滤波器，了解它们的功能。gydF4y2Ba

方法gydF4y2Ba 数据源gydF4y2Ba

台湾台北市三科综合医院于2015年6月1日至2017年1月31日期间提供经鉴定的自由文本出院通知书。研究伦理经机构伦理委员会和三科综合医院病历办公室批准，可在直接收集数据的地点未经个人同意收集数据。三科综合医院位于台北市内湖区，以国防医疗中心的名义，为军人、家属和平民提供医疗服务。被台湾卫生福利部评为医疗中心级一流教学医院。医院约有1700张病床，每月有6000名住院病人，大多数住院病人是平民。我们共收集了103,390份出院通知书，并使用Hunspell版本2.3包更正了拼写错误[gydF4y2Ba 16gydF4y2Ba]和一本使用英文维基百科和Gigaword编写的字典[gydF4y2Ba 17gydF4y2Ba］．gydF4y2Ba ICD-10-CMgydF4y2Ba为了要求医疗保险费用，在这些出院单上使用了代码，病历部门负责这些代码的正确性。台湾国家健康保险管理局会定期抽取一定数量的出院通知单进行核实，如果出院通知单标注错误，将被处以10至20倍的罚款。出院单上通常会标注多个gydF4y2Ba ICD-10-CMgydF4y2Ba代码等等gydF4y2Ba ICD-10-CMgydF4y2Ba代码被截断为1个字符级别。2017年版共有21个奖项。gydF4y2Ba 表1gydF4y2Ba显示1字符级代码的频率分布。肿瘤和循环系统疾病最常见gydF4y2Ba ICD-10-CMgydF4y2Ba我们医院的规章制度gydF4y2Ba

我们使用了2个测试程序来评估模型的性能。首先，我们进行了5倍交叉验证测试。其次，我们通过按日期(2016年7月1日)分割样本来创建训练集和测试集，因为这更现实。分类器只能使用现实世界中的回顾性数据进行训练，并将其用于对未来的数据进行分类;第二个测试过程复制了这个过程。所有计算均在富士通RX2540M1 48核CPU、768 GB RAM服务器(富士通有限公司，日本东京)上进行，全闪存阵列为AccelStor NeoSapphire NS3505 (AccelStor, Inc，台湾台北市)，采用5 TB串行先进技术连接接口固态硬盘，连接速度为56 GB/秒FDR InfiniBand Quad小尺寸可插拔(Fiberon Technologies, Inc, Westborough, MA, USA)。gydF4y2Ba

表1gydF4y2Ba

不同的患病率gydF4y2Ba 国际疾病分类，第十版，临床修订gydF4y2Ba（gydF4y2Ba ICD-10-CMgydF4y2Ba)台湾台北市三科综合医院出院记录中的章级代码。gydF4y2Ba

ICD-10-CMgydF4y2Ba代码gydF4y2Ba	定义gydF4y2Ba	研究阶段gydF4y2Ba
ICD-10-CMgydF4y2Ba代码gydF4y2Ba	定义gydF4y2Ba	2016年6月30日前(n=64,023)gydF4y2Ban (%)gydF4y2Ba	2016年7月1日后(n=39,367)gydF4y2Ban (%)gydF4y2Ba	整个研究周期(n=103,390)gydF4y2Ban (%)gydF4y2Ba
A00-B99gydF4y2Ba	某些传染病和寄生虫病gydF4y2Ba	7731例(12.1%)gydF4y2Ba	5455例(13.9%)gydF4y2Ba	13186例(12.8%)gydF4y2Ba
C00-D49gydF4y2Ba	肿瘤gydF4y2Ba	20585例(32.2%)gydF4y2Ba	13993例(35.5%)gydF4y2Ba	34578例(33.5%)gydF4y2Ba
D50-D89gydF4y2Ba	血液和造血器官疾病以及涉及免疫机制的某些疾病gydF4y2Ba	4516例(7.1%)gydF4y2Ba	3132例(8.0%)gydF4y2Ba	7648例(7.4%)gydF4y2Ba
E00-E89gydF4y2Ba	内分泌、营养和代谢疾病gydF4y2Ba	13223例(20.7%)gydF4y2Ba	8765例(22.3%)gydF4y2Ba	21988例(21.3%)gydF4y2Ba
F01-F99gydF4y2Ba	精神、行为和神经发育障碍gydF4y2Ba	4612例(7.2%)gydF4y2Ba	2942例(7.5%)gydF4y2Ba	7554例(7.3%)gydF4y2Ba
G00-G99gydF4y2Ba	神经系统疾病gydF4y2Ba	3703例(5.8%)gydF4y2Ba	2602例(6.6%)gydF4y2Ba	6305例(6.1%)gydF4y2Ba
H00-H59gydF4y2Ba	眼睛和附件疾病gydF4y2Ba	2337例(3.7%)gydF4y2Ba	1374例(3.5%)gydF4y2Ba	3711例(3.6%)gydF4y2Ba
H60-H95gydF4y2Ba	耳朵和乳突的疾病gydF4y2Ba	802例(1.3%)gydF4y2Ba	470例(1.2%)gydF4y2Ba	1272例(1.2%)gydF4y2Ba
I00-I99gydF4y2Ba	循环系统疾病gydF4y2Ba	17650例(27.6%)gydF4y2Ba	11465例(29.1%)gydF4y2Ba	29115例(28.2%)gydF4y2Ba
J00-J99gydF4y2Ba	呼吸系统疾病呼吸系统疾病gydF4y2Ba	7743例(12.1%)gydF4y2Ba	5584例(14.2%)gydF4y2Ba	13327例(13.0%)gydF4y2Ba
K00-K95gydF4y2Ba	消化系统疾病消化系统疾病gydF4y2Ba	12849例(20.1%)gydF4y2Ba	8444例(21.4%)gydF4y2Ba	21293例(20.6%)gydF4y2Ba
L00-L99gydF4y2Ba	皮肤和皮下组织疾病gydF4y2Ba	2568例(4.0%)gydF4y2Ba	1711例(4.3%)gydF4y2Ba	4279例(4.1%)gydF4y2Ba
M00-M99gydF4y2Ba	肌肉骨骼系统和结缔组织疾病gydF4y2Ba	9170例(14.3%)gydF4y2Ba	5152例(13.1%)gydF4y2Ba	14322例(13.9%)gydF4y2Ba
N00-N99gydF4y2Ba	泌尿生殖系统疾病gydF4y2Ba	9929例(15.5%)gydF4y2Ba	7325例(18.6%)gydF4y2Ba	17254例(16.8%)gydF4y2Ba
O00-O9AgydF4y2Ba	怀孕、分娩和产褥期gydF4y2Ba	2509例(3.9%)gydF4y2Ba	1271例(3.2%)gydF4y2Ba	3780例(3.7%)gydF4y2Ba
P00-P96gydF4y2Ba	某些疾病起源于围产期gydF4y2Ba	793例(1.2%)gydF4y2Ba	493例(1.3%)gydF4y2Ba	1286例(1.2%)gydF4y2Ba
Q00-Q99gydF4y2Ba	先天性畸形、变形和染色体异常gydF4y2Ba	927例(1.4%)gydF4y2Ba	513例(1.3%)gydF4y2Ba	1440例(1.4%)gydF4y2Ba
R00-R99gydF4y2Ba	其他地方未分类的症状、体征和异常临床和实验室发现gydF4y2Ba	5271例(8.2%)gydF4y2Ba	3824例(9.7%)gydF4y2Ba	9095例(8.9%)gydF4y2Ba
S00-T88gydF4y2Ba	受伤、中毒及其他外因所造成的后果gydF4y2Ba	6272例(9.8%)gydF4y2Ba	4564例(11.6%)gydF4y2Ba	10836例(10.6%)gydF4y2Ba
V00-Y99gydF4y2Ba	发病的外部原因gydF4y2Ba	791例(1.2%)gydF4y2Ba	68例(0.2%)gydF4y2Ba	859例(0.8%)gydF4y2Ba
Z00-Z99gydF4y2Ba	影响健康状况和与保健服务接触的因素gydF4y2Ba	15488例(24.2%)gydF4y2Ba	10093例(25.6%)gydF4y2Ba	25581例(24.8%)gydF4y2Ba

传统的自由文本分类技术gydF4y2Ba

传统的分类技术通常结合NLP管道和分类器来执行自由文本医学写作的分类任务。我们利用NLP管道从排放记录中提取详细特征;然后gydF4y2Ba ICD-10-CMgydF4y2Ba代码由人类专家分配给每个出院记录。我们使用标记的特征来训练分类器，我们使用训练良好的模型来预测未标记的测试数据。gydF4y2Ba

在本研究中，我们使用了一个两部分的NLP管道来提取放电音符特征。首先，直接从自由文本描述中提取基于词的特征，由RWeka 0.4-30版本包生成n-gram短语(n range 2-5) [gydF4y2Ba 18gydF4y2Ba］．为了降低数据的复杂性，我们只包含了计数为>10的n-gram短语。其次，我们使用SNOMED CT国际版20170131版本的类别来集成同义词。我们使用词袋模型向量化提取的特征(每个出院音符1个向量)，并使用tm版本0.7包将这些特征向量转换为文档术语矩阵[gydF4y2Ba 19gydF4y2Ba］．然后将这个矩阵输入到下面的机器学习模型中。gydF4y2Ba

支持向量机gydF4y2Ba

支持向量机(svm)是机器学习领域中常见的分类器。他们将所有样本映射到一个超平面上，并将它们除以一个明确的间隙。此外，内核技巧用于扩展这个超平面。与朴素贝叶斯分类器、C4.5决策树和自适应增强相比，支持向量机被证明在自由文本医学写作分类中具有最佳性能[gydF4y2Ba 20.gydF4y2Ba］．在这项研究中，我们使用了4个最常见的核技巧:线性、多项式(次=3)、径向基和sigmoid。我们使用e1071包(R包版本1.6-8)[gydF4y2Ba 21gydF4y2Ba]作为支持向量机实现，并将所有其他参数设置为默认值。gydF4y2Ba

随机森林gydF4y2Ba

随机森林(RFs)构造多个决策树，并使用来自每棵树的信息来进行预测。在之前的文本分类研究中，它是表现最好的分类模型[gydF4y2Ba 22gydF4y2Ba]，与支持向量机、朴素贝叶斯分类器和k-最近邻算法进行比较。我们使用H2O版本3.10.2.2包[gydF4y2Ba 23gydF4y2Ba]作为RF实现，并将所有参数设置为默认值。gydF4y2Ba

梯度增压机gydF4y2Ba

梯度增强机(GBMs)也是弱决策树的集合，其中梯度增强方法用于提高每棵树的预测能力[gydF4y2Ba 24gydF4y2Ba］．他们使用贪婪函数近似来构建一系列弱树[gydF4y2Ba 25gydF4y2Ba］．H2O包还提供了GBM实现的功能，我们将所有参数设置为默认值。gydF4y2Ba

利用“天下没有免费的午餐”定理[gydF4y2Ba 26gydF4y2Ba]，我们将传统的NLP管道与上述3个模型结合起来，并在我们的任务中测试了它们的性能。gydF4y2Ba

词嵌入与卷积神经网络的结合gydF4y2Ba

传统的NLP管道受到其预先存在的字典的限制，需要构建复杂的处理流。在此，我们提出了一种结合词嵌入模型和CNN的方法。词嵌入技术对于集成同义词很有用，我们使用预先训练好的GloVe模型(英语维基百科加Gigaword)来向量化单词。由于计算时间的限制，我们选择了一个50维的40万字模型。然而，我们认为这已经足够了，因为我们的103,390份出院记录中只有19,064个单词。我们将每个出院记录转换为n×50矩阵用于后续分类(其中n是出院记录中的字数)，并使用这些标记的矩阵训练CNN。gydF4y2Ba

虽然已经开发了各种结构的CNN，但我们重点研究了一个1层的CNN，其过滤区域大小为1-5(对应于1-5个n-gram短语)，以增加与传统机器学习技术的可比性。事实上，这些简单的模型最近已经取得了非常强大的性能[gydF4y2Ba 15gydF4y2Ba，gydF4y2Ba 27gydF4y2Ba，gydF4y2Ba 28gydF4y2Ba］．gydF4y2Ba 图1gydF4y2Ba显示了所提议的模型的体系结构。我们设置了5个卷积通道，其卷积层数如下:(1)40个卷积滤波器，区域大小为1×50，用于识别重要单词;(2) 30个区域大小为2×50的卷积滤波器，用于识别重要的2克短语;(3) 15个3×50区域大小的卷积滤波器，用于识别重要的3克短语;(4) 10个区域大小为4×50的卷积滤波器，用于识别重要的4克短语;以及(5)5个5×50区域大小的卷积滤波器，以识别重要的5克短语。这些卷积层被连接到一个整流的线性单元层，以增强网络的非线性。然后我们在特征图上应用一个最大池化层，并取最大值。上述步骤与关键字识别过程类似，从每张出院病历中提取100个特征。为了避免过拟合的风险，我们在卷积通道后使用了一个掉落率为50%的掉落层[gydF4y2Ba 29gydF4y2Ba］．最后，我们使用逻辑回归来连接特征，并在损失层中使用交叉熵损失函数来训练CNN。gydF4y2Ba

我们使用MXNet 0.8.0版本包[gydF4y2Ba 30.gydF4y2Ba]来实现上述架构。训练模型的设置如下:(1)小批量梯度下降，阶梯尺寸为1000进行优化;(2)学习率=.05;动量系数=.9;(4) L2正则化系数=.00001;(5)每100次迭代的早停公差=.0001。gydF4y2Ba 多媒体附件1gydF4y2Ba显示了实现单词嵌入和CNNs的示例代码，用于自由文本放电笔记分类。gydF4y2Ba

图1gydF4y2Ba

具有5个卷积通道和1个全连接(FC)层的模型架构。ReLU:整流线性单元。gydF4y2Ba

模型细节和评价指标gydF4y2Ba

我们进行过采样处理，以充分考虑积极的情况，但不会因压倒性的消极情况而偏斜[gydF4y2Ba 31gydF4y2Ba，gydF4y2Ba 32gydF4y2Ba］．所有的模型都返回一个连续的值来评估模型的性能。svm相关模型提供了二元分类器的决策值;RF和GBM模型提供了决策树中概率的平均值;cnn提供由logistic函数计算出的概率。我们使用接受者工作特征曲线作为评估指标，曲线下面积(AUC)提供了有效性的整体衡量指标。此外，我们还提供了f测度，其计算公式如下:gydF4y2Ba 精度gydF4y2Ba＝gydF4y2Ba TruePositivesgydF4y2Ba/ (gydF4y2Ba TruePositivesgydF4y2Ba+gydF4y2Ba FalsePositivesgydF4y2Ba）;gydF4y2Ba 回忆gydF4y2Ba＝gydF4y2Ba TruePositivesgydF4y2Ba/ (gydF4y2Ba TruePositivesgydF4y2Ba+gydF4y2Ba FalseNegativesgydF4y2Ba）;gydF4y2Ba F-measuregydF4y2Ba= (2 ×gydF4y2Ba 精度gydF4y2Ba×gydF4y2Ba 回忆gydF4y2Ba) / (gydF4y2Ba 精度gydF4y2Ba+gydF4y2Ba 回忆gydF4y2Ba）.gydF4y2Ba

结果gydF4y2Ba 交叉验证测试gydF4y2Ba

表2gydF4y2Ba显示了5倍交叉验证测试中训练和测试auc的全局和最低5个均值。所提出的词嵌入+ CNN方法提供了最高的AUC(平均测试AUC = 0.9696;最低的5个aus的平均值= 0.9135)和最高的f -测度(平均检验f -测度= 0.9086;最低5个F-measures的平均值= 0.7651)。值得注意的是，采用线性核技巧的SVM在所有传统方法中具有最高的平均检验AUC(平均检验AUC = 0.9571;最低5个aus的平均值= 0.8891)。RF、GBM和线性支持向量机模型的性能相似(平均检验auc分别为0.9570、0.9544和0.9571)。然而，RF和GBM模型在某些任务中效率非常低gydF4y2Ba 多媒体附件2gydF4y2Ba显示)。由于V00-Y99的影响，RF和GBM模型的平均测试AUC较低gydF4y2Ba ICD-10-CMgydF4y2Ba代码识别任务;因此，线性支持向量机是一个相对稳定的模型。gydF4y2Ba

表2gydF4y2Ba

训练和测试auc的全球(最低5)方法gydF4y2Ba^{一个gydF4y2Ba}在5倍交叉验证测试中。gydF4y2Ba

管道gydF4y2Ba		训练集gydF4y2Ba		测试组gydF4y2Ba
		AUCgydF4y2Ba^bgydF4y2Ba	F-measuregydF4y2Ba	AUCgydF4y2Ba^bgydF4y2Ba	F-measuregydF4y2Ba
传统的gydF4y2Ba
	NLPgydF4y2Ba^cgydF4y2Ba+支持向量机gydF4y2Ba^dgydF4y2Ba(线性)gydF4y2Ba	0.9947 (0.9836)gydF4y2Ba	0.9546 (0.8560)gydF4y2Ba	0.9571 (0.8891)gydF4y2Ba	0.8606 (0.6387)gydF4y2Ba
	NLP + SVM(多项式)gydF4y2Ba	0.8627 (0.6736)gydF4y2Ba	0.5630 (0.2498)gydF4y2Ba	0.8183 (0.6332)gydF4y2Ba	0.5050 (0.2023)gydF4y2Ba
	NLP + SVM(径向基)gydF4y2Ba	0.9565 (0.9146)gydF4y2Ba	0.7984 (0.6613)gydF4y2Ba	0.9363 (0.8582)gydF4y2Ba	0.7569 (0.5352)gydF4y2Ba
	NLP + SVM (sigmoid)gydF4y2Ba	0.9518 (0.9021)gydF4y2Ba	0.7852 (0.6368)gydF4y2Ba	0.9325 (0.8526)gydF4y2Ba	0.7498 (0.5313)gydF4y2Ba
	NLP + rfgydF4y2Ba^egydF4y2Ba	0.9999 (0.9995)gydF4y2Ba^fgydF4y2Ba	0.9864 (0.9628)gydF4y2Ba	0.9570 (0.8800)gydF4y2Ba	0.8739 (0.6475)gydF4y2Ba
	NLP + GBMgydF4y2Ba^ggydF4y2Ba	0.9996 (0.9990)gydF4y2Ba	0.9868 (0.9660)gydF4y2Ba	0.9544 (0.8722)gydF4y2Ba	0.8691 (0.6458)gydF4y2Ba
提出了gydF4y2Ba
	手套gydF4y2Ba^hgydF4y2Ba+有线电视新闻网gydF4y2Ba^我gydF4y2Ba	0.9964 (0.9890)gydF4y2Ba	0.9837 (0.9588)gydF4y2Ba	0.9696 (0.9135)gydF4y2Ba^fgydF4y2Ba	0.9086 (0.7651)gydF4y2Ba

^{一个gydF4y2Ba}AUC:曲线下面积，用接受者工作特性曲线计算。gydF4y2Ba

^bgydF4y2Ba结果以平均AUC或f -测度表示(最低5个AUC或f -测度的平均值)。每个章节级别的详细auc和f测量gydF4y2Ba 国际疾病分类，第十版，临床修订gydF4y2Ba（gydF4y2Ba ICD-10-CMgydF4y2Ba)诊断代码见gydF4y2Ba 多媒体附件2gydF4y2Ba．gydF4y2Ba

^cgydF4y2BaNLP:用于特征提取(术语、n-gram短语和SNOMED CT类别)的自然语言处理。gydF4y2Ba

^dgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba

^egydF4y2BaRF:随机森林。gydF4y2Ba

^fgydF4y2Ba针对特定索引的最佳方法。gydF4y2Ba

^ggydF4y2BaGBM:梯度增压机。gydF4y2Ba

^hgydF4y2BaGloVe:一个50维单词嵌入模型，使用英语维基百科和Gigaword进行预训练。gydF4y2Ba

^我gydF4y2BaCNN:卷积神经网络。gydF4y2Ba

真实的测试gydF4y2Ba

表3gydF4y2Ba显示了在实际测试中训练和测试auc的全局和最低5个均值，其中测试样本按日期分割。该试验的结果与交叉验证试验的结果相似。实际测试中的测试AUC低于交叉验证测试，这可能是因为在实际测试中，由于循环疾病较多，训练样本与测试样本之间的异质性更高。然而，我们提出的方法在测试集上仍然具有最高的性能(平均测试AUC = 0.9645;平均检验F-measure = 0.9003;最低5个aus的平均值= 0.8952;最低5项F-measures的平均值= 0.7204)，在几乎所有任务中都取得了最好的结果。gydF4y2Ba 多媒体gydF4y2Ba显示了详细的训练和测试auc。在Q00-Q99代码识别任务中，所提方法的测试AUC仅明显低于传统方法。此外，在V00-Y99代码识别任务中，所有方法的性能都较差。gydF4y2Ba

卷积滤波分析gydF4y2Ba

我们将为真实世界测试选择的3个卷积滤波器可视化为gydF4y2Ba 图2gydF4y2Ba所示。肿瘤是最常见的gydF4y2Ba ICD-10-CMgydF4y2Ba在我们医院的代码中，我们为这些选择了最高信息增益的过滤器。信息增益估计为IG(gydF4y2Ba CgydF4y2Ba，gydF4y2Ba FgydF4y2Ba) = h (gydF4y2Ba CgydF4y2Ba)−h (gydF4y2Ba CgydF4y2Ba|gydF4y2Ba FgydF4y2Ba),gydF4y2Ba CgydF4y2Ba类(是特定的gydF4y2Ba ICD-10-CMgydF4y2Ba代码),gydF4y2Ba FgydF4y2Ba为卷积滤波器提取的特征，H为信息熵函数。这个过滤器是一个单词过滤器，当使用训练数据(gydF4y2Ba 图2gydF4y2Ba，面板A)。不出所料，模糊匹配技术识别出了这些概念相似的词语。此外，测试数据中的相同单词通过卷积滤波器(gydF4y2Ba 图2gydF4y2Ba面板B)。gydF4y2Ba 图2gydF4y2Ba，图C显示了一个2克的用于某些传染病和寄生虫疾病的卷积滤波器，它可以识别许多病原体。值得一提的是，一些训练数据中没有的病原体在测试数据中通过该过滤器被识别出来(gydF4y2Ba 图2gydF4y2Ba， D).在所有的方法中，确定发病的外因是最困难的任务，并且gydF4y2Ba 图2gydF4y2Ba，面板E显示了该任务最重要的过滤器。我们发现了一些与事故相关的词语，如骨折和受伤，但这些词语在我们的出院记录中被广泛使用。包含这些词的出院纸条总数为7855张，但在训练集中只有791张出院纸条被编码为V00-Y99。这导致测试集的信息增益非常低(gydF4y2Ba 图2gydF4y2Ba，面板F)。gydF4y2Ba

图3gydF4y2Ba显示了每个任务中卷积滤波器的信息增益分布，展示了它们之间的巨大差异。最高效的分类任务通常使用卷积滤波器提取高信息增益特征。当训练集与测试集之间的信息增益比的几何平均值大于80%时，测试AUC大于0.98。值得注意的是，Q00-Q99和V00-Y99的信息增益比非常低(分别为19.9%和0.9%)。这可能解释了在这些任务中表现较低的原因。gydF4y2Ba

表3gydF4y2Ba

训练和测试auc的全局(和最低5)均值gydF4y2Ba^{一个gydF4y2Ba}在实际测试中。gydF4y2Ba

管道gydF4y2Ba		训练集gydF4y2Ba		测试组gydF4y2Ba
		AUCgydF4y2Ba^bgydF4y2Ba	F-measuregydF4y2Ba	AUCgydF4y2Ba^bgydF4y2Ba	F-measuregydF4y2Ba
传统的gydF4y2Ba
	NLPgydF4y2Ba^cgydF4y2Ba+支持向量机gydF4y2Ba^dgydF4y2Ba(线性)gydF4y2Ba	0.9921 (0.9768)gydF4y2Ba	0.9365 (0.7983)gydF4y2Ba	0.9477 (0.8549)gydF4y2Ba	0.8458 (0.5984)gydF4y2Ba
	NLP + SVM(多项式)gydF4y2Ba	0.9103 (0.7975)gydF4y2Ba	0.6316 (0.4045)gydF4y2Ba	0.8716 (0.7400)gydF4y2Ba	0.5761 (0.2802)gydF4y2Ba
	NLP + SVM(径向基)gydF4y2Ba	0.9577 (0.9208)gydF4y2Ba	0.7954 (0.6484)gydF4y2Ba	0.9349 (0.8476)gydF4y2Ba	0.7588 (0.5258)gydF4y2Ba
	NLP + SVM (sigmoid)gydF4y2Ba	0.9522 (0.9058)gydF4y2Ba	0.7840 (0.6261)gydF4y2Ba	0.9259 (0.8196)gydF4y2Ba	0.7515 (0.5209)gydF4y2Ba
	NLP + rfgydF4y2Ba^egydF4y2Ba	0.9996 (0.9985)gydF4y2Ba^fgydF4y2Ba	0.9869 (0.9664)gydF4y2Ba^fgydF4y2Ba	0.9483 (0.8484)gydF4y2Ba	0.8582 (0.5901)gydF4y2Ba
	NLP + GBMgydF4y2Ba^ggydF4y2Ba	0.9995 (0.9985)gydF4y2Ba	0.9821 (0.9562)gydF4y2Ba	0.9462 (0.8416)gydF4y2Ba	0.8568 (0.5948)gydF4y2Ba
提出了gydF4y2Ba
	手套gydF4y2Ba^hgydF4y2Ba+有线电视新闻网gydF4y2Ba^我gydF4y2Ba	0.9956 (0.9868)gydF4y2Ba	0.9803 (0.9523)gydF4y2Ba	0.9645 (0.8952)gydF4y2Ba^fgydF4y2Ba	0.9003 (0.7204)gydF4y2Ba^fgydF4y2Ba

^{一个gydF4y2Ba}AUC:曲线下面积，用接受者工作特性曲线计算。gydF4y2Ba

^bgydF4y2Ba结果以平均AUC或f -测度表示(最低5个AUC或f -测度的平均值)。每个章节级别的详细auc和f测量gydF4y2Ba 国际疾病分类，第十版，临床修订gydF4y2Ba（gydF4y2Ba ICD-10-CMgydF4y2Ba)诊断代码见gydF4y2Ba 多媒体gydF4y2Ba．gydF4y2Ba

^cgydF4y2BaNLP:用于特征提取(术语、n-gram短语和SNOMED CT类别)的自然语言处理。gydF4y2Ba

^dgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba

^egydF4y2BaRF:随机森林。gydF4y2Ba

^fgydF4y2Ba针对特定索引的最佳方法。gydF4y2Ba

^ggydF4y2BaGBM:梯度增压机。gydF4y2Ba

^hgydF4y2BaGloVe:一个50维单词嵌入模型，使用英语维基百科和Gigaword进行预训练。gydF4y2Ba

^我gydF4y2BaCNN:卷积神经网络。gydF4y2Ba

图2gydF4y2Ba

所选卷积滤波器的可视化。gydF4y2Ba

图3gydF4y2Ba

卷积滤波器在每个分类任务中提取特征的信息增益。AUC:曲线下面积;IG:信息获取。gydF4y2Ba

讨论gydF4y2Ba 主要研究结果gydF4y2Ba

该方法将词嵌入与CNN相结合，无论在何种情况下，都比所有传统的基于nlp的方法具有更高的测试精度。进一步分析表明，卷积滤波器具有模糊匹配能力，大大降低了最终分类任务的数据维数。此外，传统方法的训练auc非常接近于1。这意味着没有改进的可能性，训练集和测试集性能之间的较大差异意味着过拟合。gydF4y2Ba

任意的自由文本医学叙述包括许多单词组合，并且没有使用当前NLP管道集成类似术语的好方法。先前的研究强调了这一问题，并提出通过更有效地处理临床子语言的特质是有可能改善的。gydF4y2Ba 7gydF4y2Ba］．我们认为，我们的建议在这方面有优势。所使用的模糊匹配技术为降低过拟合风险提供了真正的机会。这并不奇怪，因为cnn在一些文本挖掘任务中已经取得了很好的结果[gydF4y2Ba 13gydF4y2Ba-gydF4y2Ba 15gydF4y2Ba，gydF4y2Ba 22gydF4y2Ba，gydF4y2Ba 27gydF4y2Ba，gydF4y2Ba 28gydF4y2Ba］．本研究也展示了使用cnn进行自由文本医学叙事分类的优势。gydF4y2Ba

与传统方法相比，该方法不仅提高了精度，而且避免了繁琐的数据预处理。我们避免麻烦的数据预处理的解决方案是基于词嵌入，它可以从外部资源学习语义。词汇表被映射到实数向量，类似概念的词向量也很接近。在我们的工作中，出院记录被转换为n×50矩阵，其中n是字数，CNN根据我们设计的卷积滤波器对这个矩阵进行分类。因为相似概念的词向量在术语上也很接近，所以卷积层有效地在卷积过滤器中识别了大量的关键字(数据见gydF4y2Ba 图2gydF4y2Ba)。最后，利用这些卷积滤波器提取的文档特征进行识别gydF4y2Ba ICD-10-CMgydF4y2Ba诊断代码。这种简单的思想有效地处理了临床子语言的特性，因此所提出的方法不需要外部字典进行数据预处理。gydF4y2Ba

本研究中使用的所有分类器在V00-Y99(发病外因)编码任务中表现不佳，这可能归因于稀疏的测试数据(0.2%)。之前的一项研究发现，分类器在常见癌症上的表现优于在罕见癌症上的表现[gydF4y2Ba 2gydF4y2Ba］．但是，该方法的性能明显优于传统方法。Q00-Q99(先天性畸形、变形和染色体异常)编码任务是下一个重点，因为我们的方法在这些任务中明显不如传统方法。经过进一步分析，我们发现最常见的二级gydF4y2Ba ICD-10-CMgydF4y2BaQ00-Q99的诊断代码为Q80-Q89(其他先天性畸形)，这些出院记录中使用的词语非常复杂。这意味着我们的CNN可能需要更多的卷积滤波器来处理这个问题。在我们将滤波器数量增加一倍并重新训练CNN后，测试AUC大大提高(交叉验证测试和实际测试的AUC分别为0.9203和0.9235)。因此，尽管一个简单的1层CNN在我们的实验中已经表现出了出色的性能，但我们认为有很多机会可以提高所提模型的性能。gydF4y2Ba

所有传统的基于术语的分类器都面临着新出现疾病无法正确分类的问题。例如，H1N1流感不可能在2000年至2007年的临床叙述中被记录，因此基于术语的分类器不可能意识到2009年的H1N1大流行[gydF4y2Ba 3.gydF4y2Ba］．我们的方法可以利用模糊匹配技术来解决这一问题。尽管从2000年到2007年的出院记录中没有记录H1N1，但有足够的信息让机器了解H1N1是一种流感亚型。在我们预训练的GloVe模型中，H1N1与一些与流感相关的术语非常接近，如“猪”、“流感”、“流感”和“H5N1”(余弦相似度分别为0.835、0.832、0.831和0.716)。因此，我们认为卷积滤波器仍然可以正确地识别H1N1并将相关的出院记录分类为A00-B99(某些传染病和寄生虫病)，但更精确的编码将是困难的。因此，重新训练或增量更新分类器仍然是必要的;否则，新出现的疾病将被合并为相似的疾病类别。然而，这仍然是自由文本医学写作分类任务的一个重要突破。gydF4y2Ba

以前的研究描述了人类专家使用的分类方法，一些基于规则的方法已经证明了优越的性能[gydF4y2Ba 3.gydF4y2Ba，gydF4y2Ba 33gydF4y2Ba］．基于规则的方法的唯一问题是，增加新的疾病需要开发新的模型和规则。射频模型使用决策树的集合，其中每个内部节点基于其中的一个项进行区分。我们认为射频和基于规则的方法之间的相似性高于所提出的CNN。机器必须模仿人类的行为模式来提高其正确性。在大多数识别任务中，射频模型表现出比传统分类器更好的性能(交叉验证测试和真实世界测试的平均测试秩分别为3.000和3.190)，这可能是由于射频模型具有与人类专家相似的识别过程。所提出的CNN架构使用逻辑函数进行输出，类似于线性SVM，尽管非线性SVM显示出较低的训练AUC，这可能是由于对特征和结果之间关系的错误假设。这一证据表明，提取的特征和结果之间存在线性关系的假设优于非线性假设，而我们的CNN架构在最后一层也遵循了这一线性假设。然而，基于规则的方法更倾向于使用积极的术语而不是消极的术语[gydF4y2Ba 3.gydF4y2Ba，gydF4y2Ba 33gydF4y2Ba]，因此RF或GBM的体系结构优于线性分类器。提出的CNN的准确率最高;成功的关键不是我们的网络架构，而是模糊术语匹配技术。模糊项匹配降低了过拟合的风险，RF和GBM模型的平均训练auc高于其他模型，这可能表明RF和GBM模型的过拟合风险更大。综上所述，我们认为更深入的CNN可以提供更准确的预测能力。进一步的研究需要考虑这一点，以提高词嵌入与CNN结合的性能。gydF4y2Ba

如不立即采取公共卫生行动，蓄意和自然传染病的爆发可导致大量人员伤亡[gydF4y2Ba 34gydF4y2Ba］．因此，许多国家一直在建立传染病实时监测系统，如疫情和疾病实时监测系统[gydF4y2Ba 35gydF4y2Ba］．疫情与疾病实时监测系统的实现原理是结构化的gydF4y2Ba ICDgydF4y2Ba代码，需要急诊医生实时手动识别。然而，由于需要大量资源，这一系统不能推广到所有疾病。除传染病外，其他慢性病也需要实时监测[gydF4y2Ba 36gydF4y2Ba］．政府卫生行政人员需要及时的信息，以便迅速评估疾病预防和健康保护的优先事项。需要一种及时的自动疾病分类算法。我们提出的方法为实施所有疾病的疾病监测系统提供了可行的途径。它不仅提高了分类性能，而且避免了传统方法固有的局限性。后续研究可以利用该算法进一步开发全自动疾病监测系统。gydF4y2Ba

限制gydF4y2Ba

应该承认本研究的几个潜在局限性。首先，我们只使用50维GloVe模型来处理数据，以减少计算时间。然而，即使是50维模型也比传统方法有更好的性能。因此，我们认为这不会影响我们的结果，并且我们的建议是执行自由文本医疗叙事编码任务的更好解决方案。其次，这项研究只包括了一家医院的出院证明，所以我们不能确定它在多大程度上可以推广到其他数据源。虽然这项研究只是提供了一个可行性评估外推随着时间的推移，我们相信它仍然证明了我们的方法的优越性。第三，本研究仅在出院记录中进行分类任务。出院记录只描述疾病的存在，但不包括负面陈述。我们的CNN架构包括3到5克的短语标识符，但仍需要进一步的研究来将这种方法应用于患者的病程记录，以证明其能力。gydF4y2Ba

结论gydF4y2Ba

我们的研究表明，将cnn与词嵌入相结合是一种可行的分析管道，用于从自由文本医学叙述中进行疾病分类。与使用机器学习分类器的传统自然语言处理相比，该方法表现出了优异的性能，可以避免麻烦的数据预处理。更复杂的cnn可以用来进一步提高预测性能，未来的研究将不受不完整字典的限制。由于我们的数据来自单一中心，进一步的研究可以在其他医院实施该算法。我们希望我们的实验将导致一系列研究，以开发更有效的自动分类方法，并从自由文本医学写作中提取大量非结构化信息。我们开发了一个Web应用程序来演示我们的工作[gydF4y2Ba 37gydF4y2Ba］．公共卫生监测系统将变得更加有效，政府卫生行政人员将能够及时采取正确行动预防疾病和保护健康。当使用这种自动化的方法对以前没有标记的临床记录进行标记时，我们可以获得更多数据驱动的线索，以帮助促进医学的进步。届时，医疗领域将真正进入大数据时代。gydF4y2Ba

多媒体附件1gydF4y2Ba

ICD-10-CM诊断代码教程。gydF4y2Ba

多媒体附件2gydF4y2Ba

详细的训练和测试auc和5倍交叉验证测试的f -measure。gydF4y2Ba

多媒体gydF4y2Ba

详细的训练和测试auc和f -measure用于实际测试。gydF4y2Ba

缩写gydF4y2Ba

AUCgydF4y2Ba

曲线下面积gydF4y2Ba

美国有线电视新闻网gydF4y2Ba

卷积神经网络gydF4y2Ba

“绿带运动”gydF4y2Ba

梯度增压机gydF4y2Ba

ICD-10-CMgydF4y2Ba

国际疾病分类，第十版，临床修订gydF4y2Ba

NLPgydF4y2Ba

自然语言处理gydF4y2Ba

支持向量机gydF4y2Ba

射频gydF4y2Ba

随机森林gydF4y2Ba

本研究由台湾国防部医疗事务局“智慧健康计划”资助。由科技部(105-2314-B-016-053)和国防部医疗事务局(MAB-104-013)资助。作者感谢三服务总医院的病历办公室提供的非链接数据源。gydF4y2Ba

没有宣布。gydF4y2Ba

1gydF4y2Ba

李gydF4y2Ba

LMgydF4y2Ba

查克gydF4y2Ba

某人gydF4y2Ba

在卫生数据来源不断增加的背景下，公共卫生监测和了解卫生gydF4y2Ba

是J Prev Med吗gydF4y2Ba 2011gydF4y2Ba 12gydF4y2Ba 41gydF4y2Ba 6gydF4y2Ba 636gydF4y2Ba 40gydF4y2Ba

10.1016 / j.amepre.2011.08.015gydF4y2Ba

22099242gydF4y2Ba

s0749 - 3797 (11) 00674 - xgydF4y2Ba

2gydF4y2Ba

•库普曼gydF4y2Ba

BgydF4y2Ba

ZuccongydF4y2Ba

GgydF4y2Ba

阮gydF4y2Ba

一个gydF4y2Ba

贝格海姆gydF4y2Ba

一个gydF4y2Ba

格雷森gydF4y2Ba

NgydF4y2Ba

ICD-10癌症自动分类的文本死亡证明gydF4y2Ba

国际医学杂志gydF4y2Ba 2015gydF4y2Ba 11gydF4y2Ba 84gydF4y2Ba 11gydF4y2Ba 956gydF4y2Ba 65gydF4y2Ba

10.1016 / j.ijmedinf.2015.08.004gydF4y2Ba

26323193gydF4y2Ba

s1386 - 5056 (15) 30028 - 9gydF4y2Ba

3.gydF4y2Ba

•库普曼gydF4y2Ba

BgydF4y2Ba

卡里gydF4y2Ba

年代gydF4y2Ba

阮gydF4y2Ba

一个gydF4y2Ba

McGuiregydF4y2Ba

RgydF4y2Ba

MuscatellogydF4y2Ba

DgydF4y2Ba

坎普gydF4y2Ba

米gydF4y2Ba

TrurangydF4y2Ba

DgydF4y2Ba

张gydF4y2Ba

米gydF4y2Ba

ThackwaygydF4y2Ba

年代gydF4y2Ba

从自由文本死亡证明中自动分类疾病，用于实时监测gydF4y2Ba

BMC Med通知Decis MakgydF4y2Ba 2015gydF4y2Ba 07gydF4y2Ba 15gydF4y2Ba 15gydF4y2Ba 53gydF4y2Ba

10.1186 / s12911 - 015 - 0174 - 2gydF4y2Ba

26174442gydF4y2Ba

10.1186 / s12911 - 015 - 0174 - 2gydF4y2Ba

PMC4502908gydF4y2Ba

4gydF4y2Ba

•库普曼gydF4y2Ba

BgydF4y2Ba

ZuccongydF4y2Ba

GgydF4y2Ba

WagholikargydF4y2Ba

一个gydF4y2Ba

楚gydF4y2Ba

KgydF4y2Ba

O 'DwyergydF4y2Ba

JgydF4y2Ba

阮gydF4y2Ba

一个gydF4y2Ba

KeijzersgydF4y2Ba

GgydF4y2Ba

自动核对放射报告和出院总结gydF4y2Ba

AMIA年度诉讼程序gydF4y2Ba 2015gydF4y2Ba 11gydF4y2Ba 2015gydF4y2Ba 775gydF4y2Ba 84gydF4y2Ba

26958213gydF4y2Ba

PMC4765582gydF4y2Ba

5gydF4y2Ba

KhachidzegydF4y2Ba

米gydF4y2Ba

TsintsadzegydF4y2Ba

米gydF4y2Ba

ArchuadzegydF4y2Ba

米gydF4y2Ba

基于自然语言处理的自由文本医疗记录分类仪器gydF4y2Ba

生物医学保留区gydF4y2Ba 2016gydF4y2Ba 9gydF4y2Ba 2016gydF4y2Ba 8313454gydF4y2Ba

10.1155 / 2016/8313454gydF4y2Ba

27668260gydF4y2Ba

PMC5030470gydF4y2Ba

6gydF4y2Ba

MujtabagydF4y2Ba

GgydF4y2Ba

ShuibgydF4y2Ba

lgydF4y2Ba

拉吉gydF4y2Ba

RGgydF4y2Ba

RajandramgydF4y2Ba

RgydF4y2Ba

谢赫gydF4y2Ba

KgydF4y2Ba

Al-GaradigydF4y2Ba

妈gydF4y2Ba

通过专家驱动的特征选择，从纯文本尸检报告中自动对ICD-10死因进行多级分类gydF4y2Ba

《公共科学图书馆•综合》gydF4y2Ba 2017gydF4y2Ba 2gydF4y2Ba 12gydF4y2Ba 2gydF4y2Ba e0170242gydF4y2Ba

10.1371 / journal.pone.0170242gydF4y2Ba

28166263gydF4y2Ba

玉米饼- d - 16 - 33478gydF4y2Ba

PMC5293233gydF4y2Ba

7gydF4y2Ba

SpasićgydF4y2Ba

我gydF4y2Ba

LivseygydF4y2Ba

JgydF4y2Ba

基恩gydF4y2Ba

晶澳gydF4y2Ba

NenadićgydF4y2Ba

GgydF4y2Ba

癌症相关信息的文本挖掘:现状与未来方向综述gydF4y2Ba

国际医学杂志gydF4y2Ba 2014gydF4y2Ba 09gydF4y2Ba 83gydF4y2Ba 9gydF4y2Ba 605gydF4y2Ba 23gydF4y2Ba

10.1016 / j.ijmedinf.2014.06.009gydF4y2Ba

25008281gydF4y2Ba

s1386 - 5056 (14) 00110 - 5gydF4y2Ba

8gydF4y2Ba

BengiogydF4y2Ba

YgydF4y2Ba

DucharmegydF4y2Ba

RgydF4y2Ba

文森特gydF4y2Ba

PgydF4y2Ba

JauvingydF4y2Ba

CgydF4y2Ba

一个神经概率语言模型gydF4y2Ba

J Mach Learn ResgydF4y2Ba 2003gydF4y2Ba 2gydF4y2Ba 3.gydF4y2Ba 1137gydF4y2Ba 1155gydF4y2Ba

9gydF4y2Ba

YihgydF4y2Ba

WgydF4y2Ba

ToutanovagydF4y2Ba

KgydF4y2Ba

普拉特gydF4y2Ba

JgydF4y2Ba

温顺的gydF4y2Ba

CgydF4y2Ba

文本相似度测量的学习判别投影gydF4y2Ba

2011gydF4y2Ba 7gydF4y2Ba

第十五届计算自然语言学习会议gydF4y2Ba

2011年6月23-24日gydF4y2Ba

美国宾夕法尼亚州斯特劳兹堡gydF4y2Ba

10gydF4y2Ba

MikolovgydF4y2Ba

TgydF4y2Ba

SutskevergydF4y2Ba

我gydF4y2Ba

陈gydF4y2Ba

KgydF4y2Ba

柯拉gydF4y2Ba

GgydF4y2Ba

迪安gydF4y2Ba

JgydF4y2Ba

单词和短语及其组合的分布式表示gydF4y2Ba

2013gydF4y2Ba 12gydF4y2Ba

2014年神经信息处理系统进展会议gydF4y2Ba

2013年12月9日gydF4y2Ba

太浩湖，美国内华达州gydF4y2Ba

11gydF4y2Ba

彭宁顿gydF4y2Ba

JgydF4y2Ba

SochergydF4y2Ba

RgydF4y2Ba

曼宁gydF4y2Ba

CgydF4y2Ba

GloVe:用于单词表示的全局向量gydF4y2Ba

2014gydF4y2Ba 10gydF4y2Ba

自然语言处理经验方法研讨会gydF4y2Ba

2014年10月26日至28日gydF4y2Ba

卡塔尔多哈gydF4y2Ba

10.3115 / v1 / d14 - 1162gydF4y2Ba

12gydF4y2Ba

勒存gydF4y2Ba

YgydF4y2Ba

BottougydF4y2Ba

lgydF4y2Ba

BengiogydF4y2Ba

YgydF4y2Ba

HaffnergydF4y2Ba

PgydF4y2Ba

基于梯度的学习应用于文档识别gydF4y2Ba

Proc。IEEEgydF4y2Ba 1998gydF4y2Ba 11gydF4y2Ba 86gydF4y2Ba 11gydF4y2Ba 2278gydF4y2Ba 2324gydF4y2Ba

10.1109/5.726791gydF4y2Ba

13gydF4y2Ba

YihgydF4y2Ba

WgydF4y2Ba

他gydF4y2Ba

XgydF4y2Ba

温顺的gydF4y2Ba

CgydF4y2Ba

单关系问题回答的语义解析gydF4y2Ba

2014gydF4y2Ba 7gydF4y2Ba

第52届计算语言学协会年会gydF4y2Ba

2014年6月23-25日gydF4y2Ba

巴尔的摩，马里兰州，美国gydF4y2Ba

23gydF4y2Ba 25gydF4y2Ba

14gydF4y2Ba

沈gydF4y2Ba

YgydF4y2Ba

他gydF4y2Ba

XgydF4y2Ba

高gydF4y2Ba

JgydF4y2Ba

邓gydF4y2Ba

lgydF4y2Ba

MesnilgydF4y2Ba

GgydF4y2Ba

使用卷积神经网络进行网络搜索学习语义表示gydF4y2Ba

2014gydF4y2Ba 4gydF4y2Ba

第23届国际万维网会议gydF4y2Ba

2014年4月7日至11日gydF4y2Ba

首尔,韩国gydF4y2Ba

7gydF4y2Ba 11gydF4y2Ba

10.1145/2567948.2577348gydF4y2Ba

15gydF4y2Ba

金gydF4y2Ba

YgydF4y2Ba

用于句子分类的卷积神经网络gydF4y2Ba

2014gydF4y2Ba 10gydF4y2Ba

自然语言处理经验方法研讨会gydF4y2Ba

2014年10月26日至28日gydF4y2Ba

卡塔尔多哈gydF4y2Ba

26gydF4y2Ba 28gydF4y2Ba

10.3115 / v1 / d14 - 1162gydF4y2Ba

16gydF4y2Ba

HornikgydF4y2Ba

KgydF4y2Ba

默多克gydF4y2Ba

DgydF4y2Ba

注意你的拼写!gydF4y2Ba

R期刊gydF4y2Ba 2010gydF4y2Ba 9gydF4y2Ba 3.gydF4y2Ba 2gydF4y2Ba 22gydF4y2Ba 28gydF4y2Ba

17gydF4y2Ba

格拉夫gydF4y2Ba

DgydF4y2Ba

CierigydF4y2Ba

CgydF4y2Ba

英文千字LDC2003T05gydF4y2Ba 2003gydF4y2Ba

2017-10-30gydF4y2Ba

费城,宾夕法尼亚州gydF4y2Ba

语言学数据联盟gydF4y2Ba

https://catalog.ldc.upenn.edu/ldc2003t05gydF4y2Ba

18gydF4y2Ba

HornikgydF4y2Ba

KgydF4y2Ba

布克塔gydF4y2Ba

CgydF4y2Ba

ZeileisgydF4y2Ba

一个gydF4y2Ba

开源机器学习:R遇到WekagydF4y2Ba

第一版统计gydF4y2Ba 2008gydF4y2Ba 5gydF4y2Ba 14gydF4y2Ba 24gydF4y2Ba 2gydF4y2Ba 225gydF4y2Ba 232gydF4y2Ba

10.1007 / s00180 - 008 - 0119 - 7gydF4y2Ba

19gydF4y2Ba

菲娜gydF4y2Ba

我gydF4y2Ba

HornikgydF4y2Ba

KgydF4y2Ba

迈耶gydF4y2Ba

DgydF4y2Ba

R中的文本挖掘基础设施gydF4y2Ba

J统计软件gydF4y2Ba 2008gydF4y2Ba 3.gydF4y2Ba 25gydF4y2Ba 5gydF4y2Ba 125574gydF4y2Ba

10.18637 / jss.v025.i05gydF4y2Ba

20.gydF4y2Ba

屁股gydF4y2Ba

lgydF4y2Ba

ZuccongydF4y2Ba

GgydF4y2Ba

阮gydF4y2Ba

一个gydF4y2Ba

贝格海姆gydF4y2Ba

一个gydF4y2Ba

格雷森gydF4y2Ba

NgydF4y2Ba

使用机器学习对癌症相关死亡证明进行分类gydF4y2Ba

澳大利亚医学JgydF4y2Ba 2013gydF4y2Ba 3.gydF4y2Ba 6gydF4y2Ba 5gydF4y2Ba 292gydF4y2Ba 299gydF4y2Ba

10.4066 / AMJ.2013.1654gydF4y2Ba

23745151gydF4y2Ba

20131654gydF4y2Ba

PMC3674421gydF4y2Ba

21gydF4y2Ba

迈耶gydF4y2Ba

DgydF4y2Ba

DimitriadougydF4y2Ba

EgydF4y2Ba

HornikgydF4y2Ba

KgydF4y2Ba

LeischgydF4y2Ba

FgydF4y2Ba

WeingesselgydF4y2Ba

一个gydF4y2Ba

LeischgydF4y2Ba

FgydF4y2Ba

常gydF4y2Ba

CCgydF4y2Ba

林gydF4y2Ba

CCgydF4y2Ba

综合R档案网络gydF4y2Ba 2017gydF4y2Ba 02gydF4y2Ba

2017-10-30gydF4y2Ba

e1071:统计系概率论组(原e1071)的多种职能，TU WiengydF4y2Ba https://CRAN.R-project.org/package=e1071gydF4y2Ba

22gydF4y2Ba

Al-garadigydF4y2Ba

妈gydF4y2Ba

他gydF4y2Ba

KDgydF4y2Ba

罗波那gydF4y2Ba

SDgydF4y2Ba

网络通信中的网络犯罪检测:Twitter网络中网络欺凌检测的实验案例gydF4y2Ba

计算Hum BehavgydF4y2Ba 2016gydF4y2Ba 5gydF4y2Ba 63gydF4y2Ba 433gydF4y2Ba 443gydF4y2Ba

10.1016 / j.chb.2016.05.051gydF4y2Ba

23gydF4y2Ba

CandelgydF4y2Ba

一个gydF4y2Ba

LanfordgydF4y2Ba

JgydF4y2Ba

LeDellgydF4y2Ba

EgydF4y2Ba

ParmargydF4y2Ba

VgydF4y2Ba

AroragydF4y2Ba

一个gydF4y2Ba

H2O深度学习，第三版gydF4y2Ba 2015gydF4y2Ba 8gydF4y2Ba

2017-10-29gydF4y2Ba

加州山景城gydF4y2Ba

H2O。一个我，我nc

https://www.scribd.com/doc/312515027/Deep-Learning-with-H2OgydF4y2Ba

24gydF4y2Ba

NatekingydF4y2Ba

一个gydF4y2Ba

诺尔gydF4y2Ba

一个gydF4y2Ba

梯度提升机，教程gydF4y2Ba

前面NeurorobotgydF4y2Ba 2013gydF4y2Ba 12gydF4y2Ba 7gydF4y2Ba 21gydF4y2Ba

10.3389 / fnbot.2013.00021gydF4y2Ba

24409142gydF4y2Ba

PMC3885826gydF4y2Ba

25gydF4y2Ba

弗里德曼gydF4y2Ba

JgydF4y2Ba

贪心函数逼近:一种梯度提升机gydF4y2Ba

安统计gydF4y2Ba 2001gydF4y2Ba 29gydF4y2Ba 5gydF4y2Ba 1189gydF4y2Ba 1232gydF4y2Ba

26gydF4y2Ba

沃伯特gydF4y2Ba

DgydF4y2Ba

麦克里迪gydF4y2Ba

WgydF4y2Ba

优化没有免费的午餐定理gydF4y2Ba

IEEE Trans evolput计算gydF4y2Ba 1997gydF4y2Ba 4gydF4y2Ba 1gydF4y2Ba 1gydF4y2Ba 67gydF4y2Ba 82gydF4y2Ba

10.1109/4235.585893gydF4y2Ba

27gydF4y2Ba

KalchbrennergydF4y2Ba

NgydF4y2Ba

GrefenstettegydF4y2Ba

EgydF4y2Ba

BlunsomgydF4y2Ba

PgydF4y2Ba

为句子建模的卷积神经网络gydF4y2Ba

2014gydF4y2Ba 6gydF4y2Ba

第52届计算语言学协会年会gydF4y2Ba

2014年6月23-25日gydF4y2Ba

巴尔的摩，马里兰州，美国gydF4y2Ba

23gydF4y2Ba 25gydF4y2Ba

10.3115 / v1 /好- 1062gydF4y2Ba

28gydF4y2Ba

张gydF4y2Ba

YgydF4y2Ba

华莱士gydF4y2Ba

BgydF4y2Ba

卷积神经网络用于句子分类的敏感性分析(和从业者指南)。arXiv 2015: 1510.03820gydF4y2Ba 2015gydF4y2Ba

2017-10-30gydF4y2Ba

纽约伊萨卡岛gydF4y2Ba

康奈尔大学图书馆gydF4y2Ba

https://arxiv.org/abs/1510.03820v1gydF4y2Ba

29gydF4y2Ba

斯利瓦斯塔瓦gydF4y2Ba

NgydF4y2Ba

辛顿gydF4y2Ba

GgydF4y2Ba

KrizhevskygydF4y2Ba

一个gydF4y2Ba

SutskevergydF4y2Ba

我gydF4y2Ba

SalakhutdinovgydF4y2Ba

RgydF4y2Ba

Dropout:一种防止神经网络过拟合的简单方法gydF4y2Ba

J Mach Learn ResgydF4y2Ba 2014gydF4y2Ba 6gydF4y2Ba 1929gydF4y2Ba 1958gydF4y2Ba

30.gydF4y2Ba

陈gydF4y2Ba

TgydF4y2Ba

李gydF4y2Ba

米gydF4y2Ba

李gydF4y2Ba

YgydF4y2Ba

林gydF4y2Ba

米gydF4y2Ba

王gydF4y2Ba

NgydF4y2Ba

王gydF4y2Ba

米gydF4y2Ba

肖gydF4y2Ba

TgydF4y2Ba

徐gydF4y2Ba

BgydF4y2Ba

张gydF4y2Ba

CgydF4y2Ba

张gydF4y2Ba

ZgydF4y2Ba

MXNet:用于异构分布式系统的灵活高效的机器学习库gydF4y2Ba

2016gydF4y2Ba

神经信息处理系统gydF4y2Ba

2016年12月10日gydF4y2Ba

西班牙巴塞罗那gydF4y2Ba

31gydF4y2Ba

柴gydF4y2Ba

KEKgydF4y2Ba

安东尼gydF4y2Ba

年代gydF4y2Ba

CoieragydF4y2Ba

EgydF4y2Ba

MagrabigydF4y2Ba

FgydF4y2Ba

使用统计文本分类识别卫生信息技术事件gydF4y2Ba

美国医学信息协会gydF4y2Ba 2013gydF4y2Ba 9gydF4y2Ba 20.gydF4y2Ba 5gydF4y2Ba 980gydF4y2Ba 985gydF4y2Ba

10.1136 / amiajnl - 2012 - 001409gydF4y2Ba

23666777gydF4y2Ba

amiajnl - 2012 - 001409gydF4y2Ba

PMC3756261gydF4y2Ba

32gydF4y2Ba

辛普森gydF4y2Ba

一个gydF4y2Ba

深度神经网络中的过采样。arXiv 2015: 1502.03648gydF4y2Ba 2015gydF4y2Ba

2017-10-30gydF4y2Ba

纽约伊萨卡岛gydF4y2Ba

康奈尔大学图书馆gydF4y2Ba

https://arxiv.org/abs/1502.03648gydF4y2Ba

33gydF4y2Ba

MuscatellogydF4y2Ba

DJgydF4y2Ba

莫顿gydF4y2Ba

点gydF4y2Ba

埃文斯gydF4y2Ba

我gydF4y2Ba

吉尔摩gydF4y2Ba

RgydF4y2Ba

新南威尔士州流感死亡率过高的前瞻性监测:可行性和统计方法gydF4y2Ba

公共Dis Intell Q代表gydF4y2Ba 2008gydF4y2Ba 12gydF4y2Ba 32gydF4y2Ba 4gydF4y2Ba 435gydF4y2Ba 42gydF4y2Ba

19374272gydF4y2Ba

34gydF4y2Ba

DembekgydF4y2Ba

ZFgydF4y2Ba

KortepetergydF4y2Ba

毫克gydF4y2Ba

PavlingydF4y2Ba

晶澳gydF4y2Ba

区分蓄意和自然传染病爆发gydF4y2Ba

论文感染gydF4y2Ba 2007gydF4y2Ba 04gydF4y2Ba 135gydF4y2Ba 3.gydF4y2Ba 353gydF4y2Ba 71gydF4y2Ba

10.1017 / S0950268806007011gydF4y2Ba

16893485gydF4y2Ba

S0950268806007011gydF4y2Ba

PMC2870591gydF4y2Ba

35gydF4y2Ba

徐gydF4y2Ba

FgydF4y2Ba

EspinogydF4y2Ba

居gydF4y2Ba

拿督gydF4y2Ba

虚拟机gydF4y2Ba

GestelandgydF4y2Ba

PH值gydF4y2Ba

HutmangydF4y2Ba

JgydF4y2Ba

瓦格纳gydF4y2Ba

毫米gydF4y2Ba

罗兹的技术描述:实时公共卫生监测系统gydF4y2Ba

美国医学信息协会gydF4y2Ba 2003gydF4y2Ba 9gydF4y2Ba 10gydF4y2Ba 5gydF4y2Ba 399gydF4y2Ba 408gydF4y2Ba

10.1197 / jamia.M1345gydF4y2Ba

12807803gydF4y2Ba

M1345gydF4y2Ba

PMC212776gydF4y2Ba

36gydF4y2Ba

密特拉gydF4y2Ba

DgydF4y2Ba

钦斯gydF4y2Ba

KgydF4y2Ba

肖gydF4y2Ba

一个gydF4y2Ba

理发师gydF4y2Ba

RgydF4y2Ba

唱gydF4y2Ba

lgydF4y2Ba

伯恩斯坦gydF4y2Ba

米gydF4y2Ba

CarretgydF4y2Ba

作为gydF4y2Ba

人gydF4y2Ba

VgydF4y2Ba

麦克布莱德gydF4y2Ba

米gydF4y2Ba

帕克gydF4y2Ba

lgydF4y2Ba

斯图尔特gydF4y2Ba

米gydF4y2Ba

StrahlendorfgydF4y2Ba

CgydF4y2Ba

现状报告-加拿大青少年癌症监测系统gydF4y2Ba

健康促进慢性疾病预防gydF4y2Ba 2015gydF4y2Ba 06gydF4y2Ba 35gydF4y2Ba 4gydF4y2Ba 73gydF4y2Ba 6gydF4y2Ba

26083522gydF4y2Ba

PMC4910422gydF4y2Ba

37gydF4y2Ba

林gydF4y2Ba

CgydF4y2Ba

ICD-10 CM分类器gydF4y2Ba 2017gydF4y2Ba

2017-10-27gydF4y2Ba

https://chin-lin.shinyapps.io/icd10/gydF4y2Ba