JMIR医学信息学-非结构化临床文献中糖尿病前期讨论的识别:自然语言处理算法的验证

原始论文

¹美国马里兰州巴尔的摩市约翰霍普金斯医学院普通内科部

²约翰霍普金斯医院医学部，巴尔的摩，马里兰州，美国

^3.美国马里兰州巴尔的摩市约翰霍普金斯大学韦尔奇预防、流行病学和临床研究中心

⁴约翰霍普金斯大学布隆伯格公共卫生学院流行病学系，马里兰州巴尔的摩，美国

⁵美国佛罗里达州盖恩斯维尔市佛罗里达大学药学院药物效果与政策系

⁶约翰霍普金斯大学医学院生物医学信息学和数据科学部，马里兰州巴尔的摩，美国

*所有作者贡献均等

通讯作者:

杰西卡·L·施瓦茨，医学博士，MHS

普通内科科

约翰霍普金斯大学医学院

东纪念碑街2024号

Ste 2 - 604 d

巴尔的摩，马里兰州，21205

美国

电话:1 973 722 8552

传真:1410955 0476

电子邮件:jschwa64@jhmi.edu

背景:三分之一的美国成年人患有前驱糖尿病。大多数人没有接受循证干预，因此了解提供者如何与患者讨论前驱糖尿病将告知如何改善他们的护理。

摘要目的:本研究旨在开发一种使用机器学习技术的自然语言处理(NLP)算法，以识别叙述性文档中关于前驱糖尿病的讨论。

方法:我们开发并应用了一个关键词搜索策略来识别糖尿病前期患者临床文献中关于糖尿病前期的讨论。我们手动审查匹配的笔记，以确定哪些代表实际的糖尿病前期讨论。我们对手工标注应用了7个机器学习模型。

结果:机器学习分类器能够以高达98%的准确率和召回率实现接近人类表现的分类结果，以识别临床文档中的前驱糖尿病讨论。

结论:我们证明了使用NLP算法可以准确地识别糖尿病前期讨论。该方法可用于了解和确定初级保健中的糖尿病前期管理实践，从而为干预措施提供信息，以改善符合指南的护理。

中国生物医学工程学报;2009;31 (2):391 - 391

doi: 10.2196/29803

关键字

前驱糖尿病；前驱糖尿病的讨论；前驱糖尿病管理；慢性疾病管理；医患沟通；自然语言处理；机器学习

美国有8800万成年人患有前驱糖尿病[1，2]，以证据为基础的干预措施关注生活方式的改变可以预防2型糖尿病[3.-12]。特别是，糖尿病预防计划是一种有效的生活方式干预，可以降低糖尿病发病率，最近的数据显示，在15年的随访中，与安慰剂组相比，风险降低了27% [5]。不幸的是，高达89%的患者不知道自己患有前驱糖尿病[13，14]，许多患者不知道可以降低糖尿病风险的干预措施——依赖于他们的初级保健提供者(pcp)发起关于糖尿病预防的讨论，包括改变生活方式的重要性[8，9]。然而，调查数据表明，许多提供者认为他们缺乏有效实施循证前驱糖尿病治疗的资源[8，9]。支持决策和教育的重点初级保健干预可能能够改善前驱糖尿病的诊断和提供符合指南的护理。

严格的质量改进干预措施需要在项目实施之前和之后使用测量进行评估，以确定目标结果是否存在可证明的变化。不幸的是，仅通过结构化数据很难确定糖尿病前期管理的变化和改善。仅依靠诊断代码是不够的;一项研究显示，只有13%的前驱糖尿病患者被国际疾病分类(ICD)-9诊断为前驱糖尿病或高血糖[14]。尽管实验室、医嘱和转诊提供了一些见解，但这些信息缺乏关于管理的细节，特别是生活方式咨询，这在叙述性文档中更好地得到了体现。这些内容不容易查询，需要创新的研究方法来准确地反映糖尿病前期护理的交付。

先前的研究表明，自然语言处理(NLP)可用于诊断慢性疾病，如糖尿病，但很少关注疾病管理[qh]15]。同样，糖尿病前期的NLP研究主要集中在疾病检测、筛查和预测建模上，没有研究应用机器学习(ML)技术来确定如何管理糖尿病前期[16-27]。我们的目标是开发一种方法来确定提供者何时讨论糖尿病前期的管理和治疗，随后可以用来确定所提供的护理是否符合循证指南，并比较干预前后的结果。因此，我们开发并验证了NLP管道，以确定临床文献中关于前驱糖尿病的初级保健讨论。

人口与伦理审批

我们确定了在马里兰州和华盛顿特区拥有多个门诊地点的学术中心进行内科初级保健访问的前驱糖尿病患者。符合条件的患者是成人(≥18岁)，由3家主要保险公司中的1家承保，完成了亲自就诊，血红蛋白a_{1 c}(HbA_{1 c})在2016年7月1日至2018年12月31日期间的水平为5.7%至6.4%。根据账单代码或问题清单中的文件或既往病史，排除了糖尿病患者(任何类型)。使用Stata 15进行数据清理和分析。本研究已获得约翰霍普金斯大学机构审查委员会(IRB00196984)的批准。

关键词搜索优化(第一阶段)

根据临床经验，我们制定了一个用于描述“前驱糖尿病”的关键词列表(表S1)多媒体附录1)。我们使用Python字符串匹配和字典查找来识别包含这些关键字的访问记录，并考虑拼写错误和形态差异等变化。我们为每个匹配提取了±25个单词的一致性窗口(“注释片段”)，以提供文本上下文。如果存在多个匹配的关键字，则可能来自同一注释的多个片段。

我们从总体人口中选择了2个流动诊所。在315例符合纳入标准的患者中，40.6%(128/315)的患者在研究期间至少有一个匹配关键词。这些患者在与25个提供者的324次会面中总共有637个关键词匹配。我们进行了手动注释，以确定637个注释片段中哪一个代表了真正的糖尿病前期临床讨论(是或否)。门诊医生提供的文件通常包括主诉、病史、病史和家族史、客观数据(包括体格检查)、评估和计划。我们考虑使用部分识别管道来排除笔记中某些关键字不代表前驱糖尿病讨论的特定部分(例如，既往病史)。然而，区段识别管道的通用性较差，并且我们示例中的提供者没有使用标准化模板，使得区段边界难以定义[28]。相反，如果关键字仅出现在过去的病史、评估和计划之外的诊断列表、家族史或实验室结果描述中，则在手动审查期间将注释片段指定为“否”。

我们对200个笔记片段的随机样本进行了复核。量表间信度(IRR)为95%。注释者之间的差异通过共识来解决，以完善“前驱糖尿病讨论”的定义。然后，我们手动查看35.3%(66/187)的病历，没有关键字匹配以识别假阴性。我们回顾了纳入时间框架内患者PCP的所有记录，9%(6/66)的患者有糖尿病前期讨论，但没有被记录下来。我们在词典中增加了3个关键词(“血糖异常”、“高血糖”和“糖尿病前期”)多媒体附录1)。

训练集(第二阶段)

我们开发了一个训练集来测试我们的前驱糖尿病词汇，以对照未包括在第一阶段的诊所的患者(图1)。我们纳入了每位患者(n=1095)的单一记录，选择了HbA后的第一次就诊_{1 c}结果符合纳入标准。我们应用了最终的关键字搜索，结果为73个提供者见过的381名患者提供了684个匹配。我们提取了684个音符片段，并使用与上面类似的过程对这些音符进行注释。我们对34%的注释片段进行了复核，手工注释的IRR为97%，在复核时达成了100%的一致。我们将这些结果与阶段1的注释片段结合起来。为了避免对单个患者或提供者的过度选择，我们从96个独特的提供者编写的930个记录片段中纳入了每个患者一次就诊的记录片段。

图1所示。图表描述了关键字搜索细化(阶段1)和训练集开发(阶段2)期间的选择和审查。符合条件的患者是由3家主要保险公司中的1家承保的成年人(≥18岁)，他们在约翰霍普金斯诊所完成了亲自访问并进行了HbA_{1 c}在2016年7月1日至2018年12月31日期间，含量在5.7%至6.4% (39-46 mmol/mol)之间。注意，双重审查表明两个提供者审查了关键词匹配，以确定周围的文本是否代表了真正的前驱糖尿病讨论。

基于规则的系统

基于规则的系统经常用于临床概念提取和文本分类系统，因为它们易于实现和最小的计算需求。为了建立一个强有力的基线，我们测试了用基于规则的分类方案识别前驱糖尿病讨论的可行性。使用spaCy EntityRuler模块[29]，我们创建了42种专家开发的模式，如果存在，将代表糖尿病前期的讨论。spaCy EntityRuler模块促进了各种模式、关键字和正则表达式的搜索和匹配，并允许我们考虑形态变化(例如，单数与复数形式、连词)，以及不同介词的替换(例如，about与for)和同义词(例如，前驱糖尿病，空腹血糖受损)。表S2多媒体附录1为这个基于规则的系统提供专家开发的模式。我们随机抽取90%的笔记片段来开发和修改基于规则的系统，并对剩余的10%进行系统评估。

机器学习

特征选择

使用波特梗提取训练集中的注释片段，使用自然语言工具包(NLTK)停止词列表删除常见的停止词[30.]。我们使用了Python scikit-learn库[31]提取单词ngram序列(1-5克)，按词频-逆文档频率(TF-IDF)加权[32]。我们应用L1正则化逻辑回归[33来降低特征向量的维数。

计算环境

深度学习和机器学习实验在约翰霍普金斯大学(JHU)精准医学分析平台(PMAP)上进行，PMAP是一个高性能、基于云的大数据平台，旨在加速生物医学发现，并将发现的知识转化为改善以患者为中心的护理。PMAP从约翰霍普金斯医学电子健康记录(EHR)中提取数据，以支持ML和NLP技术的处理。统计分析和手工注释是在JHU安全分析框架环境中完成的，这是一个虚拟桌面，为JHU研究人员提供了一个安全的平台，用于与同事分析和共享敏感数据(包括受保护的健康信息)。

分类

我们使用标记的笔记片段来训练多个ML分类器来复制人类对前驱糖尿病讨论的注释。我们采用了6种二元分类模型:logistic回归[34]、线性支持向量机(SVM) [35]、随机梯度下降(SGD) [36]，决策树[37]，随机森林[38，39]和高斯的naïve贝叶斯(NB) [40]。为了减少过拟合，每个模型都使用10倍交叉验证进行评估，随机训练90%的数据，并保留10%的数据进行测试。所有建模均在scikit-learn中进行[31]。

我们还将卷积神经网络(cnn)用于句子分类[41]，一种成熟的用于文本分类的NLP深度学习方法[42使用Python spaCy 2.1实现[29]。我们从每个音符片段的标记化开始，并使用scispaCy大型模型(约785,000个词汇和600,000个单词向量)创建每个标记的嵌入向量，并在生物医学和临床文本上进行预训练[43]。接下来，为了在上下文中表示这些标记，通过使用向前传递和向后传递计算每个标记的向量，将这些向量编码为句子矩阵。然后，应用自注意机制将句子矩阵表示的维数降为单个上下文向量。最后，对这些向量进行平均池化，并将其作为一个简单前馈网络的特征，用于预测前驱糖尿病的真实讨论。对于CNN模型，我们使用了spaCy 2.2默认的网络架构和参数[44]。

对于每种分类方法，我们报告了一致性，灵敏度和召回率，特异性，阳性预测值和精度，以及以手工注释为金标准的F测量。为了检验分类方法之间的统计学显著性，我们使用mlextend Python库进行5x2交叉验证配对t测试(45]。一个P值<。05表明我们可以拒绝原假设，即两个模型在对糖尿病前期讨论进行分类时表现相同。

我们确定了1410例糖尿病前期患者;518个(36.74%)至少有一个关键词匹配。在这些患者中，435例(84.0%)在人工审阅的文献中对前驱糖尿病进行了真实的讨论(图1)。

基于规则的系统不足以复制人的表现，召回率为72.5%，特异性为42.6% (表1)。然而，ML和CNN的分类在所有模型上都接近人类的表现(表1)。当将传统分类器与逻辑回归(一致性最高)进行比较时，只有线性支持向量机和NB具有相似的性能(P＝.11一个ndP＝.15，respectively). CNN outperformed all conventional ML classifiers (logistic regression:P= .04点;支持向量机:P= .02点;SGD:P= .002;随机森林:P= .002;决策树:P=措施;注:P= 03)。

表1。从初级保健记录片段中识别糖尿病前期讨论的机器学习方法近似人工注释的性能(n=930)。

方法		与手动注释一致的实例分类器，n (%)	灵敏度/回忆	特异性	PPV^一个/精密	F测量
基于规则的系统
	条目模式	588 (63.2)	0.725	0.426	0.737	0.731
机器学习
	逻辑回归	885 (95.2)	0.966	0.921	0.965	0.965
	线性支持向量机	878 (94.4)	0.962	0.903	0.957	0.960
	随机梯度下降	858 (92.3)	0.926	0.915	0.96	0.943
	随机森林	863 (92.8)	0.961	0.854	0.937	0.948
	决策树	832 (89.5)	0.923	0.83	0.925	0.924
	高斯naïve贝叶斯	883 (95.0)	0.966	0.912	0.96	0.963
	卷积神经网络	910 (97.9)	0.984	0.966	0.984	0.984

^一个PPV:阳性预测值。

人工注释揭示了多种语言模式，这些模式代表或不代表前驱糖尿病的临床讨论(表2)。最常见的是，真正的讨论是在评估和计划中发现的，而那些没有从结构化字段中自动填充的讨论。基于逻辑回归的ML确实导致5%的误分类，这是性能最好的传统分类器;在审查这些错误分类的笔记片段时，没有明显的模式。

表2。来自临床文档的示例文本，包含与“前驱糖尿病”提取词典匹配的关键字，根据文本是否代表前驱糖尿病讨论的文档进行分层。

位置在册			来自笔记片段的代表性文本^一个
包含关键字匹配的文本，代表糖尿病前期讨论。
	主诉	主诉:患者是一名42岁的女性，有关于前驱糖尿病的问题。 ‎ 患者每年进行一次体检并重新评估HTN^b空腹血糖受损。 ‎
	现病史	有跑步机，但不经常使用。近期糖化血红蛋白为6.2，与糖尿病前期一致。 ‎
	访问问题清单	本次访问涉及的问题清单项目哮喘、边缘性糖尿病、原发性高血压 ‎ 评估订单计划高脂血症……7.空腹血糖受损。医疗保健维护 ‎
	评估与计划	讨论了包括饮食和运动在内的生活方式改变。6.血压升高。 ‎ 糖尿病前期评估:近期糖化血红蛋白在良好范围内。计划:锻炼和健康饮食的改变。 ‎
包含关键字匹配的文本不代表前驱糖尿病的讨论。
	一行程序	患者有HTN、HLD病史^c糖尿病前期硬皮病来做常规健康评估 ‎
	既往病史	既往病史:诊断日期:哮喘5/14/2008…糖尿病前期2/6/2012骨质疏松症5/14/2008 ‎
	问题列表	…高脂血症E78.5空腹血糖异常R73.01超重E66.3… ‎
	诊断列表	原发性高血压、骨质疏松、…糖尿病前期，哮喘，… ‎
	家族病史	家族史问题关系糖尿病发病年龄父亲糖尿病前期父亲祖父… ‎
	相关的积极	诊断仍不清楚。他有前驱糖尿病。报告2-3个月间歇性心悸。 ‎
	相关的负面	可能有周围神经病变。负弹性分组环^d艾滋病毒，糖尿病前期。 ‎
	跟进原因	随访1个月进行流感疫苗注射和糖尿病前期讨论。 ‎
	结果^e	对于没有糖尿病的人，血红蛋白a_{1 c}5.7% ~ 6.4%与糖尿病前期一致，应予以确认。 ‎
	一般的指导方针^e	2型糖尿病或前驱糖尿病所有年龄在45岁以上的男性和任何年龄没有症状的男性，超重或肥胖，并有一个或多个其他危险因素。 ‎

^一个文本的长度和内容进行了修改，以作为一般示例，同时保护患者的匿名性。

^bHTN:高血压。

^cHLD:高脂血症。

^dRPR:快速血浆反应。

^e填充在临床决策支持工具的笔记中。

主要研究结果

我们利用NLP和ML技术从非结构化的叙述文档中识别糖尿病前期讨论，准确率和召回率高达98%。迄今为止，NLP技术已被用于糖尿病前期的筛查、诊断、风险分层、预测建模和干预设计[16-27，46-50]。据我们所知，这是第一个识别糖尿病前期讨论的NLP工具。NLP方法已以多种方式应用于医疗保健，包括在电子病历自由文本临床笔记中对疾病表型进行分类，大多数研究使用浅层分类器等简单方法或与基于规则的方法相结合[15，51]。与这些研究相比，我们的NLP方法并不新颖，但我们在疾病管理方面的应用使我们的研究有别于那些主要关注慢性病病情识别的研究[15]。

在我们的研究中，由于特异性差，一个简单的基于规则的系统不足以识别前驱糖尿病的讨论。相比之下，所有ML方法都表现良好，准确率为89%至98%。这一结果表明，尽管有各种各样的文档风格，但可以使用NLP管道识别前驱糖尿病的讨论。逻辑回归是一种高效的传统分类器，具有最小的技术依赖性，在统计上优于CNN，这是一种深度学习技术。然而，两种方法都确定了95%的糖尿病前期讨论，这表明任何一种方法都可以根据系统需要应用。

我们的NLP工具有多种应用。逻辑回归的简单性允许在操作环境中部署，特别是临床决策支持。该工具还可以简化旨在改变提供者实践的临床干预前后的分析过程。例如，它可以隔离关于前驱糖尿病的讨论，否则这项任务需要耗时的人工审查。然后可以审查这些讨论的背景，以了解干预措施的影响。这一过程将加强对前驱糖尿病质量改进项目的评估，以促进指南一致性护理，包括生活方式咨询[3.-7]。这些方法应该是可复制的，以确定对其他情况(如肥胖、多种药物滥用或烟草使用)进行行为干预的对话，这些情况除了药物管理和转诊外，还严重依赖咨询。

的优势

我们的研究有几个优势。关键词提炼阶段是严格的。我们针对两个门诊的随机样本验证了初始关键字列表，确保我们审查了各种文档样式。2位专家进行了手动注释，以标准化我们对“前驱糖尿病讨论”的定义，从而提高了训练集开发过程中的IRR分数。我们还发现了假阴性，并相应地修改了我们的初始关键字列表，以确保捕获前驱糖尿病的讨论。最后，我们将关键词优化过程中开发的搜索标准应用于一组来自独特诊所的新笔记，以减少过拟合。930个独特的笔记片段中总共包含96个不同的提供者，这使得该模型能够学习许多不同临床医生的词汇和写作风格。

限制

本研究的局限性包括从单一卫生系统收集数据。然而，所包括的诊所代表城市和郊区站点，为不同社会经济水平和疾病负担的患者提供服务，提高了普遍性。其他机构的医疗服务提供者可能会使用不同的医学术语来描述“前驱糖尿病”，而本研究并未考虑到这一点。这可能会限制在家庭培训机构之外的推广。然而，我们采取了几个步骤来减少制度上的偏见，包括严格的关键字优化和最终词汇搜索应用于多个诊所，这些诊所没有共享包含许多语言风格和模式的标准化模板。我们将笔记选择限制在异常HbA后的第一次遭遇_{1 c}结果;虽然这可能会错过一些关于前驱糖尿病的对话，但从逻辑上讲，这些讨论最有可能发生在异常结果的时间附近，这减少了我们模型中的偏差。最后，笔记选择过程，需要至少一个前驱糖尿病关键字进入我们的数据集，限制了我们计算真实召回的能力。我们通过对没有进入我们数据集的图表子集执行手动审查来最小化这个问题，以确保我们在关键字搜索中没有选择偏差。未来的研究可能会考虑将我们的NLP管道应用于随机的笔记样本，而不需要选择关键字来执行额外的验证。此外，我们的研究为确定前驱糖尿病的讨论提供了一个基线框架。下一步可以应用NLP管道来确定关于前驱糖尿病的讨论何时达到了提供指南一致性护理的门槛。

结论

我们的NLP管道成功地识别了非结构化笔记中的前驱糖尿病讨论，其精度接近人类注释。该方法可用于评估患者就诊期间的糖尿病前期咨询，并描述初级保健中的糖尿病前期管理。收集这些数据是告知干预措施以改善循证前驱糖尿病护理的提供以减少2型糖尿病发病率的关键步骤。

致谢

这项工作得到了约翰霍普金斯大学临床和转化研究所2018年核心硬币奖的支持。ET得到了国家糖尿病、消化和肾脏疾病研究所的支持[K23DK118205]。JLS由国家心肺血液研究所支持[5T32HL007180, PI: Hill-Briggs]。

利益冲突

NMM是虚拟糖尿病预防项目的共同发明者。根据约翰霍普金斯医疗保健解决方案和约翰霍普金斯大学之间的许可协议，NMM和大学有权获得与该技术相关的版税分配。这一安排已由约翰霍普金斯大学根据其利益冲突政策进行审查和批准。这项技术在本研究中没有描述。JLS是诺和诺德公司资助的一个研究项目的合作研究者。该项目的主要目的是创建和试验一种临床决策支持工具，以帮助临床医生与患者讨论体重和肥胖治疗。本出版物未提及或引用该项目。

‎

多媒体附录1

补充方法和表格。

DOCX文件，30kb

国家糖尿病统计报告，2020:美国糖尿病及其负担的估计。疾病控制和预防中心。URL:https://www.cdc.gov/diabetes/pdfs/data/statistics/national-diabetes-statistics-report.pdf[2022-01-31]访问
国家糖尿病统计报告:美国糖尿病及其负担的估计。疾病控制和预防中心，2014。URL:https://www.cdc.gov/diabetes/data/statistics-report/index.html[2022-01-31]访问
糖尿病预防项目研究小组，Knowler WC, Fowler SE, Hamman RF, Christophi CA, Hoffman HJ，等。糖尿病预防项目结果研究中糖尿病发病率和体重下降的10年随访。柳叶刀2009 Dec 14;374(9702):1677-1686 [免费全文] [CrossRef] [Medline］
Knowler WC, Barrett-Connor E, Fowler SE, Hamman RF, Lachin JM, Walker EA，糖尿病预防计划研究小组。生活方式干预或二甲双胍降低2型糖尿病的发病率。中华医学杂志2002;07;31 (6):393- 393 [J]免费全文] [CrossRef] [Medline］
糖尿病预防项目研究小组。生活方式干预或二甲双胍对糖尿病发展和微血管并发症的长期影响超过15年的随访:糖尿病预防项目结果研究中华糖尿病杂志，2015;3(11):866-875 [j]免费全文] [CrossRef] [Medline］
美国糖尿病协会。预防或延缓2型糖尿病。Diabetes Care 2020;43(增刊1):S32-S36。［CrossRef] [Medline］
国家糖尿病预防计划。美国疾病控制与预防中心，2017。URL:http://www.cdc.gov/diabetes/prevention/index.htm[2022-01-31]访问
曾志强，郭志强，陈建平，叶海涛，等。初级保健提供者糖尿病前期筛查、诊断和管理知识的调查。中华普通实习医学2017;32(11):1172-1178 [J]免费全文] [CrossRef] [Medline］
曾志强，郭志强，王志强，叶海，等。初级保健医生对前驱糖尿病的知识、实践和认知的全国调查。中华内科实习医学杂志2019;34(11):2475-2481 [J]免费全文] [CrossRef] [Medline］
Rhee MK, Herrick K, Ziemer DC, Vaccarino V, Weintraub WS, Narayan KMV，等。许多美国人患有糖尿病前期，应该考虑使用二甲双胍治疗。糖尿病护理2010;33(1):49-54 [j]免费全文] [CrossRef] [Medline］
卡夫A，海沃德RA。美国非糖尿病成人空腹血糖和糖耐量受损的患病率、诊断和治疗糖尿病护理2010;33(11):2355-2359 [j]免费全文] [CrossRef] [Medline］
Moin T, Li J, Duru OK, Ettner S, Turk N, Keckhafer A，等。2010 - 2012年参保成人糖尿病前期患者的二甲双胍处方:一项回顾性队列研究Ann Intern Med 2015年5月21日;16 (8):542-548 [j]免费全文] [CrossRef] [Medline］
疾病控制和预防中心(CDC)。对糖尿病前期的认识——美国，2005-2010人妖周刊2013年3月22日;62(11):209-212 [j]免费全文] [Medline］
Schmittdiel JA, Adams SR, Segal J, Griffin MR, Roumie CL, ohhnsorg K，等。综合电子健康记录评估糖尿病前期识别和治疗比率的新用途和效用:综合电子健康记录试点研究的简要报告糖尿病护理2014;37(2):565-568 [j]免费全文] [CrossRef] [Medline］
刘建军，刘建军，刘建军，等。慢性疾病临床记录的自然语言处理研究进展。中华医学杂志2019年5月27日;7(2):e12239 [j]免费全文] [CrossRef] [Medline］
De Silva K, Jönsson D, Demmer RT.特征选择和机器学习相结合的策略识别前驱糖尿病的预测因子。中华医学杂志，2020;27(3):396-406 [J]免费全文] [CrossRef] [Medline］
郑建伟，金文杰，崔淑珍，朴智思，金大伟。基于支持向量机模型的糖尿病前期筛查。中国生物医学工程学报(英文版);2014;44(4):444 - 444。［CrossRef] [Medline］
Maeta K, Nishiyama Y, Fujibayashi K, Gunji T, Sasabe N, Iijima K，等。使用机器学习算法预测糖代谢紊乱风险:初步研究。中国糖尿病杂志2018;12 (4):e10212 [j]免费全文] [CrossRef] [Medline］
Anderson JP, Parikh JR, Shenfeld DK, Ivanov V, Marks C, Church BW，等。2型糖尿病进展预测模型的逆向工程和评估:使用电子健康记录的机器学习应用糖尿病科学技术2015年12月20日;10(1):6-18 [J]免费全文] [CrossRef] [Medline］
崔淑珍，金文杰，刘tk, Park JS, Chung JW, Lee Y，等。使用机器学习模型筛选前驱糖尿病。计算数学方法[j];2014; 618976 [j]免费全文] [CrossRef] [Medline］
Acciaroli G, Sparacino G, Hakaste L, Facchinetti A, Di Nunzio GM, Palombit A，等。利用连续血糖监测数据中的血糖变异性指数对糖尿病和前驱糖尿病进行分类。糖尿病科学与技术2018;12(1):105-113 [J]免费全文] [CrossRef] [Medline］
Shankaracharya, Odedra D, Samanta S, Vidyarthi AS。基于计算智能的诊断工具用于检测印度的前驱糖尿病和2型糖尿病。中华糖尿病杂志，2012;9(1):55-62 [j]免费全文] [CrossRef] [Medline］
王磊，穆勇，赵军，王鑫，车辉。基于IGRNet的糖尿病前期心电图无创实时诊断深度学习模型。传感器(巴塞尔)2020 5月30日;20(9):1 [免费全文] [CrossRef] [Medline］
丁安，米尔钦S，杨A，莫汉蒂SD。用机器学习预测糖尿病和心血管疾病的数据驱动方法。BMC Med Inform Decis ma2019 Nov 06;19(1):211 [j]免费全文] [CrossRef] [Medline］
Cahn A, Shoshan A, Sagiv T, Yesharim R, Goshen R, Shalev V，等。从糖尿病前期到糖尿病进展的预测:机器学习模型的开发和验证。中华糖尿病杂志，2020;36(2):382 - 382。［CrossRef] [Medline］
Garcia-Carretero R, Vigil-Medina L, Mora-Jimenez I, Soguero-Ruiz C, Barquero-Perez O, Ramos-Lopez J.使用k近邻模型预测肥胖高血压人群2年内2型糖尿病的发展。中国生物医学工程学报，2016;38(5):991- 992。［CrossRef] [Medline］
金波，刘锐，郝生，李忠，朱超，周旭，等。定义和描述2型糖尿病发病前的关键过渡状态。科学通报，2017;12(7):e0180937 [j]免费全文] [CrossRef] [Medline］
Pomares-Quimbaya A, Kreuzthaler M, Schulz S.从电子健康记录中识别临床叙述部分的当前方法:系统回顾。中国医学杂志2019年7月18日;19(1):155 [j]免费全文] [CrossRef] [Medline］
李建军，李建军。基于深度学习的自然语言理解方法研究。宽大的。IO 2017:1 [免费全文］
刘志强，刘志强。自然语言工具集。2002年在ACL-02“自然语言处理和计算语言学教学的有效工具和方法”研讨会上发表;2002年7月7日;费城，宾夕法尼亚州https://doi.org/10.3115/1118108.1118117［CrossRef］
Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O，等。Scikit-learn: Python中的机器学习。机器学习研究;2011;12:2825-2830 [j]免费全文] [CrossRef］
Rouhizadeh M, Jaidka K, Smith L, Schwartz HA, Buffone A, Ungar LH。识别社交媒体语言的控制点。2018年发表于:自然语言处理经验方法会议;2018年10月31日- 11月4日;布鲁塞尔，比利时，第1146-1152页https://www.aclweb.org/anthology/D18-1145.pdf［CrossRef］
李建军，李建军。广义线性模型的L1正则化路径算法。英国皇家统计学会杂志。B辑(统计方法)2007;69(4):659-677 [免费全文] [CrossRef］
Hosmer DW, Lemeshow S, Sturdivant RX。应用逻辑回归，第三版。霍博肯，新泽西州:约翰威利父子有限公司;2013.
张建军，张建军。支持向量网络。机器学习1995;20:273-297 [j]免费全文] [CrossRef］
基于随机梯度下降的大规模机器学习。编辑:lehevallier Y, Saporta G。COMPSTAT'2010。德国海德堡:physical - verlag HD;2010:177 - 186。
Safavian S, Landgrebe D.决策树分类方法的研究。IEEE反式。系统。，Man, Cybern 1991;21(3):660-674 [免费全文] [CrossRef］
刘建军，刘建军。基于随机森林的分类回归方法。R新闻2002;2/3:18-22 [j]免费全文］
布雷曼L.随机森林。机器学习2001;45:5-32。［CrossRef］
Rish I.朴素贝叶斯分类器的实证研究。2001发表于:IJCAI 2001人工智能经验方法研讨会;2001年8月4日至6日;西雅图，华盛顿州，第41-46页https://www.cc.gatech.edu/fac/Charles.Isbell/classes/reading/papers/Rish.pdf
张涛。基于区域嵌入的半监督卷积神经网络文本分类。神经网络信息处理系统，2015;28:919-927 [j]免费全文] [Medline］
张勇，华莱士B.。卷积神经网络在句子分类中的敏感性分析(以及从业者指南)。康奈尔大学，2015。URL:https://arxiv.org/abs/1510.03820[2022-01-31]访问
杨建军，张建军，张建军，等。生物医学自然语言处理的快速鲁棒模型。康奈尔大学，2019。URL:https://arxiv.org/abs/1902.07669[2022-01-31]访问
嵌入、编码、参与、预测:最先进的NLP模型的新深度学习公式。爆炸AI。2016年11月9日URL:https://explosion.ai/blog/deep-learning-formula-nlp[2022-01-31]访问
Raschka S. mlextend:为Python的科学计算堆栈提供机器学习和数据科学实用程序和扩展。科学通报，2018;3(24):638。［CrossRef］
胡欣，Reaven PD, Saremi A，刘宁，Abbasi MA，刘宏，ACT NOW研究人员。机器学习预测糖耐量受损患者颈动脉粥样硬化的快速进展。[J] .生物通报;2016;(1):14 [J]免费全文] [CrossRef] [Medline］
陈建军，陈建军，陈建军，等。脉搏波速度和机器学习预测糖尿病前期和糖尿病人群心血管预后的研究。J Med system 2019 Dec 09;44(1):16。［CrossRef] [Medline］
Zeevi D, Korem T, Zmora N, israel D, Rothschild D, Weinberger A，等。通过预测血糖反应的个性化营养。Cell 2015 Dec 19;163(5):1079-1094 [免费全文] [CrossRef] [Medline］
Popp CJ, St-Jules DE, Hu L, Ganguzza L, Illiano P, Curran M，等。个人饮食研究的基本原理和设计，一项随机临床试验，评估糖尿病前期和早期2型糖尿病患者减肥的个性化方法。当代临床试验2019年4月79:80-88。［CrossRef] [Medline］
刘勇，王勇，倪勇，b张CKY，林克山，王勇，等。肠道微生物发酵决定运动预防糖尿病的功效。中国生物医学工程学报，2020,31(1):77-91。e5 [免费全文] [CrossRef] [Medline］
傅松，陈东，何红，刘生，Moon S, Peterson KJ，等。临床概念提取:方法学回顾。[J]中国生物医学工程学报，2010;29 (1):391 - 391 [J]免费全文] [CrossRef] [Medline］

‎

有线电视新闻网:卷积神经网络

电子健康档案:电子健康记录

HbA_{1 c}：血红蛋白的_{1 c}

ICD:国际疾病分类

IRR:评分者间信度

JHU:约翰霍普金斯大学

ML:机器学习

注:高斯naïve贝叶斯

NLP:自然语言处理

NLTK:自然语言工具包

卡式肺囊虫肺炎:初级保健提供者

PMAP:精准医学分析平台

SGD:随机梯度下降

支持向量机:支持向量机

TF-IDF:术语频率-逆文档频率

C·洛维斯编辑;提交21.04.21;由M Peeples, M Burns, M Elbattah, O Serban进行同行评审;对作者的评论23.09.21;修订版本收到15.11.21;接受04.12.21;发表24.02.22

©Jessica L Schwartz, Eva Tseng, Nisa M Maruthur, Masoud Rouhizadeh。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 24.02.2022。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

在非结构化临床文献中识别前驱糖尿病的讨论:一种自然语言处理算法的验证