JMIR医学信息学-非结构化临床文档中前驱糖尿病讨论的识别:自然语言处理算法的验证

原始论文

¹美国巴尔的摩市约翰霍普金斯医学院普通内科分部

²美国马里兰州巴尔的摩市约翰霍普金斯医院医院医学部

^3.美国马里兰州巴尔的摩市约翰霍普金斯大学韦尔奇预防、流行病学和临床研究中心

⁴美国马里兰州巴尔的摩市约翰霍普金斯大学布隆伯格公共卫生学院流行病学系

⁵美国佛罗里达州盖恩斯维尔市佛罗里达大学药学院药物结果与政策系

⁶约翰霍普金斯大学医学院生物医学信息学和数据科学部，巴尔的摩，MD，美国

*所有作者贡献相同

通讯作者:

杰西卡·L·施瓦茨，医学博士，MHS

普通内科

约翰霍普金斯医学院

E纪念碑街2024年

Ste 2 - 604 d

巴尔的摩，马里兰州，2205

美国

电话:1 973 722 8552

传真:1 410 955 0476

电子邮件:jschwa64@jhmi.edu

背景:三分之一的美国成年人患有前驱糖尿病。大多数人没有接受循证干预，因此了解提供者如何与患者讨论前驱糖尿病将告知如何改善他们的护理。

摘要目的:本研究旨在开发一种自然语言处理(NLP)算法，使用机器学习技术来识别叙事文档中关于前驱糖尿病的讨论。

方法:我们开发并应用了一种关键词搜索策略来识别前驱糖尿病患者临床文献中关于前驱糖尿病的讨论。我们手动回顾了匹配的笔记，以确定哪些代表了真正的糖尿病前期讨论。我们将7个机器学习模型应用于我们的人工注释。

结果:机器学习分类器能够获得接近人类表现的分类结果，精度高达98%，并在临床文档中识别前驱糖尿病讨论。

结论:我们证明了前驱糖尿病讨论可以使用NLP算法准确识别。这种方法可用于理解和确定初级保健中的糖尿病前期管理实践，从而告知干预措施，以改善指南的一致性护理。

JMIR Med Inform 2022;10(2):e29803

doi: 10.2196/29803

关键字

前驱糖尿病；前驱糖尿病的讨论；前驱糖尿病管理；慢性病管理；医患沟通；自然语言处理；机器学习

8800万美国成年人患有前驱糖尿病[1，2]，而以改变生活方式为重点的循证干预可预防2型糖尿病[3.-12］．特别是，糖尿病预防计划是一种有效的生活方式干预，可以降低糖尿病发病率，最新数据显示，在15年的随访中，与安慰剂组相比，风险降低了27% [5］．不幸的是，高达89%的患者不知道自己患有前驱糖尿病。13，14]，许多患者不知道可以降低糖尿病风险的干预措施——依赖他们的初级保健提供者(pcp)发起关于糖尿病预防的讨论，包括改变生活方式的重要性[8，9］．然而，调查数据表明，许多提供者认为他们缺乏资源来有效实施基于证据的前驱糖尿病治疗[8，9］．有针对性的初级保健干预，以支持决策和教育，可能能够改善前驱糖尿病的诊断和提供与指南一致的护理。

严格的质量改进干预需要在项目实施之前和之后使用测量方法进行评估，以确定目标结果是否有明显的变化。不幸的是，仅通过结构化数据很难确定糖尿病前期管理的变化和改善。仅仅依靠诊断代码是不够的;一项研究表明，只有13%的前驱糖尿病患者被国际疾病分类(ICD)-9诊断为前驱糖尿病或高血糖[14］．虽然实验室、订单和转诊提供了一些见解，但这些信息缺乏关于管理的细节，特别是生活方式咨询，这在叙述性文档中更好地捕获。这一内容不容易查询，需要创新的研究方法来准确反映糖尿病前期护理的提供。

先前的研究表明，自然语言处理(NLP)可以用于诊断糖尿病等慢性疾病，但很少关注疾病管理[15］．同样，前驱糖尿病的NLP研究主要集中在疾病检测、筛查和预测建模，没有研究应用机器学习(ML)技术来确定如何管理前驱糖尿病[16-27］．我们的目标是开发一种方法，以确定提供者何时讨论前驱糖尿病的管理和治疗，随后可用于确定所提供的护理是否符合循证指南，并比较干预前后的结果。因此，我们开发并验证了NLP管道，以确定临床文件中关于前驱糖尿病的初级保健讨论。

人口与伦理批准

我们确定了在马里兰州和华盛顿特区有多个门诊的学术中心进行内科初级保健访问的前驱糖尿病患者。符合条件的患者为成人(≥18岁)，由三家主要保险公司中的一家承保，并完成了亲自访问并有血红蛋白a_{1 c}(HbA_{1 c})在2016年7月1日至2018年12月31日期间的5.7%至6.4%之间。基于账单代码或问题列表中的文件或过去的病史，糖尿病患者(任何类型)被排除在外。使用Stata 15进行数据清理和分析。该研究获得了约翰·霍普金斯大学机构审查委员会(IRB00196984)的批准。

关键字搜索优化(第一阶段)

根据临床经验，我们开发了一个用于描述“前驱糖尿病”的关键词列表(表S1)多媒体附件1)．我们使用Python字符串匹配和字典查找来识别包含这些关键字的访问记录，并考虑拼写错误和形态差异等变化。我们为每个匹配提取了±25个单词的一致性窗口(“注释片段”)，以提供文本上下文。如果存在多个匹配的关键字，则多个代码段可能来自同一个注释。

我们从整个人群中选择了2个流动诊所。在符合纳入标准的315例患者中，40.6%(128/315)在研究期间至少有一个匹配的关键字。这些患者在与25个提供者的324次会面中，总共有637个关键字匹配。我们进行了手动注释，以确定637个注释片段中哪些代表了前驱糖尿病的真实临床讨论(是或否)。门诊医生的文件通常包括主诉、当前病史、病史和家族史、客观数据，包括体检、评估和计划。我们考虑使用部分识别管道来排除注释中的特定部分(例如，过去的病史)，其中关键字不代表前驱糖尿病的讨论。然而，节标识管道的通用性较差，并且我们示例中的提供者没有使用标准化的模板，使得节边界难以定义[28］．相反，如果关键字只出现在过去的病史、评估和计划之外的诊断列表、家族史或实验室结果描述中，则在手动审查期间将注释片段指定为“no”。

我们对随机抽取的200个音符片段进行了双重审查。评分者间信度(IRR)为95%。注释者之间的差异通过共识来解决，以完善“前驱糖尿病讨论”的定义。然后，我们手动审查了35.3%(66/187)没有关键字匹配的图表的患者记录，以识别假阴性。我们回顾了患者PCP在纳入时间段内所写的所有笔记，9%(6/66)的患者有糖尿病前期讨论，但未被捕获。我们在词典中添加了3个关键词(“血糖异常”、“高血糖”和“糖尿病前期”)(表S1)多媒体附件1)．

训练集(第二阶段)

我们开发了一个训练集来测试我们的前驱糖尿病词汇，以对抗来自不包括在第1阶段的诊所的患者(图1)．我们在每个患者(n=1095)中都包含了一张便条，选择了在HbA卡之后的第一次接触_{1 c}符合纳入标准的结果。我们应用了最终的关键字搜索，结果是73名提供者看过的381名患者有684个匹配。我们对684个音符片段进行了抽象，并使用与上面类似的过程对音符进行了注释。我们对34%的注释片段进行了复查，人工注释的IRR为97%，在复查时解决了100%的一致性。我们将这些结果与第一阶段的注释片段结合起来。为了避免过度选择单个患者或提供者，我们包含了来自每个患者一次就诊的笔记片段，总共由96个不同的提供者编写了930个笔记片段。

图1。描述关键字搜索优化(阶段1)和训练集开发(阶段2)期间选择和审查的图表。符合条件的患者是由三家主要保险公司之一承保的成年人(≥18岁)，他们在约翰·霍普金斯大学的诊所完成了亲自访问，并拥有HbA卡_{1 c}在2016年7月1日至2018年12月31日期间，该水平在5.7%至6.4% (39-46 mmol/mol)之间。注意，双重审查表明2个提供者审查了关键字匹配，以确定周围的文本是否代表真正的前驱糖尿病讨论。

基于规则的系统

基于规则的系统经常用于临床概念提取和文本分类系统，因为它们易于实现和最小的计算需求。为了建立一个强有力的基线，我们测试了用基于规则的分类方案识别前驱糖尿病讨论的可行性。使用spaCy EntityRuler模块[29，我们创建了42个专家开发的模式，如果存在，将代表糖尿病前期的讨论。spaCy EntityRuler模块促进了各种模式、关键字和正则表达式的搜索和匹配，并允许我们考虑形态变化(例如，单数与复数形式，连词)，以及不同介词(例如，about vs for)和同义词(例如，前驱糖尿病，空腹血糖受损)的替换。表S2多媒体附件1为这个基于规则的系统提供专家开发的模式。我们随机抽取了90%的注释片段来开发和修改基于规则的系统，并对剩余10%的系统进行评估。

机器学习

特征选择

注意训练集中的注释片段使用波特词干分析器词干，常见的停止词使用自然语言工具包(NLTK)停止词列表删除[30.］．我们使用Python scikit-learn库[31]，提取词ngram序列(1-5克)，并以词频-文档逆频率(TF-IDF)加权[32］．我们应用L1正则化的逻辑回归[33]来降低特征向量的维数。

计算环境

深度学习和ML实验是在约翰霍普金斯大学(JHU)的精确医学分析平台(PMAP)上进行的，这是一个高性能、基于云的大数据平台，可以加速生物医学发现，并转化已发现的知识，以改善以患者为中心的护理。PMAP从约翰霍普金斯医学电子健康记录(EHR)中提取数据，以支持ML和NLP技术的处理。统计分析和手动注释是在JHU安全分析框架环境中完成的，这是一个虚拟桌面，为JHU调查人员提供了一个安全的平台，用于与同事分析和共享敏感数据(包括受保护的健康信息)。

分类

我们使用标记的笔记片段来训练多个ML分类器，以复制糖尿病前期讨论的人类注释。我们应用了6种二元分类模型:logistic回归[34]，线性支持向量机[35]，随机梯度下降法(SGD) [36]，决策树[37]，随机森林[38，39]，高斯naïve贝叶斯(NB) [40］．为了减少过拟合，每个模型都使用10倍交叉验证进行评估，随机训练90%的数据，并保留10%的数据进行测试。所有建模均在scikit-learn中进行[31］．

我们也应用卷积神经网络(cnn)进行句子分类[41]，是一种成熟的用于文本分类的NLP深度学习方法[42]使用Python spacy2.1实现[29］．我们从每个注释片段的标记化开始，并使用scispaCy大型模型(约785,000个词汇量和600,000个单词向量)创建每个标记的嵌入向量，并对生物医学和临床文本进行预训练[43］．接下来，为了表示上下文中的标记，通过使用向前传递和向后传递计算每个标记的向量，这些向量被编码成一个句子矩阵。然后，应用自注意机制将句子矩阵表示的维数降为单个上下文向量。最后，这些向量被平均汇总，并作为一个简单前馈网络的特征用于预测前驱糖尿病的真实讨论。对于CNN模型，我们使用spaCy 2.2默认的网络架构和参数[44］．

对于每种分类方法，我们报告了一致性、敏感性和召回率、特异性、阳性预测值和精密度，并使用人工注释作为金标准进行F测量。为了测试分类方法之间的统计显著性，我们使用MLxtend Python库执行5x2交叉验证配对t测试(45］．一个P值<。05表明我们可以拒绝原假设，即两个模型对前驱糖尿病讨论的分类表现相同。

我们确定了1410例前驱糖尿病患者;518个(36.74%)至少有一个关键字匹配。在这些患者中，435名(84.0%)患者在人工审阅的文献中真实地讨论过前驱糖尿病(图1)．

基于规则的系统不足以复制人类的表现，其召回率为72.5%，特异性为42.6% (表1)．然而，ML和CNN分类在所有模型中都接近于人类的表现(表1)．在将传统分类器与逻辑回归(一致性最高)进行比较时，只有线性支持向量机与NB具有相似的性能(P=。11一个ndP=。15，respectively). CNN outperformed all conventional ML classifiers (logistic regression:P= .04点;支持向量机:P= .02点;SGD:P= .002;随机森林:P= .002;决策树:P=措施;注:P= 03)。

表1。机器学习方法在从初级保健记录片段中识别前驱糖尿病讨论时近似人工注释的性能(n=930)。

方法		实例分类器与手动注释一致，n (%)	灵敏度/回忆	特异性	PPV^一个/精密	F测量
基于规则的系统
	条目模式	588 (63.2)	0.725	0.426	0.737	0.731
机器学习
	逻辑回归	885 (95.2)	0.966	0.921	0.965	0.965
	线性支持向量机	878 (94.4)	0.962	0.903	0.957	0.960
	随机梯度下降	858 (92.3)	0.926	0.915	0.96	0.943
	随机森林	863 (92.8)	0.961	0.854	0.937	0.948
	决策树	832 (89.5)	0.923	0.83	0.925	0.924
	高斯naïve贝叶斯	883 (95.0)	0.966	0.912	0.96	0.963
	卷积神经网络	910 (97.9)	0.984	0.966	0.984	0.984

^一个PPV:阳性预测值。

手动注释揭示了多种语言模式，这些模式可以或不可以代表前驱糖尿病的临床讨论(表2)．最常见的是，真正的讨论是在评估和计划中找到的，而那些没有的讨论是从结构化字段中自动填充的。基于传统分类器中表现最好的逻辑回归，ML确实导致5%的误分类;在审查这些错误分类的笔记片段时，模式并不明显。

表2。来自临床文档的示例文本，包含与“前驱糖尿病”提取词汇匹配的关键字，根据文本是否代表前驱糖尿病讨论的文档进行分层。

备注位置			来自笔记片段的代表性文本^一个
包含关键字匹配的文本表示糖尿病前期讨论。
	主诉	主诉:患者为42岁女性，有关于前驱糖尿病的问题。 ‎ 患者提出进行年度身体检查和HTN再评估^b以及空腹血糖受损。 ‎
	现病史	有一台跑步机，但不经常使用。近期糖化血红蛋白为6.2，符合糖尿病前期。 ‎
	拜访问题清单	本次访问解决的问题清单哮喘、边缘性糖尿病、原发性高血压 ‎ 评估订单计划高脂血症……7.8.空腹血糖降低。保健保养 ‎
	评估与计划	讨论生活方式的改变，包括饮食和运动。6.血压升高。 ‎ 糖尿病前期评估:近期糖化血红蛋白处于良好范围。计划:运动和健康饮食的改变。 ‎
包含关键字匹配的文本不代表糖尿病前期讨论。
	一行程序	患者有HTN、HLD病史^c糖尿病前期硬皮病在这里做常规健康评估 ‎
	既往病史	既往病史:诊断日期哮喘2008年5月14日…前驱糖尿病2/6/2012骨质疏松症5/14/2008 ‎
	问题列表	．.．高血脂E78.5空腹血糖降低R73.01超重E66.3… ‎
	诊断列表	原发性高血压、骨质疏松症、……糖尿病前期，哮喘，… ‎
	家族病史	家族史问题关系糖尿病发病年龄父亲糖尿病前期父亲祖父… ‎
	相关的积极	诊断仍不清楚。他患有前驱糖尿病。报告有2-3个月的间歇性心悸。 ‎
	相关的负面	可能有周围神经病变。负弹性分组环^d艾滋病毒，糖尿病前期。 ‎
	跟进原因	随访1个月，进行流感疫苗注射和糖尿病前期讨论。 ‎
	结果^e	对于没有糖尿病的人，血红蛋白a_{1 c}数值在5.7% - 6.4%之间，与糖尿病前期相一致，应予以确认。 ‎
	一般的指导方针^e	2型糖尿病或前驱糖尿病所有45岁以上、超重或肥胖且有一种或多种其他危险因素且在任何年龄均无症状的男性。 ‎

^一个文本的长度和内容被修改，以作为一般的例子，同时保护患者的匿名性。

^bHTN:高血压。

^cHLD:高脂血症。

^dRPR:快速血浆反应素。

^e填充在临床决策支持工具的注释中。

主要研究结果

我们利用NLP和ML技术从非结构化叙事文档中识别糖尿病前期讨论，准确率和召回率高达98%。迄今为止，NLP技术已用于前驱糖尿病的筛查、诊断、风险分层、预测建模和干预设计[16-27，46-50］．据我们所知，这是第一个用于识别糖尿病前期讨论的NLP工具。NLP方法已以多种方式应用于医疗保健，包括在EHR自由文本临床笔记中对疾病表型进行分类，大多数研究使用简单的方法，如浅分类器或结合基于规则的方法[15，51］．与这些研究相比，我们的NLP方法并不新颖，但我们在疾病管理中的应用将我们的研究与那些主要关注慢性疾病病情识别的研究区分开来[15］．

在我们的研究中，由于特异性差，一个简单的基于规则的系统不足以识别糖尿病前期讨论。相比之下，所有ML方法都表现良好，准确率为89%至98%。这一结果表明，尽管有各种各样的文档风格，但可以使用NLP管道识别前驱糖尿病讨论。逻辑回归是一种高效的传统分类器，技术依赖性最小，在统计上优于CNN，这是一种深度学习技术。然而，这两种方法都能识别95%的前驱糖尿病讨论，这表明任何一种方法都可以根据系统需求应用。

我们的NLP工具有多种应用。逻辑回归的简单性允许在操作环境中部署，特别是临床决策支持。该工具还可以简化旨在改变提供者实践的临床干预前后的分析过程。例如，它可以隔离关于前驱糖尿病的讨论，否则这项任务需要耗时的人工审查。然后可以回顾这些讨论的背景，以了解干预的影响。这一过程将加强对前驱糖尿病质量改善计划的评估，以促进指南的一致性护理，其中包括生活方式咨询[3.-7］．这些方法应该是可复制的，以确定关于其他情况的行为干预的对话，如肥胖、多物质滥用或烟草使用，除了药物管理和转诊外，严重依赖于咨询。

的优势

我们的研究有几个优势。关键字细化阶段是严格的。我们根据来自2个门诊的随机样本验证了初始关键字列表，确保我们审查了各种文档风格。由2名专家进行手动注释，以标准化我们对“前驱糖尿病讨论”的定义，从而提高训练集开发期间的IRR评分。我们还识别了假阴性，并相应地修改了我们最初的关键词列表，以确保捕捉到前驱糖尿病的讨论。最后，我们将关键字细化过程中开发的搜索条件应用于来自独特诊所的一组新笔记，以减少过拟合。在930个独特的笔记片段中，总共包含了96个不同的提供者，这使得模型能够学习许多不同临床医生的词汇和写作风格。

限制

本研究的局限性包括收集来自单一卫生系统的数据。然而，所包括的诊所代表了城市和郊区的站点，为不同社会经济水平和疾病负担的患者提供服务，提高了概括性。其他机构的提供者可能会使用不同的医学术语来描述“前驱糖尿病”，本研究没有考虑到这一点。这可能会限制在家庭培训机构之外的推广。然而，我们采取了几个步骤来减少制度偏见，包括严格的关键字细化和最终词汇搜索应用于多个诊所，这些诊所不共享标准化模板，包括许多语言风格和模式。我们将音符的选择限制在第一次遇到异常HbA之后_{1 c}结果;虽然这可能会错过一些关于前驱糖尿病的对话，但从逻辑上讲，这些讨论最有可能发生在异常结果出现的时间附近，这减少了我们模型中的偏差。最后，记录选择过程要求至少一个前驱糖尿病关键字进入我们的数据集，限制了我们计算真实回忆的能力。我们通过对未进入数据集的图表子集执行手动审查来最小化这个问题，以确保我们在关键字搜索中没有选择偏差。未来的研究可能会考虑将我们的NLP管道应用于随机的笔记样本，而不需要选择关键字来执行额外的验证。此外，我们的研究为确定前驱糖尿病的讨论提供了一个基线框架。接下来的步骤可以应用NLP管道来确定关于前驱糖尿病的讨论何时达到提供指南一致护理的阈值。

结论

我们的NLP管道成功地识别了非结构化笔记中的前体糖尿病讨论，精度接近人类注释。这种方法可用于评估患者访视期间的糖尿病前期咨询，并描述初级保健中的糖尿病前期管理。收集这些数据是为干预措施提供信息的关键步骤，以改善循证糖尿病前期护理的提供，以减少2型糖尿病的发病率。

致谢

这项工作得到了约翰·霍普金斯临床和转化研究中心2018年核心硬币奖的支持。ET得到了国家糖尿病、消化和肾脏疾病研究所的支持[K23DK118205]。JLS得到了国家心肺血液研究所的支持[5T32HL007180, PI: Hill-Briggs]。

利益冲突

NMM是虚拟糖尿病预防计划的共同发明者。根据约翰·霍普金斯医疗保健解决方案与约翰·霍普金斯大学之间的许可协议，NMM和大学有权获得与该技术相关的版税分配。约翰霍普金斯大学已经根据其利益冲突政策审查并批准了这一安排。这项技术在本研究中没有描述。JLS是NovoNordisk公司资助的一个研究项目的联合研究员。该项目的主要目的是创建和试点临床决策支持工具，以协助临床医生与患者谈论体重和肥胖治疗。本出版物未涉及或引用该项目。

‎

多媒体附件1

补充方法和表格。

DOCX文件，30kb

2020年国家糖尿病统计报告:美国糖尿病及其负担的估计。疾病控制和预防中心。URL:https://www.cdc.gov/diabetes/pdfs/data/statistics/national-diabetes-statistics-report.pdf[2022-01-31]访问
国家糖尿病统计报告:美国糖尿病及其负担的估计。美国疾病控制与预防中心，2014。URL:https://www.cdc.gov/diabetes/data/statistics-report/index.html[2022-01-31]访问
糖尿病预防计划研究小组，Knowler WC, Fowler SE, Hamman RF, Christophi CA, Hoffman HJ，等。糖尿病预防计划结果研究中糖尿病发病率和体重减轻的10年随访。柳叶刀2009 Dec 14;374(9702):1677-1686 [免费全文] [CrossRef] [Medline］
Knowler WC, Barrett-Connor E, Fowler SE, Hamman RF, Lachin JM, Walker EA，糖尿病预防计划研究小组。生活方式干预或二甲双胍可降低2型糖尿病发病率。N english l J Med 2002 march 07;346(6):393-403 [免费全文] [CrossRef] [Medline］
糖尿病预防计划研究小组。生活方式干预或二甲双胍对糖尿病发展和微血管并发症15年随访的长期影响:糖尿病预防项目结果研究Lancet Diabetes Endocrinol 2015 Dec;3(11):866-875 [免费全文] [CrossRef] [Medline］
美国糖尿病协会。预防或延缓2型糖尿病。糖尿病护理2020年1月43日(增刊1):S32-S36。［CrossRef] [Medline］
国家糖尿病预防计划。疾病控制和预防中心，2017。URL:http://www.cdc.gov/diabetes/prevention/index.htm[2022-01-31]访问
曾E，葛瑞尔RC, O'Rourke P, Yeh H, McGuire MM, Clark JM，等。初级保健提供者筛查、诊断和管理前驱糖尿病知识的调查。J Gen Intern Med 2017年12月;32(11):1172-1178 [免费全文] [CrossRef] [Medline］
曾e，葛瑞尔RC, O'Rourke P, Yeh H, McGuire MM, Albright AL，等。关于初级保健医生的知识、实践和对前驱糖尿病的看法的全国性调查。J Gen实习医学2019年11月34日(11):2475-2481 [免费全文] [CrossRef] [Medline］
Rhee MK, Herrick K, Ziemer DC, Vaccarino V, Weintraub WS, Narayan KMV，等。许多美国人有糖尿病前期，应该考虑二甲双胍治疗。糖尿病护理2010 Jan;33(1):49-54 [免费全文] [CrossRef] [Medline］
Karve A, Hayward RA。美国非糖尿病成年人空腹血糖和糖耐量受损的患病率、诊断和治疗糖尿病护理2010 Dec;33(11):2355-2359 [免费全文] [CrossRef] [Medline］
莫茵涛，李娟，杜鲁欧，艾特纳，特克恩，Keckhafer A，等。2010 - 2012年参保成人前驱糖尿病患者二甲双胍处方:一项回顾性队列研究Ann实习医学2015年5月21日;162(8):542-548 [免费全文] [CrossRef] [Medline］
疾病控制和预防中心。对前驱糖尿病的认识——美国，2005-2010年。MMWR Morb Mortal Wkly Rep 2013年3月22日;62(11):209-212 [免费全文] [Medline］
Schmittdiel JA, Adams SR, Segal J, Griffin MR, Roumie CL, Ohnsorg K，等。综合电子健康记录的新使用和效用评估前驱糖尿病的识别和治疗率:综合电子健康记录试点研究的简要报告糖尿病护理2014 Mar;37(2):565-568 [免费全文] [CrossRef] [Medline］
Sheikhalishahi S, Miotto R, Dudley JT, Lavelli A, Rinaldi F, Osmani V.慢性疾病临床病历的自然语言处理:系统综述。JMIR Med Inform 2019年5月27日;7(2):e12239 [免费全文] [CrossRef] [Medline］
De Silva K, Jönsson D, Demmer RT.特征选择和机器学习相结合的策略来识别前驱糖尿病的预测因素。美国医学通报协会2020年3月01日;27(3):396-406 [免费全文] [CrossRef] [Medline］
郑继伟，金文杰，崔树生，朴宗杰，金德伟。支持向量机模型用于糖尿病前期筛查。IEEE工程医学生物学报2014;2014:2472-2475。［CrossRef] [Medline］
Maeta K, Nishiyama Y, Fujibayashi K, Gunji T, Sasabe N, Iijima K，等。使用机器学习算法预测糖代谢紊乱风险:试点研究。JMIR糖尿病2018年12月26日;3(4):e10212 [免费全文] [CrossRef] [Medline］
Anderson JP, Parikh JR, Shenfeld DK, Ivanov V, Marks C, Church BW，等。2型糖尿病进展预测模型的逆向工程和评估:使用电子健康记录的机器学习应用中华糖尿病杂志2015年12月20日;10(1):6-18 [免费全文] [CrossRef] [Medline］
崔珊珊，金文杰，刘志明，朴宗杰，郑继伟，李勇，等。使用机器学习模型筛查前驱糖尿病。计算数学方法医学2014;2014:618976 [免费全文] [CrossRef] [Medline］
Acciaroli G, Sparacino G, Hakaste L, Facchinetti A, Di Nunzio GM, Palombit A，等。利用连续血糖监测数据的血糖变异性指数对糖尿病和前驱糖尿病进行分类。中国糖尿病杂志2018年1月;12(1):105-113 [免费全文] [CrossRef] [Medline］
Shankaracharya, Odedra D, Samanta S, Vidyarthi AS。基于计算智能的诊断工具，用于检测印度的前驱糖尿病和2型糖尿病。糖尿病研究2012;9(1):55-62 [免费全文] [CrossRef] [Medline］
王玲，穆艳，赵娟，王霞，车红。IGRNet:一种基于心电图的无创、实时糖尿病前期诊断的深度学习模型。传感器(巴塞尔)2020年5月30日;20(9):1 [免费全文] [CrossRef] [Medline］
王永强，王永强，王永强。用机器学习预测糖尿病和心血管疾病的数据驱动方法。BMC Med Inform Decis Mak 2019年11月06日;19(1):211 [免费全文] [CrossRef] [Medline］
陈志强，陈志强，陈志强，等。从糖尿病前期发展到糖尿病的预测:机器学习模型的开发和验证。糖尿病Metab Res Rev 2020年2月;36(2):e3252。［CrossRef] [Medline］
Garcia-Carretero R, Vigil-Medina L, Mora-Jimenez I, Soguero-Ruiz C, Barquero-Perez O, Ramos-Lopez J.使用k近邻模型预测肥胖高血压人群2年内2型糖尿病的发展。医学生物工程计算2020年5月;58(5):991-1002。［CrossRef] [Medline］
金波，刘荣，郝松，李震，朱超，周新，等。定义和描述2型糖尿病发病前的关键过渡状态。PLoS One 2017;12(7):e0180937 [免费全文] [CrossRef] [Medline］
Pomares-Quimbaya, Kreuzthaler M, Schulz S.目前从电子健康记录中识别临床叙述部分的方法:一项系统综述。BMC Med Res Methodol 2019 july 18;19(1):155 [免费全文] [CrossRef] [Medline］
Honnibal M, Montani . spaCy 2:自然语言理解与Bloom嵌入，卷积神经网络和增量解析。宽大的。IO 2017:1 [免费全文］
Loper E, Bird S. NLTK:自然语言工具包。2002年发表于:ACL-02自然语言处理和计算语言学教学的有效工具和方法研讨会;2002年7月7日;费城，宾夕法尼亚州网址:https://doi.org/10.3115/1118108.1118117［CrossRef］
Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O，等。Scikit-learn: Python中的机器学习。计算机科学与工程学报，2011;12 (4):457 - 457 [免费全文] [CrossRef］
Rouhizadeh M, Jaidka K, Smith L, Schwartz HA, Buffone A, Ungar LH。识别社交媒体语言的控制点。2018年发表于:自然语言处理经验方法会议;2018年10月31日至11月4日;比利时布鲁塞尔，p. 1146-1152网址:https://www.aclweb.org/anthology/D18-1145.pdf［CrossRef］
广义线性模型的L1正则化路径算法。皇家统计学会杂志。B组(统计方法)2007;69(4):659-677 [免费全文] [CrossRef］
Hosmer DW, Lemeshow S, Sturdivant RX。应用逻辑回归，第三版。新泽西州霍博肯:John Wiley & Sons, Ltd;2013.
Cortes C, Vapnik V.支持向量网络。机器学习1995;20:273-297 [免费全文] [CrossRef］
基于随机梯度下降的大规模机器学习。入:勒舍瓦利耶Y，萨波尔塔G，编辑。2010年COMPSTAT会议记录。德国海德堡:physics - verlag HD;2010:177 - 186。
决策树分类器方法综述。IEEE反式。系统。，Man, Cybern 1991;21(3):660-674 [免费全文] [CrossRef］
李国强，李国强。基于随机森林的分类与回归。R News 2002;2/3:18-22 [免费全文］
随机森林。机器学习2001;45:5-32。［CrossRef］
Rish I.朴素贝叶斯分类器的实证研究。2001发表于:IJCAI 2001人工智能实证方法研讨会;2001年8月4日至6日;西雅图，华盛顿州，p. 41-46网址:https://www.cc.gatech.edu/fac/Charles.Isbell/classes/reading/papers/Rish.pdf
张涛。基于区域嵌入的半监督卷积神经网络文本分类。Adv Neural Inf Process sy2015 Dec; 28:19 -927 [免费全文] [Medline］
张勇，Wallace B.卷积神经网络用于句子分类的敏感性分析(和从业者指南)。康奈尔大学，2015。URL:https://arxiv.org/abs/1510.03820[2022-01-31]访问
Neumann M, King D, Beltagy I, Ammar W. ScispaCy:生物医学自然语言处理的快速和健壮模型。康奈尔大学，2019。URL:https://arxiv.org/abs/1902.07669[2022-01-31]访问
嵌入，编码，参与，预测:最先进的NLP模型的新的深度学习公式。爆炸AI。2016年11月9日。URL:https://explosion.ai/blog/deep-learning-formula-nlp[2022-01-31]访问
Raschka S. MLxtend:为Python的科学计算堆栈提供机器学习和数据科学实用程序和扩展。JOSS 2018 4月3日(24):638。［CrossRef］
胡x, Reaven PD, Saremi A, Liu N, Abbasi MA, Liu H, ACT NOW研究调查员。机器学习预测糖耐量受损患者颈动脉粥样硬化的快速进展。EURASIP J Bioinform Syst Biol 2016 12月;2016(1):14 [免费全文] [CrossRef] [Medline］
Garcia-Carretero R, Vigil-Medina L, Barquero-Perez O, Ramos-Lopez J.脉波速度和机器学习预测糖尿病前期和糖尿病人群的心血管结局。中华医学杂志2019年12月09日;44(1):16。［CrossRef] [Medline］
蔡维维，柯瑞敏，张志刚，张志刚，等。通过预测血糖反应的个性化营养。Cell 2015年12月19日;21 (5):1079-1094 [免费全文] [CrossRef] [Medline］
王晓明，王晓明，王晓明，等。个人饮食研究的基本原理和设计，这是一项随机临床试验，评估糖尿病前期和早期2型糖尿病患者的个性化减肥方法。当代临床试验2019年4月;79:80-88。［CrossRef] [Medline］
刘勇，王勇，倪勇，张CKY，林ksl，王勇，等。肠道微生物发酵决定运动预防糖尿病的效果。Cell Metab 2020 1月07日;31(1):77-91。e5 [免费全文] [CrossRef] [Medline］
傅松，陈东，何华，刘松，Moon S, Peterson KJ，等。临床概念提取:一项方法学综述。J Biomed Inform 2020年9月;109:103526 [免费全文] [CrossRef] [Medline］

‎

有线电视新闻网:卷积神经网络

电子健康档案:电子健康记录

HbA_{1 c}：血红蛋白的_{1 c}

ICD:《国际疾病分类》

IRR:评分者间信度

JHU:约翰霍普金斯大学

ML:机器学习

注:高斯naïve贝叶斯

NLP:自然语言处理

NLTK:自然语言工具包

卡式肺囊虫肺炎:初级保健提供者

PMAP:精准医疗分析平台

SGD:随机梯度下降

支持向量机:支持向量机

TF-IDF:术语频率-逆文档频率

C·洛维斯编辑;提交21.04.21;同行评审:M Peeples, M Burns, M Elbattah, O Serban;对作者23.09.21的评论;订正版本收到15.11.21;接受04.12.21;发表24.02.22

©Jessica L Schwartz, Eva Tseng, Nisa M Maruthur, Masoud Rouhizadeh。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 24.02.2022。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，https://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

非结构化临床文献中前驱糖尿病讨论的识别:自然语言处理算法的验证