这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba
用于研究的电子病历(EMR)自由文本数据的可用性各不相同。但是,可以更广泛地访问简短的诊断文本字段。gydF4y2Ba
本研究评估了来自初级保健EMR的自由文本和短诊断文本数据之间的一致性,以识别创伤后应激障碍(PTSD)。gydF4y2Ba
这项回顾性横断面研究使用了来自泛加拿大储存库的EMR数据,该储存库代表265家诊所的1574名初级保健提供者,使用11家EMR供应商。使用EMR的自由文本和短诊断文本字段的病历审查产生了PTSD的参考标准。以敏感性、特异性、阳性预测值、阴性预测值和准确性评估一致性。gydF4y2Ba
我们的参考集包含327例患者的自由文本和简短诊断文本。在这些患者中,自由文本与短诊断文本的一致性准确率为93.6% (CI为90.4% ~ 96.0%)。在加拿大的一个省,病例定义1和4的敏感性为82.6% (CI为74.4%-89.0%),特异性为99.5% (CI为97.4%-100%)。然而,当参考集扩大到全加拿大参考时(n= 12104例患者),病例定义4具有最强的一致性(敏感性:91.1%,CI 90.1%-91.9%;特异性:99.1%,CI 98.9% ~ 99.3%)。gydF4y2Ba
在医疗记录审查期间纳入自由文本的遭遇记录并没有改善PTSD病例的捕获,也没有导致病例定义协议的重大变化。在这个泛加拿大数据库中,诊断代码和EMR结构的管辖权差异表明,需要用自然语言处理补充诊断代码以捕获PTSD。在不可用时,短诊断文本可以补充自由文本数据,用于创建参考集和案例验证。创伤后应激障碍病例定义的应用可以告知创伤后应激障碍的患病率和特征。gydF4y2Ba
初级保健提供者通常是卫生保健系统内个人的第一个接触点。初级保健服务在患者的整个医疗保健经历中支持他们管理急性和慢性疾病。初级保健电子医疗记录(EMR)是医疗保健提供者在个人医疗保健经历中收集的纵向患者数据的丰富来源。EMR数据可以识别临床表型,描述护理途径,并为质量改进计划提供信息[gydF4y2Ba
识别复杂的医疗状况可能需要多个数据点。可以评估EMR中的结构化数据字段(如标准化诊断或药物代码)以及非结构化自由文本数据,以描述复杂的情况。EMR中的非结构化自由文本可以描述患者护理的观察、评估和计划,提供结构化数据字段中可用内容的深度[gydF4y2Ba
创伤后应激障碍(PTSD)是一种复杂的精神健康障碍,其特征是在目睹或经历创伤事件后出现一系列令人痛苦的症状[gydF4y2Ba
本研究有两个目标,如下:(1)比较使用自由文本数据与初级保健EMR中简短的诊断文本字段时的捕获质量,以创建PTSD等复杂病症的参考集;(2)使用单省和泛加拿大EMR参考标准测试可能的PTSD病例定义。本研究根据参考标准评估了4种PTSD病例定义的表现,以评估当结构化数据字段补充了EMR短诊断短语的NLP时改善的一致性。gydF4y2Ba
本回顾性横断面研究使用了加拿大初级保健哨点监测网络(CPCSSN)提取和处理的EMR数据。在本研究进行时,来自加拿大7个省(不列颠哥伦比亚省、阿尔伯塔省、马尼托巴省、安大略省、魁北克省、新斯科舍省、纽芬兰和拉布拉多省)257家诊所的1574名同意的初级保健提供者(即家庭医生、执业护士和社区儿科医生)代表1,493,516名患者[gydF4y2Ba
CPCSSN存储库是一个泛加拿大数据集,每半年从区域实践研究网络更新一次。存储库中的数据包括来自加拿大各地使用11种不同EMR系统的初级保健提供者的未识别EMR数据。提取的EMR数据经过清洗和标准化,以将处方药映射到解剖治疗化学分类代码,将实验室检测映射到逻辑观察标识符名称和代码,将医学诊断映射到国际疾病分类,第九版,临床修改(ICD-9-CM)代码。CPCSSN存储库还包含与诊断、用药说明、过敏以及社会和行为风险因素相关的短诊断文本字段形式的非结构化数据。此外,一些区域网络,如曼尼托巴初级保健研究网络(MaPCReN),也提取自由文本的遭遇记录,通过去识别算法来匿名化数据。遭遇记录是由初级保健提供者创建的叙述性条目,通常采用面向问题的医疗记录格式[gydF4y2Ba
MaPCReN数据库包括289,523名患者,其中154,118名(52.23%)患者被认为是活跃患者,因为他们在过去两年内(2017年1月1日至2019年12月31日)见过初级保健提供者参与MaPCReN [gydF4y2Ba
为了创建用于病历审查的子集,我们在EMR健康状况表中确定了21713名患有以下ICD-9-CM代码中的一种以上的患者,EMR起始值为300(焦虑)、308(应激急性反应)、309(调节反应)或311(抑郁)。共有373例患者由2名学生回顾了完整的记录。2名医科学生对这21713名患者中的15127名(69.67%)完成了无自由文本的病历审查,以创建积极的参考集。为了确定没有PTSD的患者(阴性参考集),2名医科学生随机选择患者进行复查。在阴性参考集中,264/2025例(13.0%)患者进行了完整的病历回顾(包括免费文本),1761/2025例(87.0%)患者的病历回顾没有免费文本的病历记录。患者在数据提取表中被标记为“PTSD”、“可能PTSD”或“无PTSD”(gydF4y2Ba
在马尼托巴省初级保健研究网络中创建创伤后应激障碍参考标准的流程图。gydF4y2Ba
从CPCSSN存储库中提取了患者记录的一个子集,用于医疗记录审查,以创建一个泛加拿大创伤后应激障碍参考集。CPCSSN存储库包含1,493,516名患者的EMR数据,其中689,301名(46.15%)被认为是活跃的,因为他们在过去两年内有预约[gydF4y2Ba
加拿大初级保健哨点监测网络中创伤后应激障碍参考标准的创建流程图。gydF4y2Ba
包括临床医生和研究人员在内的研究小组通过共识讨论和证据审查,制定了PTSD的四个病例定义。病例定义包括ICD-9-CM和来自CPCSSN健康状况、账单、遭遇诊断和用药表的解剖治疗化学代码(gydF4y2Ba
创伤后应激障碍(PTSD)测试案例定义。gydF4y2Ba
案例定义1gydF4y2Ba | 案例定义2gydF4y2Ba | 案例定义3gydF4y2Ba | 案例定义4gydF4y2Ba |
健康状况≥1项,账单或遇到ICD-9-CM诊断gydF4y2Ba一个gydF4y2Ba309.81gydF4y2Ba | ICD-9-CM 309.81健康状况≥1例或ICD-9-CM 309.81账单≥2例,遭遇ICD-9-CM 309.81诊断间隔至少1周gydF4y2Ba | ICD-9-CM 309.81≥1例健康状况或≥1例账单,遇到ICD-9-CM 309.81诊断和PTSD药物治疗(ATCgydF4y2BabgydF4y2Ba代码以N05或N06开头)或≥2个账单,遇到ICD-9-CM 309.81的诊断间隔至少1周gydF4y2Ba | ≥1个健康状况,开具账单,或遇到ICD-9-CM 309.81诊断或≥1个健康状况,开具账单,或遇到ICD-9-CM诊断,开头为290-316,且提供者将PTSD记录为诊断名称(gydF4y2Ba |
一个gydF4y2BaICD-9-CM:国际疾病分类,第九版,临床修订。gydF4y2Ba
bgydF4y2BaATC:解剖治疗化学。gydF4y2Ba
初级保健EMR数据收集用于临床目的,因此通常包括特定领域的语言和首字母缩写以及拼写和排版错误。为了准备用于验证的数据(例如,在案例定义4中捕获),我们删除了停止词、删除了特殊字符,并调整了EMR短诊断文本字段中的大写。简短的诊断文本字段记录了诊断名称和遇到的原因。在病历审查期间,医学生审核员记录了PTSD首字母缩写和拼写错误,这些错误后来在应用病例定义之前被转换为“PTSD”(gydF4y2Ba
我们使用2x2列联表和以下指标:敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)和总体准确性,比较了EMR自由文本遭遇记录和EMR简短诊断文本字段的一致性。此外,我们评估了PTSD病例定义与3个参考集(MaPCReN自由文本、MaPCReN简短诊断文本和CPCSSN)在敏感性、特异性、PPV、NPV和总体准确性方面的一致性。这些指标的方程如下:gydF4y2Ba
使用PTSD病例定义,使用精确的二项检验计算患病率和95%置信限,以估计泛加拿大数据集中的PTSD患病率。使用SAS V9.4 (SAS Institute)进行统计分析。gydF4y2Ba
这项研究获得了马尼托巴大学卫生研究伦理委员会的伦理批准,批准号为HS21053(2017:257)。gydF4y2Ba
2017年1月1日至2019年12月31日期间,MaPCReN中有154,118名患者与参与的提供商进行了预约。MaPCReN参考集1中有330例患者(自由文本数据),MaPCReN参考集2中有3212例患者(短诊断文本)。两组参比均纳入327例患者。自由文本和短诊断文本参考集之间有很强的一致性,总体准确性为93.6% (CI 90.4%-96.0%)。有20名患者在自由文本EMR数据中记录了持续的PTSD症状(不是明确的PTSD诊断),这些患者没有通过检查简短的诊断文本字段来确定。尽管如此,两个参考集之间有很强的一致性,敏感性为82.5% (CI 74.2%-88.9%),特异性为99.5% (CI 97.4%-100%;gydF4y2Ba
用例定义1和4在两个MaPCReN参考集(gydF4y2Ba
马尼托巴省初级保健研究网络(MaPCReN)参考集1(有遭遇记录)和MaPCReN参考集2(只有简短的诊断文本字段)之间的协议;N = 327)。gydF4y2Ba
性能指标gydF4y2Ba一个gydF4y2Ba | 值(95%置信区间)gydF4y2Ba |
精度gydF4y2Ba | 93.6 (90.4 - -96.0)gydF4y2Ba |
灵敏度gydF4y2Ba | 82.5 (74.2 - -88.9)gydF4y2Ba |
特异性gydF4y2Ba | 99.5 (97.4 -100)gydF4y2Ba |
阳性预测值gydF4y2Ba | 99.0 (93.0 - -99.9)gydF4y2Ba |
负预测值gydF4y2Ba | 91.4 (87.7 - -94.0)gydF4y2Ba |
一个gydF4y2Ba在2x2列联表中,单元格出现<5需要抑制数字。gydF4y2Ba
使用创伤后应激障碍病例定义和曼尼托巴初级保健研究网络(MaPCReN)参考集捕获的患者之间的协议。gydF4y2Ba
病例定义gydF4y2Ba | 一个gydF4y2BaTP (n)gydF4y2Ba | bgydF4y2BaTN (n)gydF4y2Ba | cgydF4y2BaFN (n)gydF4y2Ba | dgydF4y2BaFP (n)gydF4y2Ba | egydF4y2BaSe (%, ci)gydF4y2Ba | fgydF4y2BaSp (%, ci)gydF4y2Ba | ggydF4y2BaPPV (%, ci)gydF4y2Ba | hgydF4y2Ba净现值(%,ci)gydF4y2Ba | 准确度(%,CI)gydF4y2Ba | ||
|
|||||||||||
|
案例定义1gydF4y2Ba | 95gydF4y2Ba | 214gydF4y2Ba |
|
< 5gydF4y2Ba | 82.6 (74.4 - -89.0)gydF4y2Ba | 99.5 (97.4 -100)gydF4y2Ba | 99.0 (93.1 - -99.9)gydF4y2Ba | 91.5 (87.8 - -94.1)gydF4y2Ba | 93.6 (90.4 - -96.0)gydF4y2Ba | |
|
案例定义2gydF4y2Ba | 66gydF4y2Ba | 214gydF4y2Ba |
|
< 5gydF4y2Ba | 57.4 (47.8 - -66.6)gydF4y2Ba | 99.5 (97.4 -100)gydF4y2Ba | 98.5 (90.3 - -99.8)gydF4y2Ba | 81.4 (77.9 - -84.4)gydF4y2Ba | 84.9 (80.5 - -88.5)gydF4y2Ba | |
|
案例定义3gydF4y2Ba | 91gydF4y2Ba | 214gydF4y2Ba |
|
< 5gydF4y2Ba | 79.1 (70.6 - -86.2)gydF4y2Ba | 99.5 (97.4 -100)gydF4y2Ba | 98.9 (92.8 - -99.9)gydF4y2Ba | 89.9 (86.2 - -92.7)gydF4y2Ba | 92.4 (89.0 - -95.0)gydF4y2Ba | |
|
案例定义4gydF4y2Ba | 95gydF4y2Ba | 214gydF4y2Ba |
|
< 5gydF4y2Ba | 82.6 (74.4 - -89.0)gydF4y2Ba | 99.5 (97.4 -100)gydF4y2Ba | 99.0 (93.1 - -99.9)gydF4y2Ba | 91.5 (87.8 - -94.1)gydF4y2Ba | 93.6 (90.4 - -96.0)gydF4y2Ba | |
|
|
||||||||||
|
案例定义1gydF4y2Ba | 1566gydF4y2Ba | 1620gydF4y2Ba | 0gydF4y2Ba | 26gydF4y2Ba | 100 (99.8 -100)gydF4y2Ba | 98.4 (97.7 - -99.0)gydF4y2Ba | 98.4 (97.6 - -98.9)gydF4y2Ba | One hundred.gydF4y2Ba | 99.2 (98.8 - -99.5)gydF4y2Ba | |
|
案例定义2gydF4y2Ba | 1135gydF4y2Ba | 1640gydF4y2Ba | 431gydF4y2Ba | 6gydF4y2Ba | 72.5 (70.2 - -74.7)gydF4y2Ba | 99.6 (99.2 - -99.9)gydF4y2Ba | 99 . .(98.8 - -99.8)gydF4y2Ba | 79.2 (77.8 - -80.5)gydF4y2Ba | 86.4 (85.2 - -87.6)gydF4y2Ba | |
|
案例定义3gydF4y2Ba | 1469gydF4y2Ba | 1620gydF4y2Ba | 97gydF4y2Ba | 26gydF4y2Ba | 93.8 (92.5 - -95.0)gydF4y2Ba | 98.4 (97.7 - -99.0)gydF4y2Ba | 98.3 (97.5 - -98.8)gydF4y2Ba | 94.4 (93.2 - -95.3)gydF4y2Ba | 96.2 (95.5 - -96.8)gydF4y2Ba | |
|
案例定义4gydF4y2Ba | 1566gydF4y2Ba | 1620gydF4y2Ba | 0gydF4y2Ba | 26gydF4y2Ba | 100 (99.8 -100)gydF4y2Ba | 98.4 (97.7 - -99.0)gydF4y2Ba | 98.4 (97.6 - -98.9)gydF4y2Ba | One hundred.gydF4y2Ba | 99.2 (98.8 - -99.5)gydF4y2Ba |
一个gydF4y2BaTP:真正。gydF4y2Ba
bgydF4y2BaTN:真否定。gydF4y2Ba
cgydF4y2BaFN:假阴性。gydF4y2Ba
dgydF4y2BaFP:假阳性。gydF4y2Ba
egydF4y2BaSE:敏感性。gydF4y2Ba
fgydF4y2BaSP:特异性。gydF4y2Ba
ggydF4y2BaPPV:阳性预测值。gydF4y2Ba
hgydF4y2BaNPV:负预测值。gydF4y2Ba
在CPCSSN数据集中,病例定义4与我们的参考集的一致性最强,敏感性为91.1% (CI 90.1% ~ 91.9%),特异性为99.1% (CI 98.9% ~ 99.3%), PPV为98.1% (CI 97.6% ~ 98.5%), NPV为95.7% (CI 95.3% ~ 96.1%),准确性为96.4% (CI 96.1% ~ 96.8%)。相比之下,病例定义1的敏感性为72.3% (CI为70.9% ~ 73.7%),特异性为99.1% (CI为98.9% ~ 99.3%),PPV为97.6% (CI为97.0% ~ 98.1%),NPV为87.8% (CI为87.2% ~ 88.3%),准确性为90.2% (CI为89.7% ~ 90.7%)。包括多种计费代码(病例定义2)或可用于治疗PTSD的药物(病例定义3)并没有提高病例定义的一致性(gydF4y2Ba
当我们将每个定义应用于CPCSSN的活动患者数据集时,PTSD患病率估计范围为0.8% (CI 0.77%-0.81%;n=5565),病例定义2 ~ 1.3% (CI 1.25%-1.31%;N =8913),情况定义为4。病例定义1需要至少一个特定的ICD-9-CM代码309.81,患病率为1.1% (CI 1.08%-1.13%;n = 7718)。gydF4y2Ba
加拿大初级保健哨点监测网络中的创伤后应激障碍病例定义与参考数据集(N=12,104)之间的一致性。gydF4y2Ba
病例定义gydF4y2Ba | TPgydF4y2Ba一个gydF4y2Ba(n)gydF4y2Ba | TNgydF4y2BabgydF4y2Ba(n)gydF4y2Ba | FNgydF4y2BacgydF4y2Ba(n)gydF4y2Ba | 《外交政策》gydF4y2BadgydF4y2Ba(n)gydF4y2Ba | SEgydF4y2BaegydF4y2BaCI (%)gydF4y2Ba | SPgydF4y2BafgydF4y2BaCI (%)gydF4y2Ba | PPVgydF4y2BaggydF4y2BaCI (%)gydF4y2Ba | 净现值gydF4y2BahgydF4y2BaCI (%)gydF4y2Ba | 准确度(%,CI)gydF4y2Ba |
1gydF4y2Ba | 2917gydF4y2Ba | 8000gydF4y2Ba | 1116gydF4y2Ba | 71gydF4y2Ba | 72.3 (70.9 - -73.7)gydF4y2Ba | 99.1 (98.9 - -99.3)gydF4y2Ba | 97.6 (97.0 - -98.1)gydF4y2Ba | 87.8 (87.2 - -88.3)gydF4y2Ba | 90.2 (89.7 - -90.7)gydF4y2Ba |
2gydF4y2Ba | 2502gydF4y2Ba | 8045gydF4y2Ba | 1531gydF4y2Ba | 26gydF4y2Ba | 62.0 (60.5 - -63.5)gydF4y2Ba | 99.7 (99.5 - -99.8)gydF4y2Ba | 99.0 (98.5 - -99.3)gydF4y2Ba | 84.0 (83.5 - -84.5)gydF4y2Ba | 87.1 (86.5 - -87.7)gydF4y2Ba |
3.gydF4y2Ba | 2917gydF4y2Ba | 8004gydF4y2Ba | 1116gydF4y2Ba | 67gydF4y2Ba | 72.3 (70.9 - -73.7)gydF4y2Ba | 99.2 (99.0 - -99.4)gydF4y2Ba | 97.8 (97.2 - -98.2)gydF4y2Ba | 87.8 (87.2 - -88.3)gydF4y2Ba | 90.2 (89.7 - -90.8)gydF4y2Ba |
4gydF4y2Ba | 3672gydF4y2Ba | 8000gydF4y2Ba | 361gydF4y2Ba | 71gydF4y2Ba | 91.1 (90.1 - -91.9)gydF4y2Ba | 99.1 (98.9 - -99.3)gydF4y2Ba | 98.1 (97.6 - -98.5)gydF4y2Ba | 95.7 (95.3 - -96.1)gydF4y2Ba | 96.4 (96.1 - -96.8)gydF4y2Ba |
一个gydF4y2BaTP:真正。gydF4y2Ba
bgydF4y2BaTN:真否定。gydF4y2Ba
cgydF4y2BaFN:假阴性。gydF4y2Ba
dgydF4y2BaFP:假阳性。gydF4y2Ba
egydF4y2BaSE:敏感性。gydF4y2Ba
fgydF4y2BaSP:特异性。gydF4y2Ba
ggydF4y2BaPPV:阳性预测值。gydF4y2Ba
hgydF4y2BaNPV:负预测值。gydF4y2Ba
我们发现,与EMR简短诊断文本字段相比,通过回顾EMR自由文本遭遇记录创建的参考标准具有很强的一致性。与其他研究类似,我们还发现,在可用的情况下,自由文本的会诊记录可以捕获关于患者的额外信息,以识别疾病、症状和管理策略[gydF4y2Ba
创伤后应激障碍的患病率估计在0.8%到1.3%之间。病例定义1,侧重于PTSD的特定ICD-9-CM代码(309.81),发现患病率为1.1%,但如果没有5位账单代码(即ICD-9-CM),则可能不可行。在Manitoba数据集中,单独的诊断代码和NLP补充的诊断代码与参考集的一致性都很高。在医疗记录审查期间纳入自由文本的遭遇记录并没有显著改变协议指标。与类似的研究相反,我们没有发现纳入NLP改善了我们在马尼托巴省的案例定义的一致性[gydF4y2Ba
与其他关于复杂表型的文献一致,我们发现对诊断代码的依赖在准确性上可能因管辖区而异[gydF4y2Ba
在自由文本病历回顾后,在我们有意选择的参考标准中,6.1%(20/327)的患者被确定为“可能患有创伤后应激障碍”。这些患者在EMR的文本或结构化数据字段中没有明确的PTSD诊断。将患者定性为“可能的创伤后应激障碍”可以确定需要进一步临床调查的患者,以提供诊断信息。确定“可能患有创伤后应激障碍”的患者可以通过为诊断调查提供信息,以及促进精神卫生症状、治疗方法和症状改善的记录,从而支持对患者的护理[gydF4y2Ba
根据研究目标和数据集的不同,研究人员可以选择使用编码数据和自由文本数据的不同组合,前者更容易获得,在许多司法管辖区普遍使用[gydF4y2Ba
这项研究依赖于EMR中的初级保健提供者文件。初级保健提供者输入的临床记录的NLP评估需要处理提供者在有限时间内输入的临床叙述,因此可能包括特定领域的缩写和拼写或编辑错误[gydF4y2Ba
在医疗记录审查期间纳入自由文本的遭遇记录并没有显著改善PTSD病例的捕获,也没有导致病例定义协议的显著改善。然而,与单独使用结构化数据字段的病例定义相比,将短诊断文本字段的NLP合并到复杂病症(如PTSD)的病例定义中,改善了对病例定义的捕获。根据所使用的司法管辖区和EMR系统,特定的诊断代码仍然可以很好地估计人群中的PTSD患者。gydF4y2Ba
需要进一步的研究来改进NLP算法,以便能够从缺乏正式编码诊断条目的自由文本遭遇笔记中检测PTSD。在这个庞大的初级保健数据集中,创伤后应激障碍影响了0.8%至1.3%的人口,这表明初级保健EMR数据是这一复杂疾病的丰富数据来源。gydF4y2Ba
数据提取表单。gydF4y2Ba
创伤后应激障碍的术语。gydF4y2Ba
加拿大初级保健哨兵监测网络gydF4y2Ba
电子病历gydF4y2Ba
《国际疾病分类》第九版,临床修订gydF4y2Ba
马尼托巴初级保健研究网络gydF4y2Ba
自然语言处理gydF4y2Ba
负预测值gydF4y2Ba
阳性预测值gydF4y2Ba
创伤后应激障碍gydF4y2Ba
我们要感谢以下所有的病历审查员:Alyzia horffall、Amy Lam、Anna Liu、Courtney Bell、Daniel Shenoda、Dhasni Muthurmuni、Gabriel Furman、Hannah Stirton、John Bahng Seokjae、Joseph Asamineq、Katrina Leong、Mary Pambid、Peter Trokajilo、Shivani Mathur、Suman Lakhi和Sydnee Tuckett。我们也感谢威廉·皮勒在数据获取方面的协助。gydF4y2Ba
没有宣布。gydF4y2Ba