JMIR公共卫生和监测-在美国识别与疫苗管理(SIRVA)相关的肩部损伤病例:自然语言处理方法的开发和验证

原始论文

¹Kaiser Permanente南加州研究与评估部，帕萨迪纳，加州，美国

²美国佐治亚州亚特兰大疾病控制和预防中心免疫安全办公室

^3.Kaiser Permanente南湾医疗中心，美国加州海港城

通讯作者:

郑承毅，硕士，博士

研究与评价系

南加州凯撒医疗机构

洛斯罗伯斯大街100号

2号楼

加利福尼亚州帕萨迪纳市，电话:91101

美国

电话:1 626 986 8665

电子邮件:chengyi.x.zheng@kp.org

背景:与疫苗接种相关的肩部损伤(SIRVA)占国家疫苗损伤赔偿计划收到的所有索赔的一半以上。然而，由于难以在大型卫生保健数据库中找到SIRVA病例，基于人群的研究很少。

摘要目的:这项研究的目标是开发一种自然语言处理(NLP)方法来从临床记录中识别SIRVA病例。

方法:我们在一家大型综合卫生保健组织的成员中进行了这项研究，这些成员在2016年4月1日至2017年12月31日期间接种了疫苗，随后的诊断代码表明肩部损伤。基于164例病例的训练数据集，我们开发了一种NLP算法来提取肩部疾病信息，包括先前接种疫苗、解剖位置、时间性和因果关系。该算法根据证据的强度确定了3组阳性SIRVA病例(确定的，可能的和可能的)。我们将NLP结果与100例疫苗接种病例的图表回顾参考标准进行了比较。然后，我们将最终的自动NLP算法应用于更广泛的具有肩部损伤诊断代码的疫苗接种人群，并对NLP识别的确定病例和所有NLP识别的可能和可能病例的随机样本进行手动图表确认。

结果:在验证样本中，NLP算法识别4例SIRVA病例和96例无SIRVA病例的准确率为100%。在更广泛的53585个疫苗接种队列中，NLP算法确定了291个确定的、124个可能的和52个可能的SIRVA病例。这些组的确诊率分别为95.5%(278/291)、67.7%(84/124)和17.3%(9/52)。

结论:该算法在识别阳性SIRVA病例时具有较高的灵敏度和合理的特异性。NLP算法可以潜在地用于未来基于人群的研究，以识别这种罕见的不良事件，避免劳动密集型的图表审查验证。

JMIR公共卫生监测2022;8(5):e30426

doi: 10.2196/30426

关键字

健康；信息学；与接种疫苗有关的肩部损伤； SIRVA；自然语言处理； NLP；因果关系；时间上的关系；药物警戒；电子健康记录；电子健康档案；疫苗安全；人工智能；大数据；人口健康；真实的数据；疫苗

2017年，国家疫苗损伤赔偿计划(VICP)正式将与疫苗注射相关的肩部损伤(SIRVA)纳入疫苗损伤表[1-3.］．VICP将SIRVA定义为在注射上臂肌肉注射疫苗后发生的肩部疼痛和活动范围有限。SIRVA是由肩部肌肉骨骼结构(如肌腱、韧带、滑囊)损伤引起的。2019年，与SIRVA相关的索赔数量上升至VICP收到的所有索赔的55%，这导致了超过2亿美元的赔偿[4］．与此同时，关于接种疫苗或疫苗是否会导致肩部问题的争论也越来越多[5-7］．

由于缺乏基于人群的研究的高质量证据，这场辩论更加激烈。1，8-11］．大多数SIRVA出版物仅限于病例报告[12］．根据疫苗不良事件报告系统(VAERS)的报告，最近的一项研究调查了接种流感疫苗后出现肩部问题的病例[13］．虽然VAERS数据依赖于自发报告，可用于安全信号检测，但综合电子病历(EMR)数据来自综合医疗保健机构，更适合计算发病率、评估风险因素或进行因果推断。最近一项基于人群的研究使用EMR数据只检查了一种类型的肩部疾病(三角下滑囊炎)和一种类型的疫苗(流感疫苗)[14］．

虽然EMR数据为研究提供了前所未有的机会，但许多EMR数据以自由文本的形式存储。研究人员经常使用医疗记录的手动图表审查来获取EMR系统中结构化数据无法获得的信息。由于SIRVA没有明确的诊断代码，因此必须通过查看自由文本的临床文件来进行SIRVA病例的识别和确定。人工审查既费时又费钱;SIRVA放大了这一挑战。由于SIRVA很少发生，但肩部问题是最常见的肌肉骨骼疾病之一，检测SIRVA病例需要对大量医疗记录进行图表审查[11，14］．与人工病历图表审查相比，自然语言处理(NLP)效率更高，产生的结果更一致[15，16］．对于临床研究而言，NLP有助于识别和提取结构化数据中不可用或不完整的信息[17-19］．在疫苗安全性研究中，我们使用NLP确定了2种与疫苗相关的不良事件，即过敏反应和局部反应[20.，21］．因此，NLP有可能使用EMR数据进行基于人群的SIRVA研究。

我们的目标是使用NLP算法开发一种有效的SIRVA病例查找策略。我们的目标是创建和评估病例识别所需的NLP组件，如解剖位置、时间性和因果关系。此外，我们试图在大规模、多样化的接种人群中验证SIRVA算法。

设置

这项研究是在南加州凯撒医疗机构(KPSC)进行的，KPSC是一个综合医疗保健系统，为470多万种族、民族和社会经济多样化的成员提供预付的综合医疗保健[22］．KPSC的EMR系统存储有关社会人口统计、使用、诊断、实验室测试、药房使用、会员历史和疫苗接种的医疗信息。本研究采用EMR的结构化数据和自由文本临床记录。

假定肩部损伤的接种人群

研究对象为KPSC成员，年龄在3岁或以上，他们在2016年4月1日至2017年12月31日期间在KPSC设施内至少接种了1次肌肉注射疫苗(图1)．每个疫苗接种由成员的唯一标识符、疫苗接种日期(索引日期:即第0天)和疫苗接种的偏侧性指定。会员资格要求在索引日期前后180天内。

在上述接种疫苗的人群中，我们确定了假定肩部损伤的成员使用国际疾病分类，第十次修订，临床修订(ICD-10-CM)编码(多媒体附件1)在索引日期起计180天内;肩部损伤代码的偏侧性必须与接种疫苗的偏侧性相匹配。如果成员在索引日期前180天内有过与肩部相关的访问或有过肩部损伤代码，则排除了疫苗接种。

在第0天，成员可以因既往存在的肩部疾病进行临床访问，随后接受疫苗接种。为了排除这些第0天的既存状况，我们要求在第0天至少有2次接触，其中至少1次接触必须是紧急护理、急诊科或虚拟访问(电子邮件、电话或视频接触)。我们将第0天的相遇按时间戳排序。如果第0天的第一次接触有肩伤症状或发生在接种疫苗之前，则排除第0天的接触。为了排除疫苗相关的局部反应(疫苗接种后不久发生的最常见不良事件之一)，还需要在疫苗接种后第31天至180天出现肩部损伤代码。

图1。流程图显示假设肩部损伤的符合条件的疫苗选择，自然语言处理算法的应用，与接种疫苗相关的肩部损伤(SIRVA)病例确认结果(指标日期为接种日期)。ICD:国际疾病分类，第十次修订，临床修订;NLP:自然语言处理。

SIRVA案例定义

VICP的SIRVA案例定义是为法医学目的而创建的[3.］．为了满足这一病例定义，疫苗接受者必须表现出以下所有症状:(1)疼痛和活动范围缩小仅限于注射肌肉注射疫苗的肩部，(2)疼痛在接种疫苗后48小时内发生，(3)接种疫苗前受感染的肩部无疼痛、炎症或功能障碍史，可解释所述疾病，(4)无其他可解释患者症状的疾病或异常，以及(5)接种疫苗后症状必须持续6个月以上[23］．

根据VICP SIRVA案例定义和其他出版物[1，8，13，14，24]，我们创建了一个适用于使用EMR数据的基于人群的研究的SIRVA病例定义。一个有效的SIRVA病例需要满足5个标准:(1)发生肩部损伤，并由体征和症状(即疼痛、活动范围有限、虚弱和僵硬)和临床诊断确认;(2)肩部损伤发生在注射疫苗的同一手臂;(3)接种疫苗后7天内开始发生肩部损伤，(4)接种疫苗可能是导致肩部损伤的原因之一，且无其他已知原因与肩部损伤相关，(5)接种疫苗后肩部损伤持续时间超过30天。

用于NLP算法训练与验证的子种群

为了增加在用于训练和验证NLP算法的数据集中包含真实SIRVA案例的可能性，我们对假定案例应用了额外的标准来定义一个亚群体(n=517;图2):(1)排除接种疫苗前180天内和接种疫苗后180天内有外伤性肩关节损伤(如事故)代码的病例，(2)排除接种疫苗第0天有肩关节损伤代码的病例，(3)第1天至30天有肩关节损伤代码的要求，以及(4)第31天至180天内至少有2个不同日期有肩关节损伤代码的要求。该标准基于先前研究中经图表确认的SIRVA病例的特征[14］．

图2。创建用于训练和验证数据采样的数据集的流程图(A组:与疫苗注射相关的肩部损伤[SIRVA]文献中报告的肩部疾病诊断;B组:SIRVA文献中未报道的肩部疾病诊断;C组:肩部症状代码;D组:肩部损伤代码[ICD-10-CM第19章:损伤、中毒和某些外因的其他后果])。NLP:自然语言处理;ICD-10:国际疾病分类，第十次修订，临床修订。

训练数据集

从上述亚研究人群中，我们选择了一个随机样本进行图表回顾。NLP算法是基于训练数据的增量发布而构建和改进的[21］．与机器学习方法相比，模型根据训练数据自动更新其参数，我们根据训练数据手动创建和更新搜索查询。一旦NLP算法稳定下来并取得了良好的性能，我们就停止了训练过程。最终的训练数据集有164个案例。

验证数据集

从亚研究人群中的剩余病例(n=353)中，我们随机选择另外100例形成验证数据集。用图表回顾结果来评价最终的NLP算法的性能。

手册海图检讨

我们基于SIRVA案例定义创建了一个图表评审表单。图表摘要员审阅病历，并在摘要表格(多媒体附件2)使用REDCap(研究电子数据采集)系统[25］．抽检形式来源于先前对接种疫苗后三角肌下滑囊炎的研究，但已扩展到包括其他肩部疾病的诊断[14］．图表的抽象和裁定过程与过去疫苗安全性研究中使用的类似[14，21］．接种疫苗后180天的确定期用于NLP和图表提取，使成员有足够的时间寻求医疗护理[14］．第二个人检查每个完成的抽象表单的质量。一名KPSC医生根据SIRVA病例定义对图表评审员难以做出最终评估的病例进行了潜在病例的判定。

NLP术语开发

NLP术语来源于各种数据源，包括研究参与者的临床记录，VAERS报告[26]、本体(例如，统一医学语言系统[27])、语义词汇(如WordNet [28])，以及其他网上资源。我们使用各种工具扩展了派生的术语。我们使用了Linguamatics I2E [29]通过I2E的同义词发现功能识别术语变体，包括拼写错误、形态变体和同义词。我们使用词嵌入方法(fastText [30.]和手套[31])，以查找相关的词语，而不必局限于同义词。例如，NLTK和fastText(来自Gensim包[32])训练子词嵌入模型。因为我们的主要兴趣是识别罕见术语来丰富我们的术语，所以我们在fastText中训练了skip-gram模型。训练后的模型用于根据上下文识别相似的术语。例如，“伤害”这个词有类似的各种语义含义，包括事故、摔倒、撕裂、过度使用、绊倒和扭伤。

NLP索引

预处理步骤包括部分检测、句子分离和标记化(即将文本分割为单词和标点符号等语言单位)。对于每个标记，索引过程为匹配的概念和一般语言实体(例如，词汇块，如名词或动词短语)添加注释。其他注释捕捉了诸如通配符、子字符串、拼写纠正和形态变化等语言变化。

NLP搜索

我们在这项研究中使用了基于规则的NLP算法[15，21，33，34］．NLP算法用于在不同级别上搜索每个索引注释:部分(例如，“过去的病史”)、内句和交叉句。应用一种基于距离的关系检测算法，根据词语之间的字数或句子数将词语与其他词语联系起来，从而将肩部损伤与疫苗接种部位、时间性或因果关系等信息联系起来(图3)．关系检测算法还允许将术语指定为有序或嵌套的(例如，内部关系是外部关系的元素)。我们使用类似于pyConText/NegEx [35识别否定的、不确定的和假设性的陈述。关系搜索确定了与肩部损伤相关的3种类型的信息:解剖、时间和因果。

图3。跨句搜索查询示例。该查询在4个句子(图中为4s)的范围内进行搜索，查询项之间的单词数不超过50个(图中≤50w)。在最外层的关系搜索中有2个嵌套的关系查询。第一个查询搜索肩部条件，第二个查询搜索因果关系语句。由于空间限制，我们从图中删除了其他上下文查询项。w:一周;s:句子。

解剖位置关系算法提取出肩部损伤的身体位置和侧边性。例如，在“病人左臂持续疼痛”这句话中，“左”和“手臂”分别被识别为肩部损伤的侧面和身体位置。

时间关系算法使用语言术语，如介词，来提取时间关系，如与疫苗接种事件相关的发病日期和持续时间(例如，“2个月”，“过去2周”，“自上周四”)。根据笔记的创建日期推断出不完整的时间信息。例如，临床病历中缺少年份信息的日期被假定发生在病历创建日期附近。有关由NLP算法提取的时态表达式类型的其他详细信息，请参阅多媒体．

因果关系算法搜索肩部损伤的可能原因，并将其分为7种类型(表1)．原因和肩部损伤之间的因果关系的确定是基于70多个触发术语(多媒体附件4)．除接种疫苗外，引起肩部损伤的术语列于多媒体．此外，对于每个关系搜索，我们还提取了疫苗名称，如果可用，因为多种疫苗可以同时或在随访期间接种。

表1。与肩部损伤相关的原因类型。

订单	原因类型	描述
1	疫苗接种	特定疫苗名称或通用疫苗术语
2	事故	事故如车祸、摔倒、撞到
3.	工作	工伤
4	其他健康状况	可能导致肩部损伤的疾病，如关节炎或胸痛放射到肩部
5	锻炼	运动或运动相关的损伤
6	日常活动	受伤发生在其他日常活动中，如搬杂货、过度使用或侧卧
7	未知的	隐伏的或未知的原因

NLP案例分类

最后的分类基于“SIRVA病例定义”一节中描述的病例定义，综合了疫苗、解剖位置、时间性和因果关系信息。由于我们的算法强调敏感性，我们捕获了NLP识别的其他可能和可能的病例，这些病例的证据较弱，由以下3个标准定义。首先，疫苗接种原因仅通过跨句因果关系搜索确定。例如，肩伤和疫苗接种在不同的句子中被描述:“患者要求预约左臂疼痛评估。各州经历疼痛× 1个月s/p流感疫苗"其次，疫苗接种被确定为接种后30天或更短时间内肩部损伤的原因。由于当访问日期距离发病日期较远时，不太可能记录因果关系，因此疫苗接种只能在疫苗接种后30天内确定为肩部损伤的原因，但不能超过疫苗接种后30天。第三，临床记录中记录的与肩部损伤相关的疫苗与疫苗接种档案中记录的疫苗不匹配。符合SIRVA病例定义的阳性病例进一步分为3组:如果不符合3项标准，则确定;如果他们只符合三项标准中的一项，就有可能; and possible if they met 2 or more of the 3 criteria.

NLP算法性能

与验证数据集中的图表回顾参考标准相比，我们评估了NLP算法识别SIRVA病例的准确性。我们计算了敏感性、特异性、阳性预测值和阴性预测值及其95%置信区间。由于NLP算法可能准确地确定一个病例不是SIRVA，但基于对SIRVA病例定义的某个个别成分的不正确评估，我们还对病例进行了错误分析，其中NLP算法和病例定义的个别成分的图表审查之间存在差异。

NLP算法在人口与图表确定研究中的应用

最终的NLP算法应用于更广泛的研究人群，即接种疫苗的假定肩部损伤患者(基于代码)，以确定潜在的SIRVA病例。我们对所有nlp识别的病例进行了手动图表确认，并计算了图表确认率及其95%置信区间。

我们根据图表回顾结果组装了最后一组SIRVA病例。在这些SIRVA病例中，我们计算了接种疫苗和首次访问肩部疾病之间的时间。我们还检查了这些SIRVA病例的临床记录中与疫苗接种相关的时间和因果关系。

伦理批准

该研究获得了KPSC机构审查委员会(#4982)的批准，该委员会放弃了知情同意的要求，因为这是一项只有数据的最小风险研究。

NLP算法在种群研究中的应用

在3758764例符合条件的疫苗接种中，我们确定了77819例肩伤记录(图1)．其中，有16048人在第0天出现了代码。在应用第0天的包含标准之后，剩余的第0天记录数量为100。NLP算法应用于接种疫苗后的53585例推定肩部损伤病例。

验证结果

NLP算法在从验证数据集中(n=100)识别4个SIRVA案例时实现了完美的准确性(100%)。但阳性病例较少，敏感性和阳性预测值置信区间较宽(39.6%-100.0%)。特异性和阴性预测值的置信区间较窄(95.2% ~ 100.0%)。

NLP算法与图表回顾之间的差异通过组件(表2)．对于偏侧性，差异通常是由于临床记录本身的证据冲突或文件错误。对于时间性，NLP算法在执行跨句搜索时错误地分配了症状发作时间，并基于不正确的侧面性或捕获已解决的肩部损伤而错误地分配了损伤持续时间。

对于因果关系，NLP算法忽略了日常活动和事故等原因，并错误地将原因识别为未知。然而，这些错误与是否与疫苗相关的因果关系分类无关。此外，由于确诊病例必须满足病例定义的所有要素，其中一个要素的不准确可能不会影响SIRVA病例分类的整体准确性。

表2。验证数据集上的错误分析。

临床文本例子和自然语言处理(NLP)错误的原因
损伤发生的误差分析
	1	“她有慢性颈痛，腰痛，腰痛^一个的肩膀。她患有纤维肌痛，几周前还摔倒了，这加剧了她的背部疼痛。” 在执行跨句搜索时，NLP错误地将“几周前”发生的事件(“摔倒”)与肩膀问题联系在一起。
	2	第0天就诊时报告的既往情况:“尽管仍在进行物理治疗并使用非甾体抗炎药生活，但我的左肩疼痛从未消失^b．现在这种情况一直存在，而且更加严重。” 在执行跨句搜索时，NLP错误地将“今天”作为肩痛开始的日期。
损伤持续时间误差分析
	3.	第136天，“过去的疼痛会转移到左肩，导致左臂麻木，并持续几天，但今天否认有任何麻木。” 基于已解决的肩部症状，NLP错误地识别了受伤持续时间。
损伤原因误差分析
	4	“…左臂和肩膀疼痛1天。否认受伤。昨天我举重了。” NLP将原因识别为未知，无法识别可能的原因(日常活动)。
	5	“她一直在用电脑工作。头顶上的动作会加重疼痛。没有受伤或创伤。” NLP将原因识别为未知，无法识别可能的原因(日常活动)。
	6	“…三周前吸尘后开始抱怨左肩疼痛" NLP将原因识别为未知，无法识别可能的原因(日常活动)。
	7	“…糖尿病患者可能有三角肌下滑囊炎和冈上肌腱病^c可能是因为剧烈运动和静脉注射时的疼痛^d把。” NLP将原因识别为未知，未能识别可能的原因(事故)。
	8	“患者报告运动时左肩疼痛;没有创伤。病人多年来一直照顾年幼的孩子，不得不抱着他们，把他们抱起来。” NLP将原因识别为未知，无法识别可能的原因(日常活动)。

^一个提单:双边。

^bNSAIDs:非甾体抗炎药。

^cDM:糖尿病。

^d第四:静脉注射。

nlp识别的潜在SIRVA病例

我们将最终的NLP算法应用于53,585例推定肩部损伤病例的临床记录。其中99.9%(53,530/53,585)在接种疫苗后第0至180天至少有1次临床记录。NLP检索的临床记录总数为4292,610份。平均每个病例的临床记录数为80。索引大小约为50gb。NLP算法在46,086份记录中识别出肩部损伤，其中96.5%与疫苗接种文件相匹配(表3)．NLP算法为55.0%(25325 / 46086)的NLP识别的肩部损伤病例确定了至少1个原因。时间关系搜索确定了98.2% (45252 / 46086)nlp确定的肩部损伤病例的发病日期。在这些nlp鉴定的肩部损伤病例中，约76.2%(35135 / 46086)在接种疫苗后症状持续时间超过30天。NLP算法识别出的潜在SIRVA病例数为467例，分为291例确定病例，124例可能病例和52例可能SIRVA病例。

表3。基础研究人群中通过自然语言处理(NLP)确定的病例数(n=53,585)。

自然语言处理—识别的案例			n		％^一个(n = 53585)		％^b(n = 46086)
确认肩伤			46086年		86		- - - - - -^c
解剖网站
	单侧性确认	44488年		83		96.5
	单侧性不匹配	1220		2．3		2.6
因果关系
	原因确认^d	25325年		47.3		55.0
	原因确认^e	19039年		35.5		41.3
世事
	开始确认	45252年		84.4		98.2
	症状持续时间>接种后30天	35135年		65.6		76.2
SIRVA^f情况下			467		0.9		1

^一个肩关节损伤诊断代码占总病例数的百分比(n=53,585)。

^b在自然语言处理识别的肩部损伤病例中所占的百分比(n=46,086)。

^c不适用。

^d包括临床记录中陈述的未知原因。

^e不包括临床记录中所述的未知原因。

^fSIRVA:与疫苗注射相关的肩部损伤。

图表审查后的最终SIRVA病例

我们对467例nlp鉴定的SIRVA病例进行了图表回顾(表4)．确定组、可能组和可能组的图表确认率分别为95.5% (95% CI为92.5% ~ 97.4%)、67.7% (95% CI为59.1% ~ 75.3%)和18.9% (95% CI为8.7% ~ 30.8%)。最终SIRVA病例数为371例。

在这371例病例中，从接种疫苗到首次和最后一次肩伤就诊的中位数时间分别为43天(IQR 21-79天，范围0-180天)和127天(IQR 77-162，范围31-180天)。93.5%(347/371)的病例在接种疫苗后2天或更短时间出现症状，6.5%(24/371)的病例在接种疫苗后3至7天出现症状。大多数病例(355/371,95.7%)与接种疫苗相关的症状发作有明确的时间陈述。例如，“从接种流感疫苗的那天开始，左肩疼痛”和“接种疫苗后，右肩疼痛和颈部僵硬”。其余病例的症状发作(16/371,4.3%)可以根据临床就诊日期、症状持续时间和因果关系陈述(例如，“报告过去2个月有R肩疼痛。认为这与她在R臂接种的疫苗有关”)。在145例病例中，关于肩部状况和疫苗接种有明确的因果关系(例如，“疫苗接种后的状态-怀疑疫苗接种本身引起的肩袖刺激”)。其中40例提到了不正确的疫苗注射。

表4。自然语言处理识别病例和图表确认病例的数量。

NLP^一个思想者群体			NLP-identified	图确认		确认率(%)
明确的			291	278		95.5
可能的			124	84		67.7
	Cross-sentence因果关系	64		46	71.9
	接种疫苗后≤30天内确定接种原因	41		26	63.4
	疫苗不匹配	19		12	63.2
可能的			52	9		17.3
总计			467	371		79.4

^一个NLP:自然语言处理。

主要研究结果

SIRVA是一种罕见的疫苗接种后的结果，没有特定的诊断代码，通过人工图表复查来确定所有SIRVA病例是不现实的。我们开发并验证了一种NLP算法，以高精度识别潜在的SIRVA病例。此前唯一一项基于人群的SIRVA研究[14]在接种流感疫苗后仅限于肩滑囊炎。在该研究中，从1098例假设病例中随机抽取526例进行图表审查，以确定12例归因于疫苗接种的三角肌下滑囊炎病例。在这项研究中，我们纳入了接种疫苗后诊断为所有类型的肩部疾病的病例。在53,585例假设病例中，NLP算法结合人工图表复查产生了371例SIRVA病例。在本研究的380万次疫苗接种中，SIRVA的发生率约为万分之一[12］．值得注意的是，我们的SIRVA病例定义在症状发作、持续时间和严重程度方面与VICP和其他研究不同。

尽管NLP算法的总体精度很高，但尽管在ICD-10-CM编码中添加了横向信息，但横向成分仍然存在一些挑战。首先，对症状位置的描述可能不准确。例如，手臂可以指从肩关节到肘关节(上臂)或进一步向下到手腕的区域。第二，疫苗档案或临床记录中记录的偏侧性可能是不正确的。在使用解剖和侧位信息进行研究时，必须考虑这些问题。

从NLP算法的时间性组件中，我们得到了一些教训。首先，疫苗接种后180天内可能有多个发病日期的记录。其次，发病日期在较远的过去时，发病信息更容易不完整或不准确，如果临床就诊日期距离接种日期较远，则难以确定发病日期。在本研究中，为了最大限度地提高敏感性，任何发病在预定义的发病窗口内的潜在病例都满足发病标准。

在我们的研究中，因果关系成分在确定疫苗接种相关的因果关系陈述方面工作得相当好。尽管提供者或患者可能声明肩部损伤与疫苗接种有关，但此类声明并不能提供因果关系的明确证据。由于肩部症状可能具有多种促成因素的潜伏性发作，因此很难对因果关系得出明确的结论。为了提高特异性，我们排除了非疫苗接种引起的肩部损伤病例。然而，确定非疫苗接种原因仍然具有挑战性。首先，肩膀受伤的原因有很多。其次，一些原因也可能是对肩膀问题的治疗。例如，锻炼可能是肩部损伤的原因和治疗方案。第三，临床记录中往往没有提及肩部损伤的原因。在这项研究中，NLP算法在大约一半的情况下无法识别原因。 Last, the cause of shoulder injury was often not described in the same sentence as the shoulder symptom. The cross-sentence relationship search increased the sensitivity but decreased specificity. Causal relations have been studied extensively in the NLP field [36]，但只有少数研究关注与健康相关的因果关系，并且是使用Twitter信息进行的[37]和文学[38-40］．一项研究从临床文献中提取因果关系，使用3个因果关键短语(因为、由于和次要)和停药关键短语来检测门诊记录中的药物不良反应，并获得了高特异性(98%)但低敏感性(31%)和阳性预测价值(45%)[41］．

与sirva相关的肩部症状在其他有许多可能原因的急性或慢性疾病中很常见。正确地整合nlp识别的横向性、暂时性和因果性信息并非易事。对于同一个病人，不同的临床经历可以将肩膀损伤归因于不同的原因。在这项研究中，我们通过使用从所有笔记中识别的所有成分的信息进行了患者级别的分类。跨多个音符的信息组合增加了发现SIRVA案例的敏感性，但降低了特异性，因为NLP算法可能会误解从多个音符中提取的不相关信息。

由于我们对NLP算法进行了调整，以强调敏感性，因此在可能组(67.7%)和可能组(17.3%)中确认率较低。然而，由于SIRVA是一种罕见的事件，人工审查所有可能和可能的病例在本研究中是可行的。在未来的研究中，可以在NLP输出的基础上构建机器学习模型，而不是根据证据的强度对NLP输出进行分类[15]以进一步提高准确性并制定阈值。本研究中确定的SIRVA案例也可以作为机器学习算法的训练数据。

限制

这项研究有一些潜在的局限性。由于时间和资源的限制，我们无法将该算法应用于所有符合条件的疫苗接种(n=3,758,764)。我们的研究人群仅限于接种疫苗的病例，并有肩伤的诊断代码。然而，由于我们使用了一个全面的代码列表，因此灵敏度的损失预计是最小的。此外，肩部损伤可能会持续很长时间，并经常伴有反复就诊。本研究中使用的6个月的回顾窗口可能不足以消除先前存在的肩部疾病。未能排除既往肩部疾病可能会降低NLP算法的特异性。在我们的疫苗相关局部反应研究中[20.]，大多数在第0天被诊断为推定感兴趣编码的人在接种疫苗前出现症状。在本研究中，我们排除了大多数在第0天发生肩部损伤的病例。需要进一步研究SIRVA与第0天肩部损伤代码之间的关系。最后，由于我们的方法是针对接种疫苗后的特定结果量身定制的，因此其用于其他结果的泛化性尚不清楚。

结论

我们开发并验证了一种NLP算法，用于在接种疫苗的假定肩部损伤患者中识别潜在的SIRVA病例。该算法具有较高的灵敏度和合理的特异性。NLP算法可以潜在地用于未来基于人群的研究，以识别这种罕见的不良事件，避免劳动密集型的图表审查验证。

致谢

我们要感谢以下人员对数据收集和病历提取的贡献:Anna Lawless、Bernadine Dizon、Claire Park、Jose Pio、Joy Gelfond、Karen Schenk、Kerresa Morrissette、Melena Taylor、Nancy Canul-Jauriga和Radha Bathala。本研究由疾病控制和预防中心(CDC)的疫苗安全数据链根据合同200-2012-53580资助。本报告中的发现和结论仅代表作者的观点，并不代表美国疾病控制与预防中心的官方立场。

作者的贡献

CZ, JD, LSS, CM和SJJ为研究的概念化做出了贡献并获得了资金。CZ、I-LAL、SSK和DSR收集并分析数据。CZ设计并实现了自然语言处理算法。CZ起草了初稿。CZ, JD, LSS, WC, RAN对文章重要的智力内容进行了批判性的修改。所有作者审阅并批准了最终的手稿。

利益冲突

LSS获得了葛兰素史克、Dynavax、Seqirus和Moderna的研究支持，进行了与本文无关的研究。LQ获得了葛兰素史克、Moderna和Dynavax的研究支持，用于与本文无关的研究。所有其他作者报告没有与所提交的作品相关的利益冲突。

‎

多媒体附件1

国际疾病分类，第十版，临床修改代码组确定推定的肩部损伤病例。

DOCX文件，61 KB

‎

多媒体附件2

图表回顾抽象形式。

DOCX文件，1106 KB

‎

多媒体

样本提取的时态表达式。

DOCX文件，21 KB

‎

多媒体附件4

用于确定因果关系的触发短语。

DOCX文件，25kb

‎

多媒体

除接种疫苗外，引起肩部损伤的术语。

DOCX文件，22 KB

杨丽娟，李志强，李志强，等。疫苗接种对肩关节损伤的影响。疫苗2010年11月29日;28(51):8049-8052。［CrossRef] [Medline］
医学研究所。疫苗的不良反应:证据和因果关系。华盛顿:国家科学院出版社;2012.
疫苗损伤表。卫生资源和服务管理局。URL:https://www.hrsa.gov/sites/default/files/vaccinecompensation/vaccineinjurytable.pdf[2020-10-26]访问
国家疫苗伤害赔偿计划数据报告。卫生资源和服务管理局，2020年。URL:https://www.hrsa.gov/sites/default/files/hrsa/vaccine-compensation/data/vicp-stats-05-01-2022.pdf[2020-10-16]访问
美国整形外科学会。立场声明1190。肩袖肌腱病、粘连性囊炎和关节炎不能由接种疫苗引起。2019年6月https://tinyurl.com/2sfs24kw[2021-06-05]访问
国家疫苗伤害赔偿计划:对疫苗伤害表的修订。美国卫生与公众服务部，2020年7月20日。URL:https://www.govinfo.gov/content/pkg/FR-2020-07-20/pdf/2020-15673.pdf[2021-06-06]访问
Gonzalez AI, Kortlever JTP, Moore MG, Ring DC。流感疫苗接种与肩痛就诊次数增加无关。临床矫形相关研究2020年10月;478(10):2343-2348。［CrossRef] [Medline］
Martín Arias LH, Sanz Fadrique R, Sáinz Gil M, Salgueiro-Vazquez ME。接种疫苗后出现滑囊炎和其他损伤及肩部功能障碍的风险。疫苗2017 Sep 05;35(37):4870-4876。［CrossRef] [Medline］
boor M, Montalvo E.疫苗接种相关的肩部功能障碍。疫苗2007年1月8日;25(4):585-587。［CrossRef] [Medline］
白喉-破伤风-脊髓灰质炎联合疫苗所致骨侵蚀和肩峰下滑囊炎的研究。疫苗2015 11月17日;33(46):6152-6155。［CrossRef] [Medline］
Erickson BJ, DiCarlo EF, Brause B, Callahan L, Hannafin J.流感疫苗注射后肱骨近端溶出病变一例报告。JBJS Case Connect 2019;9(3):e0248。［CrossRef] [Medline］
郑超，Duffy J，刘ia, Sy LS，陈伟，钱林，等。接种疫苗后肩部疾病的风险:一项使用真实数据的基于人群的研究。安实习生医学2022年5月;175(5):634-643。［CrossRef] [Medline］
王志强，吴志强，王志强，王志强，等。灭活流感疫苗后的非典型肩痛和功能障碍报告，疫苗不良事件报告系统(VAERS)， 2010-2017。2020年1月29日;38(5):1137-1143。［CrossRef] [Medline］
Hesse EM, Navarro RA, Daley MF, Getahun D, Henninger ML, Jackson LA，等。流感疫苗接种后三角下滑囊炎的风险:一项基于人群的队列研究安实习生医学2020年8月18日;173(4):253-261。［CrossRef] [Medline］
郑晨，拉希德，吴勇，Koblick R，林亚平，Levy GD，等。使用自然语言处理和机器学习从电子临床记录中识别痛风发作。关节炎护理Res(霍博肯)2014年11月24日;66(11):1740-1748 [免费全文] [CrossRef] [Medline］
Nadkarni PM, Ohno-Machado L, Chapman WW。自然语言处理:简介。美国医学信息学会2011年10月;18(5):544-551 [免费全文] [CrossRef] [Medline］
吴志伟，王志伟。电子健康记录数据质量评估的方法和维度:临床研究重用。美国医学通报协会2013年1月1日;20(1):144-151 [免费全文] [CrossRef] [Medline］
许维德，李志强，李志强，等。使用电子健康记录识别患者表型队列的方法综述。美国医学信息学会2014年3月01日;21(2):221-230 [免费全文] [CrossRef] [Medline］
科恩K, Demner-Fushman D.生物医学自然语言处理。阿姆斯特丹:约翰·本杰明出版公司;2014.
于伟，郑超，谢峰，陈伟，Mercado C, Sy LS，等。在疫苗安全数据链中，使用自然语言处理识别五个卫生保健系统的疫苗相关过敏反应。中国药物流行病学杂志2020 Feb;29(2):182-188。［CrossRef] [Medline］
郑超，于伟，谢峰，陈伟，Mercado C, Sy LS，等。在疫苗安全数据链中，使用自然语言处理来识别五个卫生保健系统中与tdap相关的局部反应。Int J Med Inform 2019 7月;127:27-34 [免费全文] [CrossRef] [Medline］
Koebnick C, Langer-Gould A, Gould M, Chao C, Iyer R, Smith N，等。大型综合医疗保健系统成员的社会人口学特征:与美国人口普查局数据的比较。烫发J 2012 Aug 01;16(3):37-41 [免费全文] [CrossRef] [Medline］
卫生资源和服务管理局。关于国家疫苗伤害赔偿计划(VICP)你需要知道什么。2019年4月https://www.hrsa.gov/sites/default/files/hrsa/vaccine-compensation/resources/about-vaccine-injury-compensation-program-booklet.pdf[2021-03-23]访问
赫塞EM, Atanasoff S, Hibbs BF, Adegoke OJ, Ng C, Marquez P，等。与疫苗接种相关的肩部损伤(SIRVA):呈请人向2010-2016年国家疫苗损伤赔偿计划索赔。2020年1月29日;38(5):1076-1083。［CrossRef] [Medline］
哈里斯PA，泰勒R，希尔克R，佩恩J，冈萨雷斯N，康德JG。研究电子数据捕获(REDCap) -提供转化研究信息学支持的元数据驱动方法和工作流过程。J Biomed Inform 2009 Apr;42(2):377-381 [免费全文] [CrossRef] [Medline］
Shimabukuro TT, Nguyen M, Martin D, DeStefano F.疫苗不良事件报告系统(VAERS)的安全性监测。疫苗2015年8月26日;33(36):4398-4405 [免费全文] [CrossRef] [Medline］
Bodenreider O.统一医学语言系统(UMLS):整合生物医学术语。Nucleic Acids Res 2004 Jan 1;32(数据库issue):D267-D270 [免费全文] [CrossRef] [Medline］
米勒GA。WordNet:一个英语词汇数据库。通讯ACM 1995 11月;38(11):39-41。［CrossRef］
Cormack J, Nath C, Milward D, Raja K, Jonnalagadda SR. 2014 i2b2/UTHealth心脏危险因素挑战敏捷文本挖掘。J Biomed Inform 2015 12月;58增刊:S120-S127 [免费全文] [CrossRef] [Medline］
博雅诺夫斯基，格雷夫，朱林，米科洛夫。利用子词信息丰富词向量。交易协会计算凌2017年12月;5:135-146。［CrossRef］
潘宁顿，索彻，马宁。手套:词表示的全局向量。2014年发表于:2014年自然语言处理经验方法会议论文集;2014;多哈p. 1532-1543网址:https://aclanthology.org/D14-1162［CrossRef］
李国强，李国强。大型语料库主题建模软件框架。2010年发表于:LREC 2010年NLP框架新挑战研讨会论文集;2010;瓦莱塔第45-50页。
郑晨，罗勇，梅尔卡多，Sy L, Jacobsen SJ, Ackerson B，等。使用自然语言处理识别带状疱疹眼科病例以支持基于人群的研究。临床经验眼科2019年1月;47(1):7-14。［CrossRef] [Medline］
郑超，孙bc，吴勇，李敏，沈娥，Redberg RF，等。运动跑步机测试结果的自动识别和提取。J Am心脏协会2020年3月03日;9(5):e014940 [免费全文] [CrossRef] [Medline］
查普曼BE, Lee S, Kang HP，查普曼WW。基于ConText算法扩展的CT肺血管造影报告的文档级分类。J Biomed Inform 2011 Oct;44(5):728-737 [免费全文] [CrossRef] [Medline］
Asghar N. arXiv预印arXiv:1605.07895。自然语言文本中因果关系的自动提取:综合综述。2016.URL:https://arxiv.org/abs/1605.07895[2022-05-18]访问
Doan S, Yang EW, Tilak SS, Li PW, Zisook DS, Torii M.使用自然语言处理从Twitter消息中提取健康相关因果关系。BMC Med Inform Decis Mak 2019 Apr 04;19(Suppl 3):79 [免费全文] [CrossRef] [Medline］
邱超，陈淑娟，牛勇。基于图形模式的医学数据库因果知识提取方法。2000年发表于:计算语言学协会第38届年会论文集;2000;香港。［CrossRef］
mihoniova C, Ohta T, Pyysalo S, Ananiadou S. BioCause:生物医学领域的因果关系注释和分析。BMC Bioinformatics 2013 1月16日;14:2 [免费全文] [CrossRef] [Medline］
Bakal G, Talari P, Kakani EV, Kavuluru R.利用生物医学知识图的语义模式预测治疗和因果关系。J Biomed Inform 2018年6月;82:189-199 [免费全文] [CrossRef] [Medline］
Cantor MN, Feldman HJ, Triola MM.使用触发短语在门诊护理记录中检测药物不良反应。夸尔萨夫卫生保健2007年4月;16(2):132-134 [免费全文] [CrossRef] [Medline］

‎

疾病预防控制中心:疾病控制和预防中心

EMR:电子病历

KPSC:南加州凯撒医疗机构

ICD-10-CM:国际疾病分类，第十次修订，临床修订

NLP:自然语言处理

搬运工:研究电子数据采集

SIRVA:与接种疫苗有关的肩部损伤

VAERS:疫苗不良事件报告系统

VICP:国家疫苗伤害赔偿计划

T·桑切斯编辑，A·马夫拉加尼;提交13.05.21;谢峰，张伟同行评审;对作者24.01.22的评论;修订版本收到22.02.22;接受26.04.22;发表24.05.22

©郑成义，Jonathan Duffy, In-Lu Amy Liu, Lina S Sy, Ronald A Navarro, Sunhea S Kim, Denison S Ryan, Wansu Chen, Lei Qian, Cheryl Mercado, Steven J Jacobsen。原载于JMIR公共卫生与监测(https://publichealth.www.mybigtv.com)， 24.05.2022。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息，https://publichealth.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

在美国识别与疫苗管理(SIRVA)相关的肩部损伤病例:自然语言处理方法的开发和验证