这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
免疫检查点抑制剂与独特的免疫相关不良事件(irAEs)相关。由于大多数免疫检查点抑制剂是市场上的新产品,因此使用真实世界的数据来源进行研究以调查其安全性是很重要的。
该研究的目的是为6种美国食品和药物管理局批准的免疫检查点抑制剂开发一种新的irae信号检测和过滤框架。
在我们的框架中,我们首先使用了美国食品和药物管理局的不良事件报告系统(FAERS),该系统在观察性健康数据科学和信息学(OHDSI)公共数据模型(CDM)中标准化,以收集免疫检查点抑制剂相关事件数据,并进行了irAE信号检测。OHDSI CDM是一种标准驱动的数据模型,其重点是将不同的数据库转换为通用格式,并将医学术语标准化为通用表示。然后,我们使用基于临床文本分析和知识提取系统的定制文本挖掘管道,以MedDRA (Medical Dictionary for Regulatory Activities)作为字典,从药物标签和文献中过滤出已知的irae。最后,我们将irAE检测结果分为三种不同的类别,以发现潜在的新irAE信号。
通过我们的文本挖掘管道,从药物标签中识别出490个irAE术语,从文献中识别出918个术语。此外,使用基于cdm的FAERS检测到的94个阳性信号中,53个(56%)是标记信号,10个(11%)是未标记的已发布信号,31个(33%)是潜在的新信号。
我们证明了我们的方法对irAE信号的检测和过滤是有效的。此外,我们基于cdm的框架可以促进不良药物事件的检测和过滤,以实现下一代药物警戒的目标,无缝集成电子健康记录数据,以改进信号检测。
免疫疗法激活病人的免疫系统以治疗癌症。
尽管之前已经有一些研究利用SRS检测irAE,但研究新的irAE信号以帮助研究界认识到这些免疫检查点抗体的综合药物安全性仍然是必要的。然而,现在也认识到,传统的基于SRS的ADE检测方法只关注从SRS数据库中检测具有统计意义的药物-事件对,这些方法在识别这些方面经常面临挑战
本研究的目的是开发一种新的信号检测和过滤的框架。首先,我们使用观测健康数据科学与信息学(OHDSI) CDM对FAERS进行规范化,以提高数据的标准化和质量,从而促进数据的收集和分析。为了检测irAEs,我们选择了2018年之前FDA批准的6种免疫检查点抑制剂作为我们的研究对象。我们收集了6种免疫检查点抑制剂的所有标准化不良事件数据。然后,利用报告比值比(ROR)来检测irAEs信号。采用临床文本分析和知识提取系统(cTAKES),以MedDRA为字典,实现了一个定制的文本挖掘管道,以过滤已知的irae。最后,我们将irAE检测结果分为三种不同的类别,包括潜在的新irAE信号。
FAERS [
OHDSI公共数据模型(CDM) [
我们搜索了DailyMed网站,收集了6种fda批准的免疫检查点抑制剂的药物标签[
我们从PubMed [
使用OHDSI CDM中标准化的FAERS,我们开发了一个用于irae信号检测和过滤的框架,如图所示
我们的标准驱动框架的系统架构。ADE:药物不良事件;CDM:公共数据模型;cTAKES:临床文本分析与知识提取系统;美国食品药品监督管理局不良事件报告系统FAERS;irae:免疫相关不良事件;MedDRA:监管活动医学词典;OHDSI:观察卫生数据科学和信息学;ROR:报告优势比。
在FAERS中,有些数据是非标准的。例如,FAERS中的药物名称可能是药物成分名称、品牌名称、临床药物成分,甚至是拼写错误。这种数据标准化问题会给数据收集和整合带来不便,也会给数据分析带来偏差。在这项研究中,我们开发了下一代药物警戒信号检测平台,ADEpedia-on-OHDSI [
将美国食品药品监督管理局不良事件报告系统转换为观察性健康数据科学与信息学公共数据模型的提取、转换和加载过程。AEOLUS,不良事件开放学习通过通用标准化;CDM,公共数据模型;ETL:提取、转换和加载;美国食品药品监督管理局不良事件报告系统FAERS;OHDSI,观察健康数据科学和信息学。
在本研究中,我们定义了药物不良事件(ADE)
对于ADE信号检测,ROR [
6种免疫检查点抑制剂的基本信息。
免疫检查点抑制剂 | 品牌名称 | 食品药品监督管理局批准的年份 | 观察健康数据科学与信息学概念(成分/品牌名称) | RxNorm概念唯一标识符(成分/品牌名称) |
Ipilimumab | Yervoy | 2011 | 40238188/40238070 | 1094833/1094837 |
Pembrolizumab | Keytruda | 2014 | 45775965/45775969 | 1547545/1547550 |
Nivolumab | Opdivo | 2014 | 45892628/45892632 | 1597876/1597881 |
Atezolizumab | Tecentriq | 2016 | 42629079/42629083 | 1792776/1792781 |
Durvalumab | Imfinzi | 2017 | 1594034/1594039 | 1919503/1919508 |
Avelumab | Bavencio | 2017 | 1593273/1593278 | 1875534/1875543 |
实施报告优势比的列联表和公式。
我们开发了一个定制的文本挖掘管道,使用cTAKES v4.0从药物标签和irAEs相关文献的文本中识别irae。cTAKES是一种广泛使用的临床信息提取工具,它可以使用字典查找算法发现临床命名实体和临床事件[
对于药物标签文本挖掘,我们从DailyMed网站上收集了6种fda批准的免疫检查点抑制剂的药物标签[
为了从相关文献中识别irae,我们使用查询“免疫相关的[所有领域]和不良的[所有领域]和事件[所有领域]”来检索PubMed。共发现679项与irae相关的研究,下载了所有搜索结果的摘要(截至2018年1月)。我们还从检索结果中提取了20篇综述论文的全文进行文本挖掘。各年irae相关文献的分布情况见
免疫相关不良事件的年度文献分布(PubMed检索日期:2018年1月24日)。
出版年 | 发布数量 |
2006 | 1 |
2007 | 1 |
2008 | 5 |
2009 | 7 |
2010 | 7 |
2011 | 11 |
2012 | 11 |
2013 | 37 |
2014 | 47 |
2015 | 74 |
2016 | 150 |
2017 | 260 |
2018 | 68 |
我们回顾了所有通过信号检测识别出的irAE信号,并将其分为3类:标记信号(即可以通过药物标签验证的信号)、未标记的已发表信号(即在药物标签中找不到但在已发表文献中找不到的信号)和新信号(即在药物标签和已发表文献中都找不到的信号)。然后,两位肿瘤学家(KR和AM)手动审查了新的信号类别,并就该类别中的irAE信号是否可以视为潜在的新信号给出了他们的评论。请注意,这些肿瘤学家只审查了检测结果,他们没有任何其他临床数据来帮助他们确定癌症或治疗的原因。
在ETL过程之后,原始FAERS数据被加载到8个OHDSI CDM表中。共有4,619,362例不良事件报告被转移到OHDSI CDM。其中女性2,577,989例(55.81%),男性1,603,982例(34.72%),性别未知或未明确的437,391例(9.47%)。
6种免疫检查点抑制剂报告总数。
免疫检查点抑制剂 | 品牌名称 | 药品不良事件报告编号(提取、转化、加载前) | 药品不良事件报告编号(提取、转换、加载后) |
Ipilimumab | Yervoy | 8264 | 8268 |
Pembrolizumab | Keytruda | 5020 | 5099 |
Nivolumab | Opdivo | 12557年 | 12569年 |
Atezolizumab | Tecentriq | 891 | 893 |
Durvalumab | Imfinzi | 27 | 27 |
Avelumab | Bavencio | 5 | 5 |
总报告 | N/A一个 | 24500年 | 24595年 |
一个-不适用。
为了提供一个全面的视角,我们在2个不同的MedDRA不良事件水平进行了irAE信号检测:系统器官分类(SOC)水平和PT水平。SOC水平是MedDRA的最高水平,它包含27个分组,按病因(如SOC感染和感染)、表现部位(如SOC胃肠道疾病)和目的(如SOC手术和医疗程序)。PT术语是与至少一个SOC相关联的独特描述符(单个医学概念)。
此外,使用6种免疫检查点抑制剂药物中的1种的患者在PT水平上检测到94个阳性信号。在所有irAE阳性信号中,垂体炎的ROR值最高(ROR 5398.8;95% CI 3105.1-9386.9),其次是垂体功能减退症(ROR 135.1;95% CI 106.7-171.1),血促肾上腺皮质激素降低(ROR 59.5;95% CI 3105.1-9386.9),肾上腺功能不全(ROR 36.1;95% CI 31.5-41.3),结肠炎(ROR 32.7;95% CI 30.5-35.0),这意味着这些irae可能最常发生在免疫检查点抑制剂的患者身上。
我们还使用MedDRA soc对irAE信号进行了分类,以获得对irAE信号分布的高层次理解(见
信号检测结果在系统器官类水平。
规范活动医学词典 | 系统器官类别 | 报告优势比(95% CI) |
10014698 | 内分泌失调 | 2.98 (2.84 - -3.12) |
10019805 | 肝胆的障碍 | 2.53 (2.39 - -2.68) |
10027433 | 代谢和营养紊乱 | 1.76 (1.69 - -1.83) |
10005329 | 血液和淋巴系统紊乱 | 1.56 (1.48 - -1.64) |
10029104 | 良性、恶性和未明确的肿瘤(包括囊肿和息肉) | 1.38 (1.30 - -1.46) |
10038738 | 呼吸、胸部和纵隔疾病 | 1.27 (1.23 - -1.31) |
10017947 | 胃肠道功能紊乱 | 1.16 (1.12 - -1.19) |
优选项级信号的系统器官类分布。
系统器官类别 | 信号数 |
呼吸、胸部和纵隔疾病一个 | 14 |
胃肠道功能紊乱一个 | 13 |
心脏疾病 | 10 |
感染和侵扰 | 10 |
神经系统紊乱 | 10 |
一般疾病和行政现场情况 | 9 |
调查 | 9 |
免疫系统紊乱 | 8 |
内分泌失调一个 | 5 |
肝胆的障碍一个 | 5 |
受伤、中毒和手术并发症 | 5 |
代谢和营养紊乱一个 | 5 |
皮肤和皮下组织紊乱 | 5 |
血液和淋巴系统紊乱一个 | 4 |
眼睛疾病 | 4 |
肌肉骨骼和结缔组织疾病 | 4 |
血管疾病 | 4 |
肾脏和泌尿系统疾病 | 3. |
良性、恶性和未明确的肿瘤(包括囊肿和息肉)一个 | 1 |
一个表示在系统器官类水平上被检测为正信号的系统器官类。
如前所述,我们利用cTAKES与MedDRA作为字典,从6种免疫检查点抑制剂的药物标签中识别出irAE术语。通过对药品标签和irAE相关文献的文本挖掘,分别发现了421个和918个irAE术语。
在药物标签文本挖掘方面,我们发现ctake识别的大部分irAE术语都处于MedDRA的PT级别。然而,在MedDRA中,一些irAE术语被定义为最低级别术语(llt)。LLT是其相关PT的同义词、词法变体、准同义词、子元素或相同,并且只能与一个PT相关联。为了将irAE术语与同一级别的标准概念统一起来,我们根据MedDRA和FDA的建议将所有LLT映射到PT中。结果,从所有6个药物标签的文本中提取了490个irAE术语,包括474个PTs, 15个SOC和1个高级术语(HLT,与之相关的PTs的上级描述符)。通过文本挖掘管道从药物标签中识别出的irAE术语的更多细节见
对于文本挖掘评估,如
对于irAE相关文献的文本挖掘,通过使用我们的文本挖掘管道,从679篇irAE相关摘要和20篇irAE相关综述论文中共识别出918个独特的irAE术语(PT或更高级别),其中306个(33.33%)术语被药物标签中提取的irAE术语所覆盖,其余612个(66.67%)术语未被标记的irAE术语所覆盖。这表明可以从文本挖掘管道中识别一些未标记的术语。
从6种免疫检查点抑制剂的药物标签中识别免疫相关不良事件的文本挖掘管道的性能
免疫检查点抑制剂 | 人工识别免疫相关不良事件术语 | 临床文本分析和知识提取系统识别免疫相关不良事件术语 | 真阳性 | 假阳性 | 假阴性 | 精度(TP/[TP+FP]), % | 召回率(TP/[TP+FN]), % |
|
Ipilimumab | 122 | 138 | 103 | 35 | 19 | 74.6 | 84.4 | 79.2 |
Pembrolizumab | 192 | 228 | 179 | 49 | 13 | 78.5 | 93.2 | 85.2 |
Nivolumab | 215 | 262 | 202 | 60 | 13 | 77.1 | 93.9 | 84.7 |
Atezolizumab | 142 | 157 | 129 | 28 | 13 | 82.2 | 90.9 | 86.3 |
Durvalumab | 179 | 183 | 156 | 27 | 23 | 85.3 | 87.2 | 86.2 |
Avelumab | 146 | 176 | 130 | 46 | 16 | 73.9 | 89.0 | 80.8 |
总计 | 421 | 490 | 389 | 101 | 32 | 79.4 | 92.4 | 85.4 |
为了过滤我们检测到的irAE信号,我们将所有94个irAE信号与文本挖掘结果进行比较,然后根据我们在
维恩图说明从不同来源检测到的免疫相关不良事件项。CDM,公共数据模型;FAERS,美国食品和药物管理局不良事件报告系统。
药物标签或文献中未确定的31种潜在新信号的列表(按报告优势比排序)。
规范活动医学词典 | 首选项 | 系统器官类别 | 报告优势比(95% CI) |
10005452 | 血促肾上腺皮质激素降低 | 调查 | 59.49 (34.44 - -102.74) |
10053481 | Bronchopleural瘘一个 | 呼吸、胸部和纵隔疾病 | 19.51 (6.96 - -54.67) |
10006437 | 支气管瘘一个 | 呼吸、胸部和纵隔疾病 | 19.01 (6.79 - -53.20) |
10042569 | 上腔静脉综合征 | 血管疾病/良性、恶性和未明确的肿瘤(包括囊肿和息肉) | 10.62 (5.78 - -19.51) |
10061457 | 面神经紊乱一个 | 神经系统紊乱 | 9.51 (3.48 - -25.97) |
10044291 | 气管阻塞一个 | 呼吸、胸部和纵隔疾病/损伤、中毒和手术并发症 | 7.83 (2.47 - -24.87) |
10058838 | 小肠结肠炎传染性 | 胃肠道疾病/感染和侵扰 | 7.64 (3.77 - -15.51) |
10065764 | 粘膜感染 | 一般疾病和管理现场条件/感染和侵扰 | 7.13 (2.25 - -22.59) |
10013832 | 十二指肠溃疡穿孔 | 胃肠道功能紊乱 | 6.50 (2.88 - -14.68) |
10006440 | 支气管阻塞一个 | 呼吸、胸部和纵隔疾病 | 6.34 (3.13 - -12.82) |
10061145 | 眼睑功能障碍一个 | 眼睛疾病 | 5.73 (1.82 - -18.09) |
10007196 | 毛细血管渗漏综合征一个 | 一般疾病和给药部位条件/血管疾病 | 5.62 (2.78 - -11.35) |
10010276 | 传导障碍 | 心脏疾病 | 4.92 (2.19 - -11.07) |
10036774 | 直肠炎 | 胃肠道功能紊乱 | 4.90 (2.82 - -8.50) |
10021305 | 回肠穿孔 | 胃肠道功能紊乱 | 4.09 (1.30 - -12.84) |
10009995 | 结肠瘘 | 胃肠道功能紊乱 | 3.81 (1.21 - -11.95) |
10064774 | 输液部位外渗 | 损伤、中毒、手术并发症/一般疾病和给药部位情况 | 3.51 (2.30 - -5.36) |
10051341 | 胆管狭窄 | 肝胆的障碍 | 3.45 (1.42 - -8.35) |
10042241 | 喘鸣 | 呼吸、胸部和纵隔疾病 | 3.15 (1.41 - -7.06) |
10035623 | 肋膜炎的痛苦 | 呼吸、胸部和纵隔疾病 | 3.12 (1.67 - -5.82) |
10025256 | 淋巴细胞计数减少 | 调查 | 2.97 (2.29 - -3.85) |
10063057 | 膀胱炎noninfective | 肾脏和泌尿系统疾病 | 2.83 (1.05 - -7.60) |
10005630 | 血乳酸脱氢酶升高 | 调查 | 2.81 (2.10 - -3.76) |
10041549 | 脊髓压迫 | 神经系统紊乱 | 2.81 (1.66 - -4.76) |
10008612 | 胆囊炎 | 肝胆的障碍 | 2.59 (1.87 - -3.58) |
10041103 | 小肠穿孔 | 胃肠道功能紊乱 | 2.46 (1.02 - -5.94) |
10003662 | 心房扑动 | 心脏疾病 | 2.45 (1.50 - -4.02) |
10036206 | 门静脉血栓形成一个 | 血管疾病/肝胆疾病 | 2.43 (1.30 - -4.53) |
10029164 | 肾病综合症 | 肾脏和泌尿系统疾病 | 2.37 (1.42 - -3.94) |
10003673 | 房室传导阻滞完成 | 心脏疾病 | 1.85 (1.09 - -3.13) |
10003504 | 愿望 | 呼吸、胸部和纵隔疾病 | 1.60 (1.02 - -2.51) |
一个被两位肿瘤学家鉴定为潜在的新信号。
据我们所知,这是第一次利用多种药物安全数据源对irae进行全面、新颖的信号检测和过滤研究。我们提出了一个从标准化FAERS数据库中检测irAE信号的框架,并利用包含药物标签和现有文献的文本挖掘管道进行发现
我们使用标准的OHDSI CDM来表示FAERS数据(即OHDSI平台上的adepedia),并创建了用于信号检测的标准查询,这提供了一个可靠的数据基础设施,使查询可移植,信号检测结果可重复。更重要的是,通过对原始FAERS和基于CDM的FAERS数据采集的比较,我们发现OHDSI CDM可以提高数据采集的精度。例如,对于药物pembrolizumab,我们从基于cdm的FAERS中收集了5099份报告,比我们从原始FAERS中收集的报告多79份。为了说明使用基于OHDSI cdm的FAERS收集数据的差异的原因,我们手动检查了从原始FAERS和基于cdm的FAERS收集的数据。例如,我们发现当我们使用标准OHDSI概念id作为查询来检索基于cdm的FAERS时,我们可以收集更多关于药物名称“MK-3475”的报告,这是pembrolizumab在早期开发时的原始名称,除了我们使用药物成分名称“pembrolizumab”和品牌名称“Keytruda”时我们检索到的报告。这意味着我们提高了数据收集的真阳性率和精度。此外,我们还可以节省通过标准查询收集数据的时间。例如,对于pembrolizumab,使用我们的标准查询从基于cdm的FAERS中提取所有数据需要9.4秒,而通过带有药物/品牌名称术语的模糊搜索查询收集原始FAERS数据需要大约70秒。
我们还利用文本挖掘技术来处理非结构化的药物安全数据。我们在药品标签和irAE文献上实现了文本挖掘管道,使用MedDRA作为字典来识别irAE术语。此外,为了评估我们的文本挖掘管道的性能,药物标签中的irae被人工审查并作为金标准提取。因此,整体精度、召回率和
我们的框架提供了一个自动过程来检测新的irAE信号,这些信号对实施进一步的实验验证更有价值。它也大大节省了专家审查药物标签和文献过滤已知ade的时间。我们一共检测到来自FAERS的94个irAE信号。过滤后,31个irae被划分为
对于那些在
在这项研究中,我们开发并评估了一种新的基于标准的框架,用于使用OHDSI CDM和文本挖掘技术检测和过滤irae。我们证明了我们的方法对新型irAE信号检测和过滤是有效的;同时,基于cdma的平台提供了一个基础设施,可以实现EHR数据的无缝集成,以改善未来的信号检测。
用于检索irAE记录的标准化SQL查询。
6种fda批准的单抗药物的标签链接在DailyMed上。
94个rae信号在PT电平的详细资料。
通过文本挖掘管道从药物标签中识别出irAE术语。
从药品标签中手动识别的irAE术语的详细信息。
通过文本挖掘管道从与irAE相关的文献中识别出irAE术语。
已标记的irAE信号、未标记的已发布的irAE信号和新的irAE信号的详细信息。
药物不良事件
不良事件开放学习通过普遍标准化
通用数据模型
临床文本分析与知识提取系统
不良事件的通用术语标准
电子健康记录
提取、转换和加载
美国食品和药物管理局不良事件报告系统
美国食品药品监督管理局
健康等级7
高级的词汇
免疫相关不良事件
体现方面
监管活动医学词典
观察健康数据科学与信息学
首选项
报告优势比
医学临床术语的系统化命名
系统器官类别
结构化产品标签
结构化查询语言
自发报告系统
世界卫生组织
本研究由美国国立卫生研究院U01 HG009450部分资助。作者感谢洪娜和王利伟在FAERS标准化方面所做的工作。
AM报告来自诺华和Verily的研究支持;参与AbbVie、Astra Zeneca、BMS和Genentech的顾问委员会的报酬;他是间皮瘤应用研究基金会的无薪董事。