这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
虽然传统的药物警戒信号检测方法是基于自发报告,但社交媒体的使用正在兴起。基于web的数据的潜在优势取决于其数量和实时可用性,能够及早发现不相称报告(sdr)的信号。
本研究旨在(1)评估从法国患者医疗论坛中检测到的特别提款权与从传统报告系统中检测到的特别提款权的一致性;(2)评估特别提款权在比传统报告系统更早识别的能力。
研究使用了2005年至2015年间患者论坛上发布的信息。我们保留了8个歧化定义。通过描述敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)、准确性、接受者工作特征曲线和曲线下面积(AUC),将论坛中的sdr与VigiBase中检测到的sdr进行比较。提供了论坛和VigiBase检测到sdr的日期之间以月为单位的时间差。
比较分析显示,敏感性为29% ~ 50.6%,特异性为86.1% ~ 95.5%,PPV为51.2% ~ 75.4%,NPV为68.5% ~ 91.6%,准确度为68% ~ 87.7%。使用度量经验贝叶斯几何平均,AUC达到0.85。高达38%(12/32)的sdr在论坛中比在VigiBase中更早被发现。
特异性、PPV和NPV较高。总体表现良好,表明来自医学论坛的数据可能是信号检测的有价值的来源。总的来说,高达38%(12/32)的特别提款权可以更早发现,从而确保了患者的安全性。需要进一步加强对全球患者医学论坛的可靠性和有效性的调查,将这种分析扩展到所有可能的药物或至少更广泛的药物选择,以及根据已建立的信号进一步评估性能。
药物不良反应(adr)是一个重要的公共卫生问题。药物安全目前依赖于上市后监测,这是通过基于自愿报告的自发报告系统进行的。报告率很低,并且访问报告数据的时间可能很长。因此,很难及时发现不相称的报告(sdr)信号,有些甚至可能无法被这些报告系统捕获。替代数据来源已被用于检测药物不良事件(AE)相关性,包括索赔数据[
随着社交媒体和医疗论坛的发展和普及,许多互联网用户都在交换健康相关的信息,这可能涉及到adr,这些基于网络的信号检测的新数据源的一致性和有用性问题正在受到审查。最近的项目旨在研究社交媒体数据的质量,以及研究基于网络的信号检测的最有效方法。基于网络的数据(如查询日志和社交媒体)的使用正在监管机构(食品和药物管理局和欧洲药品管理局)、工业界和学术界中兴起[
基于web的数据的潜在优势取决于它们的数量和实时可用性,允许早期发现SDR。本研究旨在评估从法国患者论坛中检测到的特别提款权的一致性,以及比传统报告系统更早识别特别提款权的能力。本研究选择了三种产品(甘精胰岛素、特利氟米特和唑吡坦)。将从这一基于web的来源检测到的特别提款权与使用传统特别提款权检测方法从世界卫生组织(世卫组织)AEs报告系统(VigiBase)中检测到的特别提款权进行比较。
所使用的数据来源为(1)法国患者医疗论坛和(2)世卫组织个案安全报告数据库VigiBase;这些数据来源将在后面描述。
这是一项回顾性研究,基于二次使用来自法国网络患者医疗论坛的数据。Detec 't数据库是一个私人数据库,汇集了来自社交媒体的信息,包括安全信息。我们在这项研究中纳入了12个知名的医学论坛(见
检索到的消息经过几个处理步骤,以便获得执行分析所需的药物-事件对。首先,信息被去识别。然后,数据处理自动确保消息包含感兴趣的药物名称和药物使用或摄入的概念,以构成与所研究药物相关的消息语料库。对这些语料库进行了格式化和筛选,以检测所有涉及潜在声发射的医疗事件(即,不是药物的适应症,不是药物摄入前的声发射,不是没有经历过的不良反应问题,等等)。
消息的去识别是使用一种基于正则表达式的内部算法来自动识别特定的字符序列(如专有名称、电话号码、邮政编码、邮件地址等)。在提取的信息集中,通过自动检测包含药物名称的信息、对活性物质的引用和感兴趣药物的品牌名称进行识别;这一步包括检测常见的拼写错误。接下来,使用基于正则表达式检测(例如,识别第一人称人称代词)的特定算法(在这组消息上)识别药物摄入概念。这一程序确保了吸毒的人能够被识别出来(这个人可以是帖子的作者,也可以是他们的亲属之一)。这些“接收消息”表示应用以下步骤的消息集。
如前所述[
提取方法和分析用数据准备。AE:不良事件;AERS:不良事件报告系统。
医学概念的检测使用了扩展版的管理活动医学词典(MedDRA版本15.0),并对本地词汇进行了调整和补充。在MedDRA中,首选术语(PT)对应于医学概念的唯一描述符。低级术语(LLT)对应于PT的变体和最低级别的术语(每个LLT与单个父PT相关联,多个LLT可以与一个PT相关联)。医学概念在LLT级别进行检测,并编码为PT。通过手动查看先前由MedDRA自动注释的Web论坛消息样本,使用本地术语补充词汇。这项审查是由4位熟悉MedDRA字典的计算机科学专家进行的。所有手动识别但未被MedDRA检测到的医学概念都被保存,并手动与PT关联,就像它们是新的llt一样。在对157条信息样本进行补充后,对医学概念检测进行了评估,召回率为71%,准确性为93%。关于提供给MedDRA的调整,一些不在研究范围内的PTs被删除(即“贫困”或“已婚”)。例如,包括提及NOS(未另行说明)的术语,即“过敏NOS”,通过删除提及来清洗。最终,所有的术语都被删除了。 A manual cleaning was performed to deduplicate the terms obtained after stemming. The detection of medical concepts was performed by looking for exact matches between the stemmed versions of MedDRA and messages.
通过应用一种算法[
提取的消息存储在数据库中(1)与消息相关的元数据;(2)标注过程的结果——药物摄入量、医学概念及其MedDRA代码;(3)声发射检测算法的结果。
数据准备的最后一步确定每个药物事件对的消息数(
作为金标准使用的比较数据库是世卫组织全球ICSR数据库VigiBase。它包括自1968年以来从成员国收到的不良反应报告。VigiBase会根据传入的icsr持续更新。VigiBase数据资源是世界上最大和最全面的数据资源,由乌普萨拉监测中心代表世卫组织开发和维护。截至2015年5月,该数据库提供了1100多万份报告。VigiBase数据库系统包括包含医疗和药物分类的链接数据库——世卫组织不良反应术语(MedDRA)、世卫组织国际疾病分类和世卫组织药物词典;这些分类支持在不同的精度和聚合级别上进行结构化数据输入、检索和分析。
本研究选择了三种药物(甘精胰岛素、特利氟米特和唑吡坦),以覆盖不同的治疗领域和不同的使用期限。从Detec 't数据库中提取这些选定药物(原料药和品牌名)对应的数据。因此,在数据库中搜索以下药物:甘精胰岛素和甘精胰岛素和Lantus;氟米特和奥巴乔;唑吡坦和斯蒂诺克斯。药品名称的同义词和拼写错误被考虑(即,拼写错误的细节)。通过识别最常见的拼写错误,并将它们添加到研究的药物形式中。
为了进行不相称报告的分析,从Detec数据库中随机选择了327种药物作为背景组。这些药物后来包括从一份详尽的法国药物清单中随机选择的药物。与这327种药物相对应的信息是从同一组论坛和时间段中挑选出来的;他们经历了相同的分析和编码步骤。
采用自发报告的歧化分析(将观察病例数与预期病例数进行比较)。信号检测中的定量方法依赖于歧化原理[
提供了整个期间(从2005年到2015年累计)和研究期间跨时间的信息描述-带有药物名称的信息数量,包含药物使用或摄入概念的信息数量,医学概念和潜在的不良事件。
从法国患者论坛检测到的sdr与在VigiBase检测到的sdr的比较使用敏感性(真阳性率)=进行描述
非比例信号的定义。
度规 | 非比例信号的定义 |
经验贝叶斯几何平均(EBGM) | EBGM≥2 |
经验贝叶斯几何平均(EBGM) | EBGM≥4 |
EBGM 95% CI下界(EB05) | EB05≥2 |
比例报告比率(PRR) | PRR≥2, |
PRR 95% CI下界(PRR025) | PRR025≥1 |
报告优势比95% CI的下界(ROR025) | ROR025≥1 |
信息分量95%置信区间的下界(IC025) | IC025 = 0 |
报告费雪精确检验(RFET) |
确定营销 |
信号:2乘2列联表,用于组合来自医疗论坛和VigiBase的积极和消极信号来衡量性能。
来自医学论坛的信号 | VigiBase的信号 | 总计 | |
积极的 | 负 | ||
积极的 | A(真阳性) | B(假阳性) | M1 |
负 | C(假阴性) | D(真阴性) | 平方米 |
总计 | N1 | N2 | N |
绩效指标。
性能指标 | 价值 |
敏感度(真阳性率) |
|
特异性(真阴性率) |
|
阳性预测值 |
|
负预测值 |
|
精度 | ( |
对于在两个数据源中发现的sdr,我们分析了从法国患者论坛中检测到sdr的日期与从VigiBase中检测到sdr的日期之间的时间差异(以月为单位)。
对来自8个医学论坛的数据进行了分析,并与2005年1月1日至2015年12月31日之间发表的甘精胰岛素和唑吡坦以及2014年4月1日至2015年12月31日之间发表的特立氟米特的信息相对应。对于特立氟米特,这一时间限制是因为该产品在2013年9月收到了第一个上市许可申请,并于2014年3月首次上市。
2005年至2015年期间,医疗论坛数据包含545对药物事件。总体而言,VigiBase中鉴定出7618对药物事件对,其中422对药物事件对组合与论坛数据重叠(
在545对来自论坛的药物事件对中,只有123对没有在VigiBase中被识别出来;这123个药物事件对只对应论坛上的一条消息。个别检查显示,一些PTs的特异性不够。例如,论坛中确定的一些PTs是“体重”,但无法将它们与PT匹配,例如“体重过轻”或“超重”或“异常体重增加”或“体重异常”,这些都是在VigiBase的药物事件对中确定的。
在422对药物事件对的重叠中,根据SDR定义的不同,特异性较高(87.5%-95.5%)(
在275个药物事件对中(其中至少有2个报告或消息被考虑;
无论使用不相称SDR的定义,ROC曲线和AUC总体表现良好。AUC变化在0.8左右。EBGM指标显示AUC最高(AUC=0.85;
对于在VigiBase和患者论坛中检测到的特别提款权,我们计算了从法国患者论坛中检测到阳性特别提款权的日期与在VigiBase中检测到这些特别提款权的日期之间的时间差(以月为单位)(
3种药物和其他327种药物的流程图(对照组)。AE:不良事件。
VigiBase和论坛数据库覆盖的时间段和药物事件对的数量重叠,以及对与至少2条消息(最小的圆圈)重叠。
422对药物事件对的敏感性、特异性、阳性预测值、阴性预测值和准确性。
定义 | 灵敏度(%) | 特异性(%) | 阳性预测值(%) | 阴性预测值(%) | 精度(%) |
EB05一个≥2 | 29.0 | 95.5 | 62.5 | 84.0 | 82.0 |
EBGMb≥2 | 48.2 | 89.3 | 62.5 | 82.3 | 78.2 |
EBGM≥4 | 39.6 | 94.6 | 51.2 | 91.6 | 87.7 |
PRRc≥2, |
31.9 | 94.0 | 67.9 | 77.9 | 76.5 |
PRR≥1的95% CI降低 | 37.3 | 87.5 | 64.1 | 70.0 | 68.7 |
ROR≥1的低95% CI | 37.0 | 87.9 | 66.3 | 68.5 | 68.0 |
IC025d> 0 | 33.3 | 94.2 | 75.4 | 72.5 | 73.0 |
确定营销e: |
50.6 | 86.1 | 68.1 | 74.8 | 73.0 |
一个EB05:经验贝叶斯几何均值的90% CI的下界。
bEBGM:经验贝叶斯几何均值。
cPRR:比例报告比率。
dIC025:信息分量95% CI的下界。
e报告费雪精确检验。
275对药物事件对的敏感性、特异性、阳性预测值、阴性预测值和准确性。
定义 | 灵敏度(%) | 特异性(%) | 阳性预测值(%) | 阴性预测值(%) | 精度(%) |
EB05一个≥2 | 39.1 | 93.4 | 64.1 | 83.5 | 80.7 |
EBGMb≥2 | 49.4 | 88.5 | 65.1 | 80.2 | 76.7 |
EBGM≥4 | 51.2 | 92.3 | 53.9 | 91.5 | 86.2 |
PRRc≥2, |
44.2 | 91.5 | 70.4 | 78.3 | 76.7 |
PRR≥1的95% CI降低 | 48.3 | 88.7 | 75.7 | 70.2 | 71.6 |
ROR≥1的低95% CI | 47.1 | 88.5 | 75.7 | 68.7 | 70.6 |
IC025d> 0 | 45.8 | 91.1 | 76.6 | 72.5 | 73.5 |
确定营销e: |
56.5 | 86.9 | 75.6 | 73.6 | 74.2 |
一个EB05:经验贝叶斯几何均值的90% CI的下界。
bEBGM:经验贝叶斯几何均值。
cPRR:比例报告比率。
dIC025:信息分量95% CI的下界。
e报告费雪精确检验。
应用VigiBase和论坛EBGM≥4的经验贝叶斯几何均值(empirical Bayes geometric mean, EBGM)绘制受试者工作特征(ROC)曲线和曲线下面积。
患者论坛与VigiBase信号检测日期的月差(∆时间)。
定义 | ∆时间一个<0, n (%) | ∆时间一个=0, n (%) | ∆时间一个>0, n (%) | 总成对数,n (%) |
PRRb≥2, |
15 (25.4) | 3 (5.1) | 41 (69.5) | 59 (100) |
EB05c≥2 | 10 (32.3) | 3 (9.7) | 18 (58.1) | 31 (100) |
EBGMd≥2 | 22日(26.5) | 4 (4.8) | 57 (68.7) | 83 (100) |
EBGM≥4 | 12 (37.5) | 4 (12.5) | 16 (50) | 32 (100) |
IC025e> 0 | 13 (21.3) | 3 (4.9) | 45 (73.8) | 61 (100) |
PRR≥1的95% CI降低 | 29 (32.6) | 5 (5.6) | 55 (61.8) | 89 (100) |
ROR≥1的低95% CI | 29 (32.2) | 5 (5.6) | 56 (62.2) | 90 (100) |
确定营销f: |
34 (30.6) | 7 (6.3) | 70 (63.1) | 111 (100) |
一个∆时间:患者论坛检测日期- VigiBase检测日期。
bPRR:比例报告比率
cEB05:经验贝叶斯几何均值的90% CI的下界。
dEBGM:经验贝叶斯几何均值。
eIC025:信息分量95% CI的下界。
f报告费雪精确检验。
根据特别提款权的定义,在论坛中比在VigiBase中更早(最多早128个月)发现高达38%(12/32)的普通特别提款权。此外,高达13%(4/32)在同一日期被检测到,但考虑到Web上数据的实时可用性,更早地在论坛中可用。论坛早先发现的特别提款权的定性研究显示出异质性,因为一些与严重医疗事件有关,另一些与患者相关症状(即压力和饥饿)有关。
早些时候在VigiBase中检测到的大多数信号都与严重的医疗事件有关,这可能导致了医疗咨询,从而导致了通过医疗保健专业人员进行的AE报告。此外,这些事件大多与系统器官类“神经系统疾病”和“精神疾病”有关。
本研究旨在评估过去11年法国患者论坛检测到的sdr的一致性,以及比VigiBase更早识别sdr的能力。
基于web的数据的潜在优势依赖于它们的容量和实时可用性,允许早期信号检测。这项试点研究表明,与传统来源的特别提款权相比,法国医学论坛的特别提款权表现良好,而且更早被发现。此外,这些试点结果表明,使用患者医疗论坛可被视为对传统来源的补充数据来源,使特别提款权能够更早地被发现,从而有助于提高患者的安全。
我们首先比较了论坛数据和世卫组织AEs报告系统(VigiBase)中检测到的特别提款权(通过考虑不相称特别提款权的几种定义)。通过对正、负SDR的比较可以看出,无论如何定义不成比例SDR,其敏感性都很低,特异性很高。此外,PPV和NPV较高。总体表现良好,表明来自医学论坛的数据可能是信号检测的有价值的来源。在另一项研究中[
其次,在来自患者论坛和VigiBase的sdr中,我们计算了检测sdr的时间差,以衡量论坛数据与VigiBase相比检测早期sdr的能力。在使用论坛数据时,可以更早地检测到高达38%(12/32)的普通特别提款权,这是一项重要的发现。对早期检测到的特别提款权进行定性探索性分析表明,事件与严重症状以及患者相关症状相关。这一发现与最近的研究一致[
本研究的优势之一是对从论坛中提取的数据进行预处理和处理的质量。在这项研究中,用于网络信号检测的信息不仅包含药物,而且还包含医疗事件(共发生),因为这在其他研究中已经完成[
这项研究有几个局限性。首先,结果只适用于3种药物和法国医学论坛。因此,研究结果并不能推广到所有药物和在世界范围内。然而,我们没有一个强有力的假设来相信基于网络的医疗论坛的使用和法国互联网用户的互动将与其他发达国家不同。因此,应考虑进一步研究世界范围内的患者论坛。其次,自动算法有其局限性。基于web的数据管理需要在建模和数据处理方面不断更新,以确保检索到的信息的高质量和准确性。虽然数据经过了处理,但仍有可能遗漏一些药物名称或医学概念,一些不良事件可能与药物指征混淆,或者Web用户询问他们没有经历过的不良事件,或者对不是药物不良反应的症状的描述。第三,基于网络的数据依赖于患者的观点和陈述,而不是真正的医疗诊断。基于网络的数据对媒体报道的增加很敏感,导致搜索或帖子增加,容易改变人们的搜索或传播行为。 Finally, VigiBase is not a true gold standard, as it has its own limitations (such as lack of denominator and underreporting). VigiBase, however, has been used as a standard for signal detection by regulators and pharmaceutical companies, and our study showed that patients’ forum could be used as a complementary data source to detect SDR earlier. Although the choice of the reference data remains challenging [
这项研究表明,与传统来源相比,在患者医疗论坛中检测到的sdr表现良好,并且更早地检测到。这些特别提款权涉及严重的医疗事件以及与患者相关的主观症状(如压力和饥饿)。这些结果表明,使用患者医疗论坛可被视为对传统来源的补充数据来源,可以更早地发现特别提款权,从而确保提高患者的安全性。需要进一步加强对全球患者医学论坛的可靠性和有效性的调查,将这种分析扩展到所有可能的药物或至少更广泛的药物选择,以及根据已建立的信号进一步评估性能。
包括在研究中的医学论坛列表。
不良事件
不良事件报告制度
曲线下面积
经验贝叶斯几何均值
食品和药物管理局不良事件报告系统
信息组件
个案安全报告
较低级别的方面
未另行说明
负预测值
阳性预测值
比例报告比率
首选项
报告费雪精确检验
接收机工作特性
报告优势比
过度报道的信号
世界卫生组织
管理活动的医学词典
这项研究是由赛诺菲全额资助的。
MLK, JP, STL, SL和JJ都是赛诺菲的员工,这项工作是他们受雇的一部分。作为赛诺菲的前雇员,LZ也对本文做出了贡献。SS和NT受雇于Kappa Santé,并通过赛诺菲提供的资金提供数据。CF受雇于Kap Code,一家Kappa Santé的初创公司,拥有Detec 't。RA作为Kap Code的前雇员也对本文做出了贡献。