这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
在药物开发临床试验中,需要在通过设定合格标准来限制变量和代表一旦批准可能使用产品的更广泛的患者群体之间取得平衡。同样,虽然最近的政策倡议正在实施,重点是纳入历史上代表性不足的群体,但障碍仍然存在。临床试验的这些局限性可能掩盖了潜在的产品益处和副作用。为了弥补这些差距,卫生社区的在线交流可作为药物副作用的额外人口信号。
本研究的目的是采用非传统数据集来识别药物副作用信号。该研究旨在将自然语言处理(NLP)技术和实际语言分析应用于一组来自已知他汀类药物使用者的在线帖子,以:(1)识别他汀类药物使用与记忆或认知障碍之间的任何潜在交叉;(2)获取患者对他汀类药物使用经历和记忆变化的描述中的词汇。
研究人员利用了Inspire上的用户生成内容,查看了Inspire上超过1100万篇帖子。这些帖子是由Inspire上不同社区的患者和护理人员撰写的。在确定了这些帖子之后,研究人员使用NLP和动手语言分析来绘制和扩展他汀类药物使用,记忆和认知之间的相关性。
对帖子的NLP分析确定了他汀类药物使用者与记忆障碍讨论之间的统计相关性,这在对照组中没有观察到。NLP发现,在Inspire的所有会员中,有3.1%的人发表过关于记忆或认知的文章。在发表有关肿瘤坏死因子抑制剂的文章的对照组中,6.2%的人也发表了有关记忆和认知的文章。相比之下,在所有发布有关他汀类药物的帖子中,22.6% (
这项研究的相关性表明,需要进一步研究他汀类药物对记忆和认知的影响。此外,当使用非传统的数据集,如在线社区、自然语言处理和语言学方法时,可以扩大识别副作用信号的范围。对于诸如记忆和认知方面的副作用,这些自我报告可能不可靠,这些方法可以提供另一种途径来通知患者、提供者和食品和药物管理局。
美国心脏病学会-美国心脏协会2013年发布的指南实施后,估计全球将有10亿人有资格服用他汀类药物来预防心血管疾病[
调查他汀类药物对中枢神经系统影响的研究包括案例研究[
然而,在2012年,基于对来自美国食品和药物管理局(FDA)不良事件报告系统的自发性失忆、精神错乱和注意力不集中投诉等报告的审查,FDA要求对他汀类药物标签进行修改[
据报道,他汀类药物会导致记忆丧失和思维混乱。这些报告的事件通常不严重,一旦不再服用药物就会消失。
许多人认为证据不确凿,这一决定仍存在争议。
在药物开发临床试验中,需要在通过设定合格标准来限制变量和代表一旦批准可能使用产品的更广泛的患者群体之间取得平衡。同样,虽然最近的政策倡议正在实施,重点是纳入历史上代表性不足的群体,但障碍仍然存在。临床试验的这些局限性可能掩盖了潜在的产品益处和副作用。为了弥补这些差距,卫生社区的在线交流可作为药物副作用的额外人口信号。
使用这些新颖的数据源需要独特的策略。在在线患者论坛上可以找到丰富的患者体验数据。这里的数据是非结构化的,允许通过有机的患者和护理人员语言来识别自然发生的主题和主题。
自然语言处理(NLP)以及动手语言分析可以应用于在线帖子。在这项研究中,帖子是由Inspire上的患者和护理人员撰写的,Inspire是一家为100多万患者和护理人员创建和管理在线支持社区的公司。对讨论他汀类药物的在线患者和护理人员交流进行分析,利用NLP方法和技术绘制他汀类药物使用者对记忆事件讨论之间的相关性,并将这些事件与使用其他类别药物的患者的记忆事件讨论以及Inspire上所有其他患者的记忆事件讨论进行比较。NLP系统使用标记化、词法化、词干提取、编辑距离、首字母缩略词解剖以及单词和短语边界来理解帖子的内容和含义。然后将这些发现与维基百科条目相关联,并与美国国立卫生研究院(与斯坦福大学合作开发)的条件和治疗字典相关联,以准确地提取本研究中使用的实体。此外,使用语言分析手工管理员额为这些统计结果提供了定性背景。
通过将这些工具应用于Inspire上关注心脏健康的社区成员创建的帖子,这些数据可用于研究他汀类药物,并确定他汀类药物使用与记忆或认知障碍之间的潜在交叉。此外,这种组合策略获取了患者的声音,为社区成员如何描述他们服用他汀类药物的经历和记忆变化提供了详细的指导。
本研究的目的是采用非传统数据集来识别药物副作用信号。具体而言,该研究旨在将NLP技术和实际语言分析应用于一组来自已知他汀类药物使用者的在线帖子(1),以确定他汀类药物使用与记忆或认知障碍之间的任何潜在交叉;(2)获取患者对他汀类药物使用经历和记忆变化的描述中的词汇。
研究人员利用Inspire上的用户生成内容(UGC),查看了该网站上1100多万条帖子。这些帖子是由Inspire上不同社区的患者和护理人员撰写的。在确定了这些帖子之后,研究人员使用NLP和动手语言分析来绘制他汀类药物使用与记忆和认知之间的相关性。
在超过1100万个独特的帖子和超过44万个不同的海报(患者和护理人员)的语料库中
创建实体。实体提取的基础来自维基百科和维基数据,使用自然语言处理公司TextRazor创建的技术工具。
分析的第一阶段是提取每一个包含与记忆丧失或认知能力下降有关的实体的帖子。以下是所使用的实体,每一个都在维基百科上有一个不同的条目:认知,认知障碍,记忆,回忆,短期记忆,记忆障碍,工作记忆,记忆广度,严重认知障碍,轻度认知障碍和认知缺陷。
请注意,每个实体都与数十种变体相关联,即不同的短语、俗语和拼写错误。例如,
研究人员随后对他汀类药物进行了同样的研究,使用了以下实体:乌司他汀、西司他汀、烟酸、辛伐他汀、氟伐他汀、迁移他汀、卵泡他汀、美伐他汀、癌他汀M、胱他汀、西伐他汀、生长他汀、辛伐他汀、洛伐他汀、康布他汀A4磷酸酯、肌生长他汀、制霉菌素、阿托伐他汀、氨氯地平、血管他汀、Crestor、立普妥和Vytorin。
最后,研究小组确定了可以作为对照组的药物讨论。研究人员想要选择一个表明人们在写一种特定药物的帖子的基线,以减少实验变化到一个单一的变化,特别是正在讨论的药物。在这种情况下,决定使用肿瘤坏死因子TNF抑制剂。
选择TNF抑制剂进行统计比较有几个原因。首先,TNF抑制剂是一种常用的处方药,很大一部分Inspire成员都在使用。其次,TNF抑制剂用于与他汀类药物治疗不重叠的病症;因此,服用两种药物的人之间的重叠尽可能少。第三,TNF抑制剂与记忆丧失或认知能力下降无关。第四,通常相同年龄的队列使用TNF抑制剂和他汀类药物,最大限度地减少两组之间认知能力下降的年龄相关影响。
用于TNF抑制剂的实体如下:Humira, golimumab, Enbrel, certolizumab pegol和Remicade。
通过找到每个集合中写过一个或多个实体的作者,以及写过包含多个集合中实体重叠的帖子的作者,研究人员能够在集合之间进行显著的统计分析。这与分析首先提到的是什么无关。作者可以在某个时间点提到认知问题,然后再提到他汀类药物,或者反过来。
为了给统计结果提供定性背景,使用语言学方法对246篇提到他汀类药物使用和记忆事件的UGC帖子进行了人工管理。提取帖子并将其放入一个可分析的Excel文件中,该文件包含以下信息:匿名用户标识符、帖子日期、帖子标题、帖子链接和帖子内容。研究人员开发了一个数据驱动的代码本,带有代码标签、完整定义和示例。按照Boyatzi所描述的过程,团队首先审查并减少原始信息;第二,确定子样本主题;第三,主题对比;第四,建立规范;第五,确定了代码的可靠性[
这项研究由梅奥诊所进行了内部审查,并被发现不受机构审查委员会的审查。所有个人身份信息都被删除了。所有数据都是在不知道相关人员身份的情况下进行评估的。
对帖子的NLP分析发现了他汀类药物使用者和记忆障碍讨论之间的统计相关性,这在对照组中没有发现。此外,对抽样员额的语言分析为这些统计结果提供了主题和背景。
通过上述分析,研究人员发现,在Inspire上发表这些话题的人数如下
为了检验观察到的包含他汀类药物实体的帖子和包含内存的帖子的高比例成员的统计显著性,应用Fisher精确检验(在R中计算,版本3.4.1)。计算出的优势比为9.703 (
通过帖子主题激励会员号码。
激励会员编号 | 关于任何事情的帖子 | 关于肿瘤坏死因子抑制剂的帖子 | 关于他汀类药物的帖子 |
成员总数,n | 440835年 | 14323年 | 5259 |
发表关于内存的文章的成员的子集,n (%) | 13878 (3.15)一个 | 884 (6.17)一个 | 1186 (22.55)一个 |
一个重叠的百分比。
计算优势比和显著性测度的双向列联表。
实体 | 记忆的实体 | 没有内存实体 | 总和 |
他汀类药物的实体 | 1186 | 4073 | 5259 |
没有他汀类药物实体 | 12692年 | 422884年 | 435576年 |
总和 | 13878年 | 426957年 | 440835年 |
在数据中发现了与作者记忆相关的4个关键主题:记忆丧失、失语症、认知障碍和情绪变化。这些主题的摘要、耐心的词汇和具体的例子可以在
记忆困难也归因于衰老,
病人词汇和关键记忆主题的例子。
关键记忆主题 | 病人词典 | 例子 |
记忆丧失:虽然有些患者在长期记忆方面有问题,但这些患者对短期记忆的影响最感兴趣,也最关注。 |
短期/长期记忆丧失 短期记忆减退 短期记忆来来去去 内存问题 内存问题 记忆受损 记忆困难 记忆被击碎 记忆力下降 健忘 记忆困难 |
忘记已经发生的事情,已经完成的事情,或者应该在未来完成的事情 忘记作者应该知道的事情/事实 |
失语症:作者描述他们难以表达自己的想法。特别是,作者很难记住他们认识和熟悉的人的名字。 |
语言思维 失语 找不到词或找不到词 |
难以回忆单词,尤其是名字 造句困难 |
认知障碍:作者描述了思考、推理或理解能力的丧失。作者还关注功能的丧失。作者尤其担心注意力持续时间和忘记如何完成基本任务。 |
混乱/精神混乱 阿尔茨海默氏症/即时阿尔茨海默氏症 痴呆 脑雾/雾蒙蒙的 认知的损失 神经系统问题 模糊思维 慢 认知问题 老年性 精神集中 认知障碍 |
注意力不集中 不能打字或写字 数钱或购物困难 完成任务需要更长的时间,或者忘记如何完成任务 上错了车或认不出自己的车 在夜里徘徊,不知道为什么 认不出人 认不出熟人 难以向他人解释事情,尤其是医生 |
情绪变化:作者描述他们的情绪发生了变化,与感到沮丧或缺乏情绪作斗争。作者还描述了容易生气、喜怒无常或不感兴趣。一小部分人感到焦虑加剧。 |
抑郁/悲伤 急脾气的人 穆迪/喜怒无常 焦虑 累了 情绪不稳 |
失去欲望或感觉不到快乐 对情况反应过度 迅速发怒 担心 矛盾情绪 |
本研究使用自我识别的患者和护理人员的在线社区来评估他汀类药物使用者自我报告的记忆障碍信号。他汀类药物使用者队列与使用TNF抑制剂的患者队列以及该部位的总体患者队列进行比较。尽管在总体人群和肿瘤坏死因子抑制剂使用者中讨论记忆障碍的时间分别为3.1%和6.2%,但他汀类药物使用者的谈话和记忆障碍帖子之间的重叠率为22.6%,这表明他汀类药物使用者与讨论记忆问题之间的相关性要高得多,而且显著不同。
此外,对他汀类药物使用者讨论记忆障碍的一组帖子进行语言分析,以确定关键主题。这些患者和护理人员认为存在记忆丧失、失语、认知功能和情绪变化的困难。患者和护理人员指出了这些变化的速度和严重程度,将他们的经历比作
虽然有临床试验没有发现认知障碍与他汀类药物的使用有关,但这些试验是专门评估心血管预后的,而不是评估认知预后的[
这项研究的发现支持了使用新颖和非传统数据来源作为副作用的额外人口信号的重要性。记忆问题和认知障碍的本质可能导致医生对这些问题的少报。此外,在网上的帖子中,患者报告医生轻视、忽视或不重视他们对记忆问题的担忧。当他们的担忧被忽视时,改善的病人护理和结果将受到严重损害。当患者的抱怨和担忧没有得到解决时,向FDA少报这种副作用是不可避免的。这强调了以非传统的方式让患者体验光明的必要性。
药物开发临床试验应该平衡资格标准,它允许一个确定的人群进行研究,与这些标准产生的限制。具体来说,资格标准排除和缩小,降低了数据的代表性。这部分人群可能不能代表一旦产品被批准就可能使用的更广泛的患者群体。虽然最近有一些政策举措侧重于包容历史上代表性不足的群体,但仍然存在可能限制或掩盖潜在益处和副作用的障碍。在线社区提供的数据可以扩大研究队列,有可能接触到传统上没有参加其他形式研究的患者。分析这些患者的数据并使用混合的定量和定性方法可以证实结果,并为副作用识别和调查提供了新的途径。
这项研究有一些局限性。首先,个别作者的临床诊断、病史和目前的治疗是自我报告的,无法证实,可能会遗漏一些信息。其次,作者的人口统计数据是未知的,因此不清楚这些数据如何反映一般人群。此外,考虑到在线交流的内在病毒性,可能存在检测偏差的因素,这可能是相关的。此外,定性分析也可能反映了参与者在单词选择上预测结果错误分类的局限性。根据自由文本审查选择搜索词,以限制替代词选择的影响。尽管如此,如果社区参与者由于感知到相关的耻辱而选择不讨论或分享记忆挑战,则遗漏病例可能是一个问题。
定性研究的一个优点是提供有关人类经验的详细信息,这使它在应用于健康方面时成为一种引人注目的工具[
然而,在一项方法学研究中,研究人员比较了纯自然语言语言分析、纯文本定性分析和纯文本定性分析相结合的方法,得出结论:纯自然语言语言分析是识别和量化主要主题的有效工具,但缺乏捕捉清晰和理解所必需的上下文细微差别的能力。结合这两种方法可提供最全面及最高质素的结果[
斯坦福大学医学院与Inspire合作,利用NLP对Inspire上的800多万篇帖子进行了研究,以寻找化疗药物和不良反应之间的关联。该研究特别从与(1)表皮生长因子受体抑制剂厄洛替尼和(2)免疫检查点程序性细胞死亡- 1抑制剂纳武单抗和派姆单抗相关的文章中提取了常见和罕见的皮肤不良反应(如皮疹、水疱和牛皮癣)。研究小组发现,一些接受化疗药物厄洛替尼(特罗凯)的患者报告说,他们汗液少,无法出汗,这种情况可能导致中暑、中暑,甚至死亡。这种不良反应从未在医学文献中报道过,但Inspire成员已经讨论了11年多。研究小组还发现,Inspire成员之间讨论其他检查点抑制剂的不良反应的时间比医学文献报道的要早得多——平均7个月后,这些副作用才被报道出来。
估计在第一年停止他汀类药物治疗的比例高达50%。这种高度的停药令人不安,因为他汀类药物已被证明可以降低心血管疾病的风险,其效果随着每年的使用而增加,并且长期持续。
使用在线进行的去识别通信可以增加关于药物使用和不良反应的知识库。庞大的在线人群,包括传统上可能不参与研究的大量患者,可以作为副作用的额外人群信号。
与先前的厄洛替尼研究一样,这种类型的研究可以用来告知FDA由于各种原因目前未报告的副作用或不良反应。将NLP分析与定性分析相结合,可以拓宽和深化学习,测试假设,并揭示对患者体验的见解。关于他汀类药物的使用,患者可能不会将他们的药物与认知变化联系起来,可能不愿意告知他们的医生,或者可能无法在临床环境中阐明这些变化。如果病人告诉医生,医生可能不会把这个信息传达给FDA,或者觉得利大于弊。
需要进一步的研究来真正确定使用他汀类药物所发生的认知变化的程度。
药物不良反应
美国食品药品监督管理局
自然语言处理
肿瘤坏死因子
用户生成内容
没有宣布。