发表在第十卷第九期(2022年):9月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/38140,首次出版
基于自然语言处理的社交媒体药品不良事件提及评估:模型开发与分析

基于自然语言处理的社交媒体药品不良事件提及评估:模型开发与分析

基于自然语言处理的社交媒体药品不良事件提及评估:模型开发与分析

原始论文

1美国密歇根州安阿伯市密歇根大学信息学院

2美国密歇根州安阿伯市密歇根大学医学院学习健康科学系

通讯作者:

V G Vinod Vydiswaran博士

学习健康科学系

医学院

密歇根大学

1161 f NIB

英格尔斯街北侧300号

安娜堡,密歇根州,48109

美国

电话:1 734 647 1207

传真:1 734 647 3914

电子邮件:vgvinodv@umich.edu


背景:药物不良反应在临床实践和公共卫生监测中都引起了重大关注。已采取多项措施,加强对药物不良反应的上市后监测,并提高药物安全性。这些措施包括实施自发报告系统和开发基于电子健康记录和社交媒体数据的自动化自然语言处理系统,以收集可作为可能的不良反应进一步调查的药物不良事件证据。

摘要目的:虽然使用社交媒体收集药物不良事件的证据有潜力,但尚不清楚社交媒体是否是这一信息的可靠来源。我们的工作旨在(1)开发自然语言处理方法来识别社交媒体上的药物不良事件;(2)评估社交媒体数据的可靠性以识别药物不良事件。

方法:我们提出了一种配置的长短期记忆网络模型,该模型具有集中池和聚合,由预训练模型生成的上下文表示。我们将该模型应用于大规模Twitter数据,以识别与不良药物事件相关的推文。我们对这些推文进行了定性内容分析,以验证社交媒体数据作为收集此类信息的手段的可靠性。

结果:该模型在验证和评估阶段都优于没有上下文表示的变体。通过对药品不良事件推文内容分析,我们发现药品不良事件相关讨论共有7个主题。精神健康相关、睡眠相关和疼痛相关的药物不良事件讨论最为频繁。我们还将已知的药物不良反应与推文中提到的不良反应进行了对比。

结论:当使用上下文信息时,我们观察到模型有明显的改进。然而,我们的结果揭示了当前系统对未见数据的弱泛化能力。为了充分利用社交媒体数据,提高自然语言处理系统的稳健性和可靠性,还需要进一步的研究。另一方面,内容分析表明,Twitter覆盖了足够广泛的药物不良事件,以及推文中提到的药物的已知不良反应。我们的工作表明,社交媒体可以成为收集药物不良事件提及的可靠数据来源。

JMIR Med Inform 2022;10(9):e38140

doi: 10.2196/38140

关键字



背景

药物不良反应是临床实践和公共卫生监测中最重要的问题之一,但它们在文献中没有一致的定义。根据爱德华兹和阿伦森[1],特定药物的副作用被定义为“在正常剂量下发生的与药物药理特性相关的意外效应”。意想不到的效果可能是有害的,也可能是有益的。例如,β受体阻滞剂主要用于高血压,但也可以缓解患者的胸痛(或心绞痛)[1].根据世界卫生组织(卫生组织)的一份报告[2],不良反应被定义为“对一种有害的、非预期的、在人类正常使用剂量下发生的药物的任何反应。”Asscher等人使用了类似的不良反应定义[3.]和Pirmohamed等[4],但他们的定义包括药物在适当的临床应用中使用的情况。换句话说,世卫组织的定义允许以正常剂量不当使用药物,而Asscher等人和Pirmohamed等人不包括这种情况。Karch和Lasagna对不良反应的定义[5]是类似的,但包括故意过量用药和药物滥用的影响。虽然使用了各种不良反应的定义,但这些定义中最常见的组成部分是由使用药物引起的或怀疑是由于使用药物引起的意外后果[1-5].

另一方面,不良事件被定义为“接触药物后发生的不良事件,但不一定是由药物引起的”[13.].虽然“不良事件”和“不良反应”这两个术语是类似的,但它们不能互换使用,因为在不良事件的定义中没有因果假设,而在不良反应的定义中有因果假设。据报告,不良反应是导致死亡的十大主要原因之一[67].加强药品上市后监管,提高药品安全水平。这些措施包括实施自发报告制度,例如美国食品及药物管理局不良事件报告制度[278].

另一方面,研究人员也在研究开发使用电子健康记录和社交媒体数据的自动化系统。9-11]收集不良事件的经验,可作为可能的不良反应进一步调查。最近,基于深度神经网络的模型已经开发出来,用于检测推文中的不良事件[12-14].长短期记忆(LSTM)网络和预训练的语言模型,例如来自变压器的双向编码器表示(BERT) [15]和生成式预训练语言模型[16],已被选为此应用程序的模型[12-14].不过,这些制度的实施仍有改善的空间[9-11].其他研究人员已经提出了各种神经网络系统,但迄今为止还没有一个系统同时包含基于递归的网络(如LSTM)和基于注意力的网络(如BERT)。捕获顺序处理的输出和上下文处理的输出可以帮助模型更好地学习数据和任务。最后,机器学习和深度学习模型已经证明了它们在检测社交媒体数据中提到的不良事件方面的有效性[17],但仍不确定社交媒体是否可以作为不良事件检测的有效数据源。

本研究的目的

在本文中,我们使用术语“药物不良事件”(ADE)而不是“不良事件”。我们将从推文中识别ADE提及的任务制定为分类任务,即根据推文是否包含ADE的提及来标记推文。我们提出了一个基于神经网络的框架,该框架结合了增强医疗表示和上下文表示来构建一个健壮的分类模型。我们的工作旨在开发一个自然语言处理(NLP)系统,基于社交媒体文本识别ADE提及,并评估社交媒体数据的可靠性,尤其是Twitter,作为收集信息的一种手段。我们的研究问题如下:“来自预训练语言模型的上下文表示是否有助于增强ADE推文分类模型?以及“社交媒体能成为收集ade提及情况的可靠数据来源吗?”

我们进行了全面的实验分析,以验证模型的有效性。此外,我们进行了系统评估研究,以确定Twitter作为收集ade提及的数据源的可靠性。我们的工作做出了以下经验贡献:(1)我们证明,与不合并上下文表征相比,将上下文表征与增强的医学表征结合在一起,显著提高了不良事件检测任务的性能,(2)我们表明,目前用于识别推文中提到的ade的自动化系统还不够一般化,(3)我们观察到推特相对较好地覆盖了足够广泛的ade,包括已知的ade,并得出结论,社交媒体可以成为收集ADE提及次数的可靠数据来源。

相关工作

在药物上市之前,通过随机对照试验获得相关ade的初步描述[18].这些试验可能提供的初步描述并不完全完整[19].由于不良反应的初始清单不完整,药物警戒在上市后阶段发挥着重要作用,并且有必要收集有关不良反应的任何新信息。包括Twitter在内的社交媒体已被探索作为药物警戒的平台,例如通过NLP收集ade的提及情况[111720.-22].推文的文本相对较短,但仍然传达了患者通常自我披露的经验信息。一条被认为与ade相关的推文,不仅必须提到至少一种不良事件,还必须提到一种药物的名字。值得注意的是,如果一条推文没有提及毒品,就不能被视为与ade有关。

已开发出用于识别ade提及的标记推文数据集,以在共享竞争中对NLP系统进行基准测试[11-1322-25].这些带注释的数据集使研究人员能够开发自动化系统,并将它们相互比较。早期用于识别推文中提到ade的系统基于策划词汇、启发式规则、模式匹配或监督机器学习方法[2324].探索了各种基于词典的功能,如ADE词汇、药物名称和医学概念,以及语言和情感分析。近年来,基于神经网络的模型由于其出色的性能而成为热门的选择[11].


数据源

我们使用了3个基于twitter的数据集来开发和评估我们的模型——1个用于训练,2个用于评估。训练集和第一个评估集来自对报告不良影响的英语推文进行自动分类的共享任务,该任务是2020年社交媒体健康挖掘(SMM4H)研讨会的一部分[11].据这项共享任务的组织者称,这些推文是通过Twitter的公共流媒体API收集的。药品的通用名称和商品名称,以及它们常见的拼写错误,被用作收集数据的关键词。收集后,推文由2个注释者独立注释,注释者间一致性的Cohen κ为0.82。有分歧的推文被重新注释,直到两人达成共识。第二个评价集来自Dietrich等人开发的名为WEB-RADR(网络识别药物不良反应)的公开参考数据集[22].这些推文也是以类似的方式收集的。批注工作由2个小组完成,每个小组9名批注员;但是,还没有关于注释者之间一致性的报道。

表1总结了3个数据集的统计数据。在预处理和删除重复的推文后,训练集中有24,700条推文。其中,约9%(2362条)的推文被标记为ADE推文,即推文包含1条或1条以上的不良事件,同时至少提到1种药物。其余91%(22,338)的推文被标记为非ade推文,这意味着这些推文没有提到任何不良反应,但提到了药物。在24700条推文中,20098条(81.4%)用于训练模型,而其他4602条(18.6%)用于验证。在SMM4H评估集中,ADE推文与非ADE推文的分布更加倾斜。在评估集中的4759条推文中,只有194条(4.1%)被标记为ADE推文,4565条(95.9%)被标记为非ADE推文。

我们还在WEB-RADR上评估了我们的模型[22],我们将其作为第二个独立的数据集。原始数据集由57,473条推文组成,其中1056条(1.8%)标记为ADE推文,56,417条(98.2%)标记为非ADE推文。然而,从原始数据集中,我们只能成功收集到34,369条(59.8%)推文,这可能是由于暂停账户或删除推文造成的。其中,645条(1.9%)被标记为ADE推文,而其余33,724条(98.1%)是非ADE推文。

所有的推文都经过预处理,以分离标点符号,删除特殊字符和url,替换以@开头的用户提及,并将文本表情符号替换为规范化的标记。没有使用特定的文本清洗包。

表1。统计培训和评估数据集。
数据集 微博, 正面一个微博, 非ade推文,n 独特药物n 推特上有毒品,但图书馆里没有
SMM4Hb培训 24700年 2362 22338年 1020 31
SMM4H评价 4759 194 4565 688 129
WEB-RADRc评价 34369年 645 33724年 685 25646年

一个ADE:药物不良事件。

bSMM4H:社交媒体健康挖掘。

cWEB-RADR: web-识别药物不良反应。

自然语言处理系统开发

模型选择

近年来,预训练的语言模型已被广泛部署为众多NLP任务的基础模型,这些任务可以微调为特定下游任务的数据集,通常称为迁移学习。尽管训练相对简单,但这种迁移学习方法已被证明是许多NLP任务的强大工具,包括ADE分类。迁移学习使下游任务成功,因为这些语言模型是在大型语料库上训练的;因此,他们获得了强大的代表性力量。

在我们之前的工作中,我们提出了一个带有专注池和聚合表示(CLAPA)的LSTM模型,该模型利用邻域信息来构建更好的医学概念表示[26].该模型侧重于通过搭配图整合邻域信息来增强医学概念。虽然CLAPA丰富了医学概念的表示,但它对其他上下文信息(如语义)的表示相对较弱。预训练模型提供上下文信息的健壮表示的能力可能有助于CLAPA更好地学习。基于这个动机,我们将CLAPA扩展为BERT-augmented CLAPA (baCLAPA),它将BERT的logits与CLAPA训练过的表示结合在一起。之所以选择BERT,是因为它是2019年SMM4H任务中报告的预训练模型中最有竞争力的模型[13].本任务中比较的3个模型说明在图1并总结如下。

图1。3个模型的示意图,突出说明每个模型是如何配置的。答:CLAPA;B:伯特;C: baCLAPA。baCLAPA:来自变压器辅助配置长短期记忆的双向编码器表示,具有注意池化和聚合表示;BERT:来自变压器的双向编码器表示;CLAPA:使用集中池和聚合表示配置长短期记忆;FC:全连接;LSTM:长短期记忆; MHA: multi-head attention.
查看此图
CLAPA模型

CLAPA [26],图示于图1A,利用搭配信息来改善医学概念的表示。CLAPA需要三个主要组成部分:(1)医学概念,(2)搭配图,(3)模型体系结构。

首先,对于医学概念,从MedlinePlus收集药物的通用名称和品牌名称[27].一些通用的医学词汇或品牌名称,如“阿门”和“希瑟”,被删除,以减少噪音。然后,通过添加训练集中推文中的医学单词来扩展医学概念列表,这些单词在从MedlinePlus获得的药物列表中缺失。结果,共收集到4888个医学概念,包括来自MedlinePlus的4747个药物名称和来自SMM4H训练集的141个药物名称。

其次,对于搭配图,将训练集中每个唯一的单词分配为一个节点,如果对应的单词对彼此相邻,则在节点对之间添加边。图构建完成后,在对邻域大小进行实证分析后,通过仅保留每个医学概念最接近的15个邻域节点来缩减图[26].

第三,在模型架构上,实现了4层300个输入大小的LSTM网络,然后是3个多头注意层和最大池化和池化层。FastText预训练嵌入[28用于词嵌入。所有超参数以0.001的学习率和交叉熵损失函数联合训练。

伯特模型

作为另一个基线模型,我们实例化了一个BERT模型[15],图示于图1B. bert-base uncase模型用于分类,并基于超参数设置的建议进行了调整[15].BERT模型在训练集上进行了微调,没有对超参数进行进一步修改。两个标记[CLS]和[SEP]被添加到输入表示的开头和结尾。每个句子都通过BertTokenizer进行标记,并输入BERT模型。我们的BERT模型包含与基础模型相同的参数,有12层,768个输入大小,12个多头关注。分类层超参数联合训练,学习率为5e5

baCLAPA模型

我们提出的baCLAPA模型说明在图1C.该模型由两个并行堆栈组成——一个CLAPA模型和一个BERT模型。输入的句子同时输入CLAPA和BERT模型。每个网络独立地学习输入嵌入。一旦每个模型产生了最终的隐藏状态,这些状态就被缩减为大小为2的表示,通常称为logit。然后将BERT的原始输出表示合并到CLAPA中,或大如最终隐藏状态,或小如logit,映射到二维向量空间进行二进制分类。在本文提出的任务中,BERT的日志被用于协助CLAPA,因为日志提供了一个简短而全面的表示,说明网络如何从输入中学习。因此,BERT的日志与CLAPA的日志相连接,以生成预测。在图1C,全连接层内的2个粗体框显示了BERT的日志和CLAPA的日志是如何连接的。形式上,可以写成如下形式:

在哪里指CLAPA中最后一层全连接层,而且是CLAPA和BERT的日志,和是最终的logit。一旦CLAPA和BERT生成它们的日志,BERT的日志就传递给CLAPA。然后,将它们的logits串联起来,产生.最后,将最终的logits输入Softmax进行二进制分类。

基线

另外两个模型被用作基线。首先,我们使用具有线性核的SVM模型,并将其他超参数设置为默认值。输入表示法包括一种词频逆文档频率加权表示法。作为第二个基线,我们使用加权分布的随机模型。

确定社交媒体作为数据源可靠性的验证研究

研究的问题

为了验证社交媒体数据作为收集ade手段的可靠性,我们分析了由baCLAPA模型收集的推文。这项研究旨在回答关于社交媒体数据的两个问题:(1)Twitter上提到了哪些类型的ade ?(2) ADE在推特上提到的每种已知药物中,有多少也提到了权威来源列出的已知不良反应?回答第一个问题将揭示社交媒体上是如何报道各种ade的,回答第二个问题将揭示社交媒体上有多少相关ade被提及。已知的不良事件收集自美国国家医学图书馆(US National Library of Medicine)运营的权威、流行和可信的网站MedlinePlus。

ADE Tweets的获取:数据源和ADE分类

本研究中使用的Twitter数据来自Vydiswaran等人的一篇论文[29].数据是通过Twitter API、用户时间轴和Decahose流收集的,Decahose流是实时Twitter流的10%随机样本。首先,Twitter API和用户时间轴用于收集底特律市区附近用户的所有推文。然后,通过Decahose流扩展数据集。该数据集总共包含2880万条推文。关于数据收集的更多细节可以在Vydiswaran等人的论文中找到[29].

首先,我们从药物列表中过滤了2880万条推文,其中包括4888个药物名称。这一步允许我们对包含至少一个药物关键字的推文进行分类。这让我们在2880万条推文中确定了34536条是提及毒品的推文。然后,我们的baCLAPA模型应用于这些推文,并识别出1544条ADE推文。

推文的定性内容分析

我们进行了定性内容分析[30.]来回答上面提到的两个问题:(1)Twitter上涵盖了多少种不同类型的ade ?(2) MedlinePlus上有多少ADE关于特定药物的推文确定了该药物已知的不良反应?我们首先提取了1544条推文中提到的139种独特药物。然后,我们进行了定性内容分析,从1544条推文中推导出ade的主题。在定性编码过程中,我们发现药物词“咖啡因”主要指咖啡,而“维生素”一词过于笼统,无法确定服用的是哪种维生素补充剂。因此,只包含这些药物词汇的推文被删除了——462条推文是“咖啡因”,141条推文是“维生素”。总共941条ADE推文因此被定性分析。这些推文被手动编码,以识别ADEs的主题,直到主题饱和。在分析完成后,由领域专家审查主题。

一旦我们确定了主题,我们通过MedlinePlus收集了每种药物的已知不良反应信息,并将它们与内容分析确定的主题进行了比较。例如,在分析ADE关于布洛芬的推文时,我们确定了两个主题:恶心和出汗。当回顾MedlinePlus上关于布洛芬的信息时,我们只发现有关布洛芬可能导致恶心的相关提及,没有发现任何与出汗相关的不良反应。因此,布洛芬与恶心相关的ADE主题配对,作为已知的不良反应,但与出汗相关的ADE主题不配对。通过这种方式,我们将所有ADE推文和特定药物的已知不良反应与每个ADE主题联系起来。


NLP系统的实验结果

我们首先展示模型在验证集上的性能。这允许我们比较模型的总体性能,包括基线。CLAPA和baCLAPA均在SMM4H评价集上进行评价[31].我们进一步在另一个数据集WEB-RADR评估集上评估模型,以验证扩展模型在各种数据集上的表现是否优于原始模型。

表2,随机和支持向量机基线模型没有优于基于神经网络的模型,但支持向量机模型的召回得分是第二高的。在所有车型中,baCLAPA在所有性能指标上表现最好:精度、召回率和F1。平均而言,它在验证集上的表现比CLAPA好0.026 F1点。

为了进一步评估我们的方法,我们从10次验证运行中选择了最好的CLAPA和baCLAPA模型。的前两行结果显示了它们在验证集上的性能表3.在两个评估数据集上,baCLAPA在F1指标上优于CLAPA。SMM4H评估集中CLAPA的精度和召回值不可用,因为它仅用于最佳(baCLAPA)模型[31].虽然在SMM4H评价集上,baCLAPA的F1评分优于CLAPA 0.07,但在WEB-RADR评价集上的改善相对较小。这种改善主要是由于召回率显著提高。CLAPA在WEB-RADR上的精度测量优于baCLAPA。

表2。在验证集中运行10次的平均性能。斜体表示每个性能指标的最佳模型。
模型 精度(SD) 回忆(SD) F1分数(SD)
随机 0.099 (0.01) 0.103 (0.01) 0.101 (0.01)
支持向量机一个 0.386 (0) 0.638 (0) 0.481 (0)
CLAPAb 0.581 (0.03) 0.623 (0.03) 0.599 (0.01)
伯特c 0.54 (0.03) 0.602 (0.04) 0.567 (0.01)
baCLAPAd 0.603(0.02) 0.652(0.03) 0.625(0.007)

一个支持向量机:支持向量机。

bCLAPA:用集中池和聚合表示配置长短期记忆。

c来自变压器的双向编码器表示。

dbaCLAPA:来自变压器辅助配置长短期存储器的双向编码器表示,具有注意池化和聚合表示。

表3。在2个评估集上,使用注意池和聚合表示(CLAPA)和变压器辅助CLAPA (baCLAPA)的双向编码器表示对配置长短期记忆进行评估。斜体表示每个性能指标的最佳模型。
数据集和模型 精度 回忆 F1的分数
验证

CLAPA一个 0.563 0.649 0.603
baCLAPAb 0.589 0.676 0.629
SMM4Hc评价

CLAPA - - - - - -d - - - - - - 0.44
baCLAPA 0.48 0.54 0.51
WEB-RADRe评价

CLAPA 0.356 0.386 0.371
baCLAPA 0.334 0.479 0.394

一个CLAPA:用集中池和聚合表示配置长短期记忆。

bbaCLAPA:来自变压器辅助配置长短期存储器的双向编码器表示,具有注意池化和聚合表示。

cSMM4H:社交媒体健康挖掘。

d不可用。

eWEB-RADR: web-识别药物不良反应。

ADE推文的定性内容分析

表4总结了前7个ADE主题,显示了每个主题的推文频率,并提供了释义示例。主要专题领域包括与精神健康有关的不良反应和与睡眠有关的不良反应。推特用户还经常分享他们与疼痛相关的不良反应的经历。其余主题在我们的数据集中讨论的频率较低。

每一行图2代表一种药物。在108条关于“布洛芬”的推文中,提到了3种药物:Advil (n=40)、布洛芬(n=36)和布洛芬(n=32);“对乙酰氨基酚”组的73条推文共提到了两种药物:泰诺(n=71)和对乙酰氨基酚(n=2)。第三列表示MedlinePlus上已知有不良反应的主题数量,以及Twitter上提到ADE的主题数量。第四列可以有两个不同的数字,用逗号分隔:第一列是与已知不良反应重叠的主题的数量,而第二列(如果存在)是与已知不良反应不重叠的主题的数量。例如,苯那君有3个已知不良反应的主题,所有这些都在推文中被记录了下来,还有一个主题没有在MedlinePlus中列出,但只在推文中提到过。对于Adderall, 6个主题包含已知的不良反应;其中5条有相关的推文。

表4。不良事件发生频次及案例前7名(N=941)。
药物不良事件主题 推文,n (%) 转述的例子
心理健康 204 (21.7) 情绪不稳定的:情绪不稳定、抑郁或兴奋的
睡眠 201 (21.4) 感到困倦,被药物打晕,想睡觉,睡不着,晚上能保持清醒
疼痛 151 (16) 正在经历其他疼痛或疼痛的,如头痛或胃痛
疲劳 27日(2.9) 感觉特别累
恶心想吐 21日(2.2) 感到恶心或想吐
出汗 20 (2.1) 经历出汗
发痒 16 (1.7) 感觉痒
图2。在MedlinePlus上发现的已知不良反应的前10种药物与在推特上发现的不良反应事件。X:已知至少一个与特定主题相关的不良反应或不良事件的药物。逗号前的值表示推文和MedlinePlus中提到的主题,而逗号后的值表示仅在推文中显示的值。
查看此图

NLP系统的主要结果

中所示的验证集上运行我们的模型表2,我们证实CLAPA的性能与之前发表的模型几乎相同,F1分数为0.5998 [26].BERT的性能也与SMM4H 2019共享任务概述中报告的基于BERT的模型的性能相似[13].这一确认确保了我们的结果不包括由于模型的意外性能而引起的任何噪声。我们的评估结果表明,baCLAPA在两个评估集上都优于CLAPA。然而,我们进行了两个观察:(1)在SMM4H评价集上,每个模型的性能之间存在显著差距;(2)与验证集相比,两个评价集上的性能都有显著下降。下面将对这些观察结果进行更详细的讨论。

首先,虽然WEB-RADR评价集中F1分数的差距似乎与验证集中的差距相似,但SMM4H评价集中两个模型的F1分数之间存在显著差距。CLAPA的F1分数为0.44,而baCLAPA的F1分数为0.51。我们相信这是因为CLAPA利用训练集来增强医学概念的表征。也就是说,模型严重依赖于训练集,这可能会导致过拟合。BERT可能有助于减少这个问题,因为它是一种语言模型,也就是说,它基于给定一个大型文本语料库的句子的完整上下文计算词嵌入。因此,加入BERT将帮助CLAPA不仅更好地学习上下文,而且不会在训练集上过度拟合模型。一旦数据集开发人员发布了金标签,或者如果我们在其他数据集中观察到类似的结果,我们计划进一步调查这一观察结果。

其次,CLAPA和baCLAPA的性能在评估集上明显低于验证集。这在一定程度上可以用推文的数量来解释,这些推文中没有找到药物清单上的任何一种药物。除了每个数据集的推文总数,表1还显示了使用我们的药物列表发现的独特药物的数量,以及没有从列表中找到任何药物名称的推文的数量。我们的药品清单包含4888个药品名称,包括通用名称和品牌名称。由于该集合最初是通过MedlinePlus构建的,并通过训练集进行扩展,它涵盖了几乎所有的推文,除了31条包含非常具体的错别字的推文,例如“vioxe”或“viox”而不是“vioxx”(正确的拼写),并且被排除在数据集之外。在训练集中,共有1020种独特的药物从我们的列表中识别出来。然而,评价集中的独特药物数量较低:SMM4H评价集中为688种,WEB-RADR评价集中为685种。在一个新的数据集中发现的药物数量预计会相对较低,因为列表是不完整的:我们的列表没有涵盖所有的药物名称或常见的拼写错误。然而,不包含任何药物词的推文数量是WEB-RADR评估集的重要组成部分。在WEB-RADR数据集中受此影响的25,646条推文将被模型视为与毒品无关的推文,而在SMM4H评估集中的129条推文将被视为与毒品无关的推文。当模型不确定一条推文是否与药物相关时,预测任务可能会受到影响,而这在很大程度上取决于药物清单。

综上所述,baCLAPA在SMM4H评价集上的F1得分为0.51,在WEB-RADR评价集上的F1得分为0.394。BaCLAPA在两个评估集上的表现都优于CLAPA,这说明了该方法的有效性。我们观察到模型在SMM4H评价集上的表现与评价性能的整体下降之间存在差距。这一趋势似乎适用于许多当前的ADE系统,因为在过去的SMM4H任务中,平均评估得分明显低于验证得分[111325].这表明,尽管baCLAPA中建议的改进似乎表现良好,但它们可能不能很好地推广到ADE分类任务的未见数据集上,Gattepaille等人也观察到[14].神经网络模型在ADE分类任务中的可泛化性有待进一步研究。

ADE Tweets内容分析的主要结果

我们的内容分析展示了ADE的主题,并对已知的不良反应和ADE的提及进行了比较,以回答两个问题:(1)Twitter上提到了哪些类型的ADE ?(2)在Twitter上提到的每种已知药物的不良反应中,有多少是MedlinePlus上列出的已知不良反应?

问题1:推特上提到了哪些ADE ?

表4说明在可用于定性内容分析的941条推文中,有7个主要的ade相关主题。其他被发现但由于频率不高而未列入表格的主题包括那些与紧张、体重、皮肤、性健康、消化和癫痫有关的主题。同样,其他ADE主题,如与视力和呼吸有关的主题,也可能用于特定药物。

问题2:在推特上提到的每种已知药物的不良反应中,有多少是MedlinePlus上列出的已知不良反应?

图2显示了MedlinePlus上发现的前10种药物及其相关的ADE主题,并与Twitter上的提及进行了比较。基于这10种药物,Twitter数据平均覆盖了MedlinePlus上已知不良反应的69.6%。当我们将推文数量设置为30条或更多时,平均覆盖率增加到78.4%。基于推文计数,我们得出结论,推文数据可以充分识别大多数药物的已知不良反应。然而,这取决于每种药物提取的推文数量。例如,当我们提取不到20条推文时,模型识别出不到一半的已知不良反应主题。设置适当的最低阈值可能是这种探索性分析的关键步骤。

最后,社交媒体分析可以帮助强调药物潜在的新的不良反应。例如,图3显示了苯拉拉明和疲劳相关ADE主题的推文,这在MedlinePlus中尚未被报道为已知的不良反应,但在这些推文中得到了表达。查看推文的具体例子可以帮助进一步阐述这些尚未报道的配对。这些例子可以直接用FAERS等报告系统进行更新。

对社交媒体进行深入分析,以检测ADE的提及情况,也可以显示外行如何用自己的语言报道ADE。学习这些表达可以帮助填补患者和卫生专业人员之间的词汇差距,并在开处方和分析患者报告的结果时更好地沟通。最后,我们观察到图2提出了12个新的可能的配对。这些事件可能表明,需要对来自深入社交媒体分析的ADE假设进行潜在测试。

通过这项研究,我们发现Twitter在给定一组药物的情况下覆盖了足够广泛的不良反应,也相对较好地覆盖了已知的不良反应,特别是当分析了足够多的药物相关推文时。因此,本研究表明,社交媒体可以成为收集ADE提及的可靠数据来源。

图3。转述与苯海拉明和疲劳相关的药物不良事件主题的例子。
查看此图

限制

我们的自然语言处理系统和研究存在一定的局限性。首先,我们没有关注药物和ADE之间的任何因果关系。虽然我们的定性分析可能表明需要进行假设检验,但验证这种因果关系的主张超出了本工作的范围。其次,这一研究的长期目标之一是建立一个自动系统,从社交媒体上收集实际的ADE提及率。虽然分类模型有助于过滤大规模数据,但它不能提供此类提及的实际程度,这阻碍了从过滤数据中获得进一步的信息,例如提及药物ade的对。为了从推特中提取这些提及,我们计划开发一个ADE提取模型。最后,我们的系统还不能在实践中完全部署。我们的实验结果表明,需要进一步的研究和开发来微调模型,以获得更好的泛化性。

本文中提出的方法可以作为一种分析工具,在来自Twitter和其他社交媒体的数据中识别潜在的不良事件。它强调了一种验证一些已知ade和发现其他潜在ade的方法。然而,它并没有充分证明社交媒体作为识别ade的独立和全面来源的相关性。由于没有关于与特定药物相关的可能不良事件的“金标准”标记数据集,现有的方法都没有提供一个全面的解决方案来识别与特定药物相关的所有已知和未知不良事件。

此外,由于Twitter用户的人口统计数据以及Twitter上药物及其不良事件的不同覆盖范围,我们的分析也存在偏见。推特用户通常更年轻,更精通技术。32].这与人口健康研究尤其相关,因为来自较低社会经济地位的人、代表性不足的少数民族、老年人和患有慢性病的人不太可能发推特[29].同样,在药物及其不良事件的报道中也可能存在偏见。虽然该分析最终基于2880万条推文,但这些数据是为底特律市区的一项基于社区的研究而收集的。这个地区的推特用户可能比其他社区或地区的推特用户更多或更少地讨论某种特定药物。因此,无论地理位置如何,我们的数据中药物使用的表示可能与收集的推文的表示不同,这使得我们的分析不能代表整体药物使用和推特上提到的药物类型。相反,我们的分析仅限于某些药物及其ADE的提及。然而,该方法和分析可用于其他药物。

结论

在本文中,我们提出了一个基于神经网络的模型baCLAPA,它结合了BERT生成的表示和CLAPA生成的表示。实验结果表明,baCLAPA的性能优于CLAPA。在不可见数据上的弱表现表明ADE分类任务仍有改进的空间。我们的验证研究表明,Twitter数据不仅包括足够广泛的ADE提及范围,而且还涵盖了相关推文中发现的大多数已知药物不良反应。

尽管我们的工作没有显示药物和ade之间的任何因果关系,但它为推进ade相关工作提供了可能的方向。例如,我们对ADE推文的定性分析可以为潜在的分析和应用提供基础。这也意味着,一旦我们有了一个通用的NLP系统来收集ADE提及,不仅包括分类,还包括提取,社交媒体数据就可以提供有意义的测量。我们的工作表明,社交媒体可以成为实现这一目标的可靠数据源。虽然最近的研究已经开发和改进了这样的系统,但我们的工作表明,ADE分类系统需要进一步研究,以研究其稳健性和可靠性。

利益冲突

没有宣布。

  1. 爱德华兹IR,阿伦森JK。药物不良反应:定义、诊断和处理。柳叶刀2000 10月07日;356(9237):1255-1259。[CrossRef] [Medline
  2. 《国际药物监测:国家中心的作用》,1971年9月20日至25日在日内瓦举行的卫生组织会议的报告。世界卫生组织1972年URL:https://apps.who.int/iris/handle/10665/40968[2022-09-12]访问
  3. 助理研究员AW, Parr GD, Whitmarsh VB。迈向更安全的药物使用。BMJ 1995 10月14日;311(7011):1003-1006 [免费全文] [CrossRef] [Medline
  4. Pirmohamed M, Breckenridge AM, Kitteringham NR, Park BK.药物不良反应。BMJ 1998 Apr 25;316(7140):1295-1298 [免费全文] [CrossRef] [Medline
  5. Karch FE,千层面L.药物不良反应。一个批判性的评论。中国医学杂志1975年12月22日;234(12):1236-1241。[Medline
  6. Lazarou J, Pomeranz BH, Corey PN。住院患者药物不良反应发生率:前瞻性研究的荟萃分析中国医学杂志1998年4月15日;279(15):1200-1205。[CrossRef] [Medline
  7. 艾哈迈德,食品和药物管理局的不良药物事件监测。J Gen Intern Med 2003 Jan;18(1):57-60 [免费全文] [CrossRef] [Medline
  8. FDA不良事件报告系统(FAERS)公共仪表盘。美国食品和药物管理局。URL:https://www.fda.gov/drugs/questions-and-answers-fdas-adverse-event-reporting-system-faers/fda-adverse-event-reporting-system-faers-public-dashboard[2022-03-20]访问
  9. Jagannatha A, Liu F, Liu W, Yu H.关于从电子健康记录记录(MADE 1.0)中提取药物、适应症和不良药物事件的第一个自然语言处理挑战的概述。药品安全2019 Jan;42(1):99-111 [免费全文] [CrossRef] [Medline
  10. Henry S, Buchan K, Filannino M, Stubbs A, Uzuner O. 2018 n2c2电子病历中的药物不良事件和药物提取共享任务。J Am Med Inform association 2020年1月1日;27(1):3-12 [免费全文] [CrossRef] [Medline
  11. Klein A, Alimova I, Flores I, Magge A, Miftahutdinov Z, Minard A,等。COLING 2020第五届健康应用社交媒体挖掘共享任务概述在:第五届社交媒体挖掘健康应用(#SMM4H)研讨会论文集和共享任务。2020年发表于:第28届计算语言学国际会议;2020年12月8日;西班牙巴塞罗那(在线)。
  12. Weissenbacher D, Sarker A, Paul M, Gonzalez-Hernandez G. EMNLP 2018第三次社交媒体健康挖掘(SMM4H)共享任务概述。2018 EMNLP研讨会SMM4H:第三届社交媒体挖掘健康应用研讨会和共享任务。2018年发表于:2018年自然语言处理经验方法会议;2018年10月31日;布鲁塞尔,比利时。[CrossRef
  13. Weissenbacher D, Sarker A, Magge A, Daughton A, O'Connor K, Paul M,等。ACL 2019第四次社交媒体健康挖掘(SMM4H)共享任务概述。SMM4H:第四届社交媒体挖掘健康应用研讨会暨共享任务。2019年发表于:第57届计算语言学协会年会上;2019年7月28日;佛罗伦萨,意大利。[CrossRef
  14. Gattepaille LM, Hedfors Vidlin S, Bergvall T, Pierce CE, Ellenius J. Twitter不良事件识别系统的前瞻性评估:来自Web-RADR项目的结果。药物saff 2020 Aug;43(8):797-808 [免费全文] [CrossRef] [Medline
  15. 戴夫林,张敏,李K, Toutanova K.伯特:深度双向转换器的语言理解预训练。2019年发表于:计算语言学协会北美分会2019年年会;2019年6月2日;明尼阿波利斯、锰。[CrossRef
  16. 李文杰,王晓明,王晓明。生成预训练对语言理解能力的影响。OpenAI资产。URL:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf[2022-09-12]访问
  17. Sarker A, Ginn R, Nikfarjam A, O'Connor K, Smith K, Jayaraman S,等。利用社交媒体数据进行药物警戒:综述。J Biomed Inform 2015 Apr;54:202-212 [免费全文] [CrossRef] [Medline
  18. 杨晓明,杨晓明,杨晓明,Trifirò G.药物不良反应的临床和经济负担。J Pharmacol Pharmacother 2013 Dec;4(增刊1):S73-S77 [免费全文] [CrossRef] [Medline
  19. Rossi AC, Knapp DE, Anello C, O'Neill RT, Graham CF, Mendelis PS,等。药物不良反应的发现。所选IV期研究与自发报告方法的比较。《美国医学会杂志》1983;249(16):2226 - 2228。[CrossRef] [Medline
  20. 王春梅,王春梅,王春梅,王春梅。我国药品不良事件评注研究综述。J Biomed Inform 2015年6月;55:73-81 [免费全文] [CrossRef] [Medline
  21. 王晓明,王晓明,张晓明,等。PsyTAR数据集:从患者产生的叙述到药物不良事件和精神药物有效性的语料库。数据简报2019年6月;24:103838 [免费全文] [CrossRef] [Medline
  22. 戴德里奇,M, gtepaille, BA, Jiri L, M, Sartori D,等。twitter的不良事件-基准参考数据集的开发:来自IMI WEB-RADR的结果。药物saff 2020年5月;43(5):467-478 [免费全文] [CrossRef] [Medline
  23. Sarker A, Nikfarjam A, Gonzalez-Hernandez G.社交媒体挖掘共享任务研讨会。在:生物计算2016:太平洋研讨会论文集2016年发表于:太平洋生物计算研讨会;2016年1月4日至7日;威美亚,HI p. 581-592。[CrossRef
  24. Sarker A, Gonzalez-Hernandez G. 2017年AMIA第二次社交媒体健康挖掘(SMM4H)共享任务概述。见:第二届社交媒体挖掘健康研究与应用研讨会论文集,2017年发表于:美国医学信息协会年度研讨会;2017年11月6日;华盛顿特区。[CrossRef
  25. Magge A, Klein A, Miranda-Escalada A, al -garadi M, Alimova I, Miftahutdinov Z,等。naacl2021第六届健康应用社交媒体挖掘(#SMM4H)共享任务概述。见:第六届社交媒体挖掘健康(#SMM4H)研讨会论文集和共享任务。2021年6月10日发表于:计算语言学协会北美分会2021年年会;2021年6月6日;墨西哥城,墨西哥(在线)。[CrossRef
  26. Zhao X, Yu D, Vydiswaran V.使用专注的、配置的和聚合的医疗代表来识别推文中提到的药物不良事件。见:第四届社交媒体挖掘健康应用(#SMM4H)研讨会论文集和共享任务,2019年发表于:第57届计算语言学协会年会上;2019年7月28日;佛罗伦萨,意大利。[CrossRef
  27. 来自国家医学图书馆的健康信息。医疗在线。URL:https://medlineplus.gov/[2022-03-20]访问
  28. Joulin A, Grave E, Bojanowski P, Mikolov T.高效文本分类的技巧包。在:计算语言学协会第15届欧洲分会会议论文集:第2卷,短论文。2017年发表于:计算语言学协会第15届欧洲分会会议;2017年4月3日;瓦伦西亚,西班牙。[CrossRef
  29. Vydiswaran V, Romero D, Zhao X, Yu D, Gomez-Lopez I, Lu J,等。“培根培根培根”:底特律市区与食物相关的推文和情绪。见:第十二届网络和社交媒体国际会议论文集,ICWSM 2018。2018年发表于:第十二届国际AAAI网络与社交媒体会议;2018年6月25日;斯坦福大学,加州。
  30. 定性内容分析。论坛:定性社会研究。URL:https://www.qualitative-research.net/index.php/fqs/article/view/1089/2385[2022-09-12]访问
  31. 王晓东,赵晓东,王志强,王志强,等。从推特中识别药物滥用和不良反应:密歇根大学在# SMM4H 2020年。见:第五届社交媒体挖掘健康应用研讨会暨共享任务论文集,2020年。90 ? 94页。2020年发表于:第28届国际计算语言学会议;2020年12月8日;西班牙巴塞罗那(在线)。[CrossRef
  32. Wojcik S, Hughes A.评估Twitter用户。皮尤研究中心。URL:https://www.pewresearch.org/internet/2019/04/24/sizing-up-twitter-users/[2022-09-12]访问


正面:药物不良事件
baCLAPA:来自变压器辅助配置长短期存储器的双向编码器表示,具有注意池化和聚合表示
伯特:来自变压器的双向编码器表示
CLAPA:用集中池和聚合表示配置长短期记忆
LSTM:长短期记忆
NLP:自然语言处理
SMM4H:社交媒体挖掘健康
支持向量机:支持向量机
WEB-RADR:网络识别药物不良反应
人:世界卫生组织


C·洛维斯编辑;提交21.03.22;R Sun同行评审;对作者12.06.22的评论;订正版本收到13.08.22;接受07.09.22;发表28.09.22

版权

©Deahan Yu, V G Vinod Vydiswaran。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 28.09.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map