发表在20卷第三名(2018): 3月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/9222,首次出版
患者论坛帖子中不遵守药物治疗案例的检测:主题模型方法

患者论坛帖子中不遵守药物治疗案例的检测:主题模型方法

患者论坛帖子中不遵守药物治疗案例的检测:主题模型方法

原始论文

1Unité de Mixte de Recherche 1138 22队,国家研究所Santé et de la Recherche Médicale / Université皮埃尔和玛丽居里,巴黎,法国

2Kappa Santé,创新(Kap代码),巴黎,法国

3.医疗信息学,Hôpital Européen乔治-蓬皮杜,援助Publique-Hôpitaux巴黎,巴黎,法国

通讯作者:

Redhouane Abdellaoui,硕士

Unité de Mixte de Recherche 1138 22队

国家研究所Santé et de la Recherche Médicale / Université皮埃尔和玛丽居里

15 Rue de l'École de Médecine

巴黎,75006年

法国

电话:33 648094269

电子邮件:redhouane.a@gmail.com


背景:药物不依从是许多健康状况管理的主要障碍。更好地了解不遵守治疗的潜在因素可能有助于卫生专业人员解决这一问题。患者使用点对点虚拟社区和社交媒体来分享他们关于治疗和疾病的经验。使用主题模型可以对帖子集合中的主题进行建模,从而识别不合规的情况。

摘要目的:这项研究的目的是检测描述患者与感兴趣的药物相关的不服从行为的信息。因此,目标是聚类具有与非坚持态度相关的同质词汇的帖子。

方法:我们重点研究了艾司西酞普兰和阿立哌唑分别用于治疗抑郁症和精神病。我们实施了一个概率主题模型,以确定2004年至2013年在三个最受欢迎的法国论坛上发布的提及这些药物的语料库中出现的主题。数据是使用Kappa Santé设计的网络爬虫收集的,这是Detec 't项目分析社交媒体药物安全的一部分。有几个主题与不服从治疗有关。

结果:从3650篇与抗抑郁药物(艾司西酞普兰)相关的文章和2164篇与抗精神病药物(阿立哌唑)相关的文章开始,使用潜伏狄利克雷分配使我们能够建模几个主题,包括治疗中断和剂量变化。
主题模型方法检测到不合规行为案例的召回率为98.5%(272/276),精度为32.6%(272/844)。

结论:主题模型使我们能够探索患者在社区网站上的讨论,并识别与不合规行为相关的帖子。在对不合规主题中的消息进行人工审查后,我们发现6.17%(276/4469)的帖子存在不合规处理。

中国医学医学杂志,2018;20(3):e85

doi: 10.2196 / jmir.9222

关键字



背景

世界卫生组织(世卫组织)2003年发表的一份报告强调,不遵守(或不坚持)长期治疗是一个全球性问题,不利于卫生系统的整体有效性[1].依从性在本报告中定义为患者的行为(服药、遵守卫生规则和饮食)与卫生保健专业人员(HCP)提出的建议之间的对应程度。不遵守这些建议会影响患者的生活质量(QoL)、结果和医疗成本。

世卫组织确定了不坚持治疗的几个原因,包括卫生系统的特征、患者的疾病和治疗过程。对于抑郁症患者,观察与给药频率和伴随治疗有关。对于癌症患者来说,对与治疗相关的不良反应(AEs)的恐惧会对依从性产生负面影响。对于糖尿病患者,依从性可能因年龄、性别和与医生的关系而异。几项荟萃分析显示,目前改善慢性疾病药物依从性的方法大多很复杂,而且不是很有效[23.].Cochrane小组的结论是(1)更系统和客观地衡量依从性的方法,(2)帮助患者遵循长期医学疾病的药物处方的创新是该领域需要考虑的主要问题。考虑到社交媒体是患者可以讨论他们的治疗和分享证词的平台,它们可以成为衡量治疗依从性的新数据源。

社交媒体的使用允许一大群人通过讨论创建和分享关于健康状况和药物的信息、意见和经验[4].社交媒体为药物警戒专家提供了相关的信息来源[5].本氟明的例子[6)说明了社交媒体如何成为专家的宝贵资源。已开发出识别提及不良事件的消息的方法(例如,[7])。

社交媒体在改善沟通和患者参与度方面大有希望。8].霍瓦特等[9]和Taggart等[10的研究显示,当艾滋病患者描述理想的社交网络时,信息共享和与他人社交是最常被引用的标准。王等[11]使用主题模型对孕妇论坛用户的讨论和兴趣进行建模,并显示妇女们正在分享她们对药物的经历、恐惧和担忧。斯特勒夫森等人[12]综述了Web 2.0干预措施,为50岁以上的慢性疾病患者提出了自我管理方案。患者强调了与其他患者互动的好处。例如,通过社交网络共享信息使患者能够更好地与hcp沟通。患者经常使用社交媒体讨论药物副作用和治疗依从性。毛等[13]研究了接受芳香化酶抑制剂治疗的乳腺癌患者的信息。总共有18.17%(4589/25,256)的帖子提到了至少一种不良反应,近12.8%(110/862)的个体提到了停止使用芳香化酶抑制剂。Chary等[14]研究了从社交媒体估计的处方阿片类药物滥用的地理分布与国家药物使用和健康调查(NSDUH)之间的相关性。他们得出的结论是,推特上提到的药物滥用与NSDUH对阿片类药物滥用的估计密切相关。

社交媒体甚至可能影响治疗依从性。在霍瓦特等人的研究中[15],一项针对艾滋病毒患者的网络调查结果显示,52.6%(164/312)的参与者被认为不合规。Taggart等人发表的元分析[10他确定了两项关于艾滋病毒人群的研究,这些研究证明了社交媒体的使用与用户对治疗依从性的改善之间的联系。此外,毛等人[13的研究表明,乳腺癌患者为应对药物副作用提供了切实可行的策略,并相互支持。例如,28.10%(7097/25,256)的帖子提到了一些解决芳香化酶抑制剂相关关节痛的方法,包括锻炼和药物,无论是处方还是非处方。

对大量叙事的分析需要自动文本挖掘技术[5].这些技术已被用于从电子健康记录中提取信息。例如,Topaz等人[16]挖掘临床故事,以确定不遵守治疗的心力衰竭患者。至于健康记录,检测社交媒体中的不遵守行为也需要文本挖掘技术。

主题模型可以用来发现来自社交媒体的大量消息中的隐藏语义结构。它们可以为不依从行为提供更深入的探索。这种探索是基于患者在现实生活中自己对药物的决定的证词。

客观的

我们的目标是评估主题模型方法,以识别描述药物不合规行为的信息。主题对应于代表患者所述主题的单词集群。预计这些主题在消息语料库中的分布能够有针对性地提取与不遵守行为相对应的帖子。我们关注两种不服从行为:(1)剂量改变和(2)治疗停止。

之前的工作

主题建模是一种文本挖掘方法,旨在探索一组文档中出现的主要主题。使用主题模型,文本中经常一起出现的单词被分组为不同的主题.在这些主题的基础上,主题模型提供了一种对大量文档集合进行无监督分类的工具。潜狄利克雷分配(Latent Dirichlet allocation, LDA)是由Blei等人提出的“…一个生成概率模型的集合离散数据,如文本语料库…“(17].

主题建模算法已被用于分析从社交媒体中提取的文本语料库的主题组成,如政治[18].几位作者探索了使用LDA识别健康主题的推文内容,包括烟草使用[19]、季节性流感及过敏反应[15],以及儿童肥胖[20.].沙利文等人分析了亚马逊用户的评论,建立了一个食品补充剂评分系统[21].

患者论坛也使用LDA进行了探索。杨等[7]分析了来自患者论坛的1500条信息,以检测药物不良反应。通过对该语料库应用LDA模型获得的主题分布,可以对注释语料库与新消息进行相似度测量。作者基于这些度量提出了一个消息分类器。值得注意的是,上述所有研究都使用了英语信息。

为了分析乳腺癌患者的生活质量,Tapi Nzali等[22]使用LDA模型调查了Facebook群和法国一个乳腺癌公共论坛的帖子。他们分析了法语信息。

可以应用几种算法来使用主题模型。Blei等人提出的LDA模型的原始版本[17已经被广泛使用(例如,[71920.2223])。Paul和Dredze开发了LDA模型的扩展[152425].来建立他们的疾病主题方面模型(ATAM),他们添加了几个组件来将一个术语与一个主题(例如,一种疾病)联系起来,或者认为它不相关。然后,根据1.44亿条推文,他们估计了一般主题和特定疾病主题,如流感、癌症和牙齿问题。与LDA相比,ATAM获得的主题的语义一致性在61%(11/18)的估计主题中更好[25].

在本研究中,我们研究使用LDA来分析患者岗位的主题并识别不合规案例。据我们所知,这是第一个旨在识别与不遵守行为相关的论坛帖子的研究。


本研究所提出的方法的摘要载于图1

材料

数据提取自Detec 't数据库[26],由Kappa开发的数据库Santé [27该软件使用网络爬虫程序从几个法国论坛收集信息。Detec 't基于命名实体识别模块从论坛中提取信息,该模块使用Kappa Santé制作的药物词典和模糊匹配算法。该词典基于Racine Pharma和解剖治疗化学(ATC)分类系统[28].Racine Pharma是一个广泛的药物名称来源,涵盖了法国市场上所有可用的药物,包括品牌名称和活性成分。拉辛制药的条目被映射到空中交通管制中心。

更准确地说,我们从Detec 't中提取了两个语料库:第一个语料库对应于抗抑郁药物艾司西酞普兰(escitalopram)的相关信息,另一个语料库与抗精神病药物阿立哌唑(aripiprazole)相关。选择这些药物的理由是,不依从病例更有可能在慢性疾病中发现,是精神疾病管理的一个主要问题[29].此外,这些药物属于两种不同的治疗类别:艾司西酞普兰属于一种被称为选择性血清素再摄取抑制剂的抗抑郁药物;阿立哌唑属于所谓的非典型的第二代抗精神病药,作为部分多巴胺激动剂。

本研究中从Detec 't数据库中提取的所有信息都是在2004年至2013年间发布在三个最受欢迎的法国论坛(doctissimo, atoute和santé médecine)上的。构成语料库的每条消息的元数据如下:(1)标识符,(2)在论坛上发布的日期,以及(3)提取消息的论坛。信息提取基于各自的品牌名称:药物的Seroplex和Abilify。帖子是根据消息中药物名称的存在来选择的。

方法

初步数据处理
预处理

预处理步骤的目的是对数据进行清洗,以降低噪声和不相干性[30.].预处理分为六个步骤:

  1. 考虑到R软件(维也纳统计计算R项目)区分小写字母和大写字母,所有消息都被转换为小写字母。
  2. 标点符号和停止词被删除。
  3. 我们删除了用于构建语料库的所有药物名称实例(例如,血清区)。由于它出现在每条消息中,它被过度表示,并且不携带任何进一步的信息。
  4. 空格在需要创建时被删除令牌
  5. 词的词干提取使用波特算法[3132].
  6. 我们决定unigrams而且三元.这使得保留两个项目的频繁连续序列成为可能,例如运用secondaires(AEs)。
剂量提及标准化

由于在帖子中表示剂量可能会发生变化(例如,毫克或mg),我们将其替换为消息中的标准表达式:我们确定剂量提到(例如,10毫克)通过搜索每个数字序列后面的剂量单位。然后,我们将提到的剂量替换为中性字符串dosemilligrams

模型的估计
文档术语矩阵加权

document-term矩阵(DTM)描述了在posts集合中出现的术语的频率:行对应于posts(文档),列对应于术语。如果一项出现在特定的文章中,那么对应于该行和列的矩阵项为1,如果不是,则为0。稀疏性对应于矩阵中零值元素的频率。

根据经验确定最大稀疏性阈值,超过该阈值令牌将被移除。矩阵的总稀疏度计算为一个区间的稀疏度阈值应用于列。这些值范围为99.95%至80%,递减0.025%。我们包含了至少97%的DTM稀疏度对应的令牌。然后,为了避免频繁令牌的过度表示,我们基于term-frequency-inverse——文档频率方法(33].每个语料库(分别为艾司西酞普兰和阿立哌唑)生成一个DTM,作为主题建模的输入。

为了删除与拼写错误或缩写对应的标记,并只考虑患者经常使用的单词,我们基于DTM稀疏性删除了不频繁的标记。

图1。概要图。
查看此图
潜狄利克雷分配模型

在本研究中,我们决定使用LDA算法。该模型由Blei和Lafferty描述如下[34]:

在LDA中,观察到的数据是每个文档的单词,隐变量代表潜在的主题结构,即主题本身以及每个文档如何展示它们……观察到的文档和隐藏的主题结构之间的相互作用在与LDA相关的概率生成过程中表现出来。

文档是主题的混合;也就是说,它对应于语料库中所有主题的概率分布。换句话说,当病人写一条信息时,她或他决定谈论一定数量的话题。当她或他在消息中谈论一个主题时,她或他会以一定的概率从与该主题对应的术语集中选取单词。假设该模型,每条消息包含所有已识别主题中的几个主题,概率分布显示已识别主题在该消息中的突出程度。

从技术角度来看,选择LDA的理由有三个方面:

  • 与其他类型的主题建模(潜在语义分析,LSA;非负矩阵分解,NMF;或者在LSA上下文中应用的奇异值分解),LDA方法更适合于数据所在的领域语义单位,如文字。
  • LDA提供了比其他类型的主题建模(如NMF)更好的主题解释性。
  • LDA也比LSA提供了更好的估计主题的语义一致性[35].

更准确地说,我们应用了Blei等人开发的LDA算法的主题建模[1734].LDA模型采用Taddy[]所描述的最大后验(MAP)算法估计。3637].MAP算法是期望最大化(EM)算法的一种变体,与常用的估计算法(吉布斯抽样,变分EM)相比,它的计算成本更低,结果更稳定。在每次迭代中,不是近似边际似然的最大化,而是通过Hessian矩阵的分块对角化计算参数的联合估计。这将导致对主题分布的精确估计,而不是近似。主题数量的选择采用对数贝叶斯因子[36].对数贝叶斯因子是用于模型比较的似然比率。通过针对一个主题模型计算若干个主题的数量,它可以选择最合适的数量。输出是双重的:(1)在每个词汇表中与词汇项相关的出现概率主题(2)在信息中的分布情况。

为了优化主题的可解释性和语义一致性,当消息所包含的令牌至少有25%与主题相关时,我们认为消息与主题显著相关。25%的门槛是根据经验设定的。

评价

评估步骤的目的是评估我们的方法正确识别的消息数量。人工评价分两步进行:

  1. 我们手动审查了与感兴趣的主题相关的所有消息(剂量变化而且治疗中断)在两个语料库(艾司西酞普兰和阿立哌唑)。如果消息描述了与已识别主题相对应的不合规行为,则该消息被认为是正确分类的。我们对分类的评价是通过对每个感兴趣的主题正确分类的消息的比例来衡量的。两名注释人员(RA和PF)参与了评审。为了衡量注释者之间的一致性(IAA),两位注释者评估了从每组由不合规主题标识的消息中随机选择的20%的帖子。IAA的计算采用科恩kappa系数[38].
  2. 为了评估我们方法的敏感性或召回率,我们随机抽取了20%与不依从性以外的主题相关的信息(阿立哌唑345/1723条,艾司西酞普兰650/3246条)。我们手动将它们分为两类:带有不遵从行为的消息和没有的消息。
软件

使用R软件进行分析。对于语料库的预处理,封装tm39],SnowballC,大满贯被使用。主题模型使用以下包进行估计:topicmodels40),MAPTPX


数据集的特点

表1显示每个语料库中的消息数量。

escitalopram语料库的初步预处理返回了3650条消息和155,883个token的DTM (unigrams而且三元).将稀疏性阈值设置为99.35%(3626.275/3650),我们获得了3649条消息和1497个令牌的DTM。其中一条信息被删除了,因为其中包含的术语拼写错误特别严重。

对阿立哌唑语料库的处理产生了2164条消息和81371个标记的DTM。在稀疏性阈值为99.25%(2147.77/2164)的基础上,我们获得了2164条消息和1062个术语的DTM。

令牌在语料库中出现频率最低的被移除(表2).

剂量变化和治疗中断

模型的估计

对数贝叶斯因子选题方法为艾司西酞普兰语料库返回了13个主题,如图所示图2.同样的方法使我们为阿立哌唑语料库确定了11个主题。

我们总共获得了2691条关于艾司西酞普兰的信息,属于13个主题。剩余的958条消息低于术语和主题之间关联的阈值,该阈值设置为25%。每条消息的平均主题数为1.22,中位数为1。

对于阿立哌唑数据,我们总共获得了1778条提及该药物的消息,并分布在11个主题中。剩余的396条消息低于消息术语和主题之间关联的阈值。每条消息的平均主题数为1.31,中位数为1。

主题的解释

因为一个主题必须可以用所获得的第一个术语(按它们出现的概率排序)来解释[34],发现的主题根据前15个单词手动标记。

表1。全集描述。
药物 治疗类 包含药物名称的消息数n 出版日期
抗抑郁药 3650 2004 - 2013
阿立哌唑 抗精神病药物 2164 2005 - 2013
表2。文档术语矩阵(DTM)传播阈值的描述。
药物 之前的期限频率
加工、n
稀疏之前
处理,n (%)
稀疏的阈值
每个令牌,n (%)
后Term frequency
加工、n
稀疏后
处理,n (%)
155883年 155774 (99.93) 3626.275 (99.35) 1497 151097 (96.93)
阿立哌唑 81371年 81281 (99.89) 2147.77 (99.25) 1062 78922 (96.99)
图2。使用对数贝叶斯因子为艾司西酞普兰选择的主题数量。
查看此图
酞主题

关于艾司西酞普兰的主题列表和主题中消息的分布显示在多媒体附件1.这个结果表示为与每个主题相关的消息的频率和比例(相对于3649条escitalopram消息)。如果消息包含至少25%的术语,其中对应的潜在可变性描述了与相关主题的关联,则该消息与主题关联。

我们注意到出现了一个类,其中包含描述用户使用药物的一般体验的信息(主题7)以及它如何影响他们的病情(主题6)。主题3和8与患者的日常感受和他们的活动有关。主题2与HCPs的药物处方有关,主题5与恐慌发作和焦虑有关。主题9、10和12集中讨论了使用者所经历或害怕的ae信息,以及药物的整体效果。话题13与治疗持续时间有关。

主题1被标记为一般的主题.它描述了与个人之间讨论相关的主题,对应的词汇信息量不足。这样的词汇集合并没有为我们的研究提供有用的信息。然而,它在消息中被广泛使用,这解释了与此主题相关的消息的相对较高比例。

关于停止治疗和剂量变化问题的信息分别包括在主题4和11中。两个不遵从性主题的交集对应于7条消息。

阿立哌唑的话题

用阿立哌唑语料库再现建模步骤所获得的主题描述在多媒体附件1

在阿立哌唑文集估计的主题中,我们发现了对患者治疗经历的描述(主题4)。三个主题描述了其影响(主题3、4和8),一个主题与其持续时间有关(主题9)。两个主题关注患者与HCPs(主题5)和其他个体(主题6)的关系。主题7描述了治疗中断。剂量变化在主题1中进行了描述。两个不遵从性主题(7和1)的交集对应于6条消息。对于艾司西酞普兰,有两个主题由非信息性词汇(一般主题)组成。

多媒体附件2显示两个语料库中确定的主题。

方法的评估

使用Cohen kappa系数对20%(169/844)的不合规主题识别的消息进行IAA率测量。我们得到的kappa为0.90(152/169)。

表3。escitalopram语料库的注释。
识别行为 消息数,n 正确分类的消息数,n 精度,%
用量的变化 187 54 28.9
治疗停止 216 One hundred. 46.3
表4。阿立哌唑文集注释。
识别行为 消息数,n 正确分类的消息数,n 精度,%
用量的变化 176 56 31.8
治疗停止 265 62 23.4

我们计算了与每个感兴趣的主题相关联的不遵守情况对应的消息的比例。查询结果显示在表3而且4.在全球范围内,不合规的精确得分为32.6%(272/844)。我们在停用阿立哌唑的题目中得分最低(23.4%,62/265),在停用艾司西酞普兰的题目中得分最高(46.3%,100/216)。

对20%(阿立哌唑为345/1723,艾司西酞普兰为650/3246)与非依从性行为相关的信息进行分析后发现,只有4条信息描述了非依从性行为,且未被我们的方法检测到。4条假阴性信息都是关于停用阿立哌唑的。对于不同的子集,我们获得了94%(62/66)的阿立哌唑戒烟主题的回忆评分,其他主题的回忆评分为100%。在全球范围内,估计召回评分为98.5%(272/276)。

下面我们将对阿立哌唑语料库的结果进行详细分析。

用量的变化

主题建模确定了176条消息为用量的变化消息。人工审查显示,只有56条(31.8%,56/176)消息包含真正的不合规声明(最初在语料库中的2164条帖子中占2.6%)。

在剩余的120条信息中,68条(56.7%,68/120)是患者之间比较阿立哌唑剂量的讨论。共有13条信息(10.8%,13/120)包含除阿立哌唑外的其他处方药的剂量信息。引用最多的药物是氨硫傲和奥氮平。8篇(6.7%,8/120)是关于阿立哌唑剂量的问题,7篇(5.8%,7/120)诱发了剂量调整,6篇(5.0%,6/120)报告了与医生一致的剂量调整,4篇(3.3%,4/120)是建议。

8条(6.7%,8/120)信息中没有提及剂量,只有变异词,如增加减少,通常附有剂量参考。

其余6篇文章(5.0%,6/120)提到了计划中的或未来可能发生的变化。例如:

[…]take 5 mg also for the moment the psy wants to increase the dose to 10 mg at the next appointment [...]

在所有不服药的病例中(56例),患者因药物不良反应(adr)而减少剂量。在这些帖子中提到的最常见的不良反应是失眠、虚弱和性欲问题。

治疗停止

我们在265条与互联网相关的帖子中找出了62条与不合规行为相对应的消息治疗停止主题(23.4%,62/265)。换句话说,在语料库的2164篇帖子中,2.86%(62/2164)是服用阿立哌唑的患者决定停止治疗的消息。

在剩余的203个岗位中,13个岗位(6.4%,13/203)对应于阿立哌唑的中断,但不是不服从的情况:要么停止阿立哌唑开始另一种治疗,要么由医生决定停止治疗。

有89篇博文(43.9%,89/203)是由过去接受过这种治疗的患者撰写的。

55条信息中(27.1%,55/203)患者提到不愿意继续治疗,主要原因(74.6%,151/203)是不良反应。最常见的症状是失眠、疲劳、性欲问题和恶心。

在23篇(11.3%,23/203)的帖子中,患者被给予一种以上的药物,并且帖子描述了其他一种药物的中断(例如,在14例中是奥氮平被停止)。

18个帖子被错误地分配到停止治疗的主题,因为它们包含诸如停止,尽管没有报告阿立哌唑停药。其中包括11条消息(5.4%,11/203),其中中断与任何健康主题无关,例如“[…]我停了下来,像被冻住了,[…]],” five messages corresponding to cessation of alcohol, narcotics, or smoking (and not aripiprazole; 2.5%, 5/203), and two posts (<1%, 1/203) where the patient stopped her or his diet or other activities.

其余5条信息(2.5%,5/203)是询问可能停止治疗的建议。


主要研究结果

我们的研究表明,主题模型对于识别报告不合规行为的消息子集是有用的。

主题模型方法检测到不合规行为的案例,平均召回率和精度得分分别为98.5%(272/276)和32.6%(272/844)。我们得出结论,在我们的研究中提出的主题建模是一种有价值的检测不合规的敏感方法。然而,它缺乏特异性。我们确定了几种导致假阳性的情况:(1)同一信息中的两个体验者(例如,彼得服用100毫克,而约翰服用200毫克);(2)不同时间段的事件(如患者报告医生在下次预约时想增加或减少剂量);(3)行动涉及药物以外的东西(例如,另一种药物和戒烟)。此外,在一些假阳性病例中,停药或改药是由医生开具的。

临床意义

我们重点研究了艾司西酞普兰和阿立哌唑分别用于治疗抑郁症和精神病。

2011年,法国有近100万人(占总人口的2%)开始服用抗抑郁药[41].必须评估患者对抗抑郁药物治疗的依从性。患者不坚持服用抗抑郁药物的原因包括患者自身因素(如对副作用的担忧和对成瘾的恐惧),以及临床医生随访不良和缺乏足够的患者教育[42].通过探索社交媒体上的信息,可以更好地了解患者对这些药物的担忧。我们检索到关于艾司西酞普兰的信息2691条,其中154条(5.71%,154/2691)为不合规信息(表3).不良事件是停药和剂量减少最常见的原因。艾司西酞普兰更常见的副作用包括恶心、虚弱、头晕、睡眠障碍和性问题。

阿立哌唑

在最近发表的一篇综述中[43],基线时对药物的积极态度加上良好的社会心理功能是客观测量精神分裂症患者12个月期间平均依从性的最佳预测因素。不良事件,如患者报告的抗精神病药物导致的认知障碍是不依从的预测因素。阿立哌唑常见的副作用还包括体重增加、恶心、呕吐、食欲变化、头晕、嗜睡、感觉疲劳和失眠等。在我们的文集中,患者报告此类不良事件是停止治疗或改变剂量的原因。

阿立哌唑语料中有近7%(6.86%,122/1778)的帖子与不合规行为相对应。患者改变剂量的所有决定都对应于由于不良事件而减少剂量。这一结果表明,文本挖掘方法必须在提取ADR信息的同时提取不合规注释。

我们计算了描述有效的不遵守行为的消息的比率。这些比率是根据与阿立哌唑语料库中确定的主题相对应的消息进行测量的。该评估结果为31.8%(56/176)的剂量变化和23.4%(62/265)的治疗中断。

使用主题模型似乎不足以在没有人工审查步骤的情况下识别社交媒体上的不合规案例。然而,这种词汇方法只产生了4个假阴性,并使我们能够通过关注那些极有可能包含目标不遵从行为描述的消息来减少语料库。

限制

我们的研究集中在两个不同类别的两种药物上。这两种药物都用于治疗精神疾病。一项目前包括50项临床研究和9476名服用抗精神病药物的参与者的综述显示,纳入研究的总体减员率为49% [44].因此,我们关于不服从率和不服从原因的结果不能外推到其他患者档案。其他治疗类别的进一步研究必须进行。

需要手动审查,以区分每个数据集中的真阳性和假阳性。信息中用于描述剂量变化或治疗中断的词汇通常用于描述其他类型的一般性变化或停止(饮食、吸烟等)。主题模型证明了它们识别潜在不合规消息的能力(平均召回率98.5%,272/276)。可以发展句法和语义方法来识别句子中动作所涉及的经验者、时间特征和对象。该方法可以应用于主题模型识别的数据集,以减少假阳性的数量,提高精度评分。

我们工作的另一个局限性是我们方法中使用的阈值的经验确定。阈值涉及DTM大小的减小以及消息与主题关联的重要性:

  1. 为DTM选择97%以下的稀疏性阈值并不能保证在计算成本和我们所使用的所有语料库的信息保存之间取得最佳妥协。
  2. 消息词和主题之间的关联阈值设置为25%,导致23.23%(1354/5813)的消息与任何主题都不相关。

这种实证方法在这些方法中的应用在文献中屡见不鲜;例如,Prier等人[19]通过每50个主题设置测试阈值来为他们的语料库设置合适的主题数量。

与其他工作的比较

据我们所知,我们的研究是第一个旨在分析社交媒体信息中的不合规行为的研究。

大多数研究[18212225]使用主题模型自动标记推文集合。只有2项研究[722]关注的是医学主题和来自网络论坛的信息。两者都使用了相同的LDA模型。Tapi Nzali等[22]使用相同的R包[40].然而,他们的研究设计是不同的:他们评估了确定的主题和生活质量问卷之间的对应关系,而我们的研究旨在检测不遵守行为。

Yang等人在他们的研究中报告了更高的准确率[7].然而,他们研究的目的是发现adr,而不是不合规行为。

我们的方法可以从一个更复杂的模型中受益。结构主题模型,由Wang等人开发[11],可以对消息中的主题和转换之间的相关性进行建模。附加的组件将能够识别不合规实践和信息(如adr)之间的关系。因此,我们可以确定不坚持每种药物治疗的潜在原因。

结论

消息中的主题分布是对帖子进行分类和检测不合规行为的一种方法。主题建模方法实现了非常高的召回率(98.5%,272/276)。人工审查不依从性主题中的信息显示,服用阿立哌唑或艾司西酞普兰的患者所写的帖子中,有近6.17%(276/4469)显示不依从治疗(其中一半停止治疗)。这些发现表明,社交媒体挖掘可能有助于更好地理解不服从态度。

利益冲突

没有宣布。

多媒体附件1

对每种药物的主题进行详尽的描述。

XLSX文件(microsoftexcel文件),12KB

多媒体附件2

在每个语料库中找到的主题按消息数量排序。

XLSX文件(Microsoft Excel文件),31KB

  1. 世界卫生组织。坚持长期治疗:行动的证据。日内瓦:谁;2003.
  2. Haynes RB, McDonald H, Garg AX, Montague P.帮助患者遵循药物处方的干预措施。Cochrane数据库系统更新2002(2):CD000011。[CrossRef] [Medline
  3. 聂华拉,魏克钦斯基,马志强,李志强,等。加强服药依从性的干预措施。Cochrane Database Syst Rev 2014;11:CD000011。[CrossRef] [Medline
  4. Fox S, Duggan M. PewInternet。2013年1月15日。健康在线2013网址:http://www.pewinternet.org/2013/01/15/health-online-2013/[访问时间:2018-02-27]WebCite缓存
  5. 张志刚,张志刚,张志刚,等。社交媒体中药物不良反应的识别和提取:范围综述。J Med Internet Res 2015 july 10;17(7):e171 [免费全文] [CrossRef] [Medline
  6. 张志刚,张志刚,张志刚,等。分析社交媒体网站上关于benfluorex (Mediator®)在法国停药的患者叙述。临床药学杂志2014 Feb;39(1):53-55。[CrossRef] [Medline
  7. 杨敏,姜敏,尚伟。从社交媒体中过滤大数据——构建药物不良反应预警系统。J Biomed Inform 2015 Apr; 54:30 -240 [免费全文] [CrossRef] [Medline
  8. housh M, Borycki E, Kushniruk A.通过社交媒体赋予患者权力:好处和挑战。卫生信息学杂志2014年3月20日(1):50-58。[CrossRef] [Medline
  9. Horvath KJ, Danilenko GP, Williams ML, Simoni J, Amico KR, Oakes JM,等。美国艾滋病毒感染者的技术使用和参与社交网络健康网站的原因艾滋病行为研究2012 5月;16(4):900-910 [免费全文] [CrossRef] [Medline
  10. 塔格特T,格里韦ME,守恒DF,格里瓦C,罗曼IM。社交媒体和艾滋病毒:在艾滋病毒传播中使用社交媒体的系统回顾。J Med Internet Res 2015 Nov 02;17(11):e248 [免费全文] [CrossRef] [Medline
  11. 王涛,黄志,甘晨。从医疗保健聊天记录中挖掘潜在话题。J Biomed Inform 2016年6月;61:247-259 [免费全文] [CrossRef] [Medline
  12. Stellefson M, Chaney B, Barry AE, Chavarria E, Tennant B, Walsh-Childers K,等。老年人的Web 2.0慢性疾病自我管理:系统回顾。J Med Internet Res 2013 Feb;15(2):e35 [免费全文] [CrossRef] [Medline
  13. 毛俊杰,钟,本顿,山S,安格尔,李国强,等。乳腺癌幸存者中药物副作用和停药的在线讨论。药物流行病学药物saff 2013 Mar;22(3):256-262 [免费全文] [CrossRef] [Medline
  14. Chary M, Genes N, girau - carrier C, Hanson C, Nelson LS, Manini AF.推特流行病学:从社交媒体估计美国处方阿片类药物的滥用。中国医学毒理学杂志2017年12月13日(4):278-286。[CrossRef] [Medline
  15. 《语义学者》2011。从Twitter中挖掘公共卫生主题的模型URL:https://pdfs.semanticscholar.org/41cb/ae26fe87307e6878e87b0a08056206a5c4c1.pdf[访问时间:2018-02-21]WebCite缓存
  16. 黄玉,周磊。挖掘临床医生的电子文档识别自我管理无效的心衰患者:文本挖掘的试点研究。Stud Health technology Inform 2016;225:856-857。[Medline
  17. 布利DM,吴艾,Jordan MI。潜狄利克雷分配。J Mach Learn Res 2003; 3:93 -1022。
  18. yilddirim A, Üsküdarlı S, Özgür A.利用维基百科识别微博主题。PLoS One 2016 3月18日;11(3):e0151885 [免费全文] [CrossRef] [Medline
  19. 普瑞尔KW, Smith MS, girau - carrier C, Hanson CL。在Twitter上识别与健康相关的主题。见:Salerno J, Yang SJ, Nau D, Chai SK,编辑。社会计算,行为文化建模与预测。2011年SBP。计算机科学课堂讲稿,第6589卷。柏林,海德堡:Springer-Verlag;2011:18-25。
  20. 高希DD,古哈R.我们在“推特”上关于肥胖的什么?用主题建模和地理信息系统映射推文。中国地质大学学报(自然科学版),2013;40(2):90-102 [免费全文] [CrossRef] [Medline
  21. Sullivan R, Sarker A, O'Connor K, Goodin A, Karlsrud M, Gonzalez G.用主题建模从用户评论中发现潜在不安全的营养补充剂。Pac Symp Biocomput 2016;21:528-539 [免费全文] [Medline
  22. Tapi Nzali MD, Bringay S, Lavergne C, Mollevi C, Opitz T.患者可以告诉我们的:关于乳腺癌的社交媒体主题分析。JMIR Med Inform 2017年7月31日;5(3):e23 [免费全文] [CrossRef] [Medline
  23. yilddirim A, Üsküdarlı S, Özgür A.利用维基百科识别微博主题。PLoS One 2016;11(3):e0151885 [免费全文] [CrossRef] [Medline
  24. Paul MJ, Dredze M. You Are What You Tweet:分析Twitter对公共卫生的影响,2011年发表于:第五届国际AAAI博客和社交媒体会议;2011年7月17-21日;西班牙巴塞罗那网址:http://www.aaai.org/ocs/index.php/ICWSM/ICWSM11/paper/view/2880
  25. Paul MJ, Dredze M.使用主题模型在社交媒体中发现健康主题。PLoS One 2014 Aug 01;9(8):e103408 [免费全文] [CrossRef] [Medline
  26. Abdellaoui R, Schück S, Texier N, Burgun A.过滤实体以优化从社交媒体识别药物不良反应:信息中实体之间的字数如何帮助?JMIR公共卫生监测2017年6月22日;3(2):e36 [免费全文] [CrossRef] [Medline
  27. Kappa桑特。URL:https://www.kappasante.com/[访问时间:2018-02-21]WebCite缓存
  28. Bousquet C, Dahamna B, Guillemin-Lanne S, Darmoni SJ, Faviez C, Huot C,等。社会媒体项目中来自患者报告的药物不良反应:需要克服的五大挑战,以实现分析的可操作性和有效支持药物警戒过程。JMIR Res Protoc 2017 9月21日;6(9):e179。
  29. 麦克奥尔尼CA,西班牙CV。2008年美国成人慢性疾病患者用药不履行和不坚持的频率和原因。健康预期2011年9月;14(3):307-320 [免费全文] [CrossRef] [Medline
  30. 李文杰,李志强,李志强,等。临床数据挖掘技术研究进展。医学年鉴2009:121-133。[Medline
  31. 波特MF。Cs.toronto.edu。1980.后缀剥离算法https://www.cs.toronto.edu/~frank/csc2501/Readings/R2_Porter/Porter-1980.pdf[访问时间:2018-02-21]WebCite缓存
  32. Savoy J. Light词干方法的法语,葡萄牙语,德语匈牙利语。见:2006年ACM应用计算研讨会论文集。美国:ACM;2006年在:SAC 2006;4月23日至27日;第戎,法国,1031-1035年。
  33. Salton G, Mcgill MJ。现代信息检索导论“,”纽约:McGraw-Hill, Inc;1986.
  34. 布莱DM,拉弗蒂JD。哥伦比亚大学,2009年。主题模型URL:http://www.cs.columbia.edu/~blei/papers/BleiLafferty2009.pdf[访问时间:2018-02-21]WebCite缓存
  35. Stevens K, Kegelmeyer P, Andrzejewski D, Buttler D.探讨多模型和多主题的主题一致性。2012年自然语言处理和计算自然语言学习经验方法联合会议论文集,2012年发表于:EMNLP-CoNLL '12;2012年7月12日至14日;韩国济州岛,页952-961。
  36. Taddy马。论主题模型的估计与选择。第15届人工智能与统计国际会议论文集,2012发表于:AISTATS, 2012;2012;拉帕尔马,加那利群岛。
  37. 希沃特C,雪莉KE。LDAvis:一种可视化和解释主题的方法。交互式语言学习、可视化和界面研讨会论文集。2014年发表于:交互式语言学习、可视化和界面研讨会;2014年6月27日;巴尔的摩,马里兰州,美国,第63-70页。
  38. 名义比额表的一致系数。《心理教育》1960年4月1日;20(1):37-46。[CrossRef
  39. 刘志强,李志强,李志强。基于文本挖掘的文本挖掘方法研究[J] .数据学报,2018年3月31日;25(5):2008。
  40. Grün B, Hornik K. Topicmodels:一个R包拟合主题模型。中国统计杂志2011年5月9日;40(13):1-30。
  41. Fagot JP, Cuerq A, Samson S, Fagot- campagna A.在法国开始抗抑郁治疗的100万患者队列:12个月随访。国际临床杂志2016年9月;70(9):744-751。[CrossRef] [Medline
  42. Sansone RA, Sansone LA。抗抑郁药物依从性:患者是否服药?Innov临床神经科学2012 5月;9(5-6):41-46 [免费全文] [Medline
  43. Velligan DI, Sajatovic M, Hatch A, Kramata P, Docherty JP。为什么精神病患者停止服用抗精神病药物?对严重精神疾病患者不坚持用药原因的系统回顾。患者偏好坚持2017;11:449-468 [免费全文] [CrossRef] [Medline
  44. 柯慕珊,胡晓明,张晓明,等。奥氮平和其他非典型抗精神病药物治疗精神分裂症。Cochrane Database Syst Rev 2010 3月17日(3):CD006654 [免费全文] [CrossRef] [Medline


美国存托凭证:药物不良反应
AE:不利影响
ATAM:疾病主题方面模型
空中交通管制:解剖治疗化学
DTM:document-term矩阵
新兴市场:采用
HCP:医疗保健专业人员
国际宇航科学院:inter-annotator协议
LDA:潜在狄利克雷分配
文理学院:潜在语义分析
地图:后验最大值
NMF:非负矩阵分解
NSDUH:全国毒品使用和健康调查
生命质量:生活品质
人:世界卫生组织


G·艾森巴赫(G Eysenbach)编辑;提交22.10.17;E Chavarria, C Bousquet, A Keepanasseril同行评审;对作者16.11.17的评论;订正版本收到日期为27.12.17;接受13.01.18;发表14.03.18

版权

©Redhouane Abdellaoui, Pierre Foulquié, Nathalie Texier, Carole Faviez, Anita Burgun, Stéphane Schück。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2018年3月14日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map