这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
药物不依从是许多健康状况管理的主要障碍。更好地了解不遵守治疗的潜在因素可能有助于卫生专业人员解决这一问题。患者使用点对点虚拟社区和社交媒体来分享他们关于治疗和疾病的经验。使用主题模型可以对帖子集合中的主题进行建模,从而识别不合规的情况。
这项研究的目的是检测描述患者与感兴趣的药物相关的不服从行为的信息。因此,目标是聚类具有与非坚持态度相关的同质词汇的帖子。
我们重点研究了艾司西酞普兰和阿立哌唑分别用于治疗抑郁症和精神病。我们实施了一个概率主题模型,以确定2004年至2013年在三个最受欢迎的法国论坛上发布的提及这些药物的语料库中出现的主题。数据是使用Kappa Santé设计的网络爬虫收集的,这是Detec 't项目分析社交媒体药物安全的一部分。有几个主题与不服从治疗有关。
从3650篇与抗抑郁药物(艾司西酞普兰)相关的文章和2164篇与抗精神病药物(阿立哌唑)相关的文章开始,使用潜伏狄利克雷分配使我们能够建模几个主题,包括治疗中断和剂量变化。
主题模型方法检测到不合规行为案例的召回率为98.5%(272/276),精度为32.6%(272/844)。
主题模型使我们能够探索患者在社区网站上的讨论,并识别与不合规行为相关的帖子。在对不合规主题中的消息进行人工审查后,我们发现6.17%(276/4469)的帖子存在不合规处理。
世界卫生组织(世卫组织)2003年发表的一份报告强调,不遵守(或不坚持)长期治疗是一个全球性问题,不利于卫生系统的整体有效性[
世卫组织确定了不坚持治疗的几个原因,包括卫生系统的特征、患者的疾病和治疗过程。对于抑郁症患者,观察与给药频率和伴随治疗有关。对于癌症患者来说,对与治疗相关的不良反应(AEs)的恐惧会对依从性产生负面影响。对于糖尿病患者,依从性可能因年龄、性别和与医生的关系而异。几项荟萃分析显示,目前改善慢性疾病药物依从性的方法大多很复杂,而且不是很有效[
社交媒体的使用允许一大群人通过讨论创建和分享关于健康状况和药物的信息、意见和经验[
社交媒体在改善沟通和患者参与度方面大有希望。
社交媒体甚至可能影响治疗依从性。在霍瓦特等人的研究中[
对大量叙事的分析需要自动文本挖掘技术[
主题模型可以用来发现来自社交媒体的大量消息中的隐藏语义结构。它们可以为不依从行为提供更深入的探索。这种探索是基于患者在现实生活中自己对药物的决定的证词。
我们的目标是评估主题模型方法,以识别描述药物不合规行为的信息。主题对应于代表患者所述主题的单词集群。预计这些主题在消息语料库中的分布能够有针对性地提取与不遵守行为相对应的帖子。我们关注两种不服从行为:(1)剂量改变和(2)治疗停止。
主题建模是一种文本挖掘方法,旨在探索一组文档中出现的主要主题。使用主题模型,文本中经常一起出现的单词被分组为不同的
主题建模算法已被用于分析从社交媒体中提取的文本语料库的主题组成,如政治[
患者论坛也使用LDA进行了探索。杨等[
为了分析乳腺癌患者的生活质量,Tapi Nzali等[
可以应用几种算法来使用主题模型。Blei等人提出的LDA模型的原始版本[
在本研究中,我们研究使用LDA来分析患者岗位的主题并识别不合规案例。据我们所知,这是第一个旨在识别与不遵守行为相关的论坛帖子的研究。
本研究所提出的方法的摘要载于
数据提取自Detec 't数据库[
更准确地说,我们从Detec 't中提取了两个语料库:第一个语料库对应于抗抑郁药物艾司西酞普兰(escitalopram)的相关信息,另一个语料库与抗精神病药物阿立哌唑(aripiprazole)相关。选择这些药物的理由是,不依从病例更有可能在慢性疾病中发现,是精神疾病管理的一个主要问题[
本研究中从Detec 't数据库中提取的所有信息都是在2004年至2013年间发布在三个最受欢迎的法国论坛(doctissimo, atoute和santé médecine)上的。构成语料库的每条消息的元数据如下:(1)标识符,(2)在论坛上发布的日期,以及(3)提取消息的论坛。信息提取基于各自的品牌名称:药物的Seroplex和Abilify。帖子是根据消息中药物名称的存在来选择的。
预处理步骤的目的是对数据进行清洗,以降低噪声和不相干性[
考虑到R软件(维也纳统计计算R项目)区分小写字母和大写字母,所有消息都被转换为小写字母。
标点符号和停止词被删除。
我们删除了用于构建语料库的所有药物名称实例(例如,血清区)。由于它出现在每条消息中,它被过度表示,并且不携带任何进一步的信息。
空格在需要创建时被删除
词的词干提取使用波特算法[
我们决定
由于在帖子中表示剂量可能会发生变化(例如,毫克或mg),我们将其替换为消息中的标准表达式:我们确定剂量提到(例如,
的
根据经验确定最大稀疏性阈值,超过该阈值令牌将被移除。矩阵的总稀疏度计算为一个区间的稀疏度阈值应用于列。这些值范围为99.95%至80%,递减0.025%。我们包含了至少97%的DTM稀疏度对应的令牌。然后,为了避免频繁令牌的过度表示,我们基于
为了删除与拼写错误或缩写对应的标记,并只考虑患者经常使用的单词,我们基于DTM稀疏性删除了不频繁的标记。
概要图。
在本研究中,我们决定使用LDA算法。该模型由Blei和Lafferty描述如下[
在LDA中,观察到的数据是每个文档的单词,隐变量代表潜在的主题结构,即主题本身以及每个文档如何展示它们……观察到的文档和隐藏的主题结构之间的相互作用在与LDA相关的概率生成过程中表现出来。
文档是主题的混合;也就是说,它对应于语料库中所有主题的概率分布。换句话说,当病人写一条信息时,她或他决定谈论一定数量的话题。当她或他在消息中谈论一个主题时,她或他会以一定的概率从与该主题对应的术语集中选取单词。假设该模型,每条消息包含所有已识别主题中的几个主题,概率分布显示已识别主题在该消息中的突出程度。
从技术角度来看,选择LDA的理由有三个方面:
与其他类型的主题建模(潜在语义分析,LSA;非负矩阵分解,NMF;或者在LSA上下文中应用的奇异值分解),LDA方法更适合于数据所在的领域
LDA提供了比其他类型的主题建模(如NMF)更好的主题解释性。
LDA也比LSA提供了更好的估计主题的语义一致性[
更准确地说,我们应用了Blei等人开发的LDA算法的主题建模[
为了优化主题的可解释性和语义一致性,当消息所包含的令牌至少有25%与主题相关时,我们认为消息与主题显著相关。25%的门槛是根据经验设定的。
评估步骤的目的是评估我们的方法正确识别的消息数量。人工评价分两步进行:
我们手动审查了与感兴趣的主题相关的所有消息(
为了评估我们方法的敏感性或召回率,我们随机抽取了20%与不依从性以外的主题相关的信息(阿立哌唑345/1723条,艾司西酞普兰650/3246条)。我们手动将它们分为两类:带有不遵从行为的消息和没有的消息。
使用R软件进行分析。对于语料库的预处理,封装
escitalopram语料库的初步预处理返回了3650条消息和155,883个token的DTM (
对阿立哌唑语料库的处理产生了2164条消息和81371个标记的DTM。在稀疏性阈值为99.25%(2147.77/2164)的基础上,我们获得了2164条消息和1062个术语的DTM。
的
对数贝叶斯因子选题方法为艾司西酞普兰语料库返回了13个主题,如图所示
我们总共获得了2691条关于艾司西酞普兰的信息,属于13个主题。剩余的958条消息低于术语和主题之间关联的阈值,该阈值设置为25%。每条消息的平均主题数为1.22,中位数为1。
对于阿立哌唑数据,我们总共获得了1778条提及该药物的消息,并分布在11个主题中。剩余的396条消息低于消息术语和主题之间关联的阈值。每条消息的平均主题数为1.31,中位数为1。
因为一个主题必须可以用所获得的第一个术语(按它们出现的概率排序)来解释[
全集描述。
药物 | 治疗类 | 包含药物名称的消息数n | 出版日期 |
酞 | 抗抑郁药 | 3650 | 2004 - 2013 |
阿立哌唑 | 抗精神病药物 | 2164 | 2005 - 2013 |
文档术语矩阵(DTM)传播阈值的描述。
药物 | 之前的期限频率 |
稀疏之前 |
稀疏的阈值 |
后Term frequency |
稀疏后 |
酞 | 155883年 | 155774 (99.93) | 3626.275 (99.35) | 1497 | 151097 (96.93) |
阿立哌唑 | 81371年 | 81281 (99.89) | 2147.77 (99.25) | 1062 | 78922 (96.99) |
使用对数贝叶斯因子为艾司西酞普兰选择的主题数量。
关于艾司西酞普兰的主题列表和主题中消息的分布显示在
我们注意到出现了一个类,其中包含描述用户使用药物的一般体验的信息(主题7)以及它如何影响他们的病情(主题6)。主题3和8与患者的日常感受和他们的活动有关。主题2与HCPs的药物处方有关,主题5与恐慌发作和焦虑有关。主题9、10和12集中讨论了使用者所经历或害怕的ae信息,以及药物的整体效果。话题13与治疗持续时间有关。
主题1被标记为
关于停止治疗和剂量变化问题的信息分别包括在主题4和11中。两个不遵从性主题的交集对应于7条消息。
用阿立哌唑语料库再现建模步骤所获得的主题描述在
在阿立哌唑文集估计的主题中,我们发现了对患者治疗经历的描述(主题4)。三个主题描述了其影响(主题3、4和8),一个主题与其持续时间有关(主题9)。两个主题关注患者与HCPs(主题5)和其他个体(主题6)的关系。主题7描述了治疗中断。剂量变化在主题1中进行了描述。两个不遵从性主题(7和1)的交集对应于6条消息。对于艾司西酞普兰,有两个主题由非信息性词汇(一般主题)组成。
使用Cohen kappa系数对20%(169/844)的不合规主题识别的消息进行IAA率测量。我们得到的kappa为0.90(152/169)。
escitalopram语料库的注释。
识别行为 | 消息数,n | 正确分类的消息数,n | 精度,% |
用量的变化 | 187 | 54 | 28.9 |
治疗停止 | 216 | One hundred. | 46.3 |
阿立哌唑文集注释。
识别行为 | 消息数,n | 正确分类的消息数,n | 精度,% |
用量的变化 | 176 | 56 | 31.8 |
治疗停止 | 265 | 62 | 23.4 |
我们计算了与每个感兴趣的主题相关联的不遵守情况对应的消息的比例。查询结果显示在
对20%(阿立哌唑为345/1723,艾司西酞普兰为650/3246)与非依从性行为相关的信息进行分析后发现,只有4条信息描述了非依从性行为,且未被我们的方法检测到。4条假阴性信息都是关于停用阿立哌唑的。对于不同的子集,我们获得了94%(62/66)的阿立哌唑戒烟主题的回忆评分,其他主题的回忆评分为100%。在全球范围内,估计召回评分为98.5%(272/276)。
下面我们将对阿立哌唑语料库的结果进行详细分析。
主题建模确定了176条消息为
在剩余的120条信息中,68条(56.7%,68/120)是患者之间比较阿立哌唑剂量的讨论。共有13条信息(10.8%,13/120)包含除阿立哌唑外的其他处方药的剂量信息。引用最多的药物是氨硫傲和奥氮平。8篇(6.7%,8/120)是关于阿立哌唑剂量的问题,7篇(5.8%,7/120)诱发了剂量调整,6篇(5.0%,6/120)报告了与医生一致的剂量调整,4篇(3.3%,4/120)是建议。
8条(6.7%,8/120)信息中没有提及剂量,只有变异词,如
其余6篇文章(5.0%,6/120)提到了计划中的或未来可能发生的变化。例如:
[…]也暂时服用5毫克,鸟叔想在下次预约时将剂量增加到10毫克[…]
在所有不服药的病例中(56例),患者因药物不良反应(adr)而减少剂量。在这些帖子中提到的最常见的不良反应是失眠、虚弱和性欲问题。
我们在265条与互联网相关的帖子中找出了62条与不合规行为相对应的消息
在剩余的203个岗位中,13个岗位(6.4%,13/203)对应于阿立哌唑的中断,但不是不服从的情况:要么停止阿立哌唑开始另一种治疗,要么由医生决定停止治疗。
有89篇博文(43.9%,89/203)是由过去接受过这种治疗的患者撰写的。
55条信息中(27.1%,55/203)患者提到不愿意继续治疗,主要原因(74.6%,151/203)是不良反应。最常见的症状是失眠、疲劳、性欲问题和恶心。
在23篇(11.3%,23/203)的帖子中,患者被给予一种以上的药物,并且帖子描述了其他一种药物的中断(例如,在14例中是奥氮平被停止)。
18个帖子被错误地分配到停止治疗的主题,因为它们包含诸如
其余5条信息(2.5%,5/203)是询问可能停止治疗的建议。
我们的研究表明,主题模型对于识别报告不合规行为的消息子集是有用的。
主题模型方法检测到不合规行为的案例,平均召回率和精度得分分别为98.5%(272/276)和32.6%(272/844)。我们得出结论,在我们的研究中提出的主题建模是一种有价值的检测不合规的敏感方法。然而,它缺乏特异性。我们确定了几种导致假阳性的情况:(1)同一信息中的两个体验者(例如,彼得服用100毫克,而约翰服用200毫克);(2)不同时间段的事件(如患者报告医生在下次预约时想增加或减少剂量);(3)行动涉及药物以外的东西(例如,另一种药物和戒烟)。此外,在一些假阳性病例中,停药或改药是由医生开具的。
我们重点研究了艾司西酞普兰和阿立哌唑分别用于治疗抑郁症和精神病。
2011年,法国有近100万人(占总人口的2%)开始服用抗抑郁药[
在最近发表的一篇综述中[
阿立哌唑语料中有近7%(6.86%,122/1778)的帖子与不合规行为相对应。患者改变剂量的所有决定都对应于由于不良事件而减少剂量。这一结果表明,文本挖掘方法必须在提取ADR信息的同时提取不合规注释。
我们计算了描述有效的不遵守行为的消息的比率。这些比率是根据与阿立哌唑语料库中确定的主题相对应的消息进行测量的。该评估结果为31.8%(56/176)的剂量变化和23.4%(62/265)的治疗中断。
使用主题模型似乎不足以在没有人工审查步骤的情况下识别社交媒体上的不合规案例。然而,这种词汇方法只产生了4个假阴性,并使我们能够通过关注那些极有可能包含目标不遵从行为描述的消息来减少语料库。
我们的研究集中在两个不同类别的两种药物上。这两种药物都用于治疗精神疾病。一项目前包括50项临床研究和9476名服用抗精神病药物的参与者的综述显示,纳入研究的总体减员率为49% [
需要手动审查,以区分每个数据集中的真阳性和假阳性。信息中用于描述剂量变化或治疗中断的词汇通常用于描述其他类型的一般性变化或停止(饮食、吸烟等)。主题模型证明了它们识别潜在不合规消息的能力(平均召回率98.5%,272/276)。可以发展句法和语义方法来识别句子中动作所涉及的经验者、时间特征和对象。该方法可以应用于主题模型识别的数据集,以减少假阳性的数量,提高精度评分。
我们工作的另一个局限性是我们方法中使用的阈值的经验确定。阈值涉及DTM大小的减小以及消息与主题关联的重要性:
为DTM选择97%以下的稀疏性阈值并不能保证在计算成本和我们所使用的所有语料库的信息保存之间取得最佳妥协。
消息词和主题之间的关联阈值设置为25%,导致23.23%(1354/5813)的消息与任何主题都不相关。
这种实证方法在这些方法中的应用在文献中屡见不鲜;例如,Prier等人[
据我们所知,我们的研究是第一个旨在分析社交媒体信息中的不合规行为的研究。
大多数研究[
Yang等人在他们的研究中报告了更高的准确率[
我们的方法可以从一个更复杂的模型中受益。结构主题模型,由Wang等人开发[
消息中的主题分布是对帖子进行分类和检测不合规行为的一种方法。主题建模方法实现了非常高的召回率(98.5%,272/276)。人工审查不依从性主题中的信息显示,服用阿立哌唑或艾司西酞普兰的患者所写的帖子中,有近6.17%(276/4469)显示不依从治疗(其中一半停止治疗)。这些发现表明,社交媒体挖掘可能有助于更好地理解不服从态度。
对每种药物的主题进行详尽的描述。
在每个语料库中找到的主题按消息数量排序。
药物不良反应
不利影响
疾病主题方面模型
解剖治疗化学
document-term矩阵
采用
医疗保健专业人员
inter-annotator协议
潜在狄利克雷分配
潜在语义分析
后验最大值
非负矩阵分解
全国毒品使用和健康调查
生活品质
世界卫生组织
没有宣布。