卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v20i3e85

29540337

10.2196 / jmir.9222

原始论文

患者论坛帖子中不遵守药物治疗案例的检测:主题模型方法

Eysenbach

冈瑟

Chavarria

Enmanuel

Bousquet

塞德里克

Keepanasseril

阿伦

Abdellaoui

Redhouane

MSc 1

Unité de Mixte de Recherche 1138 22队国家研究所Santé et de la Recherche Médicale / Université皮埃尔和玛丽居里

15 Rue de l'École de Médecine

巴黎,75006年

法国 33 648094269 redhouane.a@gmail.com

http://orcid.org/0000-0002-2938-7478

Foulquie

皮埃尔

MSc 2

http://orcid.org/0000-0003-4485-0835

Texier

娜塔莉

PharmD 2

http://orcid.org/0000-0003-3749-254X

Faviez

卡罗尔

MSc 2

http://orcid.org/0000-0002-1500-0236

Burgun

安妮塔

医学博士 1 3.

http://orcid.org/0000-0001-6855-4366

舒克

史蒂芬

硕士,博士 2

http://orcid.org/0000-0003-2642-7726

¹ Unité de Mixte de Recherche 1138 22队国家研究所Santé et de la Recherche Médicale / Université皮埃尔和玛丽居里

巴黎

法国 ² Kappa桑特创新(甲码)

巴黎

法国 ^3. 医学信息学 Hôpital Européen乔治-蓬皮杜协助Publique-Hôpitaux巴黎

巴黎

法国

通讯作者:Redhouane Abdellaoui redhouane.a@gmail.com

03 2018

14 03 2018

20. 3.

e85燃料

22 10 2017 16 11 2017 27 12 2017 13 1 2018

©Redhouane Abdellaoui, Pierre Foulquié， Nathalie Texier, Carole Faviez, Anita Burgun, Stéphane Schück。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2018年3月14日。

2018

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

药物不依从是许多健康状况管理的主要障碍。更好地了解不遵守治疗的潜在因素可能有助于卫生专业人员解决这一问题。患者使用点对点虚拟社区和社交媒体来分享他们关于治疗和疾病的经验。使用主题模型可以对帖子集合中的主题进行建模，从而识别不合规的情况。

客观的

这项研究的目的是检测描述患者与感兴趣的药物相关的不服从行为的信息。因此，目标是聚类具有与非坚持态度相关的同质词汇的帖子。

方法

我们重点研究了艾司西酞普兰和阿立哌唑分别用于治疗抑郁症和精神病。我们实施了一个概率主题模型，以确定2004年至2013年在三个最受欢迎的法国论坛上发布的提及这些药物的语料库中出现的主题。数据是使用Kappa Santé设计的网络爬虫收集的，这是Detec 't项目分析社交媒体药物安全的一部分。有几个主题与不服从治疗有关。

结果

从3650篇与抗抑郁药物(艾司西酞普兰)相关的文章和2164篇与抗精神病药物(阿立哌唑)相关的文章开始，使用潜伏狄利克雷分配使我们能够建模几个主题，包括治疗中断和剂量变化。

主题模型方法检测到不合规行为案例的召回率为98.5%(272/276)，精度为32.6%(272/844)。

结论

主题模型使我们能够探索患者在社区网站上的讨论，并识别与不合规行为相关的帖子。在对不合规主题中的消息进行人工审查后，我们发现6.17%(276/4469)的帖子存在不合规处理。

药物依从性合规 infodemiology 社交媒体文本挖掘抑郁症精神病点对点支持虚拟社区

简介背景

世界卫生组织(世卫组织)2003年发表的一份报告强调，不遵守(或不坚持)长期治疗是一个全球性问题，不利于卫生系统的整体有效性[ 1］．依从性在本报告中定义为患者的行为(服药、遵守卫生规则和饮食)与卫生保健专业人员(HCP)提出的建议之间的对应程度。不遵守这些建议会影响患者的生活质量(QoL)、结果和医疗成本。

世卫组织确定了不坚持治疗的几个原因，包括卫生系统的特征、患者的疾病和治疗过程。对于抑郁症患者，观察与给药频率和伴随治疗有关。对于癌症患者来说，对与治疗相关的不良反应(AEs)的恐惧会对依从性产生负面影响。对于糖尿病患者，依从性可能因年龄、性别和与医生的关系而异。几项荟萃分析显示，目前改善慢性疾病药物依从性的方法大多很复杂，而且不是很有效[ 2， 3.］．Cochrane小组的结论是(1)更系统和客观地衡量依从性的方法，(2)帮助患者遵循长期医学疾病的药物处方的创新是该领域需要考虑的主要问题。考虑到社交媒体是患者可以讨论他们的治疗和分享证词的平台，它们可以成为衡量治疗依从性的新数据源。

社交媒体的使用允许一大群人通过讨论创建和分享关于健康状况和药物的信息、意见和经验[ 4］．社交媒体为药物警戒专家提供了相关的信息来源[ 5］．本氟明的例子[ 6)说明了社交媒体如何成为专家的宝贵资源。已开发出识别提及不良事件的消息的方法(例如，[ 7])。

社交媒体在改善沟通和患者参与度方面大有希望。 8］．霍瓦特等[ 9]和Taggart等[ 10的研究显示，当艾滋病患者描述理想的社交网络时，信息共享和与他人社交是最常被引用的标准。王等[ 11]使用主题模型对孕妇论坛用户的讨论和兴趣进行建模，并显示妇女们正在分享她们对药物的经历、恐惧和担忧。斯特勒夫森等人[ 12]综述了Web 2.0干预措施，为50岁以上的慢性疾病患者提出了自我管理方案。患者强调了与其他患者互动的好处。例如，通过社交网络共享信息使患者能够更好地与hcp沟通。患者经常使用社交媒体讨论药物副作用和治疗依从性。毛等[ 13]研究了接受芳香化酶抑制剂治疗的乳腺癌患者的信息。总共有18.17%(4589/25,256)的帖子提到了至少一种不良反应，近12.8%(110/862)的个体提到了停止使用芳香化酶抑制剂。Chary等[ 14]研究了从社交媒体估计的处方阿片类药物滥用的地理分布与国家药物使用和健康调查(NSDUH)之间的相关性。他们得出的结论是，推特上提到的药物滥用与NSDUH对阿片类药物滥用的估计密切相关。

社交媒体甚至可能影响治疗依从性。在霍瓦特等人的研究中[ 15]，一项针对艾滋病毒患者的网络调查结果显示，52.6%(164/312)的参与者被认为不合规。Taggart等人发表的元分析[ 10他确定了两项关于艾滋病毒人群的研究，这些研究证明了社交媒体的使用与用户对治疗依从性的改善之间的联系。此外，毛等人[ 13的研究表明，乳腺癌患者为应对药物副作用提供了切实可行的策略，并相互支持。例如，28.10%(7097/25,256)的帖子提到了一些解决芳香化酶抑制剂相关关节痛的方法，包括锻炼和药物，无论是处方还是非处方。

对大量叙事的分析需要自动文本挖掘技术[ 5］．这些技术已被用于从电子健康记录中提取信息。例如，Topaz等人[ 16]挖掘临床故事，以确定不遵守治疗的心力衰竭患者。至于健康记录，检测社交媒体中的不遵守行为也需要文本挖掘技术。

主题模型可以用来发现来自社交媒体的大量消息中的隐藏语义结构。它们可以为不依从行为提供更深入的探索。这种探索是基于患者在现实生活中自己对药物的决定的证词。

客观的

我们的目标是评估主题模型方法，以识别描述药物不合规行为的信息。主题对应于代表患者所述主题的单词集群。预计这些主题在消息语料库中的分布能够有针对性地提取与不遵守行为相对应的帖子。我们关注两种不服从行为:(1)剂量改变和(2)治疗停止。

之前的工作

主题建模是一种文本挖掘方法，旨在探索一组文档中出现的主要主题。使用主题模型，文本中经常一起出现的单词被分组为不同的主题．在这些主题的基础上，主题模型提供了一种对大量文档集合进行无监督分类的工具。潜狄利克雷分配(Latent Dirichlet allocation, LDA)是由Blei等人提出的“…一个生成概率模型的集合离散数据，如文本语料库…“( 17］．

主题建模算法已被用于分析从社交媒体中提取的文本语料库的主题组成，如政治[ 18］．几位作者探索了使用LDA识别健康主题的推文内容，包括烟草使用[ 19]、季节性流感及过敏反应[ 15]，以及儿童肥胖[ 20.］．沙利文等人分析了亚马逊用户的评论，建立了一个食品补充剂评分系统[ 21］．

患者论坛也使用LDA进行了探索。杨等[ 7]分析了来自患者论坛的1500条信息，以检测药物不良反应。通过对该语料库应用LDA模型获得的主题分布，可以对注释语料库与新消息进行相似度测量。作者基于这些度量提出了一个消息分类器。值得注意的是，上述所有研究都使用了英语信息。

为了分析乳腺癌患者的生活质量，Tapi Nzali等[ 22]使用LDA模型调查了Facebook群和法国一个乳腺癌公共论坛的帖子。他们分析了法语信息。

可以应用几种算法来使用主题模型。Blei等人提出的LDA模型的原始版本[ 17已经被广泛使用(例如，[ 7， 19， 20.， 22， 23])。Paul和Dredze开发了LDA模型的扩展[ 15， 24， 25］．来建立他们的疾病主题方面模型(ATAM)，他们添加了几个组件来将一个术语与一个主题(例如，一种疾病)联系起来，或者认为它不相关。然后，根据1.44亿条推文，他们估计了一般主题和特定疾病主题，如流感、癌症和牙齿问题。与LDA相比，ATAM获得的主题的语义一致性在61%(11/18)的估计主题中更好[ 25］．

在本研究中，我们研究使用LDA来分析患者岗位的主题并识别不合规案例。据我们所知，这是第一个旨在识别与不遵守行为相关的论坛帖子的研究。

方法

本研究所提出的方法的摘要载于图1．

材料

数据提取自Detec 't数据库[ 26]，由Kappa开发的数据库Santé [ 27该软件使用网络爬虫程序从几个法国论坛收集信息。Detec 't基于命名实体识别模块从论坛中提取信息，该模块使用Kappa Santé制作的药物词典和模糊匹配算法。该词典基于Racine Pharma和解剖治疗化学(ATC)分类系统[ 28］．Racine Pharma是一个广泛的药物名称来源，涵盖了法国市场上所有可用的药物，包括品牌名称和活性成分。拉辛制药的条目被映射到空中交通管制中心。

更准确地说，我们从Detec 't中提取了两个语料库:第一个语料库对应于抗抑郁药物艾司西酞普兰(escitalopram)的相关信息，另一个语料库与抗精神病药物阿立哌唑(aripiprazole)相关。选择这些药物的理由是，不依从病例更有可能在慢性疾病中发现，是精神疾病管理的一个主要问题[ 29］．此外，这些药物属于两种不同的治疗类别:艾司西酞普兰属于一种被称为选择性血清素再摄取抑制剂的抗抑郁药物;阿立哌唑属于所谓的非典型的第二代抗精神病药，作为部分多巴胺激动剂。

本研究中从Detec 't数据库中提取的所有信息都是在2004年至2013年间发布在三个最受欢迎的法国论坛(doctissimo, atoute和santé médecine)上的。构成语料库的每条消息的元数据如下:(1)标识符，(2)在论坛上发布的日期，以及(3)提取消息的论坛。信息提取基于各自的品牌名称:药物的Seroplex和Abilify。帖子是根据消息中药物名称的存在来选择的。

方法初步数据处理预处理

预处理步骤的目的是对数据进行清洗，以降低噪声和不相干性[ 30.］．预处理分为六个步骤:

考虑到R软件(维也纳统计计算R项目)区分小写字母和大写字母，所有消息都被转换为小写字母。

标点符号和停止词被删除。

我们删除了用于构建语料库的所有药物名称实例(例如，血清区)。由于它出现在每条消息中，它被过度表示，并且不携带任何进一步的信息。

空格在需要创建时被删除令牌．

词的词干提取使用波特算法[ 31， 32］．

我们决定 unigrams而且三元．这使得保留两个项目的频繁连续序列成为可能，例如运用secondaires(AEs)。

剂量提及标准化

由于在帖子中表示剂量可能会发生变化(例如，毫克或mg)，我们将其替换为消息中的标准表达式:我们确定剂量提到(例如， 10毫克)通过搜索每个数字序列后面的剂量单位。然后，我们将提到的剂量替换为中性字符串 dosemilligrams．

模型的估计文档术语矩阵加权

的 document-term矩阵(DTM)描述了在posts集合中出现的术语的频率:行对应于posts(文档)，列对应于术语。如果一项出现在特定的文章中，那么对应于该行和列的矩阵项为1，如果不是，则为0。稀疏性对应于矩阵中零值元素的频率。

根据经验确定最大稀疏性阈值，超过该阈值令牌将被移除。矩阵的总稀疏度计算为一个区间的稀疏度阈值应用于列。这些值范围为99.95%至80%，递减0.025%。我们包含了至少97%的DTM稀疏度对应的令牌。然后，为了避免频繁令牌的过度表示，我们基于 term-frequency-inverse——文档频率方法( 33］．每个语料库(分别为艾司西酞普兰和阿立哌唑)生成一个DTM，作为主题建模的输入。

为了删除与拼写错误或缩写对应的标记，并只考虑患者经常使用的单词，我们基于DTM稀疏性删除了不频繁的标记。

图1

概要图。

潜狄利克雷分配模型

在本研究中，我们决定使用LDA算法。该模型由Blei和Lafferty描述如下[ 34]:

在LDA中，观察到的数据是每个文档的单词，隐变量代表潜在的主题结构，即主题本身以及每个文档如何展示它们……观察到的文档和隐藏的主题结构之间的相互作用在与LDA相关的概率生成过程中表现出来。

文档是主题的混合;也就是说，它对应于语料库中所有主题的概率分布。换句话说，当病人写一条信息时，她或他决定谈论一定数量的话题。当她或他在消息中谈论一个主题时，她或他会以一定的概率从与该主题对应的术语集中选取单词。假设该模型，每条消息包含所有已识别主题中的几个主题，概率分布显示已识别主题在该消息中的突出程度。

从技术角度来看，选择LDA的理由有三个方面:

与其他类型的主题建模(潜在语义分析，LSA;非负矩阵分解，NMF;或者在LSA上下文中应用的奇异值分解)，LDA方法更适合于数据所在的领域语义单位，如文字。

LDA提供了比其他类型的主题建模(如NMF)更好的主题解释性。

LDA也比LSA提供了更好的估计主题的语义一致性[ 35］．

更准确地说，我们应用了Blei等人开发的LDA算法的主题建模[ 17， 34］．LDA模型采用Taddy[]所描述的最大后验(MAP)算法估计。 36， 37］．MAP算法是期望最大化(EM)算法的一种变体，与常用的估计算法(吉布斯抽样，变分EM)相比，它的计算成本更低，结果更稳定。在每次迭代中，不是近似边际似然的最大化，而是通过Hessian矩阵的分块对角化计算参数的联合估计。这将导致对主题分布的精确估计，而不是近似。主题数量的选择采用对数贝叶斯因子[ 36］．对数贝叶斯因子是用于模型比较的似然比率。通过针对一个主题模型计算若干个主题的数量，它可以选择最合适的数量。输出是双重的:(1)在每个词汇表中与词汇项相关的出现概率主题(2)在信息中的分布情况。

为了优化主题的可解释性和语义一致性，当消息所包含的令牌至少有25%与主题相关时，我们认为消息与主题显著相关。25%的门槛是根据经验设定的。

评价

评估步骤的目的是评估我们的方法正确识别的消息数量。人工评价分两步进行:

我们手动审查了与感兴趣的主题相关的所有消息( 剂量变化而且治疗中断)在两个语料库(艾司西酞普兰和阿立哌唑)。如果消息描述了与已识别主题相对应的不合规行为，则该消息被认为是正确分类的。我们对分类的评价是通过对每个感兴趣的主题正确分类的消息的比例来衡量的。两名注释人员(RA和PF)参与了评审。为了衡量注释者之间的一致性(IAA)，两位注释者评估了从每组由不合规主题标识的消息中随机选择的20%的帖子。IAA的计算采用科恩kappa系数[ 38］．

为了评估我们方法的敏感性或召回率，我们随机抽取了20%与不依从性以外的主题相关的信息(阿立哌唑345/1723条，艾司西酞普兰650/3246条)。我们手动将它们分为两类:带有不遵从行为的消息和没有的消息。

软件

使用R软件进行分析。对于语料库的预处理，封装 tm［ 39]， SnowballC, 大满贯被使用。主题模型使用以下包进行估计: topicmodels［ 40), MAPTPX．

结果数据集的特点

表1显示每个语料库中的消息数量。

escitalopram语料库的初步预处理返回了3650条消息和155,883个token的DTM ( unigrams而且三元)．将稀疏性阈值设置为99.35%(3626.275/3650)，我们获得了3649条消息和1497个令牌的DTM。其中一条信息被删除了，因为其中包含的术语拼写错误特别严重。

对阿立哌唑语料库的处理产生了2164条消息和81371个标记的DTM。在稀疏性阈值为99.25%(2147.77/2164)的基础上，我们获得了2164条消息和1062个术语的DTM。

的令牌在语料库中出现频率最低的被移除( 表2)．

剂量变化和治疗中断模型的估计

对数贝叶斯因子选题方法为艾司西酞普兰语料库返回了13个主题，如图所示图2．同样的方法使我们为阿立哌唑语料库确定了11个主题。

我们总共获得了2691条关于艾司西酞普兰的信息，属于13个主题。剩余的958条消息低于术语和主题之间关联的阈值，该阈值设置为25%。每条消息的平均主题数为1.22，中位数为1。

对于阿立哌唑数据，我们总共获得了1778条提及该药物的消息，并分布在11个主题中。剩余的396条消息低于消息术语和主题之间关联的阈值。每条消息的平均主题数为1.31，中位数为1。

主题的解释

因为一个主题必须可以用所获得的第一个术语(按它们出现的概率排序)来解释[ 34]，发现的主题根据前15个单词手动标记。

表1

全集描述。

药物	治疗类	包含药物名称的消息数n	出版日期
酞	抗抑郁药	3650	2004 - 2013
阿立哌唑	抗精神病药物	2164	2005 - 2013

表2

文档术语矩阵(DTM)传播阈值的描述。

药物	之前的期限频率加工、n	稀疏之前处理，n (%)	稀疏的阈值每个令牌，n (%)	后Term frequency加工、n	稀疏后处理，n (%)
酞	155883年	155774 (99.93)	3626.275 (99.35)	1497	151097 (96.93)
阿立哌唑	81371年	81281 (99.89)	2147.77 (99.25)	1062	78922 (96.99)

图2

使用对数贝叶斯因子为艾司西酞普兰选择的主题数量。

酞主题

关于艾司西酞普兰的主题列表和主题中消息的分布显示在多媒体附件1．这个结果表示为与每个主题相关的消息的频率和比例(相对于3649条escitalopram消息)。如果消息包含至少25%的术语，其中对应的潜在可变性描述了与相关主题的关联，则该消息与主题关联。

我们注意到出现了一个类，其中包含描述用户使用药物的一般体验的信息(主题7)以及它如何影响他们的病情(主题6)。主题3和8与患者的日常感受和他们的活动有关。主题2与HCPs的药物处方有关，主题5与恐慌发作和焦虑有关。主题9、10和12集中讨论了使用者所经历或害怕的ae信息，以及药物的整体效果。话题13与治疗持续时间有关。

主题1被标记为一般的主题．它描述了与个人之间讨论相关的主题，对应的词汇信息量不足。这样的词汇集合并没有为我们的研究提供有用的信息。然而，它在消息中被广泛使用，这解释了与此主题相关的消息的相对较高比例。

关于停止治疗和剂量变化问题的信息分别包括在主题4和11中。两个不遵从性主题的交集对应于7条消息。

阿立哌唑的话题

用阿立哌唑语料库再现建模步骤所获得的主题描述在多媒体附件1．

在阿立哌唑文集估计的主题中，我们发现了对患者治疗经历的描述(主题4)。三个主题描述了其影响(主题3、4和8)，一个主题与其持续时间有关(主题9)。两个主题关注患者与HCPs(主题5)和其他个体(主题6)的关系。主题7描述了治疗中断。剂量变化在主题1中进行了描述。两个不遵从性主题(7和1)的交集对应于6条消息。对于艾司西酞普兰，有两个主题由非信息性词汇(一般主题)组成。

多媒体附件2显示两个语料库中确定的主题。

方法的评估

使用Cohen kappa系数对20%(169/844)的不合规主题识别的消息进行IAA率测量。我们得到的kappa为0.90(152/169)。

表3

escitalopram语料库的注释。

识别行为	消息数，n	正确分类的消息数，n	精度,%
用量的变化	187	54	28.9
治疗停止	216	One hundred.	46.3

表4

阿立哌唑文集注释。

识别行为	消息数，n	正确分类的消息数，n	精度,%
用量的变化	176	56	31.8
治疗停止	265	62	23.4

我们计算了与每个感兴趣的主题相关联的不遵守情况对应的消息的比例。查询结果显示在表3而且 4．在全球范围内，不合规的精确得分为32.6%(272/844)。我们在停用阿立哌唑的题目中得分最低(23.4%，62/265)，在停用艾司西酞普兰的题目中得分最高(46.3%，100/216)。

对20%(阿立哌唑为345/1723，艾司西酞普兰为650/3246)与非依从性行为相关的信息进行分析后发现，只有4条信息描述了非依从性行为，且未被我们的方法检测到。4条假阴性信息都是关于停用阿立哌唑的。对于不同的子集，我们获得了94%(62/66)的阿立哌唑戒烟主题的回忆评分，其他主题的回忆评分为100%。在全球范围内，估计召回评分为98.5%(272/276)。

下面我们将对阿立哌唑语料库的结果进行详细分析。

用量的变化

主题建模确定了176条消息为用量的变化消息。人工审查显示，只有56条(31.8%，56/176)消息包含真正的不合规声明(最初在语料库中的2164条帖子中占2.6%)。

在剩余的120条信息中，68条(56.7%，68/120)是患者之间比较阿立哌唑剂量的讨论。共有13条信息(10.8%，13/120)包含除阿立哌唑外的其他处方药的剂量信息。引用最多的药物是氨硫傲和奥氮平。8篇(6.7%，8/120)是关于阿立哌唑剂量的问题，7篇(5.8%，7/120)诱发了剂量调整，6篇(5.0%，6/120)报告了与医生一致的剂量调整，4篇(3.3%，4/120)是建议。

8条(6.7%，8/120)信息中没有提及剂量，只有变异词，如增加或减少，通常附有剂量参考。

其余6篇文章(5.0%，6/120)提到了计划中的或未来可能发生的变化。例如:

[…]也暂时服用5毫克，鸟叔想在下次预约时将剂量增加到10毫克[…]

在所有不服药的病例中(56例)，患者因药物不良反应(adr)而减少剂量。在这些帖子中提到的最常见的不良反应是失眠、虚弱和性欲问题。

治疗停止

我们在265条与互联网相关的帖子中找出了62条与不合规行为相对应的消息治疗停止主题(23.4%，62/265)。换句话说，在语料库的2164篇帖子中，2.86%(62/2164)是服用阿立哌唑的患者决定停止治疗的消息。

在剩余的203个岗位中，13个岗位(6.4%，13/203)对应于阿立哌唑的中断，但不是不服从的情况:要么停止阿立哌唑开始另一种治疗，要么由医生决定停止治疗。

有89篇博文(43.9%，89/203)是由过去接受过这种治疗的患者撰写的。

55条信息中(27.1%，55/203)患者提到不愿意继续治疗，主要原因(74.6%，151/203)是不良反应。最常见的症状是失眠、疲劳、性欲问题和恶心。

在23篇(11.3%，23/203)的帖子中，患者被给予一种以上的药物，并且帖子描述了其他一种药物的中断(例如，在14例中是奥氮平被停止)。

18个帖子被错误地分配到停止治疗的主题，因为它们包含诸如停止，尽管没有报告阿立哌唑停药。其中包括11条消息(5.4%，11/203)，其中中断与任何健康主题无关，例如“[…]我停了下来，像被冻住了，[…]]，” five messages corresponding to cessation of alcohol, narcotics, or smoking (and not aripiprazole; 2.5%, 5/203), and two posts (<1%, 1/203) where the patient stopped her or his diet or other activities.

其余5条信息(2.5%，5/203)是询问可能停止治疗的建议。

讨论主要研究结果

我们的研究表明，主题模型对于识别报告不合规行为的消息子集是有用的。

主题模型方法检测到不合规行为的案例，平均召回率和精度得分分别为98.5%(272/276)和32.6%(272/844)。我们得出结论，在我们的研究中提出的主题建模是一种有价值的检测不合规的敏感方法。然而，它缺乏特异性。我们确定了几种导致假阳性的情况:(1)同一信息中的两个体验者(例如，彼得服用100毫克，而约翰服用200毫克);(2)不同时间段的事件(如患者报告医生在下次预约时想增加或减少剂量);(3)行动涉及药物以外的东西(例如，另一种药物和戒烟)。此外，在一些假阳性病例中，停药或改药是由医生开具的。

临床意义

我们重点研究了艾司西酞普兰和阿立哌唑分别用于治疗抑郁症和精神病。

酞

2011年，法国有近100万人(占总人口的2%)开始服用抗抑郁药[ 41］．必须评估患者对抗抑郁药物治疗的依从性。患者不坚持服用抗抑郁药物的原因包括患者自身因素(如对副作用的担忧和对成瘾的恐惧)，以及临床医生随访不良和缺乏足够的患者教育[ 42］．通过探索社交媒体上的信息，可以更好地了解患者对这些药物的担忧。我们检索到关于艾司西酞普兰的信息2691条，其中154条(5.71%，154/2691)为不合规信息( 表3)．不良事件是停药和剂量减少最常见的原因。艾司西酞普兰更常见的副作用包括恶心、虚弱、头晕、睡眠障碍和性问题。

阿立哌唑

在最近发表的一篇综述中[ 43]，基线时对药物的积极态度加上良好的社会心理功能是客观测量精神分裂症患者12个月期间平均依从性的最佳预测因素。不良事件，如患者报告的抗精神病药物导致的认知障碍是不依从的预测因素。阿立哌唑常见的副作用还包括体重增加、恶心、呕吐、食欲变化、头晕、嗜睡、感觉疲劳和失眠等。在我们的文集中，患者报告此类不良事件是停止治疗或改变剂量的原因。

阿立哌唑语料中有近7%(6.86%，122/1778)的帖子与不合规行为相对应。患者改变剂量的所有决定都对应于由于不良事件而减少剂量。这一结果表明，文本挖掘方法必须在提取ADR信息的同时提取不合规注释。

我们计算了描述有效的不遵守行为的消息的比率。这些比率是根据与阿立哌唑语料库中确定的主题相对应的消息进行测量的。该评估结果为31.8%(56/176)的剂量变化和23.4%(62/265)的治疗中断。

使用主题模型似乎不足以在没有人工审查步骤的情况下识别社交媒体上的不合规案例。然而，这种词汇方法只产生了4个假阴性，并使我们能够通过关注那些极有可能包含目标不遵从行为描述的消息来减少语料库。

限制

我们的研究集中在两个不同类别的两种药物上。这两种药物都用于治疗精神疾病。一项目前包括50项临床研究和9476名服用抗精神病药物的参与者的综述显示，纳入研究的总体减员率为49% [ 44］．因此，我们关于不服从率和不服从原因的结果不能外推到其他患者档案。其他治疗类别的进一步研究必须进行。

需要手动审查，以区分每个数据集中的真阳性和假阳性。信息中用于描述剂量变化或治疗中断的词汇通常用于描述其他类型的一般性变化或停止(饮食、吸烟等)。主题模型证明了它们识别潜在不合规消息的能力(平均召回率98.5%，272/276)。可以发展句法和语义方法来识别句子中动作所涉及的经验者、时间特征和对象。该方法可以应用于主题模型识别的数据集，以减少假阳性的数量，提高精度评分。

我们工作的另一个局限性是我们方法中使用的阈值的经验确定。阈值涉及DTM大小的减小以及消息与主题关联的重要性:

为DTM选择97%以下的稀疏性阈值并不能保证在计算成本和我们所使用的所有语料库的信息保存之间取得最佳妥协。

消息词和主题之间的关联阈值设置为25%，导致23.23%(1354/5813)的消息与任何主题都不相关。

这种实证方法在这些方法中的应用在文献中屡见不鲜;例如，Prier等人[ 19]通过每50个主题设置测试阈值来为他们的语料库设置合适的主题数量。

与其他工作的比较

据我们所知，我们的研究是第一个旨在分析社交媒体信息中的不合规行为的研究。

大多数研究[ 18， 21， 22， 25]使用主题模型自动标记推文集合。只有2项研究[ 7， 22]关注的是医学主题和来自网络论坛的信息。两者都使用了相同的LDA模型。Tapi Nzali等[ 22]使用相同的R包[ 40］．然而，他们的研究设计是不同的:他们评估了确定的主题和生活质量问卷之间的对应关系，而我们的研究旨在检测不遵守行为。

Yang等人在他们的研究中报告了更高的准确率[ 7］．然而，他们研究的目的是发现adr，而不是不合规行为。

我们的方法可以从一个更复杂的模型中受益。结构主题模型，由Wang等人开发[ 11]，可以对消息中的主题和转换之间的相关性进行建模。附加的组件将能够识别不合规实践和信息(如adr)之间的关系。因此，我们可以确定不坚持每种药物治疗的潜在原因。

结论

消息中的主题分布是对帖子进行分类和检测不合规行为的一种方法。主题建模方法实现了非常高的召回率(98.5%，272/276)。人工审查不依从性主题中的信息显示，服用阿立哌唑或艾司西酞普兰的患者所写的帖子中，有近6.17%(276/4469)显示不依从治疗(其中一半停止治疗)。这些发现表明，社交媒体挖掘可能有助于更好地理解不服从态度。

多媒体附件1

对每种药物的主题进行详尽的描述。

多媒体附件2

在每个语料库中找到的主题按消息数量排序。

缩写

美国存托凭证

药物不良反应

不利影响

ATAM

疾病主题方面模型

空中交通管制

解剖治疗化学

DTM

document-term矩阵

新兴市场

采用

HCP

医疗保健专业人员

国际宇航科学院

inter-annotator协议

乔治。

潜在狄利克雷分配

文理学院

潜在语义分析

地图

后验最大值

NMF

非负矩阵分解

NSDUH

全国毒品使用和健康调查

生命质量

生活品质

谁

世界卫生组织

没有宣布。

世界卫生组织

坚持长期治疗:行动的证据 2003

日内瓦

谁

海恩斯

麦当劳

Garg

斧头

蒙塔古

帮助患者按照处方服药的干预措施

Cochrane数据库系统版本 2002 2 CD000011

10.1002/14651858. cd000011

12076376

CD000011

Nieuwlaat

Wilczynski

NgydF4y2Ba

纳瓦罗

霍布森

NgydF4y2Ba

杰弗瑞

Keepanasseril

一个

Agoritsas

Mistry

NgydF4y2Ba

人工

一个

杰克

年代

Sivaramalingam

Iserman

穆斯塔法

类风湿性关节炎

Jedraszewski

Cotoi

海恩斯

加强服药依从性的干预措施

Cochrane数据库系统版本 2014 11 CD000011

10.1002/14651858. cd000011.pub4

25412402

狐狸

年代

达根

米

PewInternet 2013 01 15

2018-02-27

健康在线2013 http://www.pewinternet.org/2013/01/15/health-online-2013/

肥腊肉片

Abdellaoui

•贝雷特如是

Asfari

Souvignet

Texier

NgydF4y2Ba

Jaulent

Beyens

锰

Burgun

一个

Bousquet

社交媒体中药物不良反应的识别和提取:范围综述

J医疗互联网服务 2015 07 10 17 7 e171

10.2196 / jmir.4304

26163365

v17i7e171

PMC4526988

阿布Taam

米

Rossard

Cantaloube

Bouscaren

NgydF4y2Ba

罗氏公司

红头潜鸭

Montastruc

黑尔

一个

Montastruc

莱托

阿訇

分析社交媒体网站上关于benfluorex (Mediator®)在法国停药的患者叙述

J临床制药公司 2014 02 39 1 53 5

10.1111 / jcpt.12103

24304185

杨

米

西藏野驴

米

商

社交媒体大数据过滤——构建药物不良反应预警系统

J生物医学信息 2015 04 54 230 40

10.1016 / j.jbi.2015.01.011

25688695

s1532 - 0464 (15) 00013 - 1

Househ

米

Borycki

Kushniruk

一个

通过社交媒体赋予患者权力:好处和挑战

卫生信息学J 2014 03 20. 1 50 8

10.1177 / 1460458213476969

24550564

20/1/50

霍法

Danilenko

全科医生

威廉姆斯

毫升

西摩尼

Amico

基米-雷克南

奥克斯

西蒙伐木工人

美国艾滋病毒感染者的技术使用和参与社交网络健康网站的原因

艾滋病Behav 2012 05 16 4 900 10

10.1007 / s10461 - 012 - 0164 - 7

22350832

PMC3454490

Taggart

Grewe

我

节约

Gliwa

罗马

即时通讯

社交媒体和艾滋病毒:在艾滋病毒传播中使用社交媒体的系统回顾

J医疗互联网服务 2015 11 02 17 11 e248

10.2196 / jmir.4387

26525289

v17i11e248

PMC4642795

王

黄

氮化镓

从医疗保健聊天记录中挖掘潜在话题

J生物医学信息 2016 06 61 247 59

10.1016 / j.jbi.2016.04.008

27132766

s1532 - 0464 (16) 30030 - 2

Stellefson

米

Chaney

巴里

Chavarria

坦南特

Walsh-Childers

斯利

Zagora

老年人的Web 2.0慢性疾病自我管理:系统回顾

J医疗互联网服务 2013 02 15 2 e35

10.2196 / jmir.2439

23410671

v15i2e35

PMC3636299

毛

钟

一个

本顿

一个

山

年代

杉

伦纳德

轩尼诗

年代

福尔摩斯

乳腺癌幸存者中药物副作用和停药的在线讨论

药物流行病学 2013 03 22 3. 256 62

10.1002 / pds.3365

23322591

PMC4380018

谨慎的

米

基因

NgydF4y2Ba

Giraud-Carrier

汉森

纳尔逊

Manini

房颤

来自推特的流行病学:从社交媒体估计美国处方阿片类药物的滥用

《医学毒理学》 2017 12 13 4 278 286

10.1007 / s13181 - 017 - 0625 - 5

28831738

10.1007 / s13181 - 017 - 0625 - 5

PMC5711756

保罗

米

Dredze

米

Semanticscholar 2011

2018-02-21

从Twitter中挖掘公共卫生话题的模型 https://pdfs.semanticscholar.org/41cb/ae26fe87307e6878e87b0a08056206a5c4c1.pdf

黄玉

米

Radhakrishnan

Lei

周

挖掘临床医生的电子文档以识别自我管理无效的心力衰竭患者:一项试点文本挖掘研究

种马健康技术通知 2016 225 856 7

27332377

布莱

唉

约旦

心肌梗死

潜狄利克雷分配

J Mach Learn Res 2003 3. 993 1022

Yıldırım

一个

Uskudarlı

年代

Ozgur

一个

使用维基百科识别微博中的主题

《公共科学图书馆•综合》 2016 03 18 11 3. e0151885

10.1371 / journal.pone.0151885

26991442

玉米饼- d - 15 - 38319

PMC4798765

窥探者

千瓦

史密斯

女士

Giraud-Carrier

汉森

萨勒诺

杨

nautica

柴

在Twitter上识别与健康相关的主题

社会计算，行为文化建模与预测。2011年SBP。计算机科学课堂讲稿，第6589卷 2011

柏林,海德堡

斯普林格出版社

18 25

20.

戈什

古哈

关于肥胖，我们在“推特”上发了什么?用主题建模和地理信息系统映射推文

地理与科学制图 2013 40 2 90 102

10.1080 / 15230406.2013.776210

25126022

PMC4128420

沙利文

衬衣

一个

奥康纳

Goodin

一个

Karlsrud

米

冈萨雷斯

通过主题建模从用户评论中发现可能不安全的营养补充剂

Pac Symp Biocomput 2016 21 528 39

26776215

9789814749411 _0048

Tapi Nzali

医学博士

Bringay

年代

Lavergne

Mollevi

Opitz

患者可以告诉我们的:关于乳腺癌的社交媒体主题分析

JMIR Med Inform 2017 07 31 5 3. e23

10.2196 / medinform.7779

28760725

v5i3e23

PMC5556259

Yıldırım

一个

Uskudarlı

年代

Ozgur

一个

使用维基百科识别微博中的主题

《公共科学图书馆•综合》 2016 11 3. e0151885

10.1371 / journal.pone.0151885

26991442

玉米饼- d - 15 - 38319

PMC4798765

保罗

乔丹

Dredze

米

你的推文是什么样的:分析推特对公共卫生的影响

2011

第五届国际AAAI博客和社交媒体会议

2011年7月17日至21日

西班牙巴塞罗那

保罗

乔丹

Dredze

米

使用主题模型在社交媒体中发现健康主题

《公共科学图书馆•综合》 2014 08 01 9 8 e103408

10.1371 / journal.pone.0103408

25084530

玉米饼- d - 14 - 00554

PMC4118877

Abdellaoui

舒克

年代

Texier

NgydF4y2Ba

Burgun

一个

过滤实体以优化来自社交媒体的药物不良反应识别:信息中实体之间的字数如何起作用?

JMIR公共卫生监测 2017 06 22 3. 2 e36

10.2196 / publichealth.6577

28642212

v3i2e36

PMC5500778

Kappa桑特 2018-02-21

https://www.kappasante.com/

Bousquet

Dahamna

Guillemin-Lanne

年代

Darmoni

Faviez

担任

Katsahian

年代

Leroux

佩雷拉

年代

理查德。

舒克

年代

Souvignet

Lillo-Le Louet

一个

Texier

NgydF4y2Ba

社会媒体项目中来自患者报告的药物不良反应:需要克服的五大挑战，以实现分析的可操作性和有效支持药物警戒过程

JMIR Res Protoc 2017 09 21 6 9 e179

McHorney

西班牙

简历

2008年美国成人慢性疾病患者用药不履行和不坚持的频率和原因

健康的期望 2011 09 14 3. 307 20.

10.1111 / j.1369-7625.2010.00619.x

20860775

PMC5060587

30.

Iavindrasana

科恩

Depeursinge

一个

穆勒

迈耶

Geissbuhler

一个

临床数据挖掘综述

医学通知 2009 121 33

19855885

me09010121

行李搬运工人

曼氏金融

Cs.toronto.edu 1980

2018-02-21

后缀剥离算法 https://www.cs.toronto.edu/~frank/csc2501/Readings/R2_Porter/Porter-1980.pdf

萨沃伊

光词干方法的法语，葡萄牙语，德语匈牙利语

2006年ACM应用计算研讨会论文集 2006

囊2006

4月23日-27日

法国第戎

美国

ACM

1031 1035

索尔顿海

麦吉尔

乔丹

现代信息检索导论“， 1986

纽约

麦格劳-希尔公司

布莱

拉弗蒂

CS哥伦比亚 2009

2018-02-21

主题模型 http://www.cs.columbia.edu/~blei/papers/BleiLafferty2009.pdf

史蒂文斯

Kegelmeyer

Andrzejewski

男管家

探索多种模型和多种主题的主题连贯性

2012年自然语言处理和计算自然语言学习的经验方法联合会议论文集 2012

EMNLP-CoNLL”12

2012年7月12日至14日

济州岛，韩国

952 961

Taddy

妈

论主题模型的估计与选择

第15届人工智能与统计国际会议论文集 2012

AISTATS 2012

2012

拉帕尔马，加那利群岛

西韦特

雪莉

柯

LDAvis:一种可视化和解释主题的方法

交互式语言学习、可视化和界面研讨会论文集 2014

互动语言学习、可视化和界面研讨会

2014年6月27日

巴尔的摩，马里兰州，美国

63 70

科恩

名义比例尺的一致系数

Meas 1960 04 01 20. 1 37 46

10.1177 / 001316446002000104

菲娜

我

Hornik

迈耶

R中的文本挖掘基础设施

J统计软件 2018 03 31 25 5 2008

Grun

Hornik

Topicmodels:一个R包，用于拟合主题模型

J统计软件 2011 05 09 40 13 1 30.

束

摩根大通

Cuerq

一个

参孙

年代

Fagot-Campagna

一个

在法国开始抗抑郁治疗的100万患者队列:12个月的随访

临床实践 2016 09 70 9 744 51

10.1111 / ijcp.12850

27484351

桑松

类风湿性关节炎

桑松

拉

抗抑郁药物依从性:患者是否服药?

Innov临床神经科学 2012 05 9 5 - 6 41 6

22808448

PMC3398686

Velligan

迪

Sajatovic

米

孵化

一个

Kramata

接手

摩根大通

为什么精神病患者停止服用抗精神病药物?对严重精神疾病患者不坚持用药原因的系统回顾

患者偏好坚持 2017 11 449 468

10.2147 / PPA.S124658

28424542

ppa - 11 - 449

PMC5344423

Komossa

Rummel-Kluge

饥饿

施密德

施瓦兹

年代

达根

Kissling

Leucht

年代

奥氮平和其他非典型抗精神病药物治疗精神分裂症

Cochrane数据库系统版本 2010 03 17 3. CD006654

10.1002/14651858. cd006654.pub2

20238348

PMC4169107