发表在6卷,10号(2022): 10月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/39582,首次出版
Reddit用户报告的长covid自我用药的社交媒体挖掘:支持药物再利用的可行性研究

Reddit用户报告的长covid自我用药的社交媒体挖掘:支持药物再利用的可行性研究

Reddit用户报告的长covid自我用药的社交媒体挖掘:支持药物再利用的可行性研究

原始论文

德国威滕/赫尔德克大学管理、经济与社会学院管理与创业系

通讯作者:

乔纳森·科斯,理学硕士

管理与创业系“,

管理、经济与社会学院“,

威滕/ Herdecke大学

Alfred-Herrhausen-Str。50

威滕,58455

德国

电话:49 2302926475

电子邮件:jonathan.koss@uni-wh.de


背景:自COVID-19大流行开始以来,全球已有4.8亿多人感染,600多万人死于COVID-19。在一些急性COVID-19患者中,症状出现的时间较长,也被称为“长covid”。由于没有获得批准的治疗方法,与长冠相关的医疗需求得不到满足的情况很多。患者尝试各种药物和补充剂,希望减轻他们的痛苦。他们经常在社交媒体上分享自己的经历。

摘要目的:本研究的目的是从患者的角度探讨社交媒体挖掘方法提取重要化合物的可行性。目的是通过结合患者的经历,概述Reddit用户自我报告中提到的不同药物策略和重要药物,以支持药物再利用的假设生成。

方法:我们使用命名实体识别从reddit版块“/r/covidlonghaulers”上的近7万篇帖子中提取了代表治疗长冠病毒的药物或补充剂的物质。我们通过频率、共现和网络分析来分析物质,以确定重要物质和物质簇。

结果:命名实体识别算法F1得分为0.67。共提取出28447个物质实体和5789个词共现对。“组胺拮抗剂”、“法莫替丁”、“镁”、“维生素”和“类固醇”是最常被提及的物质。网络分析显示了三种物质的聚类,表明了一定的用药模式。

结论:这项可行性研究表明,网络分析可以用来描述社交媒体中讨论的药物策略。与现有文献的比较表明,这种方法可以识别出有希望用于药物再利用的物质,如抗组胺药、类固醇或抗抑郁药。在大流行的背景下,拟议的方法可以通过优先考虑对使用者重要的物质来支持药物重新利用假设的发展。

JMIR Form Res 2022;6(10):e39582

doi: 10.2196/39582

关键字



背景

自COVID-19大流行开始以来,全球已有4.8亿多人感染,600多万人死于COVID-19 [1].在一些急性COVID-19患者中,症状出现的时间较长[2].由于这种现象,“长冠”(LC)一词应运而生[3.].LC指急性后症状(持续时间超过4周)和慢性症状(持续时间超过12周)[3.4].32%-87%的既往住院患者至少有一种症状持续[4].此外,在未住院的个体中,LC的发生率估计在10%至35%之间[5].LC症状相关的经济成本可能是显著的。雷诺兹等[6]指出,与LC有相似特征的慢性疲劳综合征[7,导致美国家庭生产率下降37%,劳动力生产率下降54%。未满足的医疗需求激发了大量的研究活动。ClinicalTrials.gov列出了COVID-19领域的7000多项研究,其中包括600多项lc特异性研究[8].

回顾性临床分析

大量正在进行的研究凸显了药物开发中的一个关键挑战。有很多物质可能是有效的。因此,必须确定有希望的物质,并将潜在候选药物的数量缩小到最有希望的药物。鉴于药物研究的紧迫性、财政资源的稀缺性以及失败的高风险[9],药物再利用(DR)似乎是一种有前途的LC药物开发策略。利用现有药物用于新的治疗目的通常会缩短开发周期,降低成本[10].例如,现有的药物已被证明对人类使用是安全的。因此,不需要I期临床试验[10].从历史的角度来看,DR往往是偶然的[1011],但也有系统的方法来识别有希望的目标线索[12].其中一种方法是回顾性临床分析[12],已在COVID-19大流行的情况下使用[12].回顾性临床分析包括从现实经验中学习(例如,评估临床病例报告),以假设现有药物在新适应症中的应用[13].

从社交媒体中挖掘病人的经历

传统上,回顾性临床分析是基于收集和存储在数据库中的信息,这些数据库明确专门用于医疗保健系统相关应用。潜在的DR信号随后由专业人员分析数据生成。如今,医学研究越来越意识到,受影响患者的集体智慧,共同寻找改善医疗状况的解决方案,可以成为创新的动力[1415在创新过程中被称为“众包”[1416].传统的众包旨在积极合作(例如,制药公司和外部患者群体之间),而在线论坛通过提供相关内容进行分析,以被动的方式收集现实世界的数据,这也被称为“被动众包”[1718].例如,研究人员分析了来自特定疾病社交媒体平台的数据,以确定在批准适应症之外使用的药物(超说明书使用)[1019].超适应症使用提供了支持DR假说的信息[1019].这些方法节省了与数据收集相关的时间和成本,同时结合了患者的真实经验。然而,社交媒体挖掘(SMM) [19],这个术语指的是用于进行被动众包的方法的集合,在偏见方面存在重大风险[1019].例如,由于社交媒体平台上与年龄相关的用户行为,数据可能无法推广到整个人群[10].

从长途运输人员的讨论中产生DR的假设

在这项研究中,我们的目标是捕获与LC患者应对策略相关的药物和补充剂等物质。因此,我们应用SMM采用被动众包的回顾性临床分析原则。由于目前还没有被批准的LC药物,因此无法确定有希望的基于标签外特性的LC候选药物。相反,我们采用了探索性方法,主要包括命名实体识别(NER)和网络分析的应用,旨在从患者的角度概述不同的治疗策略和重要化合物,以生成DR假设。方法学上类似的方法以前曾用于识别阿片类药物戒断自我用药中使用的物质[20.]或监测潜在的药物相互作用和反应[21].此外,网络分析已被用于探索与某些疾病相关的讨论[22]或探讨公众对疫苗的看法[2324].例如,Lewis等人[22]使用网络分析来分析老年人加入糖尿病在线社区的原因。罗等[24]使用网络分析来探索公众对COVID-19疫苗的看法。

据我们所知,这项研究是第一个通过应用网络分析来探索治疗策略和重要药物来支持DR假设生成的研究。

研究目标

这项可行性研究的目的是评估所提出的方法是否可以用于支持基于Reddit上分享的受影响个体的经验的DR假设生成。为此,我们首先探讨了LC网上关于自我用药的讨论中提到了哪些物质。其次,我们调查了是否存在经常一起讨论的物质集群,以指示治疗策略。第三,我们试图确定这些聚类中最重要的物质,以表明各自的治疗策略。


概述

本研究采用的方法包括以下步骤:(1)提取适当的数据,(2)使用NER检测用户帖子中提到的物质实体,(3)分析物质实体的频率和共现网络。图1详细描述了端到端的工作流程。

图1。端到端的详细学习流程。工作流可分为资源识别、数据提取、数据预处理、分析和评估等步骤。API:应用程序编程接口;DR:药物重新定位;食品和药物管理局。
查看此图

数据来源与提取

Reddit是一个社交媒体平台,它由特定主题的论坛组织,称为“Reddit子论坛”[20.].数据提取过程使用Pushshift [25],这是一个收集Reddit数据的平台,自2015年以来一直可供研究人员使用[25].提取的数据包括来自reddit“/r/covidlonghaulers”版块的帖子和元数据,该版块已被用于探索LC症状[2627].这个版块由特定用户积极主持,并为lc相关的讨论提供了一个媒介。内容受到严格规定的约束,禁止宣传替代疗法、虚假信息和阴谋论。截至2022年1月3日,该版块拥有超过2.4万名订阅者和2万篇文章。用户自行报告他们的LC体验,例如讨论症状[26和药物治疗。

除了提取文章之外,还可以提取元数据,如用户名、文章日期或所谓的“链接文本”。链接样式文本表示主题标签,用于将帖子(初始帖子和后续帖子)与特定类别关联起来。这为研究人员提供了排除与分析无关的数据的能力。例如,标记为文章、研究文章或幽默帖子的帖子被排除在分析之外多媒体附件1).此外,没有标签的帖子被排除在外。分析的数据包括了8717名用户在2020年8月31日至2022年3月1日期间发表的68268篇帖子(图2).

图2。不同日期的职位数目概览。
查看此图

实体提取

首先对文本进行预处理,提高数据质量。例如,超链接、制表符和空行被删除。患者在岗位上提到的感兴趣的物质需要提取和结构化以供后续分析[19]使用NER [28].我们将感兴趣的物质定义为明确提到的可以被视为治疗的物质或物质组。例如,我们收集了用户讨论过的传统补充剂(如维生素补充剂)或处方药(如抗抑郁药)。ScispaCy提供多个与医疗问题相关的NER模型[29]并用于从LC Reddit帖子中提取症状[27].原则上,有两个ScispaCy模型可用于此目的。第一个模型是en_ner_bc5cdr_md模型[30.],可以检测化学物质和疾病。由于该模块涵盖了一般的化学物质,而不是特定的药物或膳食补充剂,我们定义了诸如“乙醇”这样的停止词,以将分析的重点缩小到感兴趣的物质。第二个模型是Med7模型[31,专门研究药物提取。同时运行两个模型得到了最好的结果[27].考虑协商条件,排除无极性物质。为此,我们增加了Negex算法[32]到NER ScispaCy管道。Negex识别不同形式的否定模式,最初开发用于临床文本[32].随后,对命名的实体进行标准化和过滤,以提高后续分析的数据质量。因此,将提取出来的实体与外部知识库进行匹配,并将其替换为标准医学词汇,如果没有找到匹配则将其丢弃。为此,我们使用了ScispaCy实体链接器,它将实体与统一医学语言系统(UMLS)知识库[33].EntityLinker管道执行字符串最近邻搜索实体,以匹配UMLS概念[29].我们将0.85作为与UMLS概念重叠的阈值[29].为了评估实体提取性能,从整个语料库中随机选择500篇文章进行手工标注。对于数据注释,涉及到两个注释器。编码器间信度为0.94。F1分数作为评价指标[34].通过在食品及药物管理局的橘皮书的数据之间应用不精确的字符串匹配[35],以其有效成分[36].例如,“zyrtec”被“ceterizine hydrochloride”取代。

网络分析

网络分析方法提供了可视化和评估文本关系的可能性。在本研究中,我们使用网络分析来获得物质谱的概述,并识别潜在的物质簇。类似的方法已被用于识别物质及其影响,包括阿片类药物戒断时的自我用药[20.]或药物警戒设置[21].

网络分析的特征由节点(由提取的实体表示)和“边”组成,“边”表示节点之间的关系,作为基于实体共现的权重。共现的定义是在一篇帖子中提到两种或两种以上的物质[3738].在一个帖子中删除实体的重复,以避免为更频繁提及特定实体的较长帖子分配更多权重。随后,关于物质共现的信息被转换为逐点互信息(PMI)矩阵[20.3940].我们只考虑了基于总体频率比预期更频繁地共同出现的实体之间的关联,也称为正PMI,这已被证明有利于提取语义表示[20.41].为了提高可视化和分析的质量,排除了出现少于10次的物质和低于平均PMI权重的节点对[2242].人工移除假阳性节点。使用PMI矩阵,创建了一个无向图,并使用Gephi软件进行分析。Gephi是一个用于网络分析的开源软件,它允许实体的空间化、过滤、导航、操作和聚类[43].

社区检测

我们使用聚类,也称为“社区检测”,来确定LC的潜在药物和/或补充策略。社区检测描述了节点(在我们的例子中,是物质)的聚类,这些节点根据它们的边相互之间有很强的关联。因此,聚类由相互密切相关和讨论的物质组成。社区可以使用各种聚类算法确定。为此,我们使用了相对较新的Leiden算法[44].与过去在网络分析中广泛应用的Louvain算法相比,Leiden算法有几个优点[45],例如有更有意义的分区[44].采用模块化值Q作为质量函数[44].Q值至少为0.3表示有意义的聚类[44].聚类的结果,以及由此产生的Q,在很大程度上取决于预选的分辨率[46].在一个迭代的过程中,我们的目标是通过应用不同的分辨率值,在发现的社区的数量和相关性以及结果的模块化之间找到适当的平衡[46].为了分析网络中最重要的物质,我们计算了度中心性(一个节点的连接数)[47];中心性越高,物质在网络中的重要性就越高[4748].


自我报告中的物质

NER算法的F1分数为0.67 (precision=0.69, recall=0.66)。对标记错误的实体进行错误分析。错误分为词汇错误和字典错误[49].“词汇错误”(38.5%)是指在使用的物质中使用多种词语的情况。例如,我们的模型未能检测和提取术语“benzos”,因为它是药物“benzodiazepine”的俚语缩写,并且没有在模型中被索引。我们的模型没有识别的另一个表达式示例是包含多个单词的复合术语(例如“anti - histamines”),算法只提取了“histamines”,因此漏掉了前面的单词“anti”,从而赋予被提取的实体不同的含义。

“字典错误”(61.5%)指的是某些术语不是具体的物质,而是物质组;例如,“电解质”没有被捕获,而明确提到的代表电解质的物质如“镁”被可靠地检测到。此外,该算法提取了不被视为处理的物质,如“氯”。

共提取出28447个物质实体和5789个词共现对。“组胺拮抗剂”、“法莫替丁”、“镁”、“维生素”和“类固醇”是在一篇文章中至少出现一次的最常被提及的物质(在一篇文章中重复提到一种物质被忽略)(图3).所有物质的清单都可以在多媒体附件1

中列出了最常见的单词对表1.例如,218次提到的配对中出现频率最高的是盐酸西替利嗪-法莫替丁。

图3。25种最常被提及的物质至少在一篇文章中出现过一次。例如,“组胺拮抗剂”在800多个不同的帖子中被讨论。
查看此图
表1。最常见的共同事件。
排名 Substance-Substance一对 频率(提及次数)
1 西替利嗪Hydrochloride-Famotidine 218
2 Famotidine-Histamine拮抗剂 135
3. Potassium-Magnesium 106
4 Famotidine-Loratadine 98
5 Ergocalciferol-Magnesium 96
6 盐酸西替利嗪-组胺拮抗剂 95
7 Aspirin-Famotidine 88
8 Loratadine-Histamine拮抗剂 82
9 Zinc-Ascorbic酸 78
10 Famotidine-Melatonin 78

物质的集群

概述

使用0.6的分辨率,发现了三个集群。它们由244个节点和3570条边组成。模块化值为0.48,说明群落划分合理[5051].平均聚类系数为0.414。总的来说,这些分数表明网络(图4)没有随机结构[47].网络中的着色表示社区和节点大小程度的中心性。

图4。物质网络和集群。物质由节点表示;节点的大小越大,度中心性越高。着色是指检测到的群落;紫色代表聚类1,橙色代表聚类2,绿色代表聚类3的物质。
查看此图
集群1

第一组主要由补充剂和几种非处方(OTC)药物组成,这些药物通常用于流感类疾病(图5).按度中心性衡量的前10种最重要物质和各自的物质类别显示在表2.检索到的实体属于电解质/矿物质替代品、维生素、呼吸道制剂(如乙酰steine)和营养补充剂(如鱼油或益生菌)的药物类。

图5。含有典型物质共现簇的帖子示例。
查看此图
表2。集群的特征。
集群 节点总共享 10种最重要的物质(按程度中心性)
1 42.85% 镁、褪黑素、麦角钙化醇、维生素、复合维生素制剂、烟酸、益生菌、乙酰胱氨酸、鱼油、锌
2 29.51% 加巴喷丁,盐酸安非他酮,抗抑郁药,氟伏沙明,肾上腺素能拮抗剂,纳曲酮,劳拉西泮,大麻二酚,心得安,非甾体抗炎药
3. 26.64% 类固醇,组胺拮抗剂,法莫替丁,盐酸苯海拉明,盐酸西替利嗪,强的松,布洛芬,抗生素,氯雷他定,伊维菌素
集群2

第二类主要包括处方药,如用于治疗心理、精神或神经疾病的药物(图4).10种最重要物质的例子(表2)包括抗惊厥药加巴喷丁,抗抑郁药如盐酸安非他酮,以及肾上腺素能β拮抗剂如心得安。此外,阿片类拮抗剂(如纳曲酮)、抗焦虑药(如劳拉西泮)和非甾体抗炎药(如萘普生)具有高度中心性。

集群3

第三类主要包括常用于治疗过敏反应和炎症的处方药和非处方药物(图4).最重要的10种物质(表2)属于类固醇类药物,如强的松,抗组胺类药物,如法莫替丁,抗生素和非甾体抗炎药,如布洛芬。


主要结果

文章从LC特定的reddit子版块中提取,以分析所讨论的物质,目的是评估所提议的方法是否可用于支持DR的假设发展。在没有批准的LC药物的情况下(在未来的大流行情况下也是如此),所有物质都可以考虑用于超说明书使用,这使得很难评估应用传统SMM DR方法的潜在候选药物。我们考虑了频率和网络分析,以促进从患者的角度识别重要物质,而不是过滤超说明书使用的物质。

在我们的可行性研究中,最常提到的物质是抗组胺药和法莫替丁,其次是镁等补充剂。此外,维生素和类固醇是经常被讨论的物质。为了分析物质-物质组合的强度,考虑到物质的总体频率,使用PMI来比较关联的强度与随机关联。这些物质及其关联形成了一个非随机网络,由三个物质集群组成,通过群落检测来识别,这意味着对物质的系统讨论和使用。例如,最常被提及的一类物质,组胺拮抗剂,被发现与其他炎症物质如类固醇高度相关。

主要由抗炎剂和补充剂组成的分组包含了最常提到的实体。此外,用于治疗心理、精神或神经疾病的药物也形成了一个集群。后一类可以认为在我们的样本中不太常见,因为其物质出现的频率较低。尽管如此,所有分组都反映了使用者所描述的治疗方法。

通过分析患者自我报告支持DR假设的生成

我们可行性研究的结果突出了Reddit上长期支持者讨论的药物和自我治疗策略。我们能够成功地识别物质网络中的物质群落(代表不同的治疗策略),以及这些群落中对使用者(基于度中心)具有高度(或)重要性的药物。将结果与目前的文献进行比较,我们的发现得到了科学界已经讨论过的有前途的候选药物的成功鉴定的支持。例如,根据Crook等[52],抗组胺药物被认为是潜在的DR候选药物。在病例报告中已报告长期症状有显著改善[53]和观察性研究[54].这似乎得到了来自长期支持者的讨论的支持:抗组胺药是最常被讨论的物质,对抗炎药物集群很重要(以度中心性来衡量)。

同样,Crook等人[52]在他们的综述中得出结论,抗抑郁药,如血清素-去甲肾上腺素再摄取抑制剂和选择性血清素再摄取抑制剂,可以重新用于LC的治疗,因为它们与降低急性COVID-19病例的死亡或插管风险有关[5255]以及外周炎症标志物的减少[5256].2021年4月,Sukhatme等人[57]对氟伏沙明的作用机制及其在急性COVID-19治疗中的作用进行了综述。作者得出的结论是,“推测氟伏沙明在COVID-19长途旅行者中的作用也很诱人。”2022年4月,Khani等人[58]表达了一种假设,即大多数LC症状可能不是直接由COVID-19引起的,而可能是由COVID-19相关炎症和eb病毒(EBV)重新激活引起的。作者认为,由于氟伏沙明对中枢机制的调节作用(例如,减少内质网应激和炎症),氟伏沙明可能对减轻LC症状有有益的作用。在药物聚类2中,氟伏沙明是第二大最重要的抗抑郁药物,以度中心性(表2).有趣的是,我们的数据是基于截至2022年3月的帖子,并清楚地表明,用户已经认为这种药物在他们的LC治疗策略中很重要,而科学界仍在研究假设生成。

另一种最常被提及的抗抑郁药是盐酸安非他酮,代表一种去甲肾上腺素/多巴胺再摄取抑制剂(NDRI) [59].这种药物目前在研究界几乎没有讨论过。在长途运输公司和科学界对NDRIs重要性的认识上,似乎存在显著差异。

另外一些对长期用药者似乎很重要,但在临床研究中很少被讨论的药物包括纳曲酮、肾上腺素能β拮抗剂和强的松。例如,强的松作为一种皮质类固醇,在我们的研究中成为长途跋涉者自我治疗中最主要的类固醇。陈等[60]发现急性COVID-19病例中EBV合并感染的发生率很高,并得出结论,建议患者使用皮质类固醇。根据Khani等人的假设[58尽管EBV在LC中也具有核心重要性,皮质类固醇可能在LC的治疗中有用,从而解释了在本研究中确定的长期运输者讨论中确定的中心位置。事实上,Goel等人[61]报道系统性类固醇有助于加速选定的LC患者的恢复[61].另一项最近发表的单中心介入前后研究表明,低剂量纳曲酮对LC患者是安全的,并可能改善健康状况(例如,减少症状)[62].

总之,临床研究报告表明,我们提出的方法可能支持早期识别有前途的DR候选人。当结合患者对特定药物的经验时,网络分析已被证明在以有意义的方式分割数据方面特别有用。特别是,网络分析能够识别不同的(自我)治疗策略和超出原始频率的相应药物。例如,用于治疗心理、精神或神经障碍的药物代表一个药物集群;然而,这些药物通常报告的频率较低。这可能是由于大多数这些药物只能凭处方购买,因此与非处方药相比,可获得性有限。物质群落检测和程度中心性突出了可能被忽视的策略和药物。此外,网络分析可以区分物质的系统讨论和随机讨论。这是很重要的信息,因为系统的讨论可能是数据质量和人群知识的指标。我们的研究结果表明,患者在社交媒体上分享的经历会影响他人的自我治疗决定[63].用户报告的积极体验将导致其他用户采用相同的方法,从而增加对潜在有益物质的讨论[64].

然而,回顾所有已确定的化合物与LC DR的潜在相关性超出了本研究的范围。我们鼓励专业人员将这些发现作为假设生成的起点,将潜在的DR候选药物缩小到对长期用药很重要的药物。显然,我们不能根据这一分析得出任何关于有效性的结论。然而,这些药物似乎经常被长途运输者用作治疗。因此,科学界应进一步评估这些药物,以确定它们是否有效甚至有害,这也与从公共卫生角度进行沟通有关。

局限性和未来工作

与基于类似方法的可比研究相比,我们的研究有几个局限性。由于我们的NER算法依赖于预训练的模型,我们执行的误差分析表明,在本研究中使用的帖子的注释示例上训练的自定义模型将提高结果的准确性。为了避免在规范化过程中丢失实体(例如,由于使用俚语),可以定义一个定制的字典,将患者使用的物质的俚语术语与他们的医学术语联系起来。此外,在规范化过程中失败的物质可以手动修改和规范化。但是,NER算法的性能可以认为是合适的。其他应用预训练NER算法从Reddit数据中提取医疗实体的研究显示了类似的F1分数。富菲等[49]使用PKDE4J [65],从疾病特异性子reddits中识别生物医学物质,71.48%的提取实体被正确标记。Šćepanović等[66]在双向长短期记忆条件随机场(BiLSTM-CRF)模型中评估了六种最先进的预训练语言模型,以识别特定疾病子reddits中的医疗实体;F1得分在0.64 ~ 0.73之间。结合不同的预训练语言模型可以提高性能。例如,Šćepanović等[66]通过结合BiLSTM-CRF序列标记架构和上下文嵌入构建了定制的NER系统,该系统在症状方面得分为0.71,在药物方面得分为0.77

确定物质的结果

我们分析了物质在长途运输讨论中的重要性,但我们没有分析这些物质在结果方面是否有帮助,这应该在未来的研究中考虑。有几种方法可用于近似结果。金标准是由医疗专业人员结合领域知识对特定药物职位进行人工检查。进一步的方案方法可以包括分析对药物的平均情绪,以确定使用者是否认为某种治疗是有用的[67].另一种可能是通过应用依赖句法分析来捕捉句子中提到的物质和效果之间的相关性[68]或通过实施观察性研究设计[69].然而,由于各种限制,不可能对潜在治疗效果的因果关系进行可靠的评估[19];例如,用户不准确地使用医学术语会使结果产生偏差,即使机器学习算法表现得非常准确。此外,我们的分析表明了一种多药的趋势,这将混淆单一物质的分析。此外,与传统研究设计中获得的数据相比,数据质量较低,并且人口统计学变量等几个混杂因素未知。一般来说,即使有完整的患者信息,也应谨慎解释社交媒体数据。例如,伊维菌素被认为是急性COVID-19的潜在耐药候选药物。然而,这被怀疑是由有缺陷的研究支持的[70]后来在随机临床试验中发现它是无效的[71].虽然我们无法评估伊维菌素对LC患者的疗效,但可以假设使用者的治疗决策也可能受到潜在缺陷信息的影响。

结果的可推广性和适应症推断

尽管从使用者的角度发现了重要的物质,但由于没有分析人口统计学或症状分布,结果不能推广到所有LC患者。尽管先前的研究[2627]表明reddit版块的症状范围与最近发表的LC研究大致一致[2627],可以假定使用者的治疗选择取决于他们的症状。因此,实施双峰网络来揭示症状和药物之间的相关性可能是有用的。此外,用户的人口分布可能不能代表整个长途运输人口。事实上,研究表明,Reddit的分布受到年龄和性别的影响。72],这是一般SMM的主要限制[19],表明数据源代表一个年轻男性亚人群[72].在未来的SMM研究中,有两个可能的改进:(1)结合来自多个平台的数据可以根据特定平台降低用户偏见;(2)算法可以用于推断人口统计变量和分析不同的用户数据,包括元数据[19].

结论

在这项可行性研究中,我们测试了SMM方法的应用,以支持LC dr假设的发展。为此,我们提取了物质实体来分析频率和共现,随后使用它们来识别物质簇。我们的研究结果强调了某些治疗DR的方法,如抗组胺药、类固醇或抗抑郁药,同时也表明患者以系统的方式尝试了广泛的物质。这项可行性研究表明,网络分析可以用来描述所讨论的用药策略。与现有文献的比较表明,该方法确定了药物再利用的合理候选物质。对比还表明,从使用者的角度来看,一些物质很重要,而在科学界几乎没有讨论过。这些物质应由专家审查,以评估其潜在的功效或危害。该结果可能会导致DR假说,或者强调在长途运输社区沟通药物潜在风险的必要性。在大流行的情况下,拟议的方法可用于支持DR假设的发展,以成本和时间有效的方式优先考虑对使用者重要的物质。

致谢

这项研究是由德国北莱茵-威斯特伐利亚州(资助号:ITG-1-1)支持的ATLAS项目“医疗保健中的创新和数字化转型”的一部分。

利益冲突

没有宣布。

多媒体附件1

链接花式文本(LFT)标签包括和排除的分析,并从帖子中提取的总物质。

DOCX文件,25kb

  1. 世卫组织冠状病毒(COVID-19)仪表盘。世界卫生组织。URL:https://covid19.who.int[2022-08-30]访问
  2. 罗佩森,魏格曼- ostrosky T, Perelman C, Sepulveda R, Rebolledo P, Cuapio A,等。COVID-19的50多种长期影响:系统综述和荟萃分析。科学通报2021年8月9日;11(1):16144。[CrossRef] [Medline
  3. 米开伦,马诺哈兰,埃尔克海尔,程五,达根斯,哈斯蒂,等。长冠肺炎的特征:一个活的系统回顾。BMJ Glob Health 2021 9月27日;6(9):e005427 [免费全文] [CrossRef] [Medline
  4. Nalbandian A, Sehgal K, Gupta A, Madhavan MV, McGroder C, Stevens JS,等。COVID-19急性后综合征。医学杂志2021年4月22日;27(4):601-615 [免费全文] [CrossRef] [Medline
  5. 李国强,李国强。covid后综合征:发病率、临床谱以及初级卫生保健专业人员面临的挑战。Arch Med Res 2021 Aug;52(6):575-581 [免费全文] [CrossRef] [Medline
  6. Reynolds KJ, Vernon SD, Bouchery E, Reeves WC。慢性疲劳综合症对经济的影响。成本及资源分配2004年7月21日;2(1):4 [免费全文] [CrossRef] [Medline
  7. Wong TL, Weitzer DJ。长冠肺炎和肌痛性脑脊髓炎/慢性疲劳综合征(ME/CFS)-临床表现和症状学的系统回顾和比较。医学2021年5月26日;57(5):418 [免费全文] [CrossRef] [Medline
  8. COVID-19相关临床研究。ClinicalTrials.gov。URL:https://clinicaltrials.gov/ct2/results?cond=COVID-19[2022-08-30]访问
  9. 潘慕丽,李志强,李志强,等。中国医药杂志2011年7月1日;10(6):428-438。[CrossRef] [Medline
  10. 普什帕科姆,伊奥里奥,艾尔斯PA,埃斯科特KJ,霍珀S,威尔斯A,等。药物再利用:进展、挑战和建议。2019年1月12日;18(1):41-58。[CrossRef] [Medline
  11. 蔡勇,李志强,李志强,等。从制药公司的角度看药物再利用。中国医药杂志2018年1月18日;175(2):168-180。[CrossRef] [Medline
  12. 吴丽玲,林志强,朱家辉。针对COVID-19的药物再利用:方法、挑战和有希望的候选药物。Pharmacol Ther 2021年12月;228:107930 [免费全文] [CrossRef] [Medline
  13. 用人类经验来识别药物再利用机会:理论和实践。中国临床药物杂志2019年4月03日;85(4):680-689。[CrossRef] [Medline
  14. 唐伟。众包在医学研究中的应用。PeerJ 2019; 7: e6762。[CrossRef] [Medline
  15. 临床试验以病人为中心的方法:当前趋势和新机遇。perspective Clin Res 2015;6(3):134-138 [免费全文] [CrossRef] [Medline
  16. Boudreau K, Lakhani K,利用大众作为创新伙伴。Harv Bus Rev 2013 5月;91(4):60- 9,140 [免费全文] [Medline
  17. Charalabidis Y, Loukis E, Androutsopoulou A, Karkaletsis V, Triantafillou A.政府使用社交媒体的被动众包。转型政府:人,过程政策2014;8(2):283-306。[CrossRef
  18. Ahmed S, Rajput AE, Sarirete A, Aljaberi A, Alghanem O, Alsheraigi A.研究失业对心理健康的影响:社交媒体与传统方法。可持续发展2020 10月02日;12(19):8130。[CrossRef
  19. Koss J, Rheinlaender A, Truebel H, Bohnet-Joschko S.药物开发中的社交媒体挖掘-基础知识和用例。今日药物发现2021年12月;26(12):2871-2880 [免费全文] [CrossRef] [Medline
  20. Preiss A, Baumgartner P, Edlund MJ, Bobashev GV。使用命名实体识别识别阿片类药物戒断的自我用药中使用的物质:Reddit数据的自然语言处理研究。JMIR Form Res 2022年3月30日;6(3):e33919 [免费全文] [CrossRef] [Medline
  21. Correia R, Li L, Rocha L.通过网络分析Instagram用户时间线监测潜在的药物相互作用和反应。Pac Symp Biocomput 2016;21:492-503 [免费全文] [Medline
  22. 路易斯·贾,吉·PM,何·CL,米勒·LMS。理解为什么老年2型糖尿病患者加入糖尿病在线社区:语义网络分析。JMIR老龄化2018年7月28日;1(1):e10649 [免费全文] [CrossRef] [Medline
  23. 王强,张伟,蔡宏,曹颖。了解中国女性对国产和进口HPV疫苗的认知:语义网络分析。疫苗2020年12月14日;38(52):8334-8342。[CrossRef] [Medline
  24. 罗晨,陈安,崔波,廖伟。从文化角度探索公众对COVID-19疫苗的网络认知:对中美两大社交媒体平台的语义网络分析。Telemat Inform 2021年12月;65:101712 [免费全文] [CrossRef] [Medline
  25. Baumgartner J, Zannettou S, Keegan B, Squire M, Blackburn J.推送位移Reddit数据集。出席:第十四届国际AAAI网络和社交媒体会议(ICWSM 2020);2020年6月8日至11日;亚特兰大,乔治亚州。
  26. Sarker A, Ge Y.从Reddit挖掘长covid症状:从患者报告中描述covid后综合征。JAMIA公开赛2021年7月;4(3):ooab075 [免费全文] [CrossRef] [Medline
  27. Sarabadani S, Baruah G, Fossat Y, Jeon J.社交媒体中COVID-19症状的纵向变化:观察性研究。J Med Internet Res 2022 Feb 16;24(2):e33959 [免费全文] [CrossRef] [Medline
  28. Mansouri A, Affendey L, Mamat A.命名实体识别方法。计算科学与网络安全2008;8(2):339-344。
  29. Neumann M, King D, Beltagy I, Ammar W. ScispaCy:生物医学自然语言处理的快速和健壮模型。出来了。2019.URL:https://arxiv.org/abs/1902.07669[2022-08-30]访问
  30. 李娟,孙勇,Johnson R, Sciaky D, Wei C, Leaman R,等。BioCreative V CDR任务语料库:化学疾病关系提取资源。数据库2016;2016:baw068 [免费全文] [CrossRef] [Medline
  31. 刘强,刘志刚,刘志刚。Med7:一种可转移的临床自然语言处理电子健康记录模型。Artif Intell Med 2021年8月;118:102086。[CrossRef] [Medline
  32. 查普曼WW,布里德韦尔W,汉伯里P,库珀GF,布坎南BG。一种识别出院总结中阴性结果和疾病的简单算法。J Biomed Inform 2001 Oct;34(5):301-310 [免费全文] [CrossRef] [Medline
  33. Bodenreider O.统一医学语言系统(UMLS):整合生物医学术语。Nucleic Acids Res 2004 Jan 01;32(数据库issue):D267-D270 [免费全文] [CrossRef] [Medline
  34. 信息检索中的一致性、f测度与可靠性。中华医学杂志2005年1月31日;12(3):296-298。[CrossRef
  35. 橙书:已批准的药物产品的治疗等效性评估。美国食品和药物管理局。URL:https://www.fda.gov/drugs/drug-approvals-and-databases/approved-drug-products-therapeutic-equivalence-evaluations-orange-book[2022-08-30]访问
  36. Ma'ayan A, Jenkins S, Goldfarb J, Iyengar R. FDA批准药物及其靶标的网络分析。Mt Sinai J Med 2007 5月;74(1):27-32 [免费全文] [CrossRef] [Medline
  37. Marshall S, Yang C, Ping Q, Zhao M, Avis N, Ip E.女性乳腺癌患者的症状聚类:来自社交媒体和研究研究的数据分析。qal Life Res 2016年3月25日(3):547-557 [免费全文] [CrossRef] [Medline
  38. Vitte J, Gao F, Coppola G, Judkins AR, Giovannini M. Smarcb1和Nf2失活时间决定神经鞘瘤和横纹肌瘤的发展。Nat Commun 2017 8月21日;8(1):300。[CrossRef] [Medline
  39. 刘超,陆霞。在线隐藏人群分析:中国最大网络社区艾滋病相关用户的话题、情感和社交网络。BMC Med Inform Decis Mak 2018年1月05日;18(1):2 [免费全文] [CrossRef] [Medline
  40. 滕超,林勇,李国强。基于成分网络的菜谱推荐。2012年发表于:第四届ACM网络科学大会(WebSci’12);2012年6月22-24日;伊利诺伊州埃文斯顿[CrossRef
  41. Bullinaria JA, Levy JP。从单词共现统计中提取语义表示:停止列表、词干和SVD。行为研究方法2012 10月19日;44(3):890-907。[CrossRef] [Medline
  42. 郭志刚,王志刚,王志刚。关于基因编辑婴儿的喧嚣:推特上对CRISPR的语义网络分析。环境科学2019年12月19日;14(7):954-970。[CrossRef
  43. Bastian M, Heymann S, Jacomy M. Gephi:用于探索和操作网络的开源软件。2009年发表于:第三届国际AAAI网络日志和社交媒体会议;2009年5月17-20日;圣何塞,加利福尼亚州。
  44. Traag VA, Waltman L, van Eck NJ。从鲁汶到莱顿:保证连接良好的社区。科学通报2019年3月26日;9(1):5233。[CrossRef] [Medline
  45. 王志强,王志强,王志强,等。网络结构的Louvain算法和Leiden算法的比较。2021发表于:第一届材料加工与技术国际会议(ICMProTech 2021);2021年7月14日至15日;玻璃市、马来西亚。[CrossRef
  46. Arroyo-Machado W, Torres-Salinas D, Robinson-Garcia N.识别和描述社交媒体社区:替代指标的社会语义网络方法。科学计量学2021年10月12日;126(11):9267-9289 [免费全文] [CrossRef] [Medline
  47. 通过关键字网络分析识别潜在的破坏性趋势。技术预测社会变化2017年6月;119:114-127。[CrossRef
  48. Hoser B, Hotho A, Jäschke R, Schmitz C, Stumme G.本体语义网络分析。在:Sure Y, Domingue J,编辑。语义网:研究与应用。ESWC 2006。计算机科学课堂讲稿,4011卷。柏林,海德堡:施普林格;2006.
  49. Foufi V, Timakum T, gaudt - blavignac C, Lovis C, Song M.来自Reddit的文本健康信息挖掘:具有提取实体及其关系的慢性病分析。J Med Internet Res 2019 6月13日;21(6):e12876 [免费全文] [CrossRef] [Medline
  50. 王志强,王志强。社会网络中社区检测算法的研究。2020年发表于:国际发明计算技术会议(ICICT), 2020;2020年2月26日至28日;哥印拜陀,泰米尔纳德邦,印度。[CrossRef
  51. 纽曼MEJ。网络中的模块化与社区结构。中国科学院学报(自然科学版)2006 07月06日;103(23):8577-8582 [免费全文] [CrossRef] [Medline
  52. Crook H, Raza S, Nowell J, Young M, Edison P. Long covid机制、风险因素和管理。英国医学杂志2021年7月26日;374:n1648。[CrossRef] [Medline
  53. Pinto MD, Lambert N, Downs CA, Abrahim H, Hughes TD, Rahmani AM,等。抗组胺药物治疗SARS-CoV-2感染急性后遗症。J护士实践2022 Mar;18(3):335-338 [免费全文] [CrossRef] [Medline
  54. Glynne P, Tahmasebi N, Gant V, Gupta R.轻度SARS-CoV-2感染后长冠状病毒:特征性T细胞改变和抗组胺反应。中国医学调查杂志2022年1月05日;70(1):61-67 [免费全文] [CrossRef] [Medline
  55. Hoertel N, Sánchez-Rico M, Vernet R, Beeker N, Jannot A, Neuraz A, AP-HP/Universities/INSERM COVID-19研究合作AP-HP COVID CDR倡议。抗抑郁药使用与COVID-19住院患者插管或死亡风险降低之间的相关性:来自一项观察性研究的结果摩尔精神病学2021年9月04日;26(9):5199-5212。[CrossRef] [Medline
  56. Köhler CA, Freitas TH, Stubbs B, Maes M, Solmi M, Veronese N,等。重度抑郁症抗抑郁药物治疗后细胞因子和趋化因子水平的外周改变:系统回顾和荟萃分析。Mol神经生物学2018年5月13日;55(5):4195-4206。[CrossRef] [Medline
  57. Sukhatme VP, Reiersen AM, Vayttaden SJ, Sukhatme VV。氟伏沙明的作用机制及其在COVID-19中的作用前方药典2021年4月20日;12:652688。[CrossRef] [Medline
  58. Khani E, Entezari-Maleki T.氟伏沙明和长COVID-19;sigma-1受体(S1R)激动剂的新作用。Mol Psychiatry 2022年5月06日:在线印刷前[免费全文] [CrossRef] [Medline
  59. Krystal AD, Thase ME, Tucker VL, Goodale EP。盐酸安非他酮与抑郁症患者睡眠的关系。Curr Psych Rev 2007年5月1日;3(2):123-128。[CrossRef
  60. 陈涛,宋杰,刘浩,郑浩,陈超。2019冠状病毒病(COVID-19)患者eb病毒检测阳性结果。科学通报2021年5月25日;11(1):10902。[CrossRef] [Medline
  61. Goel N, Goyal N, Nagaraja R, Kumar R.系统性皮质类固醇治疗“长冠状病毒”:治疗3个月后的评估。Monaldi Arch Chest Dis 2021年12月03日;92(2):1981。[CrossRef] [Medline
  62. O'Kelly B, Vidal L, McHugh T, Woo J, Avramovic G, Lambert JS。低剂量纳曲酮在covid长队列中的安全性和有效性介入前后研究。脑行为Immun健康2022 10月;24:100485 [免费全文] [CrossRef] [Medline
  63. Benetoli A, Chen T, Aslani P.患者使用社交媒体如何影响他们与医疗保健专业人员的互动。患者教育计数2018年3月;101(3):439-444。[CrossRef] [Medline
  64. 欧金涛,董建强。通过社交媒体上的用户反馈刺激创新:一个在线用户创新社区的案例。技术预测Soc变化2019年7月;144:295-302。[CrossRef
  65. 宋敏,金卫西,李迪,许革,姜健。PKDE4J:用于公共知识发现的实体和关系提取。J Biomed Inform 2015 10月;57:32 -332 [免费全文] [CrossRef] [Medline
  66. 斯帕诺维奇S,马丁-洛佩兹E, Quercia D, Baykaner K.从社交媒体中提取医疗实体。2020年出席:CHIL '20: ACM健康、推理和学习会议;2020年4月2-4日;多伦多。[CrossRef
  67. Gräßer F, Kallumadi S, Malberg H, Zaunseder S.应用跨领域和跨数据学习的药物评论基于方面的情感分析。2018年发表于:DH '18: 2018年数字健康国际会议;2018年4月23-26日;法国里昂。[CrossRef
  68. Doan S, Yang EW, Tilak SS, Li PW, Zisook DS, Torii M.利用自然语言处理从推特信息中提取健康相关因果关系。BMC Med Inform Decis Mak 2019 Apr 04;19(Suppl 3):79 [免费全文] [CrossRef] [Medline
  69. Saha K, Sugar B, Torous J, Abrahao B, kakcakman E, De Choudhury M.精神病药物使用影响的社交媒体研究。Proc Int AAAI Conf Weblogs Soc Media 2019 july 07;13:440-451 [免费全文] [Medline
  70. Meyerowitz-Katz G, Wieten S, Medina Arellano MDJ, Yamey G.伊维菌素治疗covid-19的不道德研究。BMJ 2022年4月14日;377:o917。[CrossRef] [Medline
  71. Roman Y, Burela P, Pasupuleti V, Piscoya A, Vidal J, Hernandez A.伊维菌素治疗2019年冠状病毒疾病:对随机对照试验的系统回顾和荟萃分析。临床感染疾病2022年3月23日;74(6):1022-1029 [免费全文] [CrossRef] [Medline
  72. Amaya A, Bach R, Keusch F, Kreuter F.社会科学研究中的新数据源:在使用Reddit数据之前需要知道的事情。Soc Sci compput Rev 2019 12月18日;39(5):943-960。[CrossRef


BiLSTM-CRF:双向长短期记忆条件随机场
博士:药物再利用
EBV:巴尔病毒
LC:长COVID
NDRI:去甲肾上腺素/多巴胺再摄取抑制剂
尼珥:命名实体识别
场外:柜台上
采购经理人指数:点互信息
社交媒体:社交媒体挖掘
uml:统一的医学语言系统


A Mavragani编辑;提交16.05.22;A Sarker, X Wang同行评审;作者评论06.06.22;修订本收到27.06.22;接受09.08.22;发表03.10.22

版权

©Jonathan Koss, Sabine Bohnet-Joschko。最初发表于JMIR Formative Research (https://formative.www.mybigtv.com), 03.10.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息,https://formative.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。


Baidu
map