这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息,https://formative.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
自COVID-19大流行开始以来,全球已有4.8亿多人感染,600多万人死于COVID-19。在一些急性COVID-19患者中,症状出现的时间较长,也被称为“长covid”。由于没有获得批准的治疗方法,与长冠相关的医疗需求得不到满足的情况很多。患者尝试各种药物和补充剂,希望减轻他们的痛苦。他们经常在社交媒体上分享自己的经历。
本研究的目的是从患者的角度探讨社交媒体挖掘方法提取重要化合物的可行性。目的是通过结合患者的经历,概述Reddit用户自我报告中提到的不同药物策略和重要药物,以支持药物再利用的假设生成。
我们使用命名实体识别从reddit版块“/r/covidlonghaulers”上的近7万篇帖子中提取了代表治疗长冠病毒的药物或补充剂的物质。我们通过频率、共现和网络分析来分析物质,以确定重要物质和物质簇。
命名实体识别算法F1得分为0.67。共提取出28447个物质实体和5789个词共现对。“组胺拮抗剂”、“法莫替丁”、“镁”、“维生素”和“类固醇”是最常被提及的物质。网络分析显示了三种物质的聚类,表明了一定的用药模式。
这项可行性研究表明,网络分析可以用来描述社交媒体中讨论的药物策略。与现有文献的比较表明,这种方法可以识别出有希望用于药物再利用的物质,如抗组胺药、类固醇或抗抑郁药。在大流行的背景下,拟议的方法可以通过优先考虑对使用者重要的物质来支持药物重新利用假设的发展。
自COVID-19大流行开始以来,全球已有4.8亿多人感染,600多万人死于COVID-19 [
大量正在进行的研究凸显了药物开发中的一个关键挑战。有很多物质可能是有效的。因此,必须确定有希望的物质,并将潜在候选药物的数量缩小到最有希望的药物。鉴于药物研究的紧迫性、财政资源的稀缺性以及失败的高风险[
传统上,回顾性临床分析是基于收集和存储在数据库中的信息,这些数据库明确专门用于医疗保健系统相关应用。潜在的DR信号随后由专业人员分析数据生成。如今,医学研究越来越意识到,受影响患者的集体智慧,共同寻找改善医疗状况的解决方案,可以成为创新的动力[
在这项研究中,我们的目标是捕获与LC患者应对策略相关的药物和补充剂等物质。因此,我们应用SMM采用被动众包的回顾性临床分析原则。由于目前还没有被批准的LC药物,因此无法确定有希望的基于标签外特性的LC候选药物。相反,我们采用了探索性方法,主要包括命名实体识别(NER)和网络分析的应用,旨在从患者的角度概述不同的治疗策略和重要化合物,以生成DR假设。方法学上类似的方法以前曾用于识别阿片类药物戒断自我用药中使用的物质[
据我们所知,这项研究是第一个通过应用网络分析来探索治疗策略和重要药物来支持DR假设生成的研究。
这项可行性研究的目的是评估所提出的方法是否可以用于支持基于Reddit上分享的受影响个体的经验的DR假设生成。为此,我们首先探讨了LC网上关于自我用药的讨论中提到了哪些物质。其次,我们调查了是否存在经常一起讨论的物质集群,以指示治疗策略。第三,我们试图确定这些聚类中最重要的物质,以表明各自的治疗策略。
本研究采用的方法包括以下步骤:(1)提取适当的数据,(2)使用NER检测用户帖子中提到的物质实体,(3)分析物质实体的频率和共现网络。
端到端的详细学习流程。工作流可分为资源识别、数据提取、数据预处理、分析和评估等步骤。API:应用程序编程接口;DR:药物重新定位;食品和药物管理局。
Reddit是一个社交媒体平台,它由特定主题的论坛组织,称为“Reddit子论坛”[
除了提取文章之外,还可以提取元数据,如用户名、文章日期或所谓的“链接文本”。链接样式文本表示主题标签,用于将帖子(初始帖子和后续帖子)与特定类别关联起来。这为研究人员提供了排除与分析无关的数据的能力。例如,标记为文章、研究文章或幽默帖子的帖子被排除在分析之外
不同日期的职位数目概览。
首先对文本进行预处理,提高数据质量。例如,超链接、制表符和空行被删除。患者在岗位上提到的感兴趣的物质需要提取和结构化以供后续分析[
网络分析方法提供了可视化和评估文本关系的可能性。在本研究中,我们使用网络分析来获得物质谱的概述,并识别潜在的物质簇。类似的方法已被用于识别物质及其影响,包括阿片类药物戒断时的自我用药[
网络分析的特征由节点(由提取的实体表示)和“边”组成,“边”表示节点之间的关系,作为基于实体共现的权重。共现的定义是在一篇帖子中提到两种或两种以上的物质[
我们使用聚类,也称为“社区检测”,来确定LC的潜在药物和/或补充策略。社区检测描述了节点(在我们的例子中,是物质)的聚类,这些节点根据它们的边相互之间有很强的关联。因此,聚类由相互密切相关和讨论的物质组成。社区可以使用各种聚类算法确定。为此,我们使用了相对较新的Leiden算法[
NER算法的F1分数为0.67 (precision=0.69, recall=0.66)。对标记错误的实体进行错误分析。错误分为词汇错误和字典错误[
“字典错误”(61.5%)指的是某些术语不是具体的物质,而是物质组;例如,“电解质”没有被捕获,而明确提到的代表电解质的物质如“镁”被可靠地检测到。此外,该算法提取了不被视为处理的物质,如“氯”。
共提取出28447个物质实体和5789个词共现对。“组胺拮抗剂”、“法莫替丁”、“镁”、“维生素”和“类固醇”是在一篇文章中至少出现一次的最常被提及的物质(在一篇文章中重复提到一种物质被忽略)(
中列出了最常见的单词对
25种最常被提及的物质至少在一篇文章中出现过一次。例如,“组胺拮抗剂”在800多个不同的帖子中被讨论。
最常见的共同事件。
排名 | Substance-Substance一对 | 频率(提及次数) |
1 | 西替利嗪Hydrochloride-Famotidine | 218 |
2 | Famotidine-Histamine拮抗剂 | 135 |
3. | Potassium-Magnesium | 106 |
4 | Famotidine-Loratadine | 98 |
5 | Ergocalciferol-Magnesium | 96 |
6 | 盐酸西替利嗪-组胺拮抗剂 | 95 |
7 | Aspirin-Famotidine | 88 |
8 | Loratadine-Histamine拮抗剂 | 82 |
9 | Zinc-Ascorbic酸 | 78 |
10 | Famotidine-Melatonin | 78 |
使用0.6的分辨率,发现了三个集群。它们由244个节点和3570条边组成。模块化值为0.48,说明群落划分合理[
物质网络和集群。物质由节点表示;节点的大小越大,度中心性越高。着色是指检测到的群落;紫色代表聚类1,橙色代表聚类2,绿色代表聚类3的物质。
第一组主要由补充剂和几种非处方(OTC)药物组成,这些药物通常用于流感类疾病(
含有典型物质共现簇的帖子示例。
集群的特征。
集群 | 节点总共享 | 10种最重要的物质(按程度中心性) |
1 | 42.85% | 镁、褪黑素、麦角钙化醇、维生素、复合维生素制剂、烟酸、益生菌、乙酰胱氨酸、鱼油、锌 |
2 | 29.51% | 加巴喷丁,盐酸安非他酮,抗抑郁药,氟伏沙明,肾上腺素能拮抗剂,纳曲酮,劳拉西泮,大麻二酚,心得安,非甾体抗炎药 |
3. | 26.64% | 类固醇,组胺拮抗剂,法莫替丁,盐酸苯海拉明,盐酸西替利嗪,强的松,布洛芬,抗生素,氯雷他定,伊维菌素 |
第二类主要包括处方药,如用于治疗心理、精神或神经疾病的药物(
第三类主要包括常用于治疗过敏反应和炎症的处方药和非处方药物(
文章从LC特定的reddit子版块中提取,以分析所讨论的物质,目的是评估所提议的方法是否可用于支持DR的假设发展。在没有批准的LC药物的情况下(在未来的大流行情况下也是如此),所有物质都可以考虑用于超说明书使用,这使得很难评估应用传统SMM DR方法的潜在候选药物。我们考虑了频率和网络分析,以促进从患者的角度识别重要物质,而不是过滤超说明书使用的物质。
在我们的可行性研究中,最常提到的物质是抗组胺药和法莫替丁,其次是镁等补充剂。此外,维生素和类固醇是经常被讨论的物质。为了分析物质-物质组合的强度,考虑到物质的总体频率,使用PMI来比较关联的强度与随机关联。这些物质及其关联形成了一个非随机网络,由三个物质集群组成,通过群落检测来识别,这意味着对物质的系统讨论和使用。例如,最常被提及的一类物质,组胺拮抗剂,被发现与其他炎症物质如类固醇高度相关。
主要由抗炎剂和补充剂组成的分组包含了最常提到的实体。此外,用于治疗心理、精神或神经疾病的药物也形成了一个集群。后一类可以认为在我们的样本中不太常见,因为其物质出现的频率较低。尽管如此,所有分组都反映了使用者所描述的治疗方法。
我们可行性研究的结果突出了Reddit上长期支持者讨论的药物和自我治疗策略。我们能够成功地识别物质网络中的物质群落(代表不同的治疗策略),以及这些群落中对使用者(基于度中心)具有高度(或)重要性的药物。将结果与目前的文献进行比较,我们的发现得到了科学界已经讨论过的有前途的候选药物的成功鉴定的支持。例如,根据Crook等[
同样,Crook等人[
另一种最常被提及的抗抑郁药是盐酸安非他酮,代表一种去甲肾上腺素/多巴胺再摄取抑制剂(NDRI) [
另外一些对长期用药者似乎很重要,但在临床研究中很少被讨论的药物包括纳曲酮、肾上腺素能β拮抗剂和强的松。例如,强的松作为一种皮质类固醇,在我们的研究中成为长途跋涉者自我治疗中最主要的类固醇。陈等[
总之,临床研究报告表明,我们提出的方法可能支持早期识别有前途的DR候选人。当结合患者对特定药物的经验时,网络分析已被证明在以有意义的方式分割数据方面特别有用。特别是,网络分析能够识别不同的(自我)治疗策略和超出原始频率的相应药物。例如,用于治疗心理、精神或神经障碍的药物代表一个药物集群;然而,这些药物通常报告的频率较低。这可能是由于大多数这些药物只能凭处方购买,因此与非处方药相比,可获得性有限。物质群落检测和程度中心性突出了可能被忽视的策略和药物。此外,网络分析可以区分物质的系统讨论和随机讨论。这是很重要的信息,因为系统的讨论可能是数据质量和人群知识的指标。我们的研究结果表明,患者在社交媒体上分享的经历会影响他人的自我治疗决定[
然而,回顾所有已确定的化合物与LC DR的潜在相关性超出了本研究的范围。我们鼓励专业人员将这些发现作为假设生成的起点,将潜在的DR候选药物缩小到对长期用药很重要的药物。显然,我们不能根据这一分析得出任何关于有效性的结论。然而,这些药物似乎经常被长途运输者用作治疗。因此,科学界应进一步评估这些药物,以确定它们是否有效甚至有害,这也与从公共卫生角度进行沟通有关。
与基于类似方法的可比研究相比,我们的研究有几个局限性。由于我们的NER算法依赖于预训练的模型,我们执行的误差分析表明,在本研究中使用的帖子的注释示例上训练的自定义模型将提高结果的准确性。为了避免在规范化过程中丢失实体(例如,由于使用俚语),可以定义一个定制的字典,将患者使用的物质的俚语术语与他们的医学术语联系起来。此外,在规范化过程中失败的物质可以手动修改和规范化。但是,NER算法的性能可以认为是合适的。其他应用预训练NER算法从Reddit数据中提取医疗实体的研究显示了类似的F1分数。富菲等[
我们分析了物质在长途运输讨论中的重要性,但我们没有分析这些物质在结果方面是否有帮助,这应该在未来的研究中考虑。有几种方法可用于近似结果。金标准是由医疗专业人员结合领域知识对特定药物职位进行人工检查。进一步的方案方法可以包括分析对药物的平均情绪,以确定使用者是否认为某种治疗是有用的[
尽管从使用者的角度发现了重要的物质,但由于没有分析人口统计学或症状分布,结果不能推广到所有LC患者。尽管先前的研究[
在这项可行性研究中,我们测试了SMM方法的应用,以支持LC dr假设的发展。为此,我们提取了物质实体来分析频率和共现,随后使用它们来识别物质簇。我们的研究结果强调了某些治疗DR的方法,如抗组胺药、类固醇或抗抑郁药,同时也表明患者以系统的方式尝试了广泛的物质。这项可行性研究表明,网络分析可以用来描述所讨论的用药策略。与现有文献的比较表明,该方法确定了药物再利用的合理候选物质。对比还表明,从使用者的角度来看,一些物质很重要,而在科学界几乎没有讨论过。这些物质应由专家审查,以评估其潜在的功效或危害。该结果可能会导致DR假说,或者强调在长途运输社区沟通药物潜在风险的必要性。在大流行的情况下,拟议的方法可用于支持DR假设的发展,以成本和时间有效的方式优先考虑对使用者重要的物质。
链接花式文本(LFT)标签包括和排除的分析,并从帖子中提取的总物质。
双向长短期记忆条件随机场
药物再利用
巴尔病毒
长COVID
去甲肾上腺素/多巴胺再摄取抑制剂
命名实体识别
柜台上
点互信息
社交媒体挖掘
统一的医学语言系统
这项研究是由德国北莱茵-威斯特伐利亚州(资助号:ITG-1-1)支持的ATLAS项目“医疗保健中的创新和数字化转型”的一部分。
没有宣布。