卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JFR

JMIR表格规定

形成性研究

2561 - 326 x

卡塔尔世界杯8强波胆分析

加拿大多伦多

v6i10e39582

36007131

10.2196/39582

原始论文

Reddit用户报告的长covid自我用药的社交媒体挖掘:支持药物再利用的可行性研究

Mavragani

孤挺花

衬衣

安倍

王

晓惠

高斯

乔纳森

MSc 1

管理与创业系“，管理、经济与社会学院“，威滕/ Herdecke大学

Alfred-Herrhausen-Str。50

威滕,58455

德国 49 2302926475 jonathan.koss@uni-wh.de

https://orcid.org/0000-0003-0671-5405

Bohnet-Joschko

Sabine

博士,教授 1

https://orcid.org/0000-0002-1119-9786

1 管理与创业系“，管理、经济与社会学院“，威滕/ Herdecke大学

威滕

德国

通讯作者:Jonathan Koss jonathan.koss@uni-wh.de

10 2022

3. 10 2022

6 10

e39582

16 5 2022 6 6 2022 27 6 2022 9 8 2022

©Jonathan Koss, Sabine Bohnet-Joschko。最初发表于JMIR Formative Research (https://formative.www.mybigtv.com)， 03.10.2022。

2022

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息，https://formative.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

背景

自COVID-19大流行开始以来，全球已有4.8亿多人感染，600多万人死于COVID-19。在一些急性COVID-19患者中，症状出现的时间较长，也被称为“长covid”。由于没有获得批准的治疗方法，与长冠相关的医疗需求得不到满足的情况很多。患者尝试各种药物和补充剂，希望减轻他们的痛苦。他们经常在社交媒体上分享自己的经历。

客观的

本研究的目的是从患者的角度探讨社交媒体挖掘方法提取重要化合物的可行性。目的是通过结合患者的经历，概述Reddit用户自我报告中提到的不同药物策略和重要药物，以支持药物再利用的假设生成。

方法

我们使用命名实体识别从reddit版块“/r/covidlonghaulers”上的近7万篇帖子中提取了代表治疗长冠病毒的药物或补充剂的物质。我们通过频率、共现和网络分析来分析物质，以确定重要物质和物质簇。

结果

命名实体识别算法F1得分为0.67。共提取出28447个物质实体和5789个词共现对。“组胺拮抗剂”、“法莫替丁”、“镁”、“维生素”和“类固醇”是最常被提及的物质。网络分析显示了三种物质的聚类，表明了一定的用药模式。

结论

这项可行性研究表明，网络分析可以用来描述社交媒体中讨论的药物策略。与现有文献的比较表明，这种方法可以识别出有希望用于药物再利用的物质，如抗组胺药、类固醇或抗抑郁药。在大流行的背景下，拟议的方法可以通过优先考虑对使用者重要的物质来支持药物重新利用假设的发展。

社交媒体挖掘药物再利用 long-COVID 众包新型冠状病毒肺炎 Reddit 社交媒体内容分析网络分析识别算法治疗

简介背景

自COVID-19大流行开始以来，全球已有4.8亿多人感染，600多万人死于COVID-19 [ 1］．在一些急性COVID-19患者中，症状出现的时间较长[ 2］．由于这种现象，“长冠”(LC)一词应运而生[ 3.］．LC指急性后症状(持续时间超过4周)和慢性症状(持续时间超过12周)[ 3.， 4］．32%-87%的既往住院患者至少有一种症状持续[ 4］．此外，在未住院的个体中，LC的发生率估计在10%至35%之间[ 5］．LC症状相关的经济成本可能是显著的。雷诺兹等[ 6]指出，与LC有相似特征的慢性疲劳综合征[ 7，导致美国家庭生产率下降37%，劳动力生产率下降54%。未满足的医疗需求激发了大量的研究活动。ClinicalTrials.gov列出了COVID-19领域的7000多项研究，其中包括600多项lc特异性研究[ 8］．

回顾性临床分析

大量正在进行的研究凸显了药物开发中的一个关键挑战。有很多物质可能是有效的。因此，必须确定有希望的物质，并将潜在候选药物的数量缩小到最有希望的药物。鉴于药物研究的紧迫性、财政资源的稀缺性以及失败的高风险[ 9]，药物再利用(DR)似乎是一种有前途的LC药物开发策略。利用现有药物用于新的治疗目的通常会缩短开发周期，降低成本[ 10］．例如，现有的药物已被证明对人类使用是安全的。因此，不需要I期临床试验[ 10］．从历史的角度来看，DR往往是偶然的[ 10， 11]，但也有系统的方法来识别有希望的目标线索[ 12］．其中一种方法是回顾性临床分析[ 12]，已在COVID-19大流行的情况下使用[ 12］．回顾性临床分析包括从现实经验中学习(例如，评估临床病例报告)，以假设现有药物在新适应症中的应用[ 13］．

从社交媒体中挖掘病人的经历

传统上，回顾性临床分析是基于收集和存储在数据库中的信息，这些数据库明确专门用于医疗保健系统相关应用。潜在的DR信号随后由专业人员分析数据生成。如今，医学研究越来越意识到，受影响患者的集体智慧，共同寻找改善医疗状况的解决方案，可以成为创新的动力[ 14， 15在创新过程中被称为“众包”[ 14， 16］．传统的众包旨在积极合作(例如，制药公司和外部患者群体之间)，而在线论坛通过提供相关内容进行分析，以被动的方式收集现实世界的数据，这也被称为“被动众包”[ 17， 18］．例如，研究人员分析了来自特定疾病社交媒体平台的数据，以确定在批准适应症之外使用的药物(超说明书使用)[ 10， 19］．超适应症使用提供了支持DR假说的信息[ 10， 19］．这些方法节省了与数据收集相关的时间和成本，同时结合了患者的真实经验。然而，社交媒体挖掘(SMM) [ 19]，这个术语指的是用于进行被动众包的方法的集合，在偏见方面存在重大风险[ 10， 19］．例如，由于社交媒体平台上与年龄相关的用户行为，数据可能无法推广到整个人群[ 10］．

从长途运输人员的讨论中产生DR的假设

在这项研究中，我们的目标是捕获与LC患者应对策略相关的药物和补充剂等物质。因此，我们应用SMM采用被动众包的回顾性临床分析原则。由于目前还没有被批准的LC药物，因此无法确定有希望的基于标签外特性的LC候选药物。相反，我们采用了探索性方法，主要包括命名实体识别(NER)和网络分析的应用，旨在从患者的角度概述不同的治疗策略和重要化合物，以生成DR假设。方法学上类似的方法以前曾用于识别阿片类药物戒断自我用药中使用的物质[ 20.]或监测潜在的药物相互作用和反应[ 21］．此外，网络分析已被用于探索与某些疾病相关的讨论[ 22]或探讨公众对疫苗的看法[ 23， 24］．例如，Lewis等人[ 22]使用网络分析来分析老年人加入糖尿病在线社区的原因。罗等[ 24]使用网络分析来探索公众对COVID-19疫苗的看法。

据我们所知，这项研究是第一个通过应用网络分析来探索治疗策略和重要药物来支持DR假设生成的研究。

研究目标

这项可行性研究的目的是评估所提出的方法是否可以用于支持基于Reddit上分享的受影响个体的经验的DR假设生成。为此，我们首先探讨了LC网上关于自我用药的讨论中提到了哪些物质。其次，我们调查了是否存在经常一起讨论的物质集群，以指示治疗策略。第三，我们试图确定这些聚类中最重要的物质，以表明各自的治疗策略。

方法概述

本研究采用的方法包括以下步骤:(1)提取适当的数据，(2)使用NER检测用户帖子中提到的物质实体，(3)分析物质实体的频率和共现网络。图1详细描述了端到端的工作流程。

图1

端到端的详细学习流程。工作流可分为资源识别、数据提取、数据预处理、分析和评估等步骤。API:应用程序编程接口;DR:药物重新定位;食品和药物管理局。

数据来源与提取

Reddit是一个社交媒体平台，它由特定主题的论坛组织，称为“Reddit子论坛”[ 20.］．数据提取过程使用Pushshift [ 25]，这是一个收集Reddit数据的平台，自2015年以来一直可供研究人员使用[ 25］．提取的数据包括来自reddit“/r/covidlonghaulers”版块的帖子和元数据，该版块已被用于探索LC症状[ 26， 27］．这个版块由特定用户积极主持，并为lc相关的讨论提供了一个媒介。内容受到严格规定的约束，禁止宣传替代疗法、虚假信息和阴谋论。截至2022年1月3日，该版块拥有超过2.4万名订阅者和2万篇文章。用户自行报告他们的LC体验，例如讨论症状[ 26和药物治疗。

除了提取文章之外，还可以提取元数据，如用户名、文章日期或所谓的“链接文本”。链接样式文本表示主题标签，用于将帖子(初始帖子和后续帖子)与特定类别关联起来。这为研究人员提供了排除与分析无关的数据的能力。例如，标记为文章、研究文章或幽默帖子的帖子被排除在分析之外多媒体附件1)．此外，没有标签的帖子被排除在外。分析的数据包括了8717名用户在2020年8月31日至2022年3月1日期间发表的68268篇帖子( 图2)．

图2

不同日期的职位数目概览。

实体提取

首先对文本进行预处理，提高数据质量。例如，超链接、制表符和空行被删除。患者在岗位上提到的感兴趣的物质需要提取和结构化以供后续分析[ 19]使用NER [ 28］．我们将感兴趣的物质定义为明确提到的可以被视为治疗的物质或物质组。例如，我们收集了用户讨论过的传统补充剂(如维生素补充剂)或处方药(如抗抑郁药)。ScispaCy提供多个与医疗问题相关的NER模型[ 29]并用于从LC Reddit帖子中提取症状[ 27］．原则上，有两个ScispaCy模型可用于此目的。第一个模型是en_ner_bc5cdr_md模型[ 30.]，可以检测化学物质和疾病。由于该模块涵盖了一般的化学物质，而不是特定的药物或膳食补充剂，我们定义了诸如“乙醇”这样的停止词，以将分析的重点缩小到感兴趣的物质。第二个模型是Med7模型[ 31，专门研究药物提取。同时运行两个模型得到了最好的结果[ 27］．考虑协商条件，排除无极性物质。为此，我们增加了Negex算法[ 32]到NER ScispaCy管道。Negex识别不同形式的否定模式，最初开发用于临床文本[ 32］．随后，对命名的实体进行标准化和过滤，以提高后续分析的数据质量。因此，将提取出来的实体与外部知识库进行匹配，并将其替换为标准医学词汇，如果没有找到匹配则将其丢弃。为此，我们使用了ScispaCy实体链接器，它将实体与统一医学语言系统(UMLS)知识库[ 33］．EntityLinker管道执行字符串最近邻搜索实体，以匹配UMLS概念[ 29］．我们将0.85作为与UMLS概念重叠的阈值[ 29］．为了评估实体提取性能，从整个语料库中随机选择500篇文章进行手工标注。对于数据注释，涉及到两个注释器。编码器间信度为0.94。F1分数作为评价指标[ 34］．通过在食品及药物管理局的橘皮书的数据之间应用不精确的字符串匹配[ 35]，以其有效成分[ 36］．例如，“zyrtec”被“ceterizine hydrochloride”取代。

网络分析

网络分析方法提供了可视化和评估文本关系的可能性。在本研究中，我们使用网络分析来获得物质谱的概述，并识别潜在的物质簇。类似的方法已被用于识别物质及其影响，包括阿片类药物戒断时的自我用药[ 20.]或药物警戒设置[ 21］．

网络分析的特征由节点(由提取的实体表示)和“边”组成，“边”表示节点之间的关系，作为基于实体共现的权重。共现的定义是在一篇帖子中提到两种或两种以上的物质[ 37， 38］．在一个帖子中删除实体的重复，以避免为更频繁提及特定实体的较长帖子分配更多权重。随后，关于物质共现的信息被转换为逐点互信息(PMI)矩阵[ 20.， 39， 40］．我们只考虑了基于总体频率比预期更频繁地共同出现的实体之间的关联，也称为正PMI，这已被证明有利于提取语义表示[ 20.， 41］．为了提高可视化和分析的质量，排除了出现少于10次的物质和低于平均PMI权重的节点对[ 22， 42］．人工移除假阳性节点。使用PMI矩阵，创建了一个无向图，并使用Gephi软件进行分析。Gephi是一个用于网络分析的开源软件，它允许实体的空间化、过滤、导航、操作和聚类[ 43］．

社区检测

我们使用聚类，也称为“社区检测”，来确定LC的潜在药物和/或补充策略。社区检测描述了节点(在我们的例子中，是物质)的聚类，这些节点根据它们的边相互之间有很强的关联。因此，聚类由相互密切相关和讨论的物质组成。社区可以使用各种聚类算法确定。为此，我们使用了相对较新的Leiden算法[ 44］．与过去在网络分析中广泛应用的Louvain算法相比，Leiden算法有几个优点[ 45]，例如有更有意义的分区[ 44］．采用模块化值Q作为质量函数[ 44］．Q值至少为0.3表示有意义的聚类[ 44］．聚类的结果，以及由此产生的Q，在很大程度上取决于预选的分辨率[ 46］．在一个迭代的过程中，我们的目标是通过应用不同的分辨率值，在发现的社区的数量和相关性以及结果的模块化之间找到适当的平衡[ 46］．为了分析网络中最重要的物质，我们计算了度中心性(一个节点的连接数)[ 47];中心性越高，物质在网络中的重要性就越高[ 47， 48］．

结果自我报告中的物质

NER算法的F1分数为0.67 (precision=0.69, recall=0.66)。对标记错误的实体进行错误分析。错误分为词汇错误和字典错误[ 49］．“词汇错误”(38.5%)是指在使用的物质中使用多种词语的情况。例如，我们的模型未能检测和提取术语“benzos”，因为它是药物“benzodiazepine”的俚语缩写，并且没有在模型中被索引。我们的模型没有识别的另一个表达式示例是包含多个单词的复合术语(例如“anti - histamines”)，算法只提取了“histamines”，因此漏掉了前面的单词“anti”，从而赋予被提取的实体不同的含义。

“字典错误”(61.5%)指的是某些术语不是具体的物质，而是物质组;例如，“电解质”没有被捕获，而明确提到的代表电解质的物质如“镁”被可靠地检测到。此外，该算法提取了不被视为处理的物质，如“氯”。

共提取出28447个物质实体和5789个词共现对。“组胺拮抗剂”、“法莫替丁”、“镁”、“维生素”和“类固醇”是在一篇文章中至少出现一次的最常被提及的物质(在一篇文章中重复提到一种物质被忽略)( 图3)．所有物质的清单都可以在多媒体附件1．

中列出了最常见的单词对表1．例如，218次提到的配对中出现频率最高的是盐酸西替利嗪-法莫替丁。

图3

25种最常被提及的物质至少在一篇文章中出现过一次。例如，“组胺拮抗剂”在800多个不同的帖子中被讨论。

表1

最常见的共同事件。

排名	Substance-Substance一对	频率(提及次数)
1	西替利嗪Hydrochloride-Famotidine	218
2	Famotidine-Histamine拮抗剂	135
3.	Potassium-Magnesium	106
4	Famotidine-Loratadine	98
5	Ergocalciferol-Magnesium	96
6	盐酸西替利嗪-组胺拮抗剂	95
7	Aspirin-Famotidine	88
8	Loratadine-Histamine拮抗剂	82
9	Zinc-Ascorbic酸	78
10	Famotidine-Melatonin	78

物质的集群概述

使用0.6的分辨率，发现了三个集群。它们由244个节点和3570条边组成。模块化值为0.48，说明群落划分合理[ 50， 51］．平均聚类系数为0.414。总的来说，这些分数表明网络( 图4)没有随机结构[ 47］．网络中的着色表示社区和节点大小程度的中心性。

图4

物质网络和集群。物质由节点表示;节点的大小越大，度中心性越高。着色是指检测到的群落;紫色代表聚类1，橙色代表聚类2，绿色代表聚类3的物质。

集群1

第一组主要由补充剂和几种非处方(OTC)药物组成，这些药物通常用于流感类疾病( 图5)．按度中心性衡量的前10种最重要物质和各自的物质类别显示在表2．检索到的实体属于电解质/矿物质替代品、维生素、呼吸道制剂(如乙酰steine)和营养补充剂(如鱼油或益生菌)的药物类。

图5

含有典型物质共现簇的帖子示例。

表2

集群的特征。

集群	节点总共享	10种最重要的物质(按程度中心性)
1	42.85%	镁、褪黑素、麦角钙化醇、维生素、复合维生素制剂、烟酸、益生菌、乙酰胱氨酸、鱼油、锌
2	29.51%	加巴喷丁，盐酸安非他酮，抗抑郁药，氟伏沙明，肾上腺素能拮抗剂，纳曲酮，劳拉西泮，大麻二酚，心得安，非甾体抗炎药
3.	26.64%	类固醇，组胺拮抗剂，法莫替丁，盐酸苯海拉明，盐酸西替利嗪，强的松，布洛芬，抗生素，氯雷他定，伊维菌素

集群2

第二类主要包括处方药，如用于治疗心理、精神或神经疾病的药物( 图4)．10种最重要物质的例子( 表2)包括抗惊厥药加巴喷丁，抗抑郁药如盐酸安非他酮，以及肾上腺素能β拮抗剂如心得安。此外，阿片类拮抗剂(如纳曲酮)、抗焦虑药(如劳拉西泮)和非甾体抗炎药(如萘普生)具有高度中心性。

集群3

第三类主要包括常用于治疗过敏反应和炎症的处方药和非处方药物( 图4)．最重要的10种物质( 表2)属于类固醇类药物，如强的松，抗组胺类药物，如法莫替丁，抗生素和非甾体抗炎药，如布洛芬。

讨论主要结果

文章从LC特定的reddit子版块中提取，以分析所讨论的物质，目的是评估所提议的方法是否可用于支持DR的假设发展。在没有批准的LC药物的情况下(在未来的大流行情况下也是如此)，所有物质都可以考虑用于超说明书使用，这使得很难评估应用传统SMM DR方法的潜在候选药物。我们考虑了频率和网络分析，以促进从患者的角度识别重要物质，而不是过滤超说明书使用的物质。

在我们的可行性研究中，最常提到的物质是抗组胺药和法莫替丁，其次是镁等补充剂。此外，维生素和类固醇是经常被讨论的物质。为了分析物质-物质组合的强度，考虑到物质的总体频率，使用PMI来比较关联的强度与随机关联。这些物质及其关联形成了一个非随机网络，由三个物质集群组成，通过群落检测来识别，这意味着对物质的系统讨论和使用。例如，最常被提及的一类物质，组胺拮抗剂，被发现与其他炎症物质如类固醇高度相关。

主要由抗炎剂和补充剂组成的分组包含了最常提到的实体。此外，用于治疗心理、精神或神经疾病的药物也形成了一个集群。后一类可以认为在我们的样本中不太常见，因为其物质出现的频率较低。尽管如此，所有分组都反映了使用者所描述的治疗方法。

通过分析患者自我报告支持DR假设的生成

我们可行性研究的结果突出了Reddit上长期支持者讨论的药物和自我治疗策略。我们能够成功地识别物质网络中的物质群落(代表不同的治疗策略)，以及这些群落中对使用者(基于度中心)具有高度(或)重要性的药物。将结果与目前的文献进行比较，我们的发现得到了科学界已经讨论过的有前途的候选药物的成功鉴定的支持。例如，根据Crook等[ 52]，抗组胺药物被认为是潜在的DR候选药物。在病例报告中已报告长期症状有显著改善[ 53]和观察性研究[ 54］．这似乎得到了来自长期支持者的讨论的支持:抗组胺药是最常被讨论的物质，对抗炎药物集群很重要(以度中心性来衡量)。

同样，Crook等人[ 52]在他们的综述中得出结论，抗抑郁药，如血清素-去甲肾上腺素再摄取抑制剂和选择性血清素再摄取抑制剂，可以重新用于LC的治疗，因为它们与降低急性COVID-19病例的死亡或插管风险有关[ 52， 55]以及外周炎症标志物的减少[ 52， 56］．2021年4月，Sukhatme等人[ 57]对氟伏沙明的作用机制及其在急性COVID-19治疗中的作用进行了综述。作者得出的结论是，“推测氟伏沙明在COVID-19长途旅行者中的作用也很诱人。”2022年4月，Khani等人[ 58]表达了一种假设，即大多数LC症状可能不是直接由COVID-19引起的，而可能是由COVID-19相关炎症和eb病毒(EBV)重新激活引起的。作者认为，由于氟伏沙明对中枢机制的调节作用(例如，减少内质网应激和炎症)，氟伏沙明可能对减轻LC症状有有益的作用。在药物聚类2中，氟伏沙明是第二大最重要的抗抑郁药物，以度中心性( 表2)．有趣的是，我们的数据是基于截至2022年3月的帖子，并清楚地表明，用户已经认为这种药物在他们的LC治疗策略中很重要，而科学界仍在研究假设生成。

另一种最常被提及的抗抑郁药是盐酸安非他酮，代表一种去甲肾上腺素/多巴胺再摄取抑制剂(NDRI) [ 59］．这种药物目前在研究界几乎没有讨论过。在长途运输公司和科学界对NDRIs重要性的认识上，似乎存在显著差异。

另外一些对长期用药者似乎很重要，但在临床研究中很少被讨论的药物包括纳曲酮、肾上腺素能β拮抗剂和强的松。例如，强的松作为一种皮质类固醇，在我们的研究中成为长途跋涉者自我治疗中最主要的类固醇。陈等[ 60]发现急性COVID-19病例中EBV合并感染的发生率很高，并得出结论，建议患者使用皮质类固醇。根据Khani等人的假设[ 58尽管EBV在LC中也具有核心重要性，皮质类固醇可能在LC的治疗中有用，从而解释了在本研究中确定的长期运输者讨论中确定的中心位置。事实上，Goel等人[ 61]报道系统性类固醇有助于加速选定的LC患者的恢复[ 61］．另一项最近发表的单中心介入前后研究表明，低剂量纳曲酮对LC患者是安全的，并可能改善健康状况(例如，减少症状)[ 62］．

总之，临床研究报告表明，我们提出的方法可能支持早期识别有前途的DR候选人。当结合患者对特定药物的经验时，网络分析已被证明在以有意义的方式分割数据方面特别有用。特别是，网络分析能够识别不同的(自我)治疗策略和超出原始频率的相应药物。例如，用于治疗心理、精神或神经障碍的药物代表一个药物集群;然而，这些药物通常报告的频率较低。这可能是由于大多数这些药物只能凭处方购买，因此与非处方药相比，可获得性有限。物质群落检测和程度中心性突出了可能被忽视的策略和药物。此外，网络分析可以区分物质的系统讨论和随机讨论。这是很重要的信息，因为系统的讨论可能是数据质量和人群知识的指标。我们的研究结果表明，患者在社交媒体上分享的经历会影响他人的自我治疗决定[ 63］．用户报告的积极体验将导致其他用户采用相同的方法，从而增加对潜在有益物质的讨论[ 64］．

然而，回顾所有已确定的化合物与LC DR的潜在相关性超出了本研究的范围。我们鼓励专业人员将这些发现作为假设生成的起点，将潜在的DR候选药物缩小到对长期用药很重要的药物。显然，我们不能根据这一分析得出任何关于有效性的结论。然而，这些药物似乎经常被长途运输者用作治疗。因此，科学界应进一步评估这些药物，以确定它们是否有效甚至有害，这也与从公共卫生角度进行沟通有关。

局限性和未来工作

与基于类似方法的可比研究相比，我们的研究有几个局限性。由于我们的NER算法依赖于预训练的模型，我们执行的误差分析表明，在本研究中使用的帖子的注释示例上训练的自定义模型将提高结果的准确性。为了避免在规范化过程中丢失实体(例如，由于使用俚语)，可以定义一个定制的字典，将患者使用的物质的俚语术语与他们的医学术语联系起来。此外，在规范化过程中失败的物质可以手动修改和规范化。但是，NER算法的性能可以认为是合适的。其他应用预训练NER算法从Reddit数据中提取医疗实体的研究显示了类似的F1分数。富菲等[ 49]使用PKDE4J [ 65]，从疾病特异性子reddits中识别生物医学物质，71.48%的提取实体被正确标记。Šćepanović等[ 66]在双向长短期记忆条件随机场(BiLSTM-CRF)模型中评估了六种最先进的预训练语言模型，以识别特定疾病子reddits中的医疗实体;F1得分在0.64 ~ 0.73之间。结合不同的预训练语言模型可以提高性能。例如，Šćepanović等[ 66]通过结合BiLSTM-CRF序列标记架构和上下文嵌入构建了定制的NER系统，该系统在症状方面得分为0.71，在药物方面得分为0.77 ．

确定物质的结果

我们分析了物质在长途运输讨论中的重要性，但我们没有分析这些物质在结果方面是否有帮助，这应该在未来的研究中考虑。有几种方法可用于近似结果。金标准是由医疗专业人员结合领域知识对特定药物职位进行人工检查。进一步的方案方法可以包括分析对药物的平均情绪，以确定使用者是否认为某种治疗是有用的[ 67］．另一种可能是通过应用依赖句法分析来捕捉句子中提到的物质和效果之间的相关性[ 68]或通过实施观察性研究设计[ 69］．然而，由于各种限制，不可能对潜在治疗效果的因果关系进行可靠的评估[ 19];例如，用户不准确地使用医学术语会使结果产生偏差，即使机器学习算法表现得非常准确。此外，我们的分析表明了一种多药的趋势，这将混淆单一物质的分析。此外，与传统研究设计中获得的数据相比，数据质量较低，并且人口统计学变量等几个混杂因素未知。一般来说，即使有完整的患者信息，也应谨慎解释社交媒体数据。例如，伊维菌素被认为是急性COVID-19的潜在耐药候选药物。然而，这被怀疑是由有缺陷的研究支持的[ 70]后来在随机临床试验中发现它是无效的[ 71］．虽然我们无法评估伊维菌素对LC患者的疗效，但可以假设使用者的治疗决策也可能受到潜在缺陷信息的影响。

结果的可推广性和适应症推断

尽管从使用者的角度发现了重要的物质，但由于没有分析人口统计学或症状分布，结果不能推广到所有LC患者。尽管先前的研究[ 26， 27]表明reddit版块的症状范围与最近发表的LC研究大致一致[ 26， 27]，可以假定使用者的治疗选择取决于他们的症状。因此，实施双峰网络来揭示症状和药物之间的相关性可能是有用的。此外，用户的人口分布可能不能代表整个长途运输人口。事实上，研究表明，Reddit的分布受到年龄和性别的影响。 72]，这是一般SMM的主要限制[ 19]，表明数据源代表一个年轻男性亚人群[ 72］．在未来的SMM研究中，有两个可能的改进:(1)结合来自多个平台的数据可以根据特定平台降低用户偏见;(2)算法可以用于推断人口统计变量和分析不同的用户数据，包括元数据[ 19］．

结论

在这项可行性研究中，我们测试了SMM方法的应用，以支持LC dr假设的发展。为此，我们提取了物质实体来分析频率和共现，随后使用它们来识别物质簇。我们的研究结果强调了某些治疗DR的方法，如抗组胺药、类固醇或抗抑郁药，同时也表明患者以系统的方式尝试了广泛的物质。这项可行性研究表明，网络分析可以用来描述所讨论的用药策略。与现有文献的比较表明，该方法确定了药物再利用的合理候选物质。对比还表明，从使用者的角度来看，一些物质很重要，而在科学界几乎没有讨论过。这些物质应由专家审查，以评估其潜在的功效或危害。该结果可能会导致DR假说，或者强调在长途运输社区沟通药物潜在风险的必要性。在大流行的情况下，拟议的方法可用于支持DR假设的发展，以成本和时间有效的方式优先考虑对使用者重要的物质。

多媒体附件1

链接花式文本(LFT)标签包括和排除的分析，并从帖子中提取的总物质。

缩写

BiLSTM-CRF

双向长短期记忆条件随机场

博士

药物再利用

EBV

巴尔病毒

信用证

长COVID

NDRI

去甲肾上腺素/多巴胺再摄取抑制剂

尼珥

命名实体识别

场外

柜台上

采购经理人指数

点互信息

多发性骨髓瘤

社交媒体挖掘

uml

统一的医学语言系统

这项研究是由德国北莱茵-威斯特伐利亚州(资助号:ITG-1-1)支持的ATLAS项目“医疗保健中的创新和数字化转型”的一部分。

没有宣布。

世卫组织冠状病毒(COVID-19)仪表盘

世界卫生组织 2022-08-30

https://covid19.who.int

Lopez-Leon

年代

Wegman-Ostrosky

佩雷尔曼

赛普维达

Rebolledo

Cuapio

一个

Villapol

年代

COVID-19的50多种长期影响:系统综述和荟萃分析

Sci代表 2021 08 09 11 1 16144

10.1038 / s41598 - 021 - 95565 - 8

34373540

10.1038 / s41598 - 021 - 95565 - 8

PMC8352980

·Michelen

米

Manoharan

Elkheir

NgydF4y2Ba

程

《每日新闻》

一个

黑斯蒂

奥哈拉

米

Suett

Dahmash

Bugaeva

里格比

我

Munblit

哈里斯先生

节

一个

富特

斯科特

卡森

Olliaro

Sigfrid

Stavropoulou

长冠肺炎的特征:一个活的系统回顾

BMJ Glob Health 2021 09 27 6 9 e005427

10.1136 / bmjgh - 2021 - 005427

34580069

bmjgh - 2021 - 005427

PMC8478580

纳尔班迪安

一个

Sehgal

古普塔

一个

Madhavan

McGroder

史蒂文斯

烹饪

小

Nordvig

作为

她

Sehrawat

阿卢瓦利亚

NgydF4y2Ba

Bikdeli

迪茨

Der-Nigoghossian

Liyanage-Don

NgydF4y2Ba

Rosner

女朋友

伯恩斯坦

莫汉

年代

贝克利

赛里斯

Choueiri

乌列

NgydF4y2Ba

答

Accili

Freedberg

德

鲍德温

米

施瓦兹

一个

布罗迪

加西亚

艾尔金德

毫西弗

康纳斯

Bilezikian

摩根大通

兰德里

王ydF4y2Ba

莎莉

急性后COVID-19综合征

Nat地中海 2021 04 22 27 4 601 615

10.1038 / s41591 - 021 - 01283 - z

33753937

10.1038 / s41591 - 021 - 01283 - z

PMC8893149

Pavli

一个

Theodoridou

米

Maltezou

covid后综合征:发病率、临床谱以及初级卫生保健专业人员面临的挑战

Arch Med Res 2021 08 52 6 575 581

10.1016 / j.arcmed.2021.03.010

33962805

s0188 - 4409 (21) 00081 - 3

PMC8093949

雷诺兹

弗农

Bouchery

里夫斯

慢性疲劳综合症对经济的影响

成本、资源分配 2004 07 21 2 1 4

10.1186 / 1478-7547-2-4

15210053

1478-7547-2-4

PMC449736

黄

维特尔

长冠肺炎和肌痛性脑脊髓炎/慢性疲劳综合征(ME/CFS)-临床表现和症状学的系统回顾和比较

药物 2021 05 26 57 5 418

10.3390 / medicina57050418

33925784

medicina57050418

PMC8145228

COVID-19相关临床研究

ClinicalTrials.gov 2022-08-30

https://clinicaltrials.gov/ct2/results?cond=COVID-19

Pammolli

Magazzini

Riccaboni

米

Nat Rev药物发现 2011 07 1 10 6 428 438

10.1038 / nrd3405

21629293

nrd3405

Pushpakom

年代

人工

艾尔斯

巴勒斯坦权力机构

Escott

料斗

年代

井

一个

多依格

一个

Guilliams

拉蒂默

麦克纳米

诺里斯

一个

Sanseau

Cavalla

Pirmohamed

米

药物再利用:进展、挑战和建议

Nat Rev药物发现 2019 01 12 18 1 41 58

10.1038 / nrd.2018.168

30310233

nrd.2018.168

查

Erez

雷诺兹

库马尔

罗斯

Koytiger

Kusko

Zeskind

Risso

年代

卡根

Papapetropoulos

年代

格罗斯曼

我

Laifenfeld

从制药公司的角度看药物再利用

Br J Pharmacol 2018 01 18 175 2 168 180

10.1111 / bph.13798

28369768

PMC5758385

YL型

萨利姆

楚

JJH

针对COVID-19的药物再利用:方法、挑战和有希望的候选药物

杂志 2021 12 228 107930

10.1016 / j.pharmthera.2021.107930

34174275

s0163 - 7258 (21) 00132 - 7

PMC8220862

Cavalla

利用人类经验识别药物再利用机会:理论和实践

Br J临床药物 2019 04 03 85 4 680 689

10.1111 / bcp.13851

30648285

PMC6422651

塔克

一天

年代

唐

鲅鱼

医学研究中的众包:概念和应用

PeerJ 2019 7 e6762

10.7717 / peerj.6762

30997295

6762

PMC6463854

沙玛

NgydF4y2Ba

临床试验以患者为中心的方法:当前趋势和新机遇

透视临床保留区 2015 6 3. 134 138

10.4103 / 2229 - 3485.159936

26229748

pcr - 6 - 134

PMC4504054

Boudreau

拉

利用大众作为创新伙伴

Harv Bus Rev 2013 05 91 4 60 9日,140年

23593768

Charalabidis

Loukis

Androutsopoulou

一个

Karkaletsis

Triantafillou

一个

政府使用社交媒体进行被动众包

转变政府:人，过程，政策 2014 8 2 283 306

10.1108 / tg - 09 - 2013 - 0035

艾哈迈德

年代

拉其普特人

Sarirete

一个

Aljaberi

一个

Alghanem

Alsheraigi

一个

研究失业对心理健康的影响:社交媒体与传统方法

可持续性 2020 10 02 12 19 8130

10.3390 / su12198130

高斯

Rheinlaender

一个

Truebel

Bohnet-Joschko

年代

药物开发中的社交媒体挖掘——基本原理和用例

今日毒品发现 2021 12 26 12 2871 2880

10.1016 / j.drudis.2021.08.012

34481080

s1359 - 6446 (21) 00372 - x

20.

Preiss

一个

费利克斯

Edlund

乔丹

Bobashev

全球之声

使用命名实体识别识别阿片类药物戒断的自我用药中使用的物质:Reddit数据的自然语言处理研究

JMIR表格规定 2022 03 30. 6 3. e33919

10.2196/33919

35353047

v6i3e33919

PMC9008522

专题

李

罗查

通过对Instagram用户时间线的网络分析来监测潜在的药物相互作用和反应

Pac Symp Biocomput 2016 21 492 503

26776212

9789814749411 _0045

PMC4720984

刘易斯

晶澳

哇

点

何

米勒

LMS

理解为什么老年2型糖尿病患者加入糖尿病在线社区:语义网络分析

JMIR老化 2018 07 28 1 1 e10649

10.2196/10649

31518243

v1i1e10649

PMC6715014

王

问

张

蔡

曹

了解中国女性对市售国产和进口HPV疫苗的认知:语义网络分析

疫苗 2020 12 14 38 52 8334 8342

10.1016 / j.vaccine.2020.11.016

33190947

s0264 - 410 x (20) 31442 - 0

罗

程ydF4y2Ba

一个

崔

廖

从文化角度探索公众对COVID-19疫苗的在线认知:对美国和中国两个社交媒体平台的语义网络分析

Telemat通知 2021 12 65 101712

10.1016 / j.tele.2021.101712

34887618

s0736 - 5853 (21) 00151 - 9

PMC8429027

费利克斯

Zannettou

年代

基冈

乡绅

米

布莱克本

推送移位Reddit数据集

2020

第十四届国际AAAI网络与社交媒体会议(ICWSM 2020)

2020年6月8日至11日

亚特兰大,乔治亚州

衬衣

一个

通用电气

从Reddit挖掘长covid症状:从患者报告中描述covid后综合征

JAMIA开放 2021 07 4 3. ooab075

10.1093 / jamiaopen / ooab075

34485849

ooab075

PMC8411371

Sarabadani

年代

约纳利

Fossat

全

社交媒体中COVID-19症状的纵向变化:观察性研究

J医疗互联网服务 2022 02 16 24 2 e33959

10.2196/33959

35076400

v24i2e33959

PMC8852652

Mansouri

一个

Affendey

Mamat

一个

命名实体识别方法

国际计算科学网络安全 2008 8 2 339 344

诺伊曼

米

王

Beltagy

我

阿玛

ScispaCy:用于生物医学自然语言处理的快速而健壮的模型

arXiv 2019

2022-08-30

https://arxiv.org/abs/1902.07669

30.

李

太阳

约翰逊

Sciaky

魏

利曼

戴维斯

美联社

Mattingly

Wiegers

陆

BioCreative V CDR任务语料库:化学疾病关系提取资源

数据库 2016 2016 baw068

10.1093 /数据库/ baw068

27161011

baw068

PMC4860626

Kormilitzin

一个

Vaci

NgydF4y2Ba

刘

问

Nevado-Holgado

一个

Med7:用于电子健康记录的可转移临床自然语言处理模型

Artif Intell医院 2021 08 118 102086

10.1016 / j.artmed.2021.102086

34412834

s0933 - 3657 (21) 00079 - 8

查普曼

感化院

Hanbury

库珀

女朋友

布坎南

一种识别出院总结中阴性结果和疾病的简单算法

J生物医学信息 2001 10 34 5 301 310

10.1006 / jbin.2001.1029

12123149

s1532 - 0464 (01) 91029 - 9

Bodenreider

统一医学语言系统(UMLS):整合生物医学术语

核酸测定 2004 01 01 32 数据库问题 D267 D270

10.1093 / nar / gkh061

14681409

32 / suppl_1 / D267

PMC308795

Hripcsak

信息检索中的一致性、f测度与可靠性

美国医学信息协会 2005 01 31 12 3. 296 298

10.1197 / jamia.m1733

橙书:已批准的药物产品的治疗等效性评估

美国食品和药物管理局 2022-08-30

https://www.fda.gov/drugs/drug-approvals-and-databases/approved-drug-products-therapeutic-equivalence-evaluations-orange-book

马'ayan

一个

詹金斯

年代

戈德法布

Iyengar

FDA批准药物及其靶标的网络分析

西奈山J医院 2007 05 74 1 27 32

10.1002 / msj.20002

17516560

PMC2561141

马歇尔

年代

杨

平

问

赵

米

阿维斯

NgydF4y2Ba

知识产权

乳腺癌女性的症状群:来自社交媒体的数据分析和一项研究

合格人寿保险 2016 03 25 3. 547 557

10.1007 / s11136 - 015 - 1156 - 7

26476836

10.1007 / s11136 - 015 - 1156 - 7

PMC5129624

Vitte

高

科波拉

Judkins

基于“增大化现实”技术

Giovannini

米

Smarcb1和Nf2失活的时间决定了神经鞘瘤和横纹肌瘤的发展

Nat Commun 2017 08 21 8 1 300

10.1038 / s41467 - 017 - 00346 - 5

28824165

10.1038 / s41467 - 017 - 00346 - 5

PMC5563506

刘

陆

在线隐藏人群分析:中国最大在线社区艾滋病相关用户的话题、情感和社交网络

BMC Med通知Decis Mak 2018 01 05 18 1 2

10.1186 / s12911 - 017 - 0579 - 1

29304788

10.1186 / s12911 - 017 - 0579 - 1

PMC5755307

腾

林

亚当

使用配料网络推荐食谱

2012

第四届ACM网络科学会议(WebSci '12)

2012年6月22日至24日

埃文斯顿,

10.1145/2380718.2380757

Bullinaria

晶澳

莱维

摩根大通

从单词共现统计中提取语义表示:停止列表、词干和SVD

行为测定方法 2012 10 19 44 3. 890 907

10.3758 / s13428 - 011 - 0183 - 8

22258891

花茎甘蓝

丁

Millam

巴奈特

遗传算法

关于基因编辑婴儿的喧嚣:推特上对CRISPR的语义网络分析

Env Commun 2019 12 19 14 7 954 970

10.1080 / 17524032.2019.1699135

巴斯蒂安·

米

海曼

年代

Jacomy

米

Gephi:用于探索和操作网络的开源软件

2009

第三届国际AAAI博客和社交媒体会议

2009年5月17-20日

圣何塞，加利福尼亚州

Traag

弗吉尼亚州

Waltman

van Eck

新泽西

从鲁汶到莱顿:保证连接良好的社区

Sci代表 2019 03 26 9 1 5233

10.1038 / s41598 - 019 - 41695 - z

30914743

10.1038 / s41598 - 019 - 41695 - z

PMC6435756

Hairol Anuar

上海

打倒

咱

Yunos

纳米

穆罕默德扎基

哈

身兼

曼氏金融

Asmai

Abidin

尼扎姆

房颤

网络结构的Louvain和Leiden算法比较综述

2021

首届材料加工与技术国际会议(ICMProTech 2021)

2021年7月14日至15日

玻璃市、马来西亚

10.1088 / 1742 - 6596/2129/1/012028

Arroyo-Machado

Torres-Salinas

Robinson-Garcia

NgydF4y2Ba

识别和描述社交媒体社区:替代指标的社会语义网络方法

科学计量学 2021 10 12 126 11 9267 9289

10.1007 / s11192 - 021 - 04167 - 8

34658460

4167

PMC8507359

Dotsika

沃特金斯

一个

通过关键字网络分析来识别潜在的破坏性趋势

技术预测社会变化 2017 06 119 114 127

10.1016 / j.techfore.2017.03.020

软管

Hotho

一个

Jaschke

施密茨

Stumme

确定

Domingue

本体的语义网络分析

语义网:研究与应用。ESWC 2006。计算机科学课堂讲稿，4011卷 2006

柏林,海德堡

施普林格

Foufi

Timakum

Gaudet-Blavignac

洛维斯

首歌

米

来自Reddit的文本健康信息挖掘:用提取的实体及其关系分析慢性疾病

J医疗互联网服务 2019 06 13 21 6 e12876

10.2196/12876

31199327

v21i6e12876

PMC6595941

Varsha

帕蒂尔

社交网络中的社区检测算法综述

2020

国际发明计算技术会议(ICICT)， 2020

2020年2月26日至28日

哥印拜陀，泰米尔纳德邦，印度

10.1109 / icict48043.2020.9112563

纽曼

MEJ

网络中的模块化与社区结构

美国国立自然科学研究院 2006 07 06 103 23 8577 8582

10.1073 / pnas.0601602103

16723398

0601602103

PMC1482622

骗子

拉扎。

年代

阿普

年轻的

米

爱迪生

长期covid- 19机制、风险因素和管理

BMJ 2021 07 26 374 n1648

10.1136 / bmj.n1648

34312178

平托

医学博士

兰伯特

NgydF4y2Ba

波动

亚伯拉罕

休斯

道明

压力

我

伯顿

连续波

Chakraborty

抗组胺药物治疗SARS-CoV-2感染急性后遗症

J护士实践 2022 03 18 3. 335 338

10.1016 / j.nurpra.2021.12.016

35153633

s1555 - 4155 (21) 00547 - x

PMC8820139

Glynne

塔玛色比

NgydF4y2Ba

甘特图

古普塔

轻度SARS-CoV-2感染后长冠状病毒:特征性T细胞改变和抗组胺反应

J调查医学 2022 01 05 70 1 61 67

10.1136 /吉姆- 2021 - 002051

34611034

吉姆- 2021 - 002051

PMC8494538

Hoertel

NgydF4y2Ba

Sanchez-Rico

米

韦尔

Beeker

NgydF4y2Ba

雅诺

一个

Neuraz

一个

萨拉曼卡

巴黎

NgydF4y2Ba

丹尼尔

Gramfort

一个

Lemaitre

Bernaux

米

Bellamine

一个

Lemogne

Airagnes

Burgun

一个

Limosin

AP-HP/大学/INSERM COVID-19研究合作AP-HP COVID CDR计划

抗抑郁药使用与COVID-19住院患者插管或死亡风险降低之间的相关性:来自一项观察性研究的结果

摩尔精神病学 2021 09 04 26 9 5199 5212

10.1038 / s41380 - 021 - 01021 - 4

33536545

10.1038 / s41380 - 021 - 01021 - 4

科勒

Freitas

斯塔布斯

梅斯

米

Solmi

米

维罗纳人

NgydF4y2Ba

德安德拉德

莫里斯

费尔南德斯

废话

Brunoni

基于“增大化现实”技术

赫曼

NgydF4y2Ba

存在的

米勒

Lanctot

吉隆坡

卡瓦略

房颤

重度抑郁症抗抑郁药物治疗后细胞因子和趋化因子水平的外周改变:系统回顾和荟萃分析

摩尔一般 2018 05 13 55 5 4195 4206

10.1007 / s12035 - 017 - 0632 - 1

28612257

10.1007 / s12035 - 017 - 0632 - 1

Sukhatme

副总裁

Reiersen

我

Vayttaden

Sukhatme

氟伏沙明的作用机制及其在COVID-19中的作用

前药物杂志 2021 4 20. 12 652688

10.3389 / fphar.2021.652688

33959018

652688

PMC8094534

造成损失

Entezari-Maleki

氟伏沙明与长COVID-19;sigma-1受体(S1R)激动剂的新作用

摩尔精神病学 2022 05 06 在线先于印刷

10.1038 / s41380 - 022 - 01545 - 3

35388182

10.1038 / s41380 - 022 - 01545 - 3

PMC8985056

克里斯托

Thase

我

塔克

六世

Goodale

盐酸安非他酮与抑郁症患者睡眠的关系

现任心理学牧师 2007 05 01 3. 2 123 128

10.2174 / 157340007780599096

程ydF4y2Ba

首歌

刘

郑

程ydF4y2Ba

2019冠状病毒病(COVID-19)患者eb病毒检测阳性

Sci代表 2021 05 25 11 1 10902

10.1038 / s41598 - 021 - 90351 - y

34035353

10.1038 / s41598 - 021 - 90351 - y

PMC8149409

戈埃尔

NgydF4y2Ba

Goyal

NgydF4y2Ba

Nagaraja

库马尔

系统性皮质类固醇治疗“长covid”:治疗3个月后的评估

Monaldi Arch Chest Dis 2021 12 03 92 2 1981

10.4081 / monaldi.2021.1981

34730322

凯利

比达尔

麦克休

吸引

Avramovic

兰伯特

低剂量纳曲酮在covid长队列中的安全性和有效性介入前后研究

大脑行为Immun健康 2022 10 24 100485

10.1016 / j.bbih.2022.100485

35814187

s2666 - 3546 (22) 00075 - 8

PMC9250701

Benetoli

一个

程ydF4y2Ba

Aslani

患者使用社交媒体如何影响他们与医疗保健专业人员的互动

病人教育计数 2018 03 101 3. 439 444

10.1016 / j.pec.2017.08.015

28882545

s0738 - 3991 (17) 30529 - 3

Ogink

越南盾

金桥

通过社交媒体上的用户反馈刺激创新:一个在线用户创新社区的案例

技术预测社会变化 2019 07 144 295 302

10.1016 / j.techfore.2017.07.029

首歌

米

金

李

Heo

通用电气

康

肯塔基州

PKDE4J:用于公共知识发现的实体和关系提取

J生物医学信息 2015 10 57 320 332

10.1016 / j.jbi.2015.08.008

26277115

s1532 - 0464 (15) 00175 - 6

Scepanovic

年代

Martin-Lopez

Quercia

Baykaner

从社交媒体中提取医疗实体

2020

CHIL '20: ACM健康、推理和学习会议

2020年4月2日至4日

在多伦多

10.1145/3368555.3384467

抓住ß呃

Kallumadi

年代

Malberg

Zaunseder

年代

应用跨领域和跨数据学习的基于方面的药物评论情感分析

2018

DH '18: 2018年数字健康国际会议

2018年4月23日至26日

法国里昂

10.1145/3194658.3194677

Doan

年代

杨

电子战

小红点

党卫军

李

sid Zisook

鸟居

米

利用自然语言处理从推特信息中提取与健康相关的因果关系

BMC Med通知Decis Mak 2019 04 04 19 ,85 79

10.1186 / s12911 - 019 - 0785 - 0

30943954

10.1186 / s12911 - 019 - 0785 - 0

PMC6448183

萨哈

糖

Torous

Abrahao

Kıcı男人

De Choudhury

米

一项关于精神药物使用影响的社交媒体研究

Proc Int AAAI Conf Weblogs Soc Media 2019 07 07 13 440 451

32280562

PMC7152507

Meyerowitz-Katz

Wieten

年代

麦地那Arellano

MDJ

Yamey

伊维菌素治疗covid-19的不道德研究

BMJ 2022 04 14 377 o917

10.1136 / bmj.o917

35422425

罗马

伯里乐

Pasupuleti

Piscoya

一个

比达尔

埃尔南德斯

一个

伊维菌素治疗2019年冠状病毒疾病:随机对照试验的系统综述和荟萃分析

临床感染病 2022 03 23 74 6 1022 1029

10.1093 / cid / ciab591

34181716

6310839

PMC8394824

Amaya

一个

巴赫

Keusch

Kreuter如此说道

社会科学研究中的新数据源:在使用Reddit数据之前需要知道的事情

社会科学计算Rev 2019 12 18 39 5 943 960

10.1177 / 0894439319893305