发表在第24卷第11期(2022):11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/34067,首次出版
用无监督词嵌入和机器学习预测快速扩展的COVID-19文献中的新兴主题:基于证据的研究

用无监督词嵌入和机器学习预测快速扩展的COVID-19文献中的新兴主题:基于证据的研究

用无监督词嵌入和机器学习预测快速扩展的COVID-19文献中的新兴主题:基于证据的研究

原始论文

1印陀罗摩资讯科技学院计算生物学系,新德里,印度

2Maharaja Surajmal理工学院,Guru Gobind Singh Indraprastha大学,新德里,印度

3.基因组学和综合生物学科学与工业研究所理事会,印度新德里

通讯作者:

Tavpritesh Sethi, MBBS,博士

计算生物学系

印陀罗摩陀信息技术学院

新学术楼三楼

Okhla工业区,三期

新德里,110020

印度

电话:91 9779908630

电子邮件:tavpriteshsethi@iiitd.ac.in


背景:来自同行评审文献的证据是设计应对COVID-19等全球威胁的基石。在大量快速增长的语料库中,如COVID-19出版物,吸收和综合信息具有挑战性。利用一个健壮的计算管道来评估多个方面,如网络拓扑特征、社区及其时间趋势,可以使这个过程更有效。

摘要目的:我们的目标是证明可以使用文献的底层无监督词嵌入中的时间变化来捕获和跟踪新知识。进一步的即将到来的主题可以通过机器学习来预测单词之间不断发展的联系。

方法:频繁出现的医疗实体是从世界卫生组织数据库中发表的15万多篇COVID-19文章的摘要中提取的,这些文章从2020年2月开始每月收集一次。在每个月的文献上训练词嵌入,以余弦相似度作为边权来构建实体网络。根据先前的模式预测接下来一个月网络的拓扑特征,并使用监督机器学习预测新的链路。社区检测和冲积图被用来跟踪几个月来演变的生物医学主题。

结果:我们发现,早在2020年8月,就发现血栓栓塞并发症是一个新兴的主题。2021年3月观察到长COVID并发症症状的转变,2021年6月神经并发症显著增加。一个前瞻性验证的链接预测模型实现了一个面积下的接收者工作特征曲线为0.87。基于前几个月观察到的模式,预测建模揭示了COVID-19出版物中的主要研究主题:易感条件、症状、交叉感染和神经并发症。

结论:基于机器学习的新兴链接预测可以通过捕获由医学实体组所代表的主题,从而有助于指导研究,这些主题基于随着时间推移的语义关系模式。

中国医学杂志,2018;24(11):e34067

doi: 10.2196/34067

关键字



COVID-19大流行是一项全球健康威胁,并已被证明是一个谜,其临床表现多样,治疗证据有争议,疫苗研发快速,系统性影响尚不明确。大多数国家都受到COVID-19的影响,截至2021年7月13日,短时间内约有1.87亿例确诊病例,有400多万人死亡[1].关于COVID-19的文献呈指数级增长,世界卫生组织(世卫组织)审查了15万多篇关于COVID-19的文章[2].随着研究人员、临床医生和政策制定者越来越难以从同行评议的文献中合成知识,理解COVID-19等背景下不断演变的主题至关重要。以前的研究方法,如主题建模和情感分析,仅在短时间内将预印本与同行评议文献进行了比较。伊巴迪等[3.]研究了情绪的时间模式,以及不同来源的出版物随着时间的推移的相似性,使用文档嵌入。使用结构主题建模发现了肿瘤学、个人防护设备、分析学、康复恐慌、高危人群和基因组学等高水平研究主题。尽管这样的分析反映了广泛研究领域的抽象概述,但它们并没有捕捉到不同领域特定实体之间不断发展的上下文。我们的研究目的是分析和跟踪生物医学实体之间的词级语义相似性,以揭示新兴主题。

文章摘要包含了文献中大量的信息。摘要中的命名实体在从大量文本中推断有价值的信息和影响文学趋势方面发挥着至关重要的作用[4].已使用在生物医学、科学和临床基准数据集上预训练的模型从连续文本中提取各种临床实体,如疾病、症状、化学物质和药物不良反应。随着时间的推移,这些实体的相对上下文会发生变化,导致与其他单词的相似度发生变化[5].无监督词嵌入以前曾用于捕获复杂的科学概念,使用由余弦相似度表示的语义关系[6].

预测“医学术语”之间的联系对于理解文献和现象中的潜在主题具有重要意义。链路预测是根据一组拓扑特征预测复杂网络中2个节点之间是否存在链路的任务。近年来,现实世界时间网络中的链路预测问题已经被探索了很多[7],主要用于在线社交媒体网络,其中节点由用户表示,边由用户之间的关系表示。基于拓扑邻近度量的监督学习方法已被广泛用于捕捉网络中链接随时间的移动[89].我们的论文旨在通过我们提出的框架来填补这些空白,证据流[10,这是一个交互式web应用程序,使用冲积图、有影响力的实体投影和不同月份的网络分析来跟踪文献趋势。我们首次提出使用历时词嵌入、实体动态网络中的链接预测和机器学习来预测新兴主题文献,并将这些作为web应用程序公开提供。本文还研究了基于加权时间网络中提取实体间余弦相似度变化的文献演化,并利用链接预测预测未来的新兴趋势。

我们主要关注快速出现的COVID-19文献,以训练和验证我们的研究架构。我们预测了命名实体对在前几个月的时间趋势中产生的语义和拓扑接近特征。此外,我们使用这些预测特征来预测从文本数据中提取的临床实体之间的联系,使用机器学习算法在预测的时间间隔内。此外,这些链接被用于创建一个由预测余弦相似度加权的网络,用于检测倾向于反映当月发表文章主题的实体社区。为了评估我们的预测模型的有效性,我们使用均方误差(MSE)验证了从自回归综合移动平均(ARIMA)预测的实体对的接近特征。我们还评估了机器学习算法在3个月时间跨度内预测链接的性能。

工作流程的示意图已被演示(图1).新兴主题的互动分析和结果可以在我们名为EvidenceFlow的网络应用程序上公开获取。关于其工作的细节也可以在多媒体附件1.这项研究提出了一个框架,用于捕获和跟踪由医疗实体在时间空间中形成的迫在眉睫的主题,该框架基于使用不断发展的COVID-19文献训练的词嵌入构建的网络。

图1。所建议的框架的图解说明了完整的工作流程。管道将抽象作为输入,使用命名实体识别从抽象中提取实体。生成嵌入,将其用作纵向网络的特征。这些网络用于使用冲积图、链接预测和预测主题预测的前k个有影响力的模块来可视化趋势。自回归综合移动平均。
查看此图

数据集与文本预处理

数据集是根据公开的世卫组织数据库中发表的约15万篇COVID-19文章摘要创建的[2] 2020年2月至2021年6月(图2A).对于每一篇研究文章,数据库包含相应的标题、作者、发表来源、期刊、数据库、语言、发表类型、发表日期、国家和全文URL。我们在数据库中查询了所有英文全文文章,其余的字段未被过滤。中描述了有关特定类别和关键字的文章的频率多媒体附件2.使用自然语言工具包(NLTK)包对小写转换的文本进行格式化,删除空格、标点符号、数字和停止词[11].我们列出了进一步分析中使用的所有软件和软件包,以及相应的版本和来源多媒体

图2。(A)图表显示每月出现的文章数量。该曲线显示,自2020年2月以来,每个月的文章数量都在急剧增长。(B)围绕关键词“后covid综合征”可视化的疾病词嵌入潜空间,显示离其最近的100个孤立点。(C)柱状图显示了使用命名实体识别(NER)提取的摘要文集中顶部疾病的频率。(D)柱状图显示了使用NER提取的摘要语料库中顶部化学物质的频率。HCQ:羟氯喹;IL:白介素。
查看此图

命名实体识别

命名实体识别(NER)用于从经过审查的研究文章的原始摘要中提取2种类型的实体(疾病和化学品),使用由生物医学自然语言处理开源项目SciSpacy在BC5CDR语料库上预训练的模型[12].该模型识别F1分数为84.49%的实体[13].在疾病类别下提取的词语还包含症状、不良反应、条件、障碍和综合征。所有这些疾病在其他部分统称为疾病。实体被进一步用于创建网络,通过冲积图研究趋势,并预测过去和未来几个月节点之间的联系。

无监督词嵌入

词汇嵌入是根据从世卫组织数据库获得的摘要进行训练的,这些摘要随着每月提供的新出版物和预印本而得到更新。对于摘要语料库中出现的单词,使用带有跳跃式图算法的Word2Vec模型和在Gensim中实现的固定窗口大小为5来学习低维表示(d=100) [14-16].计算提取的实体词向量之间的余弦距离,分析实体对之间的不相似度。词向量的可视化使用TensorFlow Embedding投影仪进行[17使疾病和化学物质之间的关系得以互动探索。为了创建每个月的实体网络,单独的Word2Vec模型被训练来捕捉随时间发表的文献中单词相似性的变化。

纵向实体网络和社区

高余弦相似度代表单词之间的强关联。我们使用历时词嵌入来捕捉各种疾病之间不断演变的上下文相似性,并研究随时间的演变。利用提取实体词向量之间的相似度作为边权,构建加权网络。从每个月的摘要语料库中,提取出前N(=100)个最常发生的疾病,并使用基于相应月份的词嵌入的余弦相似度大于90百分位的对来创建跨月份的实体联合集,保存为时间网络中的节点。因此,每个月的网络都有一组固定的节点,这些节点具有不同的链接,根据余弦相似度的阈值标记为0或1,以及根据不断进化的语义紧密度计算的不同权重。所述阈值是在实验的基础上进行经验选择的;我们选择了一个高阈值来描述存在于同一潜在空间的两个单词之间的上下文相似性。为了培训和评估,使用上述程序,从2020年2月至2021年2月发表的论文摘要中确定的疾病创建了一组固定的实体对。在接下来的几个月里,词嵌入模型在各自的摘要语料库上进行训练,如果它们出现在词汇表中,则分配固定节点对集之间的链接,并通过它们的词向量之间的余弦相似度进行加权。使用Infomap算法在每月的网络中进行社区检测[18].词嵌入的语义变化导致了社区的形成,随着几个月来出现的主题而变化。使用基于PageRank值的冲积可视化来跟踪每个节点(实体)的重要性,该值在不同月份之间发生变化[19].带参数的详细步骤可在多媒体附件1

邻近度分数的时间序列预测

为了预测接下来几个月网络中节点之间是否存在链接,我们计算了每个月网络的5个邻里接近度分数。花牌相似,共同邻居,优先依恋20.],和Adamic Adar相似度[21]作为拓扑特征,节点表示的实体之间的余弦相似度作为语义特征。这些基于网络拓扑的接近度分数是使用NetworkX包计算的[22].adam Adar相似度、共同近邻和优先附着值在0.00 ~∞之间,Jaccard相似度和cos相似度在0.00 ~ 1.00之间。为了缩放这些值,我们将每个网络中的前3个分数归一化,使其在0.00到1.00的范围内。

每个接近度得分被建模为每个节点对的时间序列,并使用ARIMA模型预测接下来一个月的值[23].使用增强Dickey-Fuller检验评估时间序列的平稳性。平稳序列采用一阶自回归模型(p=1, d=0, q=0),非平稳时间序列按模型的随机游走顺序(p=0, d=1, q=0)传递。为了验证,使用时间戳τ处网络的接近度得分+1根据它们在时间戳τ之前的网络中各自的过去值进行预测。通过将预测结果与τ中的原始接近度分数进行比较,评估了模型的性能+1时间使用MSE。MSE是一个稳健的指标,以衡量预测输出接近实际值的时间序列设置。为了评估其对异常值的敏感性,我们分析了误差的分布(多媒体附件4).可以看到,误差的中位数接近于零,异常值的影响最小。带参数的详细步骤可在多媒体附件1

实体间链路预测

使用ARIMA模型预测的接近度分数进一步用于识别网络G中实体之间是否存在链接+1基于邻近性得分和所有以前的网络链接(G1G2G3.,…),使用监督机器学习。我们利用逻辑回归试验了所提出的链路预测方法[24],随机森林[25],支持向量机[26], AdaBoost [27], XGBoost [28].为了训练模型,在每个时间戳到之前,使用4个临近分数(Jaccard系数、优先依恋、Adamic Adar指数和共同邻居)作为节点对的特征。为了验证,预测网络在时间戳的接近得分+1用于预测节点之间的链接。由于标签之间的高度不平衡,我们评估受试者工作特征曲线(AUROC)下的面积,以选择最优阈值进行二元分类。在训练、验证和测试模型时,我们没有使用余弦相似度作为特征,因为它是链接的标识变量。对2021年4月至2021年6月的预测接近度得分进行了模型验证。对于逻辑回归,关键假设的评估是用方差膨胀因子来衡量多重共线性的程度,用库克距离来检测有强烈影响的离群值的存在,用对数概率散点图来检查自变量的线性。这些测试对大多数月份的数据都不满意;因此,逻辑回归并不是我们首选的模型,我们也没有在结果中进一步考虑它。韦尔奇的t进行测试,以比较机器学习模型的性能,然后进行Bonferroni校正[29].详细的算法和功能,可在多媒体附件1.中为所有模型设置的参数多媒体

预测网络中的团体检测

使用最佳性能模型预测的节点对之间的链接来创建由ARIMA模型预测的余弦相似度评分加权的网络。在预测的和原始的测试网络上应用Infomap算法,将节点聚类为10个模块。这些模块使用交集/并集(IOU)进行比较,并使用以下公式:

其中A表示预测的第i个模块中的节点集合,i∊{1,2,…,10},B表示原始的第j个模块中的节点集合,j∊{1,2,…,10}。


总共鉴定出46,885种不同的疾病和53,375种独特的化学物质。顶部实体显示在图2C和2D。焦虑、抑郁和高血压被发现出现在研究文章中讨论最多的20种疾病中。氧和羟氯喹紧随其后的是核酸和血管紧张素(一种导致血管收缩的肽激素),这些都是讨论最多的化学物质。利用t分布随机邻域嵌入图(图2B)描述了“慢性疲劳”、“衰弱”、“神经退行性疾病”和“血管并发症”在最接近的医疗实体中的余弦距离。类似的可视化术语“精神障碍”可以在多媒体附件6,与“疫苗”、“共病”、“不良反应”、“社会”和“心理”等关键字最相似的前10个实体可以在其中找到多媒体

我们对不同月份的冲积图进行了详细的推断,以图形化的方式探索文献中基于流行医学实体的动态和同质网络及其相关余弦相似度的时间趋势。图3A代表在2020年发表的文献中发现的主题流。2020年3月,注意到的主要主题是胸痛、急性肾损伤和淋巴细胞减少症。虽然在前几个月的文献中,“血栓栓塞并发症”的痕迹较少,但它在2020年8月成为最重要的主题(图3A)心肌损伤和心血管疾病在2020年12月成为一个关键的实体集群。心理健康因素,如抑郁、孤独、焦虑和倦怠,在2020年最后一个季度的文献中变得重要起来。图3B展示了在2021年发表的文献中发现的主题流。虽然直到2021年1月,血栓栓塞、低氧血症和心肌梗死仍然是主要问题,但在2021年3月,发现向长COVID症状的重大转变是一个主要主题。2021年6月,人们发现,包括后遗症和神经并发症、中风、头痛和嗅觉丧失在内的核心模块,以及围绕免疫功能低下和慢性疾病的新主题,变得越来越重要。由于全球多个国家出现第二波COVID-19病例,交叉感染相关实体受到关注。心理健康影响的重要性由第一季的较不重要,转变为第二季更为显现和突出的联系,详见冲积图(图3).

我们进一步推进了趋势分析,以预测未来几个月实体对之间的联系。我们提出的时间链路预测框架通过使用ARIMA模型对时间序列建模,有效地预测了节点对之间的5个接近度得分,包括语义和拓扑度量。2021年4月、2021年5月和2021年6月各邻近得分预测的MSE为图4一个(多媒体附件8).使用基于属于前几个月的动态网络的监督学习,预测连续一个月疾病之间的关联作为链接。我们的结果显示,在4个分类器中(多媒体), AdaBoost模型具有50个估计量,学习率为0.1个分类链接,平均AUROC为0.871P<措施;2021年6月的测试数据在bonferroni校正显著性水平为0.02)上具有统计学意义(图4选项B和选项c。中显示了其他分类器之间的比较多媒体附录10.通过预测余弦相似度加权的预测链接显示出与原始模块的高度交集,从而验证了所提出的体系结构。多媒体附件11显示在原始网络和预测网络中检测到的集群。ARIMA模型用于根据从前几个月(2020年2月至2020年6月)检索的节点对接近性度量的趋势预测随后几个月的接近性得分。我们的研究结果表明,易感条件和风险因素的主题,以及交叉感染和神经精神表现的研究将在2021年即将到来的季度占据更高的中心地位(多媒体附件12).

分析了预测模块与原始模块之间的节点交集,以前瞻性地验证所提出的预测框架的有效性。表1描述了不同模块中的顶部节点以及它们各自在2021年1月和6月的IOU分数。交叉节点的集合被解释为代表广泛的主题。2021年1月以来,与COVID-19相关的急性肾损伤和肺栓塞等器官损伤是文献中最核心的主题,其次是心血管疾病、呼吸道感染和心理影响。有趣的是,2021年6月的主题转向了与长冠病毒和神经系统症状相关的疾病。头痛、脑炎和精神错乱被预测为中心节点,与原始网络相比显示出较高的IOU评分。2021年6月发表的文章中提到实际和预测网络中每个模块的实体的百分比显示在多媒体附件13.节点的子集属于不同的模块从预测和真实网络已提出多媒体附件11

对基于化学实体构建的网络的分析揭示了COVID-19文献中研究的各种药物的进化。在2020年2月期间,主要模块包含扑热息痛、托法替尼、沙利度胺、维生素、锌和其他相关化学物质等实体。另一个相关模块包括多西环素、鲁索利替尼、肝素和伊维菌素等中心实体,这些实体在治疗和预防COVID-19的科学研究中被讨论。相比之下,我们最近更新的模型显示,2021年11月期间出现了各种免疫抑制药物(如他克莫司)和抗炎药物(如糖皮质激素和秋水仙碱)的证据(多媒体附件14).随着文献的扩展,这些在前几个月相对不那么重要的实体开始变得更加突出。最近几个月,有关“他汀类药物”的证据也越来越多。我们的研究结果表明,所提出的框架基于实体与相邻实体之间不断发展的关系,捕捉了实体重要性的动态变化。

图3。(A)用于跟踪2020年趋势的冲积图,来自3月、8月和12月的网络。(B)用于监测2021年趋势的冲积图,来自1月、3月和6月的网络。冲积图便于在不同时间间隔追踪文献的时间动态。
查看此图
图4。(A)评估2021年4月、2021年5月和2021年6月网络的原始接近度得分与预测接近度得分之间的均方误差(MSE)。(B) 2021年4月、2021年5月和2021年6月AdaBoost分类器结果归一化值的混淆矩阵。AdaBoost是这三个月里表现最好的模型。(C) 2021年3月至2021年6月疾病实体之间的联系预测结果,误差范围为95% ci。通过在重采样的测试集上测试模型,记录度量指标的平均值。AUROC:受试者工作特征曲线下面积;RF:随机森林;支持向量机:支持向量机。
查看此图
表1。2021年1月和2021年6月预测网络中的疾病集群或模块。
模块ID 2021年1月 2021年6月

前节点一个 借据b 前节点 借据
1 急性肾损伤,ARDSc凝血功能障碍、心肌损伤、肺栓塞 0.45 头痛,淋巴细胞减少,呼吸困难,思维混乱,脑炎,恶心 0.71
2 心血管疾病糖尿病慢性阻塞性肺病d、高血压 0.66 纤维化,凝血障碍,血栓形成,缺氧,炎症,谵妄 0.70
3. 呼吸道感染,中东呼吸综合征e、呼吸系统疾病 0.55 共病,哮喘,慢性阻塞性肺病,高血压,痴呆,糖尿病 0.64
4 抑郁,失眠,焦虑,孤独 0.71 创伤,焦虑,抑郁,孤独,倦怠,失眠 0.81
5 肌痛,淋巴细胞减少,头痛,嗅觉丧失,呼吸困难 0.43 免疫功能低下,慢性疾病,比如肺结核 0.33

一个提到了每个集群中顶部交叉节点的子集,它们共同表示主题。

b给定的交集在联合(IOU)之间的集群预测和原始网络的各自月份计算。

cARDS:急性呼吸窘迫综合征。

dCOPD:慢性阻塞性肺病。

e中东呼吸综合征(MERS):中东呼吸综合征。


主要研究结果

在本文中,我们演示了一种计算方法EvidenceFlow,在这种方法中,用户与快速扩展的COVID-19文献进行交互,以推导和预测新出现的主题。所提出的框架跟踪实体对之间语义和拓扑接近性变化的模式。此外,它还预测了未来几个月可能出现的链接和网络社区。因此,用户可以关注有助于新兴主题社区的论文,例如,早在2020年8月捕获的关于血栓栓塞并发症的文献,以及2020年底期间的心理健康因素。在EvidenceFlow模型的交互界面上与聚类交互显示,长冠状病毒的症状,如疲劳、头痛、肌痛、咳嗽和嗅觉丧失,在2021年3月形成了一个中心聚类。这一积累证据的早期信号后来在大型前瞻性和回顾性COVID-19患者队列中得到验证[30.-32].用户与EvidenceFlow交互的另一种方式是了解主题的演变,超越当前的方法,如主题建模和情绪跟踪[3.].例如,在2021年6月,早期发现了神经系统并发症(如混乱、精神疾病和中风)和心理健康因素(如焦虑、抑郁、创伤后应激障碍、倦怠和失眠)的迫在眉睫的主题。我们的小提琴情节分析(多媒体附件4)表明,尽管平均误差以零为中心,但仍有一些离群节点对,其预测的关联偏离了地面真相。这项工作的未来范围将包括对这些关联的分析,以及通过在EvidenceFlow应用程序上对这些对进行交互式分析而获得的见解。

对实体中心性上升所代表的主题进行预测,有助于形成有前景的研究假设。文学的动态揭示了中心主题的出现,是近代已有主题的结合[6].例如,冲积图(图3A)演示了2020年3月来自多个模块的实体如何合并成一个主要的血栓栓塞并发症集群。同样,几个月来心理障碍的重要性流动表明了它们在COVID-19文献中的当代相关性,以及它们与集群中其他实体的联系。我们的框架可以潜在地帮助研究人员监测现有的主题,并根据趋势和预测指导他们的研究。

我们对选定的化学和疾病实体的PageRank中心性趋势进行了分析。他汀类药物是一类降脂药物,与之前的值相比,在2021年底被发现越来越占中心地位(多媒体附件15).许多研究讨论了他汀类药物具有抗炎和免疫调节作用,可能降低COVID-19的严重程度[3334].糖皮质激素,一类减少炎症和抑制免疫系统的类固醇激素,也作为一个不断上升的实体出现(多媒体附件15).抑郁症和其他精神健康障碍在2020年年中开始成为一个突出的研究主题,并在随后的几个月里变得更加重要(多媒体附件15).COVID-19也在血栓栓塞的背景下进行了大量讨论,我们的模型将其新出现的证据作为一个主题,直到2020年底。然而,趋势表明,其在文献中的中心地位在2021年相对下降(多媒体附件15).通过专家的手工管理和分析,从大型语料库中发现这种趋势确实是可能的。然而,我们的EvidenceFlow管道提供了一个有效的镜头来发现、跟踪和预测新兴趋势。这一框架将能够更快地综合证据,然后由专家进行验证。

为了探索无监督词嵌入和改变词间余弦相似度的潜力,我们分析了与所选关键词具有最大相似度的词的趋势。例如,我们通过找到与“疫苗”最相似的前10个术语,分析了几个月来“疫苗”上下文的时间变化疫苗在每个月的摘要上训练的词嵌入的潜在空间中(图5).2020年2月至8月,COVID-19疫苗的研究正在进行中,研究围绕“治疗”、“预防”、“药物再利用”以及与MMR(麻疹-腮腺炎-风疹)疫苗和卡介苗(芽孢杆菌Calmette-Guérin)疫苗的关系。2020年8月之后,随着部分候选疫苗的临床试验变得突出,疫苗的主题犹豫出现在2020年10月,并在随后的几个月里获得了更高的相似性。此外,随着2021年文献的发展,人们发现,在疫苗研究的背景下,主要讨论了各种COVID-19疫苗,如BNT162b1、辉瑞- biontech、阿斯利康、ChAdOx1、mRNA-1273和Moderna。术语,例如免疫原性而且功效,进一步表明与疫苗试验和推广高度相关。最近更新的模型显示,从2021年8月起出现了“加强”剂量。随着时间的推移,这种对文献证据发展的回顾性评估可以帮助研究界利用词嵌入的应用获得详细的见解。

图5。“疫苗”一词的上下文在交替月份中的时间演变。根据每月Word2Vec嵌入的余弦相似度,绘制出前10个最相似的单词。在最初的几个月,药物再利用的起源和演变,犹豫,和疫苗候选人在后面的几个月被强调。
查看此图

限制

我们的研究有一些局限性。首先,尽管世卫组织数据库是使用COVID-19文献的详细搜索策略建立的,但它没有明确报告搜索和决策过程的确切目的或准确性。文件[35]提到了由专家审稿人进行的筛选和试图删除重复的内容,但缺乏进一步的细节。例如,该过程没有说明是否考虑了不同发布者之间的冗余。此外,频繁使用关键词的“OR”组合可能导致收录不太相关的文章,而其他形式的文献,如专利申请,可以为研究增加价值,却没有包括在这个数据库中。尽管如此,我们选择了世卫组织COVID-19数据库,因为它提供了大量定期从多个书目数据库搜索更新的文章[2].这一点,再加上精心策划的专家推荐的科学文章,这些文章在自定义搜索中不容易获得,对于构建EvidenceFlow管道非常有用。未来使用该框架的工作将包括可能扩展到通过通用查询和专家审查策划的数据库,从而促进从各种数据库中有针对性地合成证据。

此外,我们目前正在使用研究文章的摘要来提取命名实体,在训练词嵌入时,可能会遗漏文章全文中包含的细节。因此,今后的工作可以在这一框架的基础上,在任何可能的地方包括条款的全文。据报道,我们研究中使用的NER模型在基准数据集上取得了84.49%的F1分数[13].尽管F1评分存在局限性,例如给予精度和召回率的权重相等[3637], F1仍然是报道最广泛的性能指标之一。我们在这个NER模型中没有报告其他指标的情况下选择了这个指标。对于预测,我们使用了一个相对基本的模型(自回归方法),因为我们的目标是捕获健壮的模式。然而,对于具有更高阶差和滞后的更复杂的时间序列方法的使用,可能进行进一步的研究。此外,随着时间戳和数据点数量的增加,高级架构,如循环神经网络和长短期记忆[3839],可以有效地处理时间序列中的复杂趋势。对更大网络的进一步实验可以揭示出在前100个实体中没有发现的主题。重要的是,我们的模型支持早期发现新兴趋势,但它无法捕捉到没有证据积累的主题。

结论

为了推进COVID-19相关研究,在全球范围内成立了财团。全球的关注导致研究和预防疾病传播的科学文献广泛增加,从而从多个角度了解疾病。我们引入了一个基于世卫组织审查的covid -19特异性文献的框架,并将其部署为一个名为EvidenceFlow的仪表板[10].该仪表板允许用户通过基于Tensorboard提供的可视化的交互式嵌入地图来解开文献。它旨在通过冲积图、多层社区检测和不同月份的网络分析对有影响力的实体进行预测来跟踪文献趋势。这项研究展示了基于机器学习的新兴链接预测如何有助于分析研究,通过捕获由医学实体组所代表的主题,基于随着时间推移的语义关系模式。

致谢

我们感谢来自德里因陀罗普拉斯塔信息技术学院卓越医疗保健中心和卓越人工智能中心的支持。

作者的贡献

RP和HC设计并实现了计算框架,对结果进行了解释,并撰写了论文。HB参与了相关仪表板的编写和创建。RA和AN解释了结果,并对统计方法提供了反馈。TS设计了研究,分析了结果,并贡献了写作。所有作者阅读并批准了最终论文。

利益冲突

没有宣布。

多媒体附件1

补充文本。

DOCX文件,17kb

多媒体附件2

COVID-19文献中属于特定类别的文章的频率。

DOCX文件,13kb

多媒体

用于本研究的软件和软件包的列表,以及它们的来源和本研究可重复性的标识符。

DOCX文件,14kb

多媒体附件4

2021年6月节点对之间接近性得分预测的误差分布(用作模型训练中的特征)。

DOCX文件,54 KB

多媒体

用于训练的模型和各自的参数。

DOCX文件,13kb

多媒体附件6

围绕关键字“精神障碍”可视化的疾病和化学品词嵌入的潜在空间,显示离它最近的100个孤立点。

DOCX文件,151 KB

多媒体

使用在整个语料库上训练的Word2Vec模型生成的词嵌入,按余弦相似度降序计算出具有选定关键词(“疫苗”、“共病”、“不良反应”、“社会”和“心理”)的前10个相似实体(疾病、病症或化学品)。

DOCX文件,15 KB

多媒体附件8

评估2021年4月、2021年5月和2021年6月网络的原始接近分数和预测接近分数之间的均方误差。

DOCX文件,13kb

多媒体

2021年4月、2021年5月和2021年6月实体之间的时间链接预测结果,误差范围为95%置信区间。

DOCX文件,14kb

多媒体附录10

2021年6月测试集算法性能的韦尔奇检验结果。

DOCX文件,14kb

多媒体附件11

2021年6月预测和实际网络的社区检测结果。

DOCX文件,14kb

多媒体附件12

截至2021年6月,基于训练数据预测后续网络的社区检测结果。

DOCX文件,14kb

多媒体附件13

2021年6月发表的文章摘要中提到属于实际(A)和预测(B)网络中每个模块的疾病的百分比。

DOCX文件,59 KB

多媒体附件14

用于跟踪2020年2月至2021年11月网络中化学实体趋势的冲积图。

DOCX文件,148 KB

多媒体附件15

(A)“他汀类药物”,(B)“糖皮质激素”,(C)“抑郁症”和(D)“血栓栓塞性”的PageRank中心性的时间趋势。

DOCX文件,167 KB

  1. 冠状病毒疾病(COVID-19)每周流行病学更新和每周行动更新。世界卫生组织。URL:https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports[2022-01-19]访问
  2. 全球冠状病毒病(COVID-19)研究。世界卫生组织。URL:https://www.who.int/emergencies/diseases/novel-coronavirus-2019/global-research-on-novel-coronavirus-2019-ncov[2022-01-19]访问
  3. 科学计量学2021 11月19日;126(1):725-739 [免费全文] [CrossRef] [Medline
  4. Cho H, Lee H.生物医学命名实体识别使用深度神经网络与上下文信息。BMC生物信息学2019 Dec 27;20(1):735 [免费全文] [CrossRef] [Medline
  5. 库图佐夫A, Øvrelid L, Szymanski T, Velldal E.历时词嵌入与语义转换:一个调查。第27届国际计算语言学会议论文集,2018年发表于:第27届国际计算语言学会议论文集;2018年8月;圣达菲,新墨西哥州,美国p. 1384-1397网址:https://aclanthology.org/C18- 1117 //>
  6. 张志强,张志强,张志强,等。无监督词嵌入从材料科学文献中获取潜在知识。自然2019 7月3日;571(7763):95-98。[CrossRef] [Medline
  7. 卜志,王勇,李宏,姜军,吴志,曹娟。时间网络中链接预测的生存分析与博弈论的结合。信息科学2019年9月;[CrossRef
  8. Özcan A, Öğüdücü Ş。使用时间序列相似性度量的监督时间链接预测。2017年发表于:第九届泛在与未来网络国际会议(ICUFN);2017年7月04-07日;意大利米兰,第519-521页。[CrossRef
  9. Güneş İ, Gündüz-Öğüdücü Ş, Çataltepe Z.使用时间序列的基于邻居的节点相似度分数的链接预测。Data Min Knowl Disc 2015 Feb 27;30(1):147-180。[CrossRef
  10. 什么是循证流?EvidenceFlow。URL:https://evidenceflow.tavlab.iiitd.edu.in/index[2022-01-19]访问
  11. Bird S, Loper E. NLTK:自然语言工具包。在:ACL互动海报和演示会议的会议记录。2004年发表于:ACL互动海报和演示会议;2004年7月;巴塞罗那,西班牙p. 214-217网址:https://aclanthology.org/P04-3031/
  12. Neumann M, King D, Beltagy I, Ammar W. ScispaCy:生物医学自然语言处理的快速和健壮模型。第18届BioNLP研讨会与共享任务会议录。20192019年8月;意大利佛罗伦萨,页319-327https://aclanthology.org/W19-5034/
  13. scispacy。GitHub。URL:https://allenai.github.io/scispacy/[2022-01-19]访问
  14. 马玲,张勇。基于Word2Vec的大文本数据处理。2015年出席:2015 IEEE国际大数据大会(Big Data);2015年10月29日- 2015年11月1日;美国加州圣克拉拉p. 2895-2897。[CrossRef
  15. 米科洛夫,陈凯,陈凯。词汇和短语的分布表示及其组合性。神经信息处理系统。URL:9965年https://papers.nips.cc/paper/2013/hash/9aa42b31882ec03 f3c4923ce901b-abstract.html[2022-01-19]访问
  16. 张志强,王志强。基于Gensim-python的矢量空间建模方法。马萨里克大学信息学院NLP中心。URL:https://radimrehurek.com/gensim/[2022-09-05]访问
  17. Smilkov D, Thorat N, Nicholson C, Reif E, Viégas F, Wattenberg M.嵌入投影仪:嵌入的交互式可视化和解释。出来了。2016.URL:https://arxiv.org/pdf/1611.05469.pdf[2022-09-05]访问
  18. 张晓东,张晓东,张晓东。基于映射方程框架的网络社区检测与可视化。在:丁y,卢梭R,沃尔夫拉姆D,编辑。衡量学术影响。可汗:施普林格;2014:3-34。
  19. Rosvall M, Bergstrom CT。映射大型网络中的变化。PLoS One 2010 1月27日;5(1):e8694 [免费全文] [CrossRef] [Medline
  20. 随机网络中尺度的出现。科学1999年10月15日;86(5439):509-512。[CrossRef] [Medline
  21. adam LA, Adar E.网络上的朋友和邻居。Social Networks 2003 july;25(3):211-230。[CrossRef
  22. 哈格伯格A,斯瓦特P, S Chult D.探索网络结构,动态和功能使用networkx。科学技术信息办公室,2008。URL:https://www.osti.gov/biblio/960616[2022-09-05]访问
  23. 张刚。基于ARIMA和神经网络混合模型的时间序列预测。神经计算2003年1月;50:59 -175。[CrossRef
  24. 逻辑回归。进:格林LG,亚诺德公关,编辑。阅读和理解多元统计。华盛顿特区:美国心理学会;1995:217 - 244。
  25. 随机森林。机器学习2001;45:5-32。[CrossRef
  26. 赫斯特M,杜梅斯S,奥苏纳E,普拉特J, Scholkopf B.支持向量机。IEEE智能。系统。应用1998 7月10日;13(4):18-28。[CrossRef
  27. Freund Y, Schapire RE.一个简短的介绍,促进。人工智能学报1999;14(5):771-780 [j]免费全文
  28. 陈涛,何涛,Benesty M, Khotilovich V, Tang Y, Cho H. Xgboost:极限梯度增强。R包版本4-2。R项目。URL:https://cran.r-project.org/web/packages/xgboost/index.html[2022-09-05]访问
  29. 没有作者。词源:Bonferroni校正。Emerg infection Dis 2015 Feb;21(2):289 [免费全文] [CrossRef] [Medline
  30. 塔奎特M,德康Q,卢西亚诺S,格迪斯JR,侯赛因M,哈里森PJ。长covid特征的发生率、共发和演变:对273,618名COVID-19幸存者进行了为期6个月的回顾性队列研究。公共科学图书馆医学2021年9月;18(9):e1003773 [免费全文] [CrossRef] [Medline
  31. López-León S, Wegman-Ostrosky T, Perelman C, Sepulveda R, Rebolledo P, Cuapio A,等。COVID-19的50多种长期影响:系统综述和荟萃分析SSRN。URL:https://ssrn.com/abstract=3769978[2022-09-05]访问
  32. Blomberg B, Mohn KG, Brokstad KA, Zhou F, Linchausen DW, Hansen B,卑尔根COVID-19研究小组等。家庭隔离患者的前瞻性队列中的长COVID。2021年9月27日(9):1607-1613 [免费全文] [CrossRef] [Medline
  33. 张军,张晓东,张晓东,张晓东,等。既往使用他汀类药物和抗高血压药物与COVID-19住院患者疾病严重程度的关系:来自美国心脏协会COVID-19心血管疾病登记处的发现。PLoS One 2021;16(7):e0254635 [免费全文] [CrossRef] [Medline
  34. Peymani P, Dehesh T, Aligolighasemabadi F, Sadeghdoust M, Kotfis K, Ahmadi M,等。他汀类药物在COVID-19患者中的应用:伊朗COVID-19患者的回顾性队列研究Transl Med comm2021年1月25日;6(1):3 [免费全文] [CrossRef] [Medline
  35. 世卫组织COVID-19来源搜索战略。世界卫生组织。URL:https://www.who.int/docs/default-source/coronaviruse/who-covid-19-database/who-covid-19_sources_searchstrategy_20211012.pdf[2022-09-05]访问
  36. handd, Christen P.关于使用f度量来评估记录链接算法的注释。统计统计2017年4月19日;28(3):539-547。[CrossRef
  37. DMW权力。评价:从精密度、查全率、F-measure到ROC、知情度、显著性、相关性。出来了。URL:https://arxiv.org/ftp/arxiv/papers/2010/2010.16061.pdf[2022-09-05]访问
  38. 递归神经网络(RNN)和长短期记忆(LSTM)网络基础。物理学D:非线性现象2020年3月;404:132306。[CrossRef
  39. Greff K, Srivastava RK, Koutnik J, Steunebrink BR, Schmidhuber J. LSTM:搜索太空漫游。IEEE反式。神经。学习系统2017年10月;28(10):2222-2232。[CrossRef


华宇电脑:自回归综合移动平均
AUROC:接收机工作特性曲线下面积
借据:交集除以并集
均方误差:均方误差
尼珥:命名实体识别
人:世界卫生组织


C Basch编辑;提交06.10.21;同行评议:A Rovetta, WD Dotson;对作者31.10.21的评论;修订本收到17.12.21;接受11.02.22;发表02.11.22

版权

©Ridam Pal, Harshita Chopra, Raghav Awasthi, Harsh Bandhey, Aditya Nagori, Tavpritesh Sethi。最初发表在医疗互联网研究杂志(//www.mybigtv.com), 02.11.2022。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map