JMI JMIR Med Inform JMIR医学信息学 2291 - 9694 卡塔尔世界杯8强波胆分析 加拿大多伦多 v10i12e40102 36534443 10.2196/40102 原始论文 原始论文 从初级保健临床文本数据估计时间主题模型的方法比较:回顾性封闭队列研究 洛维斯 基督教 Mircheva Iskra 安德鲁 Meaney 克里斯多夫 MSc 1
达拉拉纳公共卫生学院生物统计学系 多伦多大学 学院街155号 多伦多,ON, M5G1V7 加拿大 1 4169785602 christopher.meaney@utoronto.ca
2 https://orcid.org/0000-0002-5429-5233
Escobar 迈克尔 博士学位 1 https://orcid.org/0000-0001-9055-4709 Stukel Therese一 博士学位 3. 4 https://orcid.org/0000-0001-9283-8764 奥斯丁 彼得·C 博士学位 3. 4 https://orcid.org/0000-0003-3337-233X Jaakkimainen Liisa 硕士,博士 2 3. 4 https://orcid.org/0000-0002-3203-0007
达拉拉纳公共卫生学院生物统计学系 多伦多大学 在多伦多 加拿大 家庭与社区医学系“, 多伦多大学 在多伦多 加拿大 在多伦多 加拿大 卫生政策、管理和评价研究所 多伦多大学 在多伦多 加拿大 通讯作者:Christopher Meaney christopher.meaney@utoronto.ca 12 2022 19 12 2022 10 12 e40102 6 6 2022 31 7 2022 1 9 2022 18 9 2022 ©Christopher Meaney, Michael Escobar, Therese A Stukel, Peter C Austin, Liisa Jaakkimainen。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com), 19.12.2022。 2022

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。

背景

卫生保健组织正在收集越来越多的临床文本数据。主题模型是一类无监督的机器学习算法,用于发现这些大型非结构化文档集合中的潜在主题模式。

客观的

我们的目的是比较评估几种估计时间主题模型的方法,使用从加拿大安大略省初级保健电子病历中获得的临床记录。

方法

我们采用回顾性封闭队列设计。这项研究从2011年1月1日到2015年12月31日,分为20个季度。如果患者在20个季度中每个季度至少产生1个初级保健临床记录,那么他们就被纳入研究。这些患者代表了一个独特的队列个人从事高频使用初级保健系统。以下时间主题建模算法适用于临床笔记语料库:非负矩阵分解、潜在狄利克雷分配、结构主题模型和BERTopic模型。

结果

时间主题模型一致地识别了临床笔记语料库中的潜在局部模式。所学的主题基础确定了初级卫生保健系统开展的有意义的活动。在模型中一致估计显示近恒定时间动态的潜在主题(例如,疼痛、高血压、糖尿病、睡眠、情绪、焦虑和抑郁)。在研究期间,一些主题显示出可预测的季节性模式(例如,呼吸道疾病和流感免疫计划)。

结论

非负矩阵分解、潜在狄利克雷分配、结构主题模型和BERTopic基于不同的底层统计框架(如线性代数和优化、贝叶斯图形模型和神经嵌入),需要调优唯一的超参数(优化器、先验等),并具有不同的计算需求(数据结构、计算硬件等)。尽管统计方法存在异质性,但在研究期间,学习的潜在局部总结及其时间演变是一致估计的。时间主题模型是描述和监测初级卫生保健系统的一种有趣的模型。

临床文本数据 时态主题模型 非负矩阵分解 潜在狄利克雷分配 结构主题模型 BERTopic 文本挖掘
简介 初级护理文本数据

电子病历系统在全球愈来愈多的临床应用[ 1].因此,卫生保健组织正在生成、收集和数字存储大量常规收集的临床信息。在这项研究中,我们重点研究了初级保健EMR系统中通常收集的临床文本数据。我们比较了一类无监督机器学习模型-时间主题模型-用于表征大型文档语料库的潜在主题内容,并总结随着时间的推移的潜在主题动态。时间主题模型有可能应用于现代EMR系统中常规捕获的大型非结构化临床文档集合,以被动地表征初级卫生保健系统。

主题模型

有几种方法可以用来估计主题模型,给定一个文档集合,并描述潜在主题基础随时间的演变。潜狄利克雷分配[ 2 3.]使用贝叶斯概率图形建模框架来定义主题模型。习得的主题向量描述了一个词(v=1…v)在语料库中对特定主题(k=1…k)的亲和力。潜在混合向量描述了特定文档(d=1…d)与特定主题(k=1…k)的亲和性。LDA模型中的潜在矩阵是从临床记录语料库中经验收集的文献-词共现统计数据中学习的。传统的LDA模型并不用于建模时态文档集合;然而,格里菲斯等人[ 4 5]演示了如何使用简单的时间分层估计器来说明潜在局部向量随时间的演变。结构主题模型(STM)扩展了经典的LDA模型,允许(1)每个文档的主题流行度权重矩阵或(2)每个主题的单词概率矩阵根据使用广义线性模型参数化的协变量信息确定性地变化[ 6].一些时间参数化可以纳入广义线性模型(如离散、连续或样条效应),允许STM灵活地模拟局部流行向量随时间的演变。非负矩阵分解[ 7- 9]使用线性代数框架和约束优化的原则进行主题建模。NMF通过将观测到的文档术语矩阵(DTM)分解为2个潜在的非负矩阵,直接估计主题模型的参数矩阵。其中一个潜在参数矩阵描述了文档(d=1…d)与主题(k=1…k)的亲和性,另一个潜在参数矩阵描述了单词(v=1…v)与主题(k=1…k)的亲和性。NMF潜在参数矩阵的事后多元转换可用于生成局部随时间演变的估计。最近,已经开发了用于主题建模的神经框架,例如top2vec [ 10]和BERTopic [ 11].BERTopic神经主题模型首先将文档嵌入到潜在向量空间中。在嵌入空间中识别语义相似文档的有限数量的簇(k=1…k)。对于每个文档聚类(k),使用特定于聚类的词频逆文档频率(TF-IDF)加权技术提取描述该聚类或主题的最相关的单词[ 11].

研究目标

本研究的目的是比较适合初级保健临床记录语料库的几种时间主题建模方法的性能。我们比较了以下时态主题建模方法:NMF、LDA、STM和BERTopic。我们检查了(1)在语料库上估计的每个主题词概率的总体矩阵和(2)描述离散时间(t=1…t)潜在主题流行权重(k=1…k)演变的多元时间序列结构。我们使用在加拿大安大略省收集的5年(2011-2015年)纵向初级保健临床记录的数据集对这些方法进行了比较。

方法 临床文本语料库的数学表示与计算处理

主题模型使用关于文档-单词共现频率的统计信息,从语料库中学习有意义的潜在变量表示。集合中的每个文档(d=1…d)表示为高维长度- v向量(v=1…v),其中每个元素是经验词汇表中的特定单词或标记(v)在特定文档(d)中被观察到的次数的计数。我们将特定于文档的术语频率向量集合表示为d * v的矩阵X,称为DTM。DTM是一个大的稀疏矩阵。然而,由于许多行(表示特定于文档的术语频率向量)和列(表示语料库中所有文档中的单词或标记出现频率)显示出很强的相互相关性,因此矩阵被过度确定。主题模型等降维技术使用相互关联的统计语义信息来估计文档集合中有意义的主题表示。主题模型学习(1)描述语料库主题内容的相互关联的单词集群和(2)共享潜在主题概念的相关文档集群。

与构建DTM相关的最具挑战性和最主观的方面涉及对矩阵列空间进行编码的词汇表或字典(v=1…v)的规范。先验构建的词汇或字典(维V)可以用来确定研究词汇。研究团队的主题专家将负责制定适当的领域特定词典。另外,完全计算的方法可以指定文本标记化或规范化管道,并通过计算将输入字符序列解析为有限数量的标记。

在本研究中,我们采用了词汇或字典规范的混合方法。我们首先对空白边界(空格、制表符、换行符、回车符等)上的临床注释进行标记。我们使用小写转换规范了标记,并删除了所有非字母字符。我们删除了字符长度≤1的标记。最后,我们通过降低出现频率对标记或单词列表进行排序,并手动检查排序后的标记列表。我们手动检查了V=2930个不同的标记,并将其包含在最终的词汇表中。语料库中的令牌总数为3,003,583。在我们最终的字典或词汇表中选择的标记主要是具有精确语义的医学术语(疾病名称、疾病症状、药物名称、医疗程序、医学专业、解剖位置等)。我们排除了停止词或标记(即,句法或功能标记,几乎没有临床语义意义)。由于计算上的考虑,出现频率低的词被排除在外。 All text processing was conducted using R (R Foundation for Statistical Computing; version 3.6).

时态主题建模方法综述 NMF模型

NMF使用实证DTM中包含的文档-单词共现统计数据估计潜在的主题矩阵。NMF将D*V维DTM分解为D*K (θ)和K*V (Φ)的2个潜在子矩阵。DTM (X)由非负整数(即词频计数)组成,而学习的矩阵(θ,Φ)由非负实值组成。在数学上,NMF目标包括学习潜在矩阵(θ,Φ)的最优值,最接近输入数据集(X≈θΦ),受限于所学习的矩阵包含非负值。

我们选择了最小二乘损失函数来训练NMF模型。目标函数指定观测到的数据元素近似为k维双线性形式.分析师必须指定潜在空间的维度:K(主题的数量)。关于NMF的开创性文章包括Paatero和Tapper [ 7]以及Lee和Seung [ 8 9].NMF和低秩模型的调查由Berry等人提供[ 12]和尤代尔等人[ 13].

事后,构成θ和Φ的行向量可以通过除以它们各自的行和进行归一化。结果归一化向量可以解释为组合向量或概率向量(即,θ和Φ的每个归一化行包含和为1的非负项,按行)。矩阵Φ的行向量编码了一组k=1…Kper-topic word probabilities or proportions (estimated over a discrete set of v=1...V words in the empirical corpus vocabulary). The row vectors of the matrix θ encode a set of d=1...D per-document topic proportions (estimated over a discrete set of k=1...K latent dimensions), encoding the affinity a given document has for a particular topic.

对于每个文档d=1…D,一个ssume we observe a time stamp that allows us to associate each document (and latent embedding) with a T-dimensional indicator variable denoting the observation time (t=1...T). We estimated a K-dimensional multivariate mean topical prevalence vector for each design point, t=1...T. This resulted in a multivariate time series structure (a T*K dimensional matrix). Each column (k=1...K) of the matrix is a length T time series that described the evolution of a latent topical vector.

Python SKLearn包(版本0.24.2)中的SKLearn .decomposition.NMF()函数被用来拟合NMF主题模型。

LDA模型

LDA是一个概率主题模型。概率主题模型假设文档由多个主题组成。这些(潜在的)主题表示有限词汇或标记的概率分布。主题模型也可以描述为混合模型。每个文档都是主题的软混合(k=1…k),其中主题本身是词汇表中单词的概率分布(v=1…v)。描述LDA的图形模型显示在 图1 2].

LDA图形模型还描述了在语料库中创建单个文档的生成过程。这可以用以下抽样符号简单地描述[ 14 15].

为了生成文档,我们首先从由V维先验浓度参数(β)参数化的狄利克雷分布中采样每个主题的单词分布。局部向量(k=1…k)在文档集合上共享。

接下来,对于每个文档d=1…D我n the collection, we sample the per-document topic distribution from a Dirichlet distribution parameterized according to a K-dimensional prior concentration parameter (α).

对于每个文档中的每个单词,我们抽取一个主题指示符变量zd n.这个变量取1到K之间的整数值,表示每个主题的单词分布,其中一个特定的单词wd n,被选中。下标n表示nth(n=1d).

最后,我们画一个单词标记wd n,来自与z相关的局部分布d n.指示器这个词是一个元素v=1…V我n our empirical dictionary or vocabulary.

与概率主题建模相关的统计推理问题涉及到反转抽样过程和学习给定观察文本数据的模型定义的潜在参数。潜在变量表明哪些词被分配给哪些主题指标(z),哪些文档与哪些主题有亲和力(θ),以及哪些词在哪些主题下高可能性地共出现(Φ)。与LDA主题模型相关的潜在参数通常使用贝叶斯统计机制(吉布斯抽样[ 14],变分推理[ 2,以及其他方法)。

对每个文献的局部流行度权重矩阵进行多元变换,生成多元时间序列数据结构。该对象的维数为T*K,其中每列K =1…K表示长度为T的单变量局部时间序列。该序列描述了在我们的研究期间潜在局部向量的演变。

Python SKLearn(版本0.24.2)中的SKLearn .decomposition. latentdirichletallocation()函数被用来拟合LDA主题模型。

潜在狄利克雷分配主题模型的图形模型表示。

STM模型

STM是另一种概率主题模型。STM扩展了LDA主题模型,允许(1)每个文档主题流行度权重或(2)每个主题单词比例的潜在矩阵根据广义线性模型参数化而变化[ 6].对每个文献局部流行度权重的潜在矩阵的协变量影响被纳入模型中,该模型使用每个文献局部流行度向量的logistic正态先验分布,类似于相关主题模型[ 16].使用一种多项logit先验,将每个主题词比例的潜在矩阵的协变量影响纳入模型。在本研究中,我们在每个文档主题流行度权重矩阵上建模了协变量效应(在我们的研究中,离散时间效应,t=1…t)。我们没有假设每个主题词的比例矩阵根据协变量而变化。STM的平板符号示于 图2.变分方法用于STM的后验推理[ 6].

为了在STM下生成文档,我们首先从(仅截取)多项logit模型(其中多项logit回归参数被给出稀疏的“gamma-lasso”先验)中对每个主题的单词分布进行采样[ 6].

接下来,我们从一个以平均向量和协方差矩阵为参数化的逻辑正态分布中对每个文档的主题分布进行抽样。γ表示D*T维度设计矩阵,编码时间点(T =1…T),在该时间点下,文档(D =1…D)被观察到。向量γ是一个维度为T*K的矩阵,并编码了每个文献局部流行度权重上的离散时间效应(每个文献的长度K向量d=1…d)。最后,Σ是一个K*K维协方差矩阵,编码局部流行向量之间的相关性(在逻辑正常模型下参数化)。

对于每个单词(n=1d)在每个文档中(d=1…d),我们对主题指标变量z进行抽样d n.这个变量取1到K之间的整数值,表示每个主题的单词分布,其中一个特定的单词wd n,被选中。必须注意的是,上限Nd建议用于任何给定文档(d)的字数可以变化。

最后,我们画一个单词或标记,wd n,来自与z相关的局部分布d n.指示器这个词是一个元素v=1…V我n our empirical dictionary or vocabulary.

STM框架自然允许估计局部流行权重的时间影响。在我们的研究中,局部流行的离散时间效应可以用拟合的logistic正态模型中的系数矩阵(γ)来解释。由于时间效应被编码在贝叶斯回归建模框架中,我们还可以计算推断测度(后验均值、最高后验密度区间等)。STM编码的单级推理机制比早期的NMF和LDA模型有明显的优势。

我们使用R中的stm包中的stm()函数将stm拟合到我们的研究数据中。

结构式主题模型的图形模型表示。

基于BERTopic的神经主题建模

最近,研究人员开发了集成神经架构和相关技术的主题模型,用于模型规范和学习。这些神经主题模型与前面介绍的主题模型相比,代表了不同类别的主题模型。最近开发的神经主题模型包括top2vec [ 10]和BERTopic [ 11].在本研究中,我们主要研究BERTopic模型。

BERTopic首先将研究语料中经验观察到的文档嵌入到潜在的嵌入空间中。有许多方法可以将离散的语言单位(单词、句子、段落、文档等)嵌入到嵌入空间中。例如,可以使用word2vec[将单词嵌入到向量空间中。 17- 19],手套[ 20., FastText [ 21], elmo [ 22],花式[ 23],及变压器模型[ 24].句子和文档可以使用doc2vec [ 25],通用句子编码器[ 26]和变压器[ 24].本研究中使用的BERTopic模型依赖于句子转换器[ 27],特别是MPNet句子转换模型[ 28].神经嵌入模型是BERTopic建模管道中的一个离散的“超参数”。神经嵌入模型的不同选择与它们各自的模型特定超参数(嵌入维度、上下文窗口宽度、模型训练或优化参数等)相关。

每个文档(d=1…d)都嵌入到一个向量空间中,通常有几百维。均匀流形逼近与投影(UMAP)算法[ 29]被用作进一步的非线性降维技术,以辅助文档向量的可视化和聚类。聚类是在umap -约简空间中使用基于分层密度的噪声应用程序空间聚类算法(HDBSCAN) [ 30.].

识别语义相关文档的聚类(k=1…k)。单词评分v=1…V我n the vocabulary were computed using cluster-specific TF-IDF weights. If a cluster consisted of semantically focused documents, and hence words, we expect to observe coherent and meaningful words identified via TF-IDF scoring. The proportion of documents assigned to each cluster during a specific period (t=1...T) can be used to generate a T*K dimensional multivariate time series structure, depicting the evolution of latent topic over our study period.

我们使用默认超参数设置来拟合BERTopic模型。BERTopic管道需要(1)文档嵌入算法的规范(在我们的例子中,MPNet句子转换器模型[ 28]), (2) UMAP非线性降维算法,(3)HDBSCAN聚类识别算法,(4)聚类TF-IDF评分。管道的各个组件可能涉及实质性的超参数优化。在本研究中,我们使用默认的模型超参数设置。

我们使用Python包bertopic来拟合bertopic模型。

学习时态主题模型语料库描述和评价的统计方法

我们使用简单的计数和百分比来描述我们的研究样本的特征。我们描述了独特的患者数量和独特的临床记录数量。我们样本中的每位患者都是初级保健系统的“高用户”,也就是说,他们在2011-2015年的20个季度时间段中,每个季度至少产生一次接触/记录。我们描述了每个病人的病历数量的分布。我们描述了样本的人口学特征(年龄/性别分布)。

在拟合NMF、LDA和STM模型时,我们构建了一个DTM,其行维数对应于样本中唯一患者的数量(即1727个唯一患者)乘以不同时间段的数量( t= 20;1727×20 = 34540)。在DTM中观察到的每个词频向量的长度为V (V=2930),单个元素计算每个季度期间对给定患者观察给定单词的次数。在整个DTM中,我们计算了单词的总数和唯一单词的数量。我们描述了在我们的临床记录语料库中排名前25位的最流行单词的数量和百分比。我们还描述了DTM的稀疏性。

对于每一个NMF、LDA、STM和BERTopic模型,我们构建了一个K*T维的多元时间序列矩阵(这是前面描述的T*K数据结构的转置)。每行对应一个潜在主题向量,每列对应一个特定的季度时间段。行向量是一个长度为T的时间序列,描述了在整个研究期间潜在局部向量的演变。每一列对应于特定时期主题的分布(即描述了在给定时期哪些主题最重要)。对于每一行k=1…K,we report the top 5 words loading most strongly on a given topic. The cluster of words was semantically correlated and described the essence of the latent topical vector. A heatmap was used to visualize this high-dimensional multivariate time series structure; and we hierarchically clustered the rows of the matrix using a Euclidean distance metric and Ward agglomeration method (a dendrogram was used to visualize the cluster structure of the topical series).

每个NMF、LDA、STM和BERTopic模型拟合的主题结构都是根据k=1时每个模型上负载最强的前5个词来描述的。K个潜在话题。换句话说,每个模型的主题结构可以用250个单词或标记的“袋子”来描述。我们调查了模型拟合的局部多样性。主题多样性是根据250个单词中唯一单词的数量来计算的。此外,我们调查了描述每种模型拟合的“袋子”中出现频率最高的5个单词。主题摘要中冗余出现的单词提供了模型反复确定为重要的语义概念的粗略近似。

我们研究了NMF、LDA、STM和BERTopic模型的主题一致性的几种测量方法。我们考虑了Roder等人的调查中描述的“UMASS”、“UCI”和标准化的逐点互信息(“NPMI”)指标[ 31]和罗斯纳等人[ 32].这些指标评估了描述NMF、LDA、STM和BERTopic模型主题结构的词簇集合的内部一致性。每个相干测量的理论最小值或最大值不同;然而,较大的值表明模型产生了更连贯的主题特征。与上述主题相干度度量计算相关的数学细节稍后提供,并在Roder等人的研究中进一步概述[ 31]和罗斯纳等人[ 32].在所有使用的方程中,我们假设主题向量是根据其最可能的前l个单词或标记来描述的;{ wwj }表示与top-L集合不同的单词,ε是一个小的正常数,以避免计算中潜在的数值问题;δ是一个加权项(用于归一化NPMI估计,与UCI相干测量中使用的非归一化点互信息估计相比)。

我们使用基于集合的一致性度量,即Jaccard系数,来评估描述NMF、LDA、STM和BERTopic模型的主题结构的相似性或差异。每个模型都用250个单词或符号的“袋子”来描述(即k=50个主题,用它们最可能出现的5个单词来描述);考虑生成单词或标记袋的2个模型,b0和b1.Jaccard系数定义为b的交的基数0和b1除以b的并集的基数0和b1.在数学符号中,Jaccard系数表示为:

最后,我们描述了拟合NMF、LDA、STM和BERTopic模型所需的壁时间(以秒或分钟为单位)。我们还讨论了与每个模型的超参数调优相关的计算问题。

研究设计、设置、数据来源和纳入或排除标准

本研究采用回顾性封闭队列设计。临床记录来自分布在加拿大安大略省的初级保健EMR系统。我们纳入了2011年1月1日至2015年12月31日期间由患者初级保健提供者撰写的所有临床记录。我们将时间离散成季度分层(1月- 3月;4 - 6月;7 - 9月;和10)。如果患者在研究期间的20个季度中每个季度都没有至少一个临床记录,则将被排除在外。因此,所选患者样本反映了一组经常参与初级卫生保健系统的独特个体。

结果 语料库及研究样本描述

我们收集的文献包含1727名患者的160,478份临床记录。1727名患者接受了来自40家独特初级保健诊所(地理上分布在加拿大安大略省)的1066名独特初级保健医生的初级保健服务。患者的中位年龄为68岁(IQR 55-80岁),年龄范围为20岁至103岁(年龄统计数据以研究基线为参考日期,2011年1月1日计算)。女性患者的观察频率高于男性患者(1157/1727,67% vs 570/1727, 33%)。 表1描述研究样本的特征(在笔记级和患者级分析单位方面)。

最初的笔记级DTM的尺寸为160,478行(语料库中的每个临床笔记都有一行),2930列(语料库中的每个唯一单词或标记都有一列)。语料库包含3,003,583个标记。DTM是>99%稀疏的(即,它几乎包含所有的零元素)。我们还通过汇总同一患者在一个季度内观察到的记录,构建了一个患者-季度级DTM。这个DTM的尺寸为1727×20=34,540行,2930列,稀疏度为>98%。在分析语料库中出现频率最高的前25个单词列在 表2

研究样本的描述性统计,在笔记级和患者级的分析单位。

特征 唯一票据(n=160,478), n (%) 唯一患者(n=1727), n (%)
年龄(年)
20 - 40 9713 (6.1) 107 (6.1)
40 - 65 63588 (39.6) 675 (39.1)
65 - 85 63839 (39.8) 704 (40.8)
> 85 23338 (14.5) 241 (14)
男性 51530 (32.1) 570 (33)
108948 (67.9) 1157 (67)
一年
2011 28012 (17.5) - - - - - -一个
2012 31220 (19.5) - - - - - -
2013 33676 (21) - - - - - -
2014 33756 (21) - - - - - -
2015 33814 (21) - - - - - -

一个不适用。

在最终分析的初级保健临床记录语料库(N=3,003,583)中,出现频率最高的25个标记或单词。

标记或词 发生频率,n (%)
疼痛 88132 (2.93)
毫克 65612 (2.18)
印度卢比 52970 (1.76)
英国石油公司 50751 (1.69)
回来 43556 (1.45)
剂量 29861 (0.99)
感觉 24736 (0.82)
处方 23211 (0.77)
胸部 22256 (0.74)
药物 20914 (0.7)
推荐 19409 (0.65)
工作 19398 (0.65)
wt 19322 (0.64)
感觉 17415 (0.58)
16121 (0.54)
症状 15905 (0.53)
打印 15706 (0.52)
尿液 14633 (0.49)
bw 13779 (0.46)
实验室 13543 (0.45)
清晰的 13271 (0.44)
膝盖 12677 (0.42)
药店 12503 (0.42)
睡眠 12331 (0.41)
处方 11945 (0.4)
比较NMF, LDA, STM和BERTopic模型估计的时态主题模型

我们比较评估了将NMF、LDA、STM和BERTopic模型拟合到我们的初级保健临床记录语料库中得到的推论。对于每个模型,我们改变主题的数量(K={25,40,45,50,55,60,75}),并在模型复杂性参数(K)的不同水平上观察到相似的推论。当K太小时,不同的语义主题倾向于被分组在一起,而当K太大时,语义相似的主题倾向于被分成任意的聚类(导致过聚类效应)。使用人类判断评估,我们确定K=50个主题的模型复杂性平衡了临床文档语料库的简约,同时具有表达性。对于每一个NMF、LDA、STM和BERTopic模型,我们报告假设K=50个潜在主题的结果。

k=1的单词分布的总结…50latent topics (for each of the 4 models under comparison) is given in 图3- 6,分别。每个图中的y轴列出了在给定主题中负载最强的前5个单词。对于NMF、LDA和STM,我们报告了与每个词或标记相关的局部流行率权重(这大约是在给定潜在主题下观察到该词或标记的概率)。对于BERTopic模型,我们报告了与主题下的单词相关的规范化集群特定TF-IDF分数(可以与NMF、LDA和STM模型的输出相似地解释)。这些图的x轴表示t=1…20个季度。图中的一列表示给定时间点潜在主题的主题流行率分布。图中的一行说明了一个潜在主题在研究期间的演变。

4个潜在时间主题模型中的每一个都学习了初级保健临床笔记语料库的有意义的表示。在接下来的段落中,我们将讨论(1)跨模型一致估计的主题,这些主题显示了跨季度主题流行率的持续趋势;(2)跨季度主题一致估计,显示了有趣的季节性模式。

每个拟合模型一致地确定了以下潜在的初级保健主题结构(这些主题在季度期间显示恒定的模式):睡眠(NMF=Topic−45;LDA=Topic-2或Topic-31;STM =主题11;BERTopic =不适用);心理健康,例如情绪、焦虑和抑郁,(NMF=Topic-33;LDA = Topic-22;STM = Topic-19;BERTopic = Topic-16);疼痛(NMF = Topic-1;LDA=Topic-39, Topic-36, Topic-14, Topic-49, Topic-34,或Topic-37; STM=Topic-8; BERTopic=Topic-9 or Topic-39); blood pressure control and monitoring (NMF=Topic-36; LDA=Topic-9; STM=Topic-21; BERTopic=Topic-31); respiratory disease, for example, cough, throat, chest, fever, etc (NMF=Topic-46; LDA=Topic-13; STM=Topic-46; BERTopic=Topic-1), smoking (NMF=Topic-31; LDA=Topic-32; STM=Topic-44; BERTopic=Topic-38); diabetes, for example, blood, sugar, insulin, fbs, etc (NMF=Topic-5; LDA=Topic-43; STM=Topic-42; BERTopic=Topic-8); pharmaceutical prescription management (NMF=Topic-26; LDA=Topic-40; STM=Topic-9; BERTopic=Topic-36 or Topic-5); and annual influenza vaccination programs (NMF=Topic-6; LDA=Topic-29; STM=Topic-36; BERTopic=Topic-50). These thematic areas represented archetypical patients, conditions, or roles encountered in the primary health care system. The consistent extraction of latent themes (represented as semantically correlated word clusters) suggests that each model can leverage information regarding word-context co-occurrence to learn meaningful patterns from a large unstructured clinical document corpus.

图3- 6说明4种不同的时间主题模型多元时间序列结构。对于给定的图,x轴表示时间(t=1…20.quarterly periods from 2011-2015), and the y-axis represents a topical vector (k=1...50). The intensity of color in the cell (t,k) indicates the extent to which an encounter at time (t) is related to a latent topic (k). Topical labels are exchangeable and clustered along the y-axis, according to the similarity of the topical time series (a dendrogram describing the similarity or differences across topical clusters is illustrated in 图7). 图3- 6表示用NMF估计的不同多元时间序列结构( 图3), lda ( 图4), STM ( 图5)和BERTopic ( 图6).

对于某些学习主题,季节性谐波模式在研究期间得到了稳定的估计。例如,年度流感疫苗接种计划始终发生在研究的秋季或冬季(NMF=Topic-6;LDA = Topic-29;STM = Topic-36;BERTopic = Topic-50)。同样,呼吸道疾病(咳嗽、感冒、流感等)的年度高峰在冬季达到高峰,在夏季达到低谷(NMF=Topic-46;LDA = Topic-13;STM = Topic-46;BERTopic = Topic-1)。这些发现在 图3- 6;然而,我们也在中展示了这些主题的单个时间序列图 图8而且 9,因此读者可以更好地欣赏不同的时间局部模型从初级保健临床文献语料库中提取一致的季节模式的能力。关于初级保健角色随时间的季节性变化的发现具有很强的表面有效性,并得到补充数据源(如管理数据)的证实。此外,从我们的大型临床文档收集中提取这些模式的一致性有助于在使用单词-上下文共现统计(和主题模型)来描述和监测初级保健实践和系统的机会中建立信任。

与非负矩阵分解时态主题模型相关的多元时间序列结构的热图。

与潜在狄利克雷分配时态主题模型相关的多元时间序列结构的热图。

与结构主题模型相关联的多元时间序列结构的热图。

与BERTopic时态主题模型相关的多元时间序列结构的热图。

显示从非负矩阵分解模型(A)、潜在狄利克雷分配模型(B)、结构主题模型(C)和BERTopic模型(D)学习的潜在多元时间序列对象的聚类结构的树状图。

通过非负矩阵分解模型(A)、潜在狄利克雷分配模型(B)、结构主题模型(C)和bertopic模型(D)估计,描述年度流感节目主题季节演变的描述性时间序列图。

通过非负矩阵因子分解模型(A)、潜在狄利克雷分配模型(B)、结构主题模型(C)和bertopic模型(D)估计,描述呼吸疾病主题季节演化的描述性时间序列图。

拟合时态主题模型的事后内部评估

在调查与每个单词主题分布相关的排名靠前的单词时 图3- 6我们注意到,每个模型可以使用最多250个独特单词的“包”来描述语料库(K=50个主题乘以每个潜在主题表示的前5个单词)。在NMF、LDA、STM和BERTopic模型拟合中观察到的唯一词数(也称为主题多样性)分别为76.4%(191/250)、88.4%(221/250)、87.6%(219/250)和77.2%(193/250)。中列出了描述NMF、LDA、STM和BERTopic模型主题结构的前5个最频繁出现的单词或标记 表3.LDA和STM的重复词是相似的,这表明与背痛(和其他肌肉骨骼疼痛)有关的初级保健问题是重要的,与高血压和感觉(如情绪障碍)有关的问题也是重要的。相反,BERTopic模型似乎优先考虑与处方药和实验室订购或管理相关的初级保健问题。

我们使用以下指标探索了NMF、LDA、STM和BERTopic模型的语义一致性:“UMASS”、“UCI”和“NPMI”( 表4) [ 31 32].较大的一致性指标表明潜在局部特征的内部一致性日益增强。“UMASS”指标倾向于STM模型,而“UCI”和“NPMI”指标倾向于BERTopic模型。

为了研究拟合主题模型的异同,我们使用Jaccard系数( 表5).使用Jaccard测量一致性,贝叶斯模型(LDA或STM)被确定为导致最相似的拟合。与其他模型相比,BERTopic模型生成了最独特的主题表示。

报告了训练每个模型所需的时间。对于NMF、LDA和STM模型,我们使用了单个中央处理单元(尽管分解模型的Python SKLearn实现可以并行化)。对于BERTopic模型,我们使用单个图形处理单元用于嵌入文档,使用单个中央处理单元用于降维(UMAP)和聚类(HDBSCAN)。在这些设置下,拟合NMF、LDA、STM和BERTopic模型所需的时间分别为237秒、67秒、879秒(14.7分钟)和2624秒(43.7分钟)。BERTopic模型的计算需求超过了其他模型,特别是Python SKLearn中高度优化的NMF或LDA实现。

在每个250个单词的袋子中观察到的描述潜在狄利let分配(LDA)、非负矩阵分解(NMF)、结构主题模型(STM)和BERTopic模型的主题结构的最频繁出现的标记(以及它们在袋子中的出现次数)。

文字或标记 主题模型
NMF (n) LDA (n) STM (n) BERTopic (n)
单词或标记-1 头(4) (9) (5) 印度卢比(11)
Word或token-2 毫克(4) 英国石油公司(6) 毫克(5) 毫克(9)
Word或token-3 ccac (3) 疼痛(6) 疼痛(5) 实验室(5)
单词或标记4 糖尿病(3) 胸部(3) 英国石油公司(4) 处方(5)
单词或记号5 (3)感觉 感觉(3) 感觉(3) 剂量(4)

主题一致性度量(“UMASS”、“UCI”和标准化点互信息[“NPMI”])估计在每个非负矩阵分解(NMF)、潜在狄利克雷分配(LDA)、结构主题模型(STM)和BERTopic模型上。

局部连贯测量 主题模型
NMF 乔治。 扫描隧道显微镜 BERTopic
马塞诸斯州大学的 −2.522 −2.488 −2.372 −2.591
UCI 1.220 0.987 1.192 1.405
NPMI 0.183 0.149 0.190 0.230

拟合主题模型之间基于集的一致性的Jaccard系数度量:非负矩阵分解(NMF)、潜在狄利let分配(LDA)、结构主题模型(STM)和BERTopic。

NMF 乔治。 扫描隧道显微镜 BERTopic
NMF - - - - - -一个 - - - - - - - - - - - - - - - - - -
乔治。 0.526 - - - - - - - - - - - - - - - - - -
扫描隧道显微镜 0.491 0.577 - - - - - - - - - - - -
BERTopic 0.343 0.286 0.329 - - - - - -

一个不适用。

讨论 主要研究结果

在这项研究中,我们比较了几种不同的方法(即NMF、LDA、STM和BERTopic),以从大量初级保健临床记录中估计时间主题模型。尽管基础统计方法存在差异,但模型通常集中在语料库的一致潜在特征上。此外,从NMF、LDA、STM和BERTopic模型中可靠地提取了潜在主题的时间演化。

在临床上,我们的数据集代表了初级保健系统的高用户。从该分析中出现的许多潜在主题都与高用户原型一致,例如,家庭咨询或社会工作、情绪障碍、焦虑或抑郁、慢性疼痛、关节炎和肌肉骨骼疾病、神经疾病、心血管疾病和高血压、糖尿病、癌症筛查(乳腺、宫颈、结直肠和前列腺)、实验室申请和血液工作、诊断成像以及药物或处方管理。主题模型还确定了许多急性健康状况作为重要的潜在主题,如咳嗽、感冒和其他呼吸道感染、尿路感染、皮肤状况和伤口护理。NMF、LDA、STM和BERTopic模型都一致地捕捉到(1)年度初级保健流感计划和(2)季节性呼吸条件,显示出可预测的季节变化。关于初级保健使用模式的调查结果仅从临床文本数据中提取,在很大程度上得到了基于结构化行政数据的省级报告的证实[ 33].

我们观察到,用于估计时间主题模型的不同统计方法产生了和谐或一致的潜在表示。我们将其解释为,随着给定临床文本数据集中信噪比的增加,统计学方法的微妙选择似乎不那么重要,这些方法中的任何一种都可以提取初级保健语料的有意义的潜在表示。对于较小的语料库,其中单词-文档共现统计不太确定,这个假设可能不成立。

此外,在模型表示中出现了微妙或微妙的差异,这可能导致分析人员在特定环境中偏爱特定的建模策略。例如,考虑 图8每年的流感疫苗接种计划NMF和LDA等模型纯粹是无监督的,在制定模型目标函数时不考虑外部协变量信息。对于NMF或LDA模型,我们注意到随着时间的推移,“总平均值”局部流行率集中在大约2%(即1/50个主题)。相反,STM有意将协变量信息纳入贝叶斯图形模型的先验结构中,我们观察到,对于STM,年度流感主题的低点更接近于0%,而秋季或冬季的峰值更为明显。BERTopic模型也没有有意地将协变量信息纳入其目标函数;然而,它采用了更“局部平均”的原则来估计局部随时间的分布,因此,在年度流感计划的背景下,它显示了与STM相似的季节性谐波模式。类似的模式可以在 图9治疗季节性呼吸道疾病这表明,不同的主题模型在某些科学环境中或多或少会表现得最优(即,可能取决于研究问题、可用数据以及研究的这些基本方面如何与模型选择相互作用)。先验地,如果分析师或研究人员预计局部流行率会因选择可观察的协变量而变化,那么采用一个更灵活的模型来充分结合这种预期行为可能是有意义的。如果没有先验的理由相信局部流行率是协变量(如本研究中的时间)的函数,那么模型的选择可能变得不那么相关,因为所有模型都可能表现得相似。

由于每种时间主题建模方法都有不同的统计原理,因此每种方法都有自己的优点和缺点。我们已经详细阐述了与每一类模型相关的方法和计算问题。

首先,NMF是用于主题建模的最成熟和最简洁的方法。NMF强烈地植根于线性代数原理,基本上是基于一个简单的最小二乘目标函数的约束优化。Vanilla NMF是一种研究得很好的统计方法,有许多有效的计算例程用于估计NMF模型。NMF是灵活的,可以很容易地扩展。在模型拟合过程中,可能的模型扩展可以看作是离散的可调超参数。贝里等人[ 12]和Cichocki等人[ 34]讨论了用于估计NMF模型的潜在参数的不同算法技术,如梯度下降、乘法更新和交替非负最小二乘。算法的选择可以看作是一个离散的可调超参数。此外,分析人员经常面临是否将潜在参数矩阵正则化的选择[ 35].脊状、套索状和弹性网状正则化是经常遇到的,尽管更复杂的正则化可以用来鼓励具有平滑、最小体积和其他特征的潜在表示。此外,许多研究者试图引入NMF和相关技术的一致概括[ 13].例如,Udell等人讨论了灵活地结合不同损失函数、函数形式、数据点权重和正则化的广义低秩模型[ 13].

LDA和STM是贝叶斯主题模型。LDA是对现有的基于线性代数(如潜在语义分析)和基于最大似然(如概率潜在语义索引)的主题建模技术的完全贝叶斯扩展[ 2].LDA已经以各种方式进行了扩展,说明了贝叶斯概率图形模型的灵活性。例如,STM是LDA的直接扩展,它允许潜在参数矩阵作为观察到的协变量的函数而变化[ 6].针对LDA和STM,在一定程度上开发了高效的计算拟合例程。分析人员在将LDA和STM模型拟合到经验数据集时面临几个决定,包括贝叶斯推理或计算方法(例如,吉布斯抽样vs变分推理)和先验分布规范。

BERTopic代表了最新颖的主题建模方法[ 11].BERTopic模型是一个管道:(1)深度神经网络(例如句子转换模型)将文档嵌入到向量空间中;(2)对潜在文献向量(UMAP)进行非线性降维;(3)识别文档集群(HDBSCAN);(4)利用特定于聚类的TF-IDF评分方法从文档聚类中提取代表性主题(语义相关词的集合)。BERTopic管道的一个缺点与计算需求有关。对于大型语料库,图形处理单元需要在合理的时间内学习文档嵌入。在我们的研究中,我们随机降低了数据集的采样(3/8的文档被包括在内,而5/8的文档被排除在外),即使使用了图形处理单元。也就是说,BERTopic模型的强度与其模块化有关。我们观察到BERTopic模型生成了有意义的连贯主题,随着神经嵌入方法的不断发展,我们预计最先进的文档嵌入技术可以被应用到这个管道中。

局限性和未来工作

我们试图在如何选择词汇或标记的最终词汇方面保持透明,因此为本研究构建了dtm。不同的计算管道可以用来预处理我们的临床文本语料库。例如,我们可以使用不同的策略进行标记化、词根化、词干化、停止词删除以及基于频率的单词或标记删除。不同的文本预处理管道将最终导致不同的DTM结构(使用不同的词汇表)。需要进一步的研究来更好地理解这些文本预处理决策对下游研究推论的影响。

本研究中考虑的每个主题模型都需要规范控制模型拟合方面的超参数。对于大型输入数据集,拟合这些主题模型需要大量的计算。我们主要关注与模型复杂度(K)相关的推理的稳定性和鲁棒性,K是所有模型的通用超参数。我们没有探讨其他特定于模型的超参数的推断的稳定性。

在这项研究中,我们没有考虑所有可能的估计时间主题模型的方法。定制的NMF和LDA变体适用于估计时间主题模型。顺序NMF [ 36]和动态LDA [ 37]是与估计时态主题模型相关的2个扩展。张量因子分解模型,如正则多进分解或塔克分解,将D*V*T张量分解为有意义的潜在参数矩阵,也可能适用[ 34 38].Churchill和Singh的研究中提供了与主题建模相关的其他调查[ 39],赵等[ 40],以及Boyd-Graber等[ 41].

这些工作使我们考虑了几种可能的扩展不同主题建模框架的方法,包括使用文档级协变量的贝叶斯NMF(类似于LDA的STM扩展),使用(非时间)协变量的神经矩阵分解,LDA或STM扩展,允许每个文档的主题流行度权重根据灵活的广义线性混合模型或多层模型(用于建模依赖关系,因为创建文档的复杂设计或采样机制而引入),以及在使用时间主题模型时用于改进统计推断的计算方法(例如,间隔估计和假设检验)(例如,重新采样方法,bootstrap和多重输出)。

结论

在这项研究中,我们比较了几种从初级保健临床文本数据中估计时间主题模型的统计技术。不同的时间主题模型由于其基本的统计特性而有其独特的优点和缺点。尽管如此,每个模型一致地估计了初级保健文献集合的潜在变量表示,这些潜在变量有意义地描述了高使用率初级保健患者及其与初级卫生保健系统的纵向相互作用。随着emr应用的增加和卫生保健组织积累越来越多的临床文本数据,时间主题模型可以提供一种机制,利用非结构化的临床文本数据来表征和监测初级保健实践和系统。

缩写 DTM

文档术语矩阵

EMR

电子病历

HDBSCAN

基于分层密度的噪声应用空间聚类算法

乔治。

潜在狄利克雷分配

NMF

非负矩阵分解

NPMI

归一化点互信息

扫描隧道显微镜

结构主题模型

TF-IDF

术语频率-文档频率

UMAP

均匀流形近似和投影

本研究由加拿大卫生研究院基金会拨款(FDN 143303)提供资金支持。资助机构在研究设计中没有任何作用;数据的收集、分析或解释;报告的撰写;或决定提交报告发表。奥斯汀博士得到了心脏和中风基金会的职业中期研究者奖的支持。

没有宣布。

Mossialos还 E Djordjevic 一个 奥斯本 R Sarnak D 卫生保健系统的国际概况 联邦基金 2017 5 31 2022-09-30 https://www.commonwealthfund.org/publications/fund-reports/2017/may/international-profiles-health保健系统 布莱 D Ng 一个 约旦 潜狄利克雷分配 J Mach Learn Res 2003 1 3. 3. 993 1022 10.5555/944919.944937 布莱 DM 概率主题模型 Commun ACM 2012 04 55 4 77 84 10.1145/2133806.2133826 格里菲思 TL Steyvers 寻找科学话题 美国国立自然科学研究院 2004 04 06 101补充 suppl_1 5228 35 10.1073 / pnas.0307752101 14872004 0307752101 PMC387300 格里菲思 T Steyvers 蓝道 TK 麦克纳马拉 DS 丹尼斯 年代 Kintsch W 概率主题模型 潜在语义分析手册 2007 美国纽约 心理学的新闻 罗伯茨 斯图尔特 BM Airoldi 新兴市场 社会科学实验的文本模型 美国统计协会 2016 10 18 111 515 988 1003 10.1080 / 01621459.2016.1141684 Paatero P 攻丝机 U 正矩阵分解:一种非负因子模型,最优地利用数据值的误差估计 Environmetrics 1994 06 5 2 111 26 10.1002 / env.3170050203 DD Seung 海关 通过非负矩阵分解学习对象的各部分 自然 1999 10 21 401 6755 788 91 10.1038/44565 10548103 D Seung 年代 非负矩阵分解算法 第十三届神经信息处理系统国际会议论文集 2000 NeurIPS ' 00 2000年1月1日 美国丹佛 安格诺夫 D TOP2VEC:主题的分布式表示 arXiv 2020 Grootendorst BERTopic:使用基于类的TF-IDF过程进行神经主题建模 arXiv 2022 浆果 兆瓦 布朗 Langville 一个 Pauca 副总裁 Plemmons RJ 近似非负矩阵分解算法及应用 计算统计数据分析 2007 9 52 1 155 73 10.1016 / j.csda.2006.11.006 尤戴尔 C R 博伊德 年代 广义低秩模型 FNT马赫学习 2016 9 1 1 118 10.1561 / 2200000055 格里菲思 潜在狄利克雷分配生成模型中的吉布斯抽样 CiteSeerX 2022-09-30 https://citeseerx.ist.psu .edu/viewdoc/summary ? doi = 10.1.1.7.8022 海因里希 G 文本分析的参数估计:技术报告 莱比锡大学 2008 2022-11-07 http://www.ar bylon.net/publications/text-est.pdf 布莱 DM 拉弗蒂 JD 《科学》相关主题模型 Ann应用统计 2007 6 1 1 1 17 35 10.1214 / 07-aoas114 Mikolov T Sutskever K 柯拉 G 迪安 J 单词和短语及其组合的分布式表示 第26届神经信息处理系统国际会议论文集第2卷 2013 NeurIPS“13 2013年12月5-10日 太浩湖,美国内华达州 Mikolov T K 柯拉 G 迪安 J 向量空间中词表示的有效估计 arXiv 2013 10.3126 / jiee.v3i1.34327 Mikolov T Yih W 茨威格 G 连续空间词表征中的语言规律 计算语言学协会北美分会2013年会议记录:人类语言技术 2013 NAACL“13 2013年6月9日至14日 亚特兰大,佐治亚州,美国 彭宁顿 J Socher R 曼宁 C GloVe:用于单词表示的全局向量 2014年自然语言处理经验方法会议论文集 2014 EMNLP的14 2014年10月26日至28日 卡塔尔多哈 10.3115 / v1 / d14 - 1162 Joulin 一个 坟墓 E Bojanowski P Mikolov T 高效文本分类的技巧包 arXiv 2016 8 6 10.18653 / v1 / e17 - 2068 彼得斯 诺伊曼 iy 加德纳 克拉克 C K Zettlemoyer l 深度语境化的单词表示 arXiv 2018 10.18653 / v1 / n18 - 1202 Akbik 一个 伯格曼 T 布莱斯 D 拉苏尔 K Schweter 年代 Vollgraf R FLAIR:一个易于使用的NLP框架 2019年计算语言学协会北美分会会议记录(演示) 2019 NAACL的19 2019年6月 明尼阿波利斯,明尼苏达州,美国 Devlin J K Toutanova K BERT:深度双向转换器的预训练,用于语言理解 arXiv 2018 Mikolov T 句子和文档的分布式表示 arXiv 2014 Cer D Y 香港 年代 NgydF4y2Ba Limtiaco NgydF4y2Ba 圣约翰 R 常数 NgydF4y2Ba Guajardo-Cespedes 年代 焦油 C 本产品 Strope B 库兹韦尔 R 通用句子编码器 arXiv 2018 雷蒙 NgydF4y2Ba Gurevych 句子- bert:使用连体伯特网络的句子嵌入 arXiv 2019 10.18653 / v1 / d19 - 1410 首歌 K 棕褐色 X T J T-Y MPNet:语言理解的蒙面和排列预训练 arXiv 2020 麦克因尼斯 l 希利 J 梅尔维尔 J UMAP:用于降维的均匀流形近似和投影 arXiv 2018 10.21105 / joss.00861 Campello RJ Moulavi D 砂光机 J 基于分层密度估计的密度聚类 第17届知识发现和数据挖掘进展亚太会议论文集 2013 PAKDD“13 2013年4月14日至17日 澳大利亚黄金海岸 160 72 10.1007 / 978 - 3 - 642 - 37456 - 2 - _14 罗德 这两个 一个 Hinneburg 一个 探索主题连贯措施的空间 第八届ACM网络搜索和数据挖掘国际会议论文集 2015 WSDM的15 2015年2月2日至6日 中国上海 399 408 10.1145/2684822.2685324 Rosner F Hinneburg 一个 罗德 荨麻 这两个 一个 评价主题连贯措施 arXiv 2014 Jaakkimainen l 厄普舒尔 再保险 Klein-Geltink 一个 Maaten 年代 舒尔茨 SE l 安大略省的初级保健:ICES地图集 临床评价科学研究所 2006 11 2022-11-07 加拿大多伦多 临床评价科学研究所 https://www.ices.on.ca/~/media/Files/Atlases-Reports/2006/Primary-care-in-Ontario/Full-report.ashx Cichocki 一个 Zdunek R 显象 一个 Amari 骶髂关节 非负矩阵和张量分解:应用于探索性多路数据分析和盲源分离 2009 霍博肯,美国新泽西州 威利网上图书馆 霍耶 P 具有稀疏性约束的非负矩阵分解 J Mach Learn Res 2004 1 12 5 1457 69 10.5555/1005332.1044709 Mackevicius E Bahle 一个 威廉姆斯 一个 年代 Denisenko Denisenko 女士 高盛 女士 高维数据集中时间序列的无监督发现,及其在神经科学中的应用 eLife 2019 8 e38471 10.7554 / elife.38471 布莱 D 拉弗蒂 J 动态主题模型 第23届机器学习国际会议论文集 2006 ICML“13 2006年6月25-29日 美国宾夕法尼亚州匹兹堡 Kolda TG 贝德 BW 张量分解及其应用 暹罗牧师 2009 08 06 51 3. 455 500 10.1137 / 07070111 x 丘吉尔 R 辛格 l 主题建模的演变 ACM计算调查(即将推出) 2022 01 12 2021 10.1145 / 3507900 H Phung D 黄齐的 V Y l Buntine W 主题建模满足深度神经网络:一项调查 arXiv 2021 10.24963 / ijcai.2021/638 Boyd-Graber J Y Mimno D 主题模型的应用 无穷检索 2017 11 2 - 3 143 296 10.1561 / 1500000030
Baidu
map