这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
卫生保健组织正在收集越来越多的临床文本数据。主题模型是一类无监督的机器学习算法,用于发现这些大型非结构化文档集合中的潜在主题模式。
我们的目的是比较评估几种估计时间主题模型的方法,使用从加拿大安大略省初级保健电子病历中获得的临床记录。
我们采用回顾性封闭队列设计。这项研究从2011年1月1日到2015年12月31日,分为20个季度。如果患者在20个季度中每个季度至少产生1个初级保健临床记录,那么他们就被纳入研究。这些患者代表了一个独特的队列个人从事高频使用初级保健系统。以下时间主题建模算法适用于临床笔记语料库:非负矩阵分解、潜在狄利克雷分配、结构主题模型和BERTopic模型。
时间主题模型一致地识别了临床笔记语料库中的潜在局部模式。所学的主题基础确定了初级卫生保健系统开展的有意义的活动。在模型中一致估计显示近恒定时间动态的潜在主题(例如,疼痛、高血压、糖尿病、睡眠、情绪、焦虑和抑郁)。在研究期间,一些主题显示出可预测的季节性模式(例如,呼吸道疾病和流感免疫计划)。
非负矩阵分解、潜在狄利克雷分配、结构主题模型和BERTopic基于不同的底层统计框架(如线性代数和优化、贝叶斯图形模型和神经嵌入),需要调优唯一的超参数(优化器、先验等),并具有不同的计算需求(数据结构、计算硬件等)。尽管统计方法存在异质性,但在研究期间,学习的潜在局部总结及其时间演变是一致估计的。时间主题模型是描述和监测初级卫生保健系统的一种有趣的模型。
电子病历系统在全球愈来愈多的临床应用[
有几种方法可以用来估计主题模型,给定一个文档集合,并描述潜在主题基础随时间的演变。潜狄利克雷分配[
本研究的目的是比较适合初级保健临床记录语料库的几种时间主题建模方法的性能。我们比较了以下时态主题建模方法:NMF、LDA、STM和BERTopic。我们检查了(1)在语料库上估计的每个主题词概率的总体矩阵和(2)描述离散时间(t=1…t)潜在主题流行权重(k=1…k)演变的多元时间序列结构。我们使用在加拿大安大略省收集的5年(2011-2015年)纵向初级保健临床记录的数据集对这些方法进行了比较。
主题模型使用关于文档-单词共现频率的统计信息,从语料库中学习有意义的潜在变量表示。集合中的每个文档(d=1…d)表示为高维长度- v向量(v=1…v),其中每个元素是经验词汇表中的特定单词或标记(v)在特定文档(d)中被观察到的次数的计数。我们将特定于文档的术语频率向量集合表示为d * v的矩阵X,称为DTM。DTM是一个大的稀疏矩阵。然而,由于许多行(表示特定于文档的术语频率向量)和列(表示语料库中所有文档中的单词或标记出现频率)显示出很强的相互相关性,因此矩阵被过度确定。主题模型等降维技术使用相互关联的统计语义信息来估计文档集合中有意义的主题表示。主题模型学习(1)描述语料库主题内容的相互关联的单词集群和(2)共享潜在主题概念的相关文档集群。
与构建DTM相关的最具挑战性和最主观的方面涉及对矩阵列空间进行编码的词汇表或字典(v=1…v)的规范。先验构建的词汇或字典(维V)可以用来确定研究词汇。研究团队的主题专家将负责制定适当的领域特定词典。另外,完全计算的方法可以指定文本标记化或规范化管道,并通过计算将输入字符序列解析为有限数量的标记。
在本研究中,我们采用了词汇或字典规范的混合方法。我们首先对空白边界(空格、制表符、换行符、回车符等)上的临床注释进行标记。我们使用小写转换规范了标记,并删除了所有非字母字符。我们删除了字符长度≤1的标记。最后,我们通过降低出现频率对标记或单词列表进行排序,并手动检查排序后的标记列表。我们手动检查了V=2930个不同的标记,并将其包含在最终的词汇表中。语料库中的令牌总数为3,003,583。在我们最终的字典或词汇表中选择的标记主要是具有精确语义的医学术语(疾病名称、疾病症状、药物名称、医疗程序、医学专业、解剖位置等)。我们排除了停止词或标记(即,句法或功能标记,几乎没有临床语义意义)。由于计算上的考虑,出现频率低的词被排除在外。 All text processing was conducted using R (R Foundation for Statistical Computing; version 3.6).
NMF使用实证DTM中包含的文档-单词共现统计数据估计潜在的主题矩阵。NMF将D*V维DTM分解为D*K (θ)和K*V (Φ)的2个潜在子矩阵。DTM (X)由非负整数(即词频计数)组成,而学习的矩阵(θ,Φ)由非负实值组成。在数学上,NMF目标包括学习潜在矩阵(θ,Φ)的最优值,最接近输入数据集(X≈θΦ),受限于所学习的矩阵包含非负值。
我们选择了最小二乘损失函数来训练NMF模型。目标函数指定观测到的数据元素近似为k维双线性形式
事后,构成θ和Φ的行向量可以通过除以它们各自的行和进行归一化。结果归一化向量可以解释为组合向量或概率向量(即,θ和Φ的每个归一化行包含和为1的非负项,按行)。矩阵Φ的行向量编码了一组k=1…Kper-topic word probabilities or proportions (estimated over a discrete set of v=1...V words in the empirical corpus vocabulary). The row vectors of the matrix θ encode a set of d=1...D per-document topic proportions (estimated over a discrete set of k=1...K latent dimensions), encoding the affinity a given document has for a particular topic.
对于每个文档d=1…D,一个ssume we observe a time stamp that allows us to associate each document (and latent embedding) with a T-dimensional indicator variable denoting the observation time (t=1...T). We estimated a K-dimensional multivariate mean topical prevalence vector for each design point, t=1...T. This resulted in a multivariate time series structure (a T*K dimensional matrix). Each column (k=1...K) of the matrix is a length T time series that described the evolution of a latent topical vector.
Python SKLearn包(版本0.24.2)中的SKLearn .decomposition.NMF()函数被用来拟合NMF主题模型。
LDA是一个概率主题模型。概率主题模型假设文档由多个主题组成。这些(潜在的)主题表示有限词汇或标记的概率分布。主题模型也可以描述为混合模型。每个文档都是主题的软混合(k=1…k),其中主题本身是词汇表中单词的概率分布(v=1…v)。描述LDA的图形模型显示在
LDA图形模型还描述了在语料库中创建单个文档的生成过程。这可以用以下抽样符号简单地描述[
为了生成文档,我们首先从由V维先验浓度参数(β)参数化的狄利克雷分布中采样每个主题的单词分布。局部向量(k=1…k)在文档集合上共享。
接下来,对于每个文档d=1…D我n the collection, we sample the per-document topic distribution from a Dirichlet distribution parameterized according to a K-dimensional prior concentration parameter (α).
对于每个文档中的每个单词,我们抽取一个主题指示符变量zd n.这个变量取1到K之间的整数值,表示每个主题的单词分布,其中一个特定的单词wd n,被选中。下标n表示nth(n=1d).
最后,我们画一个单词标记wd n,来自与z相关的局部分布d n.指示器这个词是一个元素v=1…V我n our empirical dictionary or vocabulary.
与概率主题建模相关的统计推理问题涉及到反转抽样过程和学习给定观察文本数据的模型定义的潜在参数。潜在变量表明哪些词被分配给哪些主题指标(z),哪些文档与哪些主题有亲和力(θ),以及哪些词在哪些主题下高可能性地共出现(Φ)。与LDA主题模型相关的潜在参数通常使用贝叶斯统计机制(吉布斯抽样[
对每个文献的局部流行度权重矩阵进行多元变换,生成多元时间序列数据结构。该对象的维数为T*K,其中每列K =1…K表示长度为T的单变量局部时间序列。该序列描述了在我们的研究期间潜在局部向量的演变。
Python SKLearn(版本0.24.2)中的SKLearn .decomposition. latentdirichletallocation()函数被用来拟合LDA主题模型。
潜在狄利克雷分配主题模型的图形模型表示。
STM是另一种概率主题模型。STM扩展了LDA主题模型,允许(1)每个文档主题流行度权重或(2)每个主题单词比例的潜在矩阵根据广义线性模型参数化而变化[
为了在STM下生成文档,我们首先从(仅截取)多项logit模型(其中多项logit回归参数被给出稀疏的“gamma-lasso”先验)中对每个主题的单词分布进行采样[
接下来,我们从一个以平均向量和协方差矩阵为参数化的逻辑正态分布中对每个文档的主题分布进行抽样。γ表示D*T维度设计矩阵,编码时间点(T =1…T),在该时间点下,文档(D =1…D)被观察到。向量γ是一个维度为T*K的矩阵,并编码了每个文献局部流行度权重上的离散时间效应(每个文献的长度K向量d=1…d)。最后,Σ是一个K*K维协方差矩阵,编码局部流行向量之间的相关性(在逻辑正常模型下参数化)。
对于每个单词(n=1d)在每个文档中(d=1…d),我们对主题指标变量z进行抽样d n.这个变量取1到K之间的整数值,表示每个主题的单词分布,其中一个特定的单词wd n,被选中。必须注意的是,上限Nd建议用于任何给定文档(d)的字数可以变化。
最后,我们画一个单词或标记,wd n,来自与z相关的局部分布d n.指示器这个词是一个元素v=1…V我n our empirical dictionary or vocabulary.
STM框架自然允许估计局部流行权重的时间影响。在我们的研究中,局部流行的离散时间效应可以用拟合的logistic正态模型中的系数矩阵(γ)来解释。由于时间效应被编码在贝叶斯回归建模框架中,我们还可以计算推断测度(后验均值、最高后验密度区间等)。STM编码的单级推理机制比早期的NMF和LDA模型有明显的优势。
我们使用R中的stm包中的stm()函数将stm拟合到我们的研究数据中。
结构式主题模型的图形模型表示。
最近,研究人员开发了集成神经架构和相关技术的主题模型,用于模型规范和学习。这些神经主题模型与前面介绍的主题模型相比,代表了不同类别的主题模型。最近开发的神经主题模型包括top2vec [
BERTopic首先将研究语料中经验观察到的文档嵌入到潜在的嵌入空间中。有许多方法可以将离散的语言单位(单词、句子、段落、文档等)嵌入到嵌入空间中。例如,可以使用word2vec[将单词嵌入到向量空间中。
每个文档(d=1…d)都嵌入到一个向量空间中,通常有几百维。均匀流形逼近与投影(UMAP)算法[
识别语义相关文档的聚类(k=1…k)。单词评分v=1…V我n the vocabulary were computed using cluster-specific TF-IDF weights. If a cluster consisted of semantically focused documents, and hence words, we expect to observe coherent and meaningful words identified via TF-IDF scoring. The proportion of documents assigned to each cluster during a specific period (t=1...T) can be used to generate a T*K dimensional multivariate time series structure, depicting the evolution of latent topic over our study period.
我们使用默认超参数设置来拟合BERTopic模型。BERTopic管道需要(1)文档嵌入算法的规范(在我们的例子中,MPNet句子转换器模型[
我们使用Python包bertopic来拟合bertopic模型。
我们使用简单的计数和百分比来描述我们的研究样本的特征。我们描述了独特的患者数量和独特的临床记录数量。我们样本中的每位患者都是初级保健系统的“高用户”,也就是说,他们在2011-2015年的20个季度时间段中,每个季度至少产生一次接触/记录。我们描述了每个病人的病历数量的分布。我们描述了样本的人口学特征(年龄/性别分布)。
在拟合NMF、LDA和STM模型时,我们构建了一个DTM,其行维数对应于样本中唯一患者的数量(即1727个唯一患者)乘以不同时间段的数量(
对于每一个NMF、LDA、STM和BERTopic模型,我们构建了一个K*T维的多元时间序列矩阵(这是前面描述的T*K数据结构的转置)。每行对应一个潜在主题向量,每列对应一个特定的季度时间段。行向量是一个长度为T的时间序列,描述了在整个研究期间潜在局部向量的演变。每一列对应于特定时期主题的分布(即描述了在给定时期哪些主题最重要)。对于每一行k=1…K,we report the top 5 words loading most strongly on a given topic. The cluster of words was semantically correlated and described the essence of the latent topical vector. A heatmap was used to visualize this high-dimensional multivariate time series structure; and we hierarchically clustered the rows of the matrix using a Euclidean distance metric and Ward agglomeration method (a dendrogram was used to visualize the cluster structure of the topical series).
每个NMF、LDA、STM和BERTopic模型拟合的主题结构都是根据k=1时每个模型上负载最强的前5个词来描述的。K个潜在话题。换句话说,每个模型的主题结构可以用250个单词或标记的“袋子”来描述。我们调查了模型拟合的局部多样性。主题多样性是根据250个单词中唯一单词的数量来计算的。此外,我们调查了描述每种模型拟合的“袋子”中出现频率最高的5个单词。主题摘要中冗余出现的单词提供了模型反复确定为重要的语义概念的粗略近似。
我们研究了NMF、LDA、STM和BERTopic模型的主题一致性的几种测量方法。我们考虑了Roder等人的调查中描述的“UMASS”、“UCI”和标准化的逐点互信息(“NPMI”)指标[
我们使用基于集合的一致性度量,即Jaccard系数,来评估描述NMF、LDA、STM和BERTopic模型的主题结构的相似性或差异。每个模型都用250个单词或符号的“袋子”来描述(即k=50个主题,用它们最可能出现的5个单词来描述);考虑生成单词或标记袋的2个模型,b0和b1.Jaccard系数定义为b的交的基数0和b1除以b的并集的基数0和b1.在数学符号中,Jaccard系数表示为:
最后,我们描述了拟合NMF、LDA、STM和BERTopic模型所需的壁时间(以秒或分钟为单位)。我们还讨论了与每个模型的超参数调优相关的计算问题。
本研究采用回顾性封闭队列设计。临床记录来自分布在加拿大安大略省的初级保健EMR系统。我们纳入了2011年1月1日至2015年12月31日期间由患者初级保健提供者撰写的所有临床记录。我们将时间离散成季度分层(1月- 3月;4 - 6月;7 - 9月;和10)。如果患者在研究期间的20个季度中每个季度都没有至少一个临床记录,则将被排除在外。因此,所选患者样本反映了一组经常参与初级卫生保健系统的独特个体。
我们收集的文献包含1727名患者的160,478份临床记录。1727名患者接受了来自40家独特初级保健诊所(地理上分布在加拿大安大略省)的1066名独特初级保健医生的初级保健服务。患者的中位年龄为68岁(IQR 55-80岁),年龄范围为20岁至103岁(年龄统计数据以研究基线为参考日期,2011年1月1日计算)。女性患者的观察频率高于男性患者(1157/1727,67% vs 570/1727, 33%)。
最初的笔记级DTM的尺寸为160,478行(语料库中的每个临床笔记都有一行),2930列(语料库中的每个唯一单词或标记都有一列)。语料库包含3,003,583个标记。DTM是>99%稀疏的(即,它几乎包含所有的零元素)。我们还通过汇总同一患者在一个季度内观察到的记录,构建了一个患者-季度级DTM。这个DTM的尺寸为1727×20=34,540行,2930列,稀疏度为>98%。在分析语料库中出现频率最高的前25个单词列在
研究样本的描述性统计,在笔记级和患者级的分析单位。
特征 | 唯一票据(n=160,478), n (%) | 唯一患者(n=1727), n (%) | |
|
|||
|
20 - 40 | 9713 (6.1) | 107 (6.1) |
|
40 - 65 | 63588 (39.6) | 675 (39.1) |
|
65 - 85 | 63839 (39.8) | 704 (40.8) |
|
> 85 | 23338 (14.5) | 241 (14) |
|
|||
|
男性 | 51530 (32.1) | 570 (33) |
|
女 | 108948 (67.9) | 1157 (67) |
|
|||
|
2011 | 28012 (17.5) | - - - - - -一个 |
|
2012 | 31220 (19.5) | - - - - - - |
|
2013 | 33676 (21) | - - - - - - |
|
2014 | 33756 (21) | - - - - - - |
|
2015 | 33814 (21) | - - - - - - |
一个不适用。
在最终分析的初级保健临床记录语料库(N=3,003,583)中,出现频率最高的25个标记或单词。
标记或词 | 发生频率,n (%) |
疼痛 | 88132 (2.93) |
毫克 | 65612 (2.18) |
印度卢比 | 52970 (1.76) |
英国石油公司 | 50751 (1.69) |
回来 | 43556 (1.45) |
剂量 | 29861 (0.99) |
感觉 | 24736 (0.82) |
处方 | 23211 (0.77) |
胸部 | 22256 (0.74) |
药物 | 20914 (0.7) |
推荐 | 19409 (0.65) |
工作 | 19398 (0.65) |
wt | 19322 (0.64) |
感觉 | 17415 (0.58) |
血 | 16121 (0.54) |
症状 | 15905 (0.53) |
打印 | 15706 (0.52) |
尿液 | 14633 (0.49) |
bw | 13779 (0.46) |
实验室 | 13543 (0.45) |
清晰的 | 13271 (0.44) |
膝盖 | 12677 (0.42) |
药店 | 12503 (0.42) |
睡眠 | 12331 (0.41) |
处方 | 11945 (0.4) |
我们比较评估了将NMF、LDA、STM和BERTopic模型拟合到我们的初级保健临床记录语料库中得到的推论。对于每个模型,我们改变主题的数量(K={25,40,45,50,55,60,75}),并在模型复杂性参数(K)的不同水平上观察到相似的推论。当K太小时,不同的语义主题倾向于被分组在一起,而当K太大时,语义相似的主题倾向于被分成任意的聚类(导致过聚类效应)。使用人类判断评估,我们确定K=50个主题的模型复杂性平衡了临床文档语料库的简约,同时具有表达性。对于每一个NMF、LDA、STM和BERTopic模型,我们报告假设K=50个潜在主题的结果。
k=1的单词分布的总结…50latent topics (for each of the 4 models under comparison) is given in
4个潜在时间主题模型中的每一个都学习了初级保健临床笔记语料库的有意义的表示。在接下来的段落中,我们将讨论(1)跨模型一致估计的主题,这些主题显示了跨季度主题流行率的持续趋势;(2)跨季度主题一致估计,显示了有趣的季节性模式。
每个拟合模型一致地确定了以下潜在的初级保健主题结构(这些主题在季度期间显示恒定的模式):睡眠(NMF=Topic−45;LDA=Topic-2或Topic-31;STM =主题11;BERTopic =不适用);心理健康,例如情绪、焦虑和抑郁,(NMF=Topic-33;LDA = Topic-22;STM = Topic-19;BERTopic = Topic-16);疼痛(NMF = Topic-1;LDA=Topic-39, Topic-36, Topic-14, Topic-49, Topic-34,或Topic-37; STM=Topic-8; BERTopic=Topic-9 or Topic-39); blood pressure control and monitoring (NMF=Topic-36; LDA=Topic-9; STM=Topic-21; BERTopic=Topic-31); respiratory disease, for example, cough, throat, chest, fever, etc (NMF=Topic-46; LDA=Topic-13; STM=Topic-46; BERTopic=Topic-1), smoking (NMF=Topic-31; LDA=Topic-32; STM=Topic-44; BERTopic=Topic-38); diabetes, for example, blood, sugar, insulin, fbs, etc (NMF=Topic-5; LDA=Topic-43; STM=Topic-42; BERTopic=Topic-8); pharmaceutical prescription management (NMF=Topic-26; LDA=Topic-40; STM=Topic-9; BERTopic=Topic-36 or Topic-5); and annual influenza vaccination programs (NMF=Topic-6; LDA=Topic-29; STM=Topic-36; BERTopic=Topic-50). These thematic areas represented archetypical patients, conditions, or roles encountered in the primary health care system. The consistent extraction of latent themes (represented as semantically correlated word clusters) suggests that each model can leverage information regarding word-context co-occurrence to learn meaningful patterns from a large unstructured clinical document corpus.
对于某些学习主题,季节性谐波模式在研究期间得到了稳定的估计。例如,年度流感疫苗接种计划始终发生在研究的秋季或冬季(NMF=Topic-6;LDA = Topic-29;STM = Topic-36;BERTopic = Topic-50)。同样,呼吸道疾病(咳嗽、感冒、流感等)的年度高峰在冬季达到高峰,在夏季达到低谷(NMF=Topic-46;LDA = Topic-13;STM = Topic-46;BERTopic = Topic-1)。这些发现在
与非负矩阵分解时态主题模型相关的多元时间序列结构的热图。
与潜在狄利克雷分配时态主题模型相关的多元时间序列结构的热图。
与结构主题模型相关联的多元时间序列结构的热图。
与BERTopic时态主题模型相关的多元时间序列结构的热图。
显示从非负矩阵分解模型(A)、潜在狄利克雷分配模型(B)、结构主题模型(C)和BERTopic模型(D)学习的潜在多元时间序列对象的聚类结构的树状图。
通过非负矩阵分解模型(A)、潜在狄利克雷分配模型(B)、结构主题模型(C)和bertopic模型(D)估计,描述年度流感节目主题季节演变的描述性时间序列图。
通过非负矩阵因子分解模型(A)、潜在狄利克雷分配模型(B)、结构主题模型(C)和bertopic模型(D)估计,描述呼吸疾病主题季节演化的描述性时间序列图。
在调查与每个单词主题分布相关的排名靠前的单词时
我们使用以下指标探索了NMF、LDA、STM和BERTopic模型的语义一致性:“UMASS”、“UCI”和“NPMI”(
为了研究拟合主题模型的异同,我们使用Jaccard系数(
报告了训练每个模型所需的时间。对于NMF、LDA和STM模型,我们使用了单个中央处理单元(尽管分解模型的Python SKLearn实现可以并行化)。对于BERTopic模型,我们使用单个图形处理单元用于嵌入文档,使用单个中央处理单元用于降维(UMAP)和聚类(HDBSCAN)。在这些设置下,拟合NMF、LDA、STM和BERTopic模型所需的时间分别为237秒、67秒、879秒(14.7分钟)和2624秒(43.7分钟)。BERTopic模型的计算需求超过了其他模型,特别是Python SKLearn中高度优化的NMF或LDA实现。
在每个250个单词的袋子中观察到的描述潜在狄利let分配(LDA)、非负矩阵分解(NMF)、结构主题模型(STM)和BERTopic模型的主题结构的最频繁出现的标记(以及它们在袋子中的出现次数)。
文字或标记 | 主题模型 | |||
|
NMF (n) | LDA (n) | STM (n) | BERTopic (n) |
单词或标记-1 | 头(4) | (9) | (5) | 印度卢比(11) |
Word或token-2 | 毫克(4) | 英国石油公司(6) | 毫克(5) | 毫克(9) |
Word或token-3 | ccac (3) | 疼痛(6) | 疼痛(5) | 实验室(5) |
单词或标记4 | 糖尿病(3) | 胸部(3) | 英国石油公司(4) | 处方(5) |
单词或记号5 | (3)感觉 | 感觉(3) | 感觉(3) | 剂量(4) |
主题一致性度量(“UMASS”、“UCI”和标准化点互信息[“NPMI”])估计在每个非负矩阵分解(NMF)、潜在狄利克雷分配(LDA)、结构主题模型(STM)和BERTopic模型上。
局部连贯测量 | 主题模型 | |||
|
NMF | 乔治。 | 扫描隧道显微镜 | BERTopic |
马塞诸斯州大学的 | −2.522 | −2.488 | −2.372 | −2.591 |
UCI | 1.220 | 0.987 | 1.192 | 1.405 |
NPMI | 0.183 | 0.149 | 0.190 | 0.230 |
拟合主题模型之间基于集的一致性的Jaccard系数度量:非负矩阵分解(NMF)、潜在狄利let分配(LDA)、结构主题模型(STM)和BERTopic。
|
NMF | 乔治。 | 扫描隧道显微镜 | BERTopic |
NMF | - - - - - -一个 | - - - - - - | - - - - - - | - - - - - - |
乔治。 | 0.526 | - - - - - - | - - - - - - | - - - - - - |
扫描隧道显微镜 | 0.491 | 0.577 | - - - - - - | - - - - - - |
BERTopic | 0.343 | 0.286 | 0.329 | - - - - - - |
一个不适用。
在这项研究中,我们比较了几种不同的方法(即NMF、LDA、STM和BERTopic),以从大量初级保健临床记录中估计时间主题模型。尽管基础统计方法存在差异,但模型通常集中在语料库的一致潜在特征上。此外,从NMF、LDA、STM和BERTopic模型中可靠地提取了潜在主题的时间演化。
在临床上,我们的数据集代表了初级保健系统的高用户。从该分析中出现的许多潜在主题都与高用户原型一致,例如,家庭咨询或社会工作、情绪障碍、焦虑或抑郁、慢性疼痛、关节炎和肌肉骨骼疾病、神经疾病、心血管疾病和高血压、糖尿病、癌症筛查(乳腺、宫颈、结直肠和前列腺)、实验室申请和血液工作、诊断成像以及药物或处方管理。主题模型还确定了许多急性健康状况作为重要的潜在主题,如咳嗽、感冒和其他呼吸道感染、尿路感染、皮肤状况和伤口护理。NMF、LDA、STM和BERTopic模型都一致地捕捉到(1)年度初级保健流感计划和(2)季节性呼吸条件,显示出可预测的季节变化。关于初级保健使用模式的调查结果仅从临床文本数据中提取,在很大程度上得到了基于结构化行政数据的省级报告的证实[
我们观察到,用于估计时间主题模型的不同统计方法产生了和谐或一致的潜在表示。我们将其解释为,随着给定临床文本数据集中信噪比的增加,统计学方法的微妙选择似乎不那么重要,这些方法中的任何一种都可以提取初级保健语料的有意义的潜在表示。对于较小的语料库,其中单词-文档共现统计不太确定,这个假设可能不成立。
此外,在模型表示中出现了微妙或微妙的差异,这可能导致分析人员在特定环境中偏爱特定的建模策略。例如,考虑
由于每种时间主题建模方法都有不同的统计原理,因此每种方法都有自己的优点和缺点。我们已经详细阐述了与每一类模型相关的方法和计算问题。
首先,NMF是用于主题建模的最成熟和最简洁的方法。NMF强烈地植根于线性代数原理,基本上是基于一个简单的最小二乘目标函数的约束优化。Vanilla NMF是一种研究得很好的统计方法,有许多有效的计算例程用于估计NMF模型。NMF是灵活的,可以很容易地扩展。在模型拟合过程中,可能的模型扩展可以看作是离散的可调超参数。贝里等人[
LDA和STM是贝叶斯主题模型。LDA是对现有的基于线性代数(如潜在语义分析)和基于最大似然(如概率潜在语义索引)的主题建模技术的完全贝叶斯扩展[
BERTopic代表了最新颖的主题建模方法[
我们试图在如何选择词汇或标记的最终词汇方面保持透明,因此为本研究构建了dtm。不同的计算管道可以用来预处理我们的临床文本语料库。例如,我们可以使用不同的策略进行标记化、词根化、词干化、停止词删除以及基于频率的单词或标记删除。不同的文本预处理管道将最终导致不同的DTM结构(使用不同的词汇表)。需要进一步的研究来更好地理解这些文本预处理决策对下游研究推论的影响。
本研究中考虑的每个主题模型都需要规范控制模型拟合方面的超参数。对于大型输入数据集,拟合这些主题模型需要大量的计算。我们主要关注与模型复杂度(K)相关的推理的稳定性和鲁棒性,K是所有模型的通用超参数。我们没有探讨其他特定于模型的超参数的推断的稳定性。
在这项研究中,我们没有考虑所有可能的估计时间主题模型的方法。定制的NMF和LDA变体适用于估计时间主题模型。顺序NMF [
这些工作使我们考虑了几种可能的扩展不同主题建模框架的方法,包括使用文档级协变量的贝叶斯NMF(类似于LDA的STM扩展),使用(非时间)协变量的神经矩阵分解,LDA或STM扩展,允许每个文档的主题流行度权重根据灵活的广义线性混合模型或多层模型(用于建模依赖关系,因为创建文档的复杂设计或采样机制而引入),以及在使用时间主题模型时用于改进统计推断的计算方法(例如,间隔估计和假设检验)(例如,重新采样方法,bootstrap和多重输出)。
在这项研究中,我们比较了几种从初级保健临床文本数据中估计时间主题模型的统计技术。不同的时间主题模型由于其基本的统计特性而有其独特的优点和缺点。尽管如此,每个模型一致地估计了初级保健文献集合的潜在变量表示,这些潜在变量有意义地描述了高使用率初级保健患者及其与初级卫生保健系统的纵向相互作用。随着emr应用的增加和卫生保健组织积累越来越多的临床文本数据,时间主题模型可以提供一种机制,利用非结构化的临床文本数据来表征和监测初级保健实践和系统。
文档术语矩阵
电子病历
基于分层密度的噪声应用空间聚类算法
潜在狄利克雷分配
非负矩阵分解
归一化点互信息
结构主题模型
术语频率-文档频率
均匀流形近似和投影
本研究由加拿大卫生研究院基金会拨款(FDN 143303)提供资金支持。资助机构在研究设计中没有任何作用;数据的收集、分析或解释;报告的撰写;或决定提交报告发表。奥斯汀博士得到了心脏和中风基金会的职业中期研究者奖的支持。
没有宣布。