发表在10卷,第12号(2022): 12月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/40102,首次出版
从初级保健临床文本数据估计时间主题模型的方法比较:回顾性封闭队列研究

从初级保健临床文本数据估计时间主题模型的方法比较:回顾性封闭队列研究

从初级保健临床文本数据估计时间主题模型的方法比较:回顾性封闭队列研究

原始论文

1多伦多大学达拉拉纳公共卫生学院生物统计学系,加拿大安大略省多伦多

2加拿大多伦多大学家庭与社区医学系

3.ice,多伦多,安大略省,加拿大

4多伦多大学卫生政策、管理和评价研究所,加拿大安大略省多伦多

通讯作者:

克里斯托弗·米尼理学硕士

达拉拉纳公共卫生学院生物统计学系

多伦多大学

学院街155号

多伦多,安大略省,M5G1V7

加拿大

联系电话:14169785602

电子邮件:christopher.meaney@utoronto.ca


背景:卫生保健组织正在收集越来越多的临床文本数据。主题模型是一类无监督机器学习算法,用于在这些大型非结构化文档集合中发现潜在的主题模式。

摘要目的:我们的目的是比较评估几种估计时间主题模型的方法,这些方法使用来自加拿大安大略省初级保健电子医疗记录的临床记录。

方法:我们采用回顾性封闭队列设计。研究时间从2011年1月1日至2015年12月31日,分为20个季度。如果患者在20个季度的每个季度中至少产生1份初级保健临床记录,则纳入研究。这些患者代表了一个独特的群体,他们经常使用初级保健系统。临床笔记语料库拟合了以下时间主题建模算法:非负矩阵分解、潜在狄利克雷分配、结构主题模型和BERTopic模型。

结果:时间主题模型一致地识别临床笔记语料库中潜在的局部模式。学习专题基础确定了初级卫生保健系统开展的有意义的活动。表现出近乎恒定的时间动态的潜在主题在各个模型中得到一致的估计(例如,疼痛、高血压、糖尿病、睡眠、情绪、焦虑和抑郁)。在研究期间,一些主题显示出可预测的季节性模式(例如,呼吸道疾病和流感免疫规划)。

结论:非负矩阵分解、潜在狄利克雷分配、结构主题模型和BERTopic基于不同的底层统计框架(如线性代数和优化、贝叶斯图模型和神经嵌入),需要调整独特的超参数(优化器、先验等),并且具有不同的计算需求(数据结构、计算硬件等)。尽管统计方法存在异质性,但在研究期间,对习得的潜在主题总结及其时间演变进行了一致的估计。时间主题模型代表了一类有趣的模型,用于描述和监测初级卫生保健系统。

中国生物医学工程学报;2012;31 (2):444 - 444

doi: 10.2196/40102

关键字



初级保健文本数据

电子医疗记录(EMR)系统在全球各地的临床环境中越来越多地被采用[1].因此,医疗保健组织正在生成、收集和数字化存储大量常规收集的临床信息。在这项研究中,我们关注的是在初级保健电子病历系统中通常收集的临床文本数据。我们比较了一类无监督机器学习模型——时间主题模型——用于描述大型文档语料库的潜在主题内容,并总结潜在的主题动态。时间主题模型具有应用于大型非结构化临床文档集合的潜力,这些文档通常在现代电子病历系统中捕获,以被动地表征初级卫生保健系统。

主题模型

几种方法可用于估计主题模型,给定文档集合,并表征潜在主题基础随时间的演变。潜在狄利克雷分配[23.]使用贝叶斯概率图形建模框架来定义主题模型。学习主题向量描述语料库中特定主题(k=1…k)的单词(v=1…v)的亲和力。潜在混合向量描述特定文档(d=1…d)与特定主题(k=1…k)的亲和性。LDA模型中的潜在矩阵是从临床笔记语料库中经验收集的文档-单词共现统计数据中学习到的。传统的LDA模型不是用来建模临时文档集合的;然而,Griffiths等[45展示了如何使用简单的时间分层估计器来说明潜在局部媒介随时间的演变。结构主题模型(STM)扩展了经典的LDA模型,允许(1)每个文档的主题流行权重矩阵或(2)每个主题词概率矩阵根据使用广义线性模型参数化的协变量信息确定性地变化[6].时间的几个参数化可以合并到广义线性模型中(例如,离散、连续或样条效应),允许STM灵活地模拟局部流行向量随时间的演变。非负矩阵分解[7-9]使用线性代数框架和约束优化原理进行主题建模。NMF通过将观察到的文档项矩阵(DTM)分解成2个潜在的非负矩阵,直接估计主题模型的参数矩阵。其中一个潜在参数矩阵描述文档(d=1…d)与主题(k=1…k)的亲和性,另一个潜在矩阵描述单词(v=1…v)与主题(k=1…k)的亲和性。NMF潜在参数矩阵的事后多元变换可用于产生局部随时间演变的估计。最近,神经框架被开发用于主题建模,如top2vec [10]及BERTopic [11].BERTopic神经主题模型首先将文档嵌入到潜在向量空间中。在嵌入空间中识别有限数量的语义相似文档的聚类(k=1…k)。对于每个文档聚类(k),使用特定于聚类的术语-频率逆文档频率(TF-IDF)加权技术提取描述该聚类或主题的最相关单词[11].

研究目标

本研究的目的是比较适合初级保健临床笔记语料库的几种时间主题建模方法的性能。我们比较了以下时间主题建模方法:NMF、LDA、STM和BERTopic。我们检查了(1)在语料库上估计的每个主题词概率的总体矩阵和(2)描述潜在主题流行权(k=1…k)在离散时间(t=1…t)上的演变的多变量时间序列结构。我们使用在加拿大安大略省收集的5年(2011-2015年)纵向初级保健临床记录数据集比较了这些方法。


临床文本语料库的数学表示和计算处理

主题模型使用关于文档-单词共现频率的统计信息从语料库中学习有意义的潜在变量表示。集合中的每个文档(d=1…d)表示为高维长度- v向量(v=1…v),其中每个元素是在特定文档(d)中观察到经验词汇表中的特定单词或标记(v)的次数计数。我们将特定文档的术语频率向量集合表示为维数d * v的矩阵X,称为DTM。DTM是一个大的稀疏矩阵。然而,这个矩阵是过度确定的,因为许多行(表示文档特定的术语频率向量)和列(表示语料库中所有文档的单词或标记出现频率)显示出很强的相互关系。降维技术,如主题模型,使用相互关联的统计语义信息来估计文档集合中有意义的主题表示。主题模型学习(1)描述语料库主题内容的相互关联词簇和(2)共享潜在主题概念的相关文档簇。

与DTM构造相关的最具挑战性和主观性的方面涉及编码矩阵列空间的词汇表或字典(v=1…v)的规范。先验构建的词典或字典(维度V)可用于确定学习词汇。适当的特定领域词典的规范将由研究小组的主题专家负责。或者,完全计算的方法可以指定文本标记化或规范化管道,并计算地将输入字符序列解析为有限数量的标记。

在这项研究中,我们采用了一种混合的方法来规范词汇或字典。我们首先对空白边界(空格、制表符、换行符、回车符等)上的临床记录进行标记。我们使用小写转换规范化了标记,并删除了所有非字母字符。我们删除了字符长度≤1的标记。最后,我们通过减少出现频率对标记或单词列表进行排序,并手动检查排序后的标记列表。我们的手工检查确定了V=2930个不同的符号,以包含在我们的最终词汇表中。语料库中的令牌总数为3,003,583。我们最终选择纳入词典或词汇的符号主要是具有精确语义的医学术语(疾病名称、疾病症状、药物名称、医疗程序、医学专业、解剖位置等)。我们排除了停止词或标记(即没有临床语义的句法或功能标记)。出于计算考虑,排除了出现频率低的单词。 All text processing was conducted using R (R Foundation for Statistical Computing; version 3.6).

时间主题建模方法综述

NMF模型

NMF使用经验DTM中包含的文档-单词共现统计来估计潜在的主题矩阵。NMF将D*V维DTM分解为D*K (θ)和K*V (Φ)两个潜在的子矩阵。DTM (X)由非负整数(即词频计数)组成,而学习矩阵(θ,Φ)由非负实数组成。在数学上,NMF的目标包括学习最接近输入数据集(X≈θΦ)的潜在矩阵(θ,Φ)的最优值,受学习到的矩阵包含非负值的约束。

我们选择了最小二乘损失函数来训练NMF模型。目标函数指定观察到的数据元素以k维双线性形式近似.分析人员必须指定潜在空间的维度:K(主题的数量)。关于NMF的开创性文章包括Paatero和Tapper [7]和李、承[89].Berry等人对NMF和低秩模型进行了调查[12]和Udell等人[13].

事后,同时构成θ和Φ的行向量,可以通过除以它们各自的行和来归一化。得到的归一化向量可以被解释为组成或概率向量(即,θ和Φ的每个归一化行包含非负的和为1的项,逐行)。矩阵Φ的行向量编码一组k=1…K个每个主题词的概率或比例(在v=1的离散集合上估计…(五)经验语料库中的词汇)。矩阵θ的行向量编码了一组d=1…D每个文档的主题比例(在k=1的离散集合上估计)…K个潜在维度),编码给定文档对特定主题的亲和力。

对于每个文档d=1…D,假设我们观察到一个时间戳,它允许我们将每个文档(和潜在嵌入)与表示观察时间(t=1…t)的t维指标变量关联起来。我们估计了每个设计点的k维多变量平均局部流行向量,t=1…t。这就产生了一个多元时间序列结构(一个T*K维矩阵)。矩阵的每一列(k=1…k)是一个长度为T的时间序列,描述了潜在局部向量的演变。

Python SKLearn包(版本0.24.2)中的SKLearn .decomposition.NMF()函数用于拟合NMF主题模型。

LDA模型

LDA是一种概率主题模型。概率主题模型假设文档由主题的混合物组成。这些(潜在的)主题表示有限词汇表或标记上的概率分布。主题模型也可以被描述为混合模型。每个文档都是主题的软混合(k=1…k),其中主题本身是词汇表中单词的概率分布(v=1…v)。描述LDA的图形模型见图1(2].

LDA图形模型还描述了在语料库中创建单个文档的生成过程。这可以用下面的抽样符号[1415].

为了生成文档,我们首先从由V维先验浓度参数(β)参数化的Dirichlet分布中采样每个主题词的分布。主题向量(k=1…k)在文档集合上共享。

接下来,对于每个文档d=1…在集合D中,我们从根据k维先验浓度参数(α)参数化的Dirichlet分布中采样每个文档的主题分布。

对于每个文档中的每个单词,我们采样一个主题指示变量zd n.这个变量取一个介于1到K之间的整数值,表示每个主题词的分布d n,被选中。指标n表示nth可变长度文档中的单词(n=1d).

最后,我们画一个单词标记wd n,从与z相关的局部分布d n.单词指示器是一个元素v=1…V在我们的经验字典或词汇中。

与概率主题建模相关的统计推理问题涉及反转采样过程和学习给定观察文本数据的模型定义的潜在参数。潜在变量表示哪些单词被分配给哪个主题指标(z),哪些文档与哪个主题有亲和关系(θ),哪些单词在哪个主题下高可能性共存(Φ)。与LDA主题模型相关的潜在参数通常使用贝叶斯统计机制进行估计(Gibbs抽样[14],变分推理[2]等方法)。

对每个文档主题流行率权重矩阵进行多元变换,生成多元时间序列数据结构。该对象的维度为T*K,其中每列K =1…K表示长度为T的单变量局部时间序列。该序列描述了我们研究期间潜在局部向量的演变。

使用Python SKLearn(版本0.24.2)中的SKLearn .decomposition. latentdirichletallocation()函数拟合LDA主题模型。

图1所示。潜在狄利克雷分配主题模型的图形模型表示。
查看此图
STM模型

STM是另一种类型的概率主题模型。STM扩展了LDA主题模型,允许(1)每个文档主题流行权重或(2)每个主题词比例的潜在矩阵根据广义线性模型参数化而变化[6].每个文档主题患病率权重潜在矩阵上的协变量效应使用每个文档主题患病率向量上的logistic正态先验分布纳入模型,类似于相关主题模型[16].每个主题词比例的潜在矩阵上的协变量效应使用一种多项式logit先验纳入模型。在本研究中,我们将协变量效应(在我们的研究中,离散时间效应,t=1…t)建立在每个文档主题流行率权重矩阵上。我们没有假设每个主题词比例的矩阵根据协变量而变化。STM的平板符号见图2.变分方法用于STM的后验推理[6].

为了在STM下生成文档,我们首先从(仅截距)多项logit模型(其中多项logit回归参数事先给出稀疏的“gamma-lasso”)中采样每个主题词的分布[6].

接下来,我们从一个用均值向量和协方差矩阵参数化的逻辑正态分布中对每个文档的主题分布进行采样。γ表示D*T维设计矩阵,编码时间点(T =1…T),在该时间点下观察文档(D =1…D)。向量γ是一个维数为T*K的矩阵,对每个文档主题流行权重(每个文档的长度K向量d=1…d)的离散时间效应进行编码。最后,Σ是一个K*K维协方差矩阵,它编码局部流行向量之间的相关性(在逻辑正态模型下参数化)。

对于每个单词(n=1d) (d=1…d),我们对主题指标变量z进行采样d n.这个变量取一个介于1到K之间的整数值,表示每个主题词的分布d n,被选中。必须注意的是,上限Nd表示任何给定文档(d)所使用的字数可以变化。

最后,我们画一个单词或记号wd n,从与z相关的局部分布d n.单词指示器是一个元素v=1…V在我们的经验字典或词汇中。

STM的框架自然允许对局部流行权重的时间影响进行估计。在我们的研究中,局部流行的离散时间效应可以用拟合的logistic正态模型的系数矩阵(γ)来解释。由于时间效应在贝叶斯回归建模框架中编码,我们还可以计算推断度量(后验均值,最高后验密度间隔等)。编码在STM中的单阶段推理机制明显优于早期的NMF和LDA模型。

我们使用R中的stm包中的stm()函数将stm拟合到我们的研究数据中。

图2。图形模型表示结构主题模型。
查看此图
基于BERTopic的神经主题建模

近年来,研究人员开发了集成神经结构和相关技术的主题模型,用于模型规范和学习。这些神经主题模型代表了与之前介绍的主题模型不同的一类主题模型。最近开发的神经主题模型的例子包括top2vec [10]及BERTopic [11].在本研究中,我们主要关注BERTopic模型。

BERTopic首先将研究语料库中经验观察到的文档嵌入到潜在嵌入空间中。在嵌入空间中嵌入离散语言单位(词、句子、段落、文档等)的方法有很多。例如,可以使用word2vec[]将单词嵌入到向量空间中17-19],手套[20.], FastText [21], elmo [22], Flair [23]和变压器模型[24].句子和文档可以使用doc2vec [25]、通用句子编码器[26]和变形金刚[24].本研究中使用的BERTopic模型依赖于句子转换器[27],尤其是MPNet句子转换模型[28].神经嵌入模型是BERTopic建模管道中的离散“超参数”。神经嵌入模型的不同选择与它们自己的模型特定的超参数(嵌入维数、上下文窗口宽度、模型训练或优化参数等)相关联。

每个文档(d=1…d)都嵌入到一个向量空间中,通常有几百维。均匀流形逼近与投影(UMAP)算法[29]被用作进一步的非线性降维技术,以协助文档向量的可视化和聚类。聚类是使用基于层次密度的带噪声应用空间聚类算法(HDBSCAN)在umap -约简空间中完成的[30.].

识别出语义相关文档的聚类(k=1…k)。单词v=1…词汇表中的V使用特定于聚类的TF-IDF权重计算。如果一个集群由语义集中的文档组成,那么我们期望通过TF-IDF评分观察到连贯和有意义的单词。在特定时期(t=1…t)分配给每个簇的文档比例可用于生成t *K维多元时间序列结构,描述我们研究期间潜在主题的演变。

我们使用默认的超参数设置来拟合BERTopic模型。BERTopic管道需要(1)文档嵌入算法的规范(在我们的例子中,是MPNet句子转换器模型[28]), (2) UMAP非线性降维算法,(3)用于集群识别的HDBSCAN算法,以及(4)针对集群的TF-IDF评分。管道的各个组成部分可能涉及实质性的超参数优化。在本研究中,我们使用默认的模型超参数设置。

我们使用Python包bertopic来拟合bertopic模型。

学习时间主题模型的语料库描述与评价的统计方法

我们使用简单的计数和百分比来描述我们研究样本的特征。我们描述了独特患者的数量和独特临床记录的数量。我们样本中的每位患者都是初级保健系统的“高用户”,从某种意义上说,他们在2011-2015年的20个季度期间的每个季度中至少产生一次就诊/记录。我们描述了每位患者的病历数量分布。我们描述了样本的人口统计学特征(年龄/性别分布)。

在拟合NMF、LDA和STM模型时,我们构建了一个DTM,其行维对应于样本中独特患者的数量(即1727个独特患者)乘以不同时间段的数量(t= 20;1727×20 = 34540)。在DTM中观察到的每个词频向量长度为V (V=2930),每个元素计算每个季度在给定患者中观察到的给定单词的次数。在整个DTM中,我们计算单词的总数和唯一单词的数量。我们描述了临床笔记语料库中前25个最流行单词的计数和百分比。我们还描述了DTM的稀疏性。

对于NMF、LDA、STM和BERTopic模型,我们构建了一个K*T维的多元时间序列矩阵(这是前面描述的T*K数据结构的转置)。每一行对应一个潜在的主题向量,每一列对应一个特定的季度时间段。行向量是一个长度为T的时间序列,描述潜在局部向量在研究期间的演变。每一列对应于特定时期主题的分布(即描述在给定时期哪些主题最重要)。对于每一行k=1…K,我们报告在给定主题上加载最强烈的前5个单词。该词簇语义相关,描述了潜在主题向量的本质。使用热图来可视化这种高维多元时间序列结构;我们使用欧几里得距离度量和Ward集聚方法对矩阵的行进行分层聚类(树形图用于可视化主题系列的聚类结构)。

每个NMF、LDA、STM和BERTopic模型拟合的主题结构都是根据k=1的前5个单词加载最强烈来描述的。K个潜在话题。换句话说,每个模型的主题结构可以用包含250个单词或标记的“包”来描述。我们调查了模型拟合的主题多样性。主题多样性是根据250个单词中唯一单词的数量来计算的。此外,我们调查了“包”中描述每个模型适合度的前5个最频繁出现的单词。主题摘要中冗余出现的单词提供了模型反复识别为重要的语义概念的粗略近似。

我们研究了NMF、LDA、STM和BERTopic模型的主题一致性的几种测量方法。我们考虑了Roder等人调查中描述的“UMASS”、“UCI”和标准化的点互信息(“NPMI”)指标[31]和Rosner等[32].这些指标评估了描述NMF、LDA、STM和BERTopic模型主题结构的词类集合的内部一致性。每个相干测量的理论最小值或最大值是不同的;然而,较大的值表明模型产生了更连贯的局部特征。与上述主题相干度量的计算相关的数学细节稍后提供,并在Roder等人的研究中进一步概述[31]和Rosner等[32].在所有使用的方程中,我们假设一个主题向量是根据它的top-L最可能的单词或标记来描述的;{wwj}表示top-L集合中的不同词,ε是一个小的正常数,以避免计算中可能出现的数值问题;δ是一个加权项(用于标准化的NPMI估计,与UCI一致性测量中使用的非标准化的点向互信息估计相比)。

我们使用基于集合的一致性度量,即Jaccard系数,来评估描述NMF、LDA、STM和BERTopic模型的主题结构的相似性或差异性。每个模型都用一个包含250个单词或标记的“包”来描述(即k=50个主题,用最可能出现的前5个单词来描述);考虑两个生成单词或标记袋的模型,b0和b1.雅卡德系数被定义为b的交集的基数0和b1除以b的并集的基数0和b1.在数学符号中,雅卡德系数表示为:

最后,我们描述了拟合NMF、LDA、STM和BERTopic模型所需的隔离时间(以秒或分钟为单位)。我们还讨论了与每个模型的超参数调优相关的计算问题。

研究设计、设置、数据来源和纳入或排除标准

本研究采用回顾性封闭队列设计。临床记录是从分布在加拿大安大略省的初级保健电子病历系统中获得的。我们纳入了2011年1月1日至2015年12月31日期间患者初级保健提供者撰写的所有临床记录。我们将时间离散成季度层(1 - 3月;4 - 6月;7 - 9月;和10)。在研究期间的20个季度中,如果患者在每个季度中没有至少一次临床记录,则将患者排除在外。因此,选定的患者样本反映了一组经常与初级卫生保健系统接触的独特个体。


语料库和研究样本的描述

我们的文献收集包含来自1727名患者的160478份临床记录。1727名患者接受了来自40家独特初级保健诊所(地理分布在加拿大安大略省)的1066名独特初级保健医生的初级保健服务。患者的中位年龄为68岁(IQR 55-80),年龄范围为20 - 103岁(年龄统计以研究基线为参考日期,2011年1月1日)。女性患者多于男性患者(1157/1727,67% vs 570/1727, 33%)。表1描述研究样本的特征(根据笔记水平和患者水平的分析单位)。

最初的笔记级DTM的维度为160478行(语料库中的每个临床笔记一行)乘2930列(语料库中的每个唯一单词或标记一列)。语料库包含3,003,583个令牌。DTM的稀疏性>99%(即几乎全部为零元素)。我们还通过汇总同一患者在一个季度内观察到的笔记,构建了一个患者-四分之一水平的DTM。该DTM的维度为1727×20=34,540行乘2930列,并且稀疏度>98%。分析语料库中出现频率最高的25个单词列在表2

表1。研究样本的描述性统计,在笔记水平和患者水平的分析单位。
特征 独特音符(n= 160478), n (%) 特殊患者(n=1727), n (%)
年龄(年)

20 - 40 9713 (6.1) 107 (6.1)

40 - 65 63588 (39.6) 675 (39.1)

65 - 85 63839 (39.8) 704 (40.8)

> 85 23338 (14.5) 241 (14)

男性 51530 (32.1) 570 (33)

108948 (67.9) 1157 (67)
一年

2011 28012 (17.5) - - - - - -一个

2012 31220 (19.5) - - - - - -

2013 33676 (21) - - - - - -

2014 33756 (21) - - - - - -

2015 33814 (21) - - - - - -

一个不适用。

表2。在最终分析的初级保健临床笔记语料库中,出现频率最高的25个词或词(N=3,003,583)。
记号或字 发生频率,n (%)
疼痛 88132 (2.93)
毫克 65612 (2.18)
印度卢比 52970 (1.76)
英国石油公司 50751 (1.69)
回来 43556 (1.45)
剂量 29861 (0.99)
感觉 24736 (0.82)
处方 23211 (0.77)
胸部 22256 (0.74)
药物 20914 (0.7)
推荐 19409 (0.65)
工作 19398 (0.65)
wt 19322 (0.64)
感觉 17415 (0.58)
16121 (0.54)
症状 15905 (0.53)
打印 15706 (0.52)
尿液 14633 (0.49)
bw 13779 (0.46)
实验室 13543 (0.45)
清晰的 13271 (0.44)
膝盖 12677 (0.42)
药店 12503 (0.42)
睡眠 12331 (0.41)
处方 11945 (0.4)

比较用NMF、LDA、STM和BERTopic模型估计的时间主题模型

我们比较评估了从NMF、LDA、STM和BERTopic模型拟合到我们的初级保健临床记录语料库中获得的推论。对于每个模型,我们改变了主题的数量(K={25,40,45,50,55,60,75}),并在模型复杂性参数(K)的不同水平上观察到相似的推论。当K太小时,不同的语义主题倾向于被分组在一起,而当K太大时,语义相似的主题倾向于被分成任意的簇(导致过度聚类效应)。使用人类判断评估,我们确定K=50主题的模型复杂性平衡了临床文档语料库的简约性,同时表达了特征。对于NMF、LDA、STM和BERTopic模型,我们报告了假设K=50个潜在主题的结果。

总结了k=1时的单词分布。50latent topics (for each of the 4 models under comparison) is given in图3-6,分别。每个图中的y轴列出了给定主题中加载最强烈的前5个单词。对于NMF、LDA和STM,我们报告了与每个单词或令牌相关的主题流行权重(这是在给定潜在主题下观察单词或令牌的近似概率)。对于BERTopic模型,我们报告了与主题下单词相关的规范化集群特定TF-IDF分数(可以类似于NMF、LDA和STM模型的输出)。这些图的x轴表示t=1…20个季度。图中的一列表示在给定时间点潜在主题的局部流行率分布。图中的一行说明了潜在主题在研究期间的演变。

4个潜在时间主题模型中的每一个都学习了初级保健临床笔记语料库的有意义表示。在下面的段落中,我们将讨论(1)在各个模型中一致估计的主题,这些模型显示出各个季度主题流行率的恒定趋势;(2)在各个季度期间一致估计的主题,这些主题显示出有趣的季节性模式。

每个拟合模型一致地确定了以下潜在的初级保健局部结构(并且这些主题在每个季度期间显示恒定的模式):睡眠(NMF=Topic - 45;LDA=Topic-2或Topic-31;STM =主题11;BERTopic =不适用);心理健康,例如情绪、焦虑和抑郁(NMF=Topic-33);LDA = Topic-22;STM = Topic-19;BERTopic = Topic-16);疼痛(NMF = Topic-1;LDA=Topic-39, Topic-36, Topic-14, Topic-49, Topic-34, or Topic-37; STM=Topic-8; BERTopic=Topic-9 or Topic-39); blood pressure control and monitoring (NMF=Topic-36; LDA=Topic-9; STM=Topic-21; BERTopic=Topic-31); respiratory disease, for example, cough, throat, chest, fever, etc (NMF=Topic-46; LDA=Topic-13; STM=Topic-46; BERTopic=Topic-1), smoking (NMF=Topic-31; LDA=Topic-32; STM=Topic-44; BERTopic=Topic-38); diabetes, for example, blood, sugar, insulin, fbs, etc (NMF=Topic-5; LDA=Topic-43; STM=Topic-42; BERTopic=Topic-8); pharmaceutical prescription management (NMF=Topic-26; LDA=Topic-40; STM=Topic-9; BERTopic=Topic-36 or Topic-5); and annual influenza vaccination programs (NMF=Topic-6; LDA=Topic-29; STM=Topic-36; BERTopic=Topic-50). These thematic areas represented archetypical patients, conditions, or roles encountered in the primary health care system. The consistent extraction of latent themes (represented as semantically correlated word clusters) suggests that each model can leverage information regarding word-context co-occurrence to learn meaningful patterns from a large unstructured clinical document corpus.

图3-6说明4种不同的时间主题模型多变量时间序列结构。对于给定的图,x轴表示时间(t=1…20.quarterly periods from 2011-2015), and the y-axis represents a topical vector (k=1...50). The intensity of color in the cell (t,k) indicates the extent to which an encounter at time (t) is related to a latent topic (k). Topical labels are exchangeable and clustered along the y-axis, according to the similarity of the topical time series (a dendrogram describing the similarity or differences across topical clusters is illustrated in图7).图3-6表示用NMF估计的不同多元时间序列结构(图3), lda (图4)、STM (图5)及BERTopic (图6).

对于某些学习主题,季节调和模式在研究期间得到了稳定的估计。例如,年度流感疫苗接种计划始终在研究的秋季或冬季月份进行(NMF=Topic-6;LDA = Topic-29;STM = Topic-36;BERTopic = Topic-50)。同样,呼吸道疾病(咳嗽、感冒、流感等)的年度高峰在冬季达到高峰,在夏季达到低点(NMF=Topic-46;LDA = Topic-13;STM = Topic-46;BERTopic = Topic-1)。这些发现在图3-6;然而,我们也提供了这些主题的单独时间序列图图89,因此读者可以更好地理解不同的时间局部模型从初级保健临床文件语料库中提取一致的季节模式的能力。关于初级保健角色随时间的季节性变化的研究结果具有很强的表面效度,并得到补充数据源(例如,行政数据)的证实。此外,从我们的大型临床文件收集中提取这些模式的一致性有助于建立信任,有机会使用词-上下文共现统计(和主题模型)来描述和监测初级保健实践和系统。

图3。多变量时间序列结构的热图与非负矩阵分解时间主题模型相关联。
查看此图
图4。多变量时间序列结构的热图与潜在狄利克雷分配时间主题模型相关。
查看此图
图5。多变量时间序列结构的热图与结构主题模型、时间主题模型相关联。
查看此图
图6。与BERTopic时间主题模型相关的多变量时间序列结构的热图。
查看此图
图7。显示从非负矩阵分解模型(A)、潜在Dirichlet分配模型(B)、结构主题模型(C)和BERTopic模型(D)中学习到的潜在多变量时间序列对象的聚类结构的树形图。
查看此图
图8。描述年度流感项目主题季节性演变的描述性时间序列图,由非负矩阵分解模型(A)、潜在狄利克雷分配模型(B)、结构主题模型(C)和bertopic -模型(D)估计。
查看此图
图9。描述呼吸道疾病主题季节性演变的描述性时间序列图,由非负矩阵分解模型(A)、潜在狄利克雷分配模型(B)、结构主题模型(C)和bertopic模型(D)估计。
查看此图

拟合时间主题模型的事后内部评价

在调查与每个单词主题分布相关的排名靠前的单词时图3-6我们注意到,每个模型都可以使用多达250个唯一单词的“包”来描述语料库(K=50个主题乘以每个潜在主题表示的前5个单词)。NMF、LDA、STM和BERTopic模型拟合的唯一词数(即主题多样性)分别为76.4%(191/250)、88.4%(221/250)、87.6%(219/250)和77.2%(193/250)。列出了描述NMF、LDA、STM和BERTopic模型的主题结构的前5个最频繁出现的单词或标记表3.LDA和STM反复出现的词语是相似的,这表明与背部疼痛(和其他肌肉骨骼疼痛)相关的初级保健问题很重要,与高血压和感觉(如情绪障碍)相关的问题也很重要。相反,BERTopic模型似乎优先考虑与处方药和实验室订购或管理相关的初级保健问题。

我们使用以下指标探索了NMF、LDA、STM和BERTopic模型的语义一致性:“UMASS”、“UCI”和“NPMI”(表4) [3132].较大的一致性指标表明内部一致的潜在局部特征日益增加。“UMASS”度量倾向于STM模型,而“UCI”和“NPMI”度量倾向于BERTopic模型。

为了研究拟合主题模型的异同,我们使用了Jaccard系数(表5).使用Jaccard一致性测量,贝叶斯模型(LDA或STM)被确定为最相似的拟合结果。与其他模型相比,BERTopic模型生成了最明显的主题表示。

报告了训练每个模型所需的时间。对于NMF、LDA和STM模型,我们使用了单个中央处理单元(尽管分解模型的Python SKLearn实现可以并行化)。对于BERTopic模型,我们使用单个图形处理单元来嵌入文档,并使用单个中央处理单元来进行降维(UMAP)和聚类(HDBSCAN)。在这些设置下,拟合NMF、LDA、STM和BERTopic模型所需的时间分别为237秒、67秒、879秒(14.7分钟)和2624秒(43.7分钟)。BERTopic模型的计算需求超过了其他模型,特别是Python SKLearn中高度优化的NMF或LDA实现。

表3。在描述主题结构的250个单词的每个袋子中观察到的最频繁出现的标记与潜在狄利let分配(LDA)、非负矩阵分解(NMF)、结构主题模型(STM)和BERTopic模型(以及它们在袋子中的出现次数)相匹配。
文字或标记 主题模型

NMF (n) LDA (n) STM (n) BERTopic (n)
单词或标记-1 头(4) (9) (5) 印度卢比(11)
字或记号2 毫克(4) 英国石油公司(6) 毫克(5) 毫克(9)
单词或标记-3 ccac (3) 疼痛(6) 疼痛(5) 实验室(5)
单词或标记-4 糖尿病(3) 胸部(3) 英国石油公司(4) 处方(5)
单词或令牌-5 (3)感觉 感觉(3) 感觉(3) 剂量(4)
表4。主题一致性测量(“UMASS”、“UCI”和归一化点互信息[“NPMI”])对非负矩阵分解(NMF)、潜在狄利let分配(LDA)、结构主题模型(STM)和BERTopic模型进行了估计。
局部一致性测量 主题模型

NMF 乔治。 扫描隧道显微镜 BERTopic
马塞诸斯州大学的 −2.522 −2.488 −2.372 −2.591
UCI 1.220 0.987 1.192 1.405
NPMI 0.183 0.149 0.190 0.230
表5所示。拟合主题模型之间基于集的一致性的Jaccard系数度量:非负矩阵分解(NMF)、潜在狄利克雷分配(LDA)、结构主题模型(STM)和BERTopic。

NMF 乔治。 扫描隧道显微镜 BERTopic
NMF - - - - - -一个 - - - - - - - - - - - - - - - - - -
乔治。 0.526 - - - - - - - - - - - - - - - - - -
扫描隧道显微镜 0.491 0.577 - - - - - - - - - - - -
BERTopic 0.343 0.286 0.329 - - - - - -

一个不适用。


主要研究结果

在这项研究中,我们比较了几种不同的方法(即NMF, LDA, STM和BERTopic)来估计大量初级保健临床记录的时间主题模型。尽管在潜在的统计方法上存在差异,但模型往往汇聚在语料库的一致潜在特征上。此外,从NMF、LDA、STM和BERTopic模型中可靠地提取了潜在主题的时间演化。

在临床上,我们的数据集代表了初级保健系统的高用户。该分析中出现的许多潜在主题都与高用户原型相一致,例如,家庭咨询或社会工作、情绪障碍、焦虑或抑郁、慢性疼痛、关节炎和肌肉骨骼疾病、神经系统疾病、心血管疾病和高血压、糖尿病、癌症筛查(乳腺癌、宫颈癌、结肠直肠癌和前列腺癌)、实验室申请和血液检查、诊断成像以及药物或处方管理。主题模型还确定了许多急性健康状况作为重要的潜在主题,如咳嗽、感冒和其他呼吸道感染、尿路感染、皮肤状况和伤口护理。NMF、LDA、STM和BERTopic模型都一致地捕获了(1)年度初级保健流感计划和(2)季节性呼吸道疾病,显示出可预测的季节性变化。关于初级保健使用模式的发现,仅从临床文本数据中提取,在很大程度上得到了基于结构化行政数据的省级报告的证实[33].

我们观察到,用于估计时间主题模型的不同统计方法产生了一致或一致的潜在表示。我们将此解释为,当给定临床文本数据集中的信噪比增加时,统计方法的微妙选择似乎不那么重要,并且这些方法中的任何一种都可以提取出初级保健语料库的有意义的潜在代表。对于较小的语料库,其中词-文档共现统计数据不太确定,这一假设可能不成立。

此外,模型表示中出现了细微的差异,这可能导致分析人员在特定设置中倾向于特定的建模策略。例如,考虑图8每年的流感疫苗接种计划。NMF和LDA等模型是完全无监督的,在制定模型目标函数时不考虑外部协变量信息。对于NMF或LDA模型,我们注意到,随着时间的推移,“大平均”主题流行率约为2%(即1/50主题)。相反,STM有意将协变量信息纳入贝叶斯图模型的先验结构中,我们观察到,对于STM,年度流感主题的低点更接近0%,而秋季或冬季的峰值更为明显。BERTopic模型也没有故意将协变量信息纳入其目标函数;然而,它采用了一种更“局部平均”的原则来估计局部随时间的分布,因此,在年度流感计划的背景下,它展示了与STM相似的季节性谐波模式。中可以观察到类似的模式图9治疗季节性呼吸道疾病。这表明,不同的主题模型在某些科学环境中可能或多或少表现得最优(即,可能取决于研究问题、可用数据以及研究的这些基础方面如何与模型选择相互作用)。首先,如果分析人员或研究人员期望局部流行率随可观察到的协变量而变化,那么采用一种更灵活的模型来充分结合这种预期行为可能是有意义的。如果没有先验的理由相信局部流行率作为协变量(例如,本研究中的时间)的函数而变化,那么模型的选择可能变得不那么相关,因为所有模型可能都表现得很好。

由于与每种时态主题建模方法相关联的统计原理不同,因此每种方法都有自己的优缺点。我们已经详细阐述了与每一类模型相关的方法和计算问题。

首先,NMF是主题建模中最成熟、最简洁的方法。NMF强烈植根于线性代数原理,基本上是基于一个简单的最小二乘目标函数的约束优化。香草NMF是一种被充分研究的统计方法,并且存在许多有效的计算例程来估计NMF模型。NMF是灵活的,可以很容易地扩展。在模型拟合过程中,可能的模型扩展可以看作是离散的可调超参数。Berry等人[12]和Cichocki等[34]讨论了用于估计NMF模型潜在参数的不同算法技术,如梯度下降、乘法更新和交替非负最小二乘。算法的选择可以看作是一个离散的可调超参数。此外,分析人员经常面临是否对潜在参数矩阵进行正则化的选择[35].山脊、套索和弹性网正则化是常见的,尽管可以使用更复杂的正则化来鼓励具有平滑、最小体积和其他特征的潜在表示。此外,许多研究人员试图引入NMF和相关技术的连贯概括[13].例如,Udell等人讨论了灵活地结合不同损失函数、函数形式、数据点加权和正则化的广义低秩模型[13].

LDA和STM都是贝叶斯主题模型。LDA是对现有的基于线性代数(如潜在语义分析)和基于最大似然(如概率潜在语义索引)的主题建模技术的完全贝叶斯扩展[2].LDA已经以各种方式进行了扩展,说明了贝叶斯概率图模型的灵活性。例如,STM是LDA的直接扩展,它允许潜在参数矩阵作为观测协变量的函数而变化[6].对于LDA和STM,已经开发出了高效的计算拟合程序。在将LDA和STM模型拟合到经验数据集时,分析师面临几个决定,包括贝叶斯推理或计算方法(例如,吉布斯抽样vs变分推理)和先验分布规范。

BERTopic代表了最新颖的主题建模方法[11].BERTopic模型是一个流水线:(1)深度神经网络(例如句子转换模型)在向量空间中嵌入文档;(2)对潜在文档向量(UMAP)进行非线性降维;(3)识别文档簇(HDBSCAN);(4)使用特定于聚类的TF-IDF评分方法从文档聚类中提取代表性主题(语义相关词的集合)。BERTopic管道的一个缺点是与计算需求有关。对于大型语料库,需要图形处理单元在合理的时间内学习文档嵌入。在我们的研究中,我们随机抽取我们的数据集(包括3/8个文档,而排除5/8个文档),即使使用图形处理单元。也就是说,BERTopic模型的优势与其模块化有关。我们观察到BERTopic模型产生了有意义的连贯主题,随着神经嵌入方法的不断发展,我们预计最先进的文档嵌入技术可以被投入到这个管道中。

局限性和未来工作

我们试图对如何选择单词或标记的最终词汇表保持透明,并相应地为本研究构建了dtm。不同的计算管道可以用来预处理我们的临床文本语料库。例如,我们可以使用不同的策略来进行标记化、词法化、词干提取、停止词删除以及基于频率的单词或标记删除。不同的文本预处理管道最终会导致不同的DTM结构(具有不同的词汇表)。需要进一步的研究来更好地理解这些文本预处理决策对下游研究推论的影响。

本研究中考虑的每个主题模型都需要规范控制模型拟合方面的超参数。对于大型输入数据集,拟合这些主题模型需要大量的计算。我们主要关注与模型复杂性(K)相关的推断的稳定性和鲁棒性,K是所有模型的共同超参数。我们没有探索跨其他模型特定超参数的推断的稳定性。

在本研究中,我们没有考虑所有可能的估计时间主题模型的方法。存在可用于估计时态主题模型的定制NMF和LDA变体。序贯NMF [36]和动态LDA [37]是两个与估计时态主题模型相关的扩展。张量分解模型,如正则多进分解或Tucker分解,将D*V*T张量分解为有意义的潜在参数矩阵,也可能适用[3438].Churchill和Singh的研究提供了与主题建模相关的其他调查[39],赵等[40], Boyd-Graber等[41].

这些工作使我们考虑了几种扩展不同主题建模框架的可能方法,包括具有文档级协变量的贝叶斯NMF(类似于LDA的STM扩展),具有(非时态)协变量的神经矩阵分解,LDA或STM扩展允许根据灵活的广义线性混合模型或多层模型(由于创建文档的复杂设计或抽样机制而引入的建模依赖关系)和用于改进统计推断(例如,区间估计和假设检验)的计算方法来改变每个文档的主题流行率权重,当与时间主题模型(例如,重采样方法,自举和多输出)进行交互时。

结论

在这项研究中,我们比较了几种从初级保健临床文本数据中估计时间主题模型的统计技术。由于其潜在的统计特性,不同的时态主题模型具有独特的优点和缺点。尽管如此,每个模型都一致地估计了初级保健文件集合的潜在变量表示,这有意义地表征了高使用率的初级保健患者及其与初级保健系统的纵向相互作用。随着电子病历采用的增加和医疗机构积累了越来越多的临床文本数据,时间主题模型可以提供一种机制,利用非结构化临床文本数据来表征和监测初级保健实践和系统。

致谢

本研究由加拿大卫生研究院基金会拨款(FDN 143303)提供资金支持。资助机构在研究设计中没有任何作用;数据的收集、分析或解释;报告的撰写;或决定提交报告发表。奥斯汀博士获得了心脏和中风基金会颁发的职业中期研究者奖。

利益冲突

没有宣布。

  1. 张晓明,张晓明,张晓明,等。国际卫生保健系统的研究概况。英联邦基金2017年5月31日。URL:https://www.commonwealthfund.org/publications/fund-reports/2017/may/international-profiles-health保健系统[2022-09-30]访问
  2. 李建平,李建平,李建平,等。[J]中国机械工程学报,2003;3:993-1022。(CrossRef]
  3. Blei DM.概率主题模型。通信学报,2012;55(4):77-84。(CrossRef]
  4. Griffiths TL, Steyvers M.寻找科学主题。Proc natad Sci U S A 2004 Apr 06;101增刊1(suppl_1):5228-5235 [j]免费全文] [CrossRef] [Medline]
  5. Griffiths T, Steyvers M.概率主题模型。见:Landauer TK, McNamara DS, Dennis S, Kintsch W,编辑。潜在语义分析手册。美国纽约:心理学出版社;2007.
  6. Roberts ME, Stewart BM, Airoldi EM.社会科学实验的文本模型。农业科学学报,2016;33(5):988-1003。(CrossRef]
  7. 李建平,李建平。正矩阵分解:一种非负因子模型,对数据值的误差估计进行了优化利用。环境科学学报(英文版);2004(2):391 - 391。(CrossRef]
  8. Lee DD, Seung HS。通过非负矩阵分解学习物体的部分。自然1999 Oct 21;401(6755):788-791。(CrossRef] [Medline]
  9. 李丹,李胜。非负矩阵分解算法。第13届国际神经信息处理系统会议论文集。2000提交于:NeurIPS '00;2000年1月1日;丹佛,科罗拉多州,美国。
  10. TOP2VEC:主题的分布式表示。arXiv 2020 [免费全文]
  11. 基于类的TF-IDF程序的神经主题建模。arXiv 2022 [免费全文]
  12. Berry MW, Browne M, Langville AN, Pauca VP, Plemmons RJ。近似非负矩阵分解的算法及应用。计算统计数据分析2007;52(1):155-173。(CrossRef]
  13. Udell M, Horn C, Zadeh R, Boyd S.广义低秩模型。FNT Mach学习2016;9(1):1-118。(CrossRef]
  14. 潜在狄利克雷分配生成模型中的Griffiths M. Gibbs抽样。CiteSeerX。URL:https://citeseerx.ist.psu .edu/viewdoc/summary ? doi = 10.1.1.7.8022[2022-09-30]访问
  15. 海因里希G.文本分析的参数估计:技术报告。莱比锡大学,2008。URL:http://www.ar bylon.net/publications/text-est.pdf[2022-11-07]访问
  16. Blei DM, Lafferty JD。科学的相关主题模型。苹果统计2007,vol . 1(1):17-35。(CrossRef]
  17. 陈凯,陈建军,陈建军。基于分布式表征的词和短语组合。第26届神经信息处理系统国际会议论文集-第2卷。2013年出席:NeurIPS’13;2013年12月5日至10日;太浩湖,美国内华达州。
  18. 陈凯,陈建军,陈建军。基于向量空间的词表示的高效估计。arXiv 2013 [免费全文] [CrossRef]
  19. 李建军,李建军。连续空间词表征的语言规律。计算语言学协会北美分会会议论文集:人类语言技术。2013提交于:NAACL '13;2013年6月9日至14日;亚特兰大,佐治亚州,美国。
  20. 彭宁顿J, Socher R, Manning C. GloVe:基于全局向量的词表示。参见:2014年自然语言处理经验方法会议论文集。2014年发表于:EMNLP '14;2014年10月26-28日;多哈,卡塔尔。(CrossRef]
  21. Joulin A, Grave E, Bojanowski P, Mikolov T.高效文本分类的技巧包。arXiv 2016 Aug 6 [免费全文] [CrossRef]
  22. peter M, Neumann M, Iyyer M, Gardner M, Clark C, Lee K,等。深度语境化的词语表征。arXiv 2018 [免费全文] [CrossRef]
  23. Akbik A, Bergmann T, Blythe D, Rasul K, Schweter S, Vollgraf R. FLAIR:一个易于使用的最先进的NLP框架。见:计算语言学协会北美分会2019年会议论文集(示范)。2019年在NAACL '19;2019年6月;明尼阿波利斯,明尼苏达州,美国。
  24. Devlin J, Chang M, Lee K, Toutanova K. BERT:基于深度双向变换的语言理解预训练。arXiv 2018 [免费全文]
  25. 李强,米可洛夫。句子和文档的分布式表示。arXiv 2014免费全文]
  26. 陈丹,杨勇,孔松,华宁,Limtiaco N, St. John R,等。通用句子编码器。arXiv 2018 [免费全文]
  27. 李建军,李建军。基于bert网络的句子嵌入。arXiv 2019 [免费全文] [CrossRef]
  28. 宋凯,谭鑫,秦涛,陆军,刘泰。基于MPNet的语言理解预训练。arXiv 2020 [免费全文]
  29. 李建军,李建军,李建军,等。一种基于非均匀流形逼近的降维算法。arXiv 2018 [免费全文] [CrossRef]
  30. 张建军,张建军。基于密度估计的聚类算法。第17届亚太知识发现与数据挖掘会议论文集。2013,发表于:PAKDD '13;2013年4月14日至17日;黄金海岸,澳大利亚,第160-172页https://link.springer.com/chapter/10.1007/978-3-642-37456-2_14(CrossRef]
  31. 罗德M,两A, Hinneburg A.话题连贯测度的空间探索。参见:第八届ACM网络搜索和数据挖掘国际会议论文集。2015,发表于:WSDM '15;2015年2月2-6日;上海,中国,p. 399-408。(CrossRef]
  32. 罗思纳,韩新柏,罗德M, Nettling M。arXiv 2014。
  33. 李建军,李建军,李建军,李建军,等。安大略省初级保健:ICES地图集。临床评估科学研究所。加拿大多伦多:临床评价科学研究所;2006年11月https://www.ices.on.ca/~/media/Files/Atlases-Reports/2006/Primary-care-in-Ontario/Full-report.ashx[2022-11-07]访问
  34. 刘建军,刘建军,李建军,等。非负矩阵和张量分解:在探索性多路数据分析和盲源分离中的应用。美国新泽西州霍博肯:威利在线图书馆;2009.
  35. Hoyer P.非负矩阵分解。[J] Mach learning Res 2004; 1:1457-1469。(CrossRef]
  36. Mackevicius E, Bahle A, Williams A, Gu S, Denisenko NI, Denisenko MS,等。在高维数据集中无监督地发现时间序列,并应用于神经科学。eLife 2019; 8: e38471。(CrossRef]
  37. Blei D, Lafferty J.动态主题模型。第23届国际机器学习会议论文集。2006,发表于:ICML '13;2006年6月25日至29日;匹兹堡,宾夕法尼亚州,美国
  38. 科尔达TG,巴德BW。张量分解及其应用。生物工程学报,2009,31(3):455-500。(CrossRef]
  39. 邱吉尔,辛格。主题建模的发展。ACM computing Surv(即将出版)2022 Jan 12:2021。(CrossRef]
  40. 赵宏,Phung D, Huynh V, Jin Y, Du L, Buntine W.主题建模与深度神经网络研究进展。arXiv 2021 [免费全文] [CrossRef]
  41. 胡勇,刘建军,刘建军,等。主题模型的应用研究。信息学报,2017;11(2):143-296。(CrossRef]


DTM:文档术语矩阵
EMR:电子病历
HDBSCAN:基于层次密度的含噪声空间聚类算法
LDA:潜在狄利克雷分配
NMF:非负矩阵分解
NPMI:归一化的点互信息
STM:结构主题模型
TF-IDF:Term-frequency逆文档频率
UMAP:均匀流形逼近与投影


C·洛维斯编辑;提交06.06.22;由I Mircheva, A King同行评审;对作者的评论31.07.22;修订版本收到01.09.22;接受18.09.22;发表19.12.22

版权

©Christopher Meaney, Michael Escobar, Therese A Stukel, Peter C Austin, Liisa Jaakkimainen。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 19.12.2022。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map