发表在10卷, 4号(2022): 4月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/34274,首次出版
利用健康保险索赔数据探索患者的多病性和复杂性:一种聚类分析方法

利用健康保险索赔数据探索患者的多病性和复杂性:一种聚类分析方法

利用健康保险索赔数据探索患者的多病性和复杂性:一种聚类分析方法

原始论文

1初级保健和公共卫生中心,洛桑大学,洛桑,瑞士

2瑞士马提尼Mutuel集团

3.瑞士洛桑大学商业与经济学院精算学系和瑞士金融研究所,瑞士洛桑

这些作者的贡献相同

通讯作者:

安娜·尼科莱博士

初级保健和公共卫生中心(unisant)

洛桑大学

滨海大道

1010年洛桑

瑞士

电话:41 21 314 23 4

电子邮件:anna.nicolet@unisante.ch


背景:虽然渐进性发病的趋势已被广泛认识,但在研究多发病和患者复杂性时仍存在许多挑战。对于多病或复杂的患者,易于分散护理和高卫生保健使用率,需要开发新的估计方法。

摘要目的:本研究旨在利用聚类方法对索赔数据中年龄≥50岁的瑞士居民的多病性和复杂性进行调查。

方法:我们采用了基于随机森林的聚类方法,并使用34个基于药房的成本组作为该程序的唯一输入特征。为了检测聚类,我们对带有噪声的应用程序应用基于层次密度的空间聚类。根据算法中嵌入的各种指标(袋外误分类误差、归一化压力和聚类持久性)和获得的聚类的临床相关性来选择合理的超参数。

结果:基于18732个个体的聚类分析输出,我们确定了一个异常组和7个聚类:无疾病个体、仅患有高血压相关疾病的患者、仅患有精神疾病的患者、复杂的高成本高需求患者、轻度复杂的低成本低严重药物成本组患者、1种高成本疾病患者和老年高危患者。

结论:我们的研究表明,基于基于索赔数据的基于药物的成本组信息的聚类分析是可行的,并突出了临床相关的聚类。这种方法可以扩大对多病的了解,而不仅仅是简单的疾病计数,并可以确定卫生保健使用和费用增加的人口概况。本研究可促进整合与协调照护的发展,这在政策制定、照护计划与执行中都是重要议题。

中国生物医学工程学报;2010;31 (4):344 - 344

doi: 10.2196/34274

关键字



世界各地的卫生保健系统正面临着越来越多的慢性病和多病患者的巨大挑战,这些患者的特点是需求复杂,在不同的护理环境之间频繁转换[1]。在瑞士,220万人报告患有慢性疾病,50岁以上的人口中有近20%患有多种慢性疾病(多病)[2]。尽管进展性多病的趋势已被广泛认可[3.-6],目前仍不清楚如何最好地照顾患有多种疾病的患者,以及哪种干预措施是有效的。二十多年来,世界范围内发展了综合和协调的护理[7]。然而,综合和协调的护理面临着持续的挑战,如扩大规模、实施和可持续性困难。此外,综合和协调的护理需要开发新的方法来评估和测量患者的多病性和复杂性。这是对目标人群进行分层并使干预措施适应患者需求的关键。通常,这种评估和测量依赖于发病率指数(如Charlson和Elixhauser)或(自我报告的)慢性疾病或合并症的数量[8]。虽然前者是在住院环境中作为死亡率的预测指标而开发的,但后者可能无法全面反映患者的疾病负担和复杂性。尽管存在这些限制,但由于它们的相对可访问性和简单性,它们仍然经常被使用。在没有电子医疗(健康)记录、国家疾病登记或慢性病数据的情况下,行政健康保险索赔数据可能是一个有用的信息来源。事实上,它们越来越多地用于卫生服务研究,特别是使用基于药物的成本组(pcg)来表达多发病[910]。PCGs是根据处方药物的使用情况而不是临床资料制定的,作为发病率衡量指标[11]。尽管该方法存在与低估药物使用、无人认领或自费支付相关的局限性,因此没有出现在数据中,也没有假设药物专门用于治疗特定疾病[1112],它允许绘制患者概况来反映他们的发病率状况。由于这种绘图方法和合并症计数被认为过于简单化[13],研究人员可能会考虑其他方法来更详尽地调查患者的复杂性。其中一种方法是聚类分析,它依赖于这样一种观点,即许多常见的情况以可预测的模式聚集在一起[13]。研究表明,对药物使用研究的真实世界数据进行聚类分析可用于检测临床可信的亚群[14]。文献中也应用了基于多发病模式的类似分类方法[14-16],但使用PCGs作为多病指标进行聚类分析是新颖的。在这种背景下,我们研究的目的是调查患者的多病性和复杂性,而不仅仅是简单的pcg制图和计数,使用聚类方法对年龄≥50岁的瑞士居民的索赔数据进行分析。


数据来源及样本

我们纳入了2015-2018年期间在瑞士最大的健康保险公司之一Groupe Mutuel连续登记的240,511名年龄≥50岁的参保人员的数据。除人口统计信息(年龄和性别)外,数据还包括每个人的pcg、患者承担的费用(费用分担)、健康保险模式类型(有或没有门卫)和报销的医疗保健服务:与相关费用相关的各种医生的就诊次数、医生的专业化程度和住院情况。为了根据药物消费确定患有费用密集的慢性病和相应的高保健使用率的投保人,健康保险公司正在根据解剖治疗化学和规定的日剂量,将反映有效成分和数量的药物使用数据转换为PCGs。这一程序由瑞士联邦公共卫生局制定并正式接受[17]。在我们的研究中,根据患者每年的药物使用情况,当他们被分配两次或两次以上的pcg时,他们被归类为多病患者。

道德的考虑

数据已由保险公司去识别以保证匿名,并且本研究的伦理批准已由国家人类研究伦理委员会(瑞士洛桑)放弃。

聚类分析

我们采用了基于随机森林(RFs)的聚类方法[18-一种流行的基于分类和回归树的方法-包括几个步骤和机器学习算法[19-21]。该方法受到Breiman和Cutler设计的聚类方法的启发[19], RFs的创造者[20.21]。

在预处理步骤中,我们提取了34个pcg作为聚类过程的唯一输入特征。我们将34个PCGs分为15个疾病类别,从临床角度来看具有重要意义(多媒体附录1)。然后,我们只考虑第一年的信息,并提取10%的随机样本,以便对计算代价高昂的步骤进行有效处理。为了确认结果,我们进行了多次随机抽样,得到了相似的聚类。最后,我们丢弃了没有PCG或只有一种PCG的点。由于我们最终使用一种基于点之间距离给出的密度来检测聚类的算法,因此在相同位置存在许多相同的点可能会干扰算法,并且不必要地使计算更加昂贵。保持这些点的小随机样本将减少扰动,但不会改变结果,同时增加了不必要的复杂性,特别是对于检测这些额外簇所需的超参数选择。

为了启动聚类过程,我们通过从数据中每个输入变量的分布中随机抽样,创建了一个与原始数据大小相同的合成数据集。然后训练一个射频模型来对合成点和原始点进行分类,目的是利用图像的特征接近度量,点之间相似度的嵌入式射频度量。RF通过考虑它们预测的大多数类别来聚合多个决策树(dt)的预测。dt是一种分类模型,它通过对输入变量施加阈值并将每个子空间中的类预测为多数类,将数据点分离到子空间(叶)中。然后计算两点之间的接近度,作为它们在森林中穿过树木落在同一片叶子上的次数。为了稳定RF的随机效应,我们训练了10个RF模型,计算每个模型中所有点对的接近度,并对它们进行平均,以获得表征数据的平均接近矩阵。然后我们使用多维缩放(MDS) [22]在2D中投影相应的距离矩阵(1 -接近矩阵/(树的数量)),同时保留距离,并允许结果集群的可视化。最后,我们应用了基于层次密度的含噪声应用空间聚类(HDBSCAN) [23],在丢弃数据中的合成点后,在获得的二维数据中检测聚类。HDBSCAN将聚类提取为由少量点的稀疏区域分隔的点的密集集合。考虑到聚类方法不可能进行交叉验证,基于算法中嵌入的各种指标和获得的聚类的临床相关性,为RF、MDS和HDBSCAN步骤选择了合理的超参数。度量标准包括out-of-bagOOB)误分类误差,这表明射频区分原始数据和合成数据的能力。结果反映了数据中有多少结构[19]。另一个指标是归一化压力,测量投影后点与点之间的距离是否合理保留[22],而集群的持久性, HDBSCAN嵌入指标,表明集群的定义和相互分离的程度[23]。在实践中,我们使用HDBSCAN和Scikit-learn库(在Python中)进行最后的集群和前面的所有步骤。


在剔除信息缺失的个体后,我们的数据集包括18,732个个体()。对数据集的初步检查显示,我们在聚类程序之前提取了三个大的“单一”聚类,没有pcg,只有高血压pcg,只有精神疾病pcg,分别占人口的67.9% (n=12,720), 9.7% (n=1813)和4.1% (n=765)。对其余3434名不属于后一种“单一”分类的患者进行聚类分析,确定了四个不同的分类:分类0到分类3,按应用HDBSCAN时发现的顺序编号(图1)。从这棵树可以清楚地看到群集(图2);持久性较好,分别为0.29、0.24、0.15和0.24。10个RF的平均OOB误分类误差为0.51,相当高,说明RF不能很好地区分原始数据和合成数据,数据中没有太多的结构。对于执行的MDS,归一化应力为0.31,说明合理保留了点间距离。

检测到的4组含不同混合的多氯联苯(表1图3):群0包括大量pcg(精神+高血压+疼痛+哮喘[慢性阻塞性肺疾病]),经常联合出现;第一类包括PCGs(甲状腺、高血压、青光眼和其他混合),联合出现的频率较低;第2类包括哮喘、帕金森、心脏病和疼痛,这些疾病很少同时出现;第三类包括大量PCGs,几乎从未同时出现(单一疾病)。

以下对聚类的描述和解释是基于卫生保健使用和费用数据的描述性统计(表1),这有助于了解将个人分组为PCG组的基本原理。首先,聚类0的成员(n=817, 4.4%)有最高的pcg数量和最高的成本和医疗保健使用,被称为“复杂的高成本高需求患者”(详细描述见表1)。这些环境的复杂程度反映在以下特征的组合上,这些特征由描述性统计解释(表1):人口亚组中pcg的平均数量、多种疾病患者的百分比、医疗保健的使用水平(例如,医生咨询和住院次数)以及费用。聚类1的成员(n=709, 3.8%)虽然有多个pcg,但其医疗费用和使用率低于聚类0;因此,它们被称为“稍微复杂的廉价低严重性PCGs”。聚类2的成员(n=531, 2.8%)年龄最大,住院和看全科医生的频率特别高,因此被称为“高风险的老年人”。从描述性统计数据来看,在这些环境中,高风险反映在相对较高的医院护理使用率上,但低于最复杂的群集:住院时间长(“有风险的老年人”和“复杂的高成本高需求”群集分别为5.6和6.6晚)和住院费用高(分别为2749瑞士法郎[2950美元]和3109瑞士法郎[3333美元])。聚类3的成员(n=1056, 5.6%)的特点是pcg数量相对较少(接近1),药物费用最高,因此被称为“1种昂贵疾病的患者”。

图1所示。数据在二维上的MDS投影。HDBSCAN发现的四个集群用不同的颜色进行标记,并用标签0、1、2和3进行编码。代码-1表示异常值。HDBSCAN:含噪声应用的分层密度空间聚类MDS:多维缩放。
查看此图
图2。由基于层次密度的压缩树空间聚类产生的应用与噪声算法在数据上执行。注意:类似于分层聚类设置中的经典树状图,第一个黄色矩形代表整个数据,当我们减少每个分支内点之间允许的最大距离(λ值= 1 /距离)时,它被分成两个部分(称为“分支”)。每个矩形表示拆分后数据的一个子部分,其大小与子部分中的数据点数量成正比。当我们减少允许的距离时,整个数据分成簇0和绿色矩形,进一步分成簇1和绿松石矩形。检测到的4个聚类(用圆圈和它们的数字表示)是当点之间的最大距离减小而保持最小大小时,持续时间最长的分支(根据算法的各种规则,不会进一步分裂)。持久性与垂直轴上矩形的长度成正比。这棵树可以被解释为一个倒过来的概率分布函数,每个簇都是分布中的一个峰值。
查看此图
表1。群集的描述性统计。
统计数据 所有的数据 离群值 集群0“复杂、高成本、高需求” 集群1“稍微复杂,含有廉价的低强度PCGs一个 第2组“高危老人” 第三组“患有一种昂贵疾病的患者” 没有你们 “只有高血压” 精神健康"只有精神疾病"
患者,n (%) 18732年
(100.0)
321
(1.7)
817
(4.4)
709
(3.8)
531
(2.8)
1056
(5.6)
12720年
(67.9)
1813
(9.7)
765
(4.1)
年龄(岁),平均(SD) 65.0
(10.6)
66.3
(10.8)
66.3
(10.6)
67.8
(10.2)
69.4
(10.9)
68.1
(11.2)
64.0
(10.4)
67.6
(9.7)
63.2
(10.9)
性别,n (%)

男人 8626
(46)
130
(40)
325
(40)
205
(29)
279
(53)
536
(51)
5772
(45)
1158
(64)
221
(29)

女性 10106年
(54)
191
(60)
492
(60)
504
(71)
252
(47)
520
(49)
6948
(55)
655
(36)
544
(71)
扣除(瑞士法郎;美元),意思是 794
(852)
511
(548)
448
(481)
535
(574)
524
(562)
562
(603)
908
(974)
612
(657)
558
(599)
模型与
看门人b
0.5 0.4 0.4 0.4 0.4 0.4 0.5 0.5 0.5
PCGs数,平均值 0.4 1.2 2.1 1.7 1.3 1.1 0.0 1.0 1.0
Multimorbid(是的)b 0.1 0.1 0.8 0.6 0.3 0.1 0.0 0.0 0.0
流动费用(瑞士法郎;美元),意思是 5395
(5789)
7967
(8549)
11731年
(12589)
7477
(8024)
9728
(10439)
10362年
(11120)
4074
(4372)
5462
(5861)
7571
(8125)
住院费用(瑞士法郎;美元),意思是 1419
(1523)
2134
(2290)
3109
(3336)
1811
(1943)
2749
(2950)
1575
(1690)
1199
(1287)
1372
(1472)
1585
(1701)
药物费用(CHF;美元),意思是 1563
(1677)
2683
(2879)
4073
(4371)
2221
(2383)
3587
(3849)
4450
(4775)
965
(1036)
1732
(1859)
1961
(2104)
总成本(瑞士法郎;美元),意思是 8929
(9582)
13684年
(14684)
19950年
(21409)
12440年
(13349)
17057年
(18304)
17312年
(18578)
6611
(7094)
9439
(10129)
12025年
(12904)
住院天数的平均值 2.6 4.3 6.6 3.6 5.6 3.4 2.0 2.4 3.5
平均每年住院次数 0.2 0.4 0.5 0.3 0.4 0.3 0.2 0.3 0.3
总咨询次数,平均值 11.9 16.0 20.2 17.0 17.5 16.1 9.9 12.7 18.5
与通才的会诊次数,平均值 7.2 10.0 11.6 9.8 11.3 9.4 6.0 8.3 9.5
集群中的PCG组 全部34个pcg 主要是疼痛 精神+高血压+疼痛+哮喘(COPD)c 甲状腺+高血压+青光眼+其他混合 哮喘+帕金森+心脏病+疼痛 癌症+糖尿病+炎症+免疫+其他精神+青光眼+ HIV N/Ad 高血压 精神疾病
基于总体描述性统计的集群描述 N/A 平均年龄,男性患者略少,医院费用和住院时间较高 平均年龄,男性患者略少,免赔额最低,pcg和多病最高,医疗使用和费用最高(药费除外) 年龄稍大,女性患者较多,免赔额相对较低,pcg数量高(1.7)和多病(但低于第0组),医疗保健使用率和费用相对较低 最老,相对较低的免赔额,一些复杂性(平均超过1个pcg),非常高的医生访问使用率(特别是全科医生),许多住院治疗和高住院费用 年龄相对较大,平均1 PCG,药物费用最高,门诊费用高,住院和看医生的次数相对较低 年轻人,最高的免赔额,较低的医疗保健使用率和成本 年龄稍大,男性患者较多,医疗保健使用和费用相对较低 最年轻,女性患者较多,相对较低的免赔额,较低的医疗保健使用和费用(但高于高血压组),大量的医生访问

一个PCG:基于药房的成本组。

b比率四舍五入到小数点后一位。

cCOPD:慢性阻塞性肺疾病。

d-不适用。

图3。4个聚类(0-3组)和异常值(1组)内pcg的联合分布。PCG:基于药房的成本组。
查看此图

我们的研究表明,采用聚类分析来探讨患者的多病性和复杂性是可行的。结果表明,患有单一PCG的精神疾病或高血压患者、患有多种PCG的个体或患有单一高成本PCG的个体具有不同的医疗保健使用模式和不同的复杂性群体。

早期的研究主要关注从电子健康记录中确定的慢性病,证明慢性病之间存在系统关联,即慢性病(通常来自不同的疾病类别)在多病模式或集群中共同出现[24-26]。但重要的是,这些研究表明,就疾病和相关药物使用而言,多病模式的复杂性随着年龄的增长而增加,这对男女都适用。此外,与我们的发现一致,多个早期研究使用聚类分析来识别人群中临床同质的多病模式,其中聚类由诊断相关组组成[1627-30.]。然而,这些研究使用了多病和合并症或临床诊断数据的测量,而不是来自索赔数据的pcg。由于方法和诊断细节水平的差异,这使得结果的直接比较具有挑战性。最近的一项系统综述证实,用于识别多病患者概况的分析方法是异质的(包括因素分析、多重对应分析、分层聚类和三步统一聚类方法),这可能解释了各种研究中报道的多病模式的差异[31]。尽管存在这些差异,但研究中观察到的最普遍的群集或群体是相似的,包括高血压或代谢性疾病[2829]以及精神和行为疾病[16]。对多病模式的系统回顾证实了代谢和精神群集的更大患病率和相似性,其中14篇综述文章中分别有9篇和10篇确定了这些群集[32]。一项研究比较了两个欧洲国家(西班牙和荷兰)人群的多病模式,发现确实,在心脏代谢群中观察到的相似性最高,尽管各国的人群可能存在差异[26]。

利用聚类分析识别基于医疗保健使用和支出的同质细分的现有文献有限[33-37]。具体来说,Nnoaham和Cann [33]根据医疗保健使用(通过就诊、用药和入院)和复杂性(通过长期状况)确定了与我们相似的细分(或集群)。其他研究使用聚类分析来确定高支出群体,并推断,尽管存在很大的异质性,但高支出群体通常表现出一般或较差的健康状况,有更多的医疗条件或合并症[3435]。这些发现证实了我们的结论;然而,由于方法、人口年龄和背景、个人特征和诊断的细节水平的差异,这些数据需要谨慎解释。有证据表明,聚类分析可以为决策者提供比可能的统计显著变量列表或最高用户个人列表更多的信息[35]。

据我们所知,这是第一个使用聚类分析来探索患者的多病性和复杂性的研究,这反映在PCGs和医疗保健使用模式的混合中。此外,它还受益于医疗保健使用数据的丰富性、大样本量和先进的聚类方法。然而,本研究也有一定的局限性。第一个限制来自多参数配置过程,这增加了复杂性,同时不允许结果验证。因此,聚类解释必须依赖于算法、描述性统计和临床相关性的度量。其次,由于数据缺乏临床信息,我们仅依赖于PCGs作图,这可能对药物数据的描述不完整[91112]。

我们的研究表明,基于pcg的医疗保健使用索赔数据的聚类分析可以从简单的合并症计数方法中转移出来,并且可以识别出医疗保健使用和成本增加的人口概况。这些结果可能为政策制定、护理计划和护理提供有见地的信息,以促进从侧重于单一疾病的程序和指南向发展综合和更好协调的护理的转变。

致谢

这项工作得到了瑞士国家科学基金会“智慧医疗保健-国家研究计划”(NRP 74)的支持,并获得了407440_183447号拨款。

利益冲突

没有宣布。

多媒体附录1

用于确定保险索赔数据中慢性病的基于药物的费用组清单。

DOCX文件,15 KB

  1. Prince MJ,吴峰,郭勇,Gutierrez Robledo LM, O'Donnell M, Sullivan R,等。老年人疾病负担及其对卫生政策和做法的影响。Lancet 2015 Feb 07;385(9967):549-562。[CrossRef] [Medline]
  2. 刘建平,刘建平,刘建平,等。瑞士儿童健康状况调查:儿童健康状况调查:2015。OBSAN。伯尔尼:Hogrefe Verlag;2015.URL:https://www.obsan.admin.ch/sites/default/files/2021-08/rapportsante_2015_f_0.pdf[2022-03-16]访问
  3. Smith SM, Wallace E, O'Dowd T, Fortin M.改善初级保健和社区环境中多病患者预后的干预措施。Cochrane数据库系统Rev 2021 1月15日;1:CD006560 [j]免费全文] [CrossRef] [Medline]
  4. Smith SM, Wallace E, O'Dowd T, Fortin M.改善初级保健和社区环境中多病患者预后的干预措施。Cochrane Database system Rev 2016 3月14日;3:CD006560 [j]免费全文] [CrossRef] [Medline]
  5. Souza DLB, Oliveras-Fabregas A, Minobes-Molina E, de Camargo Cancela M, galbany - estraguacims P, Jerez-Roig J.欧洲15个国家50岁及以上社区居民多病趋势的人群研究。BMC Public Health 2021 Jan 07;21(1):76 [j]免费全文] [CrossRef] [Medline]
  6. Pefoyo AJK, Bronskill SE, Gruneir A, Calzavara A, Thavorn K, Petrosyan Y,等。多重疾病日益增加的负担和复杂性。中华医学会公共卫生2015年4月23日;15:415 [免费全文] [CrossRef] [Medline]
  7. Amelung V, Stein V, Suter E, Goodwin N, Nolte E, Balicer R,编辑。手册综合护理。可汗:施普林格;2017.
  8. 张晓明,张晓明,张晓明,等。行政数据共病指标的系统评价。中华医学杂志,2012,30(12):1109-1118。[CrossRef] [Medline]
  9. Huber CA, Szucs TD, Rapold R, Reich O.使用瑞士药房数据识别慢性疾病患者:一种更新的药物分类制图方法。中华卫生杂志2013年10月30日;13:1030 [j]免费全文] [CrossRef] [Medline]
  10. Huber CA, Schneeweiss S, Signorell A, Reich O.使用更新的慢性病评分和索赔数据改进医疗支出和医疗保健利用的预测。临床流行病学杂志,2013;66(10):1118-1127。[CrossRef] [Medline]
  11. Lamers LM, van Vliet RCJA。以药房为基础的成本组模型:验证和调整荷兰情况的慢性疾病药物分类。卫生政策2004年4月;68(1):113-121。[CrossRef] [Medline]
  12. Chini F, Pezzotti P, Orzella L, Borgia P, Guasticchi G.能否使用药学数据来估计慢性病的患病率?多个数据源的比较。中华医学会公共卫生杂志2011年9月05日;11:68 [免费全文] [CrossRef] [Medline]
  13. 何惠生,刘建平,刘建平,刘建平,等。识别美国老年人多重发病模式:潜在分类分析的应用。中华老年医学杂志,2016;64(8):1668-1673 [J]免费全文] [CrossRef] [Medline]
  14. 李建军,李建军。基于机器学习的药物利用研究的聚类分析。流行病学杂志2019年7月27日;6(3):364-372。[CrossRef]
  15. 张建军,张建军,张建军,张建军,等。一种基于诊断共现的健康数据聚类方法。应用科学2021年3月07日;11(5):2373。[CrossRef]
  16. Violán C, Roso-Llorach A, Foguet-Boreu Q, Guisado-Clavero M, pons - vigusams M, pujoll - ribera E,等。多发病模式与k均值非分层聚类分析。BMC Fam practice 2018七月03;19(1):108 [j]免费全文] [CrossRef] [Medline]
  17. Polynomics AG)。pcg - list (pcg - list, pcg - list, pcg - list);研究方向:德国联邦政府研究与工程学报。2019。URL:https://www.bag.admin.ch/dam/bag/en/dokumente/kuv-aufsicht/pus/risikoausgleich/corrigendun.pdf.download.pdf/Polynomics_Uni_Basel_Aktualisierung_PCG_Schlussbericht_2019-01-22.pdf[2020-03-09]访问
  18. 布雷曼L.随机森林。机器学习;2001;45(1):5-32。[CrossRef]
  19. A.随机森林手册v4.0。加州大学伯克利分校,2003。URL:https://www.stat.berkeley.edu/~breiman/Using_random_forests_v4.0.pdf[2020-10-30]访问
  20. 史涛,李建军,刘建军,等。随机森林聚类在肾细胞癌诊断中的应用。现代病理杂志,2005,18(4):547-557。[CrossRef] [Medline]
  21. 李建军,刘建军,李建军,等。高浓度的长间隔核元件序列区分单等位基因表达。中国科学d辑,2003,8 (1):1 - 4 [j]。免费全文] [CrossRef] [Medline]
  22. Kruskal JB, Wish M.多维尺度。正确:多维缩放。《社会科学中的定量应用》编1。加州千橡市:SAGE出版社;1978.
  23. 李建军,李建军。一种基于聚类的聚类方法。开源软件学报,2017;2(11):205。[CrossRef]
  24. Ioakeim-Skoufa I, Poblador-Plou B, Carmona-Pírez J, Díez-Manglano J, Navickas R, gimino - feliu LA,等。普通人群的多发病模式:EpiChron队列研究的结果。国际环境与卫生杂志,2020年6月14日;17(12):4242 [J]免费全文] [CrossRef] [Medline]
  25. Mucherino S, Gimeno-Miguel A, Carmona-Pirez J, Gonzalez-Rubio F, Ioakeim-Skoufa I, moreno - justa,等。4年期间年轻人和成年人多重发病和多种用药模式的变化:2011-2015年使用真实数据的比较国际环境与公共卫生杂志2021年4月21日;18(9):4422 [J]免费全文] [CrossRef] [Medline]
  26. 王晓明,王晓明,王晓明,等。多病型糖尿病患者的临床特征及影响因素分析。科学通报,2014;9(6):e100375 [j]免费全文] [CrossRef] [Medline]
  27. dsamuaz - luyet A, N'Goran AA, Senn N, Bodenmann P, Pasquier J, Widmer D,等。瑞士初级保健人群中慢性病的多病和模式:一项横断面研究。BMJ Open 2017; 07 (6):e013664 [j]免费全文] [CrossRef] [Medline]
  28. 马伦戈尼A, Rizzuto D,王海,Winblad B, Fratiglioni L.老年人慢性多病的发病模式。中华老年医学杂志,2009;57(2):225-230。[CrossRef] [Medline]
  29. Guisado-Clavero M, Roso-Llorach A, López-Jimenez T, pons - vigusamas M, Foguet-Boreu Q, Muñoz MA等。老年人多发病模式:一项前瞻性聚类分析队列研究。中国老年医学杂志2018年1月16日;18(1):16 [j]免费全文] [CrossRef] [Medline]
  30. Egan BM, Sutherland SE, Tilkemeier PL, Davis RA, Rutledge V, Sinopoli A.基于集群的综合医疗保险受益人临床管理方法与多种慢性疾病。PLoS One 2019;14(6):e0217696 [j]免费全文] [CrossRef] [Medline]
  31. 吴志强,李建军,李建军,等。多病性健康状况的研究进展。国际流行病学杂志,2018;47(5):1687-1704。[CrossRef] [Medline]
  32. 王志刚,Calderón-Larrañaga A,韩志刚,王志刚,王志刚,等。多发病模式的研究进展。中华临床流行病学杂志,2014;67(3):254-266。[CrossRef] [Medline]
  33. 诺亚姆·克,凯恩·KF。关联医疗数据的聚类分析能否在全科医生注册的人群中识别出独特的人群细分?中华医学会公共卫生杂志,2010;20(1):798 [j]免费全文] [CrossRef] [Medline]
  34. Powers BW, Yan J, Zhu J, Linn KA, Jain SH, Kowalski JL,等。高成本医疗保险优势患者亚组:一项观察性研究。中华临床医学杂志,2019;34(2):218-225 [J]免费全文] [CrossRef] [Medline]
  35. 张建军,张建军,张建军,等。基于聚类分析的我国医疗卫生消费群体研究。卫生服务结果研究方法2020年8月1日;20(2-3):140-182。[CrossRef]
  36. Copeland LA, Zeber JE, Wang C, Parchman ML, Lawrence VA, Valenstein M,等。精神分裂症或糖尿病患者的初级保健模式和死亡率:医疗保健利用回顾性研究的聚类分析方法BMC卫生服务2009年7月26日;9:127 [免费全文] [CrossRef] [Medline]
  37. 王晓明,王晓明,王晓明,等。人口健康的定量证据基础:应用基于利用率的聚类分析对患者群体进行划分。2016年11月25日;14:44 [免费全文] [CrossRef] [Medline]


DT:决策树
HDBSCAN:基于层次密度的含噪声空间聚类应用
MDS:多维标度
OOB:out-of-bag
PCG:基于药品的成本组
射频:随机森林


C·洛维斯编辑;提交14.10.21;由W Zhang, I Ioakeim-Skoufa同行评审;对作者的评论20.12.21;收到04.02.22修订版本;接受06.02.22;发表04.04.22

版权

©Anna Nicolet, Dan Assouline, Marie-Annick Le Pogam, clacimence Perraudin, Christophe Bagnoud, Joël Wagner, Joachim Marti, Isabelle Peytremann-Bridevaux。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 04.04.2022。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map