发表在24卷,没有7(2022):7月

本文的预印本(早期版本)是可用的https://preprints.www.mybigtv.com/preprint/29056,第一次出版
使用多重对应分析和k - means探索风险因素之间的关联和结肠直肠癌的可能性:横断面研究

使用多重对应分析和k - means探索风险因素之间的关联和结肠直肠癌的可能性:横断面研究

使用多重对应分析和k - means探索风险因素之间的关联和结肠直肠癌的可能性:横断面研究

原始论文

1大学计算机科学系Lleida, Lleida,西班牙

2部门的计算机系统,圣玛丽亚大学医院,Lleida,西班牙

3医院癌症登记处,Arnau de Vilanova大学医院,Lleida,西班牙

4加泰罗尼亚的健康服务,卫生部、Lleida西班牙

5生物医学研究所研究Lleida Lleida,西班牙

6基于Centro de Investigacion红,马德里,西班牙

7圣玛丽亚大学医院,人口癌症登记处,Lleida、西班牙

通讯作者:

Didac Florensa,英里/小时

计算机科学部门

Lleida大学

二梅•69

Lleida 25001

西班牙

电话:34 973 70 00

电子邮件:didac.florensa@gencat.cat


背景:先前的工作表明,风险因素增加结直肠癌的可能性。

摘要目的:本研究的目的是检测这些协会在该地区的Lleida(加泰罗尼亚)通过使用多个对应分析(MCA)和k - means。

方法:这个横断面研究是1083年由结肠直肠癌事件在2012年和2015年之间,从以人群为基础的癌症登记中提取的省Lleida(西班牙),初级保健中心数据库,加泰罗尼亚卫生服务注册。数据集包括危险因素如吸烟、体重指数以及社会人口信息和肿瘤的细节。风险因素和患者之间的关系被确认使用MCA和k - means特征。

结果:这些技术的结合有助于检测的患者相似的危险因素。死亡的风险与被老年人和肥胖或超重。III期癌症与≥65岁人群和农村/ semiurban人口,而年轻人与阶段0。

结论:MCA和k - means明显有用的检测风险因素和患者之间的关联特性。这些技术已被证明是有效的工具来分析一些因素在结直肠癌的发病率。结果获得帮助证实怀疑趋势和刺激的使用这些技术协会寻找危险因素与其他癌症的发病率。

J地中海互联网Res 2022; 24 (7): e29056

doi: 10.2196/29056

关键字



结直肠癌是全世界第三个最常见的癌症类型(1,2]。在欧洲,每年约有250000新诊断结直肠癌病例,占所有恶性肿瘤的9%左右。这个癌症的比率增加,工业化和城市化。一般而言,证据显示发病率增加的国家大型肠癌的整体风险较低,而在高发的国家,利率稳定或下降,尤其是年轻人群(3]。

Lleida省(西班牙),以人群为基础的癌症登记允许所有事件的识别和计数情况下(新病例)诊断中居民的地理区域(4]。Lleida地区的居民目前生活方式,风险因素,和工作活动,可用于确定特定的某些类型的癌症发病率。将近一半的人口Lleida省住在农村和semiurban地区。结果,他们的生活方式不同于其他更多的城市人口的加泰罗尼亚省(5,6]。因此,他们可以存在不同的风险因素和社会经济地位(SES)。

一些研究表明大肠癌的发病率更高那些低SES和BMI和吸烟等危险因素。汇集欧洲队列研究(7)表明,成年体重增加与几个主要的癌症的风险增加相关。他们还得出结论,程度、时机和持续时间的超重和肥胖似乎也很重要。更专门为结肠癌,郭et al (8提出了一个在中国北方的前瞻性群组研究。他们得出结论说,肥胖男性结肠癌的风险增加。关于吸烟,Mizoue et al (9)提交了一份报告评估协会在日本人口基于系统的流行病学证据审查。这份报告得出的结论是,吸烟会增加患结直肠癌的风险在日本人口。然而,仍有流行病学证据不足以证明任何明确与结肠癌。金等(10SES之间可能存在的相关性进行了研究,女性患结直肠癌的风险。他们的研究结果表明,女性高SES可能预防大肠癌。在这些研究中使用的方法是类似的,即多元回归分析。

最近的研究应用的技术用于这项研究,但这些研究对癌症和风险因素。Ugurlu和克11)使用多重对应分析(MCA)方法来寻找关系在船舶碰撞11]。然而,k - means算法被广泛应用在一些癌症方面。Rustam et al (12]应用这种技术来获取每个集群的质心和预测的每一个数据点的类验证集。最近,Ronen et al (13)使用k - means作为最初的一步深度学习方法评估大肠癌亚型。k - means允许相关临床的检测模式,改善了预测模型。因此,使用MCA和k - means寻找危险因素和癌症发病率之间的关系是一种新颖的方法。

几项研究[7- - - - - -10)发现新的风险因素之间的关联,人口统计信息,SES大肠癌患者。这些研究已经努力来分析和比较危险因素如肥胖、吸烟、SES大肠癌患者。他们用统计方法,包括Cox回归,斯皮尔曼等级相关系数,多级逻辑回归来估计变量之间的关系。然而,他们中没有人统计方法的结合使用MCA和人工智能算法如k - means寻找一群分类变量之间的关联。

作为本研究的主要贡献,我们建议使用MCA的统计方法来检测风险因素和患者之间的关系特点和k - means作为一种无监督学习算法搜索的资料对结直肠癌患者相似的危险因素。


预处理

的主要信息来源是基于人群的癌症登记处的卫生区域省份Lleida, eCAP(计算机化病历程序所使用的医生,儿科医生,和护士在初级保健中心当他们看到他们的病人14])软件,和被保险人的中心登记(一个寄存器,允许的唯一标识由加泰罗尼亚卫生服务通过个人识别代码,数据的管理和咨询,以及他们的更新(15])。在应用统计方法之前,信息验证由经验丰富的专业人员(医生、护士、和documentalists) Lleida人群为基础的癌症登记的审查每个病人的病史。之后,国际癌症研究机构的工具应用于检测可能或不可能的代码或代码的组合(16]。然后,准确的描述数据和MCA的基本概念和k - means用于这项工作在这一节中解释。看到整个过程的系统流程图图1;它显示了不同的寄存器用于提取数据,其过程和转换,和应用分析。患者空字段被移除。

图1所示。系统流程图。被保险人的瘸子:中央注册;PCR:以人群为基础的癌症登记处。
把这个图

研究人群

结直肠癌的数据提取的新病例注册2012年和2015年之间Lleida以人群为基础的癌症登记处(5,17,18)的癌症患者的主要医院卫生保健地区Lleida省。具体地说,1083年的数据集包括新结直肠癌病例。这些医院Arnau de Vilanova大学医院和圣玛丽亚大学医院,和主要的信息来源是医院记录(国际疾病分类,第九次修订代码- 140.0到208.9)从病理解剖学和报告。此外,这些报告> 92%的病例包括在样品确认。BMI和吸烟等危险因素从eCAP提取软件和SES从被保险人的中心登记。这项研究是符合一般的数据保护监管(欧盟),从而保持匿名的病人。癌症事件记录根据国际标准。此外,数据分析(用R)可以从GitHub库免费下载19]。它还包括一组模拟数据随机生成的测试模型。原始数据集不能上传由于通用数据保护规定,不允许共享患者信息。

体重指数是用来计算每个病人的肥胖标准体重类别(20.]。我们分类指数建立表:< 24.9为正常体重,25 - 29.9超重,和> 30肥胖。关于SES,我们分类变量根据年收入可以从被保险人的中心登记。根据该法案(21],我们创建了2组:年收入<€18000(低收入)和>€18000(高收入)(€1 = 1.04美元)。semiurban,人口分为农村和城市。按照(22),人们生活在一个人口超过10000的城市划分为城市,人口在10000年到2000年之间在城镇semiurban,剩下的农村。西班牙国家统计局研究所定义了农村地区的人口不到2000,semiurban地区的人口在2001年至10000年之间,和城市地区的人口超过10000人。所有的癌症病例不符合其中的一个字段是自动丢弃。总之,每个寄存器包含以下字段:年龄(50 - 64年,65 - 74年,≥75岁);性别(男、女);人口(农村、semiurban、城市);出口(死亡,活着的);BMI(正常、超重、肥胖);吸烟(烟民/抽烟,不抽烟的人);收入(高收入、低收入); and stage (0, I, II, III, undefined).表1显示了每个类别的病例数。

表1。主要并发症组包括在这项研究:结直肠癌患者在2012年至2015年之间,所有的并发症是正确注册(N = 1083)。
特征 值,n (%)
性别

男性 689 (63.6)

394 (36.4)
年龄(年)

50 - 64 319 (29.5)

65 - 74 328 (30.3)

≥75 436 (40.2)
出口

死亡 221 (20.4)

活着 862 (79.6)
收入一个

<€18000 /年 863 (79.7)

>€18000 /年 220 (20.3)
人口

农村 228 (21.1)

Semiurban 333 (30.7)

城市 522 (48.2)
身体质量指数

正常的 234 (21.6)

超重 506 (46.7)

肥胖 343 (31.7)
吸烟者

吸烟者/烟民 232 (21.4)

不抽烟的人 851 (78.6)
阶段

0 64 (5.9)

115 (10.6)

二世 168 (15.5)

三世 91 (8.4)

未定义的 645 (59.6)

一个€1 = 1.04美元。

MCA算法

MCA是一种无监督学习算法可视化模式在大型和多维分类数据23]。这个方法可以用来分析、探索、总结和可视化信息包含的个体所描述的分类变量(24]。与对应分析(CA), MCA能处理多个类别变量。这是MCA技术的主要优势。在我们的例子中,MCA最初是用来评估的所有特性之间的关系。MCA被用来评估人口之间的关系、年龄、性别、出口,体重指数,吸烟,和肿瘤的阶段。之间的关联特性表示图形(25]。图的目标可视化同时相似或不同的配置文件,识别那些包含大部分的数据变化的维度。特性或类别接近彼此统计上显著相关。

的因素是解释各种统计系数的帮助下,互相补充,提供更好的解释。最常见的和重要的是惯性,特征值,贡献,阶乘坐标。惯性是一个分散的测量计算的集合点之间的距离。类似地,在校长CA,惯性解释方差对应的维度。特征值允许将一个特定类别产生的惯性量化确定一定比例相对于整个组活动范畴。百分比坐标(x轴和y轴)图的启用类别分在一个图形表示和建立。在MCA, 2个或更多类别的不同变量之间的距离可以解释之间的联系和相关性。如果两类高坐标和空间接近,这意味着,他们倾向于直接相关26,27]。如果两类高坐标但相互距离(例如,他们有相反的迹象),这意味着,他们往往是负相关的28,29日]。创建一个热图帮助MCA的解释。这个情节用颜色显示的强度水平的变量之间的联系。我们的图表显示协会MCA的类别之间的距离。

k - means

k - means (30.)是一种nonsupervised学习算法用于数据挖掘和模式识别。分区数据集的算法k预定义的不重叠的子组(集群),每个数据点只属于一个组。它试图使星团内数据点尽可能相似的同时保持集群尽可能不同(远)。数据点分配到一个集群,这样数据点之间的距离的平方的总和和集群的重心是在最低限度。集群内变化我们越少,越同质性(相似性)之间有数据点在同一个集群。k - means算法由以下步骤组成:(1)它的地方k点在空间所代表的病人正在聚集,(2)它的小组分配每个病人有亲密的重心,和(3)当所有病人已经被分配,它重新计算的位置k重心。重复步骤2和3,直到重心不再移动。这产生了一个分离的病人分为同质组同时最大化异质性群体。获得的最优数量的集群是弯头的方法(31日]。这包括策划合适的解释变异作为集群的数量和选择的函数曲线的弯头数量组使用。评估内部集群质量、集群的稳定性最优的解决方案是使用Jaccard引导值计算以10000分(32]。

统计分析

提交的所有信息进行了分析使用MCA, CA的延伸,和k - means算法。MCA的组合和k - means效益计算过程的有效性,结果是,k - means结果。MCA有助于减少噪音,k - means算法可以获得更精确的距离。MCA降维自动执行数据根据k - means聚类目标函数(33]。此外,这项研究进行了评估的潜在混杂因素通过计算变量之间的距离(惯性),考虑到他们的相对重量数据库作为一个整体。然而,这些变量互相联系取决于每个寄存器的相似性。以前,患者空字段被移除。

MCA方法实施与R(在脚本中执行34),一个开源的编程语言和环境统计计算和图形。具体地说,图书馆的主要用于实现方法和取得的结果是FactoMineR (35]。k - means是用Python写(36,使用的主要图书馆scikit-learn [37]。这些方法推出了他们的默认配置和使用个人电脑。


MCA和k - means肿瘤分期

MCA的分析和k - means阶段变量包括1083名注册。图2显示了不同类别及其可能的关联。尺寸1的方差为15%(特征值0.21),维度2 12%(特征值0.17)。图2还显示了每个类别的位置在情节及其贡献维度。注意死亡率的贡献(15%从积极的轴-轴和10.2%),≥75岁年龄组(18.8%从积极的轴-轴和4.5%),和烟民/吸烟者在积极的x - y轴(16.5%和12.3%)。图3显示了类之间的关系。点之间的关联越来越明显时的距离是最小值。例如,雌性和肥胖是代表在同一个维度的MCA阴谋。因此,热图还演示了这种关联的点之间的距离为0.4 MCA阴谋。

图2。2 d多重对应分析情节之间的相关性显示所有数据集的类别和他们的贡献。
把这个图
图3。类别之间的相关性,它们之间的距离。
把这个图

图形,点互相接近或相同方向的点代表轴显示关联。可以看到,死亡率和老年很近的阴谋。这说明一个可能的协会。另一个可能的观察可能是女性和肥胖之间的关系。然后,云从积极的轴和负轴由65 - 74年的年龄,高收入和生存。最后,可能是由附加50 - 64岁年龄段,男性吸烟者或抽过烟,体重正常。

表2显示主要的重心集群应用k - means算法后得到。推荐的最优簇数是531日)(见GitHub (19存储库来评估情节)。第一个集群分组242注册其中主要寄存器是男性年龄≥75年城市人口,收入较低,不吸烟的人超重,和死亡的风险较低。下一个集群(259寄存器)代表在50到64岁的女性有高收入。分组情况下从农村人口与正常体重和生存。集群3号是180年由寄存器。这些大多是男性≥75岁从semiurban收入和较低的人群。他们不吸烟,但肥胖,不幸的是包括出口。这是唯一的集群,包括死亡。第四个集群代表城市男性年龄在65和74年,收入较低。在这种情况下,他们是吸烟者死亡率或与正常体重,没有抽过烟。 It contained 194 registers. Finally, the last cluster was made up of 208 cases, which included semiurban females aged between 65 and 74 years with low income. They were not smokers but they were overweight. Fortunately, surviving patients predominated in this cluster and the risk of dying was low. See these clusters represented graphically in the GitHub [19]。

表2。重心主要从k - means算法获得集群的所有数据集。
集群1 集群2 集群3 集群4 集群5
城市 农村 Semiurban 城市 Semiurban
年龄≥75岁 50 - 64岁 年龄≥75岁 65 - 74岁 65 - 74岁
低的收入 高收入 低的收入 低的收入 低的收入
男性 男性 男性
不抽烟的人 不抽烟的人 不抽烟的人 吸烟者/烟民 不抽烟的人
超重 正常体重 肥胖 正常体重 超重
活着 活着 死亡 活着 活着

MCA和k - means包括肿瘤分期

本节介绍了结果,包括肿瘤的阶段。用于分析的数据集被丢弃的寄存器,它不包含舞台(647注册)。因此,案例分析的数量是438 (表1)。图4显示应用MCA之后获得的结果。尺寸1 11.4%的方差(特征值0.18),维度2 10.2%(特征值0.16)。死亡率也是其中一个最高的贡献(26.4%从积极的轴和10.5%的正轴)。这是附近的III期高贡献积极的轴(16.3%和13.7%在正轴)。烟民/吸烟者造成明显与其他类别(9.1%从积极的轴-轴和1.3%)。这些和其他类别之间的关系所示图5。看到死亡和III期之间的相关性。这个协会的热图分化很明显,MCA情节还显示。类别的位置在情节和他们的贡献提出可能的关联。第三阶段之间的主要协会和死亡率和雌性阶段II,年龄≥75岁组和非吸烟者。另一个关系可能与高收入男性,年龄在50到64年,阶段0,烟或吸烟者。然而,这些结果可能受影响的下降情况。

图4。2 d多重对应分析情节显示类别之间的相关性和他们的贡献。
把这个图
图5。类别之间的相关性,它们之间的距离包括肿瘤分期。
把这个图

表3显示了从数据集获得集群与肿瘤的阶段。所有获得的集群是男性不吸烟者由于减少寄存器的数量数据集。第一个集群中的135例肥胖城市代表患者年龄在65年和74年II期达到和死亡的风险较低。第二个集群有120注册的II期和≥75岁患者semiurban人群。他们死亡的风险也低。下一个集群包括76寄存器和他们从城市人口但超重。他们包括年轻患者(年龄50 - 64年),死亡的风险较低,最低的阶段(阶段0)。第四集群(n = 72)代表农村居民,年龄在65年和74年。他们肥胖的III期癌症但是死亡的风险较低。然而,第五集群从semiurban病人人口,年龄≥75岁,超重,在一个高级阶段(III),和高死亡风险。看到这些集群代表图形在GitHub的k - means文件夹(19]。

表3。重心从k - means算法获得的主要集群:后的最终数据集包括肿瘤的阶段。
集群1 集群2 集群3 集群4 集群5
城市 Semiurban 城市 农村 Semiurban
65 - 74岁 年龄≥75岁 50 - 64岁 65 - 74岁 年龄≥75岁
高收入 低的收入 低的收入 低的收入 低的收入
男性 男性 男性 男性 男性
不抽烟的人 不抽烟的人 不抽烟的人 不抽烟的人 不抽烟的人
肥胖 肥胖 超重 肥胖 超重
活着 活着 活着 活着 死亡
第二阶段 第二阶段 阶段0 第三阶段 第三阶段

MCA方法和k - means算法允许集群的分析和检测的患者相似的危险因素和结果没有观察到在文学。省的以人群为基础的癌症登记处Lleida注册1083年2012年和2015年之间的结肠直肠癌。这种癌症是最事件在我们地区5,17,18),通过应用MCA和k - means,一些某些方面之间的关系被发现,证实了这些方法的有效性。他们帮助检测在大肠癌,年龄和体重指数的风险因素是相关的。另一个重要的证据是导致老年人死亡的风险(年龄≥75岁组)肥胖或超重和高级阶段。与后者相关因素,晚期在老年人和肥胖。阶段II和III总数的65%(119/181)≥75岁年龄组。

先前的研究已经使用集群技术来检测协会,但是没有一个被用于将病人资料与风险因素。我们我们的研究基于初步文献[38),评估空气污染之间的关系,颗粒物组件和乳腺癌的风险在一个统一的States-wide前瞻性群组使用集群技术。研究得出的结论是,空气污染措施与导管原位癌和浸润性乳腺癌在特定的地理区域。另一个起点是研究(39),使用MCA和k - means确定multimorbidity模式。这项研究得出的结论是,这些技巧可以帮助识别这些模式。我们工作的另一项研究是基于提出的一个[40),研究了癌症的发病率趋势与超重和肥胖有关。另一项研究[41]分析了肥胖和结直肠癌之间可能的关系。这些论文研究结直肠癌的风险因素的影响,但没有使用MCA方法或k - means算法探索这些和他们的影响之间的联系。此外,一项研究使用MCA在低位直肠癌手术预后分析(42]。另一项研究使用k - means搜索模式在结直肠癌患者,但其主要目的是检测情感管理模式和个人能力43]。然而,我们所知,没有之前的研究使用了MCA和k - means链接类型的风险因素,SES,肿瘤阶段,在例结直肠癌患者的特征。

MCA的结果之一是惯性(27%)。此外,各种变量有较大的贡献。获得了一个强大的关系之间的老年患者(年龄≥75岁组)和死亡率。这可能表明大肠癌死亡率的风险的增加在老年人中,先前的研究显示[44]。另一侧之前的关联,它显示另一个生存之间的联系,高SES, 65 - 75岁年龄段。尽管这些的贡献低于死亡率和老年人群,建议死亡的风险较低的人高SES [45),在年轻人中间。协会发现女性和肥胖之间虽然这不是反映在k - means。这种关系可能是因为37%(146/394)的所有女性肥胖。然而,肥胖男性代表29%(205/689)的男性,和肥胖的比例数据组为31% (343/1083)。这个关系表明,肥胖女性可能比男性更有可能培养大肠癌。一般来说,肥胖患者的结肠直肠癌的概率会增加30% - -70% (46]。然而,尽管贡献太低建立强有力的关系,男性的地位和体重正常的情节可能意味着可能会有一些其他因素,增加癌症的风险,这些技术强调其他关联。一些额外的病人病史是必要的。

关于k - means分析,第三个集群证实老年人口的死亡率与肥胖(44]。第一个集群也代表≥75岁年龄组,但超重并没有出口。这些集群之间的差异表明,肥胖可能是一个决定性因素在老年人增加死亡的风险。此外,这两个集群是男性。也获得了类似的结果在第五集群肿瘤阶段时补充道。III期直接相关的≥75岁年龄组,semiurban人口,和死亡率,从而表明老年人,超重或肥胖,一个高级阶段可能会增加死亡的风险。第四个集群是由吸烟者或抽过烟。虽然烟草不是通常与结直肠癌直接相关,一些研究也支持这个结果(47,48]。

然后分析研究了数据集过滤由肿瘤阶段。最后的数据集是由438个寄存器。MCA技术获得了显著的III期和死亡率之间的关系。然而,筛选程序和技术降低这一风险,像最近的研究得出结论49]。我们还可以看到,阶段0与年轻人有关(50 - 64岁年龄组)。MCA的k - means结果给了相似的结论。年轻的人来说,生存阶段0,出现在同一个集群作为显示在前面的k - means分析第二个集群。这表明的重要性在早期检测到肿瘤筛查项目(50]。第四在第二分析集群相关的农村和第三阶段。这种联系可能暗示可能延误诊断或困难访问农村卫生保健系统和大规模筛选测试(51]。最后,注意所有集群阶段II或III还包括肥胖或超重。这可能表明,BMI可能拥有一个积极的结直肠肿瘤的行列式。然而,没有明显的收入得到相关的结果,虽然有80%(863/1083)的病例低收入病人。这么高的比例的低收入的情况下可以解释,加泰罗尼亚的人均年度净利润2015€12283 (52]。

使用MCA和k - means聚类分析的优势,结果不太容易受到异常值的数据,选择距离的影响措施,或包含不适当的或不相关的变量53]。这项研究有一些局限性,应该注意。关于技术,它往往考虑到每个变量的相对重量有关的研究变量和允许控制潜在的混杂因素如性别、年龄、和生存。然而,一些残余干扰的可能性不能排除。此外,这些包括肿瘤的病例数低的阶段(438/1083,占全国总人口40%)。结果,最终的数据集也很难分析的强度不同的预测参数和结果之间的因果关系,因为它包含几个寄存器。每个案子的邮政地址注册病人的家庭住址在癌症诊断。然而,这个地址可能已经改变了在研究过程中。尽管如此,例改变地址的数量很低,这个因素预计不会产生偏见的结果。饮酒等生活方式方面,糖尿病,或专业不考虑。 The lack of cause of death is another limitation. The results showed that there is room for other kinds of risk factors. Additional patient clinical history would be required in order to find these. Further, related to the comorbidities, the Charlson index could not be added because approximately only 15% of the sample received it. A future study may be the study of the causality, adding synthetic data to enlarge the data set. Finally, some associations could hide others due to these techniques even though they showed the most significant relationships. In addition, the genetic and hereditary conditions were not considered.

总之,许多研究表明,某些风险因素如BMI、吸烟、SES可能影响结直肠癌的发病率使用传统技术。本研究采用新技术,如MCA和k - means分析结直肠癌和风险因素之间的关系。获得的结果表明,这些技术的结合可以帮助检测风险因素和患者之间的关系特征。肥胖和超重的老年人(年龄≥75岁组)增加了患恶性肿瘤和死亡的风险。阶段0与年轻人和生存有关。这突出了大肠癌的筛查项目的重要性。烟草在集群的存在表明,它必须被视为一个风险因素在结直肠癌。我们研究的结果有助于证实怀疑趋势的几个关系发现并确认这些技术的有效性。此外,他们鼓励将这些方法应用于其他癌症和检测如何相关的危险因素。在未来的工作中,重要的是要深入了解病人的特点和危险因素。 This means including new variables such as diabetes, alcoholism, or the cause of death. The findings obtained in this study motivate us to search for relations between risk factors in other cancers. Moreover, new techniques and artificial intelligence algorithms can be implemented to explore patterns of pretumor and posttumor detection from the clinical history.

确认

这项工作是支持的合同2019 - di - 43工业博士课程的加泰罗尼亚和西班牙政府科技部创新合同pid2020 - 113614 - rb - c22。一些作者2014 - sgr163研究小组,成员由Generalitat de加泰罗尼亚。

的利益冲突

没有宣布。

  1. Ferlay J, Soerjomataram我,德里R, es年代,拿到C, Rebelo M, et al。全球癌症发病率和死亡率:2012年GLOBOCAN来源、方法和主要模式。2015年3月01;136年Int J癌症(5):E359-E386 [免费的全文][CrossRef][Medline]
  2. Ferlay J, Colombet M, Soerjomataram我Dyba T,兰迪G, Bettio M, et al .癌症发病率和死亡率模式在欧洲:估计40个国家在2018年和25个主要癌症。11月J癌症2018欧元;103:356 - 387。(CrossRef][Medline]
  3. Labianca R,伯莱塔GD, Kildani B, Milesi L,梅林F, Mosconi年代,et al .结肠癌。74年5月,暴击牧师杂志内科杂志2010 (2):106 - 133。(CrossRef][Medline]
  4. 帕金DM,以人群为基础的癌症登记处的演变。Nat牧师癌症2006年8月,6 (8):603 - 612。(CrossRef][Medline]
  5. Florensa D, Pedrol T, Modol我Farre X,祝您健康,马特奥J,等。结果de l 'any 2014。Butlleti流行病学加泰罗尼亚2020 2020;40 (12):252 - 264。
  6. Florensa D,戈多P,马特奥J, Solsona F, Pedrol T,尹浩然,台地。使用多重对应分析探讨类别的定性变量和癌症发病率之间的联系。IEEE J生物医学卫生通知2021年9月,25 (9):3659 - 3667。(CrossRef][Medline]
  7. Bjørge T, Haggstrom C, Ghaderi年代,内格尔G, Manjer J, Tretli年代,et al。体重指数和体重变化和与肥胖相关的癌症的风险:汇集欧洲队列研究。Int增加2019年12月01;48 (6):1872 - 1885。(CrossRef][Medline]
  8. 李郭L, N,王G,苏K,李F,杨L, et al。(身体质量指数和癌症发病率:前瞻性队列研究在中国北部]。中华刘兴宾雪2014年3月;35 (3):231 - 236。(Medline]
  9. 井上Mizoue T M,田中K,信我,Wakai K,经营着C,研究小组发展‚在日本评估癌症的预防战略。吸烟与结直肠癌风险:一个基于系统回顾评价日本人口的流行病学证据。日本J肿瘤防治杂志2006年1月,36 (1):25 - 39。(CrossRef][Medline]
  10. 金正日D, Masyn KE, Kawachi我,拉登F,科迪兹。邻居们的社会经济地位和行为途径女性结肠癌和直肠癌的风险。癌症2010年9月01;116 (17):4187 - 4196免费的全文][CrossRef][Medline]
  11. Ugurlu H,克即船舶碰撞事故分析和评估使用故障树和多重对应分析。海洋工程2022年2月,245:110514。(CrossRef]
  12. Rustam Z, Hartini年代,尤努斯R, Pratama R, R尤努斯,希R .分析架构结合卷积神经网络(CNN)和k -均值聚类对肺癌诊断内核。汽车列车Int J副词Sci Eng Inf抛光工艺互联网2020 2020;10 (3):1200 - 1206。(CrossRef]
  13. Ronen J,是年代,Akalin a评价结直肠癌亚型,并使用深度学习细胞系。生命科学联盟2019年12月;2 (6):e201900517 [免费的全文][CrossRef][Medline]
  14. eCAP。Departament de你好。URL:https://salutweb.gencat.cat/ca/ambits_actuacio/linies_dactuacio/tic/sistemes-informacio/gestio-assistencial/ecap/[2020-12-16]访问
  15. Registre中央de poblacio del CatSalut。Catala de la你好。URL:https://catsalut.gencat.cat/ca/proveidors-professionals/registres-catalegs/registres/central-poblacio/index.html[2020-12-16]访问
  16. 国际癌症研究机构。URL:http://www.iacr.com.fr/index.php?option=com_content&view=article&id=72: iarccrgtools&catid = 68 itemid = 445[2020-12-14]访问
  17. 戈多P, Pedrol T, Modol我,祝您健康a . El Registre poblacional de癌症Lleida:结果我观点。Butlleti流行病学加泰罗尼亚》2016。URL:https://scientiasalut.gencat.cat/handle/11351/3052?show=full&locale-attribute=en[2022-07-06]访问
  18. Godoy-Garcia P, Pedrol T, Modol-Pena我,祝您健康a . El registre poblacional de癌症Lleida:结果de l 'any 2013。Butlleti流行病学加泰罗尼亚》2018。URL:https://scientiasalut.gencat.cat/handle/11351/3665?show=full[2022-07-06]访问
  19. Florensa D,戈多P, Solsona P,等。使用多重对应分析探讨类别的定性变量和癌症发病率之间的联系。Github库。URL:https://github.com/didacflorensa/MCA-Cancer[2021-01-01]访问
  20. Weisell r .肥胖的身体质量指数作为指标。亚洲Pac中国减轻2002;11 (8):681 - 684。(CrossRef]
  21. 西班牙,真正Decreto-ley 16/2012, de 20 de abril de medidas紧急对位garantizar la sostenibilidad del Sistema Nacional de Salud mejorar la calidad y seguridad de sus prestaciones。Boletin Oficial del带动。URL:https://www.boe.es/diario_boe/txt.php?id=boe - a - 2012 - 5403[2022-07-06]访问
  22. 加西亚GJ。农村de La Poblacion西班牙:de los Desequilibrios Sostenibilidad社会。西班牙巴塞罗那:Fundacion La Caixa;2013:146 - 149。
  23. Murtagh f .多重对应分析和相关方法。心理测量学2007年3月24日,72 (2):275 - 277。(CrossRef]
  24. 胡森F Josse, j .多重对应分析。:可视化和冗长的数据。佛罗里达州博卡拉顿:CRC /出版社;2014年。
  25. 朱Sourial N,沃尔夫森C, B,鹌鹑J,弗莱彻J, Karunananthan年代,et al。对应分析是一个有用的工具发现分类变量之间的关系。中国论文2010年6月,63 (6):638 - 646免费的全文][CrossRef][Medline]
  26. Greenacre m .对应分析在实践中,第三版。佛罗里达州博卡拉顿:查普曼和大厅/ CRC;2017年。
  27. Roux提单,Rouanet h .几何数据分析:从对应分析结构化数据分析。纽约:施普林格;2005年。
  28. 迪弗朗哥·g·多重对应分析:只有一个或几个技术?定性定量2015年4月21日,50 (3):1299 - 1315。(CrossRef]
  29. 冷嘲热讽CE。应用多元统计分析。技术计量学2005年11月,47 (4):517 - 517。(CrossRef]
  30. lika, Vlassis N, j . Verbeek j .全球k - means聚类算法。模式识别在2003年2月,36 (2):451 - 461。(CrossRef]
  31. Bholowalia P, Kumar EBK-Means:基于肘MethodK-Means WSN集群技术。Int J第一版2014;105:17-24。(CrossRef]
  32. Hennig c Cluster-wise评估集群的稳定性。计算统计与数据分析2007年9月,52 (1):258 - 271。(CrossRef]
  33. 丁C,他通过主成分分析x k - means聚类。2004发表于:21 Int的诉讼之马赫学习(ICML);2004;加拿大班夫国家公园。(CrossRef]
  34. 统计计算的R项目。2019年。URL:https://www.r-project.org/[2020-12-16]访问
  35. Josse J S,小量f . FactoMineR: R包进行多变量分析。J统计软2008;25(1):队。(CrossRef]
  36. 欢迎访问Python.org。URL:https://www.python.org/[2020-12-16]访问
  37. scikit-learn: MLIP。URL:https://scikit-learn.org/stable/[2020-12-16]访问
  38. 白色,凯勒J,赵年代,卡罗尔R,考夫曼J,桑德勒d .空气污染,集群的颗粒物组件,在妹妹和乳腺癌研究:美国采用队列。环境卫生角度2019;127 (10):107002。(CrossRef]
  39. 青辉石C, Roso-Llorach Foguet-Boreu Q, Guisado-Clavero M, Pons-Vigues M, Pujol-Ribera E, et al . Multimorbidity与k - means聚类分析无模式。BMC Fam Pract 2018 7月03;19 (1):108免费的全文][CrossRef][Medline]
  40. 斯蒂尔CB,托马斯CC,亨利SJ, Massetti通用,Galuska哒,Agurs-Collins T, et al。生命体征:趋势与超重和肥胖有关的癌症发病率——美国,2005 - 2014。MMWR Morb凡人周代表2017 10月03;66 (39):1052 - 1058 (免费的全文][CrossRef][Medline]
  41. Ng刘P,吴K, K, Zauber AG)、阮LH,尹浩然,歌。肥胖协会与女性早发性结直肠癌的风险。JAMA杂志2019年1月01;5 (1):37-44 [免费的全文][CrossRef][Medline]
  42. 曼奇尼R, Pattaro G, Diodoro MG, Sperduti我,C·加鲁菲,Stigliano V, et al .肿瘤回归年级新辅助化疗和手术后低由多个对应分析直肠癌评估:最少随访10年。3月结直肠癌2018;17 (1):e13-e19。(CrossRef][Medline]
  43. Baziliansky年代,科恩m .情感管理模式在结直肠癌症幸存者:聚类和关联与个人应对资源。Behav杂志2021;47 (3):214 - 224。(CrossRef][Medline]
  44. 刘X, Y Bi, H,王濛R,周W,张G,等。不同年龄组之间的结直肠癌死亡率的趋势在中国:一个age-period-cohort和连接点的分析。公共卫生2019年1月,166:45-52。(CrossRef][Medline]
  45. 哈斯特助教,谢泼德贝雷斯福德SAA, L,白色大肠癌症发病率和死亡率的关系由地区性的社会经济地位的差异:一个多层次的分析。增加社区卫生2015年3月,69 (2):168 - 176。(CrossRef][Medline]
  46. 马特尔Bardou M, Barkun, M .肥胖和结肠直肠癌。肠道2013年6月,62 (6):933 - 947。(CrossRef][Medline]
  47. Rawla P, Sunkara T, Barsouk发病率,死亡率,生存和危险因素。胃肠病学评论2019;14 (2):89 - 103。(CrossRef]
  48. Botteri E, Iodice年代,Bagnardi V, Raimondi年代,Lowenfels AB, Maisonneuve p .吸烟与结直肠癌:一个荟萃分析。《美国医学会杂志》2008年12月17日,300 (23):2765 - 2778。(CrossRef][Medline]
  49. 这NPM、Bos ACRK Lemmens VEPP,坦尼斯PJ, Hugen N, Nagtegaal ID, et al .概述25年的发病率,治疗和结直肠癌患者的结果。Int J癌症2018年12月01;143 (11):2758 - 2766免费的全文][CrossRef][Medline]
  50. 布兰诺H, Chang-Claude J,詹森L, Knebel P,股票C, Hoffmeister m .降低结直肠癌的风险筛查10年后,监测或诊断结肠镜检查。胃肠病学2014年3月,146 (3):709 - 717。(CrossRef][Medline]
  51. 亨利SJ,安德森RN,托马斯•CC Massetti通用、峰化器B,理查森LC。侵袭性癌症发病率,2004 - 2013,死亡,Nonmetropolitan和大都会县2006 - 2015年——美国。MMWR Surveill夏2017 7月07年;66 (14):1-13 [免费的全文][CrossRef][Medline]
  52. 年平均净收益的家庭。加泰罗尼亚的统计研究所。2015。URL:https://www.idescat.cat/pub/?id=aec&n=414&t=2015&lang=en[2020-12-16]访问
  53. 廖M,李Y, Kianifard F, Obi E, Arcona美国医疗保健索赔数据聚类分析及其应用:研究终末期肾病患者血液透析发起。BMC Nephrol 2016 3月02;十七25 (免费的全文][CrossRef][Medline]


CA:对应分析
MCA:多重对应分析
SES:社会经济地位


编辑Mavragani;提交25.03.21;同行评议的CM摩尔,E穆罕默迪,Y楚,L Espinosa-Leal;评论作者28.12.21;修订版本收到22.02.22;接受23.05.22;发表19.07.22

版权

©Didac Florensa,乔迪Mateo-Fornes,弗朗西斯Solsona,特蕾莎修女Pedrol Aige, Miquel平顶山胡里奥,Ramon Pinol Pere戈。最初发表在《医学互联网研究(//www.mybigtv.com), 19.07.2022。

这是一个开放分布式根据条知识共享归属许可(https://creativecommons.org/licenses/by/4.0/),它允许无限制的使用、分配、和繁殖在任何媒介,提供原工作,首先发表在《医学网络研究,正确地引用。完整的书目信息,原始发布在//www.mybigtv.com/上的链接,以及这个版权和许可信息必须包括在内。


Baidu
map