这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
预后基因或基因签名已被广泛用于预测患者的生存和帮助作出有关治疗行动的决定。尽管一些基于网络的生存分析工具已经被开发出来,但它们有一些局限性。
考虑到这些限制,我们开发了ESurv(简单、有效和优秀的生存分析工具),这是一个基于web的工具,可以使用用户派生的数据或来自癌症基因组图谱(TCGA)的数据进行高级生存分析。用户可以使用TCGA的多组学数据进行单变量分析和分组变量选择。
我们使用R编码基于TCGA多组学数据的生存分析。为了进行这些分析,我们排除了信息不足的患者和基因。当有两种类型时(例如,化疗:否或是),临床变量被分类为0和1,当特征有3个或更多结果时(例如,关于侧性:右、左或双侧),使用虚拟变量。
通过单因素分析,ESurv可以通过生存曲线(中位数或最佳截止值)、曲线下面积(AUC)和受试者工作特征(ROC)来确定单基因的预后意义。用户可以根据临床变量的多组学数据或分组变量选择(套索、弹性网正则化和网络正则化高维cox -回归)获得预后变量签名,并选择与上述相同的输出。此外,用户可以使用各种感兴趣的基因为特定癌症创建定制的基因签名。ESurv最重要的功能之一是,用户可以使用自己的数据进行所有的生存分析。
ESurv使用了适用于高维数据(包括遗传数据)和综合生存分析的先进统计技术,克服了以前基于web的工具的局限性,将帮助生物医学研究人员轻松地进行复杂的生存分析。
随着下一代测序技术的发展,大量基因组数据的积累正在为精准医疗铺平道路[
基因组数据集是高度可变的,随着患者数量的增加,这种变异性也随之增加,使其在本质上成为高维数据。为了有效地连接高维基因组数据和生存数据,统计学家在考克斯比例风险模型的基础上,开发了分组变量选择模型,包括:最小绝对收缩和选择算子(套索)、弹性网正则化(弹性网)和网络正则化高维考克斯回归(Coxnet,以下简称net) [
使用大型数据库成功地识别和验证预后因素在医学研究中是必不可少的,但这对不熟悉计算机科学的研究人员来说可能是困难的。为了解决这一未被满足的临床需求,一些基于网络的生存分析工具已经被开发出来。尽管这些工具有一定的局限性,但它们已被用于一些单变量分析[
为了克服这些限制,我们开发了ESurv(简单,有效,优秀的生存分析工具[
我们基于多组学和TCGA (
ESurv中可用数据的摘要。
具有可用组学数据的癌症 | 信使RNA(是/否) | 微rna(是/否) | 甲基化(是/否) | 总患者数,n |
急性髓系白血病 | 是的 | 是的 | 是的 | 200 |
肾上腺皮质癌 | 是的 | 是的 | 是的 | 92 |
膀胱尿路上皮癌 | 是的 | 是的 | 是的 | 412 |
脑低级别胶质瘤 | 是的 | 是的 | 是的 | 515 |
乳腺浸润性癌 | 是的 | 是的 | 是的 | 1097 |
宫颈及宫颈内腔癌 | 是的 | 是的 | 是的 | 307 |
胆管癌 | 是的 | 是的 | 是的 | 45 |
结肠腺癌 | 是的 | 是的 | 是的 | 458 |
食管癌癌 | 是的 | 是的 | 是的 | 185 |
多形性成胶质细胞瘤 | 是的 | 没有 | 是的 | 595 |
头颈部鳞状细胞癌 | 是的 | 是的 | 是的 | 528 |
肾脏chromophobe | 是的 | 是的 | 是的 | 113 |
肾透明细胞癌 | 是的 | 是的 | 是的 | 537 |
肾乳头状细胞癌 | 是的 | 是的 | 是的 | 291 |
肝肝细胞癌 | 是的 | 是的 | 是的 | 377 |
肺腺癌 | 是的 | 是的 | 是的 | 522 |
肺鳞癌 | 是的 | 是的 | 是的 | 504 |
淋巴样肿瘤弥漫性大B细胞淋巴瘤 | 是的 | 是的 | 是的 | 48 |
间皮瘤 | 是的 | 是的 | 是的 | 87 |
卵巢浆液性囊腺癌 | 是的 | 是的 | 没有 | 591 |
胰腺腺癌 | 是的 | 是的 | 是的 | 185 |
嗜铬细胞瘤和副神经节瘤 | 是的 | 是的 | 是的 | 179 |
前列腺腺癌 | 是的 | 是的 | 是的 | 499 |
直肠腺癌 | 是的 | 是的 | 是的 | 171 |
肉瘤 | 是的 | 是的 | 是的 | 261 |
皮肤皮肤黑色素瘤 | 是的 | 是的 | 是的 | 470 |
胃腺癌 | 是的 | 是的 | 是的 | 443 |
睾丸生殖细胞瘤 | 是的 | 是的 | 是的 | 134 |
胸腺瘤 | 是的 | 是的 | 是的 | 124 |
甲状腺癌 | 是的 | 是的 | 是的 | 516 |
子宫癌肉瘤 | 是的 | 是的 | 是的 | 57 |
子宫内膜癌 | 是的 | 是的 | 是的 | 548 |
葡萄膜黑色素瘤 | 是的 | 是的 | 没有 | 80 |
临床变量(肿瘤分期、年龄、性别、癌症类型、母细胞数、组织学分级、侧度、解剖肿瘤细分、肿瘤组织部位和人乳头瘤病毒状态)可以根据癌症的种类包括在网络中,以便进行复杂的分析。当有两个类别时(例如,化疗:否或是),临床变量被分类为0和1,当临床变量可以分为三个或更多类别时(例如,侧性:右、左或双侧),使用虚拟变量。
ESurv使用以下三种方法之一:最小绝对收缩和选择算子(套索)、弹性网正则化(弹性网)和网络正则化高维cox -回归(net),使用R [
为了确定最佳截止值,防止过度优化,我们使用了最大UNO的c指数和5倍交叉验证。对于Kaplan-Meier生存曲线,根据特定的基因表达参数(中位截止值或最佳截止值)将患者分为高危组和低危组
ESurv web服务器通过HTML5实现AngularJS,通过web查询界面显示分析数据。这些分析的结果在后台服务器上按需计算,后台服务器运行Java Servlet并结合R统计程序。
ESurv的运行程序的细节描述在
ESurv的运行过程。
在选择单变量生存分析后,用户可以选择单基因分析或全基因组log-rank检验。在单基因分析中,用户按此顺序选择癌症类型、基因数据类型(mRNA、microRNA [miRNA]或甲基化)、感兴趣的基因和接收者工作特征(ROC)曲线的时间。对于整个基因组的log-rank测试,用户选择癌症类型、基因数据类型(mRNA、miRNA或甲基化)、ROC曲线的时间和
如果用户选择分组变量选择,他们必须选择癌症类型、基因数据(mRNA、miRNA、甲基化或综合分析)、分组变量选择方法(套索、弹性网或net)、ROC曲线的时间和alpha,按此顺序。Alpha决定了脊和套索惩罚之间的平衡;alpha越大,越接近lasso (alpha=1),选择的变量越少。如果用户选择Net,他们可以在分组变量选择中包含临床变量。
在用户服务中,用户可以在上传自己的数据后执行单变量或分组变量选择。上传数据的详细说明在手册中。一旦上传了数据,就可以进行上述所有的分析。
最后,当使用选定的变量开发基因签名时,用户应该依次为ROC曲线选择癌症类型、感兴趣的基因和时间。
ESurv确定了在包括性别和癌症分期(由美国癌症联合委员会定义的早期和晚期)在内的各个亚组中,单基因作为分类(带有中值或最佳截止值的Kaplan-Meier曲线)或连续变量(特定时间点的c指数和AUC值)的预后意义。为了补充分类变量的结果,将c指数和AUC值作为连续变量计算。例如,我们使用mRNA (
一个基于mrna的生存分析的例子。根据基因表达水平的最优值(A)和中值截断值(B)的比较,将基因表达水平分为低或高(分别为蓝色和红色线)。(C)每个亚组的时间依赖性曲线下面积(AUC)。(D)每个子组中选定年份的受试者工作特征(ROC)曲线。
使用变量签名的生存分析示例。根据最佳(a)和中值截断值(B)的比较,将基因表达水平分为低或高(分别为蓝色或红色线)。(C)每个亚组的时间依赖性曲线下面积(AUC)。(D)每个子组中选定年份的受试者工作特征(ROC)曲线。
如果用户想要计算特定癌症中所有基因变异的预后价值,他们可以选择对整个基因组进行log-rank测试。在这里,我们对结肠腺癌的全基因组进行了log-rank测试
分组变量选择方法已被开发出来,以利用生物技术的进步,并可用于统计模型,以准确预测患者的预后[
用户可以通过上传自己的数据(
为了克服现有生存分析工具的局限性,我们开发了一个基于web的用户友好的工具,称为ESurv。Kaplan-Meier曲线是医学领域进行生存分析的常用方法,它涉及根据患者的风险情况将患者分组。在这些分类分析方法中,没有明确的标准来分类连续变量,如基因表达。因此,在以前的工具中使用的中位数和四分位截止值可能会忽略单个基因的预后意义。如
多基因预后优于单基因预后。选择基因签名的方法有很多,但在这些方法中,使用分组变量选择选择的基因被证明是最通用和可复制的[
患者的预后可能因性别、分期等临床信息的不同而有所不同[
这个软件确实有一些局限性,将在进一步的开发中加以解决。这里我们只使用了一个癌症数据库,但是还有很多,我们计划在继续开发软件的过程中将这些数据库添加到ESurv中。虽然用户可以上传自己的数据,但这仍然需要用户精通计算机;这将在软件的未来版本中解决。此外,ESurv目前只访问癌症数据库,但这种类型的分析在其他疾病中很有价值,包括几种血管和退行性疾病;我们的目标是添加这些。最后,ESurv的分析并不是穷尽无遗的,但是用户可以通过电子邮件为R请求额外的生存分析包。然后,我们将选择要求最多的包,并将其添加到ESurv每年的基础上。
ESurv提供的最重要的功能是,用户可以使用该软件分析自己的数据。随着越来越多的医学数据的产生,对生存分析的需求也在增加。对个别机构创建的数据进行分析与大数据分析同样重要,但目前还没有能够进行这种分析的生存分析工具。ESurv使用先进的统计方法和全面的生存分析,克服了以往工具的局限性,允许用户使用自己的数据集。我们坚信ESurv是一种理想的工具,可以满足在小型和大型数据集中日益增长的生存分析需求。
全显著性基因的单变量结果。
单变量分析手册。
分组变量选择分析手册。
曲线下面积
弹性网正则化
简单,有效,优秀的生存分析工具
最小绝对收缩和选择算子
微
信使核糖核酸
网络正则化高维cox回归
接收机工作特性
癌症基因组图谱
这项工作得到了医学研究中心(MRC)项目和基础科学研究项目的资助,通过韩国国家研究基金会(NRF)的赠款,由韩国政府资助(NRF- 2018r1a5a2023879和NRF- 2019r1a2b5b01070163)。本研究由釜山国立大学医院生物医学研究所资助(2018B032)。
KP和TSG设计并撰写了手稿。HJH、MEH、CSL、JK、SJC和SL对数据进行采集和预处理。DCJ和HS对算法中的误差进行了修正。SOO和YHK设计并监督了该项目。所有作者阅读并批准了最终稿件。
没有宣布。