发表在2卷第一名(2014): Jan-Jun

大数据与临床医生:科学现状综述

大数据与临床医生:科学现状综述

大数据与临床医生:科学现状综述

审查

美国加州帕洛阿尔托斯坦福大学医学院

通讯作者:

Eswar Krishnan,医学博士,公共卫生硕士

医学院

斯坦福大学

韦尔奇路1000号203室

帕洛阿尔托,加州,94304

美国

电话:1 650 725 8004

传真:1 650 723 9656

电子邮件:e.krishnan@stanford.edu


背景:在过去的几十年里,与医疗相关的数据收集出现了巨大的增长,被称为大数据。这些庞大的数据集给存储、处理和分析带来了挑战。在临床医学领域,大数据有望在识别患者症状的因果关系、预测疾病发生或复发的危险、提高初级保健质量等方面发挥重要作用。

摘要目的:这篇综述的目的是概述临床大数据的特征,描述一些常用的计算算法、统计方法和用于数据操作和分析的软件工具包,并讨论该领域的挑战和限制。

方法:我们进行了文献综述,以确定大数据在医学,特别是临床医学方面的研究。我们使用不同的关键词组合来搜索PubMed、Science Direct、Web of Knowledge和谷歌Scholar,以获得过去10年感兴趣的文献。

结果:本文回顾了分析临床大数据的研究,并讨论了与存储和分析这类数据相关的问题。

结论:大数据正在成为生物学和临床研究的共同特征。使用临床大数据的研究人员面临着多重挑战,而数据本身也有局限性。数据分析方法必须与我们收集和存储数据的能力保持同步。

JMIR medical Inform 2014;2(1): 1

doi: 10.2196 / medinform.2913

关键字



大数据是指非常大的数据集,结构复杂,难以用传统方法和工具处理。术语过程包括,捕获,存储,格式化,提取,管理,集成,分析和可视化[1-9]。大数据的一个流行定义是高德纳公司提出的“3V”模型[10,认为大数据有三个基本特征:数据量大、数据流速度快、数据类型丰富。大数据的概念可以追溯到20世纪70年代。11-13当科学家们意识到他们缺乏分析大型数据集的工具时。那时候,大数据只有几到几百兆字节。14];现在tb级的数据集很常见[1516]。因此,大数据中的“大”反映了某一时间点存在的数据存储和计算能力的极限。

表1显示了自2009年以来全球大数据量和大数据计算机科学论文的增长。这个表格举例说明,到2020年,存储的数据将在数十泽字节的范围内,关于如何处理大数据的研究也将呈指数级增长。

大数据是在许多学科中收集的,并通过无处不在的信息传感设备和软件而成为可能[19]。一个例子是网络日志:像谷歌或Facebook这样的网站会自动记录用户每次访问的信息。其他例子来自股市[20.]、地震监测[21]、政治选举[22]、行为研究[23]、运动[24]、药物报告[25]、医疗保健[2627]、电子病历[28],影像资料[29],基因组数据[30.31],以及企业家的交易记录[32]。数据收集有时是跨学科的。例如,“流感症状”和“流感治疗”等谷歌搜索词的突然增加,可用于预测到医院急诊室就诊的流感患者的增加[33]。这个例子也证明了大数据具有很好的预测能力和投资回报。临床大数据也有大数据投资回报的建议[3435]。

虽然大数据可以说是有价值的,但由于原始数据的海量及其多样性,大数据很难进行分析,如图所示图1。因此,通常从原始数据中提取大数据集,以生成用于分析的二级数据存储,而不是原始大数据。例如,当临床试验涉及计算机断层扫描,而数据分析中只包括基于扫描的医生诊断时,就会应用这种数据提取。同样,在只保留关键参数的情况下,可以提取关于各种采样、测试或测定的大量描述性数据。因此,临床医学中分析的数据通常来自仅包含感兴趣数据的二级数据集。次要数据集虽然仍然很大,但没有tb那么大。此外,由于临床试验的性质,临床医学中的大型数据集通常没有压倒性数量的样本。Kjaergard等[36]将参与者超过1000人的临床试验定义为“大”,而名为“大/大,数据/数据集”的临床医学研究通常有数千个属性,但只有数百个样本[37-39]。

在本文中,我们回顾了文献,以确定临床大数据的特征,并确定用于操作和分析这些数据的方法。本文侧重于临床医学,而不是一般的卫生保健问题;因此,我们主要回顾了与临床医生相关的研究。我们检查了所选的研究,以提取有关研究兴趣、目标和成就以及实施方法的信息。我们的目的不是进行详尽的系统综述,而是对大数据问题在临床医学中如何得到解决进行基于文献的讨论。基于我们的发现,我们讨论了分析大型临床数据集的挑战和局限性。

表1。全球增长的大数据和计算机科学论文大数据。
一年 数据量,ZBa、c 会议文件,CSb, c 期刊论文,CSc
2009 1.5 12 7
2010 2 26 7
2011 2.5 32 23
2012 3. 78 47
2015 8
2020 44 ?? ??

一个数据从甲骨文17]。

b数据从研究趋势18]。

cCS,计算机科学;ZB, zettabytes (1 zettabyte = 1000 tb = 106pb = 1018g, g)。

图1所示。围绕大数据存储和使用的问题的示意图。临床大数据,以及其他学科的大数据,已经被许多问题和挑战所包围,包括(但不限于):生成、存储、管理、提取、集成、分析、可视化等。ANN:人工神经元网络;EMR:电子病历;MPP:大规模并行处理;PCA:主成分分析;ROI:投资回报;支持向量机:支持向量机。
查看此图

我们进行了文献综述,以确定大数据在医学,特别是临床医学方面的研究。我们使用不同的关键词组合来搜索PubMed、Science Direct、Web of Knowledge和谷歌Scholar,以获得感兴趣的文献,主要来自过去10年。关键词为:“大数据医学”、“大数据集医学”、“临床大数据”、“临床大数据集”、“临床数据仓库”、“临床数据库”、“临床数据挖掘”、“生物医学大数据”、“生物医学数据库”、“生物医学数据仓库”、“医疗大数据”、“医疗数据库”、“医疗数据仓库”、“医疗数据仓库”。


临床医学大数据

大数据在医学和临床研究中发挥着重要作用,并已在临床相关研究中得到应用。主要研究机构中心和资助机构在这一领域进行了大量投资。例如,美国国立卫生研究院最近为“大数据到知识”(BD2K)计划投入了1亿美元[40]。BD2K将“生物医学”大数据定义为研究小组或个人研究人员生成的大型数据集,以及由较小数据集聚合生成的大型数据集。医疗大数据最著名的例子是由医疗保险和医疗保健成本和利用项目维护的数据库(有超过1亿次观测数据)。医疗大数据与其他学科大数据集的一个不同之处在于,临床大数据通常是基于协议(即固定形式)收集的,因此相对结构化,部分原因是前面提到的简化原始数据的提取过程。这一特征可以追溯到弗雷明汉心脏研究[41自1948年以来,该研究一直跟踪马萨诸塞州弗雷明汉镇的一群人。通过弗雷明汉心脏研究收集了大量的数据,分析为我们了解心脏病提供了依据,包括饮食、运动、药物和肥胖对风险的影响[42]。还有许多其他不同范围的临床数据库,包括但不限于患病率和趋势研究、危险因素研究和基因型-表型研究。

流行率及趋势研究

临床大数据的主要用途之一是分析一种疾病或表型在不同人群中的流行程度或趋势。一项早期的大数据研究评估了一个由890394名患有糖尿病的美国退伍军人组成的队列,随访时间为2002年至2006年[43]。Bermejo-Sanchez等人[44]观察了来自23个国家和4个大洲的2300万活产、死产和胎儿异常中的326例Amelia出生缺陷,并发现Amelia在年轻母亲中患病率较高的趋势。在809次大肠内镜活检中发现了慢性特发性炎症性肠病与正常之间、克罗恩病与溃疡性结肠炎之间的组织学差异[45]。凯利等[46]研究了8192名A型和b型血友病患者的髋关节异常患病率。47]对荷兰所有16个心胸外科手术中心的心脏手术后患者进行了一项基于人群的研究。艾尔沙兹利等[48]调查了130万美国成年人的非高密度脂蛋白胆固醇和低密度脂蛋白胆固醇患者水平的不一致。陈及麦嘉礼[49]总结了如何分析大型数据集以得出基于人群的结论,特别是确定长期趋势、健康差异、地理差异以及评估特定疾病和治疗方法。本文还总结了大型数据集的优势和局限性,并解决了数据缺失和偏差等问题。下面也将简要讨论这些问题。

危险因素研究

临床大数据还可用于确定风险因素与感兴趣疾病之间的因果关系、影响或关联。Ursum等[50]研究了18658名类风湿关节炎患者和对照组的血清转换和患者年龄与自身抗体炎症效应之间的关系,结果表明瓜氨酸蛋白和多肽比免疫球蛋白M类风湿因子是更可靠的类风湿关节炎标志物。Ajdacic-Gross等[51他们研究了2003年以来11905名瑞士应征士兵的口吃数据,发现口吃并没有一个决定性的风险因素,尽管早产和父母酗酒似乎有影响。研究人员从美国所有50个州、波多黎各和哥伦比亚特区的155个退伍军人管理局医疗中心收集了14433名患者的数据,用于确定药物的酒精依赖[52]。通过分析来自放射学和心导管实验室数据库的35,922名患者中的53,177例造影剂,造影剂肾病的增加与使用碳酸氢钠有关[53]。比较了534例患者评价左室射血分数的超声心动图和心电图门控单光子发射计算机断层扫描迹线[54]。张等[55]研究了16,135名成年患者的临床资料,阐明了血糖、血糖水平和胰岛素摄入量与死亡率之间的关系。米切尔等人[56]研究了两种胰岛素对英国800万名患者中7720名患者的影响。小林等[57]分析了来自3500家日本医院的19070份右半结肠切除术记录,并成功开发了一个风险模型。值得注意的是,在这些研究中,必须严格区分“关联”和“因果关系”的术语;大多数研究都声称两者之间存在关联,而很少断言两者之间存在因果关系。

Genotype-Phenotype研究

随着基因分型技术的进步,越来越多的风险因素研究试图通过评估从患者和对照组获得的基因表达和/或基因组数据来评估遗传水平上的相关性。例如,来自5700名接受华法林治疗的患者的临床和遗传数据被用于创建一种算法,以估计适当的剂量[58]。自闭症谱系障碍的因果关系已通过对31516例患者与13696例对照组拷贝数变异的临床病例进行分析而得到调查[59]。Koefoed等人[60]努力评估信号传递的影响,并从1355名对照组和607名双相情感障碍患者的803个单核苷酸多态性(SNP)基因型(23亿种组合)中计算出三种基因型的所有组合。这些研究类似于风险因素研究,但由于遗传分析的大数据量往往比风险因素研究大得多。

方法发展研究

许多研究利用临床大数据建立新的方法或技术,或开发新的工具来进行数据分析和决策。在一个典型的例子中,Hill等[61]设计了一个界面,使用临床数据评估各种疾病的风险比,以帮助评估治疗方案。刘等[6263他们使用大规模数据分析来优化来自全领域数字乳房x线摄影图像的乳腺癌诊断。林等[64]努力将基因型和表型数据库中的表型变量形式化。Stephen等人[65]开发了一种算法,利用临床数据仓库中的临床变量将出现呼吸窘迫的儿科患者分为不同的亚型。已根据放射治疗临床试验数据建立临床数据仓库或数据库[66],基因突变[67]、癌症病人资料[6869]、肾脏疾病患者资料[70],以及胃肠外科病人资料[71]。此外,个性化大数据的研究也有所侧重[72]、以公民为中心的医疗保健与以病人为中心的医疗保健[7273]、药物处方[7475],以及一般的决策和信息管理/检索[75-80]。在过去几年中,大范围的研究数量急剧增加,表明研究人员对临床大数据的操作欲望越来越强烈;“大数据辅助诊所”有望在不久的将来出现。


临床医学数据的多样性

使用大型数据集进行的大量医学研究表明所使用的数据资源范围广泛,并表明医学数据集的结构取决于研究问题。来自医学研究不同子领域的数据在条目数量、存储数据类型(或级别)、维度和样本量方面具有广泛的多样性[81]。数据集在大小上明显存在很大差异:来自高通量微阵列和下一代测序技术的基因表达数据集,如分析snp和拷贝数变化的数据集,往往是大量的,而临床试验数据集则没有那么大。潘等[82]建议将医学数据分为四个不同的层次:分子水平(如基因组数据)、细胞和组织水平(如干细胞分化数据)、临床和患者水平(如临床试验数据)和生物医学知识库水平(即综合数据收集)。此外,数据往往具有不同的维度级别(即属性或参数的数量,p)和样本大小(即记录/条目的数量,n)。典型的数据集分为三类之一,正如Sinha等人所总结的[83大的n .小的p;小n,大np;大n,很大p。由于计算技术的进步,大多数算法都可以处理低维数据(即大n,小np)而没有遇到重大困难。

然而,大多数临床数据是高维的(即,小n,大np或者说大np),因为病人数目有限。一个典型的例子来自于对69名布洛卡失语症患者(n=69)的研究,他们被测试了近6000个刺激句子(例如,p~ 6000) [84]。在相似的维度下,Mitchell等[39]研究了双相情感障碍,样本只有217名患者。对于高维数据,每个点、样本或元素都由许多属性描述[83]由于“维数诅咒”的影响[85]。由于高维数据在维度上是稀疏的,大多数分类或聚类方法都不能很好地工作,因为问题空间的增加降低了数据样本的总体密度。为了解决这一问题,通常采用压缩方法和显著性检验,在数据分析之前通过某种数据预处理来降低维数或选择相关特征[83]。

临床大数据的操作方法

数据存储与处理技术“,

由于大数据的海量和复杂性,非关系型和分布式数据库,如Apache Hadoop [86,谷歌BigTable [87, NoSQL [88],并且使用大型并行处理数据库而不是传统的关系数据库来存储数据。大量的生物统计软件包已被用于处理大型临床数据集,其中一些软件包启用了基于云或分布式计算的功能。常用的软件包包括但不限于SAS [3651-53], m + [51], SPSS [363945], pp-vlam [89], Stata [90]和R [91]。这些技术和工具极大地促进了大数据的处理。

数据预处理方法

如果不进行预处理,临床原始大数据可能是高度多样化和无信息量的。从原始计算机断层扫描数据中提取诊断是临床大数据预处理的主要方式之一。这种类型的过程依赖于专家的个人专业知识,可能是偏见的来源。大多数早期的大数据分析,包括弗雷明汉心脏研究(Framingham Heart Study)收集的数据,都采用了某种形式的预处理;因此,策展存在挑战[6]。作为专家预处理、计算算法或统计方法的替代方法,包括压缩方法、显著性检验或归一化[92]可以对原始大数据进行预处理。这种方法也可能引入偏差,并可能在数据集成过程中导致不确定性问题。

在某些场景中,可视化可以是数据预处理(以及结果显示)的一部分。这方面的典型例子包括热图的使用[93],基因排列[94],蛋白质结构可视化[95]、散点图矩阵、树可视化、网络可视化、平行坐标、堆叠图等。当感兴趣的大数据分散或存储在不同资源时,数据集成[9697]和federation [98]是数据预处理过程中的一个重要阶段。方法包括资讯汇[97],可浏览和查询多个联网信息源,可为数据整合和映射后的不确定性问题提供解决方案[99]。

数据分析的统计方法

一些常用的统计学方法已应用于临床数据分析。最常见的包括线性回归和逻辑回归[30.],潜在类别分析[One hundred.],主成分分析[101]、分类及回归树[One hundred.]。此外,对数和平方根变换[58],朴素贝叶斯方法[102]、决策树[103]、神经网络[104],支持向量机[105],隐马尔可夫模型[83也被用来研究医学数据中的问题。

当数据集不是过于复杂时,单个测试(例如,简单的Student’st检验)应该强大到足以拒绝零假设,单假设检验是采用的方法[106]。有时,除非对同一数据集应用不同的统计检验,否则无法确定假设的重要性。多重测试通常用于确定值得进一步调查的相关性[107]。错误发现率的算法[108]和家庭错误率[109]计算已经在基因表达数据和复杂程度相似的数据集的研究中实现了多次测试。

临床大数据应用的挑战与局限

概述

大数据本身有很多局限性。如上所述,这些限制包括“报告来源的充分性、准确性、完整性、性质以及对数据质量的其他衡量标准”[110]。这些限制的后果在《模型》一书中得到了简洁的总结。的行为。得很厉害。“(111]。建模通常会导致有偏见的统计相关性或推断,有时被称为“错误发现”。临床大数据用户面临着一系列的挑战,包括但不限于样本量、选择偏差、解释问题、缺失值、依赖问题和数据处理方法。

样本大小

在分析大数据临床数据集时,一个违反直觉的挑战是,与允许统计显著性分析的属性数量相比,有时样本量并不大。有时采用人口调查方法,因为这些方法可以提供更大的数据集。然而,这类数据的真实性和准确性可以说是有限的;因此,调查方法不能可靠地用于产生充分的描述或预测[39]。

选择性偏差

任何数据集都是数据的选择,而不是整个数据世界;因此,选择偏差是一个非常现实的限制[112即使样本量很大。从这个意义上说,所有临床资料的研究都有一定的局限性[39]。

解释问题

Gebregziabher等[43]指出,由于数据集的参数和相关元数据的复杂性和描述/文档不足,通过许多翻译研究项目生成的用于回答公共卫生利益问题的数据集不能不言自明。因此,解释数据的方法可以成为各种哲学辩论的主题。例如,数据可能不完全naïve或客观,解释可能因主观假设和/或个别分析师的操作而有偏见。

缺失值

大型数据集有缺失值是一个常见的问题,在许多情况下,这个问题可能是显著的[44]。一个典型的例子是弗雷明汉心脏研究,其中关于血清尿酸的数据大部分缺失。此外,协变量(即属性)可能不能完全捕捉患者的风险程度,并可能导致结果的不确定性[53]。

依赖问题

一个经常被忽视的问题是数据的依赖性。数据集中属性或样本之间的依赖关系可能导致自由度降低和/或一些统计原则不再适用。当通过随访对同一患者进行多次评估,以及根据使用类似药物治疗的不同患者的样本得出基因表达的相关性时,就会发现这方面的例子[83]。由于许多统计方法不考虑依赖性,如果在数据分析之前不适当解决这个问题,这些测试的结果可能是不可靠的。

数据处理方法

有效地处理大数据一直是一个挑战。在处理和分析过程中,必须考虑数据集的所有方面,包括收集、管理、提取、集成、解释、imputation和选择适当的统计方法。有人声称,由于研究人员缺乏可用工具和方法的知识,对大型数据集的分析通常是次优的[83]。另一方面,处理大数据的算法在一定程度上也不发达,值得更多关注[113]。

结论

本文回顾了分析临床大数据的研究,并讨论了与数据存储和分析相关的问题。大数据正在成为生物学和临床研究的共同特征。今天,一个生物物理研究人员可以在几个小时内生成tb级的数据。在过去的十年中,临床数据集的规模增长得令人难以置信,这主要是由于使用了现代技术来收集和记录数据。使用临床大数据的研究人员面临着多重挑战,而数据本身也有局限性。数据分析方法必须与我们收集和存储数据的能力保持同步。

作者的贡献

WW对本文所引用的文献进行了搜索和初步审查,并撰写了手稿。EK指导了研究,并对手稿进行了严格的修改。

利益冲突

没有宣布。

  1. 温克巴赫,波维恩,芬斯特尔。重症监护大数据集的可视化。计算应用医疗护理年鉴1992:18-22 [免费全文] [Medline
  2. 王杰,陈勇,华睿,王鹏,付杰。分布式大数据存储与数据挖掘框架的太阳能发电量预测。Photonics and Optoelectronics conference (POEM) 2011 [免费全文] [CrossRef
  3. 王建忠,陈玉军,华睿,王鹏,付杰。分布式大数据存储与数据挖掘框架的太阳能发电量预测。光子与光电子学会议(POEM) 2011 2011 [免费全文] [CrossRef
  4. 付杰,陈志华,王继昌,何明明,王建忠。基于HPC应用的分布式存储系统大数据挖掘——太阳能光伏预测系统实践。Information-Tokyo 2012; 15(3): 3749 - 3755。
  5. Brinkmann BH, Bower MR, Stengel KA, Worrell GA, Stead M.大规模电生理学:大数据的获取、压缩、加密和存储。中华神经科学杂志,2009;30 (1):339 - 339 [J]免费全文] [CrossRef] [Medline
  6. Howe D, Costanzo M, Fey P, Gojobori T, Hannick L, Hide W,等。大数据:生物检测的未来。自然2008;455(7209):47-50 [免费全文] [CrossRef] [Medline
  7. 张志强,张志强,张志强,等。大型活动识别参考数据集的收集和管理。Ieee Sys Man Cybern 2011 2011:30-35。[CrossRef
  8. O'Driscoll A, Daugelaite J, Sleator RD。基因组学中的“大数据”、Hadoop和云计算。中国生物医学工程学报,2013;46(5):774-781。[CrossRef] [Medline
  9. 李家强,唐文伟,崔克强。关系数据库的替代方案:临床数据存储的NoSQL和XML方法的比较。中国生物医学工程学报,2013;29(1):489 - 497。[CrossRef] [Medline
  10. 拜尔MA,道格拉斯L.“大数据”的重要性:一个定义。2012网址:http://www.gartner.com/it-glossary/big-data/[访问2013-08-25][WebCite缓存
  11. 杨晓明,杨晓明,杨晓明,杨晓明。大数据集的逆技术分析。地球与行星内部物理1976;12(2-3):248-252。[CrossRef
  12. 贝思·德,艾泽曼,德·莱西,李世杰。利用大数据集的双向模式分析评价基因型适应性。遗传1976;37(2):215 - 230。[CrossRef
  13. Chaudron J, Assenlineau L, Renon H.基于大量纯组分数据分析的Redlich-Kwong状态方程的新修正。化学工程,1973;28(3):839-846。[CrossRef
  14. 格雷夫JF,伍德RW。处理大型数据集。神经毒物醇,1990;12(5):449-454。[Medline
  15. 阿克曼乔丹。大数据。中华实用医学杂志2012;28(2):153-154。[Medline
  16. Trelles O, Prins P, Snir M, Jansen RC。大数据,但我们准备好了吗?Nat Rev Genet 2011 3月12日(3):224。[CrossRef] [Medline
  17. ATK公司分析。《大数据与当今商业模式的创造性毁灭》2013http://www.atkearney.com/strategic-it/ideas-insights/article/-/asset_publisher/LCcgOeS4t85g/content/big-data-and-the-creative-destruction-of-today-s-business-models/10192[访问2013-11-25][WebCite缓存
  18. Halevi G, Moed HF。大数据作为一个研究和科学课题的演变:文献综述。2012http://www.researchtrends.com/issue-30-september-2012/the-evolution-of-big-data-as-a-research-and-scientific-topic-overview-of-the-literature/[访问2013-11-25][WebCite缓存
  19. 李文杰,李志强,李志强,等。大尺度城市交通传感器数据集的概率分析。从传感器数据中发现知识,2010;[CrossRef
  20. 李春华,李春华,李志强,李志强。基于DNDC模型的农田土壤有机碳储量长期变化区域模拟:针对空间显式数据集的大规模模型验证。土壤利用管理2006;22(4):342-351。[CrossRef
  21. 陈晓明,李志强,李志强,陈志强,等。基于熵的大地震电磁信号反演方法。马计算科学与工程2009:29-35 [免费全文
  22. 奥巴马总统的竞选团队是如何利用大数据来凝聚选民的。技术更新2013;116(1):38-49 [免费全文
  23. 凯斯勒RC,布朗RL,布罗曼CL。精神病学求助的性别差异:来自四项大规模调查的证据。中华卫生杂志1981年3月22日(1):49-64。[Medline
  24. 刘易斯M.《点球成金:赢得不公平游戏的艺术》W. In:《点球成金:赢得不公平游戏的艺术》。纽约州纽约:W. W. Norton & Company;2003.
  25. Ekins S, Williams AJ。当制药公司发布大型数据集时:是大量的财富还是傻瓜的黄金?今日药物发现2010;15(19-20):812-815。[CrossRef] [Medline
  26. 格里姆利·埃文斯J,塔利斯RC。老年人护理的新起点?英国医学杂志2001;322(7290):807-808 [免费全文] [Medline
  27. Jee K, Kim GH。大数据在医疗领域的潜力:关注如何重塑医疗体系。health Inform Res 2013;19(2):79-85 [免费全文] [CrossRef] [Medline
  28. 默多克TB,德斯基AS。大数据在医疗领域的应用是必然的。《美国医学会杂志》2013;309(13):1351 - 1352。[CrossRef] [Medline
  29. 参议员的职位啊。阿尔茨海默病大型神经成像数据集的临床价值。神经影像学临床杂志2012;22(1):107-118,ix [免费全文] [CrossRef] [Medline
  30. Bakke PS, Zhu G, Gulsvik A, Kong X, Agusti AG, Calverley PM,等。两大数据集中COPD的候选基因。中国生物医学工程学报,2011;26 (2):344 - 344 [J]免费全文] [CrossRef] [Medline
  31. Solomon BD, Nguyen AD, Bear KA, Wolfsberg TG。临床基因组数据库。中国环境科学与工程学报,2013;29 (3):337 - 337 [j]免费全文] [CrossRef] [Medline
  32. 刘小林,杜建平,李文泽,左敏,韩志明。基于Olap技术的数据挖掘数据仓库。载于:Ciict 2008:中国-爱尔兰信息通信技术国际会议论文集。2008发表于:中国-爱尔兰信息通信技术国际会议论文集;2008年9月26日至28日;中国北京,第176-179页。[CrossRef
  33. 《纽约时报》,2012。大数据时代http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted=1&_r=0WebCite缓存
  34. 麦肯E. EHR提高投资回报率。2013网址:http://www.healthcareitnews.com/news/ehr-boost-roi-revenue-medical-group[访问2013-11-25][WebCite缓存
  35. 组三位一体。EMR收益和投资回报分类。2008网址:http://www.informatics-review.com/wiki/index.php/EMR_Benefits_and_Return_on_Investment_Categories[访问2013-11-25][WebCite缓存
  36. Kjaergard LL, Villumsen J, Gluud C.报道了meta分析中大型和小型随机试验的方法学质量和差异。安实习医学2001年12月4日;135(11):982-989。[Medline
  37. Mancia G, Omboni S, Ravogli A, Parati G, Zanchetti A.抗高血压治疗评估中的动态血压监测:来自大型数据库的额外信息。血液出版社1995;4(3):148-156。[Medline
  38. Reichelt JG, Heimdal K, Møller P, Dahl AA。具有明确结果的BRCA1检测:一项基于大型临床样本的心理困扰的前瞻性研究。家族肿瘤2002;3(1):21-28。[CrossRef
  39. 米切尔PB,约翰斯顿AK,科里J,鲍尔JR,马尔希GS。澳大利亚专科门诊双相情感障碍的特征:大数据集的比较。中华精神病学杂志2009;43(2):109-117。[CrossRef] [Medline
  40. NHGRI。2013年大数据分析方法软件开发信息征集(RFI)http://grants.nih.gov/grants/guide/notice-files/NOT-HG-13-014.html[访问2013-08-27][WebCite缓存
  41. Wolf PA, Abbott RD, Kannel WB。心房颤动是中风的独立危险因素:弗雷明汉研究。Stroke 1991;22(8):983-988 [免费全文] [Medline
  42. Hubert HB, Feinleib M, McNamara PM, Castelli WP。肥胖是心血管疾病的独立危险因素:对弗雷明汉心脏研究参与者的26年随访发行量1983;67(5):968 - 977。[Medline
  43. Gebregziabher M, Egede L, Gilbert GE, Hunt K, Nietert PJ, Mauldin P.在非常大的数据集中拟合参数随机效应模型,应用于VHA国家数据。BMC medical Res methodo2012;12:163 [免费全文] [CrossRef] [Medline
  44. Bermejo-Sánchez E, Cuevas L, Amar E, Bakker MK, Bianca S, Bianchi F,等。Amelia:一项多中心描述性流行病学研究,来自国际出生缺陷监测和研究信息中心的大型数据集,以及文献概述。中华医学杂志,2011;29(4):489 - 497。[CrossRef] [Medline
  45. Cross SS, Harrison RF。慢性特发性炎症性肠病诊断中的鉴别组织学特征:通过一种新的数据可视化技术分析大型数据集中华临床病理学杂志,2002;29 (1):516 - 516 [免费全文] [Medline
  46. Kelly D, C Zhang Q, M Soucie J, Manco-Johnson M, Dimichele D,血友病治疗中心网络调查人员通用数据收集数据库协调委员会联合结果小组委员会。血友病A和B中临床髋关节异常的患病率:UDC数据库的分析。血友病2013;19(3):426 - 431。[CrossRef] [Medline
  47. Siregar S, Roes KC, van Straten AH, Bots ML, van der Graaf Y, van Herwerden LA,等。在临床数据库中监测危险因素的统计方法:以国家心脏外科登记为例。中国心血管病杂志2013;6(1):110-118。[CrossRef] [Medline
  48. Elshazly MB, Martin SS, Blaha MJ, Joshi PH, Toth PP, McEvoy JW,等。130万成年人二级预防的非高密度脂蛋白胆固醇、指导目标和人口百分位数:VLDL-2研究(非常大的脂类数据库)J Am Coll Cardiol 2013年11月19日;62(21):1960-1965。[CrossRef] [Medline
  49. 陈琳,麦加里。使用大型数据集进行基于人群的健康研究。In: Gallin JI, Ognibene FP。eds。《临床研究原则与实践》第三版,马里兰州高地:爱思唯尔公司;2012:371 - 381。
  50. Ursum J, Bos WH, van de Stadt RJ, Dijkmans BA, van Schaardenburg D.来自大型数据集的ACPA和IgM-RF的不同性质:两种不同的自身抗体系统的进一步证据。Arthritis Res Ther 2009;11(3):R75 [免费全文] [CrossRef] [Medline
  51. 吴志强,王志强,王志强,等。口吃的危险因素:一个大数据库的二次分析。中华神经科学杂志,2010;26(4):489 - 497。[CrossRef] [Medline
  52. Monnelly EP, Locastro JS, Gagnon D, Young M, Fiore LD.奎硫平与曲唑酮在减少酒精依赖再住院中的作用:一项大型数据库研究。成瘾医学2008;2(3):128-134。[CrossRef] [Medline
  53. 来自AM, Bartholmai BJ, Williams AW, Cha SS, Pflueger A, McDonald FS。碳酸氢钠与造影剂肾病发病率增加有关:梅奥诊所7977例患者的回顾性队列研究。临床临床杂志2008;3(1):10-18 [免费全文] [CrossRef] [Medline
  54. Habash-Bseiso DE, Rokey R, Berger CJ, Weier AW, Chyou PH.大型社区诊所无创射血分数测量的准确性。临床医学杂志2005;3(2):75-82 [免费全文] [Medline
  55. 张颖,Hemond MS.通过对大型临床数据集的统计分析揭示最低血糖的预测价值。AMIA年度法律程序2009;2009:725-729 [免费全文] [Medline
  56. Morgan CL, Evans M, Toft AD, Jenkins-Jones S, Poole CD, Currie CJ。在英国一般临床实践中,双相天冬氨酸胰岛素30:70与双相人胰岛素30的临床疗效:一项回顾性数据库研究。中国临床杂志2011;33(1):27-35。[CrossRef] [Medline
  57. 小林H,宫田H,后藤M,巴巴H,木村W,北川Y,等。基于国家临床数据库中19070名日本患者的右半结肠切除术风险模型。J Gastroenterol 2013年7月27日。[CrossRef] [Medline
  58. 国际华法林药物遗传学联合会,Klein TE, Altman RB, Eriksson N, Gage BF, Kimmel SE,等。用临床和药物遗传学数据估计华法林剂量。中华外科杂志2009;36 (8):753-764 [免费全文] [CrossRef] [Medline
  59. Moreno-De-Luca D, Sanders SJ, Willsey AJ, Mulle JG, Lowe JK, Geschwind DH,等。利用大型临床数据集推断自闭症队列中罕见拷贝数变异的致病性。Mol Psychiatry 2013;18(10):1090-1095 [免费全文] [CrossRef] [Medline
  60. 郭文杰,张文杰,张文杰,等。双相情感障碍中与信号转导相关的snp组合。PLoS One 2011;6(8):e23812 [免费全文] [CrossRef] [Medline
  61. Hill B, Proulx J, Zeng-Treitler Q.探索使用大型临床数据来告知患者共享决策。种马健康技术通报2013;192:851-855。[Medline
  62. 李华,吉格尔·ML,袁勇,陈伟,霍施·K,兰兰,等。大型临床全域数字乳房x线摄影数据集的计算机辅助诊断评估。journal of Radiol 2008;15(11):1437-1445 [免费全文] [CrossRef] [Medline
  63. 李华,马文杰,李兰兰,刘志强,等。全域数字化乳房x线照片大型临床数据集上乳房实质图像的计算机化分析:两个高风险数据集的稳健性研究。中国数字影像杂志,2012;25(5):591-598 [免费全文] [CrossRef] [Medline
  64. 林文伟,李志强,李志强,等。使用临床元素模型(CEM)在基因型和表型数据库(dbGaP)中标准化表型变量的可行性。PLoS One 2013;8(9):e76384 [免费全文] [CrossRef] [Medline
  65. Stephen R, Boxwala A, Gertman P.使用大型临床数据仓库自动化选择诊断队列的可行性。AMIA年度诉讼程序2003:1019 [免费全文] [Medline
  66. Roelofs E, Persoon L, Nijsten S, Wiessler W, Dekker A, Lambin P.使用数据挖掘工具收集放射治疗试验数据的临床数据仓库的好处。中国生物医学工程学报,2013;[CrossRef] [Medline
  67. 斯坦森PD,莫特M,鲍尔EV,肖K,菲利普斯AD,库珀DN。人类基因突变数据库:为临床和分子遗传学、诊断测试和个性化基因组医学建立一个全面的突变库。Hum Genet 2013年9月28日。[CrossRef] [Medline
  68. 胡华,Brzeski H, Hutchins J, Ramaraj M,曲林,熊锐,等。生物医学信息学:为临床和基因组乳腺癌研究开发一个综合数据仓库。药物基因组学2004;5(7):933 - 941。[CrossRef] [Medline
  69. 血管生成/VEGF途径的遗传标记及其与人类癌症临床结局的关系的策划数据库。学报学报2012;51(2):243-246。[CrossRef] [Medline
  70. 张志刚,张志刚,张志刚,等。肾脏疾病的临床数据库。BMC Nephrol 2012;13:23 [免费全文] [CrossRef] [Medline
  71. 铃木H,后藤M,杉原K,北川Y,木村W,近藤S,等。日本胃肠外科临床数据库的全国性调查和建立:针对癌症注册系统的整合和改善癌症治疗的结果。中国生物医学工程学报,2011;29(1):344 - 344。[CrossRef] [Medline
  72. Chawla NV, Davis DA。将大数据引入个性化医疗:以患者为中心的框架。J Gen Intern Med 2013;28(增刊3):S660-S665。[CrossRef] [Medline
  73. 韩勇,Itälä T, Hämäläinen M.以公民为中心的架构方法——通过整合公民和服务提供商来推进电子医疗。种马健康技术通报2010;160(Pt 2):907-911。[Medline
  74. boussdi A, Caruba T, Zapletal E, Sabatier B, Durieux P, Degoulet P.一种基于临床数据仓库的精炼药物订单警报的过程。中国医学杂志2012;19(5):782-785 [J]免费全文] [CrossRef] [Medline
  75. 王志刚,王志刚,王志刚,王志刚。2009。将药品订单从两个电子健康记录系统自动映射到STRIDE临床数据仓库中的RxNorm URL:http://europepmc.org/abstract/MED/20351858/reload=0;jsessionid=4aLVRuWM5ugKTsb134ug.0[进入2014-01-09][WebCite缓存
  76. Cuggia M, Garcelon N, Campillo-Gimenez B, Bernicot T, Laurent JF, Garin E,等。Roogle:用于临床数据仓库的信息检索引擎。种马健康技术信息2011;169:584-588。[Medline
  77. 周旭,陈松,刘波,张荣,王勇,李鹏,等。面向医学知识发现和决策支持的中医临床数据仓库的开发。中华医学杂志,2010;48(2):139-152。[CrossRef] [Medline
  78. Zapletal E Rodon N Grabar N Degoulet P.临床数据仓库与临床信息系统集成的方法学:HEGP病例。种马健康技术通报2010;60(Pt 1):193-197。[Medline
  79. Hanss S, Schaaf T, Wetzel T, Hahn C, Schrader T, Tolxdorff T.数据仓库中分散临床数据的集成:面向服务的设计和实现。方法中华医学杂志2009;48(5):414-418。[CrossRef] [Medline
  80. 埃文斯RS,劳埃德JF,皮尔斯洛杉矶。AMIA年度诉讼,2012。企业数据仓库临床应用网址:http://europepmc.org/abstract/MED/23304288/reload=0;jsessionid=P5NVyPK8BYs9OV0Ra8hg.0[进入2014-01-09][WebCite缓存
  81. 哈里森JH。临床数据挖掘入门。临床检验杂志2008;28(1):1-7。[CrossRef] [Medline
  82. 潘建华,郭芳芳,程成,王冬梅。生物医学信息学中组学、成像和临床数据的多尺度集成。IEEE生物医学学报2012;5:74-87。[CrossRef] [Medline
  83. Sinha A, Hripcsak G, Markatou M.生物医学中的大数据集:突出分析问题的讨论。中国医学信息杂志2009;16(6):759-767 [免费全文] [CrossRef] [Medline
  84. Drai D, Grodzinsky Y.可变性辩论的一个新的经验角度:布罗卡失语症大数据集的定量神经句法分析。Brain Lang 2006;96(2):117-128。[CrossRef] [Medline
  85. 动态规划与统计通信理论。中国科学院学报(自然科学版)1957;43(8):749-751 [免费全文] [Medline
  86. 《Hadoop分布式文件系统:架构与设计》,2007https://hadoop.apache.org/docs/r0.18.0/hdfs_design.pdf[访问2013-11-25][WebCite缓存
  87. Chang F, Dean J, Ghemawat S. Bigtable:结构化数据的分布式存储系统。2006发表于:第七届USENIX操作系统设计与实现研讨会(OSDI ' 06);2006;西雅图,华盛顿州,美国第205-218页。
  88. NoSQL: Unix数据库(带awk)。2007网址:http://www.troubleshooters.com/lpm/200704/200704.htm[访问2013-11-25][WebCite缓存
  89. van der Burgt YE, Taban IM, Konijnenburg M, Biskup M, Duursma MC, Heeren RM,等。NanoLC-FTICR-MS测量大数据集的并行处理。中国生物化学学报,2007;18(1):152-161。[CrossRef] [Medline
  90. 占据公司。Stata参考手册:第6版。在:Stata参考手册集,4vol: Release 6。大学城,德克萨斯州:Stata Corp;1999.
  91. R开发核心团队。R.维也纳,奥地利统计计算R项目网址:http://www.r-project.org/[进入2014-01-08][WebCite缓存
  92. Bolstad BM, Irizarry RA, Astrand M, Speed TP。基于方差和偏倚的高密度寡核苷酸阵列数据归一化方法比较。生物信息学2003;19(2):185-193 [免费全文] [Medline
  93. Pleil JD, Stiegel MA, Madden MC, Sobus JR.复杂环境和生物标志物测量的热图可视化。臭氧层2011;84(5):716 - 723。[CrossRef] [Medline
  94. Garcia- betancur JC, Menendez MC, Del Portillo P, Garcia MJ。多个完整基因组的排列表明,基因重排可能有助于分枝杆菌的形成。中华流行病学杂志2012;12(4):819-826。[CrossRef] [Medline
  95. Aita T, Nishigaki K. 3D蛋白质组宇宙的可视化:基于蛋白质结构组成的蛋白质组集成映射到3D空间。分子系统学杂志,2011;26(2):484-494。[CrossRef] [Medline
  96. Lenzerini M.数据集成:一个理论视角。2002年发表于:ACM数据库系统原理研讨会论文集;2002;罗马,意大利,第233-246页。[CrossRef
  97. 李志刚,李志刚。数据集成:青少年时代的研究。2006年发表于:VLDB '06第32届超大数据库国际会议论文集;2006;韩国首尔,第9-16页。
  98. Haas LM, Lin ET, Roth MA。通过数据库联合进行数据集成。IBM系统。J 41 2002;(4): 578 - 596。[CrossRef
  99. Shyu C, Ytreberg FM。利用回归拟合热力学积分数据,减少自由能估计的偏差和不确定性。中国计算机科学,2009;30(14):2297-2304。[CrossRef] [Medline
  100. Taylor W, Gladman D, Helliwell P, Marchesoni A, Mease P, Mielants H, CASPAR研究组。银屑病关节炎的分类标准:一项大型国际研究新标准的发展。风湿性关节炎2006;54(8):2665-2673 [免费全文] [CrossRef] [Medline
  101. 葛文德,罗勃特。杨。zeitlichen Veränderungen der Papillen-Reflexion mittels hauptkomponentenenen分析。中国科学(d辑),2008;29(04):349。[CrossRef
  102. Santafé G, Lozano JA, Larrañaga P.朴素贝叶斯聚类的贝叶斯模型平均。电子工程学报2006;36(5):1149-1161。[Medline
  103. Farré J,卡布雷拉JA,罗梅罗J,卢比奥JM。持续性室性快速心律失常或中止心脏骤停患者的治疗决策树:抗心律失常与植入式除颤器试验和加拿大植入式除颤器研究的重要回顾中华心血管病杂志2000;29(4):497 - 497。[Medline
  104. 葡京PJ。人工神经网络在医疗干预中有益于健康的证据综述。神经网络学报,2002;15(1):11-39。[Medline
  105. 陈高频。利用支持向量机、径向基神经网络和多元线性回归对大数据集进行硅log P预测。化学与生物药物杂志2009;74(2):142-147。[CrossRef] [Medline
  106. Aickin M, Gensler H.在报告研究结果时调整多重测试:Bonferroni vs Holm方法。中华卫生杂志,1996;26(5):726-728。[CrossRef
  107. Bender R, Lange S.调整多重测试-何时以及如何?临床流行病学杂志2001;54(4):343-349。[CrossRef
  108. 不变基因比例和错误发现率估计的比较回顾。BMC生物信息学2005;6:199 [免费全文] [CrossRef] [Medline
  109. 范德朗MJ,杜杜特S,波拉德KS。多个测试。第二部分。控制家庭错误率的降序程序。2 .中国生物化学杂志2004;[CrossRef
  110. Sanders CM, Saltzstein SL, Schultzel MM, Nguyen DH, Stafford HS, Sadler GR.理解大型数据集的局限性。中华癌症杂志,2012;27(4):664-669。[CrossRef] [Medline
  111. 德尔曼e模型。: Models.Behaving.Badly。为什么混淆幻觉和现实会导致灾难,在华尔街和生活中。纽约,纽约州:自由出版社;2012.
  112. Kobayashi T, Kishimoto M, Swearingen CJ, Filopoulos MT, Ohara Y,德田Y,等。美国和日本患者Behçet综合征的临床表现、治疗和与两组主要标准的一致性的差异:数据来自一项大型三中心队列研究。Mod Rheumatol 2013;23(3):547-553。[CrossRef] [Medline
  113. Jacobs A.大数据的病态。通信ACM 2009;52(8):36。[CrossRef


BD2K:从大数据到知识
CS:计算机科学
SNP:单核苷酸多态性
ZB:字节


G·艾森巴赫(G Eysenbach)编辑;提交27.08.13;L Toldo, J Gao同行评审;对作者27.10.13的评论;订正版本收到日为25.11.13;接受08.12.13;发表17.01.14

版权

©Weiqi Wang, Eswar Krishnan。最初发表于JMIR研究协议(http://medinform.www.mybigtv.com), 2014年1月17日。

这是一篇开放获取的文章,根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR研究协议上的原创作品。必须包括完整的书目信息,http://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map