发表在2卷, No . 2(2014): Jul-Dec

的观点

通讯作者:

里奥·安东尼·塞利,医学博士,公共卫生硕士,硕士

2014年麻省理工学院关键数据会议组委会

医学工程与科学研究所

麻省理工学院

马萨诸塞大道77号

e25 - 505

剑桥,马萨诸塞州,02139

美国

电话:1 617 253 7937

传真:1 617 258 7859

电子邮件:lceli@mit.edu


相关的文章这是更正后的版本。见更正声明:http://medinform.www.mybigtv.com/2015/1/e6/

由于越来越多的人担心大数据只会加剧不可靠研究的问题,麻省理工学院计算生理学实验室于2014年1月组织了关键数据会议。来自学术界、政府和各行业的思想领袖——包括临床医学、计算机科学、公共卫生、信息学、生物医学研究、卫生技术、统计学和流行病学——聚集在一起,讨论了卫生保健领域大数据的陷阱和挑战。会议的关键信息是,大量数据的价值取决于研究人员在开放环境中共享数据、方法和发现的能力。如果要从回顾性数据的分析中获得经验价值,团队必须在类似的问题上持续合作,以创造更有效的同行评审。这将导致方法和质量的改进,分析的每次迭代都会产生更高的可靠性。

中华医学杂志,2014;2(2):922

doi: 10.2196 / medinform.3447

关键字



未能存储、分析和利用临床护理过程中产生的大量数据,限制了护理质量和医学实践的进步。其他行业,如金融和能源,已经将数据分析用于学习目的。虽然这些创新在临床领域仍然相对有限,但对“临床护理大数据”的兴趣却急剧增加。这部分是由于电子病历(EMR)系统的广泛采用,部分是由于人们越来越意识到需要更好的数据分析来管理复杂的医疗保健系统。然而,在大多数情况下,临床企业还没有解决“大数据”特有的问题,因为它还没有令人满意地解决更基本的数据管理问题。现在越来越明显的是,我们正处于一场巨大变革的风口浪尖,这场变革将把数据和数据科学整合到医疗保健领域。除了对回顾性分析进行必要的主要数字增强之外,实时和预测分析也将成为(不久)将来更牢固的基于数据的环境中无处不在的核心功能。最初的麻省理工学院(MIT)关键数据会议旨在解决这一重要转变中涉及的许多数据问题[12]。

人们对创建“商业智能”的临床模拟越来越感兴趣,这表明有必要发展和培养一种能够管理和转化基于数据的发现的临床文化,包括来自“大数据”研究的发现。将这种改进的临床数据的二次使用与数据驱动的学习方法相结合,将使这种新文化能够关闭临床数据反馈循环,促进更好和更个性化的护理。作者已经注意到“大数据”的几个特征:非常大的数据集,大量不相关和/或非结构化数据集,或者数据创建的高速或低延迟[3.4]。重症监护病房(ICU)是一个数据特别丰富的临床领域的有力例子,如果这些大量数据可以被利用并系统地用于指导实践,则具有临床和经济效益的潜力。因此,我们使用“关键数据”一词来指代ICU环境中的大数据。

本文总结了2014年1月7日在麻省理工学院举行的关键数据会议上的讲座和小组讨论。这次会议是一个由两部分组成的活动的第二部分,该活动汇集了临床医生、数据科学家、统计学家和流行病学家。

2014年1月3日至5日,大会以“数据马拉松”拉开帷幕。图1),它汇集了数据科学家和临床医生团队,以挖掘重症监护多参数智能监测(MIMIC)数据库(版本II)。MIMIC II是一个开放访问的数据库,包括来自马萨诸塞州波士顿贝斯以色列女执事医疗中心(BIDMC)成人重症监护病房的6万多例记录[5]。超过100人参加了为期两天的数据马拉松,项目海报在关键数据会议上展出。

1月7日的关键数据会议是一个大约10小时的项目,包括两个主题演讲(Jeffrey Drazen, MD和John Ioannidis, MD, PhD),七个单独讲座,三个小组讨论和两个海报会议(图2)。整个会议的主题是对重症监护环境中大数据的有意义的二次使用。会议资料(程序、幻灯片和视频)可在麻省理工学院关键数据会议网站[6]。

图1所示。在关键数据马拉松上的演讲。图片来源:Andrew Zimolzak。
查看此图
图2。关键数据海报会议。图片来源:Andrew Zimolzak。
查看此图

《新英格兰医学杂志》主编Jeffrey Drazen医学博士在其主题演讲中指出,随机对照试验(rct)是目前数据质量的黄金标准,基于证据的建议数量不足以解决大多数临床决策。因此,临床医生常常被“盲目”地行医。没有必要的知识生成来捕捉现实临床场景中涉及的决策因素,临床决策往往不是数据驱动的,而是由过去经验支持的“机会游戏”决定的。从历史上看,医生会记录病史,进行身体检查,并根据他或她的观察做出诊断。随着技术和医学理论的进步,诸如实验室和成像模式等知识有助于减少疾病诊断的机会。死记硬背地应用现有知识是不够的,因为医生想要建立因果关系。到目前为止,这是通过理论完成的,但向前发展,除非理论得到证实,转化为实践,并在临床实践中系统地传播,否则理论将是不够的。

这种反复试验的过程今天仍在继续,因为从常规护理中产生的数据往往没有得到收集,也很少为改善人口健康而传播。即使在像ICU这样信息丰富的护理环境中,也缺乏必要的知识来减轻机会的影响。78]。因此,ICU为潜在的改进提供了肥沃的土壤。具体来说,Drazen提出了临床数据挖掘的潜在作用,可以回答使用随机对照试验无法回答的问题[9]。这种方法可能以更少的资源更快地产生效益。

德拉赞最后提出了一个问题:“在什么情况下数据才算足够好?”文献记载的关联可能很强,但不足以“证明”建立因果关系。Drazen与实验物理学家进行了比较,实验物理学家对理论家的工作以及先前的实验结果进行了未来的研究:生物医学信息学家可以识别有意义的关联,然后可以指导新随机对照试验的设计,其中可以通过控制潜在的混杂因素来提高数据质量。这将需要一线临床医生、医务人员、数据库工程师和生物医学信息学家的跨学科合作,此外还需要与卫生信息系统供应商建立强有力的伙伴关系,以便实现从常规护理期间的知识发现到为人群提供最佳护理的实时应用的闭环。


Charles Safran,医学博士,医学硕士,BIDMC和哈佛医学院临床计算部门的负责人,接下来发表了演讲,分享了循证医学(EBM)的梦想:在理想的情况下,高质量的证据将存在,以指导临床医生解决几乎每天都面临的所有难题(例如,该进行哪种测试,如何解释测试结果,以及采用哪种治疗方法)。在过去的半个世纪里,前瞻性随机对照试验一直是EBM的黄金标准。赛峰集团指出,与Drazen一样,此类试验也受到许多限制,包括经济负担和设计限制。一项随机对照试验只能解决非常有限的一组特别提出的临床问题。在许多临床情况下,进行随机对照试验要么是不道德的,要么是不可能的。此外,纳入和排除标准往往限制了RCT研究的普遍性,并且考虑到运行RCT通常需要的时间,这些研究很难跟上快速发展的医学实践。

另一种方法能否避免rct的某些局限性?赛峰认为,利用EMR数据的回顾性观察研究(ROS)是产生循证医学的一个很有前途的途径。数字记录包含广泛的临床信息,包括病史、诊断、药物、免疫日期、过敏、放射学图像以及实验室和测试结果。因此,常规收集的电子病历数据包含丰富、连续和时间敏感的信息,这些信息是支持临床决策和证据生成所需的[10]。然而,尽管有许多潜在的好处,Safran指出,EMR数据的二次使用仍然受到限制:EMR数据的收集主要不是为了证据生成和数据分析,而是为了实时和纵向的患者护理[11]。因此,EMR数据通常结构不佳、无组织、未标准化,并且受到错误、工件和缺失值的污染。

Safran赞同Drazen的观点,建议我们应该将前瞻性随机对照试验和ROS的使用结合起来,使两者的局限性互补。此外,他建议有可能纳入其他新的数据来源,如社交媒体数据、便携式传感器的健康数据和遗传数据。虽然建立这样一个全面的框架存在许多障碍,但临床、遗传和治疗变量的大数据图景有望彻底改变诊断和治疗。


对于医学博士、医学硕士、BIDMC首席信息官John Halamka来说,在医院系统中处理大数据是一项巨大的挑战,但同时也带来了巨大的希望,可以提供更有意义的信息,帮助临床医生在整个护理过程中治疗患者。在他的职位上,Halamka的任务是以新颖的方式收集数据,以便为BIDMC的患者群体提供更好的护理。推进“医疗保健大数据”的一个机会是将通过电子病历系统收集的数据规范化,并将其存储在大型集中数据库中。然后,分析工具可以用于识别和隔离作为《平价医疗法案》下的负责任医疗组织(ACO)参与所需的质量数据报告措施。

Halamka强调,构建这些大型数据集从一开始就没有提供本质上的价值,他说:“工作流程是不同的,词汇表是不同的,人员也是不同的。”因此,由于纵向数据之间存在差异,很难对数据进行规范化并将其提炼为标准模式。此外,由于每个供应商对概念的建模不同,因此必须强调在供应商的产品之间开发“最小公分母”概念图。

然而,通过这种标准化的努力,医生可以利用“记分卡”来评估自己的患者群体在不同的支付模式,如蓝十字蓝盾的替代质量联系措施,医疗保险和医疗补助中心(CMS)医师质量报告系统措施,以及CMS ACO措施。此外,医生可以查询这个数据集来确定最有效的治疗方案。然而,此类查询确实会在医院环境中造成隐私和安全问题,并且由于医院工作人员使用个人移动设备(如手机、笔记本电脑和平板电脑),这些风险进一步复杂化。


第一个小组面临的问题(图3),由Gari Clifford, PhD, Perren Cobb, MD和Joseph Frassica, MD组成,由Leo Anthony Celi, MD, MS, MPH主持,是关于如何在临床实践中创建数据驱动的学习系统[8]。隐私问题被认为是主要障碍,因为在重新识别风险和共享价值之间存在权衡。此外,最近的研究表明,患者不愿意出于某些目的(如营销、制药和质量改进措施)共享数据,这表明需要对公众进行数据共享好处的教育,并且共享的数据可以在不被用于营销和其他不必要目的的情况下被利用。2]。

知识产权和透明度之间也存在矛盾。解决这一问题可能需要政府、工业和学术机构之间的合作,正如美国重大疾病和伤害试验小组所看到的那样[12]。还有一种风险是,数据共享将使作者不愿撰写大胆或非常规的论文(正如Reinhart和Rogoff所做的那样)。13]),如果数据共享使这类论文面临更高的被反驳风险(如Herndon等人的反驳)[14])。

最后,小组对实际捕获的数据数量多但人们认为质量低的问题表示关注。虽然有希望自动捕获的数据可能比手动输入的数据更准确,但这样做也有一些风险,即会引入额外的噪音,进一步加剧数量大于质量的问题。这一问题提出了获取更多和更高质量数据以促进再现性的挑战。小组成员注意到,像关键数据会议这样的多学科会议在这方面特别有益,因为它们为临床医生和数据科学家提供了一个机会,让他们更好地理解现实世界的活动与这些活动产生的数据之间的关系。

图3。数据驱动学习系统面板。图片来源:Andrew Zimolzak。
查看此图

在接下来的小组讨论中,由重症监护医师Leo Anthony Celi(医学博士、医学硕士、公共卫生硕士)、重症监护医师Djillali Annane(医学博士、医学博士)、Peter Clardy(医学博士)和Taylor Thompson(医学博士)主持,讨论了当前临床医生文化在实现医学数据驱动创新目标方面存在的障碍(图4)。小组成员观察到,从历史上看,EBM被认为与成熟的观察性试验和经验不相容,可能灌输了残余程度的阻力。因此,正如赛峰集团的观点,将“大数据”理解为随机对照试验和(病理)生理学研究的补充将变得越来越重要。此外,压缩和过滤大量数据以使其适用于床边将是采用的关键。在设计过程中特别纳入临床医生将有助于阻止工具的创建,这些工具会使员工被无关的信息和繁重的额外任务淹没。同样,将“大数据”纳入医学教育,使学生和住院实习医师能够理解其在日常护理和加快研究中的重要性,也是至关重要的。

虽然专家组同意需要更多的证据来确定大数据是否能够促进比较有效性研究,但也承认有必要对这一替代方案进行调查,因为随机对照试验没有、也不会为日常所需决策的重要部分提供答案。扩大随机对照试验来解释每天成千上万的决策是不可行的,因此大数据方法可能是填补这些空白的最有效方法。例如,目前在危重病人液体复苏分析临床试验研究方面处于领先地位的三个小组合作创建了一个通用数据库架构,以便对个别病人进行荟萃分析,并由外部监测委员会对这些试验进行总体评估。

图4。医师培养小组。图片来源:Andrew Zimolzak。
查看此图

有人担心,业界会继续将数据视为潜在的收入来源,因此会反对向他们认为具有商业价值的专有数据提供开放访问。在当天的最后一个小组讨论中,由Bessem Venture Partners的MBA Ambar Bhattacharyya主持,行业小组成员Josh Gray, AthenaResearch的MBA, Enakshi Singh, SAP的MS,以及Omar Badawi, PharmD, Philips Healthcare的公共卫生硕士就这一主题发表了他们的见解。

他们首先讨论了自由共享数据库的问题,并指出与数据所有权相关的问题并不局限于行业。在医疗保健数据所有权的大多数利益相关者(患者、医院、提供者、支付方、供应商和学术界)中,也可以观察到类似的问题和冲突。一般来说,工业数据所有者希望保护他们的数据不被那些可能使用这些数据与他们竞争、共享或出售数据以获得直接临床价值或从可能的见解中获利的人所窃取。他们还希望避免与共享相关的间接成本。他们感兴趣的是允许社会利用他们的数据来获取利益,当且仅当这些其他利益不受影响时。

负责任地分享二级临床数据的成本并非微不足道。虽然理解数据的复杂性是一项重大挑战,但理解在主系统中输入数据的工作流程通常更加复杂,需要广泛的支持。因此,共享二级临床数据对于行业来说可能是一项代价高昂的举措,降低了其作为商业目标的优先级。当合作需要知识产权协议时,这些挑战会进一步加剧。缺乏公认的研究协议标准实践,再加上过时的专利制度,为合作制造了很少被克服的障碍。由于制定新的法律研究协议所面临的挑战,许多合作的想法要么需要数年时间才能启动,要么永远不会实现。

虽然业界和研究人员并不反对共享数据以确保可重复性,但防止上述担忧是至关重要的。数据共享是否可以避免知识产权丢失的风险?否则,创新的激励可能会被最小化。谁来承担确保复制团队完全理解数据细微差别的费用?谁将阻止竞争对手或其他怀有恶意的人不恰当地将有效的研究贴上“垃圾科学”的标签?这种不正当的干预可能会使人们对有效的早期发现产生混淆,并不公平地分散和诋毁主要研究人员的注意力。

最终,越来越多的人意识到,如果政府继续支持开放获取研究网络的发展和维护,随着时间的推移,数据将不再是一种商品。随着这些数据库的规模和质量超过私有数据库,社会将受益,因为合作的障碍和保留私有所有权的价值将减少。


麻省理工学院计算机科学与人工智能实验室的Peter Szolovits博士强调了大数据如何经常胜过良好但较小的数据。谷歌的研究人员从其长达十年的自然语言处理经验中得出了类似的论点,表明对于一些重要任务,数据集大小的数量级增长会导致性能的提高,这可能会掩盖建模技术的改进。15]。他们还认为,抛弃罕见事件是一个坏主意,因为尽管这些事件可能个别罕见,但在以后更大规模的研究中,它们可能被证明是重要的。

在临床世界中,患者的状态取决于复杂的病理生理,由遗传易感性、环境暴露、治疗和许多其他因素决定。虽然有许多潜在的方法可以将临床结果形成复杂的统计模型,但通常是简单的模型给出了最好的、最可解释的结果。一些临床医生和流行病学家已经利用大量的观察性数据来改进临床实践,特别是在确定药物副作用方面,例如罗格列酮[16],罗非昔布[17]。Cox比例风险,naïve贝叶斯,线性和逻辑回归,以及类似的模型可以使用聚合变量来总结动态变化,而不会增加额外的复杂性。


MIMIC的故事:开放获取重症监护数据

由于寻求创造新的临床知识和工具的研究人员依赖于相关数据的可用性,限制对数据的获取引入了阻碍研究进展的障碍。自20世纪80年代以来,这个简单的原则一直是Roger Mark医学博士研究的核心,当时他的工作重点是开发用于患者监测的实时心律失常分析工具。

和今天一样,20世纪80年代的研究人员的标准是为了自己的利益而私下维护封闭的数据库。因此,当马克的团队需要数据时,他们开始艰苦地创建自己的资源,从波士顿BIDMC的病人那里收集心电图,在这个过程中,添加了超过10万条注释。他们打破传统,公开分享数据集,理由是分析数据的人越多,对心律失常的整体理解就会越好。该数据集被称为麻省理工学院-贝斯以色列医院(MIT-BIH)心律失常数据库[18]。

其影响深远。MIT-BIH数据库不仅激发了研究兴趣,还产生了有益的竞争,成为评估算法的共享资源。研究人员竞相看谁的工作在标准数据上表现最好,最终导致该数据库成为评估商业算法的联邦要求的一部分。这一成功促使该团队进一步开发了开放性资源,包括生理学数据开放平台PhysioNet和重症监护数据丰富数据库MIMIC II。

PhysioNet在120多个国家拥有超过50,000名注册用户,并因加速发现步伐而获得国际认可[19]。Mark将PhysioNet的成功很大程度上归功于参与合作者的进步心态。成功不仅需要资金,还需要合作的临床医生、研究人员、医院技术人员和当地伦理委员会之间的合作。为了解密其监测系统输出的专有数据格式,还需要并获得商业伙伴的参与。

研究的可重复性和开放数据正日益得到应有的关注,但改变实践需要各个层面的支持[8]。为了让开放技术被接受,资助者必须认识到强大的数据库基础设施所带来的附加价值,并相应地分配资金。研究人员也必须接受开放的方法,这可能会挑战一些潜在的职业奖励制度。随着态度的转变,并通过吸引全球研究界的创造性能量,Mark希望MIMIC将成为一个跨国资源,导致新知识和新工具的产生。


创建和捕获数据的能力正在爆炸式增长,为世界各地的卫生组织提供了拯救生命和稀缺资源的巨大潜力。Yadid Ayzenberg博士在他的演讲中讨论了“可穿戴传感器数据的机遇和挑战”,重点讨论了可穿戴技术和几乎无处不在的移动电话的结合如何有潜力解决医疗保健中的一些挑战。例如Poh等人的作品[20.]以及萨诺和皮卡德[21该装置使用手腕上佩戴的皮肤电活动和加速生物传感器来检测抽搐发作和睡眠阶段。

可穿戴技术提供了一种从传统的非周期性“快照”监测方法过渡到连续和纵向监测范式的方法,增加了患者对其护理的参与,并促进了医患互动。大量的个人健康数据已经通过手机和腕带等消费设备产生,这些设备可以监控睡眠模式、运动、压力、卡路里消耗等。然而,在大多数情况下,数据存储在每个设备的基础上,并且存在有关数据管理、所有权、隐私和滥用的未解决问题。可穿戴传感器测量数据中的噪声和伪影也是一个重要的挑战。需要新的分析方法,将“脏数据”转化为高质量的数据。


根据温斯顿·海德博士的说法,基于数据驱动的发现和决策的新经济的前景也激励着他自己的基因组学领域。基因组测序技术的进步将使测序一个基因组的成本在不久的将来低于100美元。因此,据估计,到2015年,将有100万个基因组数字化,并对公共卫生效益寄予厚望。然而,Hide警告说,仍然有一个“基因组变异”问题需要解决。一种商业测序产品预测Kira Peikoff患牛皮癣的风险比平均水平高出20%,而另一种商业测序产品预测她患牛皮癣的风险比平均水平低2%。22]。

基因组特征报告的差异有两个潜在的根本原因。首先,由于使用不同的测序技术而导致采样问题,这在评估基因组组装时引入了错误。其次,在定义基因在疾病中的作用时存在一个解释问题,这损害了由单核苷酸多态性分析工具确定的临床结果的预测。

数百万个基因组的可用性将允许在全基因组关联研究中完成与特定疾病相关的基因目录。然而,Hide坚持认为,要找到明确的药物靶点,就需要建立一个不断发展的功能目录,以解释复杂的基因途径[23],而群体的选择不仅取决于种族(经典表型),还取决于生理甚至分子差异。

将基因测试应用于公共卫生,有助医生转变为以数据为中心的专家,并为"精准医疗"铺平道路。[24]。这种具有挑战性的提供卫生保健的方式需要新的战略和战术,将研究转化为临床实践。这些可能包括建立开放获取的基因组和临床数据库,使用一种共同的科学语言[25和(开放的)数据访问工具。监管机构,如食品和药物管理局,将在保证基于基因测试的诊断的标准化和可靠性方面发挥作用。这些工具必须保证再现性[8发现的基因组信号,并有助于改进将遗传特征映射到疾病及其治疗的在线平台(例如,癌症基因组图谱);网页)。


大数据的支持者宣称,通过实证分析和数据挖掘,人类的知识将以数量级扩大,但正如斯坦福大学教授约翰•约阿尼迪斯(John Ioannidis)所说,“大数据带来了大问题”。Ioannidis讨论了数据分析的阴暗面,其中偏见导致很大一部分已发表的医学科学得出了错误的结论。《公共科学图书馆医学》(PLOS Medicine)上下载次数最多的论文《为什么大多数发表的研究结果都是错误的》的作者[26],约阿尼迪斯认为,大多数具有统计学意义的结果很可能是假阳性。例如,Ioannidis及其同事利用瑞典国家药物和癌症登记数据库发现,在单独评估的560种药物中,几乎有三分之一与更高的癌症风险相关。

正如约阿尼迪斯所强调的,问题不在于我们拥有多少数据。增加样本量对医学领域来说是一个巨大的福音。问题在于缺乏透明度。当他回顾一篇发表在期刊上的关于新数据集的论文时,他的想法立即转移到那些没有发表的研究上。这在所谓的“效应振动”中被量化,根据所做调整的混杂变量,可以得出完全相反的结论。以维生素E为例,对某一组混杂因素进行调整后得出的结论是,它增加了死亡的相对风险,而对另一组同样合理的混杂因素进行调整后得出的结论则相反,即降低了死亡风险。这也许可以解释为什么在随后发表的试验中,90%的随机对照试验的效果较低[27]。


抛开目前的局限性,ROS确实提供了一个机会,可以对不太可能由随机对照试验检验的研究问题进行比较有效性研究,或者如果进行随机对照试验,就会存在固有的偏见。Una-May O 'Reilly博士提出的说明性例子是,在ICU中败血症恢复的患者复苏期间,使用利尿剂加速液体排出的潜在益处。回顾性分析很容易被“选择偏差”所破坏。事实上,如果将患者分为治疗组和非治疗组(不是随机的),很可能会根据患者的病情进行分配,并因临床严重程度而偏倚,导致结果不可靠。

在ROS中,数据由接受治疗(D+)或不接受治疗(D-)的一系列天数组成。因为这些决策是每天都要做的,所以很难捕捉协方差结构。O 'Reilly将此称为“非决策日困境”。为了处理这个问题,协方差结构必须考虑到特定日期的时变信息。很容易将治疗日作为参考,并将所有接受治疗的患者与该事件(D+)对齐。对于未接受治疗的患者,调整时间序列更为复杂,因为每天本质上都是一个“非决策日”。考虑每一天将导致一个广泛不平衡的数据集,其中住院时间长短影响每个患者的个人贡献。为了解释这一点,可以随机抽取N个负的日子(D*-),并根据与入院时间相关的统计相似性标准将它们与正的例子(D+)配对。这是通过定义每个患者在ICU住院期间每天的倾向评分来实现的。因此,倾向性评分可以进行适当的队列匹配,从而可以适当地评估比较有效性。

这个简单的例子说明了循证医学所需要的那种稳健可靠的统计技术。它可以减少样本噪声,提高结论的可靠性,并导致研究方法的标准化。除了这些局部的改进,元研究也将是验证任何局部发现的必要条件。这些只有通过数据共享和开放数据倡议(如MIMIC-II倡议)才能实现。这个数据库的一个优点是它产生的双重文化和科学活动,因为数据科学只能从数据科学家和领域专家(在本例中是重症医师)之间的协作中充分受益。


尽管“大数据”在医疗保健领域的未来仍不明朗,但它的作用将不可否认地重要。这次会议有效地整理了关于21世纪循证医学面临的许多挑战的广泛观点。正如几位发言者所建议的那样,一个可能的机会是采用一种务实的方法,将随机对照试验和ROS结合起来。这种组合可以使用ROSs来填补不切实际、不太可能或不可能进行RCT的空白,或者为进一步的RCT分析驱动假设生成。

同样重要的是要认识到,任何ROS都需要多学科方法,将临床知识与广泛的数据分析技能(从生物统计学、机器学习、信号处理到数据挖掘)相结合。鼓励医生文化的改变可以通过更新教育项目和创建卓越中心来实现,这些中心可以向更广泛的医学界展示ROS的影响。这些卓越中心应该拥有开放、透明、易于访问的数据仓库,这将促进研究的可重复性,并允许新的合作学习浪潮。只有了解任何分析的潜在偏差,并培养一个规范的数据共享系统,医学界才能从数据中获得可靠的知识,并产生不会被证明是错误的研究结果。

致谢

组委会要感谢2014年1月举行的麻省理工学院关键数据会议和马拉松的演讲者和小组成员、赞助商和所有与会者。2014年麻省理工学院关键数据马拉松和会议由SAP、飞利浦医疗、Quanttus、Goodwin Procter和WilmerHale赞助。

利益冲突

奥马尔·巴达维是飞利浦医疗保健公司的高级临床科学家。克里斯托弗·摩西是智能调度公司的创始人兼首席执行官。Louis Mayaud是Mensia Technologies SA的研究主管。托马斯·布伦南是雅典娜健康研究所的数据科学家。

  1. Celi LA, Mark RG, Stone DJ, Montgomery RA。重症监护病房的“大数据”。关闭数据循环。[J]中华呼吸与急救医学杂志,2013;18(11):1157- 1156。[CrossRef] [Medline
  2. Grande D, Mitra N, Shah A, Wan F, Asch DA。公众对电子卫生信息二次使用的偏好。中华医学会医学杂志2013年10月28日;173(19):1798-1806。[CrossRef] [Medline
  3. McAfee A, Brynjolfsson E.大数据:管理革命。哈尔滨工业大学学报(自然科学版);2012;30(10):369 - 368。[Medline
  4. 伯恩体育。大数据对我的意义。中华医学杂志,2014;21(2):194。[CrossRef] [Medline
  5. MIMIC II项目。剑桥,马萨诸塞州:麻省理工学院http://mimic.physionet.org[2014-08-11访问][WebCite缓存
  6. 关键数据:为重症监护中的大数据赋能。URL:http://criticaldata.mit.edu/past-events/[2014-08-20访问][WebCite缓存
  7. 弗里德曼DH。大西洋,2010年10月4日。谎言,该死的谎言和医学科学http://www.theatlantic.com/magazine/archive/2010/11/lies-damned-lies-and-medical-science/308269/[2014-08-11访问][WebCite缓存
  8. 《经济学人》。英国伦敦;2013年10月19日实验室的麻烦http://www.economist.com/news/briefing/21588057-scientists-think-science-self-correcting-alarming-degree-it-not-trouble[2014-08-11访问][WebCite缓存
  9. Moses C, Celi LA, Marshall J.药物警戒:主动识别不良事件风险的主动监测系统。大众健康管理2013;16(3):147-149。[CrossRef] [Medline
  10. 刘建军,刘建军,刘建军,刘建军,刘建军,刘建军,刘建军,专家小组。迈向卫生数据二次使用的国家框架:美国医学信息学协会白皮书。中华医学杂志,2007;14(1):1-9 [J]免费全文] [CrossRef] [Medline
  11. 张建军,张建军,张建军,等。可信赖的卫生数据重用:跨国视角。国际医学杂志,2013,32(1):1-9。[CrossRef] [Medline
  12. Cobb JP, Cairns CB, Bulger E, Wong HR, Parsons PE, Angus DC等。美国重大疾病和伤害试验组:介绍。中华创伤医学杂志;2009;32(增刊):559 - 561。[CrossRef] [Medline
  13. 莱因哈特CM,罗格夫KS。十年的债务。剑桥,马萨诸塞州:国家经济研究局;2011.工作文件16827http://www.nber.org/papers/w16827.pdf[2014-08-11访问][WebCite缓存
  14. Herndon T, Ash M, Pollin R.高公共债务持续抑制经济增长?莱因哈特和罗格夫批判。阿默斯特,麻萨诸塞州:政治经济研究所;2013.工作文件系列第322号http://www.peri.umass.edu/fileadmin/pdf/working_papers/working_papers_301-350/WP322.pdf[2014-08-11访问][WebCite缓存
  15. Halevy A, Norvig P, Pereira F.数据的不合理有效性。IEEE intel system 2009;24(2)。[CrossRef
  16. Brownstein JS, Murphy SN, Goldfine AB, Grant RW, Sordo M, Gainer V,等。使用电子病历快速识别与糖尿病药物相关的心肌梗死风险糖尿病护理2010;33(3):526-531 [j]免费全文] [CrossRef] [Medline
  17. Brownstein JS, Sordo M, Kohane IS, Mandl KD。心脏:基于人群的监测揭示了罗非昔布和塞来昔布与心肌梗死的关联。科学通报,2007;2(9):884 [j]免费全文] [CrossRef] [Medline
  18. 穆迪GB,马克RG。MIT-BIH心律失常数据库的影响。中国生物医学工程学报(英文版);2001;20(3):45-50。[Medline
  19. Kalil T,格林·e·白宫科技政策办公室。大数据是生物医学研究的一件大事http://www.whitehouse.gov/blog/2013/04/23/big-data-big-deal-biomedical-research[2014-08-11访问][WebCite缓存
  20. Poh MZ, Loddenkemper T, Reinsberger C, Swenson NC, Goyal S, Sabtala MC,等。惊厥发作检测使用手腕戴皮肤电活动和加速生物传感器。癫痫病杂志2012;53(5):e93-e97。[CrossRef] [Medline
  21. Sano A, Picard RW。基于皮电活动的自主睡眠模式分类研究。中国生物医学工程学报(英文版);2011;33(2):387 - 398。[CrossRef] [Medline
  22. Peikoff K.纽约时报。我拍了我的DNA照片,结果不同。http://www.nytimes.com/2013/12/31/science/i-had-my-dna-picture-taken-with-varying-results.html?_r=0[2014-08-11访问][WebCite缓存
  23. 着陆器广告。理解的边缘。中国生物医学工程学报,2010;8:40 [j]免费全文] [CrossRef] [Medline
  24. 皮特森TA,道蒂E,康恩MG。迈向精准医学:人类变异分析计算方法的进展。中国生物医学工程学报(英文版);2013;31(2):447 - 463。[CrossRef] [Medline
  25. sanone SA, Rocca-Serra P, Field D, Maguire E, Taylor C, Hofmann O,等。迈向可互操作的生物科学数据。地理学报,2012;44(2):121-126 [j]免费全文] [CrossRef] [Medline
  26. 埃尼迪斯JP。为什么大多数发表的研究结果都是错误的。中国医学科学杂志2005;2(8):e124 [j]免费全文] [CrossRef] [Medline
  27. Pereira TV, Horwitz RI, Ioannidis JP。对医疗干预的非常大的治疗效果的经验评价。中国医学杂志2012年10月24日;308(16):1676-1684。[CrossRef] [Medline


华:负责任医疗机构
BIDMC:贝斯以色列女执事医疗中心
CMS:医疗保险和医疗补助中心
循证医学:循证医学
EMR:电子病历
加护病房:加护病房
模拟:重症监护多参数智能监测
麻省理工学院:麻省理工学院
MIT-BIH:麻省理工学院-贝斯以色列医院
个随机对照试验:随机对照试验
ROS:回顾性观察性研究


G·艾森巴赫编辑;提交03.04.14;D . Maslove, L . Toldo, S . Seevanayanagam的同行评议;对作者的评论15.07.14;收到修改版24.07.14;接受25.07.14;发表22.08.14

版权

©Omar Badawi, Thomas Brennan, Leo Anthony Celi, Mengling Feng, Marzyeh Ghassemi, Andrea Ippolito, Alistair Johnson, Roger G Mark, Louis Mayaud, George Moody, Christopher Moses, Tristan Naumann, Vipan Nikore, Marco Pimentel, Tom J Pollard, Mauro Santos, David J Stone, Andrew Zimolzak,麻省理工学院2014年关键数据会议组委会。最初发表于JMIR医学信息学(http://medinform.www.mybigtv.com), 2014年8月22日。

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到http://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map