发表在16卷第11名(2014): 11月

超越开放大数据:解决不可靠的研究

超越开放大数据:解决不可靠的研究

超越开放大数据:解决不可靠的研究

原始论文

1美国麻萨诸塞州波士顿贝斯以色列女执事医疗中心疫苗研究部

2美国麻萨诸塞州波士顿贝斯以色列女执事医疗中心医学部肺、重症监护和睡眠医学部

3.美国弗吉尼亚州夏洛茨维尔市弗吉尼亚大学麻醉科和神经外科UVA无线健康中心

4美国弗吉尼亚州夏洛茨维尔的弗吉尼亚大学无线健康中心

5美国马萨诸塞州剑桥市麻省理工学院医学工程与科学研究所

通讯作者:

Leo Anthony Celi,公共卫生硕士,医学博士

医学工程与科学研究所

麻省理工学院

马萨诸塞大道77号

e25 - 505

剑桥,马萨诸塞州,02139

美国

电话:1 6172537937

传真:1 6172587859

电子邮件:lceli@mit.edu


美国国家卫生研究院每年在医学研究上投资309亿美元。然而,这一研究成果对社会和经济的后续影响由于实际的医疗、生物医学创新以及源自并依赖于这些发现的各种商业企业而急剧放大。因此,发现许多已发表的研究是不可靠的,这是一个很大的问题。我们建议将开放数据的概念扩展到科研社区的文化中。通过减少保密和竞争的非生产性特征,同时加强合作和透明度,我们可以证明,这样发表的内容就不那么容易受到有时会导致腐败和混乱的压力,即成为第一或具有新闻吸引力,这可能会损害对坚定正确的更根本需求。

中国医学杂志,2014;16(11):e259

doi: 10.2196 / jmir.3871

关键字



应当记住,没有什么比带头引入一种新的事物秩序更困难、更危险、更不确定的了。因为革新者的敌人是那些在旧条件下做得好的人,而那些在新条件下可能做得好的人则是不冷不热的维护者。
(尼科洛•马基雅维里)

研究的可靠性正受到越来越多的审查。在过去的几年里,社论和所有期刊,包括英国医学杂志柳叶刀甚至《经济学人》强调了投入生物医学研究企业的资金数量与发表的研究缺乏可靠性之间的不一致[1-4].尽管有同行评议程序,但数量惊人的科学研究,尤其是生物医学研究的可靠性存在一个根本问题。这个问题基本上是双重的,一是发表的东西不可靠,二是其他研究人员无法知道没有发表的东西。假阳性研究结果以惊人的频率成功发表。复制在本质上是困难的,原因有很多,包括对原始数据的有限访问、知识产权问题、普遍认为复制不是在做原创(和有益的)工作,以及可能表现出对更高级权威的蔑视。当然,从未发表过的作品是无法被检查或复制的。当再次检查发生时,不可重复性惊人地猖獗。此外,同行评议系统并不像人们通常认为的那样健全,而且与职业结构相关的巨大发表压力。善意但可能不完全客观的研究人员很容易被实验室技术执行问题(包括简单的不一致)和错误的统计分析所产生的假阳性结果所欺骗。后者存在于研究力量不足、不太可能被验证的假设、缺乏适当的盲法以及对报道和发表新事物的偏见。 Wolfgang Pauli, the eminent physicist, might have classified this kind of work under his most brutal characterization of sloppy thinking, “It is not only not right, it is not even wrong,” or even better in the original German, “Das ist nicht nur nicht richtig, es ist nicht einmal falsch!” [5].

在目前的研究奖励制度中,耸人听闻的积极发现——一些,甚至可能是大多数,可靠性可疑——被高估了,而潜在重要的消极发现被低估了。用弗吉尼亚大学心理学家布莱恩·诺塞克的话来说,“犯错是没有代价的。代价是不让它们出版。”6].这种低报可能是由于几个原因造成的,包括期刊不愿发表负面结果,因为它们被认为本质上不那么有趣和重要;在晋升、奖励和补助金方面,对负面结果的重视程度较低;以及当负面结果与个人或行业研究议程相矛盾时,无意识或有意识的自我审查。

高质量的系统综述和荟萃分析被认为是最有力的医学证据。通过只采用合理的方法和稳健的分析,发表的研究,来自不可重复或不当进行的研究的噪音被减少。然而,系统评价并不能充分解决发表偏倚问题。举例来说,Cochrane对神经氨酸酶抑制剂的综述[7],只有在能够获得所有临床试验数据,而不仅仅是在出版物中分析和展示的数据时,这种创建证据的方法才可靠。在最终获得之前未发表的研究(20项来自罗氏,24项来自葛兰素史克)后,Cochrane图书馆发现,在之前的荟萃分析中,奥司他韦和扎那马韦在预防和治疗流感方面的益处被夸大了[8].

更令人担忧的是,系统综述揭示了在提供临床指南方面的研究效率低下。在一项横断面研究中,对Cochrane图书馆中所有50个合作评审小组的1000多篇系统综述进行了研究,96%的研究人员建议进一步研究以全面评估相关干预措施[9].

我们之前曾评论过使用重症监护环境中产生的大量数据为个别患者提供基于人群的数据驱动护理[10].大数据是一个包罗万象的术语,指的是任何庞大而复杂的数据集集合,以至于很难使用传统的数据处理应用程序进行处理。它已经成为许多科学领域研究的一个越来越重要的元素,如天文学[11],化学[12]、微生物学[13]、分子生物学[14],以及物理[15].考虑到这些数据的可用性和使用,以及各种企业(包括临床实践)对数据分析的依赖,对这个问题的担忧是合理的。此外,使用越来越大的数据只会进一步增加目前困扰科学文献的这些偏见和问题所产生的噪音。我们分享这些担忧,并提出措施来减轻风险,提高研究企业的可靠性和效率。


我们建议建立一个以前在某种程度上描述过的系统,在解决相同或类似问题的不同调查小组之间自由共享数据和方法[1617].显然,这个共享过程的基础设施将广泛地依赖于精心设计的基于internet的过程。互联网已经悄然成为我们生活中无处不在的因素,以至于我们可能会忘记明确承认它对信息存储和交换已经产生并极有可能继续产生的巨大根本性影响,并在这个过程中极大地扩展了我们解决问题的能力,增强了我们的综合智力。18].将创建和实施这样的流程,以验证和建立每个小组的发现。需要完全的数据互操作性;这是来自不同供应商竖井的临床数据的一个特别问题。共享数据的开放文化需要一种范式的转变,个体研究小组不再为出版和资助而竞争。研究将与实验室合作进行,以联合发表为目标,测试其他实验室的假设,而不是独立开发类似的假设,然后在各自的竖井中进行独立发表。为了支持研究合作的具体目的,将进一步开发基于网络的应用程序。例如,德国的telematik - platform für Medizinische Forschungsnet (TMF)为跨学科交流以及跨项目和跨地点合作提供了一个开放获取平台,以确定和解决现代医学研究的组织、法律、伦理和技术问题[19].

这一系统的改进将使研究人员避免政治、保密和低效率,这些都是学术机构进行公共资助研究的特点。当前的制度实际上阻碍了在那些似乎已经被资助但已获得专利的研究领域进行研究,从而抑制了进步。那些在同行评议之前、期间或之后试图限制其材料和方法在实验复制中的使用的研究人员将被排除在科学研究出版界之外(如果有必要的话)。研究人员应该对他们工作的价值和完整性有足够的信心,以提供这种合作的透明度,以促进科学进步。我们试图系统地拆解和修改将进行类似研究的实验室视为“竞争”实验室的看法。

拆除潜在竞争实验室之间的墙的最好方法是打开数据大门。20.].通过共享数据,竞争对手将转变为合作者。资助通常会授予在同一领域合作的实验室,而不是单个实验室。由于结果将由多个小组报告,各小组将严格审查彼此的数据,因为捏造的数据发表后会损害所有相关方的声誉。此外,随着过去研究中更完整的数据集的可用性和使用,未来的研究可以更有效地构建。“开放获取”数据模型既适用于已发布的数据,也适用于未发布的数据。由于各种原因,包括没有提交或拒绝,数据可能无法发表。研究人员可能不想分享某些发现,或者他们可能无法发表重要的否定性或证实性工作。在任何一种情况下,重要的是这些数据也可以访问。虽然这种访问带来了额外的技术和管理困难,但在当前不断改进(和更便宜)数据存储的环境中,它不应该是不可克服的。


有些人可能会争辩说,竞争,而不是合作,才是推动科学发现的引擎。例如,人们可能认为激烈的竞争加速了沃森和克里克解决脱氧核糖核酸(DNA)结构问题的过程。然而,当保密超越了诚实的共治,并且采用了“目的可以证明任何手段”的方法时,竞争过程可能会适得其反。与鲍林、富兰克林和威尔金斯的公开合作很有可能缩短发现过程。此外,税收抵免的分配方式也会有所不同,至少可以更广泛地共享。沃森和克里克担心鲍林可能会先找到解决方案,而不是欢迎鲍林的天才可能做出的贡献。事实上,直到沃森和克里克在未经授权的情况下,从罗莎琳德·富兰克林的晶体学著作中获得了有争议的伦理资料,他们才能够正确地推断出双螺旋结构。21].

随着生物医学科学不再是一种个人主义的追求,正如许多出版物所列出的大量作者所证明的那样,科学知识的主要驱动力必须从个人荣誉转向集体成就。优秀的个人仍然会得到认可和奖励,但他们的角色可能主要是领导和协调团队,而不是独自执行整个复杂的项目。例如,晋升和终身教职委员会已经适应了向多作者的转变,而在以前,由于每个作者的贡献很小,这类出版物的权重可能严重不足。


所有来自纳税人支持的资金来源的数据都将真正开放并免费向公众开放。这将包括未发表或私下发表的数据,以及发表在公开期刊上的论文数据。这将创造一个环境,让不同的小组可以访问相关的数据库,以进一步调查和验证(或作废)已发表的发现。未发表的材料可能包含从积极和消极、可靠和不可靠的角度解释已发表结果的关键。任何研究成果都不可能不受质疑和可能的挑战。一名研究人员发表的材料甚至可能被一名非常初级的研究人员或外行证明是假的,这种可能性会激发精确数据收集所需的尽职调查,并强烈厌恶伪造或捏造数据,以及那些从事这种做法的个人。学术提升过程将适应这种新的文化,但是,除了公认的罕见的独狼天才,实际上将要求研究人员参与合作研究。此外,奖励制度(如晋升、奖励)将更强烈地承认重要的负面结果的发表,并更消极地衡量被证明不可靠、需要撤回等研究的发表。虽然评价机构这样做比较困难和费时,但这些委员会应仔细仔细地审议条款的内容。如果这一过程依赖于更肤浅的出版物数量以及它们发表的期刊的影响因素,情况可能就不是这样了。

学术期刊需要共同努力,以特别防止不可靠的研究发表。发表后对期刊可靠性的警惕(类似于药物上市后的生命周期)将成为学术发表过程的一个基本要素。那些最擅长跟踪研究发表后的期刊可能会看到它们的影响因子以与它们在这一过程中的参与度成正比的方式上升。更好的是,也许可以开发出比影响因子更有效、更有用的指标,比如“协作指数”,以更好地代表期刊质量。期刊的出版后警惕将成为学术出版过程的一个基本要素。


没有不可能杀出重围如果像盖茨或巴菲特这样的人介入,为一个新的非营利组织提供资金,致力于提高研究的可靠性,进行公正的审计,那么资金很可能必须来自利益相关方组成的财团。这种文化需要形成一种根深蒂固的理念,即从生产可靠执行和报告的研究的角度来看,这些成本只是“做生意”的一部分。可能涉及的参与者包括研究人员自己;“支付者”或资金来源,包括非营利机构、政府机构和行业机构;期刊;学术研究人员的大学;医院系统和医学研究的专业协会。我们建议建立一个精简而高效的组织,也许是一个独立的非营利实体,由相关各方以一种可接受的公平方式提供资金,其使命是对研究企业提供似乎越来越需要的监督。

审计系统还可能在教育方面产生意想不到的好处。这些数据集可以作为在各自领域的研究生或本科生的练习来审查和验证,并且可以为参与的学生颁发学分,作为展示他们在该领域的奖学金的一种方式。随着统计和机器学习方法的不断发展,这些措施可能是必要的,可能需要一些数据和统计专家类型来验证研究结果。目前的技术允许简单地收集和传输大量数据,这种可移植性应该成为扩大基础的工具,以查看和验证发表、应用和传播的研究。

有一些支持和促进数据共享的新期刊。BMJ开放于2011年推出,是第一个将其投稿流程与Dryad数字存储库集成的医学期刊,因此数据沉积是作者投稿/工作流程的一部分[22].Data Dryad是一个精心策划的通用存储库,它使科学出版物的数据可被发现、自由重用和可引用[23].现在它已经为越来越多的期刊整合了数据提交。科学数据是一种新的开放获取,仅限在线的出版物,用于描述有科学价值的数据集[24].该项目于2014年5月启动,目前正在接受提交。事实上,传统的期刊模式可能不是公开传播科学信息的唯一方式:数据可以免费在线提供,就像genome unzip项目一样。25].

有了开放获取的数据,研究将变得民主化,不再局限于传统的学术环境或行业资助的实验室。这将允许相互作用的调查小组使用相同的数据,以不同的方法对相同和/或相关的主题进行研究。这将减少基于与研究人员假设相关的偏见的假阳性,减少不必要的实验重复,并开放研究领域,让更多人参与。


复制不能消除偏差或残留混淆。对于观察性研究,隐藏变量,包括提供者偏见和当地医疗文化问题,混淆了暴露和结果之间的真实关系,往往在异质环境中有所不同。例如,如果干预措施和结果之间的关联在实践非常不同的国家之间仍然很强,那么这种关联是噪音而不是信号的概率就会降低(相对于在单一地区的观察结果)。

观察性研究的一个主要挑战是,数据的大小没有解决残留混杂的存在:可能存在临床数据库中没有捕捉到的患者或疾病的特征,可以解释为什么接受治疗A的患者好转,而接受治疗B的患者没有好转。健康的社会决定因素——人们出生、成长、生活、工作和年龄的条件,最重要的是,对这些变量做出反应的个人行为——很少被电子健康记录(EHR)捕获。随着大城市建立开放数据平台,社会因素正变得越来越明显。例如,NYC开放数据存储库[26包含超过1100个数据集,涵盖商业、城市政府、教育、环境、健康、住房和发展、公共安全、娱乐、社会服务和交通。行为数据也越来越多地通过移动电话、跟踪互联网使用(包括社交媒体)、全球定位系统(GPS)设备和其他无线传感器、购买和其他金融交易等方式以数字方式获取。不用说,挑战在于在不给隐私和安全带来重大风险的情况下映射这些不同的数据源。

对于转化和临床研究,额外的研究审查将为制定有用的标准阈值奠定基础,在该标准阈值下,研究发现可以被认为是有效和可靠的,例如,在n次重复之后或在达到特定的统计要求之后。在更大的数据框架内,由于更大的数据集提供的统计置信度,阈值标准化将逐渐变得更加有效。

实现这一愿景的关键因素是有效的众包。可以模拟的模型已经存在,并且正在被今天的研究人员有效地使用。重症监护多参数智能监测(MIMIC)数据库就是这样一个成功的举措[27].MIMIC数据库由麻省理工学院(MIT)计算生理学实验室开发和维护,包含了贝斯以色列女执事医疗中心(BIDMC)收治的6万多名未识别重症监护病房患者的医疗保健指标。信息被仔细地去识别,以最大限度地减少识别风险,而不会过度删除有临床价值的信息。自然语言处理用于正确地捕捉临床条目的正确和准确的含义,这些临床条目可能难以基于诸如医生缩写和过多的上下文修饰语(例如,“排除”,“怀疑”,“病史”)等因素来阐明。MIMIC在一个公认的相对较小的规模上的成功给我们的能力带来了巨大的希望,我们能够同样地使用更大的临床数据库来进行动态和回顾性数据挖掘。在作者的指导下,该数据库已经在一些出版物中使用,这些出版物将一线临床医生、数据科学家和计算机工程师结合在一起。麻省理工学院和BIDMC的机构审查委员会已经批准将MIMIC用于研究目的。作者最近还组织了2014年1月在麻省理工学院举行的关键数据马拉松和会议[28].这次会议的主题是解决人们对大数据只会加剧不可靠研究问题的担忧。《新英格兰医学杂志》主编Jeffrey Drazen教授和斯坦福大学元研究创新中心主任John Ioannidis教授是本次会议的主题发言人。第二届MIMIC数据马拉松于2014年9月在麻省理工学院、伦敦和巴黎同时举行,吸引了200多名参与者。

PCORnet是由以患者为中心的结果研究所[29].这是一个由全国11个临床数据研究网络组成的数据库,主要编录电子病历数据,并在一定程度上映射到18个由患者驱动的研究网络,存档患者收集的所有类型的数据。如果一切顺利,到2015年9月,PCORnet将成为一个巨大的医疗信息库,包含2600万到3000万美国人的医疗信息。在英国,国家卫生研究所卫生信息学合作项目于2013年11月启动[30.].五个国家卫生服务(NHS)信托基金正在共同努力,使NHS临床数据更容易为研究人员、行业和NHS社区提供。主要目标是开发、设计和提供公共基础设施、标准和服务,使用户能够在病毒性肝病、急性冠状动脉综合征、卵巢癌、肾移植和重症监护等领域对EHR数据进行二次分析。但正如我们之前所强调的,这些大型数据库的价值取决于研究人员在方法上的透明度,以及创建持续和更有效的同行评审,从而提高每次分析的方法质量,从而提高可靠性。

围绕开放数据(包括MIMIC)举办的数据马拉松吸引了学生和研究生学员[31].封闭的研究网络将会扩大和发展,消除那些使研究活动只对有限群体开放的障碍。实际上,研究网络将以指数方式扩大,打破只让一小部分学者参与许多研究活动的壁垒。


令人印象深刻的是,NYC开放数据存储库突出了我们在大数据计划中看到的一些问题。例如,城市规划迄今尚未纳入卫生保健数据,以充分利用数据为公共卫生政策提供信息的潜力。如图1在英国,健康数据只在健康和医院公司、城市规划部和健康和精神卫生部之间直接共享。值得注意的是,这些组织与纽约卫生部门、无家可归者服务部门、老龄部门和应急管理办公室之间缺乏直接的数据共享联系。关联图表明,从直接多学科合作中受益的组织似乎是在信息孤岛中运作的,这是大数据项目中反复出现的主题。

但也有成功的故事。2012年10月,葛兰素史克(GlaxoSmithKline)宣布将向外部研究人员提供临床试验的详细数据。32].对于一家每年在研发上花费65亿美元的公司来说,这与根深蒂固的数据保密系统的背离令人惊讶。该公司于2013年5月开始在网上发布患者水平的临床试验数据,然后邀请其他制药公司也这样做。因此,我们展开了临床试验数据申请项目[33].迄今为止承诺捐款的制药公司(除葛兰素史克外)包括拜耳、勃林格殷格翰、礼来、诺华、罗氏、赛诺菲、武田、联合Chimique Belge (UCB)和ViiV Healthcare。迄今为止,已经上传了1000多个临床试验。试验透明度之所以具有吸引力,是因为人们越来越意识到,它可以提高药物开发的效率,为制药行业节省数十亿美元,同时也能更快地为患者提供突破性疗法。

最后,全球基因组学与健康联盟于2013年成立,由基因组学研究人员、资助者、企业和倡导者组成[34].该联盟制定并实施了技术、伦理、法律和临床指南,使基因组数据的共享更加容易。这是一个围绕大数据倡议的国际多学科合作的例子,代表了包括学术界、工业界和政府在内的各个部门。该小组目前的重点是创建基因组学应用程序编程接口,以实现DNA序列读取数据的互操作交换,以及数据共享框架,以指导治理和研究。

图1。纽约市开放数据的可视化。图由袁来提供。
查看此图

需要建立系统,以进行实验和分析的复制和交叉验证(图2).大学、专业协会、政府机构和研究型公司都是可以开发和运行这些系统的组织。食品和药物管理局(FDA)和欧洲药品协会(EMA)等监管委员会将不得不修改现有的批准要求;例如,支持一种药物或设备的试验将需要不同小组的重复验证。为了重新获得批准,公司将被要求提交持续的、定期的报告,以跟踪其产品在现实世界中的有效性。一种药物警戒系统已被描述为,当药物用于比上市前批准临床研究中通常检查的更广泛、更多样化的患者人群时,主动使用临床数据库网络来积累安全性和有效性证据[35].FDA和EMA都已经提议扩大在监管申请中提交的数据访问权限[3637].2012年,英国皇家学会发表了一份关于科学是一项开放事业的报告,该报告列出了科学家、他们的机构以及那些资助和支持科学的机构需要做出的改变,以优化现代技术创造的海量数据的潜力[38].去年,AllTrials运动在跨部门支持下在全球发起,呼吁注册所有临床试验并报告所有结果[39].该倡议推动研究人员、资助机构、机构、伦理委员会和监管机构共同努力,以确保用于研究的资源的价值最大化。在美国,开放科学中心成立[40].这是一个非营利性的技术组织,其使命是增加科学研究的开放性,完整性和。该组织的核心是开放科学框架,这是一个促进科学研究合作的开源软件。最近,斯坦福大学成立了元研究创新中心。该中心由John Ioannidis教授和Steven Goodman教授领导,将对研究实践进行严格评估,目的是优化科学调查的可靠性和生物医学研究企业的效率[41].

有了这样的系统,投资者将能够投资于一组致力于相关产品或想法的公司,而不仅仅是单个公司。投资于相关研究项目的“基金”的能力也应降低投资者的风险,其方式类似于金融指数投资与个股选择相关的风险降低。也许在未来,会出现新的投资产品,专注于与特定研究主题相关的公司。如前所述,国家卫生研究所和国家科学基金会等资助机构将向实验室合作小组提供资助。在准备可能成功也可能不成功的资助上花费的大量时间和精力可能会减少,从而使科学家能够集中精力进行研究。

解决不可靠研究难题的方法不仅在于完全透明,更重要的是在于研究人员之间的合作,以及对投资、资助和科学发现的信用进行更横向的分配。我们期望这些建议将带来一种合作和共享数据的文化,以及更完整和准确的科学发现报告。科学发现的准确性的提高只是数据查询系统化的好处之一。另一个原因是,不同教育水平和专业领域的个人能力将得到增强,他们将投身于科学领域,为科学做出贡献。我们希望表达路易·巴斯德的观点,他说:“科学不分国界,因为知识属于人类,是照亮世界的火炬。”

图2。图解说明如何处理不可靠的研究。图由唐凯欧提供。
查看此图

利益冲突

没有宣布。

  1. Macleod MR, Michie S, Roberts I, Dirnagl U, Chalmers I, Ioannidis JP,等。生物医学研究:增加价值,减少浪费。柳叶刀2014年1月11日;383(9912):101-104。[CrossRef] [Medline
  2. 乔尼迪斯JP,绿地S, Hlatky MA, Khoury MJ, Macleod MR, Moher D,等。在研究设计、实施和分析中增加价值和减少浪费。柳叶刀2014年1月11日;383(9912):166-175。[CrossRef] [Medline
  3. 陈伟华,宋文杰,陈文杰,刘文杰,等。增加价值和减少浪费:解决不可接近的研究。柳叶刀2014年1月18日;383(9913):257-266。[CrossRef] [Medline
  4. 研究不端行为普遍存在,并对患者造成伤害。英国医学杂志2012年1月05日;344(01月05日1):e14-e14。[CrossRef
  5. 佩尔斯·沃尔夫冈·恩斯特·泡利,1900-1958年。生物学会学报1960;5:174-192。
  6. 《经济学人》。不可靠的研究:实验室的麻烦网址:http://www.economist.com/news/briefing/21588057-scientists-think-science-self-correcting-alarming-degree-it-not-trouble[访问时间:2014-09-17][WebCite缓存
  7. Doshi P.神经氨酸酶抑制剂——Cochrane综述背后的故事。BMJ 2009; 339: b5164。[Medline
  8. 杰佛逊T,琼斯M,多西P,德尔马C,杜利L, Foxlee R.神经氨酸酶抑制剂预防和治疗健康成人流感。Cochrane数据库系统版本2010(2):CD001265。[CrossRef] [Medline
  9. 埃尔迪布RP,阿塔拉AN,安德里奥洛RB。为医疗保健决策绘制Cochrane证据图。中华临床医学杂志2007年8月;13(4):689-692。[CrossRef] [Medline
  10. Celi LA, Mark RG, Stone DJ, Montgomery RA。重症监护室的“大数据”。关闭数据循环。Am J呼吸危重护理医学2013年6月1日;187(11):1157-1160 [免费全文] [CrossRef] [Medline
  11. 费格尔森ED,先生GJ。天文学中的大数据。意义2012 Aug 09;9(4):208-211。[CrossRef
  12. 吉布BC。大(化学)数据。中国化学,2013年4月;5(4):248-249。[CrossRef] [Medline
  13. 社论。微生物群遇到大数据。Nat Chem Biol 2014 Aug;10(8):605。[CrossRef] [Medline
  14. 马克思vs .生物学:大数据的巨大挑战。自然杂志2013 6月13日;498(7453):255-260。[CrossRef] [Medline
  15. 《对称》,2012年8月1日。粒子物理驯服大数据http://www.symmetrymagazine.org/article/august-2012/particle-physics-tames-big-data[已访问2014-10-12][WebCite缓存
  16. Califf RM, McCall J, Harrington RA。评估医学文献中的研究结果:信任但要验证。美国医学杂志实习生2013年6月24日;173(12):1053-1055。[CrossRef] [Medline
  17. 克里斯塔基斯DA,齐默尔曼FJ。重新考虑再分析。美国医学杂志2013年12月18日;310(23):2499-2500。[CrossRef] [Medline
  18. 重新发明发现:网络科学的新时代。普林斯顿,新泽西州:普林斯顿大学出版社;2011.
  19. telematik - platform für Medizinische Forschungsnet。URL:http://www.tmf-ev.de/EnglishSite/AboutUs.aspx[已访问2014-10-12][WebCite缓存
  20. 开放研究的另一个原因。英国医学杂志2006 Dec 23;333(7582):1306-1308 [免费全文] [CrossRef] [Medline
  21. 沃森JD。双螺旋:DNA结构发现的个人叙述(1968)。纽约:雅典娜出版社;1980.
  22. BMJ开放。URL:http://bmjopen.bmj.com/[访问时间:2014-09-16][WebCite缓存
  23. 德律阿得斯的数据。URL:http://datadryad.org/[访问时间:2014-09-16][WebCite缓存
  24. 科学数据。URL:http://www.nature.com/sdata/[访问时间:2014-09-16][WebCite缓存
  25. 基因组解压。URL:http://genomesunzipped.org/[访问时间:2014-09-16][WebCite缓存
  26. 纽约市。NYC开放数据。URL:https://nycopendata.socrata.com/dashboard[已访问2014-10-12][WebCite缓存
  27. 麻省理工学院。Mimic ii url:https://mimic.physionet.org/[访问时间:2014-09-16][WebCite缓存
  28. 巴达维O, Brennan T, Celi LA,冯M, Ghassemi M, Ippolito A,等。让大数据对医疗保健有用:首届麻省理工学院关键数据会议摘要。JMIR Med Inform 2014年8月22日;2(2):e22。[CrossRef
  29. 以病人为中心的结果研究所。PCORnet:国家以患者为中心的临床研究网络http://www.pcori.org/content/pcornet-national-patient-centered-clinical-research-network[已访问2014-10-12][WebCite缓存
  30. 国家健康研究所。主要卫生信息学方案公布网址:http://www.uclhospitals.brc.nihr.ac.uk/news/major-health-informatics-programme-announced[已访问2014-10-12][WebCite缓存
  31. Celi LA, Ippolito A, Montgomery RA, Moses C, Stone DJ。医学知识发现和创新的众包。中国医学杂志,2014;16(9):e216 [免费全文] [CrossRef] [Medline
  32. Harrison C.葛兰素史克公司开启了临床数据共享的大门。Nat Rev Drug discovery 2012 Dec;11(12):891-892。[CrossRef] [Medline
  33. 临床试验数据申请。URL:https://clinicalstudydatarequest.com/[已访问2014-10-12][WebCite缓存
  34. 全球基因组学与健康联盟。URL:http://genomicsandhealth.org/[已访问2014-11-01][WebCite缓存
  35. Moses C, Celi LA, Marshall J.药物警戒:主动识别不良事件风险的主动监测系统。大众健康管理2013年6月;16(3):147-149。[CrossRef] [Medline
  36. 美国食品和药物管理局。联邦注册。蒙面和去识别的非摘要安全性和有效性数据的可用性;征求意见网址:https://www.federalregister.gov/articles/2013/06/04/2013-13083/availability-of-masked-and-de-identified-non-summary-safety-and-efficacy-data-request-for-comments[访问时间:2014-09-16][WebCite缓存
  37. 欧洲药品管理局。政策草案70:临床试验数据的发布和获取http://www.ema.europa.eu/ema/doc_index.jsp?curl=pages/includes/document/document_detail.jsp?webContentId=WC500144730&murl=menus/document_library/document_library.jsp&mid=0b01ac058009a3dc[访问时间:2014-09-16][WebCite缓存
  38. 英国皇家学会。科学作为一个开放的企业最终报告URL:https://royalsociety.org/policy/projects/science-public-enterprise/report/[访问时间:2014-09-17][WebCite缓存
  39. AllTrials。URL:http://www.alltrials.net/[访问时间:2014-09-17][WebCite缓存
  40. 开放科学项目。URL:http://www.openscience.org/blog/[访问时间:2014-09-17][WebCite缓存
  41. 斯坦福医学院。度量URL:http://med.stanford.edu/metrics/[访问时间:2014-09-17][WebCite缓存


BIDMC:贝斯以色列女执事医疗中心
电子健康档案:电子健康记录
教育津贴:欧洲医药协会
食品药品监督管理局:美国食品和药物管理局
模拟:重症监护中的多参数智能监护
麻省理工学院:麻省理工学院
国民健康保险制度:国民保健制度


G·艾森巴赫(G Eysenbach)编辑;提交17.09.14;K Stroetmann, B Hesse, A Domnich的同行评议;作者评论07.10.14;修订本收到12.10.14;接受20.10.14;发表11.11.14

版权

©Edward T Moseley, Douglas J Hsu, David J Stone, Leo Anthony Celi。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2014年11月11日。

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map