原始论文gydF4y2Ba
摘要gydF4y2Ba
背景:gydF4y2Ba有效地共享标准护理期间产生的健康数据可以极大地加快癌症治疗的进展,但各种障碍使这变得困难。不分享这些数据以确保患者隐私的代价是很少甚至没有从癌症治疗期间产生的真实数据中学习。此外,最近的研究表明,癌症患者愿意分享他们的治疗经验,以促进研究,尽管有潜在的隐私风险。gydF4y2Ba
摘要目的:gydF4y2Ba本研究的目的是设计、试验和发布一种分散的、可扩展的、高效的、经济的和安全的策略,用于传播去识别的临床和基因组数据,重点是晚期癌症。gydF4y2Ba
方法:gydF4y2Ba我们创建并试行了一个区块链认证系统,以实现来自标准护理成像、基因组测试和电子健康记录(EHRs)的未识别患者数据的安全共享,该系统被称为癌症基因信托(CGT)。我们前瞻性地同意并收集了一个试点队列(N=18)的数据,并将其上传到CGT。从医院癌症登记处和公共数据模型(CDM)格式中提取电子病历数据,以确定最佳的数据提取和传播实践。具体来说,我们对两种EHR数据提取格式与具有可用数据的患者的金标准源文档之间的完整性进行了评分和比较(n=17)。gydF4y2Ba
结果:gydF4y2Ba尽管注册报告的总完整性得分高于CDM报告,但这种差异在统计上并不显著。我们确实发现一些特定的数据字段,例如组织学位置,可以使用注册表报告更好地捕获,这可以用于改进不断适应的CDM。就整个试点研究而言,我们发现CGT能够在更临床有用的时间框架内快速整合癌症患者的真实数据。我们还开发了一个开源Web应用程序,允许用户无缝地搜索、浏览、探索和下载CGT数据。gydF4y2Ba
结论:gydF4y2Ba我们的试点项目展示了癌症患者参与数据共享的意愿,以及支持区块链的结构如何在保护患者隐私的同时维护各个数据元素之间的关系,从而为第三方研究人员和临床医生的发现提供支持。我们证明了CGT作为一个框架的可行性,以共享被困在孤岛中的健康数据,以进一步开展癌症研究。需要进一步研究以优化数据表示、流和完整性。gydF4y2Ba
doi: 10.2196/16810gydF4y2Ba
关键字gydF4y2Ba
介绍gydF4y2Ba
每个癌症患者都有独特的疾病组成和表现,需要对复杂的成像和基因组特征进行询问[gydF4y2Ba
,gydF4y2Ba 以获得个性化的治疗建议。目前,报告癌症结果的标准仍然是采用前瞻性规定方案治疗的临床试验的组平均值。来自真实世界数据的个体患者结果可以通过考虑更多的治疗和结果来进一步推进个性化医疗[gydF4y2Ba ,gydF4y2Ba ]。因此,卫生系统可以从自己的数据中学习,以改善其提供的病人护理[gydF4y2Ba -gydF4y2Ba ]。监管要求和其他限制阻止了许多患者级别的数据被共享。研究进展因此受到影响。精确医学方法,如下一代肿瘤DNA测序,现在经常在常规癌症治疗中使用。不幸的是,结果在个别机构中是孤立的,阻碍了数据集的有效共享或汇集[gydF4y2Ba ]。然而,许多癌症患者愿意分享他们的数据,并认为积极的好处超过了潜在的隐私风险:93%的受访患者非常或有可能与大学科学家分享他们的数据[gydF4y2Ba ]。gydF4y2Ba尽管有这种需求,患者也愿意分享他们的数据,但缺乏可靠的去识别数据共享方法。已经开发出创新的替代策略,旨在以保留固有结构的方式匿名化可识别的临床数据,例如使用生成对抗网络[gydF4y2Ba
],但这些还没有用于大规模的、多组学的发现。创建可扩展且健壮的框架的一个直接挑战是确定需要共享哪些数据(以及以何种格式),最大限度地降低患者重新识别的风险,同时最大限度地提高可导致临床洞察力的可行信息。Conley等[gydF4y2Ba [gm66nd]发布了一套核心临床数据元素,各方利益相关者都同意将其用于癌症基因组库。临床数据缺乏标准的数据共享平台的原因有很多,包括但不限于不兼容的数据流或格式、非标准化的收集、冲突的业务模型、提取和可访问性过程,以及隐私问题。由于数据所有权、成本和传播程序的考虑,由单一机构运营的集中式、精心策划的平台并不理想。其他领域的趋势已经从每季度分析成批数据(无论是客户网络点击还是生产车间传感器)转向实时分析。学习周期从几个月缩短到几个小时。最后,集中的自上而下的数据共享工作,虽然对研究和科学演绎理解至关重要,但具有固定的研究、资助或群体兴趣寿命。gydF4y2Ba基于医疗保健数据共享和电子商务的软件标准正在融合,使解决方案能够满足为医疗管理和医学研究共享患者健康数据的迫切需求。2013年,全球基因组健康联盟[gydF4y2Ba
]的建立是为了建立一个安全、负责、有效的临床和基因组数据共享框架。2016年,美国总统公布了国家癌症研究所癌症登月计划,以加速癌症研究,包括专注于数据共享的努力(公共访问和数据共享政策)。从那时起,在挖掘和共享医疗数据方面取得了重大进展。2016年,美国食品和药物管理局宣布与Flatiron Health合作,利用未确定的临床数据分析和开发临床试验之外的抗癌疗法。最近的研究已经兑现了这一承诺:Agarwal等[gydF4y2Ba ]分析了来自Flatiron健康网络和基础医学的7000多份临床和基因组记录,以计算不同癌症亚型的肿瘤突变负担。信号等[gydF4y2Ba 研究表明,从近3万名癌症患者的常规临床护理中收集的数据可以产生新的临床见解,就像这个非小细胞肺癌病例所证明的那样。gydF4y2Ba分散、可扩展、高效、经济和安全的策略,如区块链技术,可以满足有效的临床数据共享需求。虽然在范围上不完美[gydF4y2Ba
区块链系统的设计是安全的,抗篡改和分布式的,没有单点控制或故障,允许交易被有效地记录和验证。多个出版物提出区块链技术用于安全和可扩展的临床数据共享[gydF4y2Ba -gydF4y2Ba ],许多公司和组织正在将区块链平台应用于医疗保健[gydF4y2Ba ]。尽管利用b区块链分发医疗保健数据的兴奋令人鼓舞[gydF4y2Ba ],许多研究都是私人的、理论性的(即获取可行性),或者在范围上不成功。在最近的一项系统综述中,讨论了通过b区块链管理医疗记录的71项研究中,只有4项真正在实时数据上进行了测试[gydF4y2Ba ]。gydF4y2Ba在这里,我们开发了一个公共演示,重点是尽可能快地捕获在临床护理的正常过程中创建的数据。癌症基因信托基金[gydF4y2Ba
使数据分析民主化,使更多的专家能够参与和比较结果,并加速将基因组研究结果转化为临床有用的时间尺度。CGT是第一个免费、简单、快速的全球网络,用于共享未确定的癌症体细胞突变、放射学和病理图像,以及前瞻性同意患者的相关临床数据。这些数据迅速存储到全球区块链外分布式和分散的存储库中。该框架不仅允许快速传播高产量和重要数据,而且还公开详细说明了去识别、研究设计和患者知情同意的严格过程。根据Mello等人的研究结果[gydF4y2Ba ],我们假设大多数患者愿意同意分享他们的数据,如果这有助于扩大医学知识的语料库。我们的目标是通过发布来自18名同意患者的试点研究的数据,以及一个开源和免费的可视化和探索应用程序,来展示CGT的效用。gydF4y2Ba方法gydF4y2Ba
研究设计与招募gydF4y2Ba
加州大学旧金山分校(UCSF)机构审查委员会(IRB)批准了我们的试点研究,以同意患者在CGT上发布他们的身份信息(见gydF4y2Ba
研究方案)。我们接触并同意在UCSF医疗中心接受治疗的18名患者gydF4y2Ba共享癌症研究中的临床和基因组数据gydF4y2Ba临床试验方案(irb# 16-20857)。gydF4y2Ba癌症基因信任框架gydF4y2Ba
CGT是一个分散的、分布式的、内容可寻址的实时数据库。提交由包含字段和按散列对文件的引用的清单组成。提交的材料可能包括未确定的临床领域、体细胞突变列表、基因表达或与患者相关的任何类型的数据。通过以太坊上的智能合约跟踪每个管理员(即机构或组织)的提交[gydF4y2Ba
区块链,它引用了在星际文件系统(IPFS)中通过哈希存储的底层数据[gydF4y2Ba ]。IPFS本质上是去中心化和分布式的。任何节点都可以通过数据的唯一散列从任何其他节点请求数据,并将其本地缓存。这提供了数据的有机复制以及可扩展的访问。执行内部访问和数据分析的机构可以运行自己的IPFS服务器,从而允许高速LAN访问,只需遍历IPFS服务器列表的初始请求即可找到与哈希匹配的数据。gydF4y2Ba数据收集程序gydF4y2Ba
在从我们的队列中获取、格式化和分发未识别的患者数据之前,我们仔细地浏览了所有的机构程序,以教育和同意我们的患者。gydF4y2Ba
)。我们执行了严格和全面的隐私程序,以尽可能保持信心,以确保不会共享识别个人健康信息(见数据去识别部分)。对于18名登记的患者,我们被允许从他们的电子健康记录(EHR)中获取临床文件,他们的体细胞突变信息,以及任何扫描[gydF4y2Ba ]。第一组同意患者的所有数据,包括基因组、成像和结构化电子病历数据(如治疗信息)均可获得[gydF4y2Ba ]。患者由通用唯一标识符(UUID-4)标识。到实际患者的唯一映射由可信的管理员安全控制;在这个例子中,是UCSF。CGT的所有源代码和文件可在[gydF4y2Ba ]。gydF4y2Ba癌症基因信任管道的整体工作流程gydF4y2Ba
患者同意同意在区块链上发布其未确定的临床(观察性医疗结果伙伴关系[OMOP]格式的电子病历数据)、基因组学(体细胞)和成像数据。然后,代表附属机构的管理人员将数据上传到CGT。然后,研究人员、临床医生、患者和公众可以通过Web或界面检索数据,并通过PatientExploreR-CGT应用程序动态获取数据。gydF4y2Ba
基因组数据收集gydF4y2Ba
肿瘤标本的体细胞基因测序由监督医生(EC)作为标准护理,使用商业(基础医学;FMI [gydF4y2Ba
])或内部小组(UCSF 500) [gydF4y2Ba ];基础医学对13例患者进行测序分析[gydF4y2Ba ]和4名UCSF 500患者[gydF4y2Ba 基因组小组。在基础医学的案例中,我们收到了XML格式的患者报告。在UCSF 500的案例中,我们要求UCSF基因组管理员提供一份去识别变异的呼叫文件。gydF4y2Ba图像数据采集gydF4y2Ba
对于有x线片成像的患者,我们从UCSF的图片存档和通信系统医学成像系统中获得了去识别的DICOM文件,该文件符合补充142:临床试验去识别基本配置文件,该文件从图像中删除了任何可识别的受保护的健康信息(PHI)以及任何附带的元数据。每个在UCSF进行相关病理检查的患者都获得了病理切片。3例患者的未识别计算机断层扫描(CT)和正电子发射断层扫描(CT)扫描结果与肿瘤反应的显著变化相关,并上传到CGT。其中2例患者的扫描病理切片被上传用于临床诊断目的。这些未识别的成像数据可以在CGT上完整地公开查看,并举例说明了用于公共研究的原始(但未识别的)临床相关数据。使用Phillips扫描仪对病理切片进行数字化处理,并在上传到CGT之前完成PHI检查。gydF4y2Ba
临床电子健康记录数据收集gydF4y2Ba
该项目的一个重要方面是评估最合适和最可靠的CGT临床数据来源。为了进行比较,我们将UCSF癌症登记数据与从医院电子病历中提取的观察性健康数据科学和信息学(OHDSI) OMOP公共数据模型(CDM)进行了比较,这些数据是为满足监测、流行病学和最终结果(SEER)计划的规范而收集的。OMOP CDM正逐渐成为电子病历研究领域的一种标准,因为它在表结构和基础词汇方面都是一种通用框架[gydF4y2Ba
]并使强大的研究和监管报告成为可能[gydF4y2Ba ]。gydF4y2BaSEER是癌症报告的国家登记处,为从电子健康档案收集数据提供了具体的指导方针[gydF4y2Ba
]。在SEER提交之前,癌症登记数据被提交给国家登记处,并评估数据质量并与同一患者的其他记录合并。根据加州州癌症报告法,收集每一个在加州大学旧金山分校医院接受诊断和/或第一疗程或后续癌症治疗的癌症病例的注册数据。经认证的肿瘤登记员按照北美中央癌症登记协会数据标准规定的格式,从电子病历中提取和编码癌症信息[gydF4y2Ba ]。数据收集和数据收集编码规则由SEER程序手册规定,并在患者首次与医院接触之日起6个月内完全提取。gydF4y2Ba注册表的格式gydF4y2Ba
对于前18名患者,癌症注册办公室要求提供临床数据,以便通过CNExT癌症注册软件最终提交给SEER。对于每个患者,我们从CNExT收到了一个Excel导出,其中包含了精心策划的临床数据字段(gydF4y2Ba
)。我们开发了一个客户端单页Web应用程序,读取研究协调员计算机上的Excel文件,过滤PHI以确保符合IRB监管指南,并生成一个未识别的JSON文件。在上传到CGT之前,主要研究者和研究协调员亲自审查了PHI的每个未识别注册表文件。根据患者到医院进行基因检测的时间,登记数据收集可能是不完整的gydF4y2Ba悬念gydF4y2Ba陈述或完整的摘要。悬疑病例的最小数据收集包括患者年龄、性别、首次接触日期、原发部位和组织学。完整病例包含与诊断基础和治疗剂相关的附加数据项。gydF4y2Ba黄金标准电子病历gydF4y2Ba一个gydF4y2Ba | 注册表字段gydF4y2Ba | OMOP table.columngydF4y2Ba |
性别gydF4y2Ba | 性gydF4y2Ba | person.gender_concept_idgydF4y2Ba |
种族gydF4y2Ba | 西班牙血统gydF4y2Ba | person.ethnicity_concept_idgydF4y2Ba |
比赛gydF4y2Ba | 比赛gydF4y2Ba | person.race_concept_idgydF4y2Ba |
诊断日期gydF4y2Ba | 诊断日期gydF4y2BabgydF4y2Ba | condition_occurrence。condition_start_dategydF4y2Ba |
诊断依据gydF4y2Ba | Dx确认Dx分期/项目总结gydF4y2BabgydF4y2Ba | procedure_occurrence。procedure_occurrence_idgydF4y2Ba |
癌症的网站gydF4y2Ba | 癌症部位ICD-0-3 SEERgydF4y2BacgydF4y2Ba网站群gydF4y2Ba | condition_occurrence。condition_concept_idgydF4y2Ba |
癌组织学和形态学gydF4y2Ba | 癌症组织学(ICD-0-3)gydF4y2Ba | condition_occurrence。condition_concept_idgydF4y2Ba |
代理/治疗模式gydF4y2Ba | 文字/医院化疗代码gydF4y2BabgydF4y2Ba | drug_exposure。drug_concept_idgydF4y2Ba |
治疗开始和结束日期gydF4y2Ba | 化疗开始日期/化疗结束日期gydF4y2BabgydF4y2Ba | drug_exposure。drug_exposure_start_date / drug_exposure。drug_exposure_end_dategydF4y2Ba |
一个gydF4y2Ba电子健康记录。gydF4y2Ba
bgydF4y2Ba表明该字段被列出,但没有或不完整的信息被填充(即“悬疑”注册表案例)。gydF4y2Ba
cgydF4y2BaSEER:监测、流行病学和最终结果。gydF4y2Ba
观察性医疗结果伙伴关系格式gydF4y2Ba
从OMOP获取临床数据是一个不同的过程,因为它涉及从电子病历中提取回顾性的、常规收集的数据。UCSF的企业数据仓库(EDW)团队负责将原始EPIC/Clarity数据转换为OMOP格式,并在此提取过程中充当诚实的代理。首先,在EDW团队的支持下,我们选择了与我们同意从IRB收集的数据元素相对应的表和字段(gydF4y2Ba
)。没有包含自由文本字段。然后,我们将病历编号(mrn)及其相应的CGT患者id提供给EDW团队,EDW团队随后对17名有可用数据的患者进行去识别处理,去除所有PHI(见gydF4y2Ba 详情见下文)。然后,EDW从6个感兴趣的表中商定的列中提取数据,具体来说是:person、drug_exposure、condition_occurrence、procedure_occurrence和measurement。然后我们执行二次检查以验证所有数据已被识别(见下文),然后将文件(保存为TSV)转换为每个患者的单个JSON文件。gydF4y2Ba临床资料评分方法gydF4y2Ba
我们根据我们设计的评分标准评估所有患者登记和OMOP数据的完整性(见gydF4y2Ba
有关临床数据共享所需的某些黄金标准指标(gydF4y2Ba ),受Conley等人的启发[gydF4y2Ba ]。来自这些金标准度量的数据是从gydF4y2Ba真正的gydF4y2Ba数据记录在UCSF EPIC EHR系统患者记录中。接下来,审查人员评估了可以从注册中心和OMOP数据源识别这些数据的数量。在Conley等人推荐的29个数据元素中[gydF4y2Ba ],我们能够捕获其中的10个,因为它们无需从OMOP和注册临床管道获取。简单地说,对于注册表和OMOP数据,这些数据按照从0到5的比例进行评估,0表示在相应的模态中不存在数据元素,5表示完整的表示(介于两者之间的值对应于表示完成程度的20%增量)。因此,对于这10个数据元素,患者可以获得的每种数据模式的最高分数为50分。gydF4y2Ba统计分析gydF4y2Ba
为了评估注册与OMOP在数据质量捕获方面是否存在显著差异,我们对根据上述方法评分的所有17例患者进行了双侧Wilcoxon sign -rank检验。通过对每个数据要素(如性别信息)进行相同的评估,我们进一步评估了在实地一级是否存在任何差异。我们假设,尽管这两个系统在数据收集方法方面不同,但由于两个系统都是为了获取相同类型的临床数据而组织的,因此在总分上应该没有显着差异。gydF4y2Ba
数据去识别程序gydF4y2Ba
我们努力符合最严格的标准,以便根据健康保险可携带性和责任法案(HIPAA)标准确定的所有发布的数据进行适当的去识别(见gydF4y2Ba
以进一步讨论和完成此过程的文档)。gydF4y2Ba对于OMOP EHR数据,在从诚实代理EDW接收数据时删除所有PHI。在这些文件中,所有的日期都被转换成以出生日为单位的年龄。我们执行了二次检查,手动验证文件中没有PHI残留。对于基因组数据,所有种系突变都被删除,只留下体细胞变异。不需要对符合补充142的DICOM图像进行进一步处理。病理扫描被导出为JPEG图像文件,图像中没有识别元数据或信息。单页面Web应用程序为每个患者生成一个UUID。机构和CGT管理人员保留了CGT id和UCSF mrn的附录,以保留合格临床医生之间重新识别的可能性,以便进行随访和进一步研究[gydF4y2Ba
]。gydF4y2Ba数据导出和共享gydF4y2Ba
这些未识别的文件被上传到区块链外存储(IPFS) [gydF4y2Ba
]。区块链外存储计算整个提交的加密强哈希(SHA-256),该哈希被添加到提交的管理员列表中,然后在区块链外存储中更新。最后一步产生更新的顶级加密强散列,该散列唯一地定义了监管人在该时间点上所有提交的整个状态。然后将最终的顶级哈希提交给区块链,作为机构提交的整个语料库的来源。由于哈希值的大小只有256位,因此添加到区块链的成本被最小化,因为大量数据唯一地存储在区块链外存储中。单个提交散列以及总体管理员散列可以被简洁地引用以重现任何下游分析。gydF4y2Ba数据分发和访问gydF4y2Ba
通过提交哈希,可以立即从互联网上的任何IPFS服务器获得包括所有数据在内的提交。IPFS本质上是去中心化和分布式的。任何节点都可以通过数据的唯一散列从任何其他节点请求数据,并将其本地缓存。IPFS服务器在查询与散列相关的数据时,如果将其存储在本地,则返回该数据,如果没有,则要求连接到的所有服务器获取该数据。在精神上,这类似于互联网的传输控制协议/互联网协议层,如果路由器不直接与目的地通信,它会与所有的直接对等体检查它们是否进行了通信。因此,作为提供有机复制和可扩展访问的访问的副作用,数据被复制。IPFS服务器使用HTTP,因此任何数据都可以在浏览器中访问,也可以通过标准生物信息学分析工具(例如,cBio, Galaxy和Jupyter)的几行代码访问。gydF4y2Ba
患者探索-癌症基因信任:数据可视化gydF4y2Ba
为了促进与CGT的交互,我们改编了一个可视化应用程序来浏览、搜索、可视化和下载CGT上共享的临床和基因组数据。这个应用程序,叫做PatientExploreR- cgt,是改编自我们原来的PatientExploreR版本[gydF4y2Ba
]。PatientExploreR-CGT自动从CGT中提取所有数据并将其映射到用户友好的仪表板中。这个应用程序是在R(版本3.4.1)中使用Shiny [gydF4y2Ba ](版本1.0.5)框架,并直接与omop格式(版本5或更高版本)的EHR数据接口。在前端,使用了以下与shine相关的包:gydF4y2Ba ], shinyj [gydF4y2Ba ], shinyalert [gydF4y2Ba ], shinycssloaders [gydF4y2Ba ], shinyBS [gydF4y2Ba ]和shinythemes [gydF4y2Ba ]。可视化是使用plotly [gydF4y2Ba ]和timevis [gydF4y2Ba )包。在它的后端,PatientExploreR-CGT使用ROMOP [gydF4y2Ba 自动提取和映射所有相关表中的相关概念(例如,人,观察和条件发生)。数据为数据的处理和操作提供了便利。表(gydF4y2Ba ], dt [gydF4y2Ba ], rjson [gydF4y2Ba ]和dplyr [gydF4y2Ba ]。此应用程序可免费使用[gydF4y2Ba ]。gydF4y2Ba结果gydF4y2Ba
癌症基因信托基金试点研究gydF4y2Ba
我们提供了试点队列的人口统计数据gydF4y2Ba
.在我们的队列中,原发癌症的细分如下:7例为胰腺腺癌,4例为胆管癌,肛门鳞状癌、胃癌、结肠癌、胃肠道间质瘤、盲肠癌和原发原因不明的转移性癌各1例。另外一名患者也患有原发原因不明的转移性癌症,但没有电子病历数据。我们提供了所有这些数据的细分病人和模式在gydF4y2Ba .gydF4y2Ba形态gydF4y2Ba | 价值gydF4y2Ba | |
性别,n (%)gydF4y2Ba | ||
男性gydF4y2Ba | 6 (33)gydF4y2Ba | |
女gydF4y2Ba | 12 (67)gydF4y2Ba | |
种族,n (%)gydF4y2Ba | ||
白色gydF4y2Ba | 11 (61)gydF4y2Ba | |
亚洲gydF4y2Ba | 5 (28)gydF4y2Ba | |
未知的gydF4y2Ba | 2 (11)gydF4y2Ba | |
种族,n (%)gydF4y2Ba | ||
拉丁美洲裔gydF4y2Ba | 2 (11)gydF4y2Ba | |
不是拉丁美洲裔gydF4y2Ba | 16 (89)gydF4y2Ba | |
状态,n (%)gydF4y2Ba | ||
活着gydF4y2Ba | 15 (83)gydF4y2Ba | |
已故的gydF4y2Ba | 3 (17)gydF4y2Ba | |
年龄(岁),平均(SD)gydF4y2Ba | 59.3 (13.3)gydF4y2Ba |
资本利得税gydF4y2Ba一个gydF4y2Ba | 临床gydF4y2Ba | 基因组学gydF4y2Ba | 成像gydF4y2Ba | OMOPgydF4y2BabgydF4y2Ba数据分解gydF4y2Ba | |||||
公共UUIDgydF4y2BacgydF4y2Ba | 注册表gydF4y2Ba | OMOPgydF4y2Ba | FMIgydF4y2BadgydF4y2Ba | 加州大学旧金山分校gydF4y2BaegydF4y2Ba500gydF4y2Ba | CTgydF4y2BafgydF4y2Ba | 病理gydF4y2Ba | 条件gydF4y2Ba | 程序gydF4y2Ba | 药物gydF4y2Ba |
f9b6a782-bbf5-4be8-bf7e-d1a9586d9552gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2BaggydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 1597gydF4y2Ba | 1190gydF4y2Ba | 3661gydF4y2Ba |
c2e2e081 a27 - 4 - c39 - 4201 - 8 - 7 - b469ed39490gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | 1350gydF4y2Ba | 969gydF4y2Ba | 2088gydF4y2Ba |
db2d85aa - 4 - f94 e77 - 8755 - 6 - b94a710c1aagydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | 2389gydF4y2Ba | 1394gydF4y2Ba | 3086gydF4y2Ba |
2 fbc25da - 3965 - 49 - c4 - 866 f - 72 cf0abc2417gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 930gydF4y2Ba | 654gydF4y2Ba | 1174gydF4y2Ba |
940171 e7 - d358 - 463 - 8 d9a - 2 - b2fa90c2a84gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 1179gydF4y2Ba | 624gydF4y2Ba | 1388gydF4y2Ba |
f0314175 - 2 d19 - 4146 - 8754 - fc5aed3ab420gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 511gydF4y2Ba | 405gydF4y2Ba | 549gydF4y2Ba |
c7dbcfac - 37 - ea - 43 - f8 - 8899 - 1 - a9f2fb56341gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 216gydF4y2Ba | 114gydF4y2Ba | 184gydF4y2Ba |
ef5c3164 4 - 6 - f45 d3a - 88 f0 - 4509226 - c5571gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 51gydF4y2Ba | 14gydF4y2Ba | 57gydF4y2Ba |
ec3d977b-c310-4df3-a444-f79bc3dd8b58gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 811gydF4y2Ba | 505gydF4y2Ba | 776gydF4y2Ba |
131年cf62d-ad78-49c1-a699-5bcc1004cd12gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 155gydF4y2Ba | 42gydF4y2Ba | 110gydF4y2Ba |
cf11c31c - f4c3 - 48 - ba - 9 - 66 c46 f406d0b7a1gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 311gydF4y2Ba | 162gydF4y2Ba | 131gydF4y2Ba |
ccc2ba97 - 912 f - 4 - b62 - b767 cca129ee6a56gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 51gydF4y2Ba | 10gydF4y2Ba | 60gydF4y2Ba |
104年ec531-5d95-41e2-ac72-f6cff2006b8egydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 36gydF4y2Ba | 10gydF4y2Ba | 17gydF4y2Ba |
a5627ac3 - 450 d - 4036 ade8 - 99 ae62a5c232gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 857gydF4y2Ba | 439gydF4y2Ba | 805gydF4y2Ba |
5189年efbe - 3382 - 4353 - ad2f afd0255c2c8——9gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 875gydF4y2Ba | 276gydF4y2Ba | 674gydF4y2Ba |
253年f0e2d bebd - 464 b - 81 c5 - 8 dd8385192b3gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | 117gydF4y2Ba | 116gydF4y2Ba | 217gydF4y2Ba |
d199cfb0 - 91 - e8 - 471 d - b1b3 cd64ee0——53189gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | ✓gydF4y2Ba | N/AgydF4y2Ba | 21gydF4y2Ba | 11gydF4y2Ba | 81gydF4y2Ba |
5 d3205a3-28c4-45eb-bfd8-b32d67c3be0fgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba | N/AgydF4y2Ba |
一个gydF4y2BaCGT:癌症基因信托。gydF4y2Ba
bgydF4y2BaOMOP:观察性医疗结果伙伴关系。gydF4y2Ba
cgydF4y2BaUUID:全局唯一标识符。gydF4y2Ba
dgydF4y2Ba基础医学。gydF4y2Ba
egydF4y2BaUCSF:加州大学旧金山分校gydF4y2Ba
fgydF4y2BaCT:计算机断层扫描。gydF4y2Ba
ggydF4y2Ba-不适用。gydF4y2Ba
癌症基因信任的可用数据按病人分类gydF4y2Ba
CGT公共ID是指每个患者的全局唯一十六进制标识符。✓表明可获得每个患者该特定模式的数据。对于OMOP数据,数字反映了每种模式可用的数据元素的数量。gydF4y2Ba
癌症基因信任队列患者的基因组分解与基金会一报告gydF4y2Ba
在有基因组数据的患者中,大多数(n=13)进行了基础1测序,因此,我们将重点放在这些数据上进行细分分析(gydF4y2Ba
)。在所有患者中,我们鉴定出95个基因中的139个突变(gydF4y2Ba )。平均而言,患者有10.69个(SD 5.34)体细胞变异,其中最多的是21个,最少的是3个,不同的当前知识状态(即已知致病性,可能致病性或未知后果;平均而言,这些体细胞变异主要是未知的(左B组),平均每位患者为8.07 (SD 4.57)。患者平均有2.18个(SD 0.98)已知变异和1.43个(SD 0.79)可能变异。就其功能影响而言,大多数变异是错义的(83.5%(116/139),图B右)。这些患者有各种原发疾病,最常见的是胰腺(n=4, C组左)。对于这些患者,从各种组织中进行活检,最常见的是肝脏(n=5,图C右)。请参考gydF4y2Ba 图示这些患者的原发组织与原发疾病之间的联系。我们进一步按起源组织和原发疾病分解变异的功能作用和状态gydF4y2Ba .当然,这些都应该考虑到患者的起源组织和原发疾病的数量。考虑到这些因素,我们仍然发现了一些有趣的趋势。例如,原发淋巴结组织(n=1)的变异最少(n=3),没有已知的病理变异,而原发网膜组织(n=21)的变异最多,有三种已知的病理变异。当然,这些趋势可能取决于患者的具体情况或严重程度的变化,并且需要更多的患者数据。gydF4y2Ba在所有患者中,95个基因包含具有不同水平知识状态的变体,包括重叠域,如果每个基因有多个确定的变体(图D)。在这里,我们还看到大多数基因具有未知意义的变体(n=82)。有10个基因包含不同知识类别的多种变体。个体间最常发生突变的基因(gydF4y2Ba
图E为黑点)为KRAS和TP53 (n=5),其次为ARID1A和MLL2 (n=4)。同样,MLL2具有最独特的变异(4例患者中n=6个变异),其次是KRAS和TP53(5例患者中n=5个变异)。大多数具有一个以上载体的基因只包含未知意义的变异(54%(14/26)),进一步证明了将现实世界的电子病历与此类基因组数据结合起来的必要性。我们进一步可视化的景观变异的未知意义的影响总体和在每个病人的水平gydF4y2Ba .例如,我们注意到,对于1例胰腺癌和组织活检患者,TGFBR2中有一个无意义突变,目前未知的知识状态。根据TCGA GDC数据门户网站,只有15例原发部位胰腺癌(TCGA- paad)具有该基因的变异,只有2例是停增益。与其他研究人员共享这些数据可以迅速扩展变异及其与疾病关联的现有知识状况。gydF4y2Ba比较临床数据程序的稳健性gydF4y2Ba
为了确定最可靠的CGT临床数据格式,我们评估了两种不同数据格式之间的评分质量是否存在显著差异,特别是前瞻性收集的注册表和回顾性收集的OMOP。我们假设在评分质量上没有总体差异,因为理论上这两种方法都应该捕获感兴趣的主要核心竞争力。gydF4y2Ba
虽然我们发现,与OMOP相比,所有患者和数据元素的总得分更高(gydF4y2Ba
;642 vs 560),差异无统计学意义(gydF4y2BaPgydF4y2Ba=。13,V=44).We further analyzed any significant discrepancies by core competency data element ( ;gydF4y2Ba 获取元素描述和源代码)。我们没有发现性别(gydF4y2BaPgydF4y2Ba=。35,V=3), Ethnicity (PgydF4y2Ba=。17,V=6), Race (PgydF4y2Ba=。17,V=13), Year of Birth (PgydF4y2Ba=。35,V=3), Basis of Diagnosis (PgydF4y2Ba=。66,V=45), Cancer Site (PgydF4y2Ba=。09, V=0),治疗剂/方式(gydF4y2BaPgydF4y2Ba=。17,V=21), and Beginning and End Dates of Treatment (PgydF4y2Ba=。47,V=20). We did find, however, that there was a significant difference between OMOP and registry scoring for Date of Diagnosis (PgydF4y2Ba=。004, V=0),注册表得分较高(gydF4y2BaPgydF4y2Ba=。002, V=0)和肿瘤组织学(gydF4y2BaPgydF4y2Ba=。0004, V=0),注册表的分数更高(gydF4y2BaPgydF4y2Ba<。001年,V = 0)。看到gydF4y2Ba 每位患者,注册表和OMOP的每个元素得分分别为。gydF4y2Ba分解gydF4y2Ba黄金标准gydF4y2Ba元素及其在注册表和OMOP中各自的字段给出gydF4y2Ba
.gydF4y2Ba病人gydF4y2Ba | 注册表gydF4y2Ba | OMOPgydF4y2Ba一个gydF4y2Ba |
f9b6a782-bbf5-4be8-bf7e-d1a9586d9552gydF4y2Ba | 39gydF4y2Ba | 28gydF4y2Ba |
c2e2e081 a27 - 4 - c39 - 4201 - 8 - 7 - b469ed39490gydF4y2Ba | 41gydF4y2Ba | 34gydF4y2Ba |
db2d85aa - 4 - f94 e77 - 8755 - 6 - b94a710c1aagydF4y2Ba | 42gydF4y2Ba | 32gydF4y2Ba |
2 fbc25da - 3965 - 49 - c4 - 866 f - 72 cf0abc2417gydF4y2Ba | 48gydF4y2Ba | 30.gydF4y2Ba |
940171 e7 - d358 - 463 - 8 d9a - 2 - b2fa90c2a84gydF4y2Ba | 31gydF4y2Ba | 41gydF4y2Ba |
f0314175 - 2 d19 - 4146 - 8754 - fc5aed3ab420gydF4y2Ba | 29gydF4y2Ba | 39gydF4y2Ba |
c7dbcfac - 37 - ea - 43 - f8 - 8899 - 1 - a9f2fb56341gydF4y2Ba | 15gydF4y2Ba | 33gydF4y2Ba |
ef5c3164 4 - 6 - f45 d3a - 88 f0 - 4509226 - c5571gydF4y2Ba | 50gydF4y2Ba | 29gydF4y2Ba |
ec3d977b-c310-4df3-a444-f79bc3dd8b58gydF4y2Ba | 35gydF4y2Ba | 33gydF4y2Ba |
131年cf62d-ad78-49c1-a699-5bcc1004cd12gydF4y2Ba | 35gydF4y2Ba | 33gydF4y2Ba |
cf11c31c - f4c3 - 48 - ba - 9 - 66 c46 f406d0b7a1gydF4y2Ba | 47gydF4y2Ba | 29gydF4y2Ba |
ccc2ba97 - 912 f - 4 - b62 - b767 cca129ee6a56gydF4y2Ba | 13gydF4y2Ba | 33gydF4y2Ba |
104年ec531-5d95-41e2-ac72-f6cff2006b8egydF4y2Ba | 35gydF4y2Ba | 24gydF4y2Ba |
a5627ac3 - 450 d - 4036 ade8 - 99 ae62a5c232gydF4y2Ba | 45gydF4y2Ba | 34gydF4y2Ba |
5189年efbe - 3382 - 4353 - ad2f afd0255c2c8——9gydF4y2Ba | 47gydF4y2Ba | 38gydF4y2Ba |
253年f0e2d bebd - 464 b - 81 c5 - 8 dd8385192b3gydF4y2Ba | 46gydF4y2Ba | 37gydF4y2Ba |
d199cfb0 - 91 - e8 - 471 d - b1b3 cd64ee0——53189gydF4y2Ba | 44gydF4y2Ba | 33gydF4y2Ba |
总计gydF4y2Ba | 642gydF4y2Ba | 560gydF4y2Ba |
一个gydF4y2BaOMOP:观察性医疗结果伙伴关系。gydF4y2Ba
每种数据模式的每位患者的总得分,特别是注册与OMOP的比较gydF4y2Ba黄金标准gydF4y2Ba原始电子病历数据。每个分数是分析的所有元素的总和。按元素划分的病人分数可以在gydF4y2Ba
.gydF4y2Ba从癌症基因信托数据发展临床叙事gydF4y2Ba
尽管安全、可靠和稳健地共享临床相关患者数据本身是一个重要的过程,但我们希望通过仅从CGT上共享的数据编译临床叙述来展示该框架的力量。我们选择使用患者c2e2e081-4c39-4201-8a27-7b469ed39490作为突出显示的示例(参见gydF4y2Ba
查看该患者的所有相关CGT散列信息)。在下一节中,我们将进一步展示如何使用PatientExploreR-CGT识别这些数据点。gydF4y2Ba出生第1天(出生后26346天),患者在既往医院行腹腔镜胆囊切除术,确诊中分化腺癌伴粘液特征。第42天(26387),UCSF复查病理,确认pT2Nx分期。第75天(26,420),患者行开放式部分肝切除术、门脉淋巴结切除术和阑尾切除术。第195天(26,540),在先前的转子部位进行RUQ皮肤结节的FNA鉴定出腺癌,与原发性胆囊部位的复发/转移一致。第196天(26,540)CT C/A/P显示腹膜和腹壁多发新发软组织结节,怀疑转移。gydF4y2Ba
患者在第238天(26,583)签署了CC#16457临床试验的知情同意书,并在第244天(26,589;gydF4y2BaE(左);哈希id: qmayx3yvztrendcfnkotff1kw88stxwm8 XMUdsXXKSHP [parent], Qmd7V8hS2mCtup RLYk6Qm2AMHyk6X7Y4QPTDqZe7UCUnUT [image]),显示从第196天开始疾病没有变化。患者在第257天(26,602天)随机分配到B组:merestinib/安慰剂+顺铂+吉西他滨(未在OMOP数据中提供),并在第260天(26,605天)完成第1周期,顺铂+吉西他滨第1天。在第286天(26,631),完成第2周期,第8天顺铂+吉西他滨。gydF4y2Ba
第300天,行CT C/ a /P (26,645;gydF4y2BaE(右);哈希id: QmQ6PtwhTM qw9b3SFsa1qfW79kGK7tPrhrUHpKVLtxmj1i [parent], QmZmVEsqNeCDuzUDDvLWYUdbxQ2QZ ehDhkdzyCNvX8gFJF [image]),显示稳定的分散腹壁、腹膜和腹膜后植入物。轻度肝内胆道扩张的间歇进展,可能是由于肝门处新的软组织突出,考虑复发。然而,经RECIST检查,发现肺上叶小结节不变,病情稳定,靶病变直径总和减少18.18%。gydF4y2Ba
探索癌症基因信任数据患者探索者-癌症基因信任gydF4y2Ba
为了进一步操作CGT框架,我们改编了一个名为PatientExploreR的应用程序,使其与CGT无缝连接,从而有效地探索、可视化和下载数据。我们设想这个应用程序对没有太多数据提取和操作经验的个人特别有用。此申请无须注册,并可于[gydF4y2Ba
]。PatientExploreR-CGT从CGT中提取所有OMOP数据,根据CDM绘制所有临床概念,并提供方便的基因组数据链接以及临床病史背景下的图像数据。在gydF4y2Ba ,我们通过显示上述患者在可用CT扫描时间前后的治疗时间表的详细时间表来展示可视化的力量。gydF4y2Ba讨论gydF4y2Ba
概述gydF4y2Ba
在这项研究中,我们同意患者在irb批准的过程中使用区块链认证框架CGT共享未识别的电子病历、基因组和成像数据。我们这项试点研究的目标是展示大型公共卫生机构内患者同意数据共享的过程,并创建一个框架,方便其他机构、医生和患者添加他们自己的数据。区块链身份验证系统的好处更适合于分散访问(授权),而不是隐私或安全(身份验证),因为所有提交的内容都是公开的。正如我们所假设的那样,所有18名患者在初步研究中都没有对分享他们的数据有所保留,这一点也得到了类似的证明[gydF4y2Ba
,我们相信其他机构的病人也有类似的想法。患者隐私是这个项目的首要任务,我们积极协调所有共享数据的去识别处理的最高标准(见gydF4y2Ba 用于去识别过程)。gydF4y2Ba在设计CGT时,我们必须克服这个领域现有的挑战,即这个框架应该是安全的、高效的、可扩展的,同时具有成本效益,向公众开放,而不是由单一机构拥有。我们不仅要确定应该共享哪些数据,还要确定这些数据的适当格式,以平衡互操作性和共享速度。我们的试点还解决了文化和制度上的挑战,无论是感知的还是现实的,包括IRB、患者同意和教育以及其他因素。gydF4y2Ba
CGT被设计为集中式数据存储库平台(如重症监护医疗信息集市)的替代方法[gydF4y2Ba
这使得一系列强有力的研究成为可能。与这些主要的静态数据库不同,CGT可以促进临床护理系统中尽可能接近生成和提取时间的快速和连续的数据共享。这两种系统各有优点,希望它们在提供未识别的电子病历数据以实现个性化医疗方面是互补的。此外,CGT使研究人员能够使用和解释医疗数据,而不是解决来自多个来源的不同访问方法,或者因为数据无法以任何格式提供而完全失败。事实上,我们希望CGT能够在以前不可能的时间尺度上促进研究和加强临床护理,同时允许数据持有者维护个人数据源和非公开数据子集的隐私和安全[gydF4y2Ba ]。同时,整个过程将尊重个体患者的同意和文化数据共享的偏好和期望。CGT可以汇总所有同意的患者的数据。CGT可能会支持癌症研究,并帮助医生、患者、付款人和其他利益相关者对日益复杂的癌症诊断和治疗及其报销做出更明智的决定。CGT在高度管制的HIPAA环境(gydF4y2Ba )和开放的互联网环境。为了减轻对数据所有权的担忧,CGT建立在去中心化、民主化的区块链格式之上,并将保持免费和开放。gydF4y2Ba主要研究结果gydF4y2Ba
与的列表相比gydF4y2Ba黄金标准gydF4y2Ba数据元素[gydF4y2Ba
我们发现前瞻性收集的注册表和回顾性(OMOP)临床数据程序在完整性方面没有显著差异。然而,某些数据元素更可靠地记录在注册表格式中,特别是诊断日期和癌症组织学。对于旨在进一步个性化医疗的分析,这些信息可能是至关重要的,我们希望本研究的发现可以帮助改进不断适应的OMOP模型,以更好地编码这些信息。这些失误也可能是由于特定于机构的提取、转换、加载(ETL)过程。gydF4y2Ba每种策略都有其各自的优点和缺点。由于注册表数据是手动编码的,因此可以很容易地突出显示和识别特定的关键信息。此外,对于提交给SEER的注册表数据,必须详细说明所有信息,但此过程是手动且耗时的,并且通常会导致每个患者的不同汇总阶段。因此,我们发现与OMOP相比,注册表记录的方差水平更高(平均值37.77,SD 10.87 vs平均值32.94,SD 4.26),这可能反映了人工数据聚合的延迟(即,gydF4y2Ba悬念gydF4y2Ba状态)或质量。很明显,与OMOP相比,更多的患者从注册表数据中获得了更完整的信息,注册表中有5例患者的完整性核心(即总分bbbb45分)超过90%,而OMOP中为0。然而,通过依赖开源的OMOP标准,而不是注册表或专有的EHR结构,通过减少ETL转换,大大降低了分发和共享数据的障碍,这也通过利用许多医院系统中已经发生的转换过程降低了成本。研究人员最近证明了OMOP促进跨位点表型转移的能力[gydF4y2Ba
],这与CGT的目标非常吻合。额外的时间成本是临床和监管任务,涉及患者的同意以及获取、匿名化和上传数据。这一过程占成本的大部分,在大批量生产中将进一步降低。gydF4y2Ba限制gydF4y2Ba
本研究有许多局限性需要解决。注册表和OMOP EHR摘录都没有包含所有有价值和相关的核心数据元素。因此,数据鲁棒性的比较不能推广到所有的数据gydF4y2Ba为对照gydF4y2Ba理想情况下应该在这样的项目中共享的元素。由于OMOP是回顾性提取过程,因此没有立即自动识别原发癌症和治疗效果的方法,尽管我们希望这可以通过随后纳入未识别的注释或新的模式适应或发展来调解。与任何未经管理的数据库类似,登记处和OMOP的数据质量受到输入者的限制,并可能受到个人和电子健康档案系统的基础设施偏差的影响[gydF4y2Ba
]。此外,当前的框架是基于管理员的,这意味着每个机构需要一个单独的个人或团队代表来提交数据。与任何未识别数据的跨机构数据链类似,没有适当的程序能够在注册系统中存在的跨管理员映射相同的患者。尽管我们试图创建一个基于规则的评分系统,它尽可能的公正,包括2个独立的评论者,但是数据元素的手动评分确实包含了主观性和潜在的模糊性gydF4y2Ba .gydF4y2Ba与数据共享相关的再识别风险甚至超出了意外泄漏的范围。例如,即使对于不完整的、完全未识别的数据,最近的一项研究也能够使用基于生成copula的方法,仅根据15个人口统计学属性就能准确地重新识别99.98%的美国人[gydF4y2Ba
]。当然,本文中使用的许多变量在这个数据集中是不可用的,但重要的是要注意,因为将来可能会开发其他模型,这些模型可以应用于共享的数据。总的来说,这些风险需要与将这些有价值的数据孤立起来所带来的停滞相权衡。不分享有关治疗效果和药物不良反应的所有细节不符合公众和整个科学界和医学界的最佳利益。尽管有这些限制,开放的科学数据共享在许多领域都是一个巨大的福音,我们相信,CGT提出了一个概念,证明有用的医疗数据可以公开共享。我们在一项试点研究中进一步证明了这一过程的可行性和实用性,并为其他机构提供了同意和添加患者数据的详细步骤。这个平台的最终成功将取决于患者数据的流动,以及如何使用这些数据来促进发现和帮助个性化治疗。gydF4y2Ba结论gydF4y2Ba
每个癌症病例都是独特的,需要尽可能多的数据来决定理想的治疗方案。现有和公布的更多数据可以帮助临床医生为患者确定理想的个性化治疗。我们发现OMOP CDM是一种可扩展的传播格式,尽管与前瞻性收集的注册表格式相比,它可以通过在关键数据元素领域(如癌症组织学)提供更好的信息来改进。OHDSI肿瘤学工作小组[gydF4y2Ba
]目前正在开发OMOP的扩展,以支持观察性癌症研究,更好地捕获和记录我们在注册表格式中发现的可用元素,但在当前的OMOP实施中没有。我们相信这样的努力对于调和这些差异是无价的,并且应该集成到CGT的未来版本中。总之,我们希望CGT框架、试点研究和交互式可视化应用能够进一步推动癌症登月计划的理想,释放被困在孤岛中的数据,以进一步开展癌症研究,并揭示有助于进一步个性化治疗的模式。gydF4y2Ba致谢gydF4y2Ba
我们感谢UCSF学术研究系统小组提供了未识别的OMOP数据。我们非常感谢Foundation Medicine提供的XML文件。我们感谢Boris Oskotsky帮助建立了PatientExploreR-CGT的服务器。我们感谢Atul Butte和Barbara Koening的有益评论,以及Max Haeussler的早期技术灵感。我们还要感谢Rachael Liao、Bartha Knoppers、Adrian Thorogood和全球基因组学与健康联盟(GA4GH)的合作和指导。在研究进行时,BG隶属于加州大学旧金山分校的Bakar计算健康科学研究所,目前隶属于西奈山伊坎医学院的Hasso Plattner数字健康研究所。本出版物得到了美国国立卫生研究院国家促进转化科学中心的部分支持,通过UCSF-CTSI [UL1 TR001872],美国国立卫生研究院国家癌症研究所给予DH的奖励编号为5U24CA180951-04和5U24CA210974-02,以及马库斯基金会给予EC的奖励。TG感谢国家癌症研究所肿瘤模型论坛项目国家卫生研究院资助U24 CA195858的支持。gydF4y2Ba
利益冲突gydF4y2Ba
没有宣布。gydF4y2Ba
gydF4y2Ba补充材料,包括补充方法、图表和表格。gydF4y2Ba
DOCX文件,2909 KBgydF4y2Ba参考文献gydF4y2Ba
- 斯勒斯基RL。肿瘤学个体化医疗:未来就是现在。新发现,2010;9(5):363-366。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Iyer G, Hanrahan AJ, Milowsky MI, al - ahmadie H, Scott SN, Janakiraman M,等。基因组测序确定依维莫司敏感性的基础。Science 2012; 10月12日;338(6104):221 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Sherman RE, Anderson SA, Pan GJ, Gray GW, Gross T, Hunter NL,等。真实世界的证据——它是什么,它能告诉我们什么?中华医学杂志,2016,32(3):393 - 397。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Glicksberg BS, Johnson KW, Dudley JT。下一代精准医疗:观察性研究、电子健康记录、生物银行和持续监测。中国生物医学工程学报,2018;27(1):556 - 562。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Norgeot B, Glicksberg BS, Butte AJ。呼吁深度学习医疗保健。中华医学杂志,2019,25(1):14-15。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Nwaru BI, Friedman C, Halamka J, Sheikh A.学习卫生系统能否帮助组织提供个性化护理?中华医学杂志,2017;15(1):177 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 李国强,李国强,李国强,等。支持精准医疗的真实世界证据:临床基因组癌症数据作为案例研究。卫生杂志,2018年5月;37(5):765-772。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Adler-Milstein J, Jha AK。以电子方式共享临床数据:修复医疗保健系统的关键挑战。中华医学杂志,2012,31(4):391 - 391。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 梅洛MM,刘伟V,古德曼SN。临床试验参与者对数据共享的风险和收益的看法。中华医学杂志,2018;37 (3):391 - 391 [J]。gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- beaulieuo - jones BK,吴志生,Williams C, Lee R, Bhavnani SP, Byrd JB,等。保护隐私的生成深度神经网络支持临床数据共享。Circ cardiovascular quality Outcomes 2019; 07;12(7): 005122。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Conley RB, Dickson D, Zenklusen JC, Al Naber J, Messner DA, Atasoy A,等。癌症基因组库的核心临床数据要素:多方利益相关者的共识。Cell 2017年11月16日;171(5):982-986 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- OHDSI -观察健康数据科学和信息学。OHDSI肿瘤学工作组gydF4y2Bahttps://www.ohdsi.org/web/wiki/doku.php?id=projects:workgroups:oncology-sg#gydF4y2Ba[2019-09-01]访问gydF4y2Ba
- 李国强,李国强,李国强,李国强,李国强,等。使用临床基因组数据库分析非小细胞肺癌患者特征和肿瘤基因组学与临床结果的关系中华医学杂志,2019;33 (4):1391-1399 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 刘建军,刘建军,刘建军,等。基于b区块链的特征工程隐私保护方法研究。医学与互联网研究,2019年8月14日;21(8):e13600 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 张鹏,张建军,张建军,张建军。基于区块链的临床数据共享技术研究。中国生物医学工程学报,2018;16 (1):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 王峰,徐忠,刘绍峰,王峰。基于区块链的安全可信电子病历共享。中国生物医学工程学报(英文版);2017;39 - 39 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 马莫希纳,杨诺维奇,Ojomoko L, Ostrovski A, Botezatu A, Prikhodko P,等。融合区块链和下一代人工智能技术,分散和加速生物医学研究和医疗保健。Oncotarget 2018 1月19日;9(5):5665-5690 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Ozercan HI, Ileri AM, Ayday E, Alkan C.实现区块链技术在基因组学中的潜力。基因组学报,2018;28(9):1255-1263 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 黄博士,Bhattacharya S, Butte AJ。使用区块链在不可信的环境中运行临床试验的原型。中华医学会2019年2月22日;10(1):917 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 郭涛,王晓明,王晓明,等。区块链平台的系统评价与医疗卫生案例比较。中华医学杂志,2019;26(5):462-478。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 朴玉华,李恩,Na W, Park S, Lee Y, Lee J.区块链技术是否适用于个人健康记录管理?混合方法研究以测试可行性。中国医学信息学报,2019年2月8日;21(2):1233 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Vazirani AA, O'Donoghue O, Brindley D, Meinert E.实现高效医疗保健的区块链:系统评价。中国医学信息学报,2019年2月12日;21(2):e12439 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 癌症基因信托基金。URL:gydF4y2Bahttps://www.cancergenetrust.orggydF4y2Ba[2019-10-27]访问gydF4y2Ba
- Ethereum。URL:gydF4y2Bahttps://ethereum.orggydF4y2Ba[2019-10-27]访问gydF4y2Ba
- IPFS为分布式网络提供动力。URL:gydF4y2Bahttps://ipfs.iogydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 癌症基因信托协议。共享癌症研究中的临床和基因组数据gydF4y2Bahttps://www.cancergenetrust.org/docs/cgt-ucsf-protocol.pdfgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- GitHub。癌症基因信托网址:gydF4y2Bahttps://www.github.com/cancergenetrustgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 王凯,李建军,李建军,等。基于大规模平行DNA测序的临床癌症基因组分析测试的开发和验证。生物工程学报,2013;31(11):1023-1031 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Joseph NM, Chen Y, Nasr A, Yeh I, Talevich E, Onodera C,等。恶性腹膜间皮瘤的基因组分析揭示了表观遗传调控基因BAP1、SETD2和DDX3X的复发性改变。现代病理杂志2017;30(2):246-254 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 基础医学。URL:gydF4y2Bahttps://www.foundationmedicine.com/gydF4y2Ba[2019-10-27]访问gydF4y2Ba
- Kline CN, Joseph NM, Grenert JP, van Ziffle J, Talevich E, Onodera C,等。针对小儿神经肿瘤患者的下一代测序提高了诊断,识别致病种系突变,并指导靶向治疗。神经肿瘤杂志2017年5月1日;19(5):699-709 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- OHDSI -观察健康数据科学和信息学。URL:gydF4y2Bahttps://www.ohdsi.org/gydF4y2Ba[2019-09-01]访问gydF4y2Ba
- 李建军,李建军,李建军,李建军,等。推进主动监测的科学:观察性医疗结果伙伴关系的基本原理和设计。Ann Intern Med 2010年11月2日;153(9):600-606。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 监测、流行病学和最终结果计划。SEER程序编码与暂存手册2018gydF4y2Bahttps://seer.cancer.gov/tools/codingmanuals/gydF4y2Ba[2019-09-01]访问gydF4y2Ba
- NAACCR。数据标准与数据词典,第二卷gydF4y2Bahttps://www.naaccr.org/data-standards-data-dictionary/gydF4y2Ba[2019-09-01]访问gydF4y2Ba
- 癌症基因信托基金。dapp URL:gydF4y2Bahttps://www.cancergenetrust.org/docs/aboutgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- Glicksberg BS, Oskotsky B, Thangaraj PM, Giangreco N, Badgeley MA, Johnson KW,等。PatientExploreR:一个可扩展的应用程序,用于从OMOP公共数据模型中的电子健康记录动态可视化患者的临床病史。生物信息学2019 11月1日;35(21):4515-4518 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 张伟,程军,谢勇,McPherson J. CRAN - R项目。2015。Shiny: web application framework for RgydF4y2Bahttps://cran.r-project.org/web/packages/shiny/index.htmlgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 刘建军,刘建军。CRAN - R项目。2018。shinyWidgets:自定义输入Widgets为闪亮的URL:gydF4y2Bahttps://cran.r-project.org/web/packages/shinyWidgets/shinyWidgets.pdfgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 李建平。CRAN - R项目。2017。在几秒钟内轻松改善您闪亮应用程序的用户体验gydF4y2Bahttps://cran.r-project.org/web/packages/shinyjs/index.htmlgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 刘建军,刘建军,刘建军,等。2018。shinyalert:轻松创建漂亮的弹出消息(情态)在“闪亮”的URL:gydF4y2Bahttps://cran.r-project.org/web/packages/shinyalert/shinyalert.pdfgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 李建军。CRAN - R项目。2017。shinycssloaders:添加CSS加载动画到'shiny'输出gydF4y2Bahttps://cran.r-project.org/web/packages/shinycssloaders/index.htmlgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- CRAN - R项目。2015。shinyBS: Twitter引导组件的闪亮URL:gydF4y2Bahttps://cran.r-project.org/web/packages/shinyBS/shinyBS.pdfgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 张伟。CRAN - R项目。2015。主题为闪亮的URL:gydF4y2Bahttps://cran.r-project.org/web/packages/shinythemes/index.htmlgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 张建军,刘建军,张建军,张建军,张建军,张建军。2017。plotly:通过'plotly.js'创建交互式Web图形gydF4y2Bahttps://cran.r-project.org/web/packages/plotly/index.htmlgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 刘建军,刘建军,刘建军。CRAN - R项目。2016。timevis:在R中创建交互式时间轴可视化gydF4y2Bahttps://cran.r-project.org/web/packages/timevis/index.htmlgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- Glicksberg BS, Oskotsky B, Giangreco N, Thangaraj P, Rudrapatna V, Datta D,等。ROMOP:一个轻量级的R包,用于与omop格式的电子健康记录数据进行接口。2019年4月2日(1):10-14 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 李建军,李建军,李建军,李建军,等。2018。数据。'data.frame'的扩展gydF4y2Bahttps://cran.r-project.org/web/packages/data.table/index.htmlgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 谢勇,程军,刘建军,李建军,刘建军,等。2016。JavaScript库“数据表”的包装器gydF4y2Bahttps://cran.r-project.org/web/packages/DT/index.htmlgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 陈国强,陈国强。2018。rjson: JSON for R URL:gydF4y2Bahttps://cran.r-project.org/web/packages/rjson/rjson.pdfgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- 刘建军,刘建军,刘建军,刘建军。dplyr:数据操作语法gydF4y2Bahttps://cran.r-project.org/web/packages/dplyr/index.htmlgydF4y2Ba[2019-10-27]访问gydF4y2Ba
- PatientExploreR-CGT。URL:gydF4y2Bahttp://patientexplorer.cancergenetrust.orggydF4y2Ba[2019-10-27]访问gydF4y2Ba
- Johnson AE, Pollard TJ, Shen L, Lehman LH, Feng M, Ghassemi M,等。MIMIC-III,一个免费访问的重症监护数据库。Sci Data 2016 5月24日;3:160035 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 李建军,李建军,李建军,刘建军,刘建军,等。使用公共数据模型促进表型转移。[J] .中国生物医学工程学报,2019;22(3):444 - 444。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- Agniel D, Kohane IS, Weber GM.电子健康记录数据中因医疗保健系统流程而产生的偏差:回顾性观察研究。中国医学杂志2018年4月30日;361:k1479 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
- 罗旭东,李建军,李建军,等。基于生成模型的不完整数据集再识别成功率评估。中华医学会2019年7月23日;10(1):3069 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
gydF4y2Ba
缩写gydF4y2Ba
清洁发展机制:gydF4y2Ba通用数据模型gydF4y2Ba |
资本利得:gydF4y2Ba癌症基因信托基金gydF4y2Ba |
CT:gydF4y2Ba计算机断层扫描gydF4y2Ba |
仓库:gydF4y2Ba企业数据仓库gydF4y2Ba |
电子健康档案:gydF4y2Ba电子健康记录gydF4y2Ba |
ETL:gydF4y2Ba提取,转换,加载gydF4y2Ba |
HIPAA:gydF4y2Ba健康保险流通与责任法案gydF4y2Ba |
ipf:gydF4y2Ba行星际文件系统gydF4y2Ba |
IRB:gydF4y2Ba院校审查委员会gydF4y2Ba |
MRN:gydF4y2Ba病历编号gydF4y2Ba |
OHDSI:gydF4y2Ba观察健康数据科学与信息学gydF4y2Ba |
OMOP:gydF4y2Ba观察性医疗成果伙伴关系gydF4y2Ba |
φ:gydF4y2Ba受保护的健康信息gydF4y2Ba |
预言家:gydF4y2Ba监测、流行病学和最终结果gydF4y2Ba |
加州大学旧金山分校:gydF4y2Ba加州大学旧金山分校gydF4y2Ba |
UUID:gydF4y2Ba通用唯一标识符gydF4y2Ba |
G·艾森巴赫编辑;提交27.10.19;L Rusu, K Yin同行评议;对作者15.11.19的评论;修订版本收到09.12.19;接受15.12.19;发表20.03.20gydF4y2Ba
版权gydF4y2Ba©Benjamin Scott Glicksberg, Shohei Burns, Rob Currie, Ann Griffin, Zhen Jane Wang, David Haussler, Theodore Goldstein, Eric Collisson。原载于医学互联网研究杂志(//www.mybigtv.com), 2020年3月20日。gydF4y2Ba
这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba