最近的文章

电子健康记录(EHRs)已成功应用于数据科学和机器学习项目。然而,收集这些数据大部分是为了临床使用,而不是为了回顾性分析。这意味着研究人员在试图访问和准备二次使用的数据时通常会面临许多不同的问题。我们的目的是调查如何在回顾性数据科学项目中以一种有纪律的、有效的和高效的方式访问和准备原始的EHRs。我们报告了我们从一个大型数据科学项目中获得的经验和发现,该项目分析了从奥地利林茨的开普勒大学医院常规获得的回顾性数据。该项目在10年的时间里收集了超过15万名患者的数据。它包括多种数据模式,如静态人口数据、不规则获取的实验室检测结果、定期采样的生命体征和高频生理波形信号。原始医疗数据可能以许多意想不到的方式被损坏,这需要彻底的人工检查和高度个性化的数据清理解决方案。我们提出了一个通用的数据准备工作流,它是在我们的项目过程中形成的,包括以下7个步骤:获得可用的EHR数据的粗略概述,定义用于监督学习的临床有意义的标签,从医院的数据仓库中提取相关数据,匹配从不同来源提取的数据,识别它们,通过仔细的探索性分析检测其中的错误和不一致,并在实际代码中实现合适的数据处理管道。 Only few of the data preparation issues encountered in our project were addressed by generic medical data preprocessing tools that have been proposed recently. Instead, highly individualized solutions for the specific data used in one’s own research seem inevitable. We believe that the proposed workflow can serve as a guidance for practitioners, helping them to identify and address potential problems early and avoid some common pitfalls.
Preprints Open for Peer-Review" class="text-center" data-v-bfbc99e2>预印本开放的同行评审
公开同行评议期:
-
公开同行评议期:
-