发表在9卷, 5号(2021): 5月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/27172,首次出版
临床研究中真实世界数据和证据的异常检测算法:实施、评估和验证研究

临床研究中真实世界数据和证据的异常检测算法:实施、评估和验证研究

临床研究中真实世界数据和证据的异常检测算法:实施、评估和验证研究

原始论文

1捷克共和国布尔诺马萨里克大学医学院

2捷克布尔诺生物统计与分析研究所

通讯作者:

丹尼尔·施瓦茨,硕士,博士

生物统计与分析研究所有限公司

Postovska 3

布尔诺

捷克共和国

电话:420 604996753

电子邮件:schwarz@biostatistika.cz


背景:统计分析已成为循证医学的重要组成部分,在现代临床研究中对数据质量的依赖是至关重要的。输入数据不仅存在伪造或捏造的风险,而且还存在调查人员处理不当的风险。

摘要目的:由于迫切需要确保尽可能高的数据质量,因此实施了各种审计战略,旨在监测临床试验并发现实地经常发生的不同来源的错误。本研究的目的是描述一种基于机器学习的算法,用于检测由于粗心大意、系统错误或故意输入伪造值而产生的数据中的异常模式。

方法:介绍了一种特殊的用于临床注册数据管理的电子数据采集(EDC)系统,包括其体系结构和数据结构。该EDC系统的特点是基于机器学习的算法,旨在检测定量数据中的异常模式。检测算法将聚类与一系列7个距离度量相结合,用于确定异常的强度。在检测过程中,使用了阈值和指标组合,并在涉及模拟异常数据和实际数据的实验中评估和验证了检测性能。

结果:介绍了与神经科学相关的五个不同的临床注册表,它们都在给定的EDC系统中运行。选择其中两个注册表进行评估实验,并用于在独立数据集上验证检测性能。距离度量的最佳组合是堪培拉、曼哈顿和马哈拉诺比斯,而余弦和切比雪夫度量被排除在进一步的分析之外,因为当用作单个基于距离度量的分类器时,它们的性能最低。

结论:实验结果表明,该算法具有通用性,可应用于其他EDC系统,并能以85%以上的灵敏度检测异常数据。

中国生物医学工程学报;2011;31 (5):579 - 579

doi: 10.2196/27172

关键字



坚持循证医学原则已成为当今临床实践的规范。这些原则包括建立基于现有最佳临床研究证据的适当指导方针。因此,高质量的输入数据至关重要,因为否则可能产生有偏见的证据,可能导致有害的健康决定。

临床登记的定义是从具有特定健康特征的患者那里收集的一套明确定义的健康和人口统计数据的系统收集,是卫生保健领域可获得的众多数据来源之一[1]。考虑到临床研究的角度,临床注册对病人护理质素的影响已载于[2],其中还审查监测保健提供模式和遵守循证准则的情况。在这些登记处收集的真实世界数据(RWD)可能在上市后研究的背景下,为现有随机对照试验未解决的问题提供急需的答案。由于参与临床试验的患者群体数量往往很少,而且相当同质和高度特异性,因此进一步使用这些获得的数据集来预测医疗结果或未来在现实世界中不受控制的情况下的表现已被证明是困难的[3.]。

数据分析的效率在很大程度上取决于数据质量,而数据质量有可能影响对照临床试验和上市后监测实践的临床研究结果,这些实践主要由非介入性、观察性研究和临床登记所代表。与数据质量相关的问题,如丢失或不准确数据的比例高,给最终分析带来不确定性,减慢工作流程,产生额外的工作,从而增加研究成本。有关医疗注册处数据质素的检讨及一般架构载于[4],包括案例研究中各种数据错误的一些类型和百分比。在另一项范围检讨中[5],着重于创伤登记,呼吁标准化分类、测量和提高数据质量。为了纾缓数据质素问题,我们采用了不同的审核技术和监察策略(请参阅[6])。除了广泛的监测方法,包括现场访问和详尽的源数据核查外,最近在数据质量保证领域还实施了其他有效的基于风险的监测方法。通过利用先进的统计工具,这些工具能够识别具有可能表明质量问题的非典型数据模式的医疗中心或诊所,从而降低监测成本[7]。旨在检测欺诈,即伪造或伪造数据的中央统计监测(CSM)的基础统计概念是在20年前提出的。临床研究中数据造假的发生率被认为相对较低,但难以准确估计[8]。

临床研究中的传统数据收集包括将数据记录在纸质病例报告表格(CRFs)中,然后在关系数据库中进行双重输入。计算机科学、生命科学和医疗保健领域的技术不断进步,导致了电子数据采集(EDC)系统的出现,这已被证明是一种更有效的[9]和更便宜的[10]替代纸质数据采集。电子数据中心系统使研究人员可以将数据直接输入电子研究报告,而研究协调员则可以实时监督和控制这些研究报告。[11-13即使在多中心研究中也是如此。EDC系统已经占据主导地位,因为它们不仅节省时间和成本效益,而且有助于质量保证,因为它们允许控制数据访问,并使用审计跟踪功能跟踪对它们进行的所有更改。此外,它们执行自动编辑检查,以防止输入无效数据。14纳入临床登记,然而,这几乎不可能被完全排除。当需要通过编辑检查约束多个变量时,由数据管理器设计的验证过程可能会变得过于复杂,容易出错。由于验证程序是eCRF不可分割的一部分,临床研究者可能无法理解这种复杂的编辑检查所产生的警告信息,他们仍然需要理解其事实内容。

因此,在使用EDC系统确保高质量数据方面,仍有很大的潜力可以进一步改进。与前面提到的基于风险的监控工具(如采用各种离群值检测技术的CSM)的集成,代表了另一种自动化的质量控制方法。[15]将用于医疗保健数据库数据保证的离群点检测技术分为几类:统计模型、聚类模型、分类模型、最近邻模型和混合模型。它揭示了统计技术被频繁使用,而与数据科学和数据挖掘相关的其他技术在这种情况下仍然很少使用。

[16]对一种特定的CSM技术的益处提出了质疑,该技术根据在一项特定的多中心上市后试验中从数千个统计测试中计算出的数据不一致性评分,将临床地点分类为边远地区,因此驳回了可以以更低成本进行试验的想法。

本文描述了一种基于机器学习的算法,旨在检测由于粗心大意、系统错误或故意输入伪造值而产生的数据中的异常模式。重点介绍了异常检测算法的主要概念,并给出了一个特定的EDC系统,演示了其成功实现。该系统收集的数据集已在许多临床登记处使用,并在这里用于试点测试和异常检出率的计算。重要的是要注意,通过异常数据或异常,我们理解的是不符合正常收集数据的观察,其中观察是指进入检测算法的单个患者数据记录。


为了完全实现与数据结构相关的异常检测算法,必须有一个EDC系统。本节将详细描述这样一个系统,包括它的体系结构和数据结构。

EDC系统及其数据结构

本研究中使用的EDC系统被称为临床数据仓库信息系统(Clade-IS),是一个强大的、模块化的、基于web的数据管理和临床试验管理软件。它包含大量来自许多临床专业的RWD,包括神经病学和精神病学,可以随时用于实验。本文的作者是工程师、数据科学家、计算机科学家和数据管理人员,他们隶属于合同研究机构,该机构开发了EDC系统,因此他们对其数据结构有很好的理解。

该系统由5个相互通信的组件组成:代理、服务器、管理员、设计器和报告器;参见图1。代表用户界面的代理将用户的活动(由通过REST API(表示状态传输应用程序接口)发出的请求定义)传播到服务器,在服务器上处理请求。服务器还在关系数据库中存储和访问注册表数据,并维护数据完整性。例如,在组件之间的整个转换过程中,必须确保数据的一致性和准确性,因为数据的格式根据其预期用途而变化,从输入到存储,再到提取和报告。它还确保符合数据访问规则,这些规则可以通过管理员中的用户、组、角色和表单状态进行配置。下一个组件称为设计器,它表示数据管理器用来设计ecrf的综合表单构建器。

图1所示。临床数据仓库信息系统(Clade-IS)组件和数据库的体系结构。服务器为包括数据存储在内的大多数操作提供了一个具有代表性的状态传输应用程序接口(REST API)。代理代表一个转发接口,它将用户的活动传输到服务器。代理可以选择性地分散到医院或另一个研究机构。Adminer和Designer用于配置特定于注册中心的权限、设计电子案例报告表单(ecrf),以及构建和生成经过身份验证和授权的用户可以访问的表单。Reporter基于提取-转换-加载(ETL)过程,用于分析和报告目的。
查看此图

最后,报告器作为数据分析师和数据科学家的工具包,是一个基于ETL(提取-转换-加载)流程的组件,该流程可促进数据导出和业务智能。除了主要用于数据存储操作的主数据库外,上述组件还使用其他4个数据库,用于以下目的:(1)从数据库是执行所有数据提取操作的主数据库的逻辑副本;(2)代理辅助数据库存储在中央存储库之外的研究项目和研究中收集的个人数据,以防根据《通用数据保护条例》(GDPR)对数字数据的集中部署不再可能;(3)记者——广告数据库用于数据导出;(4)记者——bi数据库用于商业智能报告。

集成到cade - is中的主数据库(主数据库和从数据库)基于实体-属性-值(EAV)模型,也称为垂直数据库模型,能够有效地对具有稀疏特征的实体进行编码。这样的功能直接适用于临床注册,因为它们通常包含大量描述实体的可用属性,但是一旦输入数据,具有指定值的属性数量就相当少了。以下数据结构用于构建eCRF:臂-阶段-形式-问题组-问题-答案,其中一个问题-答案对分别表示一个属性-值对。其他结构表示EAV数据模型中的实体。图2用来解释实体的含义。eCRF数据以JSON格式存储;例如,单一答案的问题(Q10,诊断时患者的年龄)表示为Q10:{“价值”:63年,“状态”:“完成”}并存储在数据库的单个单元格中;看到多媒体附录12用于数据示例。其他数据库模式根据其特定用途而有所不同。

图2。这个示例说明了临床数据仓库信息系统(Clade-IS)中用于构建电子病例报告表格(ecrf)的实体(分支、阶段、表单、问题组)和属性(问题)的结构。问题在逻辑上分为问题组(如人口学问题组、合并症问题组等),表格由问题组(如诊断表、治疗表等)组成,表格分为阶段(如住院表阶段、随访表阶段、生活质量表阶段等),阶段分为分组,可能代表研究或登记中受试者的不同亚群(如诊断为情感性障碍的受试者)。精神分裂症、分裂情感性障碍和对照组)。
查看此图

异常检测算法

异常数据由内置在reporter组件中的调度脚本识别,该脚本连接到reporter-ad数据库,它在自己的辅助表中存储和访问数据。定义检测算法的主要步骤见图3

检测算法的多维特性要求将所有eCRF问题合并到一个平面表中,其中行表示患者,列表示从eCRF结构的所有形式收集的单个变量(属性)。为了将单个平面表格视为合适的分析数据集,每个患者都需要以1:1的关系链接到任何表单。然而,在大多数注册中心,患者与他/她的表格以1:N的关系,N通常因患者而异。例如,患者A的记录可能包括1份患者表格、1份住院表格、2份随访表格,但没有生活质量调查表格,而患者B的记录可能包括1份患者表格、1份住院表格、3份随访表格和2份生活质量调查表格。将所有表单合并到一个平面表格中会导致列中的变量不对齐。即使具有极其严格的结构和每个患者预定义的表单实例数量的ecrf,就患者病情的时间上下文而言,仍然可能产生无意义的列组合。为了帮助克服这个问题,这里引入了半扁平表的概念(图4).半平面化的表包括一个“前缀”表,它是通过序列化所有表单创建的,只允许运行一个实例,以及一个可以多次实例化的合并表单。这就解释了N西南创建半扁平的表,其中N西南表示允许每个患者有多个实例的所有表单的总数。因此,必须运行检测算法N西南对于前缀表和每个半扁平表分别+1次。前缀表和半扁平表中的行都包含以下数据类型的变量:字符串、文本、整数、浮点数、日期、日期时间、时间、布尔值和分类变量。因为只有数值数据才需要进一步分析,所以需要对数据表进行预处理。在算法中有4个预处理步骤:drop, imputation, recocoding, and normalization。首先,丢失数据量超过预设百分比的变量将从表中删除(排除)。此外,删除了字符串和文本数据类型的所有变量,因为它们只表示与本研究无关的不重要的注释和注释。剩余的变量仍然有一些缺失值,使用分别为每个变量计算的中位数进行估算。在下一步中,将非数值变量重新编码为数值变量。date、time和datetime数据类型的变量被重新编码为表示从1.1.1600 00:00:01开始的秒数的数值。布尔变量和分类变量以一种方式重新编码,即每个唯一数据项代表一个不同的整数值(例如,“Female”1和“Male”0)。升序整数值是根据唯一数据出现的频率分配的。 The numerical variables holding integer and float data types do not require any recoding.

图3。说明异常检测算法及其与电子数据捕获(EDC)系统的联系的方案。该算法将注册表原始数据转换为半扁平的表,其中仅包含行中变量的有意义的组合。这些表被预处理为四个连续的步骤,从而产生一个特征向量,从中计算一个单一的质心。所有数据对象(特征向量)与质心之间的距离使用七种不同的距离度量来测量。超过阈值距离的数量表明异常证据的强度。然后对所有异常情况进行事后单变量测试,以在拟由数据管理人员处理的自动生成的电子查询的描述中确定可能有问题的变量。
查看此图
图4。半扁平表格的概念在两个病人的数据上得到了证明。两个半扁平的桌子(N西南结果来自于两个不同的重复形式:随访和生活质量。另外两种形式:Subject和hospitali只存在于每个患者的一个实例中,因此它们的所有变量(Q1、Q2、…、Q30)放在一起形成一个前缀表。允许创建多个表单的电子案例报告表单(ecrf)中出现了半扁平表的多重存在。重复表单的每个实例都被附加到前缀表中。这种半扁平表的概念确保列中对齐的所有值都与相同的变量相关。
查看此图

在最后的预处理步骤中,数据必须归一化,因为变量可能在数量级或测量单位上变化。在预处理阶段的最后,数据表看起来如下:每一行代表一个观测值,其中列代表具有可接受的缺失数据比例的变量,这些缺失数据被重新编码为它们的数值表示,随后(最小-最大)归一化为0到1之间的值;见预处理前后的样例数据表1

一旦全自动预处理阶段完成,异常数据的分类与[1517使用众所周知的基于聚类的离群点检测技术,该技术也将离群点视为不位于数据集聚类中的数据对象。这里只创建了一个包含所有数据对象的集群。每个对象由特征向量描述,特征向量采用从预处理数据表中获得的行形式。使用7种不同的距离度量来测量潜在异常点与聚类质心之间的距离:堪培拉(CAN)、切比雪夫(CHEB)、余弦(COS)、欧几里得(EUC)、曼哈顿(MAN)、马氏(MAH)和闵可夫斯基(Minkowski)。该算法的目的不是像众所周知的k-means算法那样执行聚类分析。相反,它寻求找到与质心的距离大于区分异常记录与正常记录的阈值的所有数据对象。距离阈值以两种方式为每个度量单独计算:(1)使用预定义的百分位数,(2)使用IQR规则,该规则将IQR的上限乘以1.5并添加到第三个四分位数。当至少一个距离度量超过两个阈值的最小值时,数据对象被识别为异常。使用预定义的百分位数,如果该值低于IQR规则规定的阈值,则可以提高检测灵敏度,但通常以牺牲特异性为代价。异常证据的强度由超过阈值距离度量的数量决定。

该算法生成一个表,其中包含所有检测到的异常,由患者标识符表示,证据的强度,以及使用事后单变量检验确定的潜在问题变量列表,这些变量对于正态分布和非正态分布变量是不同的。之后,在报告器内部操作的计划处理程序生成数据管理人员非常关心的自动查询,数据管理人员通常负责在研究过程或注册表监控过程中处理这些查询。

表1。预处理前后的样例数据。行索引表示唯一的患者标识符。列标题表示唯一的问题标识符——在研究结构中编码位置的变量名。丢失数据率超过20%的变量被删除。其他具有可接受的缺失数据比例的变量用中位数进行估算。随后,根据变量数据类型对数据进行重新编码,并规范化以产生区间[0,1]内的值。一个
指数 A0.P0.F2.G2.Q1 A0.P0.F2.G2.Q3 A1.P1.F7.G44.Q672 A1.P1.F7.G35.Q1443 A1.P1.F3.G3.Q6
前的预处理

0001437 1947-01-23 是的 4 64

0001437 1947-01-23 是的 4 64

0001437 1947-01-23 是的 4 64

0001333 1941-06-24 是的 2 68

0001333 1941-06-24 是的 2 68

0001479 1948-11-03 男性 没有一个 2 57

0001513 1950-03-26 男性 是的 1 59
预处理后

0001437 0.340432 1 0 1 0.657143

0001437 0.340432 1 0 1 0.657143

0001437 0.340432 1 0 1 0.657143

0001333 0.258807 1 0 0.5 0.714286

0001333 0.258807 1 0 0.5 0.714286

0001479 0.366453 0 1 0.5 0.557143

0001513 0.366453 0 0 0.25 0.585714

一个A:研究组;P:研究阶段,相关形式所处的位置;F:形式,问题所在的位置;G:问题组;问:问题。

数据异常模拟与性能评估

在本研究中,评估是指一种探索性分析,旨在建立上述EDC系统中内置的算法异常检测性能的定量特征。性能评估使用模拟异常数据进行,这些数据需要在无异常数据集中人工生成,以获得地基真值知识。

模拟异常以宽格式表的形式生成,随后通过删除、输入和重新编码进行预处理,但不进行归一化处理。首先,将正在预处理的表中所有单元格的一个小百分比(默认为1%)设置为值的数量Nc意图被改变。其次,随机取患者数作为异常数据对象的个数N年代打算生成的。这一比率NvNc/N年代给出为了将正常数据对象转换为异常数据对象而需要更改其值的变量的大致数量。这些更改仅对以下数据类型的变量执行:整数、浮点数、日期、时间和datetime。正态分布变量的值被转换为平均值(6σ),而非正态分布变量的值被转换为随机数,这些随机数由在特定变量中出现频率低于10%的相当不寻常的值形成的区间组成。然后,运行能够区分正态分布和非正态分布的Shapiro-Wilk检验。每次发生异常时,都会触发内置到给定注册表中的自动编辑检查,以确保新生成的异常数据经过与人工调查员输入的数据相同的验证过程。在模拟结束时,根据其在数据表中的位置识别所有生成的异常数据对象,无论是原始值还是更改值。

检测算法的性能评估分两个阶段进行:(1)为每个距离度量设置最佳阈值;(2)寻找距离度量的最佳组合。在第一阶段,通过改变阈值百分位数来计算每个单独距离度量的受试者工作特征(ROC)曲线。的基础上选择最佳阈值C1标准,使整体精度和约登指数最大化[18],而ROC曲线上对应点到左上角的距离ULC_dist最小化:

C1=归一化(精度)2+归一化(约登指数)2- normalized (ULC_dist)2(1)

其中(1)的所有3个成员归一化为区间(0,1)。然后测试具有设置阈值的距离度量的所有可能组合,并由C2以平衡的准确性为基础,但倾向于敏感性而非特异性的标准:

C2= balanced_accuracy + sensitivity = (TPR+TNR)/2 + TPR = (3TPR+TNR)/2(2)

式中,TPR为真阳性率,TNR为真阴性率。

验证

在本研究中,验证主要是指可重复性验证,其执行方式如下:来自2个不同注册中心的所有数据都经过专家评审。由于没有问题报告,这些数据集可用于评估和验证目的。一旦检测算法完全由阈值指定,并且通过对第一个注册表数据应用两阶段评估过程确定距离度量的最佳组合,则使用来自第二个注册表的独立数据集来验证检测性能。


EDC系统部署

迄今为止,cade - is已在数百个临床中心实施,为众多研究提供服务,主要是临床登记和其他RWD项目。因此,这个电子数据中心系统包含数百万份不同来源的真实记录。如此庞大的RWD集使得使用所设计的检测算法进行异常检测成为可能,该算法的性能随后得到验证。

本文利用五个神经科学相关的注册表来研究部署和使用上述算法自动检测异常数据的可能性。登记在范围上存在显著差异,即研究目标、eCRFs的复杂性、持续时间以及涉及的患者数量(表2).虽然5个登记处中有2个由马萨里克大学赞助,但其余3个登记处属于捷克神经学会的神经肌肉部门,该部门不允许对其进行识别。为了保持一致性,所有5个注册中心的名称在这里都是匿名的。

1号登记处收集了重症肌无力患者的数据,重症肌无力是一种罕见的影响神经肌肉传递的自身免疫性疾病。该登记处旨在从尽可能多的患者那里收集全面信息,涵盖疾病的整个过程和对治疗的反应,以便加强新疗法的开发和改善患者护理。登记号码2收集了诊断为以下任何神经肌肉疾病的患者的数据:杜氏和贝克尔肌营养不良症、脊髓性肌萎缩症、肌强张性营养不良症和面肩肱骨肌营养不良症。登记的目的是从尽可能多的有因果遗传缺陷的患者那里收集全面的信息,从而为开发新的治疗方法做出贡献。3号登记处收集了由获得性脑损伤引起的痉挛性麻痹患者的数据,包括颅脑外伤、脑瘫和中枢性中风。登记的目的是对收集到的数据进行可视化分析,以加强与个别患者的物理和医疗治疗有关的决策过程。登记号4代表了对处于各种情感障碍抑郁期的认知障碍患者的纵向监测。登记的目的是评估认知障碍患者脑形态和功能变化的诊断和预后潜力,并调查其对患者生活质量和社会功能的影响。登记编号5代表了一项为期5年的非介入性前瞻性随访研究,涉及首次发作精神分裂症的患者。该研究旨在评估患者在疾病早期阶段的社会心理需求,并检查社会心理干预措施的效果。

表2。总结了由cade - is提供支持的5个神经科学相关临床注册的数据一个用于研究执行异常数据自动检测的可能性。
数量特征×注册表特征 注册号1 注册号2 注册中心3号 注册中心编号4 注册号5
形式 4763 9372 13711年 214 67
病人 1150 1649 405 33 29
调查人员 26 63 15 19 8
网站 9 14 1 1 1
学习年限 5 9 1 4 5

一个临床数据仓库信息系统

异常检测算法-评估与验证

使用从注册表号3中提取的数据集评估检测算法的性能,然后使用从注册表号5中提取的数据集进行验证。使用下一节中描述的程序分别为每个数据集生成模拟异常。要更改的默认单元格数设置为1%,即在评估数据集中(注册表号3)将22个正常数据对象转换为异常,在独立数据集中(注册表号5)将7个正常数据对象转换为异常。

图5为基于单距离度量的分类器计算的ROC曲线,其功能是寻找最佳阈值。单个指标的检测性能最差的是切比雪夫和余弦指标。两个数据集的结果是一致的(见C1表3).因此,这两个距离度量被排除在随后的集成分类之外。虽然对评估数据集进行了详细的ROC分析,以便在81个采样和测试百分位数中找到最佳阈值,但在独立数据集的情况下,仅计算1个距离阈值设置的性能特征。

图5。基于单个距离度量的分类器生成的ROC曲线。这些曲线是通过连接81个点来创建的,这些点显示了在从第5百分位距离到第95百分位距离的各种阈值设置下计算的真阳性率(敏感性)和假阳性率(1-特异性)。突出显示的点表示由标准确定的具有最佳检测性能的阈值C1
查看此图

设置阈值后,搜索剩余5个距离度量的最佳组合。生成所有可能的集合,首先单独使用基于距离度量的分类器,然后组合其中的2、3、4个分类器,最后在3种不同场景下组合所有5个分类器:(1)使用评估数据集设置阈值,并确定最佳度量组合(表4);(2)使用评估数据集设置阈值,而使用独立数据集(表5);(3)仅使用独立数据集搜索阈值和指标组合(表6).

第二种情况在模拟检测算法的实际使用方面被证明是最好的,这种算法需要检测尚未见过的数据中的异常。具体而言,结合马氏、曼哈顿和堪培拉距离指标检测效果最佳,灵敏度为85.7%,特异性为72.7%,平衡准确率为79.2%。

正如预期的那样,当数据集分别用于阈值设置和搜索距离度量的最佳组合时,获得了更高的性能-如场景(1)和(2)所示。

表3。使用评估数据集和独立数据集的单个单距离度量分类器实现的检测性能特征。一个
距离度量 百分位阈值 灵敏度(%) 特异性(%) 精度(%) Youden指数 ULC_dist C1
评估数据集(注册表号3)

堪培拉 77.5 81.82 80.94 80.99 0.628 0.263 1.481

切比雪夫 64.0 100.00 67.62 69.38 0.676 0.324 1.384

余弦 95.0 100.00 67.89 69.63 0.679 0.321 1.395

欧几里得 86.0 81.82 87.21 86.91 0.690 0.222 1.760

Mahalanobis 88.0 63.64 90.86 89.38 0.545 0.375 1.423

曼哈顿 86.0 81.82 89.82 89.38 0.716 0.208 1.882

闵可夫斯基 83.5 81.82 87.21 86.91 0.690 0.222 1.760
独立数据集(注册表号5)

堪培拉 77.5 57.14 86.36 79.31 0.435 0.450 1.177

切比雪夫 64.0 28.57 50.00 44.83 - - - - - -0.214 0.872 - - - - - -0.595

余弦 95.0 100.00 13.64 34.48 0.136 0.864 - - - - - -0.517

欧几里得 86.0 42.86 90.91 79.31 0.338 0.579 0.916

Mahalanobis 88.0 28.57 90.91 75.86 0.195 0.720 0.465

曼哈顿 86.0 42.86 95.46 82.76 0.383 0.573 1.084

闵可夫斯基 83.5 42.86 90.91 79.31 0.338 0.579 0.916

一个由标准确定的具有最低性能的距离度量C1(以粗体突出显示)被排除在后续分类之外。

表4。仅使用评估数据集的各种基于距离度量的分类器集合所实现的检测性能特征。根据标准确定的10种性能最高的组合C2会显示出来。一个
距离度量的组合 灵敏度(%) 特异性(%) 平衡精度(%) 误差(%) 精度(%) C2
男人。b,可以c 95.46 82.51 88.98 16.79 23.86 1.844
MAHd,可以 95.46 81.98 88.72 17.28 23.33 1.842
EUCe,可以 95.46 79.37 87.41 19.75 21.00 1.829
f,可以 95.46 79.37 87.41 19.75 21.00 1.829
嗯,水貂,罐头 95.46 79.37 87.41 19.75 21.00 1.829
嗯,伙计,可以 95.46 78.85 87.15 20.25 20.59 1.826
人,貂,罐头 95.46 78.85 87.15 20.25 20.59 1.826
呃,伙计,貂皮,罐头 95.46 78.85 87.15 20.25 20.59 1.826
伙计,我能 95.46 76.50 85.98 22.47 18.92 1.814
嗯,可以 95.46 74.15 84.80 24.69 17.50 1.803

一个距离度量的最佳组合以粗体突出显示。

b男:曼哈顿。

c能:堪培拉。

dMAH: Mahalanobis。

eEUC:欧几里德。

f貂:闵可夫斯基。

表5所示。利用评估数据集和独立数据集,研究了基于距离度量的分类器组合的检测性能特征。根据标准确定的10种性能最高的组合C2会显示出来。一个
距离度量的组合 灵敏度(%) 特异性(%) 精度(%) 平衡精度(%) 误差(%) 精度(%) C2
MAHb,男人c,可以d 85.71 72.73 75.86 79.22 24.14 50.00 1.649
可以,EUCe啊,伙计,貂皮f 85.71 68.18 72.41 76.95 27.59 46.15 1.627
嗯,可以 85.71 68.18 72.41 76.95 27.59 46.15 1.627
嗯,水貂,罐头 85.71 68.18 72.41 76.95 27.59 46.15 1.627
嗯,伙计,我可以 85.71 68.18 72.41 76.95 27.59 46.15 1.627
嗯,嗯,水貂,可以 85.71 68.18 72.41 76.95 27.59 46.15 1.627
伙计,水貂,罐头 85.71 68.18 72.41 76.95 27.59 46.15 1.627
MAH,男人 71.43 86.36 82.76 78.90 17.24 62.50 1.503
EUC, MAH 71.43 81.82 79.31 76.62 20.69 55.56 1.481
MAH,貂皮 71.43 81.82 79.31 76.62 20.69 55.56 1.481

一个距离度量的最佳组合以粗体突出显示。

bMAH: Mahalanobis。

c男:曼哈顿。

d能:堪培拉。

eEUC:欧几里德。

f貂:闵可夫斯基。

表6所示。仅使用独立数据集的各种基于距离度量的分类器集合所实现的检测性能特征。根据标准确定的10种性能最高的组合C2会显示出来。一个
距离度量的组合 灵敏度(%) 特异性(%) 精度(%) 平衡精度(%) 误差(%) 精度(%) C2
可以b 85.71 86.36 86.21 86.04 13.79 66.67 1.718
男人。c,可以 85.71 81.82 82.76 83.77 17.24 60.00 1.695
EUCd,可以 85.71 77.27 79.31 81.49 20.69 54.55 1.672
e,可以 85.71 77.27 79.31 81.49 20.69 54.55 1.672
嗯,伙计,可以 85.71 77.27 79.31 81.49 20.69 54.55 1.672
嗯,水貂,罐头 85.71 77.27 79.31 81.49 20.69 54.55 1.672
人,貂,罐头 85.71 77.27 79.31 81.49 20.69 54.55 1.672
呃,伙计,貂皮,罐头 85.71 77.27 79.31 81.49 20.69 54.55 1.672
MAHf,可以 85.71 68.18 72.41 76.95 27.59 46.15 1.627
伙计,我能 85.71 63.64 68.97 74.68 31.03 42.86 1.604

一个距离度量的最佳组合以粗体突出显示。

b能:堪培拉。

c男:曼哈顿。

dEUC:欧几里德。

e貂:闵可夫斯基。

fMAH: Mahalanobis。


异常检测背景和实验总结

在电子数据中心时代,处理临床登记处不断增加的数据量变得特别困难。这些数据库的数据量和结构复杂性使得异常检测的任务非常繁重,而异常检测可能直接影响到医疗保健系统。异常检测是数据分析的一个组成部分,涉及仔细研究已识别的异常并确定其来源(数据欺诈,输入错误等),因为它可以显着改善或对后续分析产生负面影响[19]。尽管异常现象往往具有误导性,但它们可能包含有价值的信息[1519]。例如,特定的患者数据可能表明患者的诊断与他/她的治疗不同,另一种异常模式可能表明一种新的疾病或揭示调查人员可能误解了某些问题。因此,需要对检测到的异常进行仔细评估,以考虑到不可疑的异常,从而减少丢失宝贵数据的风险,因为不可疑的异常可能损害结果,并因此导致对临床指南的错误调整,从而改变当前的卫生保健标准。

在本研究中,对异常数据进行模拟,然后进行检测。这些操作由检测算法执行,随后验证其检测性能。该算法在特定的EDC系统(cade - is)中运行,当自动查询生成时结束,自动查询的功能是通知数据管理人员和试验监视器潜在的异常数据。要在任何EDC系统中成功实现这种检测算法,需要满足两个关键要求:(1)系统能够在数据库中创建自定义数据视图;(2)API能够通过其响应(例如查询生成器)对数据质量问题作出反应。在给定的设置中,精度优先于算法执行时间,因此不需要为在线使用而优化算法。例如,当检测到入侵活动时,需要快速的在线响应。本节将详细描述(1)在给定的EDC系统中运行的检测算法,以及(2)使用该算法的实际验证实验以及结果解释。这些发现在这里讨论其有效性和适用性(可重复性)。本节以(3)相关文献综述结束。

将加载了2个临床注册中心原始数据的表格输入到算法中,并进行了一系列预处理步骤,即删除、归一化、重新编码和归一化,从而得到特征向量。这些操作先于数据模拟和算法训练。在这个过程中,有必要考虑那些应该被丢弃的数据类型,因为给定的算法并没有被设计成处理所有这些数据类型。因此,一些变量(文本、字符串和一些原始JSON数据)被排除在进一步的分析之外。尽管这样的操作需要大量的信息丢失,但它也代表了与“维数诅咒”(数据缩减)相关的问题的可能解决方案。最困难的任务之一是处理由cade - is支持的多个实例表单。这意味着该系统不仅允许创建每个患者只能创建1个实例的表单,还允许创建每个患者超过1个实例的表单。为了解决为一个病人填写多个表单的问题,这里引入了半扁平表格。这些表有助于执行有意义的分析,并使每个患者的输入数据保持一致,也就是说,在需要数据的地方没有空白属性。然而,这种方法有两个限制。 First, the anomaly detection cannot be computed at the same time on all data available per patient. Instead, it is run separately on several semiflattened tables, each including data from 1 form structure instantiated multiple times. That said, anomalies resulting from a combination of forms with distinct form structures—the ones allowing multiple instances—could remain undetected. Second, information concerning data continuity (progression in time) that could possibly be filled in multiple forms created in a logical order was not investigated.

主要结果

异常分析是通过使用几个距离度量来计算质心和数据点之间的距离来进行的。评估和记录了两个方面:(1)能够识别患者是否异常的布尔标识符,以及(2)异常证据的强度,由标记患者为异常的距离度量的数量决定。使用介质代替质心可以进一步改进所提出的程序。中星团是健壮的星团成员,对远距离观测的敏感性往往低于平均质心。当检测到异常时,使用自动生成的查询对患者进行标记,这使负责人能够直接在web应用程序中检查此异常。因此,个别查询可以作为实施适当的纠正和预防措施的机会,增强数据管理人员的数据完整性,也可以在研究的初始阶段通知试验监测人员不正确的数据输入。在这里,2个神经科学相关的数据集被用于算法验证;第一个用于训练,从而为算法参数设置适当的值(距离度量阈值);第二个数据集用于验证算法的检测能力。这意味着将预设的检测算法应用于测试数据,并在实践中验证了其重复性和适用性。 The percentile-based threshold could be set in 2 ways: (1) based on expert knowledge in the field and (2) setting the thresholds based on data. When percentage is defined by an expert, the number of expected anomalies to be detected is rather predictable and as such assists project managers in budget and staffing allocations, making the anomaly checks procedure more effective. The second, from our perspective a more sophisticated approach, was proposed and carried out in this study. Specifically, each distance metric threshold was identified using a combination of overall accuracy (the ratio between correctly classified anomalies and normal data) and measurements based on ROC curves (Youden index and curve distance from the upper-left corner). The optimal percentile threshold defined for each metric then varied from 77.5% to 95.0%. Therefore, the optimal number of patients to be investigated ranges between 5.0% and 22.5%, in order to uncover as many potential anomalies as possible while no time is wasted on checking normal data.

实验在数据集3上进行,其中找到了最佳阈值,数据集5用于设置测试。采用单一距离度量的数据集3的最佳结果是曼哈顿度量,该度量将14.0%(57/405)的患者标记为疑似异常:C1(1.882),敏感性(81.8%)和特异性(89.8%)均大于80.0%。当阈值(分别为每个指标)应用于测试数据集(第5号)时,堪培拉距离指标产生了最好的结果,但与特异性相比,敏感性非常低:C11.177例中,敏感性57.1%,特异性86.4%。这表明,尽管有大量患者被标记为疑似异常(达到低百分位数阈值,堪培拉为77.5%),但仍不能保证异常数据将被检测到。其他指标的敏感性或特异性低于50.0%,因此我们得出结论,单一指标不足以检测异常。

当距离度量组合在一起时,获得了明显更好的结果。在这种情况下,如果患者的数据至少有一个指标被标记为异常,则认为该患者有异常嫌疑。这表明所提出的方法比基于单一指标的方法揭示了更多的可疑数据。数据集3的灵敏度结果(见表5)比单独使用任何单一指标获得的结果更好(见表3).这些结果进一步表明,结合两个指标可以显著优于任何单一指标的灵敏度。由于没有一个指标的敏感性大于82.0%,这也表明距离指标在组合时相互补充,因为它们将不同的患者标记为异常。由于综合指标获得的最佳结果具有相同的灵敏度(95.5%),因此特异性在评估结果时具有决定性作用。观察到的最佳组合是曼哈顿距离度量和堪培拉距离度量,特异性为82.5%,准确性为83.2%C21.844。超过2个指标的组合并没有被证明更有效。在验证数据集5的情况下,3个指标(Mahalanobis, Manhattan和Canberra)的组合产生了最佳结果-敏感性提高了近30%(85.7%),但特异性(约-14%;72.7%)和总体准确率(约-4%;79.2%)低于最佳单指标表现(堪培拉)。这些结果也表明异常检测算法的阈值(方法参数),已经为一个具有较高样本量(N)的数据集设置,可以应用于另一个数据集,仍然产生令人满意的结果(表45).

限制

需要注意的是,本文提出的异常检测算法存在以下局限性:(1)临床注册表往往不完整,存在大量缺失数据(本文研究的数据集也不例外)。由于在数据预处理阶段(由数据管理器设置的方法参数)中删除了大量不完整的变量,因此可能丢失一些有价值的信息;(2)该算法只能对定量数据(或重新编码的定性数据)进行进一步分析;(3)尽管已经去除了大量未填充和不可分析的变量,以及2个距离度量(Chebyshev和余弦),但检测算法仍然计算量大,需要较长的检测时间。算法运行中最耗时的部分是数据预处理,耗时数十分钟。然后,检测本身在每个测试的注册表中花费不到10秒的时间。预处理和分析是定期运行的,并不直接链接到数据输入操作。由于异常值的出现,检测异常值所需的时间取决于间隔,这取决于实施,通常设置为24小时;(4)在人工模拟异常上对算法进行了验证。如果异常数据是由现场专家生成的,那么这种方法就可以证明是有效的,因为专家提供的知识可以确保异常的真实性,从而使验证更加自然。

与前期工作比较

由于离群值检测在医学信息学中被广泛应用于解决不同的问题,已经有多篇关于医学异常检测相关课题的研究论文发表。根据综述,医学领域中使用的几种检测技术可分为以下几类,按百分比递减顺序列出[15]:统计(55.4%)、聚类(15.2%)、分类(12.5%)、最近邻(即基于距离的,8.9%)等。正如数字所暗示的那样,基于统计的技术往往被最频繁地使用;然而,众所周知,统计评估并不适用于小样本[20.],因此,在小规模研究或患者太少的地点进行异常检测往往会导致假阳性率增加。有关一般异常检测的更多评论,请参阅[21],至于统计监察程序建议,我们建议[20.]。这篇论文涉及到一个由临床医生、统计学家和数据管理人员组成的多学科团队,他们创建了一个特定于研究的算法来标记可能存在伪造数据的患者和地点,结果这些数据被伪造并植入了7个地点,在4项研究中总共植入了43名患者。他们用伪造数据识别位点的算法取得了稍低的结果——除1项研究外,敏感性和特异性大于70%。在另一项研究中[22],作者结合了k-means和隔离森林技术,因为基于隔离森林的方法能够发现不位于特征空间边缘的异常患者。然而,他们没有使用ROC曲线来定义阈值,而是[23]将他们的数据集分成两个子集——第一个子集只包含分类变量,第二个子集只包含连续变量。这种方法使他们能够单独处理每个子集,搜索(1)在具有分类变量的子集中搜索不频繁的类别组合,(2)在具有连续变量的子集中搜索由与全局均值的余弦距离定义的远距离对象。然后,他们为两个子集中的每个数据对象定义了一个异常评分。采用这种方法,即将数据集分成两个子集,可能会改善我们的结果。但是,还有许多其他参数需要定义,例如类别组合的数量,这将使异常检测算法的设置复杂化。Estiri等[24使用了一种不同的方法,侧重于不可信的数据,而不是异常数据。作者提出了一种分层k-means方法来检测不可信的观测值,不管它们的值如何,在假设没有系统误差的情况下,将稀疏簇标记为异常。他们还证明,他们的聚类方法优于传统的异常检测方法,后者使用标准偏差和马氏距离来识别电子健康记录中不可信的实验室数据。虽然作者认为马氏距离是标准的,但它并不适用于我们,特别是与其他距离度量(表3).据我们所知,到目前为止,还没有一篇论文提出了内置异常检测算法的EDC系统。

结论

我们提出并描述了一种检测临床注册中异常数据的算法,该算法已在特定的EDC系统中实现。实验证明,该算法对异常数据的检测灵敏度大于85%。此外,对于不同数据集的预设参数设置,检测结果令人满意,使算法能够在实际中应用。在未来的工作中,我们将检查现实世界设置中的查询,以便从数据管理人员和其他角色的用户(如现场监视器和临床调查员)的角度评估所提议的异常检测器的准确性和有用性。其他进一步研究的想法包括对专家生成的异常进行调查,并寻找加快检测算法的方法。

致谢

这项研究由捷克卫生部资助,资助号17-33136A。我们感谢Katerina Žvaková女士的英文编辑以及她的所有评论,这些评论极大地改进了手稿。

作者的贡献

DS负责本研究的概念化、资金的获取和工作的监督;RV进行形式化分析;VC、RV和DS负责研究方法;VC、KM、DK参与软件实现与分析;KM、DK、DS负责可视化;VC、KM、DS撰写了初稿;VC、RV、DS对稿件进行评审和编辑。所有作者都已阅读并同意稿件的出版版本。

利益冲突

撰写本文的作者团队同时在两个机构从事两个不同的项目:(1)Neurominer:揭示神经成像数据中的隐藏模式,这是马萨里克大学(MU)开展的一个研究项目;(2)Clade-IS:开发一种用于临床研究的原始电子数据采集系统,这是一个在生物统计与分析研究所(IBA) (MU的一个分拆公司)的实验开发软件的项目,用于现实世界的证据项目。

多媒体附录1

患者A数据(JSON)结构的示例。

PDF档案(adobepdf档案),83 KB

多媒体附录2

患者B数据(JSON)结构的示例。

PDF档案(adobepdf档案),77kb

  1. Solomon DJ, Henry RC, Hogan JG, Van Amburg GH, Taylor J.公共卫生登记的评价和实施。公共卫生报告1991;106(2):142-150。(Medline
  2. 霍克DME, Kumari V,霍克M, Ruseckaite R, Romero L, Evans SM。临床登记对患者护理质量和临床结果的影响:一项系统综述。PLoS One 2017 Sep 8;12(9):e0183667 [j]免费全文] [CrossRef] [Medline
  3. 陆忠。设计上市后ecrf以满足临床安全和药物警戒需求的技术挑战。当代临床试验2010年1月31日(1):108-118。(CrossRef] [Medline
  4. 陈国强,陈国强,陈国强。定义和改进医疗登记中的数据质量:文献综述、案例研究和通用框架。中华医学杂志,2002;9(6):391 - 391 [J]免费全文] [CrossRef] [Medline
  5. O 'Reilly GM, Gabbe B, Moore L, Cameron PA。分类,测量和提高创伤登记数据的质量:文献综述。损伤2016年3月;47(3):559-567。(CrossRef
  6. 休斯顿L, Probst Y, Martin A.评估临床研究环境中源数据验证审计方法的数据质量和可变性。生物医学信息学报,2018;83:25-32。(CrossRef
  7. 刘建军,刘建军,刘建军,等。胃癌辅助治疗多机构试验组试验数据质量和一致性的统计监测。胃癌2015 Aug 23;19(1):24-30。(CrossRef
  8. 临床试验中的数据欺诈。临床研究2015年2月;5(2):161-173。(CrossRef
  9. Walther B, Hossin S, Townend J, Abernethy N, Parker D, Jeffries D.临床试验数据的电子数据采集(EDC)与标准数据采集方法的比较。科学通报,2011;6(9):e25348 [j]免费全文] [CrossRef] [Medline
  10. van Dam J, Omondi Onyango K, Midamba B, Groosman N, Hooper N, Spector J,等。开源移动数字平台,用于低资源环境下的临床试验数据收集。中国生物医学工程学报,2017;3(1):26-31。(CrossRef
  11. 李晓明,李晓明,李晓明。基于人工智能的临床数据管理系统研究进展。医学信息学解锁2017;9:219-229。(CrossRef
  12. 刘建军,刘建军,刘建军,等。基于数据中心的医疗卫生系统优化研究进展。国际医学信息学杂志2018;11(1):103-108。(CrossRef
  13. 市政协。临床试验的电子数据捕获技术:全球上市后研究的经验。IEEE Eng。地中海,杂志。2010年3月;29(2):95-102。(CrossRef
  14. Brandt CA, Argraves S, Money R, Ananth G, Trocky NM, Nadkarni PM。信息学工具改善临床研究的实施。当代临床试验,2006,27(2):112-122。(CrossRef
  15. 张建军,张建军,张建军,等。基于数据的异常值检测方法的研究进展。见:国际健康信息学会议论文集-第1卷:healththinf, (BIOSTEC 2011)。2011年发表于:healththinf;2011;罗马,意大利,第575-582页(CrossRef
  16. Sakamoto J. A . Hercule波洛的临床研究。胃癌2015 Oct 19;19(1):21-23。(CrossRef
  17. 雷东,朱强,陈杰,林宏,杨鹏。异常点检测的自动k均值聚类算法。信息工程与应用“,”电气工程学报(英文版);2012;34(4):363-372。(CrossRef
  18. Youden WJ。评级诊断测试的索引。癌症杂志1950;3(1):32 - 35。(CrossRef
  19. Smiti A.当机器学习进入医学领域:现状和未来挑战。计算机科学评论2020年8月31日:100280。(CrossRef
  20. Knepper D, Lindblad AS, Sharma G, Gensler GR, Manukyan Z, Matthews AG,等。临床试验中的统计监测:检测暗示捏造或不当行为的数据异常的最佳实践。科技创新与管理,2016,30(2):144-154。(CrossRef
  21. 马建军,李建军,李建军,等。新颖性检测的研究进展。信号处理[j]; 2014; 39(1):215-249。(CrossRef
  22. Karczmarek P, Kiersztyn A, Pedrycz W, Al E. K-Means-based隔离森林。基于知识的系统2020年5月;195:105659。(CrossRef
  23. 张建军,刘建军。一种基于多属性数据集的离群点检测方法。数据最小知识磁盘2009年11月11日;20(2):259-289。(CrossRef
  24. Estiri H, Klann JG, Murphy SN。一种检测电子病历数据中不可信观测值的聚类方法。BMC Med Inform Decis ma2019 7月23日;19(1):1-16。(CrossRef


可以:堪培拉规
高效:切比雪夫规
Clade-IS:临床数据仓库信息系统
因为:余弦度量
CSM:中央统计监察
eCRF:电子个案报告表格
由:entity-attribute-value
EDC:电子数据采集
ETL:提取-转换-装载
EUC:欧几里得度量
GDPR:《一般资料保护规例》
JSON:JavaScript对象符号
MAH:Mahalanobis规
男人:曼哈顿的规
貂:闵可夫斯基度规
REST API:具象状态转移应用程序接口
中华民国:接收机工作特性
RWD:真实的数据


G·艾森巴赫编辑;提交14.01.21;J . Majernik, D . Surian, S . Pranic的同行评议;对作者04.02.21的评论;收到修订版本01.04.21;接受12.04.21;发表07.05.21

版权

©Vendula churov, Roman Vyškovský, Kateřina Maršálová, David Kudláček, Daniel Schwarz。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2021年5月7日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map