这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Aging上的原创作品。必须包括完整的书目信息,https://aging.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
基于传感器的远程健康监测可用于及时发现痴呆症患者的健康恶化,对其日常生活的影响最小。异常检测方法已广泛应用于各个领域,包括远程健康监控。然而,目前的方法受到噪声、多变量数据和低泛化的挑战。
本研究旨在开发一种在线的、轻量级的、基于无监督学习的方法,利用痴呆症患者的活动变化来检测代表不良健康状况的异常。我们在2019年8月至2021年7月期间,英国痴呆症研究所从15个参与家庭收集了9363天的真实数据集,证明了其优于最先进方法的有效性。我们的方法应用于家庭运动数据,以检测尿路感染(UTIs)和住院情况。
我们提出并评估了一种基于上下文矩阵轮廓(CMP)的解决方案,这是一种精确、超快的基于距离的异常检测算法。利用被动红外传感器收集的每日汇总的家庭运动数据,我们生成了每个患者的位置传感器计数、持续时间和每小时运动模式变化的cmp。我们通过两种方式计算了标准化异常评分:结合单变量CMP和开发多维CMP。相对于基于角度的离群点检测、基于copula的离群点检测和轻量级在线异常检测,我们的方法进行了性能评估。我们使用多维CMP来发现和呈现与痴呆症患者不良健康状况相关的重要特征。
多维CMP平均产生84.3%的召回率和32.1个警报,或5.1%的警报率,在评估UTI和住院时,与基于copula和基于角度的离群点检测和异常的轻量级在线检测器相比,提供了召回率和相对精度的最佳平衡。午夜至早上6点的厕所活动被证明是泌尿道感染异常的最重要的跨患者数字生物标志物,约占异常评分的30%。我们还演示了如何基于cmp的异常评分可用于异常模式的跨患者视图。
据我们所知,这是第一个将CMP应用于医疗保健场景中的连续异常检测的真实世界研究。CMP继承了矩阵剖面的速度、准确性和简单性,提供了可配置性、降噪和检测模式的能力,以及对临床从业者的可解释性。我们通过开发多维CMP解决了在多变量时间序列医疗保健数据中异常评分的需求。CMP具有高灵敏度、低警报率、比最先进的方法更好的整体性能以及发现异常的数字生物标记物的能力,是一种具有临床意义的无监督异常检测技术,可扩展到痴呆症和其他医疗保健场景的多模态数据。
痴呆症是一种广泛的大脑活动的进行性和不可逆转的衰退,包括记忆、思考、定向、理解、计算、学习能力、语言和判断受损,超出了自然生物衰老的预期。世界卫生组织估计,全世界约有5500万人患有痴呆症,到2030年将增至7800万人,到2050年将增至1.39亿人[
英国痴呆症研究所护理研究和技术中心在这一方向上做出了重大努力,其愿景是“使用以患者为中心的技术,帮助痴呆症患者在自己家中生活得更好、更久”[
痴呆症患者偶尔会出现行为和心理症状,如躁动、攻击性、睡眠障碍、泌尿系统障碍、脱水和摔倒。UTI是老年人中诊断最多的感染,早期发现是预防进一步并发症的关键[
在家庭健康监测的背景下,“异常”可以简单地理解为正常数据中意外但显著的不规则,这表明存在不利条件。在大量正常数据中很难发现异常。异常丢失或错误分类的代价可能很高(例如,未能检测到UTI可能是灾难性的)。当前的医疗异常检测方法受到一个或多个现实世界问题的挑战:高维和多元数据;关于正常数据和异常数据之间的区别的信息很少或没有;时间过程数据和低延迟进行预测的需求;病人的可变性;由于社交访问、宠物、传感器问题和噪音标签而产生的噪音和缺乏周期性;误报率高;高调优需求; and low explainability to clinical monitoring teams and caregivers [
我们的工作目标是开发一种临床有用的、领域不可知的、快速的、轻量级的、无监督的异常检测方法,用于真实世界的噪声医疗保健数据。我们考虑了个体可变性、个体和领域之间的普遍性,以及以数字生物标志物发现的形式对临床医生和护理人员的解释性。我们的工作做出了以下贡献:(1)它提供了上下文矩阵配置文件(CMP)在医疗保健中的自适应异常检测的第一个用例,特别是在现实世界的远程健康监测场景中;(2)开发多维CMP,用于异常患者天数的识别和评分;(3)它证明了基于cmp的异常评分方法的有效性;(4)它使用CMP发现异常的生物标记物,使用家庭运动数据。
异常检测方法可以大致分为统计、基于距离、基于重建、基于域或基于决策边界、基于信息论和基于图[
统计阈值是发现点异常的常用方法。美国国立卫生研究院资助的一项试点研究使用统计阈值生成UTI警报,并为37名老年参与者提供早期干预,其中一些患有阿尔茨海默病,居住在配备运动、压力和温度传感器的公寓中[
利用我们Minder研究的早期数据,Enshaeifar等人[
Arifoglu和Bouchachia [
Akl等[
雅库拉等[
使用我们自己的远程监测研究数据,Palermo等人[
在Paudel等人的研究中[
活动密度的可视化是检测运动数据异常的另一种直观方法。Gupta等人的研究[
基于矩阵剖面(Matrix Profile, MP)的异常检测在实际应用中的研究很少。林等[
在2个策划的非医疗保健基于web的数据集中,CMP已被证明比MP更灵活和有效,其中作者展示了CMP如何用于检测除了MP检测到的异常之外的更微妙的异常[
在
用于远程健康监测的异常检测技术的适用性[
Yeh等人在研究中详细描述了MP [
下院议员
一个
中概述了直接应用MP的问题
原始的MP是有噪声的,并没有给出一个明确的指示,哪些不一致是真正的异常。
对振幅变化不敏感,定位精度低[
MP考虑每个子序列与其他子序列进行比较,这意味着子序列的长度等于可以识别异常的粒度级别。两者必须解耦。
当一个异常子序列接近另一个异常子序列时,它可以被掩盖[
MP是用来计算欧几里得距离的。虽然这有很大的优势-复杂度与时间序列的长度线性,易于实现,可索引,无参数-但它也可能对噪声敏感,并在时间上表现出失调[
CMP是一种新的基于MP的灵活的时间序列分析技术[
它是在单个时间段或感兴趣的区域中的子序列数。给定一个患者数据集,使用上下文窗口为3和子序列长度为3(不省略子序列),患者数据将被分组到中所示的时间段
上下文矩阵配置文件上下文或时间段是由一组子序列组成的时间块。这里显示的每个上下文由3个子序列组成(context window=3),每个子序列的长度为3天。我们将异常分数分配给上下文,而不是天数。
它是一个单独的时间段,其大小与上下文窗口相等,并包含用户定义的长度子序列。CMP中的一个单元格表示一个“上下文”或时间段。
它是MP的一个可配置的2D版本,用于跟踪时间序列中用户定义区域中子序列的每个上下文之间的最小距离。首先,用户(可选地)为给定的时间序列定义感兴趣的区域。然后它们确定子序列长度和上下文窗口大小。例如,对于子序列长度为3天和上下文窗口大小为3天的子序列,将时间序列划分为上下文,如
将MP思想应用于数据块而不是单个子序列,可以聚合和去噪距离计算并提取有用的模式。
矩阵配置文件与上下文矩阵配置文件。
每个单元格颜色表示x轴和y轴上时间段之间的最小距离。绿色带表示异常活动或与其他时间段持续较大的最小距离。上下文矩阵配置文件围绕对角线对称。
基于多维多维模型的基本原理,我们开发了多维CMP模型。一个
多维CMP (
多维上下文矩阵剖面(CMP)的形成涉及到对特定特征的CMP进行堆叠,然后按照距离的顺序排列每个单元格(时间段)。最后形成多维CMP,使得第i行的每个单元格包含该单元格的i+1个最低距离的平均值。
它比较上下文的距离,而不是子序列级别的距离,这对于时间序列去噪很重要。
上下文大小是可配置的。此外,CMP允许定义特定区域来检测模式和异常,并且不需要覆盖整个距离矩阵。
除了欧几里得距离外,还可以使用其他距离度量。
CMP提供了一种直观的方式来可视化时间序列窗口区域和检测异常。
异常现象不容易被掩盖,即使在时间序列的其他地方又发生了类似的异常现象。
我们使用异常检测管道(
基于上下文矩阵概要(CMP)的异常检测管道。UTI:尿路感染。
我们决定了一个合适的上下文窗口。我们使用的上下文大小为3,子序列长度为3天,考虑到最大粒度、去噪、可解释性和异常发生所需的时间。
对于每个患者时间序列,我们生成用于自连接的z赋范欧氏距离矩阵,然后根据上下文窗口设置生成上下文矩阵配置文件(MP)。
我们直接使用cmp或将其用于可视化和监测目的。
我们计算每个上下文的异常分数。这是当前上下文和过去上下文之间的平均距离。对每个时间序列重复此步骤,以获得特征特定的异常评分。
异常分数被用作针对特定健康事件训练的不同机器学习模型的输入。这将在今后的工作中加以探讨。
对模型进行准备,以获得每个时间段的单值得分。我们评估了以下方法:
基于分数的和、分数的中位数、分数的平均值、分数的最大值和基于熵的加权来组合特定特征的异常分数(这些分数是基于使用逆加权的底层时间序列的熵来组合的;更大的熵意味着从使用该时间序列获得的异常评分的权重更低)。使用了两种类型的熵度量:
近似熵(ApEn): ApEn近似于精确的规则统计量Kolmogorov-Sinai熵,并通过探索数据中的重复模式来反映时间序列的可预测性。适用于有噪声的数据集[
模糊熵(FuzzyEn):它也使用Heaviside函数,尽管相似性是由一个计算隶属度系数从0到1的模糊函数来评估的。因此,除了选择
基于多维CMP的评分:我们使用多维CMP为每个上下文生成多变量异常评分,使用2个不同的设置
距离加权多维CMP评分:一个上下文的异常评分是通过其与之前上下文的最近邻居距离的逆加权平均来计算的。因此,如果一个上下文距离被评分的当前上下文有3跳,那么在计算当前上下文的异常评分时,它的距离被赋予三分之一的权重。
等加权多维CMP:一个上下文的异常得分被计算为它与以前上下文的最近邻居距离的简单平均。
我们使用稳健的方法对单个上下文评分执行滑动窗口阈值(7天、14天、21天、30天、60天和90天窗口)
然后根据数据集中可用的异常标签对预测的异常进行“软”验证,以计算召回率。
多元异常评分。从多维上下文矩阵剖面(CMP)开始,我们通过取每个维度得分的中位数,然后选择在拐点处的维度,为每个患者选择最佳维度。然后,该最优维度CMP用于基于距离的异常评分。
我们研究的数据来自一个正在进行的现实世界远程医疗监测研究(“Minder”研究中提到
在我们的研究中,我们重点研究了15名至少有一次临床验证的UTI发病率的痴呆症患者。其中包括53%(8/15)男性(平均年龄85.13,标准差5.57岁)和47%(7/15)女性(平均年龄82.86,标准差6.79岁)。在这15例患者中,7例(47%)也经历了≥1次住院事件。总的来说,我们在9363个患者日中有31个UTI和10个住院标签,约占整个数据集的0.44%(41/9363)。UTI标签由临床监测小组使用患者尿样验证后手动标注。但值得注意的是,老年患者常出现非典型症状,使无症状菌尿与有症状UTI的鉴别具有挑战性[
通过PIR运动传感器捕获的家庭运动数据首先每天聚合以减少噪音,因为每小时的计数每天变化很大,高粒度和变化使异常不太容易识别。我们忽略了来自同一传感器的连续发射事件,考虑第一个发射事件计算前一个位置的持续时间,最后一个发射事件计算当前位置的持续时间。在第一次和最后一次发射之间,忽略来自同一传感器的任何连续传感器发射,从而减少冗余和噪声。
为了捕捉不同类型的运动相关信息,我们计算了中概述的特征
位置计数:这是每个位置的传感器发射的每日计数。
位置清晨计数:这是当天从午夜到早上6点之间传感器发射的计数。
位置深夜计数:这是前一天下午6点到午夜之间传感器发射的计数。
位置持续时间:这是每天在每个位置花费的总分钟数。
位置小时移动变化:这是前一天某地点传感器小时分布与当天传感器小时分布之间的Wasserstein距离;Wasserstein距离越大,时型变化越大;该措施是稳健的不同运动密度的患者家庭。瓦瑟斯坦距离或“地球移动器”距离是衡量近似的一个可解释的度量
类似于Skubic等人的研究[
简化的特征列表包括浴室Wasserstein距离、走廊Wasserstein距离、休息室Wasserstein距离、浴室清晨和傍晚活动、厨房清晨和傍晚活动、卧室清晨和傍晚活动、卧室活动持续时间和浴室活动持续时间。
领域知识:通过Pevný学习[
使用来自我们患者队列的交叉验证数据,使用显著在线不一致技术来寻找与尿路感染和住院的最高中位回忆值相关的共同特征[
我们根据特征之间的相关性消除了冗余变量。
我们还消除了公共空间的持续时间相关特征,如走廊、客厅和厨房,在这些地方,目前还很难区分病人和护理人员的活动。
对家庭活动水平差异有显著影响的变量被保留了下来。
我们对15名患者的家庭运动数据进行了实验,这些患者是从正在进行的Minder研究中挑选出来的,在总共9363个患者日中有31例UTI和10个住院标签。所有实验都在64位英特尔i7-8700K中央处理器上运行,3.7 GHz Windows 10机器,32 GB RAM。
我们的实验设置列在
本研究考虑了实验参数。
设置 | 值 | ||
上下文窗口 | 3. | ||
子序列长度(天) | 3. | ||
用于滑动窗口阈值的窗口大小(天) | 7 14 21 30 60 90 | ||
差阈值 | 1.0和1.2 | ||
健壮的 |
1.65, 1.8, 3, 4 | ||
分位数的阈值 | 0.95 0.96 0.97 0.98 | ||
|
|||
|
N(数据大小) | 500 | |
|
r (SD公差) | 0.2 | |
|
M(子序列长度) | 7 | |
标签验证软缓冲(实际标签前后天数) | −10 ~ +7 |
我们使用来自15名患者的数据来评估基于多维cmp的异常评分,相对于单变量方法和文献中其他3种流行的、无参数的、可解释的现代方法:基于角度的异常值检测(ABOD)、基于copula的异常值检测(COPOD)和轻量级在线异常检测(LODA)。为了适合在无监督的流场景中使用,我们只使用每个时间点的历史数据。
ABOD测量由相应距离加权的数据点的角度(余弦)谱的方差。ABOD的工作原理是,如果一个点的观测角度的光谱很小,那么其他点将只位于特定的方向。这意味着该点位于一些分组在一起的点集合之外,这意味着该点是一个离群值[
我们使用3个阈值标准进行评分(
为了确定基于cmp的异常评分在识别痴呆症患者真实世界远程监测数据中的异常时具有多大的竞争力,我们报告了所示的测量方法
如果预测日期在异常标记日期的软缓冲区内,则假定异常被正确识别。为了透明度,我们同时报告了平均召回率和患者召回率。从临床角度来看,这一指标是模型有效性的直接指标。
当在模型之间进行选择时,临床医生可能会选择平均召回率较高的模型,因为在我们的场景中,虚假警报的成本和不便远远小于错过真实异常的成本。
鲁棒
Tukey或IQR阈值是利用滑动窗口中异常得分的IQR值作为阈值的依据。任何大于第三个四分位数的值+
基于分位数的阈值分割使用异常分数的固定百分位数作为阈值分割的基础
>回忆率33%的患者数量:考虑到平均每位患者只有3个经验证的异常,我们根据正确识别出超过1 / 3异常的患者数量对模型进行了排名。这使得该模型是只对一小部分患者有效还是对整个队列有效都是透明的。
平均召回率:这是15名患者的平均召回率百分比,其中召回率=数据集中的真阳性或所有已知异常。
检测到的平均异常数:为了尽量减少对临床监测团队的错误警报,越低越好。
根据Pimentel等人的研究[
精度:在这里,
数字生物标志物是消费者产生的生理和行为测量,通过连接的数字工具收集,可用于解释、影响或预测健康结果[
多维CMP的创建涉及结合特定于特征的CMP的中间步骤,以便每个上下文按照特征的最近邻居距离的升序排列。这意味着,如果我们简单地跟踪有序堆叠CMP中每个上下文的有序特征集,我们就可以发现它的每个维度中最常见的贡献特征。第0维的模态特征将是与患者异常评分相关的最重要的生物标志物。第一维度的模态特征将是第二重要的生物标志物,以此类推。随后,通过查看整个队列的有序堆叠cmp,我们可以确定广义顶部
本研究获得了东南海岸萨里郡国家卫生服务研究伦理委员会(卫生研究管理局)的伦理批准;技术综合健康管理研究伦理委员会参考文献:16/LO/1802;综合研究应用系统ID: 211318。
我们报告了每种类型的单变量和多变量模型的最佳结果(
所有模型都能正确识别研究中三分之二患者的三分之一以上的已知异常。其中,具有等权重上下文的多维CMP(在窗口大小=7天时)具有鲁棒性
我们还测量了在我们的研究中,在624个平均患者日中,每个模型引起了多少异常。如图所示,任何基于cmp的模型提出的最大警报数量仅约为34或5.4%(34/624)的患者日。我们表现最好的CMP模型发出了大约32个警报,平均为5.1%(32/624)的患者日。注意,在我们的数据集中,平均每个患者有3个标记异常;然而,正如前面所强调的,注释的异常只包括UTI和住院,我们的模型旨在捕捉任何异常活动。
平均召回率与检测到的异常总数一起查看时,提供了性能的整体视图,因为通过识别异常数量非常多,很容易获得性能最佳的模型。总的来说,最好的模型是一个高召回率,但提出的异常数量很少的模型。结果表明,在窗口大小为7天的情况下,具有等加权上下文的多维CMP具有鲁棒性
模型性能(N=15)。
模型 | >患者回忆率33%,n (%) | 异常升高,平均值 | 召回率(%),平均值 | 精度,%一个 |
LODAb(w = 7;差1.2) | 14 (93) | 37.8 | 85.7 | 6.2 |
CMP的总和c分数(w = 7;0.97分位数) | 14 (93) | 33.1 | 84.7 | 7.0 |
平均CMP得分(w=7;0.97分位数) | 14 (93) | 33.1 | 84.7 | 7.0 |
等加权多维CMP (w=7; |
15 (100) | 32.1 | 84.3 | 7.2 |
COPODd(w = 7;0.95分位数) | 13 (87) | 36.8 | 79.1 | 5.9 |
ABODe(w = 21;0.95分位数) | 13 (87) | 30.0 | 77.7 | 7.1 |
距离加权多维CMP (w=14; |
14 (93) | 33.7 | 76.7 | 6.2 |
ApEnf-加权CMP评分(w=7;0.97分位数) | 12 (80) | 29.1 | 69.9 | 6.8 |
CMP得分中位数(w=7;0.97分位数) | 12 (80) | 30.8 | 68.4 | 6.1 |
模糊熵加权CMP评分(w=7;0.97分位数) | 10 (67) | 27.7 | 65.5 | 6.5 |
CMP评分最大值(w=7;0.97分位数) | 10 (67) | 24.8 | 57.9 | 6.4 |
一个我们在前面提到过,在这种情况下,查看方法之间的相对精度而不是绝对精度更有意义。
bLODA:轻量级在线异常检测器。
cCMP:上下文矩阵概要。
dCOPOD:基于copula的离群值检测。
eABOD:基于角度的离群点检测。
fApEn:近似熵。
如前所述,患者的多维CMP可用于发现异常的重要数字生物标志物。在
我们发现,清晨(午夜至早上6点)上厕所是导致异常评分的最大单一因素,该队列的中位数约为30%。这证实了文献中的发现,不寻常的浴室活动是尿路感染的临床显著特征[
多维CMP还提供了对患者特异性异常的直观见解。
对于患者JYN9,不寻常的清晨厨房活动是异常活动的主要生物标志物,我们也看到异常评分的最大方差。对于SFAV患者,不寻常的卧室活动是他们异常评分的最大因素。这些数字显示了2例患者的不同异常模式,可能是第一名患者的躁动和徘徊,第二名患者的睡眠中断和随时间变化的卧室活动。我们可以设想一个异常检测仪表板,为临床医生提供这样的洞察,使他们能够根据需要进行针对性的干预。
我们还可以使用标准化异常评分来查看跨患者视图(
最重要的异常数字生物标志物。清晨上厕所活动对整体异常评分的中位数贡献最大,约为30%。
2例患者单因素评分异常分布。
所有患者的多变量异常评分分布。
痴呆症患者异常的早期识别为在重大健康事件发生之前进行早期干预提供了一个机会窗口。这意味着改善健康状况,减少医疗费用,继续保持独立,提高生活质量[
我们选择的实验参数与临床相关。上下文窗口为3,子序列长度为3,以获得最大粒度、抗噪声性和对异常(如UTI)的适用性,其中3天模式比更粒度的每日分析更有可能产生异常行为;尿路感染通常需要3至8天才会出现[
我们的评估方法也设计得简单、透明和有临床意义。一个好的方法必须表现出高的跨队列平均敏感性,同时对个体患者也有高的敏感性,同时发出最小的警报。因此,我们报告了总体敏感性、患者敏感性、异常升高的平均数量以及召回率与异常升高的比率,这提供了一个全面的性能测量。虽然我们报告了每个模型的精度,但必须指出的是,我们只考虑了2种类型的标签——uti和住院——而我们的模型识别了家庭移动数据中的所有类型的异常,其中许多无法使用现有的标记数据进行验证。因此,在我们的研究中,较低的绝对精度是预期的,而相对精度提供了更好的跨模型性能指示。此外,5%的警报率是一个可以接受的低率,因为这些警报可能对痴呆症患者的健康产生重要影响。这也是Rantz等人采取的方法[
我们的结果表明,对于性能最佳的模型,阈值的最佳滑动窗口大小为7至14天(即1-2周)。这很容易理解,因为人类行为的“异常”可以被视为他们最近日常生活中的一个突破。这在Skubic等人的研究中也得到了临床验证[
我们有三个惊人的发现。首先,在平衡队列范围的敏感性和引起的异常方面表现最佳的模型是基于的
数字生物标记是我们方法中非常有用的产物。它们告诉我们在特定时期是什么样的家庭活动导致了这种异常。此外,通过查看患者的时间轴,我们可以找到在整个时间段内对异常评分贡献最频繁的单一最常见的活动或特征(即异常行为的数字生物标志物)。我们发现整个队列中,清晨(午夜至早上6点)的浴室活动是异常行为最常见的数字生物标志物(9/15,60%的患者),其次是深夜的浴室活动和清晨的卧室和厨房活动。这些发现定量地验证了对痴呆症患者的观察性研究,这些研究观察到躁动、在不寻常的时间徘徊和不寻常的浴室活动,特别是在经历UTI的痴呆症患者中,特别是在清晨和深夜的浴室活动中[
这项工作与现有发表的基于Minder研究的研究之间有一些显著的区别。首先,已发表的作品使用了各种监督和半监督机器学习方法来检测或预测目标健康状况,如躁动和UTI(一项研究使用了无监督学习通过聚类分离异常运动模式)。因此,这些模型使用来自临床验证的患者子集的数据进行训练,这些患者在其轨迹中具有特定的健康状况。相比之下,我们的工作评估了一种轻量级、无监督、无参数的方法来检测基于家庭活动数据的一般异常。它不需要训练数据,而是根据经历过一次或多次尿路感染和住院事件的患者的数据进行验证。其次,现有的研究除了家庭活动外,还纳入了患者的生理数据和家用电器的使用。我们目前只使用家庭移动数据。第三,现有的研究依赖于固定的训练数据或定期刷新的训练数据,而我们的方法被设计为在流环境中工作,这意味着我们的每日检测和警报算法使用截至当天的患者时间轴中的信息。第四,我们的算法是患者数据驱动的,而不是队列数据驱动的。这意味着我们通过考虑算法在单个患者数据上的表现来评估平均召回率。 In contrast, published work takes a cohort-wide or patient-blind approach to assess algorithm performance. These factors should be collectively considered when comparing our work with other Minder-based research.
基于cmp的方法非常适合异常检测应用程序,其中数据和标签以真实世界的噪声为特征,监督学习所需的注释训练数据可能由于资源限制或流数据场景而不可用,以及正常数据和异常数据之间的区别不明确。这包括在各种工业、城市和医疗保健环境中基于传感器的远程健康监测。基于cmp的方法擅长缩小和关注可配置时间尺度上的时间模式。它还在设计时考虑到了个性化,这使得它特别适用于医疗保健,在医疗保健中,相似的异常模式或相同的疾病可能在不同的个体中表现不同。对于可解释性是操作监控团队的关键的情况,它是理想的。
基于cmp的方法对于优先考虑敏感性而不是可解释性的应用程序可能并不理想。对于具有明确定义的、易于理解的模式的数据,例如心电图数据,或者噪声水平较低或正常和异常数据之间的区别很清楚的数据,它也不是最佳工具。最后,CMP管道需要使用特征缩减方法进行扩充,以便扩展到高维数据。
本文提出的异常检测方法的一个局限性是没有考虑传感器间的相关性。这将在未来使用可解释机器学习的研究中进行调查。其次,我们的研究忽略了前门和后门的传感器数据。这一遗漏是故意的,因为我们感兴趣的是检测由室内家庭活动的重大变化引起的异常,而不是由户外情况引起的异常。此外,前门和后门的打开和关闭也很难归因于痴呆症患者。第三,需要一种区分患者与其他家庭成员的系统,以提高基于被动感知的异常检测模型的鲁棒性。第四,为了实现比1个“上下文”更细的粒度和更低的延迟,应该将基于cmp的异常检测模型配置为每小时或以高于1天的分辨率摄取数据。第五,我们假设单个时间窗口中的异常可以确定复杂的健康事件。然而,宠物和访客的出现也可能导致异常。为了解决这个问题,我们不仅需要区分患者和护理人员,而且还需要一种在后续时间窗口监测异常的方法,以高可信度将异常与健康变化联系起来。 Finally, we will require a larger sample size to further validate our approach.
在本研究中,我们开发了一种基于CMP的新型轻量级无监督异常检测管道,并将其用于基于传感器的痴呆症患者远程健康监测。我们以新颖的方式组合了单变量CMP评分,开发了多变量CMP,并对其进行了测试,以通过滑动窗口的阈值识别异常患者天数。我们证明了基于cmp的异常评分比其他无监督异常检测的可比方法更有效和可推广。具体而言,基于7天滑动窗口并使用前2个贡献患者特定特征的多维CMP显示84.3%的召回率,在平均624天的患者时间轴上仅显示32次警报。此外,我们还展示了CMP如何用于发现和解释时间段、患者和队列水平异常的数字生物标志物。我们从15名患有UTI和住院事件的痴呆症患者中收集了9363天的研究,结果表明,在一天的早期和晚期,不寻常的浴室活动是我们队列中异常的一个突出生物标志物。这有助于定量验证痴呆患者类似行为的观察性研究。
我们未来的工作将集中在以下领域:将生理数据添加到异常评分管道中,开发CMP作为数据中模式和异常的有效可视化监控工具,并适应除欧几里得距离外的其他距离指标,在更大的患者队列和不同类型的异常上验证CMP,并使用机器学习方法使用基于CMP的评分对不同类型的异常进行分类。我们还将研究季节影响,并将我们的方法与其他相关异常检测方法进行比较。我们计划将我们的模型集成到Minder平台中,在检测到异常时发出警报,使监测团队能够调查底层传感器数据,并及时为患者提供干预。被验证为真实的警报将被记录在患者时间轴上,并用于监控模型的操作准确性。
英国痴呆症研究所的致谢名单。
基于角度的离群点检测
上下文矩阵概要
基于copula的离群值检测
轻量级在线异常检测器
矩阵简介
被动红外
尿路感染
这项研究得到了英国痴呆症研究所的支持
访问完整的数据集需要伦理批准,由于家庭监测数据的敏感性以及隐私和安全要求,目前还无法获得。要查询完整的数据集,必须向帝国理工学院英国痴呆症研究所护理研究和技术中心机器智能组负责人Payam Barnaghi教授发送一份意图和使用声明。
没有宣布。