这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba
可穿戴技术有潜力通过使用机器学习来改善心血管健康监测。这种技术能够进行远程健康监测,并能够诊断和预防心血管疾病。除了检测心血管疾病外,它还可以排除有症状患者的这种诊断,从而防止不必要的医院就诊。此外,早期预警系统可以帮助心脏病专家及时治疗和预防。gydF4y2Ba
本研究旨在通过使用机器学习和从可穿戴设备获得的数据,系统地评估有关检测和预测心血管疾病患者预后的文献,以深入了解该技术的当前状态、挑战和局限性。gydF4y2Ba
我们于2020年9月26日搜索了PubMed、Scopus和IEEE Xplore,对发表日期没有限制,并使用了“可穿戴设备”、“机器学习”和“心血管疾病”等关键词。根据基于机器学习的技术准备水平(TRLs)对方法进行分类和分析,TRLs对其在操作环境中部署的潜力进行了打分,从1到9(最准备)。gydF4y2Ba
在去除重复、应用排除标准和全文筛选后,55项符合条件的研究被纳入分析,涵盖多种心血管疾病。我们评估了纳入研究的质量,发现没有一项研究被纳入医疗保健系统(TRL<6),缺乏前瞻性的2期和3期试验(TRL<7和8),并且很少使用组间交叉验证。这些问题限制了这些研究证明其方法有效性的能力。此外,对于训练这些研究模型所需的样本量、用于预测的观察窗口的大小、应该观察参与者多长时间,以及适合预测心血管结果的机器学习模型类型,似乎没有达成一致。gydF4y2Ba
尽管目前的研究显示了可穿戴设备在监测心血管事件方面的潜力,但由于缺乏现实的数据集和适当的系统和前瞻性评估,它们作为诊断或预后心血管临床工具的部署受到了阻碍。gydF4y2Ba
心血管疾病诊断方法的使用通常仅限于医院就诊。因此,其临床应用价值可能因观察期短而受到限制。这对于不经常出现的心血管问题尤其有问题,如阵发性心律失常、心力衰竭,甚至在医院就诊期间可能不存在的胸部不适。电子保健的进展,特别是可穿戴技术,如心电图[gydF4y2Ba
长期持续监测已证明是有效的[gydF4y2Ba
尽管应用广泛,但目前24小时ECG或血压监测设备佩戴不便,在纵向环境中给患者带来负担。可充电、易于佩戴的传感器,如智能手表,正在成为一种有趣的替代方案,因为它们包含的传感器具有潜在的无限观察时间,对患者的负担最小,成本仅为一小部分。然而,这些可穿戴设备测量的信号,如ppg衍生的心率、活动和皮肤温度,对于心脏病专家的临床决策来说,临床信息不够丰富。随着目前人工智能(AI)的发展,人们期望从机器学习算法中获得强大的解决方案,该算法可以以(完全)数据驱动的方式学习可穿戴传感器信号与心血管结果之间的关系。gydF4y2Ba
通过机器学习自动心血管诊断和预后的另一个巨大好处是最大限度地减少观察者之间和内部的变异性,这是人类心脏病学家主观解释临床和诊断信息的主要问题。观察者间意见分歧[gydF4y2Ba
由于这些承诺,从可穿戴数据诊断心血管事件的研究领域非常活跃,许多机器学习解决方案正在被提出来自动检测心血管事件。各种评论已经提出了分类的机器学习工具。Krittanawong等人的研究[gydF4y2Ba
尽管已经提出了许多机器学习工具,研究也显示了良好的性能,但它们似乎还没有在运行和功能的医疗保健系统中得到实施。因此,我们决定从其技术准备水平(TRL)的角度系统地审查从可穿戴数据检测心血管事件的机器学习工具,即这些提议的工具在实现操作系统方面走了多远,以及什么因素阻碍了它们实现这一目标。TRL范式起源于美国国家航空航天局,是一种评估太空旅行中使用的特定技术成熟度水平的方法,方法是按照准备就绪程度的增加顺序给解决方案打分,从基础技术研究(1分)到发射操作(9分)[gydF4y2Ba
有趣的是,有两项研究为医疗机器学习定制了TRL框架。Komorowski [gydF4y2Ba
符合条件的研究分类。trl是基于Fleuren等人提出的医疗设备机器学习的描述[gydF4y2Ba
通过对现有方法的技术准备程度进行评估,我们表明,目前的方法是有希望的,但由于缺乏现实的数据集和适当的系统和前瞻性评估,部署受到严重阻碍。为了在卫生保健系统一级达到可操作的准备状态,需要解决这些瓶颈。gydF4y2Ba
系统评价遵循PRISMA(系统评价和元分析首选报告项目)指南进行[gydF4y2Ba
用于系统评价的PRISMA(系统评价和元分析的首选报告项目)流程图。gydF4y2Ba
搜索查询于2020年9月26日在电子数据库Scopus、PubMed和IEEE Xplore中执行。只考虑同行评审的期刊。如果数据来自可穿戴设备,使用机器学习方法,并以检测或预测心血管疾病为目标,则有资格纳入研究gydF4y2Ba
通过与所有作者的讨论,从符合条件的研究中,第一作者ANJ确定了一些研究共同的总体评价方面,并将这些研究分配到一个分类中(gydF4y2Ba
从电子数据库中检索了578条记录。删除重复项后,70.8%(409/578)的记录保留下来。其中一个是外部包含的,因为它满足包含标准,但由于没有明确提到机器学习这个术语,所以被搜索查询漏掉了。如gydF4y2Ba
我们将每项研究与机器学习方法的不同trl联系起来(gydF4y2Ba
符合条件的研究的主要特征总结在gydF4y2Ba
对于没有使用基准数据集的研究,他们报告了在受控环境(医院或研究实验室)或自由生活环境中获得的数据,在这种环境中,参与者被远程观察他们的自然日常生活。后者也被称为gydF4y2Ba
基于参与者活动和获取环境的研究顺序。最左边的场景表示久坐参与者的高度控制习得。最右边的场景描述了相反的情况,参与者在活跃、自由生活的情况下被监控。受控环境包括医院或实验室。自由生活的参与者在日常生活中受到监控。gydF4y2Ba
实际的数据采集需要持续监测。实际上,可穿戴设备在穿戴时不应成为参与者的负担。这种负担主要取决于传感器在身体上的位置。此外,位置也限制了可以测量的生物特征信号的类型,这被称为模态。我们根据非基准研究的位置和模式共同对研究进行了分类(gydF4y2Ba
可穿戴传感器的放置和方式:浅蓝色,传感器的放置;蓝色表示使用的模式。其他:头部、近红外光谱;胸部,地震心动图或陀螺心动图。重叠块表示使用的多个位置或模式。心电图:心电图;GSR:皮肤电反应;分:photoplethysmogram;SIT:皮肤阻抗和温度。gydF4y2Ba
除了5级要求真实的数据集外,7级和8级分别需要2期和3期研究。在药物测试的背景下,这需要对有效但安全的药物剂量进行调查。类似地,对于可穿戴机器学习,这转化为参与者在准确检测或预测心血管结果之前必须暴露在机器学习模型中的时间。因此,实际的部署设置取决于观察参与者的时间长度。由于进一步描述数据的可再现性以及模型在何种情况下有效的描述是至关重要的,我们决定更详细地概述所获得的可穿戴数据的时间方面。我们认识到以下四个层次的时间方面:(1)研究持续时间,(2)观察期,(3)记录持续时间,(4)输入窗口大小(gydF4y2Ba
研究中描述的报告时间方面的维恩图。S, O, R和I在图例中表示。I:输入窗口大小;O:观察期;R:记录时长;S:学习时间。gydF4y2Ba
我们评估了所有非基准研究的时间方面(gydF4y2Ba
虽然检测或预测心血管结果所需的观察期和记录持续时间仍然是一个开放和活跃的研究主题,但这些时间将因不同的结果而不同。因此,我们列出了哪些研究考虑了哪些(组合)心血管结果(gydF4y2Ba
研究根据模型预测的心血管结果类型进行分类。AA:房性心律失常;C:控制;CAD:冠状动脉疾病;CP:心血管预防;HF:心力衰竭;SR:窦性心律;VA:室性心律失常;VHD:心脏瓣膜病。gydF4y2Ba
虽然许多心血管结果都是通过可穿戴设备进行调查的,但已经达到5级的有前景的研究都集中在使用基于手腕的ppg的房性心律失常。然而,它们的时间性质往往是不确定的,因为它们没有被报道。此外,要提升到第6级,一个模型应该在医疗保健系统中发挥作用(即使它只是在观察中使用)。没有一项研究进展到这一水平。中给出了第5级模型的概述,包括它们所基于的模式gydF4y2Ba
研究满足5级技术准备的要求。gydF4y2Ba
研究gydF4y2Ba | 结果gydF4y2Ba | 形态gydF4y2Ba | OgydF4y2Ba一个gydF4y2Ba | RgydF4y2BabgydF4y2Ba | 我gydF4y2BacgydF4y2Ba |
托雷斯-索托和阿什利[gydF4y2Ba |
窦性心律失常,房性心律失常gydF4y2Ba | 分gydF4y2BadgydF4y2Ba | 1周gydF4y2Ba | NRgydF4y2BaegydF4y2Ba | 25秒gydF4y2Ba |
巴沙尔等[gydF4y2Ba |
房性心律失常,室性心律失常gydF4y2Ba | 心电图gydF4y2BafgydF4y2Ba | NRgydF4y2Ba | NRgydF4y2Ba | 2分钟gydF4y2Ba |
Tison等[gydF4y2Ba |
房性心律失常,对照组gydF4y2Ba | 分,加速度计gydF4y2BaggydF4y2Ba | NRgydF4y2Ba | 每天8小时gydF4y2Ba | 5秒,30秒,5分钟,30分钟gydF4y2Ba |
Wasserlauf等人[gydF4y2Ba |
房性心律失常,对照组gydF4y2Ba | 分,加速度计gydF4y2Ba | NRgydF4y2Ba | 每天11.3小时gydF4y2Ba | 1小时gydF4y2Ba |
一个gydF4y2BaO:观察期。gydF4y2Ba
bgydF4y2BaR:录音时长。gydF4y2Ba
cgydF4y2BaI:输入窗口大小。gydF4y2Ba
dgydF4y2Ba分:photoplethysmogram。gydF4y2Ba
egydF4y2BaNR:没有报道。gydF4y2Ba
fgydF4y2Ba心电图:心电图。gydF4y2Ba
ggydF4y2Ba传感器提供的心率和步长计数器数据。gydF4y2Ba
医疗保健系统的集成可以在不同的设备上进行。这些研究在计算机(如服务器)、智能手机或嵌入式设备(gydF4y2Ba
用于研究的训练模型的处理装置。gydF4y2Ba
处理设备gydF4y2Ba | 包含基准,ngydF4y2Ba | 不包括基准,ngydF4y2Ba |
电脑gydF4y2Ba | 44gydF4y2Ba | 24gydF4y2Ba |
智能手机gydF4y2Ba | 7gydF4y2Ba | 4gydF4y2Ba |
嵌入式设备gydF4y2Ba | 4gydF4y2Ba | 0gydF4y2Ba |
TRL的7级和8级通过2期和3期临床试验评估了模型的有效性。我们将其转化为用于构建模型的观察到的模态的特征。大量研究使用ECG作为一种模态,并从基准点使用不同的信息[gydF4y2Ba
研究中使用的特征。D:人口;O:其他;R:原料;SP:光谱;圣:统计;WI:波形信息。gydF4y2Ba
最常用的特征是原始特征(研究:9/28,32.1%)。其次是波形信息和统计特征。总共有两项研究还包括了参与者的人口统计元数据[gydF4y2Ba
定义模型有效性的另一个方面与正在构建的模型类型有关,我们将其分为基准研究和非基准研究(gydF4y2Ba
研究中使用的机器学习模型的类型。gydF4y2Ba
模型类型gydF4y2Ba | 使用次数gydF4y2Ba |
不连续的gydF4y2Ba | 30.gydF4y2Ba |
经典gydF4y2Ba | 20.gydF4y2Ba |
系综gydF4y2Ba | 9gydF4y2Ba |
顺序神经网络gydF4y2Ba | 6gydF4y2Ba |
非顺序+顺序神经网络gydF4y2Ba | 5gydF4y2Ba |
分层gydF4y2Ba | 2gydF4y2Ba |
模型的有效性在很大程度上受到训练模型的样本数量的影响。在第2期和第3期研究中,进行了先验幂分析,以估计每个组或类所需的样本量,以观察效果。这是由昆塔纳[gydF4y2Ba
这表明,研究一般选择的火车样本量(每组或类)太小,无法根据先验幂分析发现显著影响。gydF4y2Ba
与先验幂分析相比,模型验证的目的是回顾性分析模型在未见过的数据上的表现,即评估模型的泛化误差。纳入的研究选择了2种验证方案:交叉验证和拒绝[gydF4y2Ba
重要的是要认识到数据集可能会受到高度不平衡类的影响。一个例子是,在比例上,代表窦性心律的样本比房颤的样本多。在这种情况下,模型可能会偏向于更多地关注窦性心律的正确分类,因为这对更高的整体分类性能贡献更大。然而,这导致心血管疾病的表征不佳,因为对应的样本比窦性心律更容易被错误分类。总共有6项研究[gydF4y2Ba
最后,值得注意的是,一些研究[gydF4y2Ba
研究中使用的验证方法的维恩图。简历:交叉验证;G:分组;H:坚持;分层。gydF4y2Ba
我们已经证明,使用可穿戴设备检测心血管结果的基于机器学习的技术是TRL5的瓶颈,最主要的是对适当的真实数据采集的要求。为了达到技术准备的下一个水平,模型需要在医疗保健系统中变得可操作(无论是介入还是观察)。Komorowski [gydF4y2Ba
可穿戴式心血管诊断的实用性在于自由生活和活跃的情况下,因为佩戴它们的负担低,并且具有24/7的监测能力。将传感器放在手腕上确实最符合这些标准。此外,商用级智能手表可以以较低的电池消耗测量多模态数据。这使得这些类型的传感器有望使用可穿戴技术进行心血管诊断。然而,大多数研究并没有完全证明这种潜力。此外,目前提出的预后模型很少,因此使用可穿戴机器学习预防心血管疾病实际上还没有得到很好的研究。gydF4y2Ba
尽管大多数研究都包含了研究人群的详细基线特征,但令人担忧的是,这些数据的描述并没有达到类似的一致性、结构和细节水平。例如,一些研究(或明或暗)报告了获取持续的可穿戴数据,但参与者确实需要摘下设备充电,否则依从率很低。这些研究没有报告这些细节;因此,这是未知的gydF4y2Ba
所有研究均采用固定的窗口大小对窗口内的时间序列数据进行分割。没有一项研究考虑了可变长度或自适应窗口大小。此外,以前没有生理学知识被用来确定信息的时间尺度。例如,运动-恢复曲线(通常从运动耐力测试中获得)经常用于量化活动期间的心血管特征。这描述了参与者在运动中自适应地增加心率并在运动后将其恢复到静息水平的能力。可以访问加速度计数据的研究并没有关注类似的时间尺度事件。为此,我们认为在时间序列中识别信息时间尺度并将其纳入模型对检测心血管疾病是有价值的。gydF4y2Ba
值得注意的是,研究主要倾向于非顺序神经网络而不是顺序神经网络,尽管后者是为时间序列数据设计的。类似地,在已发布的模型中很少利用数据的层次结构。我们主张更多地强调对这些模型的探索,尽管这也需要更大的数据集,因为这些方法需要大量的数据。gydF4y2Ba
尽管一些研究使用了健康的对照组,但大多数研究都不包括患有糖尿病的对照组gydF4y2Ba
我们已经证明,根据先验幂分析,研究使用的训练样本量太小。机器学习中样本大小的确定[gydF4y2Ba
我们已经证明,只有少数论文使用了多模态数据,更少考虑了跨模态的特征。在我们看来,这是一个错失的机会;当结合不同形态的特征时,可以提取有价值的信息。心率和活动之间的相关性就是一个例子。当心率在没有活动的情况下突然变化时,这可以为模型检测心脏问题指明一个有趣的部分。另一个例子是,一项研究使用时间戳作为特征,可以提供纵向数据中的季节性信息。这可以用来检查昼夜节律的变化,作为心血管疾病的生物标志物。有趣的是,心电形态学被很好地研究并用作一种特征。然而,在研究中没有使用类似的PPG信号分解。因此,我们主张对PPG信号进行类似的探索。gydF4y2Ba
最后,我们认为,除了讨论的技术缺陷之外,社会因素(在道德或社会责任AI的总称下)也必须得到解决。gydF4y2Ba
从医生的角度来看,机器学习模型的性能可能会达到医疗保健专业人员的观点[gydF4y2Ba
最后,我们要强调的是,我们没有在研究的临床数据获取中对偏倚风险进行全面的质量评估。相反,我们使用TRL从机器学习的角度捕捉这些风险,并自始至终描述这些限制。为此,方法学质量较低的研究并未获得较高的TRL。此外,我们没有考虑会议论文,因为一般来说,期刊论文更全面和详细。然而,在机器学习领域,会议被用来发表完成的研究(不局限于其他领域的摘要)。因此,我们可能错过了会议论文中的新进展,这些论文已经被详细描述,但没有像期刊论文那样被充分审查。gydF4y2Ba
TRL使我们能够对基于机器学习的可穿戴技术的(所需的)进展进行结构化评估,以便在操作环境中部署。我们讨论过,这一承诺主要是通过在自由生活环境中获取参与者的纵向数据来实现的,这是由于易于佩戴的低能耗传感器而成为可能。然而,我们也观察到,没有一项研究在实际数据上检测或预测心血管结果,这限制了该技术的TRL。此外,我们还发现了许多阻碍部署进展的其他方面,在将可穿戴技术用于心血管疾病检测和预防的承诺成为现实之前,需要解决这些问题。另一方面,在纳入的55项研究中,6项(11%)在2018年之前发表,其余49项(89%)在2018年之后发表。因此,我们预计在未来几年,研究的受欢迎程度将大幅提高。gydF4y2Ba
在三个电子数据库中执行搜索查询。gydF4y2Ba
研究特点表。gydF4y2Ba
人工智能gydF4y2Ba
心电图gydF4y2Ba
photoplethysmogramgydF4y2Ba
系统评价和元分析的首选报告项目gydF4y2Ba
技术准备水平gydF4y2Ba
文献检索和研究纳入,形式化分析,概念化,原始草稿的撰写和数据的准备由ANJ进行。监督、概念化和写作(审查和编辑)由DT、MR和IVDB执行。gydF4y2Ba
没有宣布。gydF4y2Ba