发表在20卷第11名(2018): 11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/12001,首次出版
定义和预测管理我的疼痛应用程序用户的疼痛波动:使用数据挖掘和机器学习方法进行分析

定义和预测管理我的疼痛应用程序用户的疼痛波动:使用数据挖掘和机器学习方法进行分析

定义和预测管理我的疼痛应用程序用户的疼痛波动:使用数据挖掘和机器学习方法进行分析

原始论文

1加拿大安大略省多伦多约克大学数学和统计系疾病建模中心

2管理生活公司,多伦多,安大略省,加拿大

3.约克大学运动机能学与健康科学学院,加拿大安大略省多伦多

4麻醉和疼痛管理科,多伦多总医院,多伦多,安大略省,加拿大

5约克大学心理学系,多伦多,安大略省,加拿大

通讯作者:

Tahir Janmohamed,彭,MBA

ManagingLife公司

里士满街西850号4号

多伦多,安大略省,M6J1C9

加拿大

电话:1 4169103760

电子邮件:tahir@managinglife.com


背景:测量和预测疼痛波动(疼痛评分随时间的波动或变化)可以帮助改善疼痛管理。在与疼痛波动相关的更大的不确定性和不可预测性的条件下,对疼痛及其随之而来的致残影响的感知往往会增强。

摘要目的:本研究旨在使用数据挖掘和机器学习方法(1)定义一种新的疼痛波动率测量方法;(2)基于人口统计学、临床和应用程序使用特征,从疼痛管理应用程序Manage My pain的用户中预测未来的疼痛波动率水平。

方法:疼痛波动率定义为观察期内连续2个自我报告的疼痛严重程度评分之间绝对变化的平均值。的k -均值聚类算法应用于用户在应用程序使用的第一个月和第六个月的疼痛波动率评分,以建立区分低波动率和高波动率类别的阈值。随后,我们从应用程序使用的第一个月提取了130个人口统计学、临床和应用程序使用特征,以预测应用程序使用的第六个月的这两个波动类别。采用4种方法建立预测模型:(1)带岭估计的逻辑回归;(2)基于最小绝对收缩和选择算子的逻辑回归;(3)随机森林;(4)支持向量机。计算了总体预测精度和两个类别的精度,以比较预测模型的性能。使用5倍交叉验证进行训练和测试。使用训练数据集的随机子抽样解决了类不平衡问题。在预测期和结果期至少有5次疼痛记录的用户(N=782名用户)被纳入分析。

结果:k -均值聚类算法应用于疼痛波动率评分,建立1.6的阈值来区分低波动率和高波动率类别。在使用随机子样本验证阈值后,创建了2类:低波动率(n=611)和高波动率(n=171)。在这个类不平衡数据集中,所有4个预测模型的总体精度都达到了78.1%(611/782)到79.0%(618/782)。然而,对于高波动率类,所有模型的预测精度都低于18.7%(32/171)。在使用随机子抽样解决类别不平衡问题后,高波动性类别的所有模型的结果都改善到大于59.6%(102/171)。基于随机森林的预测模型表现最好,因为它在3个随机子样本中对这两类都达到了大约70%的精度。

结论:我们提出了一种测量疼痛波动的新方法。应用聚类分析将用户划分为低波动率和高波动率类的子集。然后在应用程序使用的第六个月,使用基于从第一个月的人口统计学、临床和应用程序使用信息中提取的特征的机器学习方法,以可接受的准确性预测这些类别。

中国医学网络杂志2018;20(11):e12001

doi: 10.2196/12001

关键字



背景

数字健康应用程序,无论是本地开发的还是基于Web的,都正在改变人们监测、管理和交流健康信息的方式[1].这一趋势已在医学上得到证实。2],护理[3.,心理学[4]、运动机能学[5],以及营养[6],多种健康问题和疾病正在得到解决[1].

疼痛是最常见的健康问题之一,也是寻求医疗帮助的三大最常见原因之一[7].从疼痛管理应用程序收集数据的科学出版物增加了数字健康工具的学术可信度,并可以帮助消费者和医疗保健专业人员选择正确的应用程序来支持他们的治疗计划。在之前的研究中[8],我们应用数据挖掘(聚类)方法来了解一个名为Manage My pain (MMP)的疼痛管理应用程序用户的参与模式。在这项研究中,我们根据用户对应用程序的使用程度将用户分为5个组,然后应用统计方法,使用6种不同的用户属性(如性别、年龄、疼痛情况的数量、药物的数量、疼痛严重程度和阿片类药物的使用)来描述每个组。

在之前工作的扩展中,我们的目标是开发预测模型,用于识别和预测报告疼痛体验改善或减少的用户组。在这项工作中,一个重要的问题是,当测量疼痛严重程度随时间的变化时,最合适的统计数据是什么。使用平均或平均疼痛强度或严重程度评分作为慢性疼痛变化的指标,在经验和理论基础上受到了批评。根据经验,慢性疼痛患者的疼痛强度往往不会随着时间的推移而发生明显变化,因为根据定义,这种疼痛是慢性的。这在治疗试验中很明显,人们期望最大程度的变化。例如,在一项对魁北克疼痛登记处登记的1894名接受了最先进的多学科疼痛治疗的慢性疼痛患者的研究中,轨迹分析显示,四分之三在治疗开始时患有中度至重度疼痛强度和疼痛干扰评分的患者在2年内几乎没有变化[9].在24个月的时间里,他们的疼痛保持相对稳定和严重(在6/10到7/10之间)。使用平均疼痛评分也从理论角度受到批评,因为这种方法不能解释随着时间的推移个体内部和个体间的差异[910].为了克服这些限制,一种建议的解决方案是采用不同的数据分析方法,如对多元潜在类别进行生长混合建模[9].然而,如上所述,在理想条件下使用这种方法检测变化(即多学科疼痛治疗)的一项研究中,绝大多数患者的平均疼痛强度没有随时间变化[9].同样,在我们自己对MMP数据库的评估中,在本研究使用的数据集中,大多数用户的平均疼痛严重程度在6个月内没有显著变化[11].值得注意的是,平均疼痛评分的稳定性[911]并不能排除个体内部每日存在大量变异的可能性。

另一种解决方案是使用一种测量疼痛评分随时间波动或变异性的变化的方法,而不是目前主导疼痛文献的典型的集中趋势测量方法(即平均值和中位数)。疼痛波动是慢性疼痛患者疼痛体验的重要因素,特别是因为它与阿片类药物成瘾的开始有关[1213].此外,在更大的不确定性和不可预测性条件下,疼痛感知和随之而来的残疾会增强[14,而更大的疼痛波动是造成不确定性和不可预测性的因素之一。然而,由于不存在疼痛波动的标准定义,因此需要进行研究来评估波动的最佳测量方法,并确定疼痛波动在多大程度上可以预测慢性疼痛的结果。

目标

因此,本研究有两个主要目标。首先是定义一种新的疼痛波动测量方法。我们在这个新定义的度量上应用数据挖掘(聚类)方法来区分2个级别的波动性:高和低。第二个目标是根据从用户简介中提取的信息和早期创建的疼痛记录来预测用户未来的疼痛波动水平应用程序使用历史。采用岭估计逻辑回归、最小绝对收缩和选择算子逻辑回归(LASSO)、随机森林和支持向量机(SVM)建立预测模型。数据集中的类不平衡问题是通过子抽样来解决的。使用标准的5倍交叉验证进行培训和测试。我们计算了低波动率和高波动率类别的准确度以及总体准确度,以衡量和比较我们实验中开发的预测模型的性能。


控制我的痛苦

MMP [15MMP是由ManagingLife开发的一款应用程序,帮助有疼痛感的人通过Android手机应用程序跟踪他们的疼痛和日常生活。MMP于2011年推出,已有28,900人创建了账户并记录他们的疼痛。用户总共记录了81万次疼痛发作。

MMP的核心特征是疼痛记录这使得用户能够输入关于他们疼痛体验的细节。每个记录只包含一个强制性项目,使用视觉模拟量表上的滑块对疼痛严重程度进行评级。用户可以选择完成另外7个项目,以更全面地描述他们的疼痛体验。这款应用每天都会发出提醒,并通过微信提示用户反思自己每天的成就每天反省.完成每日反思和疼痛记录通常不超过1分钟。通过定期使用,用户可以通过图表和图表来了解他们的疼痛和功能,以及它如何随着时间的推移而变化,从而获得自我意识。

应用程序收集的信息可以汇总成一份用于临床使用的报告。这些报告以简洁的方式展示了应用程序收集的信息,主要关注临床访问之间自我报告结果数据的变化。输出结构在一页纸上,往往比患者自上次临床就诊以来对疼痛的回忆更准确,因为它捕获的疼痛更接近经历的时间,并且较少受近期性和回忆偏差的影响,这些偏差困扰着现有的捕获疼痛信息的方法[9].为了补充报告中提供的信息,用户可以在应用程序中的个人资料中添加疼痛状况、性别、年龄和药物。用户可以在不创建帐户的情况下使用MMP,在这种情况下,数据不会离开设备,因此无法用于本研究等研究。

过程

这项研究由约克大学的研究伦理委员会(人类参与者审查委员会,证书#e2015-160)审查并批准。用户的数据库被访问和下载在两个单独的文件(使用纯文本格式):(1)用户信息和(2)疼痛记录。用户信息文件包含以下字段:用户ID、注册日期时的年龄、性别、自我报告的疼痛状况和自我报告的药物。疼痛记录文件包含以下字段:创建者的用户ID、日期、严重程度、位置、其他相关症状、特征、有效因素、无效因素、加重因素、环境、疼痛类型和疼痛持续时间。文本文件中的所有字段都使用特殊字符分隔。本研究中使用的文件于2018年7月19日下载。这项研究涵盖了用户在2013年1月1日至2018年7月19日之间输入的疼痛记录。

数据

主要数据集包括来自28,952名用户的812,548条疼痛记录。预测疼痛波动的结果期是应用程序使用的第六个月。选择第6个月作为结局期,因为持续至少6个月的疼痛符合最普遍接受的慢性疼痛定义[16].在本研究中,我们使用第一个月作为预测期,因此,我们收集了使用MMP的第一个月的特征来预测使用MMP的第六个月的疼痛波动。计算疼痛波动的数学最小值是2个具有严重等级的疼痛记录。然而,为了增加预测结果的可靠性,本研究考虑了在预测期和结果期至少有5次疼痛记录的用户进行预测实验。主数据集中满足此条件的用户数量为795。然而,13名用户举报其他由于样本量小,性别被排除在外。因此,本研究选择了782个用户,他们在数据集中有329,070个疼痛记录。

疼痛波动

疼痛波动最直观的定义是疼痛严重程度随时间变化的SD。在本研究中,我们提出了疼痛波动的新定义。我们将疼痛波动率定义为在2个观察期内的每一个连续2个疼痛严重程度评级之间的绝对变化的平均值,而不考虑疼痛评级之间的间隔时间。因此,对于一系列的疼痛严重程度进行评级R = <1, R2R、…n>,波动,V(右)定义为:

V(r) = (| r2- r1| + | R3.- r2| +……+ | Rn- rn-1|) / n
[1]

绝对变化的平均值作为波动率的衡量标准与波动率的SD衡量标准之间的差异在图1而且表1使用4种不同的疼痛场景。我们期望波动率的测量以以下顺序显示(波动率)的减少:样本1(大变化),样本2(小变化),样本3(稳定上升),样本4(一致且不变)。痛苦波动被定义为绝对变化的平均值,符合这一顺序。然而,当使用SD定义疼痛波动率时,样本3(稳定上升)的值高于样本2(变化较小)。从概念的角度来看,一个稳定的上升模式,虽然对一个处于疼痛中的人来说是可以想象的痛苦,但并不符合我们所说的疼痛波动,根据定义,包括疼痛波动,无论是从一致的基线(样本1和样本2)还是叠加在上升或下降趋势上。

当疼痛严重程度随时间波动,且绝对变化的平均值接近a时,波动可能会特别麻烦锯齿形波动模式。这种模式先前已被确定在诸如心房扑动等疾病中具有重要意义,其中血液动力学不稳定可发展为心室颤动(当心脏不规则颤动导致潜在危及生命的心脏事件风险升高)[17].虽然尚不清楚锯齿状的疼痛波动是否比稳步上升的疼痛波动更令人衰弱,但研究人员需要测量方法来阐明这两种模式,以更好地探索对功能和生活质量的相关影响。

测试这种波动率测量的下一步是使用疼痛波动率测量的阈值将用户分为2个不同的类别:高波动率和低波动率。我们应用聚类方法来识别这个阈值。聚类涉及将一组对象或定义总体的成员划分为2个或多个子组,使得一个子组的成员彼此相似,但与其他子组的成员不同。每个对象或子组成员使用1个或多个变量表示,用于聚类,这些变量通常称为特征或属性。对象对(或子组成员)之间的相似性或不相似性是通过表示它们的特征向量之间的距离来测量的。

图1。随着时间的推移,演示了四种不同的疼痛严重程度模式。
查看此图
表1。比较严重等级的SD和绝对变化的平均值作为疼痛波动率的衡量标准。
波动轨迹 严重等级SD 绝对变化平均值
样本1(大改动) 5.48 10
样本二(微小变动) 2.19 4
样本3(稳定向上) 3.16 2
样本4(一致且不变) 0.00 0

成功的聚类过程的输出是一组集群,其中每个对象在其中一个候选集群中被分配成员资格。我们使用的方法是k -意味着(18]作为我们聚类用户的主要数据分析方法。下k-means聚类方法中,聚类的数量预先设置为某个常数k,将数据集划分为k集群。在初始化阶段,k -均值是随机选择的。数据集中的每个项目都被分配到最接近它的平均值。在每个后续迭代中,对于每个集群,平均值是基于该集群的当前成员计算的。然后将每个数据点重新分配给均值最接近的群集。当集群成员关系在迭代之间没有改变时,迭代过程就会停止。

在我们的实验中,聚类用户的特征是疼痛波动度量(即疼痛严重程度绝对变化的平均值)。我们将用户分为2个集群,将两组用户划分的波动率度量用作定义2个不同用户类别的阈值:高波动率和低波动率。

预测模型的特点

为了开发预测模型,我们从782个用户中提取了以下130个特征:

  1. 性别(1个特征):在应用程序中输入性别的选项有男性、女性或其他。未包含性别信息的用户被标记为未知。总共有25%的用户属于这一类。只有13个用户报告其他作为性别。由于样本量小,如之前在数据小节中提到的,他们被排除在进一步分析之外。
  2. 年龄(1个特征):记录的年龄(以岁为单位)是用户在第一次记录日期时的年龄,而不是在分析日期时的年龄。我们对年龄值进行了分类,以方便分析,并添加了一个类别来说明缺少信息的用户。此外,31%的用户没有提供出生日期。年龄值分为8类:(1)未知,(2)>0且≤20,(3)>20且≤30,(4)>30且≤40,(5)>40且≤50,(5)>50且≤60,(6)>60且≤70,(7)>70。
  3. 自我报告的疼痛情况数量(1个特征):用户可以从超过2500种疼痛状况的集中列表中添加1种或多种疼痛状况到他们的个人资料中。如果他们无法从集中列表中找到自己的疼痛状况,他们还可以选择定义自己的疼痛状况。一些用户没有选择在他们的个人资料中添加疼痛状况。自我报告的疼痛情况的数量分为5类:(1)未知,(2)1种情况,(3)2种情况,(4)3种情况,(5)3种以上情况。
  4. 自我报告的疼痛状况类别(5个特征):许多自我报告的疼痛状况属于以下5类中的1类:纤维肌痛、头痛、背痛、关节炎和抑郁-焦虑。每种自我报告的疼痛情况都被映射到适当的类别,并对映射进行临床正确性审查。对于这5个类别中的每一个类别,都创建了一个标记特征,以指示用户是否在他们的个人资料中自我报告了与该类别对应的疼痛状况。
  5. 疼痛记录条目(2个特征):总共使用2个特征来记录预测期内疼痛记录的数量和预测期内用户至少记录一次疼痛记录的天数。
  6. 疼痛程度等级(3个特征):应用程序用户必须为每个创建的疼痛记录选择一个疼痛严重程度等级(0-10)。对于每个用户,我们根据用户在预测期的记录计算疼痛严重程度评级的平均值和SD。所有用户还根据他们的平均疼痛评级被分为以下3组中的1组:轻度(平均疼痛评级<4)、中度(平均疼痛评级≥4至≤7)或重度(平均疼痛评级>7)[11].严重性等级的平均值和SD以及严重性级别分组(轻度或中度或严重)被用作特征。
  7. 疼痛趋势变化(1个特征):采用线性回归方法拟合疼痛严重程度评分的趋势线。这条趋势线的终点和起点之间的疼痛严重程度等级的差异被用作一个特征。
  8. 疼痛波动(2个特征):预测期的疼痛波动率,即每2个连续疼痛评分之间绝对变化的平均值,被用作特征。每个用户还被分配了一个疼痛波动水平(低或高),基于使用前一节中描述的聚类方法建立的阈值。预测期的波动水平被用作一个特征。
  9. 疼痛描述符(64个特征):对于应用程序中创建的每个疼痛记录,用户可以报告疼痛位置(如头部、腹部和背部)、相关症状(如头晕和发烧)、疼痛特征(如烧灼感和痉挛)以及环境(如家庭和学校)。用户可以从每个部分的默认值列表中进行选择:24个疼痛位置、20个相关症状、13个特征和7个环境。对于这些默认值,我们创建了一个标记特征,表明它在预测期的任何疼痛记录中存在。因此,这个类别中总共有64个特性。只有2%的用户没有报告任何这些疼痛描述。
  10. 影响疼痛的因素(43个特征):用户可以在应用程序中报告可能影响他们疼痛体验的因素。该应用程序总共列出了三种类型的因素:加重(如坐着和运动)、缓解(如休息和睡眠)和无效(如休息和睡眠)。用户可以从每个部分的默认因素列表中选择:15个加重因素,14个缓解因素,14个无效因素。对于这些默认因素中的每一个,我们创建了一个标记特征,表明它在预测期的任何疼痛记录中存在,结果在这个类别中有43个特征。在我们的数据集中,8%的用户没有包含任何影响他们疼痛的因素。
  11. 用药(5个特点)用户可以从超过1130种标准化的药物列表中添加药物到他们的个人资料中。用户档案中的任何药物都可以作为加重、有效或无效因素添加到疼痛记录中。共有5种常见的止痛药类别被确定:阿片类药物,三环抗抑郁药,抗惊厥药,大麻素和血清素-去甲肾上腺素再摄取抑制剂。标准化列表中的药物被映射到适当的类别。对于这5个类别中的每一个类别,我们都创建了一个标志特征,表明在预测期的任何疼痛记录中存在属于该类别的任何药物。因此,从药物类别中添加了5个特性。
  12. 神经性疼痛(1个特征):我们增加了一个标志特征作为神经性疼痛的指标。如果患者在疼痛记录中至少有以下两种症状,即神经性疼痛:针刺或刺痛、灼烧感、麻木、电击、轻触或轻衣物(加重因素)。
  13. 心理健康问题(1个特点):如果使用者在疼痛记录中报告至少有下列症状之一,则表明有精神健康问题:焦虑或抑郁(相关症状)或消极情绪或压力(加重因素)[19].创建一个标记特征,以指示在预测期是否至少有一个疼痛记录符合这一标准。

预测模型

我们首先开发了一个带岭估计器的逻辑回归模型用于预测[20.].然后我们用LASSO修正模型[21].这两种逻辑回归方法的目的是缩小大的回归系数,以避免过拟合。通过限制系数绝对值的和,LASSO迫使一些系数为0,因此,模型中使用的特征数量减少。使用R包glmnet对逻辑回归模型进行训练和检验[2223].

然后,我们使用2个机器学习分类器来构建疼痛波动的预测模型:24]和SVM [25].随机森林和支持向量机已广泛应用于生物医学的分类和预测[26-29].随机森林基于从训练集中的多个随机样本中学习到的决策树集合形成集成分类器。利用每个属性的信息内容构建决策树分类器;因此,决策树学习算法首先选择信息量最大的属性进行分类。从训练数据集中统一选取随机样本,并进行替换,使每个随机样本的总大小与整个训练集的大小相同。为了预测新实例的类别,将每棵决策树应用于该实例,并对所有决策树进行多数投票,从而做出最终的分类决策。我们在Weka应用了标准的随机森林分类包[30.在随机森林实现中使用100棵树。在每个树节点随机选择的特征数设置为2√n,其中n为特征总数。

另一种方法SVM主要是一个二元线性分类器。从特征空间的训练数据集中学习超平面,分离训练实例进行分类。超平面的构造是这样的,即超平面与最接近它的数据点之间的距离是最大的。如果训练实例不是线性可分的,可以将它们映射到高维空间中,以找到合适的分离超平面。在我们的实验中,我们使用了Weka libsvm,采用高斯径向基函数核。

预测性能的测量

我们使用分层的5倍交叉验证程序来训练模型,然后测试预测性能。在这个过程中,低和高疼痛波动的用户都被分为5个大小相等的组。其中一组用作测试集,而其他4组用于训练模型和分类器。这5组都是重复的。因此,我们进行了5次预测实验,每一次训练集和测试集都是完全分开的。通过这个交叉验证过程,每个用户的疼痛波动率类都只测试一次。我们通过以下3个指标来衡量本研究中使用的方法的预测性能:

低波动率类的准确率=(正确预测的低波动率用户数/低波动率用户数总数)× 100%
[2]
高波动率类准确率=(正确预测的高波动率用户数/高波动率用户数总数)× 100%
[3]
整体准确率=(正确预测的低波动率和高波动率用户数/总用户数)× 100%
[4]

类不平衡

在使用聚类方法定义低波动率和高波动率类之后,低波动率用户的数量比高波动率用户的数量要高得多(几乎是3倍),正如结果部分所讨论的那样。数据集中的这种类别不平衡在预测实验中为大多数类别(低波动性)产生了很高的准确性,而少数类别(高波动性)的准确性仍然非常低。我们使用从大多数类中进行子抽样的过程来创建一个平衡的数据集来训练预测模型。在子抽样方法下,从大多数类中随机选择实例,使两个类的大小相等。我们重复了3次子采样过程,以确保结果的稳定性。我们在原始数据集和平衡数据集上都进行了预测实验。


疼痛波动等级

我们结合了预测期(即应用程序使用的第一个月)和结果期(即应用程序使用的第六个月)所有用户的疼痛波动率测量,然后将这些数据分为2个集群k则算法。图2显示集群输出。共有1564个数据点,因为每个用户有2个值:1来自预测器,1来自结果期。前782个数据点(指数1-782)是来自预测期的波动值,接下来的782个数据点来自结果期。黑色和红色分别表示两个不同的类别(分别为低波动率和高波动率),这两个波动率类别的数值阈值约为1.6。

为了进一步验证该阈值,我们从1564个值中随机选择782个值的子样本,并重新应用聚类算法。这个过程我们重复了4次。图3显示这4个聚类结果。1.6的阈值在所有这4个随机子样本中是一致的。因此,波动性度量值大于1.6的用户被分配为类在我们的预测实验中。的所有其他用户都属于波动性类

图2。聚类疼痛波动测量。数据点总数为1564。每个用户有2个数据点,分别来自预测期和结果期。指数(x轴)1至782的数据点是预测期的波动值,783至1564是结果期的波动值。黑色和红色分别表示低和高波动性水平。
查看此图
图3。随机选择疼痛波动测量的子集进行聚类。
查看此图

预测结果

使用疼痛波动阈值1.6可在结果期对用户进行以下划分:611人波动率低,171人波动率高。数据集中存在明显的类不平衡,低波动率用户数量是高波动率用户数量的3倍以上。我们首先在782个用户的原始数据集上应用了带岭估计器和LASSO、随机森林和SVM的逻辑回归。文中给出了4种方法5重交叉验证的预测性能表2

4种方法的总体准确率均为78.1%(611/782)~ 79.0%(618/782)。然而,在所有的方法中,高波动率类的准确性明显较低。虽然大多数类别(低波动率)的准确度在所有方法中都超过了95.9%(586/611),但少数类别(高波动率)的准确度低于18.7(32/171)。我们假设高波动率类的低准确度是类不平衡的结果。为了解决这个问题,正如方法部分所讨论的,我们随机抽取低波动性类来创建训练集,以便两个类的实例数量相同。我们进行了3次随机子抽样,并重新应用所有4种方法进行预测。结果显示在表3而且图4

表2。使用782个用户的原始数据集预测性能。
性能测量 Logistic回归(岭),n (%) 逻辑回归一个), n (%) 随机森林,n (%) 支持向量机b, n (%)
准确度(低波动性类;N = 611) 610 (99.8) 607 (99.3) 587 (96.1) 605 (99.0)
准确度(高挥发性类;N = 171) 1 (0.6) 10 (5.3) 31 (18.1) 2 (1.2)
总体精度(N=782) 611 (78.1) 617 (79.0) 618 (79.0) 607 (77.6)

一个LASSO:最小绝对收缩和选择算子。

b支持向量机。

表3。使用平衡数据集的预测性能,其中大多数类的随机子抽样(低波动性)应用于使训练数据集中的类大小相等。
性能测量 Logistic回归(岭),n (%) 逻辑回归一个), n (%) 随机森林,n (%) 支持向量机bn (%)
准确度(低波动性类;N = 611)

二次抽样1 433 (70.9) 455 (74.5) 428 (70.0) 391 (64.0)

二次抽样2 442 (72.3) 460 (75.3) 424 (69.4) 391 (64.0)

二次抽样3 424 (69.4) 456 (74.6) 440 (72.0) 379 (62.0)
准确度(高挥发性类;N = 171)

二次抽样1 115 (67.3) 116 (67.8) 121 (70.8) 103 (60.2)

二次抽样2 116 (67.8) 106 (62.0) 120 (70.2) 103 (63.2)

二次抽样3 111 (64.9) 105 (61.4) 127 (74.3) 111 (64.9)
总体精度(N=782)

二次抽样1 548 (70.1) 571 (73.0) 549 (70.2) 494 (63.2)

二次抽样2 558 (71.4) 566 (72.4) 544 (69.6) 499 (63.8)

二次抽样3 535 (68.4) 561 (71.7) 567 (72.5) 490 (62.7)

一个LASSO:最小绝对收缩和选择算子。

b支持向量机。

图4。使用平衡数据集预测性能。LASSO:最小绝对收缩和选择算子;支持向量机。
查看此图

随机森林和逻辑回归模型的总体准确度在68.4%(535/782)和73%(571/782)之间。这3种方法的性能要比SVM好得多。虽然在平衡数据集后,预测模型的整体精度有所降低(表2vs表3),高波动率类的准确率显著提高。对于使用原始类不平衡数据集的高波动性类,所有方法的准确率都低于18.7%(32/171)。然而,在对大多数类别进行随机抽样后,这一比例至少提高到60.2%(103/171)。在使用随机森林的3个子样本中,所有3个精度测量都约为70%。尽管逻辑回归模型在低波动率类上的表现略好于随机森林,但随机森林在高波动率类上的表现更好。这是唯一一种方法,在不同的子样本中,对两种挥发性类别都能达到约70%的一致性。因此,随机森林基于从使用第一个月的个人资料信息和疼痛记录中收集的特征,在预测MMP用户在使用第六个月的疼痛波动水平方面表现最好。


主要研究结果

在本研究中,我们定义了一种新的疼痛波动测量方法。我们采用聚类方法来区分低水平和高水平的疼痛波动。随后,我们预测了MMP用户的疼痛波动水平,MMP是一款记录疼痛体验的数字健康应用程序。我们从用户使用应用程序的第一个月的个人资料信息和疼痛历史中提取了130个特征。这些特征被用来建立预测模型,其中结果是第6个月的疼痛波动水平。总共使用了4种方法来建立预测模型:带岭估计器的逻辑回归、带LASSO的逻辑回归、随机森林和支持向量机。我们通过对训练数据集进行随机子抽样来解决类不平衡的问题,并重复此过程3次。使用随机森林开发的预测模型表现最好,低波动率和高波动率类别的准确度均达到约70%。

主要贡献

尽管近年来人们对将机器学习方法应用于慢性疼痛研究越来越感兴趣[3132],这是第一个旨在使用数据挖掘和机器学习方法定义和预测慢性疼痛波动的研究。我们的研究结果很重要,原因有几个。首先,这项研究使用了一个基于自主使用应用程序的疼痛患者的真实数据的大型数据集。这与疼痛研究人员收集数据的典型方式形成了鲜明对比,即通过随机临床试验、调查和前瞻性试验,在此过程中,研究人员积极寻找参与者。从现实世界来源收集的数据在成果研究和卫生保健提供中发挥着重要的补充作用[33].其次,MMP是一款用于监测和跟踪疼痛的数字健康应用程序,它使用的数据与移动健康领域最近的趋势是一致的,这表明类似的应用程序正在改变人们监测、管理和交流健康信息的方式。12].第三,也许是最重要的,这项研究的结果表明,通过使用1个月期间提取的数据集的特征,我们可以预测6个月后的疼痛波动,准确度相当高。虽然使用平均疼痛评分的典型方法似乎足以评估逐渐增加或减少疼痛的模式,但这些方法不适用于评估锯齿状的波动模式。在这项研究中,我们探索了一种似乎能反映一个重要波动模式的定量水平的方法。

本研究具有临床意义。如果这项关于疼痛波动的研究得到证实,并被证明是一个有效和可靠的概念,我们将能够开始识别剧烈波动的风险因素,因此,通过有效的干预措施,有可能防止剧烈疼痛波动的发展。也就是说,我们将能够预测发生高度疼痛波动的高风险患者以及这种波动的下游负面后果(例如,生活质量较差,心理社会困扰和疼痛残疾增加)。目前,MMP应用程序被用于跟踪和监测疼痛,用户能够绘制他们的疼痛评分作为时间的函数。如果疼痛波动率被证明是一个重要、有效和可靠的结构,应用程序可能会被修改,以允许用户跟踪和绘制疼痛波动率。

未来的工作

在未来,我们将专注于选择一个子集的特征,是疼痛波动的重要预测因素。减少特征集的大小将使预测模型更容易解释。此外,在与我们团队和更广泛的疼痛社区的疼痛专家协商后,我们将验证这个减少的特征集。这种经过验证的特征子集可能会导致预测模型准确性的提高,因为多余的特征被删除了。疼痛波动加剧的其余预测因素将被评估为可修改性和因果关系,并通过旨在降低疼痛波动的临床试验进行针对性研究。

致谢

QAR由Mitacs支持。JK由约克大学一级加拿大健康研究所加拿大健康心理学研究主席支持。HC由多伦多大学麻醉系颁发的优异奖资助。JMH是约克大学研究主席。

利益冲突

TJ是ManagingLife公司的创始人和首席执行官。JK和HC是ManagingLife咨询委员会的无薪成员,为产品和公司的研究计划提供指导。

  1. 陈晓明,陈晓明,陈晓明,陈晓明。手机应用对健康行为影响的系统评价。J Telemed Telecare 2016年10月18:22-30。[CrossRef] [Medline
  2. Ramirez V, Johnson E, Gonzalez C, Ramirez V, Rubino B, Rossetti G.评估患者使用移动医疗技术:初级保健诊所的观察性研究。JMIR Mhealth Uhealth 2016;4(2):e41 [免费全文] [CrossRef] [Medline
  3. Stinson JN, Jibb LA, Nguyen C, Nathan PC, Maloney AM, Dupuis LL,等。构建一个实时多维智能手机应用程序的有效性和可靠性,以评估患有癌症的儿童和青少年的疼痛。疼痛2015 12月;156(12):2607-2615。[CrossRef] [Medline
  4. Rickard N, Arjmand HA, Bakker D, Seabrook E.开发一款支持自我情感健康监测的手机应用程序:心理健康数字创新。JMIR Ment Health 2016 11月23日;3(4):e49 [免费全文] [CrossRef] [Medline
  5. Wayne N, Perez DF, Kaplan DM, Ritvo P.健康指导可降低来自较低社会经济地位社区的2型糖尿病患者的糖化血红蛋白:一项随机对照试验中国医学杂志,2015;17(10):e224 [免费全文] [CrossRef] [Medline
  6. Rollo ME, Aguiar EJ, Williams RL, Wynne K, Kriss M, Callister R,等。电子健康技术支持糖尿病自我管理中的营养和身体活动行为。糖尿病代谢综合征Obes 2016;9:381-390 [免费全文] [CrossRef] [Medline
  7. St Sauver JL, Warner DO, Yawn BP, Jacobson DJ, McGree ME, Pankratz JJ等。为什么病人看他们的医生:评估最普遍的情况在一个确定的美国人口。Mayo clinic Proc 2013 Jan;88(1):56-67 [免费全文] [CrossRef] [Medline
  8. Rahman QA, Janmohamed T, Pirbaglou M, Ritvo P, Heffernan JM, Clarke H,等。用户参与移动应用程序的模式,管理我的痛苦:数据挖掘调查的结果。JMIR Mhealth Uhealth 2017年7月12日;5(7):e96 [免费全文] [CrossRef] [Medline
  9. Pagé MG, Romero Escobar EM, Ware MA, Choinière M.预测疼痛患者参加三级多学科疼痛治疗中心的治疗结果:疼痛轨迹方法。Can J Pain 2017 8月4日;1(1):61-74。[CrossRef
  10. 皮莱·里德尔R,弗洛拉·DB,史蒂文斯SA,史蒂文斯B,科恩LL,格林伯格S,等。婴儿急性疼痛反应的变异性被平均疼痛反应所掩盖。疼痛2013年5月;154(5):714-721。[CrossRef] [Medline
  11. Rahman QA, Janmohamed T, Azam MA, Clarke H, Heffernan JM, Ritvo P,等。F1000research。预测用户未来的疼痛体验,基于管理我的疼痛,一个移动健康应用程序的URL:https://f1000research.com/posters/7-967[访问时间:2018-11-01][WebCite缓存
  12. Worley MJ, Heinzerling KG, Shoptaw S, Ling W.慢性疼痛患者疼痛波动和处方阿片类药物成瘾治疗结果。Exp clinin Psychopharmacol 2015 Dec;23(6):428-435 [免费全文] [CrossRef] [Medline
  13. Worley MJ, Heinzerling KG, Shoptaw S, Ling W.慢性疼痛严重程度的波动和变化预测处方阿片类药物成瘾的治疗结果。成瘾2017年7月;112(7):1202-1209 [免费全文] [CrossRef] [Medline
  14. Bélanger C, Blais Morin B, Brousseau A, Gagné N, Tremblay A, Daigle K,等。当人们对不确定性高度不耐受时,不可预测的疼痛时间会导致更大的疼痛。Scand J Pain 2017 10月;17:367-372。[CrossRef] [Medline
  15. ManagingLife。管理我的疼痛网址:https://managinglife.com/[访问时间:2018-07-29][WebCite缓存
  16. Merskey H, Bogduk N,编辑。慢性疼痛的分类。慢性疼痛综合征的描述和疼痛术语的定义。西雅图,华盛顿州:IASP出版社;1994.
  17. Cosio FG。典型与非典型心房扑动:综述。Arrhythm Electrophysiol Rev 2017 Jun;6(2):55-62 [免费全文] [CrossRef] [Medline
  18. 考夫曼L,卢梭。在数据中发现组:聚类分析导论。霍博肯,新泽西州:Wiley-Interscience;2005.
  19. 神经性疼痛筛查问卷的开发和测试:ID pain。Curr Med Res Opin 2006八月;22(8):1555-1565。[CrossRef] [Medline
  20. Le Cessie S, Van Houwelingen CV。逻辑回归中的岭估计。应用统计1992;41(1):191。[CrossRef
  21. Tibshirani R.通过套索回归收缩和选择。中国科学院学报(自然科学版),2001;29(1):1 - 5。[CrossRef
  22. 傅建平,李志强,李志强,等。广义线性模型的正则化路径。中国经济统计2010;33(1):1-22 [J]免费全文] [Medline
  23. 李志刚,李志刚,李志刚,钱杰。2018.软件包'glmnet': Lasso和Elastic-Net正则化广义线性模型https://CRAN.R-project.org/package=glmnet[访问时间:2018-07-26][WebCite缓存
  24. 布雷曼·l·随机森林。Mach learn 2001 Oct;45(1):5-32 [免费全文] [CrossRef
  25. Cortes C, Vapnik V.支持向量网络。Mach Learn 1995 Sep;20(3):273-297。[CrossRef
  26. 张志刚,张志刚,张志刚。基于心电图的心肌分级诊断肥厚性心肌病的研究。IEEE Trans纳米生物科学2015 july;14(5):505-512 [免费全文] [CrossRef] [Medline
  27. Ellis K, Kerr J, godole S, Lanckriet G, Wing D, Marshall S.腕部和臀部加速度计预测能量消耗和身体活动类型的随机森林分类器。Physiol Meas 2014 Nov;35(11):2191-2203 [免费全文] [CrossRef] [Medline
  28. 朴娥,张海杰,南汉生。使用机器倾斜分类器和传感器数据检测脑卒中患者的神经功能缺损。J Med Internet Res 2017 april 18;19(4):e120 [免费全文] [CrossRef] [Medline
  29. 使用随机森林的患者特异性预测建模:对危重病人的观察性研究。JMIR Med Inform 2017年1月17日;5(1):e3 [免费全文] [CrossRef] [Medline
  30. Frank E, Hall MA, Witten IH。Weka Workbench。2016。WEKA工作台,数据挖掘:实用机器学习工具和技术的在线附录https://www.cs.waikato.ac.nz/ml/weka/Witten_et_al_2016_appendix.pdf[访问时间:2018-07-29][WebCite缓存
  31. 程晨,罗乔夫,韩明明,李志强,等。多元机器学习区分状态和特质神经性疼痛的跨网络动态功能连接模式。疼痛2018年9月;159(9):1764-1776。[CrossRef] [Medline
  32. 罗乔夫,程志刚,李志刚,李志刚,等。异常低频振荡反映了通过机器学习方法揭示的慢性疼痛患者的特征样疼痛评级。中华神经科学杂志2018年8月15日;38(33):7293-7302。[CrossRef] [Medline
  33. 谢尔曼,安德森,达尔潘GJ,格雷GW,格罗斯T,亨特NL,等。真实世界的证据-它是什么,它能告诉我们什么?医学杂志2016年12月8日;375(23):2293-2297。[CrossRef] [Medline


套索:最小绝对收缩和选择算子
MMP的:控制我的痛苦
支持向量机:支持向量机


G·艾森巴赫(G Eysenbach)编辑;提交23.08.18;G Page, E Park, F Li同行评审;对作者21.09.18的评论;修订版本于04.10.18收到;接受22.10.18;发表15.11.18

版权

©Quazi Abidur Rahman, Tahir Janmohamed, Meysam Pirbaglou, Hance Clarke, Paul Ritvo, Jane M Heffernan, Joel Katz。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2018年11月15日。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map