发表在19卷, 4号(2017): 4月

利用手机进行可扩展的被动睡眠监测:机遇与障碍

利用手机进行可扩展的被动睡眠监测:机遇与障碍

利用手机进行可扩展的被动睡眠监测:机遇与障碍

原始论文

1美国西北大学预防医学系行为干预技术研究中心,芝加哥,伊利诺伊州

2芝加哥康复研究所,西北大学物理医学与康复学系,芝加哥,伊利诺伊州,美国

通讯作者:

索拉博·赛伊布博士

行为干预技术中心

预防医学系

西北大学

北湖岸博士750号

鲁布洛夫大楼,10楼

芝加哥,伊利诺伊州,60611

美国

电话:1 312 503 4626

传真:1 312 908 9588

电子邮件:s-saeb@northwestern.edu


相关的文章这是更正后的版本。见更正声明://www.mybigtv.com/2017/4/e143

背景:睡眠是人们健康的一个重要方面,因此评估睡眠是一个人健康的重要指标。传统的睡眠评估方法要么耗时耗力,要么存在自我报告偏差。最近,研究人员开始使用手机来被动评估个人日常生活中的睡眠情况。然而,这项工作仍处于早期阶段,只在精心控制的环境中检查了相对较小和同质的人群。因此,在典型的使用案例中,基于移动设备的睡眠监测在多大程度上适用于更大的人群,这仍然是一个悬而未决的问题。

摘要目的:本研究的目的是评估机器学习算法在不同样本中使用移动设备检测24小时周期中主要睡眠周期的睡眠开始和结束时间的能力。

方法:我们收集了208个人的手机传感器数据以及每天自我报告的睡眠开始和结束时间(171名女性;37名男性),年龄不同(18 - 66岁;平均39.3),教育程度和就业状况,在6周内进行调查。传感器数据包括地理位置、运动、光线、声音和手机活动。没有给参与者关于手机放置的具体说明。我们使用随机森林分类器从手机传感器数据中开发个性化和全局睡眠状态预测器。

结果:使用所有可用的传感器特征,分类10分钟片段是否报告为睡眠的平均准确率为88.8%。这比单独使用一天中的时间要好一些,后者的平均准确率为86.9%。模型的准确性在参与者之间差异很大,从65.1%到97.3%不等。我们发现一些参与者的低准确性是由于两个主要因素:传感器数据缺失和误报。在对这些进行校正后,平均准确度增加到91.8%,对应于睡眠开始时间检测的平均中位数绝对偏差(MAD)为38分钟,睡眠结束时间检测的平均中位数绝对偏差(MAD)为36分钟。这些数字接近之前在更受控制的情况下的研究报告的范围。

结论:我们发现手机在典型的使用案例中提供了足够的睡眠监测,我们的方法比以前的研究更能推广到更广泛的人群。然而,在不受控制的设置中收集数据时,我们还观察到几种类型的数据工件。其中一些可以通过修正来解决,但另一些可能会对某些受试者的睡眠预测准确性施加上限。未来的研究将需要更多地关注人们在自然环境中的行为,以便开发出适用于所有人的睡眠监测工具。

医学互联网研究,2017;19(4):e118

doi: 10.2196 / jmir.6821

关键字



背景

睡眠与生活的许多方面都有内在的联系,包括身体和精神健康[1]。睡眠和健康之间的联系是双向的,睡眠障碍会给一个人的生活带来沉重的负担,而潜在的疾病可能会表现为扰乱一个人的睡眠。这些联系表现在人体健康的许多方面,从免疫和代谢影响[2作为精神分裂症、抑郁症或创伤后应激障碍等疾病过程的一部分的紊乱的睡眠模式[3.4]。因此,睡眠可以为监测、跟踪或治疗疾病过程提供一个独特的窗口,并且既是干预的目标也是干预的结果[5]。因此,监控睡眠很重要。

事实上,睡眠监测在当前的临床实践中起着至关重要的作用。多导睡眠图是诊断睡眠障碍的“金标准”,它在几个晚上的过程中监测各种信号,例如脑电图(EEG)、呼吸、肌肉和眼球运动,以产生病人睡眠模式的详细图像。6]。与门诊评估相比,门诊多导睡眠描记仪的成本更低,而且从一个人的家庭环境中获取数据可能更好地反映他们的典型睡眠模式[7]。然而,它仍然是昂贵的,耗时的,并且用于评估的工具本身可能与睡眠行为相互作用。因此,对于慢性睡眠跟踪,临床医生通常依赖于睡眠日记、问卷调查等工具[8]。这些方法有一些缺点,如患者依从性和报告偏倚[9]。如果有一种监测睡眠的方法,既没有这些缺点,又比多导睡眠描记术更容易执行,这将是临床实践和研究的福音。

随着移动电话的出现,大多数美国人现在口袋里都有一个多功能传感器平台[10]。这些设备和其他可穿戴活动传感器可用于监测一个人的行为和环境,因此,可用于监测睡眠。之前的工作已经使用这种基于移动传感器的方法来预测睡眠,准确度相对较高。一项研究预测每10分钟手机传感器数据的睡眠或清醒状态的准确率为93% [11]。另一项研究估计的睡眠时间误差为42分钟[12],随后的一项针对大学生群体的研究能够预测就寝时间,准确度为实际情况的25分钟[13]。最后,最近的一项研究表明,仅根据用户与手机的互动,就能预测睡眠或清醒状态,准确率达到89%。14]。这些方法有望在未来实现睡眠追踪;然而,在更广泛地使用它们之前,仍有大量工作要做。

一些问题削弱了将这些发现应用于一般人群的能力。首先,这项工作使用的是一小部分人群,主要是学生[12]。学生在年龄等人口统计数据和其他模式(如学校时间表)方面往往是同质的,一些证据表明,这些人口统计和生活的相似性可能会影响他们的睡眠模式[915]。其次,研究参与者通常会收到指示,比如睡觉时将手机面朝下放在床上。12或者让手机开着,睡觉的时候把它放在卧室里[11]。虽然这提高了自动化睡眠评估的可靠性,在一定程度上,人们改变了他们的日常习惯,但这意味着在野外使用这些评估的尝试可能会失败。最后,许多研究在分析中简单地排除了不服从的参与者。然而,不依从性可能与其他因素有关,例如非传统的睡眠时间表,这些因素可能会导致偏见,从而降低普遍性[13]。因此,分类器(区分睡眠和清醒状态的算法)不依赖于关于手机使用或放置的具体指令,并且可以推广到更广泛的人群,仍然需要进行测试。

本研究目的

在这项研究中,我们的目标是探索在广泛的参与者群体中使用移动设备进行睡眠跟踪。参与者从美国各地招募而来,没有年龄限制,这使得样本比以前的工作更具异质性。参与者使用他们自己的个人设备,没有任何设备使用说明,允许我们从他们自然的日常生活中收集数据。我们将使用机器学习技术来检测每个参与者的睡眠时间,并检查这些技术是否可以推广到其他参与者。总的来说,我们将评估是否,以及在多大程度上,我们可以将被动睡眠监测从正常的日常电话使用扩展到更普通的人群。


参与招聘

我们在2015年10月28日至2016年2月12日期间招募了参与者。此次招聘是与Focus Pointe Global (FPG)合作完成的,这是一家专门从事市场和科研战略以及参与者招聘和保留的公司。FPG使用互联网和定性的参与者小组作为招募的主要手段。他们给这些小组发邮件,附上筛选问卷的链接。此外,他们还打电话给内部登记处的潜在参与者。

在筛选问卷中,对感兴趣的个人进行资格筛选。符合我们研究条件的个人必须年满18岁,能够阅读和理解英语,拥有Android 4.4至5.1(由于限制可靠访问某些传感器数据的问题,不包括5.0)的手机,并且每天至少有一次3小时的WiFi连接。我们排除了被诊断患有任何精神障碍的个体,被确定不能行走超过半英里(4个城市街区),或有酒精滥用阳性筛查(酒精使用障碍鉴定测试,AUDIT []16]评分≥16),药物滥用(药物滥用筛选试验,DAST-10 [17]评分≥6),自杀意念(患者健康问卷第9项,PHQ-9 [18第9项评分≥1;贝克抑郁量表(BDI-II) [19[第9项评分≥2],或双相情感障碍(心境障碍问卷,MDQ [20.[问题1得分≥7分,问题2得分为背书,问题3得分为2或3分)。我们还排除了那些与他人共用手机的人。符合条件的参与者通过西北大学机构审查委员会批准的程序获得同意,其中包括对收集的数据的描述以及数据安全和隐私政策。我们在四组中选择了数量大致相等的参与者,因此样本中有各种各样的抑郁和焦虑症状。我们将其定义为抑郁和焦虑组(PHQ-9≥10;广泛性焦虑障碍-7项,GAD-7≥10),仅抑郁(PHQ-9≥10;GAD-7 <10),仅焦虑(PHQ-9 <10;GAD-7≥10),健康(PHQ-9 <10;GAD-7 < 10)。

每个参与者都参加了为期6周的研究。首先,FPG给参与者分配了一个研究ID。然后,参与者被要求完成一份基于网络的调查问卷,包括可能影响他们睡眠和手机使用的人口统计数据(如年龄、性别、种族和民族、居住州)和生活方面(如生活状况、就业问题、手机存放位置)。根据参与者在研究中停留的时间以及他们每天回答问卷的多少,参与者获得了25美元到270.40美元不等的补偿。

数据收集

我们收集了两类数据:手机传感器数据和生态瞬间评估(EMA)数据,其中包括每天发送给参与者的问题,询问他们昨晚的睡眠时间。我们研究中使用的传感器及其属性列于表1

表1。在我们的研究中使用的手机传感器及其属性列表。
传感器 描述
活动 由Android activity Recognition API提供的Physical activity类一个仍然,走路,跑步,倾斜,骑自行车,在车里,未知)和分类器置信度(0-100%)
光强(勒克斯)
声音 平均声强(dB)和主声频率(Hz)
屏幕 手机屏幕状态(开或关)
电池 电池状态(不收费通过电源线充电USB充电b
全球定位系统(GPS)c位置 地理纬度和经度
无线网络 MACd设备当前连接到的接入点的地址
通信事件 联系人姓名、联系号码、呼出或呼入电话、呼出或呼入短信e
一天中的时间 一天中的时间

一个API:应用程序接口。

bUSB:通用串行总线。

cGPS:全球定位系统。

dMAC:媒体访问控制。

e短信:短消息服务。

EMA数据每天收集一次。每天,在当地时间早上9点,调查问卷在每个参与者的手机上发布,询问他们昨晚睡觉的时间,或者睡眠开始时间他们醒来的时间,或者睡眠结束时间。参与者可以立即回答问题,也可以将回答推迟到当天晚些时候。如果他们在当晚12点前没有回答问题,调查问卷就会消失;第二天,研究人员发布了一份新的问卷,询问他们前一天晚上的睡眠开始和结束时间。睡眠时间定义为从睡眠开始时间到睡眠结束时间的时间。

我们使用了Purple Robot [21]来收集传感器和EMA数据。Purple Robot是一个多用途、开源的Android应用程序,是为我们基于手机的行为感知研究而开发的[22],并适应了这项研究。该应用程序从手机上可用的传感器收集数据,最初将数据存储在设备本地,然后在网络连接可用时传输数据。这允许在各种无线连接场景中收集数据,并确信间歇性网络访问不会影响收集数据的性质、质量或数量。

紫色机器人在存储和传输前对敏感信息进行了匿名化处理。具体来说,它使用了标准的MD5哈希算法[23]来匿名化通信事件传感器中的联系人姓名和号码(参见表1),以及参与者的id。一旦数据被匿名化,它就被本地存储在设备上,通过加密的、有密码保护的隧道传输到安全的数据收集服务器,然后从设备上删除。只有在参与者使用的唯一标识符和用于加密数据的研究特定密钥已知的情况下,驻留在服务器上的手机数据才能与研究期间收集的其他信息相关联。此外,只有具有适当证书的个人才能使用这些工具。整体而言,这些保安措施有助保障参加者的私隐,特别是GPS和MAC地址等传感器资料,以免个人资料外泄。

最初的测试表明,声音传感器(麦克风)在相当程度上消耗电池电量,这可能会干扰我们的数据收集并使参与者感到不满。因此,我们每5分钟采样一次麦克风,每次30秒。然后,紫色机器人声传感器报告了30秒内的平均声幅(dB)和主导声频率。主频率是通过对信号进行快速傅里叶变换(FFT)并找到其最大值的频率来计算的。使用这个程序,我们大大降低了紫色机器人的电池功耗。

特征提取

在使用收集到的手机传感器数据开发睡眠检测算法之前,我们提取了它们的属性,或者特性。为了提取特征,我们首先将所有传感器数据分成10分钟长的窗口。然后,从每个窗口提取22个不同的特征,如所示表2。选择10分钟是为了与之前的研究保持一致[11]。在我们的特性集中(表2),我们加入了以前被证明有用的功能[11-13]。对于位置特征,位置偏差,位置变化,我们将以经纬度为单位的GPS坐标转换为以公里为单位的二维坐标,方法见[24],然后提取特征。此外,我们还将一天中的时间作为一个特征,因为我们假设单独的时间是一个人是睡着还是醒着的有力预测指标。

为了处理缺失的传感器数据,我们针对不同的传感器使用了不同的策略。对于通信事件和屏幕传感器,我们在没有数据时使用0值,因为在这些情况下,没有数据意味着没有事件。对于活动传感器,由于Android的活动识别API(应用程序接口)在手机长时间处于同一状态时不会生成新的样本,所以我们用最后一个包含数据的窗口的活动样本来填充缺失点。对于其余的传感器,如果窗口为空,则相应的特征设置为“非数字”().

表2。研究中使用的特征列表。
功能 描述
静止 的百分比仍然活动
光功率 平均光强
光范围 光强范围
光峰态 光强度峰度
光线的变化 < (lt) - - -lt1))2/lt-1)2>
L (t):时间光强t,和<。>denotes the average over time.
音频功率 平均音频功率
音频最小值 最小主导音频
音频最大值 Max。显性音频
屏幕上的活动 除持续时间少于30秒的事件外,屏幕开或关事件的次数
位置偏差 √(σ2纬度+σ2液化天然气
在哪里纬度液化天然气分别是以公里为单位的纬度和经度值。
位置变化 纬度和经度之间变化的平均值(定义为光的变化)
电池充电 1如果电池状态模式为充电;0,否则
电池USB一个 连接USB时为1,否则为0
电池级 电池平均电量(0-100)
无线网络 WiFi MAC模式b地址(通过对字符求和转换为整数)
通过电话或短信联系的最后联系人姓名(加密)c
最后的数量 通过电话或短信联系的最后电话号码(加密)
调用 通话次数
短信 短信数量
即将离任的电话 呼出电话数
即将离任的短信 外发短信数
一天中的时间 一天中的时间,以小时为单位(0-24),定义为窗口中的中点

一个USB:通用串行总线。

bMAC:媒体访问控制。

c短信:短消息服务。

睡眠检测

概述

我们训练算法,通过从每个参与者的手机中提取的传感器特征来检测他们的睡眠开始和唤醒时间。这些算法,也叫分类器,确定从10分钟的传感器数据中提取的每个特征样本是来自睡眠状态还是参与者报告的清醒状态。经过训练,分类器能够预测给定特征样本的状态。

睡眠检测程序分为两个阶段:首先,我们使用随机森林估计一个特征样本来自睡眠状态或清醒状态的概率。然后,隐马尔可夫模型(HMM)利用这些概率的序列来确定参与者的状态实际上是睡眠还是清醒。下面,我们将对这两个阶段进行更详细的描述。

估计状态概率

为了估计每个特征样本处于清醒或睡眠状态的概率,我们使用了称为随机森林的决策树集合[25]。随机森林中的每棵树都对特征样本的类别进行预测或投票。随机森林通过对单个树的预测求平均值来计算类概率。在这项研究中,我们使用了50棵树。

我们训练随机森林来估计状态(醒着的睡眠)基于从最近5个窗口提取的最后5个特征集的概率。训练时,我们采用装袋法[26],它随机地对数据集进行替换,为每棵树创建一个训练集。这样,每个树只观察数据集的一部分。此外,树中的每个决策节点从22个特征中随机抽取5个样本,并根据Fisher信息增益准则找到最佳特征和最佳分割值。因此,每棵树只观察到数据样本和特征的一部分。这使得随机森林不容易过度拟合,并且是对未知数据进行泛化的更好候选[27]。

确定状态

尽管我们的随机森林分类器使用最后5个特征样本来提供当前样本的类别概率,但它们忽略了周围样本的类别概率。这忽略了睡眠和清醒状态随时间缓慢变化的事实。事实上,从过渡醒着的睡眠反之亦然通常在给定的24小时内发生一次。因此,在计算任意给定样本的类别概率时,考虑相邻样本的类别概率是很重要的。

来确定睡眠醒着的状态,我们首先使用中值过滤器来减少类概率快速变化的影响。中值滤波器用的中值替换每个样本w邻近样本。这里,我们设置w=21,对应数据中的210min。重新计算概率后,我们使用0.5的阈值来确定每个样本的类别(概率≤0.5:醒着的;概率> 5:睡眠).通过这种方式,中值过滤器捕获状态概率的较慢动态。

在重新计算状态概率之后,下一步是确定状态。为此,我们使用HMM,这是一种贝叶斯统计模型,它可以推断一个未观察到的变量的状态,我们研究中的睡眠状态,给定一组观察值,这里是由中值过滤器估计的状态集。HMM使用一组称为转移概率的参数,它表示类之间转移的概率。因为在每个24小时周期中通常只有一次从睡眠到清醒和一次从清醒到睡眠的转变,并且考虑到我们在每个24小时周期中有144个特征样本,我们将转变概率设置为:

T(sleep-awake)=T(awake-sleep)= 1/144

T(睡)=T(awake-awake)= 143/144

培训和交叉验证

我们以两种不同的方式训练睡眠检测模型:(1)全局模型和(2)个人模型。前者在来自多个参与者的所有数据上进行训练,并对其余数据进行交叉验证,而后者在不同时间对来自同一参与者的数据进行训练和交叉验证。

对于全局模型,我们使用了一种主题明智的10倍交叉验证方法。我们首先把参与者分成10个几乎相等、互不重叠的组。然后,我们在除一个集之外的所有集上训练模型,并在剩下的集上交叉验证它。我们重复这个过程10次,以便所有参与者都被用于交叉验证。

为了训练个人模型,我们将每个参与者的数据分成3个不重叠的折叠。然后,我们在2个折叠上训练模型,并在剩下的折叠上验证它们。我们重复这个过程3次,直到所有的折叠都被用于验证。将分类准确率在折叠间取平均值,表示该主题的分类准确率。


参与者

总共有208名符合条件的参与者被招募参加这项研究。一名参与者没有在他们的手机上安装软件,因此被排除在分析之外。在纳入分析的207名参与者中,82.6%(171/207)为女性,17.4%(36/207)为男性。年龄在18 - 66岁之间,平均39.3岁(SD 10.3)。他们代表了美国地理上不同的抽样,如图图1。参与者并没有完全代表美国的种族和民族多样性,78.7%(163/207)的白人,11.6%(24/207)的非洲裔美国人,2.4%(5/207)的亚洲人,1.4%(3/207)的印第安人,剩下的4.3%(9/207)的参与者是两个或两个以上种族的组合。结果发现,1.4%(3/207)的参与者倾向于不指定种族,9.2%(19/207)的参与者将西班牙裔作为他们的种族。然而,这是一个人口统计学和地理位置多样化的群体。

筛查过程中问卷的结果为:药物滥用得分(DAST-10)平均为0.56 (SD 1.06),酒精滥用得分(AUDIT)平均为3.66 (SD 3.35),抑郁得分(PHQ-9)平均为9.72 (SD 5.10),焦虑得分(GAD-7)平均为9.01 (SD 5.41)。正如预期的那样,药物和滥用得分很低,因为我们排除了得分高的个体。然而,抑郁和焦虑得分分布广泛,正如招募过程中所打算的那样。

参与者的教育背景多样化:1.9%(4/207)的参与者有高中学历,12.1%(25/207)有高中学历,35.3%(73/207)有大专学历,13.5%(28/207)有大专学历,23.6%(49/207)有学士学位,11.1%(23/207)有硕士学位,2.4%(5/207)有专业博士学位。

最后,我们询问了参与者关于他们生活中可能影响睡眠检测的方面的问题。在207名参与者中,14.5%(30/207)独居,85.0%(176/207)与他人住在一起,0.5%(1/207)没有具体说明。在回答就业状况问题时,61.4%(127/207)有工作,20.8%(43/207)失业,8.2%(17/207)有残疾,无法工作,1.9%(4/207)退休,7.7%(16/207)没有说明他们的就业状况。在127名受雇的参与者中,78.0%(99/127)有一份工作,18.1%(23/127)有两份工作,3.1%(4/127)有三份工作,0.8%(1/127)有四份工作。调查发现,87.4%(181/207)的参与者提到他们睡觉时把手机放在卧室里,而12.6%(26/207)的参与者把手机放在另一个房间。调查还发现,58.5%(121/207)的参与者表示,他们与他人合住卧室,而41.5%(86/207)的人独自睡在卧室里。正如所料,发生了各种各样的生活状况。

除了了解参与者的生活之外,收集这些数据的目的是通过将它们添加到传感器特征中作为输入来辅助睡眠检测算法。然而,我们最初的测试表明,它们对检测睡眠没有帮助,因此我们没有在后来的分析中使用它们。

图1所示。参与者在地图上的位置,用红点表示。我们在每个参与者的位置中添加了一个小的随机值,该值取自地理距离平均值为零、标准差为1.5 km的高斯分布,因此无法从图中提取他们的确切坐标。
查看此图

数据的特点

在对数据的初步分析中,有两个明显的问题需要解决。首先,一些参与者在研究期间更换了他们的设备,其中许多人同时报告使用多个设备。我们通过追踪参与者手机的MAC地址来检测他们手机的变化。在207名参与者中,有21人在研究期间更换了手机。当参与者同时使用多个设备时,我们使用来自第一个设备的数据,直到没有来自该设备的EMA数据,然后切换到第二个设备。

传感器和EMA数据中也存在不一致的值,需要纠正或删除。首先,由于手机型号的不同,一些参与者的时间戳以不同的单位存储。我们将这些时间戳的单位转换为所有其他参与者使用的秒。睡眠时间也有超出范围的数值。例如,在某些情况下,我们有消极的睡眠开始或结束时间;这些伪影在207个受试者中的14个被观察到,每个受试者有1到5个错误报告。在分析之前,我们从数据集中删除了这些实例。经过这一处理,我们的数据集由207名受试者和总共10649份报告组成,允许对睡眠检测进行广泛的表征。

对于EMA数据,有极高的依从率,导致数据丢失很少。在207名参与者中,10.6%(22人)在6周结束前停止提供标签。然而,许多人在6周结束后继续发送数据,13.0%(27/207)提供超过60天的数据。参与者在研究中的登记情况见图2。在我们的长期研究中招募这么多的受试者是令人惊讶的。

图2。参与者在研究中的登记,根据登记时间排序。每个点代表我们从参与者那里收到的生态瞬时评估(EMA)报告样本。4个招聘浪潮在4个开始时间集群中是明显的。垂直的白色条纹反映了一天中人们不太可能完成EMA报告的时间(例如,夜间)。天数从11天到137天不等,每个参与者平均52.9天。
查看此图

睡眠检测结果

仅对传感器特征进行训练的模型的平均预测准确率约为81.8% (95%CI 81.12-82.48),在特征集中增加一天中的时间将该准确率提高到88.8% (95%CI 88.41-89.19;图3).然而,这种准确率只比只接受过准时训练的模型(86.9%;95%可信区间86.68 - -87.12)。不同科目的准确度差异很大,介于65.1%至97.3% (图3).重要的是,这些结果与一些控制良好的研究结果一致,而另一些研究结果则明显更糟。

我们还比较了个人模型(由同一参与者训练的模型进行预测)和全局模型(由其他参与者的数据训练并预测单个参与者的模型)。图4显示个人模型和全球模型精度之间的相关性。80.2%(166/207)的参与者认为个人模型表现更好;然而,个人模式和全球模式之间的差异相对较小。

图3。睡眠检测结果。(a)仅用时间特征、基于传感器的特征和所有特征训练的全局模型和个人模型的预测精度(误差)(参见表2).柱状图表示平均值,误差柱状图表示95% CI。(b)在所有参与者身上训练的全局模型和个人模型的准确性分布。
查看此图
图4。参与者的全球和个人模型的准确性。每个点代表一个参与者。灰线(y=x)上方的点表示个人模型比全局模型表现更好的参与者,下面的点表示相反的情况。个人和全球模式精度之间的相关性很高(r=.685;P <措施)。
查看此图

分类器在哪里失败?

预测准确性在参与者之间的巨大差异使我们进一步探索为什么预测对特定参与者失败。在这里,我们研究了数据质量的各种指标,并研究了它们与分类精度的关系。目的是找出是否存在导致分类器失败的特定数据质量问题,以及我们是否能够通过解决这些问题来提高分类精度。

我们发现了两个主要的数据质量问题:缺失数据和错误报告。在下文中,我们将逐一研究这些问题。

缺失的数据

我们估计了所有参与者的传感器和EMA数据中缺失数据点的比例,并评估了这些数据点与分类精度之间的关系。尽管这种关系很复杂图5我们发现,传感器或EMA数据缺失比例较大的参与者通常具有较低的分类准确性。因此,缺少数据似乎是分类器失败的一个主要原因。

如果数据缺失是主要原因,那么下一个问题就是传感器数据中的样本缺失是什么时候发生的。我们估计了睡眠状态样本和清醒状态样本缺失的比例,并计算了它们的比例。作为图6从图中可以看出,这个比值对于单个传感器和所有传感器都明显高于1。对于所有的传感器来说,睡眠时丢失样本的比例几乎是清醒时的两倍。

图5。分类精度对缺失数据的依赖。(a-b)全球(a)和个人(b)模型的精度与缺失传感器数据的比例。在这里,我们排除了活动、通信事件和屏幕状态传感器,因为它们的缺失并不意味着丢失数据。(c-d)全球(c)和个人(d)模型的准确性与缺失生态瞬时评估(EMA)数据的比例。在所有四种情况下,分类精度与缺失数据比例之间存在微弱但显著的反比关系。ρ为斯皮尔曼等级相关系数,负值表示负相关关系。一颗星表示P<的显著性。在P<。3例P< 0.001。
查看此图
图6。在所有参与者中,睡眠状态下缺失传感器数据的比例除以清醒状态下缺失传感器数据的比例。
查看此图
错误的报道

为了调查误报的可能性,我们观察了睡眠开始和结束时间的分布。虽然睡眠结束时间的分布看起来几乎是正常的,但睡眠开始时间似乎在中午12点到下午3点之间有一个异常(图7).一种可能的情况是,参与者错误地标注了“上午”和“下午”的时间,尤其是在午夜(凌晨12点)。或者,这些可能是短暂的中午小睡,而不是前一天晚上的睡眠。为了调查哪种情况更有可能发生,我们还绘制了睡眠开始时间与睡眠持续时间(图7).如图所示,在中午12点到下午3点之间有一个明显的睡眠开始时间集群,这与异常长的睡眠持续时间(大约15小时)有关。因此,这些数据点不能代表中午小睡,而更有可能是由于在报告睡眠开始时间时混淆了“上午”和“下午”。

数据质量问题及其可能原因的摘要见表3

表3。总结了可能导致分类器失败的低数据质量的原因。
数据源 问题 可能的原因
传感器 失踪的样品 手机关机,电量不足
传感器 失踪的样品 紫色机器人,操作系统或硬件故障
传感器 超出范围的值 设备型号和操作系统的差异
教育津贴一个报告 失踪的样品 未报告的参与者
EMA报告 异常值 参与者误报

一个EMA:生态瞬时评价。

除了缺失数据和误报外,我们还调查了有抑郁或焦虑症状的参与者与没有症状的参与者之间的分类准确性是否不同。我们比较了四组参与者:不抑郁和不焦虑,抑郁和不焦虑,不抑郁和焦虑,抑郁和焦虑。我们没有发现任何这些组之间的分类精度有显著差异,无论是全局模型还是个人模型。

图7。(a)睡眠开始和结束时间的分布。对于睡眠开始时间,在中午12点到下午3点之间存在异常,这可能是由于参与者混淆了“上午”和“下午”的时间。(b)睡眠开始时间与睡眠持续时间,显示出一个明显的集群(中上)与睡眠开始时间在中午12点到下午3点之间和异常长的睡眠持续时间(>15小时)相关。
查看此图

提高数据质量

在调查了一些可能导致分类器在某些情况下失败的数据质量问题之后,我们尝试修复这些问题并观察对分类性能的影响。具体来说,我们采取了两个步骤:

  1. 当报告的睡眠开始时间在中午12点到下午3点之间,并且相关的睡眠持续时间超过15小时时,我们将“下午”改为“上午”。
  2. 我们删除了平均超过50%的传感器样本缺失的参与者。这包括20.8%(43/207)的参与者。

为了估计缺失传感器数据的比例,我们排除了通信事件和屏幕状态传感器,因为它们的缺失并不一定意味着缺失样本。在每一步之后,我们训练并交叉验证了全局和个人睡眠预测模型。

改进数据质量后的分类器性能结果见图8。如图所示,修正报告时间大大提高了全局和个人分类器的准确率,分别达到86.7%和91.5%。剔除大量缺失数据的参与者进一步提高了这些准确性,分别达到87.6%和91.8%,尽管程度略小。值得注意的是,全局仅时间模型和仅传感器模型具有相似的性能,其性能远低于全局全特征模型的性能。然而,对于个人模型,仅时间模型的精度仅略低于同时训练传感器特征和时间的模型的精度。

由于缺失传感器数据的数量与分类精度呈负相关,我们推测添加一个额外的特征来编码缺失传感器数据的数量可能是有益的。然而,包括这些额外的特征并没有提高分类器的准确性。

图8。(a-b)质量改进后的睡眠检测结果,对于全局(a)和个人(b)模型。首先,我们修正了报告的睡眠开始和结束时间,这导致所有模型的精度显着提高(红色)。然后,我们删除了传感器数据丢失超过50%的参与者。这包括43名参与者。结果精度(蓝色)对仅传感器模型显著提高,但对其余模型没有变化。
查看此图

睡眠开始和结束时间的预测

利用我们对睡眠状态的预测,我们可以计算睡眠开始和结束时间以及睡眠持续时间的值,这对监测临床过程很有用[5]。我们找到了与每个报告的睡眠周期(来自个人模型)最接近的预测睡眠周期,并检查了预测睡眠周期开始和结束以及睡眠周期总持续时间的bin索引错误。这些误差都是在分类数据上计算的,因此我们的最小分辨率是分类大小(10分钟)。我们能够以大致相同的精度估计睡眠开始和结束时间,参与者的平均绝对偏差(MAD)分别为43分钟和38分钟(图9).我们还能够以类似的准确性预测睡眠时间,参与者的平均睡眠时间为58分钟(图9).这些误差的分布都相对偏右,这表明对少数参与者的错误预测会严重影响表现。

从睡眠特征的角度来看这些错误可以帮助我们进一步阐明我们在哪里出错。我们发现,平均睡眠时间越长或越短的参与者在估计睡眠时间时误差越大(图10).具体来说,我们倾向于高估短睡眠时间的持续时间,而低估长睡眠时间的持续时间。即使在个别模型中也会出现这种情况,这表明,在估计极端睡眠时间(或那些报告极端睡眠时间的人的睡眠)的持续时间时,可能存在一些内在的困难,而不是回归到全球均值。我们检查了每个参与者的“异常值”(与参与者的平均睡眠时间大于或小于两个标准差(sd))和“典型”睡眠时间(图10).我们发现,对于89%的参与者,我们可以在一小时内估计出典型睡眠时间的持续时间。有趣的是,我们可以对38.2%的参与者做同样的事情,甚至对他们的异常睡眠时间,并且可以估计62%的参与者在2小时内的异常睡眠时间,这表明,虽然异常时间段比大多数异常时间段更难预测,但我们在所有异常时间段上的表现并不差。这表明在估计特定参与者的睡眠时间方面存在困难,这可能说明在估计大型异质人群的行为方面存在独特的挑战。

图9。(a)在所有缺失数据小于50%的参与者中,预测睡眠开始时间与真实睡眠开始时间的中位数绝对偏差(MAD)分布。(b)数据缺失率低于50%的所有参与者预测睡眠结束时间与真实睡眠结束时间的MAD分布。黑线表示这些参与者的平均MAD。(c)在所有数据缺失率小于50%的参与者中,预测睡眠时间与真实睡眠时间的MAD分布。(a)-(c)中的黑线表示所有参与者的平均MAD。
查看此图
图10。(a)平均睡眠时间与估计睡眠时间的平均误差之间的关系。点表示缺失数据小于50%的个体参与者,黑线表示最小二乘回归。(b)“离群值”(蓝色)和“非离群值”(红色)睡眠持续时间的平均睡眠持续时间估计误差在缺失数据小于50%的参与者中的分布。异常睡眠时间被定义为比参与者的平均睡眠时间短或长两个标准差,非异常睡眠时间在这些范围内。
查看此图

主要研究结果

这项研究是初步原理验证研究的第一步,这些研究显示了基于手机的睡眠检测技术的可行性,并在普通人群的自然日常生活环境中实施。我们将手机传感器数据分成10分钟长的窗口,并从中计算出一些特征。然后,我们训练由随机森林和hmm组成的模型来预测每个窗口的状态(睡眠醒着的).尽管对所有特征进行训练的全局分类器能够以87.6%的准确率预测睡眠状态,但对每个参与者分别进行训练的个人模型的准确率(显着)更高,达到91.8%。这些数字接近先前在更严格控制的环境下的研究报告的范围[11-13]。因此,我们的研究证实,通过移动设备跟踪睡眠是一种可行的范例,并且当在日常生活中使用时,它可以推广到广泛的人群。

有趣的是,仅在一天的时间上训练的个人模型的性能仅略低于在所有特征上训练的模型。这表明,一个人的睡眠模式不会每天都发生巨大的变化,他们在特定的时间是睡着还是醒着,仅凭时间就可以很准确地预测出来。这是一个重要的结果,因为它表明,由时间模型定义的基线性能明显高于67-71%的概率水平,这是通过假设个体的平均睡眠持续时间在6小时到7小时之间来计算的。因此,当我们报告睡眠检测算法的准确性时,我们有必要将它们与仅根据时间训练的模型的准确性进行比较。这种比较使得评估未来的睡眠检测算法更加容易。

限制

在解释我们的研究结果时,应该考虑到一些限制。首先,自我报告的睡眠时间本身并不一定准确。事实上,我们观察到,许多参与者误报了他们的睡眠开始时间;当我们修正这些报告时,睡眠检测算法的准确性大大提高了。除了这类可以直接解决的问题外,自我报告可能在许多其他方面是不准确的。自我报告的睡眠开始时间通常是有偏差的,人们倾向于高估自己的睡眠时间[28]。因此,我们计算的准确度是相对于一个不准确的测量。无论是在这里还是在其他睡眠检测工作中,计算算法的真正准确性可能都很困难。

其次,HMM的参数是在24小时内睡觉和醒来只发生一次的假设下调整的。尽管这个假设对大多数人来说是正确的,但也有一些情况违背了它。首先,大多数老年人睡眠不完整[29在此期间,他们可以保持清醒几个小时,然后再次入睡。一些睡眠模式障碍,如失眠或睡眠呼吸暂停,会导致夜间睡眠断断续续,白天嗜睡[30.],可能会影响白天的行为和睡眠模式。在更极端的情况下,如梦游,患者表现出与白天日常活动相似的夜间行为[31]。其次,我们没有询问我们的参与者是否每天都在不同的班次工作,并且报告时间中看到的一些异常可能是由于轮班工作造成的。最后,很多人,几乎三分之一的美国人,在白天小睡。32]。因此,在许多情况下,一个人在24小时内只睡一次的假设是不正确的,进一步了解人群和个人的睡眠习惯将有必要建立更准确的模型。

第三,我们不知道这些参与者中是否有人或哪些人患有睡眠障碍。睡眠障碍患者在生活的许多方面可能与健康人群有很大不同,这可能会影响手机传感器功能与睡眠模式之间的关系。例如,睡眠紊乱的人报告身体功能、社交功能、活力和总体健康状况的质量较低[33]。这些差异可能会导致个人与手机互动方式的差异,从而影响睡眠检测的数据和算法。因此,在将这些结果推广到非典型睡眠模式时必须谨慎。

最后,我们的参与者并不是美国普通人群的完美样本。首先,接近82.6%的参与者是女性。其次,我们只招募了手机上有WiFi上网的参与者。这是很重要的,因为高频传感器数据可以迅速积累在手机上并达到存储极限。使用WiFi来卸载数据既节能又免费,而不像使用蜂窝网络那样会耗尽电池电量并产生数据使用费。出于这个原因,我们招募了手机上有可靠互联网接入的参与者。然而,由于这种限制,收入较低的参与者可能被排除在我们的研究之外,他们可能有不同的睡眠模式和行为。第三,21名参与者(10%)在研究期间更换了他们的手机。虽然这可能是偶然的,但也可能与节日有关,在节日期间,人们可能会收到手机作为礼物。最后,我们特别排除了对几种可能改变睡眠模式的严重精神疾病筛查呈阳性的参与者。 Thus, it is possible that any or all of these biases reduce the generalizability of these results.

与前期工作比较

我们在两个重要方面扩展了之前的研究。首先,与以往的研究相比,我们的样本量很大,研究参与者在年龄、教育水平、就业和地点方面更加多样化。尽管更多样化的样本可能为机器学习提供更好的训练数据集,但它引入了一些问题。首先,多样性意味着行为的更多可变性。不像大学生已经参加了许多先前的研究[1113],一般人群中的参与者不一定会以有助于睡眠检测算法的方式使用手机。例如,手机使用情况是检测睡眠状态的一个非常有用的特征,因为大多数人整天都在频繁地使用手机。然而,不同年龄段的人使用手机的方式是不同的。在18至29岁的美国人中,22%的人每隔几分钟就使用一次手机,而在50至64岁的老年群体中,这一比例仅为6%。34]。因此,一个大而多样的样本给睡眠检测算法带来了新的挑战。

我们扩展之前研究的第二种方式是,我们没有给参与者任何关于手机放置的指示。例如,这意味着参与者可以在睡觉时关掉手机,或者不插电,这样手机就没电了。结果,我们发现睡眠时丢失的数据点比清醒时多得多。然而,这并不是挑战睡眠检测算法的唯一情况。参与者也可以在白天把手机放在无人看管的地方,或者睡觉时把手机放在另一个房间。尽管如此,分类器的性能接近,尽管略差,比以前的研究报告在更多的控制设置。

结论

随着移动电话技术的进步,我们预计我们在这项研究中遇到的许多问题将会消失。例如,我们遇到的一些技术问题将通过更长的电池寿命、标准化的硬件和改进的应用设计得到改善。然而,许多其他限制并不能通过推进底层技术来解决。在这里,我们遇到了几个障碍,从误导算法的行为,到典型模型无法解释的睡眠模式,再到由于自我报告中的错误和偏见而不是技术导致的不准确的基础事实数据。虽然这些障碍在睡眠检测算法的演示过程中通常不会遇到,但它们很可能被证明是广义睡眠跟踪的障碍。我们认为,基于手机的睡眠检测技术必须解决这些问题,才能成为人们自然生活环境中的可靠工具。

致谢

本研究由以下美国国立卫生研究院资助:5R01NS063399, P20MH090318和R01MH100482。作者SMS由国家精神卫生研究所的研究基金K08MH102336支持。

利益冲突

没有宣布。

  1. 克里斯托的广告。睡眠和精神疾病:未来方向。精神病学杂志2006;12;29(4):1115-30;[CrossRef] [Medline]
  2. Bryant PA, Trinder J, Curtis N.生病和疲劳:睡眠对免疫系统有重要作用吗?中华免疫学杂志,2004;4(6):457-467。[CrossRef] [Medline]
  3. Gregory AM, Rijsdijk FV, Lau JY, Dahl RE, Eley TC。睡眠问题与抑郁症状之间纵向联系的方向:一项对8岁和10岁双胞胎的研究。睡眠2009;32(2):189-199 [j]免费全文] [Medline]
  4. 王晓明,王晓明,王晓明,等。创伤后应激障碍的睡眠机制研究进展。睡眠医学杂志2008;12(3):185-195 [j]免费全文] [CrossRef] [Medline]
  5. Dahl RE, Lewin DS。青少年健康的途径,睡眠调节和行为。青少年健康杂志2002年12月;31(6增刊):175-184。[Medline]
  6. Penzel T, Conradt R.基于计算机的睡眠记录与分析。中华睡眠医学杂志,2000,4(2):131-148。[CrossRef] [Medline]
  7. McCall WV, Erwin CW, Edinger JD, Krystal AD, Marsh GR.动态多导睡眠图:技术方面和规范价值。中华临床神经生理学杂志1992,9(1):68-77。[Medline]
  8. Carney CE, Buysse DJ, Ancoli-Israel S, Edinger JD, Krystal AD, Lichstein KL等。共识睡眠日记:标准化前瞻性睡眠自我监测。睡眠2012 Feb 01;35(2):287-302 [j]免费全文] [CrossRef] [Medline]
  9. Lauderdale DS, Knutson KL, Yan LL, Rathouz PJ, Hulley SB, Sidney S,等。客观测量中年早期成年人的睡眠特征:CARDIA研究。中华流行病学杂志,2006;32(1):1 - 5。[CrossRef] [Medline]
  10. Rainee L, Zickuhr K.皮尤研究中心。:皮尤研究中心;2015.美国人对手机礼仪的看法http://www.pewinternet.org/2015/08/26/americans-views-on-mobile-etiquette/[访问日期:2017-03-30]WebCite缓存]
  11. 闵建军,Doryab A, Wiese J, Amini S, Zimmerman J,洪。辗转反侧:智能手机是睡眠质量探测器。2014年发表于:ACM SIGCHI计算系统中人因会议;2014年4月26日- 5月1日;加拿大多伦多,第477-486页。
  12. 陈忠,林敏,陈峰,Lane ND, Cardone G,王荣,等。使用智能手机进行不显眼的睡眠监测。2013年在第七届医疗普及计算技术国际会议和研讨会上发表。IEEE;2013;威尼斯,意大利145-152页。
  13. 王锐,陈峰,陈志,李涛,Harari G, Tignor S,等。大学生生活:评估大学生使用智能手机的心理健康、学习成绩和行为趋势。2014年发表于:ACM普适与泛在计算国际联合会议论文集。ACM;2014;西雅图,华盛顿特区,第3-14页。
  14. 刘建军,刘建军,刘建军。基于贝叶斯模型的智能手机睡眠模式研究。科学通报,2017;12(1):e0169901。
  15. 王晓明,王晓明,王晓明,等。健康个体从童年到老年的定量睡眠参数的meta分析:在整个人类生命周期中形成规范的睡眠值。睡眠2004十一月01;27(7):1255-1273。[Medline]
  16. Bohn MJ, Babor TF, Kranzler HR。酒精使用障碍鉴定试验(审核):确认在医疗环境中使用的筛查工具。[J]中国生物医学工程学报(英文版);2009;31(4):423-432。[Medline]
  17. 斯金纳公顷。药物滥用筛选试验。心理学报;2009;7(4):363-371。[Medline]
  18. 克伦克K,斯皮策RL,威廉姆斯JB。PHQ-9:一个简短的抑郁症严重程度测量的有效性。实习医学杂志2001;16(9):606-613 [J]免费全文] [Medline]
  19. 贝克AT,舵手RA,布朗GK。贝克抑郁量表ii。见:《第十四届心理测量年鉴》。圣安东尼奥,得克萨斯州:心理公司;2001.
  20. Hirschfeld RM, Williams JB, Spitzer RL, Calabrese JR, Flynn L, Keck PE,等。双相情感障碍筛查工具的开发与验证:情绪障碍问卷。中华精神病学杂志;2000;157(11):1873-1875。[Medline]
  21. CBITs TECH 2015。紫色机器人网址:https://tech.cbits.northwestern.edu/purple-robot/[访问日期:2017-03-31][WebCite缓存]
  22. Saeb S, Zhang M, Karr CJ, Schueller SM, Corden ME, Kording KP,等。手机传感器与日常生活行为中抑郁症状严重程度相关的探索性研究。医学互联网研究,2015;17(7):e175 [J]免费全文] [CrossRef] [Medline]
  23. 高级加密标准(AES)。网络安全2009;2009:8-12。
  24. Barnett I, Onnela JP。出来了。2016.从丢失数据的GPS轨迹推断移动性措施https://arxiv.org/pdf/1606.06328.pdf[访问日期:2017-04-10][WebCite缓存]
  25. 布雷曼L.随机森林。机器学习;2001;45(5):5-32。
  26. 布列曼L.套袋预测。机器学习1996;24(2):123-140。
  27. 刘建军,刘建军。微软。2011。用于分类、回归、密度估计、流形学习和半监督学习的决策森林https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/decisionForests_MSR_TR_2011_114.pdf[访问日期:2017-04-10][WebCite缓存]
  28. 劳德代尔DS, Knutson KL,闫丽玲,刘凯,Rathouz PJ。睡眠时间:自我报告在多大程度上反映了客观测量?CARDIA睡眠研究流行病学2008;19(6):838 - 845。[CrossRef]
  29. Carskadon MA, Brown ED, Dement WC。老年人睡眠碎片化:与日间睡眠倾向的关系。中国生物医学工程学报(英文版);2009;31(4):391 - 397。[Medline]
  30. 李建军,李建军,李建军,李建军。睡眠碎片化与白天嗜睡的关系。睡眠1984;7(1):18-26。[Medline]
  31. 欧哈扬MM,吉列米诺C,牧师RG。普通人群的夜惊、梦游和迷乱觉醒:它们的频率及其与其他睡眠和精神障碍的关系。中华临床精神病学杂志1999;60(4):268-76;277年测试。[Medline]
  32. Taylor P. Pew研究中心,2009。午休时间http://www.pewsocialtrends.org/2009/07/29/nap-time/[访问日期:2017-03-30]WebCite缓存]
  33. Reimer MA, Flemons WW。睡眠障碍的生活质量。睡眠医学杂志,2003;7(4):335-349。[Medline]
  34. 纽波特·f·盖洛普。:盖洛普;2015.大多数美国智能手机用户至少每小时查看一次手机网址:http://www.gallup.com/poll/184046/smartphone-owners-check-phone-least-hourly.aspx[访问日期:2017-03-31][WebCite缓存]


API:应用程序接口
审计:酒精使用障碍鉴定测试
BDI:贝克抑郁量表
DAST:药物滥用筛选试验
脑电图:脑电图
教育津贴:生态瞬时评价
FFT:快速傅里叶变换
台塑:Focus point Global
迦得:广泛性焦虑症
嗯:隐马尔可夫模型
麦克:媒体访问控制
疯了:绝对中位数偏差
最小检测量:情绪障碍问卷
PHQ:病人健康问卷调查
USB接口:通用串行总线


R卡尔沃编辑;提交14.10.16;由YS Bin, Y Ma, B Price同行评审;对作者17.11.16的评论;收到03.01.17修订版本;接受04.03.17;发表18.04.17

版权

©Sohrab Saeb, Thaddeus R Cybulski, Stephen M Schueller, Konrad P Kording, David C Mohr。原载于《医学互联网研究》(//www.mybigtv.com), 2017年4月18日。

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map