医学互联网研究杂志-在自由生活环境中实现饮食检测:综合工程和机器学习研究

原始论文

¹礼来制药公司，印第安纳波利斯，美国

²密歇根大学，安娜堡，密歇根州，美国

^3.安娜堡算法，安娜堡，密歇根州，美国

通讯作者:

关元芳博士

密歇根大学

2044D帕默公地

安娜堡，密歇根州，48109

美国

电话:1 7347440018

电子邮件:gyuanfan@umich.edu

背景:监测饮食对糖尿病、饮食失调、心脏病和痴呆症等许多疾病的护理至关重要。然而，由于缺乏成熟的系统和大规模可靠的训练集，在自由生活环境中自动跟踪进食仍然是一个挑战。

摘要目的:这项研究旨在通过综合工程和机器学习的努力来填补这一空白，并在基于可穿戴设备的进食检测的监测时间方面进行大规模研究。

方法:这项前瞻性、纵向、被动收集的研究覆盖了3828个小时的记录，通过编程一个数字系统实现，该系统将日记、加速计和陀螺仪数据从苹果手表传输到iphone，然后将数据传输到云端。

结果:在这些数据收集的基础上，我们开发了利用空间和时间增强的深度学习模型，并推断出一般人群在5分钟内曲线下面积(AUC)为0.825的进食情况。此外，研究设计的纵向随访鼓励我们开发个性化模型，以0.872的AUC检测饮食行为。当聚合到单个膳食时，AUC为0.951。然后，我们在一年中不同的季节前瞻性地收集了一个独立的验证队列，并验证了模型的稳健性(餐级聚合为0.941)。

结论:该模型和数据流平台的准确性保证了在糖尿病综合护理等应用中监测饮食的即时部署。

中国医学网络学报，2018;24(3):e27934

doi: 10.2196/27934

关键字

深度学习；吃；数字手表

背景

智能手表和腕带等可穿戴设备的技术进步，已使它们成为我们生活中不可或缺的一部分[1］．可穿戴设备提供与改善患者诊断、护理和治疗相关的症状或活动的丰富、高频和纵向信息。能够识别特定的相关活动，如食物摄入，以一种将患者负担降至最低的方式，有可能提高监测效率和患者满意度。例如，目前使用基础和注射胰岛素方案的糖尿病管理需要高水平的患者参与。三分之一的1型或2型糖尿病患者报告在过去一个月至少有一次胰岛素遗漏或不坚持，其中一个被引用的原因是太忙[2］．在这种情况下，从消费者可穿戴设备被动收集的数字传感器数据可能是补充传感器和患者提供的数据的理想方法，这些数据是由专门的连接护理糖尿病设备收集的。除糖尿病外，许多疾病都与不良的饮食习惯有关，包括心脏病、肥胖、高血压和其他主要死因[3.，4］．持续监测饮食行为的能力对于改善这些疾病的护理和治疗至关重要。

研究	吃的定义	设备的位置	参加人数	总时间	F1得分(%)	加权准确度(%)
董等[7］	日常膳食及零食 ‎	手腕	43	449	N/A^一个	81
托马斯等人[8］	实验室:参与者被要求用叉子、刀、手和勺子吃千层面、爆米花、三明治、早餐麦片、米饭和豆类 ‎ 自由生活:正常的日常用餐活动 ‎	手腕	8	784.25	76.1和71.3	N/A
沙玛等[9］	一顿完整的饭或零食 ‎	手腕	104	1413	N/A	75
张及Amft [20.］	参与者在饮食选择和日常活动方面没有限制。 ‎ 他们被要求手动记录每一次进食事件，并以1分钟为分辨率记录在饮食日志中。 ‎	眼镜	10	122.3	95.2^b	N/A
毕等[11］	实验室:6种食物，3种脆脆的，3种软软的 ‎ 自由生活:日常膳食活动 ‎	耳朵	14	32.2	77.5	92.8
张等[10］	咀嚼:在短时间内发生的咀嚼序列的集合;这些咀嚼序列与其他咀嚼序列之间有很大的时间间隔 ‎	脖子	20.	370.1	81.6	N/A
法鲁克等人[19］	N/A	眼镜	10	23	87.9	N/A
这项工作
	5分钟的块	N/A	手腕	34	3828.25	93.8	78
	全餐在发现队列中	N/A	手腕	34	3828.25	87.7	88
	全餐在验证队列中	N/A	手腕	34	3828.25	87	87

客观的

我们的目标是开发一项前瞻性、非介入性、观察性研究，解决上述基于可穿戴设备在自由生活条件下被动收集的运动传感器数据检测食物摄入事件的挑战。我们还打算用这些数据测试深度学习算法在检测进食方面的性能。为此，我们开发了一款专门的应用程序，只需轻触智能手表，就可以记录饮食日记，并自动将加速度计和陀螺仪数据传输到云计算平台。总共3828.25小时的记录(在发现队列中为1658.98小时，在验证队列中为2169.27小时)，包括6种餐具(叉子、刀、勺子、杯子、筷子和手)，为我们开发推断一般人群饮食行为的模型提供了深入的数据。我们开发了曲线下面积(AUC)为0.951的模型，用于检测整个用餐事件。我们还展示了微调更精确的个性化模型的潜力。一个前瞻性的、独立的队列进一步验证了该模型。该模型的准确性支持其立即部署在临床试验中，如连接糖尿病护理设备和其他治疗领域。

招聘和道德审批

本研究参与者的入选标准如下:(1)年龄≥18岁;(2)在美国居住;(3)在美国印第安纳波利斯的礼来办公室工作的礼来员工;(4)愿意佩戴Apple Watch, Apple Watch为本次研究提供，用于从设备运动传感器收集数据和记录食物消费事件;(5)拥有Lilly iPhone，并愿意将其与本研究中提供的Apple Watch配对，并使用为本研究开发的应用程序来促进运动传感器数据的传输;(6)在研究期间，家中可连接有密码保护的安全Wi-Fi网络;(7)愿意在研究期间不使用其他腕戴的个人设备(如Apple Watch)。排除标准如下:(1)经历过手部颤抖或不自觉的手臂运动，(2)目前是吸烟者，(3)参与过任何其他涉及可穿戴设备的研究，这些设备可能在参与本研究期间的任何时候干扰本研究的进行，以及(4)参与过本研究的计划或实施，或是礼来公司高级分析和数据科学集团机器学习和人工智能团队的成员。该研究已获得礼来审查委员会(研究编号:2019-8193)的批准，并由西方机构审查委员会(WIRB方案编号:20190878)审查，所有参与者均已提供书面同意。 The informed consent form is provided in多媒体附件1．

仪器

本研究的目的是开发一种基于可穿戴设备运动传感器数据的被动监测的数据流系统和算法，可以自动收集和检测自由生活条件下的进食事件。本文中使用的术语概述在文本框1．

本文中使用的术语和符号。

术语和解释

窗口
- 作为模型输入的数据片段(在本研究中通常为5分钟)
移动一步
- 两个连续窗口之间的步幅大小
会话
- 会话是来自手表的连续记录;一天可以有多个会话。
地区
- 特定时间范围内的一段数据
聚合
- 我们用来根据相关窗口确定区域推断的方法
n
- 帮助确定餐位区域是否被正确推断或区域是否为假阳性的一个截断点
假阳性区域
- 包含至少n个假阳性数据窗口的区域
(小时)假阳性检出率
- (假区域数-阳性区域数)/样本总小时数

文本框1。本文中使用的术语和符号。

我们的目标是根据可穿戴设备中嵌入的运动传感器的数据来检测进食活动，以最大限度地降低隐私侵犯的风险。人类的进食活动包括潜在的可区分的动作——手对嘴的手势。数码手表的位置及方向感应共采用加速度计及陀螺仪两种运动传感器(图1B).我们使用了Apple Watch Series 4，它配备了两个传感器。我们对手表进行了编程，使用标准的应用程序编程接口(API)提取传感器数据，该接口可以与iPhone无缝配对，以促进数据流动和追溯标签。本研究已获得礼来西部机构审查委员会的批准，在分析研究之前，参与者的信息已被识别。一般来说，吃乳制品是通过两个简单的敲击来记录的开始而且结束在苹果手表上与以往的饮食日记相比，这种方法有助于准确记录进食区域。

参与者被要求记录所有的食物摄入事件，无论所消耗的食物或饮料的类型或消费方式(例如，有或没有餐具，坐着，站着，或走路)，但开车时除外。具体来说，他们被要求记录每个区域的食物摄入量，如果她或他估计这将涉及>3口或小口(将食物送到嘴里的动作)，并将持续>2分钟。服用口服药物、嚼口香糖或喝几口水等活动不需要记录。虽然很多人都把手表戴在非惯用的手臂上，但在这项研究中，我们要求参与者把苹果手表戴在他们认为用于饮食的惯用手臂上。这一选择的动机是现有的文献表明，使用来自主导臂的运动传感器数据的食物摄入检测算法比使用来自非主导臂的数据提供更好的性能，而使用来自两个手臂的传感器数据并不能显著提高性能[5］．

我们招募了两个独立的队列。第一组人群包括17名在数据分析前被识别的个体，分别为02ce、064F、08A5、0D51、0FA7、11FD、1453、16A9、1B55、2257、2BAF、305B、32B1、375 D、3e5f、4561和47b7，时间跨度为2019年5月29日至2019年7月7日。第二个队列包括17个个体——766f、7D71、7FC7、8473、94CD、9979、A07B、AE7F、B0D5、BED9、C385、CA87、D189、D3DF、DF8D、E1E3和e68f，时间跨度为2019年11月4日至2019年11月25日。对于每个参与者，我们纵向收集了最多20天(发现队列)和22天(验证队列)的日间活动，中位数分别为9天和11天。在发现队列中总共提供了1658.98小时的数据，在验证队列中提供了2169.27小时的数据(图1A).发现队列总共包括162天的样本，其中每个个体被允许进行不同天数的实验，从1天(例如，参与者1453)到20天(例如，参与者2257;多媒体附件2，图S1)。验证队列总共包括193天的样本，实验天数从1天(例如1天)不等，参与者A07B)到22(例如，参与者CA87;多媒体附件2，图S1)。

以50hz的频率记录数据，并根据收集日期和参与者ID的组合将数据分割到单个文件中。在一个文件中经常看到多个会话(图1D和文本框1)，对应于单日的连续记录时段。在发现队列中，大约25.3%(41/162)的样本包含>1期，在验证队列中，大约68.9%(133/193)的样本至少有2期(多媒体附件2，图S1C)。数据以20个特征的时间方式呈现，包括加速度和转速(accl_x对于x轴上的加速度，accl_y对于y轴上的加速度，accl_z对于z轴上的加速度，陀螺_x对于x轴上的陀螺仪，陀螺_y对于y轴上的陀螺仪，和陀螺_z对于z轴上的陀螺仪)，器具(器具，叉子，刀，勺子，玻璃杯，筷子和手的二进制标签)，ground truth标签(标签对于所有的饮食标签，tagTimely当进食发生时完成的进食标签，以及tagRetro回顾记录的标签)，会议(sesid，时间戳(ts)，以及本地时间(托托)．我们通过tagTimely来确定训练中是否应该考虑正标签，tagTimely是一个二进制特征，指示标签是否在用餐时间被标记。

如果参与者忘记及时记录用餐时间，数据收集平台还将使他们能够回顾性地记录大约的用餐时间。选择通过参与者的日志收集地面真相分类标签也是出于这样一个事实:部署在现实生活中的潜在未来活动检测系统可能会收集一些个性化训练数据，以根据个人特征微调推理模型。

图1。膳食活动分析的数据收集和流的概述。(A)数据来自两个队列:发现队列17名参与者，1658.98小时的数据，验证队列17名参与者，2169.27小时的数据。(B)通过Apple Watch内的加速度计和陀螺仪2组传感器采集信号，并与iPhone配对。(C)对每个窗口的x、y、Z轴分别进行Z评分和居中归一化。(D)陀螺仪和加速度计在x、y和z轴上随时间提供连续信号。有两种模式记录用餐时间。通过点击Apple Watch上的按钮，普通型号的录音开始和停止。回顾模式允许参与者在用餐后用iPhone输入大致的用餐时间。对于每条记录，我们取5分钟的窗口，移动步骤为20秒。 The windows with >2.5 minutes of mealtime will be labeled as eating activity. Windows belonging to 2 sessions are removed. (E) Two augmentation methods, quaternion rotation and scaling the signal magnitude, apply to each data window. (F) Deep learning network structure.

数据清理

一些不遵守规定的情况似乎来自于对指导的误解。例如，参与者4561在2019年6月6日提出了非常短的采样区域(多媒体附件2，图S2A)。似乎她/他只记录了用餐时间。另一个不符合观察在加速度计和陀螺仪数据接近零信号长时间区域;例如47B7_2019-06-07 (多媒体附件2，图S2B)。该标识号遵循参与者ID_date的格式。参与者很可能在这些时间段内摘下了手表。我们进一步删除了没有进食记录的个人或天数(例如，2257_2019-06-27)。与与会者的交流表明，注释有误。

对于发现队列，参与者064F、1453和08A5被排除在本研究之外，因为有大量的回顾性注释餐(>50%;图2A)，这表明这些天潜在的数据质量较差。这些参与者的记录也被删除，因为采样时间小于3小时，因为他们可能不符合要求在白天佩戴手表的说明:4561(2019年5月30日和2019年6月6日)、305B(2019年6月11日)、47B7(2019年6月7日和2019年6月1日)、2257(2019年6月27日)、375 D(2019年6月7日)、32B1(2019年6月18日)和0D51(2019年6月11日)。在这17个人中，有14人(82%)在全球模型的模型开发中仍然需要考虑。个性化模型在86%(12/14)样本≥7的个体上进行微调和评估:02CE、0D51、0FA7、11FD、16A9、1B55、2257、32B1、2BAF、305B、4561和47B7。

对于验证队列，基于相同的排除规则，我们也保留了82%(14/17)的个体，并删除了9979(3/3)的参与者;94CD(8/11)，他们有压倒性的数量(>50%)的回顾性记录用餐;7D71(0/0)，在所有的约会中都没有标注用餐时间。然后，我们删除了总持续时间<3小时的15人日和另外55人日，其中不包含任何用餐时间。

图2。餐区概述。(A)描述了发现队列和验证队列中每个个体的餐数。条形图按用餐总数排序，包括两种模式标签:进食时的标签(蓝条)和回顾时的标签(回顾时的标签，橙色条)。(B)汇总每天的餐数，不包括回顾。(C)显示发现组和验证组用餐持续时间的分布(以分钟为单位)，不包括回顾性用餐。(D)绘制这两个队列中用餐开始时间的分布，虚线对应于描述计数的平滑曲线。(E)在发现和验证队列中使用不同餐具的膳食数量的分布。(F)在发现和验证队列中不同器具的餐长(小时)统计。

数据预处理

所有数据被切割成5分钟(300秒)的窗口，并根据记录长度从每个数据日期开始移动20秒。每个5分钟数据窗口的标签由用餐时间的比例决定:如果窗口有>2.5分钟(150秒)标记为用餐时间，则该窗口的标签为1(正例);否则，它是0(反例)。还有3个产生−1标签的附加条件，在训练和评估中都被排除在外(图1D).第一种情况是当前窗口属于2个不同的会话;第二，该窗口包含了tagRetro(回溯性饮食记录)不为0或缺失的记录，这意味着这些标签在用户餐后被召回。第三，极短的进食时间<3分钟被排除在外，因为它们可能会破坏评估的公平性。根据这种制备方法，从发现队列中总共生成了282942个窗口，其中13498个是阳性的。由于数据高度不平衡，我们应用了过采样:我们从替换的正例中随机选择N条记录，其中N是负例与正例之间的数量差。

模型训练与评价

一般的训练和评估策略是交叉验证，这是一种常用的方案，可确保有足够的测试示例。在每个测试中，我们随机选择21%(3/14)的个体作为测试集，18%(2/11)的个体作为验证集，其余64%(9/14)的个体作为训练集。在训练集和验证集上训练和调整模型，并在测试集上评估其性能。我们还为每个测试训练了5个模型，这些模型来自训练集和验证集上的5个随机分割，同时保持3个最终测试个体不变。评估的最终推理得分是5个模型的平均集合。

我们分别基于加速度计和陀螺仪数据进行实验，然后通过取平均值来使用这两种类型的数据组装推理得分。实验按以下顺序组织:输入数据，归一化方法和增强。在每一步中，我们为下一次实验选择了表现最好的模型。对于微调个性化模型，我们首先使用发现集中的所有数据训练一个模型，排除作为微调目标的个人。然后，我们在目标个体的60%的日子里对模型进行了额外的2个时期的微调，使用另外20%的日子作为验证，最后20%的日子作为测试集。在所有实验中，评价都是在原始类不平衡的测试集上进行的。

模型架构

模型的主干是一个深度卷积神经网络，包括10个构建模块和一个用于中列出的输出的完全连接层多媒体附件2、表S13和图1F.每个块包含一个卷积层、一个批处理归一层和一个maxpooling层。过滤器的数量从8逐渐增长到256(8、16、16、32、32、64、64,128,128和256)。滤波器的大小如下(11、10、10、8、9、6、7、4、5和2)。网络同时接收来自加速度计或陀螺仪的3通道输入和6通道输入。网络的权重由Adam优化器训练[21]，是最流行的参数优化器，学习速率为0.00003，训练目标为二进制，交叉熵损失函数为二进制。为了防止过拟合，我们应用了一个回调函数来从验证集上性能最佳的时期检索权重。然后将这些选定的权重应用于测试集，以评估模型的性能。我们一共训练了5个阶段。内核初始化使用的是gloria uniform。对上述参数进行实证选取，然后围绕实证值进行搜索。

规范化和数据增强

我们测试了两种归一化方法:居中和z分数归一化(图1C).居中的输出是原始值与平均值之间的相减z分数归一化需要基于以下公式进行计算，其中µ是平均值，σ是SD。

为了对抗过拟合，我们应用了两种增强方法(图1第一个是通过从均匀分布(0.8,1.2)中随机选择一个数字来缩放信号幅度。第二种方法是通过乘以四元数旋转矩阵来旋转信号，这模拟了在不同的参考系中获取相同记录的情况。首先，我们随机生成一组坐标(x, y, z)，并通过计算基向量定义一个参考系。

然后，我们从(0,2 π)开始随机播种一个旋转角度，计算如下:

然后定义与原始加速度或陀螺仪信号相乘的旋转矩阵如下:

评价指标

模型的性能通过综合推理得分和一系列指标进行评估，包括接受者工作特征曲线下的面积和精度-召回曲线下的面积(AUPRC)。使用真阳性的信息TP，真负TN，假阳性《外交政策》，以及假阴性FN，求加权值F₁得分及相关的精密度和查全率得分[22),我是类的下标，和w_我类数我样本数/总样本数为该类的比例我．

精密度来自TP/(TP+FP)，召回率来自TP/(TP+FN)。我们也按照Dong等人的研究方法计算加权精度[7]和夏尔马等[9]：

在哪里w是负的数量与正的数量之比。

所有指标均由scikit-learn中的相应函数计算。

与DeepConvLSTM的比较

我们应用了DeepConvLSTM [22]基于Pytorch的官方实现。我们使用的过滤器大小为32，而长短期记忆中隐藏单元的数量为64。结构和参数的详细信息列于多媒体附件2，表S14。我们使用了亚当优化器和二元交叉熵损失函数。

统计显著性分析

为了模型比较，在每次推理检验中，我们首先计算比值(记为R)正的(label=1)到负的例子(label=0)，然后随机选择1500个正的5分钟窗口和1500 r消极的窗户。我们重复100次以估计P值。

代码的可用性

代码附于提交的文件(多媒体)，并且可以在Python 3.6.12和Keras 2.2.4中运行。

数据可用性

在同意书的基础上，礼来公司可以与美国的监管机构(食品和药物管理局)、监督该研究的伦理审查委员会以及其他希望分析该研究数据的机构的研究人员共享数据。

深度学习在5分钟内准确地对以前未见过的个体的进食活动进行分类

我们首先分析了来自发现队列的数据。原始数据以50赫兹的频率从Apple Watch的加速度计和陀螺仪中收集，并传输到Amazon Web Service [23］．每个时间点都标注了一个用餐标签(1表示用餐区域，0表示非用餐时间)。参与者被要求详细说明用餐时间的开始和结束，以及这一区域是在用餐时记录的还是事后记录的。大多数(126/ 162,77.8%)的每日记录持续约8至15小时，代表参与者佩戴手表时的每日活动时间(多媒体附件2，图S1B)。参与者可能从早上7点到9点开始记录(多媒体附件2(图S1D)，并于晚上7时至9时结束(多媒体附件2，图S1E)，与预期日活动时间一致。参与者一天可以有1到7次进食，绝大多数人每天有1到4次进食。大约75%的餐点持续时间不超过20分钟。用餐事件的开始和高峰时间显示在预期的早餐、午餐和晚餐时间(图2)．

使用生成的5分钟窗口(图1D)，我们构造了一个一维(沿时间轴为输入和输出)深度学习模型(图1F)以3个通道作为输入(加速度计或陀螺仪的x、y、z轴;6个通道时，同时提供加速度计和陀螺仪信息)。在交叉验证的基础上描述方法section，我们的工作显示平均AUC为0.825 (SD 0.073;图3D和图4C)， AUPRC平均值为0.437 (SD为0.096)，基线(所有数据点的预测值相同)为0.053 (多媒体附件2、图S3C和图4D)。当将回溯餐食纳入预测时，我们的模型表现出稳定的性能，平均AUC为0.813 (SD 0.067)， AUPRC为0.440 (SD 0.077，基线0.065)。相比之下，我们在这个数据集上采用了DeepConvLSTM [22]，平均AUC为0.797 (SD 0.065)，平均AUPRC为0.294 (SD 0.072;图3E)非回顾性膳食。这表明，与现场方法相比，集成到这种方法中的技术可以大大改进。

我们确定了影响性能的因素。首先，基于在训练集随机分割上训练的5个模型，从最后一个全连接层的输出中集合推理值，通过在每个测试中取平均值，可以显著提高所有实验的性能(P<.001;图3B -图3D;多媒体附件2，图S3A-3C)。其次，在陀螺仪数据上建立模型可以获得比使用加速度计数据或两者兼用更好的性能。陀螺仪模型的平均AUC和AUPRC比其他替代模型高0.02 - 0.05 (AUC的P值<.001;AUPRCs的P值<.001;图3B和多媒体附件2，图S3A;多媒体附件2，表S1及S2)。第三，选择正确的输入数据归一化方法可能会有所帮助。定心归一化使模型性能在AUC上提高了0.002，在AUPRC上提高了0.01 (aus的P值=.29;AUPRCs的P值=.10)z由于分数归一化可能会压缩信号的原始范围，AUC和AUPRC的性能分别下降0.01和0.04。图3C和多媒体附件2S3B;多媒体附件2，表S3和S4)。这可能反映了这样一个事实，即信号的大小对模型至关重要，而手表的方向(即反映为轴的整体移位)并不相关。第四，数据增强，包括信号在空间中的四元数旋转和缩放信号幅度，可能会提高模型性能。对于单个模型，旋转和缩放对auc和auprc均可提供>0.01的改善，尽管不具有统计学意义(aus的P值= 0.33;AUPRCs的P值=.17)。当考虑集合使用不同随机种子生成的5个模型的集成模型时，幅度缩放在AUC和AUPRC上都给出了更好的性能，但不是显著更好的性能(aus的P值=.26;AUPRCs的P值=.88;图3D和多媒体附件2，图S3C;多媒体附件2，表S3和S4)。添加本地时间并没有提高性能(表S1和S2)。

为了检索每个个体的表现，包括先前被排除的个体，并生成基线来评估我们对个性化模型的后续微调的改进，我们还使用了保留一个主题的方法来计算auc和auprc。对于每个个体，模型都在所有其他数据上进行训练，除了一个被遗漏的数据。集合模型的平均AUC为0.818 (SD 0.104)，平均AUPRC为0.419 (SD 0.162)，图4一个和图4B;多媒体附件2，表S7)。两个记录日期的推断可视化:来自0FA7的2019年6月24日的数据和来自3E5F的2019年6月10日的数据显示了进食和非进食行为的一致性(图4E和图4F)。

图3。在发现队列的5分钟窗口上评估模型性能。(A)模型仅由陀螺仪数据、加速度计数据和陀螺仪+加速度计数据建立。接下来，我们测试了数据每个轴的定心和归一化。对动态数据进行了密集数据增强。对于每种方法，通过重新采样训练和验证数据来训练5个模型，并将它们组装起来进行评估。(B)不同数据选择的性能比较。(C)介绍了应用于陀螺仪模型的不同归一化方法的性能比较。(D)给出了基于定心模型的增强方法的性能比较，其中Quart是四元数旋转增强，Scale是缩放幅度。(E) DeepConvLSTM与本文方法的性能比较。 AUROC: area under the ROC curve; AUPRC: area under the precision–recall curve; CNN: convolutional neural network; ROC: receiver operator characteristic.

图4。对所选最佳模型的评价:使用定心归一化陀螺仪数据进行缩放训练的卷积神经网络主干。(A和B)显示了模型在发现队列上遗漏一个受试者的结果，在曲线下的面积和精度-召回曲线下的面积上进行了评估。(B)中的黑点是个体的基线。由于1453剔除回顾展后没有任何阳性样本，其价值将为空。(C)为ROC曲线下面积，(D)为集成模型交叉验证的精度-召回率曲线。(E和F)给出了2个记录日期的推断，其中蓝色部分表示非用餐时间的信号，橙色部分为用餐时间的信号。PR:精确召回;ROC:接收机操作员特征。

个性化模型的微调可以提高性能

这些纵向数据使我们能够探索是否有可能构建个性化的饮食模型，并进一步提高模型的性能(图5A).全球模型作为感兴趣的个人的微调起点(图4一个和图4B).本研究设计模拟了模型在现实生活中的一个重要效用，即我们对一个以前未见过的人采用了一个现有的模型，并询问我们是否可以通过观察这个人的一些数据来提高对这个人的推断。

将全局模型与微调模型在该个体上的表现进行比较，我们发现，除了1个个体(2BAF)外，微调个性化模型比直接在特定个体上应用总体模型表现出更好的性能。微调模型的AUC平均提高到0.872 (SD 0.099)，其中平均加权F1(阳性和阴性的平均权重分别为0.059和0.941)得分为0.938 (SD 0.048)，平均精密度为0.945 (SD 0.045)，平均召回率为0.934 (SD 0.049;图5B和图5C;多媒体附件2，表S8和表S9)。

图5。评估微调以生成发现队列上的单个模型。(A)对于被调查的特定个体，我们首先通过重新采样深度学习训练过程的训练和验证集，使用所有其他个体训练5个全局模型。接下来，我们将感兴趣的个人记录按天划分为训练集、验证集和测试集，并使用训练集和验证集对全局模型进行微调。我们通过(B) 5个分离模型和(C)集合模型的全局和个别微调模型的ROC曲线下面积来评估性能。ROC:接收机操作员特征。

多窗口聚合达到近乎完美的餐点事件检测

然后，我们评估了模型在原始用餐时间上的性能。我们对发现队列进行了三个交叉验证实验:(1)对全餐(图6A)、(2)用餐开始后5分钟或10分钟内的预测(图6B)，及(3)在一小时内的虚假来电(图6C).对于所有非回顾性记录的用餐事件，我们计算了每次用餐事件的平均得分。为了计算负区域的分数，我们随机选择了一系列长度和数量与用餐事件相匹配的负区域。负面的分数是通过取所选区域内窗口的平均值来生成的。通过这种聚合，模型的AUC达到0.951 (SD 0.018)，相应的加权F1得分(阳性和阴性的权重分别为0.464和0.536)、精密度和召回率分别为0.877 (SD 0.037)、0.8890 (SD 0.027)和0.879 (SD 0.035) (图6D;多媒体附件2，表S10)。包括回顾性研究，膳食的AUC相似为0.951 (SD 0.017)，相应的加权F1评分为0.858 (SD 0.040，阳性和阴性的权重为0.5)。

对于开始用餐后10分钟或5分钟的预测，我们使用准确性(即正确推断了多少次用餐时间)进行评估(图6E;多媒体附件2，表S11和表S12)。在这种情况下，我们感兴趣的是如何选择一个标准，以便在5/10分钟内检测出大多数餐点。我们使用10秒的移动步长，如果预测分数为>0.3，则定义一个窗口为正。如果预测>3个窗口在5/10分钟内为正，我们警报a调用．使用这些标准，我们在10分钟内达到了0.889的回忆率，并且在5分钟测试中，预测分数的截止值在0.4到0.6之间，以及我们用来报警的窗口数量仍然保持稳健。

接下来，我们计算了负区域每小时假阳性预测的数量。每个小时，我们总共有360个块(每移动一步10秒)。相应的假阳性预测为0.172 / h;也就是说，在一天的活动中，有1到2次假阳性。同样，这一结果与定义一个正窗口的截止日期和警报呼叫所需的窗口数量相比是稳健的。

图6。这是对整个用餐和餐后特定时间区域的汇总结果。(A)聚合产生粉级检测性能。(B)预处理步骤删除了时间<3分钟的餐点，并为正面例子创建了5或10分钟的窗口，以评估回忆率。(C)非餐区域被用来计算假阳性警报，使用5分钟窗口和相同的标准来定义计算召回率时的阳性推论。灰色区域表示用餐时间，开始和结束的时间为10分钟，其中窗口不在考虑范围内。(S)显示了对整个餐食的聚合的评估。箱线图由交叉验证中集成模型的平均推断得分得到的auc组成，实验(模型)与中相同图3A.每个方框中的点表示对应的平均AUC。(E)表示开始用餐后5分钟和10分钟的用餐以及整个负信号的聚合结果。这些线显示了检测精度和每小时的假阳性数字(黑线)如何随着截止点而变化。橙色的线表示10分钟一餐的结果，蓝色的线表示5分钟一餐的结果。点的形状表示N的选择，其中圆形/实线为N=1，三角形/虚线为N=3。AUC:曲线下面积;ROC:接收机操作员特征。

不同季节收集的独立验证队列的可推广性

虽然第一批数据是在夏季收集的，但我们在6个月后的冬季通过招募17名新个体收集了第二个验证队列。通过将发现队列数据分成5组训练和验证数据，我们首先确定了第一个队列的5个模型;然后，我们直接将这些模型应用于验证队列进行推论。接下来，我们将全餐预测方案应用于验证队列，包括有和没有回顾餐的数据。在没有进一步调整的情况下，该模型在非回顾性膳食的验证队列中实现了0.941的膳食水平AUC，加权F1评分为0.870(阳性和阴性的权重分别为0.445和0.555)，精度为0.878，召回率为0.871。对于回顾性餐食，餐级AUC和加权F1评分分别为0.920和0.846(阳性和阴性权重分别为0.5)。本研究的工作成果列于表2．

表2。本研究之表现。

实验	曲线下面积	精度-召回曲线下的面积	加权F1分数
在5分钟窗口上交叉验证我们的模型	0.825	0.437	N/A^一个
我们的模型在5分钟窗口的交叉验证，包括对回顾膳食的预测	0.813	0.440	N/A
DeepConvLSTM的交叉验证[22]在5分钟的窗口	0.797	0.294	N/A
我们最好的模型是在5分钟的窗口中留出一个主题	0.818	0.419	N/A
微调个性化模型	0.872	N/A	0.938
我们的模型在原始用餐时间上的交叉验证(发现队列)	0.951	N/A	0.877
我们的模型在原始用餐时间上的交叉验证，包括对回顾性用餐的预测(发现队列)	0.951	N/A	0.858
我们的模型对原始用餐时间的预测(验证队列)	0.941	N/A	0.870
我们的模型对原始用餐时间的预测，包括对回顾性用餐的预测(验证队列)	0.920	N/A	0.846
10分钟内检测进食的准确性	0.889	N/A	N/A
每小时的假阳性检测	0.172	N/A	N/A

^一个N/A:不适用。

主要研究结果

在这项研究中，我们提出了一项大型的、现场的、数字饮食检测研究。深度学习算法尝试了各种各样的增强、预处理和架构，使我们能够将算法缩小到AUC为0.825的性能，以推断单个5分钟窗口中以前未见过的个体。当对整个膳食区域进行评估时，该AUC为0.951。我们在不同季节(6个月后，冬季)收集的独立延时队列中进一步验证了该算法，在没有进一步调整的情况下，实现了0.941 AUC的餐级性能。这种设计可能会导致模型比在同一季节连续收集的数据更具或至少具有类似的可泛化性。这是该领域第一个拥有验证队列的研究。

与其他关注人口模型的研究相比[9，13，24-26]，本研究中提供的数据集的纵向随访周使我们能够进一步探索检测饮食活动的个性化模型的可能性。人们普遍认为，在不同的人群中，饮食习惯因性别、文化和个人习惯的不同而有很大差异。这种微调方案产生的平均AUC为0.872，对应于在10分钟内召回进食事件的成功率为0.89。这种性能上的显著改进为饮食研究领域的个性化饮食监测指明了方向。

当地时间的记录，以及每顿饭所使用的餐具，也让我们能够深入了解它们对我们模型的影响(多媒体附件2，图S4)。我们发现用手拿的食物表现相对较差(AUC=0.812;多媒体附件2，图S4B)。此外，我们发现上午6点至7点以及晚上9点之间的假阳性率相对较高，这表明潜在的早晚活动模仿进食运动(多媒体附件2，图S4C)。未来的研究包括不同的工具特征以及整个日常活动日志，可能有进一步提高性能的潜力。

限制

我们承认本研究存在一些潜在的局限性。首先，我们排除了吸烟的个体，对他们来说，吸烟的动作与进食的动作有一定的相似性，推理任务可能会变得更加复杂。其次，我们只纳入了健康的个体，这可能不能代表运动障碍人群，如共济失调和帕金森病。此外，我们没有收集非优势手的数据。较弱和噪声信号可能会显著影响我们建立在优势手数据上的模型。潜在的，结合其他设备，如耳朵和胸部固定设备和视频(多媒体附件2，表S15 [27-31])，在未来的工作中，我们将能够克服这些限制。我们在研究中总共使用了34个个体。尽管我们在个体中观察到较强的预测，但更大的集合关注更多的个体，但较少的纵向随访可能进一步补充本研究中提供的信息。此外，我们在本研究中使用了50 Hz的数据，以便在收集数据时优化电池性能。随着设备的发展，更高的Hz数据对性能的贡献还有待评估。

未来工作及结论

这项研究和这里开发的API为未来几个值得探索的方向打开了大门。例如，来自不同文化背景的人群的数字指标有何不同?利手性会影响模型的构建和性能吗?如果一个人将该设备戴在他或她的非惯用手上，会对模特产生多大影响?回答这些问题需要大量参与者的大规模研究，而本研究开发的API和数据流平台将成为实现这一目的的方便工具。本研究中开发的模型的准确性满足了临床环境中即时部署的需要，以监测饮食行为，并相应地指导治疗方案的调整。我们预计，在不久的将来，数字流媒体平台将被广泛集成到各种临床试验中。

作者的贡献

BZ、JS、BR和HF对研究设计、设备设计和数据流做出了贡献。KD, JS, YG和BR对数据分析做出了贡献。YG起草了手稿。KD和LC负责这些数据。BR有助于实施和分析规划。

利益冲突

BZ和HF目前是礼来公司的员工。JS和BR在工作进行时是礼来公司的员工。KD和LC在进行这项研究时是Ann Arbor算法公司的员工。YG担任礼来公司在这项研究中的科学顾问。

‎

多媒体附件1

研究同意书。

DOC文件，83 KB

‎

多媒体附件2

补充表格和图表。

PDF档案(adobepdf档案)，1156 KB

‎

多媒体

本研究的模型和实验代码。

ZIP文件(ZIP Archive)， 363 KB

Metcalf D, Milliard ST, Gomez M, Schwartz M.可穿戴设备和健康物联网:可穿戴、互联设备承诺更高效、更全面的医疗保健。IEEE Pulse 2016年9月7日(5):35-39。［CrossRef］
Peyrot M, Barnett AH, Meneghini LF, Schumm-Draeger P.胰岛素治疗患者和医生跨国态度研究中的胰岛素依从性行为和障碍。糖尿病医学2012 5月;29(5):682-689 [免费全文] [CrossRef] [Medline］
Pot GK, Hardy R, Stephen AM。膳食能量摄入不规律:1946年英国出生队列成人代谢综合征的前瞻性关联中国生物医学杂志2015年11月9日;11(2):315-323。［CrossRef］
Almoosawi S, Vingeliene S, Karagounis LG, Pot GK。时间营养:对全球能量摄入时间趋势及其与肥胖关系的观察性研究的当前证据的回顾。Proc Nutr Soc 2016 11月;75(4):487-500。［CrossRef] [Medline］
李文杰，李国强，李国强，李国强。基于传感器的饮食识别技术。Proc ACM Interact Mob穿戴式无处不在技术2017年9月11日;1(3):1-20 [免费全文] [CrossRef］
富勒顿E，海勒B, Munoz-Organero M.识别自由生活中的人类活动使用多种身体磨损加速度计。IEEE传感器学报2017 Aug 15;17(16):5290-5297 [免费全文] [CrossRef］
董勇，李志强，李志强。基于腕部运动的进食时间检测方法研究。IEEE生物医学健康信息2014 7月;18(4):1253-1260。［CrossRef］
thomas E, Essa I, Abowd G.一种实用的方法识别腕式惯性传感进食时刻。2015年ACM普适与普适计算国际联合会议论文集。2015年UbiComp '15: 2015年ACM普适与普适计算国际联合会议;2015年9月7日至11日;日本大阪。［CrossRef］
沙玛，贾斯帕P，穆斯E，胡佛A.自动检测吃的时间使用手腕运动跟踪。见:IEEE第一届互联医疗国际会议论文集:应用、系统和工程技术(CHASE)。2016年发表于:IEEE第一届互联医疗国际会议:应用、系统和工程技术(CHASE);2016年6月27-29日;美国华盛顿特区。［CrossRef］
张,赵Y,阮DT,徐R,森年代,海丝特J, et al。颈感:一种多传感器项链，用于检测自由生活条件下的进食活动。Proc ACM Interact Mob Wearable Ubiquitous technology 2020 Jun;4(2):72 [免费全文] [CrossRef] [Medline］
毕松，王涛，Tobias N, Nordrum J，王松，Halvorsen G，等。Auracle:用耳朵上的传感器检测进食事件。Proc ACM交互Mob可穿戴无处不在的技术2018年9月18日;2(3):1-27。［CrossRef］
Kyritsis K, Diou C, Delopoulos a .从智能手表测量餐内进食行为的端到端学习。在:第40届IEEE医学和生物工程学会(EMBC)国际年会论文集。2018年发表于:第40届IEEE医学与生物工程学国际年会(EMBC);2018年7月18日至21日;檀香山，嗨，美国。［CrossRef］
Thomaz E, Bedri A, Prioleau T, Essa I, Abowd G.利用手腕上的惯性传感器探索对称和非对称双手进食检测。DigitalBiomarkers 17 (2017) 2017 july;2017:21-26 [免费全文] [CrossRef] [Medline］
Papadopoulos A, Kyritsis K, Sarafis I, Delopoulos A.基于半监督学习的个性化用餐行为分析。在:第40届IEEE医学和生物工程学会(EMBC)国际年会论文集。2018年发表于:第40届IEEE医学与生物工程学国际年会(EMBC);2018年7月18日至21日;檀香山，嗨，美国。［CrossRef］
赵杰，崔安。基于卷积神经网络的亚洲式食物摄入模式估计。见:IEEE国际消费电子会议(ICCE)的会议记录。2018年发表于:IEEE国际消费电子会议(ICCE);2018年1月12日至14日;美国内华达州拉斯维加斯。［CrossRef］
利文斯通MB，罗布森PJ，华莱士JM。儿童和青少年膳食摄入评估中的问题。Br J Nutr 2004 10月;92增刊2:S213-S222。［CrossRef] [Medline］
韦斯特普KR，戈里斯AH。膳食摄入评估的有效性:误报的问题。Curr Opin clinalnutr Metab Care 2002 9月5日(5):489-493。［CrossRef] [Medline］
Bell BM, Alam R, Alshurafa N, Thomaz E, Mondol AS, de la Haye K，等。公共卫生研究的自动、基于可穿戴的现场饮食检测方法:范围综述NPJ数字医学2020年3月13日;3(1):38 [免费全文] [CrossRef] [Medline］
Farooq M, Sazonov E.基于加速度计的自由生活个体食物摄入量检测。IEEE传感器学报2018年5月1日;18(9):3752-3758。［CrossRef］
张瑞，Amft O.用肌电监测眼镜观察自由生活饮食事件。见:IEEE EMBS生物医学与健康信息学国际会议论文集(BHI)。2018年发表于:IEEE EMBS生物医学与健康信息学国际会议(BHI);2018年3月4日至7日;美国内华达州拉斯维加斯。［CrossRef］
张震。改进的深度神经网络Adam优化器。见:IEEE/ACM第26届服务质量国际研讨会论文集(IWQoS)。2018年发表于:IEEE/ACM第26届服务质量国际研讨会(IWQoS);2018年6月4日至6日;班夫，AB，加拿大。［CrossRef］
Ordóñez FJ, Roggen D.用于多模态可穿戴活动识别的深度卷积和LSTM循环神经网络。传感器(巴塞尔)2016年1月18日;16(1):115 [免费全文] [CrossRef] [Medline］
Varia J, Mathew S.亚马逊网络服务概述。亚马逊网络服务，2014。URL:http://cabibbo.dia.uniroma3.it/asw-2014-2015/altrui/AWS_Overview.pdf[2022-01-31]访问
法鲁奇，萨佐诺夫，用集成分类器从压电薄膜传感器信号中检测咀嚼。在:第38届IEEE医学和生物工程学会(EMBC)国际年会论文集。2016年发表于:第38届IEEE医学与生物工程学国际年会(EMBC);2016年8月16-20日;奥兰多，佛罗里达州，美国。［CrossRef］
柯丽霞，李志强，李志强。基于LSTM网络的惯性传感器食物摄入检测。在:图像分析和处理的新趋势。瑞士:施普林格;2017.
王晓明，王晓明，王晓明，王晓明。基于支持向量机和人工神经网络的食物摄入检测方法研究。发表于:第十二届机器学习与应用国际会议论文集。2013;2013年12月4-7日;迈阿密，佛罗里达州，美国。［CrossRef］
用无线可穿戴入耳式麦克风监测饮食习惯。见:第三届无线普适计算国际研讨会论文集。2008发表于:第三届无线普适计算国际研讨会;2008年5月7-9日;希腊圣托里尼岛。［CrossRef］
李伟，杨志强。移动设备上的实时食物摄入分类和能量消耗估算。见:IEEE第12届可穿戴和植入式身体传感器网络(BSN)国际会议记录。2015年发表于:IEEE第12届可穿戴和植入式身体传感器网络国际会议(BSN);2015年6月9日至12日;剑桥，马萨诸塞州，美国。［CrossRef］
刘杰，约翰·E，阿塔拉·L，佩蒂特C，罗·B，弗罗斯特G，等。采用可穿戴传感器的智能食物摄入监测系统。第九届可穿戴和植入式身体传感器网络国际会议论文集，2012年发表于:第九届可穿戴和植入式身体传感器网络国际会议;2012年5月9日至12日;伦敦,英国。［CrossRef］
高勇，张楠，王宏，丁霞，叶霞，陈刚，等。iHear food:基于商品蓝牙耳机的进食检测。见:IEEE第一届互联医疗国际会议论文集:应用、系统和工程技术(CHASE)。2016年发表于:IEEE第一届互联医疗国际会议:应用、系统和工程技术(CHASE);2016年6月27-29日;美国华盛顿特区。［CrossRef］
Blechert J, Liedlgruber M, Lender A, Reichenberger J, Wilhelm F.日常生活中基于非突发性肌电图的饮食检测:解决漏报的新工具?Appetite 2017 11月1日;118:168-173。［CrossRef] [Medline］

‎

API:应用程序编程接口

AUC:曲线下面积

AUPRC:精度-召回曲线下的面积

G·艾森巴赫(G Eysenbach)编辑;提交13.02.21;M Manzanares, D Ravi, G Lim, OS Liang同行评审;对作者07.05.21的评论;订正版本收到28.05.21;接受30.12.21;发表01.03.22

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

在自由生活环境中实现进食检测:综合工程和机器学习研究