JMIR形成研究-基于机器学习的图像分析健康膳食筛选:系统开发和试点研究

原始论文

¹日本千叶东宝大学信息科学系

²NTT媒体情报实验室，横须贺，日本

^3.东京大学医学研究生院无所不在健康信息系，东京，日本

⁴东京大学医学研究生院生物医学信息系，日本东京

*这些作者贡献相同

通讯作者:

Kyoko Sudo博士

信息科学系

东邦大学

船桥，三山2-2-1

千叶市,274 - 8510

日本

电话:81 47 472 8064

电子邮件:<一个href="//www.mybigtv.com/formative/2020/10/mailto:kyoko.sudo@sci.toho-u.ac.jp">kyoko.sudo@sci.toho-u.ac.jp

背景:最近的研究导致了许多信息技术支持的卫生保健控制系统的发展，包括从食物图像估计营养的系统。捕捉饮食和运动数据的系统对糖尿病患者和仅仅在节食的人都很有用。持续监测是有效饮食控制的关键，需要使用简单并能激励用户注意饮食的系统。不幸的是，目前大多数系统都很复杂，或者没有激励作用。这样的系统需要一些手动输入，比如选择图标或图像，或者输入用户食物的类别。反馈给用户的营养信息并不是特别有用，因为通常只提供膳食中所含的估计的详细营养价值。

摘要目的:在本文中，我们介绍了膳食健康作为一个更有用和有意义的通用标准，并提出了一种新的算法，可以从膳食图像中估计健康，而不需要人工输入。

方法:我们提出了一个系统，使用提取特征的深度神经网络和使用由人类饮食专家准备的数据集学习饮食健康程度之间关系的排名网络来评估膳食健康程度。首先，我们研究了注册营养师是否可以仅通过使用一个小数据集(100顿饭)查看膳食图像来判断膳食的健康程度。然后，我们根据一名注册营养师观看的餐食图像集(850顿餐食)的比较生成了排名数据，并训练了一个排名网络。最后，我们估计了每餐的健康评分来检测不健康的饮食。

结果:所提出的网络估计的排名与根据营养师判断的健康排名相关(相关系数为0.72)。此外，通过使用公开可用的大型膳食数据集进行预训练来提取网络特征，能够克服特定健康数据的有限可用性。

结论:我们提出了一个基于图像的系统，可以根据构成膳食的菜肴的整体健康程度对膳食进行排名。由所提出的方法获得的排名与营养师基于营养价值的排名有良好的相关性。然后，我们提出了一个网络，该网络允许对判断膳食图像很重要的条件，提取消除背景信息且与位置无关的特征。在此条件下，实验结果表明，该网络比传统的图像排名方法获得了更高的健康排名估计精度。这个检测不健康饮食的实验结果表明，我们的系统可以用来帮助医护人员为需要选择健康饮食建议的糖尿病患者制定饮食计划。

JMIR Form Res 2020;4(10):e18507

doi: 10.2196/18507

关键字

饭图片；健康；深度神经网络；营养；医学信息学；饮食；神经网络

最近，许多以资讯科技为支援的医疗保健系统已被开发出来，其中包括使用影像膳食评估来治疗肥胖症和糖尿病的系统[<年代p一个n class="footers">1］．一项针对流行的营养相关移动应用程序的调查显示，人们对使用移动应用程序进行饮食监测和推荐有明显的兴趣[<年代p一个n class="footers">2］．随着摄像头功能的加入，移动设备越来越多地用于基于图像的饮食评估。其中一个系统是辩证法[<年代p一个n class="footers">3.]，由食物图像识别应用FoodLog辅助[<年代p一个n class="footers">4]，以自动限制选菜面积，输入餐点照片。在这里，我们所说的“一餐”是指一个人一口气吃下的一道菜或几道菜;因此，一道菜或多道菜的菜单都可以构成一顿饭。对该系统的叙述性回顾表明，大多数患者积极使用膳食评估模块，并将每餐的营养平衡发送给患者，帮助他们调整饮食。但是，图像处理仅用于协助输入餐点照片和识别餐点名称;营养师根据这些照片计算出这些食物的总能量、宏量营养素、膳食纤维和盐。

然而，有两个问题会导致人们停止使用该系统。第一个问题是，目前大多数技术都需要用户操作才能实现餐点图像识别[<年代p一个n class="footers">4，<年代p一个n class="footers">5］．在信息技术支持的卫生保健控制系统中，用户只需输入餐食图像就能自动估计营养状况是一项重要功能。然而，包括DialBetics在内的大多数系统都没有实现这一点。<年代p一个n class="footers">3.］．例如，使用DialBetics，用户可能需要对图像进行操作，以便只包含一道菜，或者可能需要在更大的盘子区域中识别食物区域。用户通常必须从系统建议的食物类别中选择食物类别，当某些食物与任何可用的类别不匹配时，用户必须在系统中注册一个新的类别。这些相当困难的任务导致一些用户停止使用系统[<年代p一个n class="footers">1，<年代p一个n class="footers">3.］．

第二个问题是系统输出与用户理解之间的脱节。与Dialbetics用户的访谈显示，部分用户认为营养师提供的建议过于冗长和多余[<年代p一个n class="footers">3.］．用户很难根据一份简单的营养价值清单(无论多么详细)来知道他们的食物是否对他们有益。因此，需要一个能够提供即时反馈的系统，让用户了解他们所吃的食物的营养影响，并激励他们对吃更好的食物产生兴趣。

这似乎是一个安全的假设，“膳食图像”，一顿饭中所有菜肴的单一图像，包含一些视觉线索，可以估计这顿饭的健康程度。使用膳食图像，我们的目标是在用户和系统之间提供一个简单的界面，提供清晰的反馈，激励用户继续关注他们的膳食，并通过一种方式筛选那些需要注册营养师建议来改善膳食的人。之前的一项研究是关于一个系统，该系统允许根据图像分享其他用户的用餐反馈[<年代p一个n class="footers">6的研究表明，即使来自用户而不是专家的反馈，对改善饮食也是有效的。我们的系统基于类似的概念。反馈不是详细的数字营养数据，而是更直观的评分，便于用户理解。我们的目标是健康促进和糖尿病，因为在这些情况下，理想膳食的基本条件是可以共享的，包括足够的能量和均衡的营养，避免盐，并获得丰富的膳食纤维。我们还设计了该系统来评估一次吃一顿饭，因为日本糖尿病患者的健康饮食指南建议一天吃三顿饭，并尽可能确保每顿饭的营养均衡和比例均衡[<年代p一个n class="footers">7］．

近年来，许多食物图像识别系统已被提出[<年代p一个n class="footers">5，<年代p一个n class="footers">8-<年代p一个n class="footers">20.］．最流行的方法是使用通用物体识别技术，将食物分类。近年来，机器学习和大型数据库的发展加速了可识别食品类别数量的增长[<年代p一个n class="footers">17-<年代p一个n class="footers">19］．营养估计的一种方法是基于类别的估计;也就是说，识别食物的类别，并显示该类别的营养价值。这种方法不评估食物的数量，值输出假设一道菜包含常规的份量，或者要求用户从一组值中选择不同份量的多人或照片[<年代p一个n class="footers">14］．为了估计一道菜中的食物量，必须对每个食物区域进行分割，并估计每个部分的体积。最近的其他方法包括一种基于卷积神经网络(CNN)的方法，该方法使用大量食物图像及其营养价值来训练模型。为了更准确地估计营养，一种方法是同时假定食物的名称和食物的营养成分[<年代p一个n class="footers">9，<年代p一个n class="footers">11]，另一种则估计每道菜中的配料及其比例/重量，以此计算营养价值[<年代p一个n class="footers">15，<年代p一个n class="footers">20.］．显然，这些基于机器学习的食物识别系统需要大量的训练数据。最近的研究涉及到对包含数百种食物类别的原始食物数据集的食物识别[<年代p一个n class="footers">17-<年代p一个n class="footers">19］．然而，考虑到世界上种类繁多的食物，用这样一个模型涵盖所有种类几乎是不可能的。此外，家庭烹饪往往涉及菜肴很难分配到一个适当的类别名称，使其难以进行培训。为了识别食物类别，有些方法根据食物的成分来识别[<年代p一个n class="footers">12，<年代p一个n class="footers">13］．当烹饪过程中食材的外观变化最小时，这些方法是有效的。然而，在大多数情况下，烹饪后外观会发生很大变化，使得这种方法的范围相当有限。

与这些通过识别食物或成分类别来评估营养的传统方法相比，我们提出了一种通过查看整个膳食图像来预测一顿饭是否健康的新方法。我们的方法避免了非常困难的确定食物绝对值的食物图像识别任务。相反，我们的健康评估方法使用了一个排名网络和通过比较许多对膳食图像生成的排名数据。我们将一个由食物数据集和食物区域掩码训练的识别网络与一个排名网络融合在一起。这种方法允许从包含多个菜肴的餐点图像中提取食物特征，从而能够对整个餐点做出准确的判断。在这里，我们报告了一项试点研究的结果，以突出我们提出的系统从生成健康膳食排名数据到不健康膳食检测的管道。

可用于数据间比较的机器学习算法统称为机器学习排序算法(MLRAs)。提出了几种基于支持向量机(SVM)或CNN算法的MLRAs。众所周知，CNN在识别任务中提供了高性能，基于CNN的秩算法已被应用于估计图像的各种属性。一项研究证明了从城市景观图像中估计城镇属性[<年代p一个n class="footers">21］．我们使用了相同的MLRA，并使用手动按健康程度排名的膳食图像来训练它的CNN。学习风景图像的等级和学习膳食图像等级的一个区别是，膳食的健康程度应该仅从食物或配料来估计。因此，含有相同成分但被放在不同盘子里的食物应该被认为具有相同的健康程度。

防止神经网络学习健康与食物本身以外的因素之间的关系也很重要。为此，我们的排名网络被构建为仅使用食物区域来估计排名，通过使用空间选择区域进行学习，在训练阶段使用感兴趣区域的掩码来实现。然后根据Dubey et al[的排序方法，用许多有序的图像对来训练我们的网络。<年代p一个n class="footers">21]或TrueSkill [<年代p一个n class="footers">22］．

虽然网络可以在线训练，但我们采用了离线学习方法。我们首先建立了一个排名数据集，然后在训练网络时输入数据集中的图像对。我们使用这种方法是因为需要排名数据来计算排名得分的偏差值，这是我们系统的输出，直观地表达了膳食的健康程度。我们的数据库不是通过众包，而是由一位专家(注册营养师)注释的。提前建立排名数据集对专家是有帮助的，这使他们可以在任何方便的时间工作，如果需要可以重做工作。一旦建立了排名数据，我们只需从这个数据集中生成一组对的排名。

Rank-SVM [<年代p一个n class="footers">23，<年代p一个n class="footers">24]，一种基于mlra的方法，也用于图像检索。在Joachims提出的模型中[<年代p一个n class="footers">23]，图像的排名是使用一个排名数据集学习的，每个类别有几百张图像。考虑到我们数据集的大小有限，Rank-SVM有可能比CNN表现得更好;因此，我们在实验中比较了基于排名分数的CNN与Rank-SVM的性能来优化系统。

工作流

我们提出了一个基于图像的系统，可以根据构成膳食的菜肴的整体健康程度对膳食进行排名。首先，我们生成了一个膳食图像数据库，由观看图像的注册营养师进行排名。然后，我们构建了一个网络，该网络保持了判断膳食图像的重要条件，同时提取了消除背景信息和那些与位置无关的特征。网络的输出，<我>健康,而营养师的判断预期具有较高的相关系数。系统的工作流程如图所示<年代p一个n class="footers">图1．

我们的系统提取<我>健康得分，即与平均健康度的偏差，让使用者可以评估自己的饮食与平均健康度的差距，从而了解自己的饮食在健康度分布范围内是否属于健康选择。在<年代p一个n class="footers">图1，<我>年代健康评分是否由所提出的方法和估计<我>Th是筛选菜肴的健康阈值。当健康分数很高时，系统会向用户发送分数和一条消息，鼓励他们继续食用健康膳食和使用系统。该系统还允许用户检查他们的膳食图像记录与他们的健康评分;该功能可作为用户选择健康膳食的参考。当健康得分较低时(<我>年代<<我>Th)，注册营养师会介入，协助使用者调整饮食。这些用户可以查阅数据库中的健康膳食图片，以改善他们的膳食。因为用户在记录他们的饮食后立即获得反馈，如果他们最初选择的饮食得分较低，他们可以改变为更健康的饮食。

框架概述

我们的基于图像的膳食评级系统执行以下过程:(1)检查注册营养师是否可以仅通过查看小数据集(100餐)中的膳食图像来判断膳食的健康程度;(2)由注册营养师查看膳食图像，根据一组膳食图像(850餐)的比较生成排名数据;(3)基于排名来训练一个网络(特征提取子网络，在被我们的排名数据集训练之前由食物数据集预训练，以及排名估计子网络)来估计健康指标;(4)估计每餐的得分，以及估计每餐得分的领域适应性，最终基于健康指标检测不健康膳食。

饮食健康排名

基本事实与营养师的主观评价

Ground truth由图像集及其相关的秩组成。基本真理可以通过烹饪样餐来发展。注册营养师会使用经测量的营养价值的食材烹煮样餐，以便利用经证实的营养公式准确计算总营养价值[<年代p一个n class="footers">7］．然后对食物进行拍照，并对营养价值进行排序，从而得到一组图像和排名。

这种方法是资源密集型的，在实际情况下，由于资源限制导致数据集较小。因此，我们需要更大的数据集来训练网络。因此，我们扩大了地面真相集，使用专家仅基于图像对健康排名进行主观评估。为了建立该方法的有效性，我们验证了注册营养师专家可以通过查看膳食图像来适当地判断健康等级。我们请营养师检查基本真相集中的图像，并根据它们的营养价值对它们进行排名。判断餐食图像的营养师与为ground truth数据集烹饪并拍摄餐食样本的营养师是不同的。然后，我们评估了营养师观看食物图像所给出的排名与基于营养测量的真实排名之间的关系。基于营养测量的基本真相排名是根据日本的食物成分标准值计算的[<年代p一个n class="footers">25，<年代p一个n class="footers">26］．简而言之，总能量和能量比(蛋白质、脂肪和碳水化合物的比例)和补充项目(盐的适当性和蔬菜、豆类、蘑菇等富含膳食纤维的食物的量)是计算所需的项目。

生成排名数据

为了生成包含图像和每张图像中隐含的健康指标的数据集，我们使用了一个自定义应用程序，该应用程序显示了一组由营养师根据健康状况从“最好”到“最差”进行排名的多餐图像。一位营养学家被告知，排名应该表明菜肴是否可以恰当地构成一顿饭，还被告知，只看每顿饭的图像就能尽可能准确地做出判断。如果很难区分两餐，那么对多餐进行相同的分级也是可以接受的。为了减少营养师的工作量，我们的应用程序在每一步只显示4张图片。应用程序界面如图<年代p一个n class="footers">图2．在这项研究中，我们使用了2型糖尿病患者的膳食图像数据库。

排序算法如<年代p一个n class="footers">多媒体附件1，其中<我>N<年代ub>c= 4。根据由营养师执行的算法中的第17步，我们通过对由一个枢轴图像和其他图像组成的多餐图像集进行重复排名来生成排名数据。为了将来生成更大的排名数据集，TrueSkill [<年代p一个n class="footers">22]算法可以使用，该算法考虑了注释的分布，合并了多个注册营养师注释的秩集。

建议的网络和列车排名

我们使用Dubey等人提出的方法训练网络输出随机选择的图像对的正确排序顺序[<年代p一个n class="footers">21］．该方法最初是为了训练城市图像而提出的，将排名与安全性联系起来，从整个图像中提取特征，并将分数作为标量值输出。因此，我们必须将该算法用于餐点图像。

膳食的健康程度应仅从所含食物或配料来判断。因此，含有相同成分但在不同背景或盘子上拍摄的食物应该被认为具有相同的健康程度。为了确保这种连续性，我们修改了排名层，使像素特征只包含在感兴趣的区域中，消除了食物放置或背景(如表格)的任何可能影响。在训练阶段，我们通过使用一个掩码来指示食物的区域，防止网络学习健康与食物本身以外的因素之间的关系。掩模只是在食物区域使用1值，在其他地方使用0值，因此原始图像和掩模的逐像素乘法会产生一个图像，其中食物区域与原始图像相同，并且图像中食物区域以外的任何部分都被赋予0值。掩码是在提议的系统之外手动生成的。仅当数据用于训练时才应用掩码;一旦网络被训练好，屏蔽就不再需要了。

预测健康的网络是使用注册营养师生成的扩展地面真相排名数据进行训练的。在训练过程中输入成对的图像和它们的相对排名，所有成对的图像都被标记为哪个比另一个更健康。重复的网络被用来预测健康状况。它们的输出被用来计算损失，其定义为:

(1）

（2）

在哪里<我>x<年代ub>我, x<年代ub>j这是一对图像吗<我>我，<我>j对于训练，∈是所有标记的图像对的集合，和<我>f (x)图像是否正常<我>x．<我mg class="inline-graphic-image" alt="" src="https://asset.jmir.pub/assets/8304c4820943e7c61b1ab8ede887d838.png" border="0" style="width:auto; height:12pt; position:relative; top:3px; background-color: #ffffff;">而且<我mg class="inline-graphic-image" alt="" src="https://asset.jmir.pub/assets/782578d46046f8e20415eb47f212468f.png" border="0" style="width:auto; height:12pt; position:relative; top:3px; background-color: #ffffff;">ground truth是否健康，与方程(2)中图像的ground truth顺序是否有关系<我>x<年代ub>我而且<我>x<年代ub>j．

我们分配<我>我而且<我>j得到满足的一对图像<我mg class="inline-graphic-image" alt="" src="https://asset.jmir.pub/assets/4d41dd93546067557ac4821feeb1f213.png" border="0" style="width:auto; height:12pt; position:relative; top:3px; background-color: #ffffff;">．由于(1)式损失函数的值随着估计阶数的减小而减小<我>f (x<年代ub>我）而且<我>f (x<年代ub>j）是<我>f (x<年代ub>我）><我>f (x<年代ub>j）在图像之间真实有序关系的条件下<我>我而且<我>j是<我mg class="inline-graphic-image" alt="" src="https://asset.jmir.pub/assets/4d41dd93546067557ac4821feeb1f213.png" border="0" style="width:auto; height:12pt; position:relative; top:3px; background-color: #ffffff;">，训练排序预测器，使所有数据的损失最小化。当<我>f (x<年代ub>我）><我>f (x<年代ub>j），这是真的，而且<我>l会得到一个接近0的值。当估计秩的顺序<我>f (x<年代ub>我）而且<我>f (x<年代ub>j）是<我>f (x<年代ub>我）<<我>f (x<年代ub>j），它是假的，和<我>l会给出一个很大的值。

作为特征提取的网络，我们采用了与金字塔场景解析网络(PSPNET)相同的架构[<年代p一个n class="footers">27］．这提供了像素级类别预测。为了获得特征向量与食物局部区域特征之间的显式关系，对特征提取模块进行了提前训练。可以通过优化排名和食物类别来训练这个模块;但是，同时具有等级和食物类别注释的数据集是不可用的。因此，我们采用了一种串行方法，使用大型食物类数据集对特征提取层进行预训练，然后将其连接到排名层，然后以端到端方式进行训练排名。

我们使用UEC FOOD-100数据集[<年代p一个n class="footers">5，<年代p一个n class="footers">19]，其中包含100个食品类别，用于特征提取层的预训练。该网络经过预先训练，以输出正确的食物类别。PSPNET [<年代p一个n class="footers">27]在特征提取层中按像素预训练到输出的食物类别。整个体系结构显示在<年代p一个n class="footers">图3．

图3。提出了训练餐点排名数据的系统。特征提取层由卷积神经网络(CNN)和金字塔场景解析网络(PSPNet)组成[<年代p一个n class="footers">27]，它输出按像素的特征图。排名层模块用于估计分数。FC:全卷积层。

由于网络对健康性的断言本身没有意义，我们将偏差定义为健康性值，其计算方法为与方差归一化后的网络输出的均值之间的距离。我们称这个方差为<我>健康得分，这与<我>排名．

实验

验证营养师主观评价的准确性

专家(注册营养师)必须从图像中推断出成分和食物。

然后，我们确认了基于观看图像的排名与根据预先测量的营养价值排名的排名之间的关系，使用注册营养师基于图像的排名来创建我们实验中的扩展事实集。

验证膳食评级模型的准确性

我们在实验中考虑了配对比较和排名估计、不健康餐点检测以及餐点图像的域适应性。

我们使用了2型糖尿病患者的原始膳食图像数据库(参见下面的一般排名数据部分，了解排名注释的详细过程)和UEC食物数据集[<年代p一个n class="footers">19］．我们将营养师90%的排名数据用于训练所提出的基于cnn的排名估计系统，其余的排名数据用于配对比较/排名估计和不健康膳食检测。

为了对CNN进行预训练和评估排序估计的领域适应性，我们使用了UEC Food Dataset中的图像。

配对比较和秩估计

我们在不同条件下评估了健康排名的准确性:(1)使用和不使用特征提取层预训练，(2)使用和不使用由语义分割生成的掩码，(3)在训练和测试阶段使用CNN+FC(使用连接CNN和Rank-SVM的全卷积层)或Rank-SVM作为输出层，以及(4)使用基于排名的CNN [<年代p一个n class="footers">21]使用口罩。

我们进行了实验，以检查预先训练CNN对特征提取的贡献，与使用Rank-SVM相比，使用CNN进行输出层的端到端结构，并与Dubey等人提出的原始基于排名的CNN相比，检查我们的方法的性能[<年代p一个n class="footers">21］．由于原有的基于排名的CNN (RSS-CNN)没有使用表示食物区域的掩码结构，我们通过嵌入0值来掩盖输入图像中食物以外的区域，与我们在相同条件下的方法进行比较。我们比较了两种网络:一种是基于RSS-CNN的，另一种是基于Rank-SVM的。后者使用CNN特征通过rank - svm输出健康等级，CNN特征是由与基于rss -CNN网络构造的网络相同的经过训练的CNN生成的。

评价指标为比较错误率<我>E<年代ub>p和平均顺序误差<我>E<年代ub>o确定如下。

当估计分数之间的顺序关系<我>年代<年代ub>我而且<我>年代<年代ub>j一对测试图像的<我>我<年代ub>我而且<我>我<年代ub>j是否与分数对之间的顺序关系相同<我>ŝ<年代ub>我而且<我>ŝ<年代ub>j由注册营养师指定<我>我<年代ub>我而且<我>我<年代ub>j，为对的得分估计结果<我>我而且<我>j被认为是真的，<我>C（<我>我,我) = 1。

对所有测试图像进行配对排序的准确性计算。被证明正确的计数之比就被作为比较的错误率<我>E<年代ub>p对的。

其中Ω是所有其他测试样本对的集合(<我>我<年代ub>我，<我>我<年代ub>j)， (<我>我,我∈{<我>我<年代ub>1,我<年代ub>2、……<我>我<年代ub>N}),<我>N是测试样本的数量。

我们根据两个分数对测试样本进行排序，得出了两个排名:由建议方法估计的分数和由注册营养师分配的分数。然后我们比较了顺序<我>o<年代ub>我的<我>我<年代ub>我按顺序<我>o<年代ub>我由注册营养师，并计算误差之间<我>o<年代ub>我而且<我>o<年代ub>我作为<我>e<年代ub>我=∣<我>o<年代ub>我- - - - - -<我>o<年代ub>我∣;<我>o<年代ub>我是根据估计的秩对图像进行排序得到的。

顺序的平均误差<我>E<年代ub>o的平均值是多少<我>e<年代ub>我；Ω为测试样本集合{<我>我<年代ub>1,我<年代ub>2、……<我>我<年代ub>N},<我>N是测试样本的数量。

不健康饮食检测

该系统可用于检测不健康饮食。它可以自动识别哪些患者倾向于选择不健康的饮食，并引发健康专家的监督。为了证实这一点，我们进行了一项不健康饮食检测实验。

排序估计的领域适应性

为了测试我们方法的领域适应性，我们估计了一个公开可用的数据库UEC食品数据集[<年代p一个n class="footers">5，<年代p一个n class="footers">19]，它的域与我们的训练数据集的域不同。

营养师主观评价

图4显示了根据观看图像判断的等级与地面真相等级之间的相关性。相关系数为0.73，我们证实了基于观看图像的排名与基于测量营养价值的排名是相关的。Bland-Altman图进一步证实不存在固定偏倚或比例偏倚(<年代p一个n class="footers">多媒体附件2)．因此，我们在实验中使用注册营养师的基于图像的排名来创建一个扩展的基本真相集。

配对比较和秩估计

表1显示在不同条件下对健康进行排名的准确性结果。该方法采用了掩蔽、预训练和CNN的方法，其结果优于没有任何特征提取相关模块的网络。

表1。方法间健康错误率的评价。

方法	训练模型的条件			排名错误率(<我>E_o）	成对排序的错误率(<我>E_p）
	屏蔽	Pretraining	排序法
该方法	是的	是的	美国有线电视新闻网<年代up>一个	13.94	16.40%
	是的	没有	美国有线电视新闻网	14.59	17.16%
	没有	是的	美国有线电视新闻网	16.6	19.5%
	是的	是的	Rank-SVM<年代up>b	16.2	19.1%
基于排名的CNN [<年代p一个n class="footers">21］	是的	没有	美国有线电视新闻网	15.44	18.15%

^一个CNN:卷积神经网络。

^b支持向量机:支持向量机。

根据营养师的判断得出的健康排名与用所提方法估计的排名之间的关系如所示<年代p一个n class="footers">图5．排名被归一化，有一个平均值为0和单位方差，然后转换为范围从0到100。这些排名之间的相关系数为0.72。通过Bland-Altman图的评估，我们也确认了不存在固定偏倚或比例偏倚(<年代p一个n class="footers">多媒体)．

不健康饮食检测

表2显示了通过提出的和基于排名的CNN方法在不健康膳食检测中实现的准确性结果。虽然两种方法之间的差异很小，但所提出的全流程方法仍然优于其他方法。

表2。不健康膳食检测的准确性评价。

方法	训练模型的条件			不健康膳食检测的准确性
	屏蔽	Pretraining	排序法
该方法	是的	是的	美国有线电视新闻网<年代up>一个	76.5%
	是的	没有	美国有线电视新闻网	73.9%
	没有	是的	美国有线电视新闻网	72.5%
	是的	是的	Rank-SVM<年代up>b	70.3%
基于排名的CNN [<年代p一个n class="footers">21］	是的	没有	美国有线电视新闻网	72.86%

^一个CNN:卷积神经网络。

^b支持向量机:支持向量机。

曲线<年代p一个n class="footers">图6显示被检测为不健康但实际上是健康的膳食数量与被检测为不健康和实际上是不健康的膳食数量的比例。每条曲线都显示了将“不健康”定义为排名较低的食物时的数值<我>k% (<我>k= 50,60,70)。

图6。不健康膳食检测的受试者工作特征曲线。横轴为假阳性率(FP)，纵轴为真阳性率(TP)。每条曲线显示TP与FP的值集，当不健康膳食的定义是其排名低于k% (k= 50,60,70)的所有膳食时。

所提出的方法所确定的样本图像及其健康度值如图所示<年代p一个n class="footers">多媒体附件4，包括得分高或低的图像，以及错误率大的图像示例。这些图片显示了专家预测的非常健康的食物，但却被认为是非常不健康的，反之亦然。

排序估计的领域适应性

多媒体显示了来自UEC-Food数据集的样本餐点图像，其域与我们训练数据集中使用的不同，以及通过所提出的方法估计的各自健康得分，包括得分较高和较低的餐点。

主要研究结果

我们的实验结果表明，基于营养师判断的健康排名与通过所提方法估计的排名之间存在一定的关系(<年代p一个n class="footers">图5)， CNN很可能获得了类似人类直觉的东西。<年代p一个n class="footers">多媒体附件4显示了膳食图像样本和由所提出的方法估计的健康偏离值。得分高的餐食图像比得分低的餐食图像包含更多的菜肴和更多的红色或绿色。虽然我们不能从这一发现中推断出原因，但可以合理地假设，图像中食物的颜色或菜肴的数量可能影响了健康预测。

对于错误率较大的图像(<年代p一个n class="footers">多媒体附件4)，左图中生肉的红色或天妇罗的黄色可能会诱使系统将菜肴评级为健康，尽管营养师认为它们是不健康的，因为它们含有过多的卡路里。相反，下面的图片显示了被预测不健康但被专家判定为健康的食物。的<我>yakisoba左图中的菜是炒面，里面有很多蔬菜和肉;营养师认为这顿饭是健康的，但它的颜色可能导致了系统的负面预测。由于网络对健康的预测逻辑不明确，食物颜色或菜肴数量的影响是不确定的。然而，一些由营养师形成的隐式标准似乎已经转移到网络模型中。

在<年代p一个n class="footers">多媒体显示在UEC食品数据集中得分相对较高或较低的样本，该数据集在训练模型时使用的领域与我们的原始数据集不同。得分较高的餐点大多包含多种营养均衡的食材(即肉加蔬菜)。得分较低的主要是单盘菜肴，不含蔬菜，碳水化合物含量高。

虽然这些食物是在不同的时间烹制的，包含的食材也略有不同，但一些视觉线索与健康状况有关，我们可以假设提出的系统使用这些视觉线索来评估健康状况。

在这项工作中，我们训练网络学习一个基于营养师定义的模型。通过使用我们的排名GUI工具建立训练数据并训练其他模型，将来可以提供多个指数。

基于配对比较和秩估计，我们发现掩蔽和预训练都是学习饮食健康的有效方法。使用排序层的端到端结构的结果优于使用特征提取层和Rank-SVM得到的结果。这表明，排名层使用的端到端方法比Rank-SVM使用的基于特征的提取方法获得了更好的性能。提出方法的等级与营养师给出的等级之间的相关系数为0.72，不是特别高;但是，这种相关性和成对比较预测的错误率为16.4%(准确率为83.6%)与之前的工作是一致的，包括原始排名方法的准确性(从城市形象对城市的安全性进行排名)[<年代p一个n class="footers">21的比例为73.5%，以及一项相关研究，利用基于机器学习的热量估算方法，从包含单一盘子的膳食图像中[<年代p一个n class="footers">20.]，报告了膳食图像的估计卡路里和真实卡路里的相关系数为0.78。

不健康饮食检测的结果表明，可以设置一些适当的阈值来平衡假阳性和真阳性。例如，当每天上传60张餐点图片(来自30个用户的2张餐点图片)时，通过将“不健康”定义为所有餐点中排名较低的50%的餐点，可以选择一个阈值，以便自动检测出排名较低的30张图片，只包括一些健康餐点。对排名估计的域适应性评估表明，我们的方法具有域适应性，因此在各种条件下(即在家里或餐馆)拍摄的用餐图像将是可接受的。

由于我们的膳食图像数据库是由2型糖尿病患者的真实膳食照片组成的，数据库规模不大，食物种类也有限。此外，用于训练排名模型的实际有效数据集甚至更小，因为我们允许营养师在注释膳食图像的排名时使用并列排名。对膳食图像数据库的一部分进行培训的营养师数量也有限。目前，我们有来自两位营养师的数据。在这项工作中，由于数据集规模较大，我们只使用了一位营养师的数据。由于这些限制，我们的实验结果必须根据初步研究的背景来解释。生成一个包含更多餐食类别的更大的数据库将有助于提高排名估计的准确性。

我们使用机器学习方法生成了排名估计模型，假设膳食图像的外观和营养师给出的排名之间存在联系。然而，如果有更大规模的数据集，我们就有可能将膳食分为健康膳食和不健康膳食的多个类别。

结论

我们提出了一个基于图像的系统，可以根据构成膳食的菜肴的整体健康程度对膳食进行排名。首先，我们发现排名与基于营养价值的排名有良好的相关性。然后，我们提出了一个网络，该网络允许对判断膳食图像很重要的条件，同时提取消除背景信息且与位置无关的特征。在此条件下，实验结果表明，该网络比传统的图像排名方法获得了更高的健康排名估计精度。虽然训练数据集的大小对于纯训练解决方案来说还不够大，但使用食物数据集引入特征提取网络的预训练使系统能够产生与专家排名高度相关的估计排名。

这个检测不健康饮食的实验结果表明，我们的系统可以用来帮助医护人员为糖尿病患者制定饮食计划，他们需要选择健康饮食的建议。未来的工作将包括使用多个注册营养师的排名数据创建一个更大的数据集，并提高推断的准确性。

致谢

这项工作得到了日本科学促进协会(JSPS) KAKENHI基金(16K09163)的支持。

利益冲突

SK和KW是无处不在健康信息学部门的成员，该部门参与了东京大学和NTT DOCOMO之间的合作项目。

‎

多媒体附件1生成排名数据集的算法。

DOCX文件，14kb

‎

多媒体附件2由营养师提供的膳食健康等级的Bland-Altman图和提出的方法。

PNG文件，116kb

‎

多媒体Bland-Altman图的平均值和基于营养测量的真实排名和由营养师观看食物图像给出的排名之间的差异。

PNG文件，133kb

‎

多媒体附件4采用本文方法估计的膳食图像样本和健康度偏差值(上)，以及错误率较大的膳食图像样本(下)。

DOCX文件，785 KB

‎

多媒体来自UEC-Food Dataset的膳食图像样本及其健康评分(a)较高评分和(b)较低评分的膳食通过所提出的方法估计。

DOCX文件，370 KB

Rollo ME, Aguiar EJ, Williams RL, Wynne K, Kriss M, Callister R，等。电子健康技术支持糖尿病自我管理中的营养和身体活动行为。糖尿病代谢综合征2016;9:381-390。［<一个target="_blank" href="https://dx.doi.org/10.2147/DMSO.S95247">CrossRef] [<一个href="https://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&list_uids=27853384&dopt=Abstract" target="_blank">Medline］
Franco Z, Fallaize R, Lovegrove JA, Hwang F.流行的营养相关移动应用程序:功能评估。JMIR Mhealth Uhealth 2016年8月01日;4(3):e85 [<一个href="//www.mybigtv.com/mhealth/2016/3/e85/" target="_blank">免费全文] [<一个target="_blank" href="https://dx.doi.org/10.2196/mhealth.5846">CrossRef] [<一个href="https://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&list_uids=27480144&dopt=Abstract" target="_blank">Medline］
Waki K，相泽K，加藤S，藤田H，李H，小林H，等。DialBetics与多媒体食物记录工具，FoodLog:基于智能手机的2型糖尿病自我管理。中华糖尿病杂志2015 May 16;9(3):534-540 [<一个href="http://europepmc.org/abstract/MED/25883164" target="_blank">免费全文] [<一个target="_blank" href="https://dx.doi.org/10.1177/1932296815579690">CrossRef] [<一个href="https://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&list_uids=25883164&dopt=Abstract" target="_blank">Medline］
Aizawa K, Ogawa M. FoodLog:医疗保健应用的多媒体工具。电子工程学报，2015,26(2):344 - 344。［<一个target="_blank" href="https://dx.doi.org/10.1109/MMUL.2015.39">CrossRef］
柳井浩，河野勇。基于深度卷积网络的食品图像识别与预训练和微调。2015年6月29日出席:IEEE多媒体国际会议及博览会研讨会;ICMEW;2015;都灵。［<一个target="_blank" href="https://dx.doi.org/10.1109/icmew.2015.7169816">CrossRef］
竹内T，藤井T，小川K，鸣海T，谷川T，广濑M.利用社交媒体改变饮食习惯，无需刻意努力。2014年发表于:ACM普适与普适计算国际联合会议;2014年9月13-17日;西雅图527-535页。［<一个target="_blank" href="https://dx.doi.org/10.1145/2638728.2641330">CrossRef］
日本糖尿病学会编辑。食物交换清单-糖尿病患者膳食指南(日文)。东京:Bunkodo;2013年11月1日。
王晓明，王晓明，王晓明。基于多食物图像的碳水化合物计算方法研究。2013年11月10日发表于:IEEE生物信息学与生物工程国际会议;BIBE;2013;有关。［<一个target="_blank" href="https://dx.doi.org/10.1109/bibe.2013.6701608">CrossRef］
杨森，陈敏，Pomerleau D, Sukhankar R.基于双局部特征统计的食品识别。2010年6月13日发表于:IEEE计算机视觉与模式识别国际会议;CVPR;2010;旧金山。［<一个target="_blank" href="https://dx.doi.org/10.1109/cvpr.2010.5539907">CrossRef］
Farinella G, Naik N, Parikh D, Raskar R, Hidalgo CA.将食物图像分类为一袋texton。2014年10月27日发表于:IEEE图像处理国际会议;ICIP 2014;2014;巴黎。［<一个target="_blank" href="https://dx.doi.org/10.1109/icip.2014.7026055">CrossRef］
张伟，于Q, Siddiquie B, Divakaran A, Sawhney H。“Snap-n-Eat”:智能手机上的食物识别和营养评估。中国糖尿病杂志2015年5月;9(3):525-533 [<一个href="http://europepmc.org/abstract/MED/25901024" target="_blank">免费全文] [<一个target="_blank" href="https://dx.doi.org/10.1177/1932296815582222">CrossRef] [<一个href="https://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&list_uids=25901024&dopt=Abstract" target="_blank">Medline］
何红，孔峰，谭娟。基于多核支持向量机的多视角食物识别。IEEE生物医学健康信息2016年5月;20(3):848-855。［<一个target="_blank" href="https://dx.doi.org/10.1109/JBHI.2015.2419251">CrossRef] [<一个href="https://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&list_uids=25850095&dopt=Abstract" target="_blank">Medline］
张旭，陆勇，张松。基于深度卷积神经网络的多任务学习食品识别与分析。计算科学与技术，2016年5月6日;31(3):489-500。［<一个target="_blank" href="https://dx.doi.org/10.1007/s11390-016-1642-6">CrossRef］
陈勇，曹超，陈勇，陈志强，陈志强，陈志强。基于图像识别的食品图像跟踪;系统和实验。2018年2月5日出席:第24届多媒体建模国际会议;嗯;2018;曼谷。
何勇，徐超，Khanna N.食品图像分析:分割、识别和权重估计。2013年发表于:IEEE国际多媒体会议与博览会;ICME;2013年7月15-19日;圣何塞。［<一个target="_blank" href="https://dx.doi.org/10.1109/icme.2013.6607548">CrossRef］
Anthimopoulos MM, Gianola L, Scarnato L, Diem P, Mougiakakou SG。基于优化特征袋模型的糖尿病患者食物识别系统。IEEE生物医学健康信息2014 7月;18(4):1261-1271。［<一个target="_blank" href="https://dx.doi.org/10.1109/JBHI.2014.2308928">CrossRef] [<一个href="https://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&list_uids=25014934&dopt=Abstract" target="_blank">Medline］
陈敏，吴伟，杨玲，杨娟。PFID:匹兹堡快餐图像数据集。2009年发表于:IEEE图像处理国际会议;ICIP 2009;2009年11月7日至10日;开罗。［<一个target="_blank" href="https://dx.doi.org/10.1109/icip.2009.5413511">CrossRef］
张旭，周峰，林勇，张松。一种细粒度特征表示的嵌入标签结构。2016年6月27日发表于:IEEE计算机视觉与模式识别国际会议;CVPR;2016;拉斯维加斯。［<一个target="_blank" href="https://dx.doi.org/10.1109/cvpr.2016.126">CrossRef］
Kawano Y, Yanai K. Foodcam 256:采用高维特征和分类器权重压缩的大规模实时移动食品识别系统。2014年发表于:ACM多媒体建模国际会议;Acm mm 2014;2014年11月7日;奥兰多。［<一个target="_blank" href="https://dx.doi.org/10.1145/2647868.2654869">CrossRef］
Ege T, Yanai K.使用食物类别，配料和烹饪方向知识的基于图像的食物卡路里估算。2017年10月23日发表于:ACM多媒体主题研讨会;2017年10月23-27日;山景城第367-375页。［<一个target="_blank" href="https://dx.doi.org/10.1145/3126686.3126742">CrossRef］
Dubey A, Moltisanti M, Battiato S.深度学习城市:在全球范围内量化城市感知。2016年发表于:第14届欧洲计算机视觉会议;大会;2016年10月8-16日;阿姆斯特丹。
刘志刚，刘志刚，刘志刚。基于贝叶斯算法的技能评价系统。2006国际技术会议。2006年12月4日至9日;温哥华。
使用点击数据优化搜索引擎。约阿希姆;2002年发表于:ACM知识发现与数据挖掘国际会议;SIGKDD;2002年7月23-26日;旧金山。［<一个target="_blank" href="https://dx.doi.org/10.1145/775047.775067">CrossRef］
胡木丽，于宁。多实例排序:图像检索中的图像排序学习。2008发表于:IEEE计算机视觉与模式识别会议;CVPR 2017;2017年7月22-25日;火奴鲁鲁。［<一个target="_blank" href="https://dx.doi.org/10.1109/cvpr.2008.4587352">CrossRef］
日本膳食参考摄入量(2015)。:厚生劳动省保健服务局网址:<一个target="_blank" href="https://www.mhlw.go.jp/file/06-Seisakujouhou-10900000-Kenkoukyoku/0000208954.pdf">https://www.mhlw.go.jp/file/06-Seisakujouhou-10900000-Kenkoukyoku/0000208954.pdf[2020-10-15]访问
Yoshiike N, Hayashi F, Takemi Y, Mizoguchi K, Seino F.日本新美食指南:日本美食指南旋转陀螺。Nutr Rev 2007 4月;65(4):149-154。［<一个target="_blank" href="https://dx.doi.org/10.1111/j.1753-4887.2007.tb00294.x">CrossRef] [<一个href="https://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&list_uids=17503709&dopt=Abstract" target="_blank">Medline］
赵宏，史俊，齐霞，王霞，贾娟。金字塔场景解析网络。2017年7月22日发表于:IEEE计算机视觉与模式识别会议;CVPR;2017年7月22-25日;火奴鲁鲁。［<一个target="_blank" href="https://dx.doi.org/10.1109/cvpr.2017.660">CrossRef］

‎

有线电视新闻网:卷积神经网络

MLRA:机器学习排序算法

PSPNET:金字塔场景解析网络

支持向量机:支持向量机

G·艾森巴赫(G Eysenbach)编辑;提交02.03.20;M Donaldson, S Capra同行评审;对作者01.06.20的评论;订正版本收到26.07.20;接受02.10.20;发表26.10.20

©Kyoko Sudo, Kazuhiko Murasaki, Tetsuya Kinebuchi, Shigeko Kimura, Kayo Waki。最初发表于JMIR形成研究(http://formative.www.mybigtv.com)， 26.10.2020。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息，http://formative.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下<年代p一个n class="collection__span">e-collection /主题问题:

基于机器学习的图像分析健康食品筛选:系统开发和试点研究

基于机器学习的图像分析健康食品筛选:系统开发和试点研究

原始论文

通讯作者:

摘要

关键字

简介

方法

工作流

框架概述

饮食健康排名

基本事实与营养师的主观评价

生成排名数据

建议的网络和列车排名

实验

验证营养师主观评价的准确性

验证膳食评级模型的准确性

配对比较和秩估计

不健康饮食检测

排序估计的领域适应性

结果

营养师主观评价

配对比较和秩估计

不健康饮食检测

排序估计的领域适应性

讨论

主要研究结果

结论

致谢

利益冲突

参考文献

缩写