医学网际网路研究杂志-发展一个身体活动本体以支持身体活动资料的互用性

原始论文

¹美国北卡罗来纳州达勒姆市杜克大学护理学院

²加州大学洛杉矶分校放射科学系，美国加州洛杉矶

通讯作者:

hyyeoneui Kim, PhD, MPH, RN, FAAN

护理学院

杜克大学

特伦特道307号

达勒姆，北卡罗来纳州，27710

美国

电话:1 919 684 7534

电子邮件:hyeoneui.kim@duke.edu

背景:身体活动数据提供了疾病发病、进展和治疗结果的重要信息。虽然结合其他临床和微生物数据分析身体活动数据将导致对改善人类健康至关重要的新见解，但它一直受到阻碍，部分原因是数据收集和呈现方式的巨大差异。

摘要目的:本研究的目的是开发一个身体活动本体(Physical Activity Ontology, PACO)，以支持身体活动异构描述的结构化和标准化。

方法:我们准备了一个包含1140个独特句子的语料库，这些句子收集自各种体育活动问卷和量表以及现有的标准化术语和本体。我们使用名为“多用途文本处理工具”的自然语言处理工具包从语料库中提取与体育活动相关的概念。目标概念使用prot (version 4)形式化为本体。对PACO进行评估，以确保逻辑和结构的一致性，并遵守构建本体的最佳实践原则。PACO的一个用例应用程序是通过结构化和标准化36个锻炼习惯声明，然后使用fact++ (protelsamuest中提供的本体推理器)将它们自动分类到一个定义的充分活跃或不充分活跃的类来演示的。

结果:PACO采用从问卷和评估量表中提取的268个独特概念构建。PACO包含225个类，包括9个定义类、20个对象属性、1个数据属性和23个实例(不包括36个练习语句)。类的最大深度为4，兄弟姐妹的最大数量为38。使用本体审计工具进行的评估确认了PACO在结构和逻辑上是一致的，并且满足了本体编写的大多数最佳实践规则。我们在36个运动习惯声明的小样本中展示了我们可以使用PACO概念和对象属性正式表示它们。使用fact++推理器，使用形式化表示来推断充分活跃或不充分活跃的患者活动状态类别。

结论:作为对体育活动异构描述进行标准化和结构化以进行综合数据分析的第一步，基于体育活动问卷和评估量表收集的概念构建了PACO。PACO被评估为结构一致且符合本体创作原则。PACO也被证明在标准化异质体育活动描述和将其分类为反映运动充分性的临床有意义的类别方面具有潜在的作用。

医学与互联网杂志，2019;21(4):12776

doi: 10.2196/12776

关键字

锻炼；休闲活动；健康信息互操作性；作为主题的术语

重用体育活动数据的挑战

毫无疑问，健康的生活方式，尤其是积极锻炼身体，对健康生活至关重要。许多科学研究表明，体育活动对疾病的发生和进展以及治疗结果有直接影响[1-7]。虽然结合其他临床和微生物数据分析身体活动数据将导致对改善人类健康至关重要的新见解，但由于数据收集和呈现方式的巨大差异，其执行具有挑战性。

第一个挑战涉及测量和评估身体活动所获得的数据的异质性。通过个人传感器设备捕获的身体活动数据的高分辨率时间样本现在越来越多地用于无处不在的监测。基于问卷的描述性测量也被广泛用于评估一个人的整体运动习惯和影响一个人身体活动能力和愿望的因素。这些基于问卷的测量补充了与传感器设备相关的客观测量。每个度量都对重用它生成的数据提出了挑战。本研究关注改善基于问卷和评估量表产生的描述性度量的可重用性。

第二个挑战与数据的可用性有关。在利用文本数据时，体育活动数据并没有摆脱一个共同的障碍，即将数据转换为可计算的，即结构化和标准化的格式[8，9]。例如，身体活动数据通常用非技术术语在一个长句子中描述，并且经常隐藏在临床遇到时产生的叙述性笔记中。一个临床问题的样本可能如下[10]：

在过去7天，你有多少次参与轻运动或康乐活动，例如保龄球、用球车打高尔夫球、沙球、在船上或码头钓鱼或其他类似活动?

使用冗长的描述性句子可以通过减少误解的空间来帮助清楚地传达问题的意图。然而，结合其他临床和生物学数据系统地分析这些数据也带来了挑战。

现有标准化方法在表示体育活动数据方面的局限性

通用数据要素(Common data elements, CDEs)在多个学科中被用于标准化由评估量表和问卷收集的数据，并被广泛用于获取包括身体活动信息在内的自我报告数据[11]。表型和暴露的共识测量(PhenX)工具包是可用于生物医学研究的标准测量协议的集合，通过RTI国际和国家卫生研究所之间的合作协议开发[12]。PhenX提供了一些标准化的量表和问卷，推荐用于收集身体活动数据[12]。部分PhenX措施现已纳入逻辑观察标识名称及代码[13]。国家医学图书馆的CDE存储库允许用户搜索生物医学领域的标准化数据元素，并在查询的数据元素上提供丰富的元数据，包括标准化的概念代码[14]。

CDEs是标准化问卷数据的有效方法。然而，有一些研究涉及当地编制的问卷，而基于cde的标准化工作未包括其中。通常，在各种问卷中存在大量的信息重叠。例如，有些问题与高度相似的主题有关，但属于不同的问卷，因此被视为独特的cde。例如，“在过去的7天里，你有多少天进行了10分钟或以上的体力活动?”和“每周每天体力活动20分钟”都询问了一个人在一周内进行体力活动的天数，尽管指出了不同的活动持续时间。前者是神经系统疾病患者生活质量问卷中的一个问题[15]，后者来自美国国家神经疾病与中风研究所的调查问卷[16]。系统地识别它们的相似性将促进体育活动相关数据的互操作性。

国家协调员办公室(ONC)和医学研究所(iom，现为美国国家医学院)承认，体育活动是需要以结构化格式纳入电子健康记录(EHRs)的9个社会和行为健康领域之一[17]。此外，ONC和IOM从运动生命体征中认识到以下两个突出问题[18]作为评估身体活动的候选措施:

平均来说，你每周有多少天进行中度到剧烈的运动(比如快走、跑步、慢跑、跳舞、游泳、骑自行车或其他会出汗的活动)?
平均来说，你在这个水平上做多少分钟的运动?

这两个问题当然提供了病人整体运动习惯的最少必要信息。然而，将体育活动纳入护理方案或调查其如何影响健康结果需要更详细和多样化的身体活动水平表示。此外，在EHR中重用现有的患者身体活动数据的挑战仍然是艰巨的，包括与歧义和语义不一致相关的问题。此外，这些数据仍然很大程度上隐藏在临床叙事文本与高度可变的表达形式。因此，鉴于临床对身体活动评估重要性的认识日益提高，迫切需要探索定义一个扩大的身体活动数据表示，以补充和巩固现有的标准化工作。

现有物理活动数据本体的差距

许多本体和标准化术语涵盖了体育活动领域的各个方面，但概念覆盖仍然不完整。我们回顾了现有的相关本体和术语系统，对它们的结构进行了基准测试，并为我们提出的身体活动本体(PACO)汇总了相关概念。活动、社会和健康数据语义挖掘(SMASH)本体包含74个概念类，涵盖了与社会活动和网络相关的概念[19]。SMASH有一个完善的体育活动类型层次结构，分为竞技体育、运动和职业活动。然而，它对活动类型的概念覆盖相当有限，并且没有提供描述体力活动强度和数量所需的修饰概念。评估身体活动和久坐行为的本体(OPA)为与身体活动相关的各种概念领域提供了形式化表达[20.]。OPA侧重于正式表示主要的顶级概念类，例如TemporalEntity，SpaceEntity，人，SocialContext等，以及链接概念类的概念属性。OPA被设计成与其他术语系统一起使用。因此，它不包括属于类的详细概念。体育运动本体(OPEs)是一种Web本体语言(OWL)格式的本体，旨在支持体育运动数据的一致表示[21]。OPE全面涵盖了表示游戏数据的重要概念，包括游戏设备类型、健康结果、参与的肌肉骨骼系统以及疾病和伤害。OPE还包含一些运动概念，如有氧运动、等长运动、轻运动等。当然，作为一种支持用足够的细节表示非基于游戏的物理活动的本体，OPE有许多限制。

研究的目标

一致和明确的身体活动数据表示对于获得支持患者护理和健康结果研究的更多见解至关重要。有必要确定一种稳健和系统的方法来构建和标准化用各种措施表达的对一个人的身体活动的异质描述。本研究的目的是发展一个具有重要概念的身体活动本体，以描述人们身体活动的临床有意义的特征。

数据源

我们从健康生活问卷等92份问卷和表格中收集了1140个关于体育活动的独特问题和句子[22]、体能活动快速评估[23]、两题体能活动评估[24)等。本研究分析的问题和句子的完整清单载于多媒体附录1。

多用途文本处理工具

对1140个独特问题中引用的概念和术语的探索使用了一种自然语言处理(NLP)工具，称为多用途文本处理工具(MUTT)，该工具由加州大学洛杉矶分校的医学成像信息学小组开发。该NLP环境旨在允许开发人员定义目标域的本体论元素和结构，并链接相应的NLP词典-语法-语义模式，以便在自由文本中识别它们。这种方法类似于最近的本体驱动的NLP应用程序，如OpenDMAP项目所采用的方法[25]。NLP模式获取方面是数据驱动的，在这方面类似于另一项研究中报告的知识发现方法[26]。有关核心NLP系统的详情，可参阅其他研究[27-29]。

MUTT模块的主接口显示在图1。第一步是使用免费的文本XML编辑器定义一个主题类(例如，PACO)。这个高级类允许激活与这个类相关的各种NLP提取模块。下一步涉及定义主题类下的概念层次结构。一旦用户定义了本体类定义(例如，运动设备)及其可能的实例(例如，跑步机、划船机或椭圆机)，下一步涉及定义NLP提取模式以在自由文本中识别这些实例。此步骤允许系统预编译一个知识库，该知识库充当本体实例及其所有相关词法变体模式之间的映射。

实际上，用户可以通过查看训练样例(例如，一个特定的问题)并使用图1接口，用于定义概念检测模式。使用这种方法，执行以下步骤:(1)用户选择一个训练句子;(2)系统对句子进行标记，并显示其当前可以提取的所有本体论概念(参见图1）;(3)用户检查结果，可以判断在提取的句子结果中是否缺少本体论术语;(4)作为所选句子结果的一部分，系统向用户提供一个可滚动的表格，每行列出1个单词标记，列字段对应于该标记的唯一可选择匹配属性，包括其确切的表面字符串、语义类、词性类、通配符和用户可定义和可选择的预定义形态学特征属性，以及标记级正则表达式;(5)用户可以用这种方式定义跨多个标记(即多个单词短语)的提取模式，序列中的每个标记单独指定。该接口还允许用户指定左上下文和右上下文令牌，以部分解决问题上下文中的语义歧义问题。模式可以与真阳性或假阳性匹配相关联。许多这样的模式可以与单个本体论概念相关联。

图1所示。截图多用途文本处理工具的用户界面环境。本体框架主题框显示带有XML和树表示的本体规范;用户在词汇语义模式定义区指定与本体属性实例相对应的文本的词汇句法语义模式;“当前工作结果”框提供对训练句子的指定模式的即时用户反馈。没有显示用于查看训练句子、训练状态和自动模式发现结果的用户屏幕。

表1。术语提取的训练和测试步骤顺序以及用于训练和测试的句子数量。

一步	文本数据	注释器	任务
1	组1 (n)^一个= 100)	人类	开发基线语义模型
2	集合2 (n=400)	人类	第一轮培训
3.	组3 (n=100)	杂种狗^b	第一轮测试
4	测试1结果	人类	回顾和分析第一轮测试结果
5	组4 (n=300)	人类	第二轮训练
6	第5组(n=240)	杂种狗	第二轮测试
7	测试2结果	人类	回顾和分析第二轮测试结果

^一个N =包含在注释集中的句子数。

^bMUTT:多用途文本处理工具。

收获条款

我们首先根据先前研究的初步概念模型，通过注释关键概念，构建了100个问题[30.]。该初步模型包括活性类型、修饰因子、促进因子和抑制因子3个概念类。该模型还包括这些类之间的语义关系。通过这个初步分析，我们通过创建多个子类进一步指定和扩展了初步概念模型中的基本概念类。活动类型分为运动、日常活动(包括家务),休闲/娱乐活动。修饰语进一步细化到量,频率,和强度。我们还确定了额外的概念类，这些概念类对于捕获在初始注释期间描述人们活动级别的概念很重要。例如,运动位置，运动器材,健身计划/类是补充道。请注意，此时我们的建模目标是尽可能全面。

基线模型被填充为MUTT中的初始语义框架模型。其余的1040个句子使用MUTT进行注释。文本注释和语义模型增强过程由2个注释器迭代完成，如图所示表1。

构建本体

使用MUTT接口手动指定的本体框架定义从XML转换为OWL，然后作为基线本体导入proteg， proteg是斯坦福大学生物医学信息学研究中心开发的本体创作工具[31]。我们还搜索了国家生物医学本体中心生物门户[32]对于任何与身体活动相关的本体论，以纳入额外的概念和关系。biopportal是一个Web服务，允许用户上传、搜索和访问由斯坦福大学开发和维护的生物医学本体。我们回顾了用搜索词检索到的本体锻炼和体育活动，产生了48个本体论或标准化术语系统，包括《系统化医学-临床术语命名法》[33]、医学主题词[34]，美国国家癌症研究所主题词库[35]，以及阅读临床术语第2版[36]。这些本体中的大多数都有一个与身体活动相关的小子结构(分支或单个类)。我们发现在这些本体中发现的大多数概念已经包含在我们的基线本体中。通过这次活动，我们增加了1个新概念，高强度间歇训练。此外，交叉引用以前的本体提供了一个机会，以确保我们的概念是适当的措辞，并在层次结构中放置在适当的级别。

类标签的命名约定使用名词和动词的单数形式，单词的第一个字母大写。对于多词标签，在单词之间插入下划线(例如，冰＿曲棍球和Circuit_training)。运动或运动的名称包含在名词形式中。如果一个概念只有动词形式，我们就采用动名词形式。实例(protesamug中的个体)的标签都是小写的，同样地，多词实例标签的单词之间插入下划线(例如，high_impact和make_you_puff_and_pant)。属性名称遵循驼峰大小写样式(例如，hasIntensity和hasActivityEffect)。

总体而言，在顶层定义了2个一般活动类别，以区分每日(Daily_living_activity)相对于休闲(Exercise_leisure_activity)活动。这些类又被进一步分成若干子类。有多种方法可以对活动名称进行分类Exercise_leisure_activity。例如，跳舞是一种体力活动的休闲活动，同时可以被认为是一种全面的锻炼，有助于耐力，柔韧性，平衡，骨骼和肌肉力量。Cross_country_ski除按其运动效果界定的类别外，还可归类为冬季户外运动。

为了有效地处理分类活动类型的复杂性，我们采用了断言层次结构和定义层次结构。我们主张……的等级制度Exercise_leisure_activity使用明显的和更一般的包容关系。例如，球赛类包含不同的球类运动，如足球，棒球，网球等。类似地,运行课程包含以跑步为特征的各种锻炼和/或运动，如慢跑，Treadmill_running，短跑，马拉松等。额外的活动类型类别被创建为一个定义层次结构，以结合一些常见的方式来分类运动和休闲活动，如运动效果，室内或室外活动，冬季活动和水上活动。这些组织本体的多个视图使用多继承结构实现。下定义了每个命名的活动Exercise_leisure_activity类的3个属性hasActivityEffect，hasActivityLocation,hasActivityRequiredCondition。然后，我们生成一个推断层次结构，其中这些命名的活动在定义的类下分类。这种推断的层次结构是使用fact++来指定的，fact++是proprosamug中提供的Web本体语言描述逻辑(OWL-DL)推理器。37]。FaCT++是曼彻斯特大学的Dmitry Tsarkov和Ian Horrocks开发的开源软件[37］

本体评价

我们首先使用protp - 中提供的本体调试器插件检查PACO的逻辑和结构质量。38]。我们还用本体陷阱扫描器测试了PACO !(哎呀!)工具[39]，以确保其除结构质量外，还符合本体创作原则。哦!是马德里技术大学本体工程小组的一个基于web的工具，它与最先进的本体构建原则相比，检查了33个常见缺陷的本体。这些陷阱不仅包括逻辑和结构问题，还包括可用性和文档问题[40]。

作为额外的质量保证工作，我们测试了系统从各种自由文本物理活动描述中识别本体概念的能力。在临床上，这一步增加了2个重要的结果节点，代表运动的充分性，即:Sufficient_exercise和Insufficient_exercise。这些类是使用以下两个属性定义的:hasIntensity这抓住了一个强度水平hasTotalAmountInMin它捕获了以分钟为单位的每周总运动量(参见图2)。这两种运动水平的定义是根据2008年美国卫生与公众服务部提供的身体活动指南制定的[41]。

我们从网络消费者导向的行为健康文章(如世界卫生组织和美国心脏协会)和30个人的方便样本(即作者的朋友、家人和同事)中收集了36个关于日常运动习惯的描述。我们正式定义了这36个语句hasIntensity和hasTotalAmountInMin，然后将它们添加到PACO中，作为特定运动类型的实例(即prot中的个体)。我们评估了概念的覆盖范围Exercise_leisure_activity通过识别实例所属的练习类型，并使用来自intensity类的强度概念填充intensity属性。我们使用fact++将36个练习语句分类为2个练习级别类中的1个。

自然语言处理术语提取性能

对1140个独特的身体活动句子语料库进行处理后，将268个独特的术语和概念组成33个语义框架。表2给出了MUTT在识别从两轮评估中获得的相关体育活动术语和概念方面的表现。我们在MUTT中手动检查注释结果。MUTT的结果窗口(参见的当前工作结果区域)图1)允许用户查看由MUTT在他们所属的句子中捕获的术语和短语。因此，用户可以很容易地确定识别的术语是否相关或是否遗漏了相关术语。第一轮评估是用100个独特的句子来完成的。MUTT到达了一个F评价得分为0.895。在额外的一轮训练之后，当使用第二组240个独特句子进行评估时，MUTT的性能得到了提高。与F分数为0.950，则认为使用MUTT提取的术语和概念足够全面。在两个测试集中都没有观察到不正确(即假阳性)的注释。

身体活动本体

由MUTT确定的268个唯一术语和概念以及从现有本体确定的1个附加概念被组织到PACO中。PACO目前总共包含225个概念类，其中包括1个根类(我们将其标记为PACO)和9个定义类。PACO包含20个对象属性(包括10个逆属性)和1个数据属性hasTotalAmountMin。主要概念层次由5个分支构成活动，Exercise_effect，锻炼_equipment，Exercise_program,修饰符。大多数准备好的概念都放在活动和修饰符分支，它被构造成多个类层。活动是最大的分支，包括2个基本类和7个已定义类，它们跨越4个子类级别。这两个基本类是Daily_living_activity包括各种家务和家庭维护活动Exercise_leisure_activity这包括各种锻炼、运动和其他涉及体育活动的爱好，如跳舞、钓鱼和露营。总的来说，7个定义的类别中有4个是由运动效果组成的，包括Balance_exercise，Endurance_exercise，Flexibility_exercise,强度＿锻炼。剩下的3个类是Outdoor_leisure_activity，Water_sport,Winter_sport。这7个定义的类支持通常用于对这些物理活动进行分类的附加视图。

最大的概念类是Exercise_leisure_activity下活动，它包含38个子类。的Exercise_equipment和Exercise_program分支非常小且不完整，每个分支分别只包含7个和3个子类。在三个强度等级的类别下实例化了许多表示不同强度等级的表达，如“直到出很多汗，呼吸困难”和“使心率增加一点”低,温和,充满活力的。图3显示了PACO的高级层次结构(断言)。PACO结构汇总度量在表3。PACO已纳入生物资讯网[42]。

表2。多用途文本处理工具标注性能，并对句子、术语和概念的使用数量进行评价。

测试数量	句子,n	目标术语和概念	回忆	精度	F分数	遗漏的示例术语或表达式
1	One hundred.	292	0.857	1.000	0.895	爬山，爬山，骑自行车，快走，运动(一般)，总共多少小时等等
2	240	443	0.940	1.000	0.950	俯卧撑、举重、快走、手洗衣服、健美操、壁球等

表3。物理活动本体中包含的公理和实体的数量。

本体中的公理和实体	n
类	225
定义类	9
类的最大深度	5
最小兄弟姐妹数	2
兄弟姐妹的最大数目	38
逻辑公理	587
声明公理	297
包含关系的公理(的子类)	397
对象属性(不包括逆属性)	10
数据属性	1
实例(不包括36个练习语句)	23

身体活动本体评价

PACO提供了代表36种运动陈述所需的所有活动类型和强度概念。使用fact++将36个运动语句正确地划分为充分或不充分的运动分类级别。

proteg本体调试器程序的结果表明，PACO具有定义良好的概念类，并且所有个体都在相关类下一致地实例化。然而,哎呀!(39，40在PACO中发现了一些问题。缺少逆对象属性和缺少每个类的注释被认为是一个次要问题。有趣的是,哎呀!识别出3对潜在的等价概念——2个时间概念一分钟和小时,曲棍球和Field_hockey,曲棍球和Ice_hockey。没有明确声明它们的等价性被认为是一个重要问题。哦!不能将包含的许可信息识别为PACO元数据，并且本体许可信息的缺失被认为是另一个重要问题。我们修改了PACO以尽可能解决这些问题。我们添加了10个与10个对象属性对应的反向对象属性。我们用内部概念标识符注释了每个类。我们将曲棍球更名为Hockey_game因为在现实世界的交流中，冰球和曲棍球通常简称为曲棍球。

主要研究结果

我们开发了PACO作为系统构建和标准化身体活动描述的概念基础。PACO包括特定的活动类型和修饰符，它们经常用于进一步指定活动的不同属性。PACO的评估使用protp - 3的本体调试程序和OOPS!程序确保结构的一致性，并符合公认的本体构建原则。

体育活动通常用非技术术语来描述，可以用各种形式来表达，包括精确的数字测量(例如，每周1-2次晚饭后步行3英里)到一般的口语描述(例如，偶尔晚饭后散步很长时间)。现有的生物医学术语系统对身体活动名称和一般描述符的覆盖范围有限。我们没有建议在现有术语中包含更多的概念和术语，而是开发了PACO，这是一种专门用于物理活动范围的本体，以充分利用概念表示的本体方法的好处。例如，映射到标准化术语的单个术语集合不能捕获完整的含义，因为术语之间的语义关系没有显式表示。PACO支持通过使用基于本体中描述的预定义语义的对象属性链接物理活动概念和修饰符概念来表达复杂概念。此外，在PACO中使用各种分类标准从多个角度对活动名称和类型进行分类。这可以通过使用支持多重继承的组合术语的概念后协调来支持。然而，对于所有可能源于广泛生物医学领域和应用的潜在查询，要完全解决各种复杂的物理活动描述的表示需求是一项艰巨的任务。

PACO是最早致力于表示与身体活动相关的概念的本体之一。PACO不仅包含概念模型，还包含描述身体活动水平的重要个体概念，如活动类型、强度和数量。PACO具有相对简单的断言层次结构，其中很容易添加新概念。为了适应对物理活动进行分类的多种方式，添加了几个已定义的类，并使用公开可用的OWL-DL推理器生成了一个多重继承结构(即推断的层次结构)。

体育活动本体的局限性和未来的增强

PACO包含的概念主要来源于各种身体活动评估量表和问卷。因此，它可能错过了在各种文本来源(如患者运动日记、临床记录和研究文章)中发现的其他类型的体育活动描述中使用的概念。的活动分支包含一些特定类型的体育活动，包括日常生活活动和运动/休闲活动，这些活动经常用于描述评估量表和问卷中的体育活动类型。虽然活动分支是PACO中节点数量最多、结构最深的分支，它并不包含活动类型概念的穷尽集合。的活动随着更多相关文本来源的分析和整合，分支将不断扩大。随着对活动进行分类的其他方法的确定，多重继承结构也将自适应地发展。

许多关于身体活动的问题都使用了描述身体对运动的反应的短语，比如“……[运动]直到你的呼吸比平时更困难”或“……(锻炼］makes you puff or pant,” in addition to the general adjectives such as mild, moderate, strenuous, vigorous, etc. For example, 1 question of the Exercise Vital Sign uses an intensity descriptor of “... causes a light or heavy sweat,” which indicates moderate or vigorous exercise. Although these “raw” expressions sound somewhat subjective, incorporating them into PACO was deemed important as exercise intensity can be a subjective experience influenced by people’s age, overall health status, and fitness. These “raw” expressions were included in PACO as an instance of the intensity concept class Mild, Moderate, and Vigorous.

运动的强度也可以由运动本身的类型来决定。许多运动指南和活动问卷都提供了具体的活动类型，作为指示不同运动强度水平的例子。例如，快走、水中有氧运动和瑜伽被认为是适度的运动，而慢跑、有氧舞蹈和各种竞技武术被认为是剧烈运动[43]。在这个版本的PACO中，命名的活动没有定义强度级别。但是，如果认为强度属性有用，我们计划在修订后的PACO中将强度属性附加到指定的活动上。

作为示例演示，我们将36个运动习惯陈述分为2个临床相关的运动水平，即充分和不足，并根据运动量和强度粗略定义。这是为了表明，一旦使用PACO中的概念和属性对各种运动习惯陈述进行形式化表示，就可以进一步使用形式化表示来逻辑地推断基本信息(即，这个人是否得到了足够的运动水平)。然而，在现实中，除了运动描述本身之外，确定运动水平的适当性还需要考虑一个人的个人特征，如人口统计学、身体测量、健康状况和整体身体素质。在实际应用中，若要用算法来确定一个人的运动水平是否足够，就需要结合客观的测量方法，如代谢当量任务分钟(MET-minutes) [44]和基于心率的强度测量(例如，中等强度时最大心率提高50%-70%)[45，46]。PACO的未来增强可以考虑将MET值作为特定已命名活动的属性。此外，运动引起的心率变化可以纳入运动水平类的定义中。

然而，这些限制和未来增强的领域并没有影响PACO的激励目标，即通过促进各种来源产生的关于身体活动的异构数据的整合，为精准医疗实践做出贡献。例如，PACO可以为一个人自我报告的关于体力活动强度和充分性的主观描述提供标准化的表示。中等强度活动的能量消耗被认为是3至6代谢当量[44，47，48]。每小时步行4.5英里属于中等强度的活动，但对一些人来说，这种水平的活动可能被认为是相当高强度的活动。将这些描述与从个人移动传感器设备(即活动跟踪器)收集的客观数据进行比较，可能会导致精确的评估和建议，以提高患者的身体活动水平，使其达到足够的水平[49]。

结论

身体活动数据是了解总体健康、疾病进展和治疗结果的重要方面。表示一个人的身体活动数据的各种各样的方法已经成为一个挑战，因为要将它们与其他临床和生物学数据结合起来分析。作为对体育活动异构描述进行标准化和结构化以进行综合数据分析的第一步，我们利用从体育活动量表和问卷中收集的概念开发了PACO。PACO被证明具有结构一致性和内聚性，也被证明在标准化异构体育活动描述和将其分类为反映运动充分性的临床有意义的类别方面具有潜在的用途。PACO将不断扩大其概念范围和语义属性，以支持以各种文本形式描述的体育活动数据的一致文档、标准化和协调。

致谢

作者感谢Hedy Woo在数据准备方面的帮助。这项研究部分得到了杜克大学护理学院护理研究中心的试点资助。

作者的贡献

HK设计了研究，准备了数据，建立和评估了PACO，并撰写了手稿。JM准备了数据，构建和评估了PACO，并撰写了手稿。RT准备了数据并撰写了稿件。MUTT是RT为其他研究开发的工具。

利益冲突

没有宣布。

‎

多媒体附录1

本研究分析的问题和句子。

TXT文件，143KB

衡量健康生活方式的比较分析:理论问题与实证结果。社会科学与医学1991;32(8):899-908。(Medline］
Brugnara L, Murillo S, novales A, Rojo-Martínez G, soriger F, Goday A，等。低体力活动及其与糖尿病和其他心血管危险因素的关系:一项全国性的、基于人群的研究。PLoS One 2016; 8 (8):e0160959 [j]免费全文] [CrossRef] [Medline］
胡苏P，苏妮J, Vähä-Ypyä H, Sievänen H, Tokola K, Valkeinen H，等。客观测量芬兰成年人的久坐行为和身体活动:一项横断面研究。中华医学会公共卫生杂志2016年12月1日;16:920 [j]免费全文] [CrossRef] [Medline］
King AC, Oman RF, Brassington GS, Bliwise DL, Haskell WL。中等强度运动与老年人自我评价的睡眠质量。一项随机对照试验。中华医学杂志，1997,27(1):32-37。(Medline］
金AC，弗里德曼R，马库斯B，卡斯特罗C，福赛斯L，纳波利塔诺M等。利用激励力量促进身体活动:电话社区健康咨询项目。卫生教育2002;Oct;17(5):627-636。(Medline］
陈建军，陈建军，陈建军。运动对高血压的治疗作用。中华心血管病杂志2001;19(3):507-516。(Medline］
Collins FS, Varmus H.精准医疗的新倡议。中华医学杂志2015年2月26日;372(9):793-795 [J]免费全文] [CrossRef] [Medline］
肖超，崔娥，孙杰。基于电子健康记录数据的深度学习模型的发展机遇与挑战:系统综述。医学信息学报，2018;25(10):1419-1428 [J]免费全文] [CrossRef] [Medline］
Asche CV, Seal B, Kahler KH, Oehrlein EM, Baumgartner MG。医疗保健干预措施和大数据的评估:相关数据问题的审查。药物经济学2017;35(8):759-765。(CrossRef] [Medline］
王晓东，王晓东，王晓东，等。老年人身体活动量表(PASE)的编制与评价。中华流行病学杂志1993;46(2):153-162。(Medline］
Rubinstein YR, McInnes P. NIH/NCATS/GRDR®通用数据元素:标准化数据收集的主导力量。当代临床试验2015年5月;42:78-80 [j]免费全文] [CrossRef] [Medline］
Hamilton CM, Strader LC, Pratt JG, Maiese D, Hendershot T, Kwok RK，等。PhenX工具包:从您的测量中获得最大收益。中华流行病学杂志[J]; 2011; 31 (3): 563 - 568 [J]免费全文] [CrossRef] [Medline］
逻辑观测标识名称和代码。什么是LOINC网址:https://loinc.org/get-started/what-loinc-is/[访问日期:2018-11-14][WebCite缓存］
国家卫生研究所公共数据元素存储库。NIH公共数据元素库Internet URL:https://cde.nlm.nih.gov/[访问日期:2018-11-09][WebCite缓存］
卫生措施。Neuro-QoL URL:http://www.healthmeasures.net/explore-measurement-systems/neuro-qol[访问日期:2018-11-12][WebCite缓存］
Saver JL, Warach S, Janis S, Odenkirchen J, Becker K, Benavente O，国家神经系统疾病中风研究所(NINDS)卒中公共数据元素工作组。规范脑卒中临床和流行病学研究数据结构:国家神经疾病和脑卒中研究所(NINDS)脑卒中公共数据元素(CDE)项目。中风2012年4月;43(4):967-973 [免费全文] [CrossRef] [Medline］
医学研究所，人口健康和公共卫生实践委员会，电子健康记录建议的社会和行为领域和措施委员会。在电子健康记录中捕获社会和行为领域:第1阶段。华盛顿:国家科学院出版社;2014.
Coleman KJ, Ngor E, Reynolds K, Quinn VP, Koebnick C, Young DR，等。电子医疗记录中运动“生命体征”的初步验证。医学体育学报，2012;44(11):2071-2076。(CrossRef] [Medline］
窦冬，王宏。2015。SMASH本体URL:https://bioportal.bioontology.org/ontologies/SMASH[访问日期:2018-11-09][WebCite缓存］
Silva P, Andrade MT, Carvalho P, Mota J.体育活动评价和表征的结构化和灵活语言。中华医学杂志(英文版);2013;33 - 34 [J]免费全文] [CrossRef] [Medline］
Bamparopoulos G, Konstantinidis E, Bratsas C, Bamidis PD。面向游戏公域:构建游戏本体，发布开放游戏数据。中国生物医学工程学报(英文版);07 - 03 [J]免费全文] [CrossRef] [Medline］
Hi5Living。2015.健康生活问卷:自我评估http://www.hi5living.org/self-assessments/[访问日期:2018-11-09][WebCite缓存］
张建军，张建军，张建军，张建军。老年人身体活动的快速评估(RAPA)。慢性疾病前刊2006 Oct;3(4):A118。(Medline］
Smith BJ, Marshall AL, Huang N.家庭实践中身体活动的筛查:两种简短评估工具的评价。预防医学杂志，2005,29(4):256-264。(CrossRef] [Medline］
Cohen KB, Verspoor K, Johnson HL, Roeder C, Ogren PV, Baumgartner WA，等。高精度生物事件提取:系统效应和数据效应。计算机学报;2011;27(4):681-701 [j]免费全文] [CrossRef] [Medline］
刘赵Y, Fesharaki新泽西,H,罗j .使用数据驱动的知识诱导子语言模式挖掘模型:应用在医学图像报告知识表示。中国医学杂志2018年12月6日;18(1):61 [j]免费全文] [CrossRef] [Medline］
张建军，刘建军，刘建军，刘建军，等。一种改善神经肿瘤病例纵向影像特征的工具。AMIA年会进程2008年11月06:712-716 [免费全文] [Medline］
Taira RK, Soderland SG, Jakobovits RM。自动构建放射学自由文本报告。射线照相2001;21(1):237 - 245。(CrossRef] [Medline］
Hsu W, Taira RK。用于改善神经肿瘤患者变化特征和可视化的工具。中国机械工程学报(英文版);2010年11月13日;2010:316-320 [j]免费全文] [Medline］
Kim H, Kim J, Shenvi E, Quach J, Sutjiadi B, Richardson A，等。开发一个语义模型来描述体育活动数据。种马健康技术通报2016;225:447-451。(Medline］
Noy NF, Shah NH, Whetzel PL, Dai B, Dorf M, Griffith N，等。生物门户:只需点击鼠标即可获得本体和集成的数据资源。核酸学报2009年7月;37(Web Server issue):W170-W173 [免费全文] [CrossRef] [Medline］
BioPortal。2009年7月SNOMED CThttps://bioportal.bioontology.org/ontologies/SNOMEDCT[访问日期:2019-03-14][WebCite缓存］
snom国际。SNOMED-CT URL:http://www.snomed.org/[访问日期:2018-10-29][WebCite缓存］
BioPortal。美国国家癌症研究所同义词典https://bioportal.bioontology.org/ontologies/NCIT[访问日期:2018-10-29][WebCite缓存］
NCI术语浏览器。NCI theasurus网址:https://ncit.nci.nih.gov/ncitbrowser/[访问日期:2019-03-12][WebCite缓存］
NHS数字化，2014。阅读代码URL:https://digital.nhs.uk/services/terminology-and-classifications/read-codes[访问日期:2019-03-12][WebCite缓存］
OWL@Manchester。事实++推理器URL:http://owl.cs.manchester.ac.uk/tools/fact/[访问日期:2018-11-09][WebCite缓存］
schkotihin K, Rodler P, Schmid W, hordge M, Tudorache T.基于测试驱动的本体开发。2018年国际生物本体会议。发表于:第九届国际生物本体会议论文集(ICBO 2018);2018;Corvallis, ORhttp://icbo2018.cgrb.oregonstate.edu/node/134
Poveda-Villalón M, Gómez-Pérez A, Suárez-Figueroa M，哎呀!(本体陷阱扫描器!)。[J] .语义网络信息系统，2014;10(2):7-34。(CrossRef］
哦!本体陷阱扫描器!URL:http://oops.linkeddata.es/[访问日期:2018-10-21][WebCite缓存］
Health.gov。2008.美国人体育活动指南https://health.gov/paguidelines/[访问日期:2018-11-09][WebCite缓存］
BioPortal。2019.物理活动本体URL:https://bioportal.bioontology.org/ontologies/PACO[访问日期:2018-11-12][WebCite缓存］
疾病控制和预防中心。按强度级别定义的一般体力活动https://www.cdc.gov/nccdphp/dnpa/physical/pdf/PA_Intensity_table_2_1.pdf[访问日期:2018-10-21][WebCite缓存］
Ainsworth BE, Haskell WL, Herrmann SD, Meckes N, Bassett DR, tudour - locke C，等。2011体育活动汇编:规范和MET值的第二次更新。医学体育学报，2011;43(8):1575-1581。(CrossRef] [Medline］
[J]，胡丽娟。运动过程中心率与运动强度的关系。]实际的应用程序。体育医学1988;5(5):303-311。(CrossRef] [Medline］
梅奥诊所，2018。运动强度:如何测量https://www.mayoclinic.org/healthy-lifestyle/fitness/in-depth/exercise-intensity/art-20046887[访问日期:2018-10-29][WebCite缓存］
李国强，李国强，李国强，李国强，李国强，等。体育活动与公共健康:美国运动医学学院和美国心脏协会对成年人的最新建议。医学体育学报，2007;39(8):1423-1434。(CrossRef] [Medline］
皮耶西K, Troiano R, Ballard R, Carlson S, Fulton J, Galuska D，等。美国人的体育活动指南。中华医学杂志，2018;32(9):2020-2028。(CrossRef] [Medline］
Franklin BA, Brinks J, Berra K, Lavie CJ, Gordon NF, Sperling LS。在临床实践中使用代谢当量。中国生物医学工程学报，2018;21(3):382-387。(CrossRef] [Medline］

‎

CDE:常用数据元素

DL:描述逻辑

电子健康档案:电子健康记录

国际移民组织:医学研究所

满足:任务的代谢当量

小狗:多用途文本处理工具

NLP:自然语言处理

ONC:国家协调员办公室

哦:本体缺陷扫描器

OPA:评估身体活动和久坐行为的本体

开放:体育运动本体论

猫头鹰:Web本体语言

柏高:身体活动本体

PhenX:表型和暴露

粉碎:活动、社会和健康数据的语义挖掘

M Focsa编辑;提交14.11.18;C . Bratsas, P . Santaguida, F . Li的同行评审;对作者04.02.19的评论;收到修订版本15.02.19;接受04.03.19;发表23.04.19

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

开发一个支持体育活动数据互操作性的体育活动本体