JMIR形成性研究-疾病因果途径分析和决策支持的城市人口健康观察站:潜在可解释的人工智能模型

原始论文

¹美国田纳西州孟菲斯市，田纳西大学健康科学中心，医学院儿科学部生物医学信息学中心

²布莱德森数据科学中心，田纳西大学，诺克斯维尔，美国

^3.美国洛杉矶新奥尔良Ochsner诊所基金会Ochsner Xavier卫生公平和研究所

通讯作者:

阿拉什·沙班-内贾德，公共卫生硕士，博士

生物医学信息学中心

医学院儿科系“，

田纳西大学健康科学中心

邓拉普街50号，R492

孟菲斯，田纳西州，38103

美国

电话:1 901 287 5863

电子邮件:ashabann@uthsc.edu

背景:许多研究人员致力于开发慢性健康监测系统，以协助公共卫生决策。一些数字医疗解决方案缺乏向人类用户解释其决定和行动的能力。

摘要目的:本研究寻求:(1)通过加入语义层来扩展我们现有的城市人口健康观测站(UPHO)系统;(2)内聚性地使用机器学习和语义/逻辑推理来提供可测量的证据，并检测导致不良健康结果的途径;(3)提供临床用例场景和设计案例研究，以确定与肥胖流行相关的健康的社会环境决定因素，(4)设计一个仪表板，使用所提供的场景演示UPHO在肥胖监测背景下的使用。

方法:系统设计包括知识图生成组件，该组件提供来自相关感兴趣领域的上下文知识。该系统利用现有本体中的概念、属性和公理来利用语义。此外，我们使用美国疾病控制和预防中心500个城市的公开数据集进行多元分析。一种采用机器学习和语义/逻辑推理的内聚方法揭示了导致疾病的途径。

结果:在这项研究中，我们提出了2个临床案例场景和一个概念验证的仪表板原型设计，提供警告、建议和解释，并演示了UPHO在肥胖监测、治疗和预防方面的使用。在使用支持向量回归机器学习模型探索案例场景时，我们发现贫困、缺乏体育活动、教育和失业是导致田纳西州孟菲斯市肥胖的最重要预测变量。

结论:UPHO的应用有助于减少健康差异，改善城市人口健康。扩展的UPHO功能包含了额外级别的可解释知识，以增强医生、研究人员和卫生官员在患者和社区层面的知情决策。

国际注册报告标识符(IRRID):rr2 - 10.2196/28269

JMIR Form Res 2022;6(7):e36055

doi: 10.2196/36055

关键字

卫生监测系统；可辩解的人工智能；决策支持；机器学习；肥胖；慢性疾病；精准健康预防；语义推理

背景

加强对慢性疾病支持的健康监测系统可以减轻导致肥胖等疾病发病率和死亡率上升的因素。肥胖与总死亡率上升有关，并已达到流行病的程度，每年约有280万人死于肥胖[1，2］．肥胖代表身体脂肪的过度和异常积累，会对健康产生不利影响，对个人和社会造成健康和经济损失[2］．超过一半的美国人至少患有一种慢性病，27%的人患有多种疾病[3.］．在美国，这些疾病每年导致170多万人死亡，肥胖是导致死亡的主要原因(如糖尿病、心脏病、中风和癌症)[4］．

社区因素，如健康的社会环境决定因素(SDoH)对这些统计数据有重大影响[5-8］．实施一个包含SDoH的智能健康监测平台，可以通过协助实施有效的治疗和干预措施，改善这种肥胖大流行的准备、预防和管理。

卫生监测涉及“对公共卫生实践的规划、实施和评估至关重要的数据的持续系统收集、分析和解释，并与将这些数据及时传播给需要了解的人密切结合”[9］．研究人员旨在开发慢性健康监测系统，以协助慢性健康决策[10-16］．世界卫生组织(世卫组织)制定了城市公共卫生观察站的概念框架，包括3个领域:任务、治理、知识和情报，后者包括数据管理组成部分[17］．因此，世卫组织的这一框架为卫生监测提供了一个战略模式。

许多当前的数字健康解决方案和电子健康记录(EHR)系统缺乏将机器学习算法纳入决策过程的能力，即使它们做到了，所使用的算法也没有适当的能力向人类用户解释建议的决策和行动[18］．机器学习方法，即所谓的黑盒统计，在临床或健康科学环境中做出决策时，应该是值得信赖的、透明的、可解释的和可解释的[18-20.］．系统的解释构成了它的可解释性[18，20.-22］．可解释人工智能(XAI)通过提供解释来增加传递给用户的智能，从而增强结果和发现的可解释性。研究人员的努力已经转向应用能够帮助解释机器学习模型结果的算法。例如，SHAP (Shapley Additive explanation)分析[23是一种为每个模型特征分配重要性分数以做出特定预测的方法。与传统的特征重要性分析相比，SHAP的新颖性在于它能够在个体患者水平上评估重要性。在本文中，我们提出了一种新的可解释性方法，使用知识图作为设计可解释的语义基础设施，并使用机器学习算法的结果作为指标和分数来丰富这些图。图上的语义因果关系提供了关于人群的上下文知识，而指标支持这些关系，这提供了两个级别的证据:知识级别和统计级别。

我们实现了UPHO平台，作为一个基于知识的监测系统，通过结合SDoH和提供XAI和可解释性功能，提供更好的洞察力，以改善决策。[24］．我们的UPHO由三层组成:数据、分析和应用。在这项工作中，我们通过合并数据管理、知识和智能领域(图1)，与世卫组织的概念模型保持一致，并关注语义层。

图1。扩大城市人口健康观察站框架。CDC:美国控制和预防中心;美国农业部:美国农业部;KG:知识图谱;城市人口健康观察站。

目标

本文的目标是:(1)通过合并语义层来扩展UPHO，(2)内聚性地使用机器学习和语义/逻辑推理来提供可测量的证据并检测导致不良健康结果的途径，(3)提供临床案例场景并设计案例研究，以识别与肥胖流行相关的SDoH，以及(4)提供一个仪表板设计，使用所提供的案例场景来演示UPHO在肥胖背景下的使用。

UPHO扩张

图1显示了对UPHO的扩展以合并语义层。在下一节中，我们将详细描述UPHO平台扩展设计。

数据管理域

数据管理域包括数据层。该办公室通过区域登记处从电子卫生档案收集人口一级的健康和卫生部数据以及个人一级的临床和人口数据。

数据层

为了获得人口水平的健康数据，我们使用了美国控制和预防中心(CDC) 500个城市行为风险因素监测系统，其中包括有关慢性疾病及其行为风险因素的数据[25］．这些变量是2018年18岁以上成年人粗患病率的基于模型的估计值。我们提取了与肥胖、缺乏体育活动、缺乏保险和糖尿病有关的变量。

我们从美国人口普查局2018年美国社区调查中提取了与邮政编码、人口普查区、人口普查区和人口普查区组水平的粮食不安全、交通和社会经济稳定性有关的人口水平SDoH变量[26]及美国农业部研究地图集[27］．

知识与智能领域

分析层

分析层从数据层的不同来源提取原始数据，并对其进行分析，以对其进行分类，预测新的关系，进行空间模式检测，并计算新的指标。分析层还通过派生新的指标并使用它们来丰富原始数据集来执行特征工程。

语义层

UPHO语义层的各个阶段如图所示图2．在知识表示和公理化阶段，我们使用语义web技术从感兴趣的相关领域开发几个领域和应用本体，以提供必要的上下文知识。本体是知识的系统表示，可用于集成和分析大量异构数据，从而实现对知识的分类[28］．在这些本体论中，我们通过使用现有的领域知识(如WHO/CDC指南以及联邦和地方来源)定义概念层次结构和规则公理。我们通过重用几个现有的领域本体来开发新的本体。在这项研究中，我们采用了5个不同本体论中的概念、属性和公理，这些都是我们在之前的工作中使用过的[29-32]，具体来说(1)疾病本体(DO) [31(如肥胖、糖尿病);(2)儿童肥胖预防(知识)企业(COPE)本体[29，定义了SDoH概念，如社会经济问题(如食物沙漠、收入)和行为问题(如缺乏体育活动、购买偏好);(3)地理信息系统本体[32](如邮政编码，人口普查区);(4)健康指标本体[32];(5)不良童年经历本体论(ACESO)，它定义了与不良童年经历、健康结果(如精神和身体健康)、干预措施和SDoH相关的概念，包括定义缺乏交通工具(如车辆受限和公共交通受限)和食物以及它们如何影响常规随访活动(如错过医疗预约)等问题的公理[30.］．

我们使用本体论和web服务中定义的概念开始语义分析，将概念与实际数据资源对齐，允许我们构建一个遵循本体论并包含数据和概念的总体知识图结构[33］．我们使用逻辑推理器来丰富知识图，逻辑推理器使用从现有知识派生的事实、从分析层提取的新知识，以及在领域本体中定义的通用规则公理，这些规则公理在特定条件下触发特定操作。

可辩解的人工智能

一个有效的可解释的系统可以解释目标用户群体(如医生、研究人员)。对最终用户的了解对于决策、建议和行动的交付非常重要。每个分析和语义层都包含一个可在最上层健康应用程序层使用的可解释性组件。为了维护数据集成、XAI和可解释性等特性，我们必须通过使用语义和本体来实现互操作性。适用于用户的解释可以通过增强结果和发现的可解释性来减少解释中的错误。

应用程序域

UPHO平台可以作为开发多个应用程序的基础，其中一些应用程序我们已经开发了，包括仪表板[24]、移动健康应用程序[34]、数字助理和推荐系统[35］．在本文中，我们利用UPHO实现一个用于实时监视的仪表板。通过访问通过UPHO发现的动态知识，仪表板可以提供基于内容和上下文的实时早期警告。该平台可供政策制定者、医生、研究人员、公共卫生官员和公众使用。

临床场景

以下部分将介绍2个临床案例场景，分别以医生和研究人员为用户，演示在知识和智能领域层中使用的方法以及应用程序中相应的仪表板设计。

场景1:一名医生为一名被诊断为肥胖的成年非裔美国患者寻求有效的干预措施。医生关注患者社区的SDoH如何影响医生的管理计划。

场景2:一名研究人员调查SDoH对肥胖的影响，为田纳西州孟菲斯市的成年肥胖人群寻求有效的干预措施。

分析层:机器学习模型开发

我们训练了一个基于机器学习的支持向量回归(SVR)机器模型[36，37］．我们将疾病控制与预防中心500个城市的人口肥胖水平与行为数据联系起来[25]到人口层面的社会DoH [26，27我们分析了8个特征，并使用斯皮尔曼等级检验来评估每个特征之间的正或负关系。我们使用方差膨胀因子(VIF)来检测特征之间的多重共线性。为了检查患者的社区水平暴露，我们使用了SHAP分析。表1显示本研究中考虑的特性的汇总统计信息。我们在随机选择的85%的训练数据上训练我们的支持向量模型，并在剩余的15%的数据上测试模型，以确保模型的可泛化性，并应用线性核函数。我们对数据进行缩放，使其均值为0，标准差为1。我们利用R软件(R Foundation for Statistical Computing)中的Caret包，采用网格搜索优化方法寻求最优超参数来提高模型性能[38］．此外，为了避免过度拟合，对训练数据集进行5倍交叉验证。我们使用均方根误差(RMSE)和R²评估模型的性能。

表1。田纳西州孟菲斯市人口普查区(n=178个普查区)肥胖和相关危险因素的汇总统计数据。

特性	操作化	原值，平均值(SD)	训练，平均值(SD)	检验，平均值(SD)
肥胖	2018年18岁以上成年人肥胖粗流行率的基于模型估计	37.50 (7.84)	37.42 (7.54)	37.97 (6.95)
去超市的机会少	统计人口普查区内距离超市超过半英里的低收入人口	1382.20 (108.37)	1345.68 (967.83)	1616.17 (1120.23)
黑色的	黑人或非裔美国人占人口的百分比	63.17 (32.70)	62.22 (33.04)	63.72 (31.88)
贫困	生活在联邦贫困线以下的人口比例	28.65 (16.28)	28.27 (16.18)	31.06 (17.06)
失业	失业人口百分比	15.73 (9.31)	15.97 (9.67)	14.16 (6.52)
高中学历	25岁以上没有高中文凭的人口比例	10.38 (6.59)	10.23 (6.70)	11.35 (5.89)
缺乏体育活动	基于模型的2018年18岁以上成年人缺乏体育活动的粗略患病率估计	36.16 (9.80)	35.97 (9.79)	37.34 (9.99)
犯罪	每千人的犯罪率	350.20 (126.26)	160.99 (337.65)	111.93 (80.40)
缺乏获得保险的途径	基于模型的2018年18岁以上成年人缺乏保险的粗患病率估计	20.21 (6.78)	20.10 (6.81)	20.88 (6.67)

语义层:知识图谱生成

我们按照以下有序步骤从领域本体中定义的概念生成语义层知识图。

我们使用领域本体中的概念、关系和公理来构建一个初步的总体知识图。对于我们的场景，我们首先添加一个表示患者或人群的虚拟节点(图3)．我们开始将这个节点与疾病、风险因素、身体特征等概念联系起来。例如，肥胖就属于肥胖所代表的疾病类型isA关系图3,在那里isA反映子类型。例如，SDoHisA RiskFactr，而lackoftransport是SDoH的一个亚型。这些不同的层次结构编码在ACESO本体中。我们还在每个类型之前添加一个前缀，以反映定义该概念的名称空间(例如，术语DO:Disease反映了在DO中定义了概念疾病)。关系也可以反映节点的属性。例如，一个病人而在38127年,isA邮政编码，那个邮政编码有8个这样的人口普查区域CensusTract，在GISO本体中定义。
我们用来自数据层的证据填充生成的图结构。例如，我们的数据集包含一个变量，它显示了特定社区中肥胖症的流行程度。我们利用这些信息为我们的图表添加边缘，将肥胖(作为一种疾病)与患病率(作为一个度量标准)联系起来。
通过使用逻辑推理器(图2)和使用分析层的结果进行特性工程。逻辑推理者使用一组规则公理对图中已经存在的概念执行逻辑推理。例如，我们的COPE本体编码了流行病学因果公理，将SDoH与负面健康结果联系起来。文本框1展示了我们如何编码泛型公理R1-R3。当我们将这些通用规则公理与特定人口普查区的事实结合起来时，我们可以推断出与生活在该普查区有关的所有风险因素，例如，知道事实F1可以告诉我们，生活在该地区的人口可能暴露于导致肥胖的风险因素。
在对初始图结构执行逻辑推理之后，我们在图中合并新的节点和边，这些节点和边对应于新的概念(例如，来自COPE本体的lackOfPhysicalActivity概念)或新的关系(例如，isExposedTo)．知识图的细化是一个迭代的过程，所以我们可以重复第2步，直到我们达到图的稳定状态，之后我们可以用从分析层提取的工程数据中的更多证据填充图。为此，我们使用了从美国人口普查局、疾病预防控制中心和美国农业部收集的关于SDoH危险因素的人口水平数据。例如，为了捕捉缺乏体育活动，我们使用CDC 500城市数据集。由分析层执行的机器学习分析提供了与预测相关的边缘(例如，isPredictorOf，图3)．最终的知识图谱如图所示图3，它提供了我们可以对该患者或人群做出的所有可能假设的一般性视图。
为了从这个图中收集最重要的信息，用户可以根据逻辑推理和机器学习结果跟踪特定的路径。红色的箭头图3在我们的场景中反映路径。

图3。将领域本体(如giiso: CensusTract)中定义的概念与存储在数据库中的数据资源(如黑人人口百分比)或来自分析层的数据资源链接起来的知识图。图的上半部分显示了在知识工程阶段通过语义推断产生的节点和边。图的下半部分是在特征工程阶段通过ML分析添加的节点和边。地理信息系统本体;HIO:健康指标本体;ACESO:不良童年经历本体论;儿童肥胖预防(知识)事业;DO:疾病本体。

将公理编码为一般规则、初始事实或来自特征工程或逻辑推理的新事实。

通用规则公理

应对:lackOfPhysicialActivityleadsTo做的事:肥胖(R1)
% ObesityPrevalence:度量isHealthIndicatorFor做的事:肥胖(R2)
肥胖:疾病isRiskFactorOf糖尿病:疾病(R3)

事实

个人:病人而在“10300”:CensusTract (F1)
“10300”:CensusTract有“49”:% PopWLackOfPhysicialActivity (F2)
“10300”:CensusTract有“21”:% PopNoHighSchoolDiploma (F3)
“10300”:CensusTract有“60”:% UnderPovertyLine (F4)
“10300”:CensusTract有“46”:% ObesityPrevalence (F5)

通过多变量分析设计的特性

% PopWLackOfPhysicialActivity:度量isPredictorOf肥胖患病率:度量[使用F2-F5] (F6)

逻辑推理

个人:病人isExposedToLackPhysicalActivity:PhysicalCharacteristic[使用F1和F2] (F7)
个人:病人shouldBeScreenedFor糖尿病:疾病[使用R1, R2, R3, F6, F7]

文本框1。将公理编码为一般规则、初始事实或来自特征工程或逻辑推理的新事实。

伦理批准

本研究不需要伦理审查委员会的评估，因为我们使用了公开的数据。

机器学习分析

本研究纳入的7个特征的显著斯皮尔曼秩系数和VIF如所示表2．任何显示VIF大于10的特征都被删除。对于SVR模型结果，我们获得了训练集的RMSE为0.312，测试集的RMSE为0.203R²训练集为0.91，测试数据集为0.95。由于该模型为训练数据集和测试数据集提供了相似的结果，因此所提出的模型没有过拟合。SVR特征重要性结果的范围从0到100，分数越大，最重要的特征(表3)．我们发现，缺乏体育活动的人口比例、低于贫困水平的人口比例、没有高中文凭的人口比例、失业人口比例和黑人人口比例是预测田纳西州孟菲斯市肥胖患病率的最重要变量。

图4显示了患者社区水平(人口普查区:10300)的SHAP特征贡献值图，从预测患者社区肥胖流行的角度来看，它表明了最重要的特征，如缺乏体育活动的人口比例和低于贫困水平的人口比例。缺乏体育活动和贫困对肥胖的流行有最大的积极(增加)贡献。另一方面，低收入人群和距离超市超过半英里的人群表现出负(减少)的贡献，但在预测患者所在社区的肥胖患病率时，这是最不重要的变量。从我们的分析中提取的知识将用于检测肥胖流行途径，这是由前5个最重要的特征定义的。

表2。每个特征的斯皮尔曼秩系数和方差膨胀因子。

特性	斯皮尔曼秩系数	VIF^一个
去超市的机会少	0.37	1.70
黑色的	0.77	2.80
贫困	0.83	3.66
失业	0.73	3.02
没有高中文凭	0.81	3.55
缺乏体育活动	0.92	8.82
犯罪	0.37	1.68

^一个VIF:方差膨胀因子。

表3。支持向量回归数据集级特征重要性评分。

特性	SVR^一个功能的重要性
去超市的机会少	4.39
黑色的	68.20
贫困	78.60
失业	70.16
没有高中文凭	73.41
缺乏体育活动	One hundred.
犯罪	0

^一个SVR:支持向量回归。

图4。患者社区(人口普查区:10300)的特征贡献(未缩放)的Shapley相加解释(SHAP)值图。x轴表示SHAP的值，y轴表示特征。缺乏体育活动和贫困对患者所在社区的肥胖患病率有最大的正向(增加)贡献。

仪表盘设计

用例场景

在本节中，我们将通过概念验证原型来描述UPHO提供的语义功能，该原型将通过实现前一节中描述的临床场景来显示扩展系统的不同功能。

首先，用户将登录UPHO平台仪表板，该仪表板将确定用户的具体角色并建立适当的访问权限。用户将从以下菜单项中进行选择:

S1。选择一个感兴趣的结果(例如，肥胖患病率，癌症，)
S2。选择分析目标
S3。选择分析级别并输入地址/位置(患者地址[患者级别]、城市、县或州[人口级别])
S4。选择地理粒度级别(例如，邮政编码、人口普查区)
S5。选择SDoH领域特定的风险因素

在做出这些选择之后，系统将根据所选择的地理粒度级别，按需提供风险级别计算的解释。

场景1

医生选择“肥胖流行率”作为感兴趣的结果(S1)，选择“因果通路分析”(S2)作为分析目标，选择“患者水平”作为感兴趣的水平(输入患者地址，S3)，选择“人口普查区域”作为地理粒度水平(S4)。该系统根据患者地址的普查范围提供风险级别计算和描述性统计。医生还可以选择在S5中选择感兴趣的特定SDoH，在这种情况下，系统将在图中突出显示这些节点。最后，用户选择“Explore”，生成结果和相应的知识图。这些结果是根据用户对患者级分析的兴趣而定制的，并提供了分析结果的解释性概述(图5A).系统还允许用户将鼠标悬停在路径和节点上，以探索解释性知识(图5B, 5C)，并提供建议和知识的摘要(图5D)。

图5。城市人口健康观测站的仪表板显示了对其患者所在社区的肥胖流行率感兴趣的医生用户，并概述了分析结果(a)，当用户悬停在特定路径上时显示的解释(B)，当用户悬停在特定节点上时显示的知识(C)，以及建议和知识的总结(D)。ACESO:不良童年经历本体论;地理信息系统本体;DO:疾病本体;HIO:运行状况指示器本体。

场景2

在这里，研究人员可以访问更多的功能。研究人员在人口水平的分析中探索因果路径分析的目标，并进入孟菲斯，TN，作为人口普查区级别(S1-S3)的兴趣地点，如图所示图6，该系统提供了田纳西州孟菲斯市的风险水平计算。研究人员还可以访问回归图(图6， A)，反映了S5中的选择。在B节中，系统报告了SVR机器模型的结果，并为模型中包含的每个特征提供了解释(图6， B)。在C部分，解释窗格显示了一个知识图表，显示了根据用户对人口水平分析的兴趣量身定制的结果(图6， C).研究者也可以悬停在路径和节点上获取知识(图6， C, a, b和C)，就像场景1中的医生一样。该系统还为研究人员提供建议和知识的摘要(图6C, d)。

解释

仪表板的图表部分可以作为研究人员和医生的工具，从语义上解释我们对特定患者或人群所做的建议。当前版本的图表提供了2个不同的视觉线索，如下所示。

在图上追踪路径提供了视觉线索。红色的箭头图3显示特定患者、邮政编码或人口普查区域从风险因素导致负面健康结果的因果路径的边缘。虽然此路径是特定于所选患者或人群的，但它可以用作通用元路径。例如，个人而在CensusTract→representsA社区→hasPhysicalCharacteristic→RiskFactorFor疾病。根据所需的复杂程度，用户可以在图上跟踪路径，并单击某些节点或边以获得更多的见解，包括统计派生的证据或语义推断的知识。他们还可以跟踪这些知识的来源，包括使用的本体。
单击图形上的节点或边可以显示分析结果或知识。用户可以将鼠标悬停在某个边缘(例如，缺乏物理活动是肥胖流行的预测;图5B)获取数据的解释，表明在患者的普查范围内缺乏体育活动会导致肥胖患病率的增加。类似地，用户可以将鼠标悬停在一个度量节点上(例如，贫困线以下的人口百分比，图5C)解释这个病人所居住的社区，与他们所在城市、县或州的平均水平相比，有近61%的人口生活在贫困线以下。

UPHO的指标可以实现到EHR系统的后端(例如Epic)，这些指标的结果可以在EHR界面上以仪表板上的风险评分的形式呈现，仪表板上带有基于阈值的严重性指标。医生可以在人群水平或个体患者水平检查这些指标。UPHO还可以单独使用，允许医生通过提供患者的地址或提供患者所在的城市、州或县来提取有关单个患者的更多详细信息。输入被编码为地理级别的粒度，可以与人口级别的数据保持一致，以深入了解患者的环境。

主要研究结果

先前的研究表明，社会弱势群体受到肥胖等慢性疾病的影响尤为严重[5-8，这是导致糖尿病、心脏病和癌症的危险因素。UPHO的意义在于它能够提供一个多方面的监测系统设计，作为实施有效干预措施的工具，解决对健康差异的关切，提高公众的认识，并为卫生官员配备一个监测系统，将改善人口健康决策和规划[24］．通过使用语义层，UPHO平台通过重用关注公共卫生(如疾病、交通、地理)的几个本体来提供上下文知识。

语义学的结合为用户提供了额外的解释性和可解释性层，这可以减少由于误解或误解而导致的干预或治疗错误。语义层还可以使用本体来克服分散数据源的挑战，从而帮助实现互操作性，互操作性将用于维护数据集成、XAI和可解释性等特性。尽管数据有限，我们还是应用逻辑推理来提取和提供知识。

类似的慢性疾病监测系统[10-16]提供了帮助改善慢性疾病监测的方法。若干已发表的系统未纳入SDoH数据[10-14］．其中一项没有提供系统框架的实施[16]，其中一些并没有将XAI作为一个特性。

我们遵循UPHOs的概念框架[17]并试图通过结合人工智能和沼泽数据的进步来提高疾病监测的质量，包括交互式仪表板设计、可解释性、数据集成和互操作性，以及多模式SDoH数据的结合。开发一个多维、可扩展的监测系统，以监测和发现趋势，并提供快速早期预警和建议，可以帮助卫生官员、医生和研究人员减轻健康危机，如正在进行的COVID-19大流行[24］．

限制

UPHO的主要局限性之一是它收集人口数据，因此在临床环境中对个体进行社区或人口假设。例如，居住在特定人群或社区的个人或患者可能与居住在同一社区或社区的其他个人具有不同的特征。然而，我们的平台提供了一种端到端的方法来检查一个人所居住的环境，并包含了对实施针对特定疾病的有效干预措施很重要的信息。

未来的工作将重点放在UPHO平台的进一步开发上，以便它能够实现及时的、洞察驱动的决策，并为立即或长期的卫生政策应对措施提供信息[15到当前和未来的公共卫生危机。

结论

这项研究利用语义技术，为我们的基于知识的监测系统UPHO提供了概念验证原型设计，该系统旨在减少健康差距并改善人口健康。扩展的功能包含了另一个层次的可解释知识，为社区一级的医生、研究人员和卫生官员的决策过程提供信息。合并XAI有助于提高相关数据、信息和知识的可解释性和可解释性。不具备领域知识的用户可以从包含XAI的系统中提取常识性知识。35］．作为人类，我们需要清晰地可视化和理解系统中参数之间的关系，以便做出明智的决策。卫生保健和公共卫生领域缺乏可理解性和可解释性往往导致透明度差、缺乏问责制，并最终导致护理质量降低和卫生政策有偏见[39］．因此，语义和XAI的结合可以改善医疗保健和公共卫生的公平性、问责制、透明度和信任。

致谢

这项研究的资金由田纳西大学健康科学中心提供。

利益冲突

没有宣布。

2021年肥胖。日内瓦:世界卫生组织网址:https://www.who.int/news-room/facts-in-pictures/detail/6-facts-on肥胖[2021-09-09]访问
M, le Roux CW, Docherty NG。与肥胖相关的发病率和死亡率。安翻译医学2017年4月;5(7):161 [免费全文] [CrossRef] [Medline］
慢性病的健康和经济成本。亚特兰大:疾病控制和预防中心;2021年6月23日。URL:https://www.cdc.gov/chronicdisease/about/costs/index.htm[2021-09-09]访问
布尔斯马P，黑李，沃德BW。2018年美国成年人中多种慢性疾病的患病率。慢性疾病2020年9月17日;17:E106 [免费全文] [CrossRef] [Medline］
李A, Cardel M, Donahoo W.影响肥胖的社会和环境因素。在:法因戈尔德K，阿纳沃尔特B，博伊斯A，编辑。Endotext。南达特茅斯:MDText.com, Inc;2000.
苏丽霞，薛振华，肖a，王玉春，阮德乐A, Link BG。为什么邻里的社会环境对预防肥胖至关重要。J Urban Health 2016 Feb 15;93(1):206-212 [免费全文] [CrossRef] [Medline］
Reidpath DD, Burns C, Garrard J, Mahoney M, Townsend M.肥胖的社会和环境因素之间关系的生态学研究。卫生场所2002年6月;8(2):141-145。［CrossRef］
尤素福ZI，唐加瓦尔D，尤素福RA，贝尔M，哈里斯T，萨利胡HM。美国儿童超重和肥胖的社会决定因素。国际妇幼保健杂志艾滋病2020年12月28日;9(1):22-33 [免费全文] [CrossRef] [Medline］
萨克，伯克曼，美国的公共卫生监测。流行病学杂志1988;10:164-190。［CrossRef] [Medline］
罗门施，杨晓明，杨晓明，杨晓明。基于电子病历的健康知识图谱研究。科学通报2017年7月20日;7(1):5994 [免费全文] [CrossRef] [Medline］
Sheth P, Anantharam P, Thirunarayan K. kHealth:为更好的医疗保健提供积极的个性化可操作信息。2014年发表于:第40届国际大型数据库研讨会物联网个人数据分析(PDA@IOT);2014;网上。
王晓明，王晓明，王晓明。基于知识图谱的研究群体可视化研究。计算科学2019:53-68。［CrossRef］
陈晓明，陈晓明，陈晓明。基于知识整合的乳腺癌诊断方法研究。Int语义Web Conf 2018:223-238。［CrossRef］
Gyrard A, Manas G, Saeedeh S, Krishnaprasad T, Amit S.个性化健康知识图谱。ISWC 2018情境化知识图谱研讨会2018:1 [免费全文］
Shaban-Nejad A, Lavigne M, Okhmatovskaia A, Buckeridge DL。PopHR:一个基于知识的平台，支持人口健康数据的集成、分析和可视化。神经科学学报2017年1月17日;1387(1):44-53。［CrossRef] [Medline］
Castillo-Salgado C.发展一个以学术为基础的公共卫生观测站:约翰霍普金斯大学彭博公共卫生学院的新的全球公共卫生观测站，重点是城市卫生。Cad。Saúde Pública 2015年11月31日(增刊1):286-293。［CrossRef］
蔡affa WT, Friche AAL, Dias MAS, Meireles AL, Ignacio CF, Prasad A，等。制定城市卫生观察站的概念框架，将研究和证据纳入促进健康和卫生公平的城市政策。J Urban Health 2014 Feb 22;91(1):1-16 [免费全文] [CrossRef] [Medline］
Doshi-Velez F, Kim B.朝着可解释机器学习的严格科学。Mach Learn 2017:2。［CrossRef］
巴塔利亚W，哈姆里克J.关系归纳偏差，深度学习和图网络。2018.URL:https://arxiv.org/abs/1806.01261[2022-06-27]访问
Angelov PP, Soares EA, Jiang R, Arnold NI, Atkinson PM。可解释的人工智能:分析回顾。电线数据挖掘Knowl发现2021年7月12日;11(5):1。［CrossRef］
罗旭东，李志强。人- agent系统的可解释性。Auton Agent Multi-Agent Syst 2019 5月13日;33(6):673-705。［CrossRef］
Biemann C.我们需要什么来为医疗领域构建可解释的AI系统?2017.URL:https://arxiv.org/abs/1712.09923[2022-06-27]访问
Lundberg M, Lee S.解释模型预测的统一方法。Proc Adv神经Inf Proc系统2017:4768-4777 [免费全文］
Brakefield WS, Ammar N, Olusanya OA, Shaban-Nejad A.支持COVID-19大流行准备、响应和管理的城市人口健康观测站系统:设计和开发研究。JMIR公共卫生监测2021年6月16日;7(6):e28269 [免费全文] [CrossRef] [Medline］
500城市项目:2016年至2019年。亚特兰大:疾病控制和预防中心;2020年12月8日。URL:https://www.cdc.gov/places/about/500-cities-2016-2019/index.html[2021-09-20]访问
关于ACS。美国人口普查局。2021年1月04日。URL:https://www.census.gov/programs-surveys/acs/about.html[2021-09-20]访问
经济研究处:数据来源。美国农业部。URL:经济/ farm-sector-income-finances /数据源/ https://www.ers.usda.gov/topics/farm-[2021-09-20]访问
Haendel MA, Chute CG, Robinson PN。分类、本体与精准医疗。英国医学杂志2018年10月11日;379(15):1452-1462。［CrossRef］
沙班-内贾德A，巴克里奇D, Dubé L. COPE:儿童肥胖预防[知识]企业。人工智能医学2011:225-229。［CrossRef］
Brenas JH, Shin EK, Shaban-Nejad A.心理健康监测、研究和评估的不良童年经历本体:先进的知识表示和语义网络技术。JMIR Ment Health 2019年5月21日;6(5):e13498 [免费全文] [CrossRef] [Medline］
薛瑞敏，张玉伟，马泽提斯，费立平，等。疾病本体:疾病语义集成的主干。Nucleic Acids Res 2012 Jan 12;40(D1):D940-D946 [免费全文] [CrossRef] [Medline］
Shaban-Nejad A, Okhmatovskaia A, Izadi MT, Naderi N, Mondor L, Jauvin C，等。PHIO:解释和计算公共卫生指标的知识库。种马健康技术通报2013;192:1207。［Medline］
知识图的定义。2016.URL:http://ceur-ws.org/Vol-1695/paper4.pdf[2022-06-27]访问
Ammar N, Bailey JE, Davis RL, Shaban-Nejad a.在服务不足的人群中使用个人健康库支持的mHealth推荐系统进行糖尿病自我管理:知识图和关联数据的用例。JMIR Form Res 2021年3月16日;5(3):e24738 [免费全文] [CrossRef] [Medline］
阿玛尔N, Shaban-Nejad A.可解释的人工智能推荐系统，利用不良童年经历的语义:概念证明原型开发。JMIR Med Inform 2020 11月04日;8(11):e18752 [免费全文] [CrossRef] [Medline］
王志强，王志强。支持向量回归。见:高效学习机:工程师和系统设计师的理论、概念和应用。在线:然后;2015:67 - 80。
Drucker H, Burges C, Kaufman L, Smola A, Vapnik V.支持向量回归机。1997.URL:http://papers.neu rips.cc /纸/ 1238 -支持向量回归- machines.pdf[2022-06-27]访问
Kuhn M.使用插入包在R中构建预测模型。统计软件2008;28(5):1-26。［CrossRef］
Shaban-Nejad A, Michalowski M, Brownstein J, Buckeridge D.客座社论解释人工智能:迈向医疗保健的公平、问责、透明和信任。IEEE生物医学健康信息2021年7月;25(7):2374-2375。［CrossRef］

‎

王牌:不良童年经历

ACESO:不良童年经历本体论

疾病预防控制中心:美国控制和预防中心

应对:儿童肥胖预防(知识)事业

做的事:疾病本体

电子健康档案:电子健康记录

GISO:地理信息系统本体

HIO:运行状况指标本体

健康:移动健康

RMSE:均方根误差

SDoH:健康的社会环境决定因素

世鹏科技电子:沙普利加法解释

SVR:支持向量回归

UPHO:市区人口健康观察

VIF:方差膨胀因子

人:世界卫生组织

新品:可解释的人工智能

A Mavragani编辑;提交29.12.21;S Mukherjee, J Ye, D Surian同行评审;对作者13.04.22的评论;修订本于03.05.22收到;接受07.06.22;发表20.07.22

©Whitney S Brakefield, Nariman Ammar, Arash Shaban-Nejad。最初发表于JMIR Formative Research (https://formative.www.mybigtv.com)， 20.07.2022。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息，https://formative.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

疾病因果路径分析和决策支持的城市人口健康观察站:潜在可解释的人工智能模型