JMIR mHealth和uHealth -评估移动健康相关应用程序的质量:两种指南的相互评价者可靠性研究

原始论文

罗维拉维吉尔大学;心理学系，心理研究中心Avaluació i Mesura de la传导，研究所'Investigació Sanitària Pere Virgili，塔拉戈纳，西班牙

*所有作者贡献相同

通讯作者:

Jordi Miró，博士

罗维拉维吉尔大学;心理学系

中心de Recerca en Avaluació i Mesura de la传导

研究所'Investigació Sanitària维吉里神父

精神科，caratera de Valls, s/n

塔拉戈纳,43007

西班牙

电话:34 977558179

电子邮件:jordi.miro@urv.cat

背景:现在有大量与健康相关的应用，而且数量还在快速增长。然而，其中许多是在没有任何质量控制的情况下开发的。为了帮助开发高质量的应用程序，并使现有的应用程序能够得到评估，已经开发了几个指南。

摘要目的:这项研究的主要目的是研究一种新的指南——移动应用程序开发和评估指南(MAG)——的评分者之间的可靠性，并将其与该领域最常用的指南之一——移动应用程序评分量表(MARS)进行比较。此外，我们还关注了在多种类型的应用程序和利益相关者之间，评估方法的相互可靠性是否一致。

方法:为了研究MAG和MARS的相互评价可靠性，我们评估了IOS和Android设备医疗类别(即App Store和谷歌Play)中下载最多的4个慢性健康状况健康应用程序。一组由8名审稿人组成的小组使用MAG和MARS独立评估了应用程序的质量，他们代表了对健康相关应用程序的使用和开发最有知识和兴趣的个人，包括不同类型的利益相关者，如临床研究人员、工程师、医疗保健专业人员和作为潜在患者的最终用户。我们计算了两份指南中每个类别、每种类型的评论者和每个应用的Krippendorff alpha，分别和组合，以研究评分者之间的可靠性。

结果:只有少数类别的MAG和MARS显示出较高的相互评级的可靠性。虽然MAG被发现是优越的，但不同类型的评审员之间的分数有相当大的差异。MAG中评分者间信度最高的类别是“安全”(α=0.78)及“私隐”(α= 0.73)。此外，另外两个类别，“可用性”和“安全性”非常接近于合规性(医疗保健专业人员:α=0.62和0.61)。MAG(即所有类别)的总评分间信度为0.45，而MARS的总评分间信度为0.29。

结论:本研究表明，MAG的某些类别具有显著的评分间信度。重要的是，数据显示MAG分数比MARS提供的分数更好，MARS是该地区最常用的指南。然而，在回答中有很大的可变性，这似乎与审稿人的主观解释有关。

JMIR Mhealth Uhealth 2021;9(4):e26471

doi: 10.2196/26471

关键字

移动健康；移动健康；移动应用程序；评价研究，评级；评分者间信度；火星；玛格

近年来，人们对移动设备(如智能手机、平板电脑)的使用兴趣激增。[1]，与此同时，与健康相关的移动应用程序开发也取得了巨大进展[2］．例如，据报道，最近共有32.5万个不同的与健康相关的应用程序可供使用[3.］．实际上，针对各种健康状况的移动应用程序都有:例如，慢性疼痛[4，5]、癌症[6]、糖尿病[7]，以及心血管疾病[8］．这种增长不仅给患者带来了巨大的好处，而且在多个层面上给整个社会带来了巨大的好处。例如，与健康相关的应用程序有助于(1)改善治疗管理，(2)促进患者与医生的沟通，(3)实时监测患者的病情，以及(4)改善治疗的可获得性[9-12］．但也有一些注意事项，主要与该过程在某种程度上不受监督和不受管制有关。有人认为，这一领域的发展没有太多的科学支持或指导。13不仅是进步的障碍[14]但更重要的是，它可能会危及个人的健康[15］．与健康应用相关的一些主要问题是:(1)错误的提醒使适当的后续治疗变得困难(例如，关于何时进行活动或服药的说明不正确[16]);(2)缺乏卫生专家的参与[17];(3)对消费者需求的不恰当回应(例如，双相情感障碍应用程序在被问及极端情绪波动或自杀意念时未能提供任何回应[18]);(4)用药剂量不正确(如根据血糖值计算胰岛素剂量不正确[19])。

为了克服与健康相关的应用程序所面临的问题，已经开发了一些评级量表和指南(例如，[20.，21])。其中之一便是手机应用评级量表(MARS)。22］．它是衡量健康相关应用质量最常用的评级量表之一[23-27］．然而，MARS是从一个狭隘的角度创造出来的[28-30.]这是基于对现有移动应用程序的研究进行分析，并忽略了其他相关来源的信息(例如，管理医疗设备软件设计的标准)。

最近，流动应用程序开发及评估指引[13]的创建是为了解决可用指南中观察到的问题(但不包括当前的关键问题，如隐私和安全)，并帮助评估与健康相关的应用程序，并指导利益相关者开发新的高质量应用程序。MAG的开发使用了所有潜在相关来源的数据，以及健康应用程序开发领域指南、框架和标准的代表性样本。MAG已被国际和跨学科的利益相关者团体公认为良好的质量指南[31］．

这些指南在该领域非常重要，因为它们提供了质量分数，这是识别可用的最佳应用程序并将其与设计糟糕的应用程序区分开来的关键。然而，很少有关于比较价值和一致性的资料。该领域将从指导新应用程序开发和相对评估现有应用程序质量的研究中受益匪浅。

本研究的主要目的是研究和比较MAG和MARS。更具体地说，我们的目的是比较两种措施的评分者之间的可靠性。我们还关注了在多种类型的应用程序和利益相关者之间，评估方法的相互可靠性是否一致。

应用程序选择过程

为了评估MAG和MARS在不同类型应用程序中的相互评分可靠性，我们评估了苹果和安卓商店(即App Store和谷歌Play)医疗类别中慢性健康状况的前4个搜索结果。搜索和选择应用程序是在2020年10月进行的。

入选标准如下:该应用程序必须专注于慢性健康状况，使用英语或西班牙语，并且可以免费下载。我们选择慢性疾病，因为这是健康应用程序越来越相关的领域之一(56%的健康应用程序是为这类患者设计的[32])。政府机构的报告表明，慢性疾病是影响31%人口的主要健康问题[33-36］．此外，在全球疾病负担方程式中，慢性疾病是发达国家和发展中国家死亡和残疾的主要原因。最重要的慢性健康状况是腰痛和头痛、肿瘤、糖尿病和肾脏疾病以及心血管疾病[37-40］．我们使用了以下搜索词，这些词与全球疾病负担研究中排名前四的慢性健康状况有关[41疼痛、癌症、糖尿病和心血管疾病。在这次搜索中，我们确定了886个应用程序，并排除了265个，因为它们与4种感兴趣的健康状况中的任何一种都无关。最后，我们选择了下载最多的4个应用程序(每种慢性健康状况1个)，然后将其用于这项研究。

App评估流程

这些应用程序在2020年10月和11月期间由8名评审员评分。评审员是一组利益相关者，包括临床研究人员、工程师、卫生保健专业人员和潜在患者的最终用户。这些利益相关者群体被认为是最有知识、对使用和开发健康相关应用程序最感兴趣的个人代表。“最终用户/潜在患者”和“医疗保健专业人员”组中的个人是由作者在大学医院(分别为健康检查或工作时)确定和接触的。“临床研究人员”和“工程师”组的人是在大学工作的教授或技术人员。只有同意参与并报告有使用智能手机和健康应用程序经验的个人被选中。所有受试者均被纳入研究范围。审稿人收到(1)应用程序列表，(2)一份包括MAG和MARS项目的调查，以及(3)关于如何进行应用程序审查和评估的具体说明。为了避免潜在的干扰，帮助审稿人独立工作，并与类似研究相一致(例如，[42)时，他们没有得到任何其他关于手术的建议、指示或培训。

为了进行评估，所有评审员都下载并安装在他们的个人移动设备上。然后，他们使用MAG和MARS中的特定标准来审查每个应用程序。在他们的评估中，评论者被指示只考虑应用本身和商店(即app Store和谷歌Play)中提供的内容和信息。这包括网站、科学研究和其他外部参考资料，只要它们在应用程序或商店中被明确建议或提及。与类似的成功程序一样，评测人员没有接受过任何专门的培训，尽管他们花了几分钟检查应用程序，但没有人指导他们实际使用这些应用程序。42］．这个活动和程序的目标是，他们将以与不需要这些应用程序的专家相同的方式评估这些应用程序。

MAG [31]共有48个条目，分为8个类别或领域:可用性、隐私性、安全性、适当性和适宜性、透明度和内容、安全性、技术支持和更新，以及技术。审查员使用类别中的每一项来评估应用程序的质量，并检查应用程序是否符合这些特征和功能(1=满足;0 = no)。

火星[22]有23个项目，分为5类:粘性、功能性、美学、信息质量和主观质量。它还有6个特定于应用程序的项目，可以进行调整，以包括或排除有关感兴趣主题的特定信息。例如，在一项支持心力衰竭症状监测和自我护理管理的移动应用程序研究中，这些项目已被用于评估对用户知识、态度和改变意图的感知影响，以及改变已确定的目标行为的可能性[23］．在这项研究中，我们放弃了这些特定于应用程序的项目。在使用MARS时，评审员使用每个项目来评估应用程序的质量，并使用5分制进行评分(1=不足，2=差，3=可接受，4=良好，5=优秀)。

数据分析

为了研究和比较MAG和MARS的相互可靠性，我们计算了Krippendorff alpha [43，44]针对这两种指南中的每个类别，每种评论者和每款应用，分别或组合。克里彭多夫系数已被发现优于科恩系数，可用于无限数量的审稿人[45-47］．alpha˃0.667已被确定为显示可接受的一致性[44］．因此，在本研究中，我们使用这个数字作为显示一致性的最小水平[44］．如果alpha值为负值，则表明双方达成一致的几率低于预期。所有数据分析均使用SPSS v.26 for Windows软件，使用Kalpha宏[48］．

共有8名评论者使用MAG和MARS指南对这4个应用程序进行了评分。在分析中包括的移动应用程序是“管理我的疼痛”(即疼痛)，“属于一起战胜癌症”(即癌症)，“mysugar -糖尿病应用程序和血糖跟踪器”(即糖尿病)，以及“ASCVD风险估计器Plus”(即心血管疾病)。

评审组包括2名临床研究人员、2名工程师、2名卫生保健专业人员和2名最终用户(潜在患者)。审稿人的年龄从24岁到40岁不等，男女比例均等。临床研究人员、工程师和医疗保健专业人员参与了与健康相关的应用程序的开发，但没有参与本研究中使用的任何应用程序和指南(他们没有任何利益冲突)。所有评论者都是受过高等教育的人(都完成了大学学业)，都是有经验的智能手机和移动应用程序用户。

几乎所有的标准和应用程序都提供了完整的回答，尽管少数标准显示数据完整性的百分比在78%到97%之间(例如，“它有密码管理机制”;看到多媒体附件1）.表1而且2显示两种指南按类别和总体的评级者之间的可靠性系数。

表1。当评审员使用移动应用程序开发和评估指南(MAG)时，评分者之间的可靠性得分。

类别	评论家
	临床研究人员	工程师	卫生保健专业人士	最终用户	总
可用性	0.28	0.28	0.62	0.45	0.38
隐私	0.36	0.73	0.42	0.43	0.45
安全	0.18	0.78	0.76	0.26	0.47
适当性和适宜性	0.38	0	-0.15	0	０．２５
透明度和内容	0	1	-0.40	-0.36	0.15
安全	0.59	0.51	0.61	-0.23	0.33
技术支持和更新	0.38	1	1	0.76	0.30
技术	0.44	0.45	-0.05	0.45	0.39
总计	0.40	0.66	0.55	0.29	0.45

表2。当评论者使用移动应用评价量表(MARS)时，评论者之间的可靠性得分。

类别	评论家
	临床研究人员	工程师	卫生保健专业人士	最终用户	总
订婚	0.18	0.50	0.53	0.41	0.43
功能	0.24	0.52	0.40	-0.38	0.19
美学	0.42	0.26	0.23	-0.14	0.17
信息	0.03	0.08	0.05	-0.09	0.06
主观的	0.57	0.41	-0.08	0.54	0.43
总计	0.27	0.41	０．２５	0.19	0.29

对于MAG，审稿人在几个类别上的得分符合标准。评分者之间可靠性得分最高的类别是“隐私”(工程师:P=.73)和“安全”(工程师:P=尾数就;卫生保健专业人员:P= .76)。此外，另外两个类别，“可用性”和“安全性”非常接近于合规性(医疗保健专业人员:P=。62而且P=。61，respectively). The total interrater reliability of MAG (ie, for all categories) was 0.45 (see表1）.

对于MARS，没有一个评审员的分数或总分符合标准。评分者间指数最高的类别是“参与”和“主观”，两者的alpha系数均为0.43。MARS的总评分者间信度(即，所有类别)为0.29(见表2）.

表3而且4显示使用MAG和MARS指南评估的每个移动应用程序的相互评分者可靠性得分。可以看出，没有一个分数符合总体标准或任何类别的标准。尽管如此，MAG指南的评分者间可靠性得分最高。

MAG和MARS之间的相互评价者可靠性的比较显示在表5．其他补充信息也提供了关于每个项目的评分者之间的可靠性评分(见多媒体附件1）.

表3。当评论者使用移动应用程序开发和评估指南(MAG)时，应用程序的相互评级者可靠性得分。

类别	移动应用程序
	控制我的痛苦	一起战胜癌症	mysugar -糖尿病应用程序和血糖跟踪器	ASCVD风险估计器加
可用性	0.58	0.49	0.27	0.15
隐私	0.47	0.38	0.28	0.20
安全	0.44	0.18	0.42	0.32
适当性和适宜性	1	0.42	0	-0.04
透明度和内容	0.08	-0.08	-0.06	0．00
安全	0	0.47	0.33	0.21
技术支持和更新	0．10	0.57	0.16	0．10
技术	0.17	0.36	0.12	0.45
总计	0.53	0.42	0.32	0.35

表4。当评论者使用移动应用评价量表(MARS)时，应用的相互评价者可靠性得分。

类别	移动应用程序
	控制我的痛苦	一起战胜癌症	mysugar -糖尿病应用程序和血糖跟踪器	ASCVD风险估计器加
订婚	0.31	0.24	-0.10	0.18
功能	0.27	0.05	-0.02	0.16
美学	-0.05	-0.03	-0.07	0.12
信息	-0.08	0.08	-0.03	0.09
主观的	0.55	0.44	0.16	0.14
总计	0.20	0.18	0.01	0.42

表5所示。移动应用程序开发和评估指南(MAG)和移动应用程序评级量表(MARS)的相互评级者可靠性得分。

指南和类别		可靠性
玛格
	可用性	0.38
	隐私	0.45
	安全	0.47
	适当性和适宜性	０．２５
	透明度和内容	0.15
	安全	0.33
	技术支持和更新	0.30
	技术	0.39
	总计	0.45
火星
	订婚	0.43
	功能	0.19
	美学	0.17
	信息	0.06
	主观的	0.43
	总计	0.29

主要研究结果

这项研究是首次测量MAG的评分者间信度[13，31］．我们使用MAG研究了4个与健康相关的移动应用程序，并将结果与MARS的结果进行了比较[22，是该领域使用最广泛的指南之一。

在使用Krippendorff alpha的研究中，习惯上要求alpha >0.800。然而，alpha˃0.667已被确定为表示可接受的一致性，低于此值则被认为是不可接受的[42，44］．数据显示，很少有类别达到这一得分，并显示出较高的评分者之间的可靠性。这一发现与其他研究的结果相似(例如，[26，42，46])，他们分析了这种类型的导轨。总的来说，调查结果表明，评论者很难以相同或相似的方式对应用程序进行评级。首先，评论者在审查每个应用程序上所花费的时间差异很大(从30分钟到60分钟不等)。因此，审查过程中花费的时间可能对评估结果产生了影响。我们的数据并没有显示出与回顾花费的时间有关的差异。然而，我们使用了少量的审稿人(n=8)。因此，进一步研究这个问题是有必要的。另一种可能的解释是，评论者与应用程序的交互方式不同，所以它们会显示不同的响应和功能。46］．因此，评论者不太可能检测到所有应用功能，这就导致了评级的差异，因为他们可能不会评估完全相同的项目。支持这一解释的事实是，被评估的最客观的类别，即那些需要审稿人较少主观解释的类别(如“隐私”、“安全”)，是评分者之间可靠性最高的类别。这一发现与鲍威尔及其同事所报道的相似[42，他们发现审稿人需要的判断越少，信度越高。

这项研究的另一个重要发现是MAG的评分者间可靠性得分优于MARS。重要的是，MAG中一些评分者间可靠性最高的类别并不包括在MARS中(如“隐私”、“安全”、“技术”)。近年来，这些问题在该领域变得越来越重要。

还应该注意的是，一些MAG类别显示出比其他类别更高的评分者之间的可靠性，但在不同类型的审稿人之间的分数有相当大的差异。这一发现表明，评分者间信度得分的差异与审稿人的背景或培训等个体特征有关。这可以帮助解释，至少在一定程度上，为什么工程师在“安全”这一类别中表现出最高的可靠性得分，因为这是一个重要的问题，目前是工程师培训的关键问题，而不是临床研究人员的问题。这意味着需要来自不同背景的审查员来评估应用程序，审查员需要接受培训。然而，也有可能评分者之间的低可靠性得分不仅与评论者有关，也与应用程序有关。也就是说，虽然我们选择了下载最多的4个应用程序，但它们可能不是高质量的应用程序或不容易评估(例如，应用程序的功能或属性不容易找到或识别)。为了支持这一解释，在这两份指南中，有一些项目没有得到任何审稿人的回答(例如，“它有一个数据恢复系统，以防丢失”;“它是基于道德原则和价值观”)。最后，对这些结果的另一个非排他的解释可能与导航仪(即MAG和MARS)有关。事实上，需要解释较少的类别(如“安全”)是评分者间可靠性最高的类别，这将支持这一解释。 This suggests that the guides must be improved.

评分者之间可靠性的差异，更重要的是，较低的分数表明存在一个非常重要的潜在问题，表明很难创建一个良好的指南来帮助开发和评估与健康相关的应用程序。根据本研究结果及其他研究结果(例如，[42，46])，健康相关应用程序的用户应谨慎使用和解释质量评估结果。这些指南，就其本身而言，并没有被证明能够为应用程序的整体质量提供安全可靠的衡量标准。

健康相关应用的质量评估非常重要。因此，我们必须继续努力改进进行评估的方式。这不仅需要改进现有的指南，还需要与专业中心和训练有素的审稿人合作。

未来的研究

需要研究来帮助改进心理测量健全的可用指南，因此未来的研究应集中在如何提高和实证测试评分者之间的可靠性上。例如，研究应该检查给予审稿人额外的培训是否足够，或者如何才能最好地提高审稿人的知识和评估技能。他们还应该确定与健康相关的应用程序的质量是否应该由具有不同资格、培训和背景的评审员进行评估。此外，由于主观性可能是指南中的一个问题，需要改进的地方是指南包括明确定义的标准。因此，研究确定可理解和定义良好的标准是否可以在改进审稿人培训的基础上提高评分者之间的可靠性是有必要的。此外，特别是与MAG相关的更多不同类型的应用程序的额外研究也是有必要的。这将有助于确定不同类型的应用是否以及如何影响评论者的评估。此外，指南中包含的标准和类别值得特别注意。需要对更多的审稿人样本(包括患有慢性疾病的个体)进行研究，以评估其可理解性和适当性。

限制

这项研究有一些局限性，在解释结果时应该考虑到这些局限性。首先，我们研究了MAG用于评估Android和IOS应用程序时的评分者间可靠性。虽然这两个平台上的应用程序通常是相同的，但在使用不同的平台和设备时，可能会有一些小的差异影响用户的体验或性能。例如，显示的信息量或某些元素(如按钮、菜单)的位置和大小可能因屏幕的大小而不同。其次，我们使用的应用程序数量非常有限。我们选择了下载次数最多的，因为我们认为它们的质量更好，因此更容易让审稿人进行评估。然而，它们可能质量不高或不具有健康相关应用的代表性，因此可能不适合用于准确研究指南的评分者之间的可靠性。第三，在评估应用程序期间，它们可能被更新或修改过，这将对评估结果产生未知的影响。第四，虽然来自不同群体的个体参与其中，但他们可能不具有代表性。尽管他们在各自的领域非常精通，但他们可能不是评估应用质量的最佳人选，因为他们都没有接受过任何培训。 Moreover, they did not receive any substantial training in using the MAG or MARS. Thus, it is unclear whether the low interrater reliability is related to the instrument that is being used, to the lack of training provided to the raters, or both. We decided not to give specific training as we wanted to study whether the MAG and MARS can be reliably used as they are. Previous studies have also used this strategy (eg, [42])。然而，未来的研究应该探讨培训是否有助于提高审稿人的评估和评分者之间的信度。

结论

尽管研究的局限性，我们的发现提供了关于MAG的新的和重要的信息。特别重要的是，MAG中的几个类别具有显著的评分者之间的可靠性。此外，数据显示，这些分数比该地区最常用的指南MARS提供的分数要好。

致谢

这项工作得到了西班牙经济、工业和竞争力部(RTI2018-09870-B-I00;red2018 - 102546 t);欧洲区域发展基金，加泰罗尼亚政府(AGAUR;2017 sgr - 1321);Fundación Grünenthal(西班牙)，Rovira i Virgili大学(PFR计划);和ICREA-Academia。PL受益于由加泰罗尼亚大学秘书处、欧盟和欧洲社会基金共同资助的博士预科奖学金(2019 FI_B2 00151)。

利益冲突

没有宣布。

‎

多媒体附件1

每个项目的评分者之间的可靠性评分和数据完整性。

PDF档案(adobepdf档案)，142 KB

2019年移动经济。GSMA情报，2019。URL:https://www.gsmaintelligence.com/research/?file=b9a6e6202ee1d5f787cfebb95d3639c5&download[2020-07-14]访问
Statista。应用商店:2020年领先应用商店的应用数量。2020.URL:https://www.statista.com/statistics/276623/number-of-apps-available-in-leading-app-stores/[2020-07-14]访问
移动卫生经济学2017:移动卫生的现状和未来趋势。Research2Guidance。2017.URL:https://research2guidance.com/product/mhealth-economics-2017-current-status-and-future-trends-in-mobile-health[2020-07-14]访问
de la Vega R, Roset R, Castarlenas E, Sánchez-Rodríguez E, Solé E, Miró J.疼痛计的开发和测试:评估疼痛强度的智能手机应用程序。J Pain 2014 10月;15(10):1001-1007。［CrossRef] [Medline］
de la Vega R, Roset R, Galán S, Miró J. Fibroline:一款改善青少年纤维肌痛患者生活质量的移动应用。中华健康心理杂志2018年1月;23(1):67-78。［CrossRef] [Medline］
凯泽尔，傅高荣，王志强，王志强。肿瘤学中的移动应用程序:关于医疗保健专业人员对远程医疗、移动健康和肿瘤应用程序的态度的调查。J Med Internet Res 2016年11月24日;18(11):e312 [免费全文] [CrossRef] [Medline］
Kebede MM, Pischke CR.流行糖尿病应用程序和糖尿病应用程序使用对自我护理行为的影响:对社交媒体上糖尿病患者数字社区的调查。前面。内分泌2019年3月1日;10:135 [免费全文] [CrossRef] [Medline］
郭瑞敏，李志强，李志强。移动应用程序在心血管疾病自我管理中的有效性、可接受性和有用性:定量和定性数据综合的系统综述。欧洲心脏病杂志2018年3月25日(5):505-521。［CrossRef] [Medline］
全球电子保健观察站系列————第3卷。世界卫生组织，2011年7月。URL:https://www.who.int/goe/publications/ehealth_series_vol3/en/[2021-04-10]访问
Pérez-Jover V, Sala-González M, Guilabert M, Mira JJ。提高治疗依从性的移动应用程序:系统回顾。J Med Internet Res 2019 Jun 18;21(6):e12505 [免费全文] [CrossRef] [Medline］
ersting C, Dombrowski SU, Oedekoven M, O Sullivan JL, Kanzler M, Kuhlmey A，等。使用智能手机和健康应用程序来改变和管理健康行为:基于人群的调查。J Med Internet Res 2017 Apr 05;19(4):e101 [免费全文] [CrossRef] [Medline］
哈明S，格特-盖耶特E, Faulx D，格林BB，金斯伯格AS。移动健康慢性病管理对治疗依从性和患者结果的影响:一项系统综述。J Med Internet Res 2015 Feb 24;17(2):e52 [免费全文] [CrossRef] [Medline］
Llorens-Vernet P, Miró J.移动健康相关应用标准:指南的系统评审和开发。JMIR Mhealth Uhealth 2020 Mar 03;8(3):e13057 [免费全文] [CrossRef] [Medline］
de la Vega R, Miró J. mHealth:一个没有坚实科学灵魂的战略领域。系统回顾与疼痛相关的应用程序。PLoS One 2014;9(7):e101312 [免费全文] [CrossRef] [Medline］
Akbar S, Coiera E, Magrabi F.面向消费者的移动健康应用程序的安全问题及其后果:范围审查。美国医学通报协会2020年2月01日;27(2):330-340 [免费全文] [CrossRef] [Medline］
朴杰叶，李娟，郝仁A，曹新伟，De Vera M.针对药物依从性的手机应用程序:用户评论的质量评估和内容分析。JMIR Mhealth Uhealth 2019年1月31日;7(1):e11919 [免费全文] [CrossRef] [Medline］
Subhi Y, Bube SH, Rolskov BS, Skou TAS, Konge L.医疗手机应用程序中的专家参与和医学证据的坚持:系统评价。JMIR Mhealth Uhealth 2015年7月27日;3(3):e79 [免费全文] [CrossRef] [Medline］
Nicholas J, Larsen ME, Proudfoot J, Christensen H.双相情感障碍的移动应用程序:功能和内容质量的系统回顾。中国医学杂志，2015;17(8):e198 [免费全文] [CrossRef] [Medline］
Huckvale K, Adomaviciute S, Prieto JT, Leow MK, Car J.用于计算胰岛素剂量的智能手机应用程序:系统评估。BMC Med 2015;13:106 [免费全文] [CrossRef] [Medline］
药品和保健产品管理局。医疗设备:软件应用(apps)。GOV.UK。2014年8月8日。URL:https://www.gov.uk/government/publications/medical-devices-software-applications-apps[2020-07-14]访问
关于健康应用程序和智能设备(移动健康或移动健康)的良好实践指南。高级Autorité de Santé。2016.URL:https://www.has-sante.fr/jcms/c_2681915/en/good-practice-guidelines-on-health-apps-and-smart-devices-mobile-health-or-mhealth[2020-07-14]访问
Stoyanov SR, Hides L, Kavanagh DJ, Zelenko O, Tjondronegoro D, Mani M.移动应用程序评级量表:评估健康移动应用程序质量的新工具。JMIR Mhealth Uhealth 2015年3月11日;3(1):e27 [免费全文] [CrossRef] [Medline］
Masterson Creber RM, Maurer MS, Reading M, Hiraldo G, Hickey KT, Iribarren S.使用移动应用程序分级量表(MARS)对现有手机应用程序支持心力衰竭症状监测和自我护理管理的回顾和分析。JMIR Mhealth Uhealth 2016年6月14日;4(2):e74 [免费全文] [CrossRef] [Medline］
胡丽丽，李志强，李志强，李志强。智能手机应用程序在酒精和非法药物使用方面的应用:应用商店系统搜索和关键内容分析。JMIR Mhealth Uhealth 2019 4月22日;7(4):e11831 [免费全文] [CrossRef] [Medline］
马赫迪，Stach M, Riha C, Neff P, Dode A, Pryss R，等。耳鸣的智能手机和移动健康应用程序:系统识别、分析和评估。JMIR Mhealth Uhealth 2020 Aug 18;8(8):e21767 [免费全文] [CrossRef] [Medline］
尼特扎J, Tascilar K, Messner E, Meyer M, Vossen D, Pulla A，等。风湿学中的德国移动应用程序:使用移动应用程序评级量表(MARS)的回顾和分析。JMIR Mhealth Uhealth 2019 Aug 05;7(8):e14991 [免费全文] [CrossRef] [Medline］
Grainger R, Townsley H, White B, Langlotz T, Taylor WJ。类风湿性关节炎患者监测其疾病活动的应用程序:应用程序的最佳实践和质量审查。JMIR Mhealth Uhealth 2017 Feb 21;5(2):e7 [免费全文] [CrossRef] [Medline］
Nouri R, R Niakan Kalhori S, Ghazisaeedi M, Marchand G, Yasini M.移动健康应用程序质量评估标准:系统评价。J Am Med Inform association 2018年8月01日;25(8):1089-1098 [免费全文] [CrossRef] [Medline］
西迪基AB，克雷布斯M，阿尔瓦雷斯S，格林斯潘I，帕特尔A，金解林J，等。慢性肾脏和终末期肾脏疾病护理管理的移动应用程序:应用程序商店中的系统搜索和评估。JMIR Mhealth Uhealth 2019 Sep 04;7(9):e12604 [免费全文] [CrossRef] [Medline］
Levine DM, Co Z, Newmark LP, Groisser AR, Holmgren AJ, Haas JS，等。移动健康应用程序评级工具的设计和测试。NPJ数字医学2020;3:24 [免费全文] [CrossRef] [Medline］
Llorens-Vernet P, Miró J.移动应用程序开发和评估指南(MAG):基于delphi的有效性研究。JMIR Mhealth Uhealth 2020年7月31日;8(7):e17760 [免费全文] [CrossRef] [Medline］
移动健康经济2016 -移动健康应用市场的现状和趋势。Research2Guidance。2016.URL:https://research2guidance.com/product/mhealth-app-developer-economics-2016/[2020-07-14]访问
美国的慢性病疾病控制和预防中心，2020年。URL:https://www.cdc.gov/chronicdisease/resources/infographic/chronic-diseases.htm[2020-07-14]访问
慢性疾病概述。澳大利亚卫生和福利研究所，2019年。URL:https://www.aihw.gov.au/reports-data/health-conditions-disability-deaths/chronic-disease/overview[2020-07-14]访问
欧盟关于慢性疾病的研究。欧盟委员会，2014。URL:https://ec.europa.eu/info/research-and-innovation/research-area/health-research-and-innovation/chronic-diseases_en[2020-07-14]访问
2019年健康概览。经济合作与发展组织(OECD)。2019.URL:https://www.oecd-ilibrary.org/social-issues-migration-health/health-at-a-glance-2019_4dd50c09-en[2021-04-10]访问
2017年全球疾病负担研究的结果。卫生计量和评价研究所(IHME)。2018.URL:http://www.healthdata.org/sites/default/files/files/policy_report/2019/GBD_2017_Booklet.pdf[2020-07-14]访问
GBD 2017年死亡原因合作者。1980-2017年，195个国家和地区282种死因的全球、区域和国家按年龄性别划分的死亡率:2017年全球疾病负担研究的系统分析。柳叶刀2018年11月10日;392(10159):1736-1788 [免费全文] [CrossRef] [Medline］
GBD 2017疾病和伤害发病率和患病率合作者。1990-2017年195个国家和地区354种疾病和损伤的全球、区域和国家发病率、患病率和残疾寿命:2017年全球疾病负担研究的系统分析。柳叶刀2018年12月10日;392(10159):1789-1858 [免费全文] [CrossRef] [Medline］
GBD 2017 DALYs和HALE合作者。1990-2017年全球、区域和国家359种疾病和伤害的残疾调整生命年(DALYs)和195个国家和地区的健康预期寿命(HALE): 2017年全球疾病负担研究的系统分析。柳叶刀2018年11月10日;392(10159):1859-1922 [免费全文] [CrossRef] [Medline］
2017年全球疾病负担研究(GBD 2017)数据资源。卫生计量和评价研究所(IHME)。2017.URL:http://ghdx.healthdata.org/gbd-2017[2020-07-14]访问
张志强，张志强，张志强，等。移动健康应用程序评级措施的相互评级者可靠性:顶级抑郁和戒烟应用程序的分析。JMIR Mhealth Uhealth 2016 Feb 10;4(1):e15 [免费全文] [CrossRef] [Medline］
计算Krippendorff的alpha可靠性。宾夕法尼亚大学，2011年。URL:https://repository.upenn.edu/asc_papers/43[2020-07-14]访问
内容分析:方法论介绍。加州千橡市:Sage出版公司;2018.
Karlsson D, Gøeg KR， Örman H, Højen AR.语义Krippendorff α用于测量SNOMED CT编码研究中的评级者之间的一致性。种马健康技术通报2014;205:151-155。［Medline］
McKay FH, Slykerman S, Dunn M.应用程序行为改变量表:创建一个量表来评估应用程序促进行为改变的潜力。JMIR Mhealth Uhealth 2019年1月25日;7(1):e11130 [免费全文] [CrossRef] [Medline］
Volkmann N, strike J, Kemper N.基于聚类分析和Krippendorff α可靠性的牛步态评分系统评估。兽医娱乐2019年2月16日;184(7):220。［CrossRef] [Medline］
Hayes AF, Krippendorff K.响应对编码数据的标准可靠性度量的呼吁。通信方法与措施2007;1(1):77-89。［CrossRef］

‎

玛格:移动应用程序开发和评估指南

火星:手机应用评分量表

L Buis编辑;提交13.12.20;同行评议:W Schlee, L Guo;对作者27.01.21的评论;修订本收到29.01.21;接受20.03.21;发表19.04.21

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR mHealth和uHealth上的原创作品。必须包括完整的书目信息，http://mhealth.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

评估移动健康相关应用的质量:两种指南的相互评价者可靠性研究