JMIR移动健康和uHealth -超越随机对照试验:移动健康临床试验方法替代方案的回顾

原始论文

¹多伦多大学达拉拉纳公共卫生学院卫生政策、管理和评估研究所，安大略省多伦多

²加拿大安大略省多伦多大学卫生网络Techna研究所全球电子卫生创新中心

^3.成瘾和心理健康中心，成瘾和心理健康教育中心，安大略省多伦多

⁴多伦多大学医学院精神学系，多伦多，安大略省，加拿大

⁵多伦多大学医学院生物材料与生物医学工程研究所，加拿大安大略省多伦多

通讯作者:

Quynh Pham，硕士

卫生政策、管理和评价研究所

达拉拉纳公共卫生学院

多伦多大学

健康科学大楼4楼

学院街155号

多伦多，ON, M5T 3M6

加拿大

电话:1 416 978 4326

传真:1 416 978 4326

电子邮件:q.pham@mail.utoronto.ca

背景:长期以来，随机对照试验(rct)一直被认为是能够引出健康干预措施与结果之间因果关系的主要研究设计。然而，由于从招募到发表的时间较长，试验实施成本高，试验方案严格，rct被认为是大多数移动健康应用不切实际的评估方法。

摘要目的:鉴于最近发展了替代评估方法和工具来自动化移动医疗研究，我们试图确定这些方法的广度以及它们在临床试验中的使用程度。

方法:我们对ClinicalTrials.gov注册表进行了审查，以识别和检查当前涉及移动医疗应用程序的临床试验，并检索了2014年11月至2015年11月期间注册的相关试验。

结果:在确定的137项试验中，71项符合纳入标准。大多数采用随机对照试验设计(80%，57/71)。研究设计包括36个两组前测-后测对照组比较(51%，36/71)，16个纯后测对照组比较(23%，16/71)，7个一组前测-后测设计(10%，7/71)，2个一次性案例研究设计(3%，2/71)，2个静态组比较(3%，2/71)。共有17项试验在其方法学中包含了定性成分(24%，17/71)。完整的试验数据收集平均需要20个月完成(平均21个月，标准差12个月)。对于总持续时间为2年或以上的试验(31%，22/71)，从招募到完成数据收集的平均时间(平均35个月，标准差10)比收集主要数据所需的平均时间(平均11个月，标准差8)长2年。试验的中等样本量为112名参与者。2项试验在线进行(3%，2/71)，7项试验连续收集数据(10%，7/68)。现场学习实施非常受欢迎(97%，69/71)。有四个数据收集点的试验比有两个数据收集点的试验研究持续时间更长:F_{4, 56}= 3.2,P=。021年,η²= 0.18。与开放试验相比，单盲试验的数据收集周期更长:F_{2, 58}= 3.8,P=。028年,η²= 0.12。学术赞助是最常见的试验资助形式(73%，52/71)。与行业赞助相比，学术赞助的试验有更长的研究时间:F_{2, 61}= 3.7,P=。030年,η²= 0.11。综合来看，数据收集频率、研究掩蔽、样本量和研究赞助占研究持续时间方差的32.6%:F_4、55= 6.6,P<。01,调整r²= .33。在进行回顾性回顾时，仅完成了7项试验(10%，7/71)。

结论:尽管需要更相关和及时的评估，但移动健康评估方法并未偏离常用方法。如果临床评估要在告知支付者、提供者、决策者和患者方面产生有意义的影响，就需要与移动医疗的创新水平保持同步。

JMIR Mhealth Uhealth 2016;4(3):e107

doi: 10.2196 / mhealth.5720

关键字

移动健康；移动应用程序；智能手机；医学信息学；研究设计；临床试验

苹果App Store和谷歌Play Store中有超过16.5万款移动健康(mHealth)应用，仅2015年就有30亿次下载量。1]，移动健康应用程序代表了一个成熟、强大的市场，为寻求患者授权护理的新一代患者和旨在促进这一实践的移动健康出版商提供了服务。移动健康应用程序目前正在为许多不同的临床疾病开发，包括糖尿病[2]、心力衰竭[3.]，以及癌症[4]，并有可能破坏现有的卫生保健提供途径。

近年来，许多人呼吁解决移动健康应用程序评估中固有的挑战[5-7］．国家卫生研究院移动健康证据研讨会的研究人员确定了主要障碍，特别是移动健康创新的快速步伐与现有研究设计相匹配的困难[8］．明确提请注意的是随机对照试验(RCT)，长期以来，它一直被认为是能够引出健康干预措施和随之而来的结果之间因果关系的主要研究设计[9］．然而，随机对照试验是出了名的长——从登记到发表的平均时间为5.5年，显然存在应用程序在研究完成前被淘汰的风险[10］．由于高成本的试验实施和严格的协议，为了保持内部有效性，无法在试验中期改变干预措施，rct被认为是大多数移动健康应用程序不兼容的、不切实际的评估方法[11-15］．软件也有一种固有的质量，它不适合rct的刚性——软件意味着随着时间的推移，以快速的速度变化、进化、进步和学习。严格的试验协议破坏了这一原则属性，因为对照试验是为需要数年甚至数十年才能开发的干预措施而设计的，即医疗设备和药物。在移动健康证据研讨会的总结中，研究人员发现有必要开发新的研究设计，以跟上他们寻求评估的精益、迭代和快节奏的移动健康应用程序。

总部位于芝加哥的行为干预技术中心一直致力于设计能够适当支持移动医疗评估的方法框架。Mohr及其同事提出了演进行为干预技术的持续评估(CEEBIT)框架，作为金标准RCT的替代方案[16］．CEEBIT方法在整个试验期间持续评估应用程序的功效，并通过复杂的淘汰过程解释应用程序版本的变化。CEEBIT还周到地解决了许多其他rct特有的考虑因素，从随机化到纳入/排除标准到统计分析。

也提出了RCT的其他替代方案，包括中断时间序列、阶梯楔形、回归不连续和N-of-1试验设计，这些试验设计可能会限制间隔有效性，但对评估移动健康干预措施更有响应性和相关性[8］．新的析因试验设计已被提出用于移动健康研究，并越来越多地用于测试应用程序的多种功能，并确定构建有效应用程序的最佳组合和适应性。这些设计包括多阶段优化策略(MOST) [17]，序贯多分配随机试验(SMART) [18]，以及微随机试验[19］．对于如何提高传统rct本身的效率也提出了建议，包括使用组内设计、完全自动化的研究登记、随机分配、干预交付和结果评估，以及通过对长期结果建模缩短随访时间[13］．此外，人机交互领域的最佳实践评估方法，特别是可用性测试和启发式评估，已广泛应用于移动健康研究，非常适合评估用户驱动的、数字化操作的行为机制的有效性，这些机制需要引发健康结果的稳定变化[20.-22］．这些替代方案使我们能够重新考虑RCT，以获得一种更灵活和迭代的评估方法，该方法将模拟基于软件的行为干预及其敏捷应用程序开发过程的属性，在这种方法中，更快地从糟糕的试验结果中吸取教训，以便更快地重新设计干预措施，随后更快地显示成功，这是可以接受的，也是可取的。

在开发像CEEBIT这样的新颖研究设计的同时，新的行业计划也引入了部署移动健康评估的新平台。2015年，苹果公司宣布发布ResearchKit，这是一个为健康研究设计的软件框架，让iPhone用户更容易地参与研究[23］．ResearchKit允许以数字方式收集知情同意，这一过程在历史上阻碍了患者参与试验的积累和临床研究的可扩展性。它还可以访问从iPhone的加速计、陀螺仪、麦克风和全球定位系统(GPS)收集的实时数据，以及来自外部可穿戴设备(如FitBit、Apple Watch)的健康数据，以实时了解参与者的健康行为[24］．ResearchKit影响的证据已经可以在苹果推动的针对一系列条件的研究试验中看到。25-27］．不难想象，ResearchKit将被改编为评估移动健康应用程序有效性的工具——一个声称可以帮助患者自我管理糖尿病的应用程序可以使用ResearchKit框架推出，并通过传感器数据和应用程序内调查来证明其有效性。

鉴于替代评估方法的发展和自动化移动医疗研究的新技术的推出，我们试图确定这些举措是否在当前的临床试验中得到实施。通过这篇综述，目前移动健康临床试验的研究设计和方法被确定和描述，以努力了解该领域对评估移动健康应用程序的新框架的看法。

2015年11月对ClinicalTrials.gov注册表进行了审查，以确定和检查当前涉及移动健康应用程序的临床试验。为了优化搜索策略，我们在范围搜索中尝试了以下搜索词:移动应用、移动健康应用、移动健康应用、移动应用、智能手机应用和智能手机应用。然后将所有这些搜索词组合起来进行布尔搜索(“移动应用”或“移动健康应用”或“移动应用”或“智能手机应用”或“智能手机应用”)。然而，在比较所有范围搜索生成的搜索结果时，与布尔搜索相比，搜索词“移动应用程序”独立产生了更多的结果。我们做出了一个预防性决定，使用“移动应用程序”作为唯一检索词，检索2014年11月19日至2015年11月19日之间注册的相关试验(在本次审查开始前1年)。对检索到的试验的标题和摘要进行了评估，然后对整个试验注册进行了完整的审查。在最终确定纳入我们综述的试验之后，我们对每个试验进行了反向搜索，以确定是否可以通过我们最初的布尔搜索找到它，并得出结论，少量相关研究将被省略。因此，我们建议使用“移动应用程序”作为那些寻求复制我们的搜索策略的首选综合搜索词。

如果(1)评估移动健康应用程序，(2)衡量临床结果，(3)仅作为原生应用程序部署在移动电话上，而不是基于web的应用程序，那么所有试验都包括在内。如果(1)评估仅接收文本消息(短消息服务或多媒体消息;这是因为文献中已有大量基于短信的干预试验)或电话作为主要的行为改变修改，(2)mHealth应用程序是次要干预或该研究混合了移动和非移动干预，(3)mHealth应用程序仅是一种预约提醒服务，(4)mHealth应用程序不需要用户通过主动或被动(传感器)数据输入进行输入。

在确定符合纳入标准的研究后，从ClinicalTrials.gov网站提取试验数据，并根据相关结果变量进行编码。所有数据都直接从登记处收集，试验信息最初由进行试验的研究人员报告和分类。提取的数据措施包括试验识别、应用程序名称、研究目的、试验发起人、目标条件、数据收集持续时间、数据收集点、研究持续时间、样本量、研究类型、控制和掩蔽方法、随机分配、分组分配、研究地点、定性成分、应用程序可用性和研究设计。表1列出从提取的数据及其代码中手动编码到类别中的所有度量。在编码“数据收集持续时间”和“研究持续时间”上进行了区分，“数据收集持续时间”定义为分配给初级数据收集的时间量，如每个ClinicalTrials.gov记录细节中的结果测量部分所述，“研究持续时间”定义为初始招募和完成数据收集之间的时间量，如试验记录细节中的“估计研究完成日期”所述。如果参与者与研究团队成员有任何直接面对面的接触，则将研究编码为现场研究;如果招募和后续数据收集是远程完成的，则将研究编码为在线研究——如果参与者是在医院环境中招募的，但后续数据是通过研究应用程序收集的，则将其编码为现场实施。目标条件进一步编码为父条件类别进行分析。我们还在公共应用商店(如Apple app Store，谷歌Play Store)上搜索了所有已识别的应用标题，以确认它们是否可供公众下载。

表1。从ClinicalTrials.gov注册表数据中手动编码研究变量。

变量	编码值
研究目的	疗效，安全性/疗效，观察性
审判赞助商	学术、产业、合作
有针对性的条件	心理健康，心血管疾病，糖尿病，癌症，哮喘，肥胖，其他
数据收集点	1-3、4+，连续
样本大小	0-49, 50-99, 100-499, 500+
研究类型	介入,观察
控制	标准护理，主动，等候名单
屏蔽	开，单盲，双盲
小组作业	单人，平行，三组
研究网站	现场、在线
研究设计	1组前测后测，1组后测，1-3组后测对照，2-3组前测后测对照，2-3组后测非随机对照，观察

数据分析

首先对所有变量进行描述性统计，以确定方法学数据趋势和参数。参考Campbell和Stanley的实验和准实验研究设计[28]，记录了试验是否收集了前测数据或基线数据，以及整个试验中数据收集点的数量。这样做是为了确定特定的研究设计，并评估被认为适合mHealth应用程序评估的研究设计范围。

虽然这篇综述的重点是概述目前用于移动健康研究的研究设计和方法，但我们也有兴趣探索方法变量之间的关系，特别是确定研究持续时间的潜在预测变量。我们首先独立进行t试验和单向独立方差分析(ANOVA)，以确定以下分类方法学变量在研究持续时间上是否存在差异:研究赞助、临床状况、试验前数据收集、数据收集频率、是否存在对照组、研究目的、是否存在随机化、研究组分配、定性数据收集和应用程序可用性。然后，我们进行Pearson相关分析，以检验样本量和研究持续时间之间的相关关系。进行这些初步分析是为了确定哪些变量适合纳入多元线性回归分析。满足线性性、正态性、误差独立性和同方差性的假设，并通过了检验异常值、方差齐性和多重共线性的诊断检验。然后以研究持续时间为因变量，将我们初步分析中的所有显著预测变量作为自变量进行回归。在分析之前删除极端离群数据，留下一个包括64个试验(90%，64/71)的数据集，每个试验的样本量为500名或更少。考虑统计学意义P<。05除非另有说明。所有统计分析均使用SPSS统计版本22 (IBM Corporation)进行。

一般特征

在确定的137项试验中，71项符合纳入标准。表2每个试验的细节都包括试验，并概述了它们的一般特征。主要亮点包括ClinicalTrials.gov研究标识、应用程序名称、目标条件、样本量和研究持续时间。

方法论的特点

绝大多数被回顾的试验被归类为介入性(96%，68/71)，71项试验中只有3项(4%，3/71)被归类为观察性。大多数试验采用随机对照试验设计(80%，57/71)。71项试验中有63项可在Campbell和Stanley实验设计框架下分类(89%，63/71)。子设计分类包括36个两组前测-后测对照组比较(51%，36/71)，16个仅后测对照组比较(23%，16/71)，7个一组前测-后测设计(10%，7/71)，2个一次性案例研究设计(3%，2/71)，和2个静态组比较(3%，2/71)。其余8项试验包括2项三组前测-后测对照组比较(3%，2/71)、1项两组后测非随机对照组比较(1%，1/71)、1项三组后测非随机对照组比较(1%，1/71)、1项三组后测对照组比较(1%，1/71)和3项观察性研究(4%，3/71)。总共有17项试验在其方法学中包含了定性成分(24%，17/71)。

对照组分为标准治疗组(51%，30/59)、积极治疗组(44%，26/59)和等待治疗组(5%，3/59)。开放掩模(69%，47/68)优于盲掩模(31%，21/68)。分组随机化是回顾试验中常见的做法(84%，57/68)。在71项试验中，临床情况分布广泛，其中心理健康(17%，12/71)、心血管疾病(11%，8/71)、糖尿病(11%，8/71)和癌症(10%，7/71)是临床重点。全面的临床情况显示在表3．

表2。在cine . trials .gov上注册的评审试验的一般特征。

ClinicalTrials.gov研究ID	应用程序名称	目标状态	n	研究持续时间^一个
NCT02531074	滑出描边	肥胖	One hundred.	29
NCT02426814	手机应用，吸入器传感器	哮喘	50	6
NCT02615171	放松的应用	肥胖	60	12
NCT02515500	Quitbit，数字打火机	吸烟	200	21
NCT02421536	Vibrent	癌症	40	21
NCT02308176	手机app	肥胖	118	12
NCT02370719	BantII	2型糖尿病	150	25
NCT02618265	手机app	中风	400	35
NCT02432469	任务	冠状动脉搭桥	1000	18
NCT02429024	OneTouch Reveal，血糖仪	2型糖尿病	142	12
NCT02399982	Noom监控	贪食症	80	27
NCT02486705	PTSD家庭教练	压力，抑郁，焦虑	242	8
NCT02322307	HealthPROMISE	肠易激综合症	300	29
NCT02346591	短途旅游	抑郁,压力	298	9
NCT02503098	回收记录	饮食失调	12000	18
NCT02417623	OBSBIT	肥胖	76	24
NCT02392000	CBT-I教练，睡眠监护仪	失眠	40	6
NCT02400710	创伤后应激障碍的教练	创伤后应激障碍	30.	32
NCT02445196	创伤后应激障碍的教练	创伤后应激障碍	120	15
NCT02421965	焦点	精神分裂症	174	30.
NCT02375776	科拉	癌症	104	10
NCT02451631	健康G，医生网络监测	2型糖尿病	184	11
NCT02313363	手机app	2型糖尿病	30.	3.
NCT02521324	呼吸传感器	创伤性脑损伤	40	16
NCT02501642	创伤性脑损伤的教练	失眠	486	48
NCT02457923	M-SAKHI	营养不良	2728	38
NCT02589730	Welltang	1型和2型糖尿病	234	12
NCT02431546	维达	冠状动脉疾病	40	15
NCT02359981	MyBehavior	肥胖	17	1
NCT02405117	LiveWell，腕戴设备	双相情感障碍	48	27
NCT02610894	PoCAH	手术	40	24
NCT02472561	城,Withings	外周动脉疾病	45	13
NCT02439619	TechCare	精神病	16	35
NCT02601794	手机app	乳腺癌	180	7
NCT02448888	手机app	背部疼痛	24	11
NCT02497755	Ginger.io	焦虑、抑郁	25	4
NCT02555553	Noom监控	贪食症	200	18
NCT02554578	手机应用，网络平台	心脏移植手术	158	14
NCT02418910	KIOS-Bipolar, eMoods	双相情感障碍	50	18
NCT02510924	Airtraq	鼻塞，关节	One hundred.	12
NCT02580396	CanADVICE +	转移性乳腺癌	25	24
NCT02350257	手机app	焦虑性障碍	130	33
NCT02551640	FeatForward	2型糖尿病	300	9
NCT02333630	AsthmaCare	哮喘	200	13
NCT02588729	怀孕的+	妊娠期糖尿病	264	38
NCT02599857	CONCOR	先天性心脏病	500	24
NCT02496728	NUYou	心血管病	800	38
NCT02565225	RheumaLive	类风湿性关节炎	60	32
NCT02484794	回收记录	饮食失调	40	12
NCT02494245	海星	中风	128	24
NCT02308878	手机app	物质使用依赖	65	20.
NCT02592291	手机app	脊髓和大脑损伤	160	59
NCT02341235	手机app	乳腺癌	120	58
NCT02470143	手机app	冠心病	20.	11
NCT02480062	mWELLCARE	心血管病	3600	20.
NCT02477137	手机app	前列腺癌	150	40
NCT02420015	保持戒烟教练	精神分裂症	36	20.
NCT02479607	手机app	乳腺癌	150	24
NCT02591459	手机app	自闭症	10	2
NCT02499094	手机app	抑郁症	1004	7
NCT02382458	手机app	慢性炎症	120	25
NCT02517047	手机应用，CareTRx设备	哮喘	26	22
NCT02521558	手机app	阿尔茨海默病	One hundred.	11
NCT02385643	手机应用，蓝牙传感器	酒精依赖	One hundred.	46
NCT02317614	SteadyRx	人类免疫缺陷病毒	50	28
NCT02556073	MyAsthma,吸入器	哮喘	112	28
NCT02302040	团队说	哮喘	50	20.
NCT02492191	通过电话点数进行恢复评估	术后并发症	1000	14
NCT02580409	Wellpepper	流动的限制	76	24
NCT02341950	SCI硬	脊髓损伤	200	12
NCT02403427	VoiceDiab，胰岛素泵	1型糖尿病	42	9

^一个研究时间以月为单位。

表3。有针对性的临床条件。

条件		n (%)
心理健康		12 (16.9)
	焦虑	2
	双相情感障碍	2
	抑郁症	1
	精神病	1
	创伤后应激障碍	2
	精神分裂症	2
	压力	2
心血管		8 (11.3)
	心血管病	2
	先天性心脏病	1
	冠状动脉搭桥	1
	冠状动脉疾病	1
	冠心病	1
	心脏移植手术	1
	外周动脉疾病	1
糖尿病		8 (11.3)
	妊娠期糖尿病	1
	1型糖尿病	1
	2型糖尿病	5
	1型和2型糖尿病	1
癌症		7 (9.9)
	乳腺癌	4
	前列腺癌	1
	一般	2
哮喘		5 (7.0)
肥胖		5 (7.0)
进食障碍		4 (5.6)
手术		3 (4.2)
失眠		2 (2.8)
脊髓损伤		2 (2.8)
中风		2 (2.8)
药物滥用		2 (2.8)
其他		11 (15.5)
	阿尔茨海默病	1
	关节炎	1
	自闭症	1
	背部疼痛	1
	慢性炎症	1
	人类免疫缺陷病毒	1
	炎症性肠病	1
	营养不良	1
	流动性	1
	吸烟	1
	创伤性脑损伤	1

按患病率顺序，9项心理健康试验为随机对照试验(75%，9/12)，4项试验设计为经典的两组前测-后测对照组比较(33%，4/12)。8项心血管试验中有7项为rct(88%， 7/8)，所有7项试验均设计为两组前测-后测对照组比较。8项糖尿病试验中有7项也是随机对照试验(87.5%;7/8)， 5个两组测试前-测试后对照组比较(63%，5/8)。大多数哮喘试验为随机对照试验(80%，4/5)，所有4项试验都遵循两组前测-后测对照组比较设计。最后，所有5项肥胖试验都是随机对照试验(rct)(100%， 5/5)，但没有一项坚持两组前测-后测对照组比较设计。

大多数试验在研究实施前收集了试验前数据(68%，46/68)。试验平均有3个数据收集点(平均值2.7，标准差1.2)，其中7个试验连续收集数据(10%，7/68)。表4总结了应用程序在方法变量中的分布。

表4。应用程序在不同方法变量间的分布。

变量		n (%)
研究类型
	介入	68 (95.8)
	观察	3 (4.2)
预测数据收集
	是的	46 (67.6)
	没有	22日(32.4)
控制治疗
	标准治疗	30 (50.8)
	活跃的	26日(44.1)
	候补名单	3 (5.1)
屏蔽
	开放	47 (69.1)
	单盲	17 (25.0)
	双盲	4 (5.9)
随机化
	是的	57 (83.8)
	没有	11 (16.2)
定性的组件
	是的	17 (23.9)
	没有	54 (76.1)
研究地点
	现场	69 (97.2)
	在线	2 (2.8)
数据收集点
	一个	12 (17.6)
	两个	20 (29.4)
	三个	17 (25.0)
	四个或更多	12 (17.6)
	连续	7 (10.3)

描述性的特点

数据收集时间平均相对较短(中位数6个月，IQR 8)，大多数试验的数据收集时间为6个月或更短(72%，51/71)。但持续时间范围较广，最短的数据收集时间为10天，最长的数据收集时间为4年。

研究时间平均为20个月(平均21个月，标准差12个月);研究人员在完成主要数据收集后，继续收集二手数据近一年(中位数12,IQR 13)。研究持续时间和数据收集持续时间之间的差异在总持续时间为2年或以上的研究中更为明显(31%，22/71)，其中从招募到完成数据收集的平均时间(平均35年，标准差10)比收集主要数据所需的平均时间(平均11年，标准差8)长2年。在71项试验中，在进行回顾性回顾时，只有7项试验完成(10%，7/71)。

不同试验的入组情况不同(中位数112,IQR 158): 20个试验的样本量为0-49(28%，20/71)，10个试验的样本量为50-99(14%，10/71)，33个试验的样本量为101-499(47%，33/71)，8个试验的样本量超过500人(11%，8/71)，最大样本量为12000人。

至少有一个现场实施组成部分的研究非常受欢迎，有69个试验(97%，69/71)选择现场招募和实施。值得注意的是，样本量最大的试验(N＝12000)的学生实施了在线学习。

近四分之三的试验(72%，51/71)有正式的应用程序名称，这表明它们已被定位为商业化或已经在市场上可用。然而，截至2015年12月，只有17个应用程序(24%，17/71)可以公开下载。学术赞助是最常见的试验资助形式(73%，52/71)，其次是学术与行业合作(18%，13/71)和行业赞助(9%，6/71)。

方法分析

我们的初步t检验和方差分析(anova)以确定不同方法变量之间的研究持续时间是否存在差异，结果显示了三个显著变量:数据收集频率、F_{4, 56}= 3.2,P=。021年,η²= 0.18;屏蔽,F_{2, 58}= 3.8,P=。028年,η²= 0.12;还有研究赞助，F_{2, 61}= 3.7,P=。030年,η²= 0.11。后续进行Bonferroni和Fisher最小显著性差异检验，以评估研究持续时间均值之间的两两差异。我们发现两个和四个或更多数据收集点之间的平均值有显著差异_diff= -15, SE = 5,P =.025)，开盲和单盲掩蔽(平均_diffSE = 4 = -10,P =.026)，以及行业和学术研究赞助(平均_diff= 12, SE = 6,P =.033)。本分析中包括的研究的描述性统计数据载于表5．

表5所示。研究持续时间是指根据数据收集频率、掩蔽和研究赞助分组的分析所包括的试验。

变量		n (%)	平均持续时间(月)	SD	95%可信区间
变量		n (%)	平均持续时间(月)	SD	低	高
数据收集点		61 (100)
	一个	12 (19.7)	25	11	18.0	32.2
	两个	18 (29.5)	16	11	10.2	21.2
	三个	13 (21.3)	18	8	12.9	22.0
	四个或更多	11 (18.0)	30.	17	18.5	41.9
	连续	7 (11.5)	20.	12	8.3	30.9
屏蔽		61 (100)
	开放	46 (75.4)	19	11	15.2	21.8
	单盲	13 (21.3)	29	16	19.1	38.8
	双盲	2 (3.3)	16	7	-47.5	79.5
研究赞助		64 (100)
	学术	49 (76.6)	23	13	19.0	26.7
	行业	5 (7.8)	10	2	7．5	13.3
	学术产业合作	10 (15.6)	15	6	10.4	19.4

对样本量与研究持续时间之间关系的相关分析显示，这两个变量之间存在正相关性，但相关性较弱:r =为,P= .044。基于这一发现，在我们的多元线性回归模型中，我们将样本量作为预测变量，用于预测研究持续时间、数据收集频率(两个与四个或更多数据收集点)、掩蔽(开放与单盲)和研究赞助(学术与行业)。本分析的重点是预测，因此我们使用了变量输入的逐步方法。我们的回归分析结果表明，我们的所有四个预测因素加起来占研究持续时间方差的32.6%:F_4、55= 6.6,P<。01,调整r²= .33。仅数据收集频率，特别是两个和四个或更多数据收集点之间的差异，就可以解释11.5%的研究持续时间方差。加上单一掩蔽与开放掩蔽之间的差异，这些变量解释了研究持续时间方差的19.7%。样本量增加了6.7%对研究持续时间方差的解释，学术和行业赞助之间的差异增加了6.2%。模型中的每一步都大大增强了它的预测能力。基于该模型，预测方程为:13.79 + 10.71*(2个与4个及以上数据采集点)+ 6.88*(单个与开放掩模)+ 0.04*(样本量)- 12.00*(行业与学术赞助)。表6给出四个显著预测因子的回归系数和标准误差。

表6所示。研究持续时间预测因素的多元线性回归模型。

变量	R²	B^b	SE_B^c	β^d	P价值
常数		13.79	2.31		<措施
数据采集频率(2 vs 4+数据采集点)	点	10.71	3.68	.33	.005
掩蔽(单盲vs开盲)	.20	6.88	3.50	23)	.055
样本大小	点	0.04	0.01	。31	.009
研究赞助(学术vs工业)	.33	-12.00	5.33	点	.028

^一个R²:已核算的研究持续时间变异量。

^bB:非标准化回归系数。

^cSE_B:系数的标准误差。

^dβ:标准化系数。

主要研究结果

我们的回顾显示，绝大多数移动健康研究人员继续使用RCT作为评估移动健康应用程序的试验设计选择。连续使用随机对照试验来证明不同临床条件下的疗效，这表明研究人员认为这种设计是不受条件影响的，并且真正是任何临床试验评估应用程序疗效的金标准。虽然控制肥胖的应用程序的试验没有遵循坎贝尔和斯坦利框架定义的两组前测-后测对照组比较设计，而且只有三分之一的心理健康应用程序使用了这种经典的随机对照试验设计，但大多数针对其他普遍疾病的试验确实倾向于这种特定的研究设计，以评估健康结果并得出应用程序有效性的证明。研究框架内研究设计的同质性表明，研究人员并没有调整设计，以适应他们正在评估的移动健康应用程序固有的独特品质。

我们的综述中出现了一些意想不到的发现，其中之一是研究实施地点几乎完全没有变化——97%的试验是在学术中心和医院现场进行的，只有两项试验采用了在线招募和数据收集。关于试验持续时间，移动健康试验的总数据收集周期平均为20个月。我们能够确定四个预测变量占试验持续时间方差的32.6%:数据收集频率、掩蔽、样本量和研究赞助。

我们对移动健康试验中数据收集点的数量与试验持续时间之间的关系进行了分析，结果显示，与具有两个数据收集点的试验相比，具有四个或更多数据收集点的试验将具有明显更长的数据收集周期。虽然这一发现表明，移动健康试验可能受益于研究实施过程，包括通过干预应用程序自动收集数据，以便在不延长研究持续时间的情况下频繁收集数据，但鉴于研究长度和数据收集频率之间缺乏明确的关系，我们的回顾结果无法确定支持这一建议。在分析原始综述数据时，一个、三个和四个或更多数据收集点之间的研究持续时间没有显著差异，具有一个数据收集点的试验与具有四个或更多数据收集点的试验持续时间相似。考虑到这一点，我们对所有移动医疗试验的自动化研究实施(从招募到数据收集)持谨慎乐观的态度。

虽然许多试验采用了开放式掩蔽，但近三分之一的试验选择让参与者或结果评估人员失明，有四项试验甚至对参与者和研究人员进行了双盲。对于一个因缺乏证据证明有效性和影响而受到批评的领域来说，这种严格程度是出乎意料的[29］．我们惊讶地发现，与公开试验相比，单盲试验的持续时间明显更长。然而，鉴于缺乏经验证据支持双盲在减少偏倚中的作用[30.]以及我们原始数据的不确定性(未显示公开试验和双盲试验之间的研究持续时间增加)，需要更多的数据来调查这种关系，然后再考虑掩蔽的价值，以支持更短的试验。

尽管大多数经过审查的试验都是由学术研究基金资助的，但行业-学术合作并不罕见，这表明行业出版商已经意识到与学术机构合作以提高应用程序可信度的潜力。然而，考虑到过去行业资助的研究团队所表现出的两重性调查行为，这些合作关系值得特别关注[31］．我们的回顾结果显示，行业资助的移动健康试验的持续时间明显短于学术试验。对这种研究持续时间差异的一个潜在解释是，在行业试验中使用的研究结果对短期变化(如生活质量、所需健康行为的频率、使用mHealth应用程序的频率)更敏感，而不是对可测量变化(如急诊就诊频率、质量调整生命年、死亡率)更长期轨迹的结果。这些试验也可能受到行业主导的竞争时间表的限制，这些时间表规定了应用程序在必须发布以产生利润之前的研发时间，这是一个共同的担忧，但在学术移动健康应用程序开发中没有同等的优先级。很明显，行业资助的移动健康试验在研究目标和预期结果上都不同于纯粹的学术追求，随着这些关系的普及，努力保持方法的严谨性和增加产学研合作的透明度是一项至关重要的努力。

很明显，只有一小部分公开应用程序得到了评估。32]，我们在一年内启动的71项移动健康试验与同一时期公开部署的数万个未经评估的应用程序形成鲜明对比。虽然我们回顾的移动健康试验在方法上是严格的，但很明显，方法本身并没有改变:在任何移动健康临床试验的注册中，没有一次提到CEEBIT方法，也没有被确定为更适合移动健康评估的替代方法。移动健康应用所在的手机平台并没有通过ResearchKit之类的举措来改善大样本规模的招聘或通过内置传感器被动收集数据。这是不幸的，因为有机会探索和建立移动电话的功能用于研究目的。数据收集期为2年或更长时间的试验如何保持其发现的相关性也不清楚。

从我们的初步结果来看，进行移动健康评估的研究人员似乎正在应用实证实验设计来引出因果健康结果。这一见解令人担忧，因为它忽略了以下几点:(1)移动健康应用程序是复杂的干预措施[33因此，(2)移动健康应用程序可能因此根本不适合基于纯实证假设的评估[34］．

在解决第一点时，移动健康应用程序可能只是手机上的软件程序，但当它们被迫被定义和控制时，它们具有不稳定的个人和社交组件。35］．移动健康研究人员应该承认，应用程序用户可能打算使用技术来改善健康，但也会表现出难以预测的行为，如不良依从性、越轨使用，在极少数情况下甚至是疏忽。这将影响试图证明直接因果关系的传统试验的内部和外部有效性。

为了说明我们的第二点，应该考虑关于移动健康应用程序的各种实证假设。实证研究人员可能会说，移动健康应用程序影响一个单一的现实，是可知的，概率的，并能够被客观衡量。他们可能认为，对应用程序与随之而来的健康结果之间的关系做出概括的陈述是合理的。然后，他们可能会假设研究设计的方法学层次结构来验证这一现实，定量实验研究被视为最可靠的，RCT是其中的黄金标准。虽然这一观点显然得到了大多数移动健康研究人员的支持，但由于隔离用户和被评估的特定移动健康应用程序之间的关系存在挑战，因此在实践中并不合理[14］．RCT的特点是它能够控制上下文变量，以便仅测量自变量和因变量之间的因果影响。然而，实施RCT方法的移动健康评估往往被迫进行权衡，这违反了RCT协议，但增加了对研究实施至关重要的使用率和依从率[36］．移动医疗研究人员已经认识到许多研究实施的障碍，从部署环境，到应用程序错误和故障，再到用户特征和电子医疗素养[37］．可以说，在药物试验中防止患者服用可能影响其健康结果的药物，比在移动健康试验中防止患者使用替代糖尿病管理应用程序或在网站上阅读糖尿病管理策略要容易得多。最后，在我们回顾的试验中，我们评估的应用程序不是简单和静态的;它们是社会技术系统[38功能强大，并根据用户的需求提供及时、持续和适应性强的个性化护理。如果我们在评估应用程序时忽视了这些自然属性，并坚持将这些优势视为混杂因素的传统研究设计，我们将无法捕捉到应用程序所促进的复杂技术细微差别和变化机制。39能够产生积极的健康结果。

限制

在解决我们审查的局限性时，我们必须承认移动健康试验在ClinicalTrials.gov上注册的速度很快。在我们最初搜索后的5个月里，有31个新的试验被添加到注册表中，符合我们的纳入标准。初步评估，这些试验与我们的综述结果一致。大多数坚持经典的两组随机对照试验设计，针对一系列复杂的慢性疾病，平均持续时间为2年。我们的目标是每隔6个月更新我们的综述，以获取大量即将到来的移动健康临床试验。

我们的研究持续时间计算基于研究人员在ClinicalTrials.gov网站上报告的“研究开始日期”和“研究完成日期”字段。我们认识到，在使用研究持续时间作为分析的主要因变量时，我们的结果受到前瞻性估计研究持续时间的内在可变性的影响，这可能与试验后报告的实际研究持续时间有很大差异。为了解决我们数据可靠性的这一限制，我们将在所有评审试验接近完成时监测它们的状态，并更新我们的结果以反映估计和实际研究持续时间之间的任何显著差异。

由于时间和资源的限制，我们没有对在我们1年的检索期内发表过手稿或方案的所有移动健康试验进行详尽的检索。我们决定采用一种只关注单个试验登记的抽样方法，这可能导致用更传统的实证主义方法对试验进行有偏见的识别——这也从我们审查的试验在很大程度上是由学术赞助的方式得到了证明。我们承认在ClinicalTrials.gov上注册的试验并不构成移动健康研究的总数。有大量的移动健康评估工作没有在ClinicalTrials.gov上注册，特别是那些已经进行了可用性测试和可行性试点研究，但尚未进行正式临床研究的应用程序[22，40-44]，以及直接面向消费者的应用程序，这些应用程序在网上发布内部测试的评估报告，但不通过正式的研究渠道提交工作以供审查[45-47］．因此，我们关于移动健康临床试验方法同质性的发现仅限于在ClinicalTrials.gov上注册的试验。我们的目标是对mHealth文献进行更系统的搜索，并在未来的审查中搜索其他移动应用程序商店目录(即Windows，三星，黑莓)，以提高我们发现的代表性。

结论

尽管提出了这些问题，但移动健康评估方法显然没有偏离常用方法。如果要在向支付者、提供者、决策者和患者提供信息方面产生相关和及时的影响，就需要进行临床评估，以跟上移动卫生干预措施的变化速度和范围。要完全回答应用程序的临床影响问题，移动健康研究人员应该保持一种反射性的立场[35并为严格性建立可行的标准，这些标准可能最终不会导致实证主义的真理，但将推动对情境化真理的解释性理解。随着移动医疗领域的成熟，它提出了建立强大而实用的评估方法的挑战，这些方法可以进一步推进基础理论，并有助于有意义的实施和可操作的知识转化——所有这些都是为了优化患者的健康和福祉。

利益冲突

没有宣布。

IMS医疗保健信息研究所。IMS Health. 2015。患者采用移动健康网址:http://www.imshealth.com/en/thought-leadership/ims-institute/reports/patient-adoption-of-mhealth[访问了2016-07-19][WebCite缓存］
戈雅S，森田P，路易斯GF，余C，濑户E, Cafazzo JA。用于2型糖尿病自我管理的行为移动健康应用程序的系统设计。《糖尿病杂志》2016年2月;40(1):95-104。［CrossRef] [Medline］
Seto E, Leonard KJ, Cafazzo JA, Barnsley J, Masino C, Ross HJ。基于手机的心脏衰竭远程监测管理:一项随机对照试验。中国医学杂志，2012;14(1):e31 [免费全文] [CrossRef] [Medline］
Jibb LA, Stevens BJ, Nathan PC, Seto E, Cafazzo JA, Stinson JN。针对青少年癌症患者的基于智能手机的疼痛管理应用:基于文献回顾、访谈和共识建立系统需求和疼痛护理算法。JMIR Res Protoc 2014;3(1):e15 [免费全文] [CrossRef] [Medline］
陈S, Torous J, Hinton L, Yellowlees P.对移动心理健康应用评估框架的研究。Telemed J E Health 2015年7月14日。［CrossRef] [Medline］
李文杰，李志强，李志强，等。开发用于评估移动医疗应用的患者参与、质量和安全性的框架。发行简介(共同基金)2016年2月;5:1-11。［Medline］
国家信息委员会。国家信息委员会的工作流程路线图。2015年10月。工作流程1.2:为公民提供访问一套评估的NHS和社会护理“应用程序”URL:https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/467065/Work_stream_1.2_with_TCs.pdf[访问时间:2016-09-01][WebCite缓存］
库马尔S, Nilsen WJ, Abernethy A, Atienza A, Patrick K, Pavel M，等。移动医疗技术评估:移动医疗证据研讨会。Am J Prev Med 2013年8月;45(2):228-236 [免费全文] [CrossRef] [Medline］
临床试验:方法学的观点。新泽西州:Wiley-Interscience;2013.
埃尼迪斯JP。结果的统计意义对完成和发表随机疗效试验的时间的影响。中国医学杂志，1998年1月28日;29(4):281- 281。［Medline］
杨晓东，杨晓东，杨晓东，等。供患者使用的卫生信息技术干预措施的临床试验:独特的问题和考虑因素。临床试验2013;10(6):896-906 [免费全文] [CrossRef] [Medline］
莫尔dc，许勒SM, Riley WT, Brown CH, Cuijpers P，段N，等。干预原则的试验:发展行为干预技术的评价方法。中国医学网络学报2015;17(7):e166 [免费全文] [CrossRef] [Medline］
Riley WT, Glasgow RE, Etheredge L, Abernethy AP.快速、响应、相关(R3)研究:对快速学习健康研究企业的呼吁。临床医学杂志2013;2(1):10 [免费全文] [CrossRef] [Medline］
评估信息学应用——一些可供选择的方法:理论，社会互动主义，并呼吁方法论多元化。国际医学杂志2001 11月;64(1):39-56。［Medline］
评价:医学信息学的救赎还是克星?计算机生物学杂志2002 5月;32(3):113-125。［Medline］
陈志伟，陈志伟，陈志伟。行为干预技术发展的持续评价。Am J Prev Med 2013 10月;45(4):517-523 [免费全文] [CrossRef] [Medline］
Collins LM, Murphy SA, Nair VN, Strecher VJ。优化和评估行为干预的策略。Ann Behav Med 2005 Aug . 30(1):65-73。［CrossRef] [Medline］
李磊，李志强，李志强，李志强。SMART设计用于构建个性化治疗序列。临床精神病学年度报告2012;8:21-48 [免费全文] [CrossRef] [Medline］
张志刚，张志刚，张志刚，等。微随机化试验:开发即时适应性干预的实验设计。健康心理杂志2015年12月34日增刊:1220-1228。［CrossRef] [Medline］
戈亚尔S，森田PP，皮克顿P，濑户E, Zbib A, Cafazzo JA。采用以消费者为中心的移动健康应用评估和预防心脏病:<30天研究JMIR Mhealth Uhealth 2016;4(1):e32 [免费全文] [CrossRef] [Medline］
森田PP, Cafazzo JA。卫生技术设计中人为因素的挑战与悖论。JMIR Hum Factors 2016;3(1):e11 [免费全文] [CrossRef] [Medline］
杜丁AA，森田PP, Tallevi K, Armour K，李J，诺兰RP，等。用于行为神经心脏训练的可穿戴心脏监测系统的开发:可用性研究。JMIR Mhealth Uhealth 2016;4(2):e45 [免费全文] [CrossRef] [Medline］
亨德拉T.苹果新闻信息2015年3月9日。苹果推出ResearchKit，为医学研究人员提供革命性的工具http://www.apple.com/ca/pr/library/2015/03/09Apple-Introduces-ResearchKit-Giving-Medical-Researchers-the-Tools-to-Revolutionize-Medical-Studies.html
Jardine J, Fisher J, Carrick B.苹果的ResearchKit:智能手机时代的智能数据收集?中国社会医学杂志2015年8月;108(8):294-296。［CrossRef] [Medline］
Mohammadi D. ResearchKit:一个收集临床数据的聪明工具。医药杂志2015;294:781-782。［CrossRef］
施泰因胡贝尔，缪斯ED，托波尔EJ。移动医疗的新兴领域。科学翻译医学2015年4月15日;7(283):283rv3。［CrossRef] [Medline］
Friend SH.应用程序支持的试用参与:剧烈变化还是不温不火?科学翻译医学2015年7月22日;7(297):297ed10。［CrossRef] [Medline］
坎贝尔DT，斯坦利JC。研究的实验和准实验设计。贝尔蒙特:沃兹沃斯出版社;1966年1月2日。
电子健康的设计和评估:跨学科领域的挑战和影响。中国医学杂志，2007;9(2):e15 [免费全文] [CrossRef] [Medline］
Jadad AR, Moore RA, Carroll D, Jenkinson C, Reynolds DJ, Gavaghan DJ，等。评估随机临床试验报告的质量:盲法有必要吗?对照临床试验1996 Feb;17(1):1-12。［Medline］
孙X, Briel M, Busse JW, You JJ, Akl EA, Mejza F，等。随机对照试验中研究特征对亚组分析报告的影响:系统回顾英国医学杂志2011;342:d1569 [免费全文] [Medline］
鲍威尔AC，兰德曼AB，贝茨DW。在寻找一些好的应用程序。美国医学杂志2014年5月14日;311(18):1851-1852。［CrossRef] [Medline］
Pawson R, Tilley N.现实评估。纽约:Sage;1997.
Marchal B, Westhorp G, Wong G, Van Belle S, Greenhalgh T, Kegels G，等。复杂干预的现实主义随机对照试验——矛盾修饰法。2013年10月;94:124-128。［CrossRef] [Medline］
为什么电子医疗项目的评估会失败?另一套指导原则。PLoS Med 2010;7(11):e1000360 [免费全文] [CrossRef] [Medline］
Pham Q, Khatib Y, Stansfeld S, Fox S, Green T.管理焦虑的移动健康游戏的可行性和有效性:“流动”随机对照试点试验和设计评估。游戏健康杂志2016 Feb;5(1):50-67。［CrossRef] [Medline］
Ben-Zeev D, Schueller SM, Begale M, Duffecy J, Kane JM, Mohr DC。移动健康研究策略:3项移动干预研究的经验教训。行政政策与卫生2015 Mar;42(2):157-167。［CrossRef] [Medline］
Coiera E.再造医疗保健的四个规则。英国医学杂志2004 May 15;328(7449):1197-1199 [免费全文] [CrossRef] [Medline］
数字安慰剂效应:移动心理健康与临床精神病学的结合。《柳叶刀精神病学》2016年2月3日(2):100-102。［CrossRef] [Medline］
Cafazzo JA, Casselman M, Hamming N, Katzman DK, Palmert MR.青少年1型糖尿病自我管理mHealth应用程序的设计:一项试点研究。中国医学杂志，2012;14(3):e70 [免费全文] [CrossRef] [Medline］
张志刚，张志刚。支持癌症患者进行疾病管理:移动应用程序的可用性评估。JMIR移动健康Uhealth 2014;2(3):e33 [免费全文] [CrossRef] [Medline］
苏阿尤比，帕曼托B，分支R，丁丁。体育活动的说服性和社会移动健康应用:可用性和可行性研究。JMIR Mhealth Uhealth 2014;2(2):e25 [免费全文] [CrossRef] [Medline］
秋生，金志勇，郑世永，金世勇，韩杰，等。开发一款与加速度计连接的减肥移动应用程序，用于临床:可用性，可接受性，以及对其对医患关系影响的早期测试。JMIR Mhealth Uhealth 2016;4(1):e24 [免费全文] [CrossRef] [Medline］
O'Malley G, Dowdall G, Burls A, Perry IJ, Curran N.探索青少年肥胖管理移动应用程序的可用性。JMIR Mhealth Uhealth 2014;2(2):e29 [免费全文] [CrossRef] [Medline］
科莱特·K，斯托尔·N. Shift设计。2015年3月18日。URL:http://web-wp.do1.wawwd.info/content/uploads/2015/05/Shift_MHEvaluation_AW.pdf[访问时间:2016-09-01][WebCite缓存］
usttwo北欧2015年10月13日。暂停的故事https://ustwo.com/blog/the-story-of-pause[访问了2016-07-19][WebCite缓存］
《费伯健康促进者》2015年12月9日。Withings和MyFitnessPal联手帮助你减肥网址:http://blog.withings.com/2015/11/09/withings-and-myfitnesspal/[访问时间:2001-09-16][WebCite缓存］

‎

方差分析:方差分析

CEEBIT:不断发展的行为干预技术的持续评估

全球定位系统(GPS):全球定位系统

:多阶段优化策略

个随机对照试验:随机对照试验

智能:序贯多重分配随机试验

短信:短消息服务

D Spruijt-Metz编辑;提交09.05.16;H Potts, N Azevedo, M Larsen同行评审;对作者08.06.16的评论;修订版本收到20.07.16;接受12.08.16;发表09.09.16

这是一篇根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR mhealth和uhealth上的原创作品。必须包括完整的书目信息，http://mhealth.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

超越随机对照试验:移动健康临床试验方法替代方案综述