医学互联网研究杂志-慢性疾病患者家庭远程监护干预的系统回顾和元分析:其方法学质量的关键评估

审查

¹加拿大卫生保健信息技术研究主席，蒙特利尔高等商学院，加拿大蒙特利尔，质量控制学院

²渥太华大学特尔弗管理学院，安大略省渥太华市

^3.黎巴嫩贝鲁特，黎巴嫩美国大学商学院

*这些作者贡献相同

通讯作者:

Spyros Kitsiou博士

HEC蒙特利尔

3000, chemin de la Côte -圣凯瑟琳

蒙特利尔，QC, h3t2a7

加拿大

电话:1 514 340 6000 ext 2653

传真:1 514 340 6132

电子邮件:spyros.kitsiou@hec.ca

相关的文章这是更正后的版本。更正声明见://www.mybigtv.com/2013/11/e253/

背景:对慢性疾病患者家庭远程监测干预措施的系统综述和荟萃分析在过去十年中有所增加，对广泛的临床医生、政策制定者和其他卫生保健利益相关者越来越重要。虽然最近出现了对其方法严谨性和综合方法的一些批评，但尚未对其质量进行正式评估。

摘要目的:这项批判性综述的主要目的是评估之前研究慢性疾病背景下家庭远程监护干预措施效果的综述的方法、质量和报告特征。

方法:电子检索Ovid MEDLINE、Cochrane图书馆的效应综述摘要数据库(DARE)和健康技术评估数据库(HTA)，检索1966年1月至2012年12月发表的相关系统综述。三位审稿人对潜在的评论进行了独立筛选和评估。从每篇纳入的综述中提取与所用方法相关的数据，并由两名审稿人检查其准确性。一个经过验证的质量评估工具，R-AMSTAR，被用作指导评估过程的框架。

结果:24篇综述，其中9篇是荟萃分析，从200多篇引用中确定。文献检索显示，近年来在这一领域发表的综述数量大幅增加，尽管大多数综述集中在研究家庭远程监护对充血性心力衰竭患者的影响，但研究人员的兴趣也扩展到其他慢性疾病，如糖尿病、高血压、慢性阻塞性肺疾病和哮喘。然而，由于内在的方法问题，这些综述中有很大一部分似乎缺乏最佳的科学严谨性。此外，评论的整体质量似乎并没有随着时间的推移而提高。虽然所有或几乎所有的综述都满意地满足了一些标准，例如建立了纳入和排除标准的先验设计，在多个数据库中使用电子搜索，以及报告研究特征，但还有其他重要领域需要改进。重复数据提取、人工搜索高度相关的期刊、纳入灰色和非英语文献、评估纳入研究的方法学质量和证据质量是关键的方法学步骤，但很少执行。此外，在综合研究结果时发现的某些方法学局限性影响了一些综述的结果和结论。

结论:尽管有可用的方法学指南，可用于指导系统评价和荟萃分析的正确进行，并消除潜在的偏倚风险，但这些知识尚未完全整合到家庭远程监护领域。应进一步努力改进这一领域的系统评价和荟萃分析的设计、实施、报告和出版。

中国医学杂志，2013;15(7):e150

doi: 10.2196 / jmir.2770

关键字

以元分析为主题；以系统回顾为主题；家庭远程控制；远程医疗；遥测；质量评估；偏倚风险；慢性疾病；心脏衰竭；糖尿病；高血压；肺病

糖尿病、心血管疾病和呼吸系统疾病等慢性疾病的流行继续对几乎所有卫生保健系统构成重大和长期的挑战，需要从根本上改变患者护理的管理和提供[1-3.］．家庭远程监护(HT)是一种很有前途的方法，可以使临床医生在远离医院的情况下更频繁地、更长时间地随访慢性病患者[4-6］．HT是远程医疗的一种特殊形式，包括使用远程访问信息和通信技术(如遥测设备、智能传感器、手持或可穿戴技术)，将症状、生理和与疾病相关的数据从患者家中及时传输到远程监测中心，以支持临床决策[4，5，7］．HT的基本目标是为医生和护士提供准确和及时的必要信息，以远程检测与疾病相关的任何异常健康参数和并发症，早于计划的随访或紧急访问。这样就可以在病情恶化和并发症发生之前及时进行干预，需要住院并使用更多的资源。

多年来，在欧洲、加拿大、澳大利亚、美国和世界其他地区的国家电子卫生战略的背景下，已经有许多努力和研究计划来研究HT作为一种潜在的成本节约方法对慢性疾病患者的有效性(例如，[8，9])。美国退伍军人健康管理局广泛的家庭远程医疗服务[10]及英国的“整体系统示范”计划[11是一些例子。尽管如此，HT应用的广泛扩散和使用所带来的好处还没有完全实现[12］．卫生当局是否有信心和接受支持HT服务并为其报销慢性病管理费用，在很大程度上取决于是否有来自实地的可靠和强有力的科学证据[13］．

系统综述(SRs)和元分析(MAs)是在健康科学领域和最近的医疗信息学领域建立起来的强大研究工具，是循证实践的基石[14，15］．他们严格遵守一套严格的科学指导方针，并使用严格和可重复的方法来识别、选择、评估和综合临床研究的结果，以最大限度地减少在解决特定研究问题时的潜在偏差[16］．sr和ma在卫生保健领域变得越来越重要，它们对决策者、临床医生和研究人员的价值已得到充分认可[17］．如果进行得当，它们可以为决策者提供相关信息，并作为制定循证实践和临床指南的基础。

然而，sr和ma的质量和内部有效性取决于与综述的进行和入选的实证研究的质量有关的许多方面。文献检索、选择、评估和证据综合方法的缺陷和不足可能导致无效结论，对患者护理和决策者有重大影响。因此，研究人员提出并采用了评估工具，允许在几个临床领域仔细检查审查的方法学严谨性(例如，[17-21])。

在过去的十年中，关注慢性疾病患者HT干预的综述有所增加。虽然最近出现了一些对他们方法严谨性和方法的批评(例如，[6，11，22，23])，至今尚未对其科学品质进行正式评估。本文试图通过评估慢性疾病背景下HT干预的SRs和ma的方法、质量和报告特征来填补这一空白，以确定可能影响其内部有效性的偏倚风险。在研究和提出先前综述中发现的方法缺陷时，我们不打算举例说明作者的无能。事实上，所收录的评论的许多作者都被公认为是领先的专家，大多数所收录的论文都为建立一个相对较新的学科的证据提供了基础。然而，我们确实相信，在高温疗法这一特定领域的科学进步不会通过无争议的发现的积累来实现，而是通过持续的建设性批评、激烈辩论和意识的创造来实现[24］．为此，我们的目标是建设性地为其他学者提供信息，并通过为未来HT的进一步改进提供重点和方向来加强知识发展。

纳入和排除标准

概述

所有纳入和排除标准都是先验定义的。根据研究选择标准(研究类型、患者、干预措施和结果)对搜索中确定的引文进行资格评估。

研究类型

只有先前考虑HT影响并发表在同行评审期刊或Cochrane图书馆的SRs和ma才有资格纳入。为了在筛选过程中确定一篇已发表的文章是否符合这些综述类型，我们依赖于Cochrane Collaboration列出的关键特征[25］．特别是，我们认为如果一项审查包括:(1)一套明确制定的研究目标或研究问题，具有预先确定的选择相关实证研究的资格标准，(2)一套明确的、可重复的方法，(3)一套系统的搜索策略，试图确定所有符合资格标准的研究，以及(4)对纳入研究的特征和发现的系统展示、分析和综合。根据用于总结和综合初步研究中可用证据的方法，系统综述可分为定性/叙事或定量(即荟萃分析)。在我们的样本中，我们包括了MAs和叙述性sr。无论是在标题、摘要还是论文方法上，自我描述为系统的综述也被包括在内。无论评价的质量或全面性如何，均采用这些标准。我们排除了会议记录、综述摘要、社论和未发表的作品。

患者类型和干预措施

为了满足纳入标准，这些综述必须调查HT干预对患有以下慢性疾病之一的患者的有效性:充血性心力衰竭、高血压、糖尿病或呼吸系统疾病。它们还必须包括初级(经验)研究，这些研究涉及患者使用信息和通信技术，将生命体征(如动脉血压、心率)、生物特征和疾病相关数据(如血糖水平、症状、药物使用)从患者居住地及时传输和远程监测到卫生保健服务中心的临床医生(如护士、医生或相关卫生专业人员)。将HT与其他独立的多学科远程患者监测干预(如结构化电话支持、远程诊断或远程会诊)的影响进行联合调查(即，不作区分)的sr被排除在外。

结果

只有综合并提出了与HT的临床、结构(如服务的利用)、行为(如对患者行为的影响)或经济影响有关的主要研究的主要或次要结果时，才纳入先前的综述。侧重于其他方面的评论，如HT模式的技术可行性被排除在外。

搜索策略

我们检索了Ovid MEDLINE、Cochrane图书馆的疗效综述摘要数据库(DARE)和健康技术评估数据库(HTA)(从1966年到2012年12月)，以确定所有相关的文献。在Cochrane图书馆，我们使用四个关键词进行搜索(远程监护、远程医疗、远程医疗、远程家庭护理)。在Ovid MEDLINE上，我们将相同的关键词与以下每个术语结合使用:系统评价、元分析和评价。语言限制没有应用于任何搜索。

信息提取

一位审稿人(SK)通过使用为本研究目的而开发的电子提取表单，以非盲的方式从每个审稿人中提取明确的细节。所有提取的数据都由2名审稿人(GP和MJ)检查准确性，任何分歧都通过协商一致进行调解。所寻求的信息包括与综述特征有关的一般细节(如作者数量、通讯作者来源、出版年份、期刊特征、资金来源)和更具体的关于综合现有证据的方法的使用和解释的细节(如元分析和定性技术)。

方法学质量评估

24篇文献的方法学质量由2名审稿人(SK和GP)使用多重系统文献修订评估(R-AMSTAR)仪器以非盲格式独立评估[51］．任何分歧都通过协商一致得以和解。选择R-AMSTAR的基础是，它是一种经过验证的工具，能够通过评估(1)先验设计，(2)重复研究选择和数据提取，(3)综合文献检索，(4)灰色文献的纳入，(5)纳入/排除研究列表，(6)纳入研究的简介，(7)纳入研究的科学质量的文件评估，对sr和MAs进行深入评估，(8)在形成结论时适当地使用科学性，(9)适当地使用方法来结合研究结果，(10)评估发表偏倚的可能性，以及(11)适当地记录利益冲突。后面将更详细地描述这些领域中的每一个。

检讨简介

图2显示了HT干预的SRs和ma的发表随时间的趋势。我们的研究结果显示，第一篇综述发表于2003年[32］．显然，在2007年之前发表的评论很少。但从那时起，HT的评论数量大幅增加。

如表1，最大的综述体(n=10)集中在HT对充血性心力衰竭患者的影响[26-35］．4篇综述(17%)考虑高血压患者[36-39];4篇综述(17%)检查了慢性阻塞性肺病(n=2)、囊性纤维化(n=1)和哮喘(n=1)等呼吸系统疾病患者的HT [40-43];另有4篇综述(17%)关注糖尿病患者[44-47］．最后，我们的样本包括2个综合sr(8%)，它们调查了HT对各种慢性疾病(如心力衰竭、高血压、糖尿病和呼吸系统疾病)的影响[48，49］．由于HT对每种条件的影响分别报道，因此纳入了这些综述。

除3篇外，其余均发表在同行评审期刊上。最常见的三种来源是远程医疗与远程护理杂志(n = 3),远程医疗和电子保健(n=3)，则临床实践评价杂志(n = 2)。五篇评论[27，31，42，46，48]的报告是以前的评论的更新。在大多数文章中，通讯作者来自北美，其中10位来自加拿大，4位来自美国。6篇评论来自欧洲(4篇在英国，1篇在希腊，1篇在意大利)，3篇在澳大利亚，1篇在台湾。六篇综述由多国研究人员组成。

大多数综述由2名或更多作者进行，只有2名[35，42]都是单独撰写的。大多数审查(63%)由政府组织或卫生保健机构资助。其中5个项目获得了来自行业或学术机构的额外资助。不到一半的综述将主要研究的结果合并为MA，大多数综述(63%)使用定性方法综合现有证据。MAs被引频次(平均103.6,SD 108.2, 95% CI 13.1 ~ 194.1)高于sr(平均61.1,SD 77.2, 95% CI 18.37 ~ 103.90)，但差异无统计学意义(P= .287)。

综述的方法学质量

所收录的综述的方法学质量的结果在表2．我们概述了R-AMSTAR仪器所涵盖的所有41个质量标准，并给出了满足每个标准的综述文章的百分比。多媒体附件2提供每个评审的详细分析。我们以小写字母列出所有满意涵盖的标准[51］．在接下来的部分中，我们将对每个R-AMSTAR域内的关键发现进行分析。

表1。评论的概况。

慢性疾病	参考	一年	审查类型	城市数量^一个	期覆盖	纳入研究总数(rct数量)^d）
心脏衰竭
	乔杜里等人[26］	2007	老^b	94	1966 - 2006	9 (9)
	克拉克等人[27］	2007	妈^c	323	2002 - 2006	5 (5)
	克拉克等[28］	2011	妈	23	1969 - 2009	13 (13)
	Dang等[29］	2009	老	30.	1966 - 2009	9 (9)
	嘉莫兹等人[30.］	2012	老	4	2001 - 2011	12 (12)
	英格利斯等[31］	2010	妈	173	2006 - 2008	14 (14)
	路易等人[32］	2003	老	199	1966 - 2002	24日(6)
	马立克等[33］	2009	老	53	截至2007年	41 (12)
	Polisena等[34］	2010	妈	50	1998 - 2008	21 (11)
	濑户(35］	2008	老	48	截至2007年	8 (4)
高血压
	AbuDagga等[36］	2010	老	18	1995 - 2009	15 (10)
	Jaana等[37］	2007	老	13	1966 - 2006	14 (3)
	Omboni等[38］	2011	妈	7	截至2010年	12 (12)
	韦伯克等[39］	2011	妈	6	没有报告	9 (9)
呼吸道条件
	波顿等人[40］	2011	老	16	1990 - 2009	6 (2)
	考克斯等[41］	2012	老	1	1998 - 2011	8 (1)
	Franek等人[42］	2012	老	4	2000 - 2010	5 (3)
	Jaana等[43］	2009	老	49	1966 - 2007	14 (3)
糖尿病
	法默等[44］	2005	妈	127	1966 - 2004	26日(16)
	Jaana等[45］	2007	老	70	没有报告	17 (11)
	MAS (46］	2009	妈	-	2007 - 2009	8 (8)
	蒙托里等[47］	2004	妈	120	1982 - 2003	8 (8)
涵盖各种慢性疾病的SRs
	Paré等[48］	2010	老	44	1966 - 2008	Chf: 17 (13);高血压:13 (5);哮喘:8 (6);糖尿病:24 (21)
	Paré等[49］	2007	老	274	1990 - 2006	Chf: 16 (7);高血压:14 (3);呼吸疾病:18 (4);糖尿病:17 (12)

^一个根据谷歌学者截至2013年3月28日。

^bSR:叙事/定性系统回顾。

^c马:荟萃分析。

^d随机对照试验。

表2。满意地满足每个R-AMSTAR标准的评论百分比。

标准	描述	是的,%
1.问	研究的设计是在回顾之前确定的(即，先验设计)。	One hundred.
问1. b	有一份关于入选标准的声明。	One hundred.
问1.摄氏度	有一个PICO研究问题/声明。	67
2.问	至少有2个独立的数据提取器。	42
问2. b	有一项声明承认或意识到对分歧采取协商一致程序。	46
问2.摄氏度	提取器之间的分歧已按照规定或暗示得到妥善解决。	38
3.问	至少搜索了2个电子来源(如Medline和EMBASE)。	96
问3. b	该报告包括搜索年份和数据库。	92
问3.摄氏度	关键字和/或MESH术语。	92
问3. d	除了电子数据库(PubMed, EMBASE, Medline)，搜索还通过参考当前的内容，如评论、教科书、专业登记册或特定研究领域的专家，或通过审查所找到的研究中的参考文献来补充。	79
问3. e	期刊被“手动搜索”或“手动搜索”(即，确定高度相关的期刊，并对其全部内容进行手动逐页搜索，以寻找可能符合条件的研究)。	13
4.问	作者表示，他们搜索的报告不考虑出版物类型。	8
问4. b	作者根据其发表状态、语言等说明他们是否将任何报告(从系统评价中)排除。	83
问4.摄氏度	“非英语”论文被翻译。	4
问4. d	对非英语文章没有语言限制或识别。	21
5.问	提供了纳入研究的表格/列表/或数字;一个参考列表是不够的。	92
问5. b	被排除的研究的表格/列表/或图表在文章或补充来源(即在线)中提供。(被排除的研究是指那些在标题和/或摘要的基础上认真考虑过，但在阅读正文后被拒绝的研究。)	25
问5.摄氏度	作者令人满意地/充分地说明了排除认真考虑的研究的原因。	63
问5. d	读者可以在文章的参考书目、参考文献或补充来源的任何地方追溯被包括和被排除的研究。	25
6.问	所纳入研究的特征以表格等汇总形式提供，原始研究提供了关于参与者、干预措施和结果的数据。	88
问6. b	作者在所分析的研究中提供了相关特征的范围(例如，年龄、种族、性别、相关社会经济数据、疾病状况、持续时间、严重程度或报告的其他疾病)。	83
问6.摄氏度	所提供的信息似乎是完整和准确的(即，这里有一个可容忍的主观性范围。读者会感到疑惑吗?如果是，说明所需的信息和理由)。	88
7.问	提供了先验评估方法(例如，对于有效性研究，如果作者选择只包括随机、双盲、安慰剂对照研究或分配隐藏作为纳入标准);对于其他类型的研究，替代项目将是相关的。	38
问7. b	所纳入研究的科学质量似乎是有意义的(即，使用高，低或a, B, C等量表)。	33
问7.摄氏度	对证据水平的讨论/认识/认识	21
问7. d	根据特征仪器对证据质量进行评级/排名(特征仪器是一种创建的仪器，用于对证据级别进行排名，例如GRADE)。	21
8.问	在分析和SR的结论中考虑了方法的严谨性和科学质量的结果。	25
问8. b	在拟订建议时明确说明了方法上的严谨性和科学质量的结果。	25
问8.摄氏度	将结论整合/推动临床共识声明。	N/A
问8. d	这一临床共识声明推动了临床实践指南的修订或确认。	N/A
9.问	作者提供了一份标准声明，用于决定所分析的研究是否足够相似，可以合并。	0
问9. b	对于合并的结果，进行检验以确保研究是可组合的，以评估其同质性(即，同质性的卡方检验，I²)．	38
问9.摄氏度	有对异质性的认识或缺乏异质性。	38
问9. d	如果存在异质性，则使用“随机效应模型”和/或考虑合并的基本原理(即临床适当性)(即合并是否合理)，或明确说明。	25
问9. e	如果存在同质性，作者陈述了一个基本原理或统计检验。	0
10.问	承认出版偏见或文件抽屉效应。	21
问10. b	发表偏倚的评估包括图形辅助(例如，漏斗图，其他可用的测试)。	13
问10.摄氏度	统计检验(如Egger回归检验)。	0
11.问	作者提供了一份支持来源的声明。	79
问11. b	没有利益冲突。	50
问11.摄氏度	作者在初步纳入研究中提供了支持或利益冲突的意识/声明。	4

先验设计(Q1)

在开始检索、收集和数据提取之前，我们样本中所有的综述都建立了它们的综述设计(Q1.a)和研究选择的合格标准(Q1.b)。然而，大多数综述在根据方方法学家建议的“PICO”框架(人口、干预、比较、结果)和PRISMA声明构建研究问题/目标时缺乏清晰度。[16，52］．虽然在所有纳入的综述中都明确说明了患者群体或慢性疾病和所审查的干预措施，但比较组(对照组)和所评估的干预措施的结果在较少的情况下被详细说明:分别为25%和67%。只有3篇综述文章(15%)确定了针对所有4个PICO组件的精心制定的研究目标。总体而言，大多数(67%)综述报告了患者群体、干预措施和感兴趣的临床结果，因此被认为满意地涵盖了Q1.c项。

重复研究选择和数据提取(Q2)

在大多数情况下(67%)，主要研究的筛选过程是独立进行的，至少由2名审稿人进行。然而，据报道，从主要研究中提取的数据是独立进行的，在不到一半的综述中一式两份(Q2.a)。在方法学家建议的至少一个纳入的综述样本中，根据初步研究评估数据抽象的准确性[53]，我们在1ma检测到一个不适当的编码实例[28]提取的数据与1项随机对照试验(RCT)的原始发表之间的差异[54充血性心力衰竭住院的结果对照组和实验组之间的事件总数反向记录。因此，估计的总结效应似乎略高，I²非均质性deflated点估计(RR 0.73 [0.62-0.87]P= .0004;我²=0 vs RR 0.78 [0.65-0.93]P= 04;我²= 46%)。在此MA中未报告重复数据提取。

在24项评审中，11项(46%)陈述了是否存在协商一致程序或第三方审稿人来解决任何分歧(Q2.b)， 9项(38%)包含了关于适当解决审稿人之间现有分歧的声明(Q2.c)。总体而言，如图所示多媒体附件2，只有三分之一的检讨满意地涵盖了该范畴内的所有准则。关于数据提取过程中所采用的方法的补充资料很少，例如使用试点表格/编码表，为避免重复计算已发表报告而采取的步骤，以及用于从原始研究的作者那里收集补充资料的方法。

搜索的全面性(第三季)

由5个标准组成的领域3的分析显示，几乎所有的综述(96%)都使用至少2个电子数据库来检索主要研究(Q3.a)。最流行的数据库是Medline (100%)， Cochrane Library(70%)和EMBASE(60%)。总而言之，22篇综述(92%)报告了检索年份和数据库(Q3.b);22个(92%)陈述了使用的关键字(Q3.c);19个(79%)表示通过回顾所找到的研究中的参考文献来补充搜索(Q3.d)。仅在3篇(13%)综述(Q3.e)中手动检索了高度相关的期刊以确定符合条件的研究。14篇综述(58%)使用QUOROM/PRISMA流程图以图形化的方式描述和描述搜索和选择相关文章的步骤顺序。然而，只有5篇综述(21%)提供了至少1个主要数据库的完整电子搜索策略，以便人们可以重复搜索或评估其全面性。如多媒体附件2在该领域，只有2篇综述(8%)满足R-AMSTAR仪器的全部5项标准。

纳入灰色文献(第四季)

有趣的是，大多数评论都集中在发表在英语期刊上的同行评议的初步研究。在我们数据库中的24篇文章中，只有2篇(8%)考虑纳入灰色文献，并搜索了原始研究，而不管其发表类型(Q4.a)。在20篇综述中(83%)，作者表示他们根据发表状态(如摘要、会议记录和语言)排除了主要研究(Q4.b)。只有一篇综述(4%)报道了非英语论文被翻译(Q4.c)，而5篇(21%)报道了对研究的搜索和纳入没有语言限制(Q4.d)。

所提供的纳入和排除研究(Q5)

大多数综述(92%)提供了纳入的研究列表(Q5.a)，但只有25%的综述在文章或补充来源(如在线附录)中报告了排除的研究列表(Q5.b)。因此，只有6篇文献回顾纳入和排除的研究是可行的(Q5.d)。在15篇文章(63%)中，作者明确报告了排除研究的主要原因(Q5.c)，随后报告了与每个排除标准相关的文章数量。后一项的覆盖令人满意，主要是通过提供类似prisma的流程图[52］．

纳入研究的特点(Q6)

关于参与者、干预措施和结果的原始实证研究的研究水平数据以汇总形式呈现，如21篇综述(88%)中的表格(Q6.a)。所有表格中的信息似乎都是完整的(Q6.c)。在20篇综述(83%)中，作者将主要研究中相关PICO特征的范围(例如，患者的平均年龄、随访时间、疾病严重程度)纳入了表格(Q6.b)。

初级研究的质素评估(Q7)

24篇综述中有9篇(38%)对主要研究的方法学质量或偏倚风险进行了正式评价。在所有这些研究中，作者提供了一种先验的评估方法，或以质量量表/综合评分检查表的形式，或以预先定义的偏倚风险标准的形式(Q7.a)。总而言之，8篇综述(33%)以对每项研究有意义的格式记录了质量评估的最终结果，即以等级/分数或每次综述令人满意的标准总数的形式记录了质量评估的最终结果(Q7.b)。在一篇特别的评论中[40]，作者指出，根据Cochrane协作组的标准进行了偏倚风险评估，但没有记录每项单独研究的评估结果。在评估主要研究质量的9篇综述中，只有5篇综述根据研究设计(如RCT、观察性)和个别研究的科学质量或偏倚风险对各研究或结果的证据水平进行了评级(Q7.c)。所有5篇综述(21%)都使用了各种特征工具来评价证据的总体质量(Q7.d)。最普遍的是GRADE仪器，在3次综述中使用。

表3而且4总结不同的方法、工具和策略([55-61])用于评估纳入的主要研究的质量和证据的整体质量。基于这些方法的组合，我们将综述分为两大类。第一组侧重于评估每项研究的方法学质量，但不考虑证据的整体质量，而第二组则进行了两项评估。证据质量考虑了内部效度评估(偏倚质量或风险)和纳入研究的设计(如随机对照试验、观察性)，以及其他潜在方面(如结果的一致性和直接性)，以评估或表明我们在多大程度上可以确信，在每个感兴趣的结果或个别研究中，关于HT干预有效性的估计效应量或最终结论是正确的[55］．

表3。用于初级研究质量评估的方法和仪器-聚类1。

集群1	乔杜里2007 [26］	克拉克2007 [27］	Cox 2012 [41］	农民2005 [44］
评估的重点	研究设计(D)研究质量(Q)	研究设计(D)研究质量(Q)	研究质量(Q)	研究质量(Q)
(考核重点)考核方法	(D)仅纳入随机对照试验(Q) Jüni量表[56]和约克中心标准[57]	(D)仅纳入rct (Q) Cochrane标准[58]	(Q)唐氏及黑鳞片[59］	(Q)杰达量表[60];仅用于随机对照试验的评估
评核人人数	NR^一个	2	2	NR
评估员蒙蔽?	NR	NR	NR	NR
裁决或协商一致程序	NR	是的	是的	NR
每个研究领域的交叉表格结果	没有	是的	是的	没有
总体研究质量评分	是的	N/A^b	是的	是的

^一个NR:没有报道。

^bN / A:不适用的。

表4。用于初级研究质量评估的方法和仪器-聚类2。

集群2	博尔顿2011 [40］	Franek 2012 [42］	Inglis 2010 [31］	Polisena 2010 [34］	2009年Mas [46］
评估重点	研究质量(Q)证据质量(E)	研究质量(Q)证据质量(E)	研究设计(D)研究质量(Q)证据质量(E)	研究质量(Q)证据质量(E)	研究设计(D)研究质量(Q)证据质量(E)
(考核重点)考核方法	(E)牛津循证医学中心-证据水平	(Q)随机对照试验CONSORT语句检查表的适应性(E) GRADE [55]	(D)仅纳入rct (Q) Cochrane标准[58](E) GRADE [55]	(Q)及(E) Hailey等仪器的适应性[61］	(D)仅纳入随机对照试验(Q) Goodman提出的证据层级的适应(E) GRADE [55]
评核人人数	2	NR	2	2	NR
评估员蒙蔽?	NR^一个	NR	NR	NR	NR
裁决或协商一致程序到位	是的	NR	NR	NR	NR
每个研究领域的交叉表格结果	没有	是的	是的	没有	是的
总体研究质量评分	N/A^b	N/A	N/A	是的	N/A
证据质量排序	在研究	在结果	在结果	在研究	在结果

^一个NR:没有报道。

^bN / A:不适用的。

值得注意的是，除了通过工具正式评价主要研究的偏倚质量或风险的综述外，另有3项综述[29，43，48]使用评分量表[62]来判断纳入研究的证据强度。根据这个量表，在考虑了2个重要因素后，可以确定证据的强度，并在9个等级中的1个等级中进行适当的排名(按降序出现):(1)每个主要研究中采用的设计类型(例如，大型RCT，小型RCT，队列)，以及(2)基于一组科学严密性条件的研究的有效性，包括研究质量。但是，上述3次审查都没有进行或审议上述比额表建议的后一个组成部分。在分析和制定结论的背景下，所有3篇综述仅根据每项研究的研究设计“标签”对证据进行了分级。他们没有批判性地评价或考虑实际情况特性个体研究，最终影响偏倚的风险。因此，与非随机对照试验、队列研究等相比，大样本和小样本随机对照试验在证据层次上排名更高。

纳入研究在制定结论时适当使用的科学质量(Q8)

在正式评估初步研究的科学严密性的9篇综述中(见Q7)，有6篇综述将方法学质量的结果纳入最终结论(Q8.a)和对未来研究提出的建议(Q8.b)。总的来说，75%的综述在没有考虑或反映纳入研究的潜在偏倚风险的情况下，就HT对慢性患者的有效性得出了结论。重要的是，所有纳入的综述都没有将质量评估的结果(Q7中的项目)纳入到综述的实际分析中，以探索如果将高偏倚风险的研究纳入或排除在分析之外，结论将如何受到影响。

结合研究结果所用方法的适当性(问题九)

我们数据库中的大多数综述(63%)使用叙述综合方法定性地汇总了主要研究的结果。然而，所选方法背后的基本原理和作者用来指导他们的决定的方法并没有被普遍提及。在15个叙述性sr中，有8个(53%)提供了关于为什么选择定性综合证据而不是元分析的陈述[26，29，33，37，40-42，48］．所有这些综述的主要原因一般都围绕着纳入的研究之间存在“异质性”。然而，由于主要研究在临床或方法学上过于多样化，客观地支持荟萃分析不合适或不合理的方法、标准或具体规则(例如，基于PICO框架的逻辑模型)并未明确。

在15份sr中，只有3份(20%)提供了包含在合成过程每个阶段使用的方法、工具或一般框架信息的分析计划[26，29，48］．在其余的综述中，没有具体说明决策过程的逻辑以及作者为得出最终结论的主要研究分配权重所依据的标准。此外，绝大多数(93%)sr使用原始研究中报告的原始数据的变体(如百分比、平均差异、P数值和计数)。只有一个[26]将提取的数据转换为通用的统计度量(例如，风险比)，以便在观察到的治疗效果和主要结果之间进行更透明和直接的比较。

如表5， sr的作者使用了四种不同的方法来定性地组织和综合现有的证据。最常用的方法(在10个SRs中)是“报告结果”法，根据原始研究中评估和报告的最常见的结果对结果进行分析和综合。四项综述采用了“证据水平”方法，其中以纳入研究的研究设计为基础，按降序对现有证据进行分层和呈现(如大型rct、小型rct、队列研究和病例对照研究)。其中两项研究将“证据水平”与“报告结果”方法结合起来，而第三项研究使用“投票计数”来呈现每项研究中干预效果的方向(例如，正面、负面和相互冲突的效果证据)。在我们研究的两个sr中，作者根据远程监测干预的主要模式(例如，体征和症状的自动监测和基于电话触摸板的HT模式)对研究进行了分组和分析。

在24篇综述中，9篇综述使用元分析方法将主要研究的结果进行了定量结合。然而，没有一个MAs明确说明在研究问题的背景下使用了什么标准来客观地支持所分析的HT试验在临床和方法学上足够相似，可以进行定量组合(Q9.a)。在一个MA中[34]，有人指出，研究结果的定量汇总被认为是不适当的，当大量的统计异质性(I²≥50%)，这种异质性不能用亚组分析来解释。然而，从方法学的角度来看(如后文所述)，过度依赖I²可能特别具有误导性，因此，使用统计异质性和I²作为决定MA是否合适的唯一标准，是一个相当有问题的策略[63-65］．在MA中汇总和提出治疗估计的决定不符合统计学检验，应基于任何异质性的临床和方法学相关性(如患者年龄、疾病严重程度、随访时间、使用的技术和研究设计)。

如表5，每个MA中使用的效果测量的汇总统计数据通常与调查结果的类型和原始试验中的可用数据有关(即，二分、计数或连续)。通过正式的统计检验(Q9.b)，评估和量化所有MAs中每个相关结果的HT效应在各研究之间的一致性。在8ma中最常见的方法是(表5)涉及I的使用²统计量，由卡方检验(科克伦Q统计量)得出。可豁免一项[39]，只报告计算I的范围²其余MAs报告了森林图或文章文本内的精确结果，并对每个调查结果的异质性估计提供了解释(Q9.c)。

我的²统计(66，67]测量了一组治疗效果估计值中总变异性的大致比例，这些变异性可归因于纳入研究之间的真实临床或方法学差异，而不是抽样误差。它的取值范围从0到100%，通常使用阈值(例如，25%、50%和75%)来推断试验结果之间不一致的程度[67，68］．然而，模拟表明，I²统计量与Q统计量[64，65］．因此，它可能在MAs中产生不可靠的估计，包括少量试验(例如，k<15)，精度较差(即，少量患者和事件)。为此，有关指引[68]和方法学家[64，66，67，69，70]建议研究人员应该调查、展示并在解释结果时考虑I的95%置信区间(CI)²估计，以便充分反映围绕它的不确定性(证据的强度)。也就是说，在治疗效果方面，试验之间可能存在的真正差异程度的范围。然而，在我们的数据库中，没有一个MAs报告执行了这一统计程序。虽然纳入的HT试验数量始终低于12个，而且由于注册患者数量较少，大多数试验表现出较差的准确性，但在纳入的试验中，对HT效应的一致性或不一致性的推断是基于I的²单独的点估计。

鉴于在结果解释和统计模型选择方面，这种方法学限制对MAs可靠性的潜在负面影响[70，71])，我们试图进行事后分析，以经验评估所提供异质性的不确定性程度(I²)的估计。如建议[69]，我们使用非中心χ进行所有计算²该方法在Stata(12.1版)的异构模块中实现[72］．总的来说，我们可以计算出I²除一个MA外，所有统计数据及其相关的95% ci [394项或4项以上研究共22项结果。基于对每个MA中使用的统计方法的应用和解释的仔细评估，我们确定了以下方法学问题。

在6ma内[27，28，31，34，44，47其中的I²对于特定结果，统计值估计为0% (表6)，一个常见的推断是试验之间不存在异质性或异质性较低。因此，临床HT效应的方向和分散程度在所有纳入的试验中是一致的。然而，95% ci反映了这些异质性估计的不确定性，在所有这些MAs中尤其广泛，异质性从低到高不等。如表6， 95% CI的上限跨越到大异质性范围(I²≥50%)，在3ma也超过或达到了75%的范围(具有显著的异质性)，而区间下限始终低至0%。这表明，由于普遍缺乏证据，很难对研究结果的相似性或可比性作出任何强有力的推论和结论性陈述。考虑到所有这些MAs中包含的试验的精度很差，有可能I²预估被掩盖及扣除[73］．因此，不应排除或低估HT试验之间存在中度甚至相当大的异质性。

我们发现的第二个方法学问题与相反的问题有关，即对异质性的高估。在4 MAs的5个森林样地中[28，38，46，47]，其中I的点估计²中等(例如33.8%)或相当大(例如，我²≥50%)(表6)，一个常见的推断是，由于真正的差异，试验的HT效应大小存在高度甚至实质性的不一致。然而，如图所示表6在所有这些ma中，I中95% CI的下限²点估计跨越到小异质性的范围(I²≤25%)，反映了大异质性的证据可能不足以支持所观察到的I的重要性²价值。对异质性的高估和对I的过度依赖²估计促使研究人员在一个MA [47]用尽亚群分析的所有可能性，并屈服于一个缺乏支持的事后分析，以寻求异质性的原因，而在另一篇综述中，它阻止了作者进行MA [34］．

最后，一个稍显微妙但却重要的方法错误涉及MA通过重复计算研究小组而夸大研究权重的问题[24，74，75］．具体来说，我们数据库中的一个MA [38]，比较了HT和常规治疗对高血压患者的影响，其样本包括一项随机对照试验[76其中包括1个对照组(247例患者的常规护理)和2个干预组:(1)血压HT与Web培训服务(246例患者)，(2)血压HT与药剂师通过Web通信辅助护理(237例患者)。作者在他们的MA中选择处理这一特定试验的方式，对于所有报告的结果，是通过重复计算其对照组，将其纳入每个森林图中两次。然而，这样做的结果是，这个特殊的试验被压倒了。一次是493名患者，一次是484名患者。因此，它的有效样本量似乎是977，而实际上真实样本量是730。这对本次审查结果的有效性构成了重大威胁，因为该试验在所有森林样地中都被赋予了相当大的权重。

对于所使用的统计模型，6个MAs(67%)进行了随机效应分析，3个MAs进行了固定效应分析(Q.9c)。其后两项研究[28，31)使用固定效应模型，即使有一些潜在的证据(例如，我²>30%)到实质性(例如，I²>75%)研究间存在异质性。然而，没有理由认为固定效应模型仍然是适当的。在大多数综述中，指导研究人员从两种统计模型中选择一种的基本原理、标准或一般假设都没有具体说明。在9位MAs中，只有2位(22%)提供了明确的陈述，以证明用于计算汇总效应的统计模型是正确的[27，31］．这两篇综述都是由同一组研究人员撰写的，重点研究了HT和结构化电话支持(分别)与常规护理对充血性心力衰竭患者的影响。然而，有趣的是，尽管作者所陈述的原因或假设几乎相同，但每次综述所选择的模型都是不同的。

发表偏倚(Q10)

这个问题包含的三个标准集中在用于评估发表偏倚可能性的元分析方法上，即根据初级研究结果的方向，发表或不发表研究结果。在我们回顾的9位MAs中，5位在评估中考虑了发表偏倚(Q10.a)，只有3位在发表的文章中展示了实际的漏斗图(Q10.b)。在这5个MAs中，作者依赖于视觉检查和漏斗图的解释。所有MAs均未使用正式的统计检验来评估偏倚的存在(如Egger回归检验)(Q10.c)。这是合理的，因为每次综述中纳入的试验数量较少。从理论上讲，这种检验需要相当数量的初步研究，以便有足够的能力来检测偏倚;很少能达到的标准然而，没有一个MAs承认与漏斗图的视觉检查相关的主观性的巨大风险[70，77]以及当研究数量较少(如k<10)或异质性显著时，该方法在检测偏倚(更不用说发表偏倚)方面的不足[78，79］．因此，在所有情况下，关于存在强烈发表偏倚或不存在偏倚的陈述都比所允许的证据更有力。

利益冲突(问题11)

在我们的样本中，大多数综述(79%)明确披露了开展综述所获得的所有支持来源。在50%的调查中，至少有一名或多名调查人员与在各自审查结果中存在利益冲突的实体直接关联或有其他积极参与，如HT解决方案提供商(Q10.b)。只有一篇综述(4%)检查并报告了纳入的实证研究的作者是否存在潜在的利益冲突(Q10.c)。

表5所示。SRs和ma中使用的方法，综合来自初步研究的现有证据。

方法		评论	n
定性的方法(n = 15)
	报告结果	［30.，32，35-37，40-43，45，49］	11
	证据水平(研究设计)	［29，32，37，48］	4^一个
	点票(干预效应)	［29］	1^一个
	远程控制模式	［26，33］	2
整合的方法(n = 9)
摘要统计信息
	风险比率(用于二分数据)	［27，28，31，34］	4
	风险差(用于二分类数据)	［27］	1^b
	平均差(连续数据)	［38，39，46］	3.
	标准化平均差(用于连续数据)	［44，47］	2
非均质性
	用统计检验方法评估异质性	［27，28，31，34，38，39，44，46，47］	9
	报告异质性的科克伦Q统计量(卡方检验)	［27，28，31，44，46，47］	6
	报道我²异质性检验	［27，28，31，34，38，39，46，47］	8
统计模型
	随机效应元分析	［27，34，38，47］	4
	固定效应元分析	［28，31，44］	3.
荟萃分析诊断
	亚组分析	［34，46，47］	3.
	敏感性分析	［31，38］	2

^一个包括使用两种不同方法的评审。

^b同一篇评论使用了两种不同的汇总统计数据。

表6所示。I的置信区间²MAs的估计。

	作者(年)	试验次数	我²	低区间(95% CI)	高区间(95%置信区间)	统计模型	评估结果
心脏衰竭
	克拉克2007 [27］	5	0	0	79	随机效应	全因死亡率
	Clarke 2011 [28］
		10	51	0	76	固定效果	全因死亡率
		6	59	0	83	固定效果	全因住院
		6	0	0	75	固定效果	CHF-related住院
		4	82	52	93	固定效果	全因紧急访问
	Inglis 2010 [31］
		11	0	0	60	固定效果	全因死亡率
		8	0	0	68	固定效果	全因死亡率随访>6个月
		8	78	56	89	固定效果	全因住院
		6	85	70	93	固定效果	全因住院随访>6个月
		4	39	0	79	固定效果	CHF-related住院
		4	39	0	79	固定效果	chf相关住院随访>6个月
	Polisena 2010 [34］
		6	0	0	75	随机效应	全因死亡率
		4	5	0	85	随机效应	全因住院
高血压
	Omboni 2011 [38］
		11	65.8	35	82	随机效应	收缩压变化
		11	56.6	15	78	随机效应	舒张压变化
		6	77.9	44	91	随机效应	控制血压
		5	79.1	50	91	随机效应	降压药的数量
糖尿病
	农民2005 [44］	9	0	0	65	固定效果	血糖控制——糖化血红蛋白的改变
	2009年Mas [46］
		7	65	20.	84	随机效应	血糖控制-糖化血红蛋白的变化(所有研究)
		4	45	0	82	随机效应	血糖控制-糖化血红蛋白变化(亚组分析)
	蒙托里2004 [47］
		8	33.8	0	71	随机效应	血糖控制——糖化血红蛋白的改变
		7	0	0	71	随机效应	血糖控制-糖化血红蛋白的变化(事后亚组分析)

主要研究结果

这篇重要的综述首次对已发表的研究HT对慢性疾病患者影响的综述进行了正式和全面的质量评估。我们应用R-AMSTAR工具严格检查了每篇综述的方法学严谨性和报告特征，并在这一特定工具的11个领域内进行了仔细评估，以确定推论或结果中可能影响其内部有效性的偏倚风险(即系统性错误)。为此，R-AMSTAR被用作指导和支持我们评估的一般框架，而不是用于计算每个评审的质量分数的特定工具。这样的评分可能并不总是反映每一篇综述的真实科学质量，而且有证据表明，由于假阳性或假阴性的潜在存在，在判断是否信任某一项分析时，使用这些评分可能存在问题[58］．

我们的文献检索结果表明，与其他临床领域相比，该领域的SRs和ma是相当新的(例如，[18，80])。第一篇综述发表于2003年，主要研究对象是充血性心力衰竭患者。从那时起，特别是在过去6年里，发表的综述数量大幅增加，同时审稿人的重点也扩展到包括慢性阻塞性肺疾病、高血压和糖尿病等其他慢性疾病。尽管如此，最大的审查机构继续关注充血性心力衰竭患者。

基于我们的评估，我们发现随着近期HT干预研究综述的增加，由于内在的方法学问题，这些文章中有相当一部分似乎缺乏最佳的科学严谨性。此外，他们的整体质量似乎并没有随着时间的推移而提高。尽管重要的方法学指南已广泛提供和传播，[52，81]，可用于指导系统评价过程并消除潜在的偏倚风险，但似乎这些知识尚未完全整合到HT领域。虽然所有或大多数综述满意地满足了一些标准(例如，建立先验设计(100%)，报告纳入/排除标准(100%)和研究特征(88%)，使用多种电子搜索和数据库(96%))，但还有其他重要领域需要改进。未来的sr和ma应考虑这些领域，以推动科学进步并提高快速发展的HT领域的研究严谨性。R-AMSTAR仪器的应用和我们的分析表明，许多综述没有进行关键的方法学步骤来降低偏倚风险(例如，重复数据提取(42%)，纳入灰色文献(8%)和非英语文献(21%)，纳入研究的方法学质量评估(38%))，一些综述在研究结果的综合方面存在局限性，这可能影响了其结果和结论的有效性。我们将在下面解释这些问题的潜在影响，并为该领域的未来审查提供建议。

搜索策略

尽管大多数综述使用2个以上的电子数据库来检索相关研究，但很少使用其他减少偏倚和增强检索策略的重要方法。只有2篇综述试图在灰色文献中确定初级研究，绝大多数文献仅将所有搜索限制在英语文章中，尽管已经证明在专门关注英语出版物的sr和ma中可能会引入偏见[82，83］．所有综述都明确报告了为选择主要研究建立的先验纳入和排除标准，但大多数综述都没有按照方法学家和PRISMA声明的建议，提供被排除的研究的参考文献列表[16，52］．这些方法学问题表明，对现有证据的审查可能有限，选择和语言偏见的风险很高。我们对引文模式的书目分析证实了这些担忧。事实上，由于在检索过程中应用了不同的语言、出版类型和日期限制，我们数据库中包含的绝大多数综述都未能识别已发表的研究。Inglis等人的Cochrane综述[31，在其他关于心力衰竭的sr和ma中进行了最全面的搜索，提供了具体的证据(多媒体)．具体地说，这些作者确定了3个相关试验，其中2个以英语以外的语言发表(一个是德语，一个是意大利语)。同行评审的德国出版物是其他评审确定的所有试验中最大的RCT(502例患者)。然而，2007年之后发表的其他综述都没有收录它，另外2篇作为摘要发表的rct也没有收录它，因为几乎所有的综述都将搜索范围限制在英文出版物上，没有考虑灰色文献。为了最大限度地减少选择和语言偏见的风险，未来对HT的回顾应避免应用这些限制，因为这些限制与sr和ma的概念不一致，后者旨在对所有可用的经验证据提供全面和无偏倚的概述。

HT研究纳入的差异

HT作为一个研究领域，在过去十年中有了长足的发展。然而，从概念的角度来看，sr和ma的作者似乎在他们使用的术语上缺乏共识(例如，“远程”[47]、“远程医疗”[44]、"远程医疗" [41]、"远程保健和远程监测" [29])，最重要的是在符合HT标准的干预措施和技术类型方面。例如，Chaudhry等人[26]在他们的综述中认为，没有明确的理由排除基于电话的干预措施，即在护士和患者之间使用一对一的电话，而其他评论者则持相反的观点(例如，[31，32，48，49］．我们的批判性评估方案，特别是对引用模式的检查，在纳入的综述中，对某些干预措施的纳入、分类和分析显示了一些不一致的观点。大多数综述强烈集中于纳入基于遥测设备的干预措施，这些设备通过通信网络提供自动化或基于信息的监测和生理体征或症状的传输(见多媒体)．然而，在其他干预措施如独立电话支持(52,63)、自动电话、免费计算机语音应答系统(13,31)、可视电话(70)、基于电视的支持(4)、视频会议(46)和基于网站的支持(35)的纳入和分析方面，各综述之间存在重要分歧。

下面的例子很好地说明了当前存在的问题及其对结果的影响，并直接比较了HT审查的结果。一项纳入3篇HT治疗心力衰竭综述的随机对照试验[28，29，31]， 2个ma和1个SR，包括一个对照组和2个干预组。第一组干预被分配到结构化的电话支持，而第二组被分配到不涉及任何自动化监测或传输生命体征和症状的可视电话。2篇评论[28，29]认为可视电话干预是家庭远程监控，而第三个则不认为[31］．第三篇综述选择的处理该研究的方法是将两个干预组合并为一个组，并将其作为结构化电话支持进行定量分析。这表明目前对HT的定义及其核心性质没有统一的认识。未来的研究应通过提出和验证一种分类法来解决这一重要问题，该分类法将捕获不同类型/形式的HT，并在试验中进行强有力的比较。

纳入研究的质量评估

先前综述产生的结果的有效性及其结论的可信度在很大程度上取决于纳入研究的质量。有充分的证据表明，初级研究的科学质量并不总是足够的，如果没有发现和解释方法上的缺陷，可能会夸大或缩小研究结果[84-86］．现行指引[52，58]建议审稿人在每次综述中必须进行两种不同的质量评估:原始研究的方法学质量(或偏倚风险)和证据质量[55]以表明我们在多大程度上可以确信对每个感兴趣的结果的效果估计或最终结论是正确的。也存在各种策略[58]，可用于将这些评估的结果纳入评审的分析和结论。不幸的是，我们在HT特定领域的发现相当令人失望，并引起了重要的关注。在24篇综述中，只有9篇(38%)评价了纳入研究的方法学质量，其中5篇(21%)评价了现有证据的整体质量。此外，只有4篇综述在最终结论中考虑了质量评估的结果。因此，不排除有偏见的研究夸大或缩小先前综述HT结果的可能性。

数据综合方法的选择与论证

关于选择最适合解决本综述研究问题的数据合成方法的决定需要经过深思熟虑和临床判断，并应基于明确的临床和方法学标准，尽可能减少主观性[68］．基于我们的评估结果，用于指导和支持研究人员决定叙述性或定量地综合现有证据的理由和标准并不总是明显的。在15个定性sr中，8个(53%)对不进行MA提供了一些解释，但即使在这些情况下，用于决定临床或方法学上不够相似的研究的标准也没有被揭示。在HT方面，MAs没有提供理论依据或声明，具体说明使用什么标准来支持结合统计研究的决定，这些研究可能在患者的严重程度阶段、家庭远程监护方法、实施环境和其他重要方面有所不同。这一发现表明，大多数审稿人可能会根据方法学偏好或既往经验，而不是明确的临床相关标准，将叙述综合或元分析作为“默认行动”。然而，通过明确指定用于指导特定综合方法选择的任何方法或特定规则(例如，基于PICO框架的逻辑模型)来解决这一问题，将为未来的审查提供信息。[6，22］．

研究的定性综合

采用叙述性或定性综合的作者应明确描述支撑证据综合过程每个阶段的分析计划，以阐明和支持用于得出最终结论的逻辑。提出分析计划是至关重要的，在HT未来的sr中应该成为方法部分的组成部分，因为它阐明了合成过程，提高了综述的透明度和可靠性，并可以防止由于不适当地强调一项研究的结果而产生的偏见[87-89］．此类分析计划除其他外，必须在入选研究中纳入将原始数据转换为通用统计或数值测量(如风险比、平均差异)的适当技术[87］．这将允许审稿人对效应大小进行有意义的总结，从而促进在所研究的效应范围内进行稳健和透明的比较。不幸的是，大多数叙述性sr未能满足这些标准，在大多数情况下，综述作者倾向于过度依赖报告P值，其具有误导性的臭名昭著的记录，特别是在小型初步研究的情况下，研究内方差大(即，精度差)，并且没有足够的动力来获得显著的结果[74］．鉴于将非显著性结果误解为无效应证据的固有风险，该领域的未来研究应通过估计每个主要研究的效应量来综合现有数据(正如在其中一项研究中所做的那样[26)，而不是报告P值。

在meta分析中测量HT效应的不一致性

HT干预的MAs中使用的统计方法的主要目标之一是评估纳入研究结果之间的离散性，即效应量的研究间异质性，以评估研究结果的一致性。鉴于观察到的异质性，重要的是调查和解释，只要有可能，是什么导致了它，以增加科学理解和临床相关性。关于第一个目标，我们样本中包括的所有9个ma都严格遵守推荐指南，并通过计算Cochran’s Q、I正式评估HT研究结果的变异性(异质性)²，或在大多数情况下都是异构统计。这特别令人鼓舞，反映了一种良好的做法，与医疗保健领域的其他医学硕士基本一致[17］．然而，这些指标的局限性[64-67，70，71以及围绕着I的不确定性²点估计，可以表示为95%置信区间，不考虑任何纳入的MAs。因此，在大多数情况下，关于试验之间HT效应不一致程度的坚定主张或推论比所允许的证据更强。这种限制可能是由于在超过一半的MAs中使用的Review Manager (RevMan)软件没有为用户提供计算I的置信区间的功能²．这是其他研究人员也强调的问题，并希望该软件的未来更新将使置信区间成为I的一个不可分割的部分²异质性计算[73］．

这一领域的未来ma应继续使用统计学来衡量所观察到的效应的统计显著性和异质性比例。但是，必须考虑到这些指标的局限性。Q统计量与所有显著性检验一样受到相同的注意事项，应始终根据分析中包含的HT研究数量谨慎解释[70］．我的²不精确，因此，I的置信区间²估计应始终谨慎地报告和解释，因为它们对于反映与所观察到的效应中真实异质性与总变异的估计比率相关的不确定性很有价值[69］．当MA中纳入的主要研究数量有限(例如，k<15)且研究内方差较大时，I²估计应谨慎解释，任何关于所观察到的高温效应的一致性的强烈陈述“应避免或适当缓和，无论结果如何”[70］．此外，当HT效应的大小有很大差异时，就像某些MAs的某些结果一样(例如，[31，38])，这种结果的差异应成为MA讨论的主要焦点，而总结效应应不那么重要，甚至根本不重要[74］．

固定效应和随机效应元分析之间的选择

当结合来自各种HT研究的数据时，一个主要的难题是决定是进行固定效应还是随机效应元分析。这一决定尤其重要，因为模型的选择可能会影响效应量的估计，并最终影响结果的解释[79，90］．HT干预的固定效应MA是基于这样一个前提，即综述中纳入的所有研究在功能上是相同的，并且估计的是一个共同的(固定的)治疗效果[74，91］．也就是说，没有真正的差异;所有可能影响观察到的效应量的因素，如干预的性质(如技术的复杂程度、数据传输的频率、家访和教育支持)，在所有研究中在功能上是相同的。因此，研究结果中任何观察到的研究间差异(即统计异质性)仅归因于抽样误差。另一方面，随机效应MA是基于这样一个前提:在纳入的HT研究中，观察到的治疗效果估计值并不相同，而是遵循某种分布。也就是说，由于真正的差异(例如，干预的性质)以及抽样可变性(机会)，它们在不同的研究中有所不同。研究可能在参与者的组合(例如，严重程度的阶段)、质量或干预的实施等方面有所不同。因此，每项研究都在估计不同的潜在影响。因此，固定效应MA提供了对“一般”治疗效果的估计，而随机效应MA产生的总结结果则提供了对“平均”治疗效果的估计[74，90］．同样需要注意的是，从统计学角度来看，当研究间方差(统计异质性)为0%时，随机效应分析被减少，并与固定效应分析重合，无论如何都显示出相似的效应。然而，在研究间存在异质性的情况下，固定效应元分析比随机效应元分析提供了过于精确的汇总结果，且置信区间较窄[90］．正如我们接下来所介绍的，这可能会导致虚假的较低水平的统计显著性的总结效果，并可能错误地暗示存在“共同”的治疗效果，而在现实中，各个研究的治疗效果确实存在差异[79，90］．

我们的评估显示，随机效应模型有利于更广阔的前景，因为它总结了各研究的干预效果分布，似乎是HT干预的MAs中最可取的统计模型。的确，从临床角度来看，固定效应模型的“一刀切”方法似乎很难被证明是正确的。在大多数情况下，HT干预的参与者和背景特征在许多实际方面存在差异，这可能会对结果产生影响[22］．在所有纳入的试验中，HT研究中的效应修正因素(如技术、患者、项目特征和偏倚风险)在功能上完全相同或相等是不可能的。在过去的15年里，HT和常规治疗都发生了巨大的变化，这些时间上的变化可能影响了纳入试验的结果，导致更大的异质性。尽管如此，心力衰竭的2个MAs [28，31]应用了固定效应模型，尽管试验之间的功能差异和适度(如，I²>30%)到实质性(例如，I²>75%)观察到的效果存在统计学异质性。使用固定效应模型而不是随机效应模型影响了他们的结果，因为它产生了更紧密的置信区间，而且HT效应的统计显著性水平低得离谱。具体而言，在Cochrane综述中，使用固定效应模型对所有原因住院的效应估计显示出统计学上显著的(P=.02)降低9%有利于HT (RR 0.91, 95% CI 0.84-0.99)。而随机效应模型产生了一个不显著的(P=.22)相同量级的效应量，置信区间较宽(RR 0.91, 95% CI 0.78-1.06)，平均反映了HT正向效应背后的不确定性。类似地，Clarke等人的MA [28]，使用固定效应模型对死亡率的效应估计显示显著(P=.02)死亡率比HT降低23% (RR 0.77, 95% CI 0.61-0.97)。然而，随机效应模型产生了一个更保守和不显著的(P =.30)效应量平均为17%，置信区间更宽(RR 0.83, 95% CI 0.58-1.19)，这再次反映了HT的潜在效应在所有患者和背景下可能并不总是积极的。考虑到这2个ma中包含的HT试验的临床和方法学差异，固定效应模型的使用似乎是违反直觉的，导致其选择的先验假设应该被重新审视，特别是在检测到统计异质性之后[74］．未来HT干预的MAs应符合方方法指南，并明确描述用于在固定效应和随机效应元分析之间进行选择的基本原理和标准。此外，当使用随机效应方法时，应将合并结果适当地解释为HT干预的“平均”效应[90，91]，正如其中一个MAs所做的那样[34]。

限制

如果我们将批判性审查方法应用到我们自己的审查中，我们意识到在评估纳入的sr和ma的方法学质量的过程中面临着许多挑战，这可能反过来影响了我们的发现。首先，我们的评估是根据每次评审中明确或含蓄地报告的信息进行的。因此，在所有偏倚评估的方法学质量或风险中，评估者所作判断的准确性在很大程度上依赖于审查报告的充分性。有可能作者进行了更严格的审查。然而，他们意识到期刊对篇幅的限制，并考虑到报告其综述的主要发现的竞争要求，他们可能已经决定省略一些被认为是微妙或不太重要的方法信息。也有可能是同行评审过程本身导致了文本的缩写，以满足空间的限制。为了缓解这一问题，对未来评审的一项建议是在电子版本中提供关于评审方案的基本细节，这是目前一些同行评审期刊的做法，以帮助理解所考虑的系统评审过程。另一方面，有兴趣在HT领域发表高级论文和硕士论文的同行评议期刊应该为发表在线补充材料腾出空间，并采取适当的机制，一旦发现错误或其他重要缺陷，就可以标记之前工作中的问题，并允许对其进行更正[24］．此外，研究界必须准备好验证评审结果，以便在必要时纠正它们，并且结果必须以有利于这一过程的方式发表[24］．我们进行了事后分析，发现在发表收录评论的16种期刊中，有10种(63%)允许发表在线附录，但只有3种评论提供了附录或补充文件。

其次，值得注意的是，我们评估的结果仅限于满足方法部分中描述的纳入标准的综述。虽然我们的文献检索发现了几篇关注HT干预对各种慢性疾病患者的有效性的“叙述性综述”，但当这些综述不被自认为是系统性的或不具有SR或MA的基本属性时，它们被排除在我们的研究之外。正如R-AMSTAR仪器和我们的分析所反映的那样，这种严格的选择过程可能导致了对HT综述方法学质量的高估。同样被排除在外的还有一些综述，这些综述对HT干预措施以及各种其他“远程监测”干预措施(例如，结构化电话支持和独立视频咨询)提供了全面和混合的概述，但在结果分析中没有对它们进行明确区分。因此，我们的发现不能推广到HT是远程患者监测的许多其他多学科干预措施之一的综述中，尽管大多数人都同意强调的方法缺陷具有显著的相关性，并且也适用于这些综述。

结论

这项研究是首次尝试评估HT干预之前的sr和ma的整体质量。用于识别相关综述的搜索策略的全面性，与研究选择、数据提取和质量评估相关的重复过程，以及提供进行深入质量评估能力的验证工具的使用，是本研究方法学合理性的关键指标。

在过去十年中，HT领域发表的sr和ma的数量大幅增加，为广泛的卫生保健利益相关者提供了广泛的“大规模证据”基础，这些证据来自综合了HT对慢性疾病患者的临床、行为、结构和经济影响的多项初步研究。然而，尽管已经开发了重要的知识体系，但付款人和护理提供者的广泛接受以及HT作为一种有效的患者管理方法的整合仍然存在问题。这主要是因为现有的知识库仍然表现出几个重要的方法上的弱点和研究差距。

最重要的是，我们的关键评估显示，现有HT干预措施的sr和ma的总体质量和严密性变化很大，没有随着时间的推移而改善的迹象。大量的综述包含一些常见的方法缺陷，损害了其内部有效性，限制了其在临床、教育、研究和政策目的上的有用性。因此，关于HT对慢性疾病管理有效性的一系列问题仍未得到解答，包括哪种是病例管理和远程监测的最理想和最有效的组合，哪种行为改变技术和模式最有效，干预措施的有效性是否受到参与者人口统计和环境的影响，以及从经济角度来看HT是否是一种有效和可行的解决方案。因此，我们建议未来在这一领域的审查通过严格遵守现有的方法指南来提高其整体严谨性以及报告方面。更准确地说，它们至少应该包括以下要素:(1)明确陈述研究问题，明确描述患者群体、干预措施、比较干预措施和结果;(2)全面、明确的搜索策略;(3)正式评估主要研究的有效性(即偏倚风险评估)，并适当尝试探索具有高偏倚风险的研究对HT估计效果的影响;(4)更严格的数据综合方法，对所使用的技术或统计数据进行透明的描述和证明。

总之，我们希望这项研究将有助于提高HT领域的sr和ma的整体质量，以及更广泛的远程医疗领域，通过帮助作者最大限度地减少偏见的各种风险和避免以前的方法缺陷。尽管如此，我们认为在HT领域建立更严格和更有力的证据需要研究人员、临床医生、资助者、期刊编辑和同行评议者付出前所未有的努力。这些努力包括但不限于让具有临床和方法学专业知识的个人参与sr和ma的进行;对期刊发表的一般说明的修订，包括具体的指南或方法和报告建议的链接;在同行评审过程中，有经验和知识的个人参与sr和ma的方法;采用机制，允许在线出版材料的更新或更正，以解决出版后发现的重要缺陷甚至错误。

致谢

感谢加拿大研究主席计划为这项研究提供财政支持。

利益冲突

没有宣布。

‎

多媒体附件1

排除文章列表。

PDF档案(adobepdf档案)，29KB

‎

多媒体附件2

对每个综述的方法学严谨性进行R-AMSTAR评估。

PDF档案(adobepdf档案)，409KB

‎

多媒体

心力衰竭患者家庭远程监护干预的系统综述和荟萃分析的引文分析。

PDF档案(adobepdf档案)，627KB

世界卫生组织。2010年全球非传染性疾病状况报告:非传染性疾病的全球负担、风险因素和决定因素说明瑞士日内瓦:世界卫生组织;2011:1 - 176。
Mathers CD, Loncar D. 2002 - 2030年全球死亡率和疾病负担预测。PLoS Med 2006 11月;3(11):e442 [免费全文] [CrossRef] [Medline］
Shaw JE, Sicree RA, Zimmet PZ。2010年和2030年全球糖尿病患病率估计数。糖尿病临床研究2010年1月;87(1):4-14。［CrossRef] [Medline］
远程监护的现状:文献评论。telmemee Health 2005 Feb;11(1):63-69。［CrossRef] [Medline］
Paré G, Poba-Nzaou P, Sicotte C.慢性疾病管理的家庭远程监测:经济评估。国际卫生技术评估杂志2013年4月29日(2):155-161。［CrossRef] [Medline］
李志强，李志强。心衰患者的远程医疗与远程管理。《柳叶刀》2011年8月20日;378(9792):731-739。［CrossRef] [Medline］
Roine R, Ohinmaa A, Hailey D.评估远程医疗:文献的系统回顾。CMAJ 2001 Sep 18;165(6):765-771 [免费全文] [Medline］
钱恩E，格芬M，戈登D.一项由加拿大健康资讯网委托进行的研究。远程医疗福利和采用-连接加拿大各地的人们和提供者网址:https://www.infoway-inforoute.ca/index.php/component/docman/doc_download/188-avantages-et-adoption-de-la-telesante-rapport-complet[访问2013-07-11][WebCite缓存］
施特罗特曼KA，阿尔特曼J，施特罗特曼VN。最后一份欧洲进展报告:欧洲委员会一般信息社会和媒体理事会，信息和通信技术促进保健股。欧洲国家迈向国家电子卫生基础设施的历程网址:http://www.ehealth-strategies.eu/report/eHealth_Strategies_Final_Report_Web.pdf[访问2013-07-11][WebCite缓存］
Darkins A, Ryan P, Kobb R, Foster L, Edmonson E, Wakefield B，等。护理协调/家庭远程医疗:系统地实施健康信息学、家庭远程医疗和疾病管理，以支持老年慢性病患者的护理。telmemed E Health 2008 12月;14(10):1118-1126。［CrossRef] [Medline］
Cartwright M, Hirani SP, Rixon L, Beynon M, Doll H, Bower P，整个系统演示评估小组。远程医疗对12个月生活质量和心理结果的影响(全系统演示远程医疗问卷研究):在一项实用的、聚类随机对照试验中，对患者报告的结果进行嵌套研究。英国医学杂志2013;346:f653 [免费全文] [Medline］
Palmer M, Steffen C, Iakovidis I, Giorgio F.欧盟委员会视角:远程医疗造福患者。慢性病管理和远程患者监测。卫生保健系统与社会，欧洲卫生2009;15(1):13-15。
欧洲委员会。关于远程医疗为患者、医疗保健系统和社会带来的利益。2008.URL:http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=COM:2008:0689:FIN:EN:PDF[访问2013-07-11][WebCite缓存］
Cook DJ, Mulrow CD, Haynes RB。系统评价:综合临床决策的最佳证据。安实习医学1997年3月1日;126(5):376-380。［Medline］
系统评价的基本原理。英国医学杂志1994 9月3日;309(6954):597-599 [免费全文] [Medline］
李利提，陈志强，陈志强，陈志强，等。PRISMA用于报告评估卫生保健干预研究的系统回顾和元分析的声明:解释和阐述。PLoS Med 2009 7月21日;6(7):e1000100 [免费全文] [CrossRef] [Medline］
莫赫D，泰兹拉夫J，崔科AC，桑普森M，阿尔特曼DG。系统综述的流行病学和报告特征。PLoS Med 2007 3月27日;4(3):e78 [免费全文] [CrossRef] [Medline］
Jadad AR, Moher M, Browman GP, Booker L, Sigouin C, Fuentes M，等。哮喘治疗的系统回顾和荟萃分析:关键评价。英国医学杂志2000 Feb 26;320(7234):537-540 [免费全文] [Medline］
潘建伟，王志强，王志强。正畸学系统综述的方法和质量特点评价。骨科杂志2011年8月;14(3):116-137。［CrossRef] [Medline］
Kelly KD, Travers A, Dorgan M, Slater L, Rowe BH。评价急诊医学文献系统综述的质量。Ann急诊医学2001 11月;38(5):518-526。［CrossRef] [Medline］
MacDonald SL, Canfield SE, Fesperman SF, Dahm P. 1998 - 2008年泌尿学文献系统综述的方法学质量评估。中华泌尿外科杂志，2010年8月;19(2):648-653。［CrossRef] [Medline］
Gurné O, Conraads V, Missault L, Mullens W, Vachierys JL, Van Mieghem W，比利时心力衰竭工作组。心脏衰竭远程监护的关键综述。中国心血管病杂志2012 8月;67(4):439-444。［Medline］
Casas JP, Kwong J, Ebrahim S.慢性心力衰竭的远程监护:还没有准备好黄金时间。Cochrane数据库系统Rev 2011;2011:ED000008。［CrossRef] [Medline］
森SJ。夸大证据:元分析中的重复计算和相关问题。BMC medical Res methodo2009;9:10 [免费全文] [CrossRef] [Medline］
格林S，希金斯JPT，奥尔德森P，克拉克M，穆罗CD，奥克斯曼AD。介绍。进:希金斯JP，格林S，编辑。科克伦干预系统评价手册。新泽西州:John Wiley & Sons, Ltd;2008:1-9。
Chaudhry SI, Phillips CO, Stewart SS, Riegel B, Mattera JA, Jerant AF，等。慢性心力衰竭患者的远程监护:一项系统综述。J Card Fail 2007 Feb;13(1):56-62 [免费全文] [CrossRef] [Medline］
Clark RA, Inglis SC, McAlister FA, Cleland JG, Stewart S.慢性心力衰竭患者远程监护或结构化电话支持计划:系统回顾和荟萃分析。英国医学杂志2007年5月5日;334(7600):942 [免费全文] [CrossRef] [Medline］
充血性心力衰竭患者远程监护研究的系统综述:荟萃分析。中国药学杂志，2011;17(1):7-14。［CrossRef] [Medline］
陈志伟，陈志伟，陈志伟，等。家庭远程健康监护在老年心力衰竭患者中的应用。Telemed E Health 2009 10月;15(8):783-796。［CrossRef] [Medline］
Giamouzis G, Mastrogiannis D, koutakis K, Karayannis G, Parisis C, Rountas C，等。慢性心力衰竭的远程监护:一项系统综述。心脏健康指标2012;2012:410820 [免费全文] [CrossRef] [Medline］
Inglis SC, Clark RA, McAlister FA, Ball J, Lewinter C, Cullington D，等。为慢性心力衰竭患者提供结构化的电话支持或远程监护计划。Cochrane数据库系统版本2010(8):CD007228。［CrossRef] [Medline］
Louis AA, Turner T, Gretton M, Baksh A, Cleland JGF。远程监护在心力衰竭治疗中的系统回顾。欧洲心脏衰竭杂志2003年10月;5(5):583-590。［Medline］
Maric B, Kaan A, Ignaszewski A, Lear SA。心脏衰竭远程监护技术的系统综述。欧洲心脏衰竭杂志2009年5月;11(5):506-517。［CrossRef] [Medline］
李文杰，陈文杰，李文杰，等。充血性心力衰竭的家庭远程监护:系统回顾和荟萃分析。遥感学报2010;16(2):68-76。［CrossRef] [Medline］
心脏衰竭远程监护与常规护理的成本比较:一项系统综述。telmed E Health 2008 9月14日(7):679-686。［CrossRef] [Medline］
张志刚，张志刚，张志刚。血压远程监测对高血压预后的影响:一项文献综述。telmed J E Health 2010 9月16日(7):830-838。［CrossRef] [Medline］
Jaana M, Paré G, Sicotte C.高血压家庭远程监护:当前证据和对未来研究的建议。疾病管理与健康结果2007;15(1):19-31。
Omboni S, Guarda a .家庭血压远程监测和血压控制的影响:随机对照研究的荟萃分析。2011年9月24日(9):989-998。［CrossRef] [Medline］
Verberk WJ, Kessels AG, Thien T.， Telecare是高血压管理的有价值的工具，系统综述和荟萃分析。血压计监测2011 6月;16(3):149-155。［CrossRef] [Medline］
Bolton CE, Waters CS, Peirce S, Elwyn G, EPSRC和MRC大挑战团队。益处证据不足:对COPD家庭远程监护的系统回顾。中华临床医学杂志2011年12月17日(6):1216-1222。［CrossRef] [Medline］
Cox NS, Alison JA, Rasekaba T, Holland AE。囊性纤维化的远程医疗:一项系统综述。《远程通信杂志》2012年3月18日(2):72-78。［CrossRef] [Medline］
慢性阻塞性肺疾病(COPD)患者的家庭远程医疗:一项循证分析。安大略省卫生技术评估组2012;12(11):1-58 [免费全文] [Medline］
Jaana M, Paré G, Sicotte C.呼吸疾病的家庭远程监护:系统综述。Am J Manag Care 2009年5月;15(5):313-320 [免费全文] [Medline］
Farmer A, Gibson OJ, Tarassenko L, Neil A.远程医疗干预支持糖尿病血糖自我监测的系统综述。糖尿病医学2005 Oct;22(10):1372-1378。［CrossRef] [Medline］
Jaana M, Paré G.糖尿病患者的家庭远程监护:观察效果的系统评估。中华临床医学杂志2007年4月13(2):242-253。［CrossRef] [Medline］
医疗咨询秘书处。2型糖尿病的家庭远程监护:一项循证分析。安大略省卫生技术评估，2009年第9(24):1-38 [免费全文] [Medline］
Montori VM, Helgemoe PK, Guyatt GH, Dean DS, Leung TW, Smith SA，等。1型糖尿病和血糖控制不足患者的远程护理:一项随机对照试验和荟萃分析。糖尿病护理2004 5月;27(5):1088-1094。［Medline］
Paré G, Moqadem K, Pineau G, St-Hilaire C.家庭远程监护在糖尿病、哮喘、心力衰竭和高血压患者中的临床效果:一项系统综述。中国医学杂志，2010;12(2):e21 [免费全文] [CrossRef] [Medline］
Paré G, Jaana M, Sicotte C.慢性疾病家庭远程监护系统综述:证据基础。中国医学信息杂志2007;14(3):269-277 [免费全文] [CrossRef] [Medline］
英格利斯SC，克拉克RA，麦卡利斯特FA，斯图尔特S，克莱兰JG。心力衰竭治疗的哪些部分是有效的?结构化电话支持或远程监护作为8323例慢性心力衰竭患者管理的主要组成部分的结果的系统回顾和荟萃分析:精简Cochrane综述。欧洲心脏衰竭杂志2011年9月13日(9):1028-1040。［CrossRef] [Medline］
龚杰，张志强，张志强，张志强，等。从循证卫生保健的系统评价到临床建议:临床相关性分级的多重系统评价修订评估(R-AMSTAR)的验证。Open Dent J 2010; 4:14 -91 [免费全文] [Medline］
Moher D, Liberati A, Tetzlaff J, Altman DG, PRISMA Group。系统评价和元分析的首选报告项目:PRISMA声明。PLoS Med 2009 7月21日;6(7):e1000097 [免费全文] [CrossRef] [Medline］
惠洛克EP，林JS，周R，谢克尔P，罗宾逊KA。在复杂的系统评价中使用现有的系统评价。安实习医学2008年5月20日;148(10):776-782。［CrossRef] [Medline］
杜布瑞，李志强，李志强，等。一项针对伦敦西北部典型老年心力衰竭人群的家庭远程监测随机试验:home - hf研究结果欧洲心脏衰竭杂志2009 march;11(3):319-325 [免费全文] [CrossRef] [Medline］
Atkins D, Best D, Briss PA, Eccles M, Falck-Ytter Y, Flottorp S, GRADE工作组。证据的分级质量和推荐的强度。英国医学杂志2004 6月19日;328(7454):1490 [免费全文] [CrossRef] [Medline］
Jüni P, Altman DG, Egger M.卫生保健中的系统评价:评估对照临床试验的质量。BMJ 2001 july 7;323(7303):42-46 [免费全文] [CrossRef] [Medline］
评论和传播中心。对有效性研究进行系统评价。约克:约克大学;2001.
希金斯JPT，奥特曼DG。纳入研究的偏倚风险评估。进:希金斯JP，格林S，编辑。科克伦干预系统评价手册。新泽西州:John Wiley & Sons, Ltd;2008:187 - 241。
Downs SH, Black N.为评估卫生保健干预的随机和非随机研究的方法学质量创建检查表的可行性。中华流行病学杂志1998年6月;52(6):377-384 [免费全文] [Medline］
Jadad AR, Moore RA, Carroll D, Jenkinson C, Reynolds DJ, Gavaghan DJ，等。评估随机临床试验报告的质量:盲法有必要吗?对照临床试验1996 Feb;17(1):1-12。［CrossRef] [Medline］
Hailey D, Ohinmaa A, Roine R.远程医疗近期评估的研究质量和益处证据。遥感学报2004;10(6):318-324。［CrossRef] [Medline］
Jovell AJ, Navarro-Rubio MD.科学证据评估。中华医学杂志1995年12月2日;19(2):740-743。［Medline］
Ioannidis JP, Patsopoulos NA, Rothstein HR。在森林小区中避免元分析的原因或借口。英国医学杂志2008年6月21日;336(7658):1413-1415 [免费全文] [CrossRef] [Medline］
huedomedina TB, Sánchez-Meca J, Marín-Martínez F, Botella J.评估meta分析的异质性:Q统计量还是I2指数?心理方法2006 6月;11(2):193-206。［CrossRef] [Medline］
Rücker G, Schwarzer G, Carpenter JR, Schumacher M.在评估异质性时过度依赖I(2)可能会产生误导。BMC medical Res methodo2008;8:79 [免费全文] [CrossRef] [Medline］
希金斯JP，汤普森得分后卫。在元分析中量化异质性。统计医学2002年6月15日;21(11):1539-1558。［CrossRef] [Medline］
希金斯JP，汤普森得分后卫，迪克斯JJ，阿尔特曼DG。测量元分析中的不一致性。英国医学杂志2003年9月6日;327(7414):557-560 [免费全文] [CrossRef] [Medline］
Deeks JJ, Higgins J, Altman DG。分析数据并进行元分析。进:希金斯JP，格林S，编辑。科克伦干预系统评价手册。新泽西州:John Wiley & Sons, Ltd;2008:243 - 296。
王晓明，王晓明，王晓明。meta分析中异质性估计的不确定性。英国医学杂志2007 11月3日;335(7626):914-916 [免费全文] [CrossRef] [Medline］
埃尼迪斯JP。meta分析中异质性和偏倚检验的解释。中华临床医学杂志2008年10月;14(5):951-957。［CrossRef] [Medline］
王晓明，王晓明，王晓明。meta分析中异质性估计的不确定性。英国医学杂志2007 11月3日;335(7626):914-916 [免费全文] [CrossRef] [Medline］
HETEROGI:在元分析中量化异质性的Stata模块[计算机程序]。修订版本2006年1月25日:统计软件组件S449201，波士顿学院经济系;2005.URL:http://econpapers.repec.org/software/bocbocode/s449201.htm[访问2013-07-16][WebCite缓存］
索伦德·K, Imberger G, Johnston BC, Walsh M, Awad T, Thabane L，等。大型荟萃分析中异质性(I2)估计的演变及其95%置信区间。PLoS One 2012;7(7):e39471 [免费全文] [CrossRef] [Medline］
鲍伦斯坦M，赫奇斯L，希金斯J，罗斯坦H.元分析导论。新泽西州霍博肯:John Wiley & Sons Inc;2009.
奥尔蒂斯几内亚A，韦伯斯特J，斯台普斯DS。虚拟性对团队功能影响的元分析。信息与管理2012 10月;49(6):301-308。［CrossRef］
Green BB, Cook AJ, Ralston JD, Fishman PA, Catz SL, Carlson J，等。家庭血压监测、网络交流和药师护理对高血压控制的有效性:一项随机对照试验中国医学杂志2008年6月25日;299(24):2857-2867 [免费全文] [CrossRef] [Medline］
Terrin N, Schmid CH, Lau J.在漏斗图的实证评估中，研究人员无法从视觉上识别发表偏倚。中华临床流行病学杂志2005年9月58(9):894-901。［CrossRef] [Medline］
刘杰，李志强，李志强，李志强。漏斗图的研究进展。英国医学杂志2006 9月16日;333(7568):597-600 [免费全文] [CrossRef] [Medline］
Kavvoura FK, Ioannidis JP。遗传关联研究中的元分析方法:对其潜力和缺陷的回顾。Hum Genet 2008 Feb;123(1):1-14。［CrossRef] [Medline］
Choi PT, Halpern SH, Malik N, Jadad AR, Tramèr MR, Walder B.检查麻醉文献中的证据:系统综述的批判性评价。Anesth Analg 2001 Mar;92(3):700-709 [免费全文] [Medline］
Cochrane协作网。进:希金斯JP，格林S，编辑。科克伦干预系统评价手册。英国奇切斯特:John Wiley & Sons, Ltd;2008.
Egger M, Zellweger-Zähner T, Schneider M, Junker C, Lengeler C, Antes G.英语和德语发表的随机对照试验中的语言偏差。《柳叶刀》1997年8月2日;350(9074):326-329。［CrossRef] [Medline］
Grégoire G, Derderian F, Le Lorier J.在荟萃分析中选择出版物的语言:是否存在巴别塔偏见?临床流行病学杂志1995年1月;48(1):159-163。［CrossRef] [Medline］
Egger M, Juni P, Bartlett C, Holenstein F, Sterne J.综合文献检索和试验质量评估在系统综述中有多重要?实证研究。卫生技术评估2003;7(1):1-76 [免费全文] [Medline］
Moher D, Pham B, Jones A, Cook DJ, Jadad AR, Moher M，等。随机试验报告的质量是否影响荟萃分析中报告的干预疗效估计?《柳叶刀》1998年8月22日;52(9128):609-613。［CrossRef] [Medline］
Schulz KF, Chalmers I, Hayes RJ, Altman DG。偏见的经验证据。对照试验中与治疗效果估计相关的方法学质量维度。美国医学杂志1995年2月1日;273(5):408-412。［Medline］
李文杰，李志强，李志强，等。系统评论中叙述综合的指导。ESRC方法程序版本1的一个产品。2006.URL:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.178.3100&rep=rep1&type=pdf
张志刚，张志刚，张志刚，张志刚，等。系统综述中叙述综合行为的测试方法学指导:促进烟雾报警器所有权和功能的干预有效性。评价2009年1月1日;15(1):49-73。［CrossRef］
李志强，李志强，李志强，等。叙述综合的测试方法发展:烟雾警报干预措施实施研究的示范回顾。证据与政策:研究、辩论与实践杂志2007年8月1日;3(3):361-383。［CrossRef］
赖利RD，希金斯JP，迪克斯JJ。随机效应元分析的解释。BMJ 2011; 342: d549。［Medline］
Riley RD, Gates S, Neilson J, Alfirevic Z.在Cochrane妊娠和分娩综述中可以改进统计方法。中国临床流行病学杂志2011年6月;64(6):608-618。［CrossRef] [Medline］

‎

成绩:建议评估、发展和评价的分级

HT:家庭远程控制

马:荟萃分析

皮科:人口，干预，比较，结果

棱镜:系统评价和元分析的首选报告项目

QUOROM:元分析报告的质量

R-AMSTAR:多次系统评价的修订评估

个随机对照试验:随机对照试验

SR:系统综述

G·艾森巴赫(G Eysenbach)编辑;提交13.06.13;N Armfield, M Malliarou的同行评议;对作者05.07.13的评论;修订版本收到10.07.13;接受10.07.13;发表23.07.13

这是一篇开放获取的文章，根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

慢性疾病患者家庭远程监护干预的系统回顾和元分析:其方法学质量的关键评估

慢性疾病患者家庭远程监护干预的系统回顾和元分析:其方法学质量的关键评估

审查

通讯作者:

摘要

关键字

简介

方法

纳入和排除标准

概述

研究类型

患者类型和干预措施

结果

搜索策略

相关评论的选择

信息提取

方法学质量评估

结果

检讨简介

综述的方法学质量

先验设计(Q1)

重复研究选择和数据提取(Q2)

搜索的全面性(第三季)

纳入灰色文献(第四季)

所提供的纳入和排除研究(Q5)

纳入研究的特点(Q6)

初级研究的质素评估(Q7)

纳入研究在制定结论时适当使用的科学质量(Q8)

结合研究结果所用方法的适当性(问题九)

发表偏倚(Q10)

利益冲突(问题11)

讨论

主要研究结果

搜索策略

HT研究纳入的差异

纳入研究的质量评估

数据综合方法的选择与论证

研究的定性综合

在meta分析中测量HT效应的不一致性

固定效应和随机效应元分析之间的选择

限制

结论

致谢

利益冲突

多媒体附件1

多媒体附件2

多媒体

参考文献

缩写