这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
在远程医疗和电子保健领域内,越来越多的研究被设计为非劣性研究,旨在表明远程医疗/电子保健解决方案并不亚于传统治疗病人的方式。
目的是回顾和总结非劣效性研究在该领域的现状,描述这种方法的优势和缺陷。
根据定义的标准搜索PubMed,从2008年6月至2011年6月期间确定了16篇相关文章。
大多数研究与精神病学和急诊医学领域有关,大多数发表在与这些领域有关的期刊或一般科学或一般医学期刊上。所有的研究都声称是非劣效性研究,但16项研究中有7项测试了统计差异作为非劣效性的代理。
这些研究的方法质量各不相同。我们讨论了远程医疗和电子健康领域内未来非劣效性研究的最佳程序,以及这种方法最合适的情况。
在远程医疗和电子保健领域,往往需要证明一种新的解决方案/应用在治疗质量或疗效方面与传统或既定的治疗方法相同。证明新解决方案在治疗质量或疗效方面的优越性并不总是必要的,因为远程医疗/电子保健解决方案/应用程序可能具有其他类型的优势,包括节省旅行时间或节省成本。因此,在许多情况下,测试新解决方案不比传统解决方案差似乎就足够了。从这一推理思路可以预料到,在远程医疗和电子保健领域内发表的研究越来越多,这些研究采用了非劣性设计,即旨在表明新的远程医疗解决方案的质量并不比现有治疗病人的方法低。
在本研究中,我们对已发表的文献进行了系统回顾,发现16项研究[
审查旨在遵循PRISMA声明中概述的标准[
要理解一个无关紧要的结果究竟意味着什么,一个很好的起点是考虑天文学家卡尔·萨根的名言:“缺乏证据并不是缺乏证据”[
考虑一个实验,我们评估一种基于视频的远程医疗服务t。我们决定测试这种服务是否优于传统的临床治疗c。为了简单起见,我们只关注一个方面,即患者的血糖水平。
我们做单面
理解这一点最简单的方法是,通过减少参与者的数量,我们更有可能得到一个无关紧要的结果。很明显,参与者数量的减少并没有使群体更加平等。这只会导致研究的质量较低,也就很难发现新的服务是否更好。
在试验中包括更多的人将增加发现优势的机会(如果存在的话)。然而,每当我们最终得到一个无关紧要的结果时,我们仍然面临着萨根的观察,即证据的缺失并不是证据的缺失。
如果最终目标是证明服务T不比服务C差,那么达到这个目的的唯一方法是首先定义“劣”的含义。请注意,“自卑”是一个经验定义。当在医学试验中比较两组时,我们永远不会得到完全相同的结果,我们定义的边际值应该基于临床对有意义的边际值的考虑,而不是基于我们衡量它们的能力。
因此,在非劣效性试验中,我们首先定义低于C的边界(M)被视为非劣效性。如何设置这个边距在“方法”中讨论。然后我们继续测试T是否真的优于这个边缘。
在确保新仿制药获得批准的过程中,等效性测试已成为一项必不可少的统计工具[
正如引言中所描述的,优越性测试失败不足以得出非劣效性的原因有很多,其中一个原因是样本太小
为了证明
边际(M)的设置必须在试验开始时完成,在临床试验中,边际(M)应与专家发现的临床相关性相关。韦勒克(
然而,不仅C和T之间的差异与设置m相关。裕度的设置还必须以一种方式进行,即保留一定量的主动对照对非治疗/安慰剂(C- p)的实际效果。在生物医学中,人们讨论了M相对于C-P的小到什么程度,并提到了介于50-80%之间的值[
在一个普通的试验中,一个显著的结果确实自动证明了发现差异的能力——通常称为试验的能力
综上所述,以下因素在非劣效性试验中至关重要:
1.寻找m.m的临床相关定义应独立于方差和样本量等因素。虽然有人建议M可以在C的10-20%之间,但这需要为每个项目单独设置,并且必须在试验前完成。临床上认为M应该更低并不是错误。
2.确保M保留了主动控制与不处理之间的主要作用。M值应至少为C-P的50%。
3.通过加入安慰剂或利用历史数据来确保检测灵敏度。
是否有可能找到M的正式测定,以及是否有可能使用历史数据来证明分析敏感性,这两个问题仍然在统计学家中热烈讨论[
纳入标准为应用公认的远程医疗或电子医疗定义的英文文章[
为了在文章标题或摘要中没有明确定义为远程医疗或电子保健的交叉领域中纳入特定的技术渠道(如视频会议、互联网)。检索结束后,对文章进行手动扫描,排除不符合纳入标准的文章。18篇文章被排除在外,因为它们显然与远程医疗或电子保健无关(在大多数情况下,这是由于带有“视频”或“互联网”字样的摘要造成的)。另外一篇文章被排除在外,因为主要文章只有日文,另一篇文章被排除在外,因为它只提到了其他非劣效性试验的摘要。剩下16篇文章供进一步分析(
在收录的文章中,2008年3篇,2009年3篇,2010年5篇,2011年5篇(截至2011年6月)。在2008年之前没有符合纳入标准的文章发表。
策略流程图。
查询条件说明。
|
(不劣或不劣或不劣或(“不劣”)或(“不劣”))和(远程医疗[标题/摘要]或视频会议[标题/摘要]或视频[标题/摘要]或视频会议[标题/摘要]或在线[标题/摘要]或互联网[标题/摘要]或电子健康[标题/摘要]或电子健康[标题/摘要]) |
在对这些文章的回顾中,两位审稿人(作者1和作者2)确定了非劣性边界是如何设置的以及设置非劣性边界的原因。他们还注意到是否进行了实际的非劣效性测试,或者是否进行了差异测试。最后,他们记录了如何保证检测灵敏度。
纳入的文章中有6篇涉及精神治疗(创伤后应激障碍、广泛性焦虑障碍、抑郁症),4篇涉及特别与急诊医学相关的医疗程序(血管通路、除颤、高级生命支持),1篇涉及泌尿学领域,1篇涉及术后康复,1篇涉及内分泌学,1篇涉及血液学,2篇涉及医学传播学。就论文发表地点而言,只有一篇发表在远程医学杂志上,五篇发表在急诊医学杂志上,两篇发表在精神病学杂志上,一篇发表在骨科外科杂志上,一篇发表在内分泌学杂志上,六篇发表在一般科学或一般医学杂志上。
在这16篇被回顾的文章中,使用了各种定义劣缘的方法(
在一篇文章中[
两项研究提到了参照组得分置信区间的下限。其中之一[
在其余四项研究中[
五篇文章[
在一篇文章中[
一篇文章[
在其余文章中[
另一个问题是,是否确实进行了非劣效性测试,即是否测试了目标效应大于非劣效性边际。这可以通过检查均数差的整个置信区间是否高于非劣性边缘或通过计算a来实现
其中九篇文章[
其中七篇文章[
其中四项研究[
在[
文章包括在审查。
|
|
|
|
Agha等人,2009 [ |
0.15 SD | 科恩指导 | 非 |
陈金等人,2008 [ |
均值的10% | 临床+既往研究 | 区别 |
德弗里斯等人,2010 [ |
科恩的 |
定义 | 非 |
Harper & Pollock, 2011 [ |
不清楚:a) 5%以内,b)下限95% CI | 没有给出原因 | 区别 |
Hedman等人,2011 [ |
绝对值+科恩值 |
临床+既往研究 | 非 |
Merchant等人,2009 [ |
均值的10% | 典型的医学试验 | 非 |
Morland等人,2011 [ |
没有设置 | 不相关的 | 区别 |
莫兰等人,2010 [ |
绝对值 | 临床 | 非 |
Morland等人,2009 [ |
绝对值 | 临床+既往研究 | 非 |
Mpotos等人,2011 [ |
10个百分点的比例差异 | 没有给出原因 | 非 |
芒格等人,2008 [ |
RR = 0.95 | 没有给出原因 | 非 |
Péres-Ferre等,2010 [ |
没有设置 | 没有给出原因 | 区别 |
罗宾逊等人,2010 [ |
没有设置 | 不相关的 | 区别 |
罗素等人,2011 [ |
绝对值 | 临床 | 非 |
Titov等,2010 [ |
没有设置 | 不相关的 | 区别 |
Weeks & Molsberry, 2008年[ |
下界90% CI | 没有给出原因 | 区别 |
正如结果所示,非劣效性试验的执行方式存在相当大的差异。列入的16篇文章应该包括大多数声称是远程医疗和电子健康领域内的非劣效性试验的研究,但一些未被PubMed索引的研究可能被遗漏了。虽然这种学习方法似乎越来越受欢迎,但它仍处于起步阶段。目前大多数非劣效性试验的应用都是在生物医学领域,正如我们所展示的,只有少数例子用于远程医疗和电子健康领域。虽然生物医学中的非劣效性试验可以作为一种启发,但各领域之间的差异使得很难复制生物医学试验中使用的方法。下面,我们将讨论非劣效性试验的一些核心要素,以及它们如何应用于远程医疗和电子健康的研究。
为了证明某物是相等的或不劣的,我们需要定义什么是相等或非劣的。这主要是一个临床问题,主要应该由该领域的专家进行评估。参考了一些非常粗略的指导方针,在文献中,10-20%的值似乎被认为是相当相等的。临床相关性不能仅由这个值来决定。在某些情况下,10%的差异会产生巨大的影响,而在其他情况下,这个值与临床无关。在我们的综述中,只有5篇文章提到了临床相关性的概念。
还有其他准则指出,应设置边际,以便保留对照(C)和非治疗(P)之间的大部分效果。在不包括非治疗组的试验中,研究人员必须根据以前的试验估计C-P的效果。这不是许多远程医疗/电子健康试验所拥有的奢侈品。
当进行传统的假设检验时,a
在生物医学领域普及非劣效性和平等测试的主要驱动力之一是,它可以在不包括非治疗群体的情况下进行循证医学。在某些情况下,引入安慰剂可能在伦理上是不可接受的。在其他情况下,这主要是节省费用的问题。公平地说,越来越多地使用非劣效性测试和平等测试与所谓的解释性或实用性试验的增长有关,在这些试验中,主要问题不是治疗是否有效,而是治疗是否值得在临床环境中使用。
理想情况下,检测敏感性应由先前的试验或多个先前试验的荟萃分析来证明。很难在远程医疗/电子保健领域复制这种方式的研究,我们的综述中检查的研究都没有这样做。然而,16项研究中有7项确实使用了之前验证过的问卷,在许多情况下,这种替代方法实际上可能已经足够了。
还有四项研究包括安慰剂/无治疗。对于简单地证明检测灵敏度,这是绝对足够的。然而,这有点违背了平等和非劣效性测试的最初目的,即能够在没有安慰剂/无治疗组的情况下进行。
该综述还确定了三项研究,这些研究的文章中没有明确的迹象表明已建立了检测敏感性。然而,作者可能在没有报告的情况下进行了这些程序。
正如分析所显示的那样,在实践中使用非劣效性测试的基本原理可能令人生畏,特别是对于这种类型的分析的新手。我们建议作者密切关注非劣效性测试的扩展CONSORT指南,以确保它们适用于所讨论的研究[
与任何统计分析选择一样,进行非劣效性研究需要严格遵守协议,以避免钓鱼式地获取积极结果,这将极大地影响II型错误的概率。特别是,在研究开始前必须设定非劣效性边际。在调查数据后设置边际意味着调查者基本上可以得到任何想要的结果。同样,如果研究人员进行了标准的优势试验,但发现结果不显著,则该研究绝不应转化为非劣势研究。确定非劣效性的意图必须从一开始就很明确。
当检测敏感性的证据很少时,例如基于很少的研究进行分析,非劣效性检测可能不是最佳选择。检测敏感性对于进行适当的非劣效性研究至关重要,因为如果没有它,研究最终可能证明干预并不比什么都不做差(即没有伤害)。在这种情况下,应该考虑是否另一种类型的设计更合适,例如经济评估。
非劣效性测试显然在远程医疗和电子医疗中占有一席之地。然而,证明某物(如差值)不存在总是比证明它存在要艰巨得多。正如我们在回顾中所讨论的,非劣效性试验并不是解决这一根本挑战的神奇捷径。
虽然这篇综述中包括的几个试验质量很高,但这篇综述也揭示了对进行非劣效性试验的陷阱明显缺乏认识。我们建议更严格地遵守非劣效性测试的基本原则。我们讨论了一些应该特别注意的问题,包括不要将失败的差异试验误认为非劣效性证明的重要性,以及设置临床相关的非劣效性边界的重要性。
这项研究是由PEK构思和设计的。所有作者都分析了数据并撰写了论文。
没有宣布。
这项工作不需要伦理声明。本研究未获得直接资助。在本文写作期间,作者个人都是由他们所在的机构支付薪水的(尽管没有为这篇论文的写作留出或给出具体的薪水)。