这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
减少研究浪费和保护研究参与者免受不必要的伤害应该是研究干预措施的研究人员的首要任务。然而,传统的固定样本量的使用,由于需要先验地确定效应量,使试验面临招募不足和过度招募的风险。一种缓解方法是采用贝叶斯顺序设计,该方法可以在试验期间持续评估现有证据,以决定何时停止招募。确定目标标准,将研究人员的意图编码为被认为是感兴趣的发现,一旦科学问题得到充分解决,试验就会停止。在本教程中,我们将回顾一项数字酒精干预试验,该试验使用了2129名参与者的固定样本量。我们表明,如果使用贝叶斯序列设计,试验可能在收集了大约300名参与者的数据后结束。这将意味着让更少的人参与审判程序,包括被分配到等候名单控制条件,而且审判的证据可以更快地公之于众。
在行为干预试验中,大量的工作通常花费在招募和收集参与者的数据上。向参与者提供干预措施往往会产生额外费用,需要在有限的预算中加以考虑。这些努力和成本需要与研究目标相平衡,因为增加参与者的数量会减少效果评估的不确定性。因此,毫不奇怪,在试验计划过程中,样本量的考虑受到了认真的关注,夹杂着绝望、怀疑,尤其是希望的感觉。
错误地相信零假设检验在其他不确定的情况下提供确定性的影响[
过多或过少招募参与者既昂贵又不道德。
本研究的目的是证明,如果使用贝叶斯序列设计,而不是遵循基于先验功率计算的传统固定样本量,最近完成的数字酒精干预试验将如何发挥作用。我们将表明,参与者被过度过度招募,导致成本和努力浪费,而证据已经在手。
关于贝叶斯统计和序列设计的文献是大量的[
要理解贝叶斯序列设计,至少需要对贝叶斯统计有一个大致的了解。在贝叶斯范式中,人们感兴趣的是估计
后验概率分布是通过将收集到的数据所提供的信息与所谓的
为了说明这一点,
戒烟(长期戒烟和戒烟点流行率)优势比的边际后验分布——比较获得数字戒烟干预的研究参与者与等候名单对照组参与者。
先验分布的例子;(A)均值为2,标准差为1的正态分布;(B)均值为0,SD为1的正态分布;(C)均值为0,SD为0.1的正态分布。
采用贝叶斯序列设计的试验不是以固定的样本量为目标,而是旨在招募足够的参与者,使效应估计的后验分布相对于研究目标具有信息性。例如,在戒烟干预的试验中,我们主要关注的是戒烟的OR,我们可能会决定我们想要显示OR大于1的后验概率至少为89%(或我们发现相对于研究背景足够的任何其他概率)。因此,我们收集数据并不断分析它,直到我们已经减少了足够的不确定性,以便我们可以显示OR大于1,至少有89%的概率。然而,没有必要只有一个目标;更确切地说,当干预似乎无效,继续试验是徒劳的时候,通常包括至少一个额外的目标是合理的。这方面的一个例子是,如果后验概率至少为92%,OR大于0.9且小于1.1(即接近零值)。目标,通常被称为
效果:p (OR > 1 | D) > 89%
无效:p (0.9 < OR < 1.1 | D) > 92%
危害:p (OR < 1 | D) > 89%
需要注意的是,标准的定义应与研究目标、评估标准的环境以及其潜在的益处和危害相关。如果评估外科手术的效果,也许89%的效果概率应该更接近98%的可能性,而伤害的可能性可能应该修改到75%。
为了证明与固定样本量相比,使用贝叶斯顺序设计如何进行试验,我们重新审视了一项数字酒精干预的随机试验[
该试验于2018年11月6日获得了瑞典Linköping地区伦理委员会的伦理批准(DNR 2018/417-31)。
在本教程中,我们将只简要概述试验程序;试验的完整描述见研究方案[
数字干预的核心要素是每周日下午发送给参与者的短信。这条短信包括一个自我监控当前饮酒量的提示,并附有一个网络工具的超链接。那些决定点击链接的人被要求报告他们最近的饮酒情况,然后获得个性化的支持。有关干预措施的更多资料可参阅研究方案[
被分配到对照组的参与者被告知,他们将收到旨在激励他们更多地考虑减少饮酒量的信息,4个月后,他们将收到通过手机发送的额外支持。对照组的参与者也收到一条短信,上面有关于饮酒的短期和长期影响的基本健康信息,还包括一个关于酒精信息的网站链接。
试验有两个主要结果,如下:
重度间歇性饮酒(HED)的频率,通过询问参与者在过去一个月里一次饮用4杯(女性)、5杯(男性)或更多标准饮料的次数来评估。
每周总饮酒量(TWC),使用短期回忆法通过询问参与者过去一周的标准饮酒量来测量。
在随机化2个月和4个月后,通过向参与者发送带有调查问卷超链接的短信来评估结果。如果对提醒没有回应,参与者被要求收集回应。
所需的样本量是用蒙特卡罗模拟确定的。模拟的完整描述载于研究方案[
参与者是在6个月的时间里被招募的。在每个周期之间,我们检查是否达到了计划的样本量。在2019年4月25日至2020年11月26日期间,我们随机选择了2129名参与者。这相当于大约19个月的招聘时间,其中留出了1个月的初始宽限期来优化广告投放算法的表现。
抛开2129名参与者所需的样本量不谈,如果我们在只收集了15名参与者的数据后就停止了试验,我们基于零假设的分析会是什么样子?100或200名参与者之后呢?在
最大似然估计和
如果我们决定不使用固定的样本量,而是采用贝叶斯顺序设计,我们就会放弃功率计算,而是定义招聘何时结束的目标标准。这些标准可能如下:
疗效:p (IRR < 1 | D) > 97.5%, p (IRR < 0.87 | D) > 50%
无效:p (0.87 < IRR < 1.15 | D) > 97.5%
有效性标准认为,如果干预组饮酒量少于对照组的概率大于97.5%,则应停止招募;它还说,估计的内部收益率小于0.87的概率应该大于50%。IRR为0.87,与我们的固定样本量功率计算假设相比较,即干预组的酒精消耗量比对照组少15%。无效目标标准说,如果估计的内部收益率在0.87到1.15之间的可能性超过97.5%,即在考虑到环境的影响大小太小而不重要的效应大小范围内,我们将停止招募。
和零假设分析一样
在
使用标准正态先验(左)和怀疑先验(右),根据受访者提供的有关每周总消费量(TWC)的可用数据绘制后验概率分布和目标标准。IRR:发病率比。
使用标准正态先验(左)和怀疑先验(右),根据受访者提供的有关每周总消费量(TWC)的可用数据绘制后验概率分布和目标标准。IRR:发病率比。
如果使用贝叶斯顺序设计,数字酒精干预试验可以在招募约15%的预定样本量后停止招募。结果可能是更少的参与者被招募到一个控制条件下,让他们等待新的支持工具,并降低招募成本;此外,干预措施有效性的证据本可以更早公布。相反,过度招募是由于预期这类公共卫生干预的影响很小,同时还控制了1型和2型错误的风险。
进行试验是因为干预措施的效果尚不清楚;因此,试验的设计应该有效地促进发现。这并不是说先验知识在设计贝叶斯序列设计时没有用处;相反,对效果的保守观点和以前试验的数据都可以纳入分析过程中使用的先验。在这种情况下,先验是理想的,因为它们在数据稀缺时主导分析,防止错误的发现,然而,随着更多的数据可用,它们的影响就会减弱。
贝叶斯序列设计不依赖于先验的固定样本量;然而,规划、伦理批准和拨款申请通常都需要一个。这仍然可以通过使用模拟方法估计最终样本量来实现[
在使用贝叶斯序列设计时,应该避免的一个警告是,将目标标准视为硬性规则——使它们成为回到有效和无效证据二分法的捷径。相反,目标标准应该被视为研究人员的意图是什么被认为是有趣的发现。一个人可能已经满足了审判的某些标准,但不满足其他标准,仍然决定结束审判。当根据累积的结果,一个科学问题的答案已经足够为人所知,可以将结果用于更广泛的范围时,试验就应该停止[
在一些试验中,不可能在整个试验期间连续访问随访数据以检查标准,因此不可能采用贝叶斯序列设计。如果数据是在多个地点(可能是在国际上)收集的,那么整理所有数据进行分析是很耗时的。然而,应该注意的是,顺序设计的好处仍然可以在可能至少偶尔分析数据的情况下使用,例如每50-100名参与者。分析不必针对每个可用的新数据点,而是针对更大的参与者集。
最后,减少研究浪费和保护研究参与者免受不必要的伤害应该是研究干预措施的研究人员的首要任务。避免使用固定样本量时出现的招募不足和过度,是一种重要的缓解措施,贝叶斯序列设计正是考虑到了这一点。他们在行为干预试验中使用的例子可以在文献中找到[
间歇性酗酒
发病率比
优势比
每周总消费
该项目得到了瑞典酒精零售垄断酒精研究委员会(DNR 2019-0056和DNR 2020-0043)的资助。本研究的资助者没有参与研究设计、数据收集、数据分析、数据解释或报告撰写。
本研究过程中产生或分析的未识别数据集将在向通讯作者提出合理要求、提案批准并签署数据访问协议后提供。
MB拥有一家私营公司(Alexit AB),负责维护和分销以证据为基础的生活方式干预措施,供公众和卫生保健机构使用。Alexit AB在制定干预措施、研究设计、数据分析、数据解释或撰写本报告中没有发挥任何作用。由Alexit AB开发和维护的服务用于发送短信和数据收集。