发表在16卷第12名(2014): 12月

数字精神病学自我报告问卷的格式间可靠性:一项系统综述

数字精神病学自我报告问卷的格式间可靠性:一项系统综述

数字精神病学自我报告问卷的格式间可靠性:一项系统综述

审查

1U-CARE,瑞典乌普萨拉大学公共卫生和护理科学系

2瑞典乌普萨拉大学心理学系U-CARE

3.瑞典乌普萨拉大学心理学系

*这些作者贡献相同

通讯作者:

Sven Alfonsson博士

U-CARE

公共卫生和护理科学系

乌普萨拉大学

A11

Dag Hammarskjölds väg BMC

乌普萨拉,751 22

瑞典

联系电话:46 0184716194

传真:46 0184716675

电子邮件:sven.alfonsson@pubcare.uu.se


背景:基于互联网的干预研究通常使用数字版本的纸笔自我报告症状量表。然而,适应数字格式可能会影响已建立的自我报告量表的心理测量特性。一些研究已经调查了数字版本和纸笔版本的仪器之间的差异,但尚未对结果进行系统的回顾。

摘要目的:本综述旨在评估数字或在线心理治疗研究中使用的自我报告症状量表的格式间可靠性。

方法:系统地回顾了三个数据库(MEDLINE, Embase和PsycINFO),以调查精神症状量表的数字版本和笔和纸版本之间的可靠性。

结果:从总共1504篇论文中,33篇被纳入综述,并评估了40种不同症状量表的格式间可靠性。在62项分析中,有10项发现不同格式之间的平均总分存在显著差异。这些差异仅在少数研究中发现,这表明结果是由于研究效应和样本效应,而不是不可靠的仪器。格式间可靠性范围从r=。35tor= 0;然而,大多数乐器在格式分数之间表现出很强的相关性。纳入研究的质量各不相同,一些研究不足以检测格式之间的微小差异。

结论:当将数字版本的自我报告症状量表与笔和纸版本进行比较时,大多数量表显示出较高的格式间可靠性。这支持了网络心理治疗研究结果的可靠性,以及与传统心理治疗研究结果的可比性。然而,有一些工具始终显示出较低的格式间信度,这表明这些结论不能推广到所有问卷。大多数研究至少存在一些方法上的问题,最常见的问题是统计能力不足。今后的研究最好能更详细地提供有关将仪器转换为数字格式和数据收集程序的资料。

中国医学医学杂志,2014;16(12):e268

doi: 10.2196 / jmir.3395

关键字



计算机心理评估的使用已经增加,今天许多患者也通过基于互联网的心理干预得到帮助。基于互联网的干预措施的有效性已被反复评估,其效果似乎与现场干预措施相当[1-3.].当通过计算机收集精神病学数据或评估互联网干预时,研究人员通常依赖现有笔和纸(PnP)自我报告工具的数字版本。然而,不能假设当传递形式发生改变时,工具仍保留其心理测量特性[4].不同交付格式之间的平等程度在这里被称为interformat可靠性.高格式间可靠性表明仪器的心理测量特性与传递格式无关。

格式间可靠性主要受到两方面的影响:交付格式本身的特征或受访者如何看待交付格式。数字仪器可以在不同的平台上显示,例如,在独立的计算机、在线网页或移动电话上。每个平台都有自己的界面,因此分数可能会受到影响。票据的展示也可以在其他方面有所不同,例如,一次展示一个项目,而不是在同一页上展示几个项目。数字仪器的界面和呈现的影响尚未在很大程度上进行实证研究,因此这种可能影响的强度尚不清楚[5,6].由于影响是不确定的,关于仪器适应数字格式的设计选择是重要的。例如,可以认为布局适应的差异可能会影响结果的有效性[4].

此外,人们可能会对数字工具做出不同的反应,这取决于他们如何看待安全和匿名性的水平[7].有些人在使用数码设备时可能会感到不舒服,可能会影响检查结果[8].人们在数字环境中表达自己的方式可能会有所不同,例如,与面对面的互动相比,通过互联网交流时。8,9].例如,一些非常敏感的数据可能受益于数字评估[10,11].如果受访者对项目的评分和最终得分受到演示格式的影响,这可能会影响基于网络的心理治疗研究得出的结论。

因此,对计算机和pnp管理工具的心理测量等效性进行调查是有必要的。关于自我报告问卷格式间信度的研究已经有不少,特别是在躯体患者中,但尚未对精神科仪器进行系统的综述[12].这种审查对于决定将问卷转换为在线使用是否可行,以及是否可以比较笔和纸的分数和数字版本的分数是很有价值的。

本研究的目的是回顾心理治疗研究中自我报告症状量表的格式间信度。本综述还旨在评估调查格式间可靠性的研究的方法学质量。


搜索策略

评价过程以《Cochrane干预手册》和《系统评价和元分析首选报告项目》(PRISMA)指南为指导。不幸的是,没有具体的指导方针来审查临床测量工具,如自我报告仪器,和判断偏倚风险的建议不能直接应用。因此,基于Cochrane手册中的指导方针,为本综述创建了质量评估方案。系统检索MEDLINE、Embase和PsycINFO数据库的文献。搜索策略包括四个概念:数字格式、自我报告问卷、心理测量特性和心理学。每个概念都使用了几个搜索词;例如,MEDLINE的搜索线是“计算机或互联网或在线和问卷或仪器或量表和心理测量或信度或效度和心理学或心理疗法或心理”。对所收录出版物的参考文献列表进行了检查,以确定其他相关研究。在这样的参考文献列表的阅读中,偏差的风险可能很高,通常是不鼓励的。在目前的情况下,偏倚的风险被判断为较低,并与发现在正常渠道之外发表的旧研究和论文的好处相平衡。 No attempt was made to locate unpublished material. The literature search was conducted between January and May 2013, and to identify any studies published on a later date, an additional search was done in January 2014.

研究选择

所有已发表的同行评审的英语语言研究比较了计算机化和PnP版本的自我报告工具的心理测量特性被考虑纳入综述。研究对象必须是成年人,格式间可靠性的数据必须作为结果的一部分报告,可以作为相关性,对格式间平均分数的差异进行分析,也可以作为理论模型之间的比较。

研究旨在测量以下精神障碍诊断与统计手册第四版(DSM-IV)轴I组诊断症状的仪器,包括:情绪障碍、焦虑障碍、饮食障碍、物质使用障碍和睡眠障碍。评估人格特征或非临床行为(如运动)的仪器被排除在外。只包括有固定答案和评分的问卷类型的工具;例如,不是行为评估、视觉模拟量表(VAS)、日记或开放式问题。此外,只包括以前以笔和纸的形式进行心理测量评估的仪器的研究。

初步检索后,确定的出版物的标题和摘要由第一作者和第二作者独立审查。不相关的出版物随后被排除。所有被认为相关的出版物均全文检索。第一作者和第二作者根据纳入和排除标准独立审查了所有全文出版物。如有分歧,则通过讨论寻求协商一致意见。如果不能达成协议,第三作者的判决是最后的。

数据提取程序

数据提取的系统方法用于产生所使用的方法和心理测量学发现在每个纳入的研究的描述性摘要。提取研究特征(发表年份、样本量、管理格式[计算机、在线或掌上/手机]、设计)和参与者特征(人口、年龄、性别、计算机使用经验)。从每个研究中提取了关于每个仪器的格式间可靠性,以及关于测试重测可靠性和数字格式的内部一致性的心理测量数据。第一和第二作者独立地从所有纳入的研究中提取数据。

质量评估

目前还没有评估心理测量研究质量的既定指导方针,因此为这项研究创建了一个策略。每项研究的质量评估和评级从六个方面进行:(1)用于比较仪器的分析类型,(2)使用随机化程序,(3)统计数据和结果报告,(4)样本量,(5)样本类型,以及(6)数字仪器适应和设计的描述。每个方面都采用了3分制(0-2),提供了一个0-12之间的质量分数。看到多媒体附件1为质量评估的详细描述。第一作者和第二作者独立评估了每项研究,并在讨论前就90.3%的质量评估要素达成一致。剩下的任何分歧都与最后一位具有决定性判断的作者讨论过。总成绩高于最高成绩的三分之二(即> - 8)的研究被认为是高质量的研究。

研究设计

格式间可靠性可以使用单样本设计或双样本设计进行调查。这两种设计都可以通过添加随机和交叉设计元素来进一步增强。在单样本设计中,从总体中抽取单个样本。然后,可以通过随机选择参与者来完成PnP或仪器的数字版本,或者让每个参与者以两种格式完成仪器,即交叉设计来收集仪器的不同格式的数据。在一个样本设计的简单形式中,参与者要么先完成一种格式,然后再完成另一种格式,而不随机格式的顺序,要么被分配到只完成两种格式中的一种的小组。这些设计有主要的弱点,因为顺序效应不能被分离,而且可能存在群体差异。因此,存在明显的偏倚风险,首选随机交叉设计。交叉设计的另一个优点是提供更大的统计能力,因此需要更小的样本量。在双样本设计中,从一个或两个不同的总体中抽取两个样本。其中一个样本的参与者在PnP版本中完成仪器,而另一个样本的参与者在数字版本中完成仪器。 Since mean scores and variance cannot be assumed to be equal in two samples or populations, any conclusions about interformat reliability drawn from a study using a two sample design will be without scientific value.

另一种评估格式间可靠性的方法是调查一种仪器的统计模型在两种格式中是否相等。在设计仪器时,经常进行项目或因素分析。如果仪器的结构可以在数字版本中复制,这将提供格式间可靠性的一些证据。然而,两种格式的结构可能是相等的,而仪器上的实际分数可能会有分歧,因此这只能作为其他等效分析的补充。

评估格式间可靠性

为了能够比较数字格式的仪器结果与PnP格式的结果,必须研究分数之间的相关性或平均分数之间的差异。可靠性通常用相关分析来衡量,结果越接近1,相关性越强[13].在分析可靠性时,皮尔逊相关性有时也被使用,对于格式间可靠性,类内相关性更合适。值得注意的是,两个分数之间的高相关性并不意味着分数处于同一水平。例如,一个分数可能系统性地低于另一个分数,但相关性仍然很高。因此,不同格式之间的相等性可以更好地用组间平均分数差异的统计检验来评估,例如用t检验或方差分析。因此,比较两种不同格式的仪器的研究应该报告均分之间的相关性和差异分析,后者是必不可少的。

仪器中通常研究的其他形式的信度有测试-再测试和内部信度[13].与格式间可靠性一样,当交付格式改变时,不能假定仪器的测试-再测试或内部可靠性是持续的。

样本量和效应量

样本量计算应该基于平均差异分析,这通常需要比相关分析更大的样本量。在计算一项研究的能力和样本量时,应该确定可以接受的格式之间的差异有多大。虽然许多基于互联网的心理干预研究显示了中等到较大的效应量,但可以说,当涉及到仪器格式之间的差异时,即使是很小的效应量也很重要。对于相关性分析,样本量计算应基于获得足够的置信区间,而不是显著性检验[14].

统计分析

当原始出版物中没有报道平均差异的统计分析时,作者进行了相应的分析t测试所需的数据是否可用。作者还计算了原始出版物中没有报道的差异的效应量。分析各组研究(即高质量和低质量研究)之间的差异tMann-Whitney检验。通过比较均分和使用二名概率的计算,研究了总体水平上的格式间可靠性。科恩的d被用作效应量的衡量,其中。2被认为是小效应,.5被认为是中等效应,.8被认为是大效应量。一个P的值。05作为具有统计学意义的阈值。


已识别和收录的出版物

最初的搜索在数据库中总共得到了1504个结果。通过对标题和摘要的审查,筛选出61篇文献进行全文审查。在这61篇出版物中,有29篇符合纳入标准。在审查了参考书目后,又列入了8种出版物。经过额外的搜索,又收录了一份出版物。因此,总共有38份出版物被纳入数据提取。纳入研究的完整列表[15-52]可以在表1.搜索和包含过程的PRISMA流程图可以在多媒体附件2

数据提取

在讨论之前,审稿人同意了92.6%的关于研究特征的提取数据元素,90.3%的质量评估元素和99.3%的心理测量数据。这被认为是高度一致的。当研究没有报告格式之间的平均差异分析时,t测试由评审员计算以完成结果。当交叉研究没有报告总格式平均分数时,由审稿人根据报告的组平均分数计算。当使用两个样本设计时,不能假定仪器的平均分相等。因此,使用这种设计的五项研究被排除在外,以进一步分析格式间的可靠性,但被纳入表1为了读者的利益。

研究特点

其中33篇发表于1985 - 2013年间。所有出版物都描述了独特的研究,大多数研究调查了一种以上的仪器。样本量为29 - 1171(平均224,标准差277.5)。三分之一的研究(11/ 33,33%)评估了独立计算机管理,超过一半(19/ 33,58%)评估了在线管理,很少有研究评估了掌上设备管理(2/ 33,6%)以及在线和智能手机管理(1/ 33,3%)。近四分之一的研究(8/ 33,24%)包括对计算机经验的一些评估。纳入的研究调查了40种不同的自我报告工具,涵盖以下诊断或问题领域:恐慌障碍、抑郁、焦虑、饮食障碍、酒精和烟草依赖或滥用、强迫症、创伤后应激、产后抑郁症、社交焦虑障碍、失眠和感知到的身心健康。

参与者的特征

我们发现42%(14/33)的研究使用了来自患者或其他适当人群的样本,45%(15/33)使用了学生样本,9%(3/33)使用了某种社区样本,3%(1/33)没有定义样本。参与者的平均年龄在18.8岁到68.3岁之间。在包括两性的研究中,样本的性别比例从23.9%到79.9%不等。两项研究调查了产后抑郁症的筛查仪器,并使用了所有女性样本。看到多媒体以获取研究和参与者特征的完整列表。

纳入研究的设计和质量

在33项研究中,17项(52%)采用了交叉设计。大多数研究(29/ 33,88%)报告了充分的统计数据,而超过一半的研究(17/ 33,52%)没有描述仪器适应数字格式的情况。平均质量分数为8.6。采用> - 8(总质量分数的三分之二)的切分,33项研究中有20项(61%)被评估为高质量研究。看到多媒体附件1获得完整的质量评估分数。

表1。包括出版物、调查工具、比较格式和研究设计。
出版 仪器 格式 设计
Austin等人(2006)[15] 身体感觉问卷,广场恐怖认知问卷,移动问卷 PnP型、在线 一个样本交叉(2x2)
Brock等人(2012)[16] 流行病学研究中心-抑郁症,贝克焦虑量表 PnP型、在线 一个样本交叉(4x2)
Bush等人(2013)[17] 创伤后应激障碍检查表-平民版,患者健康问卷-9 PnP,在线,智能手机 一个样本随机
Butler等人(1988)[18] 神经性厌食症量表设置条件 PnP型、电脑 一个样本交叉(2x2)
Carlbring等人(2007)[19] 身体感觉问卷,广场恐怖认知问卷,移动量表,贝克焦虑量表,贝克抑郁量表- ii,蒙哥马利-阿斯伯格抑郁量表-自我报告 PnP型、在线 一个样本交叉(2x2)
Chan-Pensley (1999) [20.] 酒精使用障碍鉴定测试 PnP型、电脑 一个样本交叉(2x2)
Coles等人(2007)[21] 强迫量表,强迫信念问卷-44 PnP型、在线 一个样本交叉(2x2)
Cook等人(2007)[22] 抑郁症状自评快速清单 PnP型、棕榈 一个样本交叉(2x2)
Fortson等人(2006)[23] 流行病学研究中心抑郁量表,创伤症状筛查 PnP型、在线 一个样本交叉(4x2)
George等人(1992)[24] 贝克抑郁量表,状态-特质焦虑量表-状态,状态-特质焦虑量表-特质 PnP型、电脑 一个样本随机
格莱兹和考克斯(1991)[25] 爱丁堡产后抑郁量表 PnP型、电脑 一个样本交叉(2x2)
Herrero & Meneses (2006) [26] 流行病学研究中心抑郁等级-7 PnP型、在线 一个样本随机
Hirai等人(2011)[27] 社交焦虑量表,社交恐惧量表 PnP型、在线 一个样本随机
Holländare等(2008)[28] 贝克抑郁量表- ii,蒙哥马利-阿斯伯格抑郁量表-自我报告 PnP型、在线 一个样本交叉(2x2)
Holländare等(2010)[29] 贝克抑郁量表- ii,蒙哥马利-阿斯伯格抑郁量表-自我报告 PnP型、在线 一个样本交叉(2x2)
Kurt等人(2004)[30.] 流行病学研究中心抑郁量表-R-20,老年抑郁量表-15 PnP型、电脑 一个样本交叉(2x2)
Lankford等人(1994)[31] 贝克抑郁量表,状态-特质焦虑量表 PnP型、电脑 一个样本
Lukin等人(1985)[32] 贝克抑郁量表,状态-特质焦虑量表 PnP型、电脑 一个样本交叉(2x2)
Miller等人(2002)[33] 酒精使用障碍鉴定测试,酒精依赖量表,罗格斯酒精问题指数 PnP型、在线 一个样本随机
Murelle等人(1992)[34] 密歇根酒精筛查测试,CAGE药物滥用筛查工具,Fagerstrom耐受性问卷,流行病学研究中心抑郁量表,饮食态度测试,药物滥用筛查测试,状态-特质焦虑量表 PnP型、电脑 单样本非随机
Ogles等人(1998)[35] 流行病学研究中心抑郁症量表 PnP型、电脑 单样本非随机
Read等人(2008)[36] 创伤后应激障碍检查表-平民版,创伤生活事件问卷 PnP型、在线 单样本非随机
Schulenberg & Yutrzenka (2001) [37] 贝克抑郁量表- ii PnP型、电脑 一个样本交叉(4x2)
Schmitz等人(2000)[38] 症状清单90修改 PnP型、电脑 一个样本随机
Swartz等人(2007)[39] 流行病学研究中心抑郁症量表 PnP型、PDA 一个样本交叉(2x2)
Thorén等(2012)[40] 医院焦虑抑郁量表 PnP型、在线 一个样本交叉(2x2)
桑代克等人(2011)[41] 失眠严重程度指数 PnP型、在线 一个样本交叉(2x2)
Vallejo等人(2007)[42] 一般健康问卷-28,症状检查表90修订 PnP型、在线 单样本非随机
瓦列霍等人(2008)[43] 一般健康问卷-28,症状检查表90修订 PnP型、在线 一个样本交叉(2x2)
怀特海(2011)[44] 医院焦虑抑郁量表 PnP型、在线 一个样本随机
Wijndaele等人(2007)[45] 一般健康问卷-12,症状检查表90修订 PnP型、在线 单样本非随机
于&于(2007)[46] 流行病学研究中心抑郁症量表 PnP型、在线 一个样本随机
齐默尔曼和马丁内斯(2012)[47] 临床有用抑郁结局量表 PnP型、在线 单样本非随机
Andersson等人(2003)[48] 医院焦虑抑郁量表 PnP型、在线 两个样品
Hedman等人(2010)[49] 利博维茨社交焦虑量表自我报告、社交恐惧量表、社交焦虑量表、蒙哥马利-阿斯伯格抑郁量表自我报告、贝克焦虑量表 PnP型、在线 两个样品
Le等人(2009)[50] 恐慌障碍严重程度量表,爱丁堡产后抑郁量表 PnP型、在线 两个样品
Schmitz等人(1999)[51] 症状清单90修改 PnP型、电脑 两个样品
Shea等人(2009)[52] 抑郁焦虑压力量表21 PnP型、在线 两个样品

Interformat可靠性

包括本综述作者进行的分析,88%(29/33)的研究分析了均分之间的差异;52%(17/33)也有足够的能力来检测至少中等效应量的差异。在格式间信度分析中,子量表被排除,因为来自一些具有多个子量表的仪器的数据,特别是症状检查表90修订版(SCL-90R)和一般健康问卷(GHQ-28)的数据将对结果产生不成比例的影响。针对仪器总分,对格式平均分的差异进行了62项分析,其中10项(16%)存在显著差异。将分析限制在有足够能力分析平均差异的17项研究中,31项(19%)分析中发现6项差异。包括所有样本量的研究,在40个被调查仪器中有8个发现了显著的平均得分差异。效应量(Cohen’sd)的平均得分差异在0.14至0.98之间,这表明某些影响很大。

为了评估数据中是否存在总趋势,分析了报告显著差异和报告不显著但数值一致的研究(即,包括对任何一种情况显示较高但不显著值的分析)。总共有30种仪器或分量表报告PnP版本的平均分更高,26种仪器或分量表报告数字版本的平均分更高。这种比例上的差异并不显著(P=点)。

报告了28种乐器的格式分数之间的相关性,范围在r =.35点和r =获得。超过一半的乐器(16/ 33,57%)在格式分数之间表现出强烈的非矛盾相关性(>.80),而5种乐器的格式分数之间的相关性不明确。强烈的格式间相关性仅在四种工具上被复制:广场恐怖认知问卷(ACQ)、移动量表(MI)、贝克抑郁量表II (BDI-II)和蒙哥马利-阿斯伯格抑郁评定量表-自我报告(MADRS-S)。两项研究调查了pnp格式和数字格式问卷在因素结构和模型拟合方面的差异,两项研究都没有发现任何显著的模型差异。看到多媒体附件4对提取的心理测量特性进行回顾。

报告的格式分数之间的显著平均差异在研究中并不均匀分布。相反,许多报道的差异可以在少数研究中找到。5项研究报告了所有发现的10个显著平均差异,其中一项研究报告了5个(50%)已确定的差异。这五项研究与其他研究在研究特征(如发表年份、样本量和质量评估评分)方面没有显著差异。在报告管理形式之间不平等的五项研究中,样本量从83到1171不等,其中两项研究有足够的能力检测到较小的效应量。总之,本研究中评估的任何研究特征都不能解释这些研究中报告的格式之间的不平等。

ACQ、贝克焦虑量表(BAI)、BDI-II(两次)、身体感觉问卷(BSQ)(两次)、流行病学研究中心抑郁量表(CES-D)、MI、SCL-90-R和状态-特质焦虑量表(STAI-S)的平均得分存在差异。在这些仪器中,ACQ、BAI、BDI-II、CES-D和SCL-90-R也在其他研究中进行了调查,这些研究具有足够的能力来检测相应尺寸的影响,而没有发现显著的平均差异,这使得关于格式间可靠性的结果相互矛盾(见多媒体附件4).BSQ和MI要么没有被反复调查,要么在证据不足的研究中被调查。

两次试验法的

对6项研究中的14种仪器进行了数字格式的测试-再测试分析,测试场合之间的平均相关性为r=点(SD .07,范围r2 = .90)。大多数仪器(10/ 14,71%)表现出良好的重测信度(>.80)。此外,时间对7种仪器的双向方差分析没有显著影响。

内部一致性

24项研究报告了26种不同仪器的数字版本的内部一致性。对69例仪器数字格式的Cronbach alpha进行了计算,其平均值为0.87 (SD .09,范围0.52 - 0.97)。绝大多数仪器(24/ 26,94%)显示出足够的内部一致性(alpha>.70)。12项简短健康调查(SF-12 v2)、心理成分量表和SCL-90-R子量表存在可疑的内部一致性,关于失眠严重程度指数的alpha结果不明确。


主要研究结果

本综述旨在探讨心理治疗研究中使用的自我报告工具的格式间可靠性。在回顾过程中,研究人员对40种不同仪器的数字和PnP格式进行了比较,涵盖了各种精神疾病。与之前在体细胞领域的一项研究相似,这篇文献的系统综述表明,一般来说,仪器的数字版本和笔和纸版本之间的可靠性很高[12].绝大多数研究发现,格式分数之间存在足够的相关性,而由各自格式得出的平均值之间没有显著差异。例如,高质量的研究一致报告了MADRS-S的高格式间可靠性,表明该工具可以放心地用于在线心理治疗研究。其他一些著名的工具,如酒精使用障碍识别测试(AUDIT)、PCL-C和患者健康问卷(PHQ-9)也显示出较高的格式间可靠性,但结果尚未在高质量的研究中得到重复。虽然大多数仪器只被调查过一次,但一些仪器,特别是BDI和CES-D,已经被调查过多次。总的来说,这些研究支持BDI和CES-D的格式间可靠性。相比之下,SCL-90-R和GHQ-28仪器在几项研究中表现出不尽如人意的可靠性。原因尚不清楚,但这两种工具都相当复杂,包含几个子量表,旨在捕捉心理健康的许多不同领域。可能是这些工具的复杂性或更广泛的精神病学范围,与本文中的大多数其他工具相比,使它们对格式的变化敏感。

在所有分析中,16%的格式之间的平均分存在显著差异。这些差异是在少数研究中发现的,这表明结果可能是由于研究或参与者的特征,而不是仪器的特性。平均差异的效应大小从小到大不等,表明显著差异不仅仅是大样本研究中的高功率问题。值得注意的是,几项高强度的研究没有发现格式分数之间的显著差异。与此同时,正如本综述中包含的最大的研究,Yu & Yu [47,这种影响往往太小,在较小的研究中无法检测到。仪器格式的这种小影响不会对大多数心理治疗研究产生任何重大影响,但可能会影响患病率研究的结果。此外,在格式平均值之间发现的一些差异具有中等或较大的效应量,这意味着研究设计可能会对结果产生重大影响。如果研究人员在设计他们的研究时不小心和细致,基于计算机的心理治疗的结果可能无法与传统心理治疗相媲美。

格式之间的相关性范围很广,从0.35到0.99。在一般健康调查问卷的某些分量表中发现了最低的相关性,这些分量表总体上显示出较低的可靠性,以及STAI-S,这是一种明确测量当前状况的工具,因此可能对时间影响非常敏感。有趣的是,BDI、MI和ACQ报告了显著的格式差异,而这些工具同时报告了高相关性。这强调了在评估格式间可靠性时不单纯依赖相关性的重要性。

在进行系统综述时,在搜索和纳入相关研究时,总是存在选择偏倚的风险。这包括发表偏倚,它会自动缩小可纳入的研究范围,但在阅读已识别论文的参考文献列表以进行其他研究时也是相关的。然而,在格式间可靠性研究的情况下,这些风险可能会有所降低,因为积极和消极的结果都应该引起出版商的注意。尽管如此,任何综述中纳入研究的偏倚风险都不应被低估。

大多数研究具有较高的科学质量,使用了充分的设计和统计分析。然而,只有一半的研究具有足够的样本量来检测中等效应量的平均差异,并且很少报道幂计算。此外,数据收集之间的时间间隔,可以说是一个非常重要的因素,并没有在所有使用交叉设计的研究中报告。因此,可能的区间差异可以解释研究之间发现的一些差异。今后的研究应注重通过增加样本量来提高方法学质量,以获得足够的功率。另一个建议是研究报告格式间的相关性和格式间的差异。

关于可能影响格式间可靠性的因素的知识仍然有限。一个潜在的因素是数字格式本身的特点。布局、用户界面等都可能在某种程度上影响乐器的得分,至少在这些特征与PnP版本明显不同的情况下。为了评估这种潜在的影响,了解PnP和数字版本之间的相似程度是有价值的。遗憾的是,很少有研究报告在将文书转换为新的管理格式时进行了哪些调整。

在这篇综述中,只有三项研究使用了计算机/互联网以外的数字格式:Cooke等[22]使用了手掌装置,Swartz等人[39)使用个人数字助理,布什等人[17]在网上和智能手机上使用。这些研究都没有报告格式之间的平均值有任何显著差异,至少表明格式间可靠性在不同形式的数字平台上是稳定的。

此外,如果数字媒体被认为是不同的,例如,比传统的笔和纸媒体更安全或更匿名,受访者对数字格式的反应可能会影响结果。在调查方法的研究中,多项研究表明,通过互联网收集的数据与传统方法收集的数据是等价的[53-55].虽然目前还没有实证研究调查参与者在心理治疗研究中对仪器的反应,但本综述中的结论与这些结果一致。

限制

本研究有一定的局限性。只包括心理治疗研究中通常使用的仪器。与vas量表或行为日记等其他测量方法相比,问卷类型的精神症状量表对管理差异可能不太敏感。因此,目前尚不清楚这项研究的结果是否可以推广到这些其他类型的测量。此外,如果所收录的文章中缺少相关信息,则没有努力联系作者以获得额外的数据。由于几项研究未能报告本研究中调查的变量,与作者的联系可能提供了更多的数据。最后,由于我们只阅读了纳入研究的参考文献列表,因此有可能我们遗漏了在我们回顾但排除的论文中引用的研究。当前研究的一个优势是努力寻找和包括较老的研究以及不同设计的研究。

虽然这篇综述的重点是数字仪器的可靠性,但未来的研究也可以调查有效性的各个方面。有人可能会说,显示出足够的格式间可靠性的文书,如果其笔和纸版本的有效性已经确定,则不需要确认其数字使用的有效性。然而,这是一个经验问题,考虑起来很重要。据我们所知,很少有研究调查数字仪器的有效性。

一般而言,在基于互联网的心理治疗研究中使用的仪器显示出较高的格式间可靠性,可以放心使用。还有一些迹象表明,要素结构不受交付格式的影响。然而,仍然需要精心设计和高强度的研究来调查最广泛使用的仪器,如PHQ-9。虽然移动技术的使用将会增加,但很少有研究调查通过智能手机、平板电脑或类似设备管理的仪器。因此,未来的研究可以集中在这些平台上。

然而,即使是在个人电脑或智能手机等平台上,在乐器呈现方面也几乎有无限的变化。格式本身可能远不如具体的展示形式重要。未来,可以通过实验研究不同的仪器表现形式和适应性,以确定影响格式间可靠性的因素。由于很少有研究详细报告它们对数字工具的适应性,呈现的效果在很大程度上仍是未知的。数字工具的好处之一是可以设计出适合受访者答案的智能问卷。虽然超出了本综述的范围,但这些发展可能与未来的临床护理更相关[56].

结论

本文的结论是,虽然大多数研究中的仪器都表现出较高的格式间可靠性,但也有一些例外,目前尚不清楚这些例外是由于特定仪器的心理测量特性还是研究特性。一般来说,心理治疗研究中使用的工具似乎比管理格式更强大。未来的研究应该增加样本量,并调查和清楚地报告如何对仪器进行数字化改编。

利益冲突

没有宣布。

多媒体附件1

学习质量评估。

PDF档案(adobepdf档案),98KB

多媒体附件2

PRISMA流程图。

PDF档案(adobepdf档案),57KB

多媒体

研究和参与者特征。

PDF档案(adobepdf档案),42KB

多媒体附件4

所有研究的心理测量结果。

PDF档案(adobepdf档案),149KB

  1. 基于互联网和其他计算机化的成人抑郁症心理治疗:一项元分析。中国医学杂志2009;38(4):196-205。(CrossRef] [Medline]
  2. 崔杰帕,马志刚,范·斯特拉滕,卡瓦纳赫,葛嘉,安徒生。焦虑障碍的计算机辅助心理治疗:元分析综述。中国医学杂志2009;38(2):66-82。(CrossRef] [Medline]
  3. Webb TL, Joseph J, Yardley L, Michie S.使用互联网促进健康行为改变:理论基础、行为改变技术的使用和有效性交付模式的影响的系统回顾和元分析。中国医学杂志,2010;12(1):e4 [免费全文] [CrossRef] [Medline]
  4. Coons SJ, Gwaltney CJ, Hays RD,蓝迪JJ,斯隆JA, Revicki DA, ISPOR ePRO任务组。关于支持电子和纸质患者报告结果测量(PRO)之间测量等效所需证据的建议:ISPOR ePRO良好研究实践工作组报告。价值健康2009 Jun;12(4):419-429。(CrossRef] [Medline]
  5. 桑代克,彭志强,李志强,等。基于网络的测量:完成单个或多个网页项目的效果。人类行为中的计算机2009年3月25日(2):393-401。(CrossRef]
  6. 间距、位置和顺序:调查问题视觉特征的解释性启发式。舆论季刊2004年9月1日;68(3):368-393。(CrossRef]
  7. Hunter J, Corcoran K, Leeder S, Phelps K,是时候抛弃纸张了吗?使用电子邮件和互联网进行卫生服务研究——一项成本效益和定性研究。中华临床医学杂志2013年10月19日(5):855-861。(CrossRef] [Medline]
  8. Schulenberg SE, Yutrzenka BA。计算机化和纸笔心理工具的等价性:对负面情绪测量的影响。行为测量方法仪器计算1999年5月;31(2):315-321。(Medline]
  9. 社会可取性、匿名性和基于互联网的问卷调查。行为测量方法仪器计算1999年8月;31(3):433-438。(Medline]
  10. 计算机辅助访谈与精神病学社会史。社会工作与社会科学评论1993;4(3):255-263。
  11. Rogers SM, Willis G, al - tayyib A, Villarroel MA, Turner CF, Ganapathi L,等。音频计算机辅助访谈以测量临床人群的艾滋病毒风险行为。性传播感染2005 Dec;81(6):501-507 [免费全文] [CrossRef] [Medline]
  12. Gwaltney CJ, Shields AL, Shiffman S.患者报告的结果测量的电子和纸笔管理的等效性:一项元分析综述。价值运行状况2008;11(2):322-333。(CrossRef] [Medline]
  13. 心理评估和心理测量学概论。伦敦:SAGE出版有限公司;2014.
  14. 施泰纳D,诺曼G.健康测量量表:其开发和使用的实用指南。牛津:牛津大学出版社;2008.
  15. Austin DW, Carlbring P, Richards JC, Andersson G.恐慌研究中三种常用问卷的网络管理:澳大利亚和瑞典恐慌障碍患者样本的纸质管理等效性。国际测试杂志2006年3月6日(1):25-39。(CrossRef]
  16. Brock RL, Barry RA, Lawrence E, Dey J, Rolffs J.在夫妻研究中使用的纸笔问卷的网络管理:评估心理测量等效性。评估2012年6月;19(2):226-242。(CrossRef] [Medline]
  17. Bush NE, Skopp N, Smolenski D, Crumpton R, Fairall J.使用智能手机应用程序提供的行为筛查措施:心理测量特性和用户偏好。神经医学杂志2013年11月;201(11):991-995。(CrossRef] [Medline]
  18. Butler N, Newton T, Slade P.扫描问卷计算机版本的验证。Int。j .吃。不和谐音1989 3月8日(2):239-241。(CrossRef]
  19. Carlbring P, blunt S, Bohman S, Austin D, Richards J, Öst L,等。在恐慌/广场恐怖症研究中,通常使用的调查问卷的互联网与纸笔管理。人类行为中的计算机2007年5月;23(3):1421-1434。(CrossRef]
  20. Chan-Pensley E.酒精使用障碍鉴定测试:纸、笔和计算机版本之间的比较。酒精1999;34(6):882-885 [免费全文] [Medline]
  21. Coles ME, Cook LM, Blake TR.评估强迫性症状和对互联网的认知:纸张管理和互联网管理可比性的证据。行为学研究,2007年9月45(9):2232-2240。(CrossRef] [Medline]
  22. Cook IA, Balasubramani GK, Eng H, Friedman E, Young EA, Martin J,等。临床研究中的电子资料:重性抑郁症症状自评的可接受性和有效性。《精神病学杂志》2007年11月41(9):737-743。(CrossRef] [Medline]
  23. Fortson BL, Scotti JR, Del Ben KS, Chen YC。一个大学生样本的网络创伤压力调查的信度和效度。创伤应激杂志2006 Oct;19(5):709-720。(CrossRef] [Medline]
  24. George CE, Lankford J, Wilson SE。电脑管理与纸笔管理对负面情绪的影响。计算机在人类行为1992年1月;8(2-3):203-209。(CrossRef]
  25. 格莱兹R,考克斯JL。计算机版的10项(自评)爱丁堡产后抑郁量表的验证。《情感失调》杂志1991;22(1):73-77。(Medline]
  26. 简短的网络版本的感知压力(PSS)和流行病学研究中心抑郁(CESD)量表:比较互联网用户的铅笔和纸反应。人类行为计算机,2006年9月22日(5):830-846。(CrossRef]
  27. Hirai M, Vernon LL, Clum GA, Skidmore ST.社交恐惧症症状测量的心理测量特性和管理测量不变性:纸笔与网络管理。《精神病态行为评估》2011年9月8日;33(4):470-479。(CrossRef]
  28. Holländare F, Gahnström A, Nieminen A, Engström I. BDI-II和MADRS-S能否在不影响其心理测量特性的情况下转入在线使用?EJAP 2009 1月30日;4(2):-。(CrossRef]
  29. Holländare F, Andersson G, Engström I.对临床患者使用的两种抑郁仪器(BDI-II和MADRS-S)的网络和纸质版本的心理测量特性的比较。中国医学杂志,2010;12(5):e49 [免费全文] [CrossRef] [Medline]
  30. Kurt R, Bogner HR, Straton JB, Tien AY, Gallo JJ。老年初级保健患者抑郁和功能的计算机辅助评估。计算方法程序,2004年2月;73(2):165-171 [免费全文] [Medline]
  31. 兰福德,贝尔,艾利亚斯。计算机化与标准人格测试:等效性、计算机焦虑和性别差异。计算机在人类行为1994年12月;10(4):497-510。(CrossRef]
  32. Lukin ME, Dowd ET, Plake BS, Kraft RG。比较计算机化和传统的心理评估。计算机与人类行为1985年1月1日(1):49-58。(CrossRef]
  33. Miller ET, Neal DJ, Roberts LJ, Baer JS, Cressler SO, Metrik J,等。酒精测试的重测信度:基于互联网的评估与传统方法有区别吗?精神成瘾者行为研究2002年3月16日(1):56-63。(Medline]
  34. Murrelle L,巴尔杰JD, Ainsworth BE, Holliman SC,巴尔杰DW。大学生心理健康风险计算机化评估:用户可接受性和与标准纸笔问卷的相关性中华卫生杂志1992;7(2):90-92。(Medline]
  35. Ogles BM, France CR, Lunnen KM, Bell MT, Goldfarb M.计算机抑郁症筛查和意识。社区卫生杂志1998 Feb;34(1):27-38。(Medline]
  36. Read JP, Farrow SM, Jaanimägi U, Ouimette P.通过互联网评估创伤和创伤应激:测量等效性和参与者反应。创伤学2009;15(1):94 - 102。(CrossRef]
  37. Schulenberg SE, Yutrzenka BA。贝克抑郁量表ii (BDI-II)的计算机化和传统版本的等效性。心理学报2001 9月20日(3):216-230。(CrossRef]
  38. Swartz RJ, de Moor C, Cook KF, Fouladi RT, Basen-Engquist K, Eng C,等。抑郁症流行病学研究中心(CES-D)量表的模式效应:个人数字助理vs.纸笔管理。qal Life Res 2007 Jun;16(5):803-813。(CrossRef] [Medline]
  39. Thorén ES, Andersson G, Lunner T.对听障成人调查问卷的使用:在线与纸笔管理。BMC耳鼻喉失调2012;12:12 [免费全文] [CrossRef] [Medline]
  40. Thorndike FP, Ritterband LM, Saylor DK, Magee JC, Gonder-Frederick LA, Morin CM。失眠严重程度指数作为一种基于网络的测量方法的验证。行为学与睡眠医学2011;9(4):216-223。(CrossRef] [Medline]
  41. Vallejo MA, Jordán CM, Díaz M, Comeche MI, Ortega J.通过互联网进行心理评估:在线(相对于纸笔)版本的一般健康问卷-28 (GHQ-28)和症状清单-90-修订版(SCL-90-R)的信度和效度研究。中国医学杂志,2007;9(1):2 [免费全文] [CrossRef] [Medline]
  42. Vallejo MA, Mañanes G, Isabel Comeche MA, Díaz M.两种临床仪器SCL-90-R和GHQ-28的互联网给药和纸笔给药的比较。中华精神病学杂志2008年9月39日(3):201-208。(CrossRef] [Medline]
  43. 互联网媒介研究中的方法问题:互联网与邮寄问卷的随机比较。中国医学杂志,2011;13(4):e109 [免费全文] [CrossRef] [Medline]
  44. Wijndaele K, Matton L, Duvigneaud N, Lefevre J, Duquet W, Thomis M,等。计算机心理健康问卷与纸笔心理健康问卷的可靠性、等效性和受访者偏好。人类行为中的计算机2007 7月;23(4):1958-1970。(CrossRef]
  45. 于思聪,于明明。应用多样本不变性方法比较台湾地区网路问卷与纸张问卷。网络精神行为杂志2007年8月10日(4):501-507。(CrossRef] [Medline]
  46. 齐默曼,马丁内斯JH。在临床实践中治疗的患者抑郁的网络评估:信度,效度和患者接受度。中华临床精神病学杂志2012年3月;73(3):333-338。(CrossRef] [Medline]
  47. Andersson G, Kaldo-Sandström V, Ström L, Strömgren T.医院焦虑和抑郁量表在耳鸣患者样本中的网络管理。中华精神病学杂志,2003,29(3):379 - 379。(Medline]
  48. Hedman E, Ljótsson B, Rück C, Furmark T, Carlbring P, Lindefors N,等。在社交焦虑障碍研究中常用的自我报告测量的互联网管理:心理测量评估。计算机在人类行为2010年7月;26(4):736-740。(CrossRef]
  49. Le HN, Perry DF, Sheng X.利用互联网筛查产后抑郁症。妇幼保健杂志2009年3月13日(2):213-221。(CrossRef] [Medline]
  50. Schmitz N, Hartkamp N, Brinschwitz C, Michalek S.心身门诊患者症状清单(SCL-90-R)和人际问题清单(IIP-C)的计算机管理。精神病学杂志1999年10月11日;87(2-3):217-221。(Medline]
  51. Schmitz N, Hartkamp N, Brinschwitz C, Michalek S, Tress W.症状检查表(SCL-90-R)标准版和计算机版的比较:一项随机试验。精神病学杂志2000 8月;102(2):147-152。(Medline]
  52. 谢伊,田南特,帕兰特。抑郁、焦虑和压力量表(DASS)的Rasch模型分析。BMC精神病学2009;9:21 [免费全文] [CrossRef] [Medline]
  53. Gosling SD, Vazire S, Srivastava S, John OP.我们应该相信基于网络的研究吗?网络问卷六种先入之见的比较分析。精神病学2004;59(2):93-104。(CrossRef] [Medline]
  54. Leece P, Bhandari M, Sprague S, Swiontkowski MF, Schemitsch EH, Tornetta P,等。网络问卷和邮寄问卷:对照比较。J medical Internet Res 2004 10月29日;6(4):e39 [免费全文] [CrossRef] [Medline]
  55. 图兰格R,闫婷。调查中的敏感问题。心理学报2007;133(5):859-883。(CrossRef]
  56. 鲁兰·C, Røslien J,巴肯·S, Kristiansen J.定制化计算机症状评估与访谈和问卷调查的比较。AMIA年度诉讼程序2006:1081 [免费全文] [Medline]


ACQ:广场恐惧认知问卷
方差分析:方差分析
审计:酒精使用障碍鉴定测试
白:贝克焦虑量表
BDI:贝克抑郁量表
BSQ:身体感觉问卷
鉴定:流行病学研究中心抑郁症量表
GHQ:一般健康问卷
MADRS-S:蒙哥马利-阿斯伯格抑郁量表自我报告
小姐:流动库存
PCL-C:PTSD检查表-平民版
PHQ:患者健康问卷
PnP型:纸和笔
棱镜:系统评价和元分析的首选报告项目
sci - 90 r:症状清单90修改
SF12V2:健康调查简表(12)第二版
STAI-S:状态-特质焦虑量表-状态
STAI-T:状态-特质焦虑量表-特质
血管:视觉模拟量表


G·艾森巴赫(G Eysenbach)编辑;提交13.03.14;同行评议:MA Johansen, C Lalanne, MA Vallejo Pareja;对作者16.07.14的评论;订正后收到12.08.14;接受16.08.14;发表03.12.14

版权

©Sven Alfonsson, Pernilla Maathz, Timo Hursti。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2014年12月3日。

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map