原始论文
摘要
背景:基于标准的评估工具的研究表明,客观评估电子卫生干预措施独立于实证测试的可行性。然而,目前的工具还没有包括一些与干预结果相关的质量结构,如说服设计、行为改变或治疗联盟。此外,这些工具的通用性还没有得到明确的检验。
摘要目的:本文的目的是介绍Enlight测量套件的开发和进一步分析,该套件的开发是为了结合上述概念并解决泛化方面的问题。
方法:作为第一步,进行了全面的系统评价,以确定符合PRISMA声明的相关质量评级标准。然后,这些标准被分类为Enlight。第二步是在42个移动应用程序和42个基于网络的项目(传递媒介)上测试Enlight,这些项目针对与医学疾病或心理健康(临床目标)相关的可改变行为。
结果:一共使用了来自99个确定来源的476个标准来构建光线。评级措施分为两个部分:质量评估和检查表。质量评估包括可用性、视觉设计、用户参与、内容、治疗说服力、治疗联盟和一般的主观评价。检查清单包括可信度、隐私解释、基本安全性和基于证据的项目排名。质量构建表现出优秀的评分者间可靠性(类内相关性= 0.77 -。98,中位数。91)和内部一致性(Cronbach alpha =.83-。90,中位数。88),当分离到交付介质或临床目标时,结果相似。条件概率分析显示,100%在治疗说服力或治疗联盟方面获得公平或以上分数(≥3.0)的项目在用户参与和内容方面获得了相同的分数范围——这一模式并没有出现相反的方向。初步的并发效度分析表明,综合质量分数与所选变量呈正相关。不包括治疗说服力和治疗联合的综合评分低于其他综合评分。
结论:本文提供了实证证据,支持劝说设计和治疗联盟的重要性在一个项目的评估。可靠性指标和初步的并发有效性分析表明,无论交付媒介和临床目标如何,Enlight在检查电子健康项目方面都具有潜力。
doi: 10.2196 / jmir.7270
关键字
简介
个人数字设备的广泛分布改变了大幅提高公众获得卫生干预措施的可能性;数以万计的健康、保健和医疗应用程序现在可以从在线商店下载[
].从公共卫生的角度来看,大量可用的电子健康干预项目使得不可能使用传统的研究方法对其进行实证评估。此外,耗时而昂贵的产品评估过程可能导致试验中所研究的技术在结果公布时已过时[ ]也可能使卫生系统领导人难以与潜在供应商接触[ , ].敏捷科学试图通过专注于一种可适应的灵活的科学过程来解决这些挑战,以支持干预措施的集体开发和评估[ ],同时考虑到支持数字干预的技术的快速变化[ ].然而,尽管研究方法不断发展,患者和医疗专业人员仍然可以通过Web浏览或访问移动应用程序商店来下载和使用大量可用的和未经检查的程序。更复杂的是,这些项目所使用的环境与研究中参与者被主动招募、填写评估并有预定的签到预约不同。因此,参与者在研究中获得的一些支持并不能转化为现实世界,这可能会影响干预结果。不幸的是,现有的基于用户的评级系统收集了现实世界中的评估,并不能提供医疗适当性、安全性或有效性的衡量标准[ ].基于标准的评定量表已被开发用于解决这一评价挑战。然后,训练有素的评分员使用这些量表客观地检查和评分基于核心概念的电子卫生干预方案的质量,每个量表由不同的标准组成[
- ].使用明确定义的评级系统的重要性得到加强,因为如果不使用这样的系统,评分往往不太可靠[ ].为促进对现有电子卫生干预措施进行成本效益评估,此类工具可使利益攸关方在实证测试之前讨论方案的潜力[ ]及提供支持用户推荐系统的资料[ - ].虽然这些工具有几个潜在的用途,但我们将涉及两个方面,我们认为这些工具对评估之前没有涉及到的电子健康干预措施的贡献是重要的:检查与项目治疗潜力有关的质量领域和工具的通用性。与项目治疗潜力相关的质量评级领域
说服性设计和行为改变原则
说服性设计旨在了解影响人们行为和决策的因素,然后使用这些信息来设计引人注目的用户交互[
, ].有趣的是,尽管这些概念已被证明在评估电子健康干预潜力方面很重要,但之前旨在评估使用不同概念的电子健康干预方案质量的评级量表与说服性设计或行为改变质量标准相关。例如,Kientz等人[ ]比较了Nielsen和Molich的可用性启发式的性能[ ],并证明了说服启发式能够在说服、文化和信息问题方面识别更严重和更相关的界面问题。凯尔德斯等[ ]表明,说服性设计的元素唯一地解释了对基于网络的eHealth干预的依从性差异,Webb等人[ ]表明,更好地结合行为改变理论的电子健康干预措施在增加积极的健康相关行为方面也往往有更大的影响。总之,这些研究表明,项目说服设计的质量直接影响其治疗潜力,因此在评估这些项目时必须考虑到这一点。治疗联盟原则
以前没有质量评价量表直接评估了由电子健康干预计划培育的治疗联盟。总的来说,专注于非技术干预的研究表明,治疗联盟是预测心理治疗成功的最可靠的措施之一(例如,[
- ]),并提出它有望预测医疗领域的干预质量(例如,[ - ])。然而,评估用户和软件程序之间潜在的治疗联盟需要重新检查和调整原来的概念,这适用于人与人之间的治疗关系。研究表明,与电子健康干预计划的治疗联盟确实存在,并且这种联盟可能在增加对[
, ]和效能[ ]这些程序。学者们指出,电子健康干预措施中嵌入的关系因素存在差异,这使得一些项目能够更好地与用户建立治疗联盟[ - ].虽然这些检查目前是初步性质的,但需要一种标准化的评估措施,以充分捕捉电子治疗联盟的概念及其在产品质量整体图景中的位置。总的来说,有必要制定标准化的操作定义,以评估电子健康干预方案各方面的质量[
],包括与治疗潜力有关的内容[ ].为了最好地处理每个质量领域的独特贡献,应该考虑到不同标准的完整范围。这样的评估还将使涉众能够调查不同质量领域之间的相互作用及其对结果的影响。工具普遍性
另一个有待充分研究的方面是,基于标准的评级工具是否能够使我们可靠地对开发和设计用于不同传递媒介(如移动、个人电脑和其他)的电子健康干预程序进行评级。这种可靠的评级将有助于审查利用一种以上传播媒介的节目,并在不考虑传播媒介的情况下对节目的质量进行比较。最近,Gomez Quiñonez等[
]证明,针对成人体育活动的基于网络的应用程序与相同的移动健康应用程序相比,提供了更好或类似的结果。随后,在最近对数字父母培训计划的系统回顾中,只有一款移动应用程序被确定为治疗的辅助,而大多数计算机程序被用作独立的干预[ ].这可能是因为,对于某些治疗目标,不同的设计方面限制了一种传递介质的潜力,这可以在使用相同的评估框架时进行检查。质量标准的本质是它们涉及产品设计方面的广泛原则,这有助于它们在不同的环境中使用[ ].关于工具的通用性,剩下的问题集中在使用相同的标准化测量来评估针对不同临床目标的项目的能力上(例如,与医疗条件、心理健康相关的行为)。在以往的电子健康相关评分量表的开发过程中,基于不同临床目标的评分的可靠性矩阵没有得到证明。在工具开发阶段注意泛化是很重要的,因为评分基准的开发可能会受到评审项目的性质的影响。研究的目的是
文献中的空白为Enlight的开发奠定了基础,这是一套基于标准的测量方法,旨在使学者能够客观地评估基于不同质量概念的电子健康干预措施,而不管其交付介质或临床目标。因此,本研究的目的是:(1)通过全面的系统回顾,确定相关的已发表的标准,同时解决与说服性设计、行为改变、治疗联盟/原则(涉及电子卫生和移动卫生干预措施的不同方面的系统审查,包括所有提到的概念,以前没有纳入,将能够在全面审查该领域当前专有知识的基础上建立工具);(2)开发Enlight,这是一套基于标准的质量测量方法,与电子健康计划的各个方面相关;(3)建立评估不同给药介质和临床目的的测量方法的可靠性和可推广性;并且(d)检查不同质量结构之间以及它们与初步效度测量之间的相互相关性。
方法
这项研究分为两部分完成,每一部分反映了所使用的不同程序。第一部分,“光线发展”,包括对质量标准的系统搜索,将这些标准分类为核心领域和子类别,并创建不同的量表。第二部分涉及信度测试和进一步分析质量结构之间的相互关系和初步的并发效度测量。正如所强调的,我们检查了不同的给药介质和临床目的的结果。
光线影业发展
质量标准的系统评审和收集
系统评价是根据系统评价和元分析优先报告项目(PRISMA)声明指南进行的[
)(见 参阅PsycINFO数据库所使用检索词的完整列表)。我们对IEEE Xplore、PsycINFO、PubMed和Science Direct数据库进行了全面的计算机搜索,检索2000年1月1日至2016年4月8日之间发表的包含明确的基于Web或移动应用程序的质量标准的英语文章。由于科技的迅速发展,搜寻时间窗口被限制在2000年[ ]并反映出在很大程度上满足当今用户期望的技术[ ].对于一般质量标准,我们搜索了标准(例如,“标准”或“原则*”)、评估(例如,“评估*”或“测量*”)和交付媒介(例如,“移动*”或“网络*”)的不同组合的论文。我们还搜索了与说服设计和行为改变具体相关的标准(如“标准”或“原则*”)的不同组合的论文。通过检查已确定的论文和以前的综述文章的参考文献列表,手动搜索其他参考文献。我们还通过谷歌搜索、重点网站(如Nielsen Norman Group)和专家建议来回顾灰色文献。为了确定在治疗联盟/原则方面包含明确质量评级标准的英文文章,我们对PsycINFO、PubMed和Science Direct数据库进行了全面的计算机搜索,以查找截至2016年4月8日发表的文章。我们搜索了与心理治疗领域的质量标准(如“潜力”或“标准”或“原则*”)相关的论文,以及与治疗联盟问卷相关的论文。数据抽取与分类
在从已确定的来源提取标准之后,我们建立了一个多学科咨询小组,以支持将这些标准分类为核心领域和子类别,并支持制定措施的项目和类别(见
,顾问小组)。由于为治疗联盟评级确定的标准不关注电子健康干预措施(而是关注人类治疗师),因此一项主题分析[ ],以重新定义电子卫生干预措施方面的这些标准,作为分类和构建最终量表之前的初步步骤。这一步是由三位有执照的临床心理学家进行的。光线影业测试
确定相关的电子健康干预方案
为了建立该工具的普遍性和可转移性,我们测试了针对与慢性医学疾病(即与健康相关的行为)或心理健康相关的可改变行为的项目,以及通过移动应用程序或网站(通过个人电脑访问)提供的项目。相关项目的系统识别遵循PRISMA声明指南[
)(见 查看用于识别免费电子健康干预计划的搜索词)。对于与健康相关的行为,我们的目标是被认为是美国慢性疾病导致死亡的主要可预防原因之一的行为[ ]:饮食、体育活动、戒烟和戒酒。在心理健康方面,我们的搜索重点是抑郁、焦虑、心理健康和幸福。对于网站和移动应用程序,我们只纳入了以英语发布的针对特定情况的免费使用程序。为了确定相关的移动应用程序,我们于2016年9月5日对谷歌Play商店进行了系统搜索,使用与每种情况相关的搜索词(例如,饮食:饮食或减肥)。手机应用程序的入选标准是(1)英语,(2)免费,(3)在仔细检查不同Android类别的程序类型后,从Android类别“健康与健身”和“医疗”中选择。为了确定相关的基于网络的项目,2016年9月5日进行了系统搜索,对每个条件(如抑郁症、戒烟)使用谷歌搜索查询,并搭配“免费在线”和“自助”等术语。对于每一种情况,我们都研究了前两页的有机结果,因为研究表明,只有很少一部分用户会浏览第二页以上的内容。
, ].如果在这些有机搜索中找到了引用程序列表的来源,我们也会将这些程序包括在内。通过搜索移动应用程序和网站创建的列表然后根据标题进行筛选,以删除重复的内容并排除不相关的程序(例如杂志)。在排除之前,使用谷歌Play或网站主页检查标题不明确的节目(由一个不是节目质量评定者之一的人)。使用随机化网站[ ], 24个电子健康项目被随机选择用于四种条件——两种传递媒介(移动/网站)×两种临床目标(健康相关行为/心理健康)——总共达到96个项目。例如,在这个过程中,随机选择了24个针对健康相关行为的移动应用程序。评级机构的培训
不同的评分员评估了项目的质量(KF)和检查表(NM)部分,该研究的主要作者(AB)作为这两个部分的第二个独立评分员。总共有12个项目(前四个来自随机列表的四个条件中的每一个)被用于试点测试量表。作为这个过程的一部分,我们还检查了专家推荐的其他领域的高质量程序。这种方法使编码员能够定位转录错误并改进编码方案。开发的一个目标是在构造级别上实现高的相互评分者可靠性,以便Enlight用户能够可靠地呈现和比较不同程序之间的构造评分。为了实现这一目标,细化过程遵循了心理学领域主题测试和投影测试开发基准的开发方法[
- ].在此过程中,编写了基准测试,改进了代码,并开发了初步手册。一旦评分者(独立地)对节目进行评分,评分就会同时共享。评级人员随后开会讨论评级,并对比额表基准作出适当的澄清和调整。为了最大限度地减少潜在的偏差,当出现分歧时,由第三人检查盲评级,并进一步讨论评级,以实现最终的代码改进。可靠性测试
与之前在该领域的研究相一致[
],最低样本量为41,以87%的把握确定真正的评分者间信度是否在0.80样本观察值的0.15范围内[ , ].因此,我们评估了42个移动应用程序(21个针对心理健康,21个针对与健康相关的行为)和42个网站程序(分布相同)。因此,我们的可靠性测试还包括42个针对心理健康的项目和42个针对健康相关行为的项目,总共有84个独立评估的电子健康干预项目。本文介绍了基于评级者评级的所有Enlight类别的分析,除了安全检查表,因为安全项目是基于从访问产品服务器的各方获取的信息(而不是评级者评级)。使用类内相关系数(ICC)测量每个质量评估子量表的评分者间信度[
]利用绝对一致的双向混合效应模型[ ].核心领域的内部一致性使用Cronbach alpha计算,它反映了一组项目作为一个组的密切程度[ ].由于没有假设检查表项之间的同质性(不同的检查表项可能与结构的不同部分有关),因此没有在分类尺度上检查与客观需求相关的项目的内部一致性(Enlight检查表)[ ].因此,确定了每个分类项目的评分者之间的信度。科恩kappa用于衡量两个评分者之间达成的协议,该协议高于或超过随机协议的总体概率,[ ].进一步分析
总的来说,在调整的同时,研究了在质量评分和相互相关性方面,输送介质和临床目的之间的差异P基于Benjamini-Hochberg校正的值[
].使用Pearson相关检验不同质量评估之间的相关矩阵。这些评估之间的关系还使用条件概率方法进行了检查,该方法测量了一个事件发生的概率,假定另一个事件已经发生[ ].该分析旨在检查在满足另一质量标准的产品总样本中,满足某一质量标准的产品的百分比。这种方法使我们能够检查一个质量结构中的特定范围分数是否与另一个质量结构中的相似范围分数相关。初步并发效度是通过检查不同质量结构和选定的变量之间的相关性来评估的,这些变量预期与程序的可接受性或有效性有关。基于多个质量构念的组合质量构念得分也被添加到该分析中,以检验将多个概念总结为单个得分的好处。所选变量中的两个,可信度检查表和研究证据支持的程序(循证程序),是作为光线的一部分开发的,将在与光线发展相关的结果部分进行描述。
第三个变量,程序的受欢迎程度,旨在根据选择使用它的人数来检查初步的可接受性。对于网站,我们记录Alexa流量排名[
],根据每日平均浏览量和网页浏览量来估算网站的受欢迎程度[ ].此流量排名是在我们将排名与SimilarWeb流量估计器进行比较的初步步骤[ ],得到了相似的结果。我们从分析中排除了嵌套在大型网站内的基于web的程序,因为预计有很高比例的用户访问网站是出于干预程序以外的原因。手机应用下载数量来自谷歌Play,其中显示了每个应用的下载范围(例如,500-1000);对于每个程序,都记录了下限(例如500)。结果
光线影业发展
电子和人工检索共产生7903条记录(见
对于流程图)。通过第一次筛选过程,筛选出181篇论文并进行详细评估,共有99篇来源符合所有纳入标准(76篇来自同行评审期刊,9篇来自会议论文集,7篇手稿,6篇网站,1本书)。本文提供了标准收集过程中使用的资源的完整列表(见 ,来源列表)。总的来说,从来源中提取了1252项;其中143项与电子卫生产品评估无关,633项被认为是重复的,总共有476项标准。然后,确定的标准被分组并在迭代过程中组织为10个结构(参见
)和创建Enlight的三个部分:分类(即,根据公认的类别对程序进行分类)、质量评估和检查列表( 光线影业)。标准结构 | n (%) | |
分类(预期用户、临床状况、项目目的) | 19日(4.0) |
|
可用性(导航、易学性、易用性) | 48 (10.1) | |
视觉设计(美学、布局、尺寸) | 35 (7.4) | |
用户粘性(内容呈现,互动性,不恼人,有针对性/量身定制/个性化,吸引人) | 45 (9.5) | |
内容(以证据为基础的内容,信息提供质量,完整简洁,项目目的清晰) | 79 (16.6) | |
治疗说服力(呼吁采取行动,减少活动负荷,治疗原理和途径,奖励,真实数据 驱动/适应,持续反馈,期望和相关性) |
92 (19.3) | |
治疗联盟(基本接受和支持,积极的治疗期望,相关性) | 45 (9.5) | |
一般主观评价(符合临床目标的适当特征,能力和动机的正确组合,亲和力) | 36 (7.6) | |
信誉一个(业主信誉,维护,强有力的咨询支持,第三方背书,成功证据 实施,以证据为基础的计划) |
49 (10.3) | |
隐私和安全(使用条款、社交平台上的信息、数据和传输的安全、数据暴露的文件、 合规,第三方背书) |
28日(5.9) |
一个还包括基于证据的项目,分别进行排名和检查。
品质评估组
质量评估部分旨在了解电子保健干预措施的不同质量。它由25个项目组成,分为与电子健康干预计划相关的6个核心结构:可用性、视觉设计、用户参与、内容、治疗说服力和治疗联盟。另一个结构,一般主观评价(程序的潜力),要求评分者在完成核心概念评分后对整个程序进行主观评价。所有结构都基于启发式评估,以便能够独立于实证检查对程序进行检查,建立在1到5的范围内(1=非常差;2 =差;3 =公平;4 =好;5=非常好),并通过它们所包含的项目的平均值来计算。
清单部分
总的来说,这些清单基于公认的标准,涵盖了与产品使用相关的不同领域,包括可信度、基于证据的程序(作为程序可信度的一个不同部分)、隐私解释和基本安全性。这些检查清单不会直接影响最终用户对产品功效的体验;但是,列表中包含的标准可能会使用户(或提供者)面临公认的风险或利益。这些指标是通过汇总每个分类项目的得分来计算的——不包括基于证据的项目,因为它是基于五分制的。只有在隐私解释和基本安全检查表方面,分数越低就意味着质量越好。基本安全检查表是唯一不基于评级者的评级,而是基于从访问产品服务器的各方检索的信息。
光线影业测试
可靠性测试
电子搜索总共产生了2227个移动应用程序和1283个基于网络的程序
对于流程图)。通过第一次筛选过程,235个应用程序和502个网站被排除在外,1509个应用程序和665个网站被排除在外,因为不符合纳入标准。总共剩下523个应用程序和116个基于网络的程序。其中,通过随机化程序选择了96个eHealth方案,其中12个用于培训过程,84个用于可靠性检验。用于本文分析的各种程序所获得的分数可在 (项目的得分)。而且 给出Enlight分析的类别的描述性统计、Cronbach alpha和icc。构成质量评估部分的项目的描述性统计数据可在 (质量部分项目的描述性统计)以及可信度检查表和隐私解释检查表项目(在实质性到显著一致范围内)的相互评分者kappa可靠性评分 (kappa可靠性评分的可信度和隐私解释核对表项)。
临床的目的 | 总(N = 84) | 移动(n = 42) | 网站(n = 42) | ||||||
质量评级 | 意思是(SD) | α | ICC (95% ci) | 意思是(SD) | α | ICC (95% ci) | 意思是(SD) | α | ICC (95% ci) |
可用性 | 3.31 (0.69) | 点 | 点(.86总收入) | 3.46 (0.71) | .85 | .82(.68点点) | 3.17 (0.65) | .79 | .96点(.92 .98点) |
视觉设计 | 2.81 (0.82) | 点 | .77点(.64点.85) | 2.93 (0.83) | 多多 | .80(点.89) | 2.68 (0.79) | .85 | .74点(点.86) |
用户参与 | 2.62 (0.80) | 多多 | .90(尾数就总收入) | 2.47 (0.83) | 点 | .92(点.96点) | 2.78 (0.73) | .85 | .85(.64点公布) |
内容 | 3.00 (0.98) | .90 | 公布(.89 .96点) | 2.40一个(0.87) | 点 | 点(点.95) | 3.59一个(0.68) | 尾数就 | .85 (.73 .92) |
治疗说服力 | 2.23 (0.68) | 多多 | 多多(尾数就公布) | 2.11 (0.71) | 多多 | 公布(.86 .97点) | 2.35 (0.62) | .87点 | 尾数就(55 .89) |
联合治疗 | 2.20 (0.75) | 点 | .89 (.72 .95) | 1.99 (0.72) | 点 | .87点(.72总收入) | 2.40 (0.73) | 总共花掉 | .87点(54 .95) |
一般的主观 评价 |
2.09 (0.91) | .89 | 点(.73 .89) | 1.89 (0.84) | 多多 | .85 (.73 .92) | 2.29 (0.93) | .89 | 收(50 .86) |
可信度检查表 | 3.14 (1.50) | - - - - - -b | .95(.92 .97点) | 2.21一个(1.16) | - - - - - - | .95(.90 .97点) | 4.07一个(1.20) | - - - - - - | .95(.90 .97点) |
以证据为基础的项目 | 1.32 (0.66) | - - - - - -c | 总收入(点.96点) | 1.07一个(0.34) | - - - - - - | .92(.86 .96点) | 1.57一个(0.80) | - - - - - - | 总收入(.88点.97点) |
隐私的解释 检查表 |
2.76 (1.58) | - - - - - -b | .98(.97点。) | 3.33一个(1.26) | - - - - - - | 获得(.98。) | 2.19一个(1.67) | - - - - - - | .97点(.95 .98点) |
一个在Benjamini-Hochberg调整后,各组(在结构内)有显著差异P<。05年在t测试两个独立的样本。
b每个分类项目的一致性度量(kappa)在
.c分数是基于一个项目;因此,Cronbach alpha无法计算。
临床的目的 | 健康相关行为(n=42) | 心理健康(n=42) | ||||
质量评级 | 意思是(SD) | α | ICC (95% ci) | 意思是(SD) | α | ICC (95% ci) |
可用性 | 3.29 (0.77) | 点 | .92(.85 .96点) | 3.34 (0.61) | 点 | 多多(55 .96点) |
视觉设计 | 2.79 (0.78) | 点 | 尾数就(55 .89) | 2.82 (0.87) | 点 | .79(55公布) |
用户参与 | 2.64 (0.79) | .90 | .95(点.97点) | 2.60 (0.81) | 点 | 点(点总收入) |
内容 | 2.90 (0.93) | .90 | .86(大于.92) | 3.09 (1.03) | .90 | .95(点.98点) |
治疗说服力 | 2.28 (0.66) | .86 | .87点(.76公布) | 2.18 (0.70) | .90 | .89 (.62 .95) |
联合治疗 | 2.03 (0.70) | .77点 | 收(.41点.87点) | 2.37 (0.78) | .87点 | .89(主板.95) |
一般主观评价 | 2.03 (0.86) | 多多 | 标识相关性.85) | 2.15 (0.95) | .89 | .85 (.73 .92) |
可信度检查表 | 2.88 (1.35) | - - - - - - | 公布(.87点.97点) | 3.41 (1.61) | - - - - - - | .96点(.92 .98点) |
以证据为基础的项目 | 1.21 (0.52) | - - - - - - | .96点(.92 .98点) | 1.43 (0.77) | - - - - - - | 公布(.88点.96点) |
隐私解释清单 | 3.14 (1.44) | - - - - - - | .97点(.94 .98点) | 2.38 (1.64) | - - - - - - | 获得(.98。) |
光线类别的内部一致性对于整个样本来说非常高(Cronbach alpha:范围。83-。90,中位数。88),也当分离到交付介质(移动Cronbach alpha:范围。83-。91,中位数。88;网站Cronbach alpha:范围。78-。89, median .85) or clinical aims (health-related behaviors Cronbach alpha: range .77-.90, median .86; mental health Cronbach alpha: range .84-.90, median .87). The interrater reliabilities of the Enlight categories were in the excellent to almost perfect agreement range for the total sample (ICC: range .77-.98, median .91) and also when separated into delivery mediums (mobile ICC: range .82-.99, median .92; website ICC: range .73-.97, median .86) or clinical aims (health-related behaviors ICC: range .72-.97, median .90; mental health ICC: range .79-.99, median .89). As can been seen in
基于网络的项目与基于手机的项目在内容、可信度检查表、基于证据的项目和隐私解释检查表等方面存在显著差异,均倾向于基于网络的项目。在分娩介质和临床目的之间,光线分类的得分没有发现其他显著差异。进一步分析
质量评估结构之间的皮尔逊相关性在
.在整个样本中,可用性与其他结构无关。所有其他结构均表现出显著的、中等至强的正相关(r:范围.34-.86;所有P≤措施)。在用户参与、内容、治疗说服力和治疗联盟之间发现了一种强烈的正相关模式(r:范围.68-.86;所有P<措施)。质量评估结构之间的相关性是相似的,当分离为两个临床目标(健康相关的行为,心理健康)。然而,在不同的传递介质中发现了一些差异。因此, 并给出了不同传递介质的相关矩阵。在移动应用程序的样本中,可用性与其他结构无关。在基于网络的程序样本中,在可用性和其他结构之间发现了弱到中等的正相关。与移动应用程序样本相比,基于web的程序样本中的视觉设计与大多数其他结构之间的相关性在数值上较低。质量评级 | 可用性 | 视觉设计 | 内容 | 用户参与 | 治疗 说服力 |
||||||||
r | P | r | P | r | P | r | P | r | P | ||||
总(N = 84) | |||||||||||||
视觉设计 | 36 | 措施 | |||||||||||
内容 | 02 | 点 | 点 | 措施 | |||||||||
用户参与 | .14点 | . 21 | 主板市场 | <措施 | .68点 | <措施 | |||||||
治疗说服力 | 13。 | 23) | .60 | <措施 | i = | <措施 | .86 | <措施 | |||||
联合治疗 | 酒精含量 | 16 | 53 | <措施 | 综合成绩 | <措施 | 收 | <措施 | 开市 | <措施 | |||
移动(n = 42) | |||||||||||||
视觉设计 | 16 | 。31 | |||||||||||
内容 | 0。一个 | .76 | .74点 | <措施 | |||||||||
用户参与 | 03 | .87点 | 开市 | <措施 | 点 | <措施 | |||||||
治疗说服力 | 0。一个 | .76 | 收 | <措施 | .85 | <措施 | .89 | <措施 | |||||
联合治疗 | .002一个 | 获得 | 2 | <措施 | 结果 | <措施 | 2 | <措施 | 收 | <措施 | |||
网站(n = 42) | |||||||||||||
视觉设计 | 54 | <措施 | |||||||||||
内容 | .41点一个 | .008 | 。31 | .04点 | |||||||||
用户参与 | .46一个 | .002 | 正 | <措施 | 55 | <措施 | |||||||
治疗说服力 | 点 | 03 | 53 | <措施 | .60 | <措施 | 结果 | <措施 | |||||
联合治疗 | 票价一个 | > .002 | .51 | 措施 | 收 | <措施 | 收 | <措施 | 2 | <措施 |
一个使用经过Benjamini-Hoffman调整的Fisher z变换,我们发现传递媒介(手机、网站)之间的Pearson相关值存在显著差异P< . 05。
为了进一步研究移动应用样本中的可用性和其他结构之间的关系,在排除了功能非常少的移动应用后,这些相关性被重新计算(n=12;在研究中用“a”标记的移动应用程序
).评级者认为这些手机应用的可用性得分很高,只是因为它们非常精简,因此易于学习和使用,而不是因为特定的设计方面提高了它们的可用性。对于其余的移动应用程序样本(n=30),可用性和其他结构之间发现了适度的正相关(视觉设计:r= 55,P= .002;用户参与:r=点,P= .02点;内容:r= .41点,P= .03点;治疗说服力:r= .35点,P= .055;联合治疗,r= .57,P=措施)。为了进一步检验用户参与、内容、治疗说服力和治疗联盟之间的强相关性模式,独立于交付媒介或临床目标,通过检查在一个结构中获得公平或以上(≥3.0)分数的项目在另一个结构中获得公平或以上分数的项目样本的百分比,进行了条件概率分析(
).可用性和视觉设计也增加了 向读者介绍所有质量结构的概述。作为
显示,在治疗说服力或治疗联盟方面获得公平或以上分数的电子健康干预项目在用户参与度和内容方面也获得了这一范围的分数。对于在用户参与或内容方面获得公平或以上分数的项目,在治疗说服力或治疗联盟方面获得相同分数的项目的百分比在33%至64%之间。实际上,在用户参与或内容方面获得公平的分数并不一定意味着该项目在治疗说服力或治疗联盟方面也获得公平的分数。在用户参与度和内容之间也出现了类似的模式,用户参与度得分为“尚可”或“尚可”以上,意味着该程序在内容上的得分很可能为“尚可”或“尚可”以上(94%),但在相反的方向上,这种模式并不明显。最后,该图表明,大多数在可用性以外的任何结构中获得一般或以上分数的程序在可用性方面也获得了相同的分数范围(77.6%至88.2%)。初步并发有效性
提出了质量结构与一般主观评价、可信度检查表、循证项目(实证研究证据)和项目受欢迎程度得分之间的Pearson相关性。值得注意的是,一般的主观评价被放在这个表中,因为它适用于对项目的一般检查,并且从组织的角度来看;然而,这个变量被认为是有偏见的,因为这个评估是在评分者对质量结构进行全面检查之后完成的。本分析还添加了三个聚合质量构建评分:(1)用户参与度、内容、治疗说服力和治疗联盟评分的平均值;(2)除治疗说服力和治疗联合外的所有质量构念的平均值(传统总数),以及(3)所有质量构念的平均值(总数)。
质量评级 | 一般的主观 评价(n = 84) |
可信度检查表(n=84) | 循证计划(n=84) | 节目受欢迎程度(n=70)一个 | ||||
r | P | r | P | r | P | r | P | |
可用性 | 只要 | 厚 | 只要 | .10 | . 01 | .96点 | 07 | 54 |
视觉设计 | .57 | <措施 | 02 | 多多 | 06 | 算下来 | 低位 | 02 |
用户参与 | .77点 | <措施 | 口径。 | .04点 | 口径。 | .050 | .40 | 措施 |
内容 | 2 | <措施 | .60 | <措施 | 无误 | <措施 | 点 | 点 |
治疗说服力 | .76 | <措施 | 口径。 | .049 | 点 | 02 | .41点 | <措施 |
联合治疗 | 结果 | <措施 | 。31 | 04 | 。31 | 04 | . 21 | 。08 |
用户粘性+内容 +治疗说服力 +治疗联盟 |
点 | <措施 | .40 | <措施 | .35点 | 措施 | .30 | . 01 |
传统的总b | 尾数就 | <措施 | 点 | 02 | 23) | 03 | .30 | . 01 |
总计c | 点 | <措施 | 陈霞 | .009 | 低位 | . 01 | 收 | .007 |
一个分析排除了14个嵌套在大型网站中的基于网络的程序(见标记为“b”的程序)。
),因为预计有很高比例的用户是出于干预计划以外的原因访问该网站的。b传统的总=所有结构的平均值,不包括治疗说服力和治疗联盟。
cTotal=所有结构的平均值。
总的来说,没有一个单独的结构具有优于其他结构的相关性模式;然而,用户参与、内容、治疗说服力和治疗联盟与所有变量呈正相关,其中大多数是显著的(13/16;r:范围.22-.81;所有P< . 05)。综合得分与可信度检查表、循证项目和项目受欢迎程度得分(r:范围.23-.40;所有P< . 05);与其他综合分数相比,传统总分在数字上表现不佳。所有综合得分均与所有选定变量呈显著正相关。
采用经Benjamini-Hoffman调整的Fisher z变换,不同给药介质或临床目的间Pearson相关性无显著差异P<。05,但有两个例外:可用性和可信度检查表相关性存在显著差异,可用性和循证程序相关性在传递媒介之间存在。在基于移动的程序中,这些相关性为负(r= -。34而且r= -。37,respectively) and positive in Web-based programs (r=。27而且r=。31,respectively).
讨论
Enlight是一套全面的评估,用于评估电子健康干预计划的质量。它是在第一次系统综述之后开发的,评估了电子健康和移动健康干预措施的不同方面,包括说服设计、行为改变和治疗联盟原则。作为质量评估部分的一部分,与项目的治疗潜力有关的两个概念在以前的量表中没有出现(例如,[
, ])介绍了治疗说服和治疗联合。据我们所知,Enlight也是第一套包含独立部分的基于启发式的质量度量,一个用于覆盖用户体验的质量方面,另一个用于不直接改变用户对程序的体验的质量方面(例如,团队的可信度不属于质量评估部分中的任何结构)。结合构建水平的高评分者间可靠性得分(ICC:范围。77-。98,中位数。91),这些发现表明,Enlight与以前的工作不同,它使利益相关者能够客观地检查个人质量结构;因此,光线是一套衡量标准,而不是一种质量衡量标准。结果表明,作为电子健康干预计划主要质量结构的一部分,检查治疗说服力和治疗联盟是很重要的。最重要的是,条件概率分析显示,100%在治疗说服力或治疗联盟中获得公平或以上分数的电子健康干预项目在用户参与度和内容上获得相同的分数范围。在用户参与和内容方面得分一般或以上的项目中,只有33% - 64%的项目在治疗说服力或治疗联盟方面得分相同。这意味着,尽管在上述四种构念之间发现了强烈的正相关性,但它们之间的关系更加复杂:在用户参与或内容方面达到一定的评分标准并不一定意味着在治疗构念中也能达到这个标准,因此可以对这些构念进行单独的评分。其次,当检查综合得分与预期与项目的可接受性或有效性相关的变量之间的相关性时,不包括治疗说服力或联盟的综合得分在描述上逊于其他综合得分,但差异很小。然而,总的来说,这些初步发现与其他研究的结果一致,表明有说服力的设计和行为改变原则是理解电子健康干预计划潜力的重要因素[
, , ].这些发现也与先前的研究相一致,这些研究表明,电子健康干预计划促进治疗联盟可能在理解这些计划的潜力方面发挥作用[ - ].分析表明,综合质量评分与可信度、循证课程和课程受欢迎程度评分之间存在显著的正相关关系(r:范围.23-.41;所有P≤.02点)。在建构层面,用户参与、内容、治疗说服力和治疗联盟与这些变量表现出正相关的模式,尽管结果并不总是显著的(13/16,P< . 05)。这些初步发现与Enlight的并发有效性有关,但应谨慎解释,因为所选变量中有两个仅与项目有效性间接相关。然而,项目的受欢迎程度得分与产品的接受程度有关,而基于证据的项目得分与产品有效性的可靠研究证据的可用性直接相关。这些发现突出了该工具的潜力,尽管需要进一步的检查,如后面讨论。
整合质量评估分项分数
总的来说,之前的量表开发人员引入了将质量结构通过平均组合到聚合分数中[
]并且是集成不同结构的最简单方法。如前所述,这种整合得到了实证证据的支持,这些实证证据表明,所有综合得分与所选变量具有显著的正相关。然而,研究结果表明,以直接的方式将可用性与其他分数结合起来可能并不有益。这是因为精益程序可能包含非常有限的内容,而且功能非常容易学习和使用。因此,这样的程序获得了很高的可用性分数,但在内容、参与或治疗结构方面得分很低。我们的发现与之前的研究一致,这些研究表明可用性可能需要被视为有效干预的障碍,而不是促进者(例如,[ , ])。在不同的情况下,不同的结构可能更重要或更多余。例如,Althoff等人表明,移动应用程序“口袋妖怪Go”要求用户在不同的物理位置之间移动以在游戏中前进,这有助于增加用户的身体活动[ ].参与这些类型的游戏可能等同于有益的结果;因此,在这种情况下,治疗说服力结构可能变得多余。总之,在确定如何以一种准确捕捉不同干预的潜力的方式整合它们之前,需要更多的研究来检查不同结构之间的关系。普遍性
信度分析表明,在不同的给药介质和临床目的中,评分者之间的一致性和内部一致性范围相似。进一步的分析显示,在不同组中,质量评估得分与可接受性和有效性得分之间的相关性范围相似,这表明这些质量评级解释了这些组中相同的现象。这是应用基于启发式的评估技术的结果,该技术针对质量的一般原则。例如,治疗说服力原则,如“治疗理性”,或内容原则,如“信息提供”,不区分传递媒介或临床目的。在我们的审查过程中,我们也没有确定与项目质量相关的重要原则,不能通过特定的交付媒介来解释。这些结果扩展了以前基于标准的工具的工作,首次指出了使用一种工具客观评价不同电子卫生干预措施的可能性,而不管其交付媒介或临床目的如何。我们的分析还发现了基于网络和基于移动的项目在内容、可信度、基于证据的项目和隐私解释清单方面的一些显著差异,所有这些都有利于基于网络的干预。值得注意的是,基于网络的干预已经存在了更长的时间;因此,有更多的机会进行基于经验的修订,让学者成为该领域不可或缺的一部分。
限制
这项研究有几个需要解决的局限性。尽管引入了Enlight质量分数与并发效度相关变量之间的相关性,但这并不能完全证明准则在直接预测程序的可接受性或有效性方面的有效性。一旦关于用户分析和结果报告的可靠数据可以用于一组评级程序,就可以检查这一点。进一步的限制是,在这一点上,我们不能提出一个组合质量评估分数的单一策略,或者什么范围的分数将足够好,以创建期望的结果;相反,我们建议提出几个结构,并检查它们之间的关系,直到有更多的证据支持一种特定的得分集成方法。如前所述,Enlight所展示的高可靠性使我们能够在构造级别上呈现所有分数(因为它们可以被视为独立的客观指标)。
未来的发展方向
指出了今后研究和实践的几个方向。首先,光线的预测有效性可以通过对不同的项目进行评级来检验,这些项目的接受度和有效性指标是可获得的,并调查质量分数是否以及哪些可以预测参与度和有效性。其次,一旦对许多程序进行了评估,开发一个不同结构之间各种关系的模型可能是有益的。此外,当试图评估人类支持以增强依从性的额外需求时,专门检查治疗联盟和治疗说服力可能是有帮助的[
或在电子卫生干预中提供任何其他好处。第三,根据包含培训包的完整自助手册来检查培训人们使用光线的适用性可能是有帮助的。最后,研究这种工具在采用新方案时如何支持卫生系统领导人的决策将是有益的。纽约诺斯韦尔健康中心正在努力进行这样的检查。结论
本文提供了实证研究结果,强调在质量评级的背景下检查说服性设计和治疗联盟的重要性。它还证明了使用一套措施客观评估不同电子卫生干预措施的适用性,而不管其交付媒介或临床目标,前提是评分者接受了适当的培训。高可靠性矩阵和初步的并发有效性表明了该工具在检查电子健康计划和计划质量不同方面之间的多模态关系方面的潜力。需要更多的研究来确定该工具预测电子健康计划有效性的有效性。
致谢
作者要感谢Ofer Holtsman, Eytan Majar, Ofer Reichman, Ohad Samet和Amit Shabtay对光线开发的支持。
利益冲突
没有宣布。
参考文献
- Aitken M, Gauntlett C.患者应用程序改善医疗保健从新奇到主流。帕西帕尼,新泽西州:IMS医疗保健信息学研究所;2013.
- 库马尔S, Nilsen WJ, Abernethy A, Atienza A, Patrick K, Pavel M,等。移动医疗技术评估:移动医疗证据研讨会。Am J Prev Med 2013年8月;45(2):228-236 [免费全文] [CrossRef] [Medline]
- 鲍梅尔a .为现有电子精神卫生产品的可行评估方法进行论证。行政政策管理健康2016年9月12日1-4。[CrossRef] [Medline]
- Baumel A, Muench F.电子健康干预的启发式评估:建立与治疗过程相关的标准。JMIR Ment Health 2016年1月13日;3(1):e5 [免费全文] [CrossRef] [Medline]
- Hekler EB, Klasnja P, Riley WT, Buman MP, Huberty J, Rivera DE,等。敏捷科学:为现实世界中的行为改变创造有用的产品。Transl Behav Med 2016 6月;6(2):317-328 [免费全文] [CrossRef] [Medline]
- Patrick K, Hekler E, Estrin D, Mohr DC, Riper H, Crane D,等。技术变革的步伐:对数字健康行为干预研究的影响。2016年11月;51(5):816-824。[CrossRef] [Medline]
- 张志强,张志强,张志强,等。移动健康应用程序评级措施的相互评级者可靠性:分析顶级抑郁和戒烟应用程序。JMIR Mhealth Uhealth 2016;4(1):e15 [免费全文] [CrossRef] [Medline]
- Charnock D, Shepperd S, Needham G, Gann R. DISCERN:一种用于判断关于治疗选择的书面消费者健康信息质量的工具。中华流行病学杂志1999 Feb;53(2):105-111 [免费全文] [Medline]
- 李志强,李志强。基于WebQEM的web应用质量评估方法。IEEE多媒体2002;9(4):20-29。
- 院长M, Koompalum D, Dong D, Martin BC。WebMedQual量表的初步开发:卫生网站质量建设的领域评估。国际医学杂志2006年1月;75(1):42-57。[CrossRef] [Medline]
- Stoyanov S, Hides L, Kavanagh D, Zelenko O, Tjondronegoro D, Mani M.移动应用程序评级量表:评估健康移动应用程序质量的新工具。JMIR Mhealth Uhealth 2015年3月11日;3(1):e27 [免费全文] [CrossRef] [Medline]
- PsyberGuide。2015.URL:http://psyberguide.org/[已访问2015-04-10][WebCite缓存]
- 美国焦虑和抑郁协会,2016。心理健康应用网址:https://www.adaa.org/finding-help/mobile-apps[已访问2016-11-02][WebCite缓存]
- 卡塔尔世界杯8强波胆分析JMIR出版,2015。为移动应用程序的新JMIR移动健康同行评审工具的移动健康研究和开发做出贡献!URL://www.mybigtv.com/announcement/view/77[访问2015-08-10][WebCite缓存]
- 说服技术:使用计算机改变我们的思维和行为(交互技术)。加州旧金山:摩根·考夫曼;2002.
- 《设计中的说服》,2017。URL:https://uxmag.com/articles/persuasion-in-design[访问时间:2017-02-09][WebCite缓存]
- 李志强,李志强。基于劝导式健康技术的启发式评价。2010年发表于:第一届ACM国际卫生信息学研讨会;2010年11月11日至12日;弗吉尼亚州阿灵顿。
- 刘志强,李志强。用户界面的启发式评估方法。1990年发表于:CHI '90 SIGCHI计算机系统中的人为因素会议;1990年4月1日至5日;西雅图,华盛顿州。
- Kelders SM, Kok RN, Ossebaard HC, Van Gemert-Pijnen JE。有说服力的系统设计确实很重要:系统地回顾基于网络的干预措施的依从性。中国医学杂志,2012;14(6):e152 [免费全文] [CrossRef] [Medline]
- Webb TL, Joseph J, Yardley L, Michie S.使用互联网促进健康行为改变:理论基础、行为改变技术的使用和有效性交付模式的影响的系统回顾和元分析。中国医学杂志,2010;12(1):e4 [免费全文] [CrossRef] [Medline]
- Martin DJ, Garske JP, Davis MK.治疗联合与结果和其他变量的关系:一项meta分析综述。中华临床心理杂志2000年6月;68(3):438-450。[Medline]
- Kazdin AE, Marciano PL, Whitley MK.儿童对立、攻击性和反社会行为的认知行为治疗联盟。《临床心理咨询杂志》2005年8月;73(4):726-730。[CrossRef] [Medline]
- Klein DN, Schwartz JE, Santiago NJ, Vivian D, Vocisano C, Castonguay LG,等。抑郁症治疗中的联合治疗:控制既往变化和患者特征。临床心理咨询杂志2003年12月;71(6):997-1006。[CrossRef] [Medline]
- Ferreira PH, Ferreira ML, Maher CG, Refshauge KM, Latimer J, Adams RD.临床医生和患者之间的治疗联盟预测慢性下腰痛的结果。物理学报,2013,30(4):379 - 379。[CrossRef] [Medline]
- Kim SC, Kim S, Boren D.患者和提供者之间的治疗联盟质量预测总体满意度。军医杂志2008年1月;173(1):85-90。[Medline]
- Bennett JK, Fuertes JN, Keitel M, Phillips R.狼疮治疗中患者依恋和工作联盟对患者依从性、满意度和健康相关生活质量的作用。患者教育计数2011 Oct;85(1):53-59。[CrossRef] [Medline]
- Molassiotis A, Morris K, Trueman I.坚持抗逆转录病毒药物治疗的患者-临床医生关系的重要性。中华儿科杂志2007 12月;13(6):370-376。[CrossRef] [Medline]
- Bickmore T, Gruber A, Picard R.在自动化健康行为改变干预中建立计算机-患者工作联盟。患者教育计数2005 Oct;59(1):21-30。[CrossRef] [Medline]
- Clarke J, Proudfoot J, Whitton A, Birch M, Boyd M, Parker G,等。与全自动移动电话和网络干预的治疗联盟:随机对照试验的二次分析。JMIR Ment Health 2016 Feb 25;3(1):e10 [免费全文] [CrossRef] [Medline]
- Bergman NL, Carlbring P, Linna E, Andersson G.焦虑障碍定制基于互联网的认知行为治疗工作联盟对治疗结果的作用:随机对照试点试验。JMIR Res Protoc 2013;2(1):e4 [免费全文] [CrossRef] [Medline]
- Cavanagh K, Millings A. (Inter)个人计算:治疗关系在电子心理健康中的作用。中华当代心理杂志,2013;43(4):197-206。
- Holter MT, Johansen A, Brendryen H.完全自动化的电子健康程序如何模拟三个治疗过程:一个案例研究。J medical Internet Res 2016 6月28日;18(6):e176 [免费全文] [CrossRef] [Medline]
- Barazzone N, Cavanagh K, Richards DA。计算机化认知行为疗法和治疗联盟:定性调查。临床精神病学杂志2012 11月;51(4):396-417。[CrossRef] [Medline]
- Eysenbach G, Powell J, Kuss O, Sa E.评估消费者在万维网上的健康信息质量的经验研究:系统回顾。《美国医学会杂志》2002;287(20):2691 - 2700。[Medline]
- 戈麦斯QS,沃尔索尔MJ,舒尔茨DN,德VH。移动医疗还是电子医疗?荷兰成人基于网络的计算机定制身体活动干预的有效性、使用和评价:一项随机对照试验。J Med Internet Res 2016 11月09;18(11):e278 [免费全文] [CrossRef] [Medline]
- Baumel A, Pawar A, Mathur N, Kane J, Corell C.对儿童和青少年破坏性行为的技术辅助父母培训项目:系统回顾。临床精神病学杂志2017:A(即将出版)。
- 增强可用性启发式的解释力。1994年发表于:计算机系统中的人为因素SIGCHI会议;1994年4月24日至28日;波士顿,MA。
- 李利提,陈志强,陈志强,陈志强,等。PRISMA用于报告评估卫生保健干预研究的系统回顾和元分析的声明:解释和阐述。安实习医学2009年8月18日;151(4):W65-W94。[Medline]
- Braun V, Clarke V,运用心理学的主题分析。精神病学鉴定2006年1月;3(2):77-101。[CrossRef]
- Mokdad AH, Marks JS, Stroup DF, Gerberding JL。2000年美国实际死亡原因。中国医学杂志2004 3月10日;291(10):1238-1245。[CrossRef] [Medline]
- Van Deursen AJ, Van Dijk JA。使用互联网:用户上网行为中的技能相关问题。交互计算2009;21(5):393-402。
- iProspect。搜索引擎用户行为研究。2006.URL:http://district4.extension.ifas.ufl.edu/Tech/TechPubs/WhitePaper_2006_SearchEngineUserBehavior.pdf[WebCite缓存]
- RANDOM.ORG。2016.列表随机器URL:https://www.random.org/lists/[访问了2016-12-22][WebCite缓存]
- 韦斯顿D,洛尔N.社会认知和对象关系量表(SCORS): TAT数据编码手册。安娜堡,密歇根州:密歇根大学心理学系;1990.
- Blatt S, Chevron E, Quinlan D, Schaffer C, Wein S.对象表征的定性和结构维度评估(修订版)。康涅狄格州纽黑文:耶鲁大学;1988.
- 《防御机制的发展:理论、研究和评估》。纽约:施普林格科学与商业传媒;2012.
- 纽康比RG。比例的置信区间和效应量的相关测量。佛罗里达州博卡拉顿:CRC出版社;2012.
- 邹GY。样本大小公式估计内相关系数的精度和保证。2012年12月20日;31(29):3972-3981。[CrossRef] [Medline]
- 大声喊PE, Fleiss JL。内部相关性:用于评估评分者的可靠性。心理学报1979年3月;86(2):420-428。[Medline]
- Bartko JJ。类内相关系数作为信度的度量。精神病学报告1966年8月;19(1):3-11。[CrossRef] [Medline]
- α系数与测试的内部结构。心理测量学1951;16(3):297 - 334。
- 施坦DL。在一致性上的不一致:当系数起作用或不起作用时。中国人力资源评价杂志,2003年6月;80(3):217-222。[CrossRef] [Medline]
- 信度研究中的kappa统计量:使用、解释和样本量要求。物理学报2005 3月;85(3):257-268 [免费全文] [Medline]
- Benjamini Y, Hochberg Y.控制错误发现率:一种实用而强大的多重测试方法。中国计算机科学(d辑),2001;26(1):1 -3。
- 概率:研究生课程。第75卷。纽约:施普林格科学与商业传媒;2012.
- Alexa》2017。URL:http://www.alexa.com/[访问时间:2017-01-04][WebCite缓存]
- 刘晓东,刘晓东,刘晓东。网络可信度:特征探索与可信度预测。2013年发表于:第35届欧洲信息检索前沿会议;2013年3月24-27日;莫斯科,俄罗斯。
- 让用户。2017.URL:http://www.similarweb.com/[访问时间:2017-03-10][WebCite缓存]
- O'Brien H, Toms E.什么是用户粘性?定义用户与技术互动的概念框架。中国科学(d辑),2008;29(6):344 - 344。
- 与万维网使用相关的个人特征:趣味性和动机的实证研究。SIGMIS数据库1997 Apr 01;28(2):53-62。[CrossRef]
- Althoff T, White RW, Horvitz E. Pokémon对身体活动的影响:研究和影响。J Med Internet Res 2016 Dec 06;18(12):e315 [免费全文] [CrossRef] [Medline]
- Mohr DC, Cuijpers P, Lehman K.支持性问责制:提供人力支持以加强对电子卫生干预的坚持的模式。中国医学杂志,2011;13(1):e30 [免费全文] [CrossRef] [Medline]
缩写
国际刑事法庭:同类内相关系数 |
棱镜:系统评价和元分析的首选报告项目 |
G·艾森巴赫(G Eysenbach)编辑;提交09.01.17;O Anya, J Torous同行评审;作者评论02.02.17;修订版本收到21.02.17;接受22.02.17;发表21.03.17
版权©Amit Baumel, Keren Faber, Nandita Mathur, John M Kane, Fred Muench。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2017年3月21日。
这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。