发表在24卷第三名(2022): 3月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/32777,首次出版
电子健康素养问卷(eHLQ)的有效性证据第2部分:评估澳大利亚社区卫生环境中测试内容、响应过程和内部结构的混合方法方法

电子健康素养问卷(eHLQ)的有效性证据第2部分:评估澳大利亚社区卫生环境中测试内容、响应过程和内部结构的混合方法方法

电子健康素养问卷(eHLQ)的有效性证据第2部分:评估澳大利亚社区卫生环境中测试内容、响应过程和内部结构的混合方法方法

原始论文

1澳大利亚斯威本科技大学健康科学学院全球健康与公平中心,霍桑

2澳大利亚伯伍德迪肯大学卫生与社会发展学院卫生学院

*所有作者贡献相同

通讯作者:

Christina Cheng博士

健康科学学院

全球卫生与公平中心

斯威本科技大学

AMCD大厦9层907室

伯伍德路453/469-477号

山楂,3122

澳大利亚

电话:61 392145470

电子邮件:cccheng@swin.edu.au


背景:数字技术已经改变了我们管理健康的方式,需要电子卫生素养来参与卫生技术。如果用户的电子卫生素养需求得不到满足,任何电子卫生战略都将是无效的。一个强有力的电子卫生知识普及措施对于了解这些需求至关重要。电子卫生素养框架确定了电子卫生素养的7个维度,在此基础上编制了电子卫生素养问卷。该工具在丹麦环境中已经表现出强大的心理测量特性,但有效性测试应该是一个持续和累积的过程。

摘要目的:本研究旨在评估澳大利亚社区卫生环境中eHLQ测试内容、反应过程和内部结构的效度证据。

方法:采用混合方法和认知访谈来检验测试内容和反应过程的证据,而采用横断面调查来检验内部结构的证据。数据收集于澳大利亚维多利亚州3个不同的社区卫生站。心理测试包括经典测试理论和项目反应理论两种方法。方法包括采用贝叶斯结构方程模型进行验证性因素分析、内部一致性和信度重测;采用贝叶斯多指标多原因模型进行差异项目功能检验。

结果:认知访谈只发现了1个令人困惑的术语,并加以澄清。所有项目都很容易阅读和理解。共纳入525份问卷进行心理测量分析。所有量表均为同质,综合量表信度范围为0.73 ~ 0.90。7个量表的测试-重测信度的类内相关系数在0.72至0.95之间。使用交叉载荷和剩余协方差的小方差先验的7因素贝叶斯结构方程模型拟合数据,感兴趣的模型产生了令人满意的拟合(后验生产P=。49,95% CI for the difference between observed and replicated chi-square values −101.40 to 108.83, prior-posterior productiveP= .92)。所有项目都装载了相关因素,装载量从0.36到0.94不等。未发现明显的交叉负荷。没有证据表明不同的项目功能的管理格式,场地面积,和健康设置。然而,量表1、3、5、6和7的判别效度没有很好地建立起来。项目反应理论分析发现,除1个项目外,所有项目都在不同的特质水平上提供了精确的信息。所有项目都对不同的特质水平表现出不同的敏感性,并代表了一系列的难度水平。

结论:证据表明,eHLQ是一种具有强大心理测量特性的工具,建议进一步调查判别效度。它已准备好用于确定电子卫生素养的优势和挑战,并协助制定数字卫生干预措施,以确保数字访问和技能有限的人不被落下。

中国医学杂志,2018;24(3):e32777

doi: 10.2196/32777

关键字



背景

数字技术给现代生活带来了根本性的变化,包括我们如何管理自己的健康。我们可以在指尖上快速搜索卫生信息,但也面临着大量错误信息,这在COVID-19大流行期间表现得很明显[1].我们可以立即访问我们的电子个人健康记录,但这些数字系统可能难以使用或不符合我们的期望[2-5].此外,有些人根本没有或只有有限的机会或技能来使用卫生技术,当获得有限机会或技能的人在数字时代落后时,可能会导致卫生不平等扩大。

为了描述获取和使用数字技术促进卫生方面的挑战,2006年提出了电子卫生扫盲的概念[6].当时,它被定义为"从电子来源寻求、发现、理解和评价卫生信息,并将所获得的知识应用于解决或解决卫生问题的能力" [6].人们进一步认识到,如果不满足用户的电子卫生素养需求,任何数字或电子卫生战略或干预措施都将无效[6-8].例如,在英国现已停止使用的基于网络的个人健康记录HealthSpace的后评估阶段,得出的结论是,该系统与用户的期望不匹配,一些用户似乎缺乏使用该系统所需的健康知识和数字知识[23.].

电子健康知识普及问卷

为了描述和解决电子健康知识普及需求,Norgaard等人[9]根据与各种利益攸关方举行的一系列概念绘图研讨会的结果,使用基于有效性的方法制定了电子卫生素养框架。因此,确定了电子卫生素养的7个维度,描绘了人们如何访问、理解和使用涉及技能、卫生系统以及个人与系统之间互动的卫生技术的总体愿景[9].这一基于基础的框架提供了比原始定义更全面和更现代的电子卫生素养观点,因为它还利用了数字系统的作用以及用户和系统之间的交互。随后,该框架被用于开发电子卫生素养问卷(eHLQ),作为基于以下七个维度衡量电子卫生素养的工具:

  1. 利用技术处理健康信息
  2. 了解健康概念和语言
  3. 积极参与数字服务的能力
  4. 感觉安全,一切尽在掌握
  5. 积极参与数字服务
  6. 获得有效的数字服务
  7. 适合个人需要的数码服务[10

eHLQ包含了与使用数字卫生系统的用户交互和体验相关的电子卫生素养维度,在捕捉数字技术的交互性和不断增强的功能的同时,拥抱了用户的真实体验。它可以提供关于个人能力以及数字卫生系统成熟度的丰富信息,因为成熟的系统可能更能响应用户的个人需求[10].因此,eHLQ是数字卫生开发人员和实施者促进公平驱动的数字卫生系统并最终促进卫生公平的有用工具。

eHLQ同时以丹麦语和英语编写,以避免习惯用语和改进项目措辞,以加强今后将问卷翻译成其他语言的工作[10].该工具由35个项目组成,有7个量表,每个量表有4到6个项目,响应选项是一个4点的顺序量表强烈反对强烈同意.结果是7个同等加权的综合量表得分[10].丹麦版eHLQ的初步有效性测试,基于从丹麦社区和卫生保健机构收集的475人的数据,证明了该工具的心理测量鲁棒性。7因素验证性因素分析(CFA)模型采用贝叶斯结构方程模型(BSEM)方法得到了满意的拟合结果。该工具的所有35个项目在其相关因素(0.36-0.94范围)上都有很强的负载,没有显著的交叉负载。良好的内部一致性也证明了7个量表中每个量表的复合量表信度都令人满意(范围0.75-0.87)。除了采用经典测试理论(CTT)方法来测试心理测量特性外,还使用了项目反应理论(IRT)方法。结果证实,这35个项目代表了一系列困难,并对测试具有不同水平的电子卫生素养能力的人具有良好的识别能力。年龄和性别的测量不变性也得到了证明[10].虽然该研究提供了令人满意的有效性证据eHLQ在丹麦设置,证据的英文版本需要建立。丹麦被称为世界上电子健康的先驱,拥有一个全国性的公共电子健康门户网站,截至2019年,每月至少有230万独立用户使用该门户网站,其中580万公民[1112].数字健康是许多丹麦公民日常生活的一部分。尽管澳大利亚也有国家数字健康记录系统,但澳大利亚参议院2019年估计听证会上的信息显示,只有4%的澳大利亚人登录过澳大利亚的系统。13].因此,eHLQ在公共数字卫生服务使用不那么突出的情况下将如何表现尚不清楚。

有效性的证据

效度测试是一个持续的过程,根据教育和心理测量的开发和使用的权威参考,根据测试内容、反应过程、内部结构、与其他变量的关系以及测试的后果,积累5个证据来源教育与心理测试标准(标准) [14].

基于测试内容的证据用于确定项目是否代表内容领域,还可能包括措辞是否易于阅读和管理格式是否易于使用。响应过程是指调查参与者的认知过程,即参与者对项目的解释是否与测试开发者对项目的预期解释一致。它还可能包括口译是否在子组或不同管理格式之间保持相同。内部结构是项目符合结构的程度,与因素分析、可靠性和测量不变性等方面有关。与其他变量的关系是分析在被测量结构的理论网络中相关的另一种工具的得分与得分可以预测的其他外部变量之间的关系,而测试的后果与建议使用测试分数的稳健性有关,包括预期的好处、间接影响和意想不到的后果,如构造代表性不足或构造不相关性[14-19].本研究的重点是在澳大利亚社区卫生环境中收集的证据。Cheng等人描述了在这种情况下与其他变量的关系的证据[20.].本研究的目的是报告和评估澳大利亚英语eHLQ测试内容、反应过程和内部结构的证据。


数据收集

对有效性证据的收集和评价方法,以文献中的讨论为指导标准以及相关文献。采用混合方法和认知访谈来检验测试内容和反应过程的证据,而采用横断面调查来检验内部结构的证据。认知访谈于2017年在澳大利亚维多利亚州大都市区的一家非营利性社区卫生组织进行。该网站的客户,以及来自大都市和地区的2家私人初级保健医疗诊所的客户,被邀请参加2018年的横断面调查。

参与这两项活动的资格标准是年龄≥18岁,有或没有任何健康问题,能够完成纸质、网络或面对面访谈形式的问卷调查。有严重认知或心理健康问题、临床症状严重、英语水平不足以完成问卷、没有护理人员协助的客户被排除在外。

伦理批准

该研究获得了迪肯大学人类研究伦理委员会的伦理批准(HEAG-H 146_2017)。

认知面试

认知访谈通常用于探索人们如何回答调查项目的认知过程[21-23].它可以揭示人们如何构建他们的答案,以确定他们的思维是否与测试开发人员所期望的项目相匹配,人们在回答问题时是否遇到困难,或者布局是否合适。研究结果还可用于识别不同社会文化群体的反应差异[17222425].

鉴于认知访谈的定性性质,不需要大样本量,但需要具有代表性和多样性[1424].这个过程采用了一种迭代的方法,如果发现了问题,需要修改问题,就会进行几轮测试[21],所有项目至少测试五次或直到数据饱和[2627].

在卫生网站的协助下招募了参与者,并提供了一份简单语言的信息表,并征求了书面同意。访谈在参与者完成书面形式后进行。当参与者回答问卷时,观察他们的行为。完成后,研究人员提出了两个问题,以深入了解认知过程:(1)回答这个问题时你在想什么?你为什么选择这个答案?鼓励与会者就项目或格式提出任何进一步意见。他们可以就全部35个项目或部分问卷进行采访,主要是针对年龄较大的参与者,以避免疲劳和认知过载。

数据分析采用文本汇总[24].内容分析首先由其中一位作者(CC)根据eHLQ的项目意图进行审查,然后由另一位作者(RHO)进行进一步审查。所有作者都讨论了需要修订的任何问题,直到达成协议。

心理测试横断面调查

对于横断面调查,在等候区招募客户,并向其提供一份信息表。作为一种促进参与的策略,在返回完成的问卷时,不要求签署同意书作为隐含同意。除了使用纸质或基于网络的形式进行自我管理外,还包括访谈,以确保老年人或文化水平低的人能够参与。人口统计问题包括年龄、性别、邮政编码、家庭语言、教育程度、健康状况、感知健康状况和数字服务的使用情况。在Cheng等人的研究中对招聘进行了进一步描述[20.].

类似于丹麦eHLQ效度测试[10],本研究同时采用CTT和IRT方法进行心理测量分析。CTT是一种传统的方法,它基于观测分数由真实分数和错误分数组成的论断[2829].这种方法通常涉及对维度、辨别和可靠性的评估。然而,CTT被批评为依赖样本,没有考虑到测试项目的特征以及处于不同兴趣结构水平的人在这些项目上的表现,这是IRT的重点,现代方法[2829].因此,本研究采用了两种方法来加强证据的收集。

统计分析

概述

使用三种统计软件程序进行分析,即SPSS (version 25.0;IBM公司)[30.], Mplus(8.3版本;Muthén及Muthén) [31]和IRTPRO(患者报告结果的项目反应理论;4.20版本;矢量心理测量组)[32].对人口统计数据、eHLQ评分和上限和下限效应进行了描述性统计。下限和上限效应的存在可能表明在最小值或最大值上辨别能力较差[33],如果超过15%的参与者得分在分数范围的顶部(上限)或底部(下限),则被认为影响显著[3435].

缺失值

为了处理eHLQ分数的缺失数据,首先检查数据集。如果没有发现明显的缺失模式,即可以认为缺失是完全随机的,则采取两步方法。第一步是删除缺失值超过50%的案例,以减少潜在的偏差。第二步是用SPSS中的期望最大化算法imputation替换所有缺失值[30.3637].最后的数据集用于所有心理测量分析。

结论分析

道具难度是一种道具属性,通常是CTT方法中道具分析的第一步[2838].该参数的计算方法为赞同“不同意”和“非常不同意”的受访者比例与赞同“非常同意”的受访者比例[39].因此,回答“不同意”和“强烈不同意”的比例越高,说明难度越高。

为了衡量信度,评估了内部一致性和重测信度。除了常用的克朗巴赫α对于内部一致性,当项目不具有相等的因素负载或在相关项目错误的情况下,由于产生偏差估计而受到批评[39],采用Raykov推荐的Mplus结构方程建模计算复合尺度可靠度[40]也进行了评估。当项目集是单维的,具有不相关的误差,并且对真实分数有很高的负荷时,这两个估计值预计具有相当的可比性[2940].两个估计值的可接受范围为0.70至0.95,0.80通常被认为是较好的可靠性[41].对于test-retest,对于时间点之间的最佳长度没有共识,并且在第一次完成问卷1周后发出邀请。使用类内相关系数(ICC)评估测试-重测信度[42].至少有10个参与者被认为足以检测到可接受的ICC为0.70,功率为80%,显著性水平为.05 [43],估计样本量为30。

在经典项目分析之后,假设假设结构是先验指定的,进行了CFA。与丹麦效度测试相似,采用BSEM方法[10使用Mplus。CFA的样本量尚未达成一致,其范围从100到400 [3344],估计样本量为500。与使用最大似然估计程序的传统频率论方法相反,该方法假设与潜在因素不相关的测量将对该因素具有零负载,这很容易导致模型拟合不良和拒绝[2945], BSEM中的参数被视为变量,这种更灵活的方法被描述为更好地反映了实质性的理论[45].

在分析开始时,BSEM中的不同参数规格被描述为先验,它可以是弥漫的(非信息性的)或信息性的[45].弥散先验是由数据完全估计出来的假设参数,而信息先验则可能是由以前的研究、研究人员的理论或先验信念得出的参数值[45].信息先验可以应用于交叉负荷和剩余协方差。对于交叉加载先验,方差先验为0.01意味着95%的加载变化在−0.20到+0.20的范围内,这被认为是小加载。项目残差之间的协方差采用逆wishart先验。应用程序开始时是足够大的df的逆wishart分布,并逐渐降低df参数,以产生更灵活的模型,使残馀协方差不严格约束为零[46].

一个由1因素模型和7因素模型组成的序列(多媒体附件1)与数据相符。几种不同参数规格的模型,以丹麦的研究为参考[10],进行了测试和比较,以确定感兴趣的模型,这是一个没有被数据拒绝的模型,并且“最接近于足够适合的CFA模型”[46].为了评估模型拟合,Mplus产生后验预测P购买力平价)值,以及观测值与复制卡方值之差的95% CI。一个低购买力平价值和95% CI为正表明拟合较差,而a购买力平价值在0.5左右,而接近95% CI的中间值为0则表示极好的拟合[45].此外,一个不显著的前-后验预测PPPPP)值,即>。05,在dicates that the estimates of the cross-loadings can be considered approximate zero and are thus negligible [47].除了上述估计外,还可以通过检验模型的收敛性和信息准则进行模型比较。我们感兴趣的模型是收敛速度较快的模型,即在迭代次数最少的情况下,潜在尺度降阶始终小于1.05,且具有较低的差异信息判据[46].

根据所选7因素模型的结果,使用Fornell-Larcker准则评估判别效度[48]基于共享方差和平均方差提取(AVE)。共享方差由2个因素之间的因子间相关性平方计算,AVE由相关项目的因子负荷平方和的平均值产生[49].如果AVE为>0.5,则福内尔-拉克尔第一个准则,即“一个因素比测量误差或类似的外部未测量影响更能解释与之相关的观测变量的方差”[49]是满足的。为了满足关于该因素与概念框架中其他因素的关联的第二个标准,任何2个因素的AVE都“必须大于2个因素之间的共享方差估计”[4849].

BSEM方法进一步用于测试差分项功能(DIF),即测量在不同组或分组变量之间的稳定性[5051].通过使用多指标、多原因(MIMIC)模型方法,可以同时检测DIF和组间差异[52].该方法已被用于测试在相同环境下不同人口统计学群体之间的群体差异,并在Cheng等人的研究中详细描述了该方法[20.].在这项分析中,管理格式(纸质vs面对面访谈)、场地面积(大都市vs地区)和卫生环境(私人诊所vs非营利社区卫生)被作为协变量。由于使用这种格式的参与者数量有限(13/ 525,2.5%),没有将基于web的格式纳入分析。看到图1为测试DIF的贝叶斯模型,以1标度为例。模型测试和选择的过程类似于前面描述的BSEM,除了先验应用于DIF路径而不是交叉加载。对于DIF的评价,一个显著的直接影响表明DIF的存在,和一个1尾P的值。025was considered significant as no directional hypotheses were set up. If DIF was identified, the estimates were further evaluated based on the model selected. For example, if the model with variance prior of 0.01 was selected and thePPPP值不显著,则−0.2至+0.2范围内的估计值可被认为可以忽略不计[53].组间差异也作为补充结果进行了检验。

图1。以电子健康素养问卷量表1为例,采用贝叶斯多指标多原因模型进行差别性项目功能测试。从Mplus输出:Admin:行政格式(0=面对面面试,1=纸质格式);面积:场地面积,即参与机构所在位置(0=大都市,1=区域);设置:健康设置(0=私人诊所,1=社区卫生);UTPHI:电子卫生素养问卷量表1(使用技术处理卫生信息);Q7D1、Q11D1、Q13D1、Q20D1和Q25D1:电子健康素养问卷项目。
查看此图
红外热成像分析

要执行IRT分析,需要满足4个假设。单维性(项目测量相同的结构)、局部独立性(每个项目不应该相关,除非它们测量相同的结构)和项目不变性(项目参数在子组中相同)的假设可以通过CTT分析部分中描述的CTT方法进行检查。通过检查测试特征曲线来评估单调性假设(赞同某项的概率随着特征水平的增加而增加)[54].IRT分析的样本量要求为200至500 [54].在此分析中,使用IRTPRO应用了与丹麦研究相似的广义部分信用模型。除了测试特征曲线外,还评估了7个一维IRT模型的项目阈值、项目位置、项目识别和信息函数。通过检查项目特征曲线来评估项目响应阈值,其中每个响应类别曲线从最低(强烈不同意)到最高(强烈同意)的峰值应该对应于最低到最高的特征水平,以证明一个项目具有有序的响应阈值集。在项目辨别方面,项目特征曲线的曲线越陡或斜率越大,表明具有不同水平特征的人之间的辨别能力越强。项目歧视估计值越高,表明不同能力的人之间的歧视程度越高[5556].对于项目位置估计,较低的估计代表较容易的项目,因为这些项目预计会得到能力较低的人的认可,并且预计与CTT分析中的项目难度估计相似[545758].最后,对信息函数曲线的检查提供了一个项目可以精确测量潜在特征的信息。这种测量精度类似于CTT的可靠性[14].它还有助于确定一个量表的项目是否衡量了潜在特质的全部范围。


认知面试

共招募了12名参与者进行两轮认知访谈。在这12名参与者中,8名(67%)是女性,4名(33%)是男性,58%(7/12)的参与者年龄为65岁,17%(2/12)的参与者在家说英语以外的语言。该样本很好地代表了来自不同年龄组和文化背景的人。第一轮有7名参与者确定了这个词卫生技术服务用于量表7的4项(适合个人需求的数字服务)是令人困惑的。大多数与会者无法立即将该术语与数字系统联系起来。经过研究团队的讨论,该术语被改为电子健康系统.更改后的术语在第二轮测试中对5名参与者进行了测试,没有发现进一步的问题。参与者对其他项目的理解大致与项目意图相似。例如,关于使用的项目技术为了查找、理解、分享或组织健康信息,参与者可以轻松地将其链接到互联网、Dr谷歌或任何基于网络的东西上。在“I use measurements about my body…”,” participants thought about how they used results of blood test, body weight, or blood pressure, which was aligned with the item intent.

尽管参与者的背景不同,但在理解项目方面并没有发现重大差异,所有参与者都认为项目易于阅读。与会者的建议也导致了介绍页面的更改,以提供技术、卫生技术、电子卫生系统和卫生保健提供者或卫生专业人员的示例。问卷完成时间为3 ~ <7分钟。

心理测试

参与者的特征

共收集完成问卷530份。在统计分析部分描述的缺失值处理的基础上,删除了5个案例,导致心理测量分析的最终样本量为525。横断面调查的参与者年龄在18岁至94岁之间,61%(320/525)的参与者是女性。共有33.3%(175/525)受访者接受过大学教育,30.9%(162/535)受访者在家中使用英语以外的语言。在525名参与者中,300人(57.1%)报告患有某种形式的慢性疾病。在科技使用方面,在525名受访者中,151名(28.8%)没有电脑或笔记本电脑,131名(25%)没有使用电子邮件或短讯(表1).

表1。横断面调查参与者的特征(N=525)。
特征 价值
年龄(年),平均值(SD;范围) 56.8 (18.6;18 - 94)
设置,n (%)

站点1:都市私人诊所 204 (38.9)

站点2:大都市社区卫生 204 (38.9)

地点3:区域私人诊所 117 (22.3)
管理格式,n (%)

基于纸张的 399 (76)

基于网络的 13 (2.5)

面对面的面试 113 (21.5)
性别,n (%)

320 (61)

男性 203 (38.7)
教育程度,n (%)

小学及以下学历 27日(5.1)

中学或以下学历 173 (33)

行业证书或文凭 141 (26.9)

完成大学 175 (33.3)
家庭语言,n (%)

英语 363 (69.1)

其他 161 (30.7)
社会经济地位一个n (%)

IRSDb1 - 4 123 (23.5)

IRSD 5 - 6 111 (21.1)

IRSD 7 - 8 134 (25.5)

IRSD 9 - 10 140 (26.6)
私人健康保险,n (%)

是的 249 (47.4)

没有 267 (50.9)
长期疾病(参与者可能患有>1),n (%)

没有 225 (42.9)

关节炎 115 (21.9)

癌症 14 (2.7)

心脏病 90 (17.1)

糖尿病 67 (12.8)

呼吸道条件 41 (7.8)

焦虑 69 (13.1)

抑郁症 69 (13.1)

其他 89 (17)
感知健康状况,n (%)

从优秀到优秀 400 (76.1)

对穷人公平 103 (21.5)
数字设备所有权(参与者可能拥有>1),n (%)

电脑或笔记本电脑 374 (71.2)

手机或智能手机 459 (87.4)

平板电脑 241 (45.9)
拥有的设备数量,平均值(SD;范围) 2.1 (0.9;0 - 4)
数字交流平台的使用情况(每个参与者可能有>1),n (%)

电子邮件 394 (75)

短信短信 398 (75.8)

脸谱网 266 (50.7)

推特 30 (5.7)

Instagram 104 (19.8)

Snapchat 51 (9.7)

WhatsApp或微信 112 (21.3)

写博客 15 (2.9)

论坛/聊天室 26日(5)
使用的平台数量,平均值(SD;范围) 2.7 (1.8;清廉)
在过去3个月内查找基于web的信息,n (%) 392 (74.4)
以数字方式监视的运行状况,n (%) 183 (34.9)

一个社会经济地位由IRSD10分类。此指数是根据澳洲统计局[59].邮政编码分为10个等级,数字越高表示郊区越优越。

bIRSD:澳大利亚2016年相对社会经济劣势十分位数指数。

描述性统计

量表7的平均得分范围为2.43 (SD 0.57) (适合个人需求的数字服务)至2.95(标准偏差0.41)(了解健康概念和语言表2).个别项目的缺失值<5%,另一个表明项目通常很好理解。没有发现下限效应,而有8个项目发现上限效应(范围为16.2%-20.8%)。这些项目均与使用科技及对健康知识的了解有关,显示有相当比例的受访者对使用科技及对健康有良好的认识(多媒体附件2).

在认知访谈和主要调查期间的观察没有发现任何问题,当人们回答基于纸张或网络格式的项目时。对主调查完成的530份问卷的批注进行检查发现,0.03%(15/530)的参与者在某些项目旁边打了问号,表示他们不理解这些项目,0.10%(55/530)的参与者回答不清楚。这些结果表明,学生对项目的理解基本正确,4点顺序量表可接受。

表2。电子健康素养问卷量表得分(N=525;分数范围1-4)。
规模 值,平均值(SD) 缺失的数据
1.利用技术处理健康信息 2.59 (0.61) 0
2.了解健康概念和语言 2.95 (0.41) 0
3.积极参与数字服务的能力 2.65 (0.68) 1
4.感觉安全,一切尽在掌握 2.83 (0.49) 5
5.积极参与数字服务 2.63 (0.55) 0
6.获得有效的数字服务 2.64 (0.45) 1
7.适合个人需求的数字服务 2.43 (0.57) 11
结论分析

我们为所有尺度找到了道具难度范围,反映了相关结构的难度等级范围。项目难度范围最小的量表为7 (适合个人需求的数字服务;范围45% - -60%)。第4量表的项目难度范围最大(感觉安全,一切尽在掌握),比例由14%至52%不等。7级也是最多的困难量表,因为所有项目的难度级别至少为45%,而量表2 (了解健康概念和语言)是简单的4个项目<20%,最难的项目为37% (多媒体).

的残馀协方差具有信息先验的1因子贝叶斯模型df= 60)购买力平价7个量表的值范围为0.19至0.24,所有目标负荷具有统计学意义,建立了量表同质性的证据。因子负荷均为>0.50,除量表6第3项(获得有效的数字服务),加载量为0.45。除6项外,残差均<0.50,其中第3项估计最高,为0.80 (多媒体).

随后的7因素模型拟合到数据集,测试了6个模型。所有模型都很好地拟合了数据。交叉负荷方差的先验模型设置为0.01,并逆wishartdf残差协方差为150被选为感兴趣的模型(购买力平价=。49,95% CI for the difference between observed and replicatedχ2−101.40 ~ 108.83,PPPP= .92)。所选模型没有发现统计学上显著的交叉负载,表明所有项目只在1个因素上加载(多媒体附件4).所选7因素模型除4项外,所有因子负荷均为>0.50,其中量表2第26项(了解健康概念和语言),最低负荷为0.36。此外,所有交叉负荷均小于- 0.20至+0.20;也就是说,它们可以被认为近似为零,可以忽略不计(表3).

AVE的检验表明,4个量表的估计值符合第一Fornell-Larcker准则,而3个量表的估计值<0.50(量表2、4和6)。鉴于这些AVE的估计值是基于允许交叉负荷和残余协方差的7因素模型,也计算了1因素模型的AVE估计值,7个量表的AVE估计值为0.66、0.49、0.72、0.61、0.65、0.47和0.74。因此,量表2和量表6的AVE估计值仍然<0.50。该因素与其他因素的关联的第二个标准也不满足。在此标准的基础上,只有量表2对量表4、量表6、量表7有较好的辨别能力,而量表4对除量表6外的所有量表都有较好的辨别能力。因此,各量表之间可能没有足够的区分效度(表4).

对于内部一致性,Cronbachα(范围0.74 -0.90)和综合量表可靠性(范围0.73-0.90)估计与预期非常相似。均在可接受范围内,而量表1、3、4、5和7的估计值为>0.80,表明内部一致性良好。对于重测,42名参与者完成了重测,ICC范围为0.72至0.95,表明重测可靠性良好(多媒体).

用于测试管理格式、站点面积和运行状况设置的DIF的贝叶斯MIMIC模型实现了良好的模型拟合。选择DIF路径为0.01的模型作为感兴趣的7个量表的模型购买力平价范围从。19(比例6)到。35(比例7),以及所有PPPPS无统计学意义。场地面积和健康环境对项目的影响无统计学意义。管理格式被发现对5个项目有统计上的直接影响,表明可能的DIF。然而,所有估计值都在−0.2至+0.2的可接受范围内,因此可以忽略不计(多媒体).

对于组间差异,在场地面积和健康环境方面没有发现显著差异,但在管理格式方面发现了组间差异,在量表1 (利用技术处理健康信息), 3 (积极参与数字服务的能力), 5 (积极参与数字服务)及7 (适合个人需求的数字服务表5).采用非参数检验进行进一步分析,以探讨两组在年龄、教育程度和技术使用方面是否存在显著性差异,显著性水平设置为< 0.05。一个Mann-WhitneyU测试显示受访年龄有显著差异(中位数75;N =109)和论文格式(中位数51;n = 387;U= 7881.50;z=−10.00;P<.001),受访的参与者比完成自我管理论文格式的参与者年龄大。独立卡方检验表明,教育和行政形式之间存在显著关联,χ21= 0.4 (n = 503),P<措施。在接受采访的受访者中,36.7%(40/109)没有完成中学学业,而只有13.2%(51/387)的受访者完成了纸张形式的学业。在访谈中也发现了设备数量的显著差异(中位数为2;N =111)和论文格式(中位数2;n = 390;U= 20328 .50;z= 6.86;P<.001),使用自我管理的纸张格式的参与者比接受采访的参与者有更多的设备。

表3。电子健康素养问卷7因子贝叶斯验证性因子分析模型的因子负荷,交叉负荷先验为0.01,残馀协方差为150一个
b 1.使用技术 2.健康的概念 3.能力 4.感到安全 5.动机 6.访问 7.适合的需要
1.利用技术处理健康信息

Q7D1 0.94c 0.02 0.02 0.00 −0.08 −0.06 −0.06

Q11D1 0.89 0.03 −0.01 −0.01 −0.02 −0.04 −0.08

Q13D1 0.59 −0.02 −0.03 0.02 0.08 0.06 0.05

Q20D1 0.49 −0.03 −0.01 0.02 0.05 0.06 0.08

Q25D1 0.61 −0.01 0.02 0.01 0.03 0.04 0.06
2.了解健康概念和语言

Q5D2 0.06 0.52 0.03 0.00 0.04 0.01 0.01

Q12D2 0.02 0.70 0.01 0.02 −0.02 −0.03 −0.03

Q15D2 −0.04 0.51 −0.02 0.03 −0.01 0.03 0.02

Q21D2 −0.03 0.67 −0.01 −0.01 −0.03 −0.02 −0.02

Q26D2 0.02 0.36 −0.00 −0.02 0.05 0.04 0.04
3.积极参与数字服务的能力

Q4D3 0.00 −0.00 0.68 0.04 0.03 0.03 0.03

Q6D3 0.02 0.01 0.88 0.03 −0.02 −0.04 −0.05

Q8D3 0.03 0.02 0.62 0.01 0.03 0.02 0.03

Q17D3 0.00 −0.01 0.88 −0.02 −0.03 −0.03 −0.04

Q32D3 −0.03 0.01 0.74 −0.04 0.01 0.03 0.07
4.感觉安全,一切尽在掌握

Q1D4 0.02 0.00 0.01 0.67 −0.01 −0.02 −0.03

Q10D4 0.05 0.02 0.01 0.67 0.04 0.01 0.00

Q14D4 0.04 0.05 0.02 0.40 0.05 0.05 0.03

Q22D4 −0.03 −0.02 −0.01 0.86 −0.03 −0.01 0.00

Q30D4 −0.01 −0.01 0.01 0.74 0.01 0.02 0.04
5.积极参与数字服务

Q2D5 −0.04 −0.02 −0.01 0.02 0.76 −0.01 −0.02

Q19D5 0.04 0.02 0.02 −0.04 0.71 −0.00 0.00

Q24D5 −0.02 0.01 −0.02 0.05 0.67 0.02 0.01

Q27D5 0.00 0.01 −0.01 0.01 0.74 −0.01 −0.02

Q35D5 0.04 0.00 0.03 −0.01 0.72 −0.00 0.00
6.获得有效的数字服务

Q3D6 -0.11 0.02 −0.05 0.06 −0.08 0.59 −0.08

Q9D6 0.13 −0.00 0.08 −0.03 0.05 0.40 0.05

Q16D6 −0.11 0.02 −0.04 0.05 −0.05 0.65 −0.02

Q23D6 0.05 −0.03 0.01 0.00 0.03 0.61 0.01

Q29D6 0.00 −0.01 −0.01 −0.01 0.02 0.61 −0.00

Q34D6 0.12 0.01 0.08 −0.07 0.07 0.48 0.07
7.适合个人需求的数字服务

Q18D7 0.05 0.02 0.04 −0.02 −0.02 −0.03 0.74

Q28D7 0.00 −0.03 −0.02 0.01 0.03 0.01 0.78

Q31D7 −0.09 0.01 −0.05 0.07 −0.04 0.03 0.85

Q33D7 0.02 0.00 0.04 −0.04 −0.00 −0.02 0.85

一个模型拟合:后验预测P=0.49,观察值与重复值χ的差值为95% CI2取值−101.40 ~ 108.83,前验预测P= .92。

b看到多媒体附件2对于截断的项目。

c斜体值表示有统计学意义的因素负荷(P<.05),报告标准化估计。

表4。7个电子健康素养问卷量表的因子间相关性(对角线下)、平均方差提取(对角线上)和共享方差估计(对角线上)。
规模 1.使用科技 2.健康的概念 3.能力 4.感到安全 5.动机 6.访问 7.适合的需要
1.利用技术处理健康信息 0.53一个 0.37b 0.90b 0.06 0.84b 0.38b 0.56b
2.了解健康概念和语言 0.61 0.32一个 0.38b 0.22 0.34b 0.25 0.21
3.积极参与数字服务的能力 0.95 0.62 0.59一个 0.04 0.72b 0.34b 0.61b
4.感觉安全,一切尽在掌握 0.25 0.47 0.21c 0.47一个 0.12 0.34b 0.19
5.积极参与数字服务 0.91 0.58 0.85 0.35 0.52一个 0.63b 0.69b
6.获得有效的数字服务 0.62 0.50 0.58 0.58 0.80 0.32一个 0.75b
7.适合个人需求的数字服务 0.75 0.46 0.78 0.43 0.83 0.87 0.65一个

一个这些值表示每个潜在变量提取的平均方差。

b这些值表明潜在变量共享方差估计超过其中一个或两个变量提取的平均方差。

c统计上无显著的因子间相关性(P> . 05)。

表5所示。估计管理格式、站点面积和健康设置对7个电子健康素养潜在变量的影响。
规模 管理格式a、b 站点区域a、c 卫生环境,维
1.利用技术处理健康信息 0.38 (0.05)e 0.02 (0.06) 0.10 (0.06)
2.了解健康概念和语言 −0.02 (0.07) −0.00 (0.07) 0.05 (0.08)
3.积极参与数字服务的能力 0.39 (0.05) −0.02 (0.05) 0.07 (0.06)
4.感觉安全,一切尽在掌握 −0.03 (0.06) 0.12 (0.06) −0.04 (0.07)
5.积极参与数字服务 0.25 (0.05) 0.03 (0.06) 0.10 (0.06)
6.获得有效的数字服务 0.02 (0.06) 0.02 (0.06) −0.02 (0.07)
7.适合个人需求的数字服务 0.22 (0.06) −0.01 (0.06) 0.06 (0.07)

一个报告标准化估计;括号中所示的估计值的后验标准差。

b行政格式代码:0=面试,1=论文。

c站点区号:0=大都市,1=区域。

d健康设置代码:0=私人诊所,1=社区健康。

e斜体值表示统计学上的显著差异,如果P< .025(1-tailed)。

红外热成像分析

具有所有显著目标因子负荷的1因子贝叶斯模型的结果提供了单维性和局部独立性的证据。管理格式、站点区域和运行状况设置的DIF测试支持项目不变性。Cheng等人还建立并报告了亚组之间的测量不变性,包括年龄、性别、教育程度、家庭使用的语言以及信息和通信技术的使用[20.].因此,CTT分析的结果证实了IRT分析的4个假设中的3个。对于单调性的最后假设,检验了测试特征曲线,确认了赞同一个项目的概率随着特征水平的增加而增加。

目视检查项目特征曲线显示,沿着最有可能的响应的潜在特征的连续统,响应类别的不同峰值,表明所有项目的有序阈值(多媒体附件6).项目辨别参数表明,每个量表的项目对不同的能力水平有不同的敏感性。各项目特征曲线斜率均为陡坡,7量表第33项斜率最大(适合个人需求的数字服务),项目辨别参数最高,为5.56。所有题项中辨别参数较低的是量表6的第3项(获得有效的数字服务;0.86)及第2量表第26项(了解健康概念和语言;0.88)。然而,两个项目的项目特征曲线仍然被认为是陡峭的。项目位置参数还表明,项目在每个量表中具有不同的难度级别,但在量表2和量表4中分布不均匀。第2表第15及21项(了解健康概念和语言)的项目定位参数非常相似,分别为−1.19和−1.18。量表四(感觉安全,一切尽在掌握)第10项和第22项的定位参数分别为−0.58和−0.54。结果与CTT分析的项目难度指数基本一致(多媒体).此外,还对信息函数曲线进行了信度评估。除了量表4的第14项(感觉安全,一切尽在掌握),在特质的各个层面上提供的信息都非常少(多媒体附件6).


主要研究结果

本研究收集并检验了基于测试内容、反应过程和澳大利亚社区卫生环境中eHLQ的内部结构的效度证据。项目和格式易于阅读和使用,项目可以按预期理解。贝叶斯CFA和IRT分析证实了内部结构的稳健性。然而,基于7因素BSEM估计的判别效度还没有很好地建立,需要进一步的研究。

认知访谈成功识别了1个容易混淆的术语,对其进行了修改,并对问卷的介绍页进行了改进。结果结合访谈和调查中的观察,以及有限的缺失值,为支持eHLQ测试内容和响应过程的效度证据提供了丰富的信息。

横断面调查的最终样本量为525个,为CTT和IRT分析提供了足够的样本量。虽然样本中女性和受过大学教育的参与者比澳大利亚全国平均水平更多,但参与者的社会人口学特征仍然反映了一个普遍多样化的样本。然而,四分之一的样本不使用电子邮件或寻找基于网络的信息,这表明在调查中有有限使用技术或电子健康的人。这将确保eHLQ的有效性测试结果也适用于电子卫生素养可能较低的人群。此外,在基于纸张和访谈的管理格式中确定的4个量表的组间差异进一步表明,这两组在年龄、教育程度和技术使用方面存在显著差异。因此,将面试选项作为招聘策略纳入老年人或文化水平较低的人的目的得到了实现。相比之下,两种形式的测量不变性的证据证实,回答不受采访偏见或社会期望的影响。对该样本的单独分析发现,老年人在同样的4个量表上得分也较低。20.],两种管理格式之间的组差异的发现并不令人惊讶。然而,未来的研究可能会考虑在随机提供访谈选项时,这种组间差异是否会继续存在。确定的群体差异还意味着应始终提供访谈选项,以便将老年人或文化水平较低的人包括在未来的电子卫生素养研究中,以确保他们不会在数字卫生时代落后。

使用CTT和IRT方法对内部结构进行了严格的评估,以确保对eHLQ数据的不同方面的有效性和可靠性进行了调查。对于CTT分析,采用了应用信息先验的贝叶斯方法。尽管这种现代方法在测试模型拟合时可能涉及更多步骤,但它允许模型参数近似为零的假设。与传统的结构方程建模方法不同,该方法可以更好地近似真实世界。因此,七个1因子模型被发现很好地拟合了数据,证实了量表的同质性,而因子负荷和剩余方差是可以接受的。内部一致性信度的估计对所有量表都很好,尽管量表2 (了解健康概念和语言)及第六等级(获得有效的数字服务)的指数较低,但仍在可接受范围内。所有量表的重测信度也都很好,这表明eHLQ产生了稳定和一致的结果。

IRT分析进一步支持了准确测量电子卫生素养的测试特征和项目。测试和项目特征曲线表明,电子健康素养较高的参与者更有可能认可同意和强烈同意的项目。信息函数曲线表明,各题项能够在不同层次上收集到可靠、准确的信息。估计进一步表明,这些项目在区分具有不同电子卫生素养水平的参与者方面通常具有较高的敏感性。道具的位置也支持了道具代表不同难度级别的事实。CTT分析的项目难度指数进一步验证了这一点,它显示了两种估计显示出非常相似的模式,进一步加强了项目通常代表潜在因素的难度级别范围的证据。MIMIC模型的使用还发现,管理格式、站点面积和健康设置的DIF没有或可以忽略不计,从而确认了跨格式和设置的项目的度量等价性。

尽管值得注意的是,澳大利亚的结果与Kayser等人报道的丹麦效度测试结果大致相似[10],项目位置结果的比较结果则相反。这两个结果是矛盾的,在大多数量表中,澳大利亚主样本中最简单的项目是丹麦环境中最难的项目。例如,在尺度1中(利用技术处理健康信息),第7项对澳大利亚样本来说是最简单的,但对丹麦数据集来说是最难的。由于丹麦的研究没有报告CTT项目难度估计,因此不能用于校准澳大利亚的结果。这可能是由于两国人民在使用和获取数字健康方面的不同做法,因为丹麦的网络健康系统定期用户比澳大利亚多得多。差异背后的真正原因很难推测,未来的调查(例如,使用认知访谈专门关注两个国家对不同困难项目的反应水平)可能会更清楚地揭示这种差异。

在1因素模型之后,随后的7因素模型使用交叉负荷和剩余协方差的信息先验,证明了因子结构的良好模型拟合,正如问卷开发者假设的那样。所有的目标载荷在可接受的因子载荷下都是显著的,对于所选择的感兴趣的模型也没有显著的交叉载荷。尽管所选择的感兴趣的模型具有不同于丹麦效度测试所选择的模型的信息先验,但澳大利亚的数据分析通常复制了丹麦的结果,加强了eHLQ内部结构的证据。

一个可能的弱点,在心理测量性质的eHLQ可能是其判别效度。AVE的估计值表明,除量表2 (了解健康概念和语言)及第四阶(感觉安全,一切尽在掌握).虽然在丹麦效度检验中没有调查AVE估计值,但在丹麦效度检验中,量表1和量表5之间以及量表6和量表7之间的高因子间相关性也表明这些因素之间的区分可能不足,并且推测这些量表之间可能存在一些因果关系[10].然而,测试开发人员认为,在开发过程中对患者和专业人员观点的内容分析证实,这些因素确实是不同的结构,并决定在最终模型中保留7个维度。在未来的有效性测试中,有必要进一步研究区分效度。

这项研究提供了强有力的有效性证据,从eHLQ中得出的推论在不同的澳大利亚社区卫生环境中使用。由于这项研究是在COVID-19大流行之前进行的,因此远程医疗的接受和使用有所增加[60]以及社交媒体上广泛传播的错误信息和虚假信息[1], eHLQ将成为卫生保健提供者、研究人员、数字卫生开发人员和政策制定者更好地了解单个患者和不同人群的电子卫生素养需求的有用工具。所获得的见解将有助于制定、实施和评估适合用户需求的数字卫生干预措施,以促进健康和公平。

限制

有效性证据的一个可能的限制是,样本只涉及能说和理解英语的参与者。虽然eHLQ是首批同时用两种语言编写的问卷之一,以尽量减少文化参考,但这两种语言都来自西方文化,国家卫生保健系统普遍发达。心理测量特性在其他文化群体和国家的表现如何尚不清楚。未来对eHLQ的研究应包括跨文化背景下的效度测试,包括不同语境和使用。丹麦效度测试研究是在社区环境中进行的,涉及一般人群。然而,这项研究只包括参加社区卫生服务的人。未来在澳大利亚其他环境下的eHLQ测试可能会加强该工具对普通人群的有效性证据。

结论

本研究中提出的证据表明,eHLQ是一种具有强大心理测量特性的工具。有对测试内容的支持,并且项目被理解为预期的。尽管在区分效度方面存在潜在的弱点,但合理的建议是,这些项目可以在不同的澳大利亚卫生环境中为电子卫生素养的7个结构提供有效和可靠的评估。eHLQ已准备好用于确定电子卫生素养的优势和挑战,并协助制定数字卫生干预措施,以确保数字访问和技能有限的人不被落下。

致谢

作者感谢Mukesh Haikerwal AC博士、Jenny Ktenidis女士、Altona North医疗集团和Cirqit Health的Rori Plaza女士、Janine Scott女士和Carrington Health的Olive Aumann女士以及圣安东尼家庭医疗实践的Ewa Piejko博士、Adel Asaid博士、Remon Eskander博士和Poate Radrekusa博士的慷慨支持。我们也感谢迪肯大学的Lisa Hanna教授和迪肯大学客座研究员Polina Putrik博士在数据收集方面的协助。RHO的部分资金来自澳大利亚国家卫生和医学研究委员会首席研究奖学金APP1155125。

利益冲突

没有宣布。

多媒体附件1

无先验的电子健康素养问卷贝叶斯结构方程模型。m +的输出。

DOCX文件,323 KB

多媒体附件2

电子卫生素养问卷项目的描述性统计。

DOCX文件,18kb

多媒体

电子健康素养问卷单量表的心理测量特性。

DOCX文件,25kb

多媒体附件4

贝叶斯模型拟合电子健康素养问卷7因素模型的信息。

DOCX文件,15 KB

多媒体

估计电子健康素养问卷项目对管理格式、场地面积和健康环境的直接影响。

DOCX文件,18kb

多媒体附件6

电子健康素养问卷项目特征曲线和信息功能曲线(患者报告结果输出的项目反应理论)。

DOCX文件,225 KB

  1. 管理COVID-19信息大流行:促进健康行为,减轻错误信息和虚假信息的危害。世界卫生组织2020年。URL:https://tinyurl.com/4mnhb8rs[2020-02-10]访问
  2. Greenhalgh T, Hinder S, Stramer K, Bratan T, Russell J.采用、不采用和放弃个人电子健康记录:HealthSpace的案例研究。BMJ 2010; 341: c5814。[CrossRef
  3. Greenhalgh T, Stramer K, Bratan T, Byrne B, Russell J, Hinder S,等。细节中隐藏的魔鬼:“护理总结记录”和“健康空间”方案独立评估的最终报告。伦敦大学学院,伦敦,2010。URL:https://tinyurl.com/7w8y8vhr[2022-02-22]访问
  4. 张志刚,张志刚,李志刚,陈志刚,Hernández马志刚,等。影响老年人社区样本中电子健康网站使用的因素美国医学信息学会2013年3月1日;20(2):277-284 [免费全文] [CrossRef] [Medline
  5. Czaja SJ, Sharit J, Nair SN。医疗保险健康网站的可用性。中国医学杂志2008 Aug 20;300(7):790-792 [免费全文] [CrossRef] [Medline
  6. 诺曼CD,斯金纳HA。电子健康素养:网络世界中消费者健康的基本技能。J Med Internet Res 2006 6月;8(2):e9 [免费全文] [CrossRef] [Medline
  7. Kayser L, Kushniruk A, Osborne RH, Norgaard O, Turner P.通过电子健康素养提高以消费者为中心的健康信息技术系统的有效性:理解用户需求的框架。JMIR Hum Factors 2015年5月20日;2(1):e9 [免费全文] [CrossRef] [Medline
  8. Monkman H, Kushniruk A.电子卫生素养问题,卫生信息技术设计和评估的构建、模型和方法。知识管理与电子学习2015;7(4):541-549。[CrossRef
  9. Norgaard O, Furstand D, Klokker L, Karnoe A, Batterham R, Kayser L.电子卫生素养框架:描述电子卫生用户及其与电子卫生系统交互的概念框架。中国科学(d辑),2015;[CrossRef
  10. 凯瑟·L, Karnoe A, Furstrand D, Batterham R, Christensen KB, Elsworth G,等。基于电子卫生素养框架的多维工具:电子卫生素养问卷(eHLQ)的开发和初步有效性测试。J Med Internet Res 2018 Feb 12;20(2):e36 [免费全文] [CrossRef] [Medline
  11. 欧洲卫生:数字卫生系统。欧洲卫生系统和政策观察站,2019。URL:https://apps.who.int/iris/bitstream/handle/10665/326127/Eurohealth-25-2-2019-eng.pdf?sequence=7&isAllowed=y[2022-02-22]访问
  12. 数字卫生系统的未来:关于世卫组织欧洲区域数字卫生系统未来专题讨论会的报告。世界卫生组织,2019年。URL:https://apps.who.int/iris/bitstream/handle/10665/329032/9789289059992-eng.pdf[2022-02-22]访问
  13. 澳大利亚人不喜欢“我的健康记录”,只有9%的人曾经登录过。《悉尼先驱晨报》2019年12月。URL:https://tinyurl.com/nfpzpuds[2022-02-22]访问
  14. 美国教育研究协会,美国心理学会,全国教育测量委员会。教育与心理测试标准。华盛顿特区:美国教育研究协会;2014.
  15. 有效性。进:Linn RL,编辑。教育测量。纽约:麦克米伦出版公司;1989:13 - 103。
  16. 库克DA,贝克曼TJ。心理测量仪器效度与信度的最新概念:理论与应用。美国医学杂志2006年2月;119(2):166-116。[CrossRef] [Medline
  17. 王晓明,王晓明,王晓明,王晓明。在:米勒K, Chepp V,威尔逊S,帕迪拉J,编辑。认知访谈方法。美国萨默塞特:John Wiley & Sons, Incorporated;2014:35-50。
  18. 基于内部结构的有效性证据。Psicothema 2014; 26(1): 108 - 116。[CrossRef] [Medline
  19. 社会、行为与健康科学中的有效性与验证。瑞士:施普林格国际出版社;2014.
  20. 郑C, Elsworth G, Osborne RH。基于与电子健康素养问卷(eHLQ)其他变量关系的有效性证据:贝叶斯方法测试已知群体有效性。J medical Internet Res 2021 10月14日;23(10):e30243 [免费全文] [CrossRef] [Medline
  21. Bailey C, Tully M, Cooke J.对NHS信托抗微生物药物自我评估工具包(ASAT v15a)内容有效性的调查,使用对抗微生物药物药剂师的认知访谈。中国临床药学杂志2015年4月10日;40(2):208-212。[CrossRef] [Medline
  22. Bobrovitz N, Santana MJ, Kline T, Kortbeek J, Stelfox HT。采用认知访谈法修订创伤护理患者报告体验量表(QTAC-PREM)。质量生命决议2015年8月15日;24(8):1911-1919。[CrossRef] [Medline
  23. 认知面试:“如何”指南。研究训练研究所,1999年。URL:https://123docz.net/document/1098481-cognitive-interviewing-a-how-to-guide-pptx.htm[2022-02-22]访问
  24. Beatty PC, Willis GB。研究综合:认知访谈的实践。公众意见Q 2007 6月05日;71(2):287-311。[CrossRef] [Medline
  25. Benítez I,帕迪拉J.跨不同语言群体使用混合方法的非等效评估分析。J Mixed Methods Res 2013年5月13日;8(1):52-68 [免费全文] [CrossRef
  26. DeWalt DA, Rothrock N, Yount S, Stone AA, PROMIS合作集团。候选项目评估:PROMIS定性项目评审。医疗护理2007年5月;45(5增刊1):12-21 [免费全文] [CrossRef] [Medline
  27. 索罗里奥R,阿亚拉NC,派兹E,斯卡利奇AM,莫拉莱斯LS。使用认知访谈调整PROMIS测量项目的西班牙语感染者。艾滋病治疗2016;2016:8340863 [免费全文] [CrossRef] [Medline
  28. DeVellis射频。经典测试理论。医疗护理2006 11月;44(11增刊3):50-59 [免费全文] [CrossRef] [Medline
  29. Raykov T, Marcoulides GA。心理测量理论导论。纽约:劳特利奇;2010.
  30. IBM SPSS统计Mac,版本27。纽约州阿蒙克:IBM公司;2020.
  31. Muthén L, Muthén B. Mplus (Mac)版本8。加州洛杉矶:Muthén & Muthén;2017.
  32. 蔡林,杜托利。IRTPRO 4.20 Windows。北卡罗来纳州教堂山:矢量心理测量小组;2019.
  33. 生活质量:患者报告结果的评估、分析和解释。西苏塞克斯:John Wiley & Sons;2007.
  34. Katajapuu N, Laimi K, Heinonen A, Saltychev M.世界卫生组织残疾评估表2.0对慢性肌肉骨骼疼痛患者的下限和上限影响。国际康复杂志2019 Jun;42(2):190-192。[CrossRef] [Medline
  35. Lim CR, Harris K, Dawson J, Beard DJ, Fitzpatrick R, Price AJ。OHS中的下限和上限效应:对NHS PROMs数据集的分析。BMJ公开赛2015年7月27日;5(7):e007765 [免费全文] [CrossRef] [Medline
  36. 使用自我报告量表测量慢性疾病自我管理干预措施结果的方法。澳大利亚墨尔本:RMIT大学;2008.URL:https://researchrepository.rmit.edu.au/esploro/outputs/doctoral/Approaches-to-the-measurement-of-outcomes/9921861708201341[2022-02-22]访问
  37. 袁克杰,本特勒总理。三种基于似然的非正态缺失数据的均值和协方差结构分析方法。社会科学,2000;30(1):165-200。[CrossRef
  38. Raykov T, Marcoulides GA。论经典测试理论与项目反应理论的关系:从一个到另一个再回来。《心理教育》2016年4月;76(2):325-338 [免费全文] [CrossRef] [Medline
  39. Osborne RH, Batterham RW, Elsworth GR, Hawkins M, Buchbinder R.健康素养问卷(HLQ)的基础心理测量发展和初步验证。BMC Public Health 2013;13:658 [免费全文] [CrossRef] [Medline
  40. 同类测量的综合信度估计。应用心理测量2016 7月27日;21(2):173-184。[CrossRef
  41. Tavakol M, Dennick R. Cronbach alpha的意义。国际医学教育杂志2011年6月27日;2:53-55 [免费全文] [CrossRef] [Medline
  42. Cappelleri JC, Lundy JJ, Hays RD.在制定患者报告的结果测量中对项目进行定量评估的经典测试理论和项目反应理论概述。临床杂志2014年5月;36(5):648-662 [免费全文] [CrossRef] [Medline
  43. Bujang MA, Baharum N.估计类内相关系数值的样本量要求的简化指南:综述。科学通报2017;12(1):1-11 [免费全文
  44. McCoach DB, Gable RK, Madura JP。基于仪器内部结构的证据:因子分析。在:情感领域的工具发展。纽约州纽约:施普林格;2013:109 - 161。
  45. Muthén B,阿斯帕鲁霍夫T.贝叶斯结构方程建模:一个更灵活的实体理论表示。心理方法2012九月十七日(3):313-335。[CrossRef] [Medline
  46. 阿斯帕鲁霍夫,Muthén B,莫林AJ。带有交叉载荷和残馀协方差的贝叶斯结构方程建模。J Manag 2015 6月30日;41(6):1561-1577。[CrossRef
  47. Hoijtink H, van de Schoot R.使用先验-后验预测P值测试小方差先验。心理方法2018 9月23日(3):561-569。[CrossRef] [Medline
  48. 福内尔C,拉克尔DF。评估具有不可观测变量和测量误差的结构方程模型。J Mark Res 1981 Feb;18(1):39-50。[CrossRef
  49. 法雷尔。区分效度不足:对Bove, Pervan, Beatty和Shiu(2009)的评论。中国公共汽车学报,2010年3月,30(3):324-327。[CrossRef
  50. Meade AW, Lautenschlager GJ。项目反应理论与验证性因素分析方法建立测量等效性/不变性的比较。器官测定方法2004年10月1日;7(4):361-388。[CrossRef
  51. Osterlind SJ, Everson HT。不同项目功能。千橡市:圣人出版社;2009.
  52. 盖洛·JJ,安东尼·JC, Muthén BO。抑郁症症状的年龄差异:潜在特征分析。《老年医学杂志》1994年11月19日(6):526 - 526。[CrossRef] [Medline
  53. Asparouhov T, Muthén B.先验-后验预测p值。Mplus Web Notes:第22名。2017.URL:https://www.statmodel.com/download/PPPP.pdf[2022-02-22]访问
  54. 阮涛,韩浩,金敏敏,陈克勤。患者报告结果测量的项目反应理论介绍。患者2014年1月9日;7(1):23-35 [免费全文] [CrossRef] [Medline
  55. 《项目反应理论基础》。马里兰州帕克大学:ERIC评估和评价信息中心;2001.
  56. Ong CW, Pierce BG, Woods DW, Twohig MP, Levin ME。接受与行动问卷- II:项目反应理论分析。心理变态行为评估2018年8月16日;41(1):123-134。[CrossRef
  57. Edelen MO, Reeve BB。将项目反应理论(IRT)建模应用于问卷开发、评估和改进。质量生命决议2007;16增刊1:5-18。[CrossRef] [Medline
  58. 进行项目反应理论分析的实用指南。青少年早期杂志2013 11月19日;34(1):120-151。[CrossRef
  59. 2033.0.55.001 -人口和住房普查:地区社会经济指数(SEIFA),澳大利亚,2016。澳大利亚统计局,2018年。URL:http://www.abs.gov.au/AUSSTATS/abs@.nsf/DetailsPage/2033.0.55.0012016?OpenDocument[2022-02-22]访问
  60. 贾恩斯R,巴德玛耶娃T,比泽尔M.影响评估调查。冠状病毒如何影响全球数字健康行业。Research2guidance。2020年4月14日。URL:https://tinyurl.com/48ydyxkp[2022-02-22]访问


大街:平均方差提取
BSEM:贝叶斯结构方程模型
CFA:验证性因素分析
结论:经典测试理论
DIF:差别化项目功能
eHLQ:电子健康素养问卷
国际刑事法庭:同类内相关系数
红外热成像:项目反应理论
模拟:多,多种原因
购买力平价:后验预测P
PPPP:前验预测P


R·库卡夫卡编辑;提交10.08.21;同行评审:B Raffaelli, RM Payo, J Lee, S Weiwei;对作者19.10.21的评论;修订本收到08.11.21;接受03.12.21;发表08.03.22

版权

©Christina Cheng, Gerald R Elsworth, Richard H Osborne。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 08.03.2022。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map