JMIR形成性研究-跨2个招聘来源的大学生的数据质量和学习依从性:两个研究调查

原始论文

¹美国弗吉尼亚州诺福克的老道明大学心理学系

²美国宾夕法尼亚州米勒斯维尔市米勒斯维尔大学心理学系

^3.美国德州农工大学心理与脑科学学系，大学城

通讯作者:

艾比·L·布莱特曼博士

心理学系

老道明大学

戈德温大厦250号

弗吉尼亚州诺福克，邮编23529

美国

电话:1 757 683 3708

电子邮件:abraitma@odu.edu

背景:满意度模型表明，当调查负担较高时，当参与者动机较低时，研究参与者可能无法完全处理调查项目并提供准确的回答。参与者如果不能完全处理调查指示，就会降低研究的说服力，阻碍概括性。使用自我报告方法的研究人员普遍关注的问题是数据质量和参与者的依从性。同样，人员流失也会损害研究的力量和普遍性。

摘要目的:鉴于在心理学研究中，尤其是学生问题和心理健康的测试中，大学生是大多数样本，了解大学生招生来源如何影响数据质量(操作为带有指示说明和正确答案的注意力检查项目)和留存率(操作为随时间完成后续调查)是至关重要的。该检查旨在检查以下内容:数据质量是否因招募来源而异，研究保留是否因招募来源而异，数据质量对研究变量关联的影响，数据质量对内部一致性测量的影响，以及参与者的人口统计学质量是否在注意力检查失败者与未通过检查者之间存在显著差异。

方法:这项检查是对先前发表的两项研究的随访分析，以探讨数据质量和研究依从性。研究1是一项横断面、基于网络的调查，调查了大学压力源和心理健康(282/407,69.3%为女性;230/407，白人56.5%，113/407，黑人27.8%;平均年龄22.65岁，SD 6.73岁)。研究2是一项纵向的大学饮酒干预试验，包括一个面对面的基线会议和2个基于网络的随访调查(378/528,71.6%女性;213/528，白人40.3%，277/528，黑人52.5%;平均年龄19.85岁，标准差1.65岁)。两项研究均纳入注意力检查以评估数据质量。两项研究的参与者都是从心理学参与库中招募的(拉入法;对于课程学分)和一般学生群体(一种推出方法; for monetary payment or raffle entry).

结果:在这两项研究中，通过心理学库招募的参与者中有很大一部分未能通过注意力检查，这表明数据质量较差。随着时间的推移，心理学库也与较低的留存率有关。在筛选那些注意力检查失败的人之后，研究变量之间的一些相关性更强，一些更弱，还有一些相当相似，这可能表明包括这些参与者带来了偏见。研究测量的内部一致性指标之间的差异可以忽略不计。最后，注意力检查失败与大多数人口特征没有显著相关，但在一些种族身份中有所不同。这表明，从注意力检查失败的参与者中过滤数据可能不会限制样本多样性。

结论:进行大学生研究的调查人员应仔细考虑招募，并包括注意力检查或其他检测低质量数据的方法。讨论了对研究人员的建议。

JMIR Form Res 2022;6(12):e39488

doi: 10.2196/39488

关键字

数据质量；注意检查；招聘；保留；大学生；移动电话

背景

任何研究结果的有效性都取决于所收集数据的完整性。使用自我报告测量方法的心理学研究人员普遍关注的问题是数据质量和参与者的依从性。参与者可能没有完全阅读或处理自我报告的测量说明或项目，给数据增加噪音而不是反映被评估的结构，或者他们可能没有完成研究方案，减少了用于分析的评估数量。两者都降低了研究的影响力[1]并可能妨碍其发现的普遍性[2，3.］．鉴于心理治疗的临床试验长期不足[4]，由于数据质量差而降低的能力会加剧对研究结果的缺乏信任。为了防止这些对统计能力和外部有效性的负面影响，研究人员可能致力于招募合规的参与者，更好地激励合规，并从数据集中发现和删除不合规的参与者。鉴于大学生是心理学研究的主要样本[5-7，有必要了解针对大学生的招聘来源与参与者依从性之间的关系。在本文中，我们将参与者的合规性定义为提供高质量的数据(即，在回答之前付出合理的努力并充分阅读每个项目)和完成后续评估(即，保留;只适用于纵向研究)。

识别影响数据质量的参与者不合规行为的一种方法是使用带有指示的注意力检查项目来选择特定的答案(例如，“对此项选择‘稍微同意’”)或有事实答案(例如，“哪个数字最大?”);这些也被称为指导性操作检查[1]、假冒物品[8]，非频率尺度[9]，或随机响应指标[10］．这些项目可以识别出哪些参与者是满意的(即，投入最少的努力，可能没有完全阅读或理解每个项目)，这有时被称为粗心的回应。删除这些参与者可能会增加统计力，这样相关研究变量之间的相关性更强，跨条件的实验效果更大[1，10-12]或以其他方式减少研究变量之间的“噪声”[13］．通过注意力检查，识别出质量较差的数据，这些数据的回答可能无法反映真实的研究结构，并删除这些令人满意的案例，这可能会减少随机错误，增加统计力量，但也可能会导致删除一个有意义的群体，并引入偏见，因为某些人口统计数据(如性别、年龄、种族、教育程度和内在动机)可能与满意度相关[11，14］．一些招聘来源可能产生的参与者不仅不太倾向于满意，而且在人口统计学上也更多样化，从而允许在不限制样本的多样性和泛化的情况下删除满意的参与者。

在一个解释个人如何制定和回应调查问题的模型中，Tourangeau等[15他提出，糟糕的数据质量来自于未能参与认知处理的四个阶段中的至少一个:(1)理解项目的含义，(2)在记忆中找到与项目相关的信息，(3)总结找到的信息，以及(4)在给定选项的情况下使用该信息做出回应。如果没有参与到这些认知过程的任何一个阶段，就会产生满足感。然而，在这个测试中使用的注意力检查作为数据质量的指标是为了检测最令人震惊的满足形式(第一阶段:没有完全阅读和理解项目)，而不是后来的认知加工形式(例如，花时间处理他们记忆中的焦虑程度，或者这是否最好反映为对给定项目的4 vs 5的认可)。Krosnick [16]概述了受访者在进行满足以保存精神能量时可能选择的各种回应策略，并建议一些个体在面临很大的任务困难时(例如，调查中的许多项目)可能会选择进行满足以保存精神能量，并且随着调查负担的增加，满足的可能性也会增加，并且随着参与者变得更加疲劳，他们表现得更不积极。此外，它还表明，受访者可能首先对认知加工的后期阶段不那么勤奋(例如，花时间在4和5之间做出决定)，然后完全省略阶段(例如，没有完全阅读项目)。对141项包含各种满意度指标的研究进行系统回顾后发现，74%的研究发现任务难度与满意度显著相关，68%的研究发现受访者动机与满意度显著相关[17，表明满意度是调查任务(高负担)和参与者(低动机)的质量的结果。

参与者依从性的另一个问题对纵向研究(如心理健康检查)特别重要，即研究保留率。许多研究需要多重评估，例如观察自然发展轨迹或跟踪干预后行为、症状或态度的变化。尽管与非干预研究相比，干预为参与者提供了额外的好处(例如，潜在的精神或身体健康改善)，但这些好处通常是立即获得的，并且不会扩展到激励保留后续调查。此外，后续评估通常是在相当长的时间过去后(例如几周或几个月)远程进行的。因此，每增加一次随访，留存率就会下降。例如，在对心理和行为健康队列研究的荟萃分析中，已经注意到留存率的挑战[18]，一项基于失调的健康行为改变干预的元分析[19]，以及一项关于治疗和预防饮食失调的数字干预措施的元分析[20.］．这对于涉及大学生的研究尤其具有挑战性。一项对24项关于大学生饮酒短暂干预的研究的综合分析发现，在6个月的随访中，保留率低至46%，在9至12个月的随访中，保留率为51% [21］．这些研究的作者已经注意到，留住大学生是多么具有挑战性，特别是在实施诸如大学生饮酒等干预措施时。22，23]或针对抑郁、焦虑或有压力的学生的网络项目[24］．确定与更好的数据质量和更高的依从性相关的招募方法(例如，通过注意力检查和完成包括后续评估在内的研究方案)可能会降低与纵向研究相关的成本，增加研究设计的收益和实用性，并加强对研究结果的信任。

招聘来源

在大多数心理学研究中，大学生是研究样本，这一趋势一直以来都是一致的。一项对心理学多个领域6家顶级期刊20年(1975年、1985年和1995年)的调查包括1559篇人类参与者的文章[7］．研究人员发现，大多数研究(68%)专门使用本科生样本，这一发现随着时间的推移是一致的(1975年为69.8%，1985年为66.7%，1995年为68.2%)。对1种主要期刊的调查人格与社会心理学杂志，显示67%的美国研究样本是专门注册心理学课程的本科生，而非美国研究样本的这一比例上升到80% [5];然而，近年来，这一数字总体下降到42%(39%的美国研究和54%的非美国研究)[6］．这使得研究大学生的学习依从性变得非常必要，特别是心理学学生库的使用是否会产生影响。

学生参与小组受到了心理学界的赞扬和批评[25，26］．他们为研究人员提供了一个低成本和高效的招聘来源，这对于没有资金的学生研究人员来说可能特别重要[26］．尽管有人担心学生参与者主要是女性、白人和年轻的心理学专业学生[26，27]这可能导致样本不能超越西方、受过教育的、工业化的、富裕的和民主的社会[28]，学生参与的群体在人口统计学上越来越多样化，反映出大学生群体的日益多样化[26］．此外，一些研究问题特别关注学生群体(例如，关注独特的大学压力源及其与心理健康的联系或针对大学饮酒的干预措施的研究)，因此需要学生参与者来源。

除了方便之外，学生参与池可能潜在地反映了真正感兴趣的人群;然而，这些池子也可能与较低的入学率和研究依从性有关。夏普与诗人[26在两门大型入门课程中，多达56.7%的学生选择不参与研究或获得任何研究学分。动机问题和时间承诺是导致学生不参与研究池的两个主要因素[29，30.］．可能导致参与动机低的因素也会影响那些选择参与研究的人的依从性。

安东等[31]建议招聘方法的类型可以解释数据质量的差异，区分拉入式招聘和推出式招聘。他们将“拉入式招聘”定义为将研究报告发布给已经在某种程度上选择从事研究的参与者群体，如亚马逊土耳其机器人(MTurk)的员工或在Craigslist上寻找有偿研究机会的个人(类似于学术机构的学生参与者群体)，而“推入式招聘”则使用在尚未专注于研究的场所发布广告的方法。例如，网站上的广告不是专门用于招募研究参与者的(例如，Facebook广告)，传单和电子邮件爆炸。在一项基于网络的横断面调查中，Antoun等人比较了“内拉”和“外推”两种招募iPhone用户的方法。31研究人员发现，拉入式方法(使用Craigslist和MTurk)在招募参与者方面比推入式方法(在谷歌和Facebook上使用付费广告)更有效，因为注册率更快，每个参与研究的参与者的成本更低。虽然数据收集中没有包括注意力检查，但作者得出的结论是，通过拉入方法招募的参与者提供了更好的数据(即，“不知道”的回答更少，跳过或不完整的回答更少)，这可能表明不太令人满意。多项研究通过在拉入和推出方法中招募样本，并将注意力检查作为数据质量的指标，扩展了这些发现。其中一项研究从MTurk(拉入)、Facebook(推入)和Qualtrics面板(拉入)招募了参与者，并包括1个注意力检查[32］．他们发现，通过MTurk招聘的参与者通过注意力检查问题的比例最高(93%)，而通过Facebook广告招聘的参与者(66%)和Qualtrics面板招聘的参与者(40%)。通过MTurk招募的参与者只有0.4%的时间支持“不知道”的回答，而通过Facebook和Qualtrics小组招募的参与者(4%)则为5%。这些发现表明，推入和拉入的区别可能没有信息源那么重要，因为最高(MTurk)和最低(Qualtrics面板)的注意力检查失败率都与拉入信息源有关。一项类似的研究发现，MTurk样本更有可能通过注意力检查(97.5%)，而通过Dynata的小组受访者(91.6%)，两者都是拉入来源[33］．这些发现表明，有必要对“内拉”和“外推”的区别进行进一步研究;使用大学校园中更常用的拉入和推出招募方法(即，拉入:心理学学生参与池;推送:向普通本科生发送电子邮件通知)。此外，迄今为止还没有研究探讨大学生在这两种来源上的学习依从性。

本次考试:两项研究调查

本测试通过对美国大学生的两项研究，采用不同的设计方案，探讨了招募来源的研究依从性(即数据质量和保留率)。这些是对具有不同主要研究目标的已发表研究的后续分析。研究1关注独特的大学压力源及其与心理健康的关系[34并涉及远程分发基于网络的调查(完全远程和横断面设计)。研究2检查了针对大学生饮酒的干预措施(ClinicalTrials.gov NCT03440463) [35]并在1个月和3个月后进行计算机化调查和远程基于网络的随访调查(亲自组成和纵向设计)。在这两项研究中，参与者都是从(1)心理学学生参与库中招募的，作为补偿，他们获得心理学课程的研究学分;(2)通过电子邮件通知从普通学生中招募，他们要么获得抽奖(研究1)，要么获得金钱补偿(研究2)。

这项检查旨在检查以下内容:(1)数据质量是否因招募来源而异，(2)研究保留是否因招募来源而异，(3)数据质量对研究变量关联的影响，(4)数据质量对内部一致性测量的影响，以及(5)参与者的人口统计学质量是否在注意力检查失败的参与者与没有进行注意力检查的参与者之间存在显著差异。在研究1和研究2中使用注意力检查来检查数据质量，仅在研究2中，保留率作为随访完成率进行操作。鉴于针对大学样本的招募方法对学习依从性的研究有限，针对目标1、2和5的分析本质上是探索性的。对于目标3和4，与之前的发现一致，即满足会给评估增加噪音，并降低影响的强度[1，11]，我们假设在排除那些注意力检查失败的人后，内部一致性指标和研究变量关联都会更强。特别是，满意的参与者倾向于认可多项测量的中点[10]，可能会降低变量之间的关联强度，并且纳入令人满意的参与者可以掩盖删除它们后显示的强烈影响[1]，支持我们对目标3的假设。除了倾向于认可量表的中点外，满意的参与者也没有注意到量表的反转(即反向得分项目)[11]，可能会降低内部一致性的指标，支持我们对目标4的假设。

方法

研究1是对担忧作为社会心理压力源与焦虑、压力和抑郁之间的中介的横断面检查[34］．原始研究的主要结果包括担忧、压力、抑郁和焦虑。

参与者

本科生(282/407,69.3%为女性;230/407, 56.5%白色;平均年龄22.65岁，标准差6.73岁)，来自美国大西洋中部地区一所大型公立少数族裔大学，通过全校学生公告(推出方法;N =257)，以及通过心理学学生研究库(拉入法;N =150)来完成一项基于网络的调查。他们在学校里的分布相对平均。指表1查看完整样本的相关人口统计信息，并根据招聘来源进行分类。两份招聘广告都提到这项研究是一项基于网络的调查，以及评估的信息类型(如焦虑、担忧和相关认知)。两份报告都显示了调查所需时间的估计，以及有关薪酬的信息。只有全校范围内的学生公告中包含了一句话，说明了数据将如何使用，他们的数据将保持机密，因为心理学库的参与者已经很清楚这个细节。通过心理学库和全校范围的公告提供了不同的招聘链接。这两个数据集被编码以反映参与者如何访问调查，然后合并。

表1。根据招募来源分类的研究1样本的描述信息^一个．

变量		一般学生通告(n=257)	心理学库(n=150)	总(N = 407)	P价值
性别，n (%)						收
	女	168 (75.7)	114 (76.5)	282 (69.3)
	男性	47 (21.2)	34 (22.8)	81 (19.9)
	变性人	5 (2.3)	0 (0)	5 (1.2)
	其他	2 (0.9)	1 (0.7)	3 (0.9)
种族，n (%)						。
	西班牙裔或拉丁裔	16 (7.2)	16 (10.7)	32 (8.6)
	不是西班牙裔或拉丁裔	205 (92.8)	133 (89.3)	338 (91.4)
比赛^b， n (%)
	亚洲	32 (12.5)	15 (10)	47 (11.5)	.46
	黑人或非裔美国人	54 (21)	59 (39.3)	113 (27.8)	<措施^c
	印第安人	7 (2.7)	3 (2)	10 (2.5)	综合成绩
	其他	10 (3.9)	7 (4.7)	17 (4.2)	点
	白色	146 (56.8)	84 (56)	230 (56.5)	.87点
在校年限，n (%)						措施
	大一新生	53 (24)	65 (43.6)	118 (31.9)
	二年级学生	44 (19.9)	21日(14.1)	65 (17.6)
	初级	56 (25.3)	27日(18.1)	83 (22.4)
	高级	68 (30.8)	36 (24.2)	104 (28.1)
就业率，n (%)						02
	使用	134 (60.6)	68 (45.6)	202 (54.6)
	不使用	82 (37.1)	71 (47.7)	153 (41.4)
	其他	5 (2.3)	10 (6.7)	15 (3.7)
年龄(年)，平均值(SD)		22.71 (6.19)	22.58 (7.48)	22.65 (6.73)	.86

^一个卡方检验不包括每个细胞<5个参与者的类别。

^b参赛者可以选择> - 1个种族的回答选项，因此统计总数可能超过总样本量。

^c重要的P数值用斜体表示。

过程

一个学习广告包含在学生通告中，通过电子邮件发送给主办机构的所有学生。感兴趣的学生可以点击一个链接来完成网上调查。一个类似的广告被包含在基于网络的心理学研究池门户网站中，该门户网站链接到相同的调查。心理学参与者包括心理学课程的学生。作为对他们参与发布的研究的交换，他们获得了研究学分，可以申请到他们所注册的课程。教师可以将这些学分纳入课程的评分标准，或者为学生提供额外的学分。学生们可以报名参加他们有资格参加的任何研究。志愿者作为研究参与者并不需要获得这些研究学分;学生也可以完成科学文章评论。学生通告每天都通过电子邮件发给每一个在校学生。 They included announcements for academic workshops, research studies, social activities, and employment opportunities available to the students. Data collection for study 1 took place from July to September 2017.

道德的考虑

我们在处理样本时遵守了美国心理学协会的道德标准。该机构的人体受试者审查委员会决定该研究免于持续监督(文献编号1103992-1)。所有参与者在完成调查前都提供了知情同意。通过学生公告招募的参与者可以选择获得抽奖(4张50美元的亚马逊礼品卡或12张25美元的亚马逊礼品卡中的一张)或研究积分(如果适用)。通过心理学学生研究库招募的参与者得到了研究学分的补偿。由于用于补偿目的的信息是在与调查回复无关的单独问卷中收集的，因此研究数据是匿名的。

材料

担心

使用宾夕法尼亚州立大学焦虑问卷评估焦虑程度[36，这是一项由16个项目组成的评估参与者担忧程度的指标(例如，我的担忧压倒了我)。响应选项从1=完全不是我的风格5 =很典型的我．

压力、抑郁和焦虑

压力、抑郁和焦虑用21项抑郁焦虑压力量表评估[37］．每个构念都有7个项目进行评估，包括压力(例如，我发现自己很容易心烦)、抑郁(例如，我觉得生活毫无意义)和焦虑(例如，我觉得自己接近恐慌)。回答范围从0=在过去的一周里都没有适用于我吗3 =在过去一周的大部分时间里我都遇到过这种情况．

注意检查

总共有8个注意力检查问题被添加到调查中，以评估数据质量，或者更具体地说，检测满意度，不专心的参与者没有完全阅读调查项目或说明。其中4个是单独的问题(如选择最高的数字)，4个是整合到问卷中(如此答案选择“5-7天”)。错误回答的数量被求和，然后重新编码成一系列变量，代表参与者是否错误地回答了任何注意检查(n=55)，≥2 (n=16)，或≥3 (n=9;0 =没有和1 =是的对于所有变量)。没有为回答错误≥4而创建变量，因为这只代表1个参与者。

分析方法

样本的人口统计学特征在招聘来源之间进行比较，使用分类变量卡方检验(例如，在校年限和就业)和2尾检验t对连续变量(即年龄)的测试。为了测试研究目标1(跨招募来源的数据质量)，注意力检查失败的参与者比例(编码为≥1、≥2或≥3)为是的vs没有)与招聘源(普通学生群体vs心理库)进行比较，使用一系列独立卡方检验(或当任何细胞的期望值<5时的Fisher精确)。该研究作为一系列逻辑回归进行重复，以控制任何在招聘来源中显著变化的人口统计学特征。我们将调查完成时间作为数据质量的另一个标志。然而，花费在调查上的时间可能受到多种因素的影响，例如满意度(可能导致比其他参与者更快的完成时间)或分心(可能导致比其他参与者更慢的完成时间)。然而，调查完成时间也可能受到与数据质量无关的外部因素的影响，如网络连接不良或休息后再回来，这将导致完成时间变慢，但响应可能仍然是高质量的。跳过一些项目或不完成完整的调查也可能会受到影响，这将导致更快的完成时间，但完成的回答可能仍然是高质量的。此外，如果研究人员使用快速的调查完成时间来排除案例，排除那些只完成部分调查的人，他们可能会通过使用完整案例分析来引入系统性偏差，这被美国心理协会统计推断工作组标记为解决缺失数据的最糟糕方法之一[38］．因此，我们选择专门关注失败的注意力检查，作为数据质量差的标志。出于同样的原因，我们选择关注注意力检查失败(即完成项目但出错)，而不是正确回答项目，因为这种方法允许参与者退出调查，不完成所有注意力检查项目，同时仍然可能为所回答的项目提供高质量的数据。

研究1没有检验目标2(研究保留率是否因招聘来源而异)，因为它不是纵向的。为了检验研究目标3(数据质量对研究变量关联的影响)，在原始研究感兴趣的变量(即担忧、压力、抑郁和焦虑)之间进行了一系列双变量相关性。对整个样本进行一次检查，然后只对那些没有通过任何注意力检查的人、那些不通过≤1项注意力检查的人、那些不通过≤2项注意力检查的人以及那些不通过≤3项注意力检查的人进行一次检查(即保留那些没有通过的人)引人入胜的在满足使用各种截止)。最后，对于那些至少有一项注意力检查不及格的人，他们再次进行了测试引人入胜的在满意度)。在那些未通过≥2(或≥3)项注意检查的参与者中没有进行相关性，因为符合这些标准的参与者数量较少(即≤16)。那些没有通过任何注意力检查的人与那些没有通过任何注意力检查的人之间的相关性最大的差异是通过Fisher检验的z对于独立样本。比较只针对那些没有通过注意力检查的人进行，而没有进行，因为他们代表了整个样本的分裂(即，没有参与者属于两组)。这使我们能够检测到是否有显著的噪声是由那些从事满足的人引入到样本中，潜在地降低了关联的强度或通过随机错误增加SEs。

为了检验目标4(数据质量对内部一致性测量的影响)，使用完整样本计算关键研究测量的Cronbach α和McDonald omega，然后仅对那些没有或没有通过不同数量的注意检查的人进行计算。之所以提供这两个指标，是因为麦克唐纳ω具有更现实和可实现的假设，因此在许多情况下可能是一个更准确的内部一致性指标，但克朗巴赫α的使用和理解更为广泛[39］．最后是一系列的双尾t为了测试研究目标5，我们进行了检验和卡方检验，目的是探索那些没有通过任何注意力检查的参与者的人口统计学质量是否有显著差异。所有分析均采用SPSS统计软件(版本26;IBM公司;(包括使用Hayes和Coutts的宏[39麦当劳omega)。原检查样本量[34]是通过G* power的功率分析确定的[40]，指定双尾检验，α为.05，幂为0.80。本研究没有重复功率分析，因为它是二次分析。

结果

概述

如表1在美国，通过心理学库招收的黑人或非裔美国学生(59/ 150,39.3%)明显多于通过普通学生(54/ 255,21%;P<措施)。此外，通过心理学库招募的样本中有更多的一年级学生(几乎是大多数;65/150, 43.6%)，而通过普通学生群体招募的样本在学校的各个年份通常更为平衡(P=措施)。最后，通过普通学生招募的参与者被雇佣(134/257,60.6%)明显多于来自心理学库的参与者(68/150,45.6%;P= .02点)。在性别、年龄、种族或其他种族身份的招聘方法中，样本没有显著差异。

目标1:招聘来源的数据质量

在整个样本中，86.5%(352/407)的参与者没有通过任何注意力检查，9.6%(39/407)的参与者未通过1次检查，1.7%(7/407)的参与者未通过2次检查，2%(8/407)的参与者未通过3次检查，0.2%(1/407)的参与者未通过5次检查。没有人通过5次(8次中的5次)检查。招募方法类型与数据质量相关，例如心理库参与者(29/150,19.3%)比普通学生群体参与者(26/257,10.1%)没有通过任何注意力检查;χ²₁= 6.9,P= .009)。同样，心理库参与者(10/150,6.7%)比普通学生群体参与者(6/257,2.3%;χ²₁= 4.7,P= 03)。尽管不通过3次以上注意检查的趋势是相同的(心理池参与者与普通学生群体参与者相比，6/ 150,4% vs 3/257, 1.2%)，但基于Fisher精确检验，这没有达到统计显著性(P=。08)。

这些比较以一系列逻辑回归的形式重复进行，并控制了招聘来源之间显著不同的人口统计数据(上学年限、就业情况以及支持黑人或非裔美国人的种族)。上学年限和就业对注意力检查失败没有显著的预测作用，因此被排除在预测因素之外。控制黑人或非裔美国人身份认可的模型与卡方分析一致，发现招募来源与任何注意力检查失败显著相关，通过心理池招募的参与者明显更有可能通过注意力检查(B=0.63;P= .04点;exp[B]=1.87, 95% CI 1.04-3.37)。控制种族因素后，招募源与未通过≥2次注意检查无显著相关性(B=0.83;P= 13;exp[B]=2.28, 95% CI 0.79-6.60)，或≥3次注意检查(B=0.76;P= .30;exp (B) = 2.13。95% ci 0.51-8.99)。

目标3:数据质量对变量关联的影响

原始研究的关键变量(即担忧、压力、抑郁和焦虑)之间的相关性是对完整样本进行的，那些没有任何注意力检查失败的人，那些至少有一次注意力检查失败的人，那些注意力检查失败<2的人，以及那些注意力检查失败<3的人(表2)．在分析之前，检查了变量的极值(即异常值)和正态性。所有变量均为正态分布，未发现极端异常值。总的来说，当将全部样本与那些没有通过任何注意力检查的人进行比较时，没有明显的差异模式;一些相关性变小了，而另一些则变大了。同样，在比较没有通过任何注意力检查的参与者和那些没有通过任何注意力检查的参与者之间的相关性强度时，也有混合的发现。正如预期的那样，那些注意力检查失败<2或<3的人，其相关性介于那些没有失败的人与那些至少失败一次的人之间。

那些没有通过注意力测试的人与那些没有通过注意力测试的人之间的相关性变化与费雪进行了比较z独立样本比较，检验差异大小。与假设相反，在至少一次注意力检查失败的参与者中，抑郁和焦虑之间的联系明显强于那些没有任何注意力检查失败的参与者(z分数−3.11;P=.001)，压力和焦虑之间的关系(z分数−3.66;P<措施)。压力和担忧之间的第二大区别是:z= 1.60;P＝．06焦虑与担忧之间:z= 1.54;P=.06)均在预期方向，但不显著。所有其他相关性之间的差异在量级上较小，并且在注意力检查失败的组间没有显着差异。

表2。根据注意力检查失败分类的关键研究1变量之间的相关性^一个．

测量		1	2	3.	4
完整样本(N= 407)
	1.担心	- - - - - -^b	- - - - - -	- - - - - -	- - - - - -
	2.压力	.62^一个	- - - - - -	- - - - - -	- - - - - -
	3.抑郁症	报^一个	收^一个	- - - - - -	- - - - - -
	4.焦虑	.57^一个	.79^一个	i =^一个	- - - - - -
未通过任何注意力检查(n=352)
	1.担心	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	2.压力	.64点^一个	- - - - - -	- - - - - -	- - - - - -
	3.抑郁症	.51^一个	开市^一个	- - - - - -	- - - - - -
	4.焦虑	.60^一个	.77点^一个	点^一个	- - - - - -
>1次注意检查失败(n=54)
	1.担心	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	2.压力	票价	- - - - - -	- - - - - -	- - - - - -
	3.抑郁症	．43	结果	- - - - - -	- - - - - -
	4.焦虑	．43	.92	.85	- - - - - -
注意检查失败<2次(n=391)
	1.担心	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	2.压力	.62	- - - - - -	- - - - - -	- - - - - -
	3.抑郁症	50	开市	- - - - - -	- - - - - -
	4.焦虑	.59	尾数就	.68点	- - - - - -
注意检查失败<3次(n=394)
	1.担心	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	2.压力	点	- - - - - -	- - - - - -	- - - - - -
	3.抑郁症	.51	收	- - - - - -	- - - - - -
	4.焦虑	算下来	.79	.68点	- - - - - -

^一个所有相关在P<措施。

^b不适用。

目标4:数据质量对内部一致性的影响

如表3， Cronbach α和McDonald omega的差异在注意力检查失败的样本中可以忽略不计。

表3。通过注意检查失败来衡量研究1关键变量之间的内部一致性。

变量	无注意失败(n=352)		失败次数不超过1次(n=391)		失败次数不超过2次(n=398)			失败次数不超过3次(n=406)			完整样本(N=407)
	α	Ω	α	Ω	α	Ω	α		Ω	α		Ω
担心	.935	0.941	.933	0.940	.933	0.939	.932		0.938	.931		0.938
压力	.865	.0868	.868	0.870	.871	0.873	.872		0.874	.872		0.874
焦虑	.853	0.856	.859	0.861	.861	0.863	.863		0.865	.862		0.865
抑郁症	.905	0.907	.912	0.914	.913	0.914	.912		0.913	.912		0.913

目标5:通过注意力检查失败进行人口统计

一系列卡方分析显示，注意力检查失败与性别没有显著相关性(χ²_3.= 1.7,P=.63)，种族(χ²₁= 0.0,P=.86)，在校时间(χ²_3.= 0.9,P=.81)、就业状况(χ²₄= 4.2,P=.38)，或年龄(t₃₆₅= 0.68;P= 50)。虽然它与某些种族身份的认可无关(即，认为自己是亚洲人:χ²₁= 0.09,P＝．77or Native American:χ²₁= 0.4,P=.54)，它与认为自己是黑人或非裔美国人(χ²₁= 7.9,P=.005)和白色(χ²₁= 10.5,P=措施)。认为自己是黑人或非裔美国人的参与者至少在一次注意力检查中失败(21.2%)比认为自己不是黑人的参与者(10.5%)多，而认为自己是白人的参与者(8.7%)比认为自己不是白人的参与者(19.8%)少。考虑到招聘来源的不同人口统计细分，我们还研究了招聘来源内的注意力检查失败和种族。在心理池中，认为自己是黑人仍然与注意力检查失败显著相关(χ²₁= 5.3,P= 03)。在公告池(χ²₁= 1.0,P=.31)，但不显著(可能是因为样本量较小)。

将注意力检查失败≥2次与检查失败<2次进行比较，发现了相同的发现模式。注意力检查失败与大多数人口统计学变量之间没有显著相关性。然而，被认定为黑人或非裔美国人的参与者比非黑人参与者(2%;费舍尔的确切P=.003)，而被认定为白人的参与者(1.7%)比非白人的参与者(6.8%;χ²₁= 6.7,P= .009)。

将失败≥3次的注意力检查与失败<3次的注意力检查进行比较，也揭示了相同的发现模式。注意力检查失败与大多数人口统计学变量之间没有显著相关性。然而，被认定为黑人或非裔美国人的参与者比被认定为非黑人的参与者(0.3%;费舍尔的确切P<.001)，而被认定为白人的参与者不通过≥2次注意力检查(0%)的人数少于被认定为白人的参与者(5.1%;费舍尔的确切P<措施)。

方法

研究2是一项纵向(ClinicalTrials.gov NCT03440463)随机对照试验，旨在检查在亲自完成网络酒精干预后发送的个性化规范性反馈促进电子邮件对饮酒结果的影响[35］．最初研究的主要结果包括酒精消费、酒精相关问题和描述性规范性认知(即，一个人认为相关的其他人喝了多少)。

参与者

参与者(378/528,71.6%女性;281/528, 53.2%黑人或非裔美国人;215/528，白人占40.9%;平均年龄19.85岁，SD 1.65岁)，与研究1的参与者来自同一所大学(美国大西洋中部地区的一所大型公立少数族裔服务机构)，通过2个招聘渠道招募:通过学生公告电子邮件(推送方式;N =127)和心理学研究库(拉入法;n = 401)。合资格的参加者为18至24岁的在校学生，且在过去两周内至少饮用过一杯酒精饮料。指表4查看完整样本的相关人口统计信息，并按招聘来源分类。两份招聘广告都提到，这项研究需要第一次亲自参加，并调查了计算机干预对学生健康行为(如饮酒)的长期影响。两者都说明了资格标准，估计第一期课程需要多长时间，以及有关补偿的信息。只有全校范围内的学生公告提到，这些数据将保持机密，因为心理学库的参与者已经很清楚这一细节。

表4。研究2样本描述信息按招聘来源分类^一个．

变量			一般学生通告(n=127)		心理学组(n=401)	总(N = 528)		P价值
性别，n (%)									.85
	女	91 (71.7)		287 (71.6)		378 (71.6)
	男性	36 (28.3)		113 (28.2)		149 (28.2)
	变性人	0 (0)		0 (0)		0 9 (0)
	其他	0 (0)		1 (0.2)		1 (0.2)
种族，n (%)									综合成绩
	西班牙裔或拉丁裔	15 (11.8)		43 (10.8)		58 (11)
	不是西班牙裔或拉丁裔	112 (88.2)		355 (89.2)		467 (89)
比赛^b， n (%)
	亚洲	12 (9.4)		39 (9.9)		51 (9.8)	多多
	黑人或非裔美国人	64 (50.4)		213 (54.1)		277 (53.2)	票价
	印第安人	8 (6.3)		11 (2.8)		19日(3.6)	07
	其他	12 (9.4)		24 (6.1)		36 (6.9)	.19
	白色	49 (38.6)		164 (41.6)		213 (40.9)	54
在校时间， n (%)									<措施^c
	大一新生	21日(16.5)		156 (38.9)		177 (33.5)
	二年级学生	27日(21.3)		123 (30.7)		150 (28.4)
	初级	32 (25.2)		64 (16)		96 (18.2)
	高级	46 (36.2)		56 (14)		102 (19.3)
	研究生	0 (0)		1 (0.2)		1 (0.2)
	其他	1 (0.8)		1 (0.2)		2 (0.4)
年龄(年)，平均值(SD)			20.51 (1.66)		19.65 (1.60)	19.85 (1.65)		<措施

^一个卡方检验不包括每个细胞<5个参与者的类别。

^b参赛者可以选择> - 1的种族反应选项，因此统计总数可能超过样本量。

^c重要的P用斜体表示的值。

过程

在发给主办机构所有学生的电子邮件学生通告中，还包含了一则学习广告。感兴趣的学生可以点击链接完成筛选调查。符合条件的个人被引导到一个基于网络的日程安排程序，以选择即将到来的约会。类似的广告也出现在心理学研究池的网络门户网站上。心理学参与者的结构与第一项研究相同;参加心理学课程的学生可以通过参与发布的研究或撰写科学文章评论来获得研究学分。该门户网站只允许符合年龄限制标准的学生观看广告。心理学组的参与者不需要完成筛选调查(酒精标准在研究描述中显著显示)，并且可以立即访问基于网络的日程安排程序来选择即将到来的约会。所有参与者都被告知，参与这项研究包括在研究实验室参加一个90分钟的时间段，在那里他们将被指示完成一项基于网络的调查(提供了结构性质的信息)和酒精干预。参与者在校内研究实验室参加基线测试。 After providing informed consent, they completed the baseline survey before completing the web-based alcohol intervention. Participants were randomized into 3 conditions that varied based on the feedback they were provided 2 weeks later via email. All the participants received follow-up surveys via emailed invitations 1 month and 3 months after baseline; those who opted in received reminders via text messages as well. These follow-up surveys were shorter than the initial baseline survey and were completed on the web, so the participants did not have to return to the research laboratory. Baseline data were collected from April 2017 to December 2017.

道德的考虑

我们在处理样本时遵守了美国心理学协会的道德标准。老道明大学机构审查委员会批准了这项研究(参考编号690348-2)。受试者在基线期开始调查前提供知情同意。通过心理学研究库招募的参与者可以选择获得研究积分或完成基线调查的货币补偿(20美元)。通过普通学生团体招募的参与者因完成基线调查而获得金钱补偿(20美元)。所有参与者都因完成后续调查而获得金钱补偿(每个10美元)，并因完成两项后续调查而获得奖金(10美元)。为了保证保密性，在数据收集和清理完成后，所有数据都进行了身份识别。

材料

喝的结果

每日饮酒问卷[41]被用来评估过去30天内典型一周内每天的酒精消费量。参与者被要求输入每周每天的标准饮料消耗量，以及他们在这些天喝酒的小时数。每周饮酒的典型饮酒量除以每周饮酒的总天数，得出每天饮酒的典型饮酒量。典型估计血液酒精浓度(eBAC)通过平均每个饮酒日的eBAC水平来计算。这些水平是根据饮酒量、饮酒时间以及基于性别和体重的身体成分计算出来的。42］．

描述性规范

每日饮酒问卷[41修改后，参与者报告了他们认为他们的亲密朋友在一周内每天喝多少标准饮料。研究人员用一周的饮酒量总和除以饮酒天数，计算出反映亲密朋友每天饮酒量的描述性标准。

酒精相关问题

青少年酗酒后果调查问卷[43]被用来衡量参与者在过去30天内报告的结果总数。共有48个项目评估了8个领域的后果(例如，控制能力受损、学术或职业后果以及社会或人际关系后果)。参与者报告他们是否经历了后果(是的)或否(没有）;对报告的结果进行了统计。

注意检查

总共有4个注意力检查问题被添加到调查中，以评估数据质量，或者更具体地说，检测满意度，不专心的参与者没有完全阅读调查项目或说明。在这些问题中，2个是单独的问题(例如，哪个是最高的数字?)，2个是整合到问卷中(例如，该问题选择“中性”)。错误回答的数量被求和，然后重新编码成一个变量，该变量表示参与者是否错误地回答了任何注意检查(n=64)或≥2 (n=16;0 =没有和1 =是的对于所有变量)。没有为错误回答≥3个问题创建变量，因为这只代表3个参与者。

分析方法

与研究1一样，样本的人口统计学特征在不同招聘来源之间进行了比较，使用分类变量卡方检验(例如，在校年限和就业)和2尾检验t对连续变量(即年龄)的测试。为了测试研究目标1(跨招聘来源的数据质量)，注意力检查失败的参与者比例(是的vs没有)与招生来源(心理学库vs普通学生群体)进行比较，使用3个独立卡方检验(每波数据收集1个)。该研究作为一系列逻辑回归进行重复，以控制任何在招聘来源中显著变化的人口统计学特征。

为了测试研究目标2(跨招聘来源的研究依从性或保留率)，完成每个后续调查的参与者的比例(是的vs没有)与招聘来源进行比较，使用2个独立卡方检验(每个后续调查1个)。这些比较也作为一对逻辑回归进行重复，以控制任何在招聘来源中显著变化的人口统计学特征。为了检验研究目标3(数据质量对研究变量关联的影响)，在原始研究感兴趣的变量(即典型饮酒量、典型eBAC、酒精相关问题和描述性规范)之间进行了一系列双变量相关性。对整个样本进行一次，然后只对那些没有任何注意力检查失败的人进行一次，只对那些至少有一次注意力检查失败的人进行第三次，最后，对那些注意力检查失败<2次的人进行第四次。由于符合这一标准的参与者数量较少(即≤16)，在那些未通过≥2次注意检查的参与者中没有进行相关性。那些注意力检查失败的人与那些没有被检查的人之间的相关性最大的差异是用Fisher来检查的z对于独立样本。

为了检验目标4(数据质量对内部一致性指标的影响)，使用全样本计算了唯一的传统测量方法(酒精相关问题)的Cronbach α和McDonald omega，然后仅计算了那些没有或没有通过不同数量的注意力检查的人。最后，对研究目标5进行了一系列的双尾检验t进行了检验和卡方检验，以探索未通过任何注意力检查的参与者与未通过任何注意力检查的参与者的人口统计学质量是否有显著差异。所有分析均使用SPSS (version 26;IBM)(包括使用Hayes和Coutts的宏[39麦当劳omega)。原检查样本量[35]是通过使用蒙特卡罗模拟方法的功率分析确定的，指定双尾检验，α为.05，功率为0.80。本研究没有重复功率分析，因为它是二次分析。

结果

概述

如表4，通过心理学库招募的样本中，大一新生(156/401,38.9%)和大二学生(123/401,30.7%)明显多于高年级学生，而通过普通学生群体招募的样本在学校中总体上更平衡(P<措施)。心理学库的参与者也略年轻(平均年龄19.65岁，标准差1.60岁)，而通过普通学生招募的参与者(平均年龄20.51岁，标准差1.66岁;P<措施)。样本在性别、种族或种族的招聘方法中没有显著差异。

目标1:招聘来源的数据质量

在研究2的总样本中，在基线时，87.9%(464/528)的参与者没有通过任何注意力检查，9.1%(48/528)的参与者未通过1次检查，2.5%(13/528)的参与者未通过2次检查，0.6%(3/528)的参与者未通过3次检查。没有人通过4项注意力检查。招募类型与基线方案的数据质量相关(χ²₁= 4.0,P=.046)，心理库参与者(55/401,13.7%)比普通学生(9/127,7.1%)没有通过任何注意力检查。在心理组参与者(15/401,3.7%)和普通学生群体(1/127,0.8%;费舍尔的确切P= .14点)。

在1个月的随访中，80.3%(285/355)的参与者没有通过任何注意力检查，13.2%(47/355)的参与者未通过1项检查，6.2%(22/355)的参与者未通过2项检查，0.3%(1/355)的参与者未通过3项检查。没有人通过4项注意力检查。与基线相似，招募类型与1个月随访的数据质量显著相关(χ²₁= 4.6,P=.03)，与普通学生群体(15/114,13.2%)相比，心理库参与者(55/241,22.8%)的注意力检查不合格。此外，与普通学生群体(3/114,2.6%;χ²₁= 4.1,P= .04点)。

在3个月的随访中，81.7%(250/306)的参与者没有通过任何注意力检查，13.1%(40/306)未通过1次检查，4.6%(14/306)未通过2次检查，0.7%(2/306)未通过3次检查。没有人通过4项注意力检查。在3个月的随访中，数据质量也有显著差异(χ²₁= 4.2,P=.04)，与普通学生群体(13/107,12.1%)相比，心理库参与者(43/199,21.6%)的注意力检查不合格。然而，在心理库参与者(13/199,6.5%)和普通学生群体(3/107,2.8%;费舍尔的确切P= .19)。

随着时间的推移，我们还检查了注意力检查失败的情况。在完成1个月随访调查的33例基线时注意力检查≥1项失败的患者中，16例(48%)在随访调查中注意力检查≥1项失败。相比之下，在322名基线注意力检查未失败的患者中，54人(17%)在随访调查中失败≥1次注意力检查。这提示基线时注意检查失败与随访时注意检查失败相关(χ²₁= 19.01,P<措施)。同样，在完成3个月随访调查的31例基线时注意力检查≥1项失败的患者中，13例(42%)在随访调查中注意力检查≥1项失败。相比之下，在基线时没有注意检查失败的275人中，随访调查中有43人(16%)注意检查失败≥1次。这表明基线时的注意检查失败再次与随访调查中的失败相关(χ²₁= 12.9,P<措施)。

控制学龄和年龄，用招聘类型预测注意力检查失败的logistic回归基线不显著(B=0.65;P= 10;exp[B]=1.91, 95% CI 0.89-4.08)或3个月随访(B=0.69;P= 0。06;exp[B]=1.99, 95% CI 0.98-4.06)，但对1个月随访有显著性(B=0.77;P= .02点;exp[B]=2.16, 95% CI 1.12-4.16)。在控制年级和年龄的情况下，招聘类型预测不通过≥2次注意检查的logistic回归对基线无显著性(B=1.70;P=厚;exp[B]=5.46, 95% CI 0.69-43.12);随访1个月(B=1.23;P= 0。06;exp[B]=3.42, 95% CI 0.96-12.27);或3个月随访(B=1.27;P= 0。06;exp[B]=3.56, 95% CI 0.94-13.57)。

目标2:通过招聘来源研究留存率

在1个月的随访中，招聘类型与保留率相关(χ²₁= 38.5,P<.001)，其中从普通学生群体中招募的参与者(114/127,89.8%)比心理库参与者(241/401,60.1%)完成了1个月的随访;同样，来自普通学生群体的参与者完成了3个月的随访评估(107/127,84.3%)比心理学组的参与者(199/401,49.6%;χ²₁= 47.5,P<措施)。这些比较将以逻辑回归的方式重复进行，并控制不同招聘来源(学龄和年龄)的人口统计学差异。然而，在任何时间点上，学龄和年龄都不能显著预测注意力检查失败，也不能预测后续调查的留存率。因此，原始卡方比较作为最终模型。

目标3:数据质量对变量关联的影响

研究2的关键变量(即典型饮酒量、典型eBAC、酒精相关问题和描述性规范)之间的相关性对全样本、没有任何注意力检查失败的人、至少有一次注意力检查失败的人以及注意力检查失败<2的人(表5)．在分析之前，检查了变量的极值(即异常值)和正态性。总共有2个异常值被winsorized(或在保持排名的情况下减少到不那么极端的值)，5个异常值被winsorized eBAC, 3个异常值被winsorized酒精相关问题，2个异常值被winsorized饮酒规范(即亲密朋友每天感知的饮酒量)。所有变量均为正态。总的来说，相关性的变化很小，从完整样本到注意力检查没有失败的参与者，有几个关系的强度在增加。当比较那些没有通过任何注意力检查的参与者与那些不及格≥1的参与者时，差异的模式更大，但在某个方向上存在一些意想不到的关系(即，那些失败的参与者之间的相关性更强)。正如预期的那样，那些没有通过任何检查的人与那些至少失败一次检查的人之间的相关性是中等范围的。

那些没有通过任何注意力检查的人与那些没有通过任何注意力检查的人之间的相关性变化最大z独立样本比较(eBAC与酒精相关问题)，发现那些没有通过任何注意力检查的人的相关性明显强于那些没有通过任何注意力检查的人(z= 1.67;P= .048)。所有其他相关性之间的差异在量级上较小，并且在注意力检查失败的组间没有显着差异。

表5所示。以注意力检查失败为分类的两个关键研究变量之间的相关性^一个．

测量			1		2		3.		4
完整样本(N=528)
	1.每天饮酒量	- - - - - -^b		- - - - - -		- - - - - -		- - - - - -
	2.典型eBAC^c	总共花掉		- - - - - -		- - - - - -		- - - - - -
	3.酒精相关问题	.41点		点		- - - - - -		- - - - - -
	4.描述性规范^d	点		56		.33		- - - - - -
未通过任何注意力检查(n=464)
	1.每天饮酒量	- - - - - -		- - - - - -		- - - - - -		- - - - - -
	2.典型eBAC	总共花掉		- - - - - -		- - - - - -		- - - - - -
	3.酒精相关问题	点		无误		- - - - - -		- - - - - -
	4.描述性规范	点		55		点		- - - - - -
>1次注意检查失败(n=64)
	1.每天饮酒量	- - - - - -		- - - - - -		- - - - - -		- - - - - -
	2.典型eBAC	总共花掉		- - - - - -		- - - - - -		- - - - - -
	3.酒精相关问题	.35点		23)		- - - - - -		- - - - - -
	4.描述性规范	正		.62		点		- - - - - -
注意检查失败<2次(n=512)
	1.每天饮酒量	- - - - - -		- - - - - -		- - - - - -		- - - - - -
	2.典型eBAC	总共花掉		- - - - - -		- - - - - -		- - - - - -
	3.酒精相关问题	点		点		- - - - - -		- - - - - -
	4.描述性规范	点		56		.33		- - - - - -

^一个所有相关在P<措施except for those italicized.

^b不可用。

^ceBAC:估计血液酒精浓度。

^d描述性规范指的是亲密朋友的感知消费量(每天饮酒的量)。

目标4:数据质量对内部一致性的影响

在整个样本中，酒精相关问题的Cronbach α的差异可以忽略不计(α=.918)，忽略那些不通过≥2项注意力检查(α=.917)或不通过任何注意力检查(α=.917)的人。麦当劳欧米茄的差异在整个样本中也可以忽略不计(α=.921)，忽略那些不通过≥2次注意力检查(α=.920)或不通过任何注意力检查(α=.920)的人。

目标5:通过注意力检查失败进行人口统计

一系列卡方分析显示，没有进行任何注意力检查和没有进行注意力检查与性别没有显著相关(χ²₁= 0.3,P=.57)，种族(χ²₁= 0.7,P= 0.40)，在校时间(χ²₅= 4.3,P=.51)，或年龄(t₅₂₆= 0.38;P=点)。虽然它与某些种族身份的认可无关(即，认为自己是亚洲人:χ²₁= 0.3,P＝．60 or Native American:χ²₁= 0.3,P=.62)，它与认为自己是黑人或非裔美国人(χ²₁= 6.6,P=.01)，并有自认为是白人(χ²₁= 3.4,P=.07)，尽管它没有达到意义。在研究1中观察到类似的模式，自认为是黑人或非裔美国人的参与者至少有一次注意力检查失败(43/277,15.5%)比自认为不是黑人的参与者(20/244,8.2%)多，而自认为是白人的参与者(19/213,8.9%)比自认为不是白人的参与者(44/308,14.3%)少。当将注意力检查失败≥2次与注意力检查失败<2次进行比较时，注意力检查失败与人口统计学变量之间没有显著相关性。

概述

对不同招聘来源的数据质量是否存在差异的检查(目标1)显示，通过心理学库招聘的大学生参与者的注意力检查不合格比例高于通过普通电子邮件公告招聘的学生，这表明通过满意度招聘的数据质量较差。对不同招聘来源的保留率是否存在差异的检查(目标2)显示，在基线后1个月和3个月，基于网络的随访调查的保留率较低，心理库也与较差的依从性有关(仅研究2)。为了检验数据质量对研究变量关联的影响(目的3)，在比较没有通过任何注意力检查的参与者与没有通过任何注意力检查的参与者之间的相关性强度时，没有明显的差异模式。显著效应的方向与我们对研究2的假设一致(即，在那些没有通过任何注意力检查的人之间发现了更强的相关性)，但与研究1的两个重要发现的假设相反(即，在那些至少一次注意力检查失败的人之间发现了更强的相关性)。研究1有2个额外的发现与我们的假设一致，但没有达到显著性。至于数据质量对内部一致性测量的影响(目标4)，忽略那些注意力检查失败的人对内部一致性测量的影响可以忽略不计。最后，在检查注意力检查失败的参与者与没有进行注意力检查的参与者的人口统计学质量是否有显著差异时(目的5)，被认为是黑人或非裔美国人(两项研究)的参与者注意力检查失败明显更大，而被认为是白人的参与者注意力检查失败明显更低(仅研究1)。它与其他种族身份、民族、性别、年龄、上学年份或就业状况没有显著相关性。

研究1和研究2的发现是一致的，即通过普通电子邮件通知招募的学生的注意力检查失败率低于心理学组参与者，这表明数据质量更好(目标1)。这对于专注于大学压力源和心理健康的远程、基于网络的横断面调查(研究1)和检查大学饮酒干预措施的亲自纵向设计(研究2)都是正确的。完全远程基于网络的研究方案(研究1:19.3% vs 10.1%未通过任何注意力检查)的比率差异大于面对面基线方案(研究2:13.5% vs 7.1%)未通过任何注意力检查，并且基于网络的方案的比率通常也更高。这一发现在研究2中变得不显著，因为样本被分成了更小、更不平衡的比例，用于检查不通过≥2项注意检查。沃德及庞德[44]发现，通过虚拟会议有研究人员在场可以减少2.13%的粗心反应，因此在基线时有研究人员在场可能会降低参与者的满意度，否则他们会在网络上感到满意(即改变那些参与研究的人的行为)。此外，现场协议要求学生在特定的时间段注册，并在校园里的特定地点露面，这需要更大的承诺。这可能反映了更大的参与动机(即，影响了那些参加研究的人)，这与大学生在先前工作中的满意度降低有关[14]并与Krosnick的假设相一致[16］．因此，有特定会议和研究人员在场的面对面协议可能会通过参与者(只选择那些有更大动机参与的人)和协议影响参与者的行为(增加动机)来获得更高的数据质量。

入内与退出招聘方法

安东等[31]指出，拉入式招聘渠道比推出式招聘渠道效率更高(即，招聘速度更快，成本更低)。研究2也是如此，这是一项纵向研究，有一个面对面的基线会议。使用心理学库的入学率(n=401)比通过电子邮件通知联系的普通学生人数(n=127)要高得多。同样地，心理学资源的成本也更低(使用研究学分作为补偿，而不是货币支付)。然而，研究1的结果是矛盾的，使用心理学库的入学率(n=127)低于通过电子邮件通知普通学生的入学率(n=257)。这两种招募方式的成本都相对较低，来自普通学生群体的参与者只能通过参加为数不多的抽奖活动来获得相对低成本的礼品卡。

结果发现，拉入招聘源(心理学库)比推出招聘源(电子邮件一般公告)的满意度更高，这与Antoun等人的发现相反[31］．总的来说，有3项研究比较了拉入式招聘和推出式招聘，这些研究的重点不是针对大学人群的招聘，其中参与者在人才库或小组中的存在完全是通过自我选择(例如，MTurk和Qualtrics或Dynata小组)[31-33］．这些人加入这个小组是为了专门参与研究和赚钱。相比之下，本研究的拉入源包括参加心理学课程的学生，他们可以参加研究研究以获得课程学分(作为额外学分或作为课程要求的一部分)。虽然他们可以参与研究以获得奖励，这是小组的唯一目的，但他们在小组中的存在是通过课程注册来确定的。这可能表明，他们在小组中的存在不是那么自愿的。然而，同样的学分可以通过文章评论而不是参与研究来获得，使参与研究完全自愿。这可能表明，哪种招聘方法是最好的，取决于来源是大学特定的还是一般的。我们所知道的一项研究比较了一般的拉入源(MTurk, 0.50美元)与大学特定的拉入源(课程学分的心理学库)之间的满意度，其中他们使用非差异性来操作满意度(即，在一个量表中为所有项目选择相同的回答选项)[45］．他们发现MTurk样本比大学心理学库更令人满意。考虑到这两种方法都被认为是拉入方法，可能是薪酬结构(金钱vs课程学分)导致了这种差异，完成课程学分调查的参与者提供了更好的数据。相反，在我们比较两所大学来源的研究中，我们发现经济补偿与较低的满意度相关，无论这些报酬是较大的和有保证的(研究1中的基线为20美元)还是基于机会(研究2中的抽奖)。特别是，本研究中使用的拉入方法(单一机构的心理学学生参与池)被广泛使用，而其他心理学池的结果具有高度的普遍性。然而，许多pull-in方法(例如，Amazon MTurk)包含来自全国各地(通常是全球)的参与者小组。这使得这项研究的发现不太适用于更广泛的拉入方法。由于在推入与拉出方法或经济补偿与课程学分之间的研究中没有可靠的结果，似乎没有保证的方法来最大限度地降低满意度，因此检测它至关重要。在大多数调查实验中，注意力是接受治疗的先决条件，注意力检查有效地揭示了谁接受了治疗，谁没有，例如当Berinsky等[11发现那些通过注意力筛选的人有很大的条件影响，而那些没有通过的人没有条件影响。对于研究心理健康治疗方法的研究人员来说，检测和消除满足感至关重要。

纵向研究

同样的招聘来源(通过电子邮件向全体学生发出通知)提供了更高的研究留存率(目标2)和更高的数据质量(目标1);因此，纵向研究人员可以选择一种招聘方法，优化研究依从性，以最大限度地降低满意度和提高保留率。值得注意的是，通过学生公告参与的学生留存率可能更好，因为他们对后续调查的补偿与他们对基线的补偿(财务)一致，而不像心理学库(课程学分)。纵向心理治疗研究的减员尤为重要，因为元分析显示，智能手机提供的心理健康干预的辍学率为24%至35% [46]，认知行为疗法占26% [47]， 21%用于进食障碍电子治疗[20.]和25%的大学生个人饮酒干预[48]等。努力将临床试验满意度降到最低的研究人员仍然必须努力优化保留率，选择合适的招聘方法可能有助于解决这两个问题。

对研究结果的满意影响

与我们的预期相反，在两项研究中，相关性并没有表现出研究变量关联或影响的一致加强(目的3)。两项研究中选择的相关性确实发生了显著变化，但影响是双向的(有时更强，有时更弱)。一些相关性的加强与之前的多项研究一致，这些研究发现，在筛选出满足[1，11，12］．然而，在整个样本中虚增的值与Huang等人报道的相似[13]，仍然指出了包括这些参与者所带来的偏见。此外，Credé [10]指出，随机反应是否夸大或缩小相关性的真实价值，可能受到以下因素的影响:所检查的措施是在反应选项连续体的低端自然达到峰值(如自杀意念、精神变态和抑郁症)，还是在连续体的高端自然达到峰值(如自尊和利他行为)，以及那些不令人满意的人之间的相关性是积极的还是消极的。这表明膨胀和收缩的相关性都可以令人满意地预期。此外，参与者漫不经心的反应可能会影响偏见的方向。金等人[49]发现，当数据不倾斜时，统一响应(即每个响应选项被选中的几率相等)会错误地降低估计，而长字符串响应(即为一行中的许多项选择相同的响应选项)则会错误地夸大估计。因此，我们的研究结果表明相关性在两个方向上都发生了变化，这支持了这样一种观点，即筛选出令人满意的参与者确实会影响研究结果，可能会减少偏见。

同样与我们的预期相反的是，在放弃注意力检查失败的参与者后，内部一致性的测量并没有更强(目标4)。两项研究的差异可以忽略不计。如果参与者的满意度增加了数据集的噪声，研究人员可能会预期它也会增加测量误差。奥本海默等人[1]发现，在包含反向得分项目的测量中，那些未能通过教学操作的人的内部一致性降低了，但这些发现没有在本研究中得到重复。然而，本研究中只有1项测量(宾夕法尼亚州立大学担忧问卷)[36)中包含反向得分的项目，这些项目可能对满意更敏感。

满足检测决策(故障数;掉落vs反馈)

在这项研究中，重复检查满足度的多个临界值(即，没有通过任何注意力检查vs没有通过更多的注意力检查，如2或3)。识别满足度的零容忍方法，排除了对注意力检查有≥1个错误反应的参与者，这与研究人员最常见的报告一致[9］．虽然最近的一项调查显示，零容忍方法可能会导致排除更多的参与者，特别是那些在其他指标上表现不满意的参与者，但这是筛选参与者数据质量的最常用方法[9］．这项研究没有揭示零容忍与基于更大数字的截止点的发现模式的重大差异，这表明研究人员可能会在选择的方法上具有一定的灵活性。

先前的研究人员提出的一个担忧是，筛选出满意的参与者是否会引入不同的偏见来源，即减少样本的人口统计学多样性[11，14］．这项研究发现，注意力检查失败与种族、性别、年龄、在校时间或就业状况没有显著相关，这表明在这些维度上没有引入偏见。然而，被认定为黑人或非裔美国人的参与者更有可能在至少一次注意力检查中失败，这表明筛选参与者可能会引起与减少样本多样性有关的担忧。研究人员应该考虑招募策略，以获得更多可能在筛选过程中丢失的参与者，以便最终样本仍然具有该群体的大量代表性，就像本研究一样。

除了筛选那些注意力检查失败的人之外，另一种可能的方法是让研究人员保留样本中的每个人，即使用实时反馈来通知参与者，研究人员已经注意到他们没有集中注意力，并要求他们仔细阅读项目。促使快速完成调查项目的受访者注意到这可能太快了，无法准确地回答，并询问他们是否想重新考虑他们的答案，导致满意度降低，回答更准确[50］．类似地，在某人注意力检查失败时提供反馈可以提高测量质量[51］．金等人[49]指出，在成瘾文献报告中，几乎没有发表的研究对他们的数据进行了令人满意的筛选。对于在获取每个数据点上投入大量资源的研究(如纵向研究和临床试验，在成瘾领域很常见)，丢弃案例可能会导致严重的资源损失，研究人员可能更有动力去发现和消除满足感。贝林斯基等人[11]在数据收集过程中使用了不同的策略来提高注意力，包括在开始调查之前警告参与者他们的数据将被监控，将此警告与感谢参与者所花费的时间和仔细关注的信息相结合，并提供实时反馈(例如，“您的回答有问题。请再试一次”)。这三种方法都能提高注意力检查项目的通过率。然而，这些方法并没有降低研究变量之间关联的噪声或偏倚，也没有产生更大的治疗效果。也许这些信息的框架很重要。一项对健康促进或健康行为干预提示研究的系统回顾发现，如果这些信息是个性化的，那么它们会更有效。52］．同样，在小组研究中对保留率的回顾强调，解释项目的重要性和参与者的贡献是吸引参与者和促进良好研究保留率的关键[53］．同样的方法也可以用于提高数据质量。强调研究的目的和重要性，参与者如何提供帮助，以及他们的回答对研究人员有很大的价值，这不仅可以通过注意力检查，还可以增加注意力，减少噪音。当注意力检查失败时，将这种热情的介绍与回应将被监控的事实相结合，并提供类似的框架实时反馈信息(例如，“你对这个问题的答案是不正确的。你对我们研究的贡献非常有价值。请务必仔细阅读问题并仔细回答”)可能会对数据质量产生更大的影响。

建议

为了提高数据质量和减少偏见，我们对研究人员有几点建议。(1)使用注意检查来检测满意。在两项研究中，注意力检查的失败在两种招聘来源中都很普遍，这表明无论研究设计或招聘方法如何，大学生中都存在满意度。此外，在筛选出那些至少一次注意力检查失败的人后，结果发生了变化，这表明忽视这一现象可能会在研究结论中引入偏见。注意力检查可以帮助研究人员确定谁提供的数据质量更高。(2)认真考虑招聘来源。尽管使用心理学库的成本更低，效率更高(如在研究2中，一项有面对面基线会议的纵向研究)，而且可能更方便，但使用更广泛的方法来招募学生可能会产生更好的样本质量(即满意度更低，留存率更高)。此外，更广泛的招募来源在研究1中更有效(远程和横断面)，这表明研究人员在做出这一决定时可能需要考虑他们的研究设计。在可能的情况下，研究人员可能会使用多个招募来源来多样化他们的样本。(3)权衡筛选注意力检查失败的参与者(被证明减少了研究结果的偏倚)与包括实时反馈(对这种方法的研究非常有限)的好处。 Related to this, (4) consider whether screening out participants could reduce demographic diversity. It could be problematic to increase internal validity to the detriment of external validity. If researchers intend to use attention checks for screening purposes, then they might oversample from populations more likely to be screened out (if possible). Alternatively, letting participants know that their responses will be monitored for data quality and providing live feedback could minimize attention check failure. For treatment studies or other longitudinal studies where tossing cases is problematic, live feedback may be a better option. Finally, (5) researchers interested in minimizing satisficing rather than detecting and removing the data from these participants might consider holding time-specific sessions with a researcher present (in person or on the web).

限制

这项调查是一项两项研究的检查，采用了不同的研究设计(横断面网络调查vs纵向随机对照试验的现场基线)和不同的调查领域(心理健康vs饮酒行为)，以最大限度地提高其他心理健康研究人员的外部有效性和相关性。但是，应该注意到一些限制。首先，注意力检查是使用的数据质量的唯一指标。更可靠的方法包括其他指标，如心理测量反义词或同义词(即，相似项目的个人内部相关性)，长字符串(即，具有相同值的反应模式的长度)，马氏距离值(即，相似项目的多元离群值)，以及自我报告的注意力和努力项目[8，34］．这种方法的主要优点是易于使用，不需要专门的数据管理技能，以及筛选过程的速度。然而，研究人员可能会考虑使用一种将多个指标考虑在内的错误平衡方法，特别是在处理难以访问的专业人群的较小数据集时，保留更多的病例更为关键。

这项研究的另一个局限性是，招聘来源仅限于美国1所机构的单点数据收集方法。Amazon MTurk是另一种研究人员可以用来更广泛地访问学生群体的方法，有可能增加研究样本的人口多样性，同时保持高数据质量，包括较低的满意度[54，55］．其他基于网络的方法，不局限于单个网站，可以包括Facebook、Craigslist等网站上的广告。

这可能会增加样本的人口统计学和地理多样性[54，尽管学生身份的确认可能会比较困难。此外，这些拉入方法可能会导致一个收入较低的样本从事更大的风险行为[56]如果这些品质与所考察的研究问题有关。此外，尽管本研究中使用的样本具有很强的黑人或非洲裔美国人和白人种族身份的代表性，但其他身份的代表性并不好。特别是，aim 5对某些检查的样本量很低。虽然研究2使用了一种允许我们识别所有参与者并禁止重复注册的协议，但研究1的完全基于网络的协议却没有。心理学库的参与者可能也通过大学范围内的公告看到了这项调查，尽管招聘材料只要求学生完成一次调查。不幸的是，用于心理学库的系统性质仅使用匿名标识符在系统中颁发研究学分，因此我们无法亲自验证心理学库参与者是否也没有通过大学公告完成调查。

最后，虽然我们关注的是招聘来源来标注这两组之间的差异，但薪酬也是不同的。心理学专业的学生可以得到研究学分的补偿，这些学分可以应用到他们的课程成绩中。通过电子邮件发布的公告组的学生获得了金钱补偿(在研究1中有抽奖入口，在研究2中有直接付款)。我们认为这与大多数使用这些招聘来源的研究是一致的，并且认为补偿是这些方法的一部分。值得注意的是，即使补偿较弱(抽奖入场)而不是较强(直接货币支付)，电子邮件公告组的满意度下降模式也是如此，这表明补偿的强度并没有推动效果。

结论

这项调查通过两项针对大学生的研究，通过不同的设计方案，通过招聘来源检查了参与者的依从性(即数据质量和留存率)(研究1:一项完全远程的横断面设计，研究大学压力源和心理健康;研究2:纵向设计，现场基线会议，检查针对大学生饮酒的干预措施)。两项研究的参与者都是从(1)心理学学生参与库中招募的，作为补偿，他们在心理学课程中获得研究学分，(2)通过电子邮件通知普通学生，接受抽奖(研究1)或金钱补偿(研究2)。检查显示，通过心理学库招募的大学生参与者中，注意力检查不合格的比例高于通过普通电子邮件通告招募的学生，这表明两项研究都满足了较差的数据质量。此外，在基线后1个月和3个月的基于网络的随访调查中，心理库也与较差的依从性相关，留存率较低(仅研究2)。在筛选出那些至少一次注意力检查失败的人之后，研究变量之间的一些相关性得到了加强(可能是由于减少了噪音)，一些相关性被削弱了，还有一些相当相似;这种混合模式潜在地指出了包括这些参与者所带来的偏见。最后，注意力检查失败与大多数人口统计学特征(种族、性别、年龄、在校时间、就业状况和选定的种族身份)没有显著相关，但在那些被认定为黑人或非裔美国人(两项研究)中更明显，而在那些被认定为白人的人(仅研究1)中明显较低。专注于学生研究的研究人员应在研究设计中仔细考虑招募问题，并包括注意力检查或其他检测低质量数据的方法。在这两个来源中都检测到了满意度，尽管心理学库的满意度比一般学生群体的满意度要差。 Researchers should carefully consider how the study design could promote engagement (eg, live sessions with a researcher), weigh screening participants versus providing live feedback, and consider oversampling demographics that are more likely to be screened out, if possible.

致谢

研究2得到了国家酒精滥用和酒精中毒研究所K01 AA023849奖的支持(首席研究员:ALB)。内容仅为作者的责任，并不一定代表国家酒精滥用和酒精中毒研究所的官方观点。

数据可用性

在合理的要求下，将向首席研究员提供数据。

利益冲突

没有宣布。

奥本海默DM, Meyvis T, Davidenko N.指导性操作检验:检测满意度增加统计能力。《实验社会心理》2009年7月;45(4):867-872。［CrossRef］
李志强，李志强，李志强，等。停电:为什么小样本量会破坏神经科学的可靠性。神经科学2013年5月;14(5):365-376。［CrossRef] [Medline］
Palaniappan K, Kum IY。研究参与者在科学领域的粗心和偏见反应背后的潜在原因。2017年11月15日;38(6):1737-1747。［CrossRef］
Sakaluk J, Williams A, Kilshaw R, Rhyner K.评估实证支持的心理治疗(ESTs)的证据价值:一项元科学综述。中华精神病学杂志2019年8月28日(6):568 - 568。［CrossRef] [Medline］
阿奈特JJ。被忽视的95%:为什么美国心理学需要变得不那么美国。中国心理学报，2008;29(7):344 - 344。［CrossRef］
Thalmayer AG, Toscanelli C, Arnett JJ。被忽视的95%的人重新思考:美国心理学正变得越来越不美国了吗?心理学报2021年1月;76(1):116-129。［CrossRef] [Medline］
Gallander Wintre M，北C, Sugar LA。心理学家对基于本科生参与者的研究的批评的回应:发展视角。加拿大心理学/加拿大心理学2001年8月;42(3):216-225。［CrossRef］
米德AW，克雷格SB.识别调查数据中的粗心反应。心理方法2012 9月17日(3):437-455。［CrossRef] [Medline］
Kim DS, McCabe CJ, Yamasaki BL, Louie KA, King KM。使用错误平衡阈值检测非频率尺度的随机应答器。行为学研究方法2018年10月21日;50(5):1960-1970。［CrossRef] [Medline］
Credé M.随机响应是对相关研究中效应量估计有效性的威胁。教育心理测评2010年4月28日;70(4):596-612。［CrossRef］
贝林斯基AJ，马戈利斯MF，桑斯MW。把偷懒者和工人分开?确保受访者关注自我管理的调查。政治科学2013年11月6日;58(3):739-753。［CrossRef］
关心粗心大意:参与者不注意及其对研究的影响。J Res Personality 2014 Feb;48:61-83。［CrossRef］
黄建林，刘敏，保龄球NA。回应不够努力:检查调查数据中潜在的混乱。中华实用心理杂志2015年5月;100(3):828-845。［CrossRef] [Medline］
Anduiza E, Galais C.不阅读回答:IMCs和在线调查中的强满意度。国际J公共意见决议2016年5月19日:edw007。［CrossRef］
图兰格，李普斯，拉辛斯基。调查反应心理学。英国剑桥:剑桥大学出版社;2000.
替农协。应对调查中态度测量认知需求的反应策略。《认知心理学》1991年5月;5(3):213-236。［CrossRef］
Roberts C, Gilbert E, Allum N, Eisner L.研究综合:满意的调查:文献的系统回顾。公共意见Q 2019;83(3):598-626。［CrossRef］
Teague S, Youssef GJ, Macdonald JA, Sciberras E, Shatte A, Fuller-Tyszkiewicz M, SEED生命课程科学主题。纵向队列研究中的保留策略:系统回顾和元分析。BMC Med Res methodo2018 11月26日;18(1):151 [免费全文] [CrossRef] [Medline］
弗莱杰，柯特，EJ。基于失调的健康行为改变干预:一项系统综述。中华心理卫生杂志2013年5月11日;18(2):310-337。［CrossRef] [Medline］
Linardon J, Shatte A, Messer M, Firth J, Fuller-Tyszkiewicz M. e -心理健康干预对饮食失调的治疗和预防:最新的系统综述和荟萃分析。《临床心理咨询》2020年11月;88(11):994-1007。［CrossRef] [Medline］
Mun E, de la Torre J, Atkins DC, White HR, Ray AE, Kim S, Project INTEGRATE团队。项目整合:大学生简短酒精干预的综合研究。精神成瘾者行为研究2015 Mar;29(1):34-48 [免费全文] [CrossRef] [Medline］
布莱特曼AL，亨森JM。针对大学生饮酒的计算机化干预的个性化助推器:保护行为策略的影响。J Am Coll Health 2016 10月;64(7):509-519 [免费全文] [CrossRef] [Medline］
Braitman AL, Lau-Barraco C.针对大学生饮酒的计算机干预后的个性化助推器:一项随机对照试验。酒精临床检验报告2018年9月;42(9):1735-1747 [免费全文] [CrossRef] [Medline］
McGrath PJ, Wojtowicz M.基于互联网的大学生焦虑、抑郁和压力自助引导:一项随机对照临床试验。行为科学，2013年7月;51(7):344-351。［CrossRef] [Medline］
西尔斯。实验室里的大学二年级学生:狭窄的数据基础对社会心理学的人性观的影响。《人格与社会心理》1986年9月31日(3):515-530。［CrossRef］
Sharpe D, Poets S.加拿大心理学系参与者池:赛季关闭?加拿大心理学/加拿大心理学2017年5月;58(2):168-177。［CrossRef］
Gosling SD, Vazire S, Srivastava S, John OP.我们应该相信基于网络的研究吗?网络问卷六种先入之见的比较分析。精神病学2004;59(2):93-104。［CrossRef］
Henrich J, Heine SJ, Norenzayan a，世界上最奇怪的人?行为学杂志2010 6月15日;33(2-3):61-83。［CrossRef］
Elicker JD, McConnell NL, Hall RJ。心理学导论课程学分的研究参与:为什么人们不参与?教学心理2010 6月29日;37(3):183-185。［CrossRef］
罗基M，博德里SG，安德森，C，佩尔蒂埃LG。本科研究参与者的视角非参与者。教学心理2016年8月22日;43(4):285-293。［CrossRef］
张春华，张志强，张志强。便利样本在线招聘策略比较。现场方法2015 9月16日;28(3):231-246。［CrossRef］
Boas TC, Christenson DP, Glick DM.在美国和印度招募大型在线样本:Facebook, Mechanical Turk和Qualtrics。政治科学研究方法2018年8月8日;8(2):232-250。［CrossRef］
张波，Gearhart S.测量实用2020年12月3日;13(1):1-10。［CrossRef］
鲍伟强，李志强，李志强。焦虑作为心理社会压力源和情绪后遗症之间的中介:通过对比回避来调节。《情感失调》2020年04月01日;26:456-464。［CrossRef] [Medline］
Braitman AL, Strowger M, laura - barraco C, Shipley JL, Kelley ML, Carey KB。研究减少伤害策略对电子邮件助推器的附加价值，以扩大大学生饮酒者在线干预的效果。精神成瘾行为研究2022年9月03日;36(6):635-647。［CrossRef] [Medline］
Meyer T, Miller M, Metzger R, Borkovec TD。宾夕法尼亚州立大学焦虑问卷的开发和验证。人类行为研究，1990年1月;28(6):487-495。［CrossRef］
消极情绪状态的结构:抑郁焦虑压力量表(DASS)与贝克抑郁焦虑量表的比较。人类行为研究1995年3月33(3):335-343。［CrossRef］
心理学期刊中的统计方法:指南和解释。美国心理学家1999年8月;54(8):594-604。［CrossRef］
海耶斯AF，库茨JJ。使用omega而不是Cronbach 's alpha来估计可靠性。但是…共同方法措施2020年2月11日;14(1):1-24。［CrossRef］
Faul F, Erdfelder E, Lang A, Buchner A. G*权力3:一个灵活的统计权力分析程序的社会，行为和生物医学科学。行为研究方法2007 5月;39(2):175-191。［CrossRef］
Collins RL, Parks GA, Marlatt GA。饮酒的社会决定因素:社会互动和模范地位对酒精自我管理的影响中华临床精神病学杂志，2005;29(2):379 - 379。［CrossRef］
马修斯DB，米勒WR。估计血液酒精浓度:两个计算机程序及其在治疗和研究中的应用。成瘾行为，1979年1月;4(1):55-60。［CrossRef］
Read JP, Kahler CW, Strong DR, cooler CR.青年人酒精后果问卷的编制和初步验证。中国药物学杂志2006年1月;67(1):169-177。［CrossRef] [Medline］
沃德M，池塘SB.使用虚拟在场和调查指示，以尽量减少在基于互联网的调查中粗心的回应。Comput Human behaviour 2015 july;48:554-568。［CrossRef］
汉比T，泰勒W.调查满意膨胀的信度和效度措施:大学和亚马逊机械土耳其样本的实验比较。教育精神Meas 2016 12月29日;76(6):912-932 [免费全文] [CrossRef] [Medline］
智能手机对心理健康问题干预的磨损和依从性:一项系统和元分析综述。中华临床心理杂志2020年1月;88(1):1-13。［CrossRef] [Medline］
Fernandez E, Salem D, Swift JK, Ramtahal N.认知行为治疗辍学的meta分析:幅度、时间和调节因素。临床心理咨询杂志2015年12月;83(6):1108-1122。［CrossRef] [Medline］
凯里KB，斯科特-谢尔顿洛杉矶，凯里议员，德马丁尼KS。减少大学生饮酒的个体干预:一项元分析综述。瘾君子Behav 2007 11月;32(11):2469-2494 [免费全文] [CrossRef] [Medline］
King KM, Kim DS, McCabe CJ。在严重扭曲的成瘾数据中，随机回答夸大了统计估计。药物酒精依赖2018年2月01日;183:102-110 [免费全文] [CrossRef] [Medline］
张春华，张春华，张春华。基于实时反馈的网络调查速度研究。Surv Res Methods 2017 Apr 10;11(1):45-61 [免费全文] [CrossRef] [Medline］
Shamon H, Berning C.在激励和非激励样本的在线调查中注意检查项目和说明:数据质量的福音还是祸害?科学通报2020;14(1):55-77。［CrossRef］
Fry JP, Neff RA。健康促进和健康行为干预的定期提示和提醒:系统审查。J Med Internet Res 2009年5月14日;11(2):e16 [免费全文] [CrossRef] [Medline］
Ribisl KM, Walton MA, Mowbray CT, Luke DA, Davidson WS, Bootsmiller BJ。通过使用有效的保留和跟踪策略，最大限度地减少小组研究中的参与者流失:审查和建议。评价方案规划1996 Feb;19(1):1-25。［CrossRef］
布梅斯M，光涛，高令SD。亚马逊的机械土耳其人:廉价但高质量数据的新来源?心理科学展望2011 Jan 03;6(1):3-5。［CrossRef] [Medline］
Hauser DJ, Schwarz N.专心的土耳其人:MTurk参与者在在线注意力检查中比受试者池参与者表现更好。行为研究方法2016年3月12日;48(1):400-407。［CrossRef] [Medline］
Lewis RJ, Dawson CA, Shappie AT, Braitman AL, Heron KE。招募顺性别女性夫妇进行以健康差异为重点的日常日记研究:挑战、成功和经验教训。性心理2021年6月23日;13(4):931-951。［CrossRef］

‎

eBAC:估计血液酒精浓度

MTurk:土耳其机器人

A Mavragani编辑;提交11.05.22;S Bidmon, T Sagi, D Oppenheimer同行评审;对作者29.08.22的评论;修订本收到日期:03.10.22;接受20.10.22;发表09.12.22

©Abby L Braitman, Megan Strowger, Jennifer L Shipley, Jordan Ortman, Rachel I MacIntyre, Elizabeth A Bauer。最初发表于JMIR形成研究(https://formative.www.mybigtv.com)， 2022年12月9日。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息，https://formative.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

两项研究调查:两种招聘来源的大学生的数据质量和学习依从性

两项研究调查:两种招聘来源的大学生的数据质量和学习依从性

原始论文

通讯作者:

摘要

关键字

简介

背景

招聘来源

本次考试:两项研究调查

研究1

方法

参与者

过程

道德的考虑

材料

担心

压力、抑郁和焦虑

注意检查

分析方法

结果

概述

目标1:招聘来源的数据质量

目标3:数据质量对变量关联的影响

目标4:数据质量对内部一致性的影响

目标5:通过注意力检查失败进行人口统计

研究2

方法

参与者

过程

道德的考虑

材料

喝的结果

描述性规范

酒精相关问题

注意检查

分析方法

结果

概述

目标1:招聘来源的数据质量

目标2:通过招聘来源研究留存率

目标3:数据质量对变量关联的影响

目标4:数据质量对内部一致性的影响

目标5:通过注意力检查失败进行人口统计

讨论

概述

入内与退出招聘方法

纵向研究

对研究结果的满意影响

满足检测决策(故障数;掉落vs反馈)

建议

限制

结论

致谢

数据可用性

利益冲突

参考文献

缩写