医学互联网研究杂志-看“大”图:探索互联网干预数据中使用、语言和结果之间关系的大数据方法

原始论文

¹宾夕法尼亚大学积极心理学中心，费城，宾夕法尼亚州，美国

²美国宾夕法尼亚州费城宾夕法尼亚大学宾夕法尼亚医疗保健创新中心宾夕法尼亚医学社会媒体和健康创新实验室

^3.Happify，纽约，纽约，美国

⁴计算机科学，石溪大学，石溪，纽约州，美国

⁵美国俄亥俄州海勒姆市海勒姆学院心理学系

通讯作者:

Acacia C Parks博士

心理学系

希兰大学

贝茨大厅215

加菲尔德路11715号

希兰,哦,

美国

电话:1 330 569 5229

传真:1 330 569 5398

电子邮件:parksac@hiram.edu

相关的文章这是更正后的版本。见更正声明://www.mybigtv.com/2017/12/e347/

背景:评估市场上已经存在的互联网干预措施的有效性，既带来了挑战，也带来了机遇。虽然大量的、通常是前所未有的数据可能是可用的(数十万，有时数百万参与者具有高维度的评估变量)，但这些数据本质上是观察性的，部分是非结构化的(例如，自由文本、图像、传感器数据)，不包括用于比较的自然对照组，并且通常表现出很高的损耗率。因此，需要新的方法来利用这些现有的数据，并获得新的见解，以增强传统的小群体随机对照试验。

摘要目的:我们的目标是展示新兴的大数据方法如何帮助探索有关互联网福祉干预的有效性和过程的问题。

方法:我们从一个名为Happify的健康网站和应用程序的用户群中提取了数据。为了探索有效性，在152,747名用户的样本中，关注个人内部变化的多层次模型探讨了更多的使用是否预示着更高的幸福感。此外，为了探索伴随改进的潜在过程，我们分析了10,818名用户的语言，这些用户有足够的自由文本响应量和平台使用的时间跨度。从这个免费文本构建的主题模型提供了基于语言的个人用户改进结果度量的相关性，提供了对用户体验的有益底层过程的见解。

结果:在积极情绪的测量中，用户平均每周提高1.38分(SE 0.01, t122,455=113.60，P<措施，95% CI 1.36–1.41), about a 27% increase over 8 weeks. Within a given individual user, more usage predicted more positive emotion and less usage predicted less positive emotion (estimate 0.09, SE 0.01, t6047=9.15,P=。001, 95% ci .07 -.12)。这一估计预测，在每天使用Happify的两周后，用户的积极情绪比完全不使用Happify的一周高1.26分。在高度参与的用户中，200个自动聚类主题显示出显著的(纠正)P<.001)对幸福感随时间变化的影响，说明了当参与干预时，哪些主题可能比其他主题更有益。特别是，与解决消极想法和感受有关的话题随着时间的推移与改善有关。

结论:通过对自然主义大数据的观察分析，我们可以探索使用互联网幸福感干预的人们的使用与幸福感之间的关系，并为其伴随的潜在机制提供新的见解。通过利用大数据为这些新型分析提供动力，我们可以从新的角度探索干预措施的工作原理，并利用表面的见解反馈到干预措施中，并在未来进一步改进。

医学互联网研究，2016;18(8):e241

doi: 10.2196 / jmir.5725

关键字

健康干预; 大数据; 定性分析; 语言分析; 词云; 多级建模

随着互联网干预变得越来越流行——在研究环境中，但在工业中更是如此——它们产生了可用于研究目的的大量数据集。这些数据集通常属于“大数据”的范畴，其中大数据被定义为庞大而复杂的数据集，以至于传统的数据分析方法无法轻松处理它们[1]。虽然这些数据集通常不是为了回答研究问题而预先设计的，因此通常没有对照组，但它们规模大，内容丰富，并提供了干预的视图，允许用户自然地与干预进行交互。因此，大干预数据提供了在现实世界中测试干预措施的机会，在现实世界中，干预措施实际上是由个人发现并自然使用的。此外，由于数据是在正常使用期间产生的，因此它们可以立即用作评估干预措施是否有效的手段，而且还可以评估干预措施的哪些方面和部分比其他方面和部分更有效，以及如何修改干预措施以使其更有效。与更传统的医疗干预相比，这种迭代过程利用了软件较短的实施周期。

需要专门的分析方法来处理为特定用户提供的数据的数量和频率，并适应非常多的用户。尽管分析大数据需要额外的注意，但使用大数据方法有一些实质性的好处。首先，更传统的干预评估研究通常受到预算问题的限制(每个参与者都要花钱以鼓励留存)，而公开可用的产品通常旨在获得尽可能多的用户。由此产生的潜在样本量是巨大的，并且允许进行在每个单元有100-200(甚至500-600)个用户的典型研究中无法考虑的一类分析。大量的参与者也为调节分析提供了足够的能力，这是一种通常只适用于元分析的能力。其次，由于缺乏高度控制的实验环境，来自现有干预措施的样本可能具有更大的外部效度。第三，通过分析传统随机、受控设计限制之外的数据(包括用户生成的文本等非结构化数据)，研究人员可以接触到各种新的潜在研究问题[2并且可以直接检查自发使用和结果之间的关系。

当然，对自然主义大数据的分析也有其自身的问题，尤其是在行业背景下。研究人员在向参与者提问时往往缺乏灵活性，因为过度的产品内部评估会降低留存率。1]。因此，研究人员仅限于了解参与者在自然使用产品的过程中告诉他们的情况。也许最成问题的是，没有正式的控制组。因此，与随机对照试验(RCT)相比，将来自现实世界互联网干预的任何数据分析置于较低的地位是很容易的[3.]。然而，其中一些问题是可以通过正确的数据解决的。

虽然已经有关于心理干预在没有对照组的情况下探索疗效或效果的报道，但这些研究在很大程度上被视为不受控制的试点研究[4没有采取特殊的方法为对照组提供替代方案。在这种情况下，一种常见的研究设计，即队列研究，本质上是一种纵向研究，在这种研究中，一个样本被跟踪和跟踪了一段时间。观察结果以这种方式自然展开，可以让研究人员建立时间优先权。假设的原因先于假设的结果，在建立因果关系时优于横断面研究[5]。这种类型的设计通常可以产生更外部有效的样本，较少的筛选标准或对样本成员的其他限制，这使得泛化更合适。然而，队列研究容易受到偏差问题的影响，因为缺乏随机分配可能意味着那些做得好的人和那些做得不好的人之间存在系统性差异。因此，关于在不受控制的环境中测试干预措施的严格方法，文献中存在很大的差距[2]。目前还没有最佳实践。

一种可能的替代方法源于自我控制的病例系列方法，最常用于医学[6，7]。就像在队列研究中一样，参与者在一个自我控制的案例系列研究中被跟踪一段时间，但重点不是在一起平均个体或在个体之间进行比较。相反，重点是观察到的变量的个人变化(以及潜在的相互作用)[6]。在这项研究中,我们应用的一些优势的队列研究统计方法可能用于自控病例系列研究(研究1)。具体地说,我们对用户参与正在进行的数据可以通过一个网站和应用程序。我们的目标是概念化的使用而不是作为一个特征或静态变量(例如,用户1高使用,用户2低使用)但作为一个动态的,不断变化的变量可能与高或低的结果不同。然而许多随机对照试验的目标是标准化或最大化参与度(理想情况下，每个参与者都表现出100%的参与度)[8]，多层次模型可以利用这种变化，在行为和结果之间建立一种剂量-反应关系。

另一个目标是探索大数据的一个令人兴奋的方面:它有可能推动用户产生的文本的语言分析，并输入到一个网站(研究2)。大量的语言可以被挖掘，以自动揭示潜在的心理过程[9，10]。这样的分析不仅可以使我们检查有效性，还可以以没有大量文本就不可能的方式检查过程。商业平台可以允许每天积累自然语言数据，并且可以挖掘文本以反映一个人的语言改进过程的广泛模式。通过这种方式，我们的工作是使用被动数据收集形式的现有文献的一个例子，例如搜索行为和电话传感器[11]，测量和描述心理结构，并为有针对性的干预创造机会[12]。

总而言之，我们研究的目的是提出几个有趣的研究问题，这些问题在处理大规模的现实世界干预数据集时可能会被问到。在研究1中，我们通过使用多层模型来建立基于网络的自助平台对幸福感的整体影响，跟踪随着时间的推移，随着个体的变化而改善[5，13]。通过关注个人内部的变化，有可能解决非受控数据分析中的一个常见问题，即，通过强调每个人的改进如何根据他或她的使用情况而变化，在表现出普遍高或普遍低使用率的不同用户之间存在系统偏差。问题从“接受干预的用户改善了吗?”到“用户在多使用干预的几周内感觉更好，而在少使用干预的几周内感觉更糟吗?”

根据之前的研究发现，互联网干预能够有效地改善幸福感，我们预计用户在更频繁地使用干预期间会表现出更高的幸福感[14，15]。与之前关于努力与结果之间关系的研究一致，在任何给定的用户中，更多的使用将与更高的幸福感相关[16]。此外，与行为幸福感干预的元分析的调节分析一致，我们预计这种影响将被从较低的幸福感开始的用户放大[17，18]。

在研究2中，我们随后使用语言分析来获得这种效果的描述性图像，也就是说，将人们所说的话(以及我们可能推断的他们正在经历的心理过程)可视化，这可能有助于解释为什么他们经历了改善。虽然我们的总体假设是，某些词汇的使用模式与幸福感有关，但我们并没有具体预测哪些词汇可能与幸福感联系最密切。

我们从Happify的用户群中提取了所有数据，Happify是一个基于网络的平台，提供基于积极心理学、认知行为疗法和正念的技术。Happify可以在互联网上使用，也可以通过应用程序(Android和iOS)使用，或者两者都可以。人们通过媒体报道、口口相传、社交媒体和互联网上的付费广告找到Happify。

与之前使用商业健康应用程序的研究一致[19]，参与者通过接受一份用户协议表示半被动同意，该协议解释了他们的数据可能被用于研究。具体而言，Happify的条款和条件声明:“我们收集的有关您的信息也可能与通过第三方提供给我们的其他信息相结合，用于研究和衡量目的，包括衡量内容、广告或计划的有效性。”来自其他来源的信息可能包括年龄、性别、人口统计、地理位置、个人兴趣、产品购买活动或其他信息。”

我们评估了所有用户的3个人口统计问题——年龄、就业状况和性别。关于孩子数量的第四个问题是后来添加的，因此只问一小部分用户。该数据集包含2014年12月1日至2016年5月1日期间创建账户的用户的数据，为期8周的干预期从他们完成第一次评估时开始。

Happify的内容

我们使用首字母缩略词STAGE将活动分为以下5类:20.，21，感谢(感恩活动)[22，23]，渴望(乐观，最好的自我，设定目标，有意义或有目的的活动)[24，25]、给予(善意、亲社会支出和宽恕活动)[26]和移情(自我同情和换位思考活动)[27]。并不是所有的用户都使用相同的活动，因为有许多可能的方法可以在网站上进行进展。用户从许多可能的轨道中进行选择，这些轨道是针对特定目标或问题的活动集合，例如更好地应对压力或改善一个人的浪漫关系。任何给定的跟踪都从STAGE的几个领域中提取活动，并且跟踪每天向用户推荐针对他或她的特定目标定制的活动。用户还会收到自动提醒邮件和手机通知(如果他们使用了这款应用)。然而，用户也不一定受到轨道的限制;有些人还选择使用自由游戏部分，在那里他们可以根据自己的喜好挑选个人活动。

用户能够从跨越STAGE类别的58个核心活动的数百种变体中进行选择。然而，一些活动比其他活动使用得更频繁，因此更有可能是我们的子样本中使用的活动。一个通常选择的活动，“谢谢谢谢”(一个感谢任务)，要求用户写下当天发生在他们身上的三件好事。一种变体是“今天有什么进展顺利吗?”，提示用户如下:

想想你一天中比平常更好的三件事——也许你上班的路上很顺畅，或者你把孩子送到学校没有打架，或者你只是有一点额外的时间给自己。它可以是任何东西——大的或小的。把它们记下来，用一两句话描述为什么它们让你感到感激，如果有的话，你在这段经历中扮演了什么角色。

另一项名为“品味小事”(品味任务)的活动，指导用户留出一些时间，把全部注意力放在感官或认知体验上。其中一个名为“闻闻玫瑰”(Smell the Roses)的版本是这样指导用户的:

尽情享受你眼前的一切吧。例如，不要走过附近的公园，而是坐在长凳上，留心周围的环境。你听到了什么?有没有你以前从未注意过的风景?空气闻起来像什么?你也可以在享受甜点的时候练习正念，或者在看一些你最喜欢的过去美好时光的照片的时候。你当时是什么感觉?你们谈了些什么?活在当下就好。

“我想我能行”(一个渴望活动)结合了目标设定和行为激活研究，让用户朝着目标努力。这个活动的一个变体，叫做“任务:可能”，指示用户去做

努力思考，缩小本周合理实现的目标。不要再找借口了——目标是在本周完成它，但要确保你选择了一些让你有点害怕的事情。看看你的最终待办事项清单，从家庭装修项目到更新博客或网站或新业务后的收费。然后，坚定地直视恐惧的眼睛，不眨眼地挽起袖子，开始手头的工作。

虽然Happify上的一些活动可以坐在电脑前完成(例如冥想)，但许多活动要求用户在日常生活中尝试一种新的行为，然后反馈效果。用户在一个文本框中描述了他们所做的以及他们对此的感受。有些活动特别要求用户在Happify上做这些活动(例如，如果用户应该在睡觉前写下3件发生在他们身上的好事，那么Happify要求他们在网站或应用程序中实际输入这三件事)。然而，另一些人并没有要求活动本身的结果(例如，如果用户写了一封信给某人表达他们的感激之情，信件本身不会出现在文本框中，只是他们对写作和发送信件的经历的反思)。因此，我们从用户那里得到的文本是他们在做活动时使用的单词和他们在谈论活动体验时使用的单词的混合体。

健康评估

我们的主要结果是幸福感，与目前对主观幸福感的看法一致，我们将其分为两个组成部分:积极情绪和对生活的满意度[28]。由于Happify的专有性质，最后一位作者(AP)开发并验证了一种新的测量方法(Happify量表)来测量用户的幸福感。用户在注册后的第二天被提示填写幸福感问卷，之后每两周再次填写一次。

Happify量表的积极情绪子量表是在积极和消极情绪量表的基础上开发的[29这是一项自我报告调查，衡量一个人经历各种激活(高唤醒)和不激活(低唤醒)的积极和消极情绪的程度。出于实际目的，我们将调查缩短为4组情绪:(1)快乐、兴奋、鼓舞和敬畏;(2)宁静、感激和放松;(3)悲伤、内疚和孤独;(4)愤怒、焦虑和害怕。例如，用户会被问到:“在过去的一个月里，你有多少次感到快乐、兴奋、鼓舞或敬畏?”我们将2个正效项与2个负效项相加，反调得分，生成积极情绪量表。在一项内部验证研究中，通过亚马逊的土耳其机器人(亚马逊公司，西雅图，华盛顿州，美国)招募了559名参与者，积极情绪子量表具有可接受的内部一致性(alpha = 0.72)，并且与积极和消极情绪表呈强正相关(r= 0.76)。P<措施)。

我们根据生活满意度量表建立了幸福量表的生活满意度子量表[30.但对其进行了调整，以询问用户对生活中不同领域的满意度，包括工作、休闲和人际关系。例如，用户会被问到“你对生活中的人际关系有多满意?”我们把这个分数作为一个简单的总和来计算。在前面提到的内部验证研究中，生活满意度子量表具有可接受的内部一致性(alpha= 0.88)，并且与生活满意度量表(r= .80,P<措施)。

研究1

先前的研究发现，与那些不定期练习的人相比，持续练习快乐活动能让寻求快乐的人获得更好的结果[16]。因此，我们假设使用与改善有关，这样用户在使用网站的时间越长，幸福感得分就越高，而在使用网站的时间越少，幸福感得分就越低。我们选择集中分析Happify量表的积极情绪子量表，因为之前的研究表明，生活满意度在短期内相对稳定，而积极情绪更容易发生变化[30.，31]。与之前的研究一致，我们也期望在幸福感较低的用户开始时看到更大的改善。

研究1方法

参与者

样本包括152,747名用户，他们完成了至少两项健康评估。用户被要求在注册后的第二天完成一项健康评估，但一些用户在第一次访问后没有返回，因此从未提供评估。其他人选择不完成评估，但继续使用该网站。因此，样本中包含了对平台中度感兴趣的用户，以及对追踪自己的幸福感感兴趣的用户。

为了检验排除<2项评估的参与者所导致的样本偏倚的可能性，我们比较了完成≥2项评估的参与者(n=152,747)和只完成1项积极情绪评估的参与者(n=568,205)。表1显示结果。完成1项评估的用户和完成≥2项评估的用户之间没有统计学上的显著差异，并且平均差异的效应量非常小d指南(32]。然而，当涉及到积极情绪时，我们无法比较完成任何数量评估的用户和没有完成评估的用户。就幸福水平而言，我们的样本仍然有可能(甚至可能)不能代表整体用户群。

我们还使用卡方检验比较了这两组的人口统计学变量，在大多数情况下，发现了统计学上显著但实际上很小的差异(见表2)。具体来说，与没有完成≥2项评估的用户相比，我们的样本中女性用户较多，18-24岁的用户较少，35-44岁和45-54岁的用户较多，学生用户较少，就业用户较多，没有孩子的用户较多，有≥19岁孩子和不同年龄孩子的用户较少。然而，这些差异大多在1%到3%的范围内，并且可能只是因为样本量非常大而显着。唯一实质性且可能相当重要的差异是≥2个评估样本的年龄。完成≥2项评估的用户明显大于总体用户群，18至24岁年龄段的用户减少6%。

表1。研究1 Happify用户样本(完成≥2项评估)和未完成≥2项评估的用户在积极情绪测量上的基线差异。

的数量评估	不。	平均评分^一个	SD	t	df	P价值	d
1	568205年	38.75	19.80	3.39	720950	获得	〇〇
≥2	152747年	38.56	19.38

^一个在幸福量表中得分为1-100分。

表2。研究样本(≥2项评估，n=1,925,376)与未纳入研究1分析的样本(仅1项评估，n=152,747)之间人口统计学变量的差异。

特征		1评估, % (n)	≥2评估, % (n)	χ²	克莱默V	df	P价值
性				1371.56	0。	2	<措施
	男性	13%(19857 .11点)	10% (192537 .60)
	女	87% (132889 .89)	90% (1732838 .40)
年龄范围(岁)				4075.98	07	5	<措施
	18 - 24	20% (30549 .40)	13.9%(267627点)
	25 - 34	30% (45824 .10)	30% (577612 .80)
	35-44	24%(36659 .28点)	28%(539105 .28点)
	45 - 54	17% (25966 .99)	19%(365821 .44点)
	55 - 64	8%(12219点)	8%(154030。08)
	≥65	1.5% (2291.21)	1.5%(28880 .64点)
就业状况				1804.80	点	5	<措施
	退休	3%(4582 .41点)	3%(57761 .28点)
	自由职业者	12%(18329 .64点)	1045.12 12%(23日)
	失业	6% (9164 .82)	6%(115522 .56点)
	学生	14% (21384)	1791.36 11%(21日)
	使用	57%(87065点)	62%(1193733点)
	家庭主妇	7% (10692 .29)	7% (134776 .32)
父母的地位				1714.74	0。	5	<措施
	儿童≥19岁	7% (10692 .29)	5.4% (103970 .30)
	13-18岁	2% (3054 .94)	2%(38507点)
	0-12岁儿童	5%(7637 .35点)	5% (96268 .80)
	不同年龄的孩子	5%(7637 .35点)	4%(77015 .04点)
	没有孩子	15% (22912 . 05)	18%(346567 .68点)

总而言之，当考虑到这项研究可以推广到谁时，重要的是要记住，我们所提取的子样本在一个关键方面是有偏见的，这可能会限制推广:我们的参与者比Happify的整体用户群年龄大。此外，当涉及到用户的幸福水平时，我们的样本可能存在偏差;现有的数据表明没有，但我们没有用户完成任何评估的数据。根据之前的研究，这些用户可能在某些方面与我们的样本不同。

基线幸福感作为调节因素

在0-100分的量表中，研究1使用者基线时的平均积极情绪得分为39.03分(SD 19.45)，平均生活满意度得分为52.00分(SD 22.78)。然而，先前的研究表明，有两种截然不同的寻求幸福的人:那些相对痛苦的人和那些相对不痛苦的人[19]。其他研究复制了这种两类结构，通常来自积极情绪测量，生活满意度测量和抑郁测量，并表明这些不同的群体可能对幸福干预有不同的反应[17]。具体来说，一些证据表明，更痛苦的寻求快乐的人可能会获得更大的好处[18]。因此，遵循与之前的工作聚类快乐寻求者类似的程序，我们在IBM SPSS (version 19, IBM Corporation)中使用基线积极情绪和生活满意度分数对样本中的参与者进行了两步聚类分析。先前的研究发现，这种方法对于大型数据集的使用是稳健的[33，34]。虽然我们没有抑郁症状的测量方法，但我们假设，使用之前使用的3种测量方法中的2种，仍然会产生两类划分模式，一组整体幸福感高于平均水平，另一组整体幸福感低于平均水平。

即使没有抑郁症状的测量，我们也发现了预期的集群结构。正如预期的那样，该模型在样本中产生了两种不同类型的用户:低幸福感(n=69,474)，其积极情绪(23.64)和生活满意度(32.63)的平均得分低于样本平均值;高幸福感(n=83,273)，其积极情绪均值(51.05)和生活满意度均值(68.01)高于样本均值。多媒体附录1显示模型的轮廓图[35]，它将模型拟合描述为良好。我们在有效性分析中使用这个聚类变量作为调节因子，以查看Happify对痛苦用户的影响是否与非痛苦用户不同。

分析策略

我们使用最初设计用于日记数据的多层次建模程序在IBM SPSS中分析数据，其中对每个个体参与者的自变量和因变量进行多重评估[13]。多层建模是线性回归的一种高级形式，对于评估纵向数据非常理想，因为它能够使用用户提供的多少评估点(换句话说，它不会丢弃丢失数据的用户，而是使用他们提供的任何数据为他们绘制一条线)。

在多层模型的这种特殊变化中[36]，就像任何干预的多层次模型一样，有一个时间的主要影响，它显示了幸福感在8周干预期间的变化。我们将时间纳入模型，因为许多干预研究都是以这种方式探索心理变化的:增量的、顺序的、随时间的。此外，包括时间是很重要的，因为它控制了使用和结果之间的关系仅仅是由于时间的流逝的可能性[36]。然而，由于时间的主要影响是不受控制的，并且受到诸如回归均值和混淆使用率和辍学率等批评，我们对将幸福感视为使用率函数的分析特别感兴趣。在分析使用情况时，我们将人与人之间的变化分开，并在模型中分别评估人与人之间和人与人之间的术语。然后，该模型产生了以幸福感为因变量的时间、个人内部变化(即，一个人的幸福感变化是否是他们使用Happify或多或少的函数)和个人之间变化(即，总体高使用率的用户是否与总体低使用率的用户不同)的估计。因此，涉及使用情况的分析(内部或之间)侧重于使用的短期影响-在每个单独的2周窗口期间-而不是在整个8周干预期间进行。

在人际关系方面，我们比较了倾向于更多使用该应用程序的人和倾向于较少使用该应用程序的人。在这个词中，用法是连续的，而不是绝对的。一个重要的人际关系术语表明，使用频率越高的总体模式预示着幸福感越高。人与人之间总体使用模式的差异并不是我们主要感兴趣的，相反，当我们探索个人差异的影响时，这是需要控制的重要潜在混淆变量。对于人体内的条件，可以计算每个个体参与者的剂量-反应线，不是随时间，而是随使用水平。它调查了该个人的用法和情绪之间的关系。对组内效应的分析提供了一种方法来观察一个人在不同“剂量”下的表现，重点是在这些不同剂量下，他们在个人内部的变化，而不是在接受一种剂量或另一种剂量的人之间的差异。这种分析不像基于使用情况的人与人之间的比较(重度用户和轻度用户)那样脆弱，因为两组人之间可能存在系统差异。因为参与者被与他或她自己进行比较，所以对用户之间差异的担忧变得不那么突出了。

在较小的子样本中，参与者的个人线条可以在“意大利面图”中可视化，这显示了使用对幸福感的作用的个体差异。意大利面图是统计模型的一个有用的辅助工具，因为它们有助于可视化模型的总体斜率代表样本中每个个体的斜率的程度。更简单地说，它们表明总体斜率是否代表了样本中发生的情况。本分析以幸福感(积极情绪与生活满意度分别检视)为因变量，以使用率为预测因子。

所有参与者都至少进行了两次健康评估，但有些人进行了多达5次评估，持续8周。8周的评估期从用户完成第一次幸福感评估开始。对于任何评估幸福感的时间，我们都计算了一个“使用”变量，我们将其操作为用户在上次评估和当前评估之间完成活动的网站访问次数。第一次评估前完成的平均活动数为5(标准差5.11)。此外，我们使用幸福感的基线聚类作为调节因子(见上文)。我们测试了使用的预测能力，以及基线幸福感与使用的潜在相互作用，人与人之间和人与人之间的差异被分开。因此，分析得出的是对普通人改善程度的传统估计(人与人之间的方法)，但也研究了每个人的使用变化如何预测他或她的福祉(人与人之间的方法)，从而产生了剂量-反应关系。简而言之，它问的是“对于任何一个给定的人，他们在使用Happify更多的时间段和使用Happify更少的时间段的幸福感如何?”

研究1结果

表3包含积极情绪测量的描述性统计数据，以及每个时间点的使用情况。在为期8周的研究期间，积极情绪增加了10.47分(10.47%)。一开始的使用率相对较高(每周约5次)，随着时间的推移而下降，到8周时，使用率在0到1之间。随着用户的退出，积极情绪的样本量会随着时间的推移而改变，但由于使用情况是观察而不是自我报告的，所以样本中的每个人都可以获得使用数据，而不管他们是否遵守了幸福感评估。

表3。积极情绪^一个以及Happify用户样本在8周内的使用情况。

时间点		不。	的意思是	SD
积极情绪评分
	基线	152747年	38.56	19.38
	2周	148740年	42.46	19.68
	4周	52177年	45.29	19.80
	6周	25435年	47.46	19.73
	8周	15140年	49.03	19.63
使用(次/周)
	基线	152747年	5.19	5.11
	2周	152747年	4.39	11.40
	4周	152747年	2.06	8.26
	6周	152747年	1.25	6.45
	8周	152747年	0.85	5.15

^一个在幸福量表中得分为1-100分。

时间的主要影响与观察到的积极情绪的平均增加相呼应。随着时间的推移，积极情绪以平均每周1.38点的速度改善(估计1.38，标准差0.01，t_122455年= 113.60,P<措施，95% CI 1.36–1.41). This suggests an average overall improvement of 11.04 points, or about 27%, over the course of 8 weeks.

与不经常使用该平台的用户相比，使用该平台对整体幸福感也有显著影响。平均而言，高使用率的用户体验到更多的积极情绪(估计0.20，标准差0.02，t_85929年= 11.63,P<措施，95% CI 0.17–0.23). The significance of this term suggests the importance of including it as a control variable. However, due to the way usage was measured (segmented into 2-week chunks, rather than being cumulative), the estimate yielded by this term is not meaningful or interpretable for practical purposes.

个人术语的结果显示，对于任何给定的用户，更多的使用预示着更多的积极情绪，更少的使用预示着更少的积极情绪(估计0.09,SE 0.01，t₆₀₄₇= 9.15,P=。001, 95% ci 0.07-0.12)。这一估计预测，在每天使用Happify的用户两周后，他们的积极情绪会比一周不使用Happify的用户高1.26分。在每周的基础上，用户似乎在他们经常使用网站的几周内获得了更多的信息，而在他们很少使用网站的几周内则获得了更少的信息。

此外，人与人之间的使用与基线幸福感的交互作用也很显著，即基线幸福感较低且经常使用该网站的人与高幸福感用户或不经常使用该网站的低幸福感用户相比，体验到的改善最大(估计0.20，标准差0.02，t_85929年= 18.60,P<措施，95% CI 0.18–0.22). Both baseline well-being level and usage seemed to interact to determine improvement. Although, for reasons described above, the estimate yielded here is not meaningful or interpretable, the results can be seen in图1，其中显示了低幸福感用户(左)和高幸福感用户(右)的意大利面图。由于渲染图时计算机内存的限制，我们在随机选择的数据子集(n=1505)上创建了该图。总体样本在基线幸福感或人口变量上没有统计学上的显著差异，样本中观察到的结果模式是相同的。x轴是使用率(自上次评估以来的访问次数)，以均值为中心。y轴是最佳的线性无偏预测[37]，目的是捕捉积极情绪的随机效应。图上的每条线表示单个使用者的剂量-反应曲线;较长的线条表示用户的使用变化较大。在这两幅图中都可以看到使用率和幸福感之间的总体正相关关系。此外，图表表明，尽管对于从低幸福感开始的用户来说，更多的使用似乎会带来更高的幸福感，但对于那些从高幸福感开始的用户来说，使用对幸福感的好处似乎在更高的使用水平上趋于平稳。

个人使用与基线幸福感之间没有显著的相互作用。低幸福感和高幸福感的参与者没有表现出不同程度的使用敏感性(P=陈霞)。无论一个人的基线幸福感如何，使用和幸福感之间的关系都是一样的。

图1所示。意面图说明使用(自上次评估以来的访问次数，以均值为中心)对Happify低基线幸福感(左)和高基线幸福感(右)用户积极情绪的影响。积极情绪用最佳线性无偏预测(BLUP)分数表示。用随机选择的n=1505的子样本来说明。

研究1讨论

结果表明，无论基线幸福感如何，Happify用户的整体状况都有所改善，使用率越高，总体幸福感越高。一般使用该网站的人都有所改善，而且使用得越多，改善越多。然而，在那些一开始幸福感较低的人身上，尤其是在积极情绪方面，这种改善似乎更大。因此，由于低幸福感而有更多成长空间的用户在使用该网站时比高幸福感的用户体验到更大的幸福感变化。

重要的是要考虑到研究设计的一些局限性，并相应地调整对研究结果的解释。首先是我们在样本中观察到的偏差。完成≥2份问卷的用户(入选的必要条件)年龄较大，可能与仅完成1份问卷的用户存在差异，我们无法对其进行评估。虽然我们不知道绝大多数被排除在样本之外的用户的幸福水平(他们甚至没有完成一项幸福测量)，但其他研究表明，退出者可能倾向于较低的幸福，我们也观察到对老年人的偏见。我们还观察到在研究过程中出现了大幅下降，只有10%的用户完成了所有评估;虽然这些辍学率在自然主义的互联网干预中是典型的，但它们也触及了回归能够可靠地适应缺失数据的极限。我们也承认，我们对使用情况的操作化——一项活动完成后对网站的访问次数——只是量化使用情况的众多方法之一。在我们的分析中，重要的是每两周量化一次使用量，这样每两周就可以单独分析。然而，在持续观察随时间变化的分析中，用法可以被逐渐概念化。例如，用户可能会有一个“已完成的活动数量”的持续记录，该记录会随着时间的推移而增长。 This type of approach would be beneficial for looking at total usage, something we were unable to do in this study.

然而，我们能够在受控研究环境之外观察到这些影响，这是我们的目标之一，因为在大型自然数据集中，对照组通常是不切实际的。多层模型的使用为我们提供了一种避开一些(但不是全部)非受控设计问题的方法。该模型的个人条款(关注在不同时间点的使用是否会导致任何给定的人的幸福变化)不太容易受到传统的对非受控研究的批评。然而，人与人之间的术语(发现一些用户比其他人做得更好)仍然容易受到样本偏差的影响。这种评估有效性的方法虽然与进行随机对照试验完全不同，但可以使研究人员在无法进行随机对照试验的情况下获得有效性的估计。

研究2

研究1提供的证据表明，经常与该网站互动的用户也报告了更高水平的幸福感。然而，它并没有暗示方法参与到与改进相关的网站中。解决这个问题的一个重要方法是分析用户在完成活动时所表达的语言。通过使用大数据技术确定与用户改进相关的主题，我们可以洞察用户的自发行为;也就是说，当用户按照自己的意愿自由参与干预时，哪些行为是有益的。因为我们的方法是数据驱动的，所以它们允许数据为自己说话。我们对我们的结果没有特别的、预先的假设。我们的目标是深入了解与大型开放式互联网健康干预(如Happify)的成功结果相关的各种自发参与。我们只关注那些一开始就参与其中的用户，将与改进相关的语言分离出来，从而深入了解最有效的参与方式。

研究2方法

材料

对于所有的语言分析，我们感兴趣的因变量是研究1中使用的同一对自我报告调查。我们使用下面描述的自然语言处理方法，从参与者在他们的时间内写的基于任务的文本中获得预测变量(参见上面的一般方法部分，以了解网站上活动的更多描述)。

参与者

为了构建基于幸福感量表的稳定结果变量，我们将语言分析限制在完成量表至少两次并且第一次和最后一次自我报告之间至少有30天的用户。表4列出符合这些标准的人与不符合这些标准的人之间的差异。请注意，并非所有字数≥500的参与者都能获得人口统计信息，因此这里分析的用户只是我们分析中使用的用户的一个子集。此外，由于可靠的语言分析需要大量的个人语言[38，我们只考虑那些在所有自由文本任务中至少写了500字的用户。这样我们就得到了10818个用户的最终样本。样本中的参与者使用Happify的时间平均为168天，他们为完成的每项任务平均写了51.23个单词。

表4。样本(<500 words, n=2,073,333)与未纳入研究2分析的样本(≥500 words, n=4790)人口学变量的差异。

特征		< 500字, % (n)	≥500字 % (n)	χ²	克莱默V	df	P价值
性				169.19	．02	2	<措施
	男性	12% (248799.96)	9% (431.10)
	女	87% (1803799.71)	90% (4311.00)
年龄范围(岁)				381.55	.04点	6	<措施
	18 - 24	19% (393933.27)	19% (910.10)
	25 - 34	30% (621999 .90)	37% (1772 .30)
	35-44	24%(497599 .92点)	24% (1149 .60)
	45 - 54	17%(352466点)	14% (670.60)
	55 - 64	8%(165866 .64点)	6% (287.40)
	≥65	2%(41466点)	1% (47.90)
就业状况				155.44	03	5	<措施
	退休	3% (62199 .99)	2% (95.80)
	自由职业者	12%(248799 .96点)	12% (574.80)
	失业	6%(124399 .98点)	8% (383.20)
	学生	14% (290266 .62)	16% (766.40)
	使用	58%(1202533点)	52% (2490 .80)
	家庭主妇	7%(145133 .31点)	7% (335.30)
父母的地位				8951.68	03	5	<措施
	儿童≥19岁	7%(145133 .31点)	7% (335.30)
	13-18岁	2%(41466点)	3% (143.70)
	0-12岁儿童	5%(103666 .65点)	10% (479.00)
	不同年龄的孩子	5%(103666 .65点)	5% (239.50)
	没有孩子	15% (310999 .95)	45% (2155 .50)

表5显示样本的描述性统计信息，以及对我们样本中的用户与用户群中其余用户之间的基线差异的分析。研究2样本中的用户在第一次评估时的幸福感明显高于没有写≥500字的用户。毫不奇怪，这个子样本并不是整个用户群的随机子集——一组非常特定的用户频繁地使用站点，足以产生本分析所需的文本量。

表5所示。研究2样本在两个因变量上的基线特征，并分析研究样本中用户(写作≥500字)与写作<500字的用户之间的差异。

因变量		不。	平均评分^一个	SD	t	df	P价值	d
积极情绪
	< 500字	710348年	39.43	19.97	-47.41	721164年	<措施	.46
	≥500字	10818年	48.63	20.11
生活满意度
	< 500字	710348年	52.31	23.36	-44.39	721164年	<措施	点
	≥500字	10818年	62.39	24.26

^一个在幸福量表中得分为1-100分。

这个样本显然不是随机抽取的Happify用户，因此可能不能代表整个用户群。然而，专注于高度活跃的用户让我们探索种类与改进有关的活动。即使在高度投入的用户中，改进体验也存在差异。因此，通常仅仅使用干预措施可能不足以使其有效。可能有特定的行为和心理取向与改善有关。我们的语言分析使用数据驱动技术来揭示这些因素。

程序

文本预处理

一些Happify任务包含多个文本字段。我们将给定任务实例的所有文本合并到一个文档中进行主题建模。硬返回被“”占位符替换。标记化、特征提取(主题建模除外)、回归和相关分析在Python 2.7版本(Python Software Foundation)中执行。

主题建模

我们使用潜在狄利克雷分配(LDA)对用户的自由文本进行聚类，这是一种主题建模技术[39]。LDA技术假设文档(在本例中是来自单个任务实例的文本)由主题的组合组成，并且每个主题是一个词簇。使用每个文档中找到的单词，使用Gibbs抽样估计每个主题的构成[40，41]。我们使用了LDA算法的Mallet实现[40]生成200个主题，调整alpha参数(alpha=5)以调整每个文档的主题数量，因为与LDA的典型应用(例如，百科全书或新闻文章)相比，每个文档的长度较短。我们研究小组成员以前的工作[42[2000]使用了更多的主题，但研究数据集中的任务导向语言减少了语言的可变性，可以用更少的主题来捕获。为了使用主题作为特征，我们使用LDA输出和用户词概率计算了用户使用主题的概率p(topic | user)(参见[41]查阅详情)。这给出了一个200维向量，表示每个用户的语言，其中每个维映射到一个离散的主题词簇。

主题因子分析

LDA产生的主题可以在用户之间强相互关联[43，44];也就是说，如果主题是相关的，当用户写某个主题时，他们也倾向于写与他们相关的其他特定主题。例如，一个写烹饪的用户更有可能写甜点，而不是学校作业，尽管“烹饪”和“甜点”构成了两个独立的主题。

多媒体附录2显示了200个主题的主题间相关矩阵和屏幕图。大多数主题相关性为弱或非常弱，41个主题对表现为中等相关性，6个主题对表现为强或非常强相关性。为了解释主题相关性，我们使用变量轮换对主题得分进行了探索性因素分析。根据屏幕图，我们决定使用一个50因素的解决方案，该方案显示出紧密的拟合(均方根误差近似为0.01807)，可以解释总变异的32.5%。由此产生的因素可以看作是用户行为的模式。

总之，LDA主题将可能具有某些相似性的消息的各个方面聚集在一起。因子分析将同一用户中可能同时出现的主题聚集在一起。这种差异使我们能够回答类似但不同的问题:(1)人们写的与有效参与干预有关的内容是什么?(2)哪些类型的一般用户行为与有效参与干预相关?

结果变量

我们构建了普通最小二乘回归，以时间(自第一次反应起的天数)为自变量，并通过汇总积极情绪得分和总体生活满意度得分作为因变量构建了整体幸福感测量。我们对每个参与者的结果是用户总分(积极情绪加上生活满意度)随时间变化的普通最小二乘回归斜率。积极情绪与生活满意度量表在r=。61，一个nd analyzing them separately did not produce meaningfully different results (see多媒体附录3)。因此，为了简单起见，我们将这些变量合并为主观幸福感的单一分数[45]。

研究2结果

主题

共有14个话题显著地预测了幸福感的增加。关系最密切的话题往往是关于直接参与消极的想法和情绪，但有些也包括对积极经历的描述。图2显示每种类型的示例。所有具有显著影响的主题都包含在多媒体附录4．

我们只对最初幸福感高的用户进行了主题分析，以解决结果受到天花板效应影响的可能性。结果与总体样本相似(见多媒体附录5)。

因素

共有3个因素显著地预测了幸福感的增加，它们也主要集中在积极地参与负面经历上。为了便于解释，我们将这些因素标记为这一过程的3个不同方面:(1)重组消极思想，(2)控制焦虑，(3)与人际冲突达成协议。这些标签虽然可以解释，而且是事后(不是从语言分析中)得出的，但它们支持对生活困难持积极态度的一般模式。图3说明了这3个因素的5个最高负载主题。这些因素描述了一般的用户行为，提供了与成功用户粘性相关的语言的更情境化的观点。

图3。在预测幸福感提高的3个因素中，负荷最高的5个话题。左上方的因素包含关于消极思想的主题(重组消极思想)。右上方的因子包含有关处理焦虑(控制焦虑)的主题。最下面的因素包含关于过去经历的话题，以及与他人的冲突和互动(接受人际冲突)。

研究2讨论

自动语言分析揭示了与成功参与互联网健康干预相关的主题和因素。值得注意的是，增加的积极影响和生活满意度与负面价值话题有关，这些话题包含“消极”、“焦虑”和“担忧”等词。在那些已经高度投入的用户中，最成功的用户解决了他们不愉快的想法、焦虑和困难。这一结果与先前基于实验的理论相一致。认知治疗技术聚焦于干预适应不良的思维模式[47]。此外，先前的研究表明，写下负面经历对健康和幸福感有特别的好处[48，49]。

用户可能会发现自己在讨论负面内容的一个原因是Happify的结构。如上所述，Happify上的用户体验是由轨道或围绕共同目标或主题构建的一系列活动构成的。绝大多数用户选择了“克服消极思想”和“更好地应对压力”等以问题为中心的主题。因此，虽然他们所做的任务五花八门，而且一般都集中在积极的情绪上，但他们也涉及到用户生活中的消极方面。从这个意义上说，我们也可以检测到坚持和遵守，即那些通过讨论负面内容来保持轨道目标的用户受益最大。

成功的用户还关注各种积极的情感体验。值得注意的是，这些体验中有许多特别涉及积极情绪，如骄傲、享受、欣赏和庆祝，这些都是对特定物体或事件的反应，而不是一般情绪。

总的来说，提高幸福感的用户会坦率地写下他们不愉快或不适应的想法和感受，用直接的策略解决这些负面经历。然而，他们不只是写不愉快的事情，因此他们平衡了积极和消极的话题。这些定性得出的结论是基于真实世界的数据，并抓住了人们自发尝试增加自己福祉的重要趋势。换句话说，即使在那些强烈参与干预的用户中，他们得到的好处也存在差异。那些努力克服不愉快情绪和想法的用户在幸福感方面得到了最大的改善。可能由于每个用户的语言相对稀疏，这些主题和结果之间的相关性相当弱(详见多媒体附录)。这一事实揭示了大数据方法的另一个重要特征:它们使研究人员能够发现这些可能隐藏在较小样本中的微妙影响。虽然规模很小，但这些结果有助于解释在不受控制的环境中，许多人的幸福感得到改善，因此可能对现实世界产生巨大影响。此外，这些平台的开放性意味着数据将继续积累，从而允许越来越强大和细致入微的语言分析。

本研究的目的是展示在大量但不受控制的数据集中分析干预数据的优势。我们的目标是尝试两种新的方法来理解不受控制和潜在压倒性的干预数据中的混乱。在研究1中，与假设和先前的研究一致[16，18我们发现，在8周的疗程中，Happify用户的幸福感平均提高了11%。然而，在没有对照组的情况下，很难推断是干预，而不是时间的推移或其他因素导致了观察到的改善。因此，我们也探索了人体内的剂量-反应关系，发现用户在更频繁使用Happify的时间段内报告了更高的幸福感。虽然在推断整体效果时，这种类型的设计比其更受控制的同类设计更弱，但它确实允许我们探索当用户在更细的粒度水平上使用干预时发生了什么，每周，因为他们的使用水平不同。它还可以帮助我们确定什么样的使用水平是最佳的，或者在某种程度上，更多的使用是否不再更好。

使用预测每周幸福感的个人内部分析很有趣，因为它不仅关注用户之间的差异，还关注不同剂量干预下用户内部的差异。虽然这种方法在日记和经验抽样研究中是典型的，但在干预研究中却不太常见。基线幸福感是一个调节因素，因此初始幸福感较低的用户改善得更多。这也与之前的研究一致[17，18]。研究2使用自然语言分析(这种方法只适用于大型数据集)，得出了用户在Happify上成功练习活动时可能发生的过程的快照。比起仅仅关注积极的一面，用户们似乎更倾向于将关注快乐的活动作为解决问题的一种方式。从某种意义上说，这是令人惊讶的，因为STAGE模型中的活动都集中在积极的体验和认知上。然而，有证据表明，写消极的东西可以帮助个人创造一个有意义的叙述，这可能也正在发生。48]。

在评估有效性时，许多研究人员可能会避免使用这类数据，因为缺乏对照组使得很难确定干预措施的有效性。为了解决这个问题，我们还研究了个人差异，观察每个用户的幸福感如何随着使用频率的变化而变化。控制组的存在通常是为了解释各组参与者之间的系统性差异，以及随时间的自然变化。内部分析较少受到这些问题的影响，因为每个数据点都来自同一个人。使用这种方法，我们的结果表明，对大多数用户来说，使用率和幸福感是密切相关的，在给定的两周内，使用率越高，在这段时间结束时，幸福感就越高。我们还能够通过使用意大利面图将这些数据可视化，从而包括个体差异的影响。图表表明，尽管存在少数异常值，但大多数样本的使用率和幸福感之间的正相关关系仍然成立。

许多研究人员可能存在的另一个犹豫是无法探索理论机制。然而，我们能够通过使用语言分析来洞察机制，以确定那些幸福感得到改善的用户更有可能使用的主题。讨论消极的话题，尤其是消极的想法，会带来更好的结果。用户承认并参与他们的焦虑和不适应的认知模式从中获益。虽然这些结果最终只是相关的，但它们提供了一个描述性的快照，说明了有效使用干预措施与不有效使用干预措施的区别。此外，随着研究集中在与改进最密切相关的语言使用类型上，这种细粒度的数据可以为干预设计者提供关于如何呈现活动的反馈。例如，如果关注负面话题继续成为Happify用户的共同因素，那么Happify就应该修改活动说明，鼓励用户关注负面话题。

与更结构化的干预研究设计相比，数据集的性质也具有特定的优势。最明显的是样本量大，这比除了最雄心勃勃的随机研究之外的所有研究都要大几个数量级。如此大的样本量使我们能够生成具有高置信度的参数，包括通常在0.01-0.03范围内的标准误差，具有紧凑的95%置信区间。它还允许我们做一个调节分析，检查基线幸福感高或低的人之间的差异，而不妨碍我们检测影响的能力。通常，调节分析是为荟萃分析保留的，其中多个研究的数据是可用的。此外，自动语言分析需要大量的数据来提供有效的结果，这使得它在大多数控制干预研究中是不可能的工具。此外，这些数据集的本质意味着它们在不断扩展。随着数据量的增加，研究人员测量和分离细微影响的能力也在提高。

我们的数据中缺乏对变量的实验控制，虽然在某种程度上是一种缺陷，但也为重要的研究问题提供了途径。在现实世界中，用户可以随时随地自由参与干预;因此，在研究总体有效性时，这些变量是重要的考虑因素。我们的数据描述了参与者的自发行为;也就是说，他们在日常生活中的参与程度以及他们在使用干预时自由选择的策略。因此，我们提供的结果不仅在外部有效，而且还涉及到在许多其他设计中可能“被控制掉”的变量。

许多作者都注意到需要新的方法来适应互联网干预研究的快速变化[2，3.]。我们模拟了一些替代策略的使用，这些策略产生了关于互联网干预结果和过程的有效信息。到目前为止，我们关注的是使用实际干预数据的好处。然而，讨论一些限制也是值得的。

限制

通过发布新内容、改进现有功能以及通过论坛与其他用户进行互动，现实世界的干预措施不断发生变化，这对受过训练的研究人员提出了挑战，他们需要保持尽可能多的因素不变[50]。此外，我们使用的有效性评估方法依赖于使用的个人内部变化，这并不像随机分配的小组成员那样是一个干净的独立变量。用户在决定是否尝试Happify的几个层面上都是自我选择的，在他们继续使用Happify的过程中更是如此。我们的分析策略的性质——使用情况、文本输入和健康数据——限制了我们只能使用那些提供了足够数量的这类数据的用户。对于研究1，我们仅限于完成幸福感评估的用户。在研究2中，我们限制了写作≥500字的用户。在这两项研究中，我们只收集了用户报告的人口统计数据。在所有这些情况下，由于数据不足，我们的样本中排除了许多用户。我们无法分析我们没有的数据，因此，我们的样本是有偏见的。我们采取了一些措施来探索这种偏见的本质，但缺少数据使得我们很难确定我们理解数据不代表整体用户群的每一种可能方式。

虽然与幸福分数相比，使用行为的时间优先性允许某种程度上推断因果关系的能力，但也有可能影响使用和幸福的潜在第三个变量。一个主要的问题是在我们的研究结果中辍学的作用。退学现象很普遍，而且辍学率很高，即使在可能提供一些激励参与的受控研究中也是如此[51]。在消费者环境中，用户就是客户，是买方市场，退出的频率会更高[51]。这在我们的样本中是很明显的，其中的损耗率反映了在其他发表的对非受控干预数据集的分析中观察到的情况。虽然高流失率在解释研究结果时肯定会引起关注和谨慎，但这并不意味着研究没有价值[51]。然而，重要的是要考虑到在如此大比例的样本缺失情况下可能引入的潜在偏差来源，并尽可能使用适当的统计方法来解释这些缺失的数据。

我们做了一些尝试来发现那些参与Happify的人和那些参与Happify的人之间可能存在的差异，这些人不足以满足我们的纳入标准，我们确实发现了高度参与的用户(完成≥2个评估或写作≥500字)和那些不高度参与的用户之间存在一些关键差异。然而，可用的人口统计数据有限，我们没有测量的许多其他因素可能在辍学中起作用。因此，我们的样本中仍然存在其他难以确定的潜在偏差。语言分析在控制方面有其自身的局限性。由于分析需要大量的语言，我们无法观察到干预使用导致的语言使用随时间变化的具体模式。

我们也承认，基于主观幸福感模型，我们使用两种自我报告测量方法来衡量幸福感的模式，只是衡量幸福感的许多可能方法之一。还有其他概念的自我报告测量方法，包括心理健康[52]和精神健康[53]。除此之外，还可以使用经验抽样方法在更日常的基础上测量情绪，随着越来越多的人开始携带手机，这种方法变得越来越可行。此外，最近在腕带技术方面的技术进步使研究人员能够掌握心率变异性等变量。在大数据研究中推进幸福感评估有许多可能的前沿;我们的只是第一步。

现实世界干预数据的另一个问题是统计力量的优势。研究1分析了超过15万名参与者的数据;在这样的样本量下，几乎所有的东西都是显著的，因此统计显著性不能作为哪些发现“重要”的指示。在语言分析中，压倒性的潜力同样巨大，其中许多影响虽然在统计上显着，但非常小。由于这种语言分析相对较新，很难知道什么构成了有意义的效果。未来的研究需要探索词汇和话题使用对未来行为的预测能力，以阐明这一特定过程对幸福感的影响程度。

最后，来自现实世界干预的数据是有问题的，因为它们以研究人员无法获得而闻名。公司并不总是对进行科学研究感兴趣，研究人员也并不总是对与公司进行对话感兴趣。我们将鼓励双方相互接触，建立互利关系。利用公司数据发表的研究可以增强公司的合法性。研究人员可以访问大量的、免费的(对他们来说!)数据集，这些数据集包含了在更严格的控制环境中通常无法获得的结果，我们希望我们已经说服了读者，这是值得追求的。

道德:一个突出的问题

虽然我们在这项研究中旨在帮助建立一些新的和有趣的方法来分析大干预数据，但我们的研究提出了一些问题，但没有解决。进一步讨论的一个重要主题是商业产品背景下的同意伦理。通过认可用户协议的被动同意就足够了吗，还是应该有更多的主动同意程序?例如，可以想象在每个用户的可选配置文件上实现一个“使用我的数据进行研究”对话框，这样只有考虑了风险并决定提供数据的用户才会分析数据。同时，这样做会极大地限制样本量和潜在的样本有效性;不选择研究的用户之间可能存在什么系统差异?难道用户不需要在一开始就相对投入到研究中去吗?如果是这样的话，研究人员就无法获得那些参与度高的用户和参与度低的用户之间的差异，难道不是不可能吗?显然，在研究环境中，用户将被随机分配到不同的条件中，其中一个或多个条件可能被视为“惰性”，知情同意是必要的。然而，在缺乏随机分配的情况下，需要更多的讨论来制定同意标准，在这种情况下，每个人都得到“最好”的产品，网站的目的不是收集数据或进行实验，而是将产品提供给公众。

结论

我们对基于Web和应用程序的平台的普遍使用以及特定主题的使用与幸福感变化之间的关系提供了一些新颖的见解。当然，我们还没有对可能适用于互联网干预的大数据方法进行详尽或全面的审查。然而，我们希望我们已经有效地论证了非结构化干预数据的分析方法是必要的;没有它们，完整的、大规模的、自然的数据集将永远遥不可及。我们也希望我们探索这种非结构化数据集的初步尝试将激发其他人尝试这些方法并改进它们。

致谢

这项工作得到了邓普顿宗教信托基金(ID #TRT0048)的部分资助。

利益冲突

RZ和AP是Happify的股东，Happify是本文所有分析的数据来源。RZ是Happify的全职员工，AP是兼职员工。JC, PC, HAS, LS和AC与Happify没有财务关系。

‎

多媒体附录1

Happify中痛苦用户和非痛苦用户的聚类质量图。

PDF档案(adobepdf档案)，15KB

‎

多媒体附录2

200个主题之间相互关系的热图和屏幕图。这些模式主要描述了较小的相互关系，但也有相当数量的适度正相关，这表明因子分析可能揭示有意义的因素。题目分数相关矩阵的特征值。

PDF档案(adobepdf档案)，77KB

‎

多媒体附录3

这五个话题与积极情绪和生活满意度的关系最为密切。

PDF档案(Adobe PDF档案)，956KB

‎

多媒体附录4

所有主题都与幸福感的改善和降低显著相关。预测幸福感增加的话题。

PDF档案(adobepdf档案)，138KB

‎

多媒体附录5

预测用户在初始幸福感的前几个阶段中幸福感增加的主题。

PDF档案(adobepdf档案)，44KB

Halevi G.研究趋势:大数据特刊。阿姆斯特丹:爱思唯尔;2012年9月30日。URL:https://www.researchtrends.com/wp-content/uploads/2012/09/Research_Trends_Issue30.pdf[访问日期:2016-06-17][WebCite缓存］
Schueller SM, Munoz RF, Mohr DC。认识到行为干预技术的潜力。当代精神医学杂志2013;03;22(6):478-483。［CrossRef］
Sanson-Fisher RW, Bonevski B, Green LW, D'Este C.随机对照试验评价基于人群的健康干预的局限性。中华预防医学杂志，2007;33(2):155-161。［CrossRef] [Medline］
Munoz RF, Bunge EL, Chen K, Schueller SM, Bravin JI, Shaughnessy EA，等。大规模开放在线干预:在全世界提供行为健康服务的新模式。临床心理科学，2015,13:1-12。［CrossRef］
Thadhani R, Tonelli M.队列研究:前进。中华临床医学杂志，2006;1(5):1117-1123 [J]免费全文] [CrossRef] [Medline］
Whitaker HJ, Farrington CP, Spiessens B, Musonda P.生物统计学教程:自我控制病例系列方法。医学统计2006年5月30日;25(10):1768-1797。［CrossRef] [Medline］
惠特克HJ, Hocine MN, Farrington CP.自我控制案例系列研究的方法。中华医学杂志2009;18(1):7-26。［CrossRef] [Medline］
安圭拉JA，乔丹JT，卡斯塔内达D，加扎利A, Areán PA。开展一项针对抑郁症的完全可移动随机临床试验:获取、参与和费用。中华医学杂志，2016;2(1):14-21 [j]免费全文] [CrossRef] [Medline］
施瓦兹H, Eichstaedt J, Dziurzynski L, Kern M, Blanco E, Kosinki M，等。从社交媒体的语言探索看个性洞察。2013年在AAAI春季研讨会系列:分析微文本;2013年3月15日;斯坦福，加州，美国http://www.aaai.org/ocs/index.php/SSS/SSS13/paper/view/5764/5915［WebCite缓存］
Eichstaedt JC, Schwartz HA, Kern ML, Park G, Labarthe DR, Merchant RM等。推特上的心理学语言可以预测县级心脏病死亡率。心理科学2015;26(2):159-169 [j]免费全文] [CrossRef] [Medline］
Mohr DC, Schueller SM, Montague E, Burns MN, Rashidi P.行为干预技术模型:电子健康和移动健康干预的综合概念和技术框架。中国医学杂志，2014;16(6):e146 [J]免费全文] [CrossRef] [Medline］
Mohr DC, Burns MN, Schueller SM, Clarke G, Klinkman M.行为干预技术:证据、回顾和对未来心理健康研究的建议。普通医院精神病学2013;35(4):332-338 [j]免费全文] [CrossRef] [Medline］
[3]李建军，刘建军。基于实证分析的社会科学实证研究[j]。纽约:吉尔福德出版社;2013.
传播自助:一项在线试验中的积极心理学练习。医学互联网研究，2012;14(3):e63 [J]免费全文] [CrossRef] [Medline］
李建军，李建军，李建军。积极心理学研究进展:干预的实证检验。中国心理医学杂志，2009;30(5):491 - 491。［CrossRef] [Medline］
Lyubomirsky S, Dickerhoof R, Boehm JK, Sheldon KM。变得更快乐需要意志和正确的方式:一种实验性的纵向干预来提高幸福感。情感2011;04;11(2):391-402 [j]免费全文] [CrossRef] [Medline］
与非苦恼用户相比，苦恼用户对在线积极心理学干预的反应更好。中华精神病杂志，2015;56(3):322-331。［CrossRef］
李建平，刘波米斯基。积极心理干预对改善幸福感和减轻抑郁症状的影响:一项实践友好型元分析。中华临床医学杂志;2009;35(5):467-487。［CrossRef] [Medline］
Parks AC, Della Porta MD, Pierce RS, Zilca R, Lyubomirsky S.在日常生活中追求幸福:网络幸福寻求者的特征和行为。情感学报，2012;12(6):1222-1234。［CrossRef] [Medline］
Aikens KA, Astin J, Pelletier KR, Levanovich K, Baase CM, Park YY，等。正念发挥作用:在线工作场所干预的影响。中华医学杂志，2014,31(7):721-731。［CrossRef] [Medline］
RM Niemiec解释到。正念生活:人格力量干预作为五种正念训练的途径。国际健康杂志2012年4月28日;2(1):22-33。［CrossRef］
Emmons RA, McCullough ME。计算祝福与负担:日常生活中感恩与主观幸福感的实验研究。中华精神病杂志(英文版);2004(2):377-389。［Medline］
欣赏比人口统计学、五大人格因素和感恩更能预测生活满意度。[j]; 2012;53(1):59-63。［CrossRef］
Layous K, Katherine Nelson S, Lyubomirsky S.提供积极活动干预的最佳方式是什么?写一个人最好的自我的例子。[J]《幸福研究》2012年5月6日;14(2):635-654。［CrossRef］
何梅，张FM，张顺丰。生活的意义和乐观在促进幸福中的作用。2010年4月;48(5):658-663。［CrossRef］
Thoits PA, Hewitt LN。志愿者工作和幸福。[J]中华卫生杂志;2009;32(2):391 - 391。［Medline］
自我同情，压力和应对。社会医学会个人心理指南2010年2月1日;4(2):107-118 [j]免费全文] [CrossRef] [Medline］
Diener E, Diener c，大多数人都很快乐。心理科学1996;7(3):181-185。［CrossRef］
张建军，张建军，张建军，等。积极和消极情绪简要测量方法的开发与验证:PANAS量表。[J]中华精神病杂志;2009;31(6):1063-1070。［Medline］
李建军，李建军，李建军。生活满意度量表研究进展。[J]学报，1985;49(1):71-75。［CrossRef] [Medline］
克劳福德JR，亨利JD。积极和消极影响量表(PANAS):结构效度，测量性质和规范性数据在一个大的非临床样本。中华临床医学杂志，2004;43(3):245-265。［CrossRef] [Medline］
行为科学的统计能力分析。第2版。纽约:劳特利奇出版社;1988.
赵涛，方东，陈杰。大型数据库环境下混合类型属性的鲁棒可扩展聚类算法。2001年出席第七届ACM SIGKDD知识发现与数据挖掘国际会议;2001年8月26日至29日;旧金山，加州，美国。［CrossRef］
Okazaki s:我们对移动互联网用户了解多少?聚类分析。信息管理2006;43(2):127-141。［CrossRef］
IBM SPSS统计19统计程序同伴。第1版。上马鞍河，新泽西州:普伦蒂斯大厅;2012.
李建军，李建军。基于经验抽样和日记抽样的实证研究。第五章:主体内因果过程建模。URL:http://www.intensivelongitudinal.com/ch5/ch5index.html[访问日期:2016-06-10][WebCite缓存］
罗宾逊星期。这个BLUP是件好事:随机效应的估计。科学通报，1991;6(1):48-51。［CrossRef］
李建军，李建军，李建军，等。社交媒体中年龄和性别预测的研究进展。2014年发表于:自然语言处理经验方法会议;2014年10月25-29日;多哈，卡塔尔，第1146-1151页http://wwbp.org/papers/emnlp2014_developingLexica.pdf［WebCite缓存］
李建平，李建平，李建平，等。[J] .中文信息学报，2003;3(4):993-1022。［CrossRef］
Gelfand AE, Smith AFM。基于抽样的边际密度计算方法。[J] .农业科学与技术学报，1990(1):1 -4。［CrossRef］
Steyvers M, Griffiths T.概率主题模型。见:Landauer TK, McNamara DS, Dennis S, Kintsch W，编辑。潜在语义分析手册。第1版。莫瓦，新泽西州:Lawrence Erlbaum Associates;2007:427 - 448。
施哈，Eichstaedt JC, Kern ML, Dziurzynski L, Ramones SM, Agrawal M，等。社交媒体语言中的个性、性别和年龄:开放词汇方法。科学通报，2013;8(9):73791 [j]免费全文] [CrossRef] [Medline］
Blei D, Lafferty J.相关主题模型。内:Weiss YB, Schölkopf B, Platt J，编辑。神经信息处理系统进展。第18版。马萨诸塞州剑桥:麻省理工学院出版社;2006.
Blei DM.概率主题模型。通信学报2012 Apr 01;55(4):77-84。［CrossRef］
主观幸福感。精神病学杂志，1984;95(3):542-575。［Medline］
刘建军，刘建军。控制错误发现率:一种实用且强大的多重测试方法。[J]中国生物医学工程学报，2003;32 (1):391 - 391 [J]免费全文] [CrossRef］
刘建军，刘建军，刘建军。抑郁症认知疗法的研究进展。纽约:吉尔福德出版社;1979.
潘尼贝克JW, Beall SK.面对创伤性事件:迈向对抑制和疾病的理解。中华精神病学杂志;2009;31(3):391 - 391。［Medline］
Spera SP, Buhrfeind ED, Pennebaker JW。表达性写作和应对失业。管理学报[J] . 1994; Jun;37(3):722-733。［CrossRef］
Mohr DC, Schueller SM, Riley WT, Brown CH, Cuijpers P, Duan N，等。干预原则的试验:行为干预技术发展的评价方法。医学互联网研究，2015;17(7):e166 [J]免费全文] [CrossRef] [Medline］
艾森巴赫G.损耗定律。医学信息学报，2005;7(1):11 [J]免费全文] [CrossRef] [Medline］
里夫CD，凯斯CL。重新审视心理健康的结构。[J]社会心理学报，1995;69(4):719-727。［Medline］
张建军，张建军，张建军，等。华威-爱丁堡心理健康量表(WEMWBS):开发和英国验证。健康及生活结局2007;5:63-76 [免费全文] [CrossRef] [Medline］

‎

LDA:潜在狄利克雷分配

个随机对照试验:随机对照试验

阶段:品味、感谢、渴望、给予和同情

G·艾森巴赫编辑;提交05.03.16;A AL-Asadi, D Meyer, M Schotanus-Dijkstra, E Yom-Tov的同行评议;对作者的评论28.03.16;收到修订版本17.05.16;接受28.07.16;发表31.08.16

©Jordan Carpenter, Patrick Crutchley, Ran D Zilca, H Andrew Schwartz, Laura K Smith, Angela M Cobb, Acacia C Parks。原发表于医学互联网研究杂志(//www.mybigtv.com)， 2016年8月31日。

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

看到“大”图景:探索互联网干预数据中使用、语言和结果之间关系的大数据方法

看到“大”图景:探索互联网干预数据中使用、语言和结果之间关系的大数据方法

原始论文

通讯作者:

摘要

关键字

介绍

方法

Happify的内容

健康评估

研究1

研究1方法

参与者

基线幸福感作为调节因素

分析策略

研究1结果

研究1讨论

研究2

研究2方法

材料

参与者

程序

文本预处理

主题建模

主题因子分析

结果变量

相关分析

研究2结果

主题

因素

研究2讨论

讨论

限制

道德:一个突出的问题

结论

致谢

利益冲突

多媒体附录1

多媒体附录2

多媒体附录3

多媒体附录4

多媒体附录5

参考文献

缩写