发表在第17卷第6期(2015):6月

原始论文

1美国马萨诸塞州波士顿哈佛医学院波士顿儿童医院

2纽约大学,美国纽约

3.默克公司,波士顿,马萨诸塞州,美国

4默克公司,西点,宾夕法尼亚州,美国

5CareMore健康系统,喜瑞都,加州,美国

*这些作者贡献相同

通讯作者:

David J McIver博士

波士顿儿童医院,哈佛医学院

朗伍德大街300号。

波士顿,马萨诸塞州,02115

美国

电话:1 902 213 9005

传真:1 617 730 7547

电子邮件:david.mciver@childrens.harvard.edu


背景:失眠等睡眠问题影响着5000多万美国人,并可能导致严重的健康问题,包括抑郁和肥胖,并可能增加受伤的风险。Twitter等社交媒体平台为研究和识别疾病和社会现象提供了令人兴奋的潜力。

摘要目的:我们的目的是确定社交媒体是否可以作为一种方法来进行专注于睡眠问题的研究。

方法:研究人员收集并整理了推特帖子,以确定用户是否表现出睡眠问题的迹象,这是基于推特中出现的几个关键词,如失眠、“睡不着”、安必恩等。推文中包含任何关键字的用户被指定为自认为有睡眠问题的用户(睡眠组)。没有自认为有睡眠问题的用户(非睡眠组)是从不包含用作睡眠问题代理的预定义单词或短语的推文中选择的。

结果:研究人员收集了推文数量、好友、关注者和位置等用户数据,以及推文的时间和日期。此外,每条推文的情绪和每个用户的平均情绪被确定,以调查不睡觉组和睡觉组之间的差异。研究发现,睡眠组的用户在推特(Twitter)上明显不那么活跃。P=.04),朋友更少(P<.001),以及较少的追随者(P<.001),在调整每个用户帐户的活动时间长度后。睡眠组的用户在正常睡眠时间比其他人更活跃,这可能表明他们有睡眠困难。睡眠组用户在推特上的情绪也明显较低(P<.001),表明睡眠和精神社会问题之间可能存在关系。

结论:我们展示了一种研究睡眠问题的新方法,可以快速、经济有效地收集可定制的数据。

中国医学网络杂志2015;17(6):e140

doi: 10.2196 / jmir.4476

关键字



2006年,美国有5000万至7000万成年人有慢性睡眠或清醒问题,这一趋势正在上升,超过35%的成年人报告睡眠不足[1].据美国人报告,最常见的睡眠问题是24小时内睡眠不足7小时、不宁腿综合征、打鼾和失眠,在许多领域进行进一步的探索可能是有益的。1].这些形式的睡眠剥夺状况与生活质量下降、白天过度嗜睡、抑郁、肥胖、心血管并发症、糖尿病、工作效率下降、危险行为几率增加、车祸风险增加等有关。2-5].睡眠受损会对健康造成严重影响;例如,美国交通部发现,从2005年到2009年的所有致命车祸中,有2.2-2.6%与疲劳驾驶有关[6].同样,抑郁症也一直是一个积极研究的领域,试图确定它在失眠和睡眠障碍中的作用,无论是在因果方向上[7-11].由于睡眠相关问题对很大一部分人的身体和心理社会都有影响,因此需要在这一领域继续进行研究。

几十年来,对睡眠问题的兴趣催生了广泛的研究和调查方法。除了由国家睡眠基金会等私人组织进行的研究和调查外,疾病控制和预防中心(CDC)通过行为风险因素监测系统(BRFSS),每年对美国非监禁人口进行调查,涉及许多类型的健康和风险因素。从2009年开始,BRFSS包含了一个专门处理睡眠问题的模块[1].虽然BRFSS收集的数据有助于我们了解睡眠障碍,但它确实存在一些局限性。BRFSS基于随机数字拨号系统,响应率可能较低。在所有拨打的电话中,40-67%的回复率虽然对于流行病学调查来说是不错的,但这意味着大部分预期人口没有被调查[1],尽管样本量和加权计算可以纠正一些这种偏差。值得注意的是,并非所有的美国州都包括在每年的调查中;因此,结果对整个美国人口的普遍性受到了负面影响。最后,由于执行调查、收集和组合数据、分析和发布所涉及的大量工作,最终的BRFSS报告非常昂贵,并且在发布时通常已经7个月了。独立研究人员对睡眠障碍进行了许多调查,但他们也往往受到其中一些限制,例如样本量小[12],成本高[13]、较长的时间框架[14],以及缺乏概括性[15].鉴于这些缺点,需要新的补充方法来调查与睡眠问题相关的流行病学因素,以提供及时的分析,通过纳入更大的样本量来获得更大的外部有效性,并且成本更低,更快速地实施和分析,并且可以根据新数据进行设计重组。

我们感兴趣的是确定有潜在睡眠问题的人与Twitter互动的方式是否可以用作识别和表征这些人的方法。近年来,人们对利用社交媒体网站(如Facebook和Twitter)产生的大量数据来收集与公共卫生有关的话题的见解产生了极大的兴趣,这些平台越来越被认为是有价值的患者信息来源[footnoterid: cn]。16-19].最近的例子包括利用社交媒体进行传染病和食源性疾病监测[20.-22]、慢性疾病监察[23]、处方药物使用[24],调查医院护理质素[25],以及许多其他[2627].研究人员更加关注人类行为和性格特征,他们使用Twitter来调查人们如何在减肥过程中使用社交媒体。28]以及与自杀相关的推特使用情况与实际事件相比如何[29].此外,越来越多的研究人员一直在社交媒体上进行情感分析的实验[30.-35].情绪可以通过几种方式来确定,其原则是将潜在的情绪信息(在推文、状态更新、照片等中)划分为积极或消极;这可以完全通过人工输入来完成,也可以通过经过训练的算法来完成这一过程,该算法基于人类分类的对象集。这个过程有助于确定人们对产品、事件、其他人等的感觉。情感分析还没有在社交媒体上用于帮助理解睡眠障碍,但它确实表现出了一种昼夜特征[30.,并为研究睡眠障碍与表现出这些特征的个体的整体情绪或态度之间的联系提供了有趣的可能性。推特用户的人口统计数据虽然不能完全代表美国人口,但随着时间的推移,已经变得越来越具有代表性。目前,23%的成年互联网用户使用Twitter,而且在迄今为止未被充分代表的人群中,如男性、白人、65岁及以上的人群,以及其他人群中,使用Twitter的人数也在增加。截至2014年底,使用Twitter的男性和女性成年网民比例分别为24%和21%,其中只有37%的人年龄在30岁以下。36].

我们感兴趣的是,在推特上发布睡眠问题的人是否比没有发布睡眠问题的人更活跃,或者他们是否有更多的朋友或粉丝。此外,我们还想知道,讨论睡眠问题的人是否在传统的睡眠时间发帖更多,这表明他们可能有睡眠困难。此外,我们对表现出潜在睡眠问题的用户与他们所发推文的情绪之间的关系感兴趣,以此作为探索睡眠问题对情绪、感觉和态度影响的一种手段。

在这项研究中,Twitter上发布的信息被用来识别那些可能表现出自我描述的与睡眠相关问题的迹象或症状的人。通过检查推文内容,将推文中包含特定睡眠相关关键词的用户与不包含这些关键词的随机人群进行比较。然后,我们研究了这些群体在Twitter上的活动是否有可观察到的差异。


概述

Twitter是一个在线微博网站,用户在这里“推”或发布的状态不超过140个字符。它在全球拥有约2.55亿月活跃用户,其中33%居住在美国[37].Twitter允许通过其应用程序编程接口(API)有条件地访问用户允许公开的数据。使用Twitter API,用户可以收集符合特定查询条件的推文,并访问元信息,包括位置(自报告和地理标记)、推文总数、“追随者”数量、朋友数量等。

在推文中提到与睡眠或睡眠问题相关的预定义关键字的Twitter用户(睡眠组)与推文中不包含预定义关键字的用户(非睡眠组)进行了比较。从2014年1月7日开始,到2014年4月30日结束,在前瞻性的基础上,根据策划推文中出现的关键词确定睡眠组推文,并在“最近的推文”的基础上进行检查和策划。也就是说,在每次筛选过程中,首先分析最近发布到Twitter上的推文。

为了构建睡眠组和非睡眠组用户的语料库,编写了访问Twitter API的代码,该API每15分钟搜索Twitter,以查找所有包含以下任何关键字的新推文:“睡不着”、“失眠”、“褪黑素”、“安必恩”、“安必恩-cr”、“唑吡坦”、“伦纳斯塔”、“Intermezzo”、“曲扎酮”、“eszopiclone”、“#teamnosleep”和“#cantsleep”(注意,“#”是Twitter标签符号,表示推文中用户识别的主题,“teamnosleep”是用户创建的标签,通常由声明自己睡不着的人使用)。通过咨询睡眠相关领域的专业研究人员,并通过实验查询Twitter数据库来调查最常用的词汇,确定了Twitter搜索词列表。通过包含与特定药物相关的关键词和标签(如唑吡坦、Intermezzo、eszopiclone),我们的目标是收集我们非常有信心与某种类型的睡眠问题有关的推文,即使收集的数量很少。相比之下,通过加入更广泛的关键词和标签(睡眠、疲劳、失眠等),我们希望收集大量的推文,但并不是所有的推文都严格相关。由于研究中包括的所有推文都是人工筛选的,所以在更通用的关键词下收集的推文的低特异性并不是问题。这不是对所有可能的搜索词的详尽搜索,而是一种探索性的方法来测试这种类型的分析的效用。

为了评估真实性并确保它们符合睡眠组的纳入标准,包含一个或多个关键字的推文由单个人(DM)手动筛选,寻找以下属性。要被纳入睡眠组推文,一条推文(以及与之相关的推文账户)(1)必须是英语语言(在用户设置中选择),(2)似乎来自美国境内,(3)由一个“普通人”拥有(即,不是公司/公司、名人或垃圾邮件账户),以及(4)不是“转发推文”(另一个用户最初发布的推文的转发)。转发被删除是因为我们只对我们收集信息的个人的经历和感受感兴趣,而不是其他人的。如果用户定义的位置设置为美国位置,或者根据用户的个人资料信息和以前的帖子的性质,该帐户似乎位于美国,则定性地确定该帐户位于美国境内。此外,还检查了推文,以确保在推文中选择的关键字在适当的上下文中使用。例如,一条写着“刚吃了我的安必恩,希望我今晚能睡得着”的推文将被接受为睡眠组用户,但推文“我的一个朋友刚开了安必恩”将不会被接受,因为它不属于发布推文的人。同样地,对于一个行为或结果是否属于写推文的人不明确的推文也不被视为睡眠组用户。例如,推文“我吃了安必恩,现在我困了”将被视为睡眠组用户,但推文“安必恩让你困了”不会被视为睡眠组用户,因为它并不表明这个人吃了安必恩或困了。他们只是在发表声明。

通过收集不包含任何预定义的感兴趣关键字的推文,构建了一个潜在的非睡眠组推文语料库。经过最初的人工筛选,以确保推文和用户使用英语,来自美国,并且是“正常”用户,如果用户在过去10天内的推文中没有包含任何预定义的感兴趣的关键词,则将其添加到非睡眠组;在转发中发现的文本不被考虑。作为一项介绍性和探索性研究,我们选择了10天作为一个天数,这个天数允许有足够的推文来为我们的目的提供足够的数据,并且在计算上和经济上都是可以实现的。

推文会自动收集,管理员会根据“最近的推文”来选择用户进入睡眠组或非睡眠组。也就是说,当管理员登录到策展工具时,最近要收集的推文就会呈现给策展。因此,如果策展人在美国东部时间上午9点策划推文,他们将处理的推文是符合搜索条件的最新发布的推文。

用户数据

与用户相关的数据是与用户的Twitter帐户相关的数据,而不是与特定的推文相关的数据。对于研究中策划和包含的每个用户,分析中包含的元数据包括推文总数、收藏次数(用户收藏其他用户的推文的次数)、粉丝总数、好友总数、用户提交的位置、帐户创建日期、用户所在的时区、自帐户创建以来每天的平均推文数(计算方法为推文总数除以帐户活跃天数)。对于这些收集到的变量中的几个,变量的计数也在用户帐户的生命周期中平均。这是通过将变量计数除以用户活跃的天数来实现的,这等于从帐户创建到标识的tweet被写入的天数。通过创建每天平均次数/动作数的数据,一些用户拥有更多的朋友、关注者或状态更新,仅仅是因为他们拥有Twitter账户的时间比其他用户长。我们还计算了每个用户的Twitter粉丝与朋友的比例,以创建一种衡量Twitter影响力或影响力的方法;高关注者:好友比例表明一个用户有很多人关注他的账号,但他自己关注的人相对较少。这通常是高影响力推特用户的一个指标[38],并被纳入以确保睡眠组和非睡眠组在这方面是平等的。

为了确保同时收集所有研究用户的用户数据,用户元数据是在所有推文被识别后收集的,而不是在推文批准时收集的。这主要是因为与非睡眠组推文相比,识别睡眠组推文所需的时间增加了。因此,本研究中提供的用户元数据和推文数据代表了截至2014年5月1日的用户帐户状态。

微博/时间轴数据

Tweet数据是与单个Tweet相关联的数据,而不是与发布该Tweet的用户相关联的数据。对于研究中包含的每条推文,分析的推文元数据包括140个字符(最多)的推文文本、创建推文的日期和时间(以Universal time Code, UTC为单位)以及推文的地理标记位置(如果可用)。

类似于分析非睡眠组用户前10天的活动来搜索关键字,收集所有用户的额外信息来调查非睡眠组用户与睡眠组用户的推文行为的总体趋势。从最初的推文被手动筛选以对用户进行分类,从用户的时间轴上收集了至少10天的以前的推文。该过程继续进行,查询Twitter API为给定用户返回200条tweet。如果返回的200条推文少于10天的推文,则重复该过程,直到收集到10天的推文,或者直到Twitter API指示用户没有更多数据可检索。

对于所有的研究用户,在一天的特定时间内发布的推文数量(编码为凌晨1:午夜5:59,凌晨2:6:11:59,下午3:12 -5:59,下午4:6 -11:59)以及它们是在一周中的哪一天创建的。分析中使用的所有推文时间都从UTC转换为用户的本地时间(基于用户的时区)。虽然用户可能设置了错误的时区,但这是极不可能的,因为这是基于他们的计算机或智能设备的时区。

情绪分析

为了确定睡眠组用户和非睡眠组用户发布的推文的情绪差异,使用了亚马逊的Mechanical Turk (AMT)平台。亚马逊的土耳其机器人(Mechanical Turk)是一款在线工具,可以利用亚马逊雇佣的众多员工的努力,快速完成大型、乏味的工作。39].在这项研究中,我们让AMT的工作人员对选定的推文进行情绪分析。这是一个流行的AMT功能,其中文本(在本例中是推文)被评为具有强烈积极、积极、中性、消极或强烈消极情绪(分别记录为2、1、0、-1、-2)。当然,评级是基于每个AMT员工自己的主观意见。对于参与研究的每个推特用户,他们的20条推文(原始的、精心策划的推文加上该用户之前的19条推文)由AMT工作人员以随机、去识别和非分类的格式进行评级。两名AMT员工,被亚马逊归类为在情绪分析领域经验丰富(Master Workers) [40,给每条推文打分。结果是在睡眠组和非睡眠组中,每条推文的平均情绪得分。由于每条推文只有两位用户打分,最终的平均情绪结果分为以下几类:积极=0.5,1.0,1.5,2.0;中性= 0;负=-0.5,-1.0,-1.5,-2.0。通过比较睡眠组和非睡眠组推文中被确定为积极、消极或中性的比例,评估了情绪差异。虽然有许多软件选项可以确定任何文本字符串(如推文)的情绪,但我们选择使用AMT,因为它涉及人工评分,这是许多自动化方法所基于的黄金标准[4142].人类能够更好地捕捉语言的用法,比如讽刺或讽刺,而计算机很难识别这些用法。此外,虽然机器可能更擅长识别积极和消极句子中的单个单词,但确定复杂句子的情感并考虑单词上下文对机器来说仍然相当困难[43].

为了确保AMT的工作人员能够可靠地评价推文情绪,我们计算了不同工作人员之间的一致性和科恩的kappa值。因为AMT可以为一个项目使用数百个个体工人,所以我们将精力集中在在评级推文情绪方面最多产的AMT工人身上,以获得至少20%的评级工作。

统计方法

为了研究睡眠组用户和非睡眠组用户之间对于高度偏态分布变量的差异,使用10,000次重复抽样的置换分析来研究中值的差异。基于比例的变量,例如用户在一周的某一天发布的推文的比例,通过双尾两组比例检验在组间进行比较,统计显著性被认为是aP≤.05。所有分析均在Stata 13中进行。

代码和数据库结构

自定义代码是用PHP(超文本预处理器)编写来访问Twitter REST API (v1.1)的,该API利用了开源OAuth库tmhOAuth。推文是通过Twitter API作为“状态对象”来访问的,它是结构化的json格式的对象,包含关于单个推文和用户的所有元数据。使用GET搜索/ Tweets请求根据关键字的存在或不存在对tweet进行搜索。使用GET状态/user_timeline请求收集用户时间线。返回的推文作为JSON格式的完整状态对象存储在亚马逊Web服务(AWS)关系数据库服务(RDS) MySQL数据库中。此外,一些tweet和user字段存储在单独的MySQL表中,以便更快地访问。随后的分析和数据清理使用PHP和Python编写的自定义脚本完成。


截至2014年5月1日,在115天内收集并存储在数据库中的睡眠组推文总数为2,820,427条。为每个关键字收集的推文数量报告在表1.由于收集的推文数量庞大,只能分析一小部分。在所有收集到的推文中,有1000个睡眠组和非睡眠组用户(N=2000)被手动筛选并批准纳入研究。在2014年5月1日收集用户帐户元数据时,有一些帐户已经无法访问(例如,切换到私人设置,删除或被Twitter禁止)。考虑到这些变化后,我们最终的数据集包括896个睡眠组用户和934个非睡眠组用户。所收集的用户元数据和推文数据的汇总统计,按用户组分类,显示在表2而且表3,分别。

表1。各种失眠或睡眠相关关键词收集的推文数量。一个
关键字 n 比例,%
# TeamNoSleep 119378年 4.23
安必恩 54420年 1.93
可以\ ' t睡眠 1533704年 54.38
Eszopiclone 151 0.01
失眠 994049年 35.24
插曲 10145年 0.36
失眠药Lunesta 3734年 0.13
褪黑激素 103674年 3.68
Trazadone 1149年 0.04
Zaleplon 23 0.00
总计 2820427年 100.00

一个这个列表中每个关键字收集的推文数量代表了每个关键字的不同形式和组合(例如,睡不着包括“睡不着”和“#cantsleep”)以及转发的推文。有些推文可能包含多个关键字。

表2。Twitter用户数据。
变量 总计 每天一个
的意思是 中位数 的意思是 中位数
活动天数n

Non-sleep集团 817 777


睡眠组 1054 993


P价值
<措施

最喜欢的,

Non-sleep集团 1909 684 4.8 1.1

睡眠组 3257 1069 6.2 1.3

P价值
<措施
追随者,n

Non-sleep集团 817 319 5.5 0.5

睡眠组 792 295 1.2 0.3

P价值
。08
<措施
朋友,n

Non-sleep集团 689 318 6.4 0.5

睡眠组 518 295 1.3 0.3

P价值
13。
<措施
追随者:朋友比

Non-sleep集团 1.44 1.01


睡眠组 1.45 0.99


P价值
0.901

状态,

Non-sleep集团 12609 5853 22 10

睡眠组 15253 7622 18 8

P价值
<措施
.04点

一个每天数据是指变量的总数除以用户帐户的活动总天数。

表3。按群组在一天中某个时间发布的推文比例。

推文按时间的比例(%)

0:00-5:59 6:00-11:59 12:00-17:59 18:00-23:59
Non-sleep集团 12.1 22.5 28.7 36.7
睡眠组 16.8 16.3 28.6 38.1
P价值 <措施 <措施 开市 <措施

睡眠组用户的Twitter账户明显比其他用户的年龄大(P<措施)。睡眠组用户的推文总数高于非睡眠组用户(P<.001),但当按自创建账户以来每天的推文数量计算时,睡眠组用户的推文数量显著减少(P= .04点)。一个用户收藏的推文总数(其他用户的推文)在睡眠组的用户中明显更高(P<.001),但当考虑到自帐户创建以来每天被收藏的推文数量时,这种关联并不显著。睡眠组的用户每天的粉丝和朋友数量都明显减少(P<措施for both).

对于推文级别的数据,在用户提交的时区数据可用的数据子集上执行了一周的日期和一天的时间数据分析。对于所有编译的时间轴推文(n=418,773), 73.5%有用户提交的时区,可以计算特定时区的日期和时间推文数据。睡眠组和非睡眠组用户有或没有用户提交的时区信息的比例有显著差异;76.8%的睡眠组用户透露了他们的时区,而只有64.0%的其他人提供了这一数据(P<措施)。

在12点至5点59分之间的推文中,睡眠组用户的推文比例较大(P<.001),以及下午6点至11:59之间(P<措施for both). Conversely, more tweets from between 6 am-11:59 am were from non-sleep group users (P<措施)。中显示了两组人每小时发布的状态的比例图1.此外,周六、周日、周一和周二提交的推文中,有很大一部分来自睡眠组用户(P<.001),而周三、周四和周五的推文更多来自非睡眠组的用户(P<措施)(图2).

AMT对情绪评分的统计分析显示,睡眠组用户(即那些被认为表现出与睡眠问题一致症状的用户)的负面推文情绪明显高于非睡眠组用户(P<.001),相反,不睡觉组的用户在他们的推文中有更积极的情绪(P<措施)。中性情绪类别的两组之间没有差异(P=。45)。为了控制发推相对不频繁和发推多的人之间可能存在的内在情绪变化,我们还将个人用户分为低推量和高推量,这是通过将整个样本人群的推文数量中位数分为两组来确定的。当进行分类时,两组之间仍然存在显著差异,不睡眠组的用户在低睡眠组和高睡眠组中都有更积极的情绪(P=。002年和P=。分别为03)和睡眠组的用户在两组中都表现出明显的负面情绪(P=。003年和P=。分别为03)。当按照每个用户的好友数量和粉丝数量进行分组时,也发现了类似的结果。

人们的情绪是通过两名不同员工的平均评分计算出来的。虽然这种方法在AMT情绪分析的文献中被广泛使用,但我们也试图确定员工之间的一致性。同意率和科恩的kappa值是为前10名最多产的员工(总共144名员工)计算的,他们总共评价了13170条推文,占所有工作的36个以上。考虑到基于随机机会的同意百分比,AMT工人同意率为65,而预期同意率为40,kappa值为0.420 (P<.001),表示适度同意[44].这些值预计会低于实际的协议水平,因为我们无法调查所有工人之间的实际协议,因为AMT工人的绝对数量,因为最多产的工人不一定是最“准确”的工人。

图1。按用户组划分的每小时发布状态的比例。
查看此图
图2。用户组每天发布状态的比例。y轴从10%开始,以更清楚地显示组间的差异。各组间差异均有统计学意义(P<.001)。
查看此图

主要研究结果

这项研究的初步证据表明,在推特上表现出睡眠问题迹象的人在社交媒体平台上的活跃程度明显低于其他用户,但他们在传统睡眠时间发推文更多,并且在他们分享的推文中表现出更多的负面情绪。

尽管在大众媒体上发现了种种猜测[4546),有某种类型的睡眠问题,正如这项研究所定义的那样,并不等同于社交媒体上的活动增加。这一结论得到了以下研究结果的支持:在我们的研究中,睡眠组用户的粉丝数量、朋友数量(关注的用户)和每天平均推文数量的中位数较低,这些都表明睡眠组用户在这个特定的社交网络上似乎不太活跃。然而,值得注意的是,从“观察”社交网络的角度来看,我们无法确定Twitter上的活跃用户有多活跃,也就是说,阅读推文并被动地跟踪其他用户,而不是实际发布自己的推文或正式关注其他用户。这有可能会扭曲结果,因为根据我们的定义,用户可能相对不活跃,但可能会以Twitter没有记录的方式更加活跃。有趣的是,虽然根据我们的定义,睡眠组的用户比非睡眠组的用户活跃程度低,但我们观察到,他们的账户明显更老(基于账户创建日期到推文识别日期),这表明有睡眠问题的用户可能比睡眠正常的用户更有可能开始使用新的社交媒体工具,即使他们不太活跃。虽然这一现象还没有经过科学调查,但有一种可能性是,用户使用社交媒体账户的时间越长,他们在社交媒体账户上的活跃度就越低,这可以解释睡眠组用户的账户寿命较长,而他们的活跃度往往低于其他人。虽然还有其他研究正在进行中,旨在更清楚地阐明这些关联,但这些有趣的发现可能会逆转社交媒体的使用方式及其用户的人口统计数据。

睡眠组用户在午夜和早上6点发布推文的比例明显更高,这一发现表明我们确定睡眠组的方法是有效的,因为这是大多数正常睡眠模式的人(在调整时区后)入睡的时间。在没有对所选用户的所有推文进行详细调查的情况下,不可能说用户在午夜到早上6点之间发推文是否真的有某种原因(可能是用户上夜班或有其他原因在这段时间保持清醒),但两组之间差异的显著性表明,用来区分睡眠组和非睡眠组用户的方法是有效的。

这项研究也为患有失眠和类似睡眠障碍的人可能会增加心理问题的风险这一论点提供了介绍性证据。值得注意的是,之前在心理学和数据挖掘领域的研究已经成功地利用自动化工具将在线社交媒体使用、负面情绪和抑郁症定量联系起来[47-50].特别是,早期的一项研究还发现,在推特上发布失眠信息的用户与这些用户的负面情绪之间存在着显著的关系[51].根据AMT情绪分析结果,我们发现,被认为有睡眠问题的推特用户在推特上的情绪表现明显较低,这表明这一群体可能正在经历某种类型的心理社会障碍。有趣的是,这一发现得到了睡眠组用户比其他用户有更少的朋友、更少的粉丝和更少的互动的支持,这表明这个组的在线社交互动在一定程度上减少了。虽然这种联系是一个有趣的发现,但它是初步的,不是结论性的,还有很多问题需要回答。然而,这些结果为更深入地调查睡眠问题、心理问题和社交媒体使用之间的联系提供了一个很好的起点,并值得进行更集中的研究。要进一步研究这些结果,一个合乎逻辑的步骤是评估个人在“现实生活”中的社交动态与在线社交媒体生活中的社交动态是否相似,或者这两个领域是否存在显著差异。

考虑到这项研究的性质,有必要简要讨论一下使用Twitter数据对睡眠障碍进行研究的伦理、法律和社会影响,这些研究与心理社会问题有潜在的联系。不同于其他社交网站,Twitter是一个微博,其唯一目的是允许任何人在没有事先批准的情况下查看内容。Twitter使用的隐私政策表明,用户同意收集、传输、操作、存储和披露公开数据,而每个用户都有能力更改自己帐户的隐私设置。这项研究只分析了完全公开的推文(即用户没有选择隐私设置)。因此,用户对隐私没有任何期望。公共Twitter数据被认为与其他现有的公共数据源一致,由于数据只是被动地汇总分析,这种类型的研究通常被认为不受人工研究的保护。然而,积极的数据收集(例如,直接与用户互动)引起了合理的伦理、社会和法律问题,应以适当的谨慎和机构审查委员会的监督进行。

限制

虽然上述结果表明,对这一领域的进一步研究是有必要的,但它们也必须根据几个潜在的限制加以考虑和解释。最重要的是,由于这项研究的横断面性质,无法确定社交媒体使用、睡眠问题和心理社会调查结果之间的显著关系。此外,还有一些关于非睡眠组和睡眠组推文管理的方法,在进行未来项目时可能值得修改。在策展过程中,策展人会看到推文,以确定推文是否与任何与睡眠有关的障碍有关。候选推文按照推文创建的顺序呈现给策展人,最近发布的推文出现在其他推文之前。这种方法不是最优的,因为策展人阅读的推文依赖于策展发生的时间。也就是说,策展人正在处理的推文列表可能与策展人在上午9点工作时看到的推文列表不同,而不是在晚上9点工作时看到的推文列表。为了避免这种潜在的偏差,未来的分析将涉及从数据库中存储的随机选择的推文中进行策展(从而随机化每条推文的时间和日期)。虽然这里使用的方法可能会对所选择的用户产生潜在的偏见,但它们不应该影响对推文级别数据执行的分析,因为这些分析考虑了所有用户的推文,因此确定属于睡眠组或非睡眠组的推文的时间无关紧要。

额外的信息将有助于控制Twitter用户的内在差异。例如,不同年龄、性别或种族的用户使用Twitter的情况可能不同。在未来的研究中,收集这些信息以试图控制这些因素将是有利的。这可以通过设计用于估计这些变量的算法来实现,也可以通过在更具互动性的研究中对参与者进行调查,或者在用户出现自我描述的睡眠问题之前/之后跟踪一大子集用户来实现。此外,用户时区信息(与tweet时间一起使用(以UTC记录)来计算创建tweet的时间)是用户提交的变量,因此可能存在数据不准确的问题。虽然没有研究调查准确识别的位置字段的比例,但我们怀疑用户极有可能会适当地选择他们的时区(这是自愿的)。但是,用户可能会指示错误的时区。

非睡眠组用户的定义是,该用户在过去10天的推文中没有预定义的关键字。如上所述,选择这个时间长度是为了在计算上和财务上都是可以实现的,同时仍然可以获得所需的数据量。在未来的研究中,我们打算增加用户推文中必须不包含这些预定义关键字的时间长度,以便将其纳入非睡眠组。根据可用数据的数量和质量以及所涉及的假设类型,这可能需要调查数月、数年,甚至用户的整个推文时间轴,以便指定群组状态。这也将允许我们分析和控制用户帐户历史中的特定时间段(例如,帐户创建后的前几个月)。此外,我们可能想进一步描述睡眠组人群的特征,以确定发布“无法入睡”的用户是否与发布“褪黑素”或药物的用户不同。这种细粒度的特征可能会导致多个睡眠组,应该独立分析。

虽然在这项研究中收集的信息是有趣的,并采取谨慎措施以确保其有效性,但这种类型的数据是观察性的,因此不能假设因果关系。我们发现,不睡觉的人与被我们归类为有某种睡眠问题的人之间存在显著差异;然而,我们不能确定那些符合我们定义的人是否真的有睡眠问题。这是我们希望在进一步研究中解决的一个重要因素,可能是通过直接与用户互动来帮助确认我们的分类方法。然而,这种方法会引起伦理、社会和法律方面的担忧(如上所述),需要谨慎地实施。

我们也认识到,用户之间可能存在固有的差异,这些差异可以反映在他们的朋友数量、关注者、状态更新频率、位置和其他我们没有考虑到的指标上。在未来的工作中,我们的目标是通过长期跟踪大量用户(在自我描述睡眠问题之前和之后)或使用匹配技术来更可靠地比较组来控制这一点。

尽管存在局限性,但这项研究和其他专注于使用社交媒体应用程序解决公共健康问题的研究表明,这种类型的研究可以为传统方法添加有意义的解释。值得注意的是,虽然我们看到了这些新方法的巨大前景,但它们被设想和设计为与更传统的、高度验证的方法(如BRFSS)一起使用。收集和分析公共卫生信息和关系的传统方法和新兴方法都有其优点和缺点。我们希望通过结合这两种类型的研究,我们可以更全面和准确地了解人口的健康状况。

结论

这是首次积极调查社交媒体使用和睡眠问题之间关系的研究之一。研究发现,与没有睡眠问题(基于我们的标准)的用户相比,有明显睡眠问题的人平均在Twitter上不太活跃,而且往往在周末和工作日早期最活跃。此外,我们发现,与其他人相比,有睡眠问题的用户在他们发布的推特中有更多的负面情绪,这可能表明,通过社交媒体被确定为有睡眠问题的人有更大的心理问题风险。虽然我们的发现是初步的,但它们值得进一步调查,并开始提供证据来反驳社交媒体导致失眠和其他常见睡眠障碍的流行观点。此外,我们目前的发现为扩大使用社交媒体调查与睡眠相关问题相关的其他健康结果提供了希望。

致谢

本研究部分由默克公司和NLM (T15LM007092)资助。作者要感谢加州大学圣地亚哥分校的詹姆斯·福勒博士,感谢他的有益对话和建议。

利益冲突

AC, AM, TF和SJ是默克公司的员工。

  1. 发病率和死亡率周报。疾病控制和预防中心;2011年3月4日。与睡眠相关的不健康行为——12个州,2009http://www.cdc.gov/mmwr/preview/mmwrhtml/mm6008a2.htm[访问2015-06-01][WebCite缓存
  2. 刘颖,克罗夫特JB,惠顿AG,佩里GS,查普曼DP,斯特林TW,等。在美国成年人中,睡眠不足、频繁的精神困扰、肥胖和慢性疾病之间的关系,2009年行为风险因素监测系统。BMC Public Health 2013;13:84 [免费全文] [CrossRef] [Medline
  3. Chapman DP, Presley-Cantrell LR, Liu Y, Perry GS, Wheaton AG, Croft JB。2010年,美国20个州的社区居民经常睡眠不足、焦虑和抑郁。精神病学杂志2013年4月1日;64(4):385-387。[CrossRef] [Medline
  4. 疾病控制和预防中心。疲劳驾驶——19个州和哥伦比亚特区,2009-2010年。MMWR Morb Mortal Wkly Rep 2013年1月4日;61(51-52):1033-1037 [免费全文] [Medline
  5. 发病率和死亡率周报。美国:疾病控制和预防中心;2012年4月27日上班族睡眠时间短——美国,2010年http://www.cdc.gov/mmwr/preview/mmwrhtml/mm6116a2.htm[访问2015-06-01][WebCite缓存
  6. 美国交通部。华盛顿特区:国家公路交通安全管理局;2011年3月交通安全事实-疲劳驾驶网址:http://www-nrd.nhtsa.dot.gov/pubs/811449.pdf[访问2015-06-01][WebCite缓存
  7. Benca RM, Peterson MJ。失眠和抑郁。睡眠医学2008;9:S3-S9。
  8. 泰勒DJ。失眠和抑郁。睡眠2008年4月31日(4):447-448 [免费全文] [Medline
  9. 原发性失眠:发展为抑郁症的危险因素?《情感失调》杂志,2003;29(3):344 - 344。
  10. 白天嗜睡和失眠与抑郁症相关。临床精神病学杂志2004;65(增刊16):27-32。
  11. Buysse DJ, Angst J, Gamma A, Ajdacic V, Eich D, Rössler w青年人失眠和抑郁症的患病率、病程和共病。睡眠2008年4月31日(4):473-480 [免费全文] [Medline
  12. 格莱德韦尔RN,瑞恩BN,罗比E,奥尔WC。阻塞性睡眠呼吸暂停患者在PAP治疗前后失眠症状的预测因素和模式睡眠医学2014年8月15日(8):899-905。[CrossRef] [Medline
  13. 疾病控制和预防中心。CDC - FMO -预算信息网址:http://www.cdc.gov/fmo/topic/Budget[访问2015-05-31][WebCite缓存
  14. Sivertsen B, Pallesen S, Glozier N, Bjorvatn B, Salo P, Tell GS,等。中年失眠和随后的死亡率:Hordaland健康研究。BMC Public Health 2014; 14:20 20 [免费全文] [CrossRef] [Medline
  15. 失眠症状频率与高血压风险:一项基于人群的研究。中华临床精神病学杂志2014年6月;75(6):616-623。[CrossRef] [Medline
  16. 社会媒体与患者健康结果的关系。来自2014年年鉴消费者健康信息学部分的发现。Yearb Med Inform 2014;9(1):195-198 [免费全文] [CrossRef] [Medline
  17. 社交媒体“喜欢”医疗保健:从营销到社会业务。网址:普华永道会计师事务所http://www.pwc.com/us/en/health-industries/publications/health-care-social-media.jhtml[访问2015-05-31][WebCite缓存
  18. Moorhead SA, Hazlett DE, Harrison L, Carroll JK, Irwin A, Hoving C.医疗保健的新维度:社交媒体对健康传播的用途、好处和局限性的系统回顾。J medical Internet Res 2013年4月23日;15(4):e85 [免费全文
  19. 信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架,用于分析互联网上的搜索、传播和发布行为。中国医学杂志,2009;11(1):e11 [免费全文] [CrossRef] [Medline
  20. Aramaki E, Maskawa S, Morita M. Twitter捕捉流感:使用Twitter检测流感流行。美国宾夕法尼亚州斯特劳茨堡。美国:计算语言学协会;2011.URL:http://dl.acm.org/citation.cfm?id=2145432.2145600[访问2015-06-01][WebCite缓存
  21. 丘纳拉R,安德鲁斯JR,布朗斯坦JS。社会媒体和新闻媒体能够在2010年海地霍乱爆发早期估计流行病学模式。中国热带医学杂志2012年1月;86(1):39-45 [免费全文] [CrossRef] [Medline
  22. Nsoesie EO, Buckeridge DL, Brownstein JS。猜猜谁不来吃晚饭了?为疾病监测评估在线餐厅预订。中国医学杂志,2014;16(1):e22 [免费全文] [CrossRef] [Medline
  23. 朱娜娜,鲍顿,艾尔斯JW,布朗斯坦JS。评估在线社会环境以监测肥胖流行。公共科学学报,2013;26 (4):379 - 379 [免费全文] [CrossRef] [Medline
  24. Hanson CL, Cannon B, Burton S, girau - carrier C.通过Twitter探索社交圈和处方药滥用。中国医学杂志,2013;15(9):e189 [免费全文] [CrossRef] [Medline
  25. 李志强,李志强,李志强,等。关于医院质量的推文:一项混合方法研究。BMJ Qual Saf 2014 10月;23(10):838-846 [免费全文] [CrossRef] [Medline
  26. Paul MJ, Dredze M.使用主题模型在社交媒体中发现健康主题。PLoS One 2014;9(8):e103408 [免费全文] [CrossRef] [Medline
  27. Paul MJ, Dredze M.第五届国际AAAI博客和社交媒体会议论文集。You Are What You Tweet:分析Twitter对公共卫生的影响https://www.aaai.org/ocs/index.php/ICWSM/ICWSM11/paper/view/2880[访问2015-06-01][WebCite缓存
  28. Pagoto S, Schneider KL, Evans M, Waring ME, Appelhans B, Busch AM。发推特:成年人发推特讲述减肥尝试的特点。J Am Med Inform association Internet 2014年6月13:1032-1037 [免费全文
  29. 与自杀相关的Twitter使用与自杀行为的关联:日本年轻互联网用户的横断面研究。《情感失调》2015年1月1日;[CrossRef] [Medline
  30. Golder SA, Macy MW。在不同的文化中,白天和季节的情绪随着工作、睡眠和白天长度的变化而变化。科学2011 9月30日;333(6051):1878-1881 [免费全文] [CrossRef] [Medline
  31. 柯维罗,孙Y,克雷默ADI,马洛C, Franceschetti M, Christakis NA,等。在庞大的社交网络中检测情绪传染。公共科学学报,2014;29 (3):e90315 [免费全文] [CrossRef] [Medline
  32. Asur S, Huberman BA。用社交媒体预测未来。2010年8月31日发表于:Ieeewicacm Int Conf Web Intell Intell Agent Technol;2010;多伦多,第492-499页。
  33. 情感分析:为非结构化文本数据提供分类洞察。在:社交媒体,社会性和调查研究。霍博肯,新泽西州:社会媒体社会调查Res互联网约翰威利父子公司;2013年9月30日:c2。
  34. Ceron A, Curini L, Iacus SM, Porro g,每条推特都算数?社交媒体的情感分析如何提高我们对意大利和法国公民政治偏好的认识。新媒体Soc 2014 Feb 18:0466。
  35. 观点挖掘与情感分析。发现趋势Inf Retr 2008年1月;2(1-2):1-135。
  36. 杜根M,埃里森NB,兰佩C,伦哈特A,马登M.皮尤研究中心2015年1月9日。主要社交网络平台的人口统计数据http://www.pewinternet.org/2015/01/09/demographics-of-key-social-networking-platforms-2/[访问2015-06-01][WebCite缓存
  37. 推特2015年3月1日关于Twitter网址:https://about.twitter.com/company[访问2015-06-01][WebCite缓存
  38. 比贡尼亚CAS,卡多索TNC,莫罗MM,阿尔梅达VAF,冈卡尔斯MA。在Twitter上发现福音传播者和诋毁者。在:巴西多媒体与网络研讨会。2010年发表于:多媒体与网络研讨会(WebMedia);2010;巴西p. 107-114网址:http://homepages.dcc.ufmg.br/~mirella/pdf/Bigonha-Webmedia10.pdf
  39. Peer E, Vosgerau J, Acquisti a .声誉是亚马逊Mechanical Turk数据质量的充分条件。行为研究方法2014年12月;46(4):1023-1031。[CrossRef] [Medline
  40. Barr J. Aws离开博客。获得更好的结果与亚马逊机械土耳其大师网址:https://aws.amazon.com/blogs/aws/amazon-mechanical-turk-master-workers/[访问2015-06-01][WebCite缓存
  41. Annett M, Kondrak G.情感分析技术的比较:极化电影博客。2006年7月26日发表于:第二十一届加拿大人工智能会议;2008;加拿大第25-35页。
  42. 张晓明,张晓明,张晓明。观点挖掘与情感分析的新方法。Ieee Intell Syst 2013 3月28日(2):15-21。
  43. Pang B, Lee L, Vaithyanathan S.赞?:使用机器学习技术进行情感分类。在:2002年自然语言处理经验方法的ACL-02会议论文集。美国:计算语言学协会;2002年发表于:自然语言处理的经验方法会议;2002;斯特劳兹堡,宾夕法尼亚州,第78-86页。[CrossRef
  44. Dohoo I, Martin W, Stryhn H.流行病学研究方法。第1版,夏洛特敦,体育。加拿大:VER公司;2012.
  45. 健康网站2014年4月14日2014年世界睡眠日:社交媒体会让你失眠吗?URL:http://www.thehealthsite.com/news/world-sleep-day-2014-can-social-media-give-you-insomnia/[访问2015-06-01][WebCite缓存
  46. insomnicacs。失眠创新。社交媒体是如何影响睡眠模式的?URL:https://insomniainnovation.wordpress.com/2013/04/26/how-does-social-media-as-a-technology-affect-sleeping-patterns/[访问2015-06-01][WebCite缓存
  47. 王旭,张超,季勇,孙玲,吴玲,鲍哲。基于情感分析的微博社交网络抑郁检测模型。见:李娟,曹璐,谭kc,刘波,裴杰,编辑。知识发现与数据挖掘的发展趋势与应用。柏林海德堡:施普林格;2013.
  48. 张晓明,陈晓明。网络社交网络对用户抑郁情绪的影响。2012。URL:http://wan.poly.edu/KDD2012/forms/workshop/HI-KDD12/doc/paper_16.pdf[访问2015-06-01][WebCite缓存
  49. DeChoudhury M, Counts S, Horvitz E.社交媒体作为人群抑郁症的测量工具。In: Proc 5th Annu Acm Web Sci Conf. USA: Acm;2013年5月23日发表于:第五届ACM Web科学年会;2015年5月2-4日;巴黎,法国。[CrossRef
  50. DeChoudhury M, Counts S, Horvitz E, Gamon M.通过社交媒体预测抑郁症。人工智能促进会2013:1-1。
  51. Jamison-Powell S, Linehan C, Daley L, Garbett A, Lawson S.“我睡不着”:在Twitter上讨论#失眠。美国:ACM;2012年应邀参加SIGCHI计算机系统人为因素会议;2012;纽约,纽约,1501-1510页。[CrossRef


AMT:亚马逊土耳其机器人
BRFSS:行为风险因素监测系统
UTC:世界时码


G·艾森巴赫(G Eysenbach)编辑;提交27.03.15;同行评议:F Timimi, YS Bin, C Hanson;对作者21.04.15的评论;修订本收到29.04.15;接受24.05.15;发表08.06.15

版权

©David J McIver, Jared B Hawkins, Rumi Chunara, Arnaub K Chatterjee, Aman Bhandari, Timothy P Fitzgerald, Sachin H Jain, John S Brownstein。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2015年8月6日。

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map