卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医学网络杂志

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析JMIR出版公司

加拿大多伦多

v17i6e140

26054530

10.2196 / jmir.4476

原始论文

使用Twitter描述睡眠问题

Eysenbach

冈瑟

Timimi

法里斯

箱子

于太阳

汉森

卡尔

McIver

大卫J

博士学位 1

波士顿儿童医院，哈佛医学院

朗伍德大街300号。

马萨诸塞州波士顿，邮编02115

美国 1 902 213 9005 1 617 730 7547 david.mciver@childrens.harvard.edu

http://orcid.org/0000-0002-9507-1674

霍金斯

Jared B

MMSc博士 1

http://orcid.org/0000-0002-6352-1618

Chunara

鲁米

博士学位 1 2

http://orcid.org/0000-0002-5346-7259

Chatterjee

Arnaub K

尼古拉斯,MPA 3.

http://orcid.org/0000-0001-9695-5829

班达里

阿曼

英里每小时,博士 3.

http://orcid.org/0000-0003-2121-828X

菲茨杰拉德

蒂莫西·P

博士学位 4

http://orcid.org/0000-0001-5223-3883

耆那教徒的

Sachin H。

医学博士 5

http://orcid.org/0000-0003-1761-6322

布朗斯坦

约翰年代

博士学位 1

http://orcid.org/0000-0001-8568-5317

¹ 波士顿儿童医院，哈佛医学院

波士顿

美国 ² 纽约大学

纽约，纽约

美国 ^3. 默克公司

波士顿

美国 ⁴ 默克公司

西点军校，宾夕法尼亚州

美国 ⁵ CareMore健康系统

喜瑞,

美国

通讯作者:David J McIver david.mciver@childrens.harvard.edu

06 2015

08 06 2015

17 6

e140

27 03 2015 21 04 2015 29 04 2015 24 05 2015

©David J McIver, Jared B Hawkins, Rumi Chunara, Arnaub K Chatterjee, Aman Bhandari, Timothy P Fitzgerald, Sachin H Jain, John S Brownstein。最初发表于《医学互联网研究杂志》(//www.mybigtv.com)， 2015年6月8日。

2015

这是一篇开放获取的文章，根据创作共用署名许可协议(http://creativecommons.org/licenses/by/2.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物链接，以及版权和许可信息。

背景

失眠等睡眠问题影响着超过5000万美国人，并可能导致严重的健康问题，包括抑郁和肥胖，还可能增加受伤的风险。像Twitter这样的社交媒体平台在研究和识别疾病和社会现象方面提供了令人兴奋的潜力。

客观的

我们的目的是确定社交媒体是否可以作为一种方法来进行关注睡眠问题的研究。

方法

Twitter帖子被收集和整理，以确定用户是否表现出睡眠问题的迹象，根据推文中出现的几个关键词，如失眠、“睡不着”、安必恩等。推文中包含任何关键词的用户被指定为有自我识别的睡眠问题(睡眠组)。没有自认有睡眠问题的用户(非睡眠组)是从不包含用于代表睡眠问题的预定义单词或短语的推特中选择的。

结果

收集了推文数量、好友、关注者、位置等用户数据，以及推文的时间和日期。此外，我们还确定了每条推文的情绪和每个用户的平均情绪，以调查不睡觉组和睡觉组之间的差异。研究发现，睡眠组的用户在Twitter上的活跃度明显较低( P= 0.04)，朋友更少( P<.001)和更少的追随者( P<.001)，在调整了每个用户的帐户已激活的时间长度之后。睡眠组的用户在正常睡眠时间比其他人更活跃，这可能表明他们有睡眠困难。睡眠组的用户在推特上的情绪也明显较低( P<.001)，表明睡眠和心理社会问题之间可能存在关系。

结论

我们已经展示了一种研究睡眠问题的新方法，它可以快速、经济、可定制地收集数据。

睡眠问题社交媒体失眠新颖的方法情绪抑郁症

简介

2006年，美国有5000万至7000万成年人存在慢性睡眠或清醒问题，这一趋势正在增加，超过35%的成年人报告睡眠不足[ 1］．美国人报告的最常见的睡眠问题是24小时内睡眠不足7小时、不宁腿综合征、打鼾和失眠，有很多领域可以进一步探索。 1］．这些形式的睡眠剥夺状况与生活质量下降、白天过度嗜睡、抑郁、肥胖、心血管并发症、糖尿病、生产力下降、冒险行为几率增加、车祸风险增加等有关。 2- 5］．睡眠不足会对健康造成严重影响;例如，美国交通部发现，从2005年到2009年，所有致命的车祸中，有2.2-2.6%与嗜睡驾驶有关[ 6］．此外，抑郁症一直是一个积极的研究领域，试图确定它在失眠和睡眠障碍中的作用，无论是从哪个因果方向[ 7- 11］．由于睡眠相关问题对很大一部分人口的身体和心理社会的影响，需要在这一领域继续进行研究。

几十年来，对睡眠问题的兴趣产生了广泛的研究和调查方法。除了美国国家睡眠基金会等私人组织进行的研究和调查外，美国疾病控制和预防中心(CDC)通过行为风险因素监测系统(BRFSS)，每年对美国非监禁人口进行调查，涉及多种类型的健康和风险因素。从2009年开始，BRFSS已经包含了一个专门处理睡眠问题的模块[ 1］．尽管BRFSS收集的数据对我们理解睡眠障碍很有帮助，但它也存在一些局限性。BRFSS基于随机数字拨号系统，响应速率可能很低。在所有拨打的电话中，回复率在40-67%之间，虽然对于流行病学调查来说是不错的，但这意味着大部分预期人群没有得到调查[ 1，尽管样本量和权重计算可以纠正一些这种偏差。值得注意的是，并非美国所有的州都被包括在每年的调查中;因此，结果对整个美国人口的普遍性受到了负面影响。最后，由于执行调查、收集和组合数据、分析和发布所涉及的工作量很大，因此BRFSS报告的成本很高，通常到发布时已有7个月之久。独立研究人员对睡眠障碍进行了许多调查，但它们也往往受到一些限制，如样本量小[ 12，成本高[ 13]，较长的时间范围[ 14]，以及缺乏通用性[ 15］．鉴于这些缺点，我们需要新的补充方法来调查与睡眠问题相关的流行病学因素，以提供及时的分析，通过纳入更大的样本量，具有更大的外部有效性，成本更低，更快地实施和分析，并允许基于新数据的设计重组。

我们感兴趣的是，有潜在睡眠问题的人与Twitter互动的方式，是否可以用作识别和描述这些人的一种方法。近年来，人们对利用Facebook和Twitter等社交媒体网站产生的大量数据非常感兴趣，试图收集对公共卫生感兴趣的主题的见解，这些平台越来越被认为是有价值的患者信息来源[ 16- 19］．最近的例子包括利用社交媒体进行传染病和食源性疾病监测[ 20.- 22]、慢性疾病监测[ 23]、处方药物使用[ 24，调查医院护理质量[ 25，以及许多其他的[ 26， 27］．研究人员更关注人类的行为和特征，他们使用推特来调查人们在减肥过程中如何使用社交媒体。 28以及与自杀相关的推特使用与实际事件的比较[ 29］．此外，越来越多的研究人员已经在社交媒体上尝试情感分析[ 30.- 35］．情绪可以通过多种方式确定，其原则是将潜在的情绪信息(在推特、状态更新、照片等中)划分为积极或消极;这可以完全通过人工输入来完成，也可以通过训练过的算法来完成基于人类分类对象集的这一过程。这个过程对于确定人们对产品、事件、他人等的感受很有用。情感分析尚未在社交媒体上应用，以帮助理解睡眠障碍，但它确实表现出了一种昼夜特征。 30.这为研究睡眠障碍与表现出这些特征的个体的整体情绪或态度之间的联系提供了有趣的可能性。Twitter用户的人口统计数据虽然不能完全代表美国人口，但随着时间的推移已经变得更具代表性。目前，23%的成年互联网用户使用Twitter，而且在迄今为止未被充分代表的人群中，如男性、白人、65岁及以上的人等，使用Twitter的人数也在增加。截至2014年底，使用Twitter的成年男性和女性分别占24%和21%，而这一群体中只有37%的人在30岁以下[ 36］．

我们很想知道在Twitter上发布睡眠问题帖子的人是否比没有的人更活跃，或者他们是否有更多的朋友或关注者。此外，我们还想知道，讨论睡眠问题的人是否在传统的睡眠时间发帖更多，这是否表明他们可能有睡眠困难。此外，我们还对表现出潜在睡眠问题的用户与他们所发推文的情绪之间的关系感兴趣，以此作为探索睡眠问题对情绪、感觉和态度的影响的一种手段。

在这项研究中，发布在推特上的信息被用来识别那些可能表现出自我描述的睡眠相关问题的迹象或症状的人。通过检查推文的内容，将推文中包含特定睡眠相关关键词的用户与不包含这些关键词的随机人群进行比较。然后，我们研究了这些群体在Twitter上的活动是否存在可观察到的差异。

方法概述

Twitter是一个在线微博网站，用户在这里发布的状态不超过140个字符。它在全球拥有约2.55亿的月活跃用户，其中33%居住在美国[ 37］．Twitter允许通过其应用程序编程接口(API)有条件地访问这些丰富的信息，以获取用户允许公开的数据。使用Twitter API，用户可以收集符合特定查询条件的推文，并访问元信息，包括位置(自我报告和地理标记)、推文总数、“追随者”数量、好友数量等。

在推特中提到与睡眠或睡眠问题相关的预定义关键词的推特用户(睡眠组)与推特中不包含预定义关键词的推特用户(非睡眠组)进行比较。从2014年1月7日开始，到2014年4月30日结束，睡眠组推文是根据推文中出现的关键词进行识别的，并以“最近的推文”为基础进行检查和管理。也就是说，在每次筛选过程中，首先分析最近发布到Twitter上的推文。

为了构建睡眠组和非睡眠组用户的语料库，编写了访问Twitter API的代码，该API每15分钟搜索Twitter，查找包含以下任何关键字的所有新tweet:“睡不着”、“失眠”、“褪黑素”、“安必恩”、“安必恩-cr”、“唑吡坦”、“鲁妮斯塔”、“Intermezzo”、“曲扎酮”、“eszopiclone”、“#团队睡眠”和“#睡不着”(注意，“#”是推特标签的符号，表示推特中用户识别的主题，而“团队睡眠”是用户创建的标签，经常被那些宣称自己睡不着的人使用)。通过咨询睡眠相关研究领域的专家，以及实验性地查询Twitter数据库，研究哪些词汇最常被使用，Twitter搜索词列表得以确定。通过包含与特定药物相关的关键词和标签(如唑吡坦、Intermezzo、eszopiclone)，我们旨在收集我们非常确信与某种睡眠问题相关的推文，即使收集到的数量很少。相比之下，通过包含更广泛的关键词和标签(睡眠、疲劳、失眠等)，我们希望收集大量的推文，但并不是所有的推文都严格相关。由于研究中包含的所有推文都是人工筛选的，在更通用的关键词下收集的推文的低特异性不是问题。这并不是对所有可能的搜索词进行详尽的搜索，而是一种探索性的方法，以测试这种类型的分析的效用。

为了评估真实性并确保它们符合睡眠组的纳入标准，包含一个或多个这些关键字的推文由一个人(DM)手动筛选，寻找以下属性。要被纳入睡眠组推文，一条推文(以及与之相关的推特账户)(1)必须是英文的(在用户设置中选择)，(2)似乎来自美国境内，(3)属于一个“普通”人(即，不是公司/公司、名人或垃圾邮件账户)，(4)不是“转发推文”(转发最初由不同用户发布的推文)。转发被删除是因为我们只对我们收集信息的个人的经历和感受感兴趣，而对其他人的感受不感兴趣。如果用户定义的位置设置为美国位置，或者根据用户的个人资料信息和以前的帖子的性质，该帐户似乎位于美国，则定性地确定Twitter帐户位于美国境内。此外，还对推文进行了检查，以确保在推文中选择的关键字被用于适当的上下文中。例如，一条写着“刚刚吃了安必恩，希望我今晚能睡得着”的推特会被接受为睡眠群用户，但“我的一个朋友刚刚得到了安必恩的处方”的推特不会被接受，因为它不属于发布推特的人。类似地，对于一个行为或结果是否与写推文的人有关的推文不明确，也不会被视为睡眠组用户。例如，“我吃了安必恩，现在我困了”的推特会被视为睡眠组用户，但“安必恩让你困了”的推特不会被视为睡眠组用户，因为它并不表明这个人吃了安必恩或困了。他们只是在发表一种声明。

通过收集不包含任何预定义关键字的推文，构建了一个潜在的非睡眠组推文的语料库。经过最初的人工筛选，以确保推文和用户是英文的，来自美国，并且是“正常”用户，如果用户在过去10天内的推文中没有包含任何预定义的感兴趣的关键字，则将其添加到非睡眠组;在转发中发现的文本没有被考虑在内。作为一项介绍性和探索性研究，我们选择了10天作为一个天数，这个天数将允许有足够的tweet来为我们的目的提供足够的数据，并且在计算和财务上都是可行的。

推文会在持续的基础上自动收集，管理员会根据“最近的推文”来选择用户进入睡眠组或非睡眠组。也就是说，当策展人登录到策展工具时，最近要收集的tweet就会呈现出来供策展。因此，如果管理员在美国东部时间上午9点管理推文，那么他们将处理符合搜索标准的最近发布的推文。

用户数据

与用户相关的数据是与用户的Twitter帐户相关的数据，而不是与特定的tweet相关的数据。对于被纳入研究的每个用户，分析中包含的元数据包括推文总数、收藏数(该用户收藏其他用户发布的推文的次数)、关注者总数、好友总数、用户提交的位置、帐户创建日期、用户所在的时区、帐户创建以来每天平均推文数(计算方法为推文总数除以帐户活跃天数)。对于这些收集的变量中的几个，变量的计数在用户帐户的生命周期中也是平均的。这是通过将变量count除以用户活跃的天数来实现的，该天数等于从创建帐户到指定的tweet被写入的天数。通过创建每天平均次数/动作数的数据，一些用户拥有更多的朋友、关注者或状态更新，仅仅是因为他们拥有的Twitter账号比其他一些用户更长。我们还计算了每个用户在Twitter上的关注者与朋友的比例，以创建一种衡量Twitter影响力的方法;较高的关注者:朋友比率表明用户有很多人关注他们的账号，但他们自己关注的人相对较少。这通常是高影响力推特用户的一个指标[ 38]，以确保睡眠组和不睡眠组在这方面是平等的。

为了确保同时收集所有研究用户的用户数据，用户元数据是在所有推文被识别后收集的，而不是在推文被批准时收集的。这主要是因为与非睡眠组的推文相比，识别睡眠组的推文需要更多的时间。因此，本研究中呈现的用户元数据和tweet数据代表了用户账户截至2014年5月1日的状态。

微博/时间轴数据

Tweet数据是与单个Tweet相关的数据，而不是与发布Tweet的用户相关的数据。对于研究中包含的每条推文，分析的推文元数据包括140个字符(最大)的推文文本、推文创建的日期和时间(用通用时间编码，UTC)和推文的地理标记位置(如果可用)。

类似于分析非睡眠组用户前10天的活动来搜索关键字，收集所有用户的附加信息来调查非睡眠组用户与睡眠组用户的推文行为的总体趋势。从人工筛选的原始推文中，从用户的时间轴中收集至少10天以前的推文。该过程继续进行，以便查询Twitter API为给定用户返回200条tweet。如果返回的200条推文少于10天的推文，则重复此过程，直到收集到10天的推文，或者直到Twitter API表明用户没有更多的数据可检索。

对于所有的研究用户，在一天的特定时间(编码为1:午夜5点59分，2:6点-11点59分，3:12点-5点59分，4:6点-11点59分)发布的推文数量以及它们是在一周中的哪一天创建的都是确定的。在此分析中使用的所有tweet时间都从UTC转换为用户的本地时间(基于用户的时区)。虽然用户可能设置了错误的时区，但这是极不可能的，因为这是基于他们的计算机或智能设备的时区。

情绪分析

为了确定睡眠组用户和非睡眠组用户发布推文的情绪差异，使用了亚马逊的土耳其机械(Mechanical Turk, AMT)平台。亚马逊的土耳其机械(Mechanical Turk)是一款在线工具，它可以利用亚马逊雇佣的众多员工的努力，让大型、繁琐的工作快速完成。 39］．在这项研究中，我们让AMT的工作人员对选定的推文进行情绪分析。这是一个流行的AMT特性，其中文本(在这里是tweet)被评为具有强烈积极、积极、中性、消极或强烈消极情绪(分别记录为2、1、0、-1、-2)。评级当然是基于每个AMT工人自己的主观意见。对于每一个参与研究的推特用户，他们的20条推文(原始的、经过整理的推文加上用户之前的19条推文)由AMT工作人员以一种随机的、去识别的、非分类的格式进行评级。两名AMT员工，被亚马逊归类为情绪分析领域经验丰富(Master Workers) [ 40，给每条推文打分。结果是每条推文的平均情绪得分，包括睡眠组和非睡眠组。因为每条推文只有两名用户打分，所以最终的平均情绪结果被分为以下几类:积极=0.5,1.0,1.5,2.0;中性= 0;负=-0.5，-1.0，-1.5，-2.0。通过比较睡眠组和非睡眠组推文中被确定为积极、消极或中性的比例，评估了情绪差异。虽然有许多软件选项可以确定任何文本字符串(如tweet)的情绪，但我们选择使用AMT，因为它涉及到人工评分，这是许多自动化方法所基于的黄金标准[ 41， 42］．人类能够更好地捕捉语言的用法，比如讽刺或讽刺，而计算机很难识别这些用法。此外，虽然机器可能更擅长识别属于肯定句和否定句的单个单词，但确定复杂句子的情感并考虑单词上下文对机器来说仍然相当困难[ 43］．

为了确保AMT工作人员对推特情绪的评级是可靠的，我们计算了两组工作人员之间的一致性和科恩的kappa值。因为AMT可以为一个项目使用数百个独立的工作人员，我们把精力集中在那些对tweet情绪进行评级的最多产的AMT工作人员上，以获得至少20%的评级工作。

统计方法

为了研究睡眠组用户和非睡眠组用户之间在高度倾斜分布变量上的差异，采用10000次迭代的再抽样排列分析来研究中值的差异。基于比例的变量，例如用户在一周的某一天发布的推文的比例，通过双尾、两组比例检验在组间进行比较，统计显著性被认为是a P值≤.05。所有分析均在Stata 13中进行。

代码和数据库结构

使用PHP(超文本预处理器)编写定制代码来访问Twitter REST API (v1.1)，该API利用了开源OAuth库tmhOAuth。推文通过Twitter API作为“状态对象”访问，状态对象是结构化的、json格式的对象，包含关于单个推文和用户的所有元数据。使用GET搜索/tweet请求搜索是否存在关键字。使用GET状态/user_timeline请求收集用户时间线。返回的tweet作为JSON格式的完整状态对象存储在Amazon Web Service (AWS)关系数据库服务(RDS) MySQL数据库中。此外，一些tweet和用户字段存储在单独的MySQL表中，以便更快地访问。后续的分析和数据清理是使用PHP和Python编写的定制脚本完成的。

结果

截至2014年5月1日，在115天内收集并存储在数据库中的睡眠组推文总数为2,820,427条。为每个关键字收集的tweet数报告在表1．由于收集到的推文数量众多，只能对一小部分进行分析。在收集到的所有推文中，睡眠组和非睡眠组的1000个用户(N=2000)都被人工筛选并批准纳入研究。在2014年5月1日收集用户帐户元数据时，有一些帐户已经无法访问(例如，切换到私人设置，删除或禁止从Twitter上)。考虑到这些变化后，我们最终的数据集包括896个睡眠组用户和934个非睡眠组用户。收集的用户元数据和推文数据的汇总统计，按用户组分类，显示在表2而且表3,分别。

表1

各种失眠或睡眠相关关键词收集的推文数量。^一个

关键字	n	比例,%
# TeamNoSleep	119378年	4.23
安必恩	54420年	1.93
睡不着	1533704年	54.38
Eszopiclone	151	0.01
失眠	994049年	35.24
插曲	10145年	0.36
失眠药Lunesta	3734年	0.13
褪黑激素	103674年	3.68
Trazadone	1149年	0.04
Zaleplon	23	0．00
总计	2820427年	100.00

^一个这个列表中每个关键字收集的推文数量代表了每个关键字的不同形式和组合(例如，睡不着包括“睡不着”和“#cantsleep”)以及被转发的推文。一些tweet可能包含多个关键字。

表2

Twitter用户数据。

变量		总计		每天^一个
变量		的意思是	中位数	的意思是	中位数
活动天数，n
	Non-sleep集团	817	777
	睡眠组	1054	993
	P价值		<措施
最喜欢的,
	Non-sleep集团	1909	684	4.8	1．1
	睡眠组	3257	1069	6.2	1.3
	P价值		<措施		厚
追随者,n
	Non-sleep集团	817	319	5.5	0．5
	睡眠组	792	295	1．2	0.3
	P价值		。08		<措施
朋友,n
	Non-sleep集团	689	318	6.4	0．5
	睡眠组	518	295	1.3	0.3
	P价值		13。		<措施
追随者:朋友比
	Non-sleep集团	1.44	1.01
	睡眠组	1.45	0.99
	P价值		0.901
状态,
	Non-sleep集团	12609	5853	22	10
	睡眠组	15253	7622	18	8
	P价值		<措施		.04点

^一个每天的数据是指变量的总数除以用户帐户的活动天数。

表3

按群组在一天中某个时间发布的推文的比例。

	推文的比例(%)按时间
	0:00-5:59	6:00-11:59	12:00-17:59	18:00-23:59
Non-sleep集团	12.1	22.5	28.7	36.7
睡眠组	16.8	16.3	28.6	38.1
P价值	<措施	<措施	开市	<措施

睡眠组用户的Twitter账号年龄明显比其他用户大( P<措施)。睡眠组用户的推文总数高于非睡眠组用户( P<.001)，但当计算自账号创建以来每天的推文数量时，睡眠组用户的推文数量显著减少( P= .04点)。一个用户被收藏的推文总数(其他用户的推文)明显高于睡眠组的用户( P<.001)，但当考虑到自账号创建以来每天被喜欢的推文数量时，这种关联并不显著。睡眠组的用户每天的关注者和好友数量都明显减少( P<措施for both).

对于推文级别的数据，在用户提交的时区数据可用的数据子集上执行每周的天数和每天的时间数据分析。对于所有编译的时间轴推文(n=418,773)， 73.5%的用户提交的时区，可以计算特定于时区的日期和时间推文数据。睡眠组和非睡眠组用户在有或没有用户提交的时区信息的比例上有显著差异;76.8%的睡眠组用户透露了他们的时区，而只有64.0%的其他组别用户提供了该数据( P<措施)。

在上午12点至5点59分之间的推文中，大部分来自睡眠组的用户( P<.001)，以及晚上6点至11:59之间( P<措施for both). Conversely, more tweets from between 6 am-11:59 am were from non-sleep group users ( P<措施)。两组发布的状态每小时的比例显示在图1．此外，周六、周日、周一和周二提交的推文中，更大比例来自睡眠组的用户( P<.001)，而周三、周四和周五的推文则更多地来自非睡眠组用户( P<措施)( 图2）.

AMT计算的情绪评分统计分析显示，睡眠组用户(即那些被识别出有睡眠问题症状的用户)的负面推文情绪明显多于非睡眠组用户( P<.001)，相反，非睡眠组的用户在他们的推文中有明显更多的积极情绪( P<措施)。中性情绪组之间没有差异( P=。45)。为了控制发推相对不频繁和发推多的人之间可能存在的内在情绪差异，我们还将个人用户分为发推量小的和发推量大的两类，这是通过将整个样本人群的推文数量中位数分为两组来确定的。当进行分类时，两组之间仍然存在显著差异，不睡觉组的使用者在低音量组和高音量组都有明显更多的积极情绪( P=。002年和 P=。03，respectively) and sleep group users showing significantly more negative sentiment in both groups ( P=。003年和 P=。03，respectively). Similar results were found when groups were dichotomized by the number of friends and number of followers for each user.

情绪是通过两名不同员工的平均评分计算出来的。虽然这种方法在AMT情绪分析的文献中被广泛使用，但我们也试图确定工人之间的一致性。对最多产的前10名员工(总共144名员工)计算了同意率和科恩的kappa值，他们总共发布了13170条推文，占所有工作的36个以上。考虑到基于随机概率的同意率，AMT工人同意率为65，而预期同意率为40,kappa值为0.420 ( P<.001)，表示适度同意[ 44］．由于AMT工人的庞大数量，我们无法调查所有工人之间的实际协议，而且最多产的工人不一定是最“准确”的工人，因此这些值预计会低于实际的协议水平。

图1

按用户组划分的每小时发布状态的比例。

图2

按用户组划分的每天发布状态的比例。y轴从10%开始，以便更清楚地显示组间的差异。组间差异均有统计学意义(P<.001)。

讨论主要研究结果

这项研究表明，在Twitter上出现睡眠问题迹象的人在社交媒体平台上的活跃程度明显低于其他用户，但他们在传统的睡眠时间发更多的推文，并在他们分享的推文中表现出更多的负面情绪。

尽管在大众媒体上发现了猜测[ 45， 46)，就像这项研究中定义的那样，患有某种类型的睡眠问题并不等同于社交媒体活动的增加。在我们的研究中，睡眠组用户的关注人数、朋友数(关注用户)和每天平均推文数的中位数更低，这一发现支持了这一结论，所有这些都表明睡眠组用户似乎在这个特定的社交网络上不太活跃。然而，值得注意的是，我们无法确定Twitter上的活跃用户在“观察”这个社交网络方面有多活跃，即阅读推文并被动跟踪其他用户，而不是真正发布自己的推文或正式关注其他用户。这可能会影响结果，因为根据我们的定义，用户可能显得相对不活跃，但可能在Twitter没有记录的情况下更活跃。有趣的是，尽管根据我们的定义，睡眠组用户比非睡眠组用户更不活跃，但我们观察到，他们的账号明显更老(基于账号创建日期到推文识别日期)，这表明有睡眠问题的用户可能比那些有正常睡眠模式的用户更可能开始使用一种新的社交媒体工具，即使他们不太活跃。虽然这一现象还没有经过科学研究，但有一种可能性是，用户使用社交媒体账户的时间越长，他们在社交媒体账户上的活跃度就越低，这可以解释睡眠组用户的账户寿命较长，而他们的活跃度往往比其他人低。虽然还有更多的研究在进行中，目的是更清楚地阐明这些联系，但这些有趣的发现可能会证明如何逆转社交媒体的使用及其用户的人口统计数据。

睡眠组用户在午夜和凌晨6点发布推文的比例明显更高，这一发现表明我们确定睡眠组的方法是有效的，因为这是大多数正常睡眠模式的人都在睡觉的时间(根据时区调整后)。在没有对所选用户的所有推文进行详细调查的情况下，很难说在午夜至凌晨6点之间发推文的用户是否真的有某种原因(可能是用户上夜班或有其他原因在这段时间内保持清醒)，但两组之间差异的显著性表明，用于区分睡眠组和非睡眠组用户的方法是有效的。

这项研究也为失眠和类似睡眠障碍的人可能会增加社会心理问题的风险这一论点提供了介绍性证据。值得注意的是，之前心理学和数据挖掘领域的研究已经成功地利用自动化工具将在线社交媒体使用、负面情绪和抑郁定量联系起来[ 47- 50］．特别是，早期的一项研究还发现，在推特用户发关于失眠的推文与这些用户的负面情绪之间存在显著的关系[ 51］．我们发现，基于AMT情绪分析结果，被认为可能有睡眠问题的推特用户在推特中描述的情绪明显较低，这表明这一群体可能正在经历某种类型的社会心理障碍。有趣的是，睡眠组的用户比其他用户有更少的朋友、更少的追随者和更少的互动，这表明该组的在线社交在一定程度上减少了。虽然这种联系是一个有趣的发现，但它是初步的，不是决定性的，还有很多问题需要回答。然而，这些结果为深入研究睡眠问题、社会心理问题和社交媒体使用之间的联系提供了一个很好的起点，并值得更有针对性的研究进行进一步调查。要进一步研究这些结果，一个合乎逻辑的步骤是评估个人在“现实生活”中的社交动态是否与他们在网络、社交媒体生活中的社交动态相似，还是这两个领域存在显著差异。

鉴于这项研究的性质，有必要简要讨论一下使用Twitter数据进行与心理社会问题有潜在联系的睡眠障碍研究的伦理、法律和社会影响。与其他社交网站不同的是，Twitter是一个微博，它的唯一目的是允许任何人在没有事先批准的情况下查看内容。Twitter使用的隐私政策表明，用户同意收集、传输、操作、存储和公开公开的数据，而每个用户都有能力更改其帐户的隐私设置。这项研究只分析了完全公开的推文(即用户没有选择隐私设置)。因此，用户对隐私没有任何期望。公开的Twitter数据被认为与其他现有的公共数据源一致，由于数据只是被动地综合分析，这种类型的研究通常不被认为属于人类研究的保护范围。然而，积极的数据收集(例如，直接与用户交互)引发了合理的伦理、社会和法律关切，应在适当的谨慎和机构审查委员会的监督下进行。

限制

虽然上述结果表明有必要对这一领域进行进一步研究，但也必须考虑和解释一些潜在的限制。最重要的是，由于该研究的横断面性质，不可能确定社交媒体使用、睡眠问题和心理社会调查结果之间的重要关系的因果关系。此外，还有一些与非睡眠和睡眠组推文管理相关的方法，在进行未来项目时可能需要进行修订。在策展过程中，策展人会看到一些推文，以确定这些推文是否与任何与睡眠相关的障碍有关。候选推文按照推文创建的顺序呈现给策展人，最近发布的推文先于其他推文出现。这种方法不是最佳的，因为策展人正在阅读的推文取决于策展发生的一天中的时间。也就是说，策展人正在处理的推文列表可能与策展人在上午9点和晚上9点工作时看到的推文列表不同。为了避免这种潜在的偏见，未来的分析将涉及从数据库中存储的随机选择的推文中进行策展(因此将每条推文的时间和日期随机化)。虽然这里使用的方法可能会对所选的用户产生潜在的偏见，但它们不应该影响对推文级别数据进行的分析，因为这些分析考虑了用户的所有推文，因此确定属于睡眠组或非睡眠组的推文的时间是无关紧要的。

额外的信息将有助于控制Twitter用户的内在差异。例如，不同年龄、性别或种族的用户使用Twitter的情况可能不同。在未来的研究中，收集这些信息以试图控制这些因素将是有利的。这可以通过估计这些变量的算法来实现，可以通过在更互动的研究中对参与者进行调查，也可以通过跟踪一大批用户在他们自己描述的睡眠问题之前/之后。此外，用户时区信息与tweet的时间(以UTC记录)一起使用，以计算tweet创建的一天中的时间，这是用户提交的变量，因此容易出现潜在的数据不准确性。虽然没有研究调查准确识别的位置字段的比例，但我们怀疑用户很可能会适当地选择他们的时区(这是自愿的)。但是，用户可能会指出一个错误的时区。

非睡眠组用户的定义是，该用户在过去10天的推文中没有预定义的关键字。如上所述，选择这样的时间长度是为了在计算和财务上能够实现，同时仍然能够获得所需的数据量。在未来的研究中，我们打算增加用户的推文中必须不包含这些预定义关键字的时间长度，以便将其纳入非睡眠组。根据可用数据的数量和质量以及涉及的假设类型，这可能需要调查数月、数年，甚至用户的整个推文时间轴，以便确定群组状态。这也将允许我们分析和控制用户帐户历史的特定时间段(例如，帐户创建后的头几个月)。此外，我们可能想进一步描述睡眠组的人群，以确定发帖“睡不着”的用户与发帖“褪黑素”或药物的用户是否不同。这种细粒度特征可能会导致需要独立分析的多个睡眠组。

虽然在这项研究中收集的信息是有趣的，并采取谨慎措施以确保其有效性，但这类数据是观察性的，因此不能假设因果关系。我们发现，在不睡眠的群体和被我们归类为有某种睡眠问题的个体之间存在显著差异;然而，我们不能确定那些符合我们定义的人确实有睡眠问题。这是我们希望在进一步研究中解决的一个重要因素，有可能通过直接与用户交互来帮助确认我们的分类方法。然而，这种方法会引起伦理、社会和法律方面的担忧(如上所述)，需要谨慎地实施。

我们还认识到，用户之间可能存在固有的差异，这些差异可以反映在他们的朋友数量、关注者、状态更新频率、位置和其他我们没有考虑到的指标上。在未来的工作中，我们的目标是通过长期跟踪大量用户(在自我描述睡眠问题之前和之后)或使用匹配技术更可靠地比较组来控制这一点。

尽管存在局限性，但这项研究和其他专注于使用社交媒体应用程序解决公共卫生问题的研究表明，这种类型的研究可以为传统方法添加有意义的解释。值得注意的是，虽然我们看到了这些新方法的巨大前景，但它们被设想和设计为与更传统的、高度验证的方法(如BRFSS)一起使用。传统和新兴的收集和分析公共卫生信息和关系的方法各有优缺点。我们希望通过结合这两种类型的研究，我们可以对人口的健康状况获得更完整和准确的看法。

结论

这是首批积极调查社交媒体使用和睡眠问题之间关系的研究之一。研究发现，与没有睡眠问题(基于我们的标准)的用户相比，有明显睡眠问题的人平均而言在Twitter上不太活跃，往往在周末和工作日早期最活跃。此外，我们发现，与其他人相比，有睡眠问题的用户在他们发布的推特中有明显更多的负面情绪，这可能表明通过社交媒体被确认有睡眠问题的人有更大的社会心理问题风险。虽然我们的发现是初步的，但它们值得进一步调查，并开始提供证据反驳社交媒体导致失眠和其他常见睡眠障碍的流行观点。此外，我们目前的发现为扩大使用社交媒体对其他与睡眠相关的健康结果的调查提供了希望。

缩写

AMT

亚马逊土耳其机器人

BRFSS

行为风险因素监测系统

UTC

世界时码

本研究部分由默克公司和NLM (T15LM007092)资助。作者要感谢加州大学圣地亚哥分校的James Fowler博士，感谢他的有益对话和建议。

AC、AM、TF和SJ是默克公司的员工。

发病率和死亡率周报 2011 03 04

2015-06-01

疾病控制和预防中心

不健康的睡眠相关行为——12个州，2009 http://www.cdc.gov/mmwr/preview/mmwrhtml/mm6008a2.htm

6 yy7rbgia

刘

勇

克罗夫特

珍妮特·B

惠顿

安妮克

佩里

杰拉尔丁年代

查普曼

丹尼尔。P

老澳

塔拉W

麦克耐特-艾莉

莱拉·R

Presley-Cantrell

利蒂希娅

美国成年人睡眠不足、频繁精神困扰、肥胖和慢性疾病之间的关系，2009年行为风险因素监测系统

公共卫生 2013 13 84

10.1186 / 1471-2458-13-84

23360346

1471-2458-13-84

PMC3562519

查普曼

丹尼尔。P

Presley-Cantrell

利蒂希娅R

刘

勇

佩里

杰拉尔丁年代

惠顿

安妮克

克罗夫特

珍妮特·B

2010年，在美国20个州的社区居民中，频繁的睡眠不足和焦虑和抑郁障碍

Psychiatr服务公司 2013 04 1 64 4 385 7

10.1176 / appi.ps.201200226

23543168

1671298

美国疾病控制与预防中心

昏睡驾驶- 19个州和哥伦比亚特区，2009-2010

MMWR Morb Mortal Wkly Rep 2013 01 4 61 51-52 1033 7

23282860

mm6151a1

发病率和死亡率周报 2012 04 27

2015-06-01

美国

疾病控制和预防中心

工人睡眠时间短-美国，2010 http://www.cdc.gov/mmwr/preview/mmwrhtml/mm6116a2.htm

6 yy7yyets

美国交通部 2011 03

2015-06-01

华盛顿特区

国家公路交通安全管理局

交通安全常识-昏睡驾驶 http://www-nrd.nhtsa.dot.gov/pubs/811449.pdf

6 yy7jz9ju

Benca

彼得森

乔丹

失眠和抑郁

睡眠医学 2008 9 S3 S9

泰勒

丹尼尔·J

失眠和抑郁

睡眠 2008 04 31 4 447 8

18457230

PMC2279745

黎曼

Voderholzer

原发性失眠:抑郁症的危险因素?

J影响不和 2003 76 1 - 3 255 259

蚕豆

米

白天嗜睡和失眠是抑郁的相关因素

临床精神病学杂志 2004 65 Suppl16 27 32

Buysse

丹尼尔·J

焦虑

朱尔斯

亚历克斯

Ajdacic

Vladeta

可以忍受

多米尼克

Rossler

沃尔夫

青壮年失眠和抑郁的患病率、病程和共病

睡眠 2008 04 31 4 473 80

18457234

PMC2279748

Glidewell

罗伯特·N

Renn

Brenna N

罗比

艾米丽

奥尔

威廉·C

PAP治疗前后OSA患者失眠症状的预测因素和模式

睡眠医学 2014 08 15 8 899 905

10.1016 / j.sleep.2014.05.001

25011662

s1389 - 9457 (14) 00187 - 7

疾病控制和预防中心 2015-05-31 CDC - FMO -预算信息 http://www.cdc.gov/fmo/topic/Budget

6 yy82tmpe

Sivertsen

Børge

Pallesen

不新鲜的

Glozier

尼克

Bjorvatn

Bjørn

萨罗城

宝拉

告诉

Grethe年代

Ursin

Reidun

Øverland

西蒙

中年失眠和随后的死亡率:Hordaland健康研究

公共卫生 2014 14 720

10.1186 / 1471-2458-14-720

25024049

1471-2458-14-720

PMC4223526

Vozoris

尼古拉斯·T

失眠症状频率与高血压风险:一项基于人群的研究

临床精神病学杂志 2014 06 75 6 616 23

10.4088 / JCP.13m08818

25004185

Staccini

Douali

社交媒体和患者健康结果。来自2014年年鉴消费者健康信息学部分的发现

医学年鉴 2014 9 1 195 8

10.15265 / iy - 2014 - 0038

25123742

me2014 - 0038

PMC4287087

社交媒体“点赞”医疗保健:从营销到社会商业 2015-05-31

普华永道

普华永道 http://www.pwc.com/us/en/health-industries/publications/health-care-social-media.jhtml

6 yy8ejhvz

学习

Hazlett

德

哈里森

卡罗尔

欧文

一个

霍文

卫生保健的一个新维度:对社会媒体在健康传播中的使用、好处和限制的系统回顾

J医学网络杂志 2013 04 23 15 4 e85燃料

Eysenbach

冈瑟

信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架，用于分析互联网上的搜索、通信和发布行为

J医学网络杂志 2009 11 1 e11

10.2196 / jmir.1157

19329408

v11i1e11

PMC2762766

20.

Aramaki

Maskawa

年代

盛田昭夫

米

推特捕捉流感:使用推特检测流感流行。Proc Conf Empir Methods Nat Lang Process Internet Stroudsburg, PA 2011

2015-06-01

美国

计算语言学协会

http://dl.acm.org/citation.cfm?id=2145432.2145600

6 yy8v94vd

Chunara

鲁米

安德鲁斯

杰森R

布朗斯坦

约翰年代

社会和新闻媒体能够在2010年海地霍乱暴发早期对流行病学模式作出估计

Am J Trop Med Hyg 2012 01 86 1 39 45

10.4269 / ajtmh.2012.11 - 0597

22232449

86/1/39

PMC3247107

Nsoesie

伊莱恩·阿

Buckeridge

大卫L

布朗斯坦

约翰年代

猜猜谁不来吃饭了?为疾病监测评估在线餐厅预订

J医学网络杂志 2014 16 1 e22

10.2196 / jmir.2998

24451921

v16i1e22

PMC3906695

Chunara

鲁米

小结

林赛

艾尔斯

约翰W

布朗斯坦

约翰年代

评估在线社会环境监测肥胖流行

《公共科学图书馆•综合》 2013 8 4 e61373

10.1371 / journal.pone.0061373

23637820

玉米饼- d - 12 - 36863

PMC3634787

汉森

卡尔•李

大炮

本

伯顿

斯科特

Giraud-Carrier

克利斯朵夫

通过推特探索社交圈和处方药滥用

J医学网络杂志 2013 15 9 e189

10.2196 / jmir.2741

24014109

v15i9e189

PMC3785991

格里夫斯

费利克斯

Laverty

安东尼一个

卡诺

丹尼尔·拉米雷斯

带

卡

Pulman

斯蒂芬。

Darzi

Ara

米勒特

克里斯多夫

关于医院质量的推特:一项混合方法研究

BMJ Qual Saf 2014 10 23 10 838 46

10.1136 / bmjqs - 2014 - 002875

24748372

bmjqs - 2014 - 002875

PMC4174012

保罗

迈克尔·J

Dredze

马克

使用话题模型在社交媒体上发现健康话题

《公共科学图书馆•综合》 2014 9 8 e103408

10.1371 / journal.pone.0103408

25084530

玉米饼- d - 14 - 00554

PMC4118877

保罗

乔丹

Dredze

米

第五届国际AAAI博客与社交媒体会议论文集 2015-06-01 你的推特就是你的推特:为公共健康分析推特 https://www.aaai.org/ocs/index.php/ICWSM/ICWSM11/paper/view/2880

6 yy8bgilz

Pagoto

年代

施耐德

吉隆坡

埃文斯

米

华林

我

Appelhans

布希

我

发推特:发推特讲述减肥尝试的成年人的特点

J Am Med Inform association Internet 2014 06 13 1032 1037

Sueki

Hajime

与自杀相关的Twitter使用与自杀行为的关联:一项针对日本年轻互联网用户的横断面研究

J影响不和 2015 01 1 170 155 60

10.1016 / j.jad.2014.08.047

25240843

s0165 - 0327 (14) 00536 - 9

30.

高德

斯科特的

梅西

迈克尔W

在不同的文化中，每天和季节性的情绪随着工作、睡眠和白昼时间的变化而变化

科学 2011 09 30. 333 6051 1878 81

10.1126 / science.1202775

21960633

333/6051/1878

科维

洛伦佐

孙

Yunkyu

克莱默

亚当D I

马洛

卡梅隆

Franceschetti

马西莫

克里斯塔基斯

尼古拉斯一

福勒

詹姆斯·H

在大量的社交网络中检测情绪传染

《公共科学图书馆•综合》 2014 9 3. e90315

10.1371 / journal.pone.0090315

24621792

玉米饼- d - 13 - 39152

PMC3951248

Asur

年代

胡伯曼

英航

用社交媒体预测未来

2010 08 31

Ieeewicacm Int Conf Web Intell Intell Agent技术

2010

在多伦多

492 499

哈尼

情感分析:为非结构化文本数据提供分类洞察

社交媒体、社会性和调查研究 2013 09 30.

新泽西州霍博肯,

社会媒体社会Surv Res互联网约翰威利父子公司

Ceron

一个

Curini

Iacus

普罗

每条推特都算数吗?社交媒体的情感分析如何在意大利和法国的应用中提高我们对公民政治偏好的认识

新媒体学会 2014 02 18 0466

庞

李

意见挖掘与情感分析

发现趋势Inf Retr 2008 01 2 1 - 2 1 135

达根

米

埃里森

注

兰佩

伦哈特

一个

马登

米

皮尤研究中心 2015 01 09

2015-06-01

主要社交网络平台的人口统计数据 http://www.pewinternet.org/2015/01/09/demographics-of-key-social-networking-platforms-2/

6 yy9nm9r9

推特 2015 03 01

2015-06-01

关于推特 https://about.twitter.com/company

6 yy9sbweb

Bigonha

中科院

卡多佐

过渡委员会

莫罗

毫米

阿尔梅达

VAF

Goncales

妈

发现推特上的传播者和诋毁者

巴西多媒体与网路研讨会 2010

多媒体与网络研讨会(WebMedia)

2010

巴西

107 114

同行

Eyal

Vosgerau

约阿希姆

阿奎斯蒂

亚历山德罗

信誉是Amazon Mechanical Turk上数据质量的充分条件

行为方法 2014 12 46 4 1023 31

10.3758 / s13428 - 013 - 0434 - y

24356996

巴尔

Aws Off博客 2015-06-01 获得更好的结果与亚马逊土耳其机械大师 https://aws.amazon.com/blogs/aws/amazon-mechanical-turk-master-workers/

6 yy9emo6i

annet

米

Kondrak

情感分析技术的比较:电影博客的两极分化

2006 07 26

第21届加拿大人工智能会议

2008

加拿大

25 35

威尔士

舒乐问

夏

Havasi

意见挖掘与情感分析的新途径

Ieee智能系统 2013 03 28 2 15 21

庞

李

Vaithyanathan

年代

大拇指?:使用机器学习技术进行情感分类

2002自然语言处理的经验方法ACL-02会议论文集 2002

自然语言处理的经验方法会议

2002

斯特劳斯堡,宾夕法尼亚州

美国

计算语言学协会

78 86

10.3115/1118693.1118704

Dohoo

我

马丁

Stryhn

流行病学研究方法。第1版。夏洛特镇，PE 2012

加拿大

版本公司

健康网站 2014 04 14

2015-06-01

2014年世界睡眠日:社交媒体会让你失眠吗? http://www.thehealthsite.com/news/world-sleep-day-2014-can-social-media-give-you-insomnia/

6 yya7ylbz

insomnicacs

失眠创新 2015-06-01 社交媒体作为一种技术是如何影响睡眠模式的? https://insomniainnovation.wordpress.com/2013/04/26/how-does-social-media-as-a-technology-affect-sleeping-patterns/

6 yya8s0we

王

张

霁

太阳

吴

保

李

曹

棕褐色

刘

裴

基于情感分析的微博社交网络抑郁检测模型

知识发现与数据挖掘的发展趋势与应用 2013

德国海德堡

施普林格

公园

米

查

米

在线社交网络中描绘的用户抑郁情绪 2012

2015-06-01

http://wan.poly.edu/KDD2012/forms/workshop/HI-KDD12/doc/paper_16.pdf

6 yyacgb6c

DeChoudhury

米

计数

年代

霍维茨

社交媒体作为人群抑郁的测量工具

第五届Acm网络科学会议 2013 05 23

第五届ACM Web科学会议

2015年5月2-4日

法国巴黎

美国

ACM

10.1145/2464464.2464480

DeChoudhury

米

计数

年代

霍维茨

Gamon

米

通过社交媒体预测抑郁症

人工智能发展协会 2013 1 1

Jamison-Powell

年代

Linehan

戴利

Garbett

一个

劳森

年代

“我睡不着”:在推特上讨论#失眠#

2012

计算机系统中的人为因素SIGCHI会议

2012

纽约，纽约

美国

ACM

1501 1510

10.1145/2207676.2208612