这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
Twitter等社交媒体技术允许用户在线分享他们的想法、感受和观点。越来越多的社交媒体数据正在成为信息流行病学研究的核心部分,因为这些数据可以与其他公共卫生数据集(如身体活动水平)结合,以提供心理和行为结果的实时监测,为健康行为提供信息。目前,尚不清楚Twitter数据能否用于监测身体活动水平。
这项研究的目的是通过评估与身体活动相关的推文的频率和情绪是否与美国各地的身体活动水平相关,建立使用推特数据监测身体活动水平的可行性。
推文收集自2017年1月10日至2018年1月2日之间推特的应用程序编程接口(API)。我们用了推特的
在研究期间,收集了442,959,789条独特的推文,其中64,005,336条(14.44%)带有经纬度坐标的地理标记。收集了美国3138个县的汇总数据。经年龄调整后,平均县级体力活动个体百分比为74.05% (SD 5.2)和75.30% (SD 4.96)。该模型表明,与身体活动相关的推文的百分比与身体活动水平显著相关(beta=.11;SE 0.2;
社交媒体数据可能是公共卫生组织监测身体活动水平的宝贵工具,因为它可以克服传统研究方法(如调查和观察性研究)在报告身体活动流行病学数据方面的滞后问题。因此,这一工具可能有助于公共卫生组织更好地动员和有针对性地开展体育活动干预。
缺乏体育活动是一种可改变的危险因素,可导致越来越多的慢性疾病,包括心血管疾病、高血压、2型糖尿病、结肠癌、骨质疏松和抑郁症[
使用基于人口的调查研究来监测身体活动的现有方法需要改进。目前收集身体活动数据的方法存在一些局限性[
社交媒体的使用在过去十年中迅速增长,[
最近的信息流行病学研究报告称,来自社交媒体技术的数据可以与其他生物医学数据集结合,以帮助预测健康结果[
本研究的目的是通过评估与身体活动相关的推文的频率和情绪是否与美国各个县的身体活动水平相关,建立使用推特数据监测身体活动水平的可行性。
使用Twitter的应用程序编程接口(API)收集2017年1月10日至2018年1月2日的推文(n=442,959,789)。捕获的推文代表了在选定时间段内发布的所有推文的1%的随机选择。只有
一份与体育活动相关的标签列表被编译
使用情感分析技术来研究微博服务,如Twitter,是一个丰富而活跃的研究领域。情感分析为文本文档指定极性,如标签
身体活动水平和年龄调整后的身体活动水平是从行为风险因素监测系统(BRFSS)调查中提取的,该系统提供了2014年以来县级身体活动水平的数据。BRFSS由疾病控制和预防中心管理。作为调查的一部分,参与者被要求自我报告业余时间的体育活动(例如,在过去的一个月里,除了你的正常工作,你是否参加了任何体育活动或锻炼,如跑步、健美操、高尔夫球、园艺或散步锻炼?)自我报告的闲暇时间身体不活动确定从回答
体育活动推文的频率统计了每个县的数据,并与BRFSS数据、基尼指数数据和接受过大学教育的县的百分比的体育活动水平合并。基尼指数提供了收入不平等的标准化估计,可用于县与县之间的比较。在体育活动的背景下,包括基尼指数和教育水平是相关的;这些变量与身体活动水平有关[
使用双变量Spearman相关性来确定与体育活动相关的推文数量(包括积极的、消极的和中性的推文数量)、基尼指数、教育和体育活动数据之间的关联。然后应用多元线性回归模型,在控制基尼指数和县域教育水平的情况下,找出与体育活动相关推文的比例、推文的情绪(积极与消极体育活动相关推文的比例)与体育活动数据之间的关联水平。比较了这些模型的相对性能。所有分析均采用IBM SPSS 24.0 (IBM Corporation)进行。
在收集到的442,959,789条独特tweet中,有64,005,336条(14.44%)带有地理标记。其中,234,678人(0.37%)根据标签被确定为与体育活动有关。洛杉矶县(n= 20589;8.77%)、纽约县(n=12,601;5.37%),迈阿密-戴德县(n=7055;3.01%),哈里斯县(n=6148;2.62%)和库克县(n=5738;2.45%)是发送地理标记体育活动相关推文最多的5个县(
在3146个县(县)中,共有3138个县(县)获得了汇总数据。被遗漏的县缺乏相关的推特数据、体育活动数据或社会经济指标数据。经年龄调整后,平均县级个体体育活动百分比为74.05% (SD 5.2)和75.30% (SD 4.96) (
我们的情绪分析显示,7.31% (n=17,155)的体育活动相关推文是积极的,42.67% (n=100,137)是消极的,50.02% (n=117,386)是中立的。阳性与阴性的平均比值为0.20 (SD 0.336)。
美国人的身体活动水平地图。
美国与体育活动相关的地理位置推特地图。
美国基尼指数地图。
美国教育水平地图。
分类积极:
“身体上、心理上、精神上、经济上的成长。这将是我2017年的....#instafit……”
“我想我们失去了一个完整的人!# fitgoals……”
今天的提醒是:要练习,而不是完美!# yogajournal……”
分类-:
“我讨厌星期二。额外的。#有氧运动”
“大声喊出#crossfit……更像是路边踩踏,对吧,伙计们!@波特兰,俄勒冈州”
“回到研磨……#cardio”
中性分类:
“我看见肚子在哪儿了!”#少数人,但以一种好的方式#健身#目标继续……”
“我一天2次锻炼的第二天#gymlife #planetfitness……”
“我的腿日剪辑#蹲和死#健美#力量举重#强人#奥运#健美……”
县级体育活动、活动相关推文和基尼指数的摘要。
变量 | 身体活跃,% | 体力活动,%(年龄调整) | 基尼系数 | 教育 | 体育活动推文 | 积极和消极的身体活动推文的比例 |
身体活跃,% | 1 | 0.99一个 | -0.16一个 | 0.26一个 | 0.38一个 | 0.13一个 |
体力活动,%(年龄调整) | - - - - - -b | 1 | -1.77一个 | 0.24一个 | 0.34一个 | 0.10一个 |
基尼系数 | - - - - - - | - - - - - - | 1 | 0.04c | 0.05c | 0.09一个 |
教育 | - - - - - - | - - - - - - | - - - - - - | 1 | 0.22一个 | 0.16一个 |
体育活动推文 | - - - - - - | - - - - - - | - - - - - - | - - - - - - | 1 | 0.20一个 |
积极/消极的身体活动推文比例 | - - - - - - | - - - - - - | - - - - - - | - - - - - - | - - - - - - | 1 |
一个
b不适用。
c
回归模型显示,身体活动相关推文的百分比与身体活动水平显著相关(
体育活动相关推文与县级体育活动水平的回归分析。
变量 | β | SE |
|
|
|
||||
|
基尼系数 | −0.16 | 2.54 | <措施 |
|
教育 | 0.26 | . 01 | <措施 |
|
与体育活动相关的推文的百分比 | 0.11 | .20 | <措施 |
|
||||
|
基尼系数 | −0.12 | 3.78 | <措施 |
|
教育 | 2.95 | . 01 | <措施 |
|
体育活动相关推文的情绪(正/负比) | −0.01 | .37点 | 56 |
|
||||
|
基尼系数 | −0.12 | 3.79 | <措施 |
|
教育 | 0.30 | 0.01 | <措施 |
|
与体育活动相关的推文的百分比 | 0.05 | .37点 | 02 |
|
体育活动相关推文的情绪(正/负比) | −0.01 | 。 | 53 |
一个
b
c
体力活动相关推文与年龄调整的县级体力活动水平的回归分析。
变量 | β | SE |
|
|
|
||||
|
基尼系数 | −0.18 | 2.44 | <措施 |
|
教育 | 0.23 | . 01 | <措施 |
|
与体育活动相关的推文的百分比 | 0.10 | 0.20 | <措施 |
|
||||
|
基尼系数 | −0.13 | 3.63 | <措施 |
|
教育 | 0.25 | . 01 | <措施 |
|
体育活动相关推文的情绪(正/负比) | −0.02 | .35点 | 无误 |
|
||||
|
基尼系数 | −0.13 | 3.64 | <措施 |
|
教育 | 0.26 | . 01 | <措施 |
|
与体育活动相关的推文的百分比 | 0.05 | 23) | 03 |
|
体育活动相关推文的情绪(正/负比) | −0.02 | .35点 | .41点 |
一个
b
c
这项研究评估了使用Twitter数据监测身体活动水平的可行性,方法是评估是否可以从Twitter中提取带有地理标记的关于身体活动行为的对话,以及是否可以使用与身体活动相关的推文来监测身体活动水平。结果表明,从Twitter中提取与身体活动相关的地理标记对话是可行的。此外,研究结果表明,与体育活动相关的推文与体育活动水平之间存在显著关联,同时考虑了美国县级收入不平等、人口和教育的基尼指数。然而,在一个县的层面上,与体育活动相关的推文和体育活动水平之间的总体关联很弱。
探索与体育活动相关的推文和县级体育活动水平之间的关系具有几个重要的研究意义。首先,这些发现支持了使用非传统数据源(如社交媒体数据)来监测体育活动相关行为的持续研究。其次,我们的研究结果展示了一种潜在的应用,即使用社交媒体数据作为一种补充工具,以帮助对人群层面的身体活动进行历史和实时跟踪。本研究的一个优势是在我们的模型中控制了相关的人口因素,如收入不平等和不同地理位置的教育。最后,体育活动研究人员可以在本研究中使用的方法的基础上,找到使用社交媒体数据监测体育活动结果的新方法。体育活动研究人员可以利用这些社交媒体分析技术建立模型,实时预测体育活动水平。本研究中使用的分析方法将来可以帮助公共卫生机构确定与体育活动相关的特定趋势或关注的地理区域,以重点关注其健康和健康举措。
这项研究的发现验证并扩展了之前发表的工作,即推文的内容可以潜在地用于监测和预测行为和健康结果[
尽管像这样的信息监测或信息流行病学研究对流行病学来说是很重要的,要避免
这项研究有几个局限性。推特数据和身体活动数据之间存在滞后时间和时间框架差异。作为BRFSS年度调查的一部分,最新的县级体育活动数据来自2014年。此外,对于任何带有地理标记的Twitter数据采样,都必须注意到存在固有的偏差。对该平台上人口统计数据的研究发现,总体上,该平台向更年轻、更富有的人群倾斜。
下一步,我们还可以从推特数据中提取其他可能的特征,这些特征可能会被测试与身体活动水平的关联。尽管这项研究只专注于通过关键词过滤Twitter数据并进行情感分析,但可能还有其他自然语言处理技术可以应用于数据集[
这项研究评估了使用社交媒体数据监测逐县体育活动水平的可行性。本研究的结果表明,从Twitter数据中识别带有地理标记的体育活动相关对话并将其链接到基于人口的体育活动结果数据进行分析是可行的。我们发现,推特上的对话与美国县级体育活动水平之间的关联很弱。未来的研究可以建立在本研究中使用的方法上,进一步完善使用实时社交媒体数据监测身体活动水平的模型。
用来识别与身体活动相关的推文的标签。
美国运动医学学院
应用程序编程接口
行为风险因素监测系统
大都会统计区
语义评价
这项工作得到了维多利亚大学内部研究创新项目拨款的支持。
没有宣布。