JMIR公共卫生和监测-从地理标记的Twitter数据中构建一个国家社区数据集，用于幸福，饮食和体育活动指标

原始论文

¹美国犹他州盐湖城犹他大学健康学院健康、运动机能学和娱乐系

²美国犹他州盐湖城犹他大学地理系

^3.美国犹他州盐湖城犹他大学计算机学院

⁴华盛顿大学全球卫生系，华盛顿州西雅图，美国

⁵美国犹他州盐湖城犹他大学社会学系

通讯作者:

Quynh C Nguyen博士

健康，运动机能学和娱乐部

犹他大学健康学院

南校园路1901号

附件2124室

盐湖城，犹他州，

美国

电话:1 801 585 5134

传真:1 801 585 3646

电子邮件:quynh.ctn@gmail.com

背景:研究表明，人们生活、娱乐和工作的地点会影响健康和幸福。然而，缺乏社区数据，特别是缺乏跨地域及时和一致的数据，阻碍了了解社区对健康的影响。社交媒体数据为社区研究提供了可能的新数据资源。

摘要目的:这项研究的目的是根据地理标记的Twitter数据，建立一个全国性的社区数据库，其中包含区域水平的幸福和健康行为指标。

方法:我们利用Twitter的流媒体应用程序编程接口，连续收集了1年(2015年4月至2016年3月)公开可用的地理位置推文的随机1%子集。我们收集了来自美国各地603363个独立Twitter用户的8000万条地理标记推文。我们通过将预测值与人类标记器生成的预测值进行比较，验证了机器学习算法构建幸福、食物和体育活动指标的有效性。地理标记的推文在空间上映射到2010年人口普查区和邮政编码区域，这使得进一步评估推特衍生的社区变量与社区人口、经济、商业和健康特征之间的关联成为可能。

结果:机器标记和手动标记的推文都有很高的准确率:快乐的准确率为78%，食物的准确率为83%，体育活动的准确率为85%F得分分别为0.54、0.86和0.90。大约20%的推文被归类为“快乐”。相对较少的术语(少于25个)是描述大多数关于食物和体育活动的推文所必需的。来自美国7万多个人口普查区的数据表明，人口普查区的因素，如非洲裔美国人的比例和经济劣势，与人口普查区较低的幸福感有关。城市化与快餐推特的频率较高有关。快餐店数量越多，快餐被提及的频率就越高。令人惊讶的是，健身中心和自然公园与高频率的体育活动推文只有轻微的联系。通过推特评估，更大的州级幸福感、对体育活动的积极态度和对健康食品的积极态度，与较低的全因死亡率和慢性疾病(如肥胖和糖尿病)患病率、较低的缺乏体育活动和吸烟有关，控制了州收入中位数、年龄中位数和非西班牙裔白人的百分比。

结论:机器学习算法可以以相对较高的准确率来描述社交媒体上提到的情绪、食物和体育活动。这些数据可以用来构建一致和成本有效的邻里指标。反过来，可以利用获取社区数据来更好地了解社区影响并解决健康的社会决定因素。我们发现，社会和经济劣势、高度城市化和更多快餐店的社区可能表现出较低的幸福感和较少的健康行为。

中华医学会公共卫生监测杂志，2016;2(2):158

doi: 10.2196 / publichealth.5869

关键字

社交媒体； Twitter消息；健康行为；幸福；食物；体育活动

人们越来越认识到健康是由许多因素决定的，包括你在哪里生活、娱乐和工作。1-5]。难以获得健康食品[6-10，大量的快餐连锁店[11]，缺乏娱乐设施[12，13]，以及更高的犯罪率[7，14已经被证明可以预测更高的肥胖率。接触毒素、噪音和暴力的环境可能对健康有害[15，16]。相反，儿童游乐场、杂货店和健身房等社区资源对健康有益[17]。恶劣的邻里环境在贫穷的少数族裔社区中聚集[18-21]，从而增加了健康差距。

社会环境可以提供社会和情感支持，缓冲生活中的压力事件[22]。约翰斯和他的同事们发现，在社会凝聚力较高的社区中，创伤后应激障碍的发病率较低[23]。较高的社区幸福感水平与较低的肥胖、高血压和自杀率以及较长的预期寿命有关。24-29]。证据还表明，快乐、乐观、抑郁或自杀等情绪状态可以通过社交网络传播。30.-33]。社会环境在调节不健康行为和促进健康行为的社会学习方面可以为社会控制提供机会，但也可以促进危险行为。健康行为，如饮食、健康检查、吸烟、饮酒、吸毒和睡眠也被观察到通过社交网络传播。34-37]。

邻域数据的极度稀缺极大地限制了邻域效应的研究。有些地方[38，39]收集了大量的社区数据，但它们是异常现象，而不是规律，而且很难在不同地区进行比较，因为可用的测量方法在不同地区差异很大。邻里数据收集既昂贵又耗时，而且只适用于特定时间段[40]。互联网的广泛使用和许多交易的公开记录(例如，Yelp评论，Foursquare签到，以及通过社交媒体报告个人意见和行为)导致了大量数据的可用性，这些数据使人们能够了解以前隐藏的本地互动。研究人员越来越多地利用社会媒体和用户生成的数据来跟踪健康行为并进行健康监测(例如，用于检测疾病爆发)[41-45]。还有人利用社交媒体追踪睡眠问题[46]、推特用户披露的个人健康状况[47，48]和患者感知的护理质量[49]。

在这项研究中，我们探索了从地理标记Twitter数据中建立国家社区数据库的效用，以表征福祉和健康行为。我们通过比较机器生成的值和人类标记器生成的值，验证了机器学习算法构建幸福、食物和体育活动指标的有效性。此外，我们还探讨了twitter衍生的邻里变量与邻里人口和经济特征之间的关系。该项目对该领域作出了重大的相关贡献，因为社区环境与一系列重要的健康结果日益联系在一起，该项目通过提供新的、具有成本效益的数据资源和描述社区特征的方法，解决了由于缺乏社区数据而导致的研究限制。据我们所知，我们的研究是第一个尝试从Twitter数据中创建一个全国社区数据库的研究，并为公共卫生研究人员构建了指标。另一种可以持续获得的社区数据是关于社区组成特征的人口普查数据。Twitter非常适合描述社会环境，包括流行的情绪和健康行为。

社交媒体数据收集

从2015年2月到2016年3月，我们利用Twitter的流媒体应用程序编程接口(API)连续随机收集1%具有经纬度坐标的公开可用推文样本。考虑到社区研究人员对人口普查区和邮政编码级别数据的使用和兴趣不同，我们在这两个级别构建了社区指标，从而增加了数据集的灵活性，以满足其他研究人员的潜在数据需求。总的来说，我们从美国(包括哥伦比亚特区)的603363个独立Twitter用户那里收集了798489.92亿条带有地理标记的tweet。每个用户推文的中位数是4条。招聘信息(通过#hiring、#jobs和# Job标签识别)从tweet的最终分析样本中删除，因为这些信息普遍存在，而不是我们构建的邻域变量的中心。

空间连接和邻域定义

每条带有地理标签的推文都会根据推文发送地的经纬度坐标，分配相应的人口普查区和邮政编码。这个空间连接过程是在Python(版本2.7.12;Python软件基金会)，一种用于空间数据处理的流行编程语言[50]。具体来说，Python库用于读取shapefile格式的矢量数据(PyShp 1.1.4)，在多边形数据上构建r树索引(Rtree 0.8.2)，并执行空间连接操作(Shapely 1.5.12和Fiona 1.6.1)。利用R-Tree建立空间索引[51在国家人口普查区和邮政编码多边形数据上，以加快计算速度。没有指定人口普查区或邮政编码位置的推文包括那些目的地与美国接壤的推文(即墨西哥和加拿大)。我们将99.8%的带有地理坐标的推文链接到各自的2010年人口普查区和邮政编码位置。这个词社区本文中使用的邮政编码和人口普查区都是指。我们将推文映射到这两个地理边界，因为它们是公共卫生研究人员使用的最受欢迎的社区定义之一[52-54]。

处理消息

重复的tweet(即具有相同tweet ID， <1%的tweet)被计算删除。尽管Twitter的API收集了1%的公开可用推文的随机子集，但推文的用户(尤其是垃圾邮件帐户)通常对我们构建的变量值有更大的潜在影响。我们检查了数据集中的异常值(定义为推文占我们数据集中推文的1%以上的用户)，并消除了自动帐户和大多数推文都是广告的帐户。使用Stata MP13 (StataCorp LP)完成处理和统计分析任务。

从Twitter数据构造邻域变量

从带有地理标签的推文中，我们得出了表征幸福、食物和体育活动的变量。每条推文都使用斯坦福标记器[55]。对于英语文本的处理，符号大致对应于单词。然后，我们建立了各种算法，利用代币来创建表征幸福的变量，并参考食物和体育活动。下面我们将更详细地描述我们的算法。

情绪分析

为了进行情感分析，我们使用了机器学习语言工具包(MALLET;AK McCallum, 2002)，一个基于java的软件包，用于统计自然语言处理、文档分类、聚类、主题建模、信息提取和其他文本机器学习应用。我们利用MALLET中的最大熵文本分类器将推文分类为快乐和不快乐[56]。为了训练我们的分类器，我们从以下资源中获得训练集:Sentiment140 [57]、桑德斯分析公司[58]和Kaggle [59]。我们训练我们的分类器来区分快乐和不快乐的情绪。然后，我们在全国推特数据上运行分类器，为每条推特计算一个快乐分数(范围0-1)，其中快乐分数越高表明情绪越积极。MALLET根据单词级别的特征估计一条推文是快乐的预测概率。分类器使用基于搜索的优化来分配权重，使训练数据的可能性最大化。然而，与Naïve贝叶斯不同，最大熵分类器不假设特征之间的条件独立性。

为了用人类生成的标签来校准生成的幸福分数，两名评分者手动读取1200条推文的随机子集，并将快乐推文的值定为1，不快乐推文的值定为0。最初的评分者间信度为92%，对不一致的值进行审查，直到评分者之间达到100%的一致。为了确定MALLET分数的切点，我们将推文分类为快乐，我们计算了MALLET分数不同切点的准确性水平(多媒体附录1）.增加MALLET分数提高了对人类注释的准确性，但也减少了被认为是快乐的推文的计算流行率。MALLET得分为0.80，达到了最高的准确性水平，同时仍然保持了19%的快乐推文的流行率(这接近于人类注释获得的流行率)。对于60和85之间的所有MALLET切割点，接收器工作特性曲线下的面积约为0.7。

食品分析

我们从美国农业部的国家营养数据库中收集了超过1430个流行的食物词汇[60]。每种食物都与热量密度相关联，以每100克卡路里计算。水果、蔬菜、坚果和瘦肉蛋白(即鱼、鸡肉和火鸡)被标记为健康食品(总共340种食品)。油炸食品不被认为是健康食品。我们的食物列表还包含了受欢迎的全国快餐店，如麦当劳和肯德基(通过154个食品术语捕获，包括餐馆名称的流行变体)，以便对快餐参考进行量化。从2015年4月到2016年3月，我们收集并处理了4,041,521条带有地理标签的食物推文。在食物数据集中，每个用户的推文中位数为12条。

为了分析饮食文化，我们检查了每条推文中与我们列表中匹配的单词或短语。我们清单上的每一种食物都用一两个词来描述。我们的文本匹配算法首先在tweet中搜索与两个单词的食物(如橙色鸡肉)相匹配的内容。然后，它在剩下的单词中搜索与单单词食物相关的单词(例如，taco)。我们把推特上提到的所有食物加起来，计算出热量密度。我们还为每条推文创建了健康食品参考和快餐店参考的计数。此外，我们利用我们的情绪分析来评估对食物的情绪。具体来说，我们追踪了人们对健康食品和快餐的看法。这些变量(任何食物参考，健康食品参考，快餐参考，热量密度，以及对健康食品和快餐的看法)然后在人口普查区和邮政编码级别进行汇总和总结，以创建饮食文化的邻里指标。

体力活动分析

我们利用从体育活动调查问卷、体育活动纲要和普遍可用的健身计划中收集的已公布的体育活动术语列表，创建了一份体育活动列表[61，62]。我们的体育活动清单上有376种不同的活动，包括与健身房有关的锻炼(如跑步机、举重)、体育运动(如棒球)、娱乐活动(如徒步旅行、潜水)和家务(如园艺)。我们排除了通常与体育活动无关的流行短语，如“走开”和“迟到”。使用与体育活动相关的代谢当量，我们量化了提到的每项体育活动的运动强度，以持续30分钟和体重为155磅的个体为单位[63]，接近美国成年人的平均体重[64，65]。

通过试用我们的算法，我们确定了不涉及体育活动的常用短语或流行文化参考(例如，行尸走肉)，这些都是手动编码并排除的。此外，为了帮助减少推文是关于观看而不是实际参与体育活动的可能性，我们排除了包含以下任何术语的推文:“观看”，“观看”，“观看”，“观看”，“观看”，“出席”，“出席”和“出席”。在审查初步标记的体育活动数据时，我们发现大多数(超过90%)与团队运动(如棒球、篮球、足球、足球)有关的推文都是关于观看比赛而不是参与比赛。因此，对于团队运动，我们要求tweet包含单词“play”、“playing”或“played”。

我们的算法为每条推文创建了以下体育活动变量:任何体育活动的提及、运动强度和对体育活动的看法。从2015年4月到2016年3月，我们收集了1,473,976条地理标记的体育活动推文。在体力活动数据集中，每个用户的推文中位数为5条。

品质管理活动

共有5000条推文被两位作者手工标记为食品和体育活动的质量控制活动。作者手工标记了每条推文是与食物有关(2000)、与食物无关(500)、与体育活动有关(2000)还是与非体育活动有关(500)。在所有类别中获得了超过90%的一致性，并讨论和解决了差异。

在我们的算法标记为与食物相关的推文中，与人工分类生成的标签相比，83%的推文被准确标记。在我们的算法标记为与食物无关的推文中，81%的推文被准确标记(即，算法和人类分类器都将推文标记为与食物无关)。总的来说，食物推文的准确率为83%F得分为0.86。值得注意的是，如果食物参考不在我们的食物词典中，我们的算法可以将与食物相关的推文标记为与食物无关。通常与不相关的食物含义相关联的食物项目，如“鲈鱼”，已被排除在我们的食物词典之外。对于被错误标记为与食物有关的推文，常见的原因包括用作隐喻、双关语或食品广告的食物术语。

在我们的算法标记为与体育活动相关的推文中，与人类分类器生成的标签相比，82%的推文被准确标记。我们的算法发现，在标记为非体育活动相关的推文中，准确率为97%。的F体育活动推文的得分为0.90，总体准确率为85%。体育活动推文分类中的典型错误包括使用习语(例如，迟到)或推文是关于观看体育比赛而不是进行体育运动。

此外，我们评估了我们的算法在推特中识别相关食物和体育活动术语的能力。为了做到这一点，我们检查了一个随机的推文子集，这些推文被算法识别为食物(n=200)和体育活动(n=200)。这里我们关注的是算法进行字符串检测的准确性。我们手动读取tweet以验证手动注释是否与检测到的术语一致。对于食物推文，87%的手动注释与算法中检测到的所有术语匹配。当推文包含包含多个没有间隔的食物术语的标签时(例如，#chocolatebrownie)，或者当有拼写错误(例如，sandwhich)或者当食物不在食物列表中时，就会出现术语未检测错误。体力活动相关术语的字符串检测更加准确，98%的手动注释与该算法检测到的术语匹配。错误包括从字典中遗漏某些术语(例如，循环)和使用没有间隔的标签(#runrunrun)。

我们通过Amazon Mechanical Turk (Mturk;亚马逊公司，西雅图，华盛顿州，美国)，一个在线众包市场[66]。我们随机选择了500条推文，其中50%被我们的算法标记为快乐，50%被标记为不快乐。然后，我们通过随机排序创建了20个在线调查，每个调查由25条tweet组成。我们要求参与者给每条推文的情绪打分。所有20次调查都在2015年4月1日进行。每次在线调查在收到15份回复后自行结束;上一次调查于2015年4月5日结束。每完成一项调查，25美分(0.25美元)就会存入参与者的Mturk账户。共有32名参与者完成了300份调查(即每份调查15份回复，20份调查)。一些参与者完成了多项调查，而不仅仅是一项。 Each tweet was then assigned a label of either happy or not happy based on the modal response from Mturkers (participants from Amazon Mturk). We found an accuracy of 69% for happy tweets and 80% for nonhappy tweets when compared to responses from Mturkers. The overall accuracy for sentiment was 78%, with anF得分为0.54。

我们还将MALLET的性能与另外两种情感分析技术进行了比较:一种流行的词袋技术，涉及使用10,000个单词列表[67]和Sentiment140，一个机器学习分类器[68]。在LabMT实验的500条对照推文中，词袋算法的准确率为73% (F得分0.55)，而Sentiment140的准确率为77% (F得分0.47)。

其他可公开获得的邻里数据

为了研究twitter衍生的社区变量与更传统的社区变量之间的关系，我们将社交媒体数据集与2010年人口普查和2014年美国社区调查数据合并，这些数据包括以下人口统计、家庭和经济特征:家庭规模、家庭收入中位数和以下百分比:65岁及以上年龄组，10-24岁，男性，非洲裔美国人，白人，西班牙裔，有亲属(配偶和子女除外)的家庭，有未婚伴侣的家庭，单身女性户主家庭，独居家庭，自住住房，大学毕业生，失业，高中以下学历和生活贫困的家庭。如果人口普查区的地理中心位于人口超过2500人的地区，则该普查区为城市;其他地区都是农村地区。一个邮政编码被定义为城市，如果其大部分(75%或更多)的土地面积被描述为城市(即至少包含2500人)。

邮政编码层面的商业类型数据来自2013年美国人口普查局邮政编码商业模式，该数据可通过American FactFinder获取[69]。使用以下北美行业分类系统(NAICS)代码对企业进行分类:722410(饮酒场所[酒精饮料];这些地方也被称为酒吧、酒馆、夜总会，主要供应酒精饮料，可能提供有限的食品服务)和722511(全方位服务的餐馆;这包括，例如，小餐馆和牛排馆)。快餐由以下NAICS代码定义:722513(有限服务餐厅;这些餐厅包括外卖餐厅、免下车餐厅和其他快餐店)和722515(小吃和不含酒精的饮料吧)。我们还跟踪了超市和杂货店(NAICS代码445110)和便利店(NAICS代码445120)。为了检查Twitter提及的体育活动与娱乐设施之间的关联，我们检索了以下类型设施的业务数据:健身和娱乐运动中心(NAICS代码713940)、自然公园(NAICS代码712190)、动物园和植物园(NAICS代码712130)、高尔夫球场和乡村俱乐部(NAICS代码713910)、滑雪设施(NAICS代码713920)和保龄球中心(NAICS代码713950)。

我们从2013年国家生命统计报告中获得了州一级的健康结果数据，包括年龄调整后的全因死亡率和凶杀案。本报告中的数据基于50个州和哥伦比亚特区所有居民死亡证明的信息。死亡证明一般由殡仪馆馆长、主治医生、法医和验尸官完成。每10万人的年龄调整死亡率以2000年美国标准人口为基础。死亡原因统计数据是根据《国际疾病分类第十版》，并根据潜在的死亡原因进行分类的。

我们从2013年行为风险因素监测系统(BRFSS)中获得了50个州的美国成年居民的健康风险行为和慢性病的年龄调整患病率，BRFSS是美国主要的健康相关电话调查系统。这些问卷是由BRFSS州协调员和疾病控制与预防中心的工作人员制作的。BRFSS数据包括自我报告的身体活动、自我评价的健康状况、身体质量指数(BMI, kg/m)²)，慢性病的医疗诊断合计到州一级。一项全国健康调查的数据表明，根据自我报告的身高和体重得出的BMI估计值低于根据测量的身高和体重得出的BMI估计值，尽管BMI差异一般小于1.0 kg/m²按性别及年龄组别划分[70]。州一级的BRFSS数据是公开的。较小的区域聚合可能需要数据使用协议。除了州级BRFSS数据外，我们还利用2009-2014年犹他州BRFSS调查中的限制访问邮政编码级别数据来检查邮政编码级别的健康结果[71，72]。

回归分析

我们采用调整后的线性回归模型来检验地区级Twitter特征与其他地区级特征(人口统计、商业特征和健康结果)之间的关联。为了便于解释不同变量的结果，我们对所有变量进行了标准化，使其均值为零，标准差为1。我们研究了空间自相关，发现Moran 's I对于人口普查区的Twitter幸福感最高(0.12)，而对于其他Twitter地区和邮政编码摘要则小于0.04。为了解释线性回归分析中区域水平值的空间自相关性，我们调整了一个县内人口普查区和邮政编码值聚类的标准误差。统计分析采用Stata MP13 (StataCorp LP)和ArcGIS Desktop version 10.1-10.3 (Esri)进行。

表1显示描述性统计信息。大约20%的推文是快乐的。大约5.1%的推文是关于食物的，1.8%是关于体育活动的。参考食物的热量密度平均值和中位数分别为每100克239卡路里和209卡路里。关于健康食品的推文比关于快餐的推文更快乐(28.3%比14.5%;P<措施)。体力活动提到的平均和中位数运动强度(假设一个155磅的人30分钟)分别是199和130卡路里。

图1展示了人口普查区快乐推文的空间分布，突出了美国各地的差异。多媒体附录2按邮政编码表示快乐推文的空间分布。快乐推文的比例在以下几个州最高:蒙大拿州、田纳西州、犹他州、新罕布什尔州、阿肯色州、缅因州、科罗拉多州和纽约州。多媒体附录3）.相比之下，以下几个州的快乐推文比例最低:路易斯安那州、北达科他州、俄勒冈州、马里兰州、德克萨斯州、特拉华州、西弗吉尼亚州和俄亥俄州。多媒体附录3）.

表2给出了调整后的线性回归分析的结果，检验了人口特征与人口普查区水平上twitter衍生特征之间的关联(快乐的推文百分比，关于健康食品的推文百分比，关于快餐的推文百分比，以及关于体育活动的推文百分比)。人口普查区特征，如非洲裔美国人的百分比(β系数，B= - 0.11)、较大的家庭规模(B= - 0.18)和经济劣势(B= - 0.19)与较低的幸福感有关。经济劣势与健康食品推文(B= - 0.09)、快餐推文(B= - 0.09)和体育活动推文(B= - 0.03)呈负相关。都市化与快餐推特的高频率密切相关(B= 0.29)。家庭规模越大，健康食品推文(B= - 0.11)和快餐推文(B= - 0.07)都越少。

图1所示。快乐推文的全国分布，按人口普查区。地理标记的推文在空间上与2010年人口普查区的位置相连，并计算情绪得分。这张颜色编码的地图显示了每个人口普查区快乐推文的比例，颜色越深表示快乐推文的比例越高。

表1。2015年4月至2016年3月对我国全国Twitter数据库的描述性统计(N=79,848,992)。

		意思是(SD)
幸福
	%快乐的推文	19.9 (6.7)
饮食文化
	关于食物的推文百分比	5.1 (22.0)
	% Food关于健康食品的微博	15.9 (36.6)
	% Food推特是关于快餐的	9.2 (29.0)
	推特食物的热量密度(每100克)	238.5 (219.8)
	%食物推特是快乐的	27.0 (44.4)
	%健康食品推特是快乐的	28.3 (45.0)
	%快餐的推文是快乐的	14.5 (35.2)
体育活动文化
	%关于体育活动的推文	1.8 (13.3)
	运动强度(每30分钟)	199.1 (117.5)
	%体育活动推文是快乐的	28.2 (45.0)

表2。来自70,515个人口普查区(数据来源:2010年美国人口普查数据)的快乐、食物和体育活动推文的人口和经济预测。

束的特点	%快乐推文 Beta (95% CI)^一个	P价值	%健康食品推文 Beta (95% CI)^一个	P价值	%快餐推特 Beta (95% CI)^一个	P价值	%体育活动推文 Beta (95% CI)^一个	P价值
城市(是的)	−. 01 (−。04 - 0.03)	.79	. 01 (−。02 - 0.03)	54	29 （.26to .31)	<措施	−.02点 (−。03 ~−0.01)	<措施
人口密度	06 （.03 - 0.08)	<措施	.04点（.02 - 0.07)	措施	−03 (−。03至- 0.02)	<措施	〇〇 (−。01 - 0.00)	总共花掉
65岁及以上	02 (−。01至0.04)	.09点	−03 (−。04 ~ - 0.02)	<措施	−03 (−。04 ~−0.01)	<措施	02 （.02 - 0.03)	<措施
% 10-24岁	−.02点 (−。04至00)	. 01	−0。 (−。05 ~ - 0.04)	<措施	〇〇 (−。01至0.01)	报	〇〇 (−。01 - 0.00)	.14点
%的男性	.04点（.03至0.06)	<措施	. 01 （.00 - 0.02)	. 21	−0。 (−。06至- 0.04)	<措施	. 01 （.01至0.02)	<措施
非裔美国人	−厚 (−。14to −.07)	<措施	−03 (−。04 ~−0.01)	<措施	−03 (−。04 ~ - 0.02)	<措施	−. 01 (−。02 ~−0.01)	<措施
%的西班牙	−.04点 (−。08至00)	0。	02 （.01 - 0.03)	〇〇	07 （.05至0.09)	<措施	〇〇（.00 - 00)	.77点
家庭规模	−只要 (−。20 to −.15)	<措施	−厚 (−。12to −.09)	<措施	−07 (−。(09 ~ - 0.05)	<措施	−. 01 (−。0.01 ~−0.01)	<措施
经济劣势^b	−.19 (−。21to −.16)	<措施	−.09点 (−。10to −.08)	<措施	−.09点 (−。10to −.07)	<措施	−03 (−。04至- 0.03)	<措施

^一个调整后的线性回归同时包括所有地区人口统计学和经济预测因子。标准误差解释了县一级的聚类。

^b经济劣势因素得分来自以下人口普查区特征:女性户主家庭百分比、贫困家庭百分比、失业率、大学毕业生百分比(反向编码)和家庭收入中位数(反向编码)。

敏感度分析进行了检验人口特征和幸福之间的关系为不同的聚集单位:邮政编码地区。在人口普查区水平上看到的关系与邮政编码水平上看到的关系相似，尽管它们在邮政编码水平上更加低调(未显示)。之所以会出现这种情况，是因为人口普查区的设计在经济地位和人口特征等特征方面是相对一致的[73]。

健康食品(如蔬菜、水果、坚果、瘦肉蛋白)占食物推文的15.9%，而快餐店占食物推文的9.2%。最受欢迎的食物包括咖啡、啤酒、披萨、葡萄酒、鸡肉、冰淇淋和寿司(图2）.流行的健康食品术语包括鸡肉、鸡蛋、沙拉、火鸡和香蕉(图3）.星巴克是最受欢迎的快餐店(占所有快餐店提及的46%)，其次是Chipotle (9.2%)， Taco Bell(5.4%)和Buffalo Wild Wings(5.2%)。我们还研究了美食推文与商业特征之间的关系。在邮政编码水平上，更多的快餐店与更多的快餐推文(B= 0.15)和更高的食物提及热量密度(B= 0.08)相关。城市地区的推文热量密度更高(B= 0.08)，提到快餐店的次数更多(B= 0.16)。快乐的推文在邮政编码较多的企业(B=.11)和提供全方位服务的餐馆(B=.16)中更为普遍。快餐店(B= - 0.16)和便利店(B= - 0.07)的数量越多，快乐推文的数量越少(表3）.

此外，相对较少的体育活动术语(13个术语)占体育活动推文的75% (图4)，尽管我们的数据收集系统是为了收集376条体育活动相关的推文而设置的。最流行的词汇包括散步、跳舞和跑步。在邮政编码水平上，更多的健身和休闲运动中心与更高的运动强度(B= 0.05)和更快乐的推文(B=.07)有关。令人惊讶的是，自然公园的存在与提及体育活动无关。都市化与较低的体育活动推文频率和快乐推文有关，但运动强度较高(表4）.在补充分析中，我们检查了推文中提到的身体活动期间所覆盖的英里数信息(n=36,291;中位数3.1英里)。甚至更少的推文包含了人们从事体育活动的时间。在5823条提到锻炼时间的推文中，中位数为2小时。在2402条只涉及体力活动分钟的推文中，分钟数的中位数为20分钟。

表3。邮政编码和商业特征作为食物推特和幸福的预测因素(数据来源:2013年邮政编码商业模式和2010年美国人口普查数据)。

邮政编码特征	食物推特的平均热量密度 n = 21756 Beta (95% CI)^一个	P价值	%快餐推特 n = 21756 Beta (95% CI)^一个	P价值	%快乐推文 n = 26584 Beta (95% CI)^一个	P价值
城市(是的)	。08(。05 ~ 0.11)	<措施	16(。12to .20)	<措施	−.02点(−。06至0.02)	29
人口密度	(。00 - 0.01)	。	货值(−。01至0.01)	.86	幅(。00 - 0.03)	只要
企业数量	−. 01(−。02 - 0.01)	点	02(。00 - 0.04)	.04点	厚(。08 - 0.15)	<措施
卖酒的商家	−03(−。04 ~ - 0.02)	<措施	−.04点(−。05 ~ - 0.04)	<措施	−. 01(−。02 - 0.00)	02
全方位服务餐厅	−.04点(−。(06 ~ - 0.02)	<措施	. 01(−。01 - 0.03)	点	16(。13to .20)	<措施
快餐店	。08(。06 - 0.10)	<措施	酒精含量(。13to .17)	<措施	−16(−。20 to −.12)	<措施
杂货店	幅(。00 - 0.01)	陈霞	−.04点(−。05 ~ - 0.03)	<措施	−.02点(−。04至00)	0。
便利店	02(。01至0.02)	<措施	−03(−。04 ~ - 0.02)	<措施	−07(−。08 ~ - 0.05)	<措施

^一个调整后的线性回归同时包括所有邮政编码和商业特征。标准误差解释了县一级的聚类。

表4。邮政编码和商业特征作为身体活动推文和幸福感的预测因子(数据来源:2013年邮政编码商业模式和2010年美国人口普查数据)。

邮政编码特征	%体育活动推文 n = 26839 Beta (95% CI)^一个	P价值	运动强度 n = 20715 Beta (95% CI)^一个	P价值	%快乐推文 n = 26839 Beta (95% CI)^一个	P价值
城市(是的)	−.09点(−。11to −.07)	<措施	07(。04 ~ 0.11)	<措施	−。08(−。12to −.04)	<措施
人口密度	−. 01(−。02 - 0.00)	. 01	−. 01(−。01 - 0.00)	03	幅(。00 - 0.02)	。08
休闲健身中心	幅(。00 - 0.02)	.003	0。(。04至0.06)	<措施	07(。06 - 08)	<措施
自然公园	幅(。00 - 0.02)	0。	−. 01(−。01 - 0.00)	. 21	(03。02 - 0.04)	<措施
动物园和植物园	(。00 - 0.01)	.19	货值(−。01 - 0.00)	.35点	02(。01 - 0.03)	<措施
高尔夫球/乡村俱乐部	(03。02 - 0.03)	<措施	−0。(−。06至- 0.04)	<措施	(03。02 - 0.04)	<措施
滑雪设施	.04点(。04至0.05)	<措施	02(。02 - 0.03)	<措施	(03。02 - 0.03)	<措施
保龄球中心	−. 01(−。02 ~−0.01)	<措施	−. 01(−。02 - 0.00)	. 01	−.02点(−。03 ~−0.01)	<措施

^一个调整后的线性回归同时包括所有邮政编码和商业特征。标准误差解释了县一级的聚类。

表5所示。推特幸福感作为犹他州232个邮政编码健康结果的预测因子(数据来源:犹他州行为风险因素监测系统[BRFSS] 2009-2014年调查)。BRFSS经历了设计特征的改变。生活不满意值仅适用于2009年和2010年。所有其他变量均为2011-2014年可用数据的平均值)。

邮政编码健康结果	Beta (95% CI)^一个 n = 232	P价值
生活的不满	. 01(−。13to .15)	点
自评健康状况(分数越高=健康状况越差)	−。08(−。21to .05)	. 21
过去一个月的任何身体活动/锻炼	点(。00 - 0.26)	0。
体重指数(kg/m²）	−13。(−。26to −.01)	.04点

^一个单独的线性回归模型为每个邮政编码的健康结果。

表6所示。健康结果的州一级Twitter情绪预测因子(N=美国相邻的49个州加上哥伦比亚特区)。数据来源:2013年国家生命统计报告和2013年成人行为风险因素监测系统(BRFSS)调查。

	推特预测变量
国家级成人健康结果	幸福 Beta (95% CI)^一个	P价值	对健康食品的积极态度 Beta (95% CI)^一个	P价值	对体育活动的积极态度 Beta (95% CI)^一个	P价值
每10万人的全因死亡率	−32.34 (−61.59 ~−3.09)	03	−23.51 (−40.54 ~−6.48)	. 01	−25.37 (−42.00 -−8.74)	04
每10万人的凶杀率	−1.02(−1.98 ~−0.06)	03	−.76(- 1.28 ~ - 0.25)	. 01	−。(- 1.28 ~ - 0.23)	. 01
%患有糖尿病	−算下来(−1.05 ~−0.12)	02	−点(−。78to −.27)	<措施	−.41点(−。68to −.14)	04
%肥胖	−2.27(−3.35 ~−1.18)	<措施	−1.67(−2.25 ~−1.09)	<措施	−1.43(−2.05 ~−0.80)	<措施
%自评健康状况差/一般	−1.13(−2.13 ~−0.13)	03	−.77点(- 1.36 ~ - 0.19)	. 01	−点(- 1.21 ~ - 0.02)	0。
%高胆固醇	−尾数就(−1.66 ~ 0.11)	。08	−.51(−1.04 ~ 0.01)	06	−。(- 1.25 ~ - 0.26)	.003
%身体不活动	−2.46(−4.80 ~−0.12)	.04点	−2.32(−3.61 ~−1.03)	措施	−1.59(−2.97 ~−0.22)	02
目前吸烟	−1.47(−2.68 ~−0.27)	02	−1.20(−1.88 ~−0.52)	措施	−1.14(−1.82 ~−0.45)	.002

^一个表中的每个单元格表示预测变量(以列表示)对状态级健康状况结果(以行表示)的系数估计。调整后的线性回归模型控制了州级人口统计数据:年龄中位数，非西班牙裔白人百分比，家庭收入中位数。

此外，合并与健康相关的数据集，我们检查了基于twitter的变量与其他健康和福祉指标之间的关联。利用2009-2014年犹他州BRFSS的数据，我们发现犹他州推特快乐得分较高的邮政编码与较低的身体质量指数和较高的身体活动相关(表5）.然而，推特的快乐得分与自我评价的健康或生活满意度没有统计学上的显著关系。

正如推特所显示的那样，国家层面的幸福感越高，肥胖的患病率就越低;幸福感每增加一个标准差，肥胖率就会降低两个百分点。对健康食品更积极的看法与糖尿病和肥胖的患病率较低以及不运动或目前吸烟的人口比例较低有关。表6）.对体育活动的积极态度与较低的肥胖率有关。

表7显示了其他twitter衍生变量(关于健康食品的食品推文百分比，关于快餐的食品推文百分比，以及关于体育活动的推文百分比)和选定数量的州健康结果的调整回归结果。在推特衍生的三个变量中，关于体育活动的推文百分比是最强和最一致的预测因子;更多关于体育活动的在线讨论与较低的全因死亡率和较低的肥胖患病率以及一般/较差的自我评价健康有关。

表7所示。州一级Twitter食物和身体活动特征作为健康结果的预测因子(N=美国本土49个州加上哥伦比亚特区)。数据来源:2013年国家生命统计报告和2013年成人行为风险因素监测系统(BRFSS)调查。

	国家级成人健康结果
Twitter预测	每10万人的全因死亡率 Beta (95% CI)^一个	P价值	肥胖的百分比 Beta (95% CI)^一个	P价值	%不良/一般自评健康状况 Beta (95% CI)^一个	P价值
%关于健康食品的推文	11.74(−6.48 ~ 29.96)	.20	−.09点(−。64to .45)	收	厚(−。48to .70)	点
%关于快餐的推文	9.84(−8.56 ~ 28.25)	29	.68点(。13to 1.23)	02	.77点(。18to 1.37)	. 01
%关于体育活动的推文	−28.17(−46.68 ~−9.65)	04	−1.86(−2.41 ~−1.31)	<措施	−.89(- 1.49 ~ - 0.29)	. 01

^一个调整后的线性回归模型分别针对每个州级健康结果(列)运行，并同时包括所有三个预测因子(行)以及以下州级控制变量:年龄中位数、非西班牙裔白人百分比、家庭收入中位数。贝塔系数表示预测因子(行变量)的每个标准差变化对结果的影响。

主要研究结果

在本文中，我们详细介绍了从Twitter数据构建的新的国家社区数据存储库的构建，该存储库解决了对大地理区域可用的社区数据的迫切需求，并且可以高效且经济地更新。我们证明，用于构建幸福、食物和体育活动指标的简单机器学习算法可以与人工生成的标签非常吻合。大约五分之一的推文被认为是快乐的。美国各地的幸福感存在很大的空间差异。例如，在蒙大拿州(最快乐的州)，快乐的推文比例比在路易斯安那州(最不快乐的州)高出10%。只需要几个术语就能捕捉到大多数关于食物和体育活动的推文。经济劣势、城市化程度和快餐店的存在预示着该地区较低的幸福感水平和推特上提及健康行为的频率。此外，我们发现Twitter的区域级特征与健康行为、慢性病、死亡率和自评健康等区域级健康结果相关。

背景研究结果

社交媒体代表了一种重要的新数据资源，越来越多地用于公共卫生工作，如监测吸烟行为和对烟草产品的看法[74]。然而，很少有研究利用社交媒体数据来调查地方特征。更常见的是，利用社交媒体数据的研究考察了市、县或州一级的模式[67，75而不是更精细的聚集水平，这对于理解邻里条件的潜在影响是必要的。

社区可以通过多种途径影响健康。弱势社区支持体育活动和健康饮食的资源可能较少。与富裕和白人占多数的社区相比，贫穷和少数族裔社区的大型超市更少(那里的健康食品更丰富，价格也更便宜)。研究表明，随着超市供应的增加，水果和蔬菜的消费量也会增加[17]。被称为“食物沙漠”的贫困社区往往也有更多的快餐店，这可能会导致体重增加。6]。在这项研究中，我们发现快餐店的数量越多，推特上提到快餐的频率越高，提到健康食品的频率越低，对健康食品的正面评价越低。我们的研究结果与最近一项分析Instagram帖子的研究相一致，该研究发现，与食物沙漠以外的Instagram帖子相比，来自被视为食物沙漠的人口普查区的帖子提到水果和蔬菜的次数更少。76]。此外，社区可能通过社会心理途径促进健康状况不佳。生活在不干净、嘈杂和暴力的社区中，过度激活应激反应会对心理造成伤害[77，78]。

我们发现，经济劣势与较低的快乐推文频率有关。米切尔及其同事此前的研究发现，在城市层面上，较高的社会经济地位与较高的推特幸福得分有关。此外，他们还发现了190个大都市统计区域的幸福感和肥胖率之间的轻微相关性(r= - 0.34)。67推特的幸福得分与其他州级幸福指标有适度的相关性，包括枪击事件、和平指数、美国健康排名和盖洛普-健康之路幸福指数(相关性在0.51到0.64之间)[67]。

研究优势与局限

在本文中，我们描述了如何创建一个新的社区数据存储库，该存储库由Twitter数据构建，并与公开可用的管理数据集合并。然而，这项研究受到一些限制。例如，社交媒体的用户往往更年轻;2014年，18岁至29岁的人中有37%使用Twitter，而50岁至64岁的人中这一比例为12%，65岁及以上的人中这一比例为10%。尽管如此，社交媒体的采用率一直在稳步上升[79]。推特还包括在其他社区资源中很少发现的信息。Twitter用户由个人以及个人、组织、公司和新闻媒体组成。因此，汇编这类资料可以更全面地审查社会环境。

此外，我们只收集了公开可用推文的一个子集，因此我们分析样本的结论可能无法推广到所有推文[80]。我们从Twitter数据中构建邻里指标需要我们将数据收集限制在地理位置上的tweet。我们使用了Twitter的API，该API允许在任何给定时间点检索最多1%的tweet。先前的研究表明，大约1%至2%的推文可能包含全球定位系统的位置信息[81，82使用Twitter的流媒体API可能会获得所有地理标记推文的40%到90% [81，82]。有位置信息的推文可能与没有位置信息的不同。例如，用户分享其位置的推文可能更有可能包含公共和社交活动，例如朋友在餐馆或活动中发布的推文。然而，在2015年7月9日至7月14日收集的控制推文子集(n=138,152条推文)的敏感性分析中，我们没有发现有地理坐标和没有地理坐标的推文之间的幸福得分有任何统计学上的显著差异(未显示)。

在根据Twitter数据创建邻里指标时，我们优先考虑了透明度和易于实现，以便其他研究人员可以复制我们的算法。我们的情绪算法经过训练，可以区分快乐和不快乐的情绪(包括中性和悲伤的情绪)。因此，我们无法具体检查悲伤推文的流行程度，这可能提供有关社区福祉的额外有用信息。在未来的工作中，我们计划以悲伤的识别为目标。我们的食物和体育活动算法实现了基于语料库的分类，其步骤很容易理解。然而，这种技术并没有考虑到推文中讽刺或幽默的整个背景，尽管一些研究显示出有希望的结果，但大多数自然语言处理算法仍然回避了这些挑战[83，84]。我们对食物热量密度的分析以每100克卡路里为单位。大多数推文都没有具体说明食物消耗的确切数量，因此我们的估计只是一个近似值。

此外，推文的内容反映了人们觉得舒服的信息类型，可能不代表他们的感受或经历的真实范围。例如，人们可能会觉得表现出中立的立场比表达两极分化的观点更舒服。某些食物(纸杯蛋糕)可能比其他食物(芹菜)更常被发推特。此外，我们不能确定推特上的食物确实被吃掉了。类似地，体育活动推文可能反映了对这些体育活动的意图、计划和实际参与的混合。此外，对体重155磅的人进行30分钟的体力活动的运动强度进行了评估，根据活动的类型和参与该活动的人，这可能是低估或高估的。

结论

近几十年来，肥胖和相关慢性疾病的流行上升表明了结构性力量和社会进程的重要性，但缺乏有关背景因素的数据限制了对健康的多层次影响的调查。可以独特地利用社交媒体数据来捕捉对健康有潜在影响的社会和文化进程[71，72，85-89]。例如，公共职位可以用来衡量普遍的幸福感，这种幸福感可以通过情绪传染和心理健康与身体健康之间的相互联系影响健康。此外，关于健康行为的公开帖子可以帮助我们了解这些行为的流行程度以及当地的社会规范。我们证明，推文可以提供一种评估流行情绪、饮食行为和身体活动的手段，这可以为健康干预和政策提供信息，以满足不同社区的需求。特别是，正如这项研究表明的那样，社会和经济劣势、高度城市化和快餐店较多的社区可能表现出较低的幸福感和较少的健康行为。

致谢

这项工作得到了国家卫生研究院对Nguyen博士的资助(5K01ES025433)。该研究使用了犹他州BRFSS调查的数据，该调查由犹他州卫生部与美国疾病控制和预防中心联合实施。我们感谢Patsaporn Kanokvimankul协助查找本文的一些外部健康结果数据。我们感谢Jared B Hawkins博士和John S Brownstein博士在与Twitter数据相关的质量控制活动中提供的帮助。

利益冲突

没有宣布。

‎

多媒体附录1

不同的MALLET切点为快乐的推文和比较与手动生成的标签。

PDF档案(adobepdf档案)，14KB

‎

多媒体附录2

快乐推文的全国分布，按邮政编码排列。地理标记的推文在空间上与它们2010年的邮政编码位置联系起来，并计算出情绪得分。这张用颜色编码的地图显示了每个邮政编码区域内快乐推文的比例，颜色越深表示快乐推文的比例越高。

JPG文件，6MB

‎

多媒体附录3

各州快乐推文的比例。

PDF档案(adobepdf档案)，18KB

健康的社会决定因素。华盛顿特区:美国卫生与公众服务部;2016年1月30日URL:https://www.healthypeople.gov/2020/topics-objectives/topic/social-determinants-of-health[访问日期:2016-09-28][WebCite缓存］
在一代人的时间内缩小差距:通过对健康的社会决定因素采取行动实现卫生公平。柳叶刀2008年11月08日;372(9650):1661-1669。
居住在珀斯市区丘陵住宅区的人患糖尿病的几率更低:虚假关联还是重要的环境决定因素?国际卫生地理杂志，2013;12(1):1-11。
李建平，李建平，李建平。住房流动性对青少年哮喘的影响:基于住房代金券的研究。社会科学与医学2014;07:136-144 [j]免费全文] [CrossRef] [Medline］
引用本文:阮国强，李建平，李建平。住房券对美国青少年心理健康的异质性影响。中华卫生杂志，2016,26(4):755-762。［CrossRef] [Medline］
Morland K, Wing S, Diez RA, Poole C.与食品商店和食品服务场所位置相关的社区特征。预防医学杂志2002;22(1):23-29。［Medline］
李建军，李建军，李建军，李建军。肥胖的影响因素:饮食与运动的关系。社会科学与医学2007;65(9):1882-1897。［CrossRef] [Medline］
王晓明，王晓明，王晓明，王晓明。社区环境的社会经济和食物相关的身体特征与体重指数有关。中华流行病学杂志;2007;31 (6):491-498 [J]免费全文] [CrossRef] [Medline］
李建平，李建平，李建平。你在哪里购物:杂货店的位置、体重和社区。中华预防医学杂志;2006;31(1):10-17。［CrossRef] [Medline］
Christiansen KMH, Qureshi F, Schaible A, Park S, Gittelsohn J.环境因素对巴尔的摩低收入非裔美国青少年饮食行为的影响。[J] .心理学报，2013;45(6):652- 656。［CrossRef] [Medline］
Block JP, Scribner RA, DeSalvo KB。快餐、种族/民族和收入:一个地理分析。中华预防医学杂志2004;27(3):211-217。
Roemmich JN, Epstein LH, Raja S, Yin L, Robinson J, Winiewicz D.进入公园和娱乐设施与幼儿体育活动的关系。医学预防2006;43(6):437-441。［CrossRef] [Medline］
李建军，李建军，李建军，李建军。测量体育活动的建筑环境:科学现状。中华预防医学杂志2009年4月;36(4增刊):S99-S123 [J]免费全文] [CrossRef] [Medline］
Mujahid MS, Diez Roux AV, Shen M, Gowda D, Sánchez B, Shea S，等。多民族动脉粥样硬化研究中邻里环境与肥胖的关系中华流行病学杂志[J]; 2008; 31 (1): 349- 357 [J]免费全文] [CrossRef] [Medline］
颜爱华，Kaplan GA。贫困地区居住与身体活动水平的变化:来自阿拉米达县研究的证据。中华卫生杂志;1998;32(11):1709-1712。
罗斯CE。散步、锻炼和吸烟:邻里关系重要吗?中国生物医学工程学报(英文版);21(2):344 - 344。［Medline］
Morland K, Wing S, Diez RA。当地饮食环境对居民饮食的影响:社区动脉粥样硬化风险研究。[J] .中华卫生杂志;2002;22(11):1761-1767。［Medline］
Black JL, Macinko J, Dixon LB, Fryer GE。纽约市的社区和肥胖问题。健康场所2010;16(3):489-499。［CrossRef] [Medline］
将背景带回流行病学:多层次分析中的变量和谬误。[J] .中华卫生杂志;1998;22(2):216-222。［Medline］
区域、阶级和健康:我们应该关注地方还是人?[J]社会科学，1993;22(2):213-233。
张建军，张建军。基于多水平模型的健康研究。社会科学与医学1998;46:97-117。
Pearlin李。压力的社会学研究。中华卫生杂志;2009;30(3):391 - 391。
约翰·勒。社区社区样本中的社区社会凝聚力和创伤后应激障碍:来自底特律社区健康研究的发现社会心理学报;2012;47(12):1899-1906。
《肥胖、不快乐和富裕的挑战:理论与证据》。经济科学学报(英文版);2007;17(1):1 - 6。
自杀率、生活满意度和幸福感作为人口心理健康的标志。社会心理杂志，2006;41(5):333-337。
刘建军，刘建军，刘建军。幸福的宏观经济学。经济统计，2003;85(4):809-827。
布兰奇弗劳尔DG，奥斯瓦尔德AJ。高血压和幸福跨越国家。中华卫生杂志;2008;27(2):218-233。
幸福的时间模式:全球社会网络中的信息:幸福计量学和Twitter。科学通报，2011;6(12):662 - 662。
国民幸福总值:伊斯特林悖论的答案?[J]经济研究，2008;31(1):22- 22。
美国青少年的自杀与友谊。中华卫生杂志;2004;19(1):89-95。
《分歧的现实:母亲、父亲和青少年的情感生活》。纽约:Basic Books;1994.
Fowler JH, Christiakis N.幸福在大型社会网络中的动态传播:Framingham心脏研究20年的纵向分析。中华医学杂志2008;33(2):391 - 391。
关伟，卡莫。情境化抑郁传染:一种多层次的网络方法。社会卫生2015年12月09日［CrossRef］
Pachucki MA, Jacques PF, Christakis NA。配偶、朋友和兄弟姐妹之间食物选择的社会网络一致性。中华卫生杂志;2011;31 (11):2170-2177 [J]免费全文] [CrossRef] [Medline］
Keating NL, O'Malley AJ, Murabito JM, Smith KP, Christakis NA。最小的社会网络效应在癌症筛查行为中很明显。巨蟹座2011年7月1日;117(13):3045-3052 [免费全文] [CrossRef] [Medline］
罗森奎斯特JN, Murabito J, Fowler JH, Christakis NA。酒精消费行为在大型社会网络中的传播。实习医学2010年4月6日;152(7):426-433 [j]免费全文] [CrossRef] [Medline］
梅德尼克SC, Christakis NA, Fowler JH。睡眠不足的蔓延影响了青少年社交网络中的药物使用。科学通报，2010;5(3):973 [j]免费全文] [CrossRef] [Medline］
国家刑事司法档案。2012。芝加哥社区人类发展项目http://www.icpsr.umich.edu/icpsrweb/PHDCN/[访问日期:2016-09-28][WebCite缓存］
巴尔的摩邻里指标联盟:生命体征。2013年9月24日URL:http://bniajfi.org/wp-content/uploads/2014/04/VS-11-Intro.pdf[访问日期:2016-09-28][WebCite缓存］
Peterson RD, Krivo LJ。全国邻里犯罪研究。2000。URL:http://www.icpsr.umich.edu/icpsrweb/RCMD/studies/27501[访问日期:2016-09-28][WebCite缓存］
信息流行病学:在网络上追踪流感相关搜索以进行综合征监测。AMIA年会程序2006:244-248 [免费全文] [Medline］
叶森巴赫。信息流行病学与信息监测。中华预防医学杂志，2011;40(5):S154-S158。
Yepes AJ, Han B.利用Twitter调查公共卫生监测。ACL-IJCNLP 2015; 2015:164。
Nsoesie EO, Kluberg SA, Brownstein JS。食源性疾病的在线报告涵盖了官方食源性暴发报告中涉及的食品。2014年10月;67:264-269 [j]免费全文] [CrossRef] [Medline］
吸引H,曹Y,垫片E,李J,李C,金正日SH。估计流感疫情同时使用搜索引擎查询数据和社交媒体数据在韩国。医学互联网研究，2016;18(7):e177 [J]免费全文] [CrossRef] [Medline］
mcciver DJ, Hawkins JB, Chunara R, Chatterjee AK, Bhandari A, Fitzgerald TP，等。用Twitter描述睡眠问题。医学互联网研究，2015;17(6):e140 [J]免费全文] [CrossRef] [Medline］
阮QC。利用地理标记的Twitter数据来检查邻居的幸福、饮食和体育活动。应用地理，2016;73:77-88。
Yin Z, Fabbri D, Rosenbloom ST, Malin B.一个可扩展的框架来检测Twitter上的个人健康提及。医学互联网研究，2015;17(6):e138 [J]免费全文] [CrossRef] [Medline］
霍金斯简森-巴顿。使用Twitter衡量美国医院患者感知的护理质量。BMJ质量安全2015:4309。
Etherington TR.使用开源Python方法向地理学家教授入门GIS编程。地理学报，2016;40(1):117-130。
树:一种空间搜索的动态索引结构。1984年发表于:1984年ACM SIGMOD数据管理国际会议;1984;纽约，纽约，第47-57页。
Nguyen QC, Schmidt NM, Glymour MM, Rehkopf DH, Osypuk TL.住房流动性干预对社会经济地位较高的家庭青少年的心理健康效益更大吗?健康场所2013年9月;23:79-88 [免费全文] [CrossRef] [Medline］
拉尔森NI, Story MT, Nelson MC.邻里环境:在美国获得健康食品的差异。预防医学杂志，2009,36(1):74-81。［CrossRef] [Medline］
整合人群和患者水平的数据用于二次使用电子健康记录来研究超重和肥胖。种猪卫生技术通报2013:192。
斯坦福自然语言处理小组。斯坦福记号赋予器。2015.URL:http://nlp.stanford.edu/software/tokenizer.shtml[访问日期:2016-09-28][WebCite缓存］
李建军，李建军，李建军。基于熵的文本分类方法。1999年发表于:IJCAI-99信息过滤机器学习研讨会;1999;斯德哥尔摩,瑞典。
对学者的情感。URL:https://sites.google.com/site/twittersentimenthelp/for-researchers[访问日期:2016-08-16][WebCite缓存］
Twitter情感语料库。: Sanders Analytics;2011.URL:http://www.sananalytics.com/lab/twitter-sentiment/[访问日期:2016-08-16][WebCite缓存］
Kaggle在班级，2011年。情感分类URL:https://inclass.kaggle.com/c/si650winter11［WebCite缓存］
国家营养数据库。华盛顿特区:美国农业部;2014年2月5日。URL:http://ndb.nal.usda.gov/ndb/search/list?format=&count=&max=25&sort=&fg=&man=&lfacet=&qlookup=&offset=50[2016-09-28]访问
安斯沃思。2011年身体活动纲要:守则和MET值的第二次更新。医学体育杂志，2011;43(8):1575-1581。
张宁。关于美国体育活动的Twitter电子口碑:探索性信息流行病学研究。医学互联网学报，2013;15(11)。
李志刚。2011 .基于微博的体育活动对话的描述分析。中国计算机科学与工程学报(ei);2011;加拿大温哥华1555-1560页
身体测量。:国家卫生统计中心、疾病控制和预防中心;2012年9月2日。URL:http://www.cdc.gov/nchs/fastats/body-measurements.htm[访问日期:2016-09-28][WebCite缓存］
哈佛健康出版社。三种不同体重的人在30分钟内燃烧的卡路里。2015.URL:http://www.health.harvard.edu/newsweek/Calories-burned-in-30-minutes-of-leisure-and-routine-activities.htm[访问日期:2016-09-28][WebCite缓存］
又便宜又快——但它好吗?评估自然语言任务的非专家注释。2008年发表于:自然语言处理经验方法会议论文集;2008;斯特劳兹堡，宾夕法尼亚州第254-263页。
Mitchell L, Frank MR, Harris KD, Dodds PS, Danforth CM。幸福的地理:连接twitter的情绪和表达，人口统计和客观特征的地方。科学通报，2013;8(5):644 - 644 [j]免费全文] [CrossRef] [Medline］
情感140一般信息。URL:http://help.sentiment140.com/[访问日期:2016-09-29][WebCite缓存］
邮政编码业务模式。华盛顿特区:美国人口普查局;2015.URL:http://www.census.gov/newsroom/press-releases/2015/cb15-tps39.html[访问日期:2016-09-29][WebCite缓存］
张建军，张建军，张建军，等。年龄对儿童身高、体重和身体质量指数的影响:来自第三次全国健康与营养调查的调查结果。[J]中华饮食杂志，2001;31(1):28-34。［CrossRef] [Medline］
行为危险因素监测系统调查数据。亚特兰大，佐治亚州:疾病控制和预防中心;2013.URL:http://www.cdc.gov/brfss/[访问日期:2016-09-29][WebCite缓存］
犹他州行为风险因素监测系统调查数据。:犹他州卫生部公共卫生评估办公室;2014.URL:http://health.utah.gov/opha/OPHA_BRFSS.htm[访问日期:2016-10-06][WebCite缓存］
地理术语和概念:人口普查区。美国人口普查局;2012年1月6日。URL:https://www.census.gov/geo/reference/gtc/gtc_ct.html[访问日期:2016-10-02][WebCite缓存］
Myslín M，朱s，查普曼W，康威M.使用twitter调查吸烟行为和新兴烟草产品的认知。中国医学杂志，2013;15(8):e174 [J]免费全文] [CrossRef] [Medline］
你就是你的推特:为公共卫生分析推特。2011年7月05日发表于:第五届国际AAAI博客与社交媒体会议论文集;2011;西班牙巴塞罗那。
De Choudry M, Sharma E, kiiciman E.通过社交媒体表征食物沙漠中的饮食选择、营养和语言。2016年发表于:第19届ACM计算机支持协同工作与社会计算会议论文集;2016;旧金山，CA页1157-1170。
McEwen BS。应激、适应和疾病:适应负荷和适应负荷。中国科学院学报(英文版);1998;31(1):33-44。
Seeman TE。适应的代价:适应负荷及其健康后果。实习医师1997;157(19):2259-2268。
社交媒体更新2014。华盛顿特区:皮尤互联网和美国生活项目;2015.URL:http://www.pewinternet.org/files/2015/01/PI_SocialMediaUpdate20144.pdf[访问日期:2016-09-29][WebCite缓存］
样本和过滤器流API的区别。2016年8月6日。URL:https://twittercommunity.com/t/diffence-between-sample-and-filter-streaming-api/15094[访问日期:2016-09-29][WebCite缓存］
对的时间，对的地点?Twitter上的健康传播:位置信息的价值和准确性。互联网医学杂志，2012;14(6)。
样品够好吗?比较Twitter的流媒体API和Twitter的Firehose的数据。出来了。5204v1 cs.SI 2013:1306.
伯福特C，鲍德温TA。自动讽刺检测:你在笑吗?2009年发表于:计算语言学协会会议录;2009;新加坡。
Ptácek T, Habernal I, Hong J.捷克语和英语推特的讽刺检测。:科尔。2014年发表于:第25届国际计算语言学会议;2014年8月23-29日;都柏林，爱尔兰，第213-223页。
Ali MM, Amialchuk A, Heiland FW。青少年体重相关行为:同伴效应的作用。PLoS One 2011;6(6):e21179 [j]免费全文] [CrossRef] [Medline］
Vartanian LR, Sokol N, Herman CP, Polivy J.社会模式为年轻女性提供了适当的食物摄入规范。科学通报，2013;8(11):e79268 [j]免费全文] [CrossRef] [Medline］
张建军，张建军，张建军，等。集体效能与肥胖:社会因素对健康的潜在影响。社会科学与医学2006;62(3):769-778。［CrossRef] [Medline］
美国州和县级市社会资本与肥胖和缺乏运动的关系:一个多水平、多变量分析。中国生物医学工程学报(英文版);2006;31(4):1045-1059。
社会网络、宿主抗性和死亡率:阿拉米达县居民的9年随访研究。[J]中国科学d辑，2009;19(2):1 - 4。

‎

API:应用程序编程接口

BRFSS:行为风险因素监测系统

锤:机器学习语言工具包

Mturk:土耳其机器人

NAICS:北美工业分类系统

G·艾森巴赫编辑;提交01.05.16;经N Zhang, H Zhai, A Jimeno, A MacKinlay, C Seresinhe同行评议;对作者的评论27.07.16;收到订正版29.08.16;接受15.09.16;发表17.10.16

©Quynh C Nguyen, dappeng Li, Hsien-Wen孟，Suraj Kath, Elaine Nsoesie，菲菲Li，文明。最初发表于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com)， 2016年10月17日。

这是一篇根据知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR公共卫生与监测上，并适当引用。必须包括完整的书目信息，到http://publichealth.www.mybigtv.com上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

从地理标记的推特数据中建立一个全国社区数据集，用于幸福感、饮食和体育活动指标