这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
水烟(或烟草水烟)的使用最近在美国变得很普遍。与水烟使用相关的背景和经历尚不清楚,但通过公开的水烟用户在社交媒体上发布的帖子,此类信息非常丰富。
在这项研究中,我们利用Twitter数据来描述Twitter用户最近使用水烟的经历。
包含“水烟”一词的推特帖子的时间为2017年4月1日至2018年3月29日。文本分类器用于识别倾向于在帖子中同时出现的主题集群(n=176,706)。
最常见的话题群是个人标签(在帖子中使用@用户名标记另一个Twitter账户),占21.58%(38,137/176,706),其次是促销或社交活动(例如,提到女士之夜、派对等),占20.20%(35,771 /176,706),以及呼吁或滥用责任(例如,渴望、享受水烟),占18.12%(32,013/176,706)。其他主题包括水烟使用行为(例如,提到吸食水烟)占11.67%(20,603/176,706),多物质使用(例如,水烟和其他物质的使用)占10.95%(19,353/176,706),买卖(例如,购买,订购,购买,出售)占9.37%(16,552/176,706),香料(例如,薄荷,肉桂,西瓜)占1.66%(2927/176,706)。不喜欢水烟的话题(例如,讨厌,戒烟,不喜欢)是罕见的0.59%(1043/176,706)。
2017-2018年,社交事件、吸引力或滥用责任、口味和多物质使用是推特上关于水烟的讨论的常见背景和经历。与水烟的传统数据来源一致考虑,这些结果表明,社会事件、上诉或滥用责任、口味和多物质使用值得考虑作为未来监测、政策制定和干预水烟的目标。
水烟(或烟草水烟)的使用最近在美国越来越受欢迎,特别是在年轻人和年轻成年人中[
可有效利用在社交媒体网站(如Twitter、Instagram、YouTube)上发布信息的个人提供的可公开获取的数据,快速捕捉和描述烟草使用的背景[
在这项研究中,我们展示了从Twitter收集数据来记录和描述2017年至2018年与水烟相关的对话的实用性。我们的目标是确定公众最近使用水烟的经历,包括了解使用水烟的社会和环境背景。24%的美国成年人使用Twitter(男性23%,女性24%,白人24%,非洲裔26%,西班牙裔20%),46%的用户每天使用该平台。
含有“水烟”(或“#水烟”)一词的推特帖子是从推特的流媒体应用程序接口(API;2017年4月1日至2018年3月29日,使用Twitter4J库收集推文的过滤流,收集时间没有空白)。在此期间,共有963,954个职位。
我们删除了转发和非英语帖子,结果有348,834个独特的帖子被用于分析。虽然waterpipe这个词在学术论文和演讲中被用来指水烟,但个人在社交媒体上使用这个词并不常见,因此它没有被包括在这项研究中[
准备最后的样本进行分析,其中包括基本规范化(例如,删除标点符号,小写文本),停止单词删除(例如,单词“a”和“The”),Twitter用户提及的规范化(例如,“@janedoe”被转换为“@username”),词元化(例如,“cat”,“cats”,“cat’s”都被转换为“cat”),以及不可打印字符删除(例如,表情符号)[
最初,我们使用词频(单个单词和双单词组合,也称为一克和二克)分析推文,并通过单词云将数据可视化,以确定共同的主题(
接下来,我们使用了Word2Vec,这是谷歌开发的一种语言建模技术,允许用户学习用于创建文本分类器的文本表示[
我们使用Word2Vec为我们在单词云阶段确定的每个主题的1g和biggram找到相似的单词。这个过程,加上视觉检查和手动编辑,允许我们通过识别帖子中出现在与原始关键字相似上下文中的单词来扩展每个主题的单词列表。例如,通过这个过程,我们发现单词“渴望”、“爱”、“享受”和“需要”出现在包含单词“想要”和“水烟”的帖子中。
分类是通过检查推文中是否存在任何一个关键字(一克和二字)来完成的。如果一条推文包含与某个主题相关的任何关键字,则该推文被归类为该主题的一部分。换句话说,我们使用了一个用Python编写的基于规则的分类脚本,其中检查每个推文是否存在代表主题的指定n-grams集。对于每个分析,我们在混淆矩阵中展示结果,其中对角线表示主题的流行度,非对角线表示主题重叠。例如,一个假设的帖子,如“我现在很渴望水烟和啤酒”,可以被归类为
@用户名
酒吧
食物
星期五
休息室
晚上
聚会,派对
周六
渴望
享受
日常
得到
就像
爱
需要
想要
打击
通过
泡芙
烟
使用
酒精
啤酒
钝
香烟
鸡尾酒
饮料
尤尔的说法
酒
玛格丽特
伏特加
杂草
酒
Vape
买买
订单
支付
购买
出售
口味
薄荷
肉桂
西瓜
蓝莓
番石榴
葡萄
苹果
水果
桃子
橙色
芒果
糖果
我们确定的8个主题的总覆盖率占推文语料库中所有推文的65.45% (115,658/176,706)
话题的流行度。
约10.95%(19,353/176,706)的语料库是
这项研究确定了2017年至2018年推特上与水烟相关的帖子的主题,为公众最近使用水烟的经历提供了一些见解。最流行的话题是
这项研究中的帖子反映了推特用户对口味的兴趣,这与之前关于推特上烟草相关帖子的研究相似[
这项研究发现的许多帖子反映出Twitter用户渴望、享受或想要水烟;这一发现,再加上发现表明不喜欢水烟的帖子很少,表明目前需要有针对性的干预措施来阻止水烟使用的吸引力。关于水烟吸引力的共同讨论可能有助于水烟在推特上的使用正常化,这可能会对线下行为产生影响[
这项研究的重点是推特上的帖子,研究结果可能无法推广到其他社交媒体平台。本研究中分析的帖子收集自12个月的时间段,可能无法推广到其他时间段。虽然在数据收集中只使用了一个词根词“水烟”(或“#水烟”),但研究表明,这是社交媒体上指水烟使用的常用术语[
2017-2018年,社交事件、吸引力或滥用责任、口味和多物质使用是与推特上关于水烟的讨论相关的常见背景和经历。与水烟的传统数据来源相一致,这些结果表明,社会事件、吸引力或滥用责任、口味和多物质使用值得考虑作为未来监测、公共政策和针对水烟的干预措施的目标。这项研究还强调了在公共卫生监测中使用社交媒体数据的明显好处。来自社交媒体的数据可以作为一个持续的系统,向公共卫生研究人员提供有关烟草产品或公众使用这些产品的方式的近实时信息。
水烟字云。
应用程序接口
本出版物中报道的研究得到了国家癌症研究所和食品和药物管理局(FDA)烟草产品中心的Grant #P50CA180905的支持。美国国立卫生研究院(NIH)或FDA在研究设计、数据收集、分析和解释中没有任何作用;撰写报告;以及提交报告发表的决定。内容仅为作者的责任,并不代表NIH或FDA的官方观点。
JPA和LD构思了这项研究并分析了数据。JPA起草了最初的手稿。LD、AML、TBC、JBU对重要的智力内容进行了修改,并通过了最终稿。JBU和TBC获得了这项研究的资金。
没有宣布。