医学互联网研究杂志-使用自然语言处理探索Twitter上的“一月干燥”帖子:纵向信息流行病学研究

原始论文

¹美国阿肯色州费耶特维尔市阿肯色大学卫生、人类表现和娱乐部公共卫生和技术中心

²美国印第安纳州布卢明顿市印第安纳大学公共卫生学院应用健康科学系

^3.美国德州农工大学健康与运动机能系，大学城

通讯作者:

亚历克斯·M·罗素博士

公共卫生和技术中心

健康，人类表现和娱乐部

阿肯色大学

HPER大厦，308-V

费耶特维尔，阿肯色州，72701

美国

电话:1479 575 8672

电子邮件:ar117@uark.edu

背景:“一月戒酒”是一项临时禁酒运动，鼓励人们通过在一月份暂时戒酒来反思他们与酒精的关系。尽管“一月戒酒”已经成为一种全球现象，但对“一月戒酒”参与者经历的调查却很有限。要想深入了解个人“一月戒酒”相关经历，一种方法是利用大规模的社交媒体数据(如Twitter聊天)来探索和描述有关“一月戒酒”的公共话语。

摘要目的:我们试图回答以下问题:(1)关于“一月戒酒”的推文语料库中存在哪些主题，以及在多年推文(2020-2022)中用于讨论“一月戒酒”的语言是否存在一致性?(2) 2019冠状病毒病大流行爆发后，“2021年1月干”推文中是否出现了独特的主题或模式?(3)推文组成(即情绪、人工撰写与机器人撰写)与Dry January推文的参与度有何关联?

方法:我们将自然语言处理技术应用于大量推文样本(n=222,917)，其中包含12月15日至2月15日在三个独立的参与年份(2020-2022)中发布的术语“dryjanuary”或“dryjanuary”。使用术语频率逆文档频率、k-均值聚类和主成分分析进行数据可视化，以确定每年的最佳聚类数量。一旦数据可视化，我们运行解释模型以提供年内(或集群内)比较。使用潜狄利克雷分配主题模型来检查每个给定年份的每个簇内的内容。使用价感知词典和情感推理器情感分析来检查每年每个聚类的影响。使用Botometer自动帐户检查来确定每年每个集群的平均bot分数。最后，为了评估Dry January内容的用户参与度，我们取了每个集群的平均点赞数和转发数，并与其他感兴趣的结果变量进行了相关性分析。

结果:我们每年观察到几个类似的主题(例如，1月干燥资源，1月干燥健康益处，与1月干燥进展相关的更新)，表明1月干燥内容随着时间的推移相对一致。尽管多年推文的主题存在重叠，但在2021年的推文语料库中发现了与2019冠状病毒病全球大流行期间个人饮酒经历相关的独特主题。此外，推文的构成与参与度有关，包括每条推文的点赞、转发和引用数量。与人类创作的集群相比，机器人主导的集群有更少的点赞、转发或引用推文。

结论:研究结果强调了使用大规模社交媒体(如Twitter上的讨论)来研究减少饮酒的尝试，并监测正在考虑、准备或积极尝试戒烟或减少饮酒的人的持续动态需求的效用。

[J] .医学与互联网学报，2010;24(11):1104 - 1104

doi: 10.2196/40160

关键字

酒精；喝；社交媒体；推特；干1月； infodemiology； infoveillance；自然语言处理

背景

“一月戒酒”是一项公共健康运动，旨在鼓励个人通过在一月份暂时戒酒来反思自己与酒精的关系。该运动于2013年在英国发起。1，2]。通过英国酒精改变网站注册参加为期一个月的挑战的人可以通过访问交互式在线资源(例如，TryDry移动应用程序)和强调暂时戒酒好处的健康沟通信息(例如，关于财务健康、身体健康和心理健康益处的电子邮件和社交媒体信息)获得额外的问责制和支持。[3.]。从理论上讲，“一月戒酒”通过社会传染给参与者带来好处，这表明，当一个支持性的社区或一群人支持类似的动机和目标时，健康观念和行为的广泛改变更有可能发生。4-6]。

先前的研究评估了“一月戒酒”参与者的特征以及该运动在减少酒精消耗和提高生活质量指标方面的效果，主要集中在“一月戒酒”的官方注册人(即居住在英国并在“英国酒精改变”网站上正式注册参加挑战的人)[7-9]。这些研究大多表明，官方参与临时戒酒倡议有许多短期和长期的好处，包括减少酒精消费，提高拒绝酒精的技能，节省金钱，改善睡眠，增加精力，减轻体重，增强心理健康[5，7-9]。然而，Case等[10研究发现，2015年至2018年期间英国“1月戒酒”活动的参与度增加，与4年期间人口饮酒量的减少无关。

对于这些喜忧参半的发现，一种可能的解释是，尽管英国官方注册的“一月戒酒”参与者人数已从2013年的4000人增加到2021年的13万人[1]，这只代表了非正式参与临时戒酒倡议的一小部分公众(据估计，有650万英国人计划在2021年1月戒酒)[11]。此外，“一月戒酒”活动的影响范围已超出英国，成为一种全球文化现象，全世界有数百万非正式参与者[12]。例如，估计有15%至19%的美国成年人报告说，在2022年1月期间不喝酒[13，14]。与此同时，新闻媒体也越来越关注[15，16]，社交媒体参与，以及与一月戒酒相关的酒类行业促销活动(例如，营销不含酒精的替代品)[17]。为了成千上万的人非正式的尽管在1月份参加戒酒活动，但仍然缺乏调查，需要更好地了解他们在1月份试图戒酒的经历。其中一种方法是通过利用大规模的社交媒体数据(如Twitter聊天)来探索和描述有关“一月戒酒”的公共话语，从而深入了解个人与“一月戒酒”相关的经历。

Infodemiology

信息流行病学(在线信息的流行病学，例如利用搜索结果数据或社交媒体帖子为公共卫生和政策提供信息)和信息监测(为监测目的对在线信息进行纵向跟踪)是新兴领域[18-21]。过去十年，Twitter和其他社交媒体平台的使用激增，许多人依赖这些平台获取健康信息。22-24]。按照这些思路，信息流行病学方法已被用于系统地监测公众情绪，并利用可公开获得的社交媒体数据(如Twitter帖子)描述有关各种健康主题的交流特征[21]。虽然信息流行病学的目的不是取代，而是补充更传统的方法，但它提供了一些优点，包括可以方便和迅速地收集数据，从而能够实时发现公众注意力和态度的变化[18-20.]。以前的研究利用Twitter作为数据来源，提供了对各种健康主题的见解，包括与酒精有关的行为[25-28]、吸烟和戒烟[29-32]，吸毒[33，34]，心理健康[35，36]、接种疫苗[37，38]以及与健康有关的错误信息的传播[39]。此外，Twitter已被用作实时监测工具，以监测对公共卫生预防运动的反应[40]和公共政策的变化[41，42]，为公共卫生研究人员、从业人员和决策者提供及时的信息。

推特上的酒精使用信息流行病学

越来越多的研究探索了Twitter上发布的与酒精相关的用户生成内容[25-28]。例如，Cavazos-Rehg等人[25]是第一批对大量与酒精有关的推文进行特征分析的人之一，发现绝大多数此类推文表达了对酒精的积极情绪，并经常美化酗酒，而很少描绘任何与酒精有关的负面后果。其他研究调查了与酒精有关的昏厥的推文[26，28，43];2020年初与酒精相关的推文增加，与2019冠状病毒病大流行期间观察到的人口酒精消费量增加一致[28]。Weitzman等[44]将州级与酒精使用有关的Twitter帖子和谷歌趋势搜索数据与3年的全国流行病学调查数据进行了比较，为利用搜索活动和社交媒体数据补充流行病学方法来监测酒精使用并为预防工作提供信息提供了支持。然而，关于戒烟或减少饮酒的信息流行病学研究一直缺乏，例如与“一月戒酒”临时戒酒运动有关的减少饮酒的尝试[8，9]。

本研究

本研究的目的是识别和描述由公众和社交机器人在3年(2020-2022年)的参与期间撰写的与一月相关的枯燥推文语料库，并评估针对COVID-19大流行，主题和情绪是否每年都有变化。我们试图比较一段时间内的对话主题，以证明社交媒体平台(如twitter)的潜在用途，用于研究减少饮酒的尝试，并监测积极参与或考虑戒烟或减少饮酒的人的持续动态需求。为了实现这一目标，我们将自然语言处理(NLP)技术应用于大量Twitter数据样本(n=222,917)，跨越3个不同的年份(2020-2022)，以回答以下研究问题(RQs):

(RQ1)关于“一月戒酒”的推文语料库中存在哪些主题，以及在多年推文(2020-2022)中用于讨论“一月戒酒”的语言是否一致?
(RQ2)在2019冠状病毒病大流行爆发后，“2021年1月戒酒”的推文中是否出现了独特的主题或模式?
(RQ3)推文成分(即情感以及人工撰写与机器人撰写)与Dry January推文的参与度之间的关联是什么?

数据收集

使用Twitter应用程序编程接口(API) v2和Python 3.9提取与本研究相关的推文，包括元数据(如点赞数、转发数、回复数)。在获得访问Twitter API v2的学术研究产品轨道的批准后，我们识别并提取了3个不同年份(2019年12月15日至2020年2月15日，2020年12月15日至2021年2月15日，以及2021年12月15日至2022年2月15日)中12月15日至2月15日发布的包含“dryjanuary”或“dryjanuary”的所有推文。捕捉1月前后的两周时间，让我们能够分析与“1月戒酒”预期相关的对话，以及那些对“1月戒酒”完成尝试(无论成功与否)的反思。我们排除了所有的转发推文(定义为同一推文在语料库中多次出现)和非英语推文(定义为最初不是用英语编写的任何推文)。注意，消除重复推文和非英文推文是为了提高本文进行的NLP分析的可解释性[45]。总的来说，从2019年12月15日到2020年2月15日提取了70,215条推文，从2020年12月15日到2021年2月15日提取了86,378条推文，从2021年12月15日到2022年2月15日提取了66,324条推文，最终样本为222,917条推文。本研究收集的所有推文，包括非个人身份元数据，都被保存在一个只有研究团队才能访问的安全存储库中，严格符合道德数据使用和在线隐私标准。

道德的考虑

在从Twitter收集数据之前，适当的机构审查委员会认为研究程序是豁免的。

分析

我们的研究问题本质上是探索性的。因此，我们策略性地选择了几类计算信息学方法，旨在从语料库中提取整体主题，并在主题之间显示相对相似性和差异性。这些方法可以分为用于数据可视化的方法(术语频率逆文档频率[TF-IDF]， k均值聚类和主成分分析[PCA])和用于数据解释的方法(潜在狄利let分配[LDA]主题模型，价感知字典和情感推理[VADER]情感分析，以及Botometer自动帐户检查)。

数据可视化(研究问题1和2)

术语频率逆文档频率

TF-IDF是指一种将文本数据转换为数字数据的信息检索技术[46，47]。具体来说，TF-IDF算法为语料库中的每个单词创建权重，这样权重就意味着(1)单个tweet中单词的重要性相对于(2)同一单词在整个语料库中使用的次数。每个词的权重可以解释为较大的值等于较高的词重要性，较低的值等于较低的词重要性。然后将这些权重转置到稀疏矩阵中以供进一步分析。

k - means聚类

K-means聚类是一种无监督机器学习工具，用于将文本内容分组为主题或聚类。该分析依赖于TF-IDF计算创建的稀疏矩阵，将tweet分类到k-簇之一。k个簇的最佳数量是通过计算一系列可能的簇(即1到10个簇)的平方差的总和来确定的。k个簇的平方差之和沿着肘形图绘制，其中绘制的线中的断续表示可能的簇解。有关k-means聚类的更多信息，请参见Na et al [48]。

主成分分析

PCA是探索性因子分析中常用的一种分析方法，是一种维数技术，用于减少数据的复杂性或成分，同时仍保持数据的完整性[49，50]。对于文本挖掘分析，所有被TF-IDF分配权重的词都被简化为简单的X和Y坐标。这些坐标被转置到矢量图上，并沿着预定的最优k-簇进行颜色编码。对于这个分析，我们研究了数据形状，它简单地指的是数据在矢量图上呈现的方式。

数据解释(研究问题2和3)

LDA主题模型

LDA是一种无监督的NLP方法，它使用概率推理来识别相似内容的语料库中的潜在主题。LDA被广泛认为是最有效、最精确的主题建模算法，已被广泛应用于各种研究领域和社会问题[51，52]。

维德

VADER是一种基于规则的情感分析，适合社交媒体的方言[53，54]。VADER专门检查每条tweet中单词的极性，方法是通过一个预先编码有英语语言中所有积极和消极单词值的词典来提供文本数据。维达的得分范围从-。99到。99。高值通常表示更高的情感，或更积极，低值通常表示更低的情感，或更消极。

Botometer

Botometer是由印第安纳大学网络科学研究所开发的专有算法[55]。Botometer被广泛用于确定推文中的内容是否主要来自人工创作或机器人创作的账户。用户可以利用Botometer API搜索特定的用户id或用户名，并立即获得0.01到0.99之间的分数。较低的分数表明该账户可能属于人类;得分越高，通常高于0.70，表明该账户可能属于自动机器人。请注意，由于Botometer API的限制，我们每年只能对每个集群的500篇帖子进行抽样，作为bot活动的粗略近似值。Botometer验证文献和其他利用Botometer进行机器人检测和去除的研究支持我们决定使用0.70的一般截断值作为可能的机器人和可能的人类账户之间的划定。56，57]。

简单归纳编码与验证(研究问题1、2、3)

虽然NLP方法可以分析大量的语言数据，但计算机不能为从这些分析中得出的主题赋予意义，也不能检测到人类语言的某些方面，如讽刺[51]。因此，我们调用了一个简单的归纳编码程序，其中本研究的3位作者每年独立审查每个集群约50篇文章。作者被要求用3到4个词描述集群，完成后，作者开会讨论重叠和差异。向作者提出的关键问题是确定每个集群的总体内容，集群是严肃的还是幽默的(即讽刺)，以及集群是否似乎在推广与Dry january相关的产品。对于幽默或讽刺的帖子，我们特别寻找了一些指标，比如表情符号的出现、笑话的引用，或者夸张的点赞方式。在无法达成一致意见的情况下，我们用另外50条随机选择的推文重复这个过程，直到达成一致。在处理大规模文档上的混合方法主题模型时，这个过程通常被认为是足够的[58]，但需要对统一混合方法的主题建模指南进行更多的研究。

过程

中描述了我们的工作流图1。为了准备用于分析的数据，我们启动了一系列预处理步骤，包括删除数字、标点符号和会影响模型可读性的词性，包括冠词、介词和缩略词。一旦所有数据都经过处理和清理，我们将大语料库划分为每年一次的迭代，以提供不同年份之间的内容比较(RQ1)。我们每年(即2020年、2021年和2022年)运行TF-IDF，然后使用肘形图的k-means聚类来确定每年的最佳聚类数量。然后，我们应用PCA将2020年、2021年和2022年的数据沿矢量图可视化。数据可视化后，我们运行解释模型以进行年内(或集群内)比较，包括确定自然实验(如COVID-19大流行)对年度干燥一月相关内容(RQ2)的影响程度。例如，我们使用LDA在给定年份检查每个集群中的内容。我们使用VADER来检查每年每个群集的影响。我们使用Botometer来确定每年每个集群的平均bot分数。最后，为了评估Dry January内容(RQ3)的用户参与度，我们取了每个集群的平均点赞和转发数，并与其他感兴趣的结果变量(包括VADER和Botometer分数)进行了相关性分析。

图1所示。每年学习详细可视化和解释分析的工作流程。LDA:潜在狄利克雷分配;PCA:主成分分析;TF-IDF:词频逆文档频率;维德:情价感知词典和情感推理器。

RQ1。关于一月干燥的推文语料库中存在哪些主题，以及在多年推文(2020-2022)中用于讨论一月干燥的语言是否存在一致性?

首先，随着时间的推移，我们观察到主题的总体一致性。我们使用了两种方法来确定主题的一致性:(1)数据形状(来自PCA)和(2)年度主题的重叠(或在每年的分析中重复主题)。图2提供每年数据的可视化和模型拟合摘要;表1类似地，提供了每年数据收集的一般信息、每年的主题和相关名称、每个集群的tweet数量、参与度变量和其他指标。

图2。基于模型拟合的主成分分析(PCA)逐年可视化复合图:(A) 2020年1月Twitter对话，(B) 2021年1月Twitter对话，(C) 2022年1月Twitter对话，(D)肘形方法图。

表1。内容集群主题和相关的汇总统计(n=222,917)。

年份和主题			结果，n (%)		维德^一个,意思是^b		转发,意思是^c		喜欢,的意思是^c		报价,意味着^c		Botometer得分^d
2020 (n = 70215)
	讽刺和幽默	38242 (54.5)		0.16		0.82		9.10		0.12		0.37
	DJ^e健康的好处	5804 (8.3)		0.37		1.17		5.39		0.21		0.52
	毕雷矿泉水广告	1320 (1.9)		-0.93		0.00		0.12		0.01		0.88
	不清楚/一般	1458 (2.1)		0.03		0．32		4.28		0.07		0.37
	DJ进展	3372 (4.8)		0.24		0.85		9.04		0.10		0.48
	皮埃尔和二世	1334 (1.9)		0.93		0.00		0.13		0.01		0.88
	DJ资源	16390 (24.1)		0.36		0.77		4.18		0.10		0.44
	支持与参与	1755 (2.5)		0.29		0.50		7.80		0.08		0.39
	整个2020年数据集	N/A^f		0.18		0.55		5.01		0.01		0.54
2021 (n = 86378)
	DJ快结束了	6190 (7.2)		0.2		0.72		12.39		0.17		0.49
	喜力0.0。广告	953 (1.1)		0.61		0.007		0.07		0.003		0.9
	DJ反射	56823 (65.8)		0.14		0.78		13.76		0.14		0.49
	DJ资源	17374 (20.1)		0.35		0.76		8.16		0.18		0.55
	DJ & pandemic	3305 (3.8)		0.19		0.455		13.98		0.11		0.47
	DJ一般话题	1733 (2.0)		0．02		2.8		29.32		0.27		0.44
	整个2021年数据集	N/A		0．25		0.92		12.95		0．15		0.56
2022 (n = 66324)
	DJ开始	2242 (3.4)		0.24		1.03		16.81		0.27		0.5
	学术自我推销	1254 (1.9)		0.533		0．02		0.04		0.005		0.82
	DJ健康福利	42894 (64.7)		0.17		0.88		14.03		0.13		0.52
	当dj前酗酒	15183 (22.9)		0.37		0.7		5.85		0.09		0.67
	DJ一般话题	1447 (2.2)		0.03		0．4		7.97		0.07		0.52
	DJ参与及展望	3304 (5.0)		0.23		0.79		13.38		0.11		0.49
	整个2022年数据集	N/A		0.26		0.64		9.6		0.11		0.59
总计			N/A		0.23		0.70		9.19		0.09		0.56

^一个维德:情价感知词典和情感推理器。

^b平均得分从- 0.99的分数中得出(高度消极影响)到0.99(高度积极影响)。

^c1分表示转发1次、点赞1次或引用1次。

^dBotometer得分范围从0.01(低机器人账户可能性)到0.90(高机器人账户可能性)。

^e主持人:干燥的一月。

^f不适用。

使用前面章节中概述的编码过程，本研究的3位作者使用一系列具有代表性的tweet手动命名每个集群。随后，个人用户发布的代表性推文中的语言被略微修改，以在保持匿名的同时捕捉原始情绪。每年，我们都会观察到几个类似的主题，这些主题表明一月干燥的内容随着时间的推移相对一致。这些主题包括:(1)一般的一月禁酒主题(例如，”(2) 1月戒酒资源(例如，“你有没有考虑过我们的应用程序来帮助你保持1月戒酒目标?”)，(3)1月戒酒对健康的好处(例如，“一个月不喝酒对你的身心有什么好处”)，(4)与1月戒酒进度相关的更新(积极和消极)(例如，“嗯，我只坚持了1月戒酒一周就喝酒了!”)。在纳入分析的3年中的2年，我们还观察到针对Dry January参与者的企业广告，尽管类似的广告在2022年并不明显。

为了支持每年“干燥一月”的内容是一致的，我们还检查了数据形状(图2)。事实上，我们的联合k-means和PCA方法展示了每年分析的聚类的相对相似性和不相似性。近端簇含有相似的内容;远端集群表明不同的内容。虽然我们承认每年都有一定的变化，但数据形状相对相似，这可能表明随着时间的推移，内容的变化有限。例如，在每一年的分析中，我们观察到2个主要集群和几个较小的集群分散在整个图中。此外，对于每一年，我们都一致地观察到至少2个远离图表其余部分的主题。不与其他集群重叠的主题或集群表明会话的口袋与更大的会话相关，但不一定嵌入其中。数据形状一致的第二个解释也可能是大语料库或小语料库的凝聚力主题(即1月份戒酒)。

RQ2。在2019冠状病毒病大流行爆发后，2021年1月枯燥的推文中是否出现了独特的主题或模式?

我们的研究结果还表明，“干旱一月”受到新出现的新闻周期的影响，尤其是COVID-19大流行。例如，在2020年的子语料库中，我们没有观察到任何与COVID-19相关的推文，直到同年3月才在美国和欧洲流行起来。然而，在接下来的一年里，我们观察到1个包含幽默内容的集群，其中包括由于持续的全球大流行而取消1月戒酒活动(例如，“兄弟，我们如何在大流行期间做到1月戒酒?和“#干燥一月正式取消”)。我们还观察到与2021年1月6日美国国会大厦起义有关的一小部分推文，尽管这些内容不如与covid -19相关的推文那么普遍。在2022年期间，我们没有观察到与COVID-19相关的类似群集，也没有观察到类似的破坏性新闻周期。年度新闻周期的变化也可以解释年度数据形状的变化。

RQ3。推文的组成(即情感和人工撰写与机器人撰写)如何影响一月推文的参与度?

推文的构成与参与度有关，包括每条推文的点赞、转发和引用数量。我们使用Botometer和VADER情绪分析来测试(1)机器人撰写和人类撰写的帖子是否观察到参与度的差异;(2)使用VADER词典计算的情绪是否同样影响推文参与度。

在我们分析的每一年，我们都观察到至少有一个机器人主导的集群或其他自动帐户发布预先编写的内容。每年，以机器人为主导的集群通常由广告组成，比如巴黎水(Perrier Water)和喜力(Heineken) 0.0啤酒，以及较小程度上的付费或免费资源，以促进“一月戒酒”的坚持。与人类创作的集群相比，机器人主导的集群有更少的点赞、转发或引用推文。同样，以机器人为主导的集群也有最高的积极影响，或者每个帖子的积极影响最多(例如，“准备好碾压干燥一月……有了Perrier，你就可以#MakeDryFly!!”)。相比之下，人工撰写的账户通常具有更高的粘性，包含更低的影响，或者更多的消极情绪(例如，“兄弟，如果我再干一周的Dry January，我会死的。LOL”)。我们注意到，较低的情感可能反映了讽刺，尽管这一领域还需要更多的研究。

主要研究结果及影响

我们的研究描述了关于“一月戒酒”的在线内容，评估了趋势、主题和对挑战的普遍态度。我们使用NLP工具来分析和可视化在3年的参与过程中与1月戒酒相关的年度推文系列。我们的研究结果强调，在多年的推文中，关于“一月戒酒”的讨论主题是一致的，但我们仍然能够发现2021年为应对COVID-19全球大流行而出现的独特主题。此外，推文的构成，或者推文是机器人创作还是人类创作，以及推文的情绪，都与用户参与度(点赞、转发和引用推文的数量)有关。

在对Dry January推文语料库的内容聚类分析中，在多年的Dry January参与中出现了几个共同的主题。例如，推广“一月戒酒”资源是每年的一贯主题，比如提供帮助保持“一月戒酒”努力的建议的博客，提供额外支持和问责的移动应用程序，以及无酒精“无酒精鸡尾酒”的配方。此外，我们观察到与一月戒酒健康益处相关的群集(例如，饮酒减少，体重减轻，更健康的饮食选择，反映了与酒精的关系)。这些发现与“一月戒酒”之前的研究一致，同样强调了“一月戒酒”的好处，除了提高拒绝酒精的技能、省钱、改善睡眠、增加精力和增强心理健康之外，还能减少酒精消耗和减肥。5，7-9]。最后，一个与分享“1月戒酒”进展相关的话题出现在多年数据中(例如，不想参加“1月戒酒”，打算参加“1月戒酒”，在“1月戒酒”期间尝试戒酒失败，正在进行的尝试成功，成功完成“1月戒酒”)。虽然这个群组中的一些推文提到了“一月戒酒”的成功经验，以及与这些经验的积极联系，但大量的推文使用幽默和讽刺来嘲笑“一月戒酒”的参与，并表示总体上缺乏参与临时禁欲倡议的愿望。这一发现与之前对Twitter和TikTok等社交媒体平台上与酒精相关内容的研究一致。25，26，59];这些社交媒体平台上绝大多数与酒精有关的帖子都以积极的方式描绘饮酒，并经常以有利的方式描绘危险的饮酒行为，如醉酒和昏迷。同样，与酒精相关的社交媒体帖子很少描述与酒精相关的负面后果，即使有这样的描述，也经常以幽默的方式描述，以淡化酒精相关问题的严重性。25，59]。

内容聚类分析还发现了多年来与“1月戒酒”相关的独特主题，最值得注意的是，在2021年1月2019冠状病毒病全球大流行的背景下，与“1月戒酒”相关的一组推文。其中许多推文提到，在大流行和社会距离限制以及心理压力增加的背景下，个人经历了越来越多的困难或缺乏参与“一月戒酒”活动的愿望。然而，也有人表示，由于没有机会参加社交饮酒活动，1月份戒酒比较容易。在大流行的背景下，幽默通常被用来嘲笑“一月干燥”。这组推文中的子主题与之前关于大流行高峰期酒精消费的研究一致[60，61]。除了与COVID-19相关的数百万人死亡外，COVID-19大流行还与社会孤立和失业率上升造成的心理压力增加以及许多其他因素有关[60，61]。许多人通过增加饮酒量，以自我用药的方式应对COVID-19大流行的压力源[60，61]。社交媒体帖子的实时信息监测可能是一种有价值的手段，可以补充健康行为监测工作，并发现针对重大事件的独特健康需求的公共话语和沟通，例如应对与COVID-19大流行相关的心理压力源增加，以及这可能如何对戒烟或减少饮酒的努力产生负面影响[62]。

最后，我们发现推文的构成，最主要的是推文是机器人撰写还是人类撰写影响了帖子的在线参与度。也就是说，机器人主导的集群(例如，Perrier和Heineken 0.0的推广活动)与主要由人类撰写的集群相比，喜欢、转发和引用的tweet更少。这一发现对社交媒体平台上的公共卫生信息和干预具有启示意义。虽然以社会机器人为导向的在线干预措施的发展和促进可能对公共卫生有好处[63]，有必要调查如何最好地调整这种干预措施以提高参与度，因为在这项研究中，许多人似乎在很大程度上忽略了自动帐户中预先编写内容的帖子。也就是说，在不知道机器人创建者的目标或预期结果(即，生成内容vs分享内容或提高知名度vs产生参与度)的情况下，我们无法确定社交机器人在Twitter上Dry January内容中的有效性。我们的研究结果确实支持社交机器人的存在，以及它们创造、分享和参与在线内容的潜力。

限制

这项工作受到我们希望在未来工作中解决的限制。首先，尽管结合k-means和PCA方法已被广泛验证为分析和可视化丰富社交媒体内容的有效方法，但这种方法是探索性的，依赖于无监督算法来获得结果。因此，有一小部分推文可能被算法错误分类。其次，由于Botometer API的财务限制，我们无法计算分析中包含的所有tweet的Botometer分数。相反，我们依赖于从每个集群的500条tweet的随机子样本中泛化Botometer分数。对整个样本进行完整的Botometer分析可能会略微改变我们的发现，特别是对于由数万条推文组成的较大集群;然而，与Botometer API相关的重大成本障碍禁止访问tweet的完整分析。最后，我们也承认，我们没有对这些数据进行全面的定性分析。尽管我们认为命名集群的盲编码过程足以确定集群名称，但是对给定集群中的所有tweet进行全面审查可能会产生略微不同的集群名称。通过概述的局限性，我们提供了几个引人注目的研究机会来继续这项研究。 For example, a comparative study contrasting our findings from those generated using supervised NLP algorithms, for example the Sentence Bidirectional Encoder from Transformers (S-BERT), could help validate our findings particularly if there is strong overlap across analyses.

结论

我们研究了3年Twitter上关于一月戒酒挑战的帖子中的主题。尽管多年推文的主题存在重叠，但在2021年的推文语料库中发现了与2019冠状病毒病全球大流行期间个人饮酒经历相关的独特主题。研究结果强调了使用大规模社交媒体(如Twitter上的讨论)来研究减少饮酒的尝试，并监测正在考虑、准备或积极寻求戒烟或减少饮酒的人的持续动态需求的效用。

致谢

AMR得到了美国国立卫生研究院国家酒精滥用和酒精中毒研究所的支持，资助编号为K01AA030614。HCL得到了美国国立卫生研究院国家药物滥用研究所的支持，资助编号为R01DA049154。PMM由美国国立卫生研究院国家癌症研究所资助，资助号为R01CA229324。这份手稿的内容完全是作者的责任，并不一定代表美国国立卫生研究院的官方观点。

作者的贡献

AMR、DV、SCC、AEB、HCL和PMM对研究进行了概念化和设计。AMR、DV、SCC和BNM共同撰写了手稿的初稿。DV在SCC的支持下进行了本研究的数据分析。PMM、AEB和HCL在整个过程中提供指导，并帮助解释研究结果和对手稿的批判性评论。所有作者都参与并批准了最终稿件。

利益冲突

没有宣布。

“一月干燥”的故事。酒精改变英国。URL:https://alcoholchange.org.uk/get-involved/campaigns/dry-january/about-dry-january/the-dry-january-story[2022-11-13]访问
为什么要“一月戒酒”?酒精改变英国。URL:https://alcoholchange.org.uk/get-involved/campaigns/dry-january/why-do-dry-january-1/why-do-dry-january[2022-11-13]访问
参加“一月戒酒”活动。酒精改变英国。URL:https://alcoholchange.org.uk/get-involved/campaigns/dry-january/sign-up-for-dry-january[2022-11-13]访问
克里斯塔基斯NA，福勒JH。社会传染理论:研究动态社会网络和人类行为。统计医学2013年2月20日;32(4):556-577 [j]免费全文] [CrossRef] [Medline]
de Visser RO, Nicholls J.干旱一月期间的暂时禁欲:成功的预测因素;对幸福感和自我效能的影响。心理健康2020 11月27日;35(11):1293-1305。［CrossRef] [Medline]
新一年，新你:一月干燥、自我形成与正向调节的定性研究。毒品教育、预防与政策2018年12月31日;26(6):460-468。［CrossRef]
de Visser RO, Robinson E, Bond R.在“一月禁酒”期间自愿暂时戒酒和随后的酒精使用。心理健康杂志，2016;35(3):281-289。［CrossRef] [Medline]
de Visser RO, Robinson E, Smith T, Cass G, Walmsley M.“干燥一月”的增长:促进参与和参与的好处。中华卫生杂志，2017;27(5):929-931。［CrossRef] [Medline]
在“一月禁酒”期间暂时戒酒的短期和长期益处也未在普通人群中的成年饮酒者中观察到:前瞻性队列研究。酒精酒精2020 Jun 25;55(4):433-438。［CrossRef] [Medline]
Case P, Angus C, De Vocht F, Holmes J, Michie S, Brown J.在英国，越来越多的人参与“一月戒酒”全国运动是否与减少酒精消费有关?药物酒精依赖2021 Oct 01;227:108938 [j]免费全文] [CrossRef] [Medline]
新闻稿:有500万人计划在2021年1月戒酒，高于2020年的390万人。酒精改变英国。URL:https://alcoholchange.org.uk/blog/2020/press-release-6-5-million-people-plan-to-do-dry-january-2021-up-from-3-9-million-in-2020[2022-11-13]访问
de Ternay J, Leblanc P, Michel P, Benyamina A, Naassila M, Rolland B.一个月禁酒全国运动:减少危害效益的范围审查。危害减少[J] . 2022年3月04日;19(1):24 [免费全文] [CrossRef] [Medline]
在经历了充满压力的2021年之后，对清醒充满好奇的千禧一代和Z世代正在推动“一月戒酒”的回归。2022年1月5日URL:https://www.businessinsider.com/dry-january-sober-curious-taking-break-from-drinking-stress-2021-12[2022-11-13]访问
Moquin E.“干燥一月”运动将在2022年兴起，但对许多人来说，它更潮湿而不是干燥。早间咨询，2022年1月10日。URL:https://morningconsult.com/2022/01/10/dry-january-movement-grows-in-2022/[2022-11-13]访问
“一月戒酒”的持续存在反映了社会与酒精的关系不断演变和分裂。CNN。2022年1月19日。URL:https://www.cnn.com/2022/01/19/us/dry-january-less-people-drinking-wellness-cec/index.html[2022-11-13]访问
新的调查显示，人们对“干燥一月”的兴趣越来越大。2021年1月11日URL:https://www.forbes.com/sites/chrisfurnari/2021/01/11/new-surveys-indicate-increasing-interest-in-dry-january/?sh=22f87caf6f57[2022-11-13]访问
Miller M, Pettigrew S, Wright CJC。零酒精饮料:危害最小化工具还是入门饮料?药物酒精Rev 2022; 09;41(3):546-549。［CrossRef] [Medline]
信息流行病学和信息监控:一套新兴的公共卫生信息学方法框架，用于分析互联网上的搜索、交流和出版行为。[J]医学互联网研究2009年3月27日;11(1):e11 [J]免费全文] [CrossRef] [Medline]
杨建军。信息流行病学与信息监测:在线健康信息与网络行为。中华预防医学杂志，2011;40(5增刊2):S154-S158。［CrossRef] [Medline]
李建军，刘建军。信息流行病学研究的新进展。JMIR信息流行病学2022年2月14日;2(1):e37115。［CrossRef]
马夫拉格尼。信息流行病学与信息监测:范围综述。[J]中国医学信息学报，2020,28;22(4):e16206 [J]免费全文] [CrossRef] [Medline]
社交媒体简报。皮尤研究中心，2021年4月7日。URL:https://www.pewresearch.org/internet/fact-sheet/social-media/[2022-11-13]访问
大多数成年人在网上查找健康信息。皮尤研究中心，2013年2月1日。URL:https://www.pewresearch.org/fact-tank/2013/02/01/majority-of-adults-look-online-for-health-information/[2022-11-13]访问
2020年社交媒体平台上的新闻使用。皮尤研究中心，2021年1月12日URL:https://www.journalism.org/2021/01/12/news-use-across-social-media-platforms-in-2020/[2022-11-13]访问
卡瓦佐斯- rehg PA, Krauss MJ, Sowles SJ, Bierut LJ。“嘿，大家好，我喝醉了。”对与饮酒有关的Twitter聊天的评估。[J]中华医学杂志;2015;36 (4):635-643 [J]免费全文] [CrossRef] [Medline]
Riordan BC, Merrill JE, Ward RM。“等不及今晚的停电”:对Twitter上表达的饮酒动机的分析。酒精临床试验2019年8月10日;43(8):1769-1776 [j]免费全文] [CrossRef] [Medline]
张建军，张建军，张建军，等。分析推特上关于在酒精使用的醉酒背景下吸烟的讨论:“有人能告诉我为什么尼古丁在你喝醉的时候这么火吗?”烟碱研究进展[j]; 2009;24(8):1193-1200 [j]免费全文] [CrossRef] [Medline]
Ward RM, Riordan BC, Merrill JE, Raubenheimer J.描述COVID-19大流行对酒精引起的停电推文的影响。药物酒精Rev 2021 Feb 06;40(2):192-195 [j]免费全文] [CrossRef] [Medline]
Allem J, Dharmapuri L, Leventhal AM, Unger JB, Boley Cruz T.从2017年到2018年Twitter上与水烟相关的帖子:主题分析。[J]医学互联网研究，2018,11,19;20(11):e11669 [J]免费全文] [CrossRef] [Medline]
Sidani JE, Colditz JB, Barrett EL, Shensa A, Chu K, James AE，等。我醒来后打开JUUL:分析推特上的JUUL尼古丁效应和依赖性。药物与酒精依赖2019年11月;204:107500。［CrossRef]
Sidani JE, Colditz JB, Barrett EL, Chu K, James AE, Primack BA。推特上的JUUL:分析有关使用一种新的尼古丁输送系统的推文。[J]中国卫生杂志，2020年2月11日;90(2):135-142 [J]免费全文] [CrossRef] [Medline]
李建军，李建军，李建军，等。“我正在用香烟戒掉JUUL”:对有关戒掉JUUL的Twitter帖子的分析。中华戒毒杂志2020;12:100286 [j]免费全文] [CrossRef] [Medline]
alem J, Escobedo P, Dharmapuri L.大麻监控与Twitter数据:新兴话题和社交机器人。中华卫生杂志，2010;31(3):357-362。［CrossRef]
李建军，李建军，李建军，李建军。使用无监督机器学习探索twitter领域中处方药的非医疗使用和多种药物滥用的趋势。中国医学学报(英文版);2017;25(5):369 - 369。［CrossRef] [Medline]
Budenz A, Klassen A, Purtle J, Yom Tov E, Yudell M, Massey P.推特上的精神疾病和双相情感障碍:耻辱和社会支持的含义。中华卫生杂志，2020;29(2):191-199。［CrossRef] [Medline]
Valdez D, Ten Thij M, Bathina K, Rutter LA, Bollen J.社交媒体对COVID-19大流行期间美国心理健康的影响:Twitter数据的纵向分析。医学信息学报，2020,12;22(12):e21418 [J]免费全文] [CrossRef] [Medline]
Massey PM, Leader A, yo - tov E, Budenz A, Fisher K, Klassen AC.应用多种数据收集工具量化Twitter上的人乳头瘤病毒疫苗传播。医学互联网研究，2016年12月05日;18(12):e318 [J]免费全文] [CrossRef] [Medline]
社交媒体上的COVID-19疫苗犹豫:建立反疫苗内容、疫苗错误信息和阴谋的公共Twitter数据集。JMIR公共卫生监测2021年11月17日;7(11):e30642 [j]免费全文] [CrossRef] [Medline]
Mackey TK, Purushothaman V, Haupt M, Nali MC, Li J.应用无监督机器学习识别和表征Twitter上的羟氯喹错误信息。柳叶刀数字健康2021年2月;3(2):e72-e75。［CrossRef]
Allem J, Escobedo P, Chu K, Soto DW, Cruz TB, Unger JB。运动与反运动:推特上对电子烟教育的反应。烟草控制2017年3月08日;26(2):226-229 [j]免费全文] [CrossRef] [Medline]
Harris JK, moeland - russell S, Choucair B, Mansour R, Staub M, Simmons K.推特支持和反对公共卫生政策:对芝加哥公共卫生部电子烟推特运动的回应。医学互联网研究，2014;16(10):e238 [J]免费全文] [CrossRef] [Medline]
Lazard AJ, Wilcox GB, Tuttle HM, Glowacki EM, Pikowski J.公众对Twitter上电子烟规定的反应:文本挖掘分析。环境控制2017;26(e2):e112-e116。［CrossRef] [Medline]
Merrill JE, Ward RM, Riordan BC。停电后的发布:对“停电”饮酒后发布的推文的积极和消极效价进行定性检查。[J]卫生通讯2020 Feb 01;25(2):150-158 [J]免费全文] [CrossRef] [Medline]
陈平，陈建军，陈建军，陈建军，陈建军。在线搜索和社交媒体在人口规模上检测酒精使用风险。中华预防医学杂志，2020,31(1):79-88。［CrossRef] [Medline]
目击者:通过twitter feed中的时空信号识别本地事件。SIGSPATIAL '15:第23届SIGSPATIAL国际地理信息系统进展会议论文集2015年11月03日;20:1-10 [j]免费全文] [CrossRef]
文本挖掘:使用TF-IDF检查词与文档的相关性。中国生物医学工程学报，2018;33(1):25-29。［CrossRef]
吴慧聪，陆永平，王建峰，郭国林。TF-IDF项权值在相关决策中的解释。ACM反式。信息系统2008 Jun 01;26(3):1-37。［CrossRef]
石楠，刘鑫，关勇。k-means聚类算法研究:一种改进的k-means聚类算法。2010，第三届智能信息技术与安全信息学国际学术研讨会;2010年4月2日至4日;链接:https://ieeexplore.ieee.org/document/5453745［CrossRef]
李建军，刘建军。稀疏主成分分析在自然语言处理中的应用。安。数据。科学2020年5月18日［CrossRef]
李建军，李建军。主成分分析的研究进展。数学与物理工程学报，2016,33 (4):20150202 [j]免费全文] [CrossRef] [Medline]
张建军，张建军，张建军，等。关键词挖掘:主题模型在健康教育研究与实践中的应用。健康促进实践2021 5月;22(3):309-312 [免费全文] [CrossRef] [Medline]
张建军，张建军。社会科学的潜在语义分析。社会科学季刊2018 Sep 07;99(5):1665-1679。［CrossRef]
Bathina KC, Ten Thij M, Valdez D, Rutter LA, Bollen J. COVID-19大流行期间幸福感下降揭示了美国社会的不平等。PLoS One 2021;16(7):e0254114 [j]免费全文] [CrossRef] [Medline]
Hutto CJ, Gilbert E. VADER:基于规则的社交媒体文本情感分析模型。: ICWSM。2014年5月16日发表于:第八届国际AAAI博客和社交媒体会议;2014年6月1-4日;Ann Arbor, MI . p. 216-225https://www.aaai.org/ocs/index.php/ICWSM/ICWSM14/paper/viewPaper/8109［CrossRef]
杨凯，王晓明，王晓明。基于数据选择的社交机器人检测方法。中国生物医学工程学报，2020;34(01):1096-1103。［CrossRef]
Luceri L, Badawy A, Deb A, Ferrara E.红色机器人做得更好:社会机器人党派行为的比较分析。2019年在WWW '19: 2019年万维网大会的同伴会议录;2019年5月13日至17日;旧金山，加州。[CrossRef]
杨凯，费拉拉，门泽尔。底部测量101:计算社会科学家的社会机器人实践。[J] .计算机学报，2016，(8):391 - 391 [J]免费全文] [CrossRef] [Medline]
Eickhoff M, Wieneke R.在上下文中理解主题模型:对大型文档集合进行有意义分析的混合方法方法。第51届夏威夷国际系统科学会议论文集，2018:903-912。［CrossRef]
Russell AM, Davis RE, Ortega JM, Colditz JB, Primack B, Barry AE。#酒精:TikTok上热门视频中对酒精的描述。j .钉。酒精药物2021年9月82(5):615-622。［CrossRef]
Nordeck CD, Riehm KE, Smail EJ, Holingue C, Kane JC, Johnson RM等。COVID-19大流行期间美国成年人饮酒天数的变化成瘾2022 Feb 12;117(2):331-340 [j]免费全文] [CrossRef] [Medline]
Rodriguez LM, Litt DM, Stewart SH.饮酒应对大流行:与covid -19相关的感知威胁和心理困扰与美国男性和女性饮酒行为的独特关联。社会科学进展[j]; 2009 (11): 359 - 361 [j]免费全文] [CrossRef] [Medline]
Bunting AM, Frank D, Arshonsky J, Bragg MA, Friedman SR, Krawczyk N.阿片类药物使用者的社会支持规范和互助:COVID-19大流行期间Reddit的分析。药物酒精依赖2021年5月01日;222:108672 [免费全文] [CrossRef] [Medline]
Deb A, Majmundar A, Seo S, Matsui A, Tandon R, Yan S，等。用于在线公共卫生干预的社交机器人。2018年发表于:IEEE/ACM社会网络分析与挖掘进展国际会议(ASONAM);2018年8月28日至31日;西班牙巴塞罗那。［CrossRef]

‎

API:应用程序编程接口

黎家奇:干1月

LDA:潜在狄利克雷分配

NLP:自然语言处理

主成分分析:主成分分析

中移动:研究问题

S-BERT:双向编码器从变压器

TF-IDF:词频率逆文档频率

维德:价感知词典和情感推理器

C . Basch编辑;提交08.06.22;JP Allem, M Field的同行评审;对作者07.10.22的评论;修订版本收到13.10.22;接受25.10.22;发表18.11.22

©Alex M Russell, Danny Valdez, Shawn C Chiang, Ben N Montemayor, Adam E Barry，林显昌，Philip M Massey。原载于医学互联网研究杂志(//www.mybigtv.com)， 2022年11月18日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

使用自然语言处理探索推特上的“一月干燥”帖子:纵向信息流行病学研究