这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。
水烟吸烟是公共卫生专业人员需要解决的一个特别重要的问题,因为水烟的流行和对健康的有害影响。社交媒体网站可以成为公共卫生官员开展信息卫生运动的宝贵工具。目前的社交媒体平台为研究人员提供了更好地识别和锁定特定受众甚至个人的机会。然而,我们还不知道有系统的研究试图确定对HTS持有混合或矛盾观点的受众。
本研究的目的是(1)通过利用机器学习技术,使用更大的数据集,证实先前的研究显示推特上的HTS情绪正向倾斜。(2)系统地识别通过推特平台对HTS表现出混合意见的个人,从而代表干预的关键受众。
我们前瞻性地收集了2016年1月至6月与HTS相关的推文。我们对约5000个随机抽样的推文的情绪进行了双重编码,并使用这些数据训练机器学习分类器来评估其余约55.6万个与HTS相关的推文。采用自然语言处理软件进行语言提取
与https相关的推文有561960条,其中373911条被归类为正面推文,183139条被归类为负面推文。一组12,861名用户符合先验标准,表明他们发布了关于HTS的正面和负面推文。
情绪分析可以让研究人员在社交媒体上识别出对关键公共卫生问题(如HTS)表现出模糊性的受众群体,因此是干预的理想人群。使用大型社交媒体数据集可以帮助公共卫生官员预先确定最容易接受有针对性宣传活动的特定受众群体。
水烟(HTS)——又称水烟、水烟或纳吉尔烟——的受欢迎程度大幅增加[
社交媒体网站可以成为公共卫生官员开展信息卫生运动的宝贵工具。这一过程可以由能够进行主题分类的机器学习方法提供信息[
尽管诸如此类的项目倾向于使用广泛的方法,但将与高温技术相关的教育信息针对目标群体或个人可能更有利[
因此,本研究旨在实现两个目的:(1)确认之前关于推特上HTS情绪的研究[
Twitter是一个微博平台,用户可以在上面发帖
我们应用机器学习算法对发布在Twitter上的HTS内容进行情感分析。有监督的机器学习允许相对少量的人类编码数据来训练计算机算法,这些算法可以自动对额外的数据进行分类,这种分类规模在其他情况下是不可行的。我们分两个阶段进行情绪分析。首先,对一组大约5000条推文进行随机抽样,并将其分类为积极的、消极的或两者兼有,如果它是商业的,则由2名训练有素的编码人员对推特上与烟草相关的数据进行分类[
在第二阶段,根据之前的分类,人类编码人员识别了发布了关于HTS的正面和负面情绪推文的Twitter账户,这表明潜在的用户群体持有混合或矛盾的观点。
训练数据集中的每条推文由2名编码员给出3个分类代码:(1)积极或不积极,(2)消极或不消极,(3)商业或非商业。商业内容被定义为任何促进特定水烟产品、设施或相关服务销售的内容(例如,水烟酒吧促销减价特惠)。这些推文是根据文本内容识别的,而不是根据发布内容的Twitter用户的类型(例如,水烟吧也可以在其他情况下发布非商业内容;个人用户可以推广水烟吧)。这允许我们将推文内容作为情感分析的主要单元,而不是包括用户级的元数据(例如,基于文本的机器学习分类器无法判断的机构名称或头像)。情绪(即积极和消极)被定义为
为了减少机器学习分类的复杂性,商业推文被分为积极的和支持hts。在机器学习完成对大约55.6万条推文的分类后,随机抽取1000条推文,计算3个性能指标:(1)精度,计算结果为真阳性除以标记为阳性的总实例数;(2)召回率,与灵敏度相同,计算为真阳性除以阳性总数;(3) f分,精密度和召回率的加权平均值。
最后,对同时发布积极和消极内容的Twitter用户进行定性分析。在内容搜索中,推文按用户分组;基于其他主题推文的两位作者的探索性观点(即,除了与水烟相关的帖子),我们认为那些正面帖子是负面帖子的5倍以上,反之亦然的推文,不太可能有真正混合或矛盾的观点,因此被排除在考虑之外。然后,编码人员被要求识别那些同时发布积极和消极情绪推文的潜在用户。
在6个月的时间里有6次峰值,定义为情绪增加或减少超过2个标准差的日子。它们被标记为A-F
具有精度/召回指标的机器学习分类器的结果(2016年1月- 6月)。
情绪 | 已分类(N=561,960), N (%) | 精度 | 回忆 | f值 |
积极的 | 373911 (66.53) | 0.92 | 0.81 | 0.86 |
负 | 183139 (32.59) | 0.59 | 0.79 | 0.67 |
在6个月的时间里,水烟吸烟的情绪推特。
在研究期间,共有291,602名用户发布了HTS内容,从1到6501条tweet不等,中位数为1。为了识别被认为对HTS有矛盾或混合意见的用户,标准被定义为在观察期间至少发布了一条积极和一条消极推文的人。当我们删除那些发布积极或消极情绪的用户(比例大于5:1)时,4.41%的用户(12,861/291,602)仍然存在。在这些用户中,我们随机抽样1.00%的用户(129/ 12861),并选择他们的所有推文由2名程序员进行定性检查。有37名(29%)用户被分类为对HTS有明确的矛盾或混合意见。中显示了这些用户及其tweet的示例
2016年1月至6月期间,在推特上发布了关于水烟吸烟的正面和负面推文的10名用户(37名中的10名)的样本。
用户 | 推特 |
1 |
星期三就要点燃了,哈哈,我需要一个卖水烟的一个 我再也不要水烟了,哥们,笑毛 |
2 |
当你抽水烟的时候,生活感觉很好。(脸红emoji)一个 所以我今天试着吸电子烟,108Hz。哈哈哈,真他妈辛苦,但是这么厚的云,吸电子烟是最好的!我得戒了水烟,现在就开始吸电子烟! |
3. |
@[用户名]那就别抽水烟了 那个水烟点在和那些贱人们一起摇滚一个 |
4 |
我现在就在我的楼前抽水烟[URL]一个 我的目标是今年夏天不跟水烟一起做DJ |
5 |
几乎我所有的男性朋友都喜欢水烟一个 我在为钱德拉的生日安排计划,我必须确保水烟也包括在内(疲惫的表情符号) |
6 |
伙计,你们都要花20美元在水烟店互相盯着看(哭泣的表情符号)一个 我只是偶尔抽一次水烟,因为我们有工作和学校。 |
7 |
她是上天派来的…她不抽水烟,也不知道柠檬水。#瘦 我得想办法做螃蟹味的水烟。#瘦一个 |
8 |
FAM为我骄傲吧,我一整年都没抽水烟-@[用户名] 我的斋月之夜就是坐在门廊上聊天抽着水烟直到凌晨5点。一个 |
9 |
我希望水烟从未存在过[URL] 没有水烟,为什么要去[URL]一个 |
10 |
我抽水烟还不到五次一个 我一抽水烟就想吐 |
一个积极的推文。
这项研究结合了几个方面的研究,以整合机器学习和在线社交媒体,为公共卫生研究提供信息。我们对Twitter上的HTS帖子进行了为期6个月的情绪分析,发现大多数(67%)关于HTS的内容都是正面的。这证实了之前用更小的数据集对推特上HTS情绪的研究[
第二阶段除了对用于监控的Twitter情绪的描述性分析之外,还成功地识别出了发布关于HTS情绪混杂或矛盾的推文的用户。我们的策略的实现是由两名编码人员的能力来证实的,他们能够检测出几个关于HTS的发布的tweet的明确例子,这些tweet在情绪上不同。为了简洁起见,我们将讨论限制在10个用户,尽管发现了更多用户。这些例子(
在使用机器学习分析数据分布偏斜的主题时存在一些问题;不平衡的数据会降低机器学习算法对不成比例的小数据(也称为少数类)进行适当分类的能力。这是由于传统算法倾向于多数类,以优化错误率[
我们研究的局限性包括:仅使用Twitter上公开的数据;包含Twitter的私人内容可能会导致不同的结果。Twitter用户统计数据也会限制这些数据的可泛化性。有一种可能性是,一小部分与hts相关的推文实际上是在讨论使用水烟抽大麻,尽管在样本中没有发现人工编码的。当我们关注文本的语言特征时,没有分析图像或视频等其他媒体来源;扩展语言特征之外的内容也可能有助于提高较低的负位精度。此外,我们在选择监督机器学习时的策略将结果限制为HTS;分类器需要使用特定于内容的数据进行重新训练,以用于其他用途。
近年来,公共卫生官员开发了针对电子烟等烟草产品的推特活动。然而,这些活动可能被敌对组织劫持,并导致反活动。例如,芝加哥公共卫生部(Chicago Department of Public Health)在市议会就当地法规进行投票的一周前发布了一系列关于电子烟的信息。不幸的是,数以百计的推特回应了相反的说法,如卫生部门在撒谎或传播宣传。
专注于HTS的烟草控制研究人员应努力针对这一受众群体开展活动。推特被提议作为公共卫生的监测场所[
公共卫生运动经常利用大众媒体传播教育或信息信息。州一级公共卫生部门也利用推特开展烟草信息宣传活动,但效果不一[
电子香烟
水烟吸烟
标识符
本研究得到了医疗保健研究和质量机构(K12HS022989)和国家癌症研究所(R01CA225773;K07CA222338)。这项研究的技术基础设施得到了匹兹堡超级计算中心国家科学基金会ACI-1445606奖项的支持。资助者没有参与审查、批准或决定出版这篇手稿。
没有宣布。