这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
药用大麻越来越多地被用于治疗各种身心健康状况。社交媒体和基于网络的健康平台提供了宝贵的、实时的和具有成本效益的监测资源,用于收集有关将大麻用于医疗目的的个人的见解。考虑到医用大麻最佳使用的证据仍在不断出现,这一点尤其重要。尽管在网上向消费者销售医用大麻,但目前没有强有力的监管框架来衡量临床健康益处或个人不良事件经历。在之前的一项研究中,我们对包含大麻药用主题的研究进行了系统的范围审查,并使用了来自社交媒体和搜索引擎结果的数据。本研究分析了这些研究的方法学方法和局限性。
我们的目的是检查使用基于网络的用户生成文本来研究大麻作为药物使用的研究方法和研究方法。
我们检索了MEDLINE、Scopus、Web of Science和Embase数据库,查找1974年1月至2022年4月期间的英语主要研究。如果研究的目的是理解基于网络的用户生成的与使用大麻作为药物的健康状况或在与大麻有关的一般对话中提到健康的文本,则将其纳入研究。
我们纳入了42篇文章。在这些文章中,Twitter的使用次数是其他电脑生成资源的3倍,包括Reddit、网络论坛、GoFundMe、YouTube和谷歌Trends。分析方法包括情感评估、主题分析(人工和自动)、社会网络分析和地理分析。
这项研究首次回顾了消费者生成文本研究中使用的技术,以了解大麻作为一种药物。越来越明显的是,消费者产生的数据为更好地了解个人行为和人口健康结果提供了机会。然而,使用这些数据的研究有一些局限性,包括难以建立样本代表性和缺乏方法最佳实践。为了解决这些限制,应该公开未标识的注释数据源,研究人员应该确定帖子的来源(组织、机器人、高级用户或普通个人),并且应该使用强大的分析技术。
在整个人类历史上,大麻被广泛用于各种目的,包括医疗用途。在上个世纪,欧洲、北美和澳大拉西亚都禁止使用大麻。
然而,除了临床试验外,关于药用大麻的功效和副作用的数据很少[
鉴于种植条件和生产规格的多样性,大麻是一种非标准化产品,因此有必要增进对大麻作为药物的功效和安全性的了解[
为了进一步了解大麻的使用及其影响,研究人员现在转向社交媒体和基于网络的健康论坛。这些平台是病人和一般民众自由表达和交流经验的场所,从而为监测公共卫生提供了宝贵的额外数据来源[
社交媒体对话中包含的信息数量庞大,不仅内容丰富,而且复杂多样。作为一种非结构化的原始数据源,可信信息可能是稀疏的,难以识别;数据的来源或它们所代表的人群可能存在不确定性[
我们之前的系统范围审查[
本研究的目的是对使用用户生成数据并结合计算方法来了解大麻在人群中的药用的研究进行审查。我们解决了以下研究问题(RQs):
RQ1:哪些消费者生成的数据源用于研究大麻?
RQ2:使用了哪些常用的数据收集和分析技术?
RQ3:这些研究面临的共同限制和挑战是什么?
我们检索了在MEDLINE、Embase、Web of Science和Scopus数据库中检索并在2010年1月至2022年3月期间发表的英语研究。针对这4个数据库开发了文献数据库查询。见表S1
PRISMA(系统评价和荟萃分析的首选报告项目)研究选择过程流程图[
发表论文数量最多的年份是2020年(11/42,26%),其次是2017年和2021年(6/40,14%)。在42项研究中,有6项(12%)是在2015年和2019年进行的。每年的出版物数量以
在数据来源方面,40%(17/42)的研究使用了Twitter,大约是使用Reddit或网络论坛(14%(6/42))的研究数量的3倍。GoFundMe、YouTube和谷歌Trends占总数的7%(3/42)。文本是83%(35/42)研究的重点,而其他研究则分析趋势、视频、搜索日志和图像。
纳入综述的文章。
研究 | 源(持续时间) | 分析 | 分析项目数 |
McGregor等[ |
基于web的论坛、Facebook、Twitter和YouTube(不可用) |
青光眼相关帖子的主题和内容分析如下: 对帖子性质的分析(个人故事、信息分享或标记、支持性评论、问题、答案和一般性讨论) 情绪分析(积极或消极) |
3785件 |
cavazos等[ |
Twitter(2014年2月至3月) |
有影响力的用户在以下方面与大麻有关的讨论: 使用李克特量表进行情感分析 推文主题分析 人口统计分析 |
7000条 |
daniulityte等[ |
Twitter(2014年10月至12月) |
与美国有关的推文: 基于大麻合法化政策的计数和规范化 |
125,255条推文(27,018条地理定位推文) |
Gonzalez-Estrada等[ |
YouTube(2014年6月4日至8日) |
哮喘相关视频内容分析如下: 来源:专业学会、媒体、哮喘病医护人员等 内容:亲身体验、专业医疗、广告宣传、患者教育、另类治疗或提高认识 误导性和有用信息的质量评分 视频特性或视频统计 |
200个观看次数最多的视频 |
Krauss等[ |
YouTube(2015年1月22日) |
对涉水相关视频的分析如下: 人的特点(年龄和技能) 会议特点 视频中包含的信息 |
116个视频 |
Thompson等人[ |
Twitter(2012年3月至2013年7月) |
大麻相关推文和转发内容分析如下: 青少年用户(年龄,从用户配置文件推断) 情绪(积极的、消极的或不明确的) 主体(自我、他人、一般或不明确的主体) 使用类别(自己使用,他人使用,或未提及) 相关行为(习惯使用、社交方面等) 积极方面(优于其他药物和医疗用途) |
36,939条原创推文和10,000次转发 |
cavazos等[ |
Twitter(2015年1月) |
Dabbing-related推文: 推文的主题分析到7个主题 将1个主题(极端效应)细分为生理或心理效应 地理标记推文分析每个州的数量 人口统计分析 |
5000条 |
拉米等人[ |
Twitter(2015年5月至7月) |
大麻食用相关对话内容分析: 推文来源(媒体、零售或用户) 情绪分析(积极、消极或中性) 词频分析 地理标记(策略对tweet数量的影响) |
3000条 |
Mitchell等[ |
网络论坛(2014年10月) |
ADHD的专题分析一个大麻网络论坛的帖子如下: 大麻对ADHD症状的影响(治疗性、有害性、两者都有、无) 其他领域(情绪、精神状况和其他[睡眠]) 关于大麻作为药物的评论(比其他多动症药物更有效,效果更差,或者不合法) |
268个线程 |
Andersson等[ |
网络论坛(2016年4月18-19日) |
对头痛相关帖子的对话进行主题分析 |
32个话题 |
戴和郝[ |
Twitter(2015年8月至2016年4月) |
创伤后应激障碍的朴素贝叶斯分类器b还有与大麻有关的推文: 情绪分析 支持使用大麻治疗PTSD的流行程度与州立法和社会经济因素的关系分析 |
66,000条与大麻有关的推文和31,184条地理定位推文 |
Greiner等[ |
网络论坛(2014年11月至2015年3月) |
大麻帮助论坛内容分析如下: 感兴趣的领域(疾病相关、社会、金融和法律问题) 自助机制(信息交换、情感支持、团体支持) 如有性别和年龄分析 高度参与vs适度参与的用户 |
717个帖子 |
特纳和坎塔奇[ |
Twitter(2015年8月至2016年4月) |
大麻相关推文的监督和无监督机器学习技术: 二元分类识别大麻相关推文 主题建模 用户社会网络分析 对话的时空分析 |
40509条定位推文 |
Westmaas等[ |
网络论坛(2000年1月至2013年12月) |
癌症幸存者网络的主题建模 分析吸烟或戒烟相关的内容 分析以确定这些讨论发生的总体背景 |
468000个帖子 |
Yom Tov和Lev Ran [ |
必应日志(2016年11月至2017年4月) |
大麻相关查询日志统计分析 |
不可用 |
cavazos等[ |
YouTube(2015年6月10日至11日) |
大麻评论网络视频: 情绪分析 对身体或精神的影响;是促销,鼓励跟进;消费描述;视频细节和参与统计 当前用户调查(人口统计、使用原因和使用评论) |
83个视频 |
Glowacki等[ |
Twitter(2016年8月至10月) |
阿片类药物相关推文统计分析: 聚类算法寻找主题 分析趋势标签,顶级影响者和推文的位置 |
73235条 |
Meacham等[ |
Reddit(2010年1月至2016年12月) |
对Twitter上提到的大麻使用方式的分析如下: 最常用词汇 提及不良反应 主观的殿下 |
400000个帖子 |
Leas等[ |
谷歌趋势(2004年1月至2019年4月) |
CBD分析c和大麻二酚来评估公众利益 |
不可用 |
Meacham等[ |
Reddit(2017年1月至2019年12月) |
内容分析涉猎相关问题有以下几点: 问题主题 参与后的类型和情感信息 |
193个问题 |
Nasralah等[ |
Twitter(2015年1月至2019年2月) |
阿片类药物依赖用户推文分析: 对话的主题分析 人口统计分析 |
20609条 |
psamez - psamez等[ |
Twitter(2018年2月至8月) |
基于词汇和规则的肠道疾病推文分析,包括情绪、网络、性别、地理位置、症状和食物 |
24634条 |
Shi等[ |
谷歌趋势和热门话题(2011年1月至2018年7月) |
谷歌癌症治疗的趋势分析,以评估大麻与其他治疗的兴趣 |
不可用 |
Allem等[ |
Twitter(2018年5月至12月) |
大麻相关推文的主题分析 |
60,861条nonbot和8874条bot推文 |
Janmohamed等[ |
博客、新闻、论坛和<1%其他(2019年8月至2021年4月) |
电子烟相关对话的话题建模: 词汇流行度分析 分析题目随时间的变化 |
4,027,172个文档或博客 |
Jia等[ |
b谷歌、Facebook和YouTube(2019年9月) |
青光眼和CBD帖子的内容分析如下: 一般讨论,信息共享,个人故事,问题,答案和版主评论 信息质量 信息来源是否专业,是否对青光眼和医用大麻的使用发表了意见 专业账户分析 |
51个bb0网站,126个Facebook帖子和37个YouTube视频 |
Leas等[ |
Reddit(2014年1月至2019年8月) |
CBD使用原因内容分析: 个人使用原因(状况和健康) 基于分类诊断条件的分析 |
104917个帖子 |
Merten等[ |
Pinterest(2018年7月31日、8月18日和9月1日) |
CBD和大麻二酚含量分析如下: 提到精神和身体上的好处 情感诉求分析 参与统计 |
1280针 |
Mullins等[ |
Twitter(2017年6月至7月) |
爱尔兰疼痛相关推文分析: 主题分析:情感分析、最常出现关键词分析、人口统计分析、个人使用分析 |
941条 |
萨波斯尼克和胡贝尔[ |
谷歌趋势(2004年1月至2019年12月) |
谷歌自闭症和大麻的趋势分析,分析自闭症谱系障碍病因和治疗方法的搜索量随时间的变化趋势 |
不可用 |
Song等[ |
GoFundMe(2012年1月至2019年12月) |
替代医学与抗癌运动的内容分析如下: 病人叙述的主题 使用的替代治疗类型 人口统计(性别、癌症类型、癌症分期、保险状况、过去治疗、未来治疗和替代治疗) |
1474年活动 |
Tran和Kavuluru [ |
Reddit和/或FDA评论(2019年1月至4月) |
CBD贴的疗效及与FDA比较流行消费方式的含量分析d评论 |
64,099条Reddit和3832条FDA评论 |
van Draanen等[ |
Twitter(2017年1月至2019年6月) |
与大麻相关的美国和加拿大帖子: 主题建模 基于大麻合法化政策的情感分析 |
1200127条 |
Zenone等[ |
GoFundMe(2017年1月至2019年3月) |
对癌症和大麻运动的专题分析: 功效宣称 治疗方案分类 CBD功效介绍 其他内容分析:癌症阶段,筹集资金,捐赠者数量 |
155年活动 |
Pang等[ |
Twitter(2019年12月至2020年12月) |
对怀孕和大麻相关推文进行专题分析,以确保怀孕期间的安全、产后安全以及怀孕相关症状 |
17238条 |
Rhidenour等[ |
Reddit(2008年1月至2018年12月) |
老兵大麻帖子专题分析如下: 观点,使用原因,处方药物使用,或其他物质使用 测试,合法性,法律政策和医患对话 |
974个帖子 |
Smolev等[ |
Facebook(2018年11月至2019年11月) |
外伤性臂丛神经损伤帖子的专题分析:抗阿片类药物情绪,对替代方案的偏好,以及抗加巴喷丁情绪 |
7694个帖子 |
Soleymanpour等[ |
Twitter(2019年7月) |
CBD营销推文和治疗声明分析 |
2200000条 |
Zenone等[ |
GoFundMe(2017年6月至2019年5月) |
信息路径的主题分析:自我导向的研究,来自值得信赖的护理提供者的建议,以及与众筹者个人网络相关或有影响的人分享的见解 对预期结果、社交媒体分享、捐助者数量、请求总数和收到总数的内容分析 |
164年活动 |
Turner等[ |
Twitter(2019年10月至2020年1月) |
个人和商业cbd相关推文分析;期限和情绪分析 |
167755条个人推文143322条商业推文 |
Allem等[ |
Twitter(2020年1月至9月) |
对与健康有关的动机或感知到的不利健康影响的大麻相关对话的分析 |
353353条 |
Meacham等[ |
Reddit(2015年12月至2019年8月) |
分析来自阿片类药物使用和阿片类药物恢复版块的大麻相关帖子 |
908个帖子来自阿片类药物恢复子版块,4224个帖子来自阿片类药物使用子版块 |
一个ADHD:注意缺陷多动障碍。
bPTSD:创伤后应激障碍。
cCBD:大麻二酚。
dFDA:食品和药物管理局。
每年出版物(n=42)。
一年 | 计数,n (%) |
2014 | 1 (2) |
2015 | 5 (12) |
2016 | 3 (7) |
2017 | 6 (14) |
2018 | 3 (7) |
2019 | 5 (12) |
2020 | 11 (26) |
2021 | 6 (14) |
2022 | 2 (5) |
每个数据源的出版物(n=42)。
源 | 计数,n (%) |
推特 | 17 (41) |
6 (14) | |
网络论坛 | 6 (14) |
GoFundMe | 3 (7) |
YouTube | 3 (7) |
谷歌趋势 | 3 (7) |
b谷歌,Facebook和YouTube | 1 (2) |
必应搜索引擎 | 1 (2) |
脸谱网 | 1 (2) |
1 (2) |
一些研究从reddit的一个特定版块获得了所有相关数据[
基于关键词的过滤被许多研究使用。用于过滤的术语要么是词典(如Urban Dictionary)中关于大麻的常见表达,要么是基于该领域的类似研究。在42项研究中,1项(2%)研究[
在一项与大麻相关的非医学研究中,从Twitter和Reddit数据集创建的词嵌入发现了用其他方法无法识别的同义词和俚语。该研究推荐这种基于关键词过滤的数据收集预先发现同义词的方法[
在42项研究中,3项(7%)研究以用户为重点,数据来自特定的极具影响力的用户[
研究人员手工标注的最大数据集是使用大麻相关关键词收集的,包括36,939条原始推文和10,000条转发推文[
本综述中纳入的研究使用了多种分析方法,包括定性分析、定量内容分析、机器学习、基于规则的分析和统计分析。分析的类型包括情感评估、主题分析、内容分析、命名实体识别、社会网络和地理分析。表S3
62%(26/42)的研究确定了主题。69%(18/26)的研究使用预先存在的类别或通过观察数据样本并生成代码本对主题进行手动编码[
在26项研究中,4项(15%)研究使用主题建模来推断主题或主题[
在26项研究中,1项(4%)研究使用基于规则的方法确定主题。生成了最常见的单字和双字的频率计数,并构成了主题的基础[
26%(11/42)的研究对研究人群进行了社会经济和人口统计学分析。在11项研究中,2项(27%)研究使用了从用户档案或从用户帖子中推断出的提供的性别、年龄和其他用户特征[
在11项研究中,2项(18%)研究使用社交媒体分析提供商通过使用提供的分析获得了年龄和性别数据[
40%(17/42)的研究进行了地理定位数据分析。52%(9/17)的研究使用了用户配置文件或消息元数据[
一个人对一个话题的看法可以分为积极的、消极的或中立的情绪。这些情绪的分析通常使用自动语言工具进行,并被称为“情绪分析”[
在进行情绪分析的12项研究中,有5项(42%)使用了自动化方法。在这12项研究中,1项(8%)研究在1000条与“大麻”相关的推文样本上训练了一个二元朴素贝叶斯分类器,将帖子分为两种观点极性,积极、消极或中立[
在进行用户分析方面,57%(24/42)的研究调查了帖子的主题,如来自个人或他人(即来自自我、零售、媒体或专业人士),或帖子的内容(自我、他人或一般)[
当进行手动数据标记时,确定海报和帖子的主题是标记过程的一部分。自我报告和自我使用很容易通过观察视频来确定,大多数基于语言结构的文本也是如此。例如,一项研究[
没有一项研究使用先进的自然语言处理技术来建立受试者和个人提及。社交媒体机器人是指在社交媒体平台上生成人工活动的自动账户[
在42项研究中,有2项(5%)研究调查了参与对话的人的社交网络。这样就可以确定目标社区和用户互动[
院校评审委员会(或其等同机构)确保以合乎道德的方式进行人类参与的研究[
使用标准报告系统,例如美国食品和药物管理局的报告,有助于评估社交媒体研究结果是否可以推广到现实世界的数据。当没有合适的真实数据集时,针对>1社交媒体平台验证结果可以提高结果的泛化性和有效性。只有少数研究使用了bbbb1社交媒体数据源或通过其他数据源验证了他们的发现。在42项研究中,2项(5%)研究使用食品和药物管理局的数据作为外部真实数据来源来验证其结果[
在这项研究中,我们回顾了同行评审的已发表作品的技术方面,这些作品使用社交媒体和其他形式的用户生成数据来了解大麻的药用。所有研究的结论都是,这些消费者产生的数据来源是有用的,为研究大麻和使用大麻的医疗条件提供了补充资源。
本研究的发现是通过回答rq来呈现的。
被审查的研究使用的大麻研究消费者生成数据的来源包括社交媒体平台,如Twitter、Reddit和YouTube;搜索查询,包括谷歌趋势和必应查询日志;以及网络论坛、众筹平台、博客和网站。大多数研究都使用了Twitter。其中一项研究得出结论,与未经审核的平台相比,经过审核的网站更注重循证信息,并控制误导性内容[
一些研究使用社交媒体分析公司来完成部分或全部数据收集和处理任务。其他研究使用应用程序接口与Twitter和Reddit进行交互。尽管Facebook允许研究人员通过专用平台从公共页面访问公共帖子[
大约一半的研究使用了<8000条记录的数据集,其中许多使用了1000条记录。这些研究要么关注于了解用户的特征和需求,要么关注于网络信息的质量,要么关注于RQ,如“个人是否在使用CBD治疗有循证治疗的可诊断疾病?”这些分析在理解领域方面起着关键作用,但很难复制和推广。
最近的基于神经网络的自然语言处理技术尚未在本综述的研究中使用。这些现代机器学习方法的优点是,它们需要最少的数据准备,并且具有学习语言细微差别的能力。然而,为了有效地工作,它们通常需要高质量的带注释的数据——这是一种稀缺且昂贵的资源。文本社交媒体数据非常适合这些技术。为此目的,应在适当的道德、监管和法律框架内鼓励创建和共享未识别的注释数据集[
这些限制是按频率顺序列出的。
大多数关于社交媒体的研究都使用了可用数据的样本。然而,数据样本在多大程度上代表一般人群往往是不清楚的。这些研究中提到的限制因素包括由于关键词的选择、数据收集时间和总体偏差而引入的抽样偏差。
人口偏差通常是指使用社交媒体平台的人群的人口构成与一般人群不同,以及难以确定用户的人口特征。在以前的研究中也提到了获取准确的地理位置。获取这些数据是有限的,因为即使用户在他们的帖子或个人资料中明确地包含了人口统计信息(例如Facebook)或地理信息,这些信息也可能是捏造的。
平台的选择本身也有限制。例如,特定于平台的功能(如采样策略)会限制可收集的数据量以及用户根据平台或上下文的行为和对话。在42项研究中,1项(2%)研究提到,他们调查的论坛可能非常容易吸食大麻,可能居住着更有经验的大麻使用者[
复杂性也会出现,因为特定平台的算法会发现并进一步推广流行主题和用户,从而有意识地管理行为并吸引更多平台用户。这需要通过检测和计算算法以及可能通过从>1平台采样来改善。
一些研究使用的小数据集影响了结果的普遍性,一些研究人员承认这一点,并表示计划用更多的数据和使用自动化方法来重复他们的研究。因此,我们观察到,尽管这些研究可能是对社交媒体数据进行抽样以生成假设,但它们没有利用社交媒体数据最重要的特征之一,即能够观察大数据的持续生成,从而创建以数据为中心的长期见解[
研究中也提到了可能因主题选择而引入的偏见。大多数研究人员都试图通过创建注释指南、让100个人标记数据和解决分歧来缓解这种情况。
几项研究提到的一个限制是,基于网络的搜索活动和包含大麻相关关键词的社交媒体帖子不一定代表发帖者实际使用大麻。根据研究的背景和目标(例如,如果研究旨在研究大麻消费人群),需要先进的文本处理技术来确定何时可以推断个人使用大麻。对于这类研究,确定其用途应该是关键的第一步。然而,个人使用的检测是具有挑战性的,特别是在小众社区使用的非正式的、多样化的和专门的语言中。
确定帖子的来源(即,它们是由个人用户自发生成的,还是由组织或机器人生成的)是一个经常被提到的限制。据了解,由卫生和商业组织、高级用户和非个人帐户生成的内容构成了网络上相当大的社交媒体帖子量。
本综述在检索过程中使用了4个文献数据库,以最大限度地覆盖现有出版物。然而,我们不能确定我们已经涵盖了所有相关的出版物。文献搜索关键词的选择也可能影响到捕获该领域的所有相关研究,例如,
在过去几年中,这一领域的研究数量稳步增加。社交媒体的对话范围很广,并提供了通过正式信息收集无法获得的见解的机会。研究人员已经意识到社交媒体对话的价值,用户可以自由地表达他们的经历和担忧,而不会冒着被评判或受到惩罚的风险,社交媒体是许多将大麻作为药物的用户分享他们对所经历和感知的益处和问题的见解的天然论坛。
人工定性分析、统计分析、监督和无监督机器学习以及基于规则的方法是这些研究中使用的方法。社交媒体数据的分析仅限于小数据样本,虽然提供了一种有效的假设生成手段,但很难可靠地再现和推广。在可能的情况下,应鼓励共享高质量的未识别注释数据,以允许使用可推广的分析技术来推进这一领域。
为了提高其有效性和普遍性,研究可以增加额外的社交媒体数据源,并根据既定的报告系统检查其结果。研究可以利用利用大数据的新兴数据分析策略,如深度学习和基于迁移学习的方法。
支持信息(综述关键词、纳入和排除标准、论文摘要)。
系统评价和荟萃分析的首选报告项目
研究问题
价感知词典和情感推理器
本综述得到了澳大利亚大麻素临床和卓越研究中心的支持,该中心由国家卫生和医学研究委员会通过卓越研究中心计划(NHMRC CRE APP1135054)资助。
没有宣布。