这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
制药公司、政府机构、卫生保健组织、专业人员和新闻媒体等各种利益相关者正在使用社交媒体,作为吸引受众提高疾病意识并最终改善公共卫生的一种方式。然而,目前还不清楚这些健康信息对外行人有什么影响。
本研究旨在详细研究与Lynch综合征相关的健康宣传信息如何影响外行人在社交媒体平台(Twitter)上的话题意识和态度。
我们使用主题建模和情感分析技术对Lynch综合征相关推文进行了研究,回答了以下研究问题(RQs):(1) Lynch综合征相关推文中讨论最多的话题是什么?(2) Twitter上与Lynch综合征相关的宣传信息如何影响外行人的讨论?(3)大肠癌宣传月和Lynch综合征宣传日的Lynch综合征宣传活动对外行人的讨论和态度有何影响?特别地,我们使用一组关键词,通过Twitter公共搜索应用程序编程接口(API)收集2016年10月26日至2017年8月11日(289天)与Lynch综合征相关的推文。我们尝试了两种不同的分类方法,将tweet分为以下三类:(1)不相关的,(2)促销健康信息,(3)外行人的讨论。我们采用主题建模的方法来发现这些与Lynch综合征相关的推文的主题,并对每条外行人的推文进行情绪分析,以衡量作者对Lynch综合征的态度(即积极、消极和中立)。通过主题建模和情感分析结果来回答这三个rq。
在所有tweets (N=16,667)中,87.38%(14,564/16,667)与Lynch综合征相关。在与Lynch综合征相关的推文中,81.43%(11860 / 14564)被归类为推广推文,18.57%(2704/ 14564)被归类为非专业人士讨论推文。讨论最多的主题是
有证据表明,参与性社交媒体平台,即Twitter,提供了独特的机会,为癌症传播监测提供信息,并探索这些新的传播媒体影响个人健康行为和人口健康的机制。
2000年,比尔·克林顿总统签署了一项白宫宣言,将每年的3月定为“结肠癌宣传月”,以引起人们对美国癌症死亡的第二大原因的关注。Lynch综合征,也被称为遗传性非息肉病性结直肠癌(HNPCC),是一种遗传性疾病,会增加患结肠癌和直肠癌的风险,特别是许多其他类型的癌症,如胃癌、肝癌、胆管癌、小肠癌、上尿路癌、脑癌和皮肤癌的风险[
社交媒体给健康传播领域带来了迅速的变化。特别是,社交媒体平台被用来促进健康行为[
推特是一个免费的社交媒体平台,用户可以发送和阅读140个字符的短帖子,称为“推文”。Twitter分析已被用于许多生物医学和公共卫生研究,涉及广泛的健康主题[
在本文中,我们以Lynch综合征为个案研究,寻找在Twitter上讨论的热门Lynch综合征相关话题,研究与Lynch综合征相关的促销信息(如广告、促销和公共关系相关的信息)与外行人讨论(如对卫生服务的评论、对政策的意见和自我表达的感受)之间的相关性,并了解Lynch综合征意识事件对外行人讨论的影响。注意,我们是根据信息类型而不是用户类型对tweet进行分类的。一个受过良好教育的外行人(例如林奇综合症患者)也有可能发布推文,以提高人们对林奇综合症的认识,并提供有关林奇综合症的知识。然而,在我们的研究中,这些推文被归类为促销信息。分析外行人在Twitter上的讨论将是一个非常有用的工具,可以收集外行人对林奇综合征和结直肠癌的认识、看法和态度,这对各种利益相关者来说都是非常有用的,包括制药公司、政府机构、卫生保健组织和专业人士,以及新闻媒体。例如,健康倡导团体可以通过了解外行人讨论的热点话题来调整健康传播策略,优化健康宣传信息的传播。通过了解意识事件如何影响外行人的看法和态度,卫生保健组织有机会估计他们的促销健康事件对外行人行为的影响,以供未来规划。
本研究的主要目的是了解与Lynch综合征相关的健康信息如何影响外行人在Twitter上的讨论。本研究旨在回答以下研究问题(RQ):
我们的数据分析包括以下4个步骤
第一步是数据采集和预处理。我们使用Twitter应用程序编程接口(API)基于与Lynch综合征相关的一组关键字收集公开推文。然后,我们过滤掉非英语的推文,并标准化文本(例如,标签和网络链接)。
第二步是tweets的分类。我们将外行人的讨论与宣传林奇综合症相关的信息分开。我们实验了两种方法来自动分类Twitter数据——卷积神经网络(CNN)和基于规则的分类器。
第三步是主题建模和情感分析:
主题建模:我们使用潜在狄利克雷分配(LDA)模型来确定所收集的Twitter数据集中促销信息和外行人讨论的主要讨论主题。
情感分析:我们建立了一个CNN,为外行人讨论中的每条推文分配一个情感标签,即积极、消极和中性。
步骤4采用rq,通过分析主题建模和情感分析的结果,检验促销Lynch综合征相关信息与外行人讨论之间的关系。在2017年3月结肠癌宣传月和3月22日Lynch综合征宣传日期间,我们展示了Twitter上Lynch综合征相关话题的频率表,Lynch综合征相关宣传信息与外行人讨论的相关性,以及与认知相关的话题/情绪趋势。
通过这些分析,我们旨在回答上面发布的三个rq。
使用推特爬虫收集2016年10月26日至2017年8月11日(289天)与Lynch综合征相关的推文[
然后,我们按照GloVe[]使用的预处理步骤对tweet的内容进行预处理。
我们使用了两步流程将tweet分为3类(即,不相关的,与Lynch综合症相关的促销信息,以及外行人的讨论)。在第一步中,我们将推文分类为相关和不相关,而在第二步中,我们将推文进一步分类为与促销Lynch综合征相关的信息和外行人的讨论。由于数据集的大小,手动注释所有tweet是不可行的。因此,我们探索了两种方法来构建监督模型来对收集到的推文进行自动分类。我们拟合了一个CNN分类器,并建立了一个简单的基于规则的分类器。我们比较了两种方法的性能,并使用了平衡精度、召回率和F-measure的最佳性能模型。
Twitter数据处理和分析工作流程。
cnn已被广泛用于具有最先进性能的句子分类任务[
构建CNN句子分类器的一个常用策略是使用词嵌入[
我们使用相同的特征矩阵构建了两个cnn:一个将推文分类为相关和不相关,另一个将相关推文进一步分类为推广Lynch综合征相关信息和外行人讨论。
通过对收集到的推文进行随机抽样检查,我们发现96%的不相关推文都有关键字“willie”或“willy”,指的是一个名叫“willy Lynch”的人。因此,我们构建了一个简单的基于规则的分类器,如果tweet包含这两个关键字中的任何一个,它就会被分类为不相关。此外,在相关数据集中,我们观察到88%的外行人讨论不包含任何链接。与Lynch综合征相关的推广推文通常是提及Lynch综合征相关的新闻、新的诊断或治疗技术等研究成果以及健康促进活动。由于每条tweet的长度限制为140个字符,用户经常在tweet中使用超链接来引用源文章。相反,外行人的讨论典型地表达了他们自己的态度或意见,而没有参考任何其他信息来源。因此,在第二步中,如果tweet包含任何链接,则将其归类为与促销Lynch综合征相关的信息。除此之外,这条推文被归类为外行人的讨论。
在自然语言处理中,主题模型是一种统计模型,可以从文档集合中发现抽象主题[
在应用LDA算法之前,我们进一步预处理了Twitter数据,对单词进行归纳,并删除常用但与主题无关的单词,我们的目标是基于停用词列表(例如,“it”,“he”,“she”和“that”)来发现主题。我们在训练LDA模型时遵循了最佳实践。当我们通过LDA学习了每个主题的单词概率分布(以及这些主题在整个文档集合上的概率分布,即tweets)时,每个主题都可以自然地可视化为单词云,其中单词的大小与其在主题上的概率成正比。
为了了解每个话题的成交量趋势,我们还需要知道每条推文的主题。LDA模型还可以根据tweet的内容为每个tweet分配主题。正如LDA模型所描述的,每条推文都是主题的混合体,其中每个主题都有一定的概率出现在该推文中。因此,每个tweet的所有主题都有一个概率值,不太可能出现的主题具有较小的概率值。换句话说,分配给tweet的每个主题都有一个概率来表示tweet将如何被分类到该特定主题中。因此,我们需要确定主题概率值的截止值,以便为每条tweet分配一个准确的主题。在tweet被分配了多个主题的情况下,我们选择具有最高概率值的主题。
林奇综合症相关推文的主题是什么?
我们对从潜在狄利克雷分配(LDA)模型中发现的主题进行定性分析,并用一组词云对潜在主题进行可视化。
我们绘制了每个主题类别的推文数量,并根据受欢迎程度对主题进行排名。
我们考察了总体外行人情绪的描述性统计,以及他们的情绪的主题。
从主题分布的角度来看,Twitter上与Lynch综合症相关的宣传信息如何影响外行人的讨论?
我们计算每个话题在其用户群中的比例(即与促销Lynch综合征相关的信息和外行人的讨论),并将话题分布结果可视化为词云,以检验与促销Lynch综合征相关的信息是否与外行人的讨论具有相似的话题分布。
我们绘制了每月的主题趋势,包括与Lynch综合征相关的宣传信息和外行人的讨论。我们还使用Pearson相关效率检验了这些趋势之间的相关性。
结肠癌宣传月(3月)和林奇综合症宣传日(3月22日)是否会影响外行人在Twitter上的讨论和他们的态度(即积极、消极和中立)?
我们研究了在这些时间段内整体推文量是如何变化的,以及不同主题的推文量是如何变化的。
我们还绘制了人们整体情绪的趋势,以及他们在整个时间段内按主题的情绪,并研究了事件期间的变化。
情感分析是一种流行的自然语言处理方法,经常用于从一篇文章中确定作者的观点、态度或情绪状态。情感分析的一个基本任务是对给定文本的极性(即积极、消极和中性)进行分类。主要有两种情绪分析方法[
我们通过对主题建模和情感分析结果的分析,回答了这三个rq (
通过Twitter爬虫使用Twitter API [
注释任务创建了1000条随机tweet的黄金标准数据集。两位编码员之间有一个中等程度的一致(即,Cohen kappa=.72) [
如图所示
以月为单位收集的与Lynch综合征相关关键词的英文推文数量。
两种分类器性能的比较。
分类方法 | 相关与不相关 | 促销与外行 | ||||
精度 | 回忆 | F-measure | 精度 | 回忆 | F-measure | |
卷积神经网络 | .651 | .807 | .720 | .514 | .717 | .599 |
基于规则的 | .938 | .935 | .936 | .877 | .870 | .873 |
我们尝试了所有三种统计方法来寻找与Lynch综合征相关的推文(即被分类为相关的推文)中的主题数量。如图所示
因此,我们对10、15、20和30个主题进行了实验,并使用词云来可视化结果。在每次迭代中,改变主题的数量(K=10、15、20和30),向两名编码员展示主题的词云和一组示例tweet,并要求他们根据自己的判断独立地为每个主题分配一个标签。每个编码员还被要求识别重复的主题和质量差的主题(即主题中的关键字没有代表一个连贯的概念)。然后我们选择了
在生成主题后,LDA模型还能够为每条tweet分配主题概率分布。如图所示
三个主题建模质量是通过主题的数量来衡量的。
从与林奇综合症相关的推文中学到的八个话题。
主题示例及其分配给每个tweet的概率。
类别 | 推特 | 前3个话题(话题概率) |
促销 | “随着时间的推移,林奇综合症患者患各种癌症的风险有多大?”基于人群的研究提供了答案。” | 风险(0.644),基因检测(0.197),治疗(0.118) |
|
“#癌症治疗期间适应身体变化#林奇综合症” | 治疗(.533),患者(.276),家属(.139) |
非专业人员 | “我有林奇综合症,有60-80%的机会死于结肠癌,就像我的母亲和兄弟一样#我有一种预先存在的状况。” | 家族和遗传(.442),筛查(.327),患者(.172) |
|
“我的乳腺癌诊断让我做了一个基因测试,发现我有一个基因4 #林奇综合征#早期检测#结肠癌月” | 患者(.716),风险(.128),意识/意识事件(.119) |
按主题的tweet示例。
主题 | 例子推 |
家族和遗传 | “本周,我们重点关注林奇综合征、家族性高胆固醇血症和遗传性乳腺癌和卵巢癌。” |
|
“旨在预防遗传性癌症,研究人员关注# lynch综合征#NCICancerCurrentsBlog #癌症” |
筛选 | “#Lynchsyndrome #新闻:研究表明,早期筛查可以挽救许多结直肠癌患者” |
|
“林奇综合症的普遍肿瘤筛查:医疗保健提供者的观点。” |
广告 | “感谢我们的新追随者!”加入我们的#周一#GenCSM!# Lynchsyndrome # HereditaryColorectalCancer” |
|
#Lynchsyndrome #GenCSM:感谢我所有的新粉丝!祝你有美好的一天!!G @非营利组织:” |
治疗 | “对于已知患有lynch综合征的人,建议采用全腹结肠切除术来治疗结直肠癌。” |
|
“#卵巢癌和其他妇科恶性肿瘤的治疗继续取得进展” |
病人 | “新发现的林奇综合症患者表示,30多岁的孩子因为‘不便’而拒绝接受检查。”希望时间/教育能改变人们的想法。” |
|
“1/44 #结肠癌患者患有#Lynchsyndrome @HHampel1 @theNCI #登月计划#遗传性癌症” |
风险 | “顺便说一句,胶质母细胞瘤是非常恶性的,农药等化学物质是危险因素。林奇综合症等遗传疾病是一个风险因素。” |
|
"作者指出Lynch综合征患者一生中患卵巢癌的累积风险:到80岁时为20% " |
|
"妈妈拿回了基因检测结果,很明显,他们把肿瘤归因于基因突变,所以她患lynch综合征的几率为24%;;;啊” |
|
“遗传性结肠癌综合征可以通过基因检测来预测。# GetScreened # LynchSyndrome” |
意识和意识活动 | “# lynchsyndromeawarenessday快乐!# Lynchsyndrome #遗传学” |
|
“#大肠癌宣传月-如果你被诊断为结直肠癌,确保你的肿瘤接受了IHC或MSI检测的4 #Lynch综合征筛查。” |
我们用1092条带注释的推文训练了一个情感CNN分类器。我们遵循机器学习实验中的最佳实践来构建CNN,例如,使用80%的推文作为训练数据集,并在剩余20%的保留测试集上测量分类器的性能。CNN分类器的性能比较合理(precision: .737, recall: .766, F-measure: .736, accuracy: .766)。
我们按主题绘制了tweet数量的直方图,并按数量对主题进行了排序,如下图所示
我们绘制了总体外行人讨论推文的情绪分布,以及每个主题的情绪分布,如图所示
我们计算了每个话题在推广Lynch综合征相关信息和外行人讨论中所占的比例,并使用词云对结果进行了视觉比较。如图所示
我们还计算了Pearson相关系数[
从潜狄利克雷分配模型中学习到的不同主题的推文数量。
外行人对Lynch综合征的整体情绪分布及其跨主题情绪分布。
主题 | 正面(%) | 负(%) | 中性(%) |
家族和遗传 | 31 (35.63) | 2 (2.30) | 54 (62.07) |
筛选 | 11 (8.73) | 3 (2.38) | 112 (88.89) |
广告 | 36 (41.86) | 2 (2.33) | 48 (55.81) |
治疗 | 0 (0.00) | 78 (16.67) | 390 (83.33) |
病人 | 97 (49.75) | 1 (0.51) | 98 (49.75) |
风险 | 24 (12.00) | 0 (0.00) | 176 (98.00) |
基因检测 | 28日(17.40) | 9 (5.59) | 124 (77.00) |
意识和意识事件 | 60 (20.00) | 0 (0.00) | 240 (80.00) |
整体 | 498 (18.42) | 95 (3.51) | 2111 (78.07) |
促销Lynch综合征相关信息的话题比例与外行人的讨论。
按月和推文类型划分的与Lynch综合征相关的推文数量(即,与Lynch综合征相关的宣传信息vs非专业人士的讨论)。
推广林奇综合症相关信息与外行人讨论之间的Pearson相关系数基于他们每月的tweet量。
主题 | 相关系数 |
|
家庭/遗传 | .479 | .14点 |
筛选 | 条 | 0。 |
广告 | .112 | .74点 |
治疗 | .698 | 02 |
病人 | .211 | 53 |
风险 | .659 | 03 |
基因检测 | .624 | .04点 |
意识和意识活动 | .989 | <措施 |
如图所示
然后,我们绘制了外行人讨论中不同情绪类别的总体tweet量趋势,如图所示
我们进一步以话题为单位分析外行人的情绪变化趋势,了解在认知事件中,外行人对哪些话题的态度变化明显。我们为每个话题构建了每个月的平均情绪得分。对于每条单独的推文,如果它是积极的,我们给它打分为1,如果它是中性的,我们给它打分为0,如果它是消极的,我们给它打分为- 1。我们按月汇总每个主题中所有推文的得分,并根据该月该主题类别中的推文总数对得分进行规范化。如图所示
按月和按主题发布的与林奇综合症相关的推文数量。
每月的推文数量和外行人的情绪。
每个月“广告”和“意识/意识事件”主题的平均情绪得分。
我们研究的目的是了解与Lynch综合征相关的健康信息如何影响外行人在Twitter上的讨论。我们对Lynch综合征相关推文进行了主题建模和情感分析,回答了以下3个rq:(1) Lynch综合征相关推文中讨论最多的话题是什么?(2) Twitter上与Lynch综合征相关的宣传信息如何影响外行人的讨论?(3)大肠癌宣传月和Lynch综合征宣传日的Lynch综合征宣传活动对外行人的讨论和态度有何影响?我们发现,“意识”、“治疗”和“基因检测”是林奇综合征相关推文中最受欢迎的话题。此外,与社交媒体上讨论的其他话题相比,外行人对“治疗”和“基因检测”的态度相对消极。Twitter上与林奇综合症相关的信息大多集中在治疗和基因检测上,这并不奇怪,人们对这些话题的态度更为消极,因为他们担心患癌症的风险更高或癌症诊断为阳性的可能性,担心成本和诊断方法的质量(例如,“我患过两次癌症,我一直担心三次。没有医疗保险让我心碎”和“lynch综合征的基因检测费用”)。
促销性Lynch证候相关信息的话题分布与外行人的讨论相似。特别是,外行人对“意识”的讨论与Twitter上Lynch综合征相关的宣传信息高度相关,而对“筛查”、“基因检测”、“治疗”和“风险”的讨论则适度相关。这些结果表明,医疗机构和专业人员在Twitter等社交媒体平台上发布的促销信息可能对外行人产生重大影响。在某种程度上,我们的结果为在新的数字媒体上进一步开发新的癌症传播策略提供了证据[
此外,健康相关意识活动和倡议,如3月结肠癌宣传月和3月22日林奇综合征宣传日,对外行人对健康状况的讨论、看法和态度有很大影响。我们对每月推文量趋势的分析显示,卫生组织和专业人员在这些宣传活动期间共同努力在推特上传播与Lynch综合征相关的宣传信息。此外,他们的努力对提高外行人对特定健康话题的认识产生了很大影响,这从这些意识活动期间外行人的推文数量增加中可以看出。此外,我们还观察到外行人在这些事件中有更积极的态度,如图
积极影响外行人对Lynch综合征的态度和规范性信念的可能性,使我们有机会根据行为改变理论设计新的癌症预防和控制的参与性沟通策略。例如,在计划行为理论中[
与传统媒体(如报纸、电视广告、传单)相比,在社交媒体上设计合适的推广策略需要更多的考虑。卫生组织和专业人员需要考虑社会媒体可以提供什么样的信息,以及宣传信息如何实现其目标(例如,加强与受众的沟通以促进公众参与)。在我们的数据集中,许多与Lynch综合征相关的促销信息确实遵循了在社交媒体上发布健康促进信息的建议[
正如我们的研究所证明的那样,社交媒体在健康宣传中的使用正在迅速扩大。衡量这些健康促进战略的执行情况变得越来越重要。Neiger等人提出了一套关键绩效指标(kpi)和指标,用于评估社交媒体中健康促进的绩效[
我们的研究侧重于分析与Lynch综合征相关的推文文本,而Twitter收集了更多关于推文(例如,通过转发的推文之间的链接)及其用户(例如,用户位置,朋友和关注者)的信息。可以利用这些信息对Twitter上与健康相关的主题进行更深入的分析。例如,通过对转发网络进行建模,我们可以通过对社交网络的分析来研究推广健康信息是如何在Twitter上传播的。
首先,为了对推文进行自动分类,并为每条推文分配一个情感,我们采用了计算分类方法,其准确率并不完美。这种不完美使得在微观尺度上(即在单个tweet上)有可能得到不正确的结果。然而,考虑到我们的数据量很大,在宏观尺度上的结果应该是一致的。此外,我们将推文分类为与Lynch综合征相关的促销信息和外行人的讨论。然而,我们归类为外行人讨论的一些推文可能来自卫生专业人员和卫生倡导团体。缓解此问题的一种方法是根据Twitter用户配置文件识别这些用户,并相应地对其tweet进行分类。此外,Twitter用户的人口统计数据(如年龄、性别、种族和民族)可能是我们分析中需要控制的混淆变量。然而,并没有一种简单的方法来确定Twitter用户的人口统计数据,因为Twitter并不要求其用户提供此类信息。
第二,主题建模只能在高层次上提取抽象主题。这些抽象的主题往往有更深入的方面需要探索。例如,“基因检测”可以进一步划分为更细粒度的方面(例如,基因检测的成本和基因检测的准确性)。解决这个问题的一种方法是开发一本编码书,并用细粒度主题手动注释每个单独的tweet。然而,这样的过程是劳动密集型的,并且对于大量的Twitter数据几乎是不可能的。一个可能的解决方案是标记tweet的一个小随机样本,然后开发监督分类器(类似于我们用于情感分析的方法)来自动标记其余数据。
第三,Twitter用户并不能代表一般人群。总的来说,大多数社交媒体用户往往更年轻;2017年,71%的推特用户年龄在49岁以下。
许多研究使用情感分析和主题建模来分析与健康相关主题的社交媒体数据。Doing-Harris等人设计了一个主题分类器,并确定了患者评论的共同主题,以了解患者对医疗服务的满意度[
我们的研究结果提供了证据,证实了卫生组织和专业人员在社交媒体平台上广泛推广的意识倡议和活动的积极影响。此外,更深入地了解这些宣传信息和活动如何影响个人的态度和他们所感知的社会规范,可以使我们更好地设计健康行为干预措施。一些未来的方向可以进一步促进我们对促销信息对外行人的影响的理解。例如,它将通过检查Twitter用户的个人资料和宣传材料的来源(按照tweet中的链接)提供额外的上下文和信息。然而,需要开发更先进的自然语言处理工具和机器学习模型来处理大量的Twitter数据。
应用程序编程接口
卷积神经网络
遗传性非息肉病性结直肠癌
人类乳头状瘤病毒
关键绩效指标
潜在狄利克雷分配
研究问题
这项工作得到了美国国家科学基金会(NSF)奖励#1734134、美国国立卫生研究院(NIH)资助UL1TR001427、OneFlorida癌症控制联盟(由佛罗里达州卫生部詹姆斯和埃丝特·金生物医学研究项目资助,资助号4KB16)以及由以患者为中心的结果研究所(PCORI)资助的OneFlorida临床研究联盟的部分支持。内容完全是作者的责任,并不一定代表NSF, NIH或PCORI的官方观点。
JB, YS, RS和YZ设计了最初的研究方案。YG, MP, ZH和MW对研究设计提出了重要的建议。YZ、LJRD和JB注释了Twitter数据。YZ和XD建立了情感分析的分类模型。YZ和HZ进行了主题建模。YZ做了统计分析。JB和YZ写了手稿。所有作者都对稿件进行了反馈和编辑。
没有宣布。