医学互联网研究杂志-使用社交媒体数据了解促销信息对外行讨论的影响:林奇综合征的案例研究

原始论文

¹美国佛罗里达州盖恩斯维尔市佛罗里达大学医学院健康结果与生物医学信息系

²美国佛罗里达州盖恩斯维尔市佛罗里达大学沃林顿商学院管理系

^3.美国佛罗里达州盖恩斯维尔市佛罗里达大学公共卫生与卫生专业学院流行病学系

⁴美国佛罗里达州盖恩斯维尔市佛罗里达大学医学院流行病学系

⁵美国佛罗里达州塔拉哈西佛罗里达州立大学信息学院

⁶浙江工商大学工商管理学院，浙江杭州

*这些作者贡献相同

通讯作者:

孙元，博士

工商管理学院

浙江工商大学

下沙大学城浙江工商大学学正街18号

浙江杭州310018

中国

电话:86 0571 28008005

传真:86 0571 28008006

电子邮件:d05sunyuan@zju.edu.cn

背景:制药公司、政府机构、卫生保健组织、专业人士和新闻媒体等各种利益相关者正在使用社交媒体，作为吸引受众提高疾病意识并最终改善公共卫生的一种方式。然而，目前还不清楚这些健康信息对外行有什么影响。

摘要目的:本研究旨在详细研究与Lynch综合征相关的宣传健康信息如何在话题意识和态度方面影响外行在社交媒体平台(Twitter)上的讨论。

方法:我们使用主题建模和情感分析技术对Lynch综合征相关推文进行了研究，以回答以下研究问题:(1)Lynch综合征相关推文中讨论最多的主题是什么?(2) Twitter上推广Lynch综合征相关信息如何影响外行讨论?(3)“结肠癌宣传月”和“林奇综合症宣传日”的林奇综合症宣传活动对俗人的讨论和态度有什么影响?特别是，我们使用了一组关键词，通过Twitter公共搜索应用程序编程接口(API)收集了2016年10月26日至2017年8月11日(289天)与Lynch综合征相关的推文。我们尝试了两种不同的分类方法，将推文分为以下三类:(1)无关，(2)促销健康信息，(3)外行讨论。我们应用主题建模方法来发现这些与林奇综合征相关的推文中的主题，并对每个外行的推文进行情感分析，以评估作者对林奇综合征的态度(即积极、消极和中立)。阐述了主题建模和情感分析结果，以回答这三个rq。

结果:在所有推文中(N=16,667)， 87.38%(14,564/16,667)与Lynch综合征有关。在Lynch综合征相关的推文中，81.43%(11860 / 14564)被归类为宣传，18.57%(2704/ 14564)被归类为外行讨论。讨论最多的主题是治疗(n = 4080)基因检测(n = 3073)。我们发现外行讨论的主题分布与推广Lynch综合征相关信息的分布相似。此外，大多数人在讨论Lynch综合征时持积极态度。负面推文的比例为3.51%。在每个主题中，治疗(16.67%)和基因检测(5.60%)的负面推文多于其他话题。在比较月度趋势时，外行的讨论与推广Lynch综合征相关信息有很强的相关性意识（r= .98,P<.001)，而在筛选（r=条,P= . 05),基因检测（r= .624,P= .04点),治疗（r=,。P= .02点)风险（r=点,P= 03)。我们还发现，结肠癌宣传月(2017年3月)和林奇综合征宣传日(2017年3月22日)对外行的讨论和态度有显著的积极影响。

结论:有证据表明，参与性社交媒体平台，即推特，为癌症传播监测提供了独特的机会，并探索这些新的传播媒体影响个人健康行为和人群健康的机制。

中国医学医学杂志，2017;19(12):e414

doi: 10.2196 / jmir.9266

关键字

社交媒体；林奇综合症；公共卫生监测；情绪分析

2000年，比尔·克林顿总统签署了一项白宫公告，将3月定为结肠癌宣传月，以引起人们对美国第二大癌症死亡原因的关注。林奇综合征，也称为遗传性非息肉病性结直肠癌(HNPCC)，是一种遗传性疾病，可增加结肠癌和直肠癌的风险，特别是许多其他类型的癌症，如胃癌、肝癌、胆管、小肠、上尿路、脑癌和皮肤癌[1］．Lynch综合征是遗传性结直肠癌最常见的病因，约占遗传性结直肠癌病例的2%至3% [2］．3月22日是世界各地社区公认的林奇综合症宣传日[3.］．

社交媒体迅速改变了卫生传播的格局。特别是，社交媒体平台被用来促进健康行为[4]，加强医患教育[5，6]，克服提供卫生保健方面的障碍[7]，并处理公共卫生监测问题[8，9］．一方面，公共卫生利益攸关方，包括卫生组织、政府机构、制药公司、新闻媒体和倡导者，利用社交媒体在互联网上广泛传播卫生信息。另一方面，外行人分享他们的个人健康经验，发表评论，并对特定的健康问题、医疗产品和保健服务发表意见。然而，关于Lynch综合征和社交媒体的研究却很少。通过PubMed搜索，我们只发现了一项研究，作者要求一个倡导组织在Facebook上传播他们的研究信息，以展示在社交媒体平台上招募Lynch综合征参与者的可行性[10］．

Twitter是一个免费的社交媒体平台，允许用户发送和阅读被称为“tweet”的140个字符的简短帖子。Twitter分析已用于许多生物医学和公共卫生研究，涉及广泛的健康主题[11］．例如，Broniatowski等人成功地将Twitter数据用于流感监测[12］．workkewych等人假设推特数据可能有助于了解公众对运动相关创伤性脑损伤的认知和误解[13］．Massey等人量化了推特上的人乳头瘤病毒(HPV)疫苗接种传播，并使用情绪分析来检查人们对HPV疫苗接种的态度[14］．Cole-Lewis等人利用推特历史数据进行了一项内容分析，以确定关于电子烟(电子烟)的关键对话趋势[15］．

在本文中，我们以Lynch综合征为案例研究，寻找Twitter上讨论的与Lynch综合征相关的热门话题，考察与Lynch综合征相关的促销信息(如广告、促销和公共关系相关的信息)与非专业人士讨论(如对健康服务的评论、对政策的意见、自我感受的表达)之间的相关性，了解Lynch综合征意识事件对非专业人士讨论的影响。注意，我们根据信息类型而不是用户类型对tweet进行了分类。一个受过良好教育的外行(如林奇综合征患者)也有可能发布推特，以提高对林奇综合征的认识和传播知识。然而，在我们的研究中，这些推文被归类为促销信息。分析非专业人士在Twitter上的讨论将是一个非常有用的工具，可以收集非专业人士对林奇综合征和结直肠癌的意识、看法和态度，为各种利益相关者，包括制药公司、政府机构、卫生保健组织和专业人士，以及新闻媒体。例如，健康倡导团体可以调整健康传播策略，从了解外行人讨论的热点话题，优化宣传健康信息的传播。通过了解宣传活动如何影响外行人的看法和态度，卫生保健组织有机会估计他们的宣传健康活动对外行人行为的影响，以供未来规划。

我们研究的中心目标是了解与Lynch综合征相关的健康信息如何影响Twitter上的外行讨论。本研究旨在回答以下研究问题(RQ):

RQ1:在与林奇综合症相关的推文中，讨论最多的话题是什么?

RQ2:推特上与Lynch综合征相关的宣传信息如何影响外行讨论的话题分布?

RQ3:大肠癌宣传月(3月)和林奇综合征宣传日(3月22日)对Twitter上的外行讨论和他们的态度有什么影响吗?

数据分析概述

我们的数据分析包括以下4个步骤图1：

第一步是数据收集和预处理。我们使用Twitter应用程序编程接口(API)根据一组与Lynch综合征相关的关键字收集了公共推文。然后，我们过滤掉非英语的推文，并对文本进行标准化(例如，标签和网络链接)。
第二步是对推文进行分类。我们将非专业人士的讨论与推广林奇综合征相关的信息分开。我们尝试了两种方法来自动分类Twitter数据——卷积神经网络(CNN)和基于规则的分类器。
第三步是主题建模和情感分析:
1. 主题建模:我们使用潜在狄利克雷分配(LDA)模型来确定收集的Twitter数据集中的主要讨论主题，包括促销信息和外行人的讨论。
2. 情感分析:我们构建了一个CNN，为外行讨论中的每条推文分配情感标签，即积极、消极和中立。
步骤4采用rq，通过分析话题建模和情绪分析的结果，考察促销Lynch综合征相关信息与外行讨论之间的关系。我们展示了推特上林奇综合征相关话题的频率表，宣传林奇综合征相关信息与外行讨论之间的相关性，以及2017年3月结肠癌宣传月和3月22日林奇综合征宣传日期间与意识相关的话题/情绪趋势。

通过这些分析，我们的目标是回答上面发布的三个rq。

步骤1:数据采集与预处理

使用Twitter爬虫收集了2016年10月26日至2017年8月11日(289天)期间与Lynch综合征相关的推文[16基于一组与林奇综合症相关的关键词(即“林奇综合症”、“#林奇综合症”、“林奇综合症”和“#林奇综合症”)，并过滤掉非英语推文。为了生成关键字列表，我们使用了滚雪球抽样过程。我们从一组相关的种子关键字开始(例如，“林奇综合征”)。然后，我们用这些关键词在Twitter上搜索以检索推文样本，评估检索到的推文是否确实与Lynch综合征相关，并确定下一轮搜索中使用的其他关键词。雪球抽样过程进行迭代，直到没有新的关键字被识别。我们选择了特定的时间段(即2016年10月26日至2017年8月11日)，因为我们的rq之一是检查意识活动的影响(即2017年3月结肠癌宣传月和3月22日林奇综合征宣传日)。这个数据集为我们提供了足够的样本来比较事件发生前、期间和之后的影响(例如推文量的变化、外行人的情绪变化和讨论主题的变化)。

然后，我们按照GloVe使用的预处理步骤对推文的内容进行预处理[17(1)所有标签(如#Lynchsyndrome)被替换为“<标签> PHRASE”(如<标签> Lynchsyndrome”);(2)用户提到(如“@MyGeneCounsel”)被替换为“”;(3)网址(如“https://t.co/fMmFWAHEuM”)被替换为“”;(4)所有的表情符号都被替换为“”。

步骤2:推文分类

我们使用了一个两步的过程，将推文分为三类(即，不相关的，促销Lynch综合征相关的信息，以及外行的讨论)。在第一步中，我们将推文分为相关和不相关，而在第二步中，推文进一步分为促销林奇综合征相关信息和外行讨论。由于数据集的大小，手动注释所有推文是不可行的。因此，我们探索了两种方法来建立监督模型来自动分类收集的推文。我们安装了一个CNN分类器，并构建了一个简单的基于规则的分类器。我们比较了两种方法的性能，并使用了平衡精度、召回率和F-measure性能最佳的模型。

卷积神经网络分类器

cnn已被广泛应用于句子分类任务，具有最先进的性能[18］．为了构建CNN分类器，我们首先需要一个带注释的训练数据集。我们随机选择了1000条推文，由2名评论者独立阅读和标记。注释任务是将每条推文分为以下三类:(1)与Lynch综合征无关(即，即使一条推文包含Lynch综合征相关的关键词，该推文也可能与Lynch综合征无关，例如，“我没有时间或耐心或业务娱乐任何人Willie Lynch综合征”);(2)与Lynch综合征相关的宣传信息(例如，新闻、研究文章、宣传信息和广告，如“RT @ShewithLynch: #Lynch综合征#新闻:早期筛查可以挽救许多结直肠癌，研究建议- https://t.co/DVEb2xaD”);(3)门外汉对林奇综合症的讨论(例如，“第一次结肠镜检查预约。在我的余生中，我每年至少要做一次#林奇综合症#结肠癌意识#)。

构建CNN句子分类器的常用策略是使用词嵌入[19将原始文本转换为实数向量作为特征。我们使用GloVe的预训练词向量，这些词向量在20亿条推特上训练，词汇量为120万个。对于每条推文，通过将推文中的每个词映射到其对应的d维词嵌入向量来构建矩阵。由于每条推文的长度不同，我们用0填充长度小于最长推文的推文。因此，将所有推文转化为相同维数的词嵌入特征矩阵。然后将这些特征矩阵输入cnn。

我们使用相同的特征矩阵构建了两个cnn:一个将推文分类为相关和不相关，另一个将相关推文进一步分类为促销林奇综合征相关信息和外行讨论。

基于规则的分类

通过随机检查收集的推文样本，我们发现96%的无关推文都有关键词“willie”或“willy”，指的是一个名叫“willy Lynch”的人。因此，我们构建了一个简单的基于规则的分类器，将包含这两个关键字中的任何一个的推文分类为不相关。此外，在相关数据集中，我们观察到88%的外行讨论不包含任何链接。与Lynch综合征相关的推广推文通常提到与Lynch综合征相关的新闻、新的诊断或治疗技术等研究成果以及健康促进活动。由于每条推文的长度限制为140个字符，用户通常在推文中使用超链接来引用源文章。相反，外行人的讨论通常只是表达他们自己的态度或意见，而不参考其他信息来源。因此，在第二步中，如果推文包含任何链接，则将推文归类为促销Lynch综合征相关信息。除此之外，这条推文被归类为外行的讨论。

步骤3A:主题建模

在自然语言处理中，主题模型是一种统计模型，可以在文档集合中发现抽象主题[20.］．在这项研究中，我们使用LDA算法来寻找在整个Twitter数据中呈现的主要主题，包括促销Lynch综合征相关的信息和外行的讨论[21］．LDA是一个生成模型，它将每个文档(例如，在我们的例子中是一条tweet)表示为潜在主题的混合物，每个主题都可以生成具有一定概率的单词。主题模型最重要的特征之一是，它们不需要事先对文档进行任何注释或标记。然而，与许多其他无监督聚类算法类似，主题的数量是一个需要先验确定的参数。我们尝试了三种不同的统计方法来为LDA找到合适的主题数量，如下所示:(1)Arun2010: Arun等人将LDA视为一种矩阵分解机制，可以将主题分布分解为矩阵因子。然后，他们计算了由这些矩阵因子导出的显著分布的对称Kullback-Leibler散度。他们观察到，非最佳主题数量的发散值更高[22];(2) Cao2009: Cao等认为LDA过程类似于基于密度的聚类算法。因此，寻找最佳主题数量的目标类似于寻找最佳聚类数量的目标，其中它最大化了集群内的相似性，同时最小化了集群间的相似性[23];(3) Deveaud2014: Deveaud等人，与Arun2010方法类似，使用了一种简单的启发式方法，通过最大化所有LDA主题对中的信息散度(即Jensen-Shannon散度)来估计潜在主题的数量[24］．然而，这些统计方法并不总是收敛的，而且通常，发现的主题的数量并不符合人类的判断。因此，对生成的主题进行额外的定性分析以确定其质量仍然是必要的。

在应用LDA算法之前，我们对Twitter数据进行了进一步预处理，以将单词lem化，并根据一个停止词列表(例如，“it”、“he”、“she”和“that”)删除了常用但与我们想要发现的主题无关的单词。我们在训练LDA模型时遵循了最佳实践。由于我们通过LDA学习了每个主题的单词概率分布(以及这些主题在整个文档集合(即twitter)上的概率分布)，每个主题都可以自然地可视化为单词云，其中单词的大小与它们在主题上的概率成正比。

为了了解每个话题的量趋势，我们还需要知道每条推文的主题。LDA模型还可以根据推文的内容为每条推文分配主题。正如LDA模型所描述的那样，每条推文都是一个主题的混合，其中每个主题都有一定的概率出现在推文中。因此，对于每条tweet，所有主题都有一个概率值，而不太可能出现的主题的概率值较小。换句话说，分配给一条推文的每个主题都有一个概率来表示一条推文如何被分类为该特定主题。因此，我们需要确定主题概率值的截断值，以便为每个推文分配一个准确的主题。在推文被分配了多个主题的情况下，我们选择具有最高概率值的主题。

使用主题建模和情感分析的结果分析了三个研究问题，以了解促销Lynch综合征相关信息对外行讨论的影响。

与林奇综合症相关的推文的主题是什么?
- 我们对潜狄利克雷分配(latent Dirichlet allocation, LDA)模型发现的话题进行定性分析，并使用一组词云对潜话题进行可视化。
- 我们绘制了每个主题类别的推文量，并根据受欢迎程度对主题进行了排名。
- 我们检查了总体外行情绪的描述性统计数据，以及他们按主题的情绪。
推特上与Lynch综合征相关的宣传信息在话题分布上如何影响外行的讨论?
- 我们计算每个话题在其用户组中的比例(即推广Lynch综合征相关信息和外行讨论)，并将主题分布结果可视化为词云，以检验推广Lynch综合征相关信息是否具有与外行讨论相似的主题分布。
- 我们绘制了宣传林奇综合征相关信息和外行讨论的主题的每月趋势。我们还使用Pearson相关效率检验了这些趋势之间的相关性。
大肠癌宣传月(3月)和林奇综合症宣传日(3月22日)对Twitter上的外行讨论和他们的态度(即积极、消极和中立)有什么影响吗?
- 我们研究了在这些时间段内推文总量的变化情况，以及不同主题的推文总量的变化情况。
- 我们还绘制了整个时间段内人们的总体情绪趋势和按话题划分的情绪趋势，并研究了事件期间的变化。

文本框1。使用主题建模和情感分析的结果分析了三个研究问题，以了解促销Lynch综合征相关信息对外行讨论的影响。

步骤3B:情绪分析

情感分析是一种流行的自然语言处理方法，经常用于从一篇文章中确定作者的观点、态度或情感状态。情感分析的一个基本任务是对给定文本的极性(即积极、消极和中性)进行分类。情绪分析主要有两种方法[25(1)基于机器学习的方法，从标记的训练数据建立分类模型;(2)基于词汇的技术，如语言查询和单词计数[26将词语的选择与作者的观点联系起来。按照基于机器学习的方法，我们按照与步骤2中用于情感分类的相同过程构建了一个CNN模型。训练数据包含1092条推文(即，我们从1500条随机推文开始;在重复数据删除后，1092条推文被留下来注释)从外行人的推文中随机选择(即，因为我们只对外行人对林奇综合症的态度感兴趣)，并由两名编码员(YZ和LJRD)注释为三个类别:积极的，消极的和中性的。科恩kappa是。89，这表明两个编码员之间有很强的一致性。我们咨询了第三个审稿人(JB)来解决两个编码员之间的分歧。

第四步:研究问题

通过分析主题建模和情感分析的结果，我们回答了这三个rq，具体步骤如下(文本框1)．

步骤1:数据采集与预处理

通过Twitter爬虫使用Twitter API [16]，从2016年10月26日到2017年8月11日，共收集了16667条推文。在预处理和删除非英语推文后，还剩下14564条推文。图2显示了这段时间内英文推文的月分布情况。

步骤2:推文分类

注释任务创建了一个由1000个随机tweet组成的黄金标准数据集。两个编码员之间有一个适度的协议(即Cohen kappa=.72) [27］．第三个人审查了这些分歧，并将这些推文归入适当的类别。我们探索了两种分类方法(即CNN模型和基于规则的分类器)，并比较了它们的性能。由于数据集是不平衡的(即，大多数推文都是相关的，因为我们使用非常特定的关键词来收集这些数据，而且促销推文比外行人的讨论更多)，我们使用加权精度、召回率和F-measure来衡量分类器的性能。

如表1尽管基于规则的分类器很简单，但它在两种分类任务中都优于复杂的CNN模型。因此，我们使用基于规则的分类器对所有推文进行分类。在14564条英语推文中，有11860条被归类为相关推文。在相关推文中，2705条推文属于非专业人士的讨论，11077条是与Lynch综合征相关的宣传信息。

表1。两种分类器性能的比较。

分类方法	相关与不相关			促销vs外行
分类方法	精度	回忆	F-measure	精度	回忆	F-measure
卷积神经网络	.651	.807	.720	.514	.717	.599
基于规则的	.938	.935	.936	.877	.870	.873

步骤3A:主题建模

我们尝试了所有三种统计方法，以找到与Lynch综合征相关的推文(即被分类为相关的推文)中的主题数量。如图3，这三种方法都没有收敛，允许我们选择适当数量的主题。注意，我们没有显示y轴的单位图3因为这三种不同的度量有不同的单位。然而，测量的单位并不重要，因为我们的目标是找到曲线的“肘”点，这将表明主题的最佳数量。

因此，我们尝试了10个、15个、20个和30个主题，并使用词云来可视化结果。在每次迭代中，改变主题的数量(K=10、15、20和30)，向两名编码人员展示单词云和主题的一组示例推文，并要求他们根据自己的判断独立地为每个主题分配一个标签。每个编码器还被要求识别重复的主题和质量较差的主题(即主题中的关键字不能代表一个有凝聚力的概念)。然后我们选择了K这样产生的重复主题和不充分主题的数量最少。我们确定最合适的主题数量是10个，并为所有主题标识了标签。如果编码人员不同意特定的标签，则通过与整个研究团队讨论来解决冲突。我们还将具有相似语义的主题合并到一个类别中。例如，“意识事件”通常包含提高Lynch综合征意识的事件信息，而“意识”主题中的推文则提高Lynch综合征知识。因此，我们将“意识事件”和“意识”合并为“意识/意识事件”。最终提取的主题及其关联词云如图所示图4．

在生成主题后，LDA模型还能够为每条推文分配主题概率分布。如表2， LDA为每个主题分配一个概率值，即使某个主题不太可能出现在推文中。因此，我们需要找到一个截止概率值来提取每条推文的主要主题。我们首先生成了50条推文的随机样本，并迭代测试不同的临界值。在每次迭代中，我们评估了分配给50条推文的截止概率值以上的主题，并手动确定分配是否合适。我们选择了为每条推文生成最少主题数量的临界值，并且准确率在80%以上(即，超过80%的推文通过人工审查具有正确的主题分配)。结果，一些推文被分配了多个主题，而另一些则没有任何主题。表3显示每个主题中的推文示例。

表2。主题示例及其分配给每条推文的概率。

类别	推特	前3个话题(话题概率)
促销	“随着时间的推移，林奇综合征患者发生各种癌症的风险是什么?”基于人群的研究提供了答案。”	风险(0.644)，基因检测(0.197)，治疗(0.118)
	“在#癌症治疗#林奇综合征期间适应身体变化”	治疗(.533)，患者(.276)，家庭(.139)
非专业人员	“我有林奇综合症，有60% -80%的机会死于结肠癌，就像我的母亲和哥哥一样#我是存在的条件”	家族和遗传(.442)，筛查(.327)，患者(.172)
	“我的#乳腺癌诊断让我去做了#基因测试，发现我有#林奇综合征#早期检测#结肠癌月”	患者(.716)，风险(.128)，意识/意识事件(.119)

表3。按主题的推文示例。

主题	例子推
家族与世袭	“本周，我们将重点介绍林奇综合征、家族性高胆固醇血症和遗传性乳腺癌和卵巢癌。”
	“为了预防遗传性癌症，研究人员专注于#林奇综合征#NCICancerCurrentsBlog #癌症”
筛选	“#林奇综合征#新闻:研究表明，早期筛查可以挽救许多人免于结直肠癌”
	“通用肿瘤筛查#林奇综合征:医疗保健提供者的观点。”
广告	“感谢我们的新粉丝!加入我们#周一#GenCSM!# Lynchsyndrome # HereditaryColorectalCancer”
	“#林奇综合症#GenCSM:感谢我所有的新粉丝!祝你有愉快的一天!!G @ #非营利组织:”
治疗	“对于已知患有#林奇综合征#的结直肠癌患者，建议采用腹部全结肠切除术。”
	“卵巢癌和其他妇科恶性肿瘤的治疗持续进步”
病人	“新发现的#林奇综合症患者说，30多岁的孩子因为‘不方便’而拒绝检测。”希望时间和教育能改变人们的想法。”
	“1/44 #结肠癌患者有#林奇综合征@HHampel1 @theNCI #登月#遗传性癌症”
风险	“顺便说一句，胶质母细胞瘤非常恶性，农药等化学物质是危险因素。像林奇综合症这样的遗传疾病是一个危险因素。”
	“作者指出，林奇综合征患者一生中患卵巢癌的累积风险:到80岁时为20%。”
基因检测	“妈妈拿回了基因测试，显然他们把肿瘤定位为基因突变，所以她有24%的几率患有林奇综合征;;;啊”
	“遗传性结肠癌综合征可以通过基因检测来预测。# GetScreened # LynchSyndrome”
意识和意识活动	“# lynchsyndromeawarenessday快乐!# Lynchsyndrome #遗传学”
	“#结肠癌宣传月-如果你被诊断患有CRC，请确保你的肿瘤通过IHC或MSI检测进行了4 #Lynch综合征筛查”

步骤3B:情绪分析

我们用1092条注释推文训练了一个情感CNN分类器。我们遵循机器学习实验中的最佳实践来构建CNN，例如，使用80%的推文作为训练数据集，并在剩余20%的保留测试集上测量分类器的性能。CNN分类器的性能是合理的(即，精度:.737，召回率:.766,F-measure: .736，精度:.766)。

第四步:研究问题

RQ1:与林奇综合征相关的推文的主题是什么?

我们按主题绘制了推文数量的直方图，并按数量对主题进行了排名，如图所示图5．

治疗，基因检测,意识是林奇综合症相关推文的前三名。

我们绘制了总体外行讨论推文的情绪分布以及每个话题的情绪分布，如图所示表4．总体而言，大多数推文是中性的(78.07%)，但积极的推文(18.42%)明显多于消极的推文(3.51%)。纵观情绪分布的话题，只有治疗Topic的负面推文(16.67%)多于正面推文。

rq2:推特上与促销Lynch综合征相关的信息如何影响外行讨论的话题分布?

我们计算了每个话题在推广Lynch综合征相关信息和外行讨论中的比例，并使用词云对结果进行了可视化比较。如图6这些话题及其在外行讨论中的比例与推广Lynch综合征相关信息中的相似。

我们还计算了皮尔逊相关系数[28促销Lynch综合征相关信息与外行基于其每月推文量的讨论(如图图7)．如表5外行人的讨论与推广Lynch综合征相关信息有很强的相关性意识主题和适度的相关主题筛选，基因检测，治疗,风险．

表4。外行对Lynch综合征的总体情绪分布及不同话题的情绪分布。

主题	正面(%)	负(%)	中性(%)
家族与世袭	31 (35.63)	2 (2.30)	54 (62.07)
筛选	11 (8.73)	3 (2.38)	112 (88.89)
广告	36 (41.86)	2 (2.33)	48 (55.81)
治疗	0 (0.00)	78 (16.67)	390 (83.33)
病人	97 (49.75)	1 (0.51)	98 (49.75)
风险	24 (12.00)	0 (0.00)	176 (98.00)
基因检测	28日(17.40)	9 (5.59)	124 (77.00)
认识和认识活动	60 (20.00)	0 (0.00)	240 (80.00)
整体	498 (18.42)	95 (3.51)	2111 (78.07)

图7。按月和推文类型划分的Lynch综合征相关推文数量(即，促销Lynch综合征相关信息vs外行讨论)。

表5所示。推广Lynch综合征相关信息与外行讨论之间的Pearson相关系数，基于他们每月的推文量。

主题	相关系数	P价值
家庭/遗传	.479	.14点
筛选	条	0。
广告	.112	.74点
治疗	.698	02
病人	.211	53
风险	.659	03
基因检测	.624	.04点
意识和意识活动	.989	＜.001

rq3:结肠癌宣传月(3月)和林奇综合症宣传日(3月22日)对Twitter上的外行讨论和他们的态度(即积极、消极和中立)有什么影响吗?

如图7在3月的结肠癌宣传月期间，推文总量急剧增加，并在2017年3月22日林奇综合征宣传日前后达到峰值。此外，如图所示图8在美国，单个话题的推文量遵循相同的模式，尤其是“意识/意识事件”、“基因检测”和“患者”。

然后，我们绘制了外行讨论中不同情绪类别的整体推文量趋势，如图所示图9．在整个时间段内，负面推文的数量基本保持不变。中性推文的数量在3月份急剧增加，反映了该月推文数量的显著增长(图2)．3月份，正面推文的数量也有所增加，但不如中性推文那么激进。

我们进一步按话题分析了外行的情绪变化趋势，以了解在认知事件中，外行对哪些话题的态度发生了明显的变化。我们为每个月的每个话题构建了一个平均情绪评分。对于每条单独的推文，我们给它的分数是1，如果它是积极的，0，如果它是消极的。我们将每个主题中所有推文的得分按月进行汇总，并根据该月该主题类别中的推文总数将得分标准化。如图10，“广告”和“认知/认知事件”的平均情绪得分在3月认知月期间显著上升，但之后立即下降。对于其他话题，没有明显的情绪趋势。

主要研究结果

我们研究的目标是了解促销林奇综合症相关的健康信息如何影响外行在Twitter上的讨论。我们对Lynch综合征相关推文使用主题建模和情感分析来回答以下3个rq:(1) Lynch综合征相关推文中讨论最多的话题是什么?(2) Twitter上推广Lynch综合征相关信息如何影响外行讨论?(3)“结肠癌宣传月”和“林奇综合症宣传日”的林奇综合症宣传活动对俗人的讨论和态度有什么影响?我们发现，“意识”、“治疗”和“基因检测”是与Lynch综合征相关的推文中最受欢迎的话题。此外，与他们在社交媒体上讨论的其他话题相比，外行对“治疗”和“基因检测”的态度相对消极。Twitter上与林奇综合征相关的信息大多集中在治疗和基因检测上，人们对这些话题的态度更消极，因为他们担心可能会有更高的癌症风险或癌症诊断呈阳性，担心诊断方法的成本和质量(例如，“我患过两次癌症，害怕3次癌症，这一直在我的脑海中。没有医疗保险让我心碎”和“林奇综合症基因检测的费用梅赛德斯300se”)。

促销Lynch综合征相关信息与外行讨论的话题分布相似。特别是，外行人对“意识”的讨论与Twitter上Lynch综合征相关的宣传信息高度相关，而对“筛查”、“基因检测”、“治疗”和“风险”的讨论相关性中等。这些结果表明，医疗机构和专业人士在Twitter等社交媒体平台上发布的促销信息可能会对外行人产生重大影响。在某种程度上，我们的研究结果为进一步在新的数字媒体中开发新型癌症传播策略提供了证据。29］．

此外，与健康相关的宣传活动和倡议，如3月结肠癌宣传月和3月22日林奇综合征宣传日，对普通人对健康状况的讨论、认知和态度产生了巨大影响。我们对每月推文量趋势的分析显示，卫生组织和专业人员在这些宣传活动期间在推特上传播宣传林奇综合征相关信息。此外，他们的努力对提高非专业人士对特定健康主题的认识产生了巨大影响，这从这些提高认识活动期间非专业人士的推文数量增加中可以明显看出。此外，我们还观察到，在这些活动中，外行人士的态度更为积极图10．有趣的是，在这些意识事件中，外行人对“广告”和“意识/意识事件”等特定话题的态度比其他话题更加积极。态度的变化可以用社会影响理论来解释[30.，31］．当外行人获得更多关于结直肠癌和林奇综合征的积极信息时，他们对健康状况有了更好的理解，并感知到更好的健康结果，这可能会导致更积极的思考。

积极影响外行对林奇综合征的态度和规范信念的可能性，使我们有机会根据行为改变理论设计新的癌症预防和控制参与性沟通策略。例如，在计划行为理论中[32，态度和规范信念都能塑造个体的行为意图和行为。然而，从我们的结果中可以明显看出图7-10在美国，与林奇综合症相关的推文数量和外行的积极情绪在意识事件后都有所下降。这些结果表明，这些意识活动可能需要经常举办，以产生持续的效果。

在社交媒体上设计合适的推广策略比传统媒体(如报纸、电视广告和传单)需要更多的考虑。卫生组织和专业人员需要考虑社交媒体可以提供什么样的信息，以及宣传信息如何实现其目标(例如，加强与受众的沟通，以促进公众参与)。在我们的数据集中，许多与Lynch综合征相关的推广信息确实遵循了在社交媒体上开发健康推广信息的建议[33-35]，特别是传播重要的健康信息(例如，分享新闻、研究结果和林奇综合症的基本知识)和参与公众活动(例如，结肠癌宣传月和林奇综合症宣传日)。

正如我们的研究所证明的那样，社交媒体在健康宣传中的使用正在迅速扩大。衡量这些健康促进战略的绩效越来越重要。Neiger等人提出了一套关键绩效指标(kpi)和衡量标准，用于评估社交媒体中健康宣传的绩效[35］．kpi中有四个指标，分别是:(1)洞察力(例如，来自社交媒体的消费者反馈)，(2)曝光率(例如，促销信息被浏览的次数)，(3)接触率(例如，浏览促销材料和相关内容的人数)，(4)参与度(例如，在帖子上点赞、分享和转发帖子以及参与线下活动)。我们的研究结果可以为这些关键指标提供更深入的见解。例如，情感分析结果将提供更细粒度的信息，显示用户对这些健康促进事件的态度，而不是简单的“点赞”。

我们的研究重点是分析与Lynch综合征相关的推文文本，而Twitter收集了更多关于推文(例如，通过转发的推文之间的链接)及其用户(例如，用户位置、朋友和追随者)的信息。可以利用这些信息对Twitter上的健康相关主题进行更深入的分析。例如，通过对转发网络建模，我们可以通过社交网络分析来研究促销健康信息是如何在Twitter上传播的。

限制

首先，为了自动分类推文并为每条推文分配情绪，我们采用了计算分类方法，其准确性并不完美。这一缺陷使得在微观尺度上(即单个推文)产生错误结果的可能性很大。尽管如此，鉴于我们的数据量很大，宏观尺度上的结果应该是一致的。此外，我们将推文分为促销Lynch综合征相关信息和外行讨论。然而，一些被我们归类为外行讨论的推文可能来自健康专业人士和健康倡导组织。缓解这个问题的一种方法是根据这些用户的Twitter用户简介来识别这些用户，并相应地对他们的推文进行分类。此外，Twitter用户的人口统计数据(如年龄、性别、种族和民族)可能是我们分析中需要控制的混淆变量。然而，并没有一个简单的方法来确定Twitter用户的人口统计数据，因为Twitter并不要求其用户提供这些信息。

其次，主题建模只能提取高层次的抽象主题。这些抽象的主题往往有更深入的方面去探索。例如，“基因检测”可以进一步细分为更细粒度的方面(如基因检测的成本和基因检测的准确性)。解决这个问题的一种方法是开发一本编码书，用细粒度的主题手动注释每条tweet。然而，这样的过程是劳动密集型的，对于大量的Twitter数据来说几乎是不可能的。一种可能的解决方案是对推文中的一小部分随机样本进行标记，然后开发监督分类器(类似于我们用于情感分析的方法)来自动标记其余数据。

第三，Twitter用户并不是普通人群的代表性群体。总体而言，大多数社交媒体用户往往更年轻;2017年71%的推特用户年龄在49岁以下[36］．

与之前工作的比较

一些研究使用情感分析和主题建模来分析与健康相关的社交媒体数据。do - harris等人设计了一个主题分类器，并确定了患者评论中的常见主题，以了解患者对健康服务的满意度[37］．Lu等人确定了热点话题，并测量了不同利益相关者的情绪表达，以了解他们的不同观点[38］．Guillory等人使用推特数据根据讨论主题和情绪分析电子烟讨论[39］．Wang等人对社交媒体数据使用关键词匹配和主题建模以及定性方法，以了解有关污染水平和公众反应的可操作信息[40］．戴维斯等人对推特数据进行情绪分析，以了解公众对奥巴马医改的反应[41］．据我们所知，我们的研究是第一个使用Twitter数据来了解促销健康信息和外行讨论之间的相关性的研究。

结论

我们的研究结果提供了证据，证实了卫生组织和专业人员在社交媒体平台上广泛推广的宣传倡议和活动的积极影响。此外，更深入地了解这些促销信息和活动如何影响个人的态度和他们所感知的社会规范，可以引导我们更好地设计健康行为干预措施。未来的一些方向可以进一步促进我们对促销信息对外行人的影响的理解。例如，它将通过检查Twitter用户的个人资料和宣传材料的来源(点击推文中的链接)来提供额外的背景和信息。然而，需要开发更先进的自然语言处理工具和机器学习模型来处理大量的Twitter数据。

致谢

这项工作得到了美国国家科学基金会(NSF)资助#1734134，美国国立卫生研究院(NIH)资助UL1TR001427, OneFlorida癌症控制联盟(由James和Esther King生物医学研究项目资助，佛罗里达州卫生部，资助号4KB16)，以及由以患者为中心的结果研究所(PCORI)资助的OneFlorida临床研究联盟的部分支持。内容仅为作者的责任，并不代表NSF、NIH或PCORI的官方观点。

作者的贡献

JB、YS、RS和YZ设计了最初的研究方案。YG、MP、ZH和MW为研究设计提供了重要建议。YZ、LJRD和JB注释了Twitter数据。YZ和XD建立了情感分析的分类模型。YZ和HZ进行了主题建模。YZ做了统计分析。JB和YZ撰写了手稿。所有作者都提供了反馈并编辑了手稿。

利益冲突

没有宣布。

美国国家医学图书馆。《遗传学家庭参考》，2017。林奇综合症网址:https://ghr.nlm.nih.gov/condition/lynch-syndrome［WebCite缓存］
谢晓玲，刘志强，刘志强，等。基于人群的遗传性非息肉病性结直肠癌分子检测。中华临床杂志2000 6月刊;18(11):2193-2200。［CrossRef] [Medline］
acgblog。林氏综合症宣传日网址:http://acgblog.org/2017/03/20/acg-presidents-blog-lynch-syndrome-awareness-day/[已访问2017-12-06][WebCite缓存］
Korda H, Itani Z.利用社交媒体促进健康和行为改变。健康促进实践2013年1月;14(1):15-23。［CrossRef] [Medline］
Cheston CC, Flickinger TE, Chisolm MS.社交媒体在医学教育中的应用:系统综述。2013年6月;88(6):893-901。［CrossRef] [Medline］
方琳，Mishna F，张vf, Van Wert M, Bogo M.社会媒体与社会工作教育:理解和应对新的数字世界。社会工作卫生保健2014年10月;53(9):800-814。［CrossRef] [Medline］
Mattingly TJ。利用社交媒体创新患者护理实践。美国药学杂志(2003)2015;55(3):288-293。［CrossRef] [Medline］
Kass-Hout TA, Alhinnawi H.公共卫生领域的社交媒体。Br Med Bull 2013;108:5-24。［CrossRef] [Medline］
Velasco E, Agheneza T, Denecke K, Kirchner G, Eckmanns T.全球公共卫生监测系统中的社交媒体和基于互联网的数据:系统综述。米尔班克Q 2014 Mar;92(1):7-33 [免费全文] [CrossRef] [Medline］
Burton-Chase AM, Parker WM, Hennig K, Sisson F, Bruzzone LL。使用社交媒体招募患有罕见疾病的参与者:林奇综合征为例。JMIR Res Protoc 2017 1月23日;6(1):e12 [免费全文] [CrossRef] [Medline］
Sinnenberg L, Buttenheim AM, Padrez K, Mancheno C, Ungar L, Merchant RM。推特作为健康研究的工具:系统回顾。中华医学会公共卫生杂志2017年1月;107(1):e1-e8。［CrossRef] [Medline］
Broniatowski DA, Paul MJ, Dredze M.通过Twitter进行国家和地方流感监测:2012-2013年流感流行的分析。PLoS One 2013 12月;8(12):e83672 [免费全文] [CrossRef] [Medline］
Workewych AM, Ciuffetelli MM, Jing R, Zhang S, Topolovec-Vranic J, Cusimano MD.推特与创伤性脑损伤:与运动相关的脑损伤相关推特的内容和情感分析。SAGE Open Med 2017 8月;5:2050312117720057 [免费全文] [CrossRef] [Medline］
Massey PM, Leader A, yum - tov E, Budenz A, Fisher K, Klassen AC.应用多种数据收集工具量化推特上的人乳头瘤病毒疫苗传播。J Med Internet Res 2016 Dec 05;18(12):e318 [免费全文] [CrossRef] [Medline］
Cole-Lewis H, Pugatch J, Sanders A, Varghese A, Posada S, Yun C，等。社交倾听:Twitter上关于电子烟讨论的内容分析。J medical Internet Res 2015 10月27日;17(10):e243 [免费全文] [CrossRef] [Medline］
卞杰。Github。2017。tweetf0rm:一个Python的twitter爬虫程序https://github.com/bianjiang/tweetf0rm[已访问2017-12-06][WebCite缓存］
彭宁顿J, Socher R, Christopher D. GloVe:单词表示的全局向量。2014发表于:2014年自然语言处理经验方法会议论文集;2014年10月25-29日;卡塔尔多哈，1532-1543页。
Kim Y.用于句子分类的卷积神经网络，2014年发表于:2014年自然语言处理经验方法会议论文集(EMNLP);2014年10月25-29日;卡塔尔的多哈，1746-1751页。［CrossRef］
米科洛夫，陈凯，陈凯。词汇和短语的分布表示及其组合性。: Burges CJC, Bottou L, Welling M, Ghahramani Z, Weinberger KQ。编辑器。Adv Neural Inf Process Syst 26 Internet Curran Associates, Inc;2013年发表于:第26届神经信息处理系统国际会议NIPS 13论文集第2卷;2013年12月05日至10日;太浩湖，内华达州，第3111-3119页。
潘文杰，李文杰，李文杰。潜在语义索引的概率分析。计算系统科学2000 10月;61(2):217-235。［CrossRef］
李国强，李国强，李国强。J Mach Learn Res 2003:993-1022。［CrossRef］
Arun R, Suresh V, Veni MC, Narasimha MM.基于潜狄利克雷分配的话题自然数的寻找:一些观察。柏林，海德堡:施普林格;2010:391 - 402。
曹军，夏涛，李娟，张勇，唐松。基于密度的自适应LDA模型选择方法。神经计算2009 Mar;72(7-9):1775-1781。［CrossRef］
李文杰，李志强，李志强，等。基于模糊概念的信息检索方法研究。文献numérique 2014年4月30日;17(1):61-84。［CrossRef］
张志刚，张志刚。观点挖掘与情感分析的新途径。IEEE Intell系统2013年3月28日(2):15-21。［CrossRef］
Tausczik YR, Pennebaker JW。词汇的心理意义:LIWC和计算机文本分析方法。心理学报2009十二月08;29(1):24-54。［CrossRef］
名义比额表的一致系数。《心理教育》1960年4月1日;20(1):37-46。［CrossRef］
皮尔逊相关系数。中国生物医学杂志2012年7月04;39:e4483。［CrossRef］
黎默B，哈珀H，维特O，桑德勒a。2014年6月13日。总统癌症小组:数字时代的癌症传播:机遇与挑战https://deainfo.nci.nih.gov/advisory/pcp/pcp0614/13jun14stmt.pdf[已访问2017-12-06][WebCite缓存］
态度改变:说服和社会影响。精神科学2000;51:539-570。［CrossRef] [Medline］
态度与态度改变。精神病学年鉴2011;62:391-417。［CrossRef] [Medline］
Ajzen I.计划行为理论。器官行为学研究;1991年12月;50(2):179-211。［CrossRef］
疾病控制和预防中心，2011年。健康传播者的社交媒体工具包Internet URL:https://www.cdc.gov/healthcommunication/toolstemplates/socialmediatoolkit_bm.pdf［WebCite缓存］
张晓东，李志强，张志强，等。在社交网站上发展健康促进干预措施:来自FaceSpace项目的建议。中国医学杂志，2012;14(1):e30 [免费全文] [CrossRef] [Medline］
Neiger BL, Thackeray R, Van Wagenen SA, Hanson CL, West JH, Barnes MD，等。社交媒体在健康促进中的使用:目的、关键绩效指标和评估指标。健康促进实践2012年3月13日(2):159-164。［CrossRef] [Medline］
《新闻》2017年9月7日。跨社交媒体平台的新闻使用2017http://www.journalism.org/2017/09/07/news-use-across-social-media-platforms-2017/[已访问2017-12-06][WebCite缓存］
do - harris KM, Mowery DL, Daniels C, Chapman WW, Conway M.了解患者对所接受医疗服务的满意度:自然语言处理方法。AMIA年度会议程序2016;2016:524-533 [免费全文] [Medline］
陆颖，吴颖，刘娟，李娟，张鹏。从不同利益相关者视角理解医疗保健社交媒体使用:一个在线医疗社区的内容分析。J Med Internet Res 2017 Apr 07;19(4):e109 [免费全文] [CrossRef] [Medline］
Guillory J, Kim A, Murphy J, Bradfield B, Nonnemaker J, Hsieh Y.比较Twitter和在线小组对电子烟用户和吸烟者的调查招聘。J Med Internet Res 2016年11月15日;18(11):e288 [免费全文] [CrossRef] [Medline］
王s, Paul MJ, Dredze M.社交媒体作为中国空气质量和公众反应的传感器。J Med Internet Res 2015年3月26日;17(3):e22 [免费全文] [CrossRef] [Medline］
Davis MA, Zheng K, Liu Y, Levy H.公众在推特上对奥巴马医改的回应。J Med Internet Res 2017年5月26日;19(5):e167 [免费全文] [CrossRef] [Medline］

‎

API:应用程序编程接口

有线电视新闻网:卷积神经网络

HNPCC:遗传性非息肉病性结直肠癌

人乳头状瘤病毒:人类乳头状瘤病毒

KPI:主要绩效指标

LDA:潜在狄利克雷分配

中移动:研究问题

G·艾森巴赫(G Eysenbach)编辑;提交31.10.17;R Zhang, W Parker, N Bragazzi同行评审;对作者15.11.17的评论;修订本于17.11.17收到;接受17.11.17;发表13.12.17

©边江，赵云鹏，Ramzi G Salloum，郭毅，王默，Mattia Prosperi, Hansi Zhang，杜欣松，Laura J Ramirez-Diaz，何哲，孙媛。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2017年12月13日。

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

使用社交媒体数据了解促销信息对外行讨论的影响:林奇综合征的案例研究

使用社交媒体数据了解促销信息对外行讨论的影响:林奇综合征的案例研究

原始论文

通讯作者:

摘要

关键字

简介

方法

数据分析概述

步骤1:数据采集与预处理

步骤2:推文分类

卷积神经网络分类器

基于规则的分类

步骤3A:主题建模

使用主题建模和情感分析的结果分析了三个研究问题，以了解促销Lynch综合征相关信息对外行讨论的影响。

步骤3B:情绪分析

第四步:研究问题

结果

步骤1:数据采集与预处理

步骤2:推文分类

步骤3A:主题建模

步骤3B:情绪分析

第四步:研究问题

RQ1:与林奇综合征相关的推文的主题是什么?

rq2:推特上与促销Lynch综合征相关的信息如何影响外行讨论的话题分布?

rq3:结肠癌宣传月(3月)和林奇综合症宣传日(3月22日)对Twitter上的外行讨论和他们的态度(即积极、消极和中立)有什么影响吗?

讨论

主要研究结果

限制

与之前工作的比较

结论

致谢

作者的贡献

利益冲突

参考文献

缩写