JMIR公共卫生和监测-识别推特上负面情绪的关键话题:关于2015-2016年寨卡疫情的见解

原始论文

¹计算机科学与工程，赖特州立大学，代顿，俄亥俄州，美国

²莱特州立大学生物科学系，美国俄亥俄州代顿市

^3.Kno.e。博士，计算机科学与工程，莱特州立大学，代顿，俄亥俄州，美国

这些作者的贡献相同

通讯作者:

米歇尔·米勒，MS

生物科学系

莱特州立大学

3640格伦·威上校。

代顿，俄亥俄州，45435

美国

电话:1 5742613969

传真:1 9377753320

电子邮件:millerme91@gmail.com

背景:为了了解公众对寨卡病毒的情绪，可以利用社交媒体来了解社会上表达的积极、消极和中性情绪。具体来说，了解负面情绪的特征可以帮助联邦疾病控制机构向公众传播有关寨卡病毒相关问题的相关信息。

摘要目的:本研究的目的是利用Twitter上的帖子分析公众对寨卡病毒的情绪，并确定所表达的积极、消极和中性情绪的定性特征。

方法:使用机器学习技术和算法来分析有关寨卡病毒的推文的情绪。建立了一个有监督的机器学习分类器，将推文分为三种情绪类别:积极、中性和消极。然后使用主题建模方法检查每个类别的推文，以确定每个类别的主要主题，重点关注负面类别。

结果:总共有5303条推文被手工标注，并用于训练多个分类器。这些方法在基于文本的特征提取中表现良好(F1得分=0.48-0.68)。然后将所有48734条推文分类为情绪类别。总体而言，使用主题建模确定了每个情绪类别的10个主题，重点是负面情绪类别。

结论:我们的研究表明，如何发现Twitter上关于流行病的讨论中表达的情绪。这使公共卫生官员能够了解公众对流行病的情绪，并使他们能够实时处理负面情绪的具体因素。我们的负面情绪分类器能够识别出与寨卡病毒有关的推文，主要有三个主题:神经缺陷，Zika病毒异常,报告及调查结果。这些广泛的主题是基于领域专业知识和来自期刊讨论的主题，如发病率和死亡率周报和疫苗。由于负面情绪类别中的大多数话题都与症状有关，官员们应该把重点放在传播预防和治疗研究的信息上。

中华医学会公共卫生监测杂志，2019;5(2):e11036

doi: 10.2196/11036

关键字

社交媒体; 机器学习; 自然语言处理; 流行病学; Zika病毒; infodemiology; infoveillance; 推特; 情绪分析

背景

寨卡病毒于1947年在乌干达被发现[1]。从20世纪60年代到80年代，在亚洲和非洲仅诊断出14例，并且通常引起轻微症状[2]。第一次大规模暴发发生在2007年，病毒从雅浦岛跨越太平洋传播，病例报告症状轻微。然而，1947年至2008年期间的病例可能少报，因为症状与基孔肯雅热和登革热相似。直到最近的疫情爆发，人们才将寨卡病毒与格林-巴罗综合征和小头症联系起来[1]。由于寨卡病毒与神经系统疾病之间新发现的联系，人们开始表达对寨卡病毒的担忧，特别是在英国广播公司(BBC)的一篇文章指出，美国宣布寨卡病毒比最初想象的更可怕[3.]。

在我们之前的探索性研究中[4]，我们在2个月内收集了120万条推文，并开发了一个两阶段分类器，将相关推文分为4类疾病:症状、治疗、传播和预防。然后使用主题建模来检查每个疾病类别的推文，以确定每个类别的前5个主题。我们展示了如何发现Twitter上的讨论，以帮助公共卫生官员了解社会关注的问题。我们之前的工作重点是识别相关的推文，很少强调公众情绪。人们对寨卡病毒的恐惧主要集中在它引起的症状上。3.]。因此，在本研究中，我们将重点转向对寨卡病毒症状的深入分析，并对寨卡病毒表达的具体积极、消极和中性情绪进行分析。

研究目的

在这项研究中，公众对寨卡病毒症状的情绪进行了探讨，以确定积极、中性和消极推文的重要主题子类别。使用中显示的框架图1，主要研究两个问题(RQs):

RQ1a:数据注释分析:在黄金标准数据集中，正面、中性和负面推文的分布是怎样的?作为情感分类金标准的2个注释者标签之间的一致性是什么?

RQ1b:分类性能:我们能在多大程度上以自动化的方式将tweet分类为正面、中性和负面?

RQ2:话题分析:在三个情绪类别中讨论的主要话题是什么，重点是消极情绪类别?

图2。使用t-SNE可视化Zika词嵌入，它显示了Zika推文中相关词组的集群。

数据收集

本研究使用了先前研究中获得的数据[4使用Twitris 2.0，这是一个语义Web应用程序，通过对社交媒体上大量以事件为中心的数据进行基于语义的处理，帮助理解社会观念[12]。在之前的研究中，使用关键词在2016年2月24日至2016年4月27日期间收集了120万条推文Zika病毒，Zika病毒,寨卡病毒治疗［4]。在分析之前，对推文进行预处理，去除非美国信息交换标准代码(ASCII)字符、大写字母、转发指标、数字、屏幕句柄(@username)、标点符号、url、空白、单个字符等p不能表达语料库中主题的任何意义，并停止使用诸如和，所以等。3名微生物学和免疫学专家对1467条推文的随机样本进行了相关与非相关的注释，并将其用作相关性基础事实。然后使用相关性基础真理和几种监督分类技术以及自引导(bagging)技术将所有推文分类为相关或不相关。使用十倍交叉验证评估分类器的性能，平均精度，召回率，F1分数和报告的曲线下面积。多项朴素贝叶斯分类器表现最好，曲线下面积为0.94。另一个随机样本的1135条相关推文由同样的3名微生物学和免疫学专家注释，作为疾病特征(DC;症状、治疗、传播和预防)是真理的基础。然后，使用DC接地真相和用于相关性分类的相同监督分类技术和性能度量，将相关推文分类为4个DC类别中的1个。多项朴素贝叶斯分类器再次表现最好，曲线下面积在0.83到0.94之间。这导致48,734条推文被分类为症状，9937条推文被分类为治疗，101,539条推文被分类为传播，101,456条推文被分类为预防[4]。由于寨卡症状是公众关注的问题，因此本研究的重点是确定我们之前研究中收集并归类为讨论寨卡症状的48,734条推文的情绪。

我们建立在[4]来探索与症状类别相关的情绪。在这项研究中，我们使用基于n-grams的逻辑回归将推文分类为积极、消极或中性。然后使用潜在狄利克雷分配确定每个情绪类别中的顶级主题。这使我们能够更好地探索每个情感类别中的主题，以便公共卫生官员能够解决公众关注的主题，例如神经缺陷。

为了解决rq问题，我们在图1。这48734条推文经过预处理，并被标记为积极、消极和中性。然后使用词嵌入和n-图提取特征。利用提取的特征构建了一个两阶段的分类器来识别相关的推文，然后将它们分为3个情感类别。然后使用主题建模技术对每个情感类别中预处理的未标记推文进行分析，以找到3个情感类别中每个类别的前10个主题。这一过程有助于发现公众对疾病爆发的情绪，并实时解决担忧。

数据注释分析(寻址RQ1a)

从48734条推文中随机抽取5303条推文，由2名具有寨卡疫情相关领域知识的注释者将其标注为积极、中性或消极。如果一条推文提到了与寨卡病毒有关的研究发现，就被认为是积极的，比如这条推文:“发现了寨卡病毒的结构，为对抗病毒的新方法带来了希望”，或者这条推文反映了对寨卡病毒的治疗、预防或资助的积极态度，比如这条推文“拜耳科学家帮助对抗寨卡病毒”。如果一条推文讨论了寨卡病毒引起的缺陷/疾病，比如“疾病预防控制中心证实寨卡病毒导致严重的出生缺陷#商业”，就被认为是负面的，讨论了寨卡病毒的传播，比如这条推文“#新闻寨卡病毒可能在未来几个月传播到欧洲，世卫组织警告#til_now #路透社”。如果推文提供的信息没有情绪化的措辞，比如希望，战斗,严重的或者说，这条推文的整体情绪是中性的。中性推文的例子是“寨卡症状、诊断和治疗，来自疾病预防控制中心#寨卡病毒”和“世卫组织:#寨卡疫情报告，3月31日”。使用科恩kappa发现了一致性，这是一种对判读者或判读者内部可靠性测试有用的稳健统计数据，并说明了猜测的可能性[13]。一旦达成重大协议，这些推文就被称为黄金标准数据集(Kappa >.81) [13]。

预处理

在开始数据分析之前，必须对tweet进行预处理，删除屏幕句柄(@username)、url、非ascii字符和转发指示符。然后进一步处理推文，删除单个字母，如一个，e,我;额外的空间;还有停顿词。停顿词是英语中最常用的单词，如和，在,为。该预处理的推文语料库使用词嵌入和n-图提取特征。这些特征的提取与我们早期的研究类似[4，14]。

词嵌入(特征提取)

机器学习算法无法处理原始文本或字符串，需要数字数据从文本数据中提取知识并构建应用程序。词嵌入是一种将单个词映射到预定义的向量空间的技术，以保留词之间的语义关系[15]。

此外，来自tweet的单词或短语被嵌入到n维空间中，其中n是语料库中的单词数。在词嵌入之后，一个句子可以看作是一系列的点，这些点根据语义标准进行分组，使两个相似的词彼此接近。它捕捉单词的上下文，同时减少数据中的特征数量。为了更好地理解词嵌入，我们提供了一个来自我们数据集样本的示例。为了可视化高维数据，我们使用了一种称为t分布随机邻居嵌入的技术，该技术将每个数据点映射到较低维空间(大小为2)[16]。从图2，我们可以看到Word2vec模型生成的100个单词嵌入的随机样本的空间分布[17]。该图基于随机tweet的一个子集，其包含纯粹是为了显示在相同上下文中使用的单词如何在向量空间中彼此接近。我们可以看到，相似的词在向量空间中的距离最终会更近。例如，单词如爆发，恐惧，推迟了,夏天(例1)在空间上是相近的，因为它们在里约奥运会和诸如共和党人和国会(例2)在空间上靠得很近，因为它们被用于寨卡病毒的资助。单词嵌入算法被用来生成特征，以帮助将推文分类为积极、消极或中立。

模型

我们使用了2种不同的主要模型进行分类。一个是Word2vec [18另一个是n-gram模型[14]。

语法模型

在该模型中，使用斯坦福自然语言处理词性标注器从tweet中提取特征[19]和n-grams [20.]，其中n-gram表示作为单个实体或特征处理的单词序列。最初，从tweet中识别特征，并确定每个特征的计数。因为语料库很大，我们只使用前20个单字符和双字符进行分类，我们只想捕获最常用的文本特征。总共有61个功能。例子包括AT_Mention，Zika病毒，话语标记，头小畸型，胎儿，代词，健康，出生缺陷，Zika病毒感染，标签,脑损伤。

Word2vec模型

Word2vec包括两种不同的方法:连续词袋(CBOW)和跳过-gram [21]。在CBOW方法中，目标是给定一个单词周围的单词，即它之前和之后的单词[21]。Skip-gram则相反:我们想要预测给定一个单词的周围单词[21]。负抽样的跳克法最适合大中型数据集[15]。由于我们的数据集被认为是中等规模的[15]，我们使用skip-gram模型，负采样率为10。

对于单词嵌入，我们使用了Python 3.5.4版本的Gensim库2.2.0版本[22]用于在训练分类器之前将所有单词转换为n维空间。然后将标记化的单词输入Word2vec工具，并使用skip-gram模型进行训练。我们考虑窗口大小为4，因为tweet的平均长度小于10个单词，这意味着目标单词之外的4个标记被认为是相邻单词。

有了这些集合参数，我们生成了大小为300的单词向量，并使用Word2vec的相似性功能测试了学习到的向量。为了评估使用该工具生成的向量，我们选择了2个单词登革热和Zika病毒这是蚊子传播的疾病，以评估相似性。相似性用于查找两个向量之间的距离。相似度越接近1，这两个词的关系就越密切[23]。相似度为0.92，这表明这两个词密切相关或在相似的上下文中使用。当使用“小头症”和“怀孕”等词时，它会给出“女人”、“妇女”、“感染”等相关词。

使用sum和mean等矢量运算来构建最终的特征向量。以下是对单词向量执行的操作:

单词嵌入的总和:这是tweet中所有单词向量的总和。艘渔船_总和W =∑

单词嵌入的平均值:tweet中所有单词向量的平均值。艘渔船_的意思是=1/n∑W

W表示tweet和FV中的单个单词_总和和阵线_的意思是表示tweet的特征向量。

分类性能(寻址RQ1b)

使用监督分类算法，包括逻辑回归、径向基函数核支持向量机和随机森林，将推文分类为3种情绪类别。这些方法依赖于标记的数据，在本例中，5303个随机选择的tweet被2个注释者从总共48,734条tweet中标注为积极、中立或消极。这些分类器经过训练，根据注释器派生的黄金标准将tweet分类到指定的类别中。

每个分类器的性能使用分层k-fold交叉验证进行评估，因为我们有一个不平衡的数据集。我们报告k=7，因为k的增加对结果没有改善，而且节省了计算时间。分层k-fold为每个标注者标记的类保持相同数量的样本[24]。在该方法中，使用tweet的1个子样本(fold)作为测试集，其余6个子样本用于训练。重复7次，每个子样本作为测试子样本一次[24]。本研究报告了平均召回率(分类器未遗漏的类别推文的指示)，精度(正确分类的推文)和F1分数(精度和召回率的加权平均值)作为每个分类器分类性能的度量。

专题分析(解决RQ2)

先前的研究，如Lau、Collier和Baldwin [25]，已经证明了LDA在将文本分组到短文本文档(如tweet)中的主题方面的有用性。在本研究中，我们使用LDA主题建模来识别每个情感类别中讨论的潜在主题。在LDA中，文档(本例中为tweet)被表示为隐藏主题上的随机混合物，其中每个主题的特征是该主题中出现频率最高的单词的分布[26]。更具体地说，LDA是一个3级层次贝叶斯模型，其中语料库中的每个词都被建模为一组底层主题上的有限混合物。然后将每个主题建模为一组潜在主题概率的无限混合。作为输出，给出了属于每个主题的最重要的单词，并由研究人员来解释主题的含义。这有助于更好地对这三个类别中的子主题进行定性探索。

为了确定主题建模所需的主题数量，我们使用了perplexity，这是一种用于评估LDA生成的主题模型的度量，其中perplexity得分越小，泛化性能越好[22，26]。我们通过测试3个情感类别的2到100个主题模型，使用该度量来评估主题建模结果。为了计算困惑度，使用了预处理的tweet。在语料库中只出现一两次的词被删除，因为它们增加了主题的数量，但不能提供概括的信息[26]。

在本节中，将讨论黄金标准数据集中tweets的分布。还解释了使用Word2vec和n-gram模型的3种不同分类器的性能。最后，探讨了积极、中性和消极类别的主题建模结果，重点关注消极情绪类别中出现的主题。

数据注释分析(寻址RQ1a)

为了训练分类器，必须按照上面方法部分的描述创建金标准数据集。2位注释者之间的一致程度kappa值为0.95，表明接近完全一致[13]。黄金标准数据集中tweets的分布如图所示图3。大部分推文表现出负面情绪(2423;46%的推文)和最少的积极情绪(1010;19%)。可以看出在图33种情绪类别的阶级不平衡程度较高。

分类性能(寻址RQ1b)

表1提供2个文本处理模型和相应分类器的性能。n-gram模型的表现略好于单词嵌入模型。对于这个数据集，分类器的表现相当好，F1得分在0.48到0.68之间。然而，使用n-gram模型的逻辑回归分类器表现最好，F1得分为0.68。这一表现与同类研究相当[7，18]。

使用基于n-gram的逻辑回归情感分类器，我们对从之前的研究中获得的48,734条推文进行了分类(图4) ［4]。负面推文的总数几乎是正面和中性推文总和的4倍。我们可以清楚地看到图4这是一个高度不平衡的数据集，大多数推文属于负面情绪类别。

表1。使用七倍交叉验证的情感分析分类器性能。使用的分类器有逻辑、支持向量机和随机森林。

分类器		精度	回忆	F1的分数
Word2vec艘渔船_总和模型
	逻辑回归	.68点	点	0.66
	支持向量机	正	主板市场	0.65
	随机森林	55	53	0.48
Word2vec艘渔船_的意思是模型
	逻辑回归	点	点	0.63
	支持向量机	点	主板市场	0.65
	随机森林	50	50	0.50
语法模型
	逻辑回归	i =	.68点	0.68
	支持向量机	主板市场	主板市场	0.65
	随机森林	.68点	正	0.67

图4。症状数据集的三个类别中的tweet数(从基于n-gram的情感分类器中获得)。

专题分析(解决RQ2)

在负面情绪的推文中，困惑度迅速下降，直到10个话题左右，然后趋于平稳。图5）.正类和中性类的困惑度图可在网上找到[27]。这表明增加10之后的主题数不会显著提高LDA模型的泛化性[26]。因此，每个情感提取10个主题。

LDA的结果将在下面讨论正面、中性和负面类别。所有三种情绪类别的主题和主题都是由流行病学专家根据每个主题的单词和包含这些单词的一些示例推文确定的。首先，将简要讨论积极和中性类别的主题。表格包括主题名称、主题词以及正面和中性主题模型的tweet示例，可在网上获取[27]。然后，将对负面情绪主题进行更详细的解释。

主题从积极和中性的情绪

在积极情绪主题中，使用LDA的困惑度度量选择的10个主题中有4个广泛的定性主题:杀蚊方法，帮助理解寨卡病毒的模型，细胞中寨卡病毒的检测以及治疗和预防发现(表2）.这些更广泛的主题根据领域专业知识和来自《疫苗》和《MMWR》等期刊的内容进行了标记，从而允许对10个主题进行进一步分类。对于有助于理解寨卡病毒的模型这一更广泛的主题，主题1包含了有关研究人员正在开发的研究寨卡发病机制的新模型的推文，主题2描述了用于理解寨卡病毒的三维(3D)打印迷你大脑。关于灭蚊方法主题，主题4包含有关巴西散发汗水的广告牌杀死携带寨卡病毒的蚊子的推文，主题10涉及杀死携带寨卡病毒的蚊子的其他方法。在治疗和预防发现主题中，主题#3包括关于发现寨卡病毒如何阻碍胎儿发育的推文，主题#5描述了治疗寨卡病毒的疫苗的发展，主题#8报道了IBM摧毁所有致命病毒的神奇子弹。这神奇的子弹它实际上是一种大分子，可以附着在任何病毒的表面并阻止它附着在人体细胞上[28]。如果病毒不能附着并进入细胞，感染就被阻止了。这种大分子也是碱性的，可以中和被感染细胞的酸性，以防病毒在感染时已经感染了人类细胞神奇的子弹是用[28]。在细胞中检测寨卡病毒这一更广泛的主题中，主题#6讨论了用于识别寨卡病毒感染的不同类型的测试，主题#7概述了利用胎儿组织检测寨卡病毒，主题#9详细介绍了寨卡病毒在大脑中积聚的检测。

表2积极情绪主题建模结果基于更广泛的主题分组在一起。这些数字反映了主题的相对规模。例如，主题老鼠模型比3d打印的迷你大脑有更多的推文。

表2。积极情绪主题建模结果基于更广泛的主题分组在一起。这些数字反映了主题的相对规模。例如，主题老鼠模型比3d打印的迷你大脑有更多的推文。

主题		单词	推特
模型更广泛的主题
	1 .小鼠模型	研究者、老鼠、模型、发展、健康和研究	新# zika病毒研究人员开发小鼠模型另一个老鼠>模型模拟人类寨卡病毒感染
	3d打印的迷你大脑	科学家，测试，大脑，神秘，帮助	迷你3d打印大脑帮助科学家了解寨卡病毒
蚊子更广泛的主题
	巴西广告牌	快速，广告牌，发射，巴西和结构	汗,发出巴西广告牌引诱携带寨卡病毒的蚊子死亡\| mnn -自然母亲网络
	#10杀蚊子	蚊子，感染，杀死，洞察力和生物分子	研究人员开发#藻类杀了#蚊子携带寨卡病毒
病毒发现更广泛的主题
	胎儿大脑发育	胎儿，人类，发现，帮助	寨卡病毒如何肆虐胎儿大脑发育研究人员发现如何劫持?人类免疫摩尔…
	# 5疫苗	模型、感染、疫苗、提供和发展	鼠标模型寨卡病毒感染在怀孕提供基础开发疫苗、治疗
	#8 IBM的神奇子弹	杀戮、发展和理解	IBM研究IBM宣布了一颗神奇的子弹来打击各种杀手病毒，比如seancaptain的#zika
发现更广泛的主题
	#6寨卡病毒检测	尿，发现，模式，牙买加，可编程和分子	# saling遵循疾病预防控制中心的临时指导发现尿液快速和特异性检测寨卡病毒样本优于血清-美国疾病控制与预防中心
	胎儿组织研究	胎儿，组织，感染，检测，装备和测试	上个月,胎儿组织研究帮助医生了解寨卡病毒是如何传播的胎儿感染&如何检测它的存在
	#9寨卡病毒积累	发现、积累、寨卡、病毒、检查、妊娠和报告	#的第一个鼠标模型之一zika病毒了的病毒积累在大脑中

总的来说，更广泛的主题在表3(模型、蚊子、病毒发现和检测)出现在积极情绪类别中，因为它们都与帮助预防传播或可能导致治疗的研究有关。这两个话题都反映了公众的积极看法，因为它们有助于防止与寨卡病毒有关的缺陷。例如，蚊子主题的推文讨论了杀死蚊子的方法，这将有助于防止寨卡病毒的传播[29]。模型和病毒发现主题中的推文讨论了可能有助于治疗的发现，例如IBM的灵丹妙药[28]。病毒发现的推文是积极的，因为它们指出了更快检测寨卡病毒的方法。了解寨卡病毒在哪里积聚有助于开发治疗方法[30.]。积极类别的推文还使用了带有积极含义的词汇，比如理解，开发，希望，发现，好处,揭示等等。积极情绪类的主题主要是关于治疗寨卡病毒和预防方法的研究，而中性情绪类的主题主要是新闻机构陈述事实的帖子。

在中性情绪主题中，有3个更广泛的定性主题:公共卫生信息、知识差距和寨卡病毒特征(表3）.在公共卫生信息中，话题#1解释了科学家如何试图解开寨卡之谜，话题#2告诫孕妇寨卡病毒感染的危险，话题#3宣布寨卡病毒是一种蚊子传播的疾病，话题#4规定了有关生育控制和堕胎的法律，话题#5讨论了与蚊子作斗争，话题#6考虑了官员警告公众要小心不要在工作中被咬伤。知识差距由主题7组成，讨论了与寨卡病毒有关的知识差距。在寨卡病毒特征主题中，主题8确认了寨卡病毒症状，主题9包括登革热和寨卡病毒之间的比较，主题10描述了寨卡病毒感染引起的胎儿脑损伤。

表3。中性情绪主题建模结果基于更广泛的主题分组在一起。这些数字反映了主题的相对规模。

主题		单词	推特
公共卫生信息的主题更广泛
	寨卡病毒之谜	巴西，常见的，解开的，问题，重要的，疾病和问题	# voanews巴西科学家们试图解开寨卡双胞胎之谜:科学家努力解开
	伊蚊	蚊子、感染、怀孕、爆发、妇女和儿童	寨卡病毒和登革热蚊子有共同的天性。抗性很强，也很危险。感染母亲怀孕！
	蚊子传播的疾病	症状，今天，健康，出生，蚊子，和效果	寨卡病毒是一种蚊子传播没有出现的疾病症状在很多人身上。这是一件非常危险的事情。
	# 4堕胎	流产、学习、更糟、生存、指引、论文	寨卡病毒，生育控制和堕胎我们的反妇女法会做到这一点更糟糕的是。
	#5对抗咬伤	感染，战斗，咬，影响和死亡	只有四分之一的人受感染的寨卡病毒会出现症状。战斗的咬，摧毁蚊子滋生地# nobitenzika
	#6官方警告	官员、控制、疾病、中心和研究人员	健康官员警告不要在工作时接触寨卡病毒疾病控制中心预防#亚特兰大
知识差距更广泛的主题
	#7知识差距	人，专家，联系，埃博拉，治疗	各种各样的“专家”现在需要加快应对寨卡病毒+的速度。时间很宝贵。许多人“落后于潮流”。
寨卡病毒具有更广泛的主题
	# 8症状	发烧，更可怕，感染，眼睛，和第一	zika病毒症状,发热、皮疹、关节疼痛和/或发红眼睛。大多数人受感染的但通常没有症状
	# 9登革热	登革热，流感，皮疹，比较，原因，和疟疾	登革热&寨卡病毒皮疹4种登革热病毒株在ja地区呈上升趋势。医生需要小心#测试或怀疑
	胎儿脑损伤	胎儿，信息，预防，症状，损害，胎儿	“为什么胎儿组织研究对拯救婴儿免受寨卡病毒感染至关重要，新研究发现“令人担忧”信息……”

在这种情况下，更广泛的主题在表3(公共卫生信息、知识差距和寨卡病毒特征)突出了中性情绪，因为这些主题的推文来自公共卫生专家和新闻机构，向公众提供信息，因此更有可能陈述事实而不是观点。例如，“官方:感染寨卡病毒的夫妇应该推迟怀孕”这条推文是官方关于在寨卡病毒爆发期间推迟怀孕的声明，以帮助预防出生时有先天缺陷的婴儿。有些推文是中性的，尽管它们包含了积极和消极的内涵，因为推文的整体情绪是中性的，比如这条推文“# vonews巴西科学家试图解开寨卡双胞胎之谜科学家努力解开....”。主题1至主题6都包含来自公共卫生机构的信息，因此被标记为公共卫生信息。主题8至10涉及寨卡病毒的特征，因此被归类在一起。主题7不属于任何一类，因此作为一个单独的主题。总而言之，中立话题包括新闻机构和公共卫生官员的推文。负面情绪话题中也有一些是通讯社和卫生官员的推文，但也有一些是公众的意见推文。

话题来自消极情绪

在进行数据分析之前，我们选择关注负面情绪类别的主题，具体来说是我们之前论文中的症状类别[4因为人们发现这对公共卫生官员至关重要[31-35]。我们选择关注负面情绪的推文，因为这是卫生官员最关心的，因为在这些主题中更需要干预和信息传播[31-35]。例如，Glowacki等人的一项研究[34发现美国疾病控制与预防中心(CDC)和公众表达了对寨卡病毒传播的担忧，CDC还在与公众进行了一小时的直播聊天，重点关注了寨卡病毒的症状和教育。媒体对某一话题的高度关注，类似于寨卡疫情期间的媒体关注，引起公众的关注[31]。因此，医生和公共卫生官员必须在这些问题成为公共话语的根深蒂固之前解决它们。世界卫生组织(世卫组织)和疾病控制中心(CDC)未能对2015年埃博拉疫情采取行动，导致数千人丧生。32]。为了防止类似的失败，需要采取中等水平的应对措施，以防止反应过度，同时仍采取适当措施应对寨卡疫情[32]。例如，在埃博拉疫情爆发期间，人们发现未能让社区参与产生有害影响，而让社区参与有助于遏制疫情爆发[33]。参与社区的主要方式包括让家庭成员以不会使亲人处于危险的方式参与照顾亲人，根据当地情况调整全球政策，使用各种沟通方法，组织与社区的定期会议，以及确定女性和男性社区领导人传播关键信息。这就是为什么CDC的公共卫生官员在获得有关寨卡病毒的新信息时，与公众进行实时聊天并在社交媒体上发布信息的原因。与寨卡病毒相关的新症状的性质可能引发了公众的恐惧和焦虑。35]。因此，公共卫生官员需要继续传播预防方法和如何处理症状的信息，以帮助减轻恐慌。此外，这是大多数推文(图4）.通过了解公众关注的问题，官员可以集中精力，有针对性地发布信息，解决这些问题。根据我们之前的研究，这种方法似乎是有效的[4)，而目前的LDA研究结果正在创造出一些朗朗上口的短语，比如“对抗咬伤”，或者使用一些能引发情绪的短语，比如BBC的文章“寨卡病毒比最初想象的更可怕”。公共卫生官员可以专注于创造类似的短语来解决所有负面关注的话题。负面情绪的主题模型结果见表4。在负面情绪话题中，有3个更广泛的话题:由寨卡病毒感染引起的神经缺陷，寨卡病毒感染导致的异常,关于寨卡病毒的报告和调查结果。话题# 1大脑的缺陷, # 2神经系统的影响, # 5胎儿的影响和#8格林-巴利综合征都与神经系统有关。话题# 6Zika病毒异常和# 9Zika病毒影响都与寨卡病毒感染导致的异常有关。话题# 3最初的报道, # 4Zika病毒影响, # 7超声波，和#10登革热协会所有与寨卡病毒有关的报告和调查结果。主题3和主题4之间有很大的重叠，因为它们都涉及有关寨卡病毒的报告和发现。然而，话题#3最初的报道包括指出寨卡病毒传播地点的推文，而话题#4Zika病毒影响包括有关BBC文章的推文，该文章将寨卡病毒描述为比最初想象的更可怕[3.]。

更广泛的主题是表4(神经缺陷、寨卡病毒异常以及报告和发现)都是负面的，因为它们涉及了公众关注的话题。在这次疫情爆发之前，寨卡被认为是一种轻微的疾病，只有14例报告病例[2]。直到最近的疫情爆发，寨卡才与小头症、格林-巴罗综合征和先天性寨卡综合征联系在一起，所有这些都引起了全球的恐惧和担忧[1，4，36，37]。

表5显示属于消极情绪类别的每个主题的tweet的百分比分布。除了主题#10(登革热协会)外，推文均匀分布在各个主题上。这是因为讨论这种关联的人很可能是了解抗体的流行病学家和公共卫生领域的其他人，正如这条推文所示，“实验室发现表明，#登革热抗体加剧了#寨卡病毒感染=>导致#小头畸形和gbs。^一个？证据。”

表4。负面情绪主题建模结果根据更广泛的主题分组在一起。这些数字反映了主题的相对规模。

主题		单词	推特
神经缺陷更广泛的主题
	1 .大脑缺陷	大脑，小头畸形，婴儿，疾病，确认，原因	# zikavirus确认zika病毒导致大脑损伤婴儿与生俱来的头小畸型婴儿大脑异常
	神经系统影响	严重，问题，免疫，神经，死亡和出生	人类神经被寨卡病毒感染的干细胞随后引发先天免疫缺陷免疫导致细胞的反应死亡
	5 .胎儿影响	巴西，胎儿，收缩，发育，破坏，爆发和怀孕	在#巴西寨卡病毒正在吞噬胎儿大脑,收缩或破坏控制思想的脑叶，防止发展。
	格林-巴罗综合征	综合征，罕见，病例，关联，原因，和小头畸形	情况下的罕见的神经紊乱并发症状如果寨卡病毒通过
寨卡病毒异常
	寨卡病毒异常	脑、眼、异常、科学、共识、确认、关联	寨卡病毒相关的妊娠并发症包括流产、死产、大脑异常和眼睛异常。# reuterszika
	#9寨卡病毒的影响	寨卡病毒，感染，儿童，成人和胎儿	研究人员表示寨卡病毒感染会阻碍孩子们
报告和调查结果更广泛的主题
	#3初步报告	报告，波多黎各，感染，连接，叛变	波多黎各报道第一个zika病毒-有关出生缺陷$ {3.1}波多黎各报道第一个zika病毒-有关出生缺陷
	寨卡病毒的影响	影响，传播，路透社，蚊子，还有更可怕的	#路透zika病毒传播，影响更可怕美国卫生官员说
	# 7超声波	超声波，医生，婴儿，未出生，感染	# chevycar听起来超错过了zika病毒感染直到那个对她造成严重伤害的人婴儿
	#10登革热协会	专家，警告，声音，登革热，病因，胎儿，传播，和小头畸形	实验室发现暗示#登革热抗体加剧#寨卡病毒感染=>导致#头小畸型& gbs^一个？证据

^一个吉兰-巴罗综合征。

表5所示。属于消极情绪类别的十个主题的推文的百分比分布。

主题	推文的分布，%
大脑的缺陷	12
神经系统的影响	12
最初的报道	11
Zika病毒影响	11
胎儿的影响	11
Zika病毒异常	10
超声波	10
格林-巴利综合征	9
Zika反响	9
登革热协会	5

在讨论部分，我们将通过一些示例解决推文被错误分类的一个原因。这3个负面情绪更广泛的主题，神经缺陷，Zika病毒异常,报告及调查结果，然后将进行更详细的探讨和讨论。

分类分析

正如在表2，分类并非100%准确，这意味着一些推文被错误分类。我们将重点关注负面推文，因为这是我们讨论的重点。一些推文被错误分类是因为诸如活跃的，唾液，联邦政府，被降级的，野兽,产前，由于这些单词的计数小于Word2vec模型中给出的最小计数(设置为5)参数，因此模型没有看到这些单词，因此被丢弃。最小计数设置为5 (Gensim中的默认设置)，因为使用少于5次的单词不会为分析添加重要信息[38]。增加更多的训练数据可以改善这些结果;然而，Nakov等人的一项研究注释了6000条推文，其F1得分与我们的研究相似[39]。由于这些单词出现的次数少于5次，因此算法无法将这些tweet识别为负面的，因为它无法确定与这些单词更接近的单词。被错误识别为负面的推文的例子是“#寨卡病毒使里约奥运会对巴西和国外构成威胁，#卫生专家说”和“#打破疾病预防控制中心不再怀疑寨卡病毒导致出生缺陷。”被错误识别为积极的推文的例子是“#西雅图主要寨卡失败!”和“@ friedencdc博士，可怕的是，你怎么能用产前酒精代替寨卡病毒!”同样的症状，隐藏但安静。”

主题模型

在本节中，我们将重点讨论神经缺陷、寨卡病毒异常、超声波和登革热相关的负面情绪话题。选择这些主题和话题进行讨论是因为它们是公众关注的话题，已经由疾病预防控制中心或世界卫生组织处理过[36，40-44]，可以由官员来解决，以帮助减轻人们的担忧。寨卡病毒的影响没有得到解决，因为这是我们之前工作的重点[4]。最初的报告没有得到解决，因为这是针对这次疫情的，官员和公众无法完全阻止寨卡病毒的传播。

神经缺陷

神经缺陷是公众关注的一个更广泛的主题，公共卫生官员需要解决这个问题，以减轻对寨卡病毒感染导致的神经系统缺陷的恐惧和担忧。为表4，主题#1 (大脑的缺陷)， #2 (神经系统的影响)， #5 (胎儿的影响)，第8 (格林-巴利综合征)都与神经系统有关。例如，话题1，大脑的缺陷指出了婴儿因小头症而造成的脑损伤，正如这条推文所示，“扫描显示与寨卡病毒相关的小头症婴儿的脑损伤程度....”小头症一直是疾病预防控制中心关注的一个话题，因为出生时患有小头症的婴儿一生都需要帮助[40，45]。这个话题神经系统的影响(#2)包括讨论导致人类神经系统疾病的神经干细胞死亡的推文[46，正如这条推文所示，“寨卡病毒以人类皮层神经祖细胞为目标，导致细胞死亡和神经细胞生长减弱。”这个话题胎儿的影响(#5)也解决了大脑萎缩或脑损伤问题，但除此之外，这些推文还讨论了控制思想、视觉和胎儿其他功能的脑叶的破坏，如这条推文所示，“扫描和尸检显示，寨卡病毒侵蚀了胎儿的大脑。它会收缩或破坏控制思维、视觉和其他功能的脑叶。”格林-巴利综合征(话题#8)是一种由神经细胞受损引起的疾病。“感染寨卡病毒的人类神经干细胞随后引发先天免疫反应，导致细胞死亡”这条推文包括寨卡病毒如何导致神经干细胞受损并导致吉兰-巴罗综合征等疾病的信息。47]。读者可以看到主题#1，#2，#5和#8都包括寨卡病毒感染后神经问题的信息，但都关注不同的问题，因此是3个独立的主题。通过查看这些推特，公共卫生官员可以看到公众对寨卡病毒引起的神经系统缺陷的担忧。因此，官员们需要采取的下一步措施是关注如何防止蚊虫叮咬，特别是在怀孕期间，以防止这些神经系统缺陷。“对抗咬伤”运动就是这样一个例子[44]。

Zika病毒异常

寨卡病毒异常也是一个需要解决的更广泛的重要主题，因为人们担心和担心在怀孕期间感染寨卡病毒会导致婴儿出现异常和缺陷。在表4，主题#6 (Zika病毒异常)和#9 (Zika病毒影响)都与寨卡病毒感染引起的异常有关，但包括各种各样的问题。这个话题Zika病毒异常(#6)描述了与这条推文中看到的胎儿和出生时感染寨卡病毒的婴儿相关的各种异常，“与寨卡病毒有关的出生缺陷现在还包括听力丧失、视力问题、生长受损、四肢异常。”这些类型的异常被美国疾病控制与预防中心称为先天性寨卡综合征，包括颅骨塌陷、眼睛疤痕、严重肌肉紧张和脑钙化[36，37]。这个话题Zika病毒影响(#9)关注儿童生长发育的障碍。同样，这两个主题都涉及寨卡病毒感染引起的异常，但重点关注两种不同的异常，因此作为两个不同的主题。通过推动“抗咬”运动等预防措施，官员们可以帮助缓解对这些异常情况的担忧。

超声波

超声波检查是另一个需要解决的重要问题，因为最初的超声波检查无法发现小头畸形和其他出生缺陷，导致一对夫妇产生错误的安全感[41，42，48，49]。如前所述，寨卡病毒与小头症有关;然而，在妇女妊娠期的前三个月和后三个月，发现超声波对小头畸形的存在有很高的假阴性预测[48]。因此，课题超声波因为孕妇在做了超声波检查后可能会有一种错误的安全感，而在怀孕早期胎儿体内没有检测到寨卡病毒。美国疾病控制与预防中心在其网站上表示，小头症在妊娠中期晚期至妊娠晚期早期更容易被发现[41]。研究人员还建议父母对新生儿的头部进行核磁共振成像(MRI)检查，因为有些异常在出生时并不明显，但可以通过核磁共振成像检测出来。42]。为了解决在婴儿出生前检测小头畸形的问题，官员们需要不断提供有关检测小头畸形方法的最新信息，并不断努力改进检测方法，以帮助公众对胎儿做出明智的决定。

登革热协会

登革热关联可以解释为什么这次寨卡病毒爆发与异常和缺陷有关，而以前的感染没有，这就是为什么它是一个需要解决的重要话题[43，50-52]。登革热与寨卡病毒属于同一病毒科，并由与寨卡病毒相同的两种蚊子传播[43]。如果一个人以前感染过一种登革热病毒株，后来又感染了另一种登革热病毒株，由于抗体依赖性增强(ADE)，他们有可能出现严重的登革热症状[50]。在主题中登革热协会(#10)，科学家们怀疑并开始证实，早期的登革热疾病也会因为ADE而增加寨卡病毒感染的机会[51，52]。这属于负面情绪类别的事实表明，公众关注登革热与寨卡病毒的相互作用，这告诉公共卫生官员，他们关于这一主题的信息正在被听到，并引起了足够的关注。既然有证据表明以前的登革热感染会增加更严重的寨卡病毒感染的机会，公共卫生官员需要在社交媒体网站上传播这一信息，并鼓励过去感染过登革热的人继续采取预防蚊虫叮咬的措施。

如何解决这些问题

既然公共卫生官员知道公众关注的是什么，他们就可以集中精力解决这些问题。当事件发生时，人们的正常倾向是就感兴趣的话题寻求更多的信息[53]。这可以通过阅读或听新闻，进行互联网搜索或与他人交流来完成。通过这种对知识的探索，根据所收集到的信息，可以减少或增加忧虑[54]。

与处理有关的复杂问题包括所分享信息的准确性，因为有时媒体在没有掌握全部事实的情况下迅速报道信息，或者读者可能会错误地解释事实[53]。因此，新闻机构需要更加谨慎地发表文章，而不是像BBC的文章那样使用标题。3.意在引起公众的关注。媒体、公众、政治家和科学家之间沟通的不足加剧了人们的担忧[55]。例如，当非专家表达与专家不同的观点时，公众的恐惧就会加剧[56]。这是一个很难解决的问题，关于疫苗和自闭症的辩论就证明了这一点[57]。专家们需要不断公布事实信息，并保持同行之间的相互审查，以确保像韦克菲尔德提出的疫苗导致自闭症的研究在未来不会发生[57]。另一个常见的例子是向公众提供的信息水平。科学家们倾向于使用公众不理解的词语，比如“无症状”，这导致公共卫生官员的陈述与读者的理解之间存在差异。这可以通过科学家在小学阶段更好地解释他们的工作来解决。

作者了解到，公共卫生官员已经在一定程度上遵循了所有这些建议。然而，总有改进的余地。

限制

我们分析中的推文仅限于英语，这限制了研究的普遍性。这一点至关重要，因为南美国家是最先受影响最严重的国家。未来的研究可以通过分析葡萄牙语和西班牙语的推文来解决这一限制。数据收集中使用的关键词是Zika, Zika病毒，Zika病毒治疗，Zika治疗。因此，用另一种语言提到这种疾病的推文将被忽视。在推特上提到这种疾病而没有提到它的名字也会被忽视。

如果没有韵律、语境和光谱线索，讽刺是很难被发现的[58，这三个都不可能在推特上确定。一些研究使用了词汇和语用因素[59];然而，在这项研究中，即使是人类注释者对推文是否讽刺的看法也不到50%。显然，如果基本事实不一致，就不能用机器学习可靠地建模。这项研究中的注释者根据他们认为表达的情感对推文进行编码，讽刺是引起分歧的原因之一。然而，在我们的数据集中，很少有推文被认为可能是讽刺的，因此限制了效果。

由于推文的长度较短，而收集的推文数量较多，LDA之前已经被证明存在过拟合的问题，显示的主题数量超过了真实的主题数量[60]。在我们的研究中，我们试图通过将积极的推文组合到一个文档中，将消极的推文组合到另一个文档中，将中性的推文组合到第三个文档中来解决这两个问题，从而使数据集更小，主题域更具体。

结论

总的来说，负面情绪话题集中在寨卡病毒引起的神经缺陷和异常上。由于这些推文被归类为负面情绪，官方可以看出公众对寨卡病毒引起的症状感到担忧。由于公众的关注，官员们可以集中精力传播鼓励预防的信息。官员们还可以看到，最重要的主题都涉及实际症状和缺陷，而不是侧重于他们需要解决的误解或错误信息。展望未来，官员们也可以开始告知公众，研究正在为寨卡-登革热相互作用假说提供证据。他们应将这些信息的重点放在登革热流行地区，因为这些地区最有可能发生相互作用，导致更严重的寨卡病毒感染。

我们预测，当寨卡病毒再次爆发时，人们会在社交媒体上表达对神经缺陷的类似担忧(比如小头症)。尽管我们当前的框架仍然适用，但tweet中的无监督主题将发生变化。具体来说，相关性和情感分类器(系统的监督部分)仍然可以有效地检测针对寨卡病毒和特定主题(如症状)的推文。但是，当研制出寨卡病毒感染的预防性疫苗和/或出现与寨卡病毒感染相关的新症状时，关注的主题将根据特定时间当前关注的问题而改变。截至2018年8月，没有获得许可的疫苗;然而，一些候选药物正处于不同的开发阶段，临床试验已经开始[61]。我们预测，一旦获得许可的疫苗问世，有关寨卡病毒症状的负面情绪将会减少，但很可能不会消失。此时，本研究使用的方法仍然是相关的，但负面情绪类别中的主要话题可能会因为关注的减少而发生变化，这也会从积极或中性类别的推文增加中得到体现。

相反，如果寨卡病毒出现新的症状，或者发现那些天生有神经缺陷的人出现进一步的并发症，负面情绪类别中关注的话题就会改变，以反映对新症状的关注。在最近一次疫情爆发期间，科学家怀疑以前感染过登革热的人比以前没有感染过登革热的人出现了更严重的寨卡病毒症状[62]。以前感染过与寨卡病毒类似的病毒，比如西尼罗河病毒，可能会引起新的症状，就像我们在登革热和寨卡病毒中看到的那样。51，52]。

我们的研究对于那些想要对流行病、大流行或生物恐怖袭击进行情绪分析的人也很有用。情绪分析是复杂的，因为大多数情绪分析工具只是使用单个词的极性来测量情绪，并基于这些极性生成一个自动评分机制来评估每条推文的情绪水平。这未能纳入上下文信息，而上下文信息需要纳入该领域的特定主题情感分析[5]。科学话题尤其需要人工标注，因为带有负面情绪的科学词汇实际上可以有积极的背景，正如这条推文所示，“奥巴马将埃博拉资金转移到抗击寨卡;佛罗里达州在全国领先，以防……战斗通常会有负面的含义，但在这条推文中有积极的含义。其他一些通常被认为是消极的词，但在流行病的背景下讨论时实际上是积极的战斗，防止,损害。如果使用情感词库对包含这些词的推文进行分类，它们就会被错误地归类为负面。这是一个重要的问题，因为它不能正确地代表公众的感受，如果一些负面的推文被错误地归类为积极/中立，可能会导致专家认为公众不那么关心寨卡症状。因此，我们使用了手动标记过程，其中整个tweet由2个领域专家分配到情感类别。我们相信，这种对数据科学和领域专业知识相结合的需求使我们的研究具有挑战性和趣味性。

这是使用Twitter解决寨卡病毒情绪分类的首批研究之一。使用这样的系统，公共卫生官员可以确定公众对疾病爆发的情绪，并实时解决问题。

未来的工作

未来的研究可以分析情绪随时间的变化，看看负面推文的数量是否会随着疫情的消退和治疗方法的发现而减少。研究还可以根据性别或地理位置来观察人们的情绪。两者都是谨慎的，因为寨卡病毒对胎儿的影响，以及它在赤道地区的相对流行程度。我们还建议未来的研究利用其他信息来源，如其他社交媒体网站、报纸和博客。类似的方法也可以普遍应用于未来的大流行病和流行病，以确定公众情绪。

利益冲突

没有宣布。

世卫组织2016.寨卡病毒的历史http://www.who.int/emergencies/zika-virus/timeline/en/[访问日期:2018-05-13][WebCite缓存］
美国疾病控制与预防中心，2016。寨卡病毒网址:https://www.cdc.gov/zika/about/overview.html［WebCite缓存］
英国广播公司(BBC)寨卡病毒比想象中更可怕?美国网址:http://www.bbc.com/news/［WebCite缓存］
Miller M, Banerjee T, Muppalla R, Romine W, Sheth a。其症状、治疗、传播和预防的探索性研究中华医学会公共卫生监测2017年6月19日;3(2):e38 [j]免费全文] [CrossRef] [Medline］
陈磊，王伟，Nagaran M，王松，Sheth A. AAAI。2012.从twitter URL中提取具有目标依赖极性的多种情感表达https://www.aaai.org/ocs/index.php/ICWSM/ICWSM12/paper/view/4609［WebCite缓存］
王伟，陈林。谷歌专利。特定主题的情感提取URL:https://patents.google.com/patent/US20140358523[访问日期:2018-05-13][WebCite缓存］
danulaityte R, Chen L, Lamy FR, Carlson RG, Thirunarayan K, Sheth a。:识别毒品相关推文中的个人沟通和情绪。JMIR公共卫生监测2016 Oct 24;2(2):e162 [j]免费全文] [CrossRef] [Medline］
季霞，春S, Geller J.基于Twitter情感分类的公众健康关注监测。在:医疗保健信息学(ICHI)。2013年发表于:IEEE国际会议;2013;卡尔斯鲁厄，335-344页。［CrossRef］
通过社交媒体和电子新闻媒体传播埃博拉:一项横断面研究。卫生信息学报，2016;22(3):470-478。［CrossRef] [Medline］
Ghenai A， & MY。研究之门，2017。寨卡热:应用众包和机器学习跟踪Twitter上的健康错误信息https://arxiv.org/pdf/1707.03778.pdf[访问日期:2019-05-14][WebCite缓存］
Seltzer EK, Horst-Martz E, Lu M, Merchant RM。Instagram上关于寨卡病毒的公众情绪和言论。公共卫生2017;09:170-175。［CrossRef] [Medline］
Sheth A, Purohit H, Smith GA, Brunn J, Jadhav A, Kapanipathi P，等。Twitris-一个集体社会智能系统。编辑:Alhajj R, Rokne J。社会网络分析和挖掘百科全书(ESNAM)。纽约:斯普林格出版社;2017:1-23。
M.互译者信度:kappa统计。生物化学医学杂志(Zagreb) 2012;22(3):276-282 [j]免费全文] [Medline］
Muppalla R, Miller M, Banerjee T, Romine W.发现解释模型以识别有关寨卡病毒的推文。In: Conf Proc IEEE Eng Med Biol Soc. 2017 Dec .发表于:第39届IEEE医学与生物工程国际会议(EMBC)，西归浦，pp;2017年7月11日至15日;济州岛，韩国，第1194-1197页。［CrossRef］
陈凯，陈建军，陈建军，陈建军。神经网络信息处理系统。单词和短语的分布式表示及其组合性https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf[访问日期:2018-05-13][WebCite缓存］
Van der Maaten L, Hinton G.基于t-SNE的数据可视化。[J] Mach学习研究，2008年11月9日:2579-2605 [免费全文］
Word2vec。谷歌代码，2013。Word2vec URL:https://code.google.com/archive/p/word2vec/［WebCite缓存］
张建军，张建军，张建军，等。2016。单词嵌入增强Twitter帮派成员档案识别URL:http://knoesis.org/node/2753［WebCite缓存］
Gimpel K, Schneider N, O'Connor B, Das D, Mills D, Eisenstein J，等。Twitter的词性标注:注释、特性和实验。2011年发表于:第49届计算语言学协会年会论文集:人类语言技术，短论文-第2卷;6月;2011;俄勒冈州的波特兰。
李建军，李建军，李建军，李建军。基于类的自然语言n-gram模型。计算机语言学家，2016;18(4):467-479。
荣鑫。word2vec参数学习说明https://arxiv.org/pdf/1411.2738.pdf[访问日期:2019-05-10][WebCite缓存］
Python。Gensim Library URL:https://pypi.org/project/gensim/2.2.0/[访问日期:2018-05-13][WebCite缓存］
杨建军，李建军。动态词嵌入。2017年发表于:国际机器学习会议;2017;悉尼，澳大利亚第380-389页https://pdfs.semanticscholar.org/8a33/8e6068f2d9dd4630c3f0967f7b566f0819ba.pdf
傅尔曼G，肖尔兹M.交叉验证研究中的苹果对苹果:分类器性能测量的陷阱。ACM SIGKDD探索通讯2010;12(1):49-57 [j]免费全文］
刘杰，李建军。基于主题模型的在线趋势分析:# twitter趋势检测主题模型。2012发表于:COLING论文集;2012;孟买，印度，1519-1534页。
李建平，李建平，李建平，等。[J][中文][au:]免费全文］
BitBucket都。寨卡病毒情绪http://ravali-mamidi.info/sentiment-topics[访问日期:2018-05-13][WebCite缓存］
国际商业机器公司。IBM杂志。与IBM URL的病毒感染说再见:https://www.ibmjournal.com/internet-of-things/ibm-cure-for-viruses[访问日期:2018-05-13][WebCite缓存］
Mahyoub J, Aziz AT, Panneerselvam C, Murugan K, Roni M, Trivedi S，等。施普林格》2017。海草是纳米灭蚊剂的来源?生物制造银纳米颗粒对登革热和寨卡病毒载体埃及伊蚊的毒性和吸收https://link.springer.com/article/10.1007%2Fs10876-016-1127-3[访问日期:2019-05-10][WebCite缓存］
Retallack H, Di Lullo E, Arias C, Knopp KA, Laurie MT, Sandoval-Espinosa C，等。寨卡病毒在人脑发育中的细胞趋向性及阿奇霉素的抑制作用。中国科学d辑，2016,12 (5):888 - 888 [j]。免费全文] [CrossRef] [Medline］
Dredze M, Broniatowski D, Hilyard KM。寨卡疫苗误解:一项社交媒体分析。疫苗2016年12月24日;34(30):3441-3442 [j]免费全文] [CrossRef] [Medline］
Lucey DR, Gostin LO。正在出现的寨卡大流行。中华医学杂志，2016;31(9):865-866。［CrossRef] [Medline］
Coltart CE, Lindsey B, Ghinai I, Johnson AM, Heymann DL。2013-2016年埃博拉疫情:新流行病的经验教训生物工程学报(英文版);2017年5月26日;372(1721):- []免费全文] [CrossRef] [Medline］
郭文杰，李建军，李建军，李建军。在一场健康危机中，确定公众的担忧和疾病控制与预防中心的反应:对寨卡病毒实时Twitter聊天的分析。[J]中华传染病杂志，2016;44(12):1709-1711。［CrossRef] [Medline］
张建军，刘建军，刘建军，刘建军。寨卡病毒相关新闻报道和网络行为，美国，危地马拉和巴西。新兴传染病2016;22(7):1320-1321 [j]免费全文] [CrossRef] [Medline］
疾病控制和预防中心(CDC)。先天性寨卡综合征及其他先天缺陷https://www.cdc.gov/pregnancy/zika/testing-follow-up/zika-syndrome-birth-defects.html［WebCite缓存］
《华尔街日报》2016年11月3日。寨卡病毒对婴儿大脑的影响不仅仅是小头症https://www.wsj.com/articles/the-effects-of-zika-on-babies-brains-go-beyond-microcephaly-1478191331[访问日期:2018-05-13][WebCite缓存］
罕见的技术。Gensim默认参数https://rare-technologies.com/word2vec-tutorial/[访问日期:2018-05-13][WebCite缓存］
Nakov P, Ritter A, Rosenthal S, Sebastiani F, Stoyanov V. SemEval-2016任务4:Twitter的情感分析。2016，发表于:第十届语义评估国际研讨会论文集;2016;圣地亚哥，1-18页。
疾病控制和预防中心。小头畸形和其他出生缺陷https://www.cdc.gov/zika/healtheffects/birth_defects.html［WebCite缓存］
疾病控制和预防中心。产前护理网址:https://www.cdc.gov/pregnancy/zika/testing-follow-up/prenatal-care.html［WebCite缓存］
疾病控制和预防中心。先天性寨卡综合征患儿护理https://www.cdc.gov/pregnancy/zika/family/care-for-babies-with-congenital-zika.html［WebCite缓存］
世卫组织2017.登革热和重症登革热http://www.who.int/mediacentre/factsheets/fs117/en/［WebCite缓存］
疾病控制和预防中心。对抗咬人URL:https://www2c.cdc.gov/podcasts/media/pdf/FighttheBite2_transcript.pdf［WebCite缓存］
威康信托基金会。科学日报。寨卡病毒如何导致小头症的新见解https://www.sciencedaily.com/releases/2017/06/170601151903.htm［WebCite缓存］
国立卫生研究院(NIH)。2017.寨卡病毒在恒河猴中枢神经系统和淋巴结中持续存在https://www.nih.gov/news-events/news-releases/zika-virus-persists-central-nervous-system-lymph-nodes-rhesus-monkeys[访问日期:2018-05-13][WebCite缓存］
曹- lormeau V, Blake A, Mons S, Lastere S, Roche C, Vanhomwegen J，等。在法属波利尼西亚与寨卡病毒感染相关的格林-巴罗综合征暴发:一项病例对照研究柳叶刀2016年4月09日;387(10027):1531-1539 [免费全文] [CrossRef] [Medline］
Chibueze EC, Parsons AJ, Lopes KS, Yo T, Swa T, Nagata C，等。在寨卡病毒感染背景下，超声扫描对产前小头畸形的诊断准确性:一项系统回顾和荟萃分析。科学通报2017年12月23日;7(1):2310 [j]免费全文] [CrossRef] [Medline］
太阳LH。《华盛顿邮报》。超声波检查没有发现她感染了寨卡病毒，直到有一次检查显示她的胎儿受到了严重伤害。https://www.washingtonpost.com/news/to-your-health/wp/2016/03/30/why-ultrasounds-may-give-mothers-with-zika-a-false-sense-of-security/?utm_term=.b991518f47aa［WebCite缓存］
利塔瓦R，库拉尼I，恩尼斯FA。人IgG Fc受体II介导登革热病毒感染的抗体依赖性增强。中华免疫学杂志1990;14(8):393 - 398。［Medline］
传染病研究与政策中心。实验室发现提示，登革热抗体会加剧寨卡病毒感染。http://www.cidrap.umn.edu/news-perspective/2016/04/lab-findings-hint-dengue-antibodies-intensify-zika-infection[访问日期:2018-05-13][WebCite缓存］
Paul LM, Carlin ER, Jenkins MM, Tan AL, barcelona CM, Nicholson CO，等。登革热病毒抗体增强寨卡病毒感染。中华临床医学杂志，2016;5(12):e117 [j]免费全文] [CrossRef] [Medline］
波拉德。炭疽袭击前后公众对生物恐怖主义信息来源的看法:对国家调查数据的分析。卫生通讯杂志2003;8(增刊1):93-103。［CrossRef] [Medline］
刘建军，刘建军，李建军，等。科学指导，2007。影响启发式URL:https://linkinghub.elsevier.com/retrieve/pii/S0377221705003577[访问日期:2019-05-10][WebCite缓存］
分类高致病性微生物学术研究的隐藏面孔。感染与遗传进化2015;29:26-34 [j]免费全文] [CrossRef] [Medline］
马建平，李建平。灾难恢复中的公共风险沟通:基于生物净化实验的结果。2013年发表于:澳大利亚政治研究协会年会;2013;澳大利亚珀斯。
韦克菲尔德A, Murch S, Anthony A, Linnell J, Casson D, Malik M，等。儿童的回肠淋巴结节增生、非特异性结肠炎和广泛性发育障碍。柳叶刀1998年12月28日;351(9103):637-641。［Medline］
特珀曼J, Traum D, Narayanan S.南加州大学。2006。是的，正确的:讽刺识别的口语对话系统https://sail.usc.edu/publications/files/tepperman_interspeech_2006b.pdf[访问日期:2019-05-14][WebCite缓存］
González-Ibánez R, Muresan S, Wacholder N.识别推特中的讽刺:近距离观察。2011年发表于:第49届计算语言学协会年会:人类语言技术;2011;俄勒冈州的波特兰。
唐杰，孟志，阮鑫，梅青，张敏。基于后验收缩分析的话题建模限制因素研究。2014年发表于:国际机器学习会议;2014年6月21日至26日;北京,中国。
国立卫生研究院，2018。美国国立卫生研究院开始寨卡病毒减毒活疫苗临床试验https://www.nih.gov/news-events/news-releases/nih-begins-clinical-trial-live-attenuated-zika-vaccine[访问日期:2019-03-12][WebCite缓存］
刘建军，刘建军，刘建军，等。先前存在的抗黄病毒免疫增强寨卡病毒的发病机制。Science 2017 12月14日;356(6334):175-180 [免费全文] [CrossRef] [Medline］

‎

正面:锁定增强

ASCII码:美国信息交换标准代码

CBOW:连续词袋

疾病预防控制中心:疾病控制和预防中心

LDA:潜在狄利克雷分配

核磁共振成像:磁共振成像

中移动:研究问题

人:世界卫生组织

3 d:三维

桑切斯编辑;提交13.05.18;由法哈德卢、高希博士进行同行评议;对作者的评论14.09.18;收到08.11.18修订版本;接受16.04.19;发表04.06.19

©Ravali Mamidi, Michele Miller, Tanvi Banerjee, William Romine, Amit Sheth。原发表于JMIR公共卫生与监测(http://publichealth.www.mybigtv.com)， 2019年6月4日。

这是一篇根据知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR公共卫生与监测上，并适当引用。必须包括完整的书目信息，到http://publichealth.www.mybigtv.com上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

识别推特上带有负面情绪的关键话题:关于2015-2016年寨卡疫情的见解

识别推特上带有负面情绪的关键话题:关于2015-2016年寨卡疫情的见解

原始论文

通讯作者:

摘要

关键字

介绍

背景

相关的工作

研究目的

方法

数据收集

数据注释分析(寻址RQ1a)

预处理

词嵌入(特征提取)

模型

语法模型

Word2vec模型

分类性能(寻址RQ1b)

专题分析(解决RQ2)

结果

数据注释分析(寻址RQ1a)

分类性能(寻址RQ1b)

专题分析(解决RQ2)

主题从积极和中性的情绪

话题来自消极情绪

讨论

分类分析

主题模型

神经缺陷

Zika病毒异常

超声波

登革热协会

如何解决这些问题

限制

结论

未来的工作

利益冲突

参考文献

缩写