发表在第9卷第5期(2021年):5月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/23305,首次出版
提高在线新闻文章流感爆发预测的有效训练数据提取方法:深度学习模型研究

提高在线新闻文章流感爆发预测的有效训练数据提取方法:深度学习模型研究

提高在线新闻文章流感爆发预测的有效训练数据提取方法:深度学习模型研究

原始论文

1韩国首尔延世大学信息研究生院

2祥明大学计算机科学系,首尔,韩国

通讯作者:

Jong Wook Kim博士

计算机科学系

祥明大学

钟路区洪集门2吉20号

首尔,03016

大韩民国

电话:82 027817590

传真:82 0222870072

电子邮件:jkim@smu.ac.kr


背景:全球每年有300万至500万人感染流感,造成29万至65万人死亡。为了减少流感造成的死亡,一些国家建立了流感监测系统,以收集早期预警数据。然而,由于实际疾病暴发和监测数据的公布之间有1至2周的延迟,因而妨碍了适当和及时的警告。为了解决这一问题,人们提出了利用实时互联网数据(如搜索查询、微博和新闻)进行流感监测和预测的新方法。目前流行的一些方法提取在线数据,并使用机器学习以分类模式预测流感的发生。然而,这些方法很多都是主观提取训练数据,很难正确捕捉数据的潜在特征。迫切需要设计新的方法,通过反映数据的潜在特征来专注于提取训练数据。

摘要目的:在本文中,我们提出了一种有效的方法,通过在预测之前只过滤和选择与流感相关的关键词,以反映隐藏特征的方式提取训练数据,并提高性能。

方法:尽管词嵌入通过编码各种标记之间的隐藏关系来提供单词的分布式表示,但我们通过选择与流感爆发相关的关键字并使用Pearson相关系数对提取的关键字进行排序来增强词嵌入,以便仅保留与实际流感爆发高度相关的标记。关键词提取过程之后是基于长短期记忆的预测模型,该模型预测流感爆发。为了评估所提出的预测模型的性能,我们使用并比较了各种单词嵌入技术。

结果:当平均选取50.2个关键词时,不采用我们提出的排序方法的词嵌入预测精度为0.8705。相反,使用我们提出的排序过程的词嵌入显示了0.8868的预测精度,预测精度提高了12.6%,尽管选择的训练数据量更小,平均只有20.6个关键词。

结论:排序阶段增强了嵌入过程,这改进了特征提取过程,因为它充当了预测组件的知识库。该模型优于目前其他在预测前使用平面提取的方法。

JMIR Med Inform 2021;9(5):e23305

doi: 10.2196/23305

关键字



流感是一种高度传染性疾病,每年影响全球300万至500万人,导致29万至65万人死亡[1].为了追踪和应对其影响,各国都建立了流感监测系统,如欧洲的欧洲流感监测计划和美国的疾病控制和预防中心。这些机制提供了临床数据,如因流感样疾病(ILI)就诊的医生。然而,由于此类信息大约延迟2周才能获得,因此无法正确提取可采取行动的见解。为了解决这一问题,信息流行病学领域的研究[23.一直在试图从基于互联网的数据中获得对疾病的新颖而有效的见解。因此,最近在信息流行病学方面的各种研究试图通过使用云数据(如在线新闻文章和社交网络服务)实时监测流感来阻止这种时间延迟,以预测即将发生的爆发[4-9].

基于搜索查询的流感预测系统已展开重要研究,包括谷歌流感趋势[1011],其中谷歌利用搜索查询提供流感监测和预测服务[21012-16].作为预测流感爆发的潜在数据来源,Twitter最近受到了极大的关注。利用推文预测流感的研究数量成倍增加,它们已经达到了中等准确的预测精度[17-23].通过社交网络数据(如Twitter)预测快速传播的疫情的优势是人们可以分享新闻的速度,因此提供了一个迅速使用分析系统预测严重疫情的机会。然而,由于无法捕捉数据的固有特征,各种障碍(如搜索查询数据的隐私问题)阻碍了实时预测[24].此外,这些推文是由业余用户创建的,由于写作标准差、排版错误、使用行话表达和无意义的内容,很容易产生噪音[1925].

以前的研究使用这些网络数据来监测流感爆发并提高预测性能,但问题是使用哪些数据取决于实验者的主观选择[210182627].由于这些缺点,任何利用这些数据的机器学习方法的性能都依赖于对数据的细致提取和对关键潜在特征的提取。由于训练数据是基于关键词从互联网上提取出来的,因此选择能完美反映数据潜在特征的流感相关关键词很重要[101826].在之前的研究中,通过计算每个词与流感相关标记之间的相关性来选择关键词[10],直接过滤所有与流感有关的词语[1925],或提取所有主观上与流感有关的词语[27].计算所有单词的相关性是选择关键字的最有效方法,这些关键字可以恰当地捕捉数据的隐藏特征。然而,这种方法需要大量的时间,因为必须计算大量的相关系数。另一方面,通过筛选直接涉及流感或被主观定义为与流感相关的词来选择关键词,即使这种方法相对较快,也无法捕捉到根深蒂固的特征。

为了解决这些问题,我们提出了一种结合词嵌入[28-32]的余弦相似度,使用分布式向量仅捕获与流感高度相关的词向量。过滤之后是排序过程,根据这些关键字与实际流感爆发的关系对它们进行排序。为了评估排序过程对嵌入的影响,我们应用了长短期记忆(LSTM) [33预测即将到来的流感爆发的预测模型。

词嵌入是一种基于自然语言处理的特征提取技术,它包括建立单词的分布式表示。重要的是,从词嵌入生成的特征可以捕获标记之间的上下文。然而,在流感的情况下,仅使用通过词嵌入获得的特征会导致包含不必要标记的大向量空间,并降低预测性能。为了减少预测阶段需要考虑的标记数量,余弦相似度函数通过选择流感相关特征的相似度赋予词嵌入能力。

在过滤了与流感关键词相关的令牌的特征后,确定用于预测模型的最佳训练数据量以提高其性能也很重要。为了在词嵌入和余弦相似度选取的关键词中优先使用与流感疫情高度相关的关键词,对这些关键词进行皮尔逊相关系数(PCC)排序[34]在实际流感爆发关键字和提取的训练数据特征之间。排序阶段的最终目的是确保在训练过程中,只有与真实特征高度相关的特征才会输入到预测模型中。排序减少了LSTM模型训练过程中的误差,方便了优化过程。该模型使用细粒度特征进行训练,排序过程大大提高了LSTM预测模型的性能。为了评估嵌入过程的效果,评估了各种嵌入方法。

我们比较了所使用的关键字排序和未排序时模型的性能。为了评估性能,我们记录了均方根误差(RMSE)。FastText连续词袋(CBOW)在关键词排序后的PCC为0.8986,RMSE为0.0090,优于其他嵌入方案。


网上新闻

在线新闻文章为预测流行性疾病(如流感)提供了丰富的机会。然而,仅根据“流感”代币的存在提取的新闻文章并不能捕捉到新闻中隐藏的见解。出现这种情况的主要原因是存在噪音令牌,例如与流感无关的广告内容。为了反映数据的特征,在关键词选择之前,我们使用了一个有效的嵌入阶段来捕捉单词之间的潜在关系。此外,为了在选定的关键词中优先使用与流感爆发最相关的关键词,我们根据流感实际爆发情况和含有该关键词的新闻文章比例,根据PCC对其进行排序。并对提取的关键词进行分类模型训练。

总体方法的主要组成部分

在本节中,我们将介绍整个方法,包括4个主要部分:(1)标记化和词嵌入,(2)通过余弦相似度选择流感相关关键词,(3)提取流感相关新闻并将其转换为时间序列数据,以及(4)训练和分类。图1描述模型的以下4个组件。

图1。系统架构。LSTM:长短期记忆。
查看此图
标记化和词嵌入

出现在新闻文章中的各种标记与文章的分类没有语义或语法关系。像“at”和“in”这样的词或像“many”和“very”这样的副词都是填充词,在嵌入过程之前必须删除。因此,这些停止词被剥离。为了只使用名词作为与流感相关的单词,使用语素分析器KoNLPy[提供的Mecab类执行标记化。35].标记化的文章被馈送到一个嵌入模块,该模块建立输入标记的分布式表示。

图1,给定由令牌组成的输入文章,嵌入过程的目标是以分布式矩阵的形式学习每个标记的分布式特征表示,,在那里n表示令牌和的数量d表示嵌入大小。嵌入矩阵的结构使得表示相关标记的特征之间的余弦相似度更高。生成的向量具有相同的维数,从而便于训练过程。

在这里,W学习产生上下文向量的隐藏向量W '它在表示给定单词时考虑其他单词。给定输入单词,W,对应的词向量inW(表示为vwi)生成对应的上下文向量W '(表示为).嵌入输出层使用一个softmax函数来估计概率,,生成输出字WoW通过上下文向量如下所示:

分配给每个单词的向量使用向量之间的距离来捕获单词之间的关系。利用所得到的嵌入向量之间的余弦相似度来表示词与词之间的相似度是可行的。例如,嵌入的结果是,“流感”和“打喷嚏”的载体之间的余弦相似度更接近于1,非常接近于“疟疾”和“发烧”之间的相似度。关键超参数在训练过程中设置。嵌入尺寸d表示每个单词的密集向量的长度,窗口大小是同时检查以学习语义关系的单词数。最小计数表示在训练过程中需要考虑的最少单词数,任何出现次数少于这个计数的单词都将被忽略。在我们的实现中,我们将嵌入大小设置为300,窗口大小设置为5,最小计数设置为100。有多种嵌入方法;在本研究中,我们对它们进行了比较,以评估它们在流感检测中的表现。我们比较了Word2Vec skip-gram, Word2Vec CBOW, GloVe, FastText CBOW和FastText skip-gram。

流感相关关键词的选择

我们的模型的主要目标是筛选与流感相关的标记,以用于预测。为此,我们测量了余弦相似度,以建立每个标记与单词“influenza”的接近度。余弦函数应用于上一步中得到的嵌入。余弦相似度是一种利用两个向量之间的余弦来测量两个向量之间相似度的方法。它的值在-1到1之间。用向量法测量相似度的公式W一个特定的词和向量W流感流感的情况如下:

上面的公式表示向量的内积W一个特定的词和向量W流感除以两个带菌者的长度。我们选择n流感相关关键词按高余弦相似度排序。

流感相关新闻的提取及其时序数据转换

在选择流感相关关键词之后,我们同时抽取包含词嵌入选择的关键词和“流感”一词的流感相关新闻文章,以确保新闻文章反映数据的特征。换句话说,通过这个过程提取的新闻文章是只包含“流感”一词的新闻文章的子集。接下来的步骤是将仅包含“流感”一词的新闻文章和同时包含“流感”一词和通过单词嵌入选择的关键词的新闻文章转换为时间序列数据,用作训练集。的n相关的关键字将选取的词嵌入转换为时间序列数据通过以下过程:

在上式中,D (t)中新闻文章的数量t-第一周,然后D (W流感和Rk同时包含“流感”一词和相关关键字的新闻文章的数量是多少Rk.因此,Q(k, t)是指新闻文章中同时包含“流感”和“流感”的比例Rk来自tth。时间序列数据Qk都是数组Q(k, t)对应于每个星期

时间序列数据排序

该模型的另一个关键目标是捕捉新闻报道中的流感趋势与流感实际发生之间的每周匹配。因此,对所获得的时间序列数据进行排序对于渐进式预测和趋势捕获至关重要。时间序列数据使用词嵌入选择的关键字进行提取,其顺序与“流感”一词高度相关。因此,我们根据实际流感爆发和提取的时间序列数据之间的pcc对关键字和时间序列数据进行排序,优先使用与流感爆发最相关的时间序列数据。例如,由于“头痛”是一个与流感症状相关的词,在许多新闻文章中往往与“流感”一起出现,因此为这两个标记生成的嵌入很可能接近于编码“流感”和“头痛”之间的高度关联。但是,由于“头痛”是多种疾病的症状,文中的“头痛”是否指“流感”爆发,可能很难确定。因此,为了有效地训练流感预测,我们应用了一种排序过程,优先使用与流感爆发高度相关的令牌。在这一步之后,我们通过添加排序的时间序列数据来训练(n+1)预测模型依次到仅使用“流感”一词提取的时间序列数据(Q流感).这样做是为了根据额外的训练数据来检查性能的变化,并找到最优的训练数据数量。的输入维数k-th预测模型为k-1,且作为训练数据。

预测LSTM模型的训练

我们建立了一个LSTM模型[33]预测每周ili相关病例。LSTM网络最近被用于各种预测研究,与香草循环神经网络(RNNs)相比表现良好。LSTM网络使用门控机制,帮助它们克服rnn面临的梯度消失问题。LSTM网络可以有效地处理时间序列数据,因为它们可以选择在编码给定的时间步长时忘记或使用哪些过去的信息。双向LSTM [36],最近在自然语言处理领域得到了研究,在流感预测等时间序列预测中表现出比单向LSTM更好的平均性能[37].然而,为了评估所提出的关键字选择过程和根据词嵌入类型的性能,我们使用LSTM训练了一个预测模型,该模型主要用于现有的流感研究[63839].

在训练过程中,我们计算了RMSE损失函数,即预测的ILI病例数与CDC报告的实际病例数之差的平方根。使用Adam优化器对模型进行优化[40],时间步长固定为5,图层大小设置为64。


嵌入模型

为了确定最合适的词嵌入来选择与流感相关的关键词,我们使用5个词嵌入模型:Word2Vec CBOW、Word2Vec skip-gram、GloVe、FastText CBOW和FastText skip-gram选择了100个与流感高度相关的关键词。谘询委员会[34]对提取的关键字进行排序,使只有高度相关的关键字输入LSTM模型进行训练。使用PCC和RMSE评估每个模型的预测精度[41].

实验装置

我们训练每个词嵌入模型来评估其性能。根据最近的趋势,许多研究通过使用预先训练的向量跳过嵌入阶段。虽然预训练的向量是从一个大数据集中获得的,但它们包含许多令牌,并在最近的各种研究中表现出良好的性能。然而,对于英语以外的语言,很难获得有效的预训练嵌入。因此,从2017年9月11日到2019年9月15日,我们收集了大约200万篇新闻文章,收集的数据大小约为761 MB,包含约14万字,如图所示表1表2显示了训练词嵌入和LSTM模型时使用的超参数。Epoch表示重复训练的次数;词嵌入的维数表示表示单词的向量的维数,在LSTM模型中,它表示层的大小。词嵌入的窗口大小是指用于训练的周围单词的数量,最小计数是指用于学习的单词的最小出现次数。LSTM模型的时间步长是指使用多少周的数据进行预测。

表1。用于词嵌入的新闻数据摘要。
参数 价值
时间 2017年9月11日至2019年9月15日
总文章 2093120年
总字节数 761233009年
总条款 142651年
表2。用于词嵌入和长短期记忆模型训练的超参数。
Hyperparameter 字嵌入 长短期记忆模型
时代 10 200
300 64
窗口大小 5 - - - - - -
分钟数 One hundred. - - - - - -
时间步长 - - - - - - 5周

实验结果

图2图6表示从每个词嵌入中选择100个关键词的预测模型的准确性。每个图中的黑色虚线描述了不选择关键字,只使用“流感”,并使用与“流感”一词相关的所有时间序列数据作为输入的情况。此外,对于每个嵌入模式,图中显示了仅使用“流感”一词的时间序列数据的预测模型的PCC和RMSE。在图中,“排序”意味着词嵌入选择的关键字是基于pcc进行排序的,也就是说,关键字是按照它们与流感爆发的相关性进行排序的。“Unsorted”表示关键字没有排序。我们预期排序和未排序方法的准确率都会上升到一定水平,然后随着关键词数量的进一步增加而下降。排序后的结果比未排序的结果具有更好的精度。

图2显示了当使用Word2Vec CBOW为所选关键字添加1到100个时间序列训练数据时,使用PCC和RMSE的LSTM模型的准确性。随着关键词数量的增加,排序方法和未排序方法的准确率都有一定程度的提高,然后随着关键词数量的增加准确率有所下降。排序后的结果比未排序的结果具有更好的精度。在排序方法中,使用22个关键词时,PCC的最大值为0.8951,使用相同数量的关键词时,RMSE的最小值为0.0082。在未排序的情况下,最大PCC为0.8784,有59个关键词,最小RMSE值为0.0095,有19个关键词。排序方法在关键词较少的情况下,准确率较高。当使用与流感爆发高度相关的关键字时,随着关键字数量的增加,准确性显著下降。然而,准确性的下降是使用不太相关的关键字的自然结果。经判断,按照排序顺序加入的训练数据对提高准确率的效果更为积极。

图2。使用Word2Vec连续词袋的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。
查看此图

图3显示了当使用Word2Vec skip-gram为所选关键字添加1到100个时间序列训练数据时,使用PCC和RMSE的LSTM模型的准确性。Word2Vec skip-gram的排序方法和未排序方法的准确率都随着关键词的增加而反复升高和降低。这意味着使用Word2Vec skip-gram选择的关键字与流感爆发的相关性略低于使用Word2Vec CBOW选择的关键字。而在排序方法中,虽然重复增减量较大,但随着关键词数量的进一步增加,有增加到一定程度后再减少的趋势。对于排序后的关键字,8个关键字时PCC最大为0.8942,相同关键字数量时RMSE最小为0.008。在未排序的情况下,PCC最大值为0.8942,关键词为8个,RMSE最小值为0.0089,关键词为9个。

图3。使用Word2Vec跳过图的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。
查看此图

图4显示了当使用GloVe添加1到100个关键字时,使用PCC和RMSE的LSTM模型的准确性。使用GloVe的预测模型精度与使用Word2Vec CBOW的预测模型相似。随着关键词数量的增加,未排序和排序方法的准确性都暂时有所提高。然而,随着关键词数量的进一步增加,准确率逐渐下降。总体而言,该排序方法具有较高的精度。但是,如图所示,当添加的关键字数量很大时,未排序方法和排序方法的准确率是相似的。在排序方法中,最大PCC为0.8783,有29个关键词;最小RMSE为0.009,有22个关键词。在未排序的情况下,14个关键词的最大PCC为0.8467,相同数量关键词的最小RMSE为0.0095。

图4。使用GloVe的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。
查看此图

在使用FastText CBOW为选定的关键字添加1到100个时间序列训练数据时,使用PCC和RMSE的LSTM模型的准确性描述在图5.与使用之前词嵌入的预测模型的准确性相似,排序方法优于未排序方法。该排序方法在34个关键词的情况下,最大PCC为0.8986,在相同数量的关键词下,RMSE最小为0.009。该方法对42个关键词的PCC最大为0.8467,对11个关键词的RMSE最小为0.0095。

图5。使用FastText连续单词袋的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。
查看此图

图6描述了当使用FastText skip-gram为选定的关键字添加1到100个时间序列训练数据时,使用PCC和RMSE的LSTM模型的准确性。未排序和排序方法的总体精度低于迄今为止所涵盖的其他词嵌入方法。这意味着使用FastText跳过图选择的关键字的时间序列数据与实际流感爆发呈负相关。在排序方法中,10个关键词时PCC最大为0.8679,相同关键词数量时RMSE最小为0.009。然而,使用更多关键字的模型比精度最高的模型精度急剧下降。准确率低于仅使用“流感”作为关键字的模型。在未排序的情况下,86个关键词的最大PCC为0.8676,87个关键词的最小RMSE为0.0095。然而,与排序方法相似,精度急剧提高,但显著下降。

图6。使用FastText跳过图的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。
查看此图

分析

在本研究中,我们的目标是在关键词选择后,应用基于pcc的排序来获得最优的词嵌入。我们将使用每种类型的词嵌入训练的LSTM模型的最佳准确性与使用PCC和RMSE选择的关键字的数量进行了比较。我们考虑了两种情况:是否应用基于pc的排序。表3显示了使用不同的词嵌入技术和每次使用的关键词数量的LSTM预测模型的最高准确性。我们发现,排序方法使用更少的关键字,但平均表现更好。这意味着通过排序方法使用与流感爆发高度相关的数据,有效地选择了训练数据,提高了预测模型的平均精度。此外,我们发现在词嵌入技术中,FastText CBOW在PCC方面表现最好,Word2Vec skip-gram在RMSE方面表现最好。使用上下文单词的训练过程是相同的,除了FastText使用子单词信息生成单词向量,而Word2Vec考虑使用完整单词的向量。因此,Word2Vec和FastText在性能上有细微的差异,但可以确认的是它们非常相似。GloVe使用整个文档的统计数据,表现出比其他嵌入技术更低的性能。

表3。不同词嵌入技术下流感预测模型的Pearson相关系数(PCC)和均方根误差(RMSE)
预测模型 关键字数量 RMSE(关键字数量)

未分类的 排序 未分类的 排序
Word2Vec CBOW一个 0.8784 (59) 0.8951 (22) 0.0095 (19) 0.0082 (22)
Word2Vec skip-gram 0.8755 (50) 0.8942 (8) 0.0089 (9) 0.0080 (8)
手套 0.8467 (14) 0.8783 (29) 0.0095 (14) 0.0090 (22)
FastText CBOW 0.8845 (42) 0.8986 (34) 0.0095 (11) 0.0090 (34)
FastText skip-gram 0.8676 (86) 0.8679 (10) 0.0095 (87) 0.0090 (10)
的意思是 0.8705 (50) 0.8868 (21) 0.0094 (28) 0.0086 (19)

一个连续的单词袋。

图7分别为仅使用“流感”时间序列数据(基本LSTM)和使用FastText CBOW的未排序和排序方法的模型预测结果,其PCCs最高(表3).在图7,第18-37周垂直绘制的黑色虚线左侧为使用训练数据集的预测结果,右侧为使用测试数据集的预测结果。使用韩国疾病控制和预防中心ILI数据和仅“流感”的时间序列数据的预测模型很难预测测试数据集中19-5周的流感高峰期。然而,与仅使用单词“influenza”的模型相比,使用FastText CBOW选择的其他关键词的时间序列数据训练的预测模型大大提高了预测精度。此外,FastText CBOW基于PCC对选取的关键词进行排序,并添加时间序列数据的方法优于未排序方法。使用FastText CBOW的未排序和排序方法都预测了训练数据集中包括的第18-1周的流感高峰。然而,这两种方法都不能准确预测测试数据集中第18-52周和第19-5周的流感高峰。这是因为在第二个峰值(18-52)和第三个峰值(19-5)含有“流感”一词的新闻文章比例比第一个峰值(18-1)有所下降,这影响了所有预测模型的性能。

图7。实际流感爆发与预测模型预测结果的比较。CBOW:连续词袋;ILI:流感样疾病;KCDC:韩国疾病控制和预防中心;LSTM:长短期记忆。
查看此图

相关工作

准确和及时地预测流感爆发最近得到了重要的研究关注。许多研究依赖于传统统计方法。高效的方法使用机器学习和来自互联网和社交网络的云数据。

Eysenbach [2他发现流感流行病学数据与谷歌的关键字触发链接点击量密切相关,这是基于许多人使用互联网查找健康信息这一事实。当周点击次数和下周流感病例的PCC为0.91,这比哨点医生报告的ILIs更能预测流感。Eysenbach [2并将“信息流行病学”或“信息流行病学”定义为在互联网上追踪健康信息趋势、传播人们健康信息等一套研究方法。信息流行病学数据的优点是可以实时收集和分析。

金斯伯格等人[10]利用谷歌搜索引擎的搜索查询和美国CDC提供的ILI数据,提出了一个线性回归模型来预测流感。这项研究背后的基本原理是,任何与流感相关的搜索查询的搜索频率都与流感的发生相关。该研究通过计算所有搜索查询的时间序列形式与CDC的ILI值之间的相关性,建立了用于回归模型的候选查询组列表。因此,这些相关搜索查询中的前100个被选择用于训练模型。模型的性能随着高度相关查询的数量的增加而提高。100次查询的准确率有所提高,但45次查询的准确率没有提高。

阿克雷卡等人[19提出了基于社交网络的流感趋势框架,用于监测流感趋势。该研究开发了一个基于自回归和外源性输入的模型,该模型使用推文预测流感警报和ILI的发生。关键词为“流感”、“H1N1”和“猪流感”的推文被定义为与流感相关的推文。支持向量机[42用来排除无意义的推文。该研究得出结论,Twitter数据与ILI率高度相关。

李和卡迪[25)开发了一个使用Twitter和基于马尔可夫网络的概率图形贝叶斯方法预测流感的模型。该方法将流感的发展分为4个阶段:非流行、流行上升、流行静止和流行下降。包含“流感”、“H5N1”、“H5N9”、“猪流感”和“禽流感”等关键词的推文被定义为与流感相关的推文,并使用支持向量机删除不必要的推文。

张等[27]实施了FluOutlook,这是一个在线系统,使用统计回归分析和全球流行和流动模型预测7个国家的流感疫情[4344].该模型基于Influweb [45一个自愿参与的信息收集系统和Twitter。FluOutlook收集了包含40-50个定义的关键字的推文,并根据每个关键字对应的时间序列数据与实际流感发生之间的相关性分配了优先级标志。有限的关键字数量有助于减轻收集的原始推文中包含的噪声的影响。

这些最近的流感预测研究使用搜索查询和微博(如Twitter)进行实时预测。但是,搜索引擎(如谷歌)提供的搜索查询不能用于实时预测,因为很难推断出准确的搜索趋势。此外,如前所述,Twitter和其他社交平台容易产生噪音。另一方面,基于网络的新闻数据对噪声的脆弱性较小,最近已被一些预测研究采用[46-48].这些新闻数据的优势在于实时在线可访问性和严格的专业编辑。

在从互联网上提取训练数据时要考虑的一个关键方面是关键字的选择。各种研究计算了所有单词的相关性,或使用直接表明流感或主观选择的关键词。计算每个代币的相关系数被认为是最好的方法。但是,它需要大量的计算资源和训练时间。直接或主观选择流感相关关键字不能推广到各个数据集,因为提取数据集的固有特征具有挑战性。因此,在选择关键字时,通过反映数据的潜在特征来选择相关关键字的方法对模型进行了很大的改进。

各种研究还将词嵌入作为一种特征提取方法,通过建立每个标记的分布式表示来从文本中捕获语义和上下文方面。

Mikolov等[2930.]提出了word2vec模型,该模型使用浅神经网络通过计算同现概率为每个单词分配分布式向量。利用分配假设[49],概率的计算使得意义相近的单词或可能在某个上下文窗口中一起出现的单词在向量空间中是相近的。该模型由两种不同的学习范式组成:跳跃式学习和CBOW学习。为了构建分布式向量,skip-gram从目标词中学习上下文词出现的概率,而CBOW从上下文词中学习目标词出现的概率。

Word2Vec忽略全局信息,在上下文中的单词之间使用局部信息(上下文窗口)。因此,Pennington等人[31手套,它通过使用目标单词在整个文档中与其他单词一起出现的比例,为每个单词分配一个向量。

Word2Vec的另一个关键限制是它忽略了单词的内部形态,无法捕获稀有单词的适当向量。为了解决这一限制,Joulin等人[32]提出了FastText,它考虑每个单词的子词。FastText没有将单个单词输入神经网络,而是将它们分解为n-gram,并使用skip-gram来学习每个子单词的分布式表示。一个不同单词的最终表示形式是这些n-gram的和。

局限性和未来工作

在从新闻文章中预测流感时,我们使用词嵌入来寻找与流感相关的单词,并根据它们与实际流感爆发的关联对它们进行排序,有效地提取训练数据,提高预测的准确性。然而,我们的研究存在以下局限性,需要进一步的研究。首先,我们需要检查我们的方法是否适用于新闻文章以外的新数据集。最近,人们利用各种数据研究流感预测[3850-53].因此,有必要研究我们的方法在应用于最近最先进的研究中使用的不同数据集时是否能提高性能。在这项研究中,我们专注于改进训练数据的表示,而不是学习方案。因此,我们使用了标准的、未经修改的LSTM模型,该模型广泛用于现有的流感预测研究[63839].然而,目前正在进行研究,以改变最先进的流感预测中的标准LSTM模型[5455]或应用在其他领域表现更好的预测模型[5657].因此,有必要研究我们的方法在应用于标准LSTM模型以外的预测模型时是否能带来性能的提高。第三,我们使用词嵌入来提取用于训练数据提取的候选关键字,但我们需要看看即使使用其他关键字提取方法,我们的排序过程是否可以提高性能。

结论

本文提出了一种有效的训练数据提取方法,以提高从新闻文章中预测流感的能力。通过提取方法选择的输入数据对与流感相关的关键词之间的关系进行编码。随后,根据这些数据与实际流感爆发的关系对其进行筛选。这一过程是通过基于PCCs对所选关键字进行排序来确保的,这些关键字在实际流感爆发和包含这些关键字的新闻文章的比例之间进行排序。仅使用“流感”一词对提取数据进行训练的预测模型不能反映所收集数据的特征;因此,它表现出令人不满意的性能。但是,由于在通过本文方法提取的数据上训练的预测模型反映了数据的特征,因此证实了性能的极大提高。我们还将预测模型的性能与5种流行的词嵌入技术进行了比较。实验结果表明,FastText CBOW算法在未排序和已排序关键词的嵌入中均优于其他算法。

致谢

这项工作得到了韩国政府NRF2019R1F1A1058058资助的韩国国家研究基金会的资助。

利益冲突

没有宣布。

  1. 流感(季节性)。世界卫生组织2018年11月6日。URL:https://www.who.int/news-room/fact-sheets/detail/influenza-(季节性)[2020-05-10]访问
  2. 信息流行病学:在网上跟踪流感相关搜索以进行症状监测。美国医学信息学协会;2006年发表于:AMIA年度研讨会论文集;11月;华盛顿,第244页。
  3. 信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架,用于分析互联网上的搜索、传播和发布行为。J Med Internet Res 2009年3月27日;11(1):e11 [免费全文] [CrossRef] [Medline
  4. 桑蒂兰娜M,阮AT, Dredze M,保罗MJ, Nsoesie EO, Brownstein JS。结合搜索、社交媒体和传统数据源来改善流感监测。公共科学图书馆计算生物学2015年10月;11(10):e1004513 [免费全文] [CrossRef] [Medline
  5. 王琳。利用Twitter预测传染病传播:以流感为例。: IEEE计算机学会;2012年发表于:2012第五届并行架构、算法与编程国际研讨会;12月;华盛顿西北部,哥伦比亚特区,第100-105页。[CrossRef
  6. 刘玲,韩敏,周勇,王艳。LSTM循环神经网络在流感趋势预测中的应用。2018国际生物信息学研究与应用研讨会;6月;中国北京,第259-264页。[CrossRef
  7. A先生,Segre上午,Polgreen下午。在甲型H1N1流感大流行期间,美国使用Twitter追踪疾病活动水平和公众关注。PLoS One 2011 May 04;6(5):e19467 [免费全文] [CrossRef] [Medline
  8. Paul M, Dredze M, Broniatowski D,大方N.通过twitter进行全球流感监测。2015年发表于:AAAI研讨会:WWW与公共卫生情报;1月;帕洛阿尔托,加州。
  9. Achrekar H, Gandhe A, Lazarus R, Yu S, Liu B.利用推特数据预测流感趋势。2011年出席IEEE计算机通信研讨会(INFOCOM WKSHPS);3月;中国上海,第702-707页。[CrossRef
  10. Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.利用搜索引擎查询数据检测流感流行。自然杂志2009年2月19日;457(7232):1012-1014。[CrossRef] [Medline
  11. Cook S, Conrad C, Fowlkes AL, Mohebbi MH. 2009年甲型H1N1流感大流行期间美国谷歌流感趋势表现评估。PLoS One 2011;6(8):e23610 [免费全文] [CrossRef] [Medline
  12. 袁Q, Nsoesie EO,吕波,彭根,朱娜娜R, Brownstein JS。用百度搜索查询监测中国流感流行。科学通报,2013;8(5):e64323 [j]免费全文] [CrossRef] [Medline
  13. Lampos V, Miller AC, Crossan S, Stefansen C.利用搜索查询日志预测流感样疾病率的进展。科学通报2015年8月03日;5:12760 [免费全文] [CrossRef] [Medline
  14. 莫斯R, Zarebski A,道森P,麦考JM。从互联网搜索查询监测数据预测墨尔本流感爆发动态。流感其他呼吸道病毒2016 july;10(4):314-323 [免费全文] [CrossRef] [Medline
  15. Zimmer C, Leuba SI, Yaesoubi R, Cohen T.使用每日互联网搜索查询数据提高了流感流行的实时预测。J R Soc Interface 2018 10月10日;15(147):20180220 [免费全文] [CrossRef] [Medline
  16. 许强,Gel YR, Ramirez LL, Nezafati K,张强,徐坤。基于谷歌搜索查询和统计模型融合的香港流感预测。PLoS One 2017;12(5):e0176690 [免费全文] [CrossRef] [Medline
  17. 爱玛木E, Maskawa S,森田M.推特捕捉流感:使用推特检测流感流行。:计算语言学协会;2011年发表于:2011年自然语言处理经验方法会议论文集;7月;英国苏格兰爱丁堡,1568-1576页。
  18. Culotta A.通过分析Twitter信息来检测流感流行。2010年发表于:第一届社会媒体分析研讨会论文集;7月;华盛顿哥伦比亚特区第115-122页。[CrossRef
  19. 刘彬,刘志刚,刘志刚,刘志刚,刘志刚,刘志刚,刘志刚,刘志刚,刘志刚,刘志刚,刘志刚,刘志刚。2月;维拉莫拉,阿尔加维,葡萄牙,第70页。[CrossRef
  20. Paul MJ, Dredze M, Broniatowski D.推特改善流感预测。PLoS Curr 2014年10月28日;6:当前。暴发。90 b9ed0f59bae4ccaa683a39865d9117 [免费全文] [CrossRef] [Medline
  21. 王峰,王辉,徐凯,Raymond R,田俊,Fuller S,等。基于地理标记推特数据的区域性流感研究。J Med Syst 2016 Aug;40(8):189。[CrossRef] [Medline
  22. 张晓明,张晓明,张晓明,张晓明。基于GIS和机器学习方法的微博流感多尺度监测研究。PLoS One 2016;11(7):e0157734 [免费全文] [CrossRef] [Medline
  23. 格罗弗S, Aujla GS。基于Twitter数据的流感流行预测模型。中国计算机工程学报,2014;26(7):749 - 749。
  24. Lazer D, Kennedy R, King G, Vespignani A.大数据。流感的寓言:大数据分析中的陷阱。科学2014年3月14日;343(6176):1203-1205。[CrossRef] [Medline
  25. 李娟,Cardie C.基于twitter的早期流感检测。arXiv Prepr arXiv 2013:1309.7340。
  26. 金艾克,石志华,吴杰,李华伟,金赫。使用韩文推特追踪和预测人类流感感染。PLoS One 2013;8(7):e69305 [免费全文] [CrossRef] [Medline
  27. 张琦,Gioannini C, Paolotti D, Perra N, Perrotta D, Quaggiotto M,等。社会数据挖掘和季节性流感预测:fluoutlook平台。2015年发表于:数据库中的机器学习和知识发现联合欧洲会议;9月7 - 11;葡萄牙波尔图,第237-240页。[CrossRef
  28. Hinton G.分布式表示。技术报告CMU-CS-84-157 1984:1-31。
  29. 陈凯,陈志强,陈志强。基于向量空间的词表示估计算法。见:学习表征国际会议论文集(ICLR 2013)。2020年3月31日出席:学习表征国际会议(ICLR 2013);2013年5月2-4日;斯科茨代尔,亚利桑那州,第71-77页。[CrossRef
  30. Mikolov T, Sutskever I, Chen K, Corrado G, Dean J.单词和短语的分布式表示及其组合。arXiv:1310.4546预印本发布于2013年10月16日。[CrossRef
  31. 潘宁顿,索彻,马宁。手套:词表示的全局向量。2014年发表于:2014年自然语言处理经验方法会议论文集(EMNLP);10月;卡塔尔多哈,1532-1543页。[CrossRef
  32. Joulin A, Grave E, Bojanowski P, Mikolov T.高效文本分类的技巧包。见:计算语言学协会欧洲分会第15届会议论文集:第2卷,短论文。:计算语言学协会;2017出席:EACL 2017,;2017年4月3日至7日;瓦伦西亚,西班牙。[CrossRef
  33. 张志刚,张志刚。长短期记忆。神经计算1997 11月15日;9(8):1735-1780。[CrossRef] [Medline
  34. 黄Benesty J,陈J, Y,科恩。皮尔森相关系数。见:语音处理中的降噪。纽约:施普林格;2009:1-4。
  35. Park EL, Cho S. KoNLPy: Python中的韩语自然语言处理。2014年发表于:人类与语言技术年会上;10月;韩国春川,第133-136页。
  36. 黄志,徐伟,余凯。序列标记的双向LSTM-CRF模型。arXiv:1508.01991预印本于2015年8月9日在线发布。
  37. 李志刚,李志刚,李志刚。基于ARIMA、LSTM和BiLSTM预测金融时间序列的比较分析。arXiv:1911.09512预印本于2019年11月21日在线发布。
  38. 文娜SR, Tavanaei A, Gottumukkala RN, Raghavan VV, Maida AS, Nichols .一种新的数据驱动的实时流感预测模型。IEEE Access 2019;7:7691-7701。[CrossRef
  39. Volkova S, Ayton E, Porterfield K, Corley CD.利用神经网络和社交媒体预测军队人群的流感样疾病动态。PLoS One 2017;12(12):e0188941 [免费全文] [CrossRef] [Medline
  40. 金玛,巴杰。亚当:一种随机优化方法。2015年发表于:第三届国际学习表征大会;2015;加州圣地亚哥。
  41. 柴婷,drxler RR。均方根误差(RMSE)还是平均绝对误差(MAE)?-文献中反对避免RMSE的论点。geoosci Model Dev 2014 6月30日;7(3):1247-1250。[CrossRef
  42. 朱勇,张勇。支持向量机和Word2vec在文本语义分类中的应用。2015年发表于:2015 IEEE第14届认知信息学与认知计算国际会议;7月;中国北京,第136-140页。[CrossRef
  43. Balcan D, Colizza V, Gonçalves B, Hu H, Ramasco JJ, Vespignani A.多尺度流动网络与传染病的空间传播。中国科学院学报(自然科学版)2009年12月22日;21 (5):366 - 366 [免费全文] [CrossRef] [Medline
  44. 杨晓东,杨晓东,杨晓东,杨晓东,杨晓东。基于gis的传染病空间传播模型研究。中国计算机科学,2010年8月1日;1(3):132-145 [免费全文] [CrossRef] [Medline
  45. Influweb》2020。URL:https://www.influweb.it/[2020-05-07]访问
  46. Shynkevich Y, McGinnity T, Coleman SA, Belatreche A.基于不同类别新闻文章使用多核学习预测医疗保健股票价格的运动。决策支持系统2016年5月;85:74-83。[CrossRef
  47. McGough SF, Brownstein JS, Hawkins JB, Santillana M.结合传统疾病监测与搜索、社交媒体和新闻报道数据预测2016年拉丁美洲寨卡病毒发病率PLoS Negl Trop杂志2017年1月;11(1):e0005295 [免费全文] [CrossRef] [Medline
  48. 刘东,Clemente L, Poirier C, Ding X, Chinazzi M, Davis J,等。更正:中国各省COVID-19疫情的实时预测:使用新型数字数据和机械模型估计的机器学习方法。J Med Internet Res 2020年9月22日;22(9):e23996 [免费全文] [CrossRef] [Medline
  49. 沙尔格伦M.分配假说。医学残障研究2008;20:33-53。
  50. Zimmer C, Leuba SI, Yaesoubi R, Cohen T.使用每日互联网搜索查询数据提高了流感流行的实时预测。J R Soc Interface 2018 10月10日;15(147):20180220 [免费全文] [CrossRef] [Medline
  51. Schneider PP, van Gool CJ, Spreeuwenberg P, Hooiveld M, Donker GA, Barnett DJ,等。使用网络搜索查询监测流感样疾病:探索性回顾性分析,荷兰,2017/18流感季节。欧洲监测2020年5月;25(21):1900221 [免费全文] [CrossRef] [Medline
  52. 薛宏,白勇,胡宏,梁慧。基于Twitter和机器学习方法的区域流感研究。PLoS One 2019;14(4):e0215600 [免费全文] [CrossRef] [Medline
  53. Molaei S, Khansari M, Veisi H, Salehi M.通过分析推特信息预测流感流行的传播。卫生技术2019年3月21日;9(4):517-532。[CrossRef
  54. 朱鑫,付斌,杨勇,马勇,郝杰,陈松,等。基于注意的循环神经网络在流感流行预测中的应用。BMC生物信息学2019 11月25日;20(增刊18):575 [免费全文] [CrossRef] [Medline
  55. 张军,张志刚,张志刚。基于调整长短期记忆的流感暴发多步预测方法。流行病感染2018年5月;146(7):809-816 [免费全文] [CrossRef] [Medline
  56. Kondo K, Ishikawa A, Kimura M.基于谷歌趋势的流感流行率预测。2019发表于:2019年第三届计算生物学和生物信息学国际会议论文集;10月;美国纽约,第1-7页。[CrossRef
  57. Wu N, Green B, Ben X, O?时间序列预测的深度变压器模型:流感流行案例。arXiv:2001.08317预印本发布于2020年1月23日。


CBOW:连续bag-of-words
疾病预防控制中心:疾病控制和预防中心
伊犁:流感样疾病
LSTM:长短期记忆
PCC:皮尔逊相关系数
RMSE:均方根误差
RNN:循环神经网络
支持向量机:支持向量机


G·艾森巴赫(G Eysenbach)编辑;提交07.08.20;同行评议:K Edemacu, G Harerimana;对作者23.08.20的评论;订正版本收到13.10.20;接受01.04.21;发表25.05.21

版权

©Beakcheol Jang, Inhwan Kim, Jong Wook Kim。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com), 2021年5月25日。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map