卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMI

JMIR Med Inform

JMIR医学信息学

2291 - 9694

卡塔尔世界杯8强波胆分析

加拿大多伦多

v9i5e23305

34032577

10.2196/23305

原始论文

提高在线新闻文章流感爆发预测的有效训练数据提取方法:深度学习模型研究

Eysenbach

冈瑟

Edemacu

肯尼迪

Harerimana

Gaspard

张成泽

Beakcheol

博士学位 1

https://orcid.org/0000-0002-3911-5935

金

Inhwan

二元同步通信 1

https://orcid.org/0000-0002-2621-386X

金

郑大世钟旭

博士学位 2

计算机科学系祥明大学

钟路区洪集门2吉20号

首尔,03016

大韩民国 82 027817590 82 0222870072 jkim@smu.ac.kr

https://orcid.org/0000-0001-8373-1893

1 信息研究生院延世大学

首尔

大韩民国 2 计算机科学系祥明大学

首尔

大韩民国

通讯作者:Jong Wook Kim jkim@smu.ac.kr

5 2021

25 5 2021

9 5

e23305

7 8 2020 23 8 2020 13 10 2020 1 4 2021

©Beakcheol Jang, Inhwan Kim, Jong Wook Kim。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 2021年5月25日。

2021

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，https://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

全球每年有300万至500万人感染流感，造成29万至65万人死亡。为了减少流感造成的死亡，一些国家建立了流感监测系统，以收集早期预警数据。然而，由于实际疾病暴发和监测数据的公布之间有1至2周的延迟，因而妨碍了适当和及时的警告。为了解决这一问题，人们提出了利用实时互联网数据(如搜索查询、微博和新闻)进行流感监测和预测的新方法。目前流行的一些方法提取在线数据，并使用机器学习以分类模式预测流感的发生。然而，这些方法很多都是主观提取训练数据，很难正确捕捉数据的潜在特征。迫切需要设计新的方法，通过反映数据的潜在特征来专注于提取训练数据。

客观的

在本文中，我们提出了一种有效的方法，通过在预测之前只过滤和选择与流感相关的关键词，以反映隐藏特征的方式提取训练数据，并提高性能。

方法

尽管词嵌入通过编码各种标记之间的隐藏关系来提供单词的分布式表示，但我们通过选择与流感爆发相关的关键字并使用Pearson相关系数对提取的关键字进行排序来增强词嵌入，以便仅保留与实际流感爆发高度相关的标记。关键词提取过程之后是基于长短期记忆的预测模型，该模型预测流感爆发。为了评估所提出的预测模型的性能，我们使用并比较了各种单词嵌入技术。

结果

当平均选取50.2个关键词时，不采用我们提出的排序方法的词嵌入预测精度为0.8705。相反，使用我们提出的排序过程的词嵌入显示了0.8868的预测精度，预测精度提高了12.6%，尽管选择的训练数据量更小，平均只有20.6个关键词。

结论

排序阶段增强了嵌入过程，这改进了特征提取过程，因为它充当了预测组件的知识库。该模型优于目前其他在预测前使用平面提取的方法。

流感训练数据提取关键字排序字嵌入皮尔逊相关系数长短期记忆监测 infodemiology infoveillance 模型

简介

流感是一种高度传染性疾病，每年影响全球300万至500万人，导致29万至65万人死亡[ 1］．为了追踪和应对其影响，各国都建立了流感监测系统，如欧洲的欧洲流感监测计划和美国的疾病控制和预防中心。这些机制提供了临床数据，如因流感样疾病(ILI)就诊的医生。然而，由于此类信息大约延迟2周才能获得，因此无法正确提取可采取行动的见解。为了解决这一问题，信息流行病学领域的研究[ 2， 3.一直在试图从基于互联网的数据中获得对疾病的新颖而有效的见解。因此，最近在信息流行病学方面的各种研究试图通过使用云数据(如在线新闻文章和社交网络服务)实时监测流感来阻止这种时间延迟，以预测即将发生的爆发[ 4- 9］．

基于搜索查询的流感预测系统已展开重要研究，包括谷歌流感趋势[ 10， 11]，其中谷歌利用搜索查询提供流感监测和预测服务[ 2， 10， 12- 16］．作为预测流感爆发的潜在数据来源，Twitter最近受到了极大的关注。利用推文预测流感的研究数量成倍增加，它们已经达到了中等准确的预测精度[ 17- 23］．通过社交网络数据(如Twitter)预测快速传播的疫情的优势是人们可以分享新闻的速度，因此提供了一个迅速使用分析系统预测严重疫情的机会。然而，由于无法捕捉数据的固有特征，各种障碍(如搜索查询数据的隐私问题)阻碍了实时预测[ 24］．此外，这些推文是由业余用户创建的，由于写作标准差、排版错误、使用行话表达和无意义的内容，很容易产生噪音[ 19， 25］．

以前的研究使用这些网络数据来监测流感爆发并提高预测性能，但问题是使用哪些数据取决于实验者的主观选择[ 2， 10， 18， 26， 27］．由于这些缺点，任何利用这些数据的机器学习方法的性能都依赖于对数据的细致提取和对关键潜在特征的提取。由于训练数据是基于关键词从互联网上提取出来的，因此选择能完美反映数据潜在特征的流感相关关键词很重要[ 10， 18， 26］．在之前的研究中，通过计算每个词与流感相关标记之间的相关性来选择关键词[ 10]，直接过滤所有与流感有关的词语[ 19， 25]，或提取所有主观上与流感有关的词语[ 27］．计算所有单词的相关性是选择关键字的最有效方法，这些关键字可以恰当地捕捉数据的隐藏特征。然而，这种方法需要大量的时间，因为必须计算大量的相关系数。另一方面，通过筛选直接涉及流感或被主观定义为与流感相关的词来选择关键词，即使这种方法相对较快，也无法捕捉到根深蒂固的特征。

为了解决这些问题，我们提出了一种结合词嵌入[ 28- 32]的余弦相似度，使用分布式向量仅捕获与流感高度相关的词向量。过滤之后是排序过程，根据这些关键字与实际流感爆发的关系对它们进行排序。为了评估排序过程对嵌入的影响，我们应用了长短期记忆(LSTM) [ 33预测即将到来的流感爆发的预测模型。

词嵌入是一种基于自然语言处理的特征提取技术，它包括建立单词的分布式表示。重要的是，从词嵌入生成的特征可以捕获标记之间的上下文。然而，在流感的情况下，仅使用通过词嵌入获得的特征会导致包含不必要标记的大向量空间，并降低预测性能。为了减少预测阶段需要考虑的标记数量，余弦相似度函数通过选择流感相关特征的相似度赋予词嵌入能力。

在过滤了与流感关键词相关的令牌的特征后，确定用于预测模型的最佳训练数据量以提高其性能也很重要。为了在词嵌入和余弦相似度选取的关键词中优先使用与流感疫情高度相关的关键词，对这些关键词进行皮尔逊相关系数(PCC)排序[ 34]在实际流感爆发关键字和提取的训练数据特征之间。排序阶段的最终目的是确保在训练过程中，只有与真实特征高度相关的特征才会输入到预测模型中。排序减少了LSTM模型训练过程中的误差，方便了优化过程。该模型使用细粒度特征进行训练，排序过程大大提高了LSTM预测模型的性能。为了评估嵌入过程的效果，评估了各种嵌入方法。

我们比较了所使用的关键字排序和未排序时模型的性能。为了评估性能，我们记录了均方根误差(RMSE)。FastText连续词袋(CBOW)在关键词排序后的PCC为0.8986,RMSE为0.0090，优于其他嵌入方案。

方法网上新闻

在线新闻文章为预测流行性疾病(如流感)提供了丰富的机会。然而，仅根据“流感”代币的存在提取的新闻文章并不能捕捉到新闻中隐藏的见解。出现这种情况的主要原因是存在噪音令牌，例如与流感无关的广告内容。为了反映数据的特征，在关键词选择之前，我们使用了一个有效的嵌入阶段来捕捉单词之间的潜在关系。此外，为了在选定的关键词中优先使用与流感爆发最相关的关键词，我们根据流感实际爆发情况和含有该关键词的新闻文章比例，根据PCC对其进行排序。并对提取的关键词进行分类模型训练。

总体方法的主要组成部分

在本节中，我们将介绍整个方法，包括4个主要部分:(1)标记化和词嵌入，(2)通过余弦相似度选择流感相关关键词，(3)提取流感相关新闻并将其转换为时间序列数据，以及(4)训练和分类。图1描述模型的以下4个组件。

图1

系统架构。LSTM:长短期记忆。

标记化和词嵌入

出现在新闻文章中的各种标记与文章的分类没有语义或语法关系。像“at”和“in”这样的词或像“many”和“very”这样的副词都是填充词，在嵌入过程之前必须删除。因此，这些停止词被剥离。为了只使用名词作为与流感相关的单词，使用语素分析器KoNLPy[提供的Mecab类执行标记化。 35］．标记化的文章被馈送到一个嵌入模块，该模块建立输入标记的分布式表示。

如图1，给定由令牌组成的输入文章，嵌入过程的目标是以分布式矩阵的形式学习每个标记的分布式特征表示，,在那里 n表示令牌和的数量 d表示嵌入大小。嵌入矩阵的结构使得表示相关标记的特征之间的余弦相似度更高。生成的向量具有相同的维数，从而便于训练过程。

在这里, W学习产生上下文向量的隐藏向量 W '它在表示给定单词时考虑其他单词。给定输入单词， W_我，对应的词向量in W(表示为 v_wi )生成对应的上下文向量 W '(表示为)．嵌入输出层使用一个softmax函数来估计概率，，生成输出字 W_o 从 W_我通过上下文向量如下所示:

分配给每个单词的向量使用向量之间的距离来捕获单词之间的关系。利用所得到的嵌入向量之间的余弦相似度来表示词与词之间的相似度是可行的。例如，嵌入的结果是，“流感”和“打喷嚏”的载体之间的余弦相似度更接近于1，非常接近于“疟疾”和“发烧”之间的相似度。关键超参数在训练过程中设置。嵌入尺寸 d表示每个单词的密集向量的长度，窗口大小是同时检查以学习语义关系的单词数。最小计数表示在训练过程中需要考虑的最少单词数，任何出现次数少于这个计数的单词都将被忽略。在我们的实现中，我们将嵌入大小设置为300，窗口大小设置为5，最小计数设置为100。有多种嵌入方法;在本研究中，我们对它们进行了比较，以评估它们在流感检测中的表现。我们比较了Word2Vec skip-gram, Word2Vec CBOW, GloVe, FastText CBOW和FastText skip-gram。

流感相关关键词的选择

我们的模型的主要目标是筛选与流感相关的标记，以用于预测。为此，我们测量了余弦相似度，以建立每个标记与单词“influenza”的接近度。余弦函数应用于上一步中得到的嵌入。余弦相似度是一种利用两个向量之间的余弦来测量两个向量之间相似度的方法。它的值在-1到1之间。用向量法测量相似度的公式 W一个特定的词和向量 W_流感流感的情况如下:

上面的公式表示向量的内积 W一个特定的词和向量 W_流感除以两个带菌者的长度。我们选择 n流感相关关键词按高余弦相似度排序。

流感相关新闻的提取及其时序数据转换

在选择流感相关关键词之后，我们同时抽取包含词嵌入选择的关键词和“流感”一词的流感相关新闻文章，以确保新闻文章反映数据的特征。换句话说，通过这个过程提取的新闻文章是只包含“流感”一词的新闻文章的子集。接下来的步骤是将仅包含“流感”一词的新闻文章和同时包含“流感”一词和通过单词嵌入选择的关键词的新闻文章转换为时间序列数据，用作训练集。的 n相关的关键字将选取的词嵌入转换为时间序列数据通过以下过程:

在上式中， D (t)中新闻文章的数量 t-第一周，然后 D (W_流感和R_k）同时包含“流感”一词和相关关键字的新闻文章的数量是多少 R_k ．因此，Q(k, t)是指新闻文章中同时包含“流感”和“流感”的比例 R_k 来自 tth。时间序列数据Q_k都是数组Q(k, t)对应于每个星期．

时间序列数据排序

该模型的另一个关键目标是捕捉新闻报道中的流感趋势与流感实际发生之间的每周匹配。因此，对所获得的时间序列数据进行排序对于渐进式预测和趋势捕获至关重要。时间序列数据使用词嵌入选择的关键字进行提取，其顺序与“流感”一词高度相关。因此，我们根据实际流感爆发和提取的时间序列数据之间的pcc对关键字和时间序列数据进行排序，优先使用与流感爆发最相关的时间序列数据。例如，由于“头痛”是一个与流感症状相关的词，在许多新闻文章中往往与“流感”一起出现，因此为这两个标记生成的嵌入很可能接近于编码“流感”和“头痛”之间的高度关联。但是，由于“头痛”是多种疾病的症状，文中的“头痛”是否指“流感”爆发，可能很难确定。因此，为了有效地训练流感预测，我们应用了一种排序过程，优先使用与流感爆发高度相关的令牌。在这一步之后，我们通过添加排序的时间序列数据来训练(n+1)预测模型依次到仅使用“流感”一词提取的时间序列数据(Q_流感)．这样做是为了根据额外的训练数据来检查性能的变化，并找到最优的训练数据数量。的输入维数 k-th预测模型为k-1，且作为训练数据。

预测LSTM模型的训练

我们建立了一个LSTM模型[ 33]预测每周ili相关病例。LSTM网络最近被用于各种预测研究，与香草循环神经网络(RNNs)相比表现良好。LSTM网络使用门控机制，帮助它们克服rnn面临的梯度消失问题。LSTM网络可以有效地处理时间序列数据，因为它们可以选择在编码给定的时间步长时忘记或使用哪些过去的信息。双向LSTM [ 36]，最近在自然语言处理领域得到了研究，在流感预测等时间序列预测中表现出比单向LSTM更好的平均性能[ 37］．然而，为了评估所提出的关键字选择过程和根据词嵌入类型的性能，我们使用LSTM训练了一个预测模型，该模型主要用于现有的流感研究[ 6， 38， 39］．

在训练过程中，我们计算了RMSE损失函数，即预测的ILI病例数与CDC报告的实际病例数之差的平方根。使用Adam优化器对模型进行优化[ 40]，时间步长固定为5，图层大小设置为64。

结果嵌入模型

为了确定最合适的词嵌入来选择与流感相关的关键词，我们使用5个词嵌入模型:Word2Vec CBOW、Word2Vec skip-gram、GloVe、FastText CBOW和FastText skip-gram选择了100个与流感高度相关的关键词。谘询委员会[ 34]对提取的关键字进行排序，使只有高度相关的关键字输入LSTM模型进行训练。使用PCC和RMSE评估每个模型的预测精度[ 41］．

实验装置

我们训练每个词嵌入模型来评估其性能。根据最近的趋势，许多研究通过使用预先训练的向量跳过嵌入阶段。虽然预训练的向量是从一个大数据集中获得的，但它们包含许多令牌，并在最近的各种研究中表现出良好的性能。然而，对于英语以外的语言，很难获得有效的预训练嵌入。因此，从2017年9月11日到2019年9月15日，我们收集了大约200万篇新闻文章，收集的数据大小约为761 MB，包含约14万字，如图所示表1．表2显示了训练词嵌入和LSTM模型时使用的超参数。Epoch表示重复训练的次数;词嵌入的维数表示表示单词的向量的维数，在LSTM模型中，它表示层的大小。词嵌入的窗口大小是指用于训练的周围单词的数量，最小计数是指用于学习的单词的最小出现次数。LSTM模型的时间步长是指使用多少周的数据进行预测。

表1

用于词嵌入的新闻数据摘要。

参数	价值
时间	2017年9月11日至2019年9月15日
总文章	2093120年
总字节数	761233009年
总条款	142651年

表2

用于词嵌入和长短期记忆模型训练的超参数。

Hyperparameter	字嵌入	长短期记忆模型
时代	10	200
维	300	64
窗口大小	5	- - - - - -
分钟数	One hundred.	- - - - - -
时间步长	- - - - - -	5周

实验结果

图2图6表示从每个词嵌入中选择100个关键词的预测模型的准确性。每个图中的黑色虚线描述了不选择关键字，只使用“流感”，并使用与“流感”一词相关的所有时间序列数据作为输入的情况。此外，对于每个嵌入模式，图中显示了仅使用“流感”一词的时间序列数据的预测模型的PCC和RMSE。在图中，“排序”意味着词嵌入选择的关键字是基于pcc进行排序的，也就是说，关键字是按照它们与流感爆发的相关性进行排序的。“Unsorted”表示关键字没有排序。我们预期排序和未排序方法的准确率都会上升到一定水平，然后随着关键词数量的进一步增加而下降。排序后的结果比未排序的结果具有更好的精度。

图2显示了当使用Word2Vec CBOW为所选关键字添加1到100个时间序列训练数据时，使用PCC和RMSE的LSTM模型的准确性。随着关键词数量的增加，排序方法和未排序方法的准确率都有一定程度的提高，然后随着关键词数量的增加准确率有所下降。排序后的结果比未排序的结果具有更好的精度。在排序方法中，使用22个关键词时，PCC的最大值为0.8951，使用相同数量的关键词时，RMSE的最小值为0.0082。在未排序的情况下，最大PCC为0.8784，有59个关键词，最小RMSE值为0.0095，有19个关键词。排序方法在关键词较少的情况下，准确率较高。当使用与流感爆发高度相关的关键字时，随着关键字数量的增加，准确性显著下降。然而，准确性的下降是使用不太相关的关键字的自然结果。经判断，按照排序顺序加入的训练数据对提高准确率的效果更为积极。

图2

使用Word2Vec连续词袋的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。

图3显示了当使用Word2Vec skip-gram为所选关键字添加1到100个时间序列训练数据时，使用PCC和RMSE的LSTM模型的准确性。Word2Vec skip-gram的排序方法和未排序方法的准确率都随着关键词的增加而反复升高和降低。这意味着使用Word2Vec skip-gram选择的关键字与流感爆发的相关性略低于使用Word2Vec CBOW选择的关键字。而在排序方法中，虽然重复增减量较大，但随着关键词数量的进一步增加，有增加到一定程度后再减少的趋势。对于排序后的关键字，8个关键字时PCC最大为0.8942，相同关键字数量时RMSE最小为0.008。在未排序的情况下，PCC最大值为0.8942，关键词为8个，RMSE最小值为0.0089，关键词为9个。

图3

使用Word2Vec跳过图的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。

图4显示了当使用GloVe添加1到100个关键字时，使用PCC和RMSE的LSTM模型的准确性。使用GloVe的预测模型精度与使用Word2Vec CBOW的预测模型相似。随着关键词数量的增加，未排序和排序方法的准确性都暂时有所提高。然而，随着关键词数量的进一步增加，准确率逐渐下降。总体而言，该排序方法具有较高的精度。但是，如图所示，当添加的关键字数量很大时，未排序方法和排序方法的准确率是相似的。在排序方法中，最大PCC为0.8783，有29个关键词;最小RMSE为0.009，有22个关键词。在未排序的情况下，14个关键词的最大PCC为0.8467，相同数量关键词的最小RMSE为0.0095。

图4

使用GloVe的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。

在使用FastText CBOW为选定的关键字添加1到100个时间序列训练数据时，使用PCC和RMSE的LSTM模型的准确性描述在图5．与使用之前词嵌入的预测模型的准确性相似，排序方法优于未排序方法。该排序方法在34个关键词的情况下，最大PCC为0.8986，在相同数量的关键词下，RMSE最小为0.009。该方法对42个关键词的PCC最大为0.8467，对11个关键词的RMSE最小为0.0095。

图5

使用FastText连续单词袋的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。

图6描述了当使用FastText skip-gram为选定的关键字添加1到100个时间序列训练数据时，使用PCC和RMSE的LSTM模型的准确性。未排序和排序方法的总体精度低于迄今为止所涵盖的其他词嵌入方法。这意味着使用FastText跳过图选择的关键字的时间序列数据与实际流感爆发呈负相关。在排序方法中，10个关键词时PCC最大为0.8679，相同关键词数量时RMSE最小为0.009。然而，使用更多关键字的模型比精度最高的模型精度急剧下降。准确率低于仅使用“流感”作为关键字的模型。在未排序的情况下，86个关键词的最大PCC为0.8676,87个关键词的最小RMSE为0.0095。然而，与排序方法相似，精度急剧提高，但显著下降。

图6

使用FastText跳过图的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。

分析

在本研究中，我们的目标是在关键词选择后，应用基于pcc的排序来获得最优的词嵌入。我们将使用每种类型的词嵌入训练的LSTM模型的最佳准确性与使用PCC和RMSE选择的关键字的数量进行了比较。我们考虑了两种情况:是否应用基于pc的排序。表3显示了使用不同的词嵌入技术和每次使用的关键词数量的LSTM预测模型的最高准确性。我们发现，排序方法使用更少的关键字，但平均表现更好。这意味着通过排序方法使用与流感爆发高度相关的数据，有效地选择了训练数据，提高了预测模型的平均精度。此外，我们发现在词嵌入技术中，FastText CBOW在PCC方面表现最好，Word2Vec skip-gram在RMSE方面表现最好。使用上下文单词的训练过程是相同的，除了FastText使用子单词信息生成单词向量，而Word2Vec考虑使用完整单词的向量。因此，Word2Vec和FastText在性能上有细微的差异，但可以确认的是它们非常相似。GloVe使用整个文档的统计数据，表现出比其他嵌入技术更低的性能。

表3

不同词嵌入技术下流感预测模型的Pearson相关系数(PCC)和均方根误差(RMSE)

预测模型	关键字数量		RMSE(关键字数量)
	未分类的	排序	未分类的	排序
Word2Vec CBOW^一个	0.8784 (59)	0.8951 (22)	0.0095 (19)	0.0082 (22)
Word2Vec skip-gram	0.8755 (50)	0.8942 (8)	0.0089 (9)	0.0080 (8)
手套	0.8467 (14)	0.8783 (29)	0.0095 (14)	0.0090 (22)
FastText CBOW	0.8845 (42)	0.8986 (34)	0.0095 (11)	0.0090 (34)
FastText skip-gram	0.8676 (86)	0.8679 (10)	0.0095 (87)	0.0090 (10)
的意思是	0.8705 (50)	0.8868 (21)	0.0094 (28)	0.0086 (19)

^一个连续的单词袋。

图7分别为仅使用“流感”时间序列数据(基本LSTM)和使用FastText CBOW的未排序和排序方法的模型预测结果，其PCCs最高( 表3)．在图7，第18-37周垂直绘制的黑色虚线左侧为使用训练数据集的预测结果，右侧为使用测试数据集的预测结果。使用韩国疾病控制和预防中心ILI数据和仅“流感”的时间序列数据的预测模型很难预测测试数据集中19-5周的流感高峰期。然而，与仅使用单词“influenza”的模型相比，使用FastText CBOW选择的其他关键词的时间序列数据训练的预测模型大大提高了预测精度。此外，FastText CBOW基于PCC对选取的关键词进行排序，并添加时间序列数据的方法优于未排序方法。使用FastText CBOW的未排序和排序方法都预测了训练数据集中包括的第18-1周的流感高峰。然而，这两种方法都不能准确预测测试数据集中第18-52周和第19-5周的流感高峰。这是因为在第二个峰值(18-52)和第三个峰值(19-5)含有“流感”一词的新闻文章比例比第一个峰值(18-1)有所下降，这影响了所有预测模型的性能。

图7

实际流感爆发与预测模型预测结果的比较。CBOW:连续词袋;ILI:流感样疾病;KCDC:韩国疾病控制和预防中心;LSTM:长短期记忆。

讨论相关工作

准确和及时地预测流感爆发最近得到了重要的研究关注。许多研究依赖于传统统计方法。高效的方法使用机器学习和来自互联网和社交网络的云数据。

Eysenbach [ 2他发现流感流行病学数据与谷歌的关键字触发链接点击量密切相关，这是基于许多人使用互联网查找健康信息这一事实。当周点击次数和下周流感病例的PCC为0.91，这比哨点医生报告的ILIs更能预测流感。Eysenbach [ 2并将“信息流行病学”或“信息流行病学”定义为在互联网上追踪健康信息趋势、传播人们健康信息等一套研究方法。信息流行病学数据的优点是可以实时收集和分析。

金斯伯格等人[ 10]利用谷歌搜索引擎的搜索查询和美国CDC提供的ILI数据，提出了一个线性回归模型来预测流感。这项研究背后的基本原理是，任何与流感相关的搜索查询的搜索频率都与流感的发生相关。该研究通过计算所有搜索查询的时间序列形式与CDC的ILI值之间的相关性，建立了用于回归模型的候选查询组列表。因此，这些相关搜索查询中的前100个被选择用于训练模型。模型的性能随着高度相关查询的数量的增加而提高。100次查询的准确率有所提高，但45次查询的准确率没有提高。

阿克雷卡等人[ 19提出了基于社交网络的流感趋势框架，用于监测流感趋势。该研究开发了一个基于自回归和外源性输入的模型，该模型使用推文预测流感警报和ILI的发生。关键词为“流感”、“H1N1”和“猪流感”的推文被定义为与流感相关的推文。支持向量机[ 42用来排除无意义的推文。该研究得出结论，Twitter数据与ILI率高度相关。

李和卡迪[ 25)开发了一个使用Twitter和基于马尔可夫网络的概率图形贝叶斯方法预测流感的模型。该方法将流感的发展分为4个阶段:非流行、流行上升、流行静止和流行下降。包含“流感”、“H5N1”、“H5N9”、“猪流感”和“禽流感”等关键词的推文被定义为与流感相关的推文，并使用支持向量机删除不必要的推文。

张等[ 27]实施了FluOutlook，这是一个在线系统，使用统计回归分析和全球流行和流动模型预测7个国家的流感疫情[ 43， 44］．该模型基于Influweb [ 45一个自愿参与的信息收集系统和Twitter。FluOutlook收集了包含40-50个定义的关键字的推文，并根据每个关键字对应的时间序列数据与实际流感发生之间的相关性分配了优先级标志。有限的关键字数量有助于减轻收集的原始推文中包含的噪声的影响。

这些最近的流感预测研究使用搜索查询和微博(如Twitter)进行实时预测。但是，搜索引擎(如谷歌)提供的搜索查询不能用于实时预测，因为很难推断出准确的搜索趋势。此外，如前所述，Twitter和其他社交平台容易产生噪音。另一方面，基于网络的新闻数据对噪声的脆弱性较小，最近已被一些预测研究采用[ 46- 48］．这些新闻数据的优势在于实时在线可访问性和严格的专业编辑。

在从互联网上提取训练数据时要考虑的一个关键方面是关键字的选择。各种研究计算了所有单词的相关性，或使用直接表明流感或主观选择的关键词。计算每个代币的相关系数被认为是最好的方法。但是，它需要大量的计算资源和训练时间。直接或主观选择流感相关关键字不能推广到各个数据集，因为提取数据集的固有特征具有挑战性。因此，在选择关键字时，通过反映数据的潜在特征来选择相关关键字的方法对模型进行了很大的改进。

各种研究还将词嵌入作为一种特征提取方法，通过建立每个标记的分布式表示来从文本中捕获语义和上下文方面。

Mikolov等[ 29， 30.]提出了word2vec模型，该模型使用浅神经网络通过计算同现概率为每个单词分配分布式向量。利用分配假设[ 49]，概率的计算使得意义相近的单词或可能在某个上下文窗口中一起出现的单词在向量空间中是相近的。该模型由两种不同的学习范式组成:跳跃式学习和CBOW学习。为了构建分布式向量，skip-gram从目标词中学习上下文词出现的概率，而CBOW从上下文词中学习目标词出现的概率。

Word2Vec忽略全局信息，在上下文中的单词之间使用局部信息(上下文窗口)。因此，Pennington等人[ 31手套，它通过使用目标单词在整个文档中与其他单词一起出现的比例，为每个单词分配一个向量。

Word2Vec的另一个关键限制是它忽略了单词的内部形态，无法捕获稀有单词的适当向量。为了解决这一限制，Joulin等人[ 32]提出了FastText，它考虑每个单词的子词。FastText没有将单个单词输入神经网络，而是将它们分解为n-gram，并使用skip-gram来学习每个子单词的分布式表示。一个不同单词的最终表示形式是这些n-gram的和。

局限性和未来工作

在从新闻文章中预测流感时，我们使用词嵌入来寻找与流感相关的单词，并根据它们与实际流感爆发的关联对它们进行排序，有效地提取训练数据，提高预测的准确性。然而，我们的研究存在以下局限性，需要进一步的研究。首先，我们需要检查我们的方法是否适用于新闻文章以外的新数据集。最近，人们利用各种数据研究流感预测[ 38， 50- 53］．因此，有必要研究我们的方法在应用于最近最先进的研究中使用的不同数据集时是否能提高性能。在这项研究中，我们专注于改进训练数据的表示，而不是学习方案。因此，我们使用了标准的、未经修改的LSTM模型，该模型广泛用于现有的流感预测研究[ 6， 38， 39］．然而，目前正在进行研究，以改变最先进的流感预测中的标准LSTM模型[ 54， 55]或应用在其他领域表现更好的预测模型[ 56， 57］．因此，有必要研究我们的方法在应用于标准LSTM模型以外的预测模型时是否能带来性能的提高。第三，我们使用词嵌入来提取用于训练数据提取的候选关键字，但我们需要看看即使使用其他关键字提取方法，我们的排序过程是否可以提高性能。

结论

本文提出了一种有效的训练数据提取方法，以提高从新闻文章中预测流感的能力。通过提取方法选择的输入数据对与流感相关的关键词之间的关系进行编码。随后，根据这些数据与实际流感爆发的关系对其进行筛选。这一过程是通过基于PCCs对所选关键字进行排序来确保的，这些关键字在实际流感爆发和包含这些关键字的新闻文章的比例之间进行排序。仅使用“流感”一词对提取数据进行训练的预测模型不能反映所收集数据的特征;因此，它表现出令人不满意的性能。但是，由于在通过本文方法提取的数据上训练的预测模型反映了数据的特征，因此证实了性能的极大提高。我们还将预测模型的性能与5种流行的词嵌入技术进行了比较。实验结果表明，FastText CBOW算法在未排序和已排序关键词的嵌入中均优于其他算法。

缩写

CBOW

连续bag-of-words

疾病预防控制中心

疾病控制和预防中心

伊犁

流感样疾病

LSTM

长短期记忆

PCC

皮尔逊相关系数

RMSE

均方根误差

RNN

循环神经网络

支持向量机

这项工作得到了韩国政府NRF2019R1F1A1058058资助的韩国国家研究基金会的资助。

没有宣布。

流感(季节性)

世界卫生组织 2018 11 06

2020-05-10

https://www.who.int/news-room/fact-sheets/detail/influenza-(季节性)

Eysenbach

信息流行病学:追踪网络上与流感相关的搜索，以进行症状监测

2006

AMIA年度研讨会论文集

11月

华盛顿特区

美国医学信息学协会

244

Eysenbach

信息流行病学和信息监测:一套新兴的公共卫生信息学方法的框架，用于分析互联网上的搜索、传播和发布行为

J医疗互联网服务 2009 03 27 11 1 e11

10.2196 / jmir.1157

19329408

v11i1e11

PMC2762766

Santillana

米

阮

在

Dredze

米

保罗

乔丹

Nsoesie

布朗斯坦

结合搜索、社交媒体和传统数据源来改善流感监测

PLoS计算生物学 2015 10 11 10 e1004513

10.1371 / journal.pcbi.1004513

26513245

pcompbiol - d - 15 - 00856

PMC4626021

Hirose

王

利用Twitter预测传染病传播:以流感为例

2012

2012第五届并行架构、算法与编程国际研讨会

12月

华盛顿特区西北部

IEEE计算机学会

One hundred. 105

10.1109 / paap.2012.23

刘

汉

米

周

王

用于流感趋势预测的LSTM循环神经网络

2018

生物信息学研究与应用国际研讨会

6月

中国,北京

259 264

10.1007 / 978 - 3 - 319 - 94968 - 0 - _25

年青男子

一个

塞格雷

我

Polgreen

点

在甲型H1N1流感大流行期间，美国使用Twitter追踪疾病活动水平和公众关注

《公共科学图书馆•综合》 2011 05 04 6 5 e19467

10.1371 / journal.pone.0019467

21573238

玉米饼- d - 10 - 02464

PMC3087759

保罗

米

Dredze

米

Broniatowski

慷慨的

通过推特进行全球流感监测

2015

AAAI研讨会:WWW和公共卫生情报

1月

帕洛阿尔托，加州

Achrekar

Gandhe

一个

拉撒路

余

年代

刘

利用推特数据预测流感趋势

2011

IEEE计算机通信研讨会

3月

中国上海

702 707

10.1109 / infcomw.2011.5928903

金斯堡

Mohebbi

帕特尔

布拉姆

Smolinski

女士

才华横溢的

使用搜索引擎查询数据检测流感流行

自然 2009 02 19 457 7232 1012 4

10.1038 / nature07634

19020500

nature07634

烹饪

年代

康拉德

Fowlkes

艾尔

Mohebbi

评估2009年甲型流感病毒(H1N1)大流行期间美国谷歌流感趋势表现

《公共科学图书馆•综合》 2011 6 8 e23610

10.1371 / journal.pone.0023610

21886802

玉米饼- d - 11 - 06712

PMC3158788

元

问

Nsoesie

彭

Chunara

布朗斯坦

用百度搜索查询监测中国流感流行

《公共科学图书馆•综合》 2013 8 5 e64323

10.1371 / journal.pone.0064323

23750192

玉米饼- d - 13 - 00331

PMC3667820

lampo

米勒

交流

Crossan

年代

Stefansen

利用搜索查询日志预测流感样发病率的进展

Sci代表 2015 08 03 5 12760

10.1038 / srep12760

26234783

srep12760

PMC4522652

莫斯

Zarebski

一个

道森

McCaw

从互联网搜索查询监测数据预测墨尔本流感爆发动态

流感其他呼吸道病毒 2016 07 10 4 314 23

10.1111 / irv.12376

26859411

PMC4910172

齐默

Leuba

如果

Yaesoubi

科恩

使用每日互联网搜索查询数据可以改善流感流行的实时预测

J R Soc接口 2018 10 10 15 147 20180220

10.1098 / rsif.2018.0220

30305417

rsif.2018.0220

PMC6228485

徐

问

凝胶

年

拉米雷斯拉米雷斯

噢

Nezafati

张

问

徐

利用谷歌搜索查询和统计模型融合预测香港流感

《公共科学图书馆•综合》 2017 12 5 e0176690

10.1371 / journal.pone.0176690

28464015

玉米饼- d - 17 - 10556

PMC5413039

Aramaki

Maskawa

年代

盛田昭夫

米

Twitter捕捉流感:使用Twitter检测流感流行

2011

2011年自然语言处理经验方法会议论文集

7月

爱丁堡，苏格兰，英国

计算语言学协会

1568 1576

Culotta

一个

通过分析推特信息来检测流感流行

2010

第一届社会媒体分析研讨会论文集

7月

华盛顿哥伦比亚特区

115 122

10.1145/1964858.1964874

Achrekar

Gandhe

一个

拉撒路

余

年代

刘

推特提高了季节性流感预测

2012

Healthinf

2月

维拉莫拉，阿尔加维，葡萄牙

10.5220 / 0003780600610070

20.

保罗

乔丹

Dredze

米

Broniatowski

推特提高流感预测

公共科学图书馆咕咕叫 2014 10 28 6 ecurrents.outbreaks.90b9ed0f59bae4ccaa683a39865d9117

10.1371 / currents.outbreaks.90b9ed0f59bae4ccaa683a39865d9117

25642377

PMC4234396

王

徐

雷蒙德

凯瑟琳·千

富勒

年代

Debruyn

一个

基于地理标记推特数据的区域性流感研究

J医学系统 2016 08 40 8 189

10.1007 / s10916 - 016 - 0545 - y

27372953

10.1007 / s10916 - 016 - 0545 - y

艾伦

祖文萃

Aslam

一个

内格尔

一个

Gawron

应用GIS和机器学习方法对Twitter数据进行多尺度流感监测

《公共科学图书馆•综合》 2016 11 7 e0157734

10.1371 / journal.pone.0157734

27455108

玉米饼- d - 15 - 45457

PMC4959719

格罗弗

年代

Aujla

基于Twitter数据的流感流行预测模型

Int J Adv Res计算公用工程 2014 3. 7 7541 7545

激光冲

肯尼迪

王

Vespignani

一个

大数据。流感的寓言:大数据分析中的陷阱

科学 2014 03 14 343 6176 1203 5

10.1126 / science.1248506

24626916

343/6176/1203

李

羊毛衫,

早期流感检测从twitter

arXiv准备 2013 1309.7340

金

E-K

Seok

哦

李

金

使用韩文推特追踪和预测人类流感感染

《公共科学图书馆•综合》 2013 8 7 e69305

10.1371 / journal.pone.0069305

23894447

玉米饼- d - 12 - 37217

PMC3722273

张

问

Gioannini

Paolotti

Perra

佩罗塔

Quaggiotto

米

Tizzoni

米

Vespignani

一个

社会数据挖掘和季节性流感预测:fluoutlook平台

2015

数据库中的机器学习和知识发现联合欧洲会议

9月7 - 11

葡萄牙的波尔图街头

237 240

10.1007 / 978 - 3 - 319 - 23461 - 8 - _21

辛顿

分布式表示

技术报告CMU-CS-84-157 1984 1 31

Mikolov

陈

柯拉

迪安

向量空间中词表示的有效估计

学习表征国际会议论文集(ICLR 2013) 2020 03 31

2013年国际学习表征会议

2013年5月2-4日

亚利桑那州斯科茨代尔

71 77

10.3126 / jiee.v3i1.34327

30.

Mikolov

Sutskever

我

陈

柯拉

迪安

单词和短语及其组合的分布式表示

arXiv 1310.4546 预印本于2013年10月16日在线发布

10.5040/9781474284974.00399

彭宁顿

Socher

曼宁

手套:用于单词表示的全局向量

2014

2014年自然语言处理经验方法会议论文集

10月

卡塔尔多哈

1532 1543

10.3115 / v1 / d14 - 1162

Joulin

一个

坟墓

Bojanowski

Mikolov

高效文本分类的技巧包

计算语言学协会第15届欧洲分会会议记录:第2卷，短论文 2017

EACL 2017,

2017年4月3日至7日

瓦伦西亚,西班牙

计算语言学协会

10.18653 / v1 / e17 - 2068

Hochreiter

年代

Schmidhuber

长短期记忆

神经第一版 1997 11 15 9 8 1735 80

10.1162 / neco.1997.9.8.1735

9377276

Benesty

陈

黄

科恩

我

皮尔逊相关系数

语音处理中的降噪 2009

纽约市

施普林格

1 4

公园

埃尔

赵

年代

KoNLPy: Python中的韩语自然语言处理

2014

人类与语言技术年会

10月

春川、韩国

133 136

黄

徐

余

序列标记的双向LSTM-CRF模型

arXiv 1508.01991 预印本于2015年8月9日在线发布

Siami-Namini

年代

Tavakoli

Namin

一个

利用ARIMA、LSTM和BiLSTM预测金融时间序列的比较分析

arXiv 1911.09512 预印本于2019年11月21日在线发布

Venna

老

Tavanaei

一个

Gottumukkala

Raghavan

Maida

作为

尼克尔斯

年代

一种新型数据驱动实时流感预测模型

IEEE访问 2019 7 7691 7701

10.1109 / access.2018.2888585

茱莉亚

年代

Ayton

波特菲尔德

科里

利用神经网络和社交媒体预测军队人群的流感样疾病动态

《公共科学图书馆•综合》 2017 12 12 e0188941

10.1371 / journal.pone.0188941

29244814

玉米饼- d - 17 - 05532

PMC5731746

Kingma

英航

亚当:一种随机优化的方法

2015

第三届国际学习代表会议

2015

加州圣地亚哥

柴

Draxler

均方根误差(RMSE)还是平均绝对误差(MAE)?-文献中反对避免RMSE的论点

geoosci模型开发 2014 06 30. 7 3. 1247 1250

10.5194 / gmd - 7 - 1247 - 2014

Lilleberg

朱

张

支持向量机和Word2vec用于语义特征的文本分类

2015

2015年IEEE第14届认知信息学与认知计算国际会议

7月

中国,北京

136 140

10.1109 / icci-cc.2015.7259377

Balcan

Colizza

Goncalves

胡

Ramasco

Vespignani

一个

传染病的多尺度流动网络与空间传播

美国国立自然科学研究院 2009 12 22 106 51 21484 9

10.1073 / pnas.0906910106

20018697

0906910106

PMC2793313

Balcan

Goncalves

胡

Ramasco

Colizza

Vespignani

一个

传染病的空间传播建模:全球流行病和流动性计算模型

计算科学 2010 08 01 1 3. 132 145

10.1016 / j.jocs.2010.07.002

21415939

PMC3056392

Influweb 2020

2020-05-07

https://www.influweb.it/

Shynkevich

McGinnity

科尔曼

Belatreche

一个

利用多核学习对不同类别新闻报道的医疗保健股价格走势进行预测

决策支持系统 2016 05 85 74 83

10.1016 / j.dss.2016.03.001

麦格夫

科幻小说

布朗斯坦

霍金斯

简森-巴顿

Santillana

米

结合传统疾病监测与搜索、社交媒体和新闻报道数据，预测2016年拉丁美洲爆发的寨卡病毒发病率

PLoS nel Trop Dis 2017 01 11 1 e0005295

10.1371 / journal.pntd.0005295

28085877

pntd - d - 16 - 01733

PMC5268704

刘

克莱门特

地方

丁

Chinazzi

米

戴维斯

Vespignani

一个

Santillana

米

更正:中国各省COVID-19疫情的实时预测:使用新型数字数据和机械模型估计的机器学习方法

J医疗互联网服务 2020 09 22 22 9 e23996

10.2196/23996

32960774

v22i9e23996

PMC7539158

Sahlgren

米

分配假说

致命J残疾螺柱 2008 20. 33 53

齐默

Leuba

如果

Yaesoubi

科恩

使用每日互联网搜索查询数据可以改善流感流行的实时预测

J R Soc接口 2018 10 10 15 147 20180220

10.1098 / rsif.2018.0220

30305417

rsif.2018.0220

PMC6228485

施耐德

页

范干傻事

Spreeuwenberg

Hooiveld

米

亚粘土

遗传算法

巴奈特

佩吉特

使用网络搜索查询监测流感样疾病:探索性回顾性分析，荷兰，2017/18流感季节

欧元Surveill 2020 05 25 21 1900221

1560 - 7917. - 10.2807 / es.2020.25.21.1900221

32489174

PMC7268271

雪

白

胡

梁

基于Twitter和机器学习方法的区域级流感研究

《公共科学图书馆•综合》 2019 14 4 e0215600

10.1371 / journal.pone.0215600

31013324

玉米饼- d - 18 - 34479

PMC6478375

Molaei

年代

Khansari

米

Veisi

萨利希

米

通过分析推特信息预测流感疫情的传播

健康的抛光工艺 2019 3. 21 9 4 517 532

10.1007 / s12553 - 019 - 00309 - 4

朱

傅

杨

妈

郝

陈

年代

刘

年代

李

刘

年代

郭

廖

基于注意的循环神经网络在流感流行预测中的应用

BMC生物信息学 2019 11 25 20. 增刊18 575

10.1186 / s12859 - 019 - 3131 - 8

31760945

10.1186 / s12859 - 019 - 3131 - 8

PMC6876090

张

Nawata

基于调整长短期记忆的流感暴发多步预测

论文感染 2018 05 146 7 809 816

10.1017 / S0950268818000705

29606177

S0950268818000705

PMC6088535

近藤

石川

一个

木村

米

使用谷歌Trends进行流感流行率预测时，请注意按顺序进行排序

2019

2019年第三届计算生物学和生物信息学国际会议论文集

10月

美国纽约

1 7

10.1145/3365966.3365967

吴

绿色

本

O ?B一个n我on

年代

时间序列预测的深度变压器模型:流感流行情况

arXiv 2001.08317 预印本于2020年1月23日在线发布