这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,https://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
全球每年有300万至500万人感染流感,造成29万至65万人死亡。为了减少流感造成的死亡,一些国家建立了流感监测系统,以收集早期预警数据。然而,由于实际疾病暴发和监测数据的公布之间有1至2周的延迟,因而妨碍了适当和及时的警告。为了解决这一问题,人们提出了利用实时互联网数据(如搜索查询、微博和新闻)进行流感监测和预测的新方法。目前流行的一些方法提取在线数据,并使用机器学习以分类模式预测流感的发生。然而,这些方法很多都是主观提取训练数据,很难正确捕捉数据的潜在特征。迫切需要设计新的方法,通过反映数据的潜在特征来专注于提取训练数据。
在本文中,我们提出了一种有效的方法,通过在预测之前只过滤和选择与流感相关的关键词,以反映隐藏特征的方式提取训练数据,并提高性能。
尽管词嵌入通过编码各种标记之间的隐藏关系来提供单词的分布式表示,但我们通过选择与流感爆发相关的关键字并使用Pearson相关系数对提取的关键字进行排序来增强词嵌入,以便仅保留与实际流感爆发高度相关的标记。关键词提取过程之后是基于长短期记忆的预测模型,该模型预测流感爆发。为了评估所提出的预测模型的性能,我们使用并比较了各种单词嵌入技术。
当平均选取50.2个关键词时,不采用我们提出的排序方法的词嵌入预测精度为0.8705。相反,使用我们提出的排序过程的词嵌入显示了0.8868的预测精度,预测精度提高了12.6%,尽管选择的训练数据量更小,平均只有20.6个关键词。
排序阶段增强了嵌入过程,这改进了特征提取过程,因为它充当了预测组件的知识库。该模型优于目前其他在预测前使用平面提取的方法。
流感是一种高度传染性疾病,每年影响全球300万至500万人,导致29万至65万人死亡[
基于搜索查询的流感预测系统已展开重要研究,包括谷歌流感趋势[
以前的研究使用这些网络数据来监测流感爆发并提高预测性能,但问题是使用哪些数据取决于实验者的主观选择[
为了解决这些问题,我们提出了一种结合词嵌入[
词嵌入是一种基于自然语言处理的特征提取技术,它包括建立单词的分布式表示。重要的是,从词嵌入生成的特征可以捕获标记之间的上下文。然而,在流感的情况下,仅使用通过词嵌入获得的特征会导致包含不必要标记的大向量空间,并降低预测性能。为了减少预测阶段需要考虑的标记数量,余弦相似度函数通过选择流感相关特征的相似度赋予词嵌入能力。
在过滤了与流感关键词相关的令牌的特征后,确定用于预测模型的最佳训练数据量以提高其性能也很重要。为了在词嵌入和余弦相似度选取的关键词中优先使用与流感疫情高度相关的关键词,对这些关键词进行皮尔逊相关系数(PCC)排序[
我们比较了所使用的关键字排序和未排序时模型的性能。为了评估性能,我们记录了均方根误差(RMSE)。FastText连续词袋(CBOW)在关键词排序后的PCC为0.8986,RMSE为0.0090,优于其他嵌入方案。
在线新闻文章为预测流行性疾病(如流感)提供了丰富的机会。然而,仅根据“流感”代币的存在提取的新闻文章并不能捕捉到新闻中隐藏的见解。出现这种情况的主要原因是存在噪音令牌,例如与流感无关的广告内容。为了反映数据的特征,在关键词选择之前,我们使用了一个有效的嵌入阶段来捕捉单词之间的潜在关系。此外,为了在选定的关键词中优先使用与流感爆发最相关的关键词,我们根据流感实际爆发情况和含有该关键词的新闻文章比例,根据PCC对其进行排序。并对提取的关键词进行分类模型训练。
在本节中,我们将介绍整个方法,包括4个主要部分:(1)标记化和词嵌入,(2)通过余弦相似度选择流感相关关键词,(3)提取流感相关新闻并将其转换为时间序列数据,以及(4)训练和分类。
系统架构。LSTM:长短期记忆。
出现在新闻文章中的各种标记与文章的分类没有语义或语法关系。像“at”和“in”这样的词或像“many”和“very”这样的副词都是填充词,在嵌入过程之前必须删除。因此,这些停止词被剥离。为了只使用名词作为与流感相关的单词,使用语素分析器KoNLPy[提供的Mecab类执行标记化。
如
在这里,
分配给每个单词的向量使用向量之间的距离来捕获单词之间的关系。利用所得到的嵌入向量之间的余弦相似度来表示词与词之间的相似度是可行的。例如,嵌入的结果是,“流感”和“打喷嚏”的载体之间的余弦相似度更接近于1,非常接近于“疟疾”和“发烧”之间的相似度。关键超参数在训练过程中设置。嵌入尺寸
我们的模型的主要目标是筛选与流感相关的标记,以用于预测。为此,我们测量了余弦相似度,以建立每个标记与单词“influenza”的接近度。余弦函数应用于上一步中得到的嵌入。余弦相似度是一种利用两个向量之间的余弦来测量两个向量之间相似度的方法。它的值在-1到1之间。用向量法测量相似度的公式
上面的公式表示向量的内积
在选择流感相关关键词之后,我们同时抽取包含词嵌入选择的关键词和“流感”一词的流感相关新闻文章,以确保新闻文章反映数据的特征。换句话说,通过这个过程提取的新闻文章是只包含“流感”一词的新闻文章的子集。接下来的步骤是将仅包含“流感”一词的新闻文章和同时包含“流感”一词和通过单词嵌入选择的关键词的新闻文章转换为时间序列数据,用作训练集。的
在上式中,
该模型的另一个关键目标是捕捉新闻报道中的流感趋势与流感实际发生之间的每周匹配。因此,对所获得的时间序列数据进行排序对于渐进式预测和趋势捕获至关重要。时间序列数据
我们建立了一个LSTM模型[
在训练过程中,我们计算了RMSE损失函数,即预测的ILI病例数与CDC报告的实际病例数之差的平方根。使用Adam优化器对模型进行优化[
为了确定最合适的词嵌入来选择与流感相关的关键词,我们使用5个词嵌入模型:Word2Vec CBOW、Word2Vec skip-gram、GloVe、FastText CBOW和FastText skip-gram选择了100个与流感高度相关的关键词。谘询委员会[
我们训练每个词嵌入模型来评估其性能。根据最近的趋势,许多研究通过使用预先训练的向量跳过嵌入阶段。虽然预训练的向量是从一个大数据集中获得的,但它们包含许多令牌,并在最近的各种研究中表现出良好的性能。然而,对于英语以外的语言,很难获得有效的预训练嵌入。因此,从2017年9月11日到2019年9月15日,我们收集了大约200万篇新闻文章,收集的数据大小约为761 MB,包含约14万字,如图所示
用于词嵌入的新闻数据摘要。
参数 | 价值 |
时间 | 2017年9月11日至2019年9月15日 |
总文章 | 2093120年 |
总字节数 | 761233009年 |
总条款 | 142651年 |
用于词嵌入和长短期记忆模型训练的超参数。
Hyperparameter | 字嵌入 | 长短期记忆模型 |
时代 | 10 | 200 |
维 | 300 | 64 |
窗口大小 | 5 | - - - - - - |
分钟数 | One hundred. | - - - - - - |
时间步长 | - - - - - - | 5周 |
使用Word2Vec连续词袋的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。
使用Word2Vec跳过图的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。
使用GloVe的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。
在使用FastText CBOW为选定的关键字添加1到100个时间序列训练数据时,使用PCC和RMSE的LSTM模型的准确性描述在
使用FastText连续单词袋的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。
使用FastText跳过图的长短期记忆模型的Pearson相关系数(PCC) (A)和均方根误差(RMSE) (B)。
在本研究中,我们的目标是在关键词选择后,应用基于pcc的排序来获得最优的词嵌入。我们将使用每种类型的词嵌入训练的LSTM模型的最佳准确性与使用PCC和RMSE选择的关键字的数量进行了比较。我们考虑了两种情况:是否应用基于pc的排序。
不同词嵌入技术下流感预测模型的Pearson相关系数(PCC)和均方根误差(RMSE)
预测模型 | 关键字数量 | RMSE(关键字数量) | ||
|
未分类的 | 排序 | 未分类的 | 排序 |
Word2Vec CBOW一个 | 0.8784 (59) | 0.8951 (22) | 0.0095 (19) | 0.0082 (22) |
Word2Vec skip-gram | 0.8755 (50) | 0.8942 (8) | 0.0089 (9) | 0.0080 (8) |
手套 | 0.8467 (14) | 0.8783 (29) | 0.0095 (14) | 0.0090 (22) |
FastText CBOW | 0.8845 (42) | 0.8986 (34) | 0.0095 (11) | 0.0090 (34) |
FastText skip-gram | 0.8676 (86) | 0.8679 (10) | 0.0095 (87) | 0.0090 (10) |
的意思是 | 0.8705 (50) | 0.8868 (21) | 0.0094 (28) | 0.0086 (19) |
一个连续的单词袋。
实际流感爆发与预测模型预测结果的比较。CBOW:连续词袋;ILI:流感样疾病;KCDC:韩国疾病控制和预防中心;LSTM:长短期记忆。
准确和及时地预测流感爆发最近得到了重要的研究关注。许多研究依赖于传统统计方法。高效的方法使用机器学习和来自互联网和社交网络的云数据。
Eysenbach [
金斯伯格等人[
阿克雷卡等人[
李和卡迪[
张等[
这些最近的流感预测研究使用搜索查询和微博(如Twitter)进行实时预测。但是,搜索引擎(如谷歌)提供的搜索查询不能用于实时预测,因为很难推断出准确的搜索趋势。此外,如前所述,Twitter和其他社交平台容易产生噪音。另一方面,基于网络的新闻数据对噪声的脆弱性较小,最近已被一些预测研究采用[
在从互联网上提取训练数据时要考虑的一个关键方面是关键字的选择。各种研究计算了所有单词的相关性,或使用直接表明流感或主观选择的关键词。计算每个代币的相关系数被认为是最好的方法。但是,它需要大量的计算资源和训练时间。直接或主观选择流感相关关键字不能推广到各个数据集,因为提取数据集的固有特征具有挑战性。因此,在选择关键字时,通过反映数据的潜在特征来选择相关关键字的方法对模型进行了很大的改进。
各种研究还将词嵌入作为一种特征提取方法,通过建立每个标记的分布式表示来从文本中捕获语义和上下文方面。
Mikolov等[
Word2Vec忽略全局信息,在上下文中的单词之间使用局部信息(上下文窗口)。因此,Pennington等人[
Word2Vec的另一个关键限制是它忽略了单词的内部形态,无法捕获稀有单词的适当向量。为了解决这一限制,Joulin等人[
在从新闻文章中预测流感时,我们使用词嵌入来寻找与流感相关的单词,并根据它们与实际流感爆发的关联对它们进行排序,有效地提取训练数据,提高预测的准确性。然而,我们的研究存在以下局限性,需要进一步的研究。首先,我们需要检查我们的方法是否适用于新闻文章以外的新数据集。最近,人们利用各种数据研究流感预测[
本文提出了一种有效的训练数据提取方法,以提高从新闻文章中预测流感的能力。通过提取方法选择的输入数据对与流感相关的关键词之间的关系进行编码。随后,根据这些数据与实际流感爆发的关系对其进行筛选。这一过程是通过基于PCCs对所选关键字进行排序来确保的,这些关键字在实际流感爆发和包含这些关键字的新闻文章的比例之间进行排序。仅使用“流感”一词对提取数据进行训练的预测模型不能反映所收集数据的特征;因此,它表现出令人不满意的性能。但是,由于在通过本文方法提取的数据上训练的预测模型反映了数据的特征,因此证实了性能的极大提高。我们还将预测模型的性能与5种流行的词嵌入技术进行了比较。实验结果表明,FastText CBOW算法在未排序和已排序关键词的嵌入中均优于其他算法。
连续bag-of-words
疾病控制和预防中心
流感样疾病
长短期记忆
皮尔逊相关系数
均方根误差
循环神经网络
支持向量机
这项工作得到了韩国政府NRF2019R1F1A1058058资助的韩国国家研究基金会的资助。
没有宣布。