搜索和图形数据库技术用于生物医学语义索引:实验分析Segura Bed卡塔尔世界杯8强波胆分析mar,Isabel Martínez,Paloma Carruana Martín,Adrián + LaBDA组,计算机科学系,马德里卡洛斯三世大学,Avda。Universidad 30, Leganés, 28911,西班牙,34 916245961,isegura@inf.uc3m.es %K信息存储和检索%K语义索引%K医学主题标题%D 2017 %7 01.12.2017 %9原始论文%J JMIR Med Inform %G英文%X背景:生物医学语义索引是人类馆长在生物医学文献索引和编目方面非常有用的支持工具。目的:本研究的目的是描述一个系统自动分配医学主题标题(MeSH)的生物医学文章从MEDLINE。方法:我们的方法依赖于类似的文档应该由相似的MeSH术语分类的假设。虽然之前的工作已经通过使用k-nearest neighbors算法来利用文档的相似性,但我们通过搜索引擎索引将文档表示为文档向量,然后使用余弦相似度计算文档之间的相似性。检索到与给定输入文档最相似的文档后,我们对它们的MeSH术语进行排序,以选择最适合输入文档的一组。为此,我们定义了一个评分函数,该函数考虑词条在检索到的文档集中出现的频率,以及输入文档与每个检索到的文档之间的相似性。此外,我们实施由人类策展人提出的指导方针来注释MEDLINE文章;特别是,启发式说,如果提出了3个MeSH术语来对一篇文章进行分类,并且它们具有相同的祖先,那么它们应该被这个祖先所取代。MeSH词库表示为图数据库允许我们使用图搜索算法来快速轻松地捕获层次关系,例如术语之间的最低公共祖先。 Results: Our experiments show promising results with an F1 of 69% on the test dataset. Conclusions: To the best of our knowledge, this is the first work that combines search and graph database technologies for the task of biomedical semantic indexing. Due to its horizontal scalability, ElasticSearch becomes a real solution to index large collections of documents (such as the bibliographic database MEDLINE). Moreover, the use of graph search algorithms for accessing MeSH information could provide a support tool for cataloging MEDLINE abstracts in real time. %M 29196280 %R 10.2196/medinform.7059 %U http://medinform.www.mybigtv.com/2017/4/e48/ %U https://doi.org/10.2196/medinform.7059 %U http://www.ncbi.nlm.nih.gov/pubmed/29196280
Baidu
map