TY -非盟的康威,迈克盟——Kawazoe Ai盟——Chanlekha Hutchatai AU -科利尔,奈杰尔PY - 2010 DA - 2010/09/28 TI -开发一种疾病暴发事件语料库乔- J地中海互联网Res SP - e43六世- 12 - 3 KW -生物监控KW -疾病暴发KW -自然语言处理KW -全集KW -文本挖掘KW -信息提取KW -公共卫生信息学AB -背景:近年来,在利用信息提取技术从在线新闻文本中跟踪疾病暴发方面的工作有所增长,但这一新研究领域的公开可用评估标准(及相关资源)明显缺乏。目的:本研究旨在创建一个“金标准”数据集,以测试疾病爆发信息提取系统如何准确地识别疾病爆发事件的语义。此外,我们希望向社区提供注释方案(和相关语料库)将鼓励在这个新的和不断增长的应用领域进行开放评估。方法:设计一种用于识别新闻文本中传染病爆发事件的标注方案。在我们的注释方案的上下文中,事件最少包含地理(例如国家和省份)和疾病名称信息。然而,该方案还允许对其他领域的显著概念进行丰富的编码(例如,国际旅行、物种和食品污染)。结果:这项工作产生了200个带有事件注解的疾病爆发报告文档语料库,可用于评估事件检测算法的准确性(在本例中,用于BioCaster生物监测在线新闻信息提取系统)。在200个文档中,394个不同的事件被识别出来(平均每个文档1.97个事件,每个文档0-25个事件)。我们还提供了一个下载脚本和基于图形用户界面(GUI)的事件浏览软件,以方便语料库的探索。 Conclusion: In summary, we present an annotation scheme and corpus that can be used in the evaluation of disease outbreak event extraction algorithms. The annotation scheme and corpus were designed both with the particular evaluation requirements of the BioCaster system in mind as well as the wider need for further evaluation resources in this growing research area. SN - 1438-8871 UR - //www.mybigtv.com/2010/3/e43/ UR - https://doi.org/10.2196/jmir.1323 UR - http://www.ncbi.nlm.nih.gov/pubmed/20876049 DO - 10.2196/jmir.1323 ID - info:doi/10.2196/jmir.1323 ER -
Baidu
map