发表在16卷,第10位(2014): 10月

自动证据检索系统审查

自动证据检索系统审查

自动证据检索系统审查

原始论文

澳大利亚新南威尔士州肯辛顿市新南威尔士大学澳大利亚健康创新研究所健康信息学中心

通讯作者:

Guy Tsafnat博士

健康资讯中心

澳大利亚卫生创新研究所

新南威尔士大学

AGSM大厦一层

G27,植物学街11号门

肯辛顿新南威尔士州,2052年

澳大利亚

电话:61 293858697

传真:61 293858692

电子邮件:guyt@unsw.edu.au


背景:滚雪球涉及递归地追踪检索文献中引用的相关参考文献并将其添加到搜索结果中。滚雪球是一种发现常规搜索无法检索到的额外证据的替代方法。滚雪球的有效性使其成为系统审查的最佳实践,尽管它耗时且乏味。

摘要目的:我们的目标是评估引文滚雪球自动识别和检索被引文章全文和/或摘要的能力。

方法:使用包含949次期刊或会议文章引用的20篇综述文章,我们手动搜索微软学术搜索(MAS),并确定了数据库中存在的78.0%(740/949)的被引用文章。我们将自动引文滚雪球方法的性能与人工搜索的结果进行了比较,测量精度、召回率和F1得分。

结果:自动方法能够正确识别633篇(占纳入引文的比例:召回率=66.7%,F1分数= 79.3%;为MAS中引用的比例:召回率=85.5%,F1高分分数=91.2%)的引文(97.7%),检索全文或摘要490篇(查全率=82.9%,查准率=92.1%,F1分数=87.3%)。

结论:本文提出的自动引文滚雪球方法准确,能够获取综述文章中相当一部分学术引文的全文或摘要。通过使引文滚雪球过程自动化,有可能减少常见证据监督任务的时间和精力,例如保持试验登记的最新状态和进行系统审查。

医学互联网学报,2014;16(10):e223

doi: 10.2196 / jmir.3369

关键字



文献综述和决策支持等证据检索任务需要检索所有相关证据,但由于关键词检索的限制,不能仅依靠检索技术[1]。这导致了二级搜索方法的发展,如引文跟踪,称为滚雪球[2],引用珍珠生长[3.4]。

滚雪球涉及递归地追踪已检索文献中引用的相关参考文献,并将其添加到搜索结果中。因此,滚雪球效应并不局限于在书目数据库中找到的引文信息。滚雪球的技术挑战包括获取检索到的引文的全文、识别文本中的引文字符串以及从引文字符串中检索新的引文。这使得滚雪球既乏味又耗时。

与关键词搜索不同,滚雪球式搜索不需要特定的搜索词[5],这是可变的和不一致的。相反,它可以被认为是依赖于来自不同出版作者的多个搜索的积累[6]。滚雪球是一种寻找发现额外证据的补充方法。显然,滚雪球可以提高检索——例如,使用搜索和转发引用跟踪抑郁症和冠心病的案例研究表明,与单独搜索相比,可以识别出更多符合条件的文章[6]。一篇关于检查参考文献列表为系统评价寻找额外研究的综述发现,引文跟踪使搜索结果的产量提高了2.5-43% [7]。滚雪球法被认为是最佳做法,在进行系统检讨时经常被推荐[2]。随着出版速度的迅速提高,滚雪球式的自动化将大大减少用于文献检索的时间。

我们测试了一种自动滚雪球的方法,该方法使用引文提取算法和科学搜索引擎,按照滚雪球的步骤:(1)从文档中提取引文字符串,(2)查找引文,(3)获取引文全文,(4)重复该过程递归检索更多的引文。本研究的目的是测试滚雪球的每个子任务自动化的可行性。


算法

对于至少一篇论文的初始集,可移植文档格式(PDF)和超文本标记语言(HTML)文档被转换为纯文本。ParsCit的修改版本[8(一个免费和开源的参考字符串分割包)识别参考部分和分割单个参考字符串。我们修改了ParsCit中的启发式方法,并改变了限制,允许从文本的中间(50%)到结尾找到参考标签。通过删除短单词、数字和标点符号,将每个引用转换为搜索引擎查询。从搜索引擎返回的查询结果包含引文信息(如作者、标题、期刊、年份、数字对象标识符[DOI]),通常还包含一个或多个指向全文的链接(统一资源定位符[URL])。我们提取并跟踪了全文的链接。源代码可在多媒体附录1和[9]。

数据

在评估中,我们引用了一组已发表的关于神经氨酸酶抑制剂的英文评论。该数据集由152篇系统和非系统综述文章组成。我们随机选择了包含1057次引用的20篇综述文章的子集。我们排除了对网站、书籍、书籍章节、报纸文章和灰色文献的参考,留下949个包括引用。这20篇综述文章的性质见多媒体附录2

研究设计

我们使用提取参考文献的比例、检索引用的比例、摘要和全文下载的比例来评估我们的算法。我们根据论文中的参考文献手动检查了摘录的引文。我们认为,只有当一个引用包含整个引用而不丢失信息时,它才能被正确提取。我们确实允许最小的额外信息,如空白和引文号,但不允许其他引文字符串、页脚或手稿文本中应该包含的信息。人工验证系统综述中检索到的引文和摘要/全文的准确性。正确检索的文章被视为真阳性。未被引用的检索文章被视为假阳性。

我们使用微软学术搜索(MAS) [10] (图1)进行评估。MAS是一个广义的科学文献搜索引擎,涵盖超过4800万出版物,每周更新。注册后提供免费的非商业用途的应用程序编程接口(API)。引用包括书目数据以及引用论文的链接,如果存在多个版本,则链接到论文的多个版本,通常包括全文。我们使用MAS API对从原始论文全文中提取的每个参考文献进行搜索。其他搜索引擎(例如Google Scholar [11])也可以在此步骤中使用,但要受其施加的限制。我们选择MAS是因为它的大小,“引用”的功能,链接到全文,因为它不强制实施主动阻塞来防止自动访问。

我们手动搜索遗漏的参考文献,以确定它们是否确实在MAS中被索引。未被检索但通过MAS人工搜索找到的文章被视为假阴性。我们计算了精度、召回率和F1使用标准公式评分:

精度=(真阳性)/(真阳性+假阳性)

召回=(真阳性)/(真阳性+假阴性)

F1分数= 2 ×正确率×召回率/(正确率+召回率)

精度、召回率和F1计算引文、摘要(仅摘要或摘要全文)、全文对所有引文(1057篇文献)、收录引文(949篇文献)和收录引文(740篇文献)的检索得分。

所有实验都是在分配给新南威尔士大学的具有互联网协议(IP)的计算机上进行的。根据IP地址自动识别订阅的期刊,以及新南威尔士大学图书馆的订阅,因此被授予访问权。没有使用其他订阅激活或身份验证方法。然而,由于大多数摘要是免费获取的,摘要的下载通常不会受到期刊订阅的影响。

图1所示。微软学术搜索(MAS)。
查看此图

评估摘要见图2.我们从随机选取的20篇综述中成功提取了97.2%(922/949)的纳入引文(96.5%,1020/1057)。精度,召回率和F1随机选择的20篇综述文章的引文检索、摘要(仅摘要或全文摘要)和全文提取的得分见表1.分数的计算使用三个类别:(1)所有引用,(2)包含引用,(3)包含在MAS索引中的引用。第一类显示了从综述论文中检索给定参考文献的概率。第二类给出了相同的概率,但排除了不太可能检索到的作品,如书籍和灰色文学。第三类不包括目前未在MAS中索引的引文。

对于MAS索引的参考字符串,66.2%(490/740)的摘要被正确下载,或者是作为全文的一部分。这些占纳入研究的949篇引用的51.6%,占纳入研究的1057篇参考文献的46.4%。

在正确识别的633条引文中,我们检索了490条全文或摘要(查全率=82.9%,查准率=92.1%,F1分数= 87.3%)。我们调查了143篇(22.6%)文章没有被自动下载的具体原因。MAS有39篇文章链接错误(6.2%),6篇文章没有全文链接(0.9%);56个链接(8.8%)指向一个使用JavaScript动态创建指向全文链接的页面。对于只下载摘要的引文(15个摘要),由于期刊订阅访问,没有下载全文文档。

表1。引用、摘要和全文检索的结果(精度、召回率和F1检索数据库结果的分数,以及全文和摘要检索,比较所有参考字符串,只包括引文,只包括在MAS中索引的引文)。

占所有引用的比例(n=1057) 作为被收录引文的比例(n=949) 在MAS中被引用的比例(n=740)
引文检索

精度 0.977 0.977 0.977

回忆 0.600 0.667 0.855

F1分数 0.743 0.793 0.912
摘要获取

精度 0.921 0.921 0.921

回忆 0.483 0.540 0.702

F1分数 0.634 0.681 0.797
获取全文

精度 0.919 0.919 0.919

回忆 0.475 0.533 0.696

F1分数 0.626 0.674 0.792
图2。评价结果总结(20篇综述949篇学术引文,MAS收录740篇,检索633篇,自动下载全文和摘要490篇)。
查看此图

主要研究结果

滚雪球操作繁琐且需要大量资源,但已证明可以提高检索效率。结果表明,利用本文方法提取和下载引文自动滚雪球是可行的。用于执行许多系统审查任务的系统已经在使用、开发或研究中[1213]。这项研究代表了在系统审查过程中自动化滚雪球任务的第一次努力。当与可靠的自动筛选工具相结合时,自动滚雪球可以产生复合效果,提高召回率[12]。

自动引文提取是一项艰巨的任务[14],这使得引文检索成为一项更加困难的任务。但是,如果为每条引文提供唯一的引文标识符(如DOI或PubMed标识符),将大大提高引文提取和检索的可靠性。

限制

本研究的一个局限性是全文提取是在按IP地址订阅的期刊上进行测试的,并且是新南威尔士大学图书馆订阅的期刊。虽然这意味着其他机构的结果可能会有所不同,但它们也代表了一个可以指导结果预期的范例。随着开源等获取全文的手段的增长[15],我们的算法的性能可能会有所提高。

在本次评估中,算法仅限于MAS。这是测试系统的约束,而不是方法的约束。从我们进行的有限测试来看,该算法在Google Scholar上的表现相当,但计算机访问限制阻止了稳健的比较。

一些现有的数据库,如Scopus [16]及科学网[17](订阅费用适用于两者),提供引文分析,并允许人们向前搜索(被调查文本引用的参考文献)和向后搜索(引用被调查文本的论文),从而可以帮助人工滚雪球。然而,这些引文仅限于在各自数据库中索引的论文。我们的方法直接从文档中自动提取引文,因此可以跨越数据库边界。

结论

滚雪球法是自动化的,可以减少证据检索的时间和精力。它可以可靠地从科学论文的文本中提取参考文献列表,在科学搜索引擎中找到这些引用,并获取全文和/或摘要。

致谢

这项工作得到了国家卫生与医学研究委员会电子健康卓越研究中心拨款APP1032664的支持。

利益冲突

没有宣布。

多媒体附录1

源代码http://www2.chi.unsw.edu.au/~miewkeen/ESuRFr.html。

ZIP文件(ZIP Archive), 1MB

多媒体附录2

纳入本研究的20篇综述文章的性质。

PDF档案(adobepdf档案),3KB

  1. 张建军,张建军,张建军,张建军。信息检索过程的研究进展。在:凯里MJ, Ceri S,编辑。Web信息检索。海德堡:施普林格;2013:13-26。
  2. [3]李建平,李建平。复杂证据系统评价中搜索方法的有效性和效率:主要来源的审计。英国医学杂志2005,11月5日;331(7524):1064-1065 [j]免费全文] [CrossRef] [Medline]
  3. 站点珍珠生长:方法与图书馆事业的历史与理论。中华医学杂志;2005;30 (3):397-400 [J]免费全文] [Medline]
  4. 书目与全文数据库的检索策略与启发式。URL:https://dspace.creighton.edu/xmlui/bitstream/handle/10504/5903/Searching%20Databases%20-%20Strategies%20and%20Heuristics.pdf?sequence=1[2014-08-12访问][WebCite缓存]
  5. Robinson KA, Dunn AG, Tsafnat G, Glasziou P.相关试验的引文网络经常断开:对双向引文检索的影响。临床流行病学杂志,2014;67(7):793-799。[CrossRef] [Medline]
  6. 搜索观察性研究:引文跟踪给PubMed增加了什么?抑郁症与冠心病的个案研究。中华医学杂志2006;6:4 [j]免费全文] [CrossRef] [Medline]
  7. Horsley T, Dingwall O, Sampson M.检查参考文献列表以寻找系统评价的额外研究。Cochrane数据库系统,2011(8):MR000026。[CrossRef] [Medline]
  8. 理事会主席,贾尔斯先生,凯恩先生。一个开源的CRF参考字符串解析包。第六届国际语言资源与评价会议论文集,2008,发表于:国际语言资源与评价会议;2008年5月;马拉喀什,Morrocco。
  9. 证据发现使用微软学术搜索(MAS)样例代码版本0.1。URL:http://www2.chi.unsw.edu.au/~miewkeen/ESuRFr.html[2014-08-12访问][WebCite缓存]
  10. 微软学术搜索。URL:http://academic.research.microsoft.com/[2014-07-14访问][WebCite缓存]
  11. 谷歌学者。URL:http://scholar.google.com.au/[2014-07-14访问][WebCite缓存]
  12. 李建军,李建军,李建军,李建军,李建军。系统评审自动化技术研究进展。系统启示2014;3:74 [免费全文] [CrossRef] [Medline]
  13. Wallace BC, Dahabreh IJ, Schmid CH, Lau J, Trikalinos TA。使系统审查过程现代化,为比较有效性提供信息:工具和方法。[J] .计算机工程学报,2013,32(3):273-282。[CrossRef] [Medline]
  14. 日美,蔡涛,宋春林,李春武,吴胜,王春春,等。基于知识的引文提取方法。2005年在IEEE信息重用与集成国际会议上发表;2005年8月15日至17日;拉斯维加斯,内华达州,50-55页。[CrossRef]
  15. 邓建军,陈建军,陈建军。泄密事件不可避免吗?中国医学杂志,2014;16(4):112 [J]免费全文] [CrossRef] [Medline]
  16. 斯高帕斯。URL:http://www.scopus.com/[2014-07-14访问][WebCite缓存]
  17. 科学网。URL:http://thomsonreuters.com/thomson-reuters-web-of-science/[2014-07-14访问][WebCite缓存]


API:应用程序编程接口
DOI:数字对象标识符
知识产权:互联网协议
MAS:微软学术搜索


G·艾森巴赫编辑;提交14.07.14;由R baggett, B Wallace同行评审;对作者07.08.14的评论;收到修订版本18.08.14;接受09.09.14;发表01.10.14

版权

©Miew Keen Choong, Filippo Galgani, Adam G Dunn, Guy Tsafnat。原发表于医学互联网研究杂志(//www.mybigtv.com), 2014年10月1日。

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map