JMIR J医疗互联网服务 医学互联网研究杂志 1438 - 8871 冈瑟Eysenbach 全球电子卫生创新中心,加拿大多伦多 v2i3e19 11720942 21578007 10.2196 / jmir.2.3.e19 审查 测试互联网发现工具的搜索功能和医疗覆盖率的一些基准搜索 约翰逊 E黛安娜
信息服务,J. Otto Lottes健康科学图书馆 密苏里大学哥伦比亚分校 哥伦比亚MO 65212 美国 JohnsonE@health.missouri.edu
Adelhard 克劳斯 Appleyard 理查德。 Jul-Sep 2000 27 9 2000 2 3. e19 11 6 1999 12 9 2000 12 9 2000 ©E黛安·约翰逊。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2000年9月27日。除非另有说明,发表在《医学互联网研究杂志》上的文章都是根据创作共用署名许可协议(http://www.creativecommons.org/licenses/by/2.0/)发布的,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是正确引用原创作品,包括完整的书目细节和URL(参见上面的“请引用”),并包括本声明。 2003

在过去的几年中,我们看到了万维网(WWW)搜索引擎的激增,以及面向卫生保健专业人员需求的专业主题目录的增长。然而,关于搜索范围、覆盖范围和搜索功能的文档最多也就是参差不齐;甚至记录在案的搜索功能也可能不像宣传的那样。本文将提供一组示例搜索,以帮助用户测量数据库大小,确定默认搜索操作符,并测试高级搜索功能,如大小写敏感性、词干和英语网站上医学主题的概念映射。

互联网 信息存储与检索 搜索引擎
简介

万维网(World Wide Web, WWW)搜索引擎所使用的软件持续快速发展,跟上搜索功能的步伐是一项永不停歇的任务。搜索引擎,如 北极光 HotBot, AltaVista,不断进行大修。搜索引擎软件的变化如此频繁,以至于帮助屏幕(如果有的话)往往是不够的。在最坏的情况下,帮助屏幕甚至可能指向软件的以前版本。通常情况下,即使是具有准确和最新文档的系统也会以常见问题和回答的格式(FAQ)显示文档,这使得查找搜索引擎的具体事实和特征变得困难。

更让人困惑的是,有时搜索引擎并不像宣传的那样运行。在其他情况下,搜索引擎似乎故意对其搜索软件或排名算法的内部工作方式含糊其辞,因为他们认为这些信息是专有的。

搜索引擎功能的基准测试 默认操作符

了解引擎如何组合搜索词对有效搜索至关重要。许多搜索引擎,特别是在基本或新手模式下,使用模糊逻辑,其中所有搜索词都与布尔或相链接。这有时被称为“匹配任何术语”。这说明了从一些搜索引擎返回的大量结果。

可以通过执行一些简单的搜索来确定默认操作符。首先,输入一个搜索词并记录检索:最近对单词“ear”的搜索 激发检索129,711页。然后在搜索中添加第二个词:在Excite上搜索“耳部感染”,结果是183650页。因为第二次搜索比第一次搜索检索到的更多,所以Excite上的默认操作符是OR。

如果第二次搜索检索到的结果数量少于第一次搜索,则默认操作符可能是AND。在北极光上搜索“耳朵”可以检索到959,152页,而“耳朵感染”可以检索到55560页。较小的结果表明默认操作符可能是AND;然而,它也可能进行更狭窄的搜索,只检索带有确切短语“耳朵感染”的页面。要确定默认操作符是AND还是邻接,请将这两个词颠倒过来进行第三次搜索:“感染耳朵”。如果检索与第二次搜索相同,就像Northern Light一样,默认操作符几乎肯定是AND。如果搜索结果不同,则默认可能是邻接操作符,或者精确短语搜索。

Stopwords

停顿词或干扰词在搜索中也会有问题。有些搜索引擎甚至会索引最小的单词,包括“a”和“the”。其他人有一个没有索引的停止词列表;这些名单通常没有公布。测试停止词存在的一种方法是搜索“维生素a缺乏”和“维生素k缺乏”,并比较检索结果。在Excite中,这两种搜索都检索了96,794个条目,这表明单个字母确实是停止词。另一个测试停止词的方法是单独输入搜索词;事实上,在Excite上搜索“a”没有任何结果。

数据库的大小

搜索引擎似乎特别容易夸张的一个领域是他们对数据库大小的声明。以下是一些出现在搜索引擎网页上的说法,有的是现在的,有的是过去的:

“Excite Search,互联网上最全面的搜索工具……”

“AltaVista让你访问最大的网络索引……”

来自Hotbot:“……世界上最大、最完整的互联网文档索引。”

不止一个搜索引擎吹嘘自己的数据库是万维网上最大、最完整的。即使提供了数据库大小的实际数字,它们也可能具有误导性,难以进行比较。一个搜索引擎可能声称它的数据库拥有最多的url;但是,如果数据库包含许多重复项,这个数字可能会被人为地夸大。这些url中有多少表示不再存在的页面?另一个搜索引擎声称自己是最大的,可能是基于其以tb为单位的数据库规模[ 1].但这可能更多地反映了低效的文件结构。那么,如何才能准确地衡量搜索引擎数据库的大小呢?也许与其他搜索引擎相比,最好的方法是基于检索来估计相对大小。这很容易做到,只需在几个不同的搜索引擎上对同一个单词进行基准搜索,然后比较结果。一个单一的、明确的词效果最好,这个词可以充分代表一个概念,没有很多同义词或不同的结尾,比如“关节炎”。避免使用非医学领域专有的词语,因为这些词语在非医学语境中表达的意思不同;比如“labor”,它既指分娩,也指工作(此外还有另一种英式拼写)。作为衡量面向卫生专业人员而不是患者和健康消费者的内容数量的第一步,选择一个更可能被卫生从业者使用的词,如“脾肿大”、“出汗”、“呼吸困难”、“骨关节炎”或“淋巴结病”[见 表1].

医疗术语基准搜索结果,1999年春季

激发 HotBot AltaVista MedHunt 医学世界搜索
关节炎 40191年 138080年 311810年 1992年 3261年
脾肿大 751 185 194 123 471

提醒一句:确定网络搜索的点击率并不总是那么容易。在Excite中,用户必须向下滚动页面才能显示点击数。在HotBot中搜索热门词汇时,点击数不会出现在结果的第一页,只会出现在后续页面。在1998年的某个时候,Lycos从他们的屏幕上完全删除了检索到的点击量,因此没有办法使用这样的基准搜索来评估相对大小。比较一些较大的医学目录中的医学术语检索与搜索引擎结果也具有启发意义。医学世界搜索,其数据库有“近10万”页[ 2],它的规模只有HotBot和AltaVista等最大搜索引擎的0.1%(0.1 %),估计它们的索引页面在1亿到1.5亿之间。然而,尽管AltaVista的总体容量是它的1000倍,但它检索到的包含“脾肿大”的页面数量却只有4倍;实际上,HotBot在这个术语上检索的页面比医学世界搜索少。

区分大小写

通常,大写字母的出现,或大写字母和小写字母的组合,传达了健康科学术语的特定含义。当搜索有关“艾滋病”的信息时,如在获得性免疫缺陷综合征中,搜索者不希望同时检索有关听力“艾滋病”的信息。通常情况下,如果搜索引擎识别大小写,它将同时检索大小写来响应小写查询(例如,aids或aids),但如果以这种方式输入查询,则只检索大写(例如,只有aids)。为了测试大小写敏感性,搜索同一个单词两次:一次用大写,一次用小写,然后比较结果。如果在两次搜索中检索到相同数量的项,则搜索引擎不区分大小写。

执行一个额外的搜索将测试搜索只包含大写字母和小写字母的特殊组合的术语的能力;这有时被称为“有趣的案例”。医学领域一个有趣的例子是MeSH,指的是国家医学图书馆出版的医学主题标题。在HotBot中,搜索“mesh”可以检索到175,950个项目;“MESH”检索7180;但“MeSH”检索5480。

阻止

在大多数搜索引擎中,你输入什么就会得到什么;不多不少。引擎对输入的内容进行文字搜索。对此有两个可能的例外:词干和概念搜索。

使用词干词干的搜索引擎会自动检索一些词尾不同的单词。最简单的形式是自动右截断,搜索“germ”也会检索到“germ”、“germinate”甚至“german”。雅虎使用这种词干。其他搜索引擎更有选择性地搜索,也许搜索一个单数单词也会检索到复数形式;例如,搜索“child”检索到的是“children”,而不是“childhood”。为了通过自动右截断测试第一种词干,搜索一个词干,比如“occlu”,看看是否检索到了“occlusion”、“occlded”等。第二种词干更难评估。搜索带有或不带有“s”的简单复数,然后使用两个与“OR”相连的词进行搜索:首先搜索“kidney”,其次搜索“kidney”,然后搜索“kidney OR kidney”。如果所有三次搜索都返回相同的命中数,则操作的是单复数词干。要测试更复杂的词干,试试不规则复数:woman vs. women, child vs. children, person vs. people。 If results are the same, the stemming is more sophisticated.

概念搜索

一些搜索引擎,特别是Excite和Magellan,声称能够进行概念搜索。用户输入一个单词,搜索引擎不仅搜索这个特定的单词,还自动在搜索中包含同义词。不幸的是,该功能并不总是针对医学术语进行优化。一种方法是搜索一个词,如“肾”,记录结果,然后搜索一个医学同义词,如“肾”,记录结果,然后搜索“肾或肾”,将两者合并。如果最后一个搜索比第一个或第二次搜索检索到更多的条目,那么可以推测,概念映射在医学词汇领域是弱的,或者可能不存在。 表2显示了在Magellan和Excite中测试的结果,它们都声称使用映射或ICE(智能概念提取)。从这些结果来看,ICE显然不是医学领域的自动术语。然而,除了搜索结果,Excite还会返回一个建议,将以下单词添加到搜索中:肾脏、透析、肾脏病、肾小球、多囊、输尿管、移植、肌酐、小管和肾病。但它不会像帮助屏幕中所显示的那样自动执行,帮助屏幕显示:

Excite搜索包含您在“搜索”框中输入的确切单词的文档。但这还不是全部。Excite将搜索技术向前推进了一步:不仅是单词,Excite还搜索与您查询的单词密切相关的想法。

例如,假设您搜索“老年人的财务问题”。搜索引擎除了能找到包含这些确切词语的网站外,还能找到提及退休人员经济状况和老年人财务问题的网站[ 3.].

概念映射在麦哲伦和Excite的测试结果,1999年春季

麦哲伦 激发
1354年 28494年
肾脏 2349年 49424年
肾还是肾 2509年 67223年

一个有趣的脚注:Excite和Magellan在解释它们的概念搜索功能时使用了几乎完全相同的措辞和例子,尽管这些样本搜索的结果表明这两个引擎的性能完全不同。唯一的解释是,Excite现在拥有Magellan,尽管后者仍然作为一个独立的搜索服务运行,具有自己的外观、感觉和功能,但它并没有真正解释这一点。

有一个专门针对医疗受众的搜索引擎,它具有相对复杂的概念映射功能:医学世界搜索(http://www.mwsearch.com)。不管搜索的是“对乙酰氨基酚”还是“泰诺”,对其主要医学网站的10万个条目数据库进行搜索,都会得到762个条目,因为查询使用了来自国家医学图书馆统一医学语言系统的词汇。 4].事实上,搜索还包括“乙酰氨基酚”、“乙酰氨基酚”、“Anacin-3”、“达瑞尔”、“羟基乙酰苯胺”、“N-乙酰-对氨基苯酚”、“对乙酰氨基苯酚”、“对羟基乙酰苯胺”、“帕纳多”、“对乙酰氨基酚”、“阿卡摩尔”、“乙酰胺,N-(4-羟基苯基)-”和“N-(4-羟基苯基)乙酰苯胺”。

在应用这些基准搜索时需要注意两点。首先,它们只是确定搜索引擎行为的启发式方法,并不能在所有情况下提供搜索功能存在或不存在的明确证据。其次,如果在数据库更新期间运行这些基准搜索,结果可能只会有一两次不同。例如,一天晚上,当测试AltaVista的大小写敏感性时,“艾滋病或艾滋病”只比5分钟前单独搜索“艾滋病”多检索到两个搜索结果。结果表明,这代表了刚刚添加到数据库中的两个新url。通过重新执行最初的“辅助”搜索,这一点得到了证实,它比几分钟前多检索了两个项目。

这些同样的技术可以用来评估网上免费MEDLINE网站的搜索能力[ 5].例如,“健康之门”帮助屏幕清楚地表明,药品交易和仿制药名称是相互关联的。 6),搜索商品名“安定”(valium)可以检索到606个词条,而搜索同一种药物的通用名称“地西泮(diazepam)”则多检索了6%:954个词条。

这些基准搜索在一定程度上是“网络网站”的副产品。 7],是密苏里大学哥伦比亚分校J. Otto Lottes健康科学图书馆在美国国家医学图书馆网络/中大陆地区的资助下开发的一款互联网搜索助手[ 8].用户完成一个表单,选择给定搜索所需的功能,例如区分大小写、接近搜索、嵌套等。该请求被转换为一个查询,该查询被发送到一个SQL数据库,其中包含15个搜索引擎(包括HotBot、AltaVista、Yahoo、MedHunt和Medical Matrix)的特性信息。结果是列出了最多三个最适合这些类型查询的搜索引擎,以及语法示例。完全匹配和部分匹配都包括在内,最佳匹配首先出现。例如,如果用户要求功能“嵌套”,“在#字内”和“日期搜索”,支持所有3个搜索功能的AltaVista将被列在前面。HotBot和LycosPro紧随其后,因为它们包含了3个搜索功能中的2个。每个搜索功能都有帮助屏幕,以及与医学相关的搜索示例。《Nothing But Net》每半年更新一次,网址是:http://hansel.mig.missouri.edu/engines。

附录1 默认操作符:

=耳

b =耳部感染

c =耳朵感染

如果b>a,默认操作符为“或”。

如果b

如果b 数据库的大小:

基准搜索:

关节炎、脾肿大

Stopwords

缺乏维生素A

B =维生素k缺乏症

如果a=b,“a”可能是一个停顿词;如果仅搜索“a”或“k”得到0,则它们是停止词。

区分大小写:

=艾滋病

b =艾滋病

如果a=b,搜索引擎不区分大小写。

有趣的情况:

=网

b =网

c =网

如果a≠b≠c,则支持搜索感兴趣的大小写。

阻止:

如果对occlu的搜索检索到occlusion、occlusive、occladed等,则使用自动右截断。

=肾脏

b =肾脏

如果a=b=(a OR b),则对简单复数启用词干。

=女性

b =女人

如果a=b,则使用更复杂的复数词干。

概念搜索:

=肾脏

b =肾

如果a >= (a OR b),则发生了一些概念映射。

一个=泰诺

b =对乙酰氨基酚

如果a=b,则存在某种概念映射。

最初发表于1998年3月德国医学信息学、生物计量学和流行病学协会因特网工作组"医学与因特网"上。

部分由国家医学图书馆网络/中大陆地区的拨款支持。

笔记 G 测量互联网数据库的大小 数据库 1997 11 20. 5 69 72 医学世界搜索 1999年6月7日 http://www.mwsearch.com 激发帮助界面 1999年5月5日 http://www.excite.com/Info/searching.html 医学世界搜索帮助屏幕 1999年5月11日 http://www.mwsearch.com/how_does_it_work.html 雅可布 爱德华兹 一个 格雷夫斯 R S 约翰逊 E D 评价替代MEDLINE搜索引擎的标准 医疗参考服务Q 1998 2 17 3. 1 12 99455795 HealthGate帮助屏幕 1999年5月12日 http://www.healthgate.com/help/reader.shtml 除了网络什么都没有 1999年6月8日 http://hansel.mig.missouri.edu/engines 约翰逊 艾德 格雷夫斯 R 爱德华兹 一个 雅可布 Popescu 哈特曼 T 莫克斯利 只有网络:帮助选择一个网络搜索引擎 1998 5 25 1999年6月8日 电子海报会议,医学图书馆协会年会 费城,宾夕法尼亚州 http://web.missouri.edu/~hsldiane/mlati.htm
Baidu
map