在过去的几年中,我们看到了万维网(WWW)搜索引擎的激增,以及面向卫生保健专业人员需求的专业主题目录的增长。然而,关于搜索范围、覆盖范围和搜索功能的文档最多也就是参差不齐;甚至记录在案的搜索功能也可能不像宣传的那样。本文将提供一组示例搜索,以帮助用户测量数据库大小,确定默认搜索操作符,并测试高级搜索功能,如大小写敏感性、词干和英语网站上医学主题的概念映射。
万维网(World Wide Web, WWW)搜索引擎所使用的软件持续快速发展,跟上搜索功能的步伐是一项永不停歇的任务。搜索引擎,如
更让人困惑的是,有时搜索引擎并不像宣传的那样运行。在其他情况下,搜索引擎似乎故意对其搜索软件或排名算法的内部工作方式含糊其辞,因为他们认为这些信息是专有的。
了解引擎如何组合搜索词对有效搜索至关重要。许多搜索引擎,特别是在基本或新手模式下,使用模糊逻辑,其中所有搜索词都与布尔或相链接。这有时被称为“匹配任何术语”。这说明了从一些搜索引擎返回的大量结果。
可以通过执行一些简单的搜索来确定默认操作符。首先,输入一个搜索词并记录检索:最近对单词“ear”的搜索
如果第二次搜索检索到的结果数量少于第一次搜索,则默认操作符可能是AND。在北极光上搜索“耳朵”可以检索到959,152页,而“耳朵感染”可以检索到55560页。较小的结果表明默认操作符可能是AND;然而,它也可能进行更狭窄的搜索,只检索带有确切短语“耳朵感染”的页面。要确定默认操作符是AND还是邻接,请将这两个词颠倒过来进行第三次搜索:“感染耳朵”。如果检索与第二次搜索相同,就像Northern Light一样,默认操作符几乎肯定是AND。如果搜索结果不同,则默认可能是邻接操作符,或者精确短语搜索。
停顿词或干扰词在搜索中也会有问题。有些搜索引擎甚至会索引最小的单词,包括“a”和“the”。其他人有一个没有索引的停止词列表;这些名单通常没有公布。测试停止词存在的一种方法是搜索“维生素a缺乏”和“维生素k缺乏”,并比较检索结果。在Excite中,这两种搜索都检索了96,794个条目,这表明单个字母确实是停止词。另一个测试停止词的方法是单独输入搜索词;事实上,在Excite上搜索“a”没有任何结果。
搜索引擎似乎特别容易夸张的一个领域是他们对数据库大小的声明。以下是一些出现在搜索引擎网页上的说法,有的是现在的,有的是过去的:
“Excite Search,互联网上最全面的搜索工具……”
“AltaVista让你访问最大的网络索引……”
来自Hotbot:“……世界上最大、最完整的互联网文档索引。”
不止一个搜索引擎吹嘘自己的数据库是万维网上最大、最完整的。即使提供了数据库大小的实际数字,它们也可能具有误导性,难以进行比较。一个搜索引擎可能声称它的数据库拥有最多的url;但是,如果数据库包含许多重复项,这个数字可能会被人为地夸大。这些url中有多少表示不再存在的页面?另一个搜索引擎声称自己是最大的,可能是基于其以tb为单位的数据库规模[
医疗术语基准搜索结果,1999年春季
|
|
|
|
|
|
关节炎 | 40191年 | 138080年 | 311810年 | 1992年 | 3261年 |
脾肿大 | 751 | 185 | 194 | 123 | 471 |
提醒一句:确定网络搜索的点击率并不总是那么容易。在Excite中,用户必须向下滚动页面才能显示点击数。在HotBot中搜索热门词汇时,点击数不会出现在结果的第一页,只会出现在后续页面。在1998年的某个时候,Lycos从他们的屏幕上完全删除了检索到的点击量,因此没有办法使用这样的基准搜索来评估相对大小。比较一些较大的医学目录中的医学术语检索与搜索引擎结果也具有启发意义。医学世界搜索,其数据库有“近10万”页[
通常,大写字母的出现,或大写字母和小写字母的组合,传达了健康科学术语的特定含义。当搜索有关“艾滋病”的信息时,如在获得性免疫缺陷综合征中,搜索者不希望同时检索有关听力“艾滋病”的信息。通常情况下,如果搜索引擎识别大小写,它将同时检索大小写来响应小写查询(例如,aids或aids),但如果以这种方式输入查询,则只检索大写(例如,只有aids)。为了测试大小写敏感性,搜索同一个单词两次:一次用大写,一次用小写,然后比较结果。如果在两次搜索中检索到相同数量的项,则搜索引擎不区分大小写。
执行一个额外的搜索将测试搜索只包含大写字母和小写字母的特殊组合的术语的能力;这有时被称为“有趣的案例”。医学领域一个有趣的例子是MeSH,指的是国家医学图书馆出版的医学主题标题。在HotBot中,搜索“mesh”可以检索到175,950个项目;“MESH”检索7180;但“MeSH”检索5480。
在大多数搜索引擎中,你输入什么就会得到什么;不多不少。引擎对输入的内容进行文字搜索。对此有两个可能的例外:词干和概念搜索。
使用词干词干的搜索引擎会自动检索一些词尾不同的单词。最简单的形式是自动右截断,搜索“germ”也会检索到“germ”、“germinate”甚至“german”。雅虎使用这种词干。其他搜索引擎更有选择性地搜索,也许搜索一个单数单词也会检索到复数形式;例如,搜索“child”检索到的是“children”,而不是“childhood”。为了通过自动右截断测试第一种词干,搜索一个词干,比如“occlu”,看看是否检索到了“occlusion”、“occlded”等。第二种词干更难评估。搜索带有或不带有“s”的简单复数,然后使用两个与“OR”相连的词进行搜索:首先搜索“kidney”,其次搜索“kidney”,然后搜索“kidney OR kidney”。如果所有三次搜索都返回相同的命中数,则操作的是单复数词干。要测试更复杂的词干,试试不规则复数:woman vs. women, child vs. children, person vs. people。 If results are the same, the stemming is more sophisticated.
一些搜索引擎,特别是Excite和Magellan,声称能够进行概念搜索。用户输入一个单词,搜索引擎不仅搜索这个特定的单词,还自动在搜索中包含同义词。不幸的是,该功能并不总是针对医学术语进行优化。一种方法是搜索一个词,如“肾”,记录结果,然后搜索一个医学同义词,如“肾”,记录结果,然后搜索“肾或肾”,将两者合并。如果最后一个搜索比第一个或第二次搜索检索到更多的条目,那么可以推测,概念映射在医学词汇领域是弱的,或者可能不存在。
Excite搜索包含您在“搜索”框中输入的确切单词的文档。但这还不是全部。Excite将搜索技术向前推进了一步:不仅是单词,Excite还搜索与您查询的单词密切相关的想法。
例如,假设您搜索“老年人的财务问题”。搜索引擎除了能找到包含这些确切词语的网站外,还能找到提及退休人员经济状况和老年人财务问题的网站[
概念映射在麦哲伦和Excite的测试结果,1999年春季
|
|
|
肾 | 1354年 | 28494年 |
肾脏 | 2349年 | 49424年 |
肾还是肾 | 2509年 | 67223年 |
一个有趣的脚注:Excite和Magellan在解释它们的概念搜索功能时使用了几乎完全相同的措辞和例子,尽管这些样本搜索的结果表明这两个引擎的性能完全不同。唯一的解释是,Excite现在拥有Magellan,尽管后者仍然作为一个独立的搜索服务运行,具有自己的外观、感觉和功能,但它并没有真正解释这一点。
有一个专门针对医疗受众的搜索引擎,它具有相对复杂的概念映射功能:医学世界搜索(http://www.mwsearch.com)。不管搜索的是“对乙酰氨基酚”还是“泰诺”,对其主要医学网站的10万个条目数据库进行搜索,都会得到762个条目,因为查询使用了来自国家医学图书馆统一医学语言系统的词汇。
在应用这些基准搜索时需要注意两点。首先,它们只是确定搜索引擎行为的启发式方法,并不能在所有情况下提供搜索功能存在或不存在的明确证据。其次,如果在数据库更新期间运行这些基准搜索,结果可能只会有一两次不同。例如,一天晚上,当测试AltaVista的大小写敏感性时,“艾滋病或艾滋病”只比5分钟前单独搜索“艾滋病”多检索到两个搜索结果。结果表明,这代表了刚刚添加到数据库中的两个新url。通过重新执行最初的“辅助”搜索,这一点得到了证实,它比几分钟前多检索了两个项目。
这些同样的技术可以用来评估网上免费MEDLINE网站的搜索能力[
这些基准搜索在一定程度上是“网络网站”的副产品。
=耳
b =耳部感染
c =耳朵感染
如果b>a,默认操作符为“或”。
基准搜索:
关节炎、脾肿大
缺乏维生素A
B =维生素k缺乏症
如果a=b,“a”可能是一个停顿词;如果仅搜索“a”或“k”得到0,则它们是停止词。
=艾滋病
b =艾滋病
如果a=b,搜索引擎不区分大小写。
=网
b =网
c =网
如果a≠b≠c,则支持搜索感兴趣的大小写。
如果对occlu的搜索检索到occlusion、occlusive、occladed等,则使用自动右截断。
=肾脏
b =肾脏
如果a=b=(a OR b),则对简单复数启用词干。
=女性
b =女人
如果a=b,则使用更复杂的复数词干。
=肾脏
b =肾
如果a >= (a OR b),则发生了一些概念映射。
一个=泰诺
b =对乙酰氨基酚
如果a=b,则存在某种概念映射。
最初发表于1998年3月德国医学信息学、生物计量学和流行病学协会因特网工作组"医学与因特网"上。
部分由国家医学图书馆网络/中大陆地区的拨款支持。