搜索引擎
搜索引擎 (Search Engine)是 Internet上具有查询功能的网页的统称,目前已多达数百种,包括 Web Search Engine(万维网搜索引擎 ),Usenet Search Engine(新闻论坛搜索引擎 ),YellowPage Search
Engine(黄页搜索引擎 ),WhitePage
Search Engine(白页搜索引擎 ),Meta-
Search Engine(元搜索引擎 )等类型。本章将依次介绍这些搜索引擎。
在具体介绍搜索引擎之前,先将表述搜索引擎功能和性能的几个术语含义阐述如下:
(1)简单搜索 (Simple Search):指输入一个单词 (关键词 ),提交搜索引擎查询,这是最基本的搜索方式。
(2)词组搜索 (Phrase Search):指输入两个单词以上的词组 (短语 ),提交搜索引擎查询,
也叫短语搜索,现有搜索引擎一般都约定把词组或短语放在引号“”内表示。
(3)语句搜索 (Sentence Search):指输入一个多词的任意语句,提交搜索引擎查询,这种方式也叫任意查询。不同搜索引擎对语句中词与词之间的关系的处理方式不同。
(4)目录搜索 (Catalog Search):指按搜索引擎提供的分类目录逐级查询,用户一般不需要输入查询词,而是按照查询系统所给的几种分类项目,选择类别进行搜索,也叫分类搜索 (Classified Search)。
(5)高级搜索 (Advanced Search):指用布尔逻辑组配方式查询,也叫定制搜索。常用的逻辑运算为 AND(和 ),OR(或 ),NOT(非 ),对 A,B两词而言,A AND B是指取 A和 B
的公共部分 (交集 ),A OR B是指取 A和 B的全部 (并集 ),A AND NOT B是指取 A中排除
B后的部分,其中 NOT只作用于一个词,故称为一元操作符,其余作用于二个词,故称作二元操作符。 A,B本身为多词时,可以用括号 ()分别括起来作为一个逻辑单位。
此外,还有 NEAR(邻近 )算符,A NEAR B表示 A词与 B词之间相隔不超过 n 词,n 的具体值各引擎要求不一,WebCrawler则直接要求用 NEAR/n形式指明。
上述前三种搜索方式可以合称为语词搜索 (Word Search),与高级搜索和目录搜索一道构成三类常见搜索方式。
在所有搜索方式中,还可使用通配符,就象 DOS文件系统用 *作为通配符一样,通配符用于指代一串字符,不过每个搜索引擎所用的通配符不完全相同,大多用 *或?,
少数用 $。
不少搜索引擎还支持加 (+)、减 (-)词操作。具体特性将在介绍具体搜索引擎时叙述。
下面就分别介绍各类 Search Engine。
3.1 Web Search Engine(万维网搜索引擎 )
这里主要介绍功能较完善、性能较优良、较有实用价值的八大万维网搜索引擎,AltaVista,Excite,HotBot、
Infoseek,Lycos,NLSearch、
WebCrawler和 Yahoo。
3.1.1 AltaVista(http://www.altavista.com/)
AltaVista是 DEC公司 1995年 12月推出的万维网搜索引擎,其主页如图 3.1所示。至 1997年底,AltaVista标引的 URL近 6000万。
AltaVista主页上栏是 AltaVista标志和热点信息,中栏是经常变化的广告信息,Search后是查询选择及输入框,在输入框中输入查询词,再点击 search按钮就能进行查询。 AltaVista的搜索功能包括,(1)支持语词搜索,性能一般; (2) 支持高级搜索,性能优良; (3)不支持目录搜索。搜索类型可以选择 the Web(万维网页 )
或 Usenet(新闻论坛 )。
其 特色和优势 是:信息范围广泛,查全性能较好,提供多语种信息查询支持。
缺点,误检率高;虽有 Usenet搜索能力,但性能较差。
AltaVista使用 *作为通配符;支持 +,-词操作,允许包含或者排除关键词;在高级搜索功能中提供了大量的选项,包括布尔运算符、嵌套、近似搜索和有日期限制的搜索等。
无论是语词搜索还是高级搜索,都允许将搜索限制到页面元素,例如标题 (页名 )或 URL,或者甚至可以限制到某个域 (系统名 )
或 Web网点。
AltaVista对大小写字母敏感,当输入的查询词是大写字母时,
AltaVista只查大写字母;而当输入的查询词是小写字母时,
AltaVista同时查大小写字母。
下面是进入 Altavista系统后的具体查询实例。
(1)简单查询:图 3.2是查询管理信息系统 (MIS)的情形。在 Search后的搜索类型选择框中选择,the Web”查找有关 MIS介绍的主页,在查询词输入框中输入,MIS”,用鼠标点击,search”按钮,开始搜索图 3.2 用 AltaVista查,MIS”
查询后反馈结果如图 3.3所示。
图 3.3 用 AltaVista查,MIS”反馈结果
一共找到 35402项 Web主页中含有 MIS相匹配的结果列表。结果列表中,分别列出了 Web主页的主题、内容提要、可查的 URL、文章的大小、日期及使用的语言等。其中第一项如下:
1,ansa-shoes MIS page 1
Page No:MIS-1,Previous Page,Next Page,AA351
AA407,AA408,AA413,AA417,AA501 AA503..,
http:/www.ks.com.tw/english/ansa-MISpage1.htm -
size 6K -30-Oct-97
页面中带蓝色部分,如 ansa-shoes MIS page 1、
http:/www.ks.com.tw/english/ansa-MISpage1.htm 等表示是链接到带有该内容的 Web服务器。可以直接点击这些链接进入相应网页查看具体内容。
(2)词组查询
为了进行有效的搜索,可以输入描述主题的尽可能多而精确的词或词组。提供的词或词组越精确,搜索的结果就越好。 AltaVista对于详细查询和搜索很专业的术语方面很有优势。
两个单词以上的词组查询用,”标示;多项单词或词组之间用;隔开表示是同时并列查询。
图 3.4是关于计算机通讯 (“computer
communicat*”)的查询实例,AltaVista使用通配符 *截词,communicat*包含了 communication,
communicating,communicate等情形。注意
,computer communicat*” 和 computer
communicat*的区别:输入,computer
communicat*” 是将 computer communicat*作为一个统一词组去查,而输入 computer
communicat*则是查出只要有 computer或
communicat*之一就符合要求。
图 3.4 用 AltaVista查“计算机通讯”
点击 Search查询后反馈结果见图 3.5。一共找到 34163项 Web网页的主题与,Computer Communicat*”有关的结果。
图 3.5 用 AltaVista查“计算机通讯”反馈结果
按照搜索结果,AltaVista动态地生成一份主题列表,可以在列表中选择需要的或排除不需要的主题。 词前加 + 和 - 号分别表示需查词和不查词。如果要在上例中增加查卫星 (Satellite)而不查电话
(Telephone)的内容,可以用 +satellite和 -
telephone的方法,注意用“;”将增减词隔开,“;”后应空一格,如图 3.6所示。
图 3.6 用 AltaVista查“计算机通讯 (含卫星而不含电话 )”
点击 Search查询后反馈结果见图 3.7
图 3.7 用 AltaVista查“计算机通讯 (含卫星而不含电话 )”反馈结果一共找到 610412项网页主题既有,Satellite”又有,Computer Communicat*”的结果。
此外,AltaVista还支持字段查询,支持的主要字段包括 host:(主机名 )、
keyword:(关键词 ),subject:(主题 )、
summary:(提要 ),text:(正文 ),title:(题目 ),url:(Web网址 )等,具体格式是先输入字段名:,然后输入待查词,图 3.8是在关键词字段中查遗传工程 (genetic
enginnering)的实例。在搜索的输入框中输入,Keyword:”genetic engineering””。
图 3.8 用 AltaVista在关键词字段查“遗传工程”
点击 Search查询后反馈结果见图 3.9
图 3.9 用 AltaVista在关键词字段查“遗传工程”反馈结果

一共找到 152175个页面关健词中含有
,genetic engineering”的文章。其中第一项如下:
1.No Title
To Keywords,University of Connecticut Health
Center,Keyword/Faculty,
Genetic Engineering,Rajan,T.V.Updated 5/95.
http://cortex.uchc.edu/~coopres/kfgeneng.html -
size 474 by bytes -24-
May -95- English - Translate
有下划线的项目为可链接项。
3)任意查询
特别地,可以输入任意词查询,例如可以提出“如何开飞机” (How to
drive an aeroplane?)之类的问题,见图
3.10。 AltaVista约定任意搜索时各词之间的逻辑关系为 OR。
图 3.10 用 AltaVista查“如何开飞机”
点击 search(搜索 )按钮后,找到 692000篇与,How to drive
an aeroplane?(如何开飞机 )” 有关的文章,见图 3.11。
图 3.11 用 AltaVista查“如何开飞机”反馈结果当然,这些结果只是其中含有 How,Aeroplane之一而已
(4)高级查询
AltaVista的高级查询功能所支持的布尔逻辑组配包括逻辑与 (用 AND或 and或 &表示 )、逻辑或 (用 OR或 or或 |表示 )、逻辑非 (用 NOT或 not
或!表示 )以及邻近 (用 NEAR或 near或 - 表示 ),
A NEAR B是指 A和 B两词之间相隔不超过 10个字符。从 Altavista的搜索主页上,选击查询输入框右下角的 Advanced Search链接项即进入高级查询界面。如果要从高级查询界面退回到简单搜索界面,则只要点击查询输入框右下角的
Simple Search链接项即可。由界面可知其还能设置日期范围,限定搜索语种等以提高搜索效率。如果要查“因特网与学术图书馆或学校图书馆(不包括公共图书馆)”方面的 Web信息,
可输入 Internet and (“academic library” or,school
library”) and not,public library”,见图 3.12。
图 3.12 用 AltaVista查“因特网与学术图书馆或学校图书馆 (不包括公共图书馆 )”
点击 search(搜索 )按钮后,找到 11586篇与,Internet and
(“academic library” or,school library”) and not,public
library” 有关的文章,反馈结果见图 3.13。
图 3.13 用 AltaVista查“因特网与学术图书馆或学校图书馆(不包括公共图书馆)”反馈结果
AltaVista的另一特色是提供所查信息的语种选择,选择方法如图 3.14所示。
图 3.14 AltaVista提供的语种选择例如可以选择查中文,图 3.15是查中国教育 (Chinses
Education)的实例。注意这是指查出的信息是中文,输入的查询词仍要求用英文。
图 3.15 查“中国教育 (中文信息 )”的实例。
结果见图 3.16。
图 3.16 查“中国教育 (中文信息 )”的返回结果
各链接项指向的信息均为中文。
AltaVista是按字母顺序排列的第一个搜索引擎,故这里对其每一种功能都列举了实例,只要掌握了 AltaVista,其他搜索引擎的使用方法可以触类旁通,
故后面的搜索引擎介绍将从简,侧重强调其特色部分。
3.1.2 Excite(http://www.excite.com/)
Excite是由斯坦福大学 1993年 8月创建的
Architext扩展而成的万维网搜索引擎,它能为简单搜索返回很好的结果,并能提供一系列附加内容,尤其适合经验不多的用户使用。用户可以查找网上的 Web,Usenet,NewsGroup或分类区。在同一个搜索框内可以输入简单的或高级的搜索策略,可以使用自然语言和布尔运算符。其主页如图 3.17所示 (每次进入略有变化 )。至 1997年底,Excite标引的 URL已达 5000
万以上。
图 3.17 Excite主页
Excite主页中栏 Excite Search下为查询选择及输入框,隐含查 Web,
可以选查 People Finder(个人信息 ),Yellow Pages(黄页信息 )、
Stock Quotes(股票指数 ),Maps(地图 )等项目,在输入框中输入查询词,点击 Search按钮即可查询。下栏是 Excite分类目录,上方有
News(新闻 ),Stock(股票信息 ),Free Email(免费电子函件 )、
Weather(天气 ) 等快捷键。 Excite的查询功能包括,(1)支持语词搜索,性能良好; (2) 支持高级搜索,性能一般; (4)支持目录搜索,
性能良好。搜索类型缺省为 Web(万维网页 ),也可查 Usenet(新闻论坛,选 News进入 ),Business(商用信息,选 Yellow Pages进入 )
和 People(个人信息,选 People Finder进入 )。
其 特色和优势 是:对查出信息的组织精良,自身提供的信息优良,尤其是具有智能拓检功能。
缺点 是:高级查询功能不佳,不能使用通配符。
Excite要求人名和公司名等专有名词第一字母必须大写。布尔逻辑组配包括逻辑与 (用 AND)、逻辑或 (用 OR)、逻辑非 (用
NOT),注意 Excite中 AND,OR,NOT不能小写。支持用括号来构成逻辑组。也可以使用词前加 + 和 - 号来表示需要查的词和排除不需要查的词的操作。
下面主要介绍进入 Excite系统后的几种有特色的高级查询功能的过程及结果:
(1) 高级查询
图 3.18是关于计算机与材料或能源
(computer AND (material OR energy))的查询实例。在搜索输入框内输入了 computer
AND (material OR energy),是一个既含布尔运算符、又含逻辑组 (带括号来构成逻辑组 )的搜索条件。用鼠标点击 Search
按钮,进行搜索。
图 3.18 用 Excite查“计算机与材料或能源”
反馈结果见图 3.19,它是按与所查课题相关百分比高低排列,每次显示 10个网页标题,URL
及网页的摘要 (Summary),用户可以从中看出哪一个网点与需求关系最密切。显示第一个 10
个结果之后,用鼠标点击此页面下边的,Next
Results”按钮,可继续显示第二个 10个检索结果、第三个 10个检索结果等。页面中带蓝色部分,如“网页标题”及,More Link This:”都能链接相应的带有该内容的 Web服务器。可以在列表中选择需要查看的网页,点击相应网页标题的蓝色部分,进入该系统查看其内容。
图 3.19 用 Excite查“计算机与材料或能源”反馈结果
(2)智能查询
Excite最大的特色是具有一定“智能”,表现在找到一个所需条目时,选击其下方的 More Link This:右边下划线部分,即可以以此条目为模本拓检。模本拓检就是说以此项内容为参考模板,
查找网上信息与此内容相近的 URL地址及内容列表。 如对上例第一项:
86% E&E Web Page
URL,http://eande.lbl.gov/EE.html
Summary,The Energy & Environment Division is a primary research
partner
of the California Institute for Energy Efficiency (CIEE),an innovative
R&D
partnership of California utilities,energy agencies,and research
institutions,
The Division’s Washington,D.C.Project Office enhances
communication
between the Division,the U.S.Department of Energy,and other
Weshington-
based agencies.
选击 Move Like This后链接部分即进行拓检,拓检结果如图 3.20所示。列出了与该网点类似的网页。
图 3.20 用 Excite查“计算机与材料或能源”的拓检结果
(3) 分类查询
Excite提供一些特殊项目的分类索引以便作快速目录查询。这些特殊项目见图 3.21。有:
Autos(汽车:买汽车、跑车等 ),Busines &
Investing(商业和投资 ),Careers & Education(职业与教育:工作列表,大学 ),Computers &
Internet (计算机与 Internet),Entertainment(娱乐:
电影,音乐,电视 ),Games(游戏 )、
Lifestyle(生活 ),My channel (个人主页 )、
News(新闻 ),People & Chat(聊天场所 )、
Shopping(购物:便宜货、衣服、乐器 )、
Sports(运动:蓝球、足球、曲棍球 ),Travel(旅游 )等。所以用户可以利用 Excite的分类进行快速查询。
图 3.21 Excite分类查询类别例如,如果要查商业和投资方面的信息,可以直接点击 Bussiness & Investing(商业与投资 )选项进入,如图
3.22所示。
图 3.22 从 Excite分类选 Bussiness & Investing结果然后可以根据需要自行深入选择、逐级查询,最终可得查询结果

(4)Power Search
Excite还提供叫 Power Search的搜索功能,从主页上
Search按钮旁选 Power Search点击进入,见图 3.23。
图 3.23 Excite提供的 Power Search功能
注意 Power Search与高级搜索功能不同,
它不要求用 AND,OR,NOT将查询词组合起来,而是直接将要查的词输入 CAN contain后的输入框,并将必须包含的词输入 MUST contain
后的输入框、将要排除的词输入 MUST NOT
contain后的输入框,另外还提供一系列选择。
适合普通用户使用。
返回
3.1.3 HotBot(http://www.hotbot.com/)
HotBot是万维网搜索引擎的后起之秀,它具有第一流的高级搜索功能和新闻论坛搜索功能、图形化的搜索工具以及一系列的过滤选项,无论对于初学者还是高级用户都是一种很好的工具。至
1997年底,HotBot标引的 URL已达 5400
万。其主页如图 3.24所示。
图 3.24 HotBot主页
HotBot主页左栏是查询类型选择,缺省查 Web,可选查 Usenet,Businesses,People,Email Addresses等,中栏是查询选项及输入框,可以用鼠标对其中的项目进行选择设置。在输入框中输入查询词,点击 SEARCH
按钮即可查询。右栏是广告和热点信息。 HotBot的搜索功能包括,(1)支持语词搜索,性能良好; (2) 支持高级搜索,性能优秀; (4)支持目录搜索,性能良好。搜索类型缺省为 Web(万维网页 ),也可查 Usenet(新闻论坛 ),Businesses(商用信息 )和 People(个人信息 )等。
其 特色和优势 是:高级搜索功能优良,尤其是支持目录搜索后的深入高级搜索。
美中不足 的是页面色彩深重,不过习惯成自然。
HotBot对大小写字母敏感。 可以使用通配符 *截词;
词前加 + 和 - 号分别表示需查词和不查词;,”和;
分别指单词查询和短语查询。
(1)高级查询
HotBot的高级查询支持布尔逻辑组配,包括逻辑与 (用 and表示 ) 逻辑或 (用 or表示 ) 逻辑非
(用 not表示 ),查 Internet和 Java 或 Visual C++的实例见图 3.25。在 look for的查询方式的下拉菜单中有,all the words (所有词,即要包括输入的所有词,词与词之间是与的关系 ),any of the
words(任何词,即只要有输入词中任一词就表示已满足条件,是或的关系 ),exact phrase(精确词组 ),the page title(页面标题 ),the
person(找个人信息 ),links to this URL(找链接 )、
Boolean phrase(布尔短语 )。这里应选用,The
Boolean phase (布尔短语 )”;在查询的输入框中输入要查的词组:,Interent and (Java or
,Visual C++”)”。
图 3.25 用 HotBot查,Internet和 Java 或 C++”
点击 Search按钮,实查后反馈结果见图 3.26。结果列出了标题、相关百分比、提要、网址和找到的日期。
图 3.26 用 HotBot查,Internet和 Java 或 C++”反馈结果
(2)超级查询
HotBot提供 Super Search功能,如图 3.27所示,具有更多查询选择:
图 3.27 HotBot的 Super Search
即可以使用简单的下拉菜单创建复杂的布尔查询,按日期、地理区域和媒体类型执行限制性搜索,并且可以设置被搜索页面的深度。还允许按域名搜索,也就是说可以输入公司的名称或 URL的一部分,以获得实际的链接。
HotBot支持自然语言查询,词间逻辑关系可以选择 AND(all the words)或 OR
(any of the words)。
3)分类查询
HotBot也提供分类主题查找方式,位于主页下方,大类情况如图 3.28所示。有
,REFERENCE(参考类 )”、
,TECHNOLOGY(技术类 )”、,CURRENT
AFFAJRS(近期情况 )”、,BUSINESS (商业类 )”、,INVESTING/FINANCE(投资和金融 )”、
,HEALTH/SCIENCE(卫生与科学 )”、
,CULTURE(文化类 )”、,MEDIA(媒体类 )”、
,REC(记录类 )”等等。在每一大类下还有一些小的分类,如技术类中就又分:,News(新闻 )”、,Computing(计算机 )”、,Downloads(下载文件 )”、,Web tools(Web工具 )”、
,Programming(程序 )”、,Organizations(机构 )”
等。用户只要根据需要从分类中找到相应的选项,点击进入就能查询。
图 3.28 HotBot分类主题
HotBot最具特色的是在这些分类项目中也有搜索引擎,例如,在图 3.28中选 Web Tools后得图 3.29。系统返回若干分项,在每一项目中,
用户都可以在搜索输入框中输入要查的词,进一步缩小范围,进行快速搜索。当找到需要的项目后,就可以在搜索输入框中输入要查的词,
点击框右边的 Search按钮,进行细查。图 3.29
是在 The Web Developer’s Virtual Library中细查
,Java Applet”的情形。
图 3.29 HotBot分类引擎
查得结果见图 3.30。找到有 76项与用户输入的词相匹配的结果,先显示 1到 10项,若要继续查看后面的第二个
10项、第三个 10项,则用鼠标点击右上角的红色箭头标志。
图 3.30 HotBot分类引擎细查结果
当然,这只是对一个特定的 URL点作专门搜索。用户可以根据自己的需要选定后进行细查。
此外,HotBot附有优良的 Usenet搜索功能,其对应的 NewsBot数据库每天都及时地更新,提供了来自大约 200个新闻网点的大量数据,值得选用。