元搜索引擎
元搜索引擎 (Meta-search engine)是在前述搜索引擎基础上建立的可以同时查询多个搜索引擎的
WWW站点,其英文原意是搜索引擎之后或之上的搜索引擎,因而也可以叫做后搜索引擎。虽然元搜索引擎依赖其他独立搜索引擎而存在,但它们集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能,查一个元搜索引擎就相当于查多个独立搜索引擎,可以收到事半功倍的效果,
故值得选用。
按照搜索机制划分,元搜索引擎包括并行式和串行式两类,并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。
显然,并行式元搜索引擎运行模式较好,
搜索所需时间也较短。
.1 AskJeeves(http://www.askjeeves.com/)
AskJeeves提供同时搜索 AltaVista、
Excite,Yahoo,Infoseek,Lycos和
WebCrawler的功能,此外还能同时搜索自己独立的数据库。其主页如图 4.1所示。
图 4.1 AskJeeves主页
AskJeeves主页中栏有查询选择及输入框,
输入查询词后点击 Ask按钮可查。
AskJeeves的搜索功能包括,(1)支持语词搜索; (2) 支持高级搜索; (3)不支持目录搜索。
搜索类型为 Web(万维网页 ) 。
AskJeeves的 特色 是拟人化:用户向
Jeeves提问,Jeeves用,I know,..”回答。
并有反馈较快的优势。
图 4.1实例是查因特网与经济,
AskJeeves反馈的前半部分结果是从自己独立数据库查出的与查询词相关的信息,
如图 4.2 。
图 4.2 AskJeeves查“因特网与经济”的前半结果
其中可拉出选择菜单选好所需信息项后点击前方的 GoTo按钮查看具体信息。
AskJeeves反馈的后半部分结果是来自各搜索引擎的信息,这些返回结果被
AskJeeves提取标题巧妙地组织到下拉菜单中,使用户在一个页面上就能看到所有的结果。图 4.3是拉开 Yahoo!返回信息菜单的情形图 4.3 AskJeeves查“因特网与经济”的后半结果
选中信息项后点击 GoTo按钮就能直接引导至具体信息,图 4.4是选中 Internet
Industry Standard(因特网工业标准 )后引出的结果。
图 4.4 AskJeeves引至的具体信息因此,AskJeeves以拟人化和巧妙组织返回信息著称。
4.2 Cyber411(http://www.cyber411.com/)
Cyber411是并行式元搜索引擎,它可以同时调用 AltaVista,Excite,Infoseek,Lycos、
WebCrawler和
Yahoo6个独立万维网搜索引擎和 9个其他 Internet
功能搜索引擎,过去它没有任何高级搜索选项或者定制选项,只适于作为元搜索的入门,让初学者查找简单而明确的目标,但最近它正在改进,改进后的主页如图 4.5所示。
图 4.5 Cyber411主页
Cyber411主页中栏有查询选择及输入框,输入查询词后点击 SEARCH按钮可查。 Cyber411的搜索功能包括,(1)支持语词搜索; (2)高级搜索功能正在改进中; (3)不支持目录搜索。
其 特色 和 优势 是:
1) 可以选择源搜索引擎。
2) 对查出结果进行组织并指出信息源。
缺点 是高级查询功能尚不完善。
图 4.6是查因特网与宇宙 (Internet and
cosmic )的实例,这里选择了 5个万维网搜索引擎。操作步骤,1)在 Search for:下查找输入框中输入 Internet and cosmic; 2)点击
Search按钮,开始进行搜索。多个词汇作为一个统一概念查询时应该用括号括起来查。
图 4.6 用 Cyber411查“因特网与宇宙”
搜索结果如图 4.7所示。页面中列出了满足搜索要求的 Web网点。第一个响应的搜索引擎一出现,就很快能得到只包含每个页面标题的搜索结果,而结果页面的其他部分会在接收搜索结果时载入。
图 4.7 用 Cyber411查“因特网与宇宙”结果
点击有下划线的相应链接即可引导去结果网点。
由于 Cyber411不能为其所查询的 15个搜索引擎中的每个引擎都转化搜索语法,
所以对于高级查询或复杂搜索来说,
Cyber411返回的结果很多与所查问题不相关。这是 Cyber411的缺陷。
4.3 DigiSearch(http://digiway.com)
DigiSearch是目前能同时调用独立搜索引擎较多的并行式元搜索引擎,它可以同时调用 AltaVista,Excite,Infoseek,Lycos、
WebCrawler,Yahoo,OpenText和
Magellen等 18个独立万维网搜索引擎、
DejaNews等 3个 Usenet搜索引擎和 Four11
等 3个个人信息和商界信息搜索引擎,其主页如图 4.8所示。
DigiSearch主页中栏有查询选择及输入框,
输入框下方可选查各种搜索引擎,输入查询词后点击 Search按钮可查。 DigiSearch的搜索功能包括,(1)支持语词搜索; (2) 支持高级搜索; (3)不支持目录搜索。搜索类型可选 Web(万维网页 ),Usenet(新闻论坛 )、
People & Business(个人信息和商界信息 )。
其 特色 和 优势 是:
1) 允许使用 *作为通配符,支持 +、
-词操作。
2) 允许设置最大搜索时间 (分钟 ),
放弃超过该时间后返回的信息。
3) 由用户自行选择调用哪些搜索引擎,查询结果按来源引擎依次排出。
缺点 是从每个独立引擎查得的结果都被不加处理地列出,甚至包括每个独立引擎的部分界面,这样就使查询结果的显示速度很慢。
图 4.8 DigiSearch主页
图 4.9是查因特网与文化 (Internet AND culture)
的实例。操作步骤,1)在搜索输入框中输入待查词,Internet AND culture,如果是多个词汇作为一个统一概念,应该用括号括起来查。 2)
在搜索输入框的右边是一选择最大搜索等待时间的下拉菜单条,我们设置了等待 2分钟。 3)
在搜索输入框的下部是 18个可以用于同时选择调用的独立搜索引擎的复选图标,我们可以选择其中的几个来同时调用,如这里选择了
Lycos,Alta Vista和 Infoseek,方法是在相应引擎图标左上角中的小框内用鼠标点击,出现
,ü”即表示被选用。不选时系统约定调用
Infoseek,Lycos和 AltaVista。 4)点击,Search”
开始搜索。
图 4.9 用 DigiSearch查“因特网与文化”
系统搜索结果如图 4.10,先显示搜索的结果列表中的第 1项到第 20项,依次点击,Next
Page”行上的,2”,,3”,…,可继续查看后面的第二个、第三个 20项,… 。找到自己需要细看的项后,可以点击此项的链接
(下划线 )部分,进入相应的页面阅读详细内容。
图 4.10 用 DigiSearch查“因特网与文化”的结果片段
DigiSearch主页左下方还列有三个搜索新闻组、三个搜索个人地址和商业黄页搜索引擎图标,如图 4.11所示。
用户可以象前面选用 WWW搜索引擎一样,选用它们来实现其它相应 Internet功能的搜索。
图 4.11 DigiSearch主页的下面部分由于调用的独立搜索引擎较多,DigiSearch只要改进对返回结果的处理方式,就将会成为一个较好的元搜索引擎。
4.4 Dogpile(http://www.dogpile.com/)
Dogpile是目前性能较好的并行式元搜索引擎之一,它可以同时调用 25个 Web
Search Engine,Usenet Search Engine、
FTP Search Engine等,其中 Web Search
Engine 14个。其主页如图 4.12所示。
图 4.12 Dogpile主页
Dogpile主页中栏有查询选择及输入框,
输入框下方可选查 The Web,Usenet,FTP
等,默认查 Web,输入查询词后点击 Fetch
按钮可查。 Dogpile的搜索功能包括,(1)支持语词搜索; (2) 支持高级搜索; (3)不支持目录搜索。搜索类型缺省为 The Web(万维网页 ),也可查 Usenet(新闻论坛 ),FTP(文件资源 )等。
其 特色 和 优势 是:
1) 采用独特的并行和串行相结合的查询方式:首先并行地调用 3个搜索引擎;如果没有得到 10个以上的结果,则并行地调用另外 3个搜索引擎,如此重复直到获得至少 10条结果为止。
2) 可使用布尔算符和模糊查询。 Dogpile
的搜索技术十分先进,即使是高级运算符和连接符,它也能将其转化为符合每个搜索引擎的语法。可以使用 *作为通配符,支持 +,-词操作。
3) 可设置最大查询时间。但与 DigiSearch
不同,Dogpile的查询时间是按秒计算的。
缺点 是不允许选择使用哪些独立搜索引擎。
图 4.13是查因特网与哲学 (Internet and
philosophy)的实例。操作步骤,1)在搜索输入框中输入待查词,如果是多个词汇作为一个统一概念,应该用括号括起来查。 2)通过搜索类型栏选择查询 The Web,Usenet,FTP等类型的 Internet
信息,这里用缺省类型 The Web。 3)在 Wait a
maximum of _____Seconds.(搜索等待时间 )下拉菜单中,设置搜索等待时间,这里选了 20秒。 4)
点击,Fetch(取 )”开始进行搜索图 4.13 用 Dogpile 查“因特网与哲学”
系统首先从最常用的 Yahoo开始搜索,逐步到范围最广的 AltaVista,每次搜索三个网点。显示的搜索结果是按网点分组的,所以在找到最合适的网点之前,可能要浏览许多内容。
Dogpile的搜索结果返回较快,而且对一般搜索而言通常是较准确的。图 4.14是查,因特网与哲学,找到的首批结果,Yahoo中有 44项与搜索要求相匹配。先显示前 20项。找到自己需要细看的项后,可以点击此项的链接 (下划线 )部分,进入相应的页面阅读详细内容。
图 4.14 用 Dogpile查“因特网与哲学”反馈结果查询的质量良好和搜索类型全面已使 Dogpile成为较著名的元搜索网点。
4.5 Highway61(http://www.highway61.com/)
Highway61是并行式元搜索引擎,可以同时调用 AltaVista,Excite,Infoseek、
Lycos,WebCrawler,Yahoo 6个独立引擎,
并将它们传回的结果进行排序,显示给用户。其主页如图 4.15所示。
图 4.15 Highway61主页
Highway61主页中栏有查询选择及输入框,输入查询词后点击 Search按钮可查。 Highway61
的搜索功能包括,(1)支持语词搜索; (2) 支持高级搜索; (3)不支持目录搜索。搜索类型限定为 Web(万维网页 )
其 特色 是:
1) 提供 AND和 OR两种逻辑组合选择。
2) 用户每次查询的参数会存在,cookie”
中,下次查询时会自动设置好。
3) 对查出结果进行组织,按页面评分排序,
并在查询结果中指出信息源。
缺点 是查全性能和查准性能都不理想。
图 4.16所示是查因特网和信息高速公路 (Internet
and information highway)的实例。搜索时,在搜索输入框中输入待查词,如果是多个词汇作为一个统一概念,应该用括号括起来查。使用布尔运算符的方法是选用搜索输入框下的布尔单选项,
这里选用,And”(与 )。也可以设置等待各搜索引擎的时间长短,但节省时间的选项可能是以降低搜索结果的质量为代价的。
图 4.16 用 Highway61查“因特网和信息高速公路”
点击 Search按钮后,搜索结果如图 4.17所示。
图 4.17 用 Highway61查“因特网和信息高速公路”反馈结果虽然结果页面组织得还比较好,但它使用的是按每一页的结果评定可信度分数的奇特排名系统,而不是从整个查询结果的角度为结果评