第五讲 INTERNET 信息检索
搜索引擎 ( SEARCH ENGINE)
概念及类型(一)
? 搜索引擎又称检索引擎,其英文名称有,search engine、
robot,spider,crawler,worm。广义上是指一种基
于因特网的信息查询系统,包括信息存取、信息管理、
信息检索;狭义上是指一种为搜集因特网上的网页而
设计的检索软件。现有的搜索引擎基本上分三类:
? 一种是 独立搜索引擎,如,yahoo,altavista、天网等,
特点是仅在搜索引擎自身的数据库中查询信息;
? 一种是 元搜索引擎,如:
cyber411(http://www.411locate.com)、
Mamma:mother of all search
engine(http://www.mamma.com),特点是查询时要
搜索引擎 ( SEARCH ENGINE)
概念及类型(二)
调用其他多个独立的搜索引擎,并能把查询结果进行
不同程度的处理 ;
? 第三种是 网络搜索软件,如 3W搜霸,它是由
QUARTERDECK公司研制,包括 43个著名搜索引擎,
分 8大类( GERNERAL,HEALTH等),为网站自动编
制文摘、支持布尔逻辑运算。
搜索引擎( SEARCH ENGINE)
常用搜索引擎举要(一)
? Altavista(http://www.altavista.digital.com):是
Compaq公司下属的 Altavista网络公司设计开发的,有
两种查询模式,Main search和 Advanced Search,前者
通过输入关键词即可提交检索,适用于概括检索;后
者必须运用有关标识符构建检索表达式,使用于精确
查询。
Altavista 支持布尔逻辑运算,检索表达式可容纳
800个字符。 Altavista的检索速度非常快,拥有最大的,
最详细的 URL索引。如果想进行有效的检索,最好输
入尽可能多且详细的关键词进行高级查询。
搜索引擎( SEARCH ENGINE)
常用搜索引擎举要(二)
? excite(http://www.excite.com/)是 excite公司设计开发
的搜索引擎,它主要由 Excite Search,Excite Citynet,
Excite Live和 Excite Reference组成。 Excite Search用于
关键词检索; Excite Citynet用于查看美国城市的信息;
Excite Live提供诸如运动、新闻、股市行情、电视节目、
天气预报等各种日常生活信息; Excite Reference提供
黄页、寻人、电子邮件、地图、共享软件等服务。
? Excite提供网页、新闻和视听信息的高级检索,不能使
用 +,—,()及布尔运算符。
? Excite最大的特点是采用一个被称之为, 智能概念抽取,
的专用查询软件,可通过自然语句检索网络资源,有多种
全球区域版本,
搜索引擎( SEARCH ENGINE)
常用搜索引擎举要(三)
? 天网( http://pccms.pku.edu.cn:8000/gbindex.htm),
是由北大计算机系网络研究室设计开发的,搜集的信息
范围限于国内中文网络,.查询方式分为简单查询和复杂
查询两种,运算符为,或,与,模糊匹配技术似的有拼写错
误的查询请求也能被搜索到,单骑检索结果重复较多,无
效连接也不少,
网络资源目录 (一 )
? Yahoo(http://www.yahoo.com/
? 中文雅虎( http://cn.yahoo.com)
? ( http://tw.yahoo.com)
? (http://hk.yahoo.com)
? 搜狐 (http://www.sohu.com)
网络资源目录 (二 )
? 网络资源目录 是由网络开发者将网络信息收集后,以某
种分类法进行组织整理,并和建所发集成在一起的信息
查询工具,它一般是引导网络用户的查询概念 (而不是确
切的概念 )来帮助用户找到所需的网络信息,
? 网络资源目录一般采用人工方式采集和存储网络信息,
它把采集到的新鲜主体性质进行分类,以某种分类体系
为依据,讲信息分成若干领域的主题范畴,然后再细分为
个学科专题目录,最后列出具体的相关网站,形成一个有
信息链组成的树状结构,即,总目 — 专题目录 — 链接 — 文
本,
网络资源目录 (三 )
? Yahoo(http://www.yahoo.com/,它是 WWW上最早最
最著名的目录,最流行的 web导航指南,於 1994年创立,
在主题查询方式中,Yahoo将网络信息分为 14个总类,
每个总类下链接若干小类,逐级链接,最后与相关类
目、网站、网页、新闻等相链接。 Yahoo还提供关键
词查询,有简单查询和高级检索两种方式,其中高级
检索可指定检索范围,但检索表达符仅限于 AND和
NOT两种。 Yahoo的优点:一是很好地解决了信息内
容交叉的问题;二是很好地解决了语言障碍的问题。
? 中文雅虎( http://cn.yahoo.com)
? ( http://tw.yahoo.com)
? (http://hk.yahoo.com)
网络资源目录 (四 )
? 搜狐 (http://www.sohu.com):它是爱特信公司创办的
大型中文网络系统,于 1998年正式问世,搜狐站点的
全部内容采用人工分类,提供分类查询和关键词全文
检索两种方式,收录中英文网络信息,并将其分为 18
个大类,组织形式与 YAHOO相似。其优点是反映速度
快,很好地满足了中国人的信息检索习惯。
专门检索系统(一)
? 查询地图及其相关信息
? MAPBLAST( www.mapblast.com),它是由 VICINITY
CORPORATION公司提供的免费服务站点,为用户提
供精确的交互地图和行车指南,同时提供广泛的信息
服务和指南,分为 3种方式,MAP,DRIVE和 FIND,
其中,MAP提供欧美街区及邮政编码、地图等等;
DRIVE提供行车路线指南; FIND提供地址查询。对显
示的地图可放大、缩小或打印,E-MAIL发送。
? 图行天下 — 中国地图搜索引擎( www.go2map.com)是
检索中国地图信息的检索工具可在地图上查询全国各
大城市的地图信息。
专门检索系统(二)
? 图象信息检索
? VisualSEEK--WebSEEK(www.ctr.columbia.edu/webseek/)
是由哥伦比亚大学研制,1999年即对 65万幅图象和 1万
个影象片段进行了编目,按字顺分为 20余个大类,可
检索视频、彩图、灰度图和图形。,是一个很优秀的
视频检索工具。