上海理工大学电子商务研究所
设计制作:王锡俊
网络信息检索
第 二 章
第二章 网络信息检索系统
2.1 网络信息检索概述
2.2 World Wide Web( WWW) 检索系统
2.3 常用中英文搜索引擎及检索策略
2.4 网上多媒体信息检索系统
2.5 经济信息检索系统
2.6 互联网科技信息资源检索类型
2.1 网络信息检索概述
2.1.1 计算机检索特点
2.1.2 网络信息检索工具及原理
2.1.3 网络信息检索工具的发展趋势
2.1.1 计算机检索特点
? 随着计算机技术、高密度海量存储器技术和现代通信技
术的发展,计算机检索系统已经成为世界上最先进的信
息检索系统。它具有检索速度快、检索范围广而全面、
检索途径多、质量高、检索内容新等特点。由于计算机
具有上述特点,所以它广泛应用于信息管理中,如情报
信息管理、图书馆资料管理、档案馆文件管理等方面。
计算机信息检索系统能存储大量的信息,并对信息条目
进行分类、编目或编制索引;还可以根据用户要求从已
存储的信息库中调取出特定的信息,并提供插入、修改
和删除某些信息的能力。
1,计算机检索系统的发展过程
? 第一阶段,1971年以前,开始建立计算机信息检索系统,
并取得了一定的进展。这一阶段的数据存取与数据通信
能力都比较差。
? 第二阶段,1971年以后,产生并发展了联机情报检索系
统。这一阶段的特点是联机数据库集中管理,具有完备
的数据库联机检索功能,但其数据通信能力较差。
? 第三阶段,20世纪 80年代以后,出现了以 Internet为标志
的网络信息检索系统。系统大多采用分布式的网络化管
理,其信息资源的主要特点是:数字形式表达、多媒体
和多载体、内容覆盖面广、分布无序、难于规范化和结
构化、内容特征抽取复杂、用户界面要求高等。
? 第四阶段,进入 21世纪后,随着连续性语音识别技术的
不断发展,计算机信息检索系统跨入一个新的阶段。在
前三个阶段的基础上,信息检索技术正向两个新的方向
发展:一是传统信息检索向全文文本、多媒体等新型信
息检索发展,在深度上应能对提问的内容进行分析和理
解,提高查准率,探索自动抽词、自动索引、自动检索、
自动文摘、自动分类、自动翻译等解决方案,提高管理
和组织信息的能力;二是信息资源的网络化和分布化,
主要面对 Internet中浩瀚无垠的资源,提高查全率。
2,基于概念的信息检索系统
? 基于概念的信息检索是通过对文献中的原文信息进行语
义上的自然语言处理,析取各种概念信息,并由此形成
一个知识库。然后,根据对用户提问的理解,检索知识
库中相关的信息,以提供直接的回答。
( 1)概念信息检索的特性
? 概念信息检索具有分析和理解自然语言的能力。无论是
向知识库的自然语言输入,还是对系统的自然语言提问,
概念信息检索都可以通过分析和理解,得到自然语言原
文的内容。
? 概念信息检索可以对输入的原文根据其概念内容进行组
织和安排,而不是根据关键词检索。概念信息检索可以
进行语义层次上的自然语言处理,以析取相关的概念信
息和范畴知识;然后,通过记忆机制将它们存储到知识
库中,以备检索之用。
? 概念信息检索的记忆机制能够自动补充与更新。同时,
存储在知识库中的概念信息和范畴知识也能得到补充与
更新,且补充与更新的新信息与新知识能恰当地归类到
相应的范畴之中。
? 概念信息检索具有使用自然语言回答用户提问的能力。
这种能力包括从自然语言原文的概念内容中析取检索要
点,通过记忆机制检查某个特别的范畴,以获取必需的
背景知识,以及通过对知识库中存储的其它概念信息进
行分析和理解,并回答用户的提问。
( 2)概念信息检索系统的结构
? 概念信息检索系统的结构一般分为:
? 记忆机制部分。存储原文内容或概念,能自动更新。
? 语言分析机制部分。运用自然语言处理技术,从语义层
次上分析和理解文本内容及用户提问内容。
? 知识库部分。通过分析机制和记忆机制,获取关于检索
和推理的知识。
? 人机接口部分。输入原文内容及用户提问,输出自然语
言形式的检索结果。
( 3)应用系统
? CyFr系统。 CyFr系统是 Schank,Kolodner和 DeJong于
1981年根据概念信息检索理论建立的系统,用于处理与
美国前国务卿范斯( Vance)有关的新闻。
? Researcher系统。由 Lebowitz于 1983年在哥伦比亚大学研
制,用于阅读和理解用自然语言形式输入的专利文献摘
要。
? 还有由 McCune和 Tong研制的 Rubric系统,是用来检索与
恐怖行为概念有关的文献。
? 美国通用电器公司人工智能研究室的 Ran 1987年建立的
SCICOR系统、美国卡内基梅隆大学机器翻译中心 1991
年完成的 FER RET系统。
3,超文本信息检索系统
? 以超文本网络为基础的文献检索系统。正文信息是以节
点而不是以字符串作为信息的基本单元,节点间通过链
进行连接。在检索文献时,节点间的多种链接关系可以
动态地选择性激发,从而可根据思维联想或新信息的需
要,通过链从一个节点跳到另一个节点,由此形成随着
人们思维和需要的流动而构成的数据链,体现出一种完
全不同于过去顺序检索方式的联想式检索。
( 1)设计思想
? 一般是基于引导浏览的检索系统。其设计思想是:屏幕
上的窗口与数据库中的卡片相对应,卡片是数据库中的
基本信息单元,即节点。卡片间通过链路即数据库中的
指针相连接,在窗口中则以高亮度的关键字为标志。
( 2)超文本系统结构与模型
? 超文本系统结构模型主要采用 Combell,Goodman及
Dexter模型。其中 Combell与 Goodman模型都具有表现层、
抽象机制和数据库层三层结构,而 Dexter模型的结构则
为运行层、表现描述层、存储层、锚定点机制及内部组
件层五层。从描述超文本信息的组织结构来看,可分为
基于图论的模型、基于网论的模型、基于逻辑模型、基
于集论的模型。
( 3)应用系统
? 目前已建立了多个基于超文本的信息检索系统,如
AltaVista,WebCrawler,Yahoo!,Lycos,Open Text、
Infoseek等著名的网络检索系统。这些系统检索速度快,
数据资料新,具备多种查询方式,极大地方便了用户使
用 Internet,提高了全文检索的查全率。
4,计算机全文检索的进一步研究
? 全文检索( Full Text Retrieval)是指以全文本信息作为
检索对象,建立全文数据库,除了具有布尔逻辑检索功
能外,还具有文本检索功能,并允许用户以自然语言检
索,直接获得原文中的有关章节和段句。全文检索技术
应用领域主要包括:企业信息门户、媒体网站、政府网
站、数字图书馆、搜索引擎及商业网站。
2.1.2 网络信息检索工具及原理
1,网络信息检索工具发展概述
? 20世纪 70年代,开发了许多种类的情报(信息)检索软
件,形成了软件开发研究和情报科学研究的一个相对独
立的分支:情报检索。
? 随着 Internet的不断扩张,网络信息检索工具
( Networked Information Retrieval Tools)的新型检索
工具便应运而生了。
? 网络检索工具的研究与开发,使原来的“情报检索”这
一学科分支产生了新的分支“网络信息检索”( NIR,
Networked Information Retrieval)。 Internet上信息资源
的迅猛增长使主管 Internet的技术问题的 Internet 工程特
别工作小组( IETF,Internet Engineering Task Force)
对网络信息检索给予了充分重视。 IETF与欧洲科研网络
协会( RARE- Association of European Research
Networks) 和网络信息联盟( CNI-Coalition for
Networked Information)联合组建了“网络信息检索工
作小组”( NIR Working Group)。主要任务是:
? 收集和发布网络信息检索工具及其研究团体的信息;
? 鼓励合作开发网络信息检索工具;
? 协调网络信息检索工具开发单位、有关联网机构和网
络信息检索工具的生产销售厂商的行动。
? 目前在 Internet上运行的网络检索工具可分为三大类:
? 交互式信息提供服务( Interactive Information
Delivery Services);
? 名录服务( Directory Services);
? 索引服务( Indexing Services)。
? 目前在互联网运行的交互式信息服务软件主要基于
WWW和 Gopher,名录服务软件主要基于 WHOIS、
NETFIND和 X.500,索引服务软件主要基于 Archie、
Veronica,Jughead和 WAIS。交互式信息检索工具一般
为用户提供友好的交互操作界面,并具备交互浏览信息
的功能,信息在网络上的存放方式以及如何取得信息,
对使用者都是透明的。菜单式查询系统 Gopher是 Internet
上较早出现的一种交互信息查询工具。 WWW 系统是近
年来发展的最重要的一种交互信息查询工具,也是迄今
用户最多和使用最为方便的工具。
? 索引式信息检索工具是通过对信息资源文件建立的索引
查找文件的所在位置,以便用其他检索工具进一步获取
信息文件。
? 此外,Internet上还产生大量基于电子邮件交换的信息。
这类信息获取系统包括电子公告板系统、电子邮件通信
组、网络专题消息、电子刊物以及网络广告等。
2,菜单式查询系统( Gopher)
? Gopher 是一种按“菜单”形式组织的分布式文档查询系
统,1991年在美国 Minnesota大学发展起来。开始用于校
园网,后来推广到 Internet。 Gopher为用户查询信息提供
一个多级的菜单界面,只需按照菜单指示的路径就能获
取想要的信息,使用非常方便。
3,广域信息服务系统( WAIS)
? WAIS ( Wide Area Information System) 以各种文本数
据文件为检索对象(信息源),融汇了 Archie、
newsgroup等的信文件在内的各类信息。目前,Internet
上已建立了几千个提供检索服务的 WAIS服务器,成为整
个 Internet网络文本式信息资源的检索工具。
? 用 WAIS检索信息可分两步进行:第一步,先从信息源
(文件题目)列表选择检索对象;第二步,在选定范围
内通过文件的关键词查找文件。
4,网络文件搜索系统( Archie)
? 由于 Internet所包含的信息量惊人,用户很难了解某类信
息在 Internet上的分布情况,或者某个具体软件存储在哪
一个主机结点上。 Archie可以使用户能够查询信息资源
的存放地址,以便能够从特定场所的服务器中获取各种
感兴趣的或者有用的信息。
? Archie与 WAIS不同,后者除查询信息存放地址之外,还
可以进一步显示与浏览信息文件的内容。
2.1.3网络信息检索工具的发展趋势
? 目前,网络信息检索技术正在向两个方向发展:一是传
统信息检索向全文文本、多媒体等新型信息检索发展,
在深度上能对提问的内容进行分析和理解,提高查准率,
探索自动抽词、自动索引、自动检索、自动文摘、自动
分类、自动翻译等解决方案,提高管理和组织信息的能
力;二是信息资源的网络化和分布化,面对 Internet中浩
瀚无垠的资源,提高查全率。
? 网络信息检索工具的发展趋势突出表现出以下特点:
? 支持主题指南的搜索引擎。
? 增加特色服务,提供全方位的信息服务。
? 本地化服务。
? 提供多媒体检索功能。
? 多语种检索。
? 推广利用信息新技术。
? 商业化发展趋势。
2.2 World Wide Web( WWW)
检索系统
2.2.1 WWW发展简介
2.2.2 WWW上的, 搜索引擎,
2.2.3 搜索引擎的类型与特点
2.2.4 中文搜索引擎的现状及发展
2.2.1 WWW发展简介
? WWW是一种基于超文本( Hypertext)文件的交互式浏
览型检索工具。 WWW是 1989年由欧洲核物理研究中心
( CERN)的 Time Berners-Lee 提出的一个研究项目,其
目的是向国际高能物理研究界提供一个在计算网上用超
文本方式传送文件和相互进行通信的工具。 1990年底,
第一个 WWW软件被安装在一台 NeXT 机器上。用户可用
它在 Internet网上浏览、传递和编辑超文本格式的文件。
1992年以后,经过 Tim本人的不懈努力,WWW概念日益
深入人心。全世界有数百名志愿者无偿地投入开发和推
广 WWW软件的工作。
? 现在 WWW已成为全球性的软件开发项目。由于全世界
软件人员的共同努力,WWW软件不断完善,并且增加
了多媒体功能,成为具有超媒体( Hypermedia)功能的、
网上最先进的信息检索工具。由于 WWW的优异性能,
其用户数量有了“爆发性”的增长。 1996年,WWW的
通信量已稳居第一。许多原来只能通过 Telnet,Gopher、
Wais才能获得的信息现在都可以通过 WWW方便地获得。
2.2.2 WWW上的“搜索引擎”
1.“搜索引擎, 原理简介
? 在美国,搜索引擎( SEARCH ENGINE)通常指的是基
于互联网的搜索引擎,这种引擎收集互联网上几千万到
几亿个网页数量不等,并且每一个网页上的每一个词都
被搜索引擎所收录,也就是“全文检索”。典型的互联
网搜索引擎包括 AltaVista,Inktomi,Infoseek,Google
等。
? 搜索引擎起源于传统的信息全文检索理论,即计算机程
序通过扫描每一篇文章中的每一个词,建立以词为单位
的倒排文件,检索程序根据检索词在每一篇文章中出现
的频率和每一个检索词在一篇文章中出现的概率,对包
含这些检索词的文章进行排序,最后输出排序的结果。
互联网搜索引擎除了需要有全文检索系统之外,还有
“蜘蛛”( SPIDER)系统,即能够从互联网上自动收集
网页的数据搜集系统。
? 在中国,搜索引擎通常指的是基于网站目录的搜索服务
或是特定网站的搜索服务。前者如搜狐、新浪等公司开
发的网站搜索服务,后者如, 人民日报,,, 文汇报,
网站上提供的全文检索服务。
2,网络搜索引擎的发展过程
( 1) 第一代搜索引擎
1) Altavista( http://www.altavista.com/)
2) Infoseek( http://www.infoseek.com/)
3) Excite( http://www.excite.com/)
4) Lycos( http://www.lycos.com/)
( 2)第二代搜索引擎
? 只做后台技术提供者与大量应用人工智能是第二代搜索引
擎的标志。第一代的搜索引擎公司后来演变成了门户网站,
而第二代的搜索引擎厂商则成为像 Inktomi,Google那样给
网站提供技术与服务的 ASP,或是在技术上采用了人工智
能技术的厂商,如 Askjeeves,Direct hit等。第二代搜索引
擎厂商的特点是只做后台技术的提供者 。
1) Inktomi( http://www.inktomi.com/)
2) Askjeeves( http://www.ask.com/)
3) Goto( http://www.goto.com/)
4) Google( http://www.google.com/)
3,搜索引擎面临的挑战
? 搜索引擎对自然语言提问没有理解能力;
? 所有著名的搜索引擎都不支持中文或是对中文的支持极
弱;
? 搜索引擎收集的网页数量和其数据库的更新速度存在着
不可调和的矛盾;
? 搜索引擎无法与电子商务紧密结合;
? 搜索引擎对多媒体内容的处理尚不成熟。
4,新一代搜索引擎的特点
? Ask Jeeves。巧妙地将用户提问转化为系统已知的题,
然后对已知的问题进行回答,降低了对自然语言理解技
术的依赖性;
? Baidu.com。第一个为中国人写的商业化的互联网搜索引
擎,信息量大,相关性好,刷新率高,速度快;
? Goto.com。最先将拍卖的概念引入搜索引擎服务,当用
户检索某些词时,广告商可以通过竞拍使自己的网站在
搜索结果中的排名提前,这就把电子商务的概念轻松地
引入了搜索服务。
? MySimon。这是一个完全面向电子商务的搜索服务,它
对同一种商品按价格的高低进行排序;
? Ditto。这是一个多媒体的搜索引擎,目前主要提供网上
图像的搜索,已收集了超过 200 万个图像,并且大多经
过人工的筛选,因而搜索结果质量较高。
5,搜索引擎的未来
? 从 1996年起,搜索引擎技术开始注重网页质量与相关性
的结合,这主要是通过三种手段:
? 对网上的超链结构进行分析,如 Infoseek和 Google;
? 对用户的点击行为进行分析,如 Directhit(该公司被 Ask
Jeeves收购);
? 与网站目录相结合。
? 最新的趋势则是搜索的个性化和本地化:
2.2.3搜索引擎的类型与特点
? 目前发展最为迅速、最受人们欢迎的信息检索工具是
WWW(互联网)上的检索工具,主要分为两类:主题
指南和搜索引擎。其它检索工具,有 Gopher,Archie、
WAIS等,它们分别用来查询 Gopher资源,FTP资源和
WAIS资源。这些不同的工具为查询各种信息提供了多种
途径。
? 从最初的主题指南发展到独立型搜索引擎、混合式搜索
引擎、元搜索引擎乃至分布式搜索引擎,折射出搜索引
擎功能不断改进、性能日趋完善、更趋向智能化的检索
特征。
1,主题指南
? 主题指南是搜索引擎的最初表现形式。是人工建立的、
结构化的互联网网址主题类目和子类目,按照字母、时
间、地点、主题等顺序进行排列,使用户通过浏览网络
站点列表,检索有关信息。较为典型有 Yahoo!、
LookSmart,InfoMine等。主题指南由人工编制和维护,
因此在信息的收集、编排,HTML编码以及信息注解等
方面花费大量的人力和时间。它强调的是浏览功能,优
点是采用人工干预提高了主题指南返回结果的相关性;
缺点是很难检索到较深的信息,难于控制主题等级类目
的质量,信息更新速度相对较慢,收录信息数量相对不
足。
? 主题指南主要适用于:
? 用户进行笼统或较笼统的主题浏览和检索。
? 当用户尚未形成很精确的检索概念时,采用主题指南
作为检索起始点非常有效。
? 除综合性主题指南之外,为了适应网上各种类型信息
的发展变化,又出现了某些专业的主题指南,它由某
一领域的专家编制和维护,在信息准确性和易于理解
方面比综合性主题指南要好。
2,独立型搜索引擎
? 独立搜索引擎也叫关键词检索工具。这种搜索引擎实际
上是定期搜索互联网(以 WWW为主)并收集新网页信
息的计算机程序。每个搜索引擎都有自己独有的搜索系
统和一个包容互联网资源站点的独有数据库。其数据库
由称为,Robots”(或 Spiders,Crawler)的自动检索程
序建立,不需人工干预。这是它与主题指南的最大区别。
它具有检索面广、信息量大、信息更新速度快等优点,
非常适用于特定主题词的检索。但因其检索噪音较大,
为检索带来负面影响。
3,混合式搜索引擎
? 随着搜索引擎技术的不断发展,独立型搜索引擎多与主
题指南合二为一,演化为兼具有分类浏览和关键词检索
功能的混合式搜索引擎。混合式搜索引擎是目前占据搜
索引擎主导地位的一种搜索引擎,具有分类浏览和关键
词检索功能。
4,元搜索引擎
? 元搜索引擎(又称集成搜索引擎,Mega Search Engine,
Multiple Search Enginge)是一种集成化搜索引擎,它是
多个独立型搜索引擎的集合体。与独立搜索引擎的区别
在于,元搜索引擎没有自己独立的数据库,通过一个统
一的用户界面帮助用户在多个搜索引擎中选择和利用合
适的甚至是同时利用多个搜索引擎实现检索操作。
5,分布式搜索引擎
? 分布式搜索引擎是基于搜索机器人的搜索引擎。
? 其基本思想是:根据地域、主题,IP地址或其他的划分
标准,将全网划分成若干自治域,在每个自治区内分设
检索服务器。
? 由于分布式搜索引擎将索引数据库划分到几个分散的数
据库中,每个数据库变小了,但所有搜索引擎覆盖的范
围则变大了,且很少有信息重复。而作为分布式系统特
性之一的可扩充性也是分布式搜索引擎的优点之一。
2.2.4中文搜索引擎的现状及发展
1,中文搜索引擎发展现状
? 目前中文引擎共有约 80多个,可以分为两类,一类是自
由词或关键词检索搜索引擎,另一类是分类搜索引擎。
? 内码问题:由于历史原因,目前世界上使用中文的国家
与地区在中文语言的使用上有较大差别,体现在计算机
处理上也有很大不同,其中最重要的区别是采用不同的
字符集及内码体系。
? 分词问题:西文单词用空格分隔相当清晰,而此法对中
文的字词则行不通,因此就产生了不同的处理方法。一
种是完全单汉字全文检索。另外一种即根据一定的原则
和手段对文章进行自动分词,然后按词建库,对检索结
果按词汇匹配进行查询。目前的中文搜索引擎还不能很
好地解决中文名词分词这个难题,从而严重地影响搜索
引擎的查准率。
? 除了以上的两个原因之外,国内的搜索引擎技术与国外
相比差距依然很大。
? 目前国内搜索引擎能够检索 2000万个网页,而国外能做
到检索上亿个,其差距主要是在蜘蛛软件与搜索器的设
计上,而国内能够研发大容量与大访问量的系统和软件
方面的人才相当少。此外,国内有些中文网站的网页搜
索服务长期外包给一些在境外的 ASP服务器,这也是查
询速度缓慢的原因之一。
2,中文集成搜索引擎及特点
? 单个的搜索引擎只能从数据库提取信息,具有很大的局
限性。为用户创造更为便利的检索条件,必须发展性能
更优越的新型引擎搜索技术,集成搜索引擎便应运而生。
集成搜索引擎( meta-search engine),也称元搜索引擎、
多搜索引擎、索引搜索引擎等,是居于搜索引擎之上的
搜索引擎。中文搜索引擎的发展方向就是在现有的搜索
引擎的基础上运用和增设多元搜索。
? 中文集成搜索引擎是将整个互联网作为一个超大型的动
态数据库,并采用了一系列的优化运行机制,能够在尽
可能短的时间内提供相对全面、准确的信息,即使不能
完全满足用户需求,仍可以作为相对可靠的参考源进行
扩展搜索,因此逐渐成为网络信息检索的首选入口。
? 目前,有多家中文网站采用了集成搜索引擎,这些集成
搜索引擎的突出特点是:
? 智能化的中文语言处理技术大大提高了搜索的准确性
与查全率;
? 可扩展的搜索技术保证最快最多地收集网络信息,构
建大规模索引库;
? 高效的搜索算法和本地服务器保证最快的响应速度,
一个检索的平均响应时间小于 0.18秒;
? 支持动态网页的检索。
2.3 常用中英文搜索引擎及检索策略
2.3.1 常用中文搜索引擎
2.3.2 常用英文搜索引擎
2.3.3 特殊的专门搜索引擎
2.3.4 网络信息检索策略
2.3.1常用中文搜索引擎
1,搜狐
? 搜狐( http://www.sohu.com/)提供分类目录网站检索,
搜集范围以中国为主,收录较丰富,还加入了部分英文
网站,分类较科学,类目缜密。它也是第一个针对国内
中文网页的搜索引擎,此外它还包括新闻信息、多媒体
文件下载、网上调查、免费电子邮件等其他服务。图 2-1
是搜狐的主页。
图 2-1“搜狐”搜索引擎的主页
2,新浪
? 新浪( http://www.sina.com.cn/)提供分类目录、网站检
索以及全文检索,搜集范围遍及全球中文网站,收录非
常丰富;分类规范,层次合理;全文检索为 AltaVista、
IPO提供支持;但复杂条件查询较弱;可提供热门关键词
查询等新方式。图 2-2是新浪的主页。
图 2-2“新浪”搜索引擎的主页
3,网易
? 网易( http://www.163.com/)提供较丰富的分类目录、网
站检索及 FTP检索,范围以中国为主收录富,目录较严
密;提供新闻等其他服务,网易主站另有“网站导航”
栏目,分类列举推荐网站。图 2-3是网易的主页。
图 2-3“网易”搜索引擎的主页
4,263搜索
? 263搜索( http://www.search.263.net/)。属首都在线所
有,提供分类目录和网站检索,资料较丰富,复杂条件
查询功能强 ―― 可限制时间、语言(简、繁)、查询网
站或提要等,并可直达所查到的网站;另提供新闻及检
索等服务。图 2-4是 263的主页。
图 2-4“263”搜索引擎的主页
5,其他中文搜索引擎
? 天网( http://pccms.pku.edu.cn:8000/gbindex.htm)
? 悠游( http://www.goyoyo.com.cn/)
? 搜索客( http://www.cseek.com/)
? 常青藤( http://www.tonghua.com.cn/)
? 中国导航( http://www.chinavigator.com.cn/)
?,我是野虎”( http://www.5415.com/)
? 若比邻( http://www.robot.com.cn/)
? 1608搜网( http://www.1608.com/)
? hi2000( http://www.hi2000.com.cn/)
2.3.2常用英文搜索引擎
1,Yahoo!
? Yahoo!搜索引擎之王,是最早的目录索引之一,也是目
前最重要的搜索服务网站,在全部互联网搜索应用中所
占份额高达 23%左右。其数据库中的注册网站无论是在
形式上还是内容上质量都非常高。图 2-5是 YAHOO!的主
页。
图 2-5 YAHOO!的主页
2,AltaVista
? AltaVista是功能全面的搜索引擎,是最重要和功能最完
善的搜索引擎之一,属于全文搜索引擎。提供常规搜索、
高级搜索和主题搜索,主题包括图象( Images)、
MP3/Audio & Video等。允许以 25种不同的语言进行搜索,
并提供英、法、德、意、葡萄牙、西班牙语双向翻译。
其他特色服务包括重大新闻(发生于 6小时至 14天之间),
新闻组及购物查询。图 2-6是 AltaVista的主页。
图 2-6 AltaVista搜索引擎的主页
3,Excite
? Excite数据库中存有 2.5亿张网页及媒体文件,并且检索
Usenet新闻。此外还提供总数达 15万种的主题分类查询
(实际上是定制的关键词搜索)。提供常规及高级搜索。
操作界面提供了 11种语言供选择,此外还可以在国别列
表中选定某个国家或地区,以及限定域名后缀(如,cn”
或,tw”等)进行一定区域范围的搜索。 Excite提供了很
好的概念延伸查询,能列出比输入的关键词更具体的相
关领域供用户选择查询。图 2-7是 excite主页。
图 2-7 Excite搜索引擎的主页
4,Google
? Google是现在非常流行的搜索引擎之一,它具有很多独
特的优点。有关中文 Google的使用方法将在本书第五章
中介绍。
图 2-8 Google搜索引擎的主页
5,其他英文搜索引擎
( 1) LookSmart
? 也是主要的目录索引之一,向包括 MSN,AltaVista、
Excite等在内的其他搜索引擎提供搜索内容。与 ODP一样,
其注册网站在合作伙伴搜索结果中排位往往也靠前。
LookSmart在网站结构和内容上与其他目录索引大同小
异,其目录中的网站排列也是根据字母顺序。它使用
Inktomi的数据库提供二级网页搜索。图 2-8是
LOOKSMART搜索引擎的主页。
图 2-8 LOOKSMART搜索引擎的主页
( 2) LYCOS
? 搜索引擎中的元老,是最早提供信息搜索服务的网站之
一。 Lycos整合了搜索数据库、在线服务和其他互联网工
具,提供网站评论、图象及包括 MP3在内的压缩音频文
件下载链接等等。提供常规及高级搜索。高级搜索提供
多种选择定制搜索条件,并允许针对网页标题、地址进
行检索。具有多语言搜索功能,共有 25种语言供选择。
首页下部显示部分 Open Directory的目录索引。图 2-9是
LYCOS搜索引擎的主页。
图 2-9 LYCOS搜索引擎的主页
2.3.3 特殊的专门搜索引擎
1) http://dunsite.ccu.edu.tw:8080/news(新闻组搜索)
2) http://www.ist.net.tw/service/nslookup2.phtmlIP(地址查
询)
3) http://classic.prtmusic.com.tw/cd/(古典 CD搜索)
4) http://www.soundbomb.com.tw/search/search/search.htm
(世界歌手搜索)
5) http://www.commerce.com.tw/search/(商业贸易搜索)
6) http://www.look4u.com/gb/(全球华人寻人)
7) http://www.chinabig.com/chig/home.html?language=1
(中华大黄页)
2.3.4网络信息检索策略
1,基本指导思想
? 要完成一个有效搜索,首先应当确定要搜索的是什么。
? 当检索概念较泛,尚未形成一明确专指的检索概念时,
可先用主题指南的合适类目进行逐级浏览,直到发现最
相关的网址。如需进一步检索,再从这些网址中寻找合
适的检索词,利用元搜索引擎或独立搜索进行缩检。
? 当用户已知检索词,但对独立搜索引擎不熟悉或想节省
在多个独立搜索引擎之间的转换时间,可选用元搜索引
擎作试探性的起始检索,了解网上是否有相关信息以及
在哪里可找到这些信息,然后再利用独立搜索引擎进行
更全面、更深入的检索。
2,查询策略
? 不同目的的查询应使用不同的查询策略,这主要取决于
是想得到一个问题的多方面信息还是简单的答案。
? 要进行有效的搜索,最好输入与主题相关的、尽可能精
确的词或词组。提供的词组越精确,检索结果就越好。
同时,应通过不同词组的检索,逐渐缩小搜索范围。
? 在使用搜索引擎时,掌握常用搜索引擎的特性,充分利
用它们各自的优点,往往可以得到最佳及最快捷的查询
结果。
3,分步细化逐步接近查询结果
? 如果我们想查找某一类信息但又找不到合适的关键词时,
就可以使用分类式搜索逐步深化,这样也可以得到的较
为满意的结果。
4,模糊查询和精确查询
? 模糊查询又称为智能查询。当我们输入一个关键词时,
搜索引擎不但反馈包括了关键词的网址,同时也发来与
关键词意义相近的内容。
? 模糊查询往往反馈来大量不需要的信息,如果想精确地
只查某一个关键词,则可以使用精确查询功能。精确查
询一般是在文字框中输入关键词时,加一对双引号。
? 用逻辑条件限制这一功能允许我们一次输入多个关键词,
而且,各关键词之间的关系可以是“和”、“或”、
“非”( and,or,not)等基本布尔操作符。
图 2-10 扬子人才热线的模糊检索及相关符号使用说明
5,网络信息检索的流程
( 1) 基本检索途径:
1)利用网页上列出的分类目录进行检索。
2)利用关键词进行检索。
3)利用机构检索网站。
( 2)条件检索
1)简单条件检索。
? 所谓简单条件检索,即用鼠标点选检索框下方所列出的
几组简单的检索条件。
2) 区域条件检索。
? 所谓区域条件检索,即在检索前选择一定的区域或条件。
3)参数条件检索
? 所谓参数条件线索,即由检索词与检索运算符组成检索
表达式进行查询。检索运算符主要有:
?, +”:表示多个关键字间“逻辑与”的关系。
?, —,:表示多个关键字间“逻辑非”的关系。
?,,:表示多个关键字间或的关系。
?, *”:通配符。例如,输入:“上海 *大学”,则检索
结果包含符合“上海某某大学”的记录。
? 在关键词前加,T:”:表示仅搜索网站、网页的名称。
? 在关键词前加,U:”:表示仅搜索网站、网页的 URL。
( 3)渐进检索
1)基于目录的渐进检索。从搜索引擎网站主页选择类目进入,
输入检索词后按“渐进”按钮,则检索范围即为“当前
目录”而非“全部目录”。
2)基于前次检索结果的渐进检索。即在前次查询结果的范围
内,再进一步进行指定检索词的查询。在键入检索词后,
按下“渐近”按钮即可。
( 4)高级检索
1)同义词检索。同义词检索功能指系统会按你所输入的检索
词及其同义词检索符合条件的记录。
2)上位词检索。上位词检索功能指系统会按所输入的检索词
或其上位词进行检索符合条件的记录。
2.4 网上多媒体信息检索系统
? 目前的多媒体信息检索水平还很低,还脱离不了文字检
索的查询功能都很强,但检索图像和声音仍然固定思路。
尽管现在的全文检索和结构化受到很大限制。在这种情
况下,就需要开发专门的图像和声音的检索系统。
? 由于信息网络化、资源多媒体化日渐深入的原因,网络
检索新技术的研究和应用也日新月异,必将极大地促进
网络多媒体信息检索技术的发展。
2.5 经济信息检索系统
2.5.1 我国经济信息网络化的现状
2.5.2 经济信息数据库移植上网
2.5.1 我国经济信息网络化的现状
? 1997年以来,我国经济信息网的发展表现出以下特点:
1) 经济信息网数量多。
2) 覆盖面广。首先是地域覆盖面广,其次是行业覆盖面广。
3) 类型多样。我国现已建成并开始提供服务的经济信息网
既有综合性的又有专业性的,既有公益性的又有商业性
的,既有提供一次经济信息服务的又有提供信息分析预
测服务的。
2.5.2 经济信息数据库移植上网
? 20世纪 90年代,我国开展了以数据库为重点的信息资源
调查,结果表明我国当时已有 1038个自建的数据库,其
中经济类数据库 297个,数据库在数量、质量、容量等各
方面指标较以往有了长足的进步。
? 随着 Internet的发展与应用,我国的经济信息数据库才开
始纷纷移植上网,开展联机服务等。这在一定程度上,
克服了光盘检索的不足,扩大了数据库的规模及服务范
围,使经济信息共享更加充分。
? Internet丰富的信息资源,快捷的信息传播以及庞大的用
户群,也给企业提供了无限商机。企业利用网络搜集并
发布经济信息,能使企业在市场上获得更多的有效信息
以及更大的主动性等,因此,有战略眼光的企业纷纷在
网上建立自己的站点,宣传本企业的文化形象,提高企
业的知名度。
? 虽然我国经济信息网数量多、规模和内容的侧重点也各
不相同,但却存在信息交叉重复的问题,给经济信息的
查询与利用造成了不少障碍。因此,建立界面友好、检
索方便、内容详尽准确的我国的网络化经济信息导航系
统迫在眉睫。这类网站的建立可以大大提高我国网络化
经济信息资源的利用效率,也为我国下一步经济信息网
络化的发展提供可靠动力。
2.6 互联网科技信息资源检索类型
2.6.1 国外科技资源站点
2.6.2 国内科技资源站点
2.6.1 国外科技资源站点
1,Clearinghause互联网学科资源指南
? Clearinghause的互联网学科资源指南是美国密执根大学
图书馆和情报学院( SILS)联合提供的服务,它收集和
整理了互联网上的科技资源和信息,并按学科分类向用
户提供各种资源的指南。该指南的 URL地址是:
? Gopher,gopher://una.hh.lib.umich.edu/1/inetdirs
? 路径为 Guides On the science
? WWW,http://httpz.sils.umich.edu/lou.chome.html
? 该指南所包括的学科分为人文科学、社会科学和自然科
学 3大类,指南信息来源于互联网用户以及 SILS参加“发
掘互联网资源”研究项目的学生。
2,OCLC( Online Computer Library Center,联机
计算机图书馆中心)
? OCLC( http://www.oclc.org/)是一个非营利的成员组织,
其存在的目的是为了促进世界各地成千上万所图书馆和
信息中心的合作,并存取全世界的信息。 OCLC是世界
上最大的图书馆及信息中心,拥有世界上最大的书目数
据库,提供文献记录和馆藏地点信息,以帮助数万家
OCLC用户更好地进行联合编目和资源共享。
3,美国专利书目数据库 SPIE( US Patent
Bibliographic DataBase)的 InCite数据库
? SPIE的 InCite数据库( http://www.spie.org/)收集了 20世
纪 90 年代 SPIE(包括期刊、会议两部分)的论文和文摘,
数据量超过 9万条。
4,科学引文索引
? 科学引文索引( http://www.isinnet.com/)是美国科学情
报研究所出版的, 科学引文索引( SCI), ( Science
Citation Index)的网站,对世界上的 3300多种学科的著
名科学以及技术期刊上的论文进行了收录,是检索某个
作者的论文被其他论文引用情况的一种重要索引。并且
某篇论文被别人引用的次数的多少以及能否被 SCI收录,
已被公认为评价该论文学术水平高低的一个指标。
2.6.2 国内科技资源站点
1,中国科技信息网( CSTNet)
? 中国科技网的服务( http://www.cstnet.net.cn/)主要包括
网络通信服务、域名注册服务、信息资源服务和超级计
算服务。中国科技网的科技信息资源有科学数据库、中
国科普博览、科技成果、科技管理、技术资料、农业资
源和文献情报等,总数据量达数百 GB( 1GB=1024MB)
可以向国内外用户提供各种科技信息服务。
2,中国科学院科学数据库
? 科学数据库( http://www.sdb.ac.cn/)是由中国科学院主
办,非常具有权威性的科技文献网站。内容涵盖了基础
科学的方方面面。包括技术论坛、科技导航、在线教程、
论文选编、网站地图等几个栏目。提供专业数据库和非
专业数据库两种科技数据库的检索。
3,中国专利信息检索系统
? 中国专利信息检索系统( http://search.cpo.cn.net/)共提
供了 11个检索入口,并允许各个检索条件之间进行复杂
的逻辑运算。
4,中国专利信息网
? 中国专利信息网( http://www.patent.com.cn/)由中国专
利局检索咨询中心与长通飞华信息技术有限公司共同开
发创建。中国专利信息网向社会公众提供全方位的专利
信息检索和查询服务。
设计制作:王锡俊
网络信息检索
第 二 章
第二章 网络信息检索系统
2.1 网络信息检索概述
2.2 World Wide Web( WWW) 检索系统
2.3 常用中英文搜索引擎及检索策略
2.4 网上多媒体信息检索系统
2.5 经济信息检索系统
2.6 互联网科技信息资源检索类型
2.1 网络信息检索概述
2.1.1 计算机检索特点
2.1.2 网络信息检索工具及原理
2.1.3 网络信息检索工具的发展趋势
2.1.1 计算机检索特点
? 随着计算机技术、高密度海量存储器技术和现代通信技
术的发展,计算机检索系统已经成为世界上最先进的信
息检索系统。它具有检索速度快、检索范围广而全面、
检索途径多、质量高、检索内容新等特点。由于计算机
具有上述特点,所以它广泛应用于信息管理中,如情报
信息管理、图书馆资料管理、档案馆文件管理等方面。
计算机信息检索系统能存储大量的信息,并对信息条目
进行分类、编目或编制索引;还可以根据用户要求从已
存储的信息库中调取出特定的信息,并提供插入、修改
和删除某些信息的能力。
1,计算机检索系统的发展过程
? 第一阶段,1971年以前,开始建立计算机信息检索系统,
并取得了一定的进展。这一阶段的数据存取与数据通信
能力都比较差。
? 第二阶段,1971年以后,产生并发展了联机情报检索系
统。这一阶段的特点是联机数据库集中管理,具有完备
的数据库联机检索功能,但其数据通信能力较差。
? 第三阶段,20世纪 80年代以后,出现了以 Internet为标志
的网络信息检索系统。系统大多采用分布式的网络化管
理,其信息资源的主要特点是:数字形式表达、多媒体
和多载体、内容覆盖面广、分布无序、难于规范化和结
构化、内容特征抽取复杂、用户界面要求高等。
? 第四阶段,进入 21世纪后,随着连续性语音识别技术的
不断发展,计算机信息检索系统跨入一个新的阶段。在
前三个阶段的基础上,信息检索技术正向两个新的方向
发展:一是传统信息检索向全文文本、多媒体等新型信
息检索发展,在深度上应能对提问的内容进行分析和理
解,提高查准率,探索自动抽词、自动索引、自动检索、
自动文摘、自动分类、自动翻译等解决方案,提高管理
和组织信息的能力;二是信息资源的网络化和分布化,
主要面对 Internet中浩瀚无垠的资源,提高查全率。
2,基于概念的信息检索系统
? 基于概念的信息检索是通过对文献中的原文信息进行语
义上的自然语言处理,析取各种概念信息,并由此形成
一个知识库。然后,根据对用户提问的理解,检索知识
库中相关的信息,以提供直接的回答。
( 1)概念信息检索的特性
? 概念信息检索具有分析和理解自然语言的能力。无论是
向知识库的自然语言输入,还是对系统的自然语言提问,
概念信息检索都可以通过分析和理解,得到自然语言原
文的内容。
? 概念信息检索可以对输入的原文根据其概念内容进行组
织和安排,而不是根据关键词检索。概念信息检索可以
进行语义层次上的自然语言处理,以析取相关的概念信
息和范畴知识;然后,通过记忆机制将它们存储到知识
库中,以备检索之用。
? 概念信息检索的记忆机制能够自动补充与更新。同时,
存储在知识库中的概念信息和范畴知识也能得到补充与
更新,且补充与更新的新信息与新知识能恰当地归类到
相应的范畴之中。
? 概念信息检索具有使用自然语言回答用户提问的能力。
这种能力包括从自然语言原文的概念内容中析取检索要
点,通过记忆机制检查某个特别的范畴,以获取必需的
背景知识,以及通过对知识库中存储的其它概念信息进
行分析和理解,并回答用户的提问。
( 2)概念信息检索系统的结构
? 概念信息检索系统的结构一般分为:
? 记忆机制部分。存储原文内容或概念,能自动更新。
? 语言分析机制部分。运用自然语言处理技术,从语义层
次上分析和理解文本内容及用户提问内容。
? 知识库部分。通过分析机制和记忆机制,获取关于检索
和推理的知识。
? 人机接口部分。输入原文内容及用户提问,输出自然语
言形式的检索结果。
( 3)应用系统
? CyFr系统。 CyFr系统是 Schank,Kolodner和 DeJong于
1981年根据概念信息检索理论建立的系统,用于处理与
美国前国务卿范斯( Vance)有关的新闻。
? Researcher系统。由 Lebowitz于 1983年在哥伦比亚大学研
制,用于阅读和理解用自然语言形式输入的专利文献摘
要。
? 还有由 McCune和 Tong研制的 Rubric系统,是用来检索与
恐怖行为概念有关的文献。
? 美国通用电器公司人工智能研究室的 Ran 1987年建立的
SCICOR系统、美国卡内基梅隆大学机器翻译中心 1991
年完成的 FER RET系统。
3,超文本信息检索系统
? 以超文本网络为基础的文献检索系统。正文信息是以节
点而不是以字符串作为信息的基本单元,节点间通过链
进行连接。在检索文献时,节点间的多种链接关系可以
动态地选择性激发,从而可根据思维联想或新信息的需
要,通过链从一个节点跳到另一个节点,由此形成随着
人们思维和需要的流动而构成的数据链,体现出一种完
全不同于过去顺序检索方式的联想式检索。
( 1)设计思想
? 一般是基于引导浏览的检索系统。其设计思想是:屏幕
上的窗口与数据库中的卡片相对应,卡片是数据库中的
基本信息单元,即节点。卡片间通过链路即数据库中的
指针相连接,在窗口中则以高亮度的关键字为标志。
( 2)超文本系统结构与模型
? 超文本系统结构模型主要采用 Combell,Goodman及
Dexter模型。其中 Combell与 Goodman模型都具有表现层、
抽象机制和数据库层三层结构,而 Dexter模型的结构则
为运行层、表现描述层、存储层、锚定点机制及内部组
件层五层。从描述超文本信息的组织结构来看,可分为
基于图论的模型、基于网论的模型、基于逻辑模型、基
于集论的模型。
( 3)应用系统
? 目前已建立了多个基于超文本的信息检索系统,如
AltaVista,WebCrawler,Yahoo!,Lycos,Open Text、
Infoseek等著名的网络检索系统。这些系统检索速度快,
数据资料新,具备多种查询方式,极大地方便了用户使
用 Internet,提高了全文检索的查全率。
4,计算机全文检索的进一步研究
? 全文检索( Full Text Retrieval)是指以全文本信息作为
检索对象,建立全文数据库,除了具有布尔逻辑检索功
能外,还具有文本检索功能,并允许用户以自然语言检
索,直接获得原文中的有关章节和段句。全文检索技术
应用领域主要包括:企业信息门户、媒体网站、政府网
站、数字图书馆、搜索引擎及商业网站。
2.1.2 网络信息检索工具及原理
1,网络信息检索工具发展概述
? 20世纪 70年代,开发了许多种类的情报(信息)检索软
件,形成了软件开发研究和情报科学研究的一个相对独
立的分支:情报检索。
? 随着 Internet的不断扩张,网络信息检索工具
( Networked Information Retrieval Tools)的新型检索
工具便应运而生了。
? 网络检索工具的研究与开发,使原来的“情报检索”这
一学科分支产生了新的分支“网络信息检索”( NIR,
Networked Information Retrieval)。 Internet上信息资源
的迅猛增长使主管 Internet的技术问题的 Internet 工程特
别工作小组( IETF,Internet Engineering Task Force)
对网络信息检索给予了充分重视。 IETF与欧洲科研网络
协会( RARE- Association of European Research
Networks) 和网络信息联盟( CNI-Coalition for
Networked Information)联合组建了“网络信息检索工
作小组”( NIR Working Group)。主要任务是:
? 收集和发布网络信息检索工具及其研究团体的信息;
? 鼓励合作开发网络信息检索工具;
? 协调网络信息检索工具开发单位、有关联网机构和网
络信息检索工具的生产销售厂商的行动。
? 目前在 Internet上运行的网络检索工具可分为三大类:
? 交互式信息提供服务( Interactive Information
Delivery Services);
? 名录服务( Directory Services);
? 索引服务( Indexing Services)。
? 目前在互联网运行的交互式信息服务软件主要基于
WWW和 Gopher,名录服务软件主要基于 WHOIS、
NETFIND和 X.500,索引服务软件主要基于 Archie、
Veronica,Jughead和 WAIS。交互式信息检索工具一般
为用户提供友好的交互操作界面,并具备交互浏览信息
的功能,信息在网络上的存放方式以及如何取得信息,
对使用者都是透明的。菜单式查询系统 Gopher是 Internet
上较早出现的一种交互信息查询工具。 WWW 系统是近
年来发展的最重要的一种交互信息查询工具,也是迄今
用户最多和使用最为方便的工具。
? 索引式信息检索工具是通过对信息资源文件建立的索引
查找文件的所在位置,以便用其他检索工具进一步获取
信息文件。
? 此外,Internet上还产生大量基于电子邮件交换的信息。
这类信息获取系统包括电子公告板系统、电子邮件通信
组、网络专题消息、电子刊物以及网络广告等。
2,菜单式查询系统( Gopher)
? Gopher 是一种按“菜单”形式组织的分布式文档查询系
统,1991年在美国 Minnesota大学发展起来。开始用于校
园网,后来推广到 Internet。 Gopher为用户查询信息提供
一个多级的菜单界面,只需按照菜单指示的路径就能获
取想要的信息,使用非常方便。
3,广域信息服务系统( WAIS)
? WAIS ( Wide Area Information System) 以各种文本数
据文件为检索对象(信息源),融汇了 Archie、
newsgroup等的信文件在内的各类信息。目前,Internet
上已建立了几千个提供检索服务的 WAIS服务器,成为整
个 Internet网络文本式信息资源的检索工具。
? 用 WAIS检索信息可分两步进行:第一步,先从信息源
(文件题目)列表选择检索对象;第二步,在选定范围
内通过文件的关键词查找文件。
4,网络文件搜索系统( Archie)
? 由于 Internet所包含的信息量惊人,用户很难了解某类信
息在 Internet上的分布情况,或者某个具体软件存储在哪
一个主机结点上。 Archie可以使用户能够查询信息资源
的存放地址,以便能够从特定场所的服务器中获取各种
感兴趣的或者有用的信息。
? Archie与 WAIS不同,后者除查询信息存放地址之外,还
可以进一步显示与浏览信息文件的内容。
2.1.3网络信息检索工具的发展趋势
? 目前,网络信息检索技术正在向两个方向发展:一是传
统信息检索向全文文本、多媒体等新型信息检索发展,
在深度上能对提问的内容进行分析和理解,提高查准率,
探索自动抽词、自动索引、自动检索、自动文摘、自动
分类、自动翻译等解决方案,提高管理和组织信息的能
力;二是信息资源的网络化和分布化,面对 Internet中浩
瀚无垠的资源,提高查全率。
? 网络信息检索工具的发展趋势突出表现出以下特点:
? 支持主题指南的搜索引擎。
? 增加特色服务,提供全方位的信息服务。
? 本地化服务。
? 提供多媒体检索功能。
? 多语种检索。
? 推广利用信息新技术。
? 商业化发展趋势。
2.2 World Wide Web( WWW)
检索系统
2.2.1 WWW发展简介
2.2.2 WWW上的, 搜索引擎,
2.2.3 搜索引擎的类型与特点
2.2.4 中文搜索引擎的现状及发展
2.2.1 WWW发展简介
? WWW是一种基于超文本( Hypertext)文件的交互式浏
览型检索工具。 WWW是 1989年由欧洲核物理研究中心
( CERN)的 Time Berners-Lee 提出的一个研究项目,其
目的是向国际高能物理研究界提供一个在计算网上用超
文本方式传送文件和相互进行通信的工具。 1990年底,
第一个 WWW软件被安装在一台 NeXT 机器上。用户可用
它在 Internet网上浏览、传递和编辑超文本格式的文件。
1992年以后,经过 Tim本人的不懈努力,WWW概念日益
深入人心。全世界有数百名志愿者无偿地投入开发和推
广 WWW软件的工作。
? 现在 WWW已成为全球性的软件开发项目。由于全世界
软件人员的共同努力,WWW软件不断完善,并且增加
了多媒体功能,成为具有超媒体( Hypermedia)功能的、
网上最先进的信息检索工具。由于 WWW的优异性能,
其用户数量有了“爆发性”的增长。 1996年,WWW的
通信量已稳居第一。许多原来只能通过 Telnet,Gopher、
Wais才能获得的信息现在都可以通过 WWW方便地获得。
2.2.2 WWW上的“搜索引擎”
1.“搜索引擎, 原理简介
? 在美国,搜索引擎( SEARCH ENGINE)通常指的是基
于互联网的搜索引擎,这种引擎收集互联网上几千万到
几亿个网页数量不等,并且每一个网页上的每一个词都
被搜索引擎所收录,也就是“全文检索”。典型的互联
网搜索引擎包括 AltaVista,Inktomi,Infoseek,Google
等。
? 搜索引擎起源于传统的信息全文检索理论,即计算机程
序通过扫描每一篇文章中的每一个词,建立以词为单位
的倒排文件,检索程序根据检索词在每一篇文章中出现
的频率和每一个检索词在一篇文章中出现的概率,对包
含这些检索词的文章进行排序,最后输出排序的结果。
互联网搜索引擎除了需要有全文检索系统之外,还有
“蜘蛛”( SPIDER)系统,即能够从互联网上自动收集
网页的数据搜集系统。
? 在中国,搜索引擎通常指的是基于网站目录的搜索服务
或是特定网站的搜索服务。前者如搜狐、新浪等公司开
发的网站搜索服务,后者如, 人民日报,,, 文汇报,
网站上提供的全文检索服务。
2,网络搜索引擎的发展过程
( 1) 第一代搜索引擎
1) Altavista( http://www.altavista.com/)
2) Infoseek( http://www.infoseek.com/)
3) Excite( http://www.excite.com/)
4) Lycos( http://www.lycos.com/)
( 2)第二代搜索引擎
? 只做后台技术提供者与大量应用人工智能是第二代搜索引
擎的标志。第一代的搜索引擎公司后来演变成了门户网站,
而第二代的搜索引擎厂商则成为像 Inktomi,Google那样给
网站提供技术与服务的 ASP,或是在技术上采用了人工智
能技术的厂商,如 Askjeeves,Direct hit等。第二代搜索引
擎厂商的特点是只做后台技术的提供者 。
1) Inktomi( http://www.inktomi.com/)
2) Askjeeves( http://www.ask.com/)
3) Goto( http://www.goto.com/)
4) Google( http://www.google.com/)
3,搜索引擎面临的挑战
? 搜索引擎对自然语言提问没有理解能力;
? 所有著名的搜索引擎都不支持中文或是对中文的支持极
弱;
? 搜索引擎收集的网页数量和其数据库的更新速度存在着
不可调和的矛盾;
? 搜索引擎无法与电子商务紧密结合;
? 搜索引擎对多媒体内容的处理尚不成熟。
4,新一代搜索引擎的特点
? Ask Jeeves。巧妙地将用户提问转化为系统已知的题,
然后对已知的问题进行回答,降低了对自然语言理解技
术的依赖性;
? Baidu.com。第一个为中国人写的商业化的互联网搜索引
擎,信息量大,相关性好,刷新率高,速度快;
? Goto.com。最先将拍卖的概念引入搜索引擎服务,当用
户检索某些词时,广告商可以通过竞拍使自己的网站在
搜索结果中的排名提前,这就把电子商务的概念轻松地
引入了搜索服务。
? MySimon。这是一个完全面向电子商务的搜索服务,它
对同一种商品按价格的高低进行排序;
? Ditto。这是一个多媒体的搜索引擎,目前主要提供网上
图像的搜索,已收集了超过 200 万个图像,并且大多经
过人工的筛选,因而搜索结果质量较高。
5,搜索引擎的未来
? 从 1996年起,搜索引擎技术开始注重网页质量与相关性
的结合,这主要是通过三种手段:
? 对网上的超链结构进行分析,如 Infoseek和 Google;
? 对用户的点击行为进行分析,如 Directhit(该公司被 Ask
Jeeves收购);
? 与网站目录相结合。
? 最新的趋势则是搜索的个性化和本地化:
2.2.3搜索引擎的类型与特点
? 目前发展最为迅速、最受人们欢迎的信息检索工具是
WWW(互联网)上的检索工具,主要分为两类:主题
指南和搜索引擎。其它检索工具,有 Gopher,Archie、
WAIS等,它们分别用来查询 Gopher资源,FTP资源和
WAIS资源。这些不同的工具为查询各种信息提供了多种
途径。
? 从最初的主题指南发展到独立型搜索引擎、混合式搜索
引擎、元搜索引擎乃至分布式搜索引擎,折射出搜索引
擎功能不断改进、性能日趋完善、更趋向智能化的检索
特征。
1,主题指南
? 主题指南是搜索引擎的最初表现形式。是人工建立的、
结构化的互联网网址主题类目和子类目,按照字母、时
间、地点、主题等顺序进行排列,使用户通过浏览网络
站点列表,检索有关信息。较为典型有 Yahoo!、
LookSmart,InfoMine等。主题指南由人工编制和维护,
因此在信息的收集、编排,HTML编码以及信息注解等
方面花费大量的人力和时间。它强调的是浏览功能,优
点是采用人工干预提高了主题指南返回结果的相关性;
缺点是很难检索到较深的信息,难于控制主题等级类目
的质量,信息更新速度相对较慢,收录信息数量相对不
足。
? 主题指南主要适用于:
? 用户进行笼统或较笼统的主题浏览和检索。
? 当用户尚未形成很精确的检索概念时,采用主题指南
作为检索起始点非常有效。
? 除综合性主题指南之外,为了适应网上各种类型信息
的发展变化,又出现了某些专业的主题指南,它由某
一领域的专家编制和维护,在信息准确性和易于理解
方面比综合性主题指南要好。
2,独立型搜索引擎
? 独立搜索引擎也叫关键词检索工具。这种搜索引擎实际
上是定期搜索互联网(以 WWW为主)并收集新网页信
息的计算机程序。每个搜索引擎都有自己独有的搜索系
统和一个包容互联网资源站点的独有数据库。其数据库
由称为,Robots”(或 Spiders,Crawler)的自动检索程
序建立,不需人工干预。这是它与主题指南的最大区别。
它具有检索面广、信息量大、信息更新速度快等优点,
非常适用于特定主题词的检索。但因其检索噪音较大,
为检索带来负面影响。
3,混合式搜索引擎
? 随着搜索引擎技术的不断发展,独立型搜索引擎多与主
题指南合二为一,演化为兼具有分类浏览和关键词检索
功能的混合式搜索引擎。混合式搜索引擎是目前占据搜
索引擎主导地位的一种搜索引擎,具有分类浏览和关键
词检索功能。
4,元搜索引擎
? 元搜索引擎(又称集成搜索引擎,Mega Search Engine,
Multiple Search Enginge)是一种集成化搜索引擎,它是
多个独立型搜索引擎的集合体。与独立搜索引擎的区别
在于,元搜索引擎没有自己独立的数据库,通过一个统
一的用户界面帮助用户在多个搜索引擎中选择和利用合
适的甚至是同时利用多个搜索引擎实现检索操作。
5,分布式搜索引擎
? 分布式搜索引擎是基于搜索机器人的搜索引擎。
? 其基本思想是:根据地域、主题,IP地址或其他的划分
标准,将全网划分成若干自治域,在每个自治区内分设
检索服务器。
? 由于分布式搜索引擎将索引数据库划分到几个分散的数
据库中,每个数据库变小了,但所有搜索引擎覆盖的范
围则变大了,且很少有信息重复。而作为分布式系统特
性之一的可扩充性也是分布式搜索引擎的优点之一。
2.2.4中文搜索引擎的现状及发展
1,中文搜索引擎发展现状
? 目前中文引擎共有约 80多个,可以分为两类,一类是自
由词或关键词检索搜索引擎,另一类是分类搜索引擎。
? 内码问题:由于历史原因,目前世界上使用中文的国家
与地区在中文语言的使用上有较大差别,体现在计算机
处理上也有很大不同,其中最重要的区别是采用不同的
字符集及内码体系。
? 分词问题:西文单词用空格分隔相当清晰,而此法对中
文的字词则行不通,因此就产生了不同的处理方法。一
种是完全单汉字全文检索。另外一种即根据一定的原则
和手段对文章进行自动分词,然后按词建库,对检索结
果按词汇匹配进行查询。目前的中文搜索引擎还不能很
好地解决中文名词分词这个难题,从而严重地影响搜索
引擎的查准率。
? 除了以上的两个原因之外,国内的搜索引擎技术与国外
相比差距依然很大。
? 目前国内搜索引擎能够检索 2000万个网页,而国外能做
到检索上亿个,其差距主要是在蜘蛛软件与搜索器的设
计上,而国内能够研发大容量与大访问量的系统和软件
方面的人才相当少。此外,国内有些中文网站的网页搜
索服务长期外包给一些在境外的 ASP服务器,这也是查
询速度缓慢的原因之一。
2,中文集成搜索引擎及特点
? 单个的搜索引擎只能从数据库提取信息,具有很大的局
限性。为用户创造更为便利的检索条件,必须发展性能
更优越的新型引擎搜索技术,集成搜索引擎便应运而生。
集成搜索引擎( meta-search engine),也称元搜索引擎、
多搜索引擎、索引搜索引擎等,是居于搜索引擎之上的
搜索引擎。中文搜索引擎的发展方向就是在现有的搜索
引擎的基础上运用和增设多元搜索。
? 中文集成搜索引擎是将整个互联网作为一个超大型的动
态数据库,并采用了一系列的优化运行机制,能够在尽
可能短的时间内提供相对全面、准确的信息,即使不能
完全满足用户需求,仍可以作为相对可靠的参考源进行
扩展搜索,因此逐渐成为网络信息检索的首选入口。
? 目前,有多家中文网站采用了集成搜索引擎,这些集成
搜索引擎的突出特点是:
? 智能化的中文语言处理技术大大提高了搜索的准确性
与查全率;
? 可扩展的搜索技术保证最快最多地收集网络信息,构
建大规模索引库;
? 高效的搜索算法和本地服务器保证最快的响应速度,
一个检索的平均响应时间小于 0.18秒;
? 支持动态网页的检索。
2.3 常用中英文搜索引擎及检索策略
2.3.1 常用中文搜索引擎
2.3.2 常用英文搜索引擎
2.3.3 特殊的专门搜索引擎
2.3.4 网络信息检索策略
2.3.1常用中文搜索引擎
1,搜狐
? 搜狐( http://www.sohu.com/)提供分类目录网站检索,
搜集范围以中国为主,收录较丰富,还加入了部分英文
网站,分类较科学,类目缜密。它也是第一个针对国内
中文网页的搜索引擎,此外它还包括新闻信息、多媒体
文件下载、网上调查、免费电子邮件等其他服务。图 2-1
是搜狐的主页。
图 2-1“搜狐”搜索引擎的主页
2,新浪
? 新浪( http://www.sina.com.cn/)提供分类目录、网站检
索以及全文检索,搜集范围遍及全球中文网站,收录非
常丰富;分类规范,层次合理;全文检索为 AltaVista、
IPO提供支持;但复杂条件查询较弱;可提供热门关键词
查询等新方式。图 2-2是新浪的主页。
图 2-2“新浪”搜索引擎的主页
3,网易
? 网易( http://www.163.com/)提供较丰富的分类目录、网
站检索及 FTP检索,范围以中国为主收录富,目录较严
密;提供新闻等其他服务,网易主站另有“网站导航”
栏目,分类列举推荐网站。图 2-3是网易的主页。
图 2-3“网易”搜索引擎的主页
4,263搜索
? 263搜索( http://www.search.263.net/)。属首都在线所
有,提供分类目录和网站检索,资料较丰富,复杂条件
查询功能强 ―― 可限制时间、语言(简、繁)、查询网
站或提要等,并可直达所查到的网站;另提供新闻及检
索等服务。图 2-4是 263的主页。
图 2-4“263”搜索引擎的主页
5,其他中文搜索引擎
? 天网( http://pccms.pku.edu.cn:8000/gbindex.htm)
? 悠游( http://www.goyoyo.com.cn/)
? 搜索客( http://www.cseek.com/)
? 常青藤( http://www.tonghua.com.cn/)
? 中国导航( http://www.chinavigator.com.cn/)
?,我是野虎”( http://www.5415.com/)
? 若比邻( http://www.robot.com.cn/)
? 1608搜网( http://www.1608.com/)
? hi2000( http://www.hi2000.com.cn/)
2.3.2常用英文搜索引擎
1,Yahoo!
? Yahoo!搜索引擎之王,是最早的目录索引之一,也是目
前最重要的搜索服务网站,在全部互联网搜索应用中所
占份额高达 23%左右。其数据库中的注册网站无论是在
形式上还是内容上质量都非常高。图 2-5是 YAHOO!的主
页。
图 2-5 YAHOO!的主页
2,AltaVista
? AltaVista是功能全面的搜索引擎,是最重要和功能最完
善的搜索引擎之一,属于全文搜索引擎。提供常规搜索、
高级搜索和主题搜索,主题包括图象( Images)、
MP3/Audio & Video等。允许以 25种不同的语言进行搜索,
并提供英、法、德、意、葡萄牙、西班牙语双向翻译。
其他特色服务包括重大新闻(发生于 6小时至 14天之间),
新闻组及购物查询。图 2-6是 AltaVista的主页。
图 2-6 AltaVista搜索引擎的主页
3,Excite
? Excite数据库中存有 2.5亿张网页及媒体文件,并且检索
Usenet新闻。此外还提供总数达 15万种的主题分类查询
(实际上是定制的关键词搜索)。提供常规及高级搜索。
操作界面提供了 11种语言供选择,此外还可以在国别列
表中选定某个国家或地区,以及限定域名后缀(如,cn”
或,tw”等)进行一定区域范围的搜索。 Excite提供了很
好的概念延伸查询,能列出比输入的关键词更具体的相
关领域供用户选择查询。图 2-7是 excite主页。
图 2-7 Excite搜索引擎的主页
4,Google
? Google是现在非常流行的搜索引擎之一,它具有很多独
特的优点。有关中文 Google的使用方法将在本书第五章
中介绍。
图 2-8 Google搜索引擎的主页
5,其他英文搜索引擎
( 1) LookSmart
? 也是主要的目录索引之一,向包括 MSN,AltaVista、
Excite等在内的其他搜索引擎提供搜索内容。与 ODP一样,
其注册网站在合作伙伴搜索结果中排位往往也靠前。
LookSmart在网站结构和内容上与其他目录索引大同小
异,其目录中的网站排列也是根据字母顺序。它使用
Inktomi的数据库提供二级网页搜索。图 2-8是
LOOKSMART搜索引擎的主页。
图 2-8 LOOKSMART搜索引擎的主页
( 2) LYCOS
? 搜索引擎中的元老,是最早提供信息搜索服务的网站之
一。 Lycos整合了搜索数据库、在线服务和其他互联网工
具,提供网站评论、图象及包括 MP3在内的压缩音频文
件下载链接等等。提供常规及高级搜索。高级搜索提供
多种选择定制搜索条件,并允许针对网页标题、地址进
行检索。具有多语言搜索功能,共有 25种语言供选择。
首页下部显示部分 Open Directory的目录索引。图 2-9是
LYCOS搜索引擎的主页。
图 2-9 LYCOS搜索引擎的主页
2.3.3 特殊的专门搜索引擎
1) http://dunsite.ccu.edu.tw:8080/news(新闻组搜索)
2) http://www.ist.net.tw/service/nslookup2.phtmlIP(地址查
询)
3) http://classic.prtmusic.com.tw/cd/(古典 CD搜索)
4) http://www.soundbomb.com.tw/search/search/search.htm
(世界歌手搜索)
5) http://www.commerce.com.tw/search/(商业贸易搜索)
6) http://www.look4u.com/gb/(全球华人寻人)
7) http://www.chinabig.com/chig/home.html?language=1
(中华大黄页)
2.3.4网络信息检索策略
1,基本指导思想
? 要完成一个有效搜索,首先应当确定要搜索的是什么。
? 当检索概念较泛,尚未形成一明确专指的检索概念时,
可先用主题指南的合适类目进行逐级浏览,直到发现最
相关的网址。如需进一步检索,再从这些网址中寻找合
适的检索词,利用元搜索引擎或独立搜索进行缩检。
? 当用户已知检索词,但对独立搜索引擎不熟悉或想节省
在多个独立搜索引擎之间的转换时间,可选用元搜索引
擎作试探性的起始检索,了解网上是否有相关信息以及
在哪里可找到这些信息,然后再利用独立搜索引擎进行
更全面、更深入的检索。
2,查询策略
? 不同目的的查询应使用不同的查询策略,这主要取决于
是想得到一个问题的多方面信息还是简单的答案。
? 要进行有效的搜索,最好输入与主题相关的、尽可能精
确的词或词组。提供的词组越精确,检索结果就越好。
同时,应通过不同词组的检索,逐渐缩小搜索范围。
? 在使用搜索引擎时,掌握常用搜索引擎的特性,充分利
用它们各自的优点,往往可以得到最佳及最快捷的查询
结果。
3,分步细化逐步接近查询结果
? 如果我们想查找某一类信息但又找不到合适的关键词时,
就可以使用分类式搜索逐步深化,这样也可以得到的较
为满意的结果。
4,模糊查询和精确查询
? 模糊查询又称为智能查询。当我们输入一个关键词时,
搜索引擎不但反馈包括了关键词的网址,同时也发来与
关键词意义相近的内容。
? 模糊查询往往反馈来大量不需要的信息,如果想精确地
只查某一个关键词,则可以使用精确查询功能。精确查
询一般是在文字框中输入关键词时,加一对双引号。
? 用逻辑条件限制这一功能允许我们一次输入多个关键词,
而且,各关键词之间的关系可以是“和”、“或”、
“非”( and,or,not)等基本布尔操作符。
图 2-10 扬子人才热线的模糊检索及相关符号使用说明
5,网络信息检索的流程
( 1) 基本检索途径:
1)利用网页上列出的分类目录进行检索。
2)利用关键词进行检索。
3)利用机构检索网站。
( 2)条件检索
1)简单条件检索。
? 所谓简单条件检索,即用鼠标点选检索框下方所列出的
几组简单的检索条件。
2) 区域条件检索。
? 所谓区域条件检索,即在检索前选择一定的区域或条件。
3)参数条件检索
? 所谓参数条件线索,即由检索词与检索运算符组成检索
表达式进行查询。检索运算符主要有:
?, +”:表示多个关键字间“逻辑与”的关系。
?, —,:表示多个关键字间“逻辑非”的关系。
?,,:表示多个关键字间或的关系。
?, *”:通配符。例如,输入:“上海 *大学”,则检索
结果包含符合“上海某某大学”的记录。
? 在关键词前加,T:”:表示仅搜索网站、网页的名称。
? 在关键词前加,U:”:表示仅搜索网站、网页的 URL。
( 3)渐进检索
1)基于目录的渐进检索。从搜索引擎网站主页选择类目进入,
输入检索词后按“渐进”按钮,则检索范围即为“当前
目录”而非“全部目录”。
2)基于前次检索结果的渐进检索。即在前次查询结果的范围
内,再进一步进行指定检索词的查询。在键入检索词后,
按下“渐近”按钮即可。
( 4)高级检索
1)同义词检索。同义词检索功能指系统会按你所输入的检索
词及其同义词检索符合条件的记录。
2)上位词检索。上位词检索功能指系统会按所输入的检索词
或其上位词进行检索符合条件的记录。
2.4 网上多媒体信息检索系统
? 目前的多媒体信息检索水平还很低,还脱离不了文字检
索的查询功能都很强,但检索图像和声音仍然固定思路。
尽管现在的全文检索和结构化受到很大限制。在这种情
况下,就需要开发专门的图像和声音的检索系统。
? 由于信息网络化、资源多媒体化日渐深入的原因,网络
检索新技术的研究和应用也日新月异,必将极大地促进
网络多媒体信息检索技术的发展。
2.5 经济信息检索系统
2.5.1 我国经济信息网络化的现状
2.5.2 经济信息数据库移植上网
2.5.1 我国经济信息网络化的现状
? 1997年以来,我国经济信息网的发展表现出以下特点:
1) 经济信息网数量多。
2) 覆盖面广。首先是地域覆盖面广,其次是行业覆盖面广。
3) 类型多样。我国现已建成并开始提供服务的经济信息网
既有综合性的又有专业性的,既有公益性的又有商业性
的,既有提供一次经济信息服务的又有提供信息分析预
测服务的。
2.5.2 经济信息数据库移植上网
? 20世纪 90年代,我国开展了以数据库为重点的信息资源
调查,结果表明我国当时已有 1038个自建的数据库,其
中经济类数据库 297个,数据库在数量、质量、容量等各
方面指标较以往有了长足的进步。
? 随着 Internet的发展与应用,我国的经济信息数据库才开
始纷纷移植上网,开展联机服务等。这在一定程度上,
克服了光盘检索的不足,扩大了数据库的规模及服务范
围,使经济信息共享更加充分。
? Internet丰富的信息资源,快捷的信息传播以及庞大的用
户群,也给企业提供了无限商机。企业利用网络搜集并
发布经济信息,能使企业在市场上获得更多的有效信息
以及更大的主动性等,因此,有战略眼光的企业纷纷在
网上建立自己的站点,宣传本企业的文化形象,提高企
业的知名度。
? 虽然我国经济信息网数量多、规模和内容的侧重点也各
不相同,但却存在信息交叉重复的问题,给经济信息的
查询与利用造成了不少障碍。因此,建立界面友好、检
索方便、内容详尽准确的我国的网络化经济信息导航系
统迫在眉睫。这类网站的建立可以大大提高我国网络化
经济信息资源的利用效率,也为我国下一步经济信息网
络化的发展提供可靠动力。
2.6 互联网科技信息资源检索类型
2.6.1 国外科技资源站点
2.6.2 国内科技资源站点
2.6.1 国外科技资源站点
1,Clearinghause互联网学科资源指南
? Clearinghause的互联网学科资源指南是美国密执根大学
图书馆和情报学院( SILS)联合提供的服务,它收集和
整理了互联网上的科技资源和信息,并按学科分类向用
户提供各种资源的指南。该指南的 URL地址是:
? Gopher,gopher://una.hh.lib.umich.edu/1/inetdirs
? 路径为 Guides On the science
? WWW,http://httpz.sils.umich.edu/lou.chome.html
? 该指南所包括的学科分为人文科学、社会科学和自然科
学 3大类,指南信息来源于互联网用户以及 SILS参加“发
掘互联网资源”研究项目的学生。
2,OCLC( Online Computer Library Center,联机
计算机图书馆中心)
? OCLC( http://www.oclc.org/)是一个非营利的成员组织,
其存在的目的是为了促进世界各地成千上万所图书馆和
信息中心的合作,并存取全世界的信息。 OCLC是世界
上最大的图书馆及信息中心,拥有世界上最大的书目数
据库,提供文献记录和馆藏地点信息,以帮助数万家
OCLC用户更好地进行联合编目和资源共享。
3,美国专利书目数据库 SPIE( US Patent
Bibliographic DataBase)的 InCite数据库
? SPIE的 InCite数据库( http://www.spie.org/)收集了 20世
纪 90 年代 SPIE(包括期刊、会议两部分)的论文和文摘,
数据量超过 9万条。
4,科学引文索引
? 科学引文索引( http://www.isinnet.com/)是美国科学情
报研究所出版的, 科学引文索引( SCI), ( Science
Citation Index)的网站,对世界上的 3300多种学科的著
名科学以及技术期刊上的论文进行了收录,是检索某个
作者的论文被其他论文引用情况的一种重要索引。并且
某篇论文被别人引用的次数的多少以及能否被 SCI收录,
已被公认为评价该论文学术水平高低的一个指标。
2.6.2 国内科技资源站点
1,中国科技信息网( CSTNet)
? 中国科技网的服务( http://www.cstnet.net.cn/)主要包括
网络通信服务、域名注册服务、信息资源服务和超级计
算服务。中国科技网的科技信息资源有科学数据库、中
国科普博览、科技成果、科技管理、技术资料、农业资
源和文献情报等,总数据量达数百 GB( 1GB=1024MB)
可以向国内外用户提供各种科技信息服务。
2,中国科学院科学数据库
? 科学数据库( http://www.sdb.ac.cn/)是由中国科学院主
办,非常具有权威性的科技文献网站。内容涵盖了基础
科学的方方面面。包括技术论坛、科技导航、在线教程、
论文选编、网站地图等几个栏目。提供专业数据库和非
专业数据库两种科技数据库的检索。
3,中国专利信息检索系统
? 中国专利信息检索系统( http://search.cpo.cn.net/)共提
供了 11个检索入口,并允许各个检索条件之间进行复杂
的逻辑运算。
4,中国专利信息网
? 中国专利信息网( http://www.patent.com.cn/)由中国专
利局检索咨询中心与长通飞华信息技术有限公司共同开
发创建。中国专利信息网向社会公众提供全方位的专利
信息检索和查询服务。