1
第 4节 网络检索一、网络检索的概念和特征二,Internet基本知识三,Internet信息检索模式思考题
2
一、网络检索的概念和特征
1、网络检索的概念
网络就是利用通信线路将多台计算机连接起来,进行计算机与计算机之间的通信。计算机网络按其规模大小和分布范围可分为 LAN,MAN、
WAN和 Internet。 LAN就是局部区域的计算机网络,在局域网中连在一起的计算机分布范围一般在 10米以上和几公里之内。它具有结构简单、
投资少、数据传输速度快、可靠性好、保密性强等优点。 WAN是在较大范围内实现计算机之间通信和数据交换,典型的代表是美国的主干网
ARPAnet和 NSFnet、我国的 Chinanet,Cernet,ChinaGBN和 CSTnet等。
这些是 Internet的基础设施。 ARPAnet既是 Internet的前身,又是最早的广域网结构。 Internet的出现是由于计算机网络的广泛应用,网络用户需要在更大范围内实现相互通信和资源共享的结果,是成千上万个公共和专用网连接在一起构成的全球规模最大、影响最广的计算机互联网络系统,
是全球计算机信息资源的最大规模的集成。
网络检索是指利用 E-mail,FTP,Telnet,Archie,WAIS,Gopher、
Veronica,WWW等检索工具,在 Internet等全球性网络上进行信息存取的行为。
3
2,网络信息检索的基本特征 。
第 1点,两种不同的系统结构:集中式与分布式 。
传统的联机检索系统绝大多数是集中式管理的,即整个系统有专人负责维护,
系统中的信息定期更新;绝大部分的检索工作都是在主机上完成的 。 一般的信息检索系统都采用昂贵的大型主机及大容量的外存介质 。 这种集中式系统的主要优点是集中的安全性以及在存储设备上处理大量数据的功能 。 但缺点是过分依赖主机;网络的扩展性能差;由于所采用的技术标准原则上是不公开的,因此相关技术缺乏发展的动力,灵活性较差 。
Internet是一个由许多类型,结构不同的分组交换网通过路由器连接而成的一种庞大的,能整体运行的网络 。 在因特网中主要采用了分布式的计算机系统,它与高性能的并行计算机及大型的数据库管理系统共同管理,
调度和分配网中的通道和信息资源 。 其主要特点是模块性和并行性 。 系统中的资源冗余和自治控制方式使系统具有动态重构的能力,即使受到局部性的破坏,也能继续工作 。 系统以模块作为系统发展和资源更新的增量,不必象集中式那样常常得替换整个系统或更改系统中很大的一部分 。 这些优点有利于系统的维护和扩展,便于使用 。 同时,因特网上的数据库的 分布也不象联机检索系统那样集中于检索中心,而是分布在网络中的各个主机上,这种分布使用户对数据可以分布式存取,分布式存储和分布式处理 。
4
第 2点,两种不同的服务模式:主仆式与客户 /服务器式 。
在联机检索中,用户提交的查询经由通讯网络后交主机进行处理,所有的工作都在主机上进行,这种运作方式称为主仆式 。 在因特网中,主要采用先进的 Client/Server模式 。 应用分前端的客户部分和后端的服务器部分,
客户方运作在微机或工作站上,分析从服务器上返回的数据,而服务方则运行在从微机到大型机等各种计算机上,处理用户的各种请求并提供服务 。 这种查询模式提高了网络的利用率,提高了系统数据的独立性和完整性 。 提高了用户利用的便捷性 。
第 3点,两种不同的信息组织方式:普通文本和超文本 。
在联机检索中,其数据库主要存贮有关主题领域各类文献资料的书目信息 。
它以文档的形式按线性组织,文档的基本组成单位是记录,记录被划分为若干个字段,用于检索和显示 。 每个字段均有一个供计算机识别的字段标识符 。 而在 Internet上,信息组织则采用了超文本的组织方式,即各种文本,图象,声音等信息数据的非线性组织形式 。 信息单元不是按线性序列来组织的,而是依赖于数据库中信息单元之间知识内容的相关关系和可能出现的明显的连续性 。 与普通文本数据库不同 。 其数据库不是由字符而是由 Node和 Link组成,节点表示知识单元,片段或其组合,节点内的信息可以是文本,图象,图形,动画,声音或其组合;而链路表示这些节点间的网状关系 。 换言之,超文本数据库是由两个部分组成:
信息集合和连接集合中信息的链路网 。 超文本对信息的存储方式打破了原来的文本系统只能按线性顺序存取的限制 。
5
第 4点,两种不同的检索机制:二次文献和搜索引擎 。
联机检索系统中的文本常常是经过加工,标引之后,能够完整地描述一篇文献资料的信息集合,这样的信息集合称为二次文献 。 每篇这样的二次文献称为一个记录,它充分地反映了文献的内容及特征 。
每个记录一般都含有存取号,基本索引和辅助索引 3种类型的字段 。
在 Internet中,检索机制是随着服务器类型的不同而不同,Archie是用于 FTP的检索工具,Veronica是用于查找 Gopher的工具,Infoseek、
Lycos等搜索引擎是用于 WWW检索的 。 这些检索工具的组织有目录式和索引式 。
第 5点,两种不同的检索结果:或长或短,时优时劣 。
信息质量差异
检索空间差异
检索便捷差异
检索速效差异
检索费用差异
检索安全性方面
6
二,Internet基本知识
1,Internet的含义
Internet的实质就是将若干个 LAN和 WAN联结成一个庞大而统一的全球计算机网络 。
从网络互联的角度看,Internet是由成千上万个具有特殊功能的专用计算机通过各种通信线路,把分散在各地的网络在物理上连接起来而形成的一个互联网 。
从网络通信的角度看,Internet是一个用 TCP/IP协议把各个国家,各个地区,各种机构的内部网络连接起来而形成的数据通信网 。
从提供信息资源的角度看,Internet是将各个国家,各个部门,各个领域的不同信息资源联为一个整体的超级信息资源网 。 凡是接入 Internet的用户,都可以通过各种信息查询工具访问所有的信息资源,查询各种数据库,获取自己所需的各种信息资料 。
从网络管理的角度看,Internet是一个不受任何政府或某一个管理机构管理和约束,而是由用户互相协作的组织和集合体 。
从信息服务的提供上看,现代的 Internet能够提供广泛,多层次的,从文本信息到声音,图像信息的综合性网络 。
7
2,Internet发展历程
2,1ARPAnet即美国国防部的计算机网络古巴导弹危机与兰德公司提出的计算机网络离散化的设想 。 60年代末期,
兰德公司,麻省理工学院和加州大学洛杉矶分校开始试验这种基于离散控制和信息包交换思想的计算机网络 。 1968年,美国 Advanced Research
Project Agency开始资助这个研究项目 。 1969年秋,具备 4个节点的计算机网络 ARPAnet诞生,这 4个节点分别位于美国加州大学洛杉矶分校,斯坦福研究所,加州大学圣 ·巴巴拉分校和美国犹他州立大学 。 这就是
Internet的前身 。
1972年 10月,ARPAnet在华盛顿举办的国际计算机会议上公开露面 。 此后,
人们开始探讨建立全球计算机网络 。 1973年,ARPAnet实现了第一个国际连接,连通了英国的伦敦学院大学和挪威的皇家雷达基地 。 到 1976年,
加入 ARPAnet的计算机节点已发展到 57个,连接不同类型的计算机 100多台,联网用户 2000多个,许多为美国军方工作的科研人员也通过
ARPAnet交换信息 。
加入 ARPAnet的计算机在相互通信时最初采用的是 NCP(Network Control
Protocol)。 1974年,美国 National Science Foundation的 Vint Cerf和 Bob
Kahn发表了他们有关 TCP/IP协议的技术规范 。 该协议在 1977年被其他一些与 ARPAnet连接的网络所采纳 。 1983年 1月 1日,已经接管 ARPAnet的美国国防部国防通信局,决定将 ARPAnet采用的通信协议由 NCP过渡到
TCP/IP。 采用 TCP/IP通信协议是日后 Internet得以发展的关键,因此许多人都把这一天看作是 Internet的诞生之日 。
8
2,2NSFnet的出现。 1985年,美国国家科学基金会决定资助建立连接五大超级计算机中心的计算机网络,即 NSFnet。这五大超级计算机中心分别建立在普林斯顿大学、卡内基 ·梅隆大学、加州大学、伊利诺斯大学和康乃尔大学。与此同时,美国国家科学基金会首先意识到 Internet对科学研究的重要性,并 大力资助 Internet的发展和 TCP/IP技术,开始建设使用
TCP/IP协议的 NSFnet。由于美国国家科学资金的资助和鼓励,很多大学、
政府科研机构甚至私营的科研机构都纷纷将自己的局域网并入 NSFnet,
1986年,NSFnet最终建成并取代了 ARPAnet成为 Internet骨干网。随着用户数的飞速增加,NSFnet的通信能力也很快地饱和。因此,NSFnet不得不再次考虑用更新的网络技术来适应发展的需要。
NSFnet对推广 Internet的重大贡献是使 Internet不再只对计算机专家、政府职员和政府项目承包商使用,而且对科教界开放,Internet迅速进入以资源共享为中心的实用服务阶段。尽管 1986年连入 Internet的计算机只有 2 300
余台,但到了 1987年,就超过了 1万台,1989年突破 10万台,1992年达到 72万多台。现在看来,NSFnet是非常成功的,它不仅向科研人员提供了可获得无限资源的通信网络,并在不断完善、提高的过程中,构造了现代美国 Internet的网络结构。
9
2,3现代 Internet。 20世纪 90年代初,美国的许多研究机构纷纷架设和动作自己的子网,这些子网又与国家资助的主干网 NSFnet互联起来 。 随着
Internet的发展,美国的私人企业开始建立自己的网络,并在一定程度上绕开了 NSFnet,向用户提供 Internet商业的联网服务 。 1991年,这些企业组成了,商用 Internet协会,,纷纷宣布自己开发的子网可用于各种商业用途 。 商界的介入进一步发挥了 Internet在通信,信息检索,客户服务等方面的巨大潜力 。 Internet由原来专门为教育科研服务的网络向商业应用发展 。 1994年被称为 Internet商业年,1997年被称为网络年 。 Internet已经成为错综复杂的全球性网络 。
我国 Internet发展大致可划分为以下三个阶段:
第一阶段为 1987~1993年,开通国际电子邮件服务,登记注册我国的域名等 。
第二阶段从 1994年开始,中国科技网,中国公用计算机互联网,中国教育科研计算机网,电子工业部金桥网等迅速发展 。
第三阶段以 Internet的商业化应用为标志 。 1996年底,我国国内互联网络已基本完成,Internet由此进入商业化试运行阶段 。 1996年 5月成立国务院信息化工作领导小组,管理有关国际联网的事务 。 1997年,中国互联网络信息中心 (CNNIC)工作委员会成立并开展工作 。
10
3,Internet提供的主要服务和资源
E-mail。 E-mail是 1972年由 Ray Tomlinson发明的。 E-mail是 Internet上最早提供且使用最广泛的一种信息服务。
Telnet。 Internet用户的远程登录是在网络通信协议 Telnet的支持下使自己的计算机暂时成为远程计算机仿真终端的过程。
FTP。 以 File Transfer protocol命名的,无论两台加入 Internet网的计算机在地理位置上相距多远,只要两者都支持 FTP协议,网上的用户就能将一台计算机上的文件传送到另一台计算机。
Network News。又称 NetNews,它是 Internet用户相互交换意见的一种无形的用户交流网络。它相当于一个全球范围的电子公告牌系统。
网上交谈服务。这是人们利用 Internet开展的一种实时、交互式的文字通信服务。一般分为一对一的交谈 Talk和多人之间的会谈 Chat。
WWW。 1990年 11月,欧洲核子物理研究中心的 Tim Berner-Lee建立起第一个 Web服务器原型系统; 1992年 Web投入实际服务。 1993年 2月,美国国家超级计算中心 NCSA发布第一个图形界面 Web浏览器 Mosaic的时候,
Internet上仅有 130个 Web服务器在运行,而到 1996年 7月,全世界在运行的 Web服务器已经发展到了 27万个。 WWW是一种基于超文本的多媒体信息服务,Web服务是以 Client/Server模式进行工作的。
11
三,Internet信息检索模式一般来说,网络信息检索工具大致可分为:
字典型查询工具:用于查询网上用户名,E-mail,URL、服务器地址等。
这类工具有 White Pages Directory,Internet Yellow Pages,Whois、
DejaNews,FAQ Archive等;
索引型查询工具:这类工具主要是为网上信息资源建立索引,主要代表有 FTP资源的索引 Archie,Gopher资源的索引 Verronica,Jughead,网上服务器的索引 Wais等;
交互式查询工具:主要提供类似商用联机检索的网络信息查询服务。这类工具基本可分为 Gopher和 WWW两类。 Gopher是一种嵌套菜单式查询工具,它把 Internet上分散和各自独立的信息源联成一体,以简单的菜单选择方式提供遍布全球的 Gopher信息资源的查询。 WWW是基于 HTTP
协议,用 HTML语言将多媒体信息组织成超文本,并通过这种方式把全世界 Internet上的不同地点的相关信息有机地结合起来。 WWW检索基本上采用搜索引擎的方式对各种信息进行检索。
12
3.1 搜索引擎 ·概念与原理
Search Engine是指通过网络搜索软件收集因特网上大量 Web页加以索引并提供给用户查询的专门网站 。 换言之,搜索引擎是以分散于世界各地的因特网文档为收集对象,并建立索引机制,目的是为用户提供搜索网络资源链接的服务性网站 。 或称 Search Index,Net Robots、
Spiders,Crawlers,Worms。 广义的搜索引擎包括由人工方式收集起来的站点 (目录服务 )。
搜索引擎一般有 4个部分:第 1部分是搜索引擎的搜集器,负责从网络上搜集网页 。 这部分可由网络机器人自动在网上进行搜索,也可以通过人工进行收集 。 它的基本机制是启动蜘蛛或爬虫等程序,扫描 Internet、
查找 Web页并提取数据纳入自己的数据库 。 第 2部分是搜索引擎的管理器,它负责搜索策略的制定及管理,索引的增删改,存储组织等 。
第 3部分是检索器,它提供网络用户检索界面,并根据用户的查询要求,从数据库中检索出与之相关的信息并反馈给用户 。 也即用户在检索时直接输入关键词,搜索引擎根据一定的规则将检索式与其数据库中的文献进行匹配,从而生成结果清单 。 最后是扩展服务部分,即搜索引擎除前 3项以外所提供的各项服务 。
13
( 1) 雏形时期,1993年之前,人们采用手工方法查找各个 URL和 HTML文件,并进行索引,从而形成 Catalog或 Directory。 1994年前后,人们开始探索 Search Engine,以提高网页的收集速度 。
( 2) 初建时期 。 1994年 4月 20日,Web Crawler公司 的 WebCrawler搜索引擎在网上正式发布; 1994年 6月,Lycos公司建立的 Lycos搜索引擎开始服务;
1994年底,Yahoo!公司创办并正式建立了 Yahoo!站点; 1995年下半年,
Excite公司发布了 Excite搜索引擎; 1995年 12月,Digital公司建立了 Alta
Vista搜索引擎 。 总之,1994~1995年这一时期,大批搜索引擎站点纷纷建立 。 但由于网络数据库容量较小,系统查询效率并不高 。
( 3) 扩容时期 。 1996年已经有十多家较大的搜索引擎,竞争的焦点是谁家的数据库最大,谁家的索引更新最快 。 这一时期的搜索引擎收集的网页数量基本上都超过了 1 000万,并向着 5 000万发展 。
( 4) 质量建设时期 。 1997年,搜索引擎从追求容量转向追求质量 。 以
HotBot为代表的一批搜索引擎,不再追求搜索引擎数据库的大而全,而是追求收录网页和查询的质量 。
( 5) 多向发展时期 。 1998年之后,国外搜索引擎进入到多向发展时期 。 搜索引擎的数量已经达到 3 000个左右,其中既有大型综合性搜索引擎,也有特定领域的专业搜索引擎,并呈现出许多特点 。
3.2 搜索引擎 ·产生与发展
14
3.3 搜索引擎 ·趋势与特点第一,第二代搜索引擎粉墨登场。第二代搜索引擎特别注重网站的重要性。 主要代表有,http://www.google.com/,http://www.directhit.com/,
http://www.infind.com,http://www.metafind.com。
第二,专业搜索引擎纷纷出现。近年来,针对性强、目标明确、查准率高 的专业搜索引擎发展很快。专业化搜索引擎有 http://www.findwhat.com/,
http://www.meta-list.net/,http://www.infojump.com/,
http://search.yesky.com。
第三,智能搜索引擎崭露头角。主要有 www.goyoyo.com,网际搜寻家 IQ99、
ww.wander.com.cn。
第四,多媒体和图像搜索引擎倩丽登场。主要有 ttp://www.scour.net/,
http://www.singingfish.com,http://www.mp3meta.com:80/mp3meta/,
http://www.streamsearch.com,http://www.ditto.com/,
http://www.freefoto.com/。
第五,精选网站搜索引擎蓬勃兴起。主要代表有 http://www.about.com/,
http://www.refdesk.com/index.html。
第六,搜索引擎的搜索引擎层出不穷。主要有 http://www.searchenginecolossus.com/,http://www.searchpower.com/,
http://www.searchengineguide.com/。
15
3.4 搜索引擎 ·中文搜索引擎发展情况
中文搜索引擎的发展始于 1996年。台湾的蕃薯藤中文搜索引擎于
1996年 2月正式服务,这是较早的中文搜索引擎。 1997年 5月,悠游公司在香港建立了悠游中文搜索引擎。 1997年 5月 4日,Yahoo!发布了“雅虎”中文搜索引擎。
我国大陆的搜索引擎基本上是在 1997年底至 1998年年初逐步建立起来的。网易搜索引擎于 1997年 12月开通; 1998年 5月,搜狐搜索引擎建立。此后一大批中文搜索引擎相继建立,如常青藤、华好、搜索客等。
从总体上看,我国搜索引擎仍处于国外搜索引擎发展的“容量建设时期”,除少量大型搜索引擎网页收集数量近百万外,大部分都在数十万个左右;而且不论大小搜索引擎都在做综合型搜索引擎,没有一家向专业型发展,搜索引擎的查询质量不高。
16
3.5 搜索引擎 ·基本类型
( 1) 根据信息组织的方式进行划分:
目录式分类搜索引擎 (网站级 ),Catalog or Directory Search Engine将信息进行分类,按传统的信息分类方式来排列信息,用户按类查找信息。
全文搜索引擎 (网页级 ),Full-Text Search Engine是指能够对各网站的每个页面中的每个词进行搜索的搜索引擎。它的工作流程是,当全文搜索引擎搜索到一个新网站时,将该网站上所有的网页全部获取下来,记录到自己的数据库中,全文搜索引擎真正提供了最全面最广泛的搜索结果。世界上最典型的全文搜索引擎是原 Digital公司的 Alta
Vista。
分类全文搜索引擎:这是针对全文搜索引擎和分类搜索引擎的缺点而设计的,通常是在分类的基础上再进一步进行全文检索。
智能搜索引擎,根据知识库的知识,运用人工智能方法进行推理。 目前比较成功的智能搜索引擎有 FSA,Eloise和 www.wander.com.cn。
17
(2) 根据搜索的范围进行划分,可以将搜索引擎分为:
独立搜索引擎:这种搜索引擎有自己的数据库,并采用主动或被动搜索方式登录数据库,由数据库反馈出相应的查询信息或是相链接的站点指向 。 独立搜索引擎一般都会有各自的特色,如全文查询,简单搜索,分级查询等 。 目前大型的著名搜索引擎都是独立的搜索引擎,如 Yahoo!、
Alta Vista,搜狐,悠游等 。
Meta Search Engine:集搜索引擎是将查询词在若干个搜索引擎中同时进行查询,将查询结果作出相关度排序,去除重复后,显示出查询结果 。
集搜索引擎是一种要调用其他独立搜索引擎的引擎,它可能有,也可能没有自己的数据库 。
集搜索引擎又可分为两类:一类是基于客户端的集搜索引擎,它是利用客户端的计算机进行合并处理,相关度排序等运算 。 这类搜索引擎的问题是用户在自己计算机上运行这个软件,要把从某个搜索引擎上查到的信息全部下载到本地,然后进行合并及相关度运算,这将是一个漫长的过程 。 另外这种搜索引擎软件是依赖于独立搜索引擎的输出格式,如果独立搜索引擎的输出格式有变化,软件则要改变 。 另一类是基于服务器端的集搜索引擎,它是利用集搜索引擎服务器进行这些运算 。
All-in-One-Search Engine:将搜索关键字在多个独立搜索引擎中串行查询,并逐个显示查询结果,不进行重复网页的分析和删除,这类搜索引擎被称为,多合一搜索引擎,。
18
3.6 搜索引擎 ·使用步骤与方法
明确检索主题,确定检索词 。
选择搜索引擎 。 利用各种工 具对搜索引擎进行 科学的选择:http://www.beaucoup.com/engbig.html,http://www.search.com,
http://www.searchenginewatch.com。
一般来说,搜索引擎的选择,应当首先要考虑专业性搜索引擎 。 代表有
http://search.cnet.com。 其次要使用多种搜索引擎 。 再次要充分利用集成搜索引擎 。 最后,在使用搜索引擎之前,最好先研究一下它的用法和特殊之处,可以利用搜索引擎上的 Help,Advanced Search,FAQ
(Frequently Asked Questions),查询技巧 (Search Tips)等,这样可以极大地提高搜索效率 。
构造检索式 。 即运用一些算符构造符合搜索引擎语法的表达式 。 在构造检索式时,要注意搜索引擎的各种语法规则 。 如布尔运算符,逗号的用法,空格的用法,双引号和通配符等使用要求,,+,-”号的使用规则 。
此外还要善于使用域搜索 。 所谓域,就是指期望包含关键词的范围 。 域搜索在 Title,link site,URL或 ALT等上执行 。 例如,在 Yahoo!中,Title
命令的格式是 t,XXXX,其中,XXXX是查找的关键词,检出的是在标题中含有关键词 XXXX的网页 。
查看并鉴别检索结果 。
调整检索策略直到获得满意的结果 。
19
Chap6 思考题
1、熟悉数据库的基本类型和格式?
2、数据库的检索字段主要有哪些?
3、联机检索有哪些构成要素?
4、以 DIALOG系统为例说明联机检索的主要步骤。
5、举例说明光盘检索的主要方法和特点。
6、网络检索与联机检索有哪些区别?
7,Internet有什么主要资源?
8,Internet检索的基本工具包括哪些?
9、掌握搜索引擎的概念、发展和类型情况。
10、举例说明网络信息检索的基本步骤和主要方法。