《信息检索》电子教案 信息检索概述 信息资源的概念与类型 信息资源的概念 信息资源是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。信息中的载体信息和主体信息是使信息资源的最基本的组成部分。 信息资源的特点 客观性。信息不是能源,也不是物质,无论是否认识到,信息总是存在着。 寄载性。信息必须借助于一定的符号存储与一定的载体中(包括人脑),才能被表现,没有载体,就没有信息。信息与载体,两者不能割裂开。 传递性。信息可以通过一定的载体在空间、时间上传递,从近到远,从古到今都能传递。 动态性。信息是对事物存在方式及运动方式的反映,随着事物的变化,信息也将变化。这里动态性是指信息的时效性。 相对性。人们认识能力与认识条件不同,信息接受者(信宿)获得信息与信息量的多寡不同,从这个意义上说,信息的价值具有相对性。 增长性。信息资源的使用,不但不会使信息资源减少,再利用中,还会产生更多的信息。 共享性。使用同一种信息资源,均不需要任何的限制条件,信息资源共享的双方或多方均不回损失信息内容,相反还会产生新的信息。 规模性。信息资源作为整体要有一定的量,分散、片面地信息不能较好地反映事物的情况。 信息资源的类型 按照信息资源的开发程度来区分,可分为潜在信息资源与现实信息资源两大类。现实信息资源又可分为口语信息资源、体语信息资源、实物信息资源、文献信息资源、网络信息资源和多媒体信息资源。 口语信息资源。交谈、聊天、授课、讨论等方式获得的信息资源。 特点是传递迅速,互动性强,但稍纵即逝、久传易出差异。因此通过这种方式了解到的信息应记录下来,并加以证实。 体语信息资源。以手势、表情、姿势如舞蹈、体育比赛、杂技等方式传递的信息资源。 特点是直观性强生动丰富、印象深刻、富有感染力,但此类信息的容量有限。 实物信息资源。以实物如文物、产品样本、模型、碑刻、雕塑等形式表示的信息资源。 特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息。 4.文献信息资源。以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息,包括图书、连续出版物、小册子以及学位论文、专利、标准、回忆录、政府出版物等特种文献。 特点是经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后,部分信息尚待证实的情况。 文献的一些主要类型: 图书。国家标准《情报与文献工作词汇·传统文献》(GB13143—91)对图书(book)的解释是:一般不少以49页并构成一个书目单元的文献。图书是文献中最古老、最重要的类型。按文种来分可分为:中文图书、日文图书、西文图书等;按作用范围可分为通俗图书、教科书、工具书等;按写作方式可分为专著、编著、翻译、编译等;按出版卷 可分为单卷本、多卷本等;按刊行情况可分为单性本、丛书、抽印本等;按版次情况可分为初版、重版、修订本等。 连续出版物。具有同一题名、定期或不定期以分册形式出版、有卷期或年月标识、计划无限期连续出版的文献。包括期刊、报纸、年度出版物及其他连续报告、会议路、专著性丛刊等。连续出版物是与图书并列的最主要的文献类型,其特点是内容新颖、报道及时、出版连续、信息密集、形式一致等。据统计目前世界上连续出版物有130万种,限期连续出版物约50万种。 特种文献。有特定内容、特定用途、特定读者范围、特定出版发行方式的文献,包括学位论文、研究报告、专利、标准、产品样本、会议录、档案和政府出版物。国内外同行称这类文献为“灰色文献”(grey literature),尽管这类文献并非很成熟,但他们内容新颖专深、实用性强、信息量大、参考性高,利用率大,是极为重要的信息资源。 网络信息资源。以电子形式存贮于成千上万台计算机组成的网络中的信息资源。它包括各类数据、电子文件、学术论文、图书、软件、商业活动等各种信息。 因特网(internet)在20世纪70年代起源于美国,截至2000年底,已连接全球200多个国家和地区近5万多个网络、485万台主机、1.2亿个用户,并以每月20万个新用户的速度递增。 中国从1994年开始发展因特网,据《中国因特网发展状况统计报告》报道,截止2002年6月30日,中国上网计算机总数已超过1613万台,上网用户总数达到4580万,CN下注册的达126146 个;WWW站点数(包括CN,COM,NET,ORG下的网站)约293213个。国外专家预计,中国将发展成为全球网上第一大用户,届时网上的中文信息也将越来越多。 但在海量的信息中,重复交叉较多,垃圾信息也会很多。 根据不同的标准,可将网络信息资源划分成各种不同的类型: 从利用性质上分,有开发性信息、注册式信息、交流式信息;从存取方式分,有邮件型信息、电话型信息、揭示版型信息、广播型信息、图书馆型信息、数目型信息;从内容上分,有商务信息、科技信息、社科信息、教育信息、娱乐信息等。 多媒体信息资源 将电信、电视、计算机三网相互融合,集图、文、声于一体的信息资源。包括网上广播电视、专题论坛、网上广告等。 多媒体信息打破了图书、报刊、广播、电视单项媒体的界限,形成交互式媒体信息,可通过主题、文本、模版匹配,视频检索等方式对其进行检索。 信息检索的概念与类型 信息检索(Information Retrieval ) 又成为情报检索,萌芽于图书馆的参考咨询工作,20世纪50年代才固定成专用术语。 信息检索的概念 代表性的定义有以下几种: 信息检索过程说。《图书馆学百科全书》认为:信息检索是“知识的有序化识别和查找的过程,······广义的情报检索包括情报的检索与存储,而狭义的情报检索仅指后者”。 全息检索说。上海交通大学信息检索专家王永成教授认为:全息检索就是“可以从任意角度从存储的多种形式的信息中高速准确地查找,并可以任意要求的信息形式和组织方式输出,也可仅输出人们所需要的一切相关信息的电脑活动”。 概念信息检索说。Chank等专家认为,概念信息检索是基于自然语言处理中队只是在语义层次上的析取,并由此形成知识库,再根据对用户提问的理解来检索其中的相关信息。它用概念而不是关键词来组织信息。 大量相关信息检索说。叶继元等教授认为,信息检索是从大量相关信息中利用人—机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。 “人—机系统”,“各种方法”是指利用关键词、主题词、概念分析方法等人工或自动将信息有序化;“及时找出用户所需部分信息”是指一切以用户为,本全方位、多角度提供检索入口和检索结果。 信息检索包括存储与检索两个部分。存储是对有关信息进行选择、并对信息特征进行著录标引和组织,建立信息数据库;检索则根据提问制定策略和表达式,利用信息数据库。 这里要理解概念分析。概念分析即将概念转化成系统语言,是存储与检索共有的过程,因此从这个意义上说,信息存储是信息检索的逆过程,两者是不可分割的一个整体。 信息检索的类型 1.按检索内容分,有数据信息检索、事实信息检索和文献信息检索 1)数据信息检索(Data Information Retrieval)是将经过选择、整理、鉴定的数值数据存入数据库中,根据需要查处可回答某一问题的数据的检索。这些数据包括物理性能常数、统计数据国民生产总值、外汇收支等。这类检索不仅查处数据,还可以提供一定的推导、运算的能力。 2)事实信息检索(Fact Information Retrieval)是将存储于数据库中的关于某一事件发生的时间、地点、经过等情况查找出来的检索。它既包含数值数据库的检索、运算、推导,也包括事实、概念等的检索、比较、逻辑判断。 3)文献信息检索(Document Information Retrieval)是将存储于数据库中的关于某一主题文献的线索查找出来的检索。它通常通过目录、索引、文摘等二次文献,以原始文献的出处为检索目的,可以向用户提供原文献的信息。一些观点也认为可称为“数目检索”。 2.按组织方式分,可有全文检索、超文本检索和超媒体检索 1)全文检索(Full Text Retrieval)是将存储在数据库中的整本书、整篇文章中的任意内容信息查找出来的检索。可以根据需要获得全文中的有关章、节、断、句、词等的信息,也可进行各种统计和分析。 2)超文本检索(Hyper Text Retrieval )是对每个节点中所存的信息以及信息链构成的网络中信息的检索。强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。 3)超媒体检索(Hyper Media Retrieval)是对存储的文本、图像、声音等多种媒体信息的检索。它是多维存储结构,有向的链接,与超文本检索一样,可提供浏览式查询和跨库检索。 3.按检索手段分,有手工检索和机器检索 1)手工检索(Hand Retrieval)是人直接用手、眼、脑组织、查找印刷型文献的检索。具有直观、灵活、无需各种设备和上机费用的优点。 2)机器检索(Machine Retrieval)又称计算机检索。是通过机器对已数字化的信息,按照设计好的程序进行查找和输出的过程。按机器检索的处理方式分又有脱机检索和联机检索;按存储方式分,有光盘检索和网络检索。机检可大大提高检索效率,扩宽检索领域。 三、信息检索的研究内容、研究方法和作用 1.检索理论研究 检索理论是检索活动中总结出来的系统化的知识,研究内容包括信息与信息资源定义、信息检索的定义、类型、特点、作用、研究对象、方法、内容、理论基础、术语规范、原理与原则、相关学科等的研究。当前要多做信息检索知识体系化、整合化的研究。 2.检索语言研究 原指从自然语言中精选出来,并以简练形式表示文献、信息的受控语言的集合。现指受控语言和自然语言(未规范的书面语言)。研究内容包括关键词、主题词、词表编制、分类表编制、概念分析、规范档、代码标识等。 3)数据库研究 数据库是多个互相关联的数据的集合,是信息检索系统必不可少的组成部分。研究内容包括数据库建设规划与协调共享、收录信息与文献的筛选、文档结构、维护与更新、版权、市场、效果评价、数据库跨库检索、Z39.50标准等的研究。目前要加强异构数据库系统信息资源一体化整合和检索、知识库、数据仓库的研究。 4)著录法研究 著录法是对信息与文献形式特征和内容特征进行分析、选择和记录的方法。研究内容包括国内外著录标准与规则,格式,各种信息与文献著录方法,CN-MARC, UNI-MARC, US-MARC, Dublin Cor(都柏林核心)元数据,XML等的研究,目前要重视电子型文献及网络信息的著录研究。 标引和组织法研究 标引是通过对信息资源的分析,选用确切的检索标识反映资源内容的过程。 组织法即排检法,是指按一定次序将标引标识(如主题词、分类号)排列起来的反方法。 以上研究内容包括信息资源的阅读、分析、词表的编制与选用、标引规则、中外文排检、类序、失序、地序、谱系序等。目前应重点研究网络信息资源的镖隐语排序、数字资源的全球统一的分类体系、主题分类词表(用、代、属、酚、参、见类系)、自动标引与排序、智能搜索引擎、网格(Great Global Grid)的研究。 检索系统研究 检索系统是由有序化的信息资源、设备、检索方法和策略等组成的集合体。研究内容包括系统设计、运行和评价。目前重点研究计算机检索系统软硬件配置、设计与评价、智能化应用等。 检索策略研究 检索策略是在分析信息需求检索提问时确定的检索途径与检索用词,并明确各词之间逻辑关系和查找步骤的安排。研究内容包括用户需求提问分析、检索表达式、检索符号的设置与应用、步骤优化。目前应加强检索策略自动调节、修改的研究。 检索服务研究 检索服务是根据用户需求,由专门人员帮助查找信息,并将结果提供给用户的工作,研究内容包括服务手段、服务方式、用户培训、检索效果(查准率、查全率)等。目前应加强个性化信息服务的研究。 2.研究方法 信息检索的研究从属于图书馆学与情报学。涉及到自然科学、社会科学、人文科学的许多学科和领域。通用的方法有:观察法、实验法、调查法、模拟法、归纳与演绎法、分析与比较法等;还使用文献计量学法、信息计量学法、目录学、分类学、主题法、著录法、排序法、咨询法等独特的研究方法。 3.信息检索的作用 1)能较全面地掌握有关的必要信息 信息检索可以有目的、较系统地获得某一主题的必要信息。 2)能提高信息利用的效率,节省时间与费用 一般公信度高的,较准确的信息才会被收集、组织或存储在检索工具或数据库中,有目的地查检检索工具所获得的必要信息比直接泛阅信息要快数十倍。 3)能提高信息素质,加速成才 信息素质(Information Lliteracy)是指具有获取信息的强烈意识,掌握信息检索的技术和方法,拥有信息鉴别和利用的能力。中国的高等教育法明确要求大学生要具备信息素质。 第二章 信息检索理论与方法 第一节 信息检索原理 信息检索策略 信息检索策略是为实现检索目标而制定的计划和方案,是对整个检索过程的谋划和指导。即是对检索过程的安排。 检索策略有两种方式:手工检索策略和计算机检索策略。 在计算机检索的条件下,检索策略的构造应是在明确检索目标和信息需求的基础上进行的,包括选择检索数据库、确定检索项、选定检索范围和检索方法,运用逻辑算符拟定检索表达式,按照一定的步骤实施检索,并根据需要进行反馈调整。 信息需求按范围和程度的不同,可分为三种类型: ——普查型:需要全面收集某一主题的文献资料; ——公关型:需要收集有关某一主题的某一特定方面的文献资料,以解决科研生产中的关键问题; ——探索型:需要了解和掌握某一领域的最新研究动向或研究成果 查出的文献具有新颖及时的特点。 并要明确课题对查新、查全和查准的要求,包括信息的形式需求和内容需求。 制定检索策略就是在确定检索主题的基础上,选择检索系统,确定检索途径和拟定检索程序,它包括手工检索策略和机器检索策略的制定。 选择检索系统 考虑选择计算机检索系统要包含与信息需求结合紧密、学科专业对口、覆盖信息面广、报道及时、揭示信息内容准确、有一定深度的数据库以及系统的检索功能是否完善等。 选择检索系统关键是数据库的选择,如书目文摘型数据库可检索文献信息的题名、作者、出处和文摘;(《医学文摘》MEDLINE,《科学文摘》INSPEC《美国化学文摘》CHEMICAL ABSTRACTS)事实型数据库可检索文字、图形、声像、计算机程序等(《中国法律法规大典》《中国雕塑史图录》《中国古典音乐大全》)。 这就需要了解数据库所对应的版本形式如印刷版、光盘版、网络版等,如《工程索引》数据库就有三个版本,印刷版(The Engineering Index---Ei, 1884--)、光盘版(Ei Compendex Plus, 1989--)、网络版EiCompendexWeb, http://ultr2.lib.tsinghua.edu.cn/ei-village/plsg/switch. main, 1970--)。 确定检索词 检索词是表达信息需求和检索课题内容的基本单元,也是与系统中有关数据库进行匹配运算的基本单元,检索词选择洽当与否,直接影响检索效果。检索词分为四类: 1)表示主题的检索词 ——标题词:指经规范化处理得先组定组式的词汇。 ——单元词:指从信息内容中抽出的最基本的词汇。 ——叙词:指从信息的内容中抽出德、能概括表达信息内容基本概念的名词或术语,它是经规范化处理的自然语言词汇。 ——关键词:指从信息单元的题目、正文或摘要中抽出德能表征信息主体内容的具有实质意义的词语,它是未经规范化处理的自然语言词汇。 2)表示作者的检索词。如作者姓名、机构名。 3)表示分类的检索词。如分类号 4)表示特殊意义的检索词。如ISBN、ISSN、引文标引词等。 检索词的选择与确定要遵循以下两个原则 根据检索课题所涉及的学科专业和技术内容选词。 对检索词进行处理。如使用检索词表进行比较对照,选用规范化的词汇作为检索词。 构造检索表达式 在计算机检索过程中,检索提问与存储标识之间的对比是由机器进行的,构造检索表达式的核心是构造一个既能表达检索课题需求,又能被计算机识别的检索表达式。 构造检索表达式前要弄清所使用数据库的检索功能和所采用的操作算符,才能有效地进行信息检索。如截词符,在Ei Compendex中用“*”表示,在DIALOG ,UMI中用“?”表示,在OCLC中用“+”表示。 检索表达式中用于连接各词的算符按其功能不同可分为逻辑算符、位置算符、截词算符和限制符等,不同的数据库会采用不同的符号或文字来描述词与词之间的组配关系。 逻辑算符:又称布尔逻辑算符,利用布尔代数中的逻辑运算符来描述检索词之间的关系。常用的三种:逻辑与(AND或*)、逻辑或(OR或+)、逻辑非(NOT或-)。 位置算符:指表示词与词之间位置关系的符号。是对检索词进行加工、修饰,限制词与词之间位置关系,弥补布尔逻辑算符只是定性规定检索词的范围,可提高查准率。 常用的位置算符有:W——With的缩写, 表示算符两侧的检索词按此前后衔接的顺序排列,词序不可变更,且两词之间不许有其他的词或字母,但允许两词之间有空格或标点符号。 nW—— n Word的缩写, 表示算符两侧的检索词之间允许插入个实词或系统禁用词,如冠词、介词和连接词。 N ——Near的缩写,表示算符两侧的检索词必须紧密连接,词间只允许有空格或标点符号。同时出现在文献纪录的同一字段中 nN——表示算符两侧的检索词之间允许插入n个实词或系统禁用词,两词词序可变。同时出现在文献纪录的同一字段中 S ——Subfield的缩写。表示算符两侧的检索词必须同时出现在文献纪录的同一字段、句子或短语中,允许插入n个实词或系统禁用词, 词序可变。 F—— Field的缩写。表示算符两侧的检索词必须同时出现在文献纪录的同一字段中,允许插入n个实词或系统禁用词,词序可变。 C——Citation的缩写。表示算符两侧的检索词必须同时出现在一条文献的记录中,词间允许插入n个实词或系统禁用词,词序可变。 L——Link的缩写。表示算符两侧的检索词之间有一定的从属关系。 截词符:是指在检索词的合适位置进行截断。截词符的作用是对检索词进行截词处理,解决一个词的单复数问题,词干相同而词尾不同的问题和英美词汇拼写差异的问题。常用的截词符有“*”、“?”“$”。按截断的字符数量可分为有限截断和无限截短。 有限截断是指检索词串与被检索词实现只能在指定位置可以不一致的匹配,常用“?”表示。如:acid,可以匹配acid,acidic但不能匹配acidity。 无限截断是指检索词串与被检索词实现部分一致的匹配。常用“*”表示。其截断形式有左截断、中截断、右截断。 左截断是指检索词与被检索词实现词间的后部相同,即对同词干而前缀不同的概念进行检索如*magnetic,可检出magnetic,or,paramagnetic的信息,但检不出mangenetics的信息。 右截断词是指检索词与被检索词间的前部相同而后缀不同的检索。如:acid*可检出含有acid,acidify,acidic等词的信息。 中断截词是指检索词与被检索词之间只需任意部分匹配即可。如:*relation*可检出relation,relations,interralation等词的信息。 限制符:其作用是限制检索词或检索式在数据库记录中出现的字段位置。数据库中可供检索的字段通常分为基本检索字段和辅助检索字段。 基本检索字段主要有题名(TI)文摘(AB)主题词(DE)和标识词(ID),适用于各种数据库。 辅助检索字段主要有作者(AU),语种(LA),出版年代(PY)刊物名称(JN)。文献类型(DT)等字段。这些限制氟在不同的系统或数据库中有不同的表达形式和使用规则,使用时要参照有关数据库的使用说明。避免产生误检。 要注意选择的检索标识只能表达信息需求的不同侧面,而不能反映需求的完整内容,只有用逻辑表达式将不同的检索标识组合在一起,才有可能表达完整的检索课题。“与”和“非”组合使用得越多,信息需求的开年表达得越深,切题性就比较高。 如:“有关造纸废水的处理技术”方面的检索式,首先抽起检索词: 造纸——paper making, paper pulp 废水——waster water 处理——treat, treatment 构造检索式:(paper w making or paper w pulp) and waster water and (treat or treatment)。 实施检索策略 1)获取检索信息 手工检索策略的实施,主要将检索策略中信息需求所涉及到的有关提问特征如:主题词、分类号、作者姓名等与检索系统中的检索标识进行比较分析,筛选与信息需求相一致的检索结果。 计算机检索策略的实施,是将构造好的检索提问表达式,输入计算机检索系统,使用检索系统认可的检索指令进行逻辑匹配运算,并输出检索结果。 以上两种检索策略若检索结果内容较多,还需要进行二次检索进行缩检。 索取原始信息 对检索结果进行归档整理,并按相关度进行排序,从而获取相关度最高、最有价值的原始信息。 修改检索策略 检索策略的好坏与检索表达式的建立、检索途径的选择、检索词的选用和检索词之间的逻辑关系直接有关,还有检索人员对语言学的了解、对事物的认知能力、专业知识水平的高低有密切关系,另对检索系统的特性和功能的掌握,以及外语水平都会影响到课题检索的结果。检索策略的修改反映在检索前、检索过程中、检索后。 检索前要查询一次文献、词表和数据库指南。 检索过程中要充分利用人——机对话的有利条件,随时据信息反馈情况调整检索策略。 检索后对检索结果进行分析评价,建立文档、为今后的检索积累经验。 二、信息检索步骤 信息检索步骤就是根据既定课题要求,利用检索工具查找有关资料的具体过程。它是检索策略的具体化,包括明确需求、分析主题、选择检索工具或数据库,确定检索次、构造检索表达式、提交检索表达式、现实与优化检索结果等。 三、信息检索方法 信息检索的方法有多种,分别使用于不同的检索目的和检索要求。归纳起来,常用的信息检索方法有常规检索法、回溯检索法、循环检索法。 1.常规检索法。又称常用检索法、工具检索法。它以主题、分类、作者等为检索点,利用检索工具获的信息资源的方法。根据检索方式,常规检索法又分为直接检索法和间接检索法;根据检索需求,常规检索法又分为顺查法、倒查法和抽查法。 1)直接检索法。是指直接利用检索工具进行信息检索的方法。如利用字典、词典、手册、年鉴、图录、百科全书等进行检索。这种方法多用于查找一些内容概念较稳定较成熟、有定论可依的指示性问题的答案。即可解决事实性的检索和数据性的检索。 2)间接检索法。利用检索工具间接检索信息资源的方法。 3)顺查法。根据检索课题的起始年代,利用选定的检索工按照从旧到新、由远及近、由过去到现在顺时序逐年查找,直至满足课题要求为止的查检方法。 这种方法费力、费时,工作量大,多在缺少评述文献采取此法。因此可用于事实性检索。 4)倒查法。倒查法与顺查法相反。这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。此法查处的信息新颖,但查全率不高。 5)抽查法:是利用检索工具进行重点抽查检索的方法。针对某学科的发展重点和发展阶段,拟出一定时间范围,进行逐年检索的一种方法。此法检索效率较高,但漏检的可能性大,检索人员必须熟悉学科的发展特点。 2.回溯检索法。又称追溯法、引文法、引证法、是一种跟踪查找的方法。即以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。在没有检索工具或检索工具不齐美的情况下,利用此法能够获取一些所需要的文献资料,但往往查全率不高,回溯年代越远,所获取的文献越成旧。 这类检索工具著名的有美国的《科学引文索引》《社会科学引文索引》《艺术和人文科学索引》,中国的有《中国科学引文索引》、《中国社会科学引文索引》。 3.循环检索法。又称交替法、综合法、分段法,检索时,先利用检索工具从分类、主题、责任者、题名等入手,查出一批文献,然后再选择出与检索课题针对性较强的文献,再按文献后所附的参考文献回溯查找,不断扩大检索线索,分期分段地交替进行,循环下去,直到满意为止。 在实际检索中,采用哪种检索方法最合适,应根据检索条件、检索要求和检索背景等因素确定。 四、信息检索途径 信息检索工具是把众多的各类信息资源进行分析加工后,按照一定的特征标识排检组织而形成的信息集合体。 信息检索就是分析一些既定标识,从信息集合中选择信息。 信息检索途径是与文献信息的特征和检索标识相关。据文献外部特征和内部特征,信息检索途径分为两大类。 1.以文献的外部特征为检索途径 题名途径。可查找图书、期刊、单篇文献。检索工具中的书名索引、会议名称索引、书目索引、刊名索引等都提供了从题名进行文献检索的途径。 责任者途径。包含个人责任者、团体责任者、专利发明人、专利权人、合同户、学术会议主办单位等。 利用责任者检索文献,主要利用的是作者索引、作者目录、个人作者索引、团体作者索引、专利权人索引等。 号码途径。据文献信息出版时所编的号码顺序来检索文献信息的途径。特定编号如:技术标准的标准号、专利说明书的专利号、科技报告的报告好、合同号、任务号、馆藏单位编的馆藏号、索取号、排架号等。 优点:它的排列与检索方法以字顺或数字为准,比较机械、单纯,不易错检或漏检,若已知书名、刊名,作者姓名或序号数码的文献,可直接判断该文献的有与无。 2.以文献内容为检索特征 文献的内容特征是指从文献所载的知识信息中隐含的、潜在的特征,如:分类、主题等,内容特征作为检索途径更适宜检索未知线索的文献。 分类途径。分类途径是以课题的学科属性为出发点,按学科分类体系来查找文献信息,以分类作为检索点,利用学科分类表、分类目录、分类索引等按学科体系编排的检索工具来查找有关某一学科或相关学科领域的文献信息。 它能满足族性检索的需求。 主题检索。以课题的主题内容为出发点,按主题词、关键词、叙词、标题词等来查找文献。以主题作为检索点,利用主题词表、主题目录、主题索引等按主题词的字顺编排的检索工具来查找有关某一主题或某一事物的文献信息,能满足特性检索的需求。适合查找比较具体的课题。 分类主题索引。是分类途径与主题途径的结合。 第二节 文献信息著录法 著录,是指在编制目录时,对具体文献的各种形式特征、内容特征及物质形态等进行分析、选择和记录的过程。 著录法。是关于如何进行著录的具体的规定和具体做法。 款目或记录。按照一定的方法和规则,对某一具体文献或信息源的内容和形式特征所作的描述。一条款目或记录是一种文献或一种信息源的高度概括和浓缩。 目前国内外常用的著录方法和规则有《英—美编目条列 第二版 》 《AACR2,Analo-American Cataloging Rules version2 》《国际标准书目著录》(ISBDInternational Standard Bibliographic Description)、中国国家标准《文献著录总则》、《西文文献著录条列》、《连续出版物著录规则》 一、传统著录法 按照《国际标准书目著录》ISBD等标准和规则的要求,统一进行规范化的著录。文献著录的结果是款目。 款目是揭示文献内容和形式特征的记录事项。 文献内容指文献的学科内容,基本特征从文献的正文获得通过提要项和排检相中的分类号、主题词反映出来。 文献的形势包括两种,一是文献外表的文字特征,如:题名、责任者、出版发行情况等,其基本特征从题名页、版权页等处获得,通过题名与责任者项、版本项、出版发行项、丛编项反映出来;二是文献物质形态,其中又可区分为内容形态和外部形态,前者指数量(页数)、图,后者指文献的尺寸、开本、装订、附件等,其基本特征从文献的整体形态获得。通过载体形态项反映出来。 据中国文献著录国家标准《文献著录总则》,将文献特征著录项目确定为九大项: 题名与责任者项;版本项;文献特殊细节项;出版发行项;载体形态项;丛编项;附注项;文献标准标号及有关记载项;提要项。 元数据 1.元数据概述 元数据(Metadata)是关于数据的数据(data about data),元数据的含义是逐步发展的,这一词起源于计算机科学,主要指网络资源的描述数据,但由于传统的书目数据与数字信息资源的描述数据本质相近,因此元数据这一术语适用于各种类型信息资源的描述记录。 元数据描述的对象包括:图书、期刊、磁带、录像带、缩微品、论文、科技报告及各种形式的网络信息资源等。描述成分通常是指从信息资源中抽取出来的用于说明其特征、内容的数据,如题名、版本、出版数据、相关说明等。 传统文献的著录只是局限于完整的、静止的信息内容的处理;不适于网络环境下动态的多媒体信息的处理。 元数据是识别信息资源的所在及其属性的记录,它既包括文档名、URL等信息源的记录数据,也包括图书系统、情报系统等人工加工后的种种结构化的数据记录,如书目信息、文摘、索引、综述等。 元数据项目适应于档案和原稿的有EAD,广泛适用于图书馆界和情报界的DC,这些元数据虽有相似性,但彼此之间难于兼容。目前在W3C(因特网联盟)的授权下,制定出符合多种需要,且具有灵活性RDF(资源描述框架),来支持因特网上的各种元数据格式。 RDF是一个与任何特定语法无关的抽象的资料表达模式,用于反映资源、属性和属性的价值,可把XML和RDF结合起来,使得各种元数据的格式可以出现或运行在同一界面上,提高了元数据的规范化和可操作性。 2.元数据的应用 元数据的应用主要入图像检索、导航和图像集合中的浏览、视频、声频和演讲,结构化的文献管理,地理和环境信息系统,数字图书馆,支持信息存取的混合多媒体等。 元数据在国外的应用。 1)美国的教育资料网关(GEM , Gateway to Educational Materials),它为全国的教师在因特网网站上提供教学计划、课程单元和其他因特网上的教育资源检索家里一个可操作性架构。可利用它开发使用HTML规范和因特网浏览器。 2)北欧的万维网索引(NWI , Nordic Web Index)是利用北欧各国的5个合作服务点而建立的,该系统以元数据为基础,可以实现包括题名、文献作者和URL等字段的检索。 3)欧洲研究与教育信息服务之开发项目(DESIRE ,Development of a European Service for Information on Research and Education )。该项目在基于主题的信息网关中为记录是用一般的元数据格式,编制了用于转换的映射表。 元数据在中国的应用。 1)文化部科技司的数字式中文全文文献通用格式。该格式是作为一个行业标准供中国大陆各级图书馆以计算机可读形式建立馆藏数字化中文全文文献资源。该标准适用于采用中文全文检索技术的计算机系统。 该标准规定了文本、图像以及多媒体等类型文献元数据的规范和定义,可用于普通图书、古籍、连续出版物、标准文献、科技报告、学位论文、地图资料、缩微资料、计算机文档等类型文献的元数据处理。 2)中国大陆的数字图书馆项目: a中国实验型数字图书馆。建设一个规范化的分布式数字式资源库,在资源组织和描述上,强调符合项目总体技术的统一要求。该项目计划由中国国家图书馆、上海图书馆、深圳图书馆、中山图书馆、南京图书馆、辽宁图书馆参与,模仿美国数字图书馆计划,侧重技术方案的实现,兼顾资源的数字化。 b 中国数字图书馆工程。其中需要建立数字图书馆国家中心的元数据共享检索系统和元数据资源中心,该中心使用并行数据库技术和分布式计算机系统来支撑海量的元数据系统。 c 清华大学建筑数字图书馆。提供中国营造社史信息导航、学科资料成果信息导航以及新营造学社资料方面的服务。 d 北京大学的中文Metadata标准研究。以中文文献为资源实体对象,研究中文文献元数据标准,并在其基础上制定中文文献元数据示范数据库。 第三节 信息资源标引法 标引是通过对文献或信息资源的分析,选用确切的检索标识,如分类号、主题词、关键词、人名、地名等,用以反映该文献或资源内容的过程。标引的英文是Indexing。标引是信息资源加工中的重要环节,使款目或记录编排的重要根据,对信息检索效果有直接的影响,通过标引,才可编成各种目录和索引等检索工具。 各种标引词存储于计算机内,才可实现文献或信息资源的检索。 利用不同的检索便是进行标引,就形成了不同的标引方法,目前主要的标引方法有:分类标引法、主题标引法、关键词标引法和名称表引法等(人名、地名、书名)。 由于计算机信息检索系统和信息数据库的应用,还出现了自动标引。 一、分类标引 分类标引是指依据一定的分类语言,对信息资源的内容特征进行分析、判断,赋予分类标识的过程。 通过对信息资源赋予分类标识,信息机构可以将各种信息资源纳入相应的知识门类,建立起相应的分类检索系统。信息用户只要根据一定的信息资源特征,就可以按系统提供的途径查找到所需的文献。 1.掌握分类标引的要求。具有准确性、充分性、一致性、实用性。 2.掌握分类标引的规则。 传统文献的分类体系,是以学科为中心建立的类目体系,应在分析文献主体对象的同时考虑其内容的学科属性。 如:《华北地质构造》,按学科先归入“P54 区域大地构造学”类,再加华北地区区分号“822”,得出分类号“P548.22” 网络分类体系,是以主题或学科为中心建立的类目体系,应根据类目的设置特点各入其类。 工具书、目录、索引、文摘等一般归入Z 综合类后,再按专业分散处理。 3.了解几种常用的分类法。中国常用的分类法有《中国图书馆图书分类法》《中国科学院图书分类法》《中国人民大学图书馆图书分类法》《中国图书资料分类法》;国外常用的分类法有:《杜威十进分类法》《国际十进分类法》《美国国会图书馆图书分类法》《冒号分类法》等。 二、主题标引 是依据一定的主题词表和主体标引规则,赋予信息资源语词标识的过程。具体是在主题分析的基础上,以一定的词表和标引规则作为依据,将信息资源中具有检索意义的特征转换成相应的主题词,并将其组织成能表达信息资源内容特征的标识的过程。 1.掌握标引方式。标引方式是根据资源特点和使用需要确定的标引和解释文献主题的形式。标引方式有:整体标引、全面标引、对口标引、综合标引和分析标引。 2.掌握标引规则。 3.了解几种常用的主题词表。中国常用的《汉语主题词表》(汉表)《中国分类主题词表》;国外常用的有《美国国会标题表》《医学标题表》。 三、关键词标引 使用非规范化的自然语言——关键词来表达文献或信息资源主题内容的过程。它属于主题标引的一种。 关键词目前被广泛的应用,也是最早用于计算机信息检索的自然语言形式。 1.关键词标引的类型 关键词标引通过轮排生成各种类型的关键词索引,包括题内关键词索引、题外关键词索引、双重关键词索引。 1)题内关键词索引(KWIC)。选择标题中具有检索意义的词作为关键词。关键词排检点设于标题的中部;所有索引条目按关键词的字顺竖向排列。保留文献篇名关键词前后的上下文。 2)题外关键词索引(KWOC)。对(KWIC)索引的改进形式。将索引标目的位置从中部移至左端或左上方,标目下完整列举文献篇名。编制索引时,关键词置于左端,将条目轮流置于篇名中的每个关键词之下,整个条目按关键词的字顺排列。 3)双重关键词索引(Double KWIC Index)。采用双重标目,在篇名之外设置第一个主标目,再在篇名的左端按副标目(第二关键词)排列。双重关键词可以通过两个关键词的组配进行查找。 2.关键词索引编制的步骤 1)将文献篇名输入计算机; 2)计算机自动进行分词和抽词,并取除介词、连词等非关键词; 3)进行论排,使每个关键词都轮流用作标目,同时保留其上下文; 4)排序和编辑。 四、名称标引 名称标引是用责任者、地名、题名表达文献或信息资源主题内容的过程。它包括责任者标引、题名标引、地名标引等。 1.责任者标引。责任者是指对文献中的著作内容进行创造、整理、负有直接责任的个人或团体。责任者有个人责任者和团体责任者,个人责任者包括第一责任者和其他责任者;团体责任者包括机构名称和会议名称,中国责任者标引时,采用直序的方法,外国责任者则视情况有的采用直序的方法,有的采用倒序的方法,名在前,姓在后。 2.题名标引。题名是指直接表达或象征、隐喻文献内容的主题及其特征,并是指个别化的名称。提名包括正题名、并列题名、副题名、说明题名文字等,标引时,选择适当的题名名称加以标引。 第四节 信息资源排检法 信息检索工具都采用一定的方法编排,使内容有序化,便于用户检索。信息检索工具常用的排检反方法分为两大类:一类是字序法,如字顺法和查字法;一类是类序法,如分类法、主题法,另外还有其他的如:时序法、地序法、谱序法。 一、字序法 又称字顺法或查字法,是按一定的顺序排检单字或复词的一种方法。一般的字典、词典、索引和百科全书都采用这种反方法。 1.中文排检法。包括形序法、音序法和号码法。 形序法有:笔画法。笔顺法。部首法。 音序法有:汉语拼音排检法。注音字母排检法。 号码法:四角号码法。 2.外文排检法。目前世界上有2000多种语言,多数有文字,适用范围超过5000万人口的语言有13种,其中联合国正式的工作语言有:汉、英、俄、西、法、阿拉伯语6种语言。 外文工具书的排检法主要有字顺排检法、分类或主题排检法、时序排检法、地序排检法和列表排检法等。 字顺排检法。机械地按照字母或词的顺序进行排列,是编制工具书最常用的一种反方法,一般包括书名、著者名和主题字顺。按字母系统可以分为:拉丁文字顺排检法、日文字顺排检法、俄文字顺排检法。 二、类序法 按照文献或信息资源的内容,分门别类排列的方法。它包括分类法和主题法。但分类法更多地是按代表类名的、由字母或数字代码组成的类号排列;主题则按主题类名的字顺排列。 注意分类法排列中除体系分类法之外还有四部分类法。 时序法。按照文献的写作、发表和出版年代或事物发生发展的先后顺序来编排文献的一种方法。一些时间性较强的工具书如:年表、历表、史事纪年和专门性表普等。比较重要的检索工具书如:《中国历史记年表》《中西回史日历》《中外历史年表》《国内外大事记》等。 地序法。按照文献中所涉及的国家、地域等为标识来编排文献的方法。利用这一方法能集中同一国家或地区的全部文献,较全面地反映某一地区、某一国家的历史和现状。采用这一方法主要用于编制地理、地方志、和有关农业方面的检索工具,常用的如:《中华人民共和国分省地图集》《中国地方志综录》《历代地理沿革表》《中国名胜词典》《中国边疆图籍录》等。 此法需要有辅助的索引配合,才能在不知所属地区时按地名查找。 谱序法。按照机构建制、血缘关系依次编排文献的方法。常见的检索工具如《历代职官表》《辛亥以后十七年职官年表》等就是按照机构建制,从中央到地方逐级排列各政权机构的职官;世袭表和族谱则按照血缘关系依次排列,如洪秀全家的《洪氏宗谱校补本》(1981年版) 第三章 信息检索工具与数据库 第一节 检索工具概述 检索工具的定义:检索工具适用于报道、存储、和查找各类信息的工具。包括传统的二次、三次、印刷性的检索工具,面向计算机网络的联机数据库检索系统、光盘数据库系统、搜索引擎等各种网络检索工具。 3.数据库检索系统的生产情况。《中国数据库大全》(国家计划委员会、国家科学技术委员会、国家信息中心编,国家计划出版社出版,1996年版)共收录中国自建的,能提供对外服务的,既有一定数据量的和使用范围的各种数据库1038个,均能提供对外检索服务,目前世界上能提供这类服务的数据库共有11339个。 4.搜索引擎概况。中国大陆有搜索引擎约60个,香港地区中文搜索引擎约有20个,中国大陆常用的,性能较稳定的各类中英文搜索引擎20余个,国外已开发的各类搜索引擎近200个。 检索工具的类型 按检索手段的不同,检索工具可以分为传统检索工具和网络检索工具两大类型。这里主要介绍传统的检索工具。 传统检索工具主要是各种类型的工具书。 工具书是根据一定的需要,比较完备地汇集某一方面的资料,并按特定的方法加以编排,专供读者查考检索有关知识、资料、事实的书籍。据工具书的体例和功能,可分为检索型工具书、参考性工具书、词语性工具书、表谱性工具书、图录性工具书和边缘性工具书6种类型。 1.检索性工具书。是在一次文献的基础上整理、编制出的提供文献信息检索的二次文献。包括树木、索引、文摘、文献指南。主要用于查找国内外书刊资料。 1)书目。是对一批单独出版文献的记录与揭示,并按一定的方法加以编排的检索工具,通常揭示书名、作者、卷册、版本、出版者、出版年、价格、内容简介等。据编制目的、收录范围和内容,可由以下4种书目。 国家图书书目。揭示某一时期国家出版的各类图书的总目。如:《全国总书目》《中国国家书目》《全国新书目》《国际在版书目》《英国国家书目》 《美国在版书目:作者》《美国在版书目:书名》等。 国家报刊书目。揭示某一时期国家出版的各类报刊的总目。《中国报刊名录》《中国报刊大全》《中国当代期刊总览》《中文核心期刊要目总览》《乌利希国际期刊指南》《日本杂志总览》《Web网杂志目录》等。 此外还有专科或专题书目如:《台湾史关系文献书目》《大学生导读书目》《中国现代文学总书目》《伦敦社会科学书目》《在版科技图书和连续出版物目录》等。 馆藏书目。揭示一个图书馆收藏图书的目录。有卡片目录和书本是目录两种。卡片目录通常配有3套即分类目录、书名目录和作者目录。供用户从不同的途径去检索。 书本式目录是馆藏目录的印刷型。可为到馆的用户查阅使用,也可为不到馆的用户提供函借或复印。 联合目录。是汇集某个地区或系统,乃至全国的图书馆或文献中心文献信息收藏实况的目录。把分散在各馆的书刊从目录上连成一体,使用户既能查到所需书刊,又能知道该书刊的馆藏所在,以便就近借阅。常见的有《西文参考工具书联合目录》《西文科技学术会议录联合目录》《天津地方史资料联合目录》《美国全国联合目录》《英国期刊联合目录》《美、加图书馆连续出版物联合目录》等。 2)索引。是将书刊里的论文题目、人民、地名、以及词句等分别摘录出来,并注明出处,按一定的方法编排起来的检索工具书。 论文题目索引。如:《全国报刊索引 哲社版》就是将全国公开发行和内部发行的2000多种报刊中所载的论文题目逐一分析著录出来,注明论文所在报刊的卷期、页码,专供用户查找有关论文之用,主要的索引还有《人民日报索引》《光明日报索引》《解放军报索引》《中国社会科学文献题录》国外的主要有:《书评索引》《美国地理杂志索引》《社会科学论文索引》 人名索引。主要的有《古今人物别名索引》《室名别号索引》《作家笔名索引》《世界姓名译名手册》《英语姓名译名手册》《俄语姓名译名手册》《德语姓名译名手册》《发育姓名译名手册》《日语姓名译名手册》《世界文学家大辞典》《世界人物大辞典》《外国历史名人辞典》《外国人名辞典》等。 地名索引。主要的有:《中国历史地名大辞典》《中国古今地名大辞典》《中外历史地名大辞典》《世界地名词典》《韦氏地名词典》《剑桥世界地名词典》等。 字句索引。主要的有:《汉语方言词汇》《中国俗语大辞典》《古今俗语集成》《通俗编》《俗语典》《中国谚语》《歇后语大全》《小说词语汇释》《中国古代格言大全》《中国名言大观》《警句格言分类大辞典》《世界名言博引辞典》《中外名言大全》《十三经索引》《论语引得》《韩非子索引》《荀子引得》《杜诗引得》《唐宋名诗索引》,国外主要的有:《牛津引语辞典》《通晓引语》《古典和现代引语大全》等。 3)文摘。是对一定范围内的论文或书籍中的内容进行浓缩,概括地陈述其主要论点、数据、结论等,并注明其出处,按一定的方式编排起来的检索工具。主要的有:《经济学文摘》《国外经济文摘》《中国医学文摘》《中国农业文摘》《管理科学文摘》等。国外的主要有:《书评文摘》《应用社会科学索引和文摘》《心理学文摘》《社会学文摘》《历史文摘》等。 4)文献指南。是说明各类文献特点及其查找方法,并具体介绍常用工具书及其使用方法的检索工具。主要的有:《古今中外人物传记指南录》《科技名录指南》《中外专利数据库检索指南》。国外的主要有:《英国政府出版物指南》《工具书指南》《化学情报源》《医学情报源》《经济学情报源》等。 2.参考性工具书 指能为读者提供各种所需的具体资料的工具书。与检索工具书仅提供文献线索相比较,参考工具书提供的资料更具体,包括百科全书、类书、政书、年鉴、名录、手册。 1)百科全书。是以词典形式编排的、荟萃各门知识的大型参考工具书。百科全书系统、扼要地阐述各科知识,并对每一学科提供定义、原理、方法、历史及现状、统计数字及参考书等方面的资料,并着重反映学术上的最新成就,通常分为综合性百科全书和专科性百科全书。综合性百科全书主要的有:《中国大百科全书》《环球百科全书》等,国外的主要有:《美国百科全书》《新不列颠百科全书》《钱伯斯百科全书》等;专科性百科全书主要的有:《科学技术百科全书》《中国医学百科全书》《中国企业管理百科全书》《化工百科全书》《材料科学与工程百科全书》《政治经济学百科全书》《最新网络百科全书》《能源百科全书》《药物制造百科全书》《海洋世界百科全书》等,国外的主要有:《美国学术百科全书》《优等生百科全书》《麦克米伦科学百科全书》等。 2)类书。是一种把古籍资料汇集在一起的资料汇编。大多按类编排,是中国特有的工具书种类。主要的有清《古今图书集成》、明《永乐大典》、唐《艺文类聚》、宋《太平御览》《册府元龟》,还有《三才图会》《图书编》等。汇集的内容有些是古书中的资料片断,有些是整篇的内容。 3)政书。是记载历代典章制度的史书。是中国特有的工具书种类。给政书经过综合概括,以论述历代典章制度的沿革和发展。 主要的政书有:唐代杜佑的《通典》、宋代郑樵的《通志》、元马端临的《文献通考》,清修的《续通典》《续通志》《续文献通考》、《清通典》《清通志》、《清文献通考》,清刘锦藻《清续文献通考》等共10部。称为“十通”。 此外还有会典和会要。是记载一个朝代的典章制度的政书,但会典记事以官职为纲,注重记载章程法令和各种典礼;会要则分门别类记载,如《秦会要》《唐会要》等。 4)年鉴。是一种按年度连续出版的汇集一年内重要资料的工具书。年鉴可分为综合性年鉴、专门性年鉴和统计性年鉴。 综合性年鉴。全面地反映国家或国际上政治、经济、文化、科学等各个方面的年度发展状况和有关资料。主要的有:《中国百科年鉴》《中国年鉴》《广州年鉴》《广东年鉴》《武汉年鉴》等,国外的有:《世界年鉴》《惠特克年鉴》等。 专门性年鉴。通常围绕一定的学科、专业和专题等系统地收集有关的资料,反映其年度进展情况。中国主要的有:《中国对外经济贸易年鉴》《中国出版年鉴》《世界经济年鉴》《中国经济年鉴》《香港经济年鉴》《广州经济年鉴》《广东物价年鉴》《中国企业年鉴》《中国商业年鉴》《中国集邮年鉴》《中国农村年鉴》《中国教育年鉴》《中国人物年鉴》等,国外的主要有:《欧罗巴世界年鉴》《政治家年鉴》《联合国年鉴》《世界大事年鉴》等。 统计性年鉴。用数字来说明有关领域的进展情况,为用户提供数值数据。主要的有:《中国统计年鉴》《中国人口统计年鉴》《中国城市统计年鉴》《湖北统计年鉴》《上海统计年鉴》等,国外的主要有:《联合国统计年鉴》《最新各国统计概览》《国际贸易统计年鉴》《联合国教科文组织统计年鉴》等。 5)名录。是一种专门对人名、地名、机构名称进行汇集并给予简要揭示和介绍的工具书。名录可分为人名录、地名录和机构录。 人名录主要的有:《中华人名共和国党政军群领导人名录》《中国科学院科学家人名录》《中国普通高等学校教授人名录》《工程人名录》等,国外的主要有:《国际名人录》《美国名人录》《民国时期中国传记词典》《中华人名共和国名人录》《20世纪主要作家》等。 地名录主要的有:《中国地名录》《全国乡镇地名录》《世界地名录》等。 机构名录主要的有:《中国工商企业名录大全》《中国高等学校大全》《中国档案馆名录》等,国外的主要有:《美国大学与学院》《美国政府手册》《美国社团大全》《国际基金会指南》《科技机构名录》等。 手册。类似年鉴,但编辑出版时间不受限制,主要汇集某一学科或主题即概括全面又具体适用的知识和资料。手册可分为综合型手册和专门性手册。 综合性手册。汇集多个领域的基本知识和参考资料,主要的有;《中华人民共和国资料手册》《生活科学手册》《新兴学科百科知识》《当代新兴学术手册》等。 专门性手册。汇集某学科和某专业的适用知识和参考资料。主要的有:《经济工作手册》《各国货币手册》《法学知识手册》《机械工程手册》《物理学手册》《数学手册》《世界近代史知识手册》《世界邮票知识手册》《国际经济组织手册》《国际组织手册》等,国外的主要有:《CRC化学物理手册》《医生案头参考书》《世界政治手册》等。 3.词语性工具书。主要包括各类字典和词典,都是汇集字、词、成语、并按一定的次序编排、解释的工具书。词语性工具书可以分为综合类、成语典故类和专科类三种。 综合类的主要有:《汉语大词典》《中华大字典》《新华字典》《中国书法大字典》《中文形音意综合大字典》《中国图书大词典》《难字小字典》《说文解字》等,国外的主要有:《牛津动词短语词典》韦氏三版新国际英语词典》《美国传统英语词典》等。 第二节 数据库概述 数据库(DB DataBase)是数据管理的最新技术,是计算机科学的一个重要分支学科。数据库中存储的基本对象是数据(Data)。数据泛指计算机能够处理的各种事实、数字、字符等各类符号的集合。如文字、图形、图像、声音、银行的账户记录、产品的销售记录等。它们都可以经过数字化后存入计算机。 数据就是描述事物的的符号记录,用计算机进行存储时,同样要抽出能对事物进行描述的特征内容组成一个记录(record),如银行账户记录中,人们可将账户的账号、存款、余额、取款、日期作为重要的内容进行描述。如:210000001852,80000,50000,30000,2002/3/18 意思就是账号为210000001852 的客户,存款80000元,于2002年3月18日取款3万元,还余50000元。 一、数据库的界定 数据库是指长期存储在计算机存储设备上的、可供计算机快速检索的、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储,其中的每条记录类似于工具书的每条款目,字段类似于(篇名、作者、中文刊名、年、期)类似于著录项目,使用关系模型组织的,其关系数据库则类似于检索途径较多。检索功能强大的,则由分类目录、主题目录、作者目录、书名目录组成“目录体系”。 通常对数据文件要执行的操作包括:从现有的文件中检索数据、更改现有文件的数据、删除现有文件中的数据、向现有文件中插入数据、删除数据库中的现有文件等。 数据管理系统是位于用户与操作系统之间的一层数据管理软件,其管理功能具体体现在以下三个方面: 1.数据定义功能。指用户可通过数据库管理系统提供的数据定义语言(DDL)对数据库中的数据对象进行定义。如用描述数据长度的语句或表象分别定义“篇名”“作者”“中文刊名”“年、期”字段的存储空间;用数据命名语句定义“期刊篇名数据库中”的数据名称分别为“篇名”“作者”“中文刊名”“年、期; 2.数据操作功能。即用户可通过数据管理系统提供的数据操作语言(DML)实现对数据库的基本操作如:数据查询、数据更新、数据插入、数据删除; 3.数据库管理功能。数据库在建立、使用和维护过程中,为保证数据的安全、多用户对数据并发使用及发生故障后的系统恢复,因而要有数据库管理系统统一提供最基本的数据保护功能,统一控制数据库。 目前,在数据库的种类、数量,以及特定数据库本身数据记录的数量都在迅速增多, 数据库的安全和定期维护工作越来越重要,需要专门人员来完成,这些人员被称为DBA即数据库管理人员,是IT方面的专业人员,包括一些系统程序员和技术助理,数据库管理员的功能是由一组人来承担,他们的工作是创建实际的数据库,执行需要实施各种决策的技术控制,并负责确保系统执行正确的操作。 因此可以说一个数据库系统是由数据库、数据管理系统、数据库管理员共同组成的计算机系统。他们之间的关系为:数据库是由数据库管理员运用数据库管理系统建立数据库结构、增加记录、删除记录、修改记录、查询检索、以及进行日常的安全维护等操作的。 二、数据库的结构 可以从数据库管理系统和数据库用户两个不同的角度来考察数据库的结构。从数据库管理系统的角度看,是数据库管理系统内部的面喜爱能够数据库管理员的结构;从数据库用户的角度看,数据库的结构有集中式数据库结构、分布式数据库结构、并行数据库结构、异构数据库结构、客户/服务器结构和浏览器/服务器结构。下面从数据库用户的角度来介绍数据库的结构。 1.集中式数据库结构。指建立在单一计算机系统上的数据库。数据集中存储在一个大容量的外存储器上,数据库用户只能从这里获取所需要的数据。这类数据库可用网络连接,当需要对网络上两个以上数据库中的数据进行综合处理时,必须从一台机器退出后,在登陆到另一台机器上,因此这类数据库只适用于中、小企业、事业单位。 2.分布式数据库的结构。这类数据库的数据不是全部存储在一台计算机上,而是分散存储到一个计算机网络中的多台计算机上。虽然地点分散,但在整体结构上,它将整个数据库作为一个整体进行管路和控制,各台计算机具有完成局部应用的独立处理的能力,还可借助通讯子系统存取网上其它计算机上的数据,从而参与全局应用,达到共享。 分布式数据库最重要的问题是考虑各台计算机之间的协同工作,它比集中式数据库管理要复杂得多。 3.并行数据库结构。并行计算机系统就是从应用多个微处理机、多个内存和多个磁盘等硬件方面考虑协同工作的技术,系统可根据需要使用数个、数十个、甚至上千个微处理机协同工作,形成大规模并行处理计算机系统,可以完成一些单个维机无法完成的复杂任务。 并行数据库系统就是在并行机上运行的具有并行处理能力的数据库系统。它和分布式数据库的区别在于网络通讯方面,分布式大部分是串行方式,存在“时延”的问题,而并行式使用的是内部并行网,“时延”问题大大缓解,效率大幅度提高。 4.异构数据库结构。是指多个各不相同的数据库子系统组成的数据库系统,主要满足一些大型机构中的应用需要。如已使用了产品部件数据库,其帐目管理则使用网状数据库管理系统、公司销售人员管理则使用关系数据库管理系统。为更好地了解公司的整体情况如:资产情况、销售情况、帐目情况、人员情况、公司的新举措等,公司内便长期存在着异构数据库及其管理系统。 5.客户/服务器结构。是在计算机网络技术和分布式计算的基础上发展而来,它把一个计算机应用系统分成3个基本组成部分,即:服务器(为多个用户提供共享资源服务的计算机系统);客户机(为最终用户提供业务处理及用户界面的计算机系统);中间件(连接服务器和客户机的部分)。 在同一个网络中,客户机根据用户的业务需要,为用户提供相应的人-机交互界面,供用户向服务器提出数据服务请求;通过网络将服务请求传递给相关的服务器,服务器端按请求组织数据,并通过网络把服务结果传送给客户端;客户端完成最终业务处理或直接显示服务器反馈的内容。 6.浏览器/服务器结构。是一种以Web为基础的新型的管理信息系统,该结构客户/服务器结构中的服务器部分分解为一个数据服务器于一个或多个应用服务器即Web服务器,从而构成一个三层结构的服务体系。第一层为表示层,即浏览器;第二层是Web服务器,属功能层,完成用户的应用功能,第三层是数据库服务层即数据层,接受用户请求后独立进行各种运算。 这种结构简化了用户端,使用户操作更加方便,它还与Intranet/Internet完全兼容,具有良好的开放性。 三、数据库的类型 不管是传统数据库还是新一代数据库,都有一个共同的特点就是数据库应用类型的特殊性,即各种数据库的产生都是为某种特殊的(或具体的)的需要而出现的,进而成为数据库研究的不同的分支领域。 1.传统数据库。通常指由层次、网状和关系数据模型建立的各种数据库。他们主要应用于联机事务处理的各个领域。 1)情报数据库。20世纪60年代美国首创联机数据检索的先河,70年代推出国际联机检索服务,至20世纪末,情报数据库已成为数据库产品中最为成熟的应用系统。在世界上许多国家,联机情报检索系统已得到广泛的应用。 情报数据库的开发与利用最早以文献数据库为主,包括书目数据库(如MARC数据库)、一次文献数据库(如:化学文摘CA、工程索引EI、世界专利WPI等),现已发展成为全文数据库(如:美联社新闻全文库、金融时报全文库、中文期刊全文库等)。 按提供情报的等级来分,情报数据库可分为参考数据库和源数据库; 按存储的数据类型的不同,可分为文献数据库、数值数据库、事实数据库和图像数据库; 按存储介质的不同,可分为磁带数据库、磁盘数据库和光盘数据库。 参考数据库。参考数据库中的数据是文献或事实的参考内容。主要为用户提供查找源文献或事实的线索,指引用户获取原始信息的出处,如文献题录数据库,它提供一次文献的主要元数据。 源数据库。指包含原始文献信息全文、完整数据或节录的情报数据库。通常有全文数据库、数值数据库等。它可以直接提供用户需要的事实、数值或文字信息。 文献数据库。使用数据库方式组织的文献信息的集合。是开发最早、使用最为广泛的一种情报数据库,由情报单位或专门的机构生产、制作。内容包括文献的编号、题名、出处、日期、作者、内容等信息。 现代管理推动情报数据库从以文献数据库为主发展到以非文献型数据库为主,如:数值数据库、事实数据库、图像数据库等在应用领域逐渐占据了优势。 数值数据库。是指含有数值数据的一种源数据库。存储的是数字或用数字与某些特殊字符表示的数值信息,如:经济统计数据库、及其各类统计数据库等。 事实数据库。这类数据库中包含对客观事物的概念、属性和变化情况的描述信息,如中国科学院化学所建立的质谱数据库系统,有38711张国际标准质谱图,存储的数据属性包括化学名称、分子式、分子量、杂原子、离子峰等,还提供原始谱图阅读子系统谱图质量指数计算、统计分析子系统、香料化合物质谱检索子系统。 图像数据库。是用数据库方式组织的图像信息的集合,为用户提供图像数据和图像数据检索的方法,如:卫星测到的地形图信息库,天气云图信息库等。 不同行业的用户除了使用专业性强的数据库外,对跨学科的综合性情报数据库也有应用需求,因此,情报数据库无论从内涵还是外延来看,涉及面相当广泛,内容十分丰富。 2)图形数据库。是以数据库方式组织的图形信息集合。主要为用户提供图形数据和图形数据的检索方法。现代科学和许多工程领域已采用计算机图形系统,特别在计算机的辅助设计CAD中,图形数据库起着越来越重要的作用。 2.适用于专门应用领域的数据库。在传统数据库的基础上,结合各个应用领域的特点,研究适合该应用领域的数据库,是数据库技术发展的趋势之一。 1)统计数据库。SDB是用于存储、查询统计分析类型数据的特种数据库,数据来自军事、国民经济、科学等各部门,是一类重要的信息源。特点有: 分类属性和统计属性。分类属性数据用于说明计量数据的性质;统计属性的数据是用于统计分析的计量数据。如:在校博士生的统计数据库中有4个属性:省、市、年龄段、人数。其中“人数”表示计量数据,使统计属性;“省、市、年龄段”则表示参数数据,用于对“人数”加以类别说明,使分类属性。 分类属性层次结构复杂。如在以上的统计数据库中,属性“省”包括多个“市”,同时还包括多个“年龄段”,每个“年龄段”才对应最终的统计数据。 宏数据与微数据。统计数据库可分为宏数据统计数据库和微数据统计数据库两类。如以上的博士生统计数据库的微数据可以包括姓名、年龄、性别、专业等属性,进行综合统计后,可得到各专业的人数,而产生宏数据统计数据库,其属性只有两个:专业、人数。 因此,在统计数据库中,微数据是描述实际领域中不可分实体的数据;宏数据是对微数据统计数据库进行综合分析的结果数据。 静态性。由于数据是从实际领域或科学实验与模拟中采集来的,当采集结束并修改错误后,所有数据将不会再进行修改,这就是统计数据库的静态性。 统计数据库的应用领域在环境保护、气象模拟、空间科学、信息管理等。 2)工程数据库。是存储、管理和使用工程设计所需数据的数据库。数据库所处理的信息主要是计算机辅助设计和计算机辅助制造CAM系统中所包含的数据。 工程数据通常可分为两大部分:一部分是存放在标准数据库中的标准数据,是静态的数据;另一部分是运用程序运行的结果或中间结果,是动态的数据。 现实设计中,一个工程对象往往有几十、上百个简单实体组成,其工程数据包括产品的几何定义,工程分析、制造工艺、计划管理等方面,对产品设计、制造、管理和销售各个方面的内容都要涉及。因此工程数据拥有的数据是多方面的,除字符和数字外,还有图形,这是一种重要的数据类型。在完成一个设计的工程中,一个图形对象可能由成千上百个零部件组成,所以形成的图形数据不仅结构复杂,而且数据量也非常地大,需要占据相当的内存空间。 3)空间数据库。比较重要的空间数据库有两种:一是计算机辅助设计数据库,它是用于存储设计信息的空间数据库,主要用于构造建筑物、汽车和飞机等实体的信息;还有一类是用于集成电路和电子设备设计图的信息。二是地理数据库。它是用于存储地理信息(如地图)的空间数据库。 空间数据库的信息适用于描述所有呈二维、三维和多维分布的关于区域的现象。空间数据既要表示物体本身的空间位置信息,还要表示物体所处空间的关联信息。 地理信息系统是目前研究较为热门的空间数据库应用,主要用数字、文字、图像、图形等来表征地理范围或地理环境固有实体或实体的数量、质量、分布特点、相互联系和规律性。地图数据、遥感图像数据、数字地形数据等都属于地理数据。 地理信息系统的用途有多种多样。包括车辆导航系统、公共服务设施的分布网络信息如:电话、供水系统、以及可为生态学家和规划者提供的土地使用信息等。 从20世纪80年代开发地理信息系统以来,该系统在解决道路、输电线等基础设施的规划逐渐转向更复杂的领域,用于解决全球性的问题。 3.新一代数据库。指传统的数据库技术和其他计算机技术相互结合、渗透,使数据库中产生出新的内容,从而满足新的数据库应用领域要求的数据库。 1)分布式数据库。研究始于20世界70年代中期,是在集中式数据库的基础上发展起来的,他集成了两个不同领域的技术:数据库技术和网络通讯技术。这种数据库有如下的特点: 数据的分布性。数据库中的数据分布在计算机网络的不同结点上,而不是集中在一个结点上。 数据的逻辑相关性。在不同节点上的数据逻辑上属于同一个系统,数据间有相互的联系,不同于由网络连接的多个独立的数据库系统。 结点的自制性。每个结点有独立的计算机、自己的数据库和自己的数据库管理系统,可供其他结点上的用户存取以提供全局性的应用。 在大型公司和企业,数据的存储和使用都从集中式转为分布式,即在企业的各个地方都能访问共享信息,使企业的运作效率更高。 2)多媒体数据库。该研究始于20世界80年代后期,是数据库技术与多媒体技术相结合的产物。由文本、图像、声频、视频等多媒体数据组织起来的集成数据库。多媒体数据库有以下几个特点: 数据量大。播放1分钟的视频和音频数据需要几十兆字节的数据空间,而这样的数据空间可以放一个小型传统事物处理的数据库。 结构复杂。可以是文字、图像、声音等复杂的混合数据。 时序性。要有一定的同步机制,如配音和文字需要与画面同步,这就要有时序性的要求。 数据传输的连续性。声音和视频数据的传输必须是连续而稳定的,否则会出现失真的情况。 多媒体数据系统在办公自动化、计算机辅助设计、计算机辅助制造、教育等领域中应用广泛,运用了大量的文本、图形、图像、声音等多媒体数据,而这些多媒体数据的存储、管理、查询和更新等都不同于传统数据库中的数字、字符数据,要有专门的数据结构、存储技术、查询和更新方式来支持。 3)面向对象数据库。研究始于20世纪80年代,面向对象数据库的数据比较抽象,操作比较复杂,如一个地图对象可以定义为经度、纬度、地点的时间维;地形可以用点到点之间的等高线来定义等,除定义外,就地图对象而言,在它的各区域还含有隐藏的数据,如人口密度、植物、水源、建筑物的信息。这些即是派生出来的抽象数据类型。 4)实时数据库。实时数据库是有时间限制的数据和有时间限制的事物,如股票交易中,计算机所提供的“当前”股票的价格限制在不超过几秒的时间内,过了这个时间,这一股票价格便不再具有意义。 实际应用中,事物的实时要求决定了实时数据库不仅要具备传统数据库管理系统的逻辑一致性限制,还要具备时态一致性限制,定时性是实时数据库的根本特点,如“每3分钟取样1次”、“每天8点钟开机”、“若温度达到800度,则在3秒内加入制冷剂”等。 此外,新一代数据库还细分为演绎数据库、模糊数据库、主动数据库、并行数据库、事态数据库、移动数据库等。 4.数据仓库技术。数据仓库是指一个用于更好地支持企业或组织的决策分析处理的、面向主题的、集成的、随时间不断变化的数据集合。 在数据库的应用领域,当前的数据处理可以分为操作型处理和分析型处理。操作型处理。也叫事务处理,是指对数据库联机的日常操作,大多为企业的特定利用服务,主要是对数据库记录的查询、修改、删除、更新等;分析型处理。则是用于管理人员的决策分析,这类应用要涉及大量历史数据的访问。 数据仓库即是用于决策分析处理的系统。 数据仓库作为决策支持系统DSS的一种有效而可行的体系化方案,包括3个方面的技术内容:数据仓库技术(DW,Data Warehousing)、联机分析处理技术(OLAP,On-Line Analytical Processing)、数据挖掘技术(DM,Data Mining)。 数据仓库。是进行分析决策的基础,以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,以人工智能技术作为挖掘知识和发现规律的科学途径。因此,数据仓库是多学科相互结合、综合应用的技术。 联机分析处理技术。该技术专门用于支持复杂的分析操作,面向决策人员和高层人员,可以根据要求对大量的数据进行查询处理,并将查询结果以直观的方式提供给分析决策人员,在企业的运作、市场需求和制定企业未来的发展方向有重要的作用。 数据挖掘技术。是一种决策支持过程,主要基于人工智能、机器学习等技术,自动分析企业数据,进行归纳推理,从中挖掘潜在模式以帮助决策者做出正确的决策。如从大量股票行情历史记录中,挖掘出股票变化的规律和预测今后的趋势。 网络检索 因特网信息检索的特点 因特网通过标准通信方式(TCP/IP协议)将世界各地的计算机网络连接起来,。在因特网上,信息存放在世界各地的计算机上,任何网络包括校园网、企业网、国家网,只要通过一个结点介入因特网,整个子网就有可能成为因特网的一个部分,网上用户就可以通过计算机和因特网共享信息资源或者交换信息。开放的信息资源和信息检索工具超文本链接和使用的简便性等特点,使因特网成为知识经济的重要组成部分。 一、开放性。因特网开放性表现在他提供大量免费信息资源和检索工具,允许用户随时查询,并提供大量信息交换场所,如获得公用共享软件,查询相关的事实和数据信息,还可随时查阅个图书馆目录和文献资料,使用远距离的信息资源。 其次,因特网还提供注册是信息(即有偿信息资源),因特网上信息查询站点众多,用户可根据自己的徐上网查询信息,国际上著名的联机检索服务受到冲击,纷纷再在因特网上设立信息检索网站,这些数据库的使用通常就需要支付费用。 再次,因特网上存在许多交流式信息,如新闻论坛,使用户足不出户即可参与各种主题讨论。 因特网向商业用户开放后,网上的信息更为丰富,在国际商业活动中,在开放的因特网中,用户能获得最新的商业信息,了解商业机会和发展趋势。 TCP/IP是一个协议集,它有以下的特点:它是开放的协议标准,可以免费使用,并独立于特定的计算机硬件和操作系统;可以运行在局域网和广域网中,更适用于网络互连;有统一的网络地址分配方案,使网络中的每台主机都有唯一的地址。 因特网高度开放性带来的问题:新鲜权、非法信息的扩散。有人担心,因特网有可能出现不可预计的后果。 二、链接性。因特网的链接性主要体现在环球网(WWW, World Wide Web )上,www是因特网上最受欢迎、最普及、最新的信息检索服务系统,它把网上现有的资源全部链接起来,使用户能够查找已经建立了WWW服务器的站点(Site)的超文本或超媒体信息资源。 超文本。指的是计算机中的一种文档,用户在阅读这种文当时,从其中的一个地点移向另一个地点,获从一个文档已向另一个文档,都是按非线性或非顺序方式进行的,用户可以利用鼠标随时跳至于当前正在阅读的文档相关的新文档或新地点。 超媒体。是超文本的自然扩展,是超文本在内容和形式上的一种进步,使超文本与多媒体的组合。超媒体即使把死板的文档标成了活生生的文档,把个人计算机变成了多媒体设备,比音响、电视更为生动。 设计WWW的一个目的是为了能够很容易地检索到因特网上的文档,而不管这些文档在什么地方。当超文本作为WWW文档的标准格式后,人们制定了能够很快查找这些超文本文档的协议,即超文本传输协议(HTTP, HyperText Transfer Protocol)。 三、简便性。由于不受时间和空间的限制,世界各地的用户可以实时低、全天候地检索并获取各种形式的信息,因特网以交互方式,提供丰富、方便、界面友好的信息检索工具,通过这些工具的使用,用户可以获取所需的信息资源。 因特网提供的信息检索工具有:E-mail , WAIS , BBS , Gopher , Telnet, FIP Archie, WWW. 其中,WWW界面极为方便,每个人都可以通过浏览器浏览和检索信息。 此外,因特网还提供各种类型、功能强大的搜索引擎,极大地方便了网络信息的检索。 传统网络信息检索服务工具 因特网发展迅速,新技术、新工具层出不穷,一些传统的工具至今仍在使用,一些则被新的工具所代替。 主要的工具有:远程登录、文件传输服务、电子邮件、电子公告牌、Archie 、广域消息服务、Gopher 、WWW、代理服务器和NAT。 搜索引擎 搜索引擎被称之为“网络之门”(Search Engine)。搜索引擎作为因特网的导航工具,是通过采集、标引众多的因特网资源来提供全局性网络资源控制与检索机制,目标是将因特网所有的信息资源进行整合,方便用户查找所学的信息。搜索引擎本身也是一个WWW网站,与普通网站不同的是:搜索引擎网站的主要资源是描述互联资源的索引数据库合分类目录,为人们提供一种搜索因特网信息资源的途径。 搜索引擎的索引数据库,以网页资源为主,有的还包括电子邮件地址、新闻论坛文章、FTP, Gopher 等因特网资源。 一个完整的搜索引擎有以下几个部分构成:人工或自动巡视软件如:网络蜘蛛、爬行者、网络机器人等; 索引库或分类目录。 用于检索索引库的检索软件及浏览Web界面等。 搜索引擎对网络资源的收集和整理主要有两种方式:一是图书馆和信息专业人员通过对因特网信息资源进行筛选、组织和评介,编制描述网络资源的主体目录,但编制速度无法适应因特网资源增长变化的速度;二是计算机人员设计开发巡视软件和网络机器人等,对因特网资源进行自动搜集、整理、加工和标引。这一方式省时、省力、加工信息的速度快、范围广、可向用户提供关键词、词组或自然语言的检索。但由于计算机软件在人工智能方面与人脑的思维还有很大的差距,检索的准确性和相关性的判断上质量不高。现在很多搜索引擎则是把人工编制的主体目录和搜索引擎提供的关键词检索结合起来,充分发挥两者的优势。但因特网本身的特点,任何一种搜索引擎都不可能做到对因特网信息资源的全面检索。 一、搜索引擎的类型 按资源的搜集、索引方法及检索特点与用途来分,搜索引擎可分为分类目录型、全文索引型和文摘型;按检索方式分,搜索引擎可分为:单独型和汇集型;按覆盖范围分,搜索引擎可分为通用搜索引擎、专业搜索引擎;按功能分,搜索引擎可分为:常规搜索引擎和多元搜索引擎,或独立搜索引擎和集成搜索引擎。以下选择一些常用的并具有较好发展前景的类型加以介绍。 1.分类目录型。该类型提供一份按类别编排因特网站点的目录,各类下面,排列这一类网站的站名和网址链接,就像一本电话号码簿,哟的还提供各个网站的内容提要。分类目录搜索引擎的特点是由系统先将网络资源信息系统地归类,用户可以清晰方便地查找到某一类信息,用户只要查询该搜索引擎的分类体系,层层深入即可,与传统的信息分类查找方式十分形似。因此分类目录搜索引擎又被称为目录服务。 不足之处在于搜索范围比以全文为主的搜索引擎的范围要小得多,加之这类搜索引擎没有统一的分类体系,用户对类目的判断和选择直接影响到检索效果,同类目之间的交叉,又导致许多内容的重复,类目太细,用户无所适从,目录库也相对较小,更新较慢,影响使用。 2.全文检索型。搜索引擎处理的对象是因特网上所有网站中的每个网页,用户得到的检索结果是一个个网页的地址和相关的文字,或许没有用户在查询框中输入的词组,但在检索结果所指名的网页中,一定有用户输入的词组或相关的内容。 全文检索型搜索引擎通过使用大型的信息数据库来搜集和组织因特网资源,大多都具有:收集记录、索引记录、搜索索引和提交搜索结果等功能,用户用所选的“关键词”进行搜索,文本数据库即以匹配或关联的用户给定的请求,返回给用户一个与这些文本相连的列表清单。查询结果都应包括页面标题及其网址,检索结果可能出现其他内容如简短总结、大纲或文摘页面首段的一部分或全部,表明页面与待查询项目向关联的数字、百分率、日期、文本大小,与检索词具有类似性的主体链接等。 该类型与以分类目录为主的搜索引擎中网站查询十分相似,但却有本质的区别。有些全文检索型搜索引擎也提供分类目录,但提供的是网页的分类目录而不是网站的分类目录,因此这类搜索引擎通常被称为索引服务。 全文检索型搜索引擎的特点是信息量很大,索引数据库规模大,更新较快,因特网上新的或更新的页面常在短时间内被检索到,而过期的链接会及时第移去。 如何衡量一个数据库的大小可以参考以下几个指标:是否可检索全文、文档是否包含URL、名字、标题或摘要、文档中是否可检索到URL和名字,文档中是否有描述性的文字。 该搜索引擎不足之处在于检索结果反馈的信息往往较多、太滥,用户很难从中筛选出自己真正感兴趣的内容,要得到理想的检索结果,还要借助必要的语法规则和限制符号,但这又是大多数用户不熟悉的,即使是对同一个关键词的检索,不同的全文检索型搜索引擎反馈的结果相差也很大,用户经常遇到检索结果缺乏准确性、包含的可用信息少和评述与文摘使用价值不高等问题。 3.多元集成型。建立在多个搜索引擎基础之上的多元集成型搜索引擎,在一定程度上满足用户更多、更快地获得网络信息的要求。 这类搜索引擎可将用户的请求迅速发送给其他独立的搜索引擎,并将反馈的结果进行处理后提供给用户,或者让用户选择其中的某几个搜索引擎进行工作。 多元集成型搜索引擎有串行处理和并行处理两种方式。 串行处理是将检索要求宪法给某一个搜索引擎,然后将检索结果处理后,传递给下一个搜索引擎,依次进行下去,最终将结果反馈给用户,这种处理准确性高、但速度慢。 并行处理是将检索请求同时发给所有要调用的搜索引擎,这种处理速度快,但重复内容较多。 4.图像搜索型。面向因特网上嵌入式图像或被链接的图形,它通常要实现以下功能:允许用关键词搜索图像内容、日期及制作人;能通过颜色、形状和其他形式上的属性进行搜索;把图像作为搜索结果的一部分显示。 图像搜索引擎通过显示一张略图、图像的URL、存放图像站点的URL以及有关图像的某些信息的方式显示搜索结果,用户可据信息确定该图像是否适合搜索要求、查出源站点,并弄清图像存放的地点。 智能搜索型。见后。 二、搜索引擎的特点 搜索引擎在其发展过程中,形成自己有别于其它检索工具的特点。 使用方便。都以易用性作为自己建设的目标,针对不同群体用户的知识结构尽力提供相关的功能。 信息量大。不论在人文社会科学还是在自然科学方面;不论是学术研究型的信息,还是生活服务及娱乐性的信息;不论是系统性的知识,还是零散的知识,都被包含在他的搜索范围内。 检索方法多样。搜索引擎既支持分类检索,有支持主体检索;既提供一般用户要求的简单检索,有提供满足专业用户要求的高级检索。 简单检索就是在关键词输入框中输入一个或几个关键词,然后提交给搜索引擎。 高级检索是搜索引擎在提供布尔逻辑检索的基础上,还提供截词检索、字符检索、字段检索、位置检索、自然语言检索、概念检索等,有的还能从字段、范围、时间、语言、信息类型、网站等方面进行必要的限定。搜索引擎还可提供一些新的方法来对用户的检索要求进行逻辑条件限制的和特殊操作符限制,力争提高检索结果的正确力。 检索结果形式多样。根据用户的不同需要,让用户选择不同的显示格式、详简程度和结果排序标准,如按相关度、URL、域名、字母等排序,也可以合并返回结果,删除重复的链接。有的还按搜索结果和用户输入的关键词的关联程度来排列,关键词出现越多的结果排得越靠前,在相关度排序的同时,越知名的站点排得越靠前。 三、著名搜索引擎的使用 因特网上的搜索引擎很多,用户使用时要据自己的要求选择合适的搜索引擎,先用搜索引擎分类目录,浏览一下自己关心的主题,然后再使用关键词检索中的简单检索,如果检索的结果太多,再使用高级检索功能。 选择搜索引擎,一是考虑收录范围。搜索引擎包含资源最多的是WWW资源,有的搜索引擎只收集WWW资源,而有的同时还收集BBS、FTP、Gopher,Newgroup等资源。 二是搜索引擎使用数据库的容量,不同的搜索引擎,其数据库的容量相差很大,有的已达2.5亿个网页,有的还不到百万个网页;三是用户界面许多搜索引擎尽力保护用户界面的的友好,避免花哨和过多的广告;四是响应速度。通常情况下是由网络的传输速度所决定的;五是更新周期,好的搜索引擎出内容丰富,查找迅速外,还应对数据库内容进行审核、更新、技术删除死链接、坏链接;六是准确与全面性用户希望搜索引擎反馈的内容准确和全面,但实际上这是一个矛盾,不宜苛求。 Yahoo,以网站为主要搜索目标,共收录了50万条网站信息,将其分布在2.5万个主题(类目)之中,用户通过分类目录去浏览相关主题,也可通过关键词来检索。 该分类目录编排分14个大类,一级类目中英文是相同的,二级类目略有不同,,以超文本指南的方式将主题词链接起来。 该关键词的检索只支持AND ,OR逻辑检索和一些特殊符号如:+,-,t:, u:, “ ”, * 等。用于标引网页的主题词是受控词。 Headline提供每小时头条新闻报道特别是有关国际时事、商业、娱乐、和体育方面的新闻。 优点是数据库每日更新,系统反应速度较快,通过分类目录查准率高。缺点是查全率低,相关性排序质量一般,会检索到很多不相关的文章。 Yahoo,Google, Sohu, (http://dir.sohu.com), 网易(http//search.163.com) (http://e.pku.edu.cn) 天网(http//search.sina.com.cn), 优游(http//www.goyoyo.com.cn/main/search/index.shtml) 全文搜索引擎代表性的还有:VltaVista OpenText Infoseek。 以文摘为主的搜索引擎有:Excite,Lycos, Webcrawler, Magellan. 专业搜索引擎有:CSTR, DejaNews, Internet Movie Database, Medical, Medical World Search 等。 四、搜索引擎的局限 因特网搜索引擎的结构及工作方式的缺陷:没有一个搜索引擎包含的WWW页超过了全球总WWW页面的 16%,而对因特网资源的覆盖面还明显下降,也受限于数据库更新的速度,可能导致搜索引擎有价值的信息。 搜索引擎自动巡视软件在搜集因特网信息时,通常要将网页内容全部或部分下载到本地,然后才能进行索引处理,下载的页面中有许多无用或暂时的信息,影响索引速度,也浪费系统通信资源。 各种搜索引擎使用的检索符号和对检索式的要求不一样,给用户检索带来了困难。 搜索引擎的局限性还主要表现在信息丢失、返回过多无用信息及信息无关等方面。造成现状的原因在于传统搜索引擎队要检索的信息仅采用机械的关键词匹配,缺乏知识处理能力和理解能力,即使搜索引擎无法处理用户看来非常普通的常识性知识,更不能处理个性化知识,因地区不同的区域性知识,因领域不同的专业性知识。 还有原因在于整个检索过程中,客户端的计算机知识起着一个终端的作用,强大的运算能力和存储空间无法发挥作用,就造成以下的问题:搜索结果很难精确匹配;无法对检索结果进行提炼;无法对不同的搜索引擎的结果进行综合比较与提炼;搜索引擎使用方法不同造成用户理解和使用困难;搜索结果手工下载效率低下;增加用户的网络通信费;搜索结果中的匹配文档不可能快捷地下载。 五、智能搜索引擎 智能搜索引擎是结合了人工智能技术的新一代搜索引擎,它使因特网信息检索从基于关键词提高到基于知识或概念,并对知识有一定的理解和处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别及机器翻译技术等。 智能搜索在研究机器翻译(MT)的领域中,使用户可以用母语搜索非母语的网页,并以母语浏览搜索结果。 因特网是一个巨大的信息库,知识库是实现智能搜索的基础和核心,信息库是知识库存在和发展的空间,智能搜索引擎必须把信息库和知识库结合起来,需要做到3点:语义分析。分析用户语言的具体含义;知识管理。实现知识库的自增长,即做到对信息库的分析和概括对知识库的扩充;知识检索。是实现智能检索的最后一环,对信息库进行知识(概念)层次的检索,给出准确的答案,同时给用户相关问题,从多方位对用户的问题给予回答。 1.数据挖掘。 2.知识发现。是从数据中发现有用的知识的整个过程,使多个步骤相互连接、反复进行人_机交互的过程。知识发现一般分为几个过程:学习某个应用领域;建立一个目标数据集;数据处理和预处理;数据换算和投影;选定数据挖掘的功能和算法;搜索一个特定的感兴趣的模式或数据集;解释某个发现的结果;发现知识并把这些知识结合到运行系统中。 高层次的知识发现被称之为WWW中的知识发现(KDW),只能搜索引擎的发展就是要做面向WWW的知识发现,将机器学习与经典的信息检索技术及推送技术相结合,改进推理机制,将知识库、方法裤、模型库等集成,形成多库协同系统;将主题检索、概念检索和相关检索等智能检索方式加以融合。在最短的时间内为用户提供最有用的信息,是知识发现主要的目标。 3.智能代理。广义的说是包括人类、物理世界中的移动机器人和信息世界中的软件机器人。狭义专指信息世界中的软件机器人。它代表用户或其他程序,以主动服务的方式完成一组操作的机动计算实体。“主动服务”主动适应;主动代理。 只能代理从最终用户角度看,它是一种程序,代表用户,是用户实现其意图的软件助手;从系统角度看,它是一个软件对象,有如下的特征:代理性,主动性,自主性,智能性,交互性,机动性。 但也要看到,智能代理在网络上游戈是对网络安全性、个人隐私性和管理方面的巨大挑战。 《信息检索》复习思考题 第一章 1、信息资源的概念及其特点是什么? 2、简述信息资源的类型。 3、什么是信息检索?其类型是什么? 4、信息检索的研究内容有哪些? 第二章 1、如何制定检索策略? 2、检索词有哪些? 3、信息检索方法主要有哪些? 4、据文献的内部特征和外部特征,有哪些信息检索途径? 5、解释著录、著录法、款目、标引。 6、试述元数据及其应用。 7、主要的标引方法有哪些? 8、简述信息工具的排检方法。 第三章 1、什么是检索工具? 2、传统的检索工具有哪些?我国特有的工具书是什么? 3、解释数据、数据库、数据仓库。 3、简述数据库的结构。 4、分述传统数据库、专门领域数据库和新一代数据库。 第四章 1、为什么说搜索引擎本身是一个WWW网站? 2、搜索引擎的类型是什么? 3、搜索引擎有什么特点? 4、如何选择搜索引擎,试例怎样使用? 5、解释搜索引擎、智能搜索引擎、知识发现、智能代理。 6、试例使用传统工具和网络工具检索某一专门领域的文献。