第六章 计算机信息检索概述
6.1 计算机信息检索理论基础
6.2 计算机信息检索的发展历史
6.3 计算机检索技术与实现
6.4 计算机检索策略与实施技巧
6.1 计算机信息检索理论基础使用计算机检索信息,是专业人员在开展科学研究中不可或缺的一项基本技能。一个具有这方面能力并善于从电子信息源中获取所需信息者,将在今后的信息社会中获取更多的成功机会 。
6.1 计算机信息检索理论基础
计算机信息检索的定义
计算机检索系统的构成
数据库的概念计算机信息检索的定义
所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
计算机检索系统的构成
硬件
软件
数据库硬件
系统中采用的各种硬件设备的总称,包括具有一定性能的计算机主机、外围设备以及怀数据处理或数据传输有关的其他设备。
主机,是计算机检索系统的中枢。外围设备包括外部存储器,输入输出设备如键盘、
光笔、鼠标、光学字符识别装置,显示终端、打印机等。
软件
系统中有关的程序和各种文件资料的总称,
包括系统软件(如操作系统,输入输出控制程序)和应用软件。
数据库
,一组文件的集合”,就是以一定的组织方式存贮在一起的相关数据的集合。(我们武汉大学购买了大量的数据库,以后我们要详细讲)。
数据库的概念
数据库的定义
数据库的类型数据库的定义
数据库是至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。通俗地说,数据库是在计算机存储设备上按一定方式存储,并提供给确定范围内的各类用户共享的相互关联的数据集合。数据库是计算机技术与信息检索技术相结合的产物。它既是现代人们从事信息资源管理的工具,同时也是计算机信息检索的基础。
数据库的类型
参考数据库
源数据库
混合数据库参考数据库指用户从中获取信息线索后,还需进一步查找原文或其他资料的一类数据库。它包括书目数据库和指南数据库。
(1)书目数据库。它是存储某个学科领域的二次文献的数据库,有时又称作为二次文献库。它依照二次文献的不同类型又可分为文摘数据库、索引数据库和图书馆书目数据库。
(2)指南数据库。它是存储有关某些机构、人物、
出版物、项目、程序、活动等简要描述性信息的一类数据库,亦称指示性数据库。例如,机构名称数据库、人物传记数据库、产品数据库等都属于这一类数据库源数据库又称为数据银行。它是能够直接为用户提供原始资料或具体数据的一类数据库。 源数据库又分为:
数值型数据库
文本 —数值型数据库
术语数据库
图像数据库
全文数据库
超文本数据库数值型数据库
是指专门提供以数值方式表示的调查数据和统计数据的一类数据库。
文本 -数值型数据库
是指能够同时提供文本信息和数值数据的一类数据库。
术语数据库
是指专门存储和检索名词术语、词语信息等的一种源数据库。
图像数据库
是指用来存储和检索各种图像或图形信息及有关文字说明资料的一种源数据库。
全文数据库
是指存储和检索文献全文或其中主要部分的一种源数据库。
超文本数据库
这种数据库存储时将存储内容分割为若干独立利用的结点,使用链路连接结点等方式进行存取,从而构成一个不拘泥于形式逻辑推理,不遵循某种正规模式的一种网络框架结构,因而具备了类似于数据库又优于一般数据库的特点。
混合数据库这类数据库兼有源数据库和参考数据库的特点,
按载体形式它又可分为以下四种类型:
磁媒体数据库
光盘数据库
多媒体数据库:是一种能够对文字、数值、声音和图像等不同性质的媒体进行一体化处理和管理的新型数据库
超媒体数据库。通过外部树形的链接将多种类型的媒体连成一个集合,该集合称为超媒体数据库。
6.2 计算机信息检索的发展历史
脱机批处理检索
联机情报检索
国际联机检索
光盘检索
网络信息检索脱机批处理检索
1954一 64。定期由专职检索人员把许多用户课题汇总,批量处理提问要求,并把结果提供给用户。直接在计算机旁检索,不需要远程终端设备及通信网络。用户在计算机处理成批检索课题之后才知道检索结果,不能直接、及时修改检索策略,查全率和查准率受到一定限制。
联机情报检索
20世纪 70年代投入商业运营。用户在计算机检索系统的终端上,通过通信网络,使用特定的指令和算符,以人机对话方式,
查询远程计算机检索系统核心的数据库,
从中获取所需信息的计算机检索系统。
联机系统的诞生,使许多相互独立的终端实现了“对话”方式的信息检索。所谓对话方式,就是用户利用系统提供的、为数不多且简单易记的检索命令,每次输入一条命令或由命令组成的表达式查看结果。
系统方面则每次显示出可能的信息,帮助用户选择下次该用的命令或表达式,用户通过与系统双向对话,可不断改变或完善检索策略,直至获得满意的检索结果为止。
联机检索系统由三个部分组成:
主机系统
通讯系统
终端设备主机系统是联机检索系统的核心,它具备处理速度快、多道程序和分时功能,内存容量大,多样化的输入输出设备。
主机系统通讯系统通讯系统是指终端设备与主机系统进行通信的设备。通信线路分为两种:专用的直达线路;通过拨号选择对方的交换线路。前者是特定通信线路,后者使用电话网和用户电报网,联机系统使用的通信线路就属于后一种。
终端系统终端系统是人与系统的接口设备。它能将字符、声音以及人类的信息表现形式转换成系统的机器代码。反之,将系统的结果还原成字符、声音等形式,传送给终端用户。
优点:这种方式可以边检索边修改检索策略,而且检索速度快,多用户可同时检索,
检索不受地理位置限制,检索功能多样化,
打印输出灵活,检索结果可进行多种分析处理,大大方便检索用户和提高检索质量。
缺点:
注重系统自身工作效率的提高,如改进算法、改进存储结构与存取技术等;让用户去适应、配合系统,很少分析、考虑用户对使用系统的要求。
面向检索专家或中介机构。要求检索者熟悉系统的一整套检索指令和检索技术,用户的提问必须采用规范化的检索语言,从而依赖于专业检索人员,用户自己完成检索必须受过系统培训。
人机交互界面不友好,且费用较高。
国际联机检索
70年代中后期。 (联机检索基础上的扩充到国际 )
光盘检索
80年代初期,其全称为高密度光盘
(Compact Disk),主要是利用激光、计算机及光电集成等技术实现信息存储的数字化。
以光盘为介质的光盘数据库检索系统由于信息存储量大,简单易用而取胜。
优点:一次购买,无限制使用,不必考虑检索时间,远程通信费用等因素;存贮容量大;检索途径多;适用于通信不发达,
联网较困难的地区,是联机检索、网络检索的有效补充。
局限:数据更新有一定的周期,时效性、
灵活性比不上联机检索;目前光盘数据库容量有限,一般是按专业和领域建库,收录范围不够广泛;适用对象的局限性,因为一次性购买费用高,对使用频率不高的单位或个人来说成本较高;设备和软件的兼容性较差,各种光盘数据库检索系统目前还难以实现标准化和统一化。
光盘检索系统的构成:计算机,CD-ROM
驱动器、检索软件,CD-ROM数据盘。
网络信息检索
是通过标准通信方式将世界各地的计算机网络连接起来,形成一个基于客户机 -服务器模式的网络分布数据库结构。它在全球范围内把科技信息、商贸信息、经济信息、
时事新闻以及日常生活信息通过互联网络合在一起,向亿万联网用户提供广泛的信息检索与服务。它是信息化社会应用最广泛、最活跃的领域。
网络信息检索服务的特点:
信息检索服务的开放性
超文本的多链接性
用户界面友好且操作方便
具备良好的导航和编辑功能信息检索服务的开放性
网络信息系统中包含信息资源、信息设备、
信息通道、信息检索软件及信息终端等子系统,各个子系统都是开放的,其信息资源面向所有用户。
超文本的多链接性
以超文本技术为基础链结构将不同地方的相关信息有机联系起来,使用户可通过点击文本或图表中的超文本链接点访问另一个相关的文档。
用户界面友好且操作方便
采用客户机 /服务器结构,通过交互式的图形界面,为用户提供友好的信息查询要求,
检索途径多,可保留检索历史。正是这一特点,使 Internet能广泛深入学校、家庭、
办公室乃至每一个人。
具备良好的导航和编辑功能
网络信息检索一般都可以引导读者在复杂的网络信息资源中漫游而不致迷失方向,
用户可以利用导航机制,了解其所在网络图中的位置。网络信息检索具有良好的编辑功能,包括修改、增加、删除节点和链的能力,此外对节点内的信息也具有良好的编辑能力,可进行多窗口编辑。
6.3 计算机检索技术与实现
布尔逻辑检索
位置算符
截词检索
词组检索
括号检索
字段限制检索布尔逻辑检索
即运用布尔逻辑算符 (Boolean operators)对检索词尽心逻辑组配,表达两个概念之间的逻辑关系。
布尔逻辑算符主要有,AND OR NOT
在中文数据库里,布尔逻辑运算符又是用
AND,OR,NOT表示,有时用,*“,”
+“
及,-,。
逻辑与(逻辑乘)
用运算符号,AND 或 * 连接检索词例查,有关计算机在图书馆中的应用”的文献,
检索式 =计算机 * 图书馆
A AND BA B
逻辑或用运算符号,OR” 或,+”连接两检索词例 1 查“苹果或梨”方面的文献检索式 =苹果 + 梨它在同义词检索中使用,能提高查全率。
例 2 查“计算机或机器人”方面的文献检索式 =计算机 + 机器人
A OR BA B
逻辑非用运算符号,NOT”或,—”连接两检索词 A
NOT B
例 1 查“玉米但不是甜玉米”方面的文献。
检索式 =玉米 —甜玉米例 2 查“不是铬合金”方面的文献。
检索式 =合金 —铬
A NOT BA B
位置算符检索文献记录中词语的相对次序不同,所表达的意思就可能不同。同样在检索式中,检索词的相对次序不同,表达的检索意图也不一样,
布尔逻辑运算符有时难以表达某些检索课题的确切提问要求,用词间位置算符来限定和组配检索词,可弥补布尔逻辑算符只是定性规定检索词的范围,而没有限定检索词位置关系,易造成误检的不足。
位置算符检索就是利用一些特定的位置算符来表达检索词之间的位置关系,并且可以不用叙词表而直接使用自由词进行检索的方法。有的书上还把这种检索称为原文检索。
这种检索在利用 TI和 AB途径检索时,对检索质量影响很大。
常用的位置算符有,W,W/N,WITH、
WITHIN,nW,PRE,N,NEAR,ADJ,nN、
F,SAME
W,W/N,WITH,WITHIN
功能:两词相邻,按输入时顺序排列(也有数据库允许顺序颠倒)
表达式,Education( W) school
或 Education WITH school
检索结果,Education school; education
schools
nW
功能:两词相邻,按输入时顺序排列(也有数据库允许顺序颠倒),两词之间允许插入
0~n个词。
表达式,Education( 1W) school
检索结果,Education school; education
schools; Education and music school;
PRE
功能:两词相邻,按输入顺序排列表达式,Education PRE school
检索结果,Education school
Education schools
N,NEAR,ADJ
功能:两词相邻,顺序可以颠倒表达式,Education( N) school
Education NEAR school
检索结果,Education school
Education schools
School of Education
nN
功能:两词相邻,顺序可以颠倒,两词中间可以插入 0~ n个词表达式,Education( 1N) school
检索结果,Education school
school of education
Education and sic school
school of music and education
F
功能:两词必须出现在同一字段中,词序与词量不限表达式,Education (F) school/DE
检索结果,Education 和 school必须同时出现在叙词字段内即可
SAME
功能:两词出现在同一自然句中,其词序与词量不受限制表达式,Education SAME school
检索结果,Education 和 school两词出现在同一句子中即可。
截词检索
截词运算符号有两个:“?,*” 。其在不同系统中表示的含义不同。
原因:在英语词汇中,一个词可能有多种形态,如词的单、复数形式的不同,英美拼写方法不同、词性不同等。
有限截词。即在检索词后后截几个有限的字母,如名词的单复数,动词的词尾变化等。
如输入 computer表示有 0-2个字母变化,
可检出 computer和 computers.
输入 stud表示截断处有 0-3个字母变化,
可检出 study,studies,studied,studing.
无限截断:在检索词后加一个,*“,表示该词后可加任意个字符。使用无限截词,
所截词根不能太短,否则会输出许多无关文献,造成误检。
如,computer *可检出 computers,
computering,computered,computerization.
中间截断:在检索词中间加一个或几个?
号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化输入。
如:输入 wom?n可检出 woman,women
截词检索在中文数据库中截的是词意,
例:西北? 分别检出了:西北农林科技大学学报、西北园艺、西北纺织学院学报等。
在外文数据库中截的是词的后缀,截断派生出的词汇和原来的词义基本一致。
例“金属” metal* metal,metals、
metaled,metalist等。
利用截词检索时,注意截词的部位,一定不能截的太深,否则误检率会很大。
词组检索将一个词组或短语用双引号“”,”括起作为一个独立运算单元,进行严格匹配,以提高检索准确度。 如:,Global Positioning
System”,只检索出规定字段中包含完整词组的记录。
括号检索
用于改变运算的先后次序,括号内的做优先运算。
用,( )”可以表示优先级。
如比较( GPS OR GIS) AND China
GPS OR GIS AND China
字段限制检索将检索词限定在某一字段中,检索时,计算机只对限定字段进行运算,以提高检索效果。
常用的检索符号有:
in,=,<,>,≤,≥
例 1,English in la
例 2,py≥1992
总结:在一个复杂的检索式中,不仅可以有多个运算符,也可以使用括号来指定运算的优先顺序、以及体现概念的完整性。
例:查“玉米方面的英文”文献检索式 =( maize or zea-mays or corn) in
de and( English in la)
6.4 计算机检索策略与事实技巧
分析检索课题,明确检索目的和要求
分析检索课题,确定检索词
选择数据库
编制检索提问式、选择检索入口
上机检索及反馈调节分析检索课题,明确检索目的和要求
明确检索的要求和目的,是制定检索策略的前提。由于各类用户的检索要求和目的受其社会因素和个人因素的制约,是各不相同的。因此,在着手信息检索之前,必须全面地了解清楚用户的信息需求和检索目的、检索的学科内容、主题范畴。根据社科信息用户的文献需求特点,其需求不外乎以下四种类型:
了解学科发展动态的要求
了解某一研究主题的片断性信息
了解某一研究主题的全面性信息
检索特定的文献信息了解学科发展动态的要求
这类信息需求的特点是一个“新”字,即用户要求及时获得学科前沿研究的最新动态、最新进展和研究成果。针对用户的这类检索要求,在选择数据库时,除了必须考虑选择在学科内容方面与检索要求相吻合的基本要求外,还应注意考虑到信息内容更新 周期短的因素。
了解某一研究主题的片断性信息
这类信息旨在借鉴他人研究成果,用以解决研究中碰到的具体问题。这类信息需求的量最大,其特点是一个“准”字。即检出的信息应有针对性,能帮助解决具体问题。因此,在数据库选择方面,除了注意内容主题的匹配外,还应注意原始文献的易获取性,最好选择全文数据库。
了解某一研究主题的全面性信息
出于基础理论研究、编写教材及申请课题的需要,用户往往需要全面系统地收集某一个主题范围内的文献资料,这类检索具有横向普查、纵向追溯的特点,并对查全率有较高的要求。因此,针对这类检索类型在选择数据库时,要注意选择存储容量大,覆盖年限长,具有较强随机存取能力的数据库。
检索特定的文献信息
用户已经知道文献的题名、作者,而只是要求获取原文。对这类用户需求只需要选择与学科主题相吻合的数据库。
除了需要了解清楚用户信息检索的要求和目的外,了解清楚 待查找文献的年限、文献类型、语种和检索费用的支付能力等情况,对制定正确的检索策略也很重要。
不同类型的信息需求,对查全率和查准率的要求不尽相同,对选择数据库的要求也存有差异。因此,在后续制定检索策略时,
也应区别对待。
分析检索课题,确定检索词
检索词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。正确的主题分析是制定检索策略的保证,它决定了检索策略的质量和检索效果的好坏。因此,务必要在分析课题的主题概念中掌握课题的内容实质,
概括出能最恰当地代表主题概念的检索词。
使用标准化的术语
分析出课题内容实质
从相应的规范词表中选定所需的检索词
注意同义词、近义词使用标准化的术语
尽管在不少数据库中都允许使用关键词检索。但是,在选用关键词的过程中切忌使用国际上不通行的术语,避免使用冷僻词和自选词。如“第三世界”、“下岗”这样的词不能达到预期的效果。
分析出课题内容实质
寻找出隐性的主题概念。使用最吻合于检索要求的检索词。分析课题的内容实质不仅要从课题名称中找出能满足检索课题要求的检索词,而且要从学科专业和检索目的的角度,根据出能够反映课题实质内容的主题词。
例如,社会保险包含“养老保险”、“失业保险”、“医疗保险”和“社会救济”
等下位概念,要根据需要选取主题词。
从相应的规范词表中选定检索词
由于主题词是文献标引和检索中必须共同遵循使用的语言,而且很多数据库都有自己的主题词表,所以在有数据库专用词表的情况下,应优先选用词表中的规范词,
以便能使检索获得最佳的效果。
注意同义词、近义词
在确定检索词时,除了要考虑反映主题概念的同义词、近义词等相关词以外,还要注意到被选用词的缩写词及不同拼法的词,
以便在编制检索式时考虑到这些因素,避免漏检有关的文献。
选择数据库
数据库检索的正确与否将直接影响到检索结果的好坏。数据库选择不当,就会得出完全不符合要求的结果。选库时要遵循以下原则,
要根据用户信息检索的学科内容和目的选择数据库。如果检索课题涉及的内容全面而广泛,为了避免漏检,应同时选择几个不同的库,如需检索的课题内容专业性很强,则可以选择专业文档进行检索。
在同时有几个数据库可供检索的情况下,
应首先选择比较熟悉的数据库。这样能既快速又准确地查找到真正需要的文献信息。
当几个数据库的内容交叉重复率比较高时,
应选择检索费用比较低廉的数据库。
当用户要求检索的文献量比较大时,可首先用浏览的方式,按主题或学科专业的方式查找。
编制检索式,选择检索入口
利用各种算符构造检索式,然后选择检索入口即字段,如:题名、著者、主题词、
文摘、全文等。
上机检索及反馈调节在得到检索结果后,可能会出现一下三种让人不太满意的情况:
检索结果太少
检索结果太多
检索结果并非我们要的内容检索结果太少如果要扩大命中文献的数据 (提高查全率 ),
可使用以下方法:
选择在文摘字段中检索;
减少用,AND”或,NOT”算符联结的概念;
增加用,OR”联结检索词;
选用上位词或近义词;
采用截词检索法检索结果太多要减少检索记录的总数 (提高查准率 ),可以:
将检索词的查找范围限定在篇名、关键词、
或叙词字段;
利用文献的外表特征限制检索;
增加用,AND”联结的概念;
利用逻辑“非”进行限制;
充分利用下位类检索词;
在检出记录中选取新的检索词对结果进行再次限制。
检索结果不正确
检查检索词拼法是否正确。