第二章 信息检索技术
第一节 信息检索的概念
第二节 信息检索数据库
第三节 检索语言和检索效果评价
第四节 科技信息检索的基本流程
第五节 原文获取
第一节 信息检索的概念
? 1、检索的意义
? 信息具有共享性,信息资源共享
( information resource sharing)是当
今社会的一个热点问题。为了分享人类共同
的知识财富、研究成果,人们必须通过一种
科学的方法从取之不尽的信息源中去识别和
获取所需要的那部分信息,这个过程就是检
索 (searching)。
? 信息的检索、利用和创造是一个循环和增值
的过程,人们通过工具(数据库)检索获得
信息,经过处理筛选出需要的部分,在利用
信息的过程中又创出新的信息,这些信息经
过核准后又被标引、组织进检索工具(数据
库),再提供人们使用,信息在这个循环的
处理过程中不断得到扩充,它的增长是没有
穷尽的。
2、检索的基本原理
信息检索基本原理的核心是用户信息需求与
文献信息集合的比较和选择,是两者匹配 (match)
的过程。
一方面是用户的信息需求,一方面是组织有序的
文献信息集合,检索就是从用户特定的信息需求
出发,对特定的信息集合采用一定的方法、技术
手段,根据一定的线索与规则从中找出 (search,
locate,hit) 相关的信息。
匹配有其匹配标准,这里涉及到两者一致性、
相关度等问题,按一定的标准筛选出符合要求的
信息。
信息检索的过程往往需要一个评价反馈途径,多次比
较匹配,以获得最终的检索结果。其图示如下,
3、检索点
检索点( access point)是检索的出发点,以
前常用, 检索途径, ( approach)这一术语。
每件文献均有内部的(信息内容)特征及其相关
的外部特征,在检索系统中检索点是标目的总称。
从文献的特征出发,将其特征值与检索系统中标
目数据进行计算比较,通过匹配达到检索目的。
反映文献信息内容特征:分类检索和主题检索;
反映文献外部特征:作者、名称和号码检索等。
1)分类检索( classification)
分类检索是从文献内容所属的学科类别出发来检索文献,
它依据的是一个可参照的分类体系( classification
system)。
分类体系按文献内容特征的相互关系加以组织,并以一
定的标记 (类号 )作排序工具,它能反映类目之间的内在联
系,包括从属、并列、交替、相关等。
较权威的图书分类法有,中国图书馆图书分类法
美国国会图书馆分类法 (Library of Congress Classification)
杜威十进分类法( Dewey decimal Classification system)
2)主题检索
主题( subject)检索是从反映文献内容的
有关主题词出发来检索文献,主题是检索点,它
对应文献主题概念。检索按主题词的音或形的字
顺进行,其方式如查字典、词典。主题词有多种
类型:有规范词和自由词,有单元词和多元词,
有先 组结构和后组结构等。主题词的合理选择与
使用对检索结果的优劣直接相关。
3)作者检索
作者( author)检索是从文献的作者姓名出
发来检索其文献。, 作者, 广义上还应包括:汇
编者( compiler)、编者( editor)、主办者
( sponsoring body)、译者( translator)等
此外,还有代表机构、单位的团体作者
( corporate author),包括作者所在单位
( author's affiliation)。
4)名称检索
名称( title)检索点是从各种事物的名称出
发来检索文献信息。 这些名称包括:书名、刊名、
资料名、出版物名、出版社名、会议名、物质名
称等等,也包括人名和机构名。检索的对象既包
括对应的文献,也包括有关的信息、事项等。比
如个人电话簿( white pages)或公司电话簿
( yellow pages),查找的是号码信息。
5)号码检索
号码包括文献的编号( number)、代码
( code)等,它们是文献信息的一些特有的外部标
识,号码检索点以号码特征来检索文献信息。号码多
种多样,通常用数字、字母或用它们结合的形式或以
分段的方式来表示其各部分的含义。
比如科技报告有报告号,还有其合同号、拨款号等,
比如专利文献有专利号、入藏号、公司代码等;
比如分类号也是号码(特殊的号码检索),等等。
它们各自按号码顺序,或以数序、或以字序、或以混
合序列检索。
图书期刊的号码
国际标准书号 ISBN,International Standard Book Number
国际标准刊号 ISSN,International Standard Serial Number
ISBN号,十位分四段构成,
例如,0- 471- 81086- x
其中,0,组号 (语种、地区 ),组号有,0 (英、美、加拿
大、南非等英语区 ),1(其它英语区),2(法语区 ),3(德语
区 ),4(日本 ),5(俄语区),7(中国 ),8(印度等 ),9(新加
坡等东南亚地区 )。
471,出版社编号
81086,图书序号
x,一位效验码 (x代表 10)。
ISSN号,
ISSN有八位数字组成,
例如,1005- 8230
其中,1005-823,前七位为出版物序号,
0,最后一位为校验码。
由于文献加工的细化,计算机标引的介入,
新型电子文献出现等情况,形成了更多的可检
索点,比如:文献类型、文献属性、参考文献、
语种、出版年份等检索点,它们提供了更多的
检索途径。
EI的检索实例
4、检索手段
从技术手段上分:手工检索(手检)和计算
机检索(机检)
手工检索 (manual retrieval)使用的多为印刷型或
书本型检索( paper-based retrieval) 工具,早些有
检索卡片,现在使用最多的是检索刊,它们定期地将最
新收集到的信息、文献加以汇总、组织和报道。手检的
技术要求不高,以人的劳动为本,由人来翻阅,由人来
进行比较、选择,完成匹配。手检工具能提供的检索点
十分有限,检索结果往往不尽人意。
计算机检索( computer-based
retrieval)
它通过数据库系统来实现的。
检索系统包括:计算机主机设备、外部存贮器、输
入输出设备、终端设备、通信设备等硬件设施,还需要
控制、提供检索的软件系统,包括:通信软件、操作系
统、应用程序等,以实现对数据库的信息存取。
检索过程是在人与机器的合作、协同下完成的,它
们经常用实时的( real time)、交互的( interactive)
的方式从计算机存贮的大量数据中自动分拣出用户所需
要的信息。计算、比较、选择的匹配任务是由机器来执
行的,而人则是整个检索方案的设计者和操纵者。
计算机检索的优势
计算机检索明显优于手工检索,主要表现,
检索的信息量大,
数据更新快,
检索功能强,
检索结果输出的多样性。
第二节 信息检索数据库(工具)
? 检索工具(数据库)的功能
? 检索工具(数据库)的分类
? 检索工具(数据库)的构成
检索工具(数据库)的功能
事实检索、目录检索、文摘索引检索。
其关联关系如下图,
1)事实检索
事实检索是对包括事实( fact)、数值( numeric data)
与全文( full-text)的检索,提供原始信息,给出直接、
确定性的答案。它回答的问题诸如,
, 我国最近一年在, SCI,上被收录的文献量是多少?,
, 有哪些海外华人得过诺贝尔奖?,
工具,字典、词典( dictionary)
百科全书( encyclopedia)
年鉴( annual,yearbook,almanac)
手册( handbook,manual)
名录( biography)和书目指南( directory)
数据库属于源数据库:全文数据库、数值数据库、文本-
数值数据库、术语数据库、图象数据库、多媒体数据库
2)目录检索,目录检索是间接的、相关性
检索,给出来源文献线索,指引原始文献。
按性质:登记书目(出版、馆藏情况)、科学通报书目等;
按所涉的学科范围:综合书目、专科书目、专题书目等;
按所涉的时间范围:回溯书目、在版书目、新书书目等;
按收录的文献类型:图书目录、报刊目录、来源目录等;
按所涉的地域:国家书目、联合目录和馆藏目录等;
按其媒体:卡片目录、书本目录、磁带目录和机读目录等。
目录检索系统数据库属参考数据库。
经常使用的目录有:馆藏目录、联合目录、机读目录等
3)文摘索引检索
文摘索引检索是一种参考型、相关性的检索,提供相关
参考文献的线索,包括文献来源出处( source),也常带有
文献的内容摘要,但不是文献原文。 EI,SCI,INSPEC等
文摘索引检索是能揭示到文章、论文级( article-level)的
检索,这些文章大量的是来自期刊及会议论文集。
按其报道的学科范围:综合性和专业性检索工具;
按其取材范围:多种出版物类型和单一出版物类型工具;
按其著录方式:题录型和文摘型检索工具;
按其媒体:书本型、电子型检索工具等。
3、检索工具(数据库)的构成
第三节 检索语言和检索效果评价
? 检索语言
检索语言( retrieval language)概念
检索语言的分类
人工语言和自然语言
分类语言和主题语言
? 检索效果评价
检索效果( retrieval effectiveness)
查全率和查准率
提高检索质量的措施
检索语言的概念
语言是一种人们用以交流沟通的重要工具。人与计算
机对话,需要有计算机语言,人与检索系统对话来实施
检索,则需要有检索语言( retrieval language)。
检索语言是用于描述检索系统中信息的内部
及外部特征和表达用户信息提问的一种专门语言,
检索的匹配正是通过语言的比较匹配来实现的。
检索语言也称索引语言,后者是从检索系统的标
引角度出发的,而前者是从用户的信息检索角度
出发的。
检索语言的分类
按文献信息的特征:描述信息内容特征的语言和描述信
息外部特征的语言;
按检索工具编排体系:分类语言和主题词语言;
按词汇的类型:关键词语言、单元词语言、标题词语言
和叙词语言。
按其规范的情况:人工语言 (规范语言 )和自然语言 (非规
范语言 );
按检索语言的词汇组配方式:先组式语言和后组式语言。
不同的检索语言构成不同的标目及其索引系统,提供各种检索点。
人工语言 (规范语言 ) 和自然语言 (非规范语言 )
artificial language,受信息检索的控制,使用控制、
规范词( controlled term)。人工语言的规范处理重
在两个方面:一是使一个概念只用一个词汇来表达,这
样就避免了多词一义的情况;二是使一个标引词只能表
达一个概念,这样就排除了一词多义现象。
natural language, 自然语言是取其自然形态,不
受控,使用非规范词( uncontrolled term)或称自由
词( free term)。自然语言极其丰富、复杂和多样,
存在着一词多义、多词一义及词义交叉的现象。常见的
有同义词、近义词、同型异义词等。
分类语言和主题语言
分类语言 也属于主题语言。分类语言是按学科范畴划分
而构成的一种语言体系,它集中反映学科的系统性、反映
它们的相关、从属、派生等关系,从总体到局部分层、分
面展开,形成分类体系。由类目号码及名称作为检索语言,
构成分类类目表,如前述图书分类表、专利分类表用的都
是分类语言。
主题词语言 包括:关键词语言、单元词语言、标题词语
言、叙词语言等,它们有不同的主题词表。主题词表达概
念本身,在主题词表中通过参照系统来指示词汇之间的关
系。
常用的检索技术
2、检索效果评价
检索效果( retrieval effectiveness)是指检索系统检
索的有效程度,它反映检索系统的能力,这是对机检提
出,有些指标对手检也有意义。
技术效果 主要指系统的性能和服务质量,它是由检索系
统实现其功能的能力所确定的;
经济效果 主要指检索系统服务所花费的成本和时间,它
是由检索系统完成其检索服务的代价所确定的。
6项评价检索效果的指标,
收录范围、查全率、查准率、响应时间、用户负担,
输出形式。
查全率 R( Recall ratio)
查准率 P( precision ratio)
检索结果涉及四个方面:相关文献、非相关文献、
被检出的文献和未被检出的文献。
实验结果表明查全率与查准率之间存在互逆关系
提高检索质量的措施
提高检索系统的质量,对用户而言,则要选择适合课题的
学科覆盖范围的、优质的检索工具,包括其收录的全面、
著录的清楚、标引的准确、完善等等。
提高用户使用检索系统的能力,充分发挥检索系统的功能。
这里涉及到下一章要讨论的检索策略问题。检索语言、检
索技术、方法的正确、灵活的使用,以使检索者(用户)
能更好地与检索系统协调、配合。另外,要根据不同的检
索课题的需要,适当调整对查全率和查准率的要求,比如
要求查全率很高的查新工作,就要放弃对查准率的苛刻要
求。
当代科技信息检索系统能达到的查全率和查准率分别
是 60% ~70%和 40% ~50% 。
第四节 科技信息检索的基本流程
信息检索课程 目的,
让你 以最有效的方法
收集及 筛选 所需 数据
以提高 科学研究能力
检索的程序
1、明确检索的目的
2、检索前的准备工作
3、选择检索系统和数据库
4、规划检索程序
5、分析检索结果
1、明确检索目的
目的 的确定
?课题分析确定检索主题
?确定检索的范围:地理、时间
段、文献类型等
?预期所需文献信息数量
2、检索前的准备工作
?明确学科通用的关键检索词
?是否对特定的作者、专家学者的研
究感兴趣?
?是否有特定的出版机构的文献与你
的研究主题相关?
?其它?
检索要求,新、准、全
如要了解科技的最新动态、学科的进展、
了解前沿、探索未知,则强调一个 "新 "字 ;
如要解决研究中的具体问题,则要强调一
个 "准 "字 ;
如要了解一个全过程、写综述、作鉴定、
报成果,就要回溯大量文献,要求检索的全面、
详尽、系统,则要强调一个 "全 "字。
3,选择检索系统和数据库
?掌握数据库资源所覆盖的学科范围
?掌握各种数据收录文献的类型
?查看数据库的详细介绍和说明
?请教图书馆员要求介绍检索的最佳数
据库
检索点与检索词的选择
4,规划检索程序
4 规划你的检索程序
? 选定检索主题词
? 建立检索表达式
? 调整相关设定:年代、类型等
选定检索主题词
?利用关键词的上下位词、特有名词及同义词,查
阅工具如字典、分类表等。
建立你的 检索
? 使用逻辑算符 (AND,OR,NOT)
? 限制检索条件:作者,刊物或年代,
调整相关设定
?决定检索结果的显示方式,以 日期,关联性排序
或 即时检索
?以快速方式进行初步检索
?如果可能 的 话,可利用手头已找
到一篇及一些评论性综述文献
进 行 检 索
5、分析检索结果
不满意
满 意
不 满意 –非目标性结果
→ 重新檢索
?检查检索词的拼写
?检查检索词的准确性 -查阅词典、
字典、词表,删除错误名词
?调 查 被检索的数据库 –数据库说
明、期刊列表确定是否覆盖你所
需要检索的主题
不 满意 –结果太多
?设定限制条件、特定的检索字段 及年代
?增加检索名词的准确性 —查阅工具:主题
词表,字典,分类表等
?修改检索策略 —增加使用 AND,减少使用
OR。
→ 重新檢索
不 满意 –结果太少
?检查检索词的正确性、准确性
?增加检索词的普遍性 —查阅工具:主题词表、
字典,分类表等
?拓宽检索策略 —减少使用 ANDs;使用 OR连
接增加的同义我词和近义词
?增加检索数据库 —确定其他数据库是否覆盖
你所需要的检索主题
→ 重新檢索
满 意
?是否获得全部所需?
打印, Email或存档
?是否需要获取全文?
连接全文连接;图书馆期刊、资料;原文
传递服务( 86414637郁鸿老师)
检索技巧和提示
(1) 广泛浏览数据库
(2) 选择合适的数据库试查
(3) 调整策略的考虑
(4) 利用检出文献的信息,拓宽检索
(5) 充分利用各种资源
各种导航工具、虚拟图书馆 (网络专题资源的有序集合 )
第五节 原文获取
? 馆际互借与文献传递
? 网络环境下的资源共享
? 我国主要文献服务中心
馆际互借与文献传递
馆际互借,ILL(Interlibrary Loan)是馆与馆之间的
图书信息资料共享合作,是图书馆(文献信息服务中
心)开放服务( open service)的一个重要方面。
文献传递,DD (Document Delivery)是利用各种
通信手段、从各种文献服务中心获取文献信息的有效
手段。其服务模式多样,比如:邮递( mail),快递
( express mail),电子邮件( E-mail)等。
http://202.118.250.135/ywcd/index.htm
86414637郁鸿老师
网络环境下的资源共享
联机检索中心的服务
提供多种方式的订购、传递服务
提供全文数据检索
网络化图书馆的合作
中国高等教育保障体系 CALIS,
http://www.calis.edu.cn
上海高校网络图书馆 SCIUT,
http://202.120.13.100/index.htm
我国主要学术性图书馆和文献情报中心
中国国家图书馆 http://www.nlc.gov.cn/
中国科学院文献情报中心 http://www.las.ac.cn/
中国科学技术信息研究所 http://istic.ac.cn
中国国防科技信息中心 http://cdstic.cetin.net.cn/
中国标准情报中心
http://www.cei.gov.cn/homepage/gov/zgbzqbzx.ht
m
中国专利信息中心
http://www.cpo.cn.net/cpic/
中国专利文摘数据库
http://www.exin.net/patent
北京大学图书馆
http://www.lib.pku.edu.cn/
清华大学图书馆
http://www.lib.tsinghua.edu.cn
哈工大图书馆 http://www.lib.hit.edu.cn
作业
10,文献信息检索的基本概念?
11,何谓检索点?有哪些主要的检索点?加以说明。
12,计算机检索系统是如何构成的?
13.信息用户经常使用的目录有哪些,各自的特点是什么?
14., 中图法, 的大类有哪些?涉及工程技术的类有哪些?
15.检索效果的评价指标有哪些?查全率与查准率的定义及
其的关系?
16.如何构建研究生课题的文献检索程序?
17.获取原文的主要方法有哪些?
18.我国有哪些主要的学术性图书馆和文献情报中心?