第二章 信息检索原理
?信息检索工具
?信息检索系统
?检索步骤
?检索方法
第一节 信息检索工具
? 检索工具是为报导, 存贮和检索需要, 按文献的内
容特征或外部特征组织的二次文献出版物 。
? 然而,检索工具报导和存贮的不是整篇文献,而是
存贮表达文献内容特征的主题词(包括关键词、叙词
等)和分类号或表达文献外部特征的文献题名、著者、
报告号、专利号等等为标识的文献线索, 人们可以依
据文献线索决定取舍和索取原始文献。一条条文献线
索入存到检索工具中,卷轶浩繁,要想快速准确的检
索到特定文献,就必须正确的确定主题词、分类号、
文献题名、著者等等标识,这个标识是文献存贮者和
文献检索者的共同依据,对于文献存贮者称存贮标识,
对于文献检索者称检索标识。
检索工具的类型
? 按收录文献的学科范围分
? 按收录文献的类型范围分
? 按文献加工或信息处理手段分
? 按文献记录的处理方式分
按文献记录的处理方式可分为:
Ⅰ 目录、题录 (Contents):是系统积累和提供出版物的
名称、收藏单位及索取号的检索工具。
Ⅱ 文摘 (Abstracts):是系统报道、积累和检索科技文献
的主要工具。
Ⅲ 索引 (Index):索引的作用犹如一把钥匙,能将隐藏在
报刊、书籍、文摘杂志等中的特定信息内容,有条不
紊地按主题词顺序或分类的序列提示出来。索引已广
泛地应用于各种文献之中。
检索语言的分类
?
第二节 检索语言
检索语言
?检索语言的概念
?检索语言的种类
?几种主要的检索语言
分类检索语言
主题检索语言 (标题词语言、关键词语言、叙词语言、
单元词语言等 )
引文检索语言
第三节 检索途径与检索步骤
?检索途径
1.题名途径:依据各种主题索引和关键词索引等检索。
2.分类途径:依据各种分类索引;通过分类号去检索。
3.著者途径:国外比较注重劳动者途径检索,而我国
很少有人去记忆人名,故著者目录少。
4.号码途径:它的标识是书刊号、专利号、标准号等
等。例如,ISBN号 7- 5001- 0016- 7
↓ ↓ ↓ ↓
国别 出版社号 序号 校验位
ISBN号的计算
? 香港 962-231-315-9
9 6 2 2 3 1 3 1 5 9
× 10 9 8 7 6 5 4 3 2 1
90 54 16 14 18 5 12 3 10 9
将这些数分别相加,得到和为 222,把 222÷ 11,余
数为 2,11-2= 9,故校验码为 9。
练习题:
1,7-5062-4177-2
2,7-81050-240-9
信息检索的步骤
? 确定和分析检索课题,确定检索课题一定要考虑实践
要求, 知识积累以及前人和他人研究的现状, 同时也
要考虑文献保障情况等 。 分析课题主要看该课题的关
键所在, 该课题须从什么角度去研究, 须研究哪些方
面等 。
? 确定检索工具, 根据自己对检索工具或检索系统的了
解来确定检索课题所需的检索工具 。
? 制定检索策略, 途径和方法,根据课题的特点和要求
选择检索方法 。
? 根据文献线索查阅原始文献,通过以上的查阅, 如果
确认所得的线索有一定的参考价值时, 需要进一步了
解和详细查阅原始文献资料, 由近而远 (本单位 → 本
省, 市 → 全国大型 → 国外 )地查阅 。
检索步骤
一些大的检索课题往往需要多种检索方法并用
才能取得良好的检索效果 。
?实施检索
?分析筛选检索所得的文献信息,
检索方法
? 检索策略,为实现检索目标而制定的全盘计划或方案,
也是对整个检索过程的谋划和指导 。 具体内容包括确
定要利用的检索工具或检索系统及其重点, 确定回溯
年限和查找范围, 选择检索方法和检索词, 构造检索
式, 以及编定查找程序等, 在光盘检索和因特网检索
过程中检索策略主要体现为检索表达式的构筑, 故也
可特指检索表达式 。
? 检索表达式
检索方法
? 对检索需求的逻辑表达, 是检索策略的核心部分 。
? 它的构成原理主要是布尔逻辑 。
? ( 布尔 George Boole,1815-1864,英国数学家, 逻辑
学家 。 他应用代数方法研究逻辑问题, 于 1847年提出
用, 0”,,1”两个符号表示事件的成立与否, 称之为
事件逻辑值, 从而使逻辑规律可用数学关系来表达,
创立了逻辑代数, 也称布尔代数, 布尔因此被认为是
数理逻辑的奠基人, 主要著作有, 逻辑的数学分析,,
,思维规律研究, 等 。 )
检索方法
? 计算机检索 ( 光盘, 因特网等 ) 利用布尔逻辑的, 或,
( OR或 +),, 与, ( AND或 *),, 非, ( NOT或
-) 等算符, 将检索课题转换成逻辑表达式 ( 提问
式 ), 计算机根据它所规定的检索词之间的关系进行
匹配, 并进行相应的集合运算, 命中的输出即为检索
结果 。
? 在检索文献信息时经常使用上述运算符, 如:在查找
,毛泽东和周恩来, 时, 其逻辑表达式为, 毛泽东 *
周恩来, ;如果要求改为查找, 毛泽东或者周恩来,,
则表达式为, 毛泽东 +周恩来, ;如果要求为查找
,除毛泽东之外的中共第一代领导集体,, 表达式为
,中共第一代领导人 -毛泽东 ), 。
检索方法
当然, 上述运算符还能组配成多种复杂的表达式 。
? 1.2.2加权法
? 在光盘检索和因特网检索之前, 将检索课题加以分
析后, 可能会列出若干与课题相关的检索词, 而这些
检索词对该课题的重要程度不同, 根据课题的要求给
每一个检索词一个权值, 即表示其重要程度的数值 。
然后将含有这些检索词的文献进行加权计算, 命中文
献信息按权值大小排列, 权值大小是检索结果切题度
的标志, 凡达到一定数值以上者即输出 。
?
检索方法
? 这种方法可克服一般机检输出结果时罗列文献信息的
缺点, 可以减少人工选择文献信息的时间 。
? 1.2.3字段限制
? 在一些检索系统如 Dialog,还使用字段检索来限制其
查找范围 。
? 基本检索字段:在检索词后加一, /”再加后缀代码来
限制查找范围, 如,/TI即 Title field,指限在文献标
题字段查找; /DE即 Descriptor field,指限在规范词中
查找 。
检索方法
? 辅助检索字段:在检索词之前加前缀代码, 再加, =”,
以表示限定查找的范围 。 如,AU= ( 作者 ) ;
CC= ( 分类代码 ) ; LA= ( 文种 ) ; PY= ( 出版
年代 ) 等等 。
? 1.2.4位置限制
? 位置逻辑运算符是表示或限制检索词之间的位置关系 。
? W,( With) 表示检索词之间不得有其它字母或词语
出现, 次序也不得颠倒, 如,Machine( W) Tool是
机床, 如 不 加 限 制, 则 Hand Tool of Sewing
Machine(缝纫机的手工具 )。
检索方法
? nW:表示允许检索词之间可插入几个词, 但次序不能
颠倒 。 如,Strength(1W)material可查 出 Strength of
material材料力学 。
? P:是 phrase的缩写 。 比 (w)更严格, 表示是词组相连,
不能颠倒, 不能中间加词 。
? S:是 Sentence的缩写, 表示所有检索词只要在一个句
子中即可 。
? F:是 Field的缩写 。 表示检索词只要在同一字段就算命
中 。
? 1.2.5截词
?
检索方法
? 是只把一个词截断, 其后加截断符,?,, 以减少检
索词的数量, 只要保持前方一致就算命中, 有利于提
高查全率, 如,Propert,表示可以查出 Property和
Properties; Analys?s表示既可查出包涵 Analysis的文
献信息, 又可查出包涵 Analyses的文献信息 。
? 1.3直接检索法和间接检索法
? 1.3.1直接检索法
? 直接检索法是通过浏览或查阅一次文献直接获取所
需信息的一种方法, 其优点在于能够明确判断文献所
包涵的信息内容是否符合需要 。
检索方法
? 间接检索法,间接检索法是借助于检索工具的指引而
查获所需信息的一种方法 。 由于全面检索 ( 如:论文
写作, 课题研究等 ) 必须使用检索工具或检索系统,
所以这种方法最常用, 故又称为常用法 。 它分为顺查
法, 倒查法, 抽查法 。
? 顺查法,经过分析, 确定查找文献信息的起始年代,
再利用选定的检索工具或检索系统, 由远及近地逐年
查找, 此法的检索效果显著, 但费时费力, 工作量较
大 。 如:查找信息论的资料可从 1948年查起 。
检索方法
? 倒查法,利用选定的检索工具或检索系统, 由近及远
的逐年查找, 重点是查找近期的文献信息, 此法节省
时间, 但容易漏检 。
? 抽查法,针对某学科处于兴旺发达时期的若干年进行
文献信息的查找, 此法的检索效果较好, 效率也颇高,
但使用的前提是必须熟悉该学科的发展过程及其特点 。