第三章 信息检索原理
3.1 信息检索概述
3.2 文献检索的方法
3.3 文献检索的具体步骤
3.4 检索效果的分析及评估
3.5 关于文献检索的几个问题
3.1 信息检索概述
1,信息检索的概念
2,信息检索的原理
3,信息检索的类型
1,信息检索的概念信息检索 (information retrieval) 是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
所以,它的全称又叫信息存储与检索
(information storage and retrieval),这是广义的信息检索。狭义的信息检索则仅指该过程的后一步,即从信息集合中找出所需要信息的过程。相当于我们所说的信息查询
(information search)。
2,信息检索的原理如前所述,广义的信息检索包括信息的存储和检索两个部分。信息存储是指编制检索工具或者建立检索系统的过程。信息检索是指利用检索工具或者检索系统查找所需信息的过程。信息存储的目的是为了检索,检索要存储以为先决条件。
实际工作中,从事信息存储(标引)的人员(检索工具和检索系统的编制者)和从事信息检索的人员(信息用户)基本上没有机会进行直接的思想交流,因而可能会造成存储信息和检索信息所依据的规则的不一致,
导致存储的信息检索不出来。
为了避免这种情况发生,信息标引人员与信息检索人员之间必须遵循共同的规则,也就是一种约定的相同标识系统 —— 检索语言。
有了这个规则,标引人员在信息存储过程中,
就会对被标引的原始文献进行分析,找出其特征,用检索语言加以描述,纳入检索系统。
信息检索人员在进行信息检索的时候,也对用户的信息需求进行分析,并用检索语言加以描述,提交给检索系统。检索系统将用户的检索提问标识与系统中的文献特征标识进行比较,相匹配的就作为检索结果提供给用户。
信息检索原理示意图原始文献信息需求信息特征提取检索提问表达检索标识系统信息特征标识检索提问标识检索系统标识匹配检索结果信息检索过程信息存储过程由此可知,信息检索的本质就是用户的信息需求与存储在信息集合体(检索系统)的信息进行比较和选择,也就是匹配( match)
的过程。也就是对一定的检索系统采用一定的技术手段,根据一定的线索与准则找出相关的信息。
信息检索是通过检索系统来实施的。检索系统包含信息集合的载体和技术设备。由于信息的存储媒体和技术手段的不断发展,信息检索系统也在不断发展。
20世纪 40年代以前 手工信息检索系统
20世纪 40年代 半机械化检索系统
20世纪 50年代 脱机检索系统
20世纪 60年代 联机检索系统
20世纪 70年代 国际联机检索系统
20世纪 80年代 光盘信息检索系统
20世纪 90年代至今 网络信息检索系统
3,信息检索的类型
1,文献检索
2,数据检索
3,事实检索
1,文献检索是以文献为检索对象的信息检索。文献检索根据检索内容不同分为:
( 1)文献的线索检索:利用书目、文摘和书目型数据库检索工具,检索的结果提供了文献的线索;
( 2)文献的全文检索:这种检索以查找到文献全文为目的。
2,数据检索以数值、图表、公式或化学分子式等形式表示的数据为检索对象的信息检索,其检索结果为数据信息。如:“长江有多长,洪水期最高水位有多高?”等。
3,事实检索以事实为检索目的和对象的信息检索。其检索对象既包括一些事实、概念、思想、知识等非数值信息也包括一些数据信息。数据从广义上讲事实也是一种全文,知识内容特殊、比较简短的全文。
3.2 文献检索的方法
1,文献检索的方法
2,检索方法的选择原则
1,文献检索的方法
1) 追溯法
2) 工具法
3) 交替法
1,追溯法利用文献后面所附的参考文献进行追踪查找。
追溯法又分为传统追溯法和引文追溯法。
追溯法的优点是,在没有检索工具或检索工具不全的情况下,可以查到一些相关文献,
方法简单。缺点是,检索效率不高,漏检率较高。
传统追溯法预先找几篇与课题有关的专著或述评(因为这类文献往往附有大量的参考文献),查找参考文献的原始文献 ……
引文追溯法利用引文索引进行追踪查找文献的方法。
先找出一位有关文献的著者姓名,利用引文索引可以查到引用者的姓名和引用文献来源,
再以此为起点进行循环追溯。
2,工具法利用检索工具查找文献的方法。利用工具法检索文献的关键在于根据检索条件、检索要求和学科特点选择检索工具,并注意发挥各种检索工具个体功能和整体功能。工具法又分为顺查法、倒查法和抽查法。
顺查法按从远到近、从旧到新的时间顺序查询文献的方法。利用该法检索文献首先要分析检索课题提出的时间背景及历史概况,其次再确定查询的起始年月,最后再从检索起始的时间点上逐年逐卷查寻,知道查到复合检索课题要求的文献线索为止。这种方法的查全率和查准率都较高,但检索整个课题较费时。
此法运用于重大课题、各学科发展史及新兴学科等方面研究的文献检索。
倒查法按由近及远、由新到旧的逆时间顺序查寻文献的方法。这种方法把检索的重点放在近期文献,只需查到基本满足需要时为止。使用这种方法可以最快地获得新资料,而且近期资料总是既概括、引用了前期的成果,又反映最新的水平和动向,这种方法比较节省时间,较易掌握某易专业领域的最新成果文献。适合于检索者对研究对象有较充分的了解,需要进一步了解新的进展情况时采用。
抽查法按检索课题实际情况只查询某个时期文献的方法。一般是针对某学科发展迅速、研究成果发表较多的一段时间进行重点检索。这种方法往往用来解决要求快速检索的课题。
它费时较少,获得文献较多,检索效率较高。
但使用这种方法的前提是必须熟悉学科发展的特点。
3.交替法将追溯法和工具法结合起来检索文献的方法。交替法是一种多向、立体的查找方法,
它具有很大的灵活性,能博采众法之长,获取文献信息量较大,检索效率较高,适用于历史悠久、文献信息需求量较大的检索课题。
在具体运用时可分为直接交替法和间隔交替法。
直接交替法在检索一个课题的文献时,同事交互使用不同检索方法进行检索的方式。如先使用检索工具查处一批有用文献,然后利用这些文献内附有的参考或引用文献线索追溯查找,
扩大线索,获得更多的有用文献(即先工具法,后追溯法,不断交替使用);反之亦然
(即先追溯法,后工具法,不断交替使用)。
间隔交替法在检索一个课题时,根据文献引证规律,
每隔 5年检索一次的方式。由于引用参考文献又一个规律,即最近 5年之内发表的重要文献一般都会北引用。因此可以先利用检索工具查出一起有用文献,然后利用这些文献所附的参考文献进行追溯,扩大线索;接着跳过 5
年左右时间再用检索工具查找,查出一起有用文献后再进行追溯。如此循环,只到满足课题检索要求为止。
2,检索方法的选择原则
1,在检索工具不成套或不齐全的情况下,可采用传统追溯法;
2,如果已知某论文的著者,可采用引文追溯法;
3,在文献检索工具比较齐全的情况下,要尽量采用工具法;
4,当查找文献的目的时薇撰写某一学科的反展动态、综述、述评等论文时采用工具法的顺查法;
5,在确定新课题或解决某些关键性的技术问题上往往用工具法的倒查法;
6,如果检索者熟悉学科的发展特点,熟悉学科文献集中分布登载的时间、范围,就可以采用工具法的抽查法。
3.3 文献检索的具体步骤课题 分析研究课题 制定检索策略 选择检索工具 确定检索途径选定检索方法检索调整检索策略结果评价获取原始文献分析研究课题在查找文献信息之前,必须对检索课题进行分析研究。目的是了解课题的学科和专业范围,弄清检索的真正意图及实质。这是制定检索策略的根本出发点,也是检索效率高低和成败的关键。具体需要明确的问题有:
专业范围、时间范围、地理范围、语种范围、
文献类型。
制定检索策略检索策略是指为实现检索目标而制定的检索方案或对策,也就是将课题的提问及其检索词与检索工具的收录内容、编排特点相匹配而确定的检索方案或程序。制定检索策略的主要内容是,在分析课题的基础上,确定要利用那些检索工具,确定查找年限和专业范围的选择,确定检索用词并判明各检索词之间的逻辑关系与查找步骤。
选择检索工具根据检索课题的主题及专业范围选择质量较高、检索手段比较完善的检索工具。这就必须了解和掌握各种检索工具的适用范围、
收录特点。
在选择检索工具是,要考虑的主要问题是:
( 1)在内容和时间方面,要考虑检索工具、
数据库内容对课题内容的覆盖面和一致性,如应综合考虑检索工具、数据库收录文献的齐全、
编制的质量、使用的方便等因素。
( 2)在手段和技术上,有机检条件的一般就不选手检工具。但必须了解数据库收录文献的年代范围。
( 3)考虑价格和可获得性,应选择就近容易获得的检索工具。
确定检索途径检索途径是进入检索的入口。分为两类:
反映文献内容特征的途径(分类、主题)和反映文献外部特征的途径(著者、题名、代码等)。
分类途径是按照学科分类体系查找文献的途径,采用的是“分类目录”和“分类索引”。按分类进行查找,用分类途径能够把同一学科的文献信息集中在一起检索出来。其缺点是分类表是事先编制好的,一些新学术论文增补不及时,依此途径检索,所得文献容易落后于学科发展;又由于每篇文献是按学科规类的,查出的结果涉及面宽,针对性不强,因而还需要进一步筛选。
主题途径根据文献的主题特征,利用各类主题目录和索引进行检索的途径,即利用从文献中抽象出来的或经过人工规范化的,能够代表文献内容的词来检索。
主题目录和主题索引就是将文献按表征其内容特征的主题词组织起来的索引系统。利用主题途径检索时,只要根据所选用主题词的字顺(字母顺序、音序、笔画顺序等)找到所查主题词,就可查得相关文献。主题途径具有直观、专指、方便等特点,打破了按学科分类的方法,时分散在各个学科领域里的有关课题的文献集中于同一主题。
著者途径利用著者(个人或单位著者)目录和著者索引进行检索的途径。国外对著者途径非常重视,许多检索工具都把著者索引作为最基本的辅助索引。著者途径的特点是:科研人员一般是各有所长,尤其是有些领域的知名学者、专家,他们的文章一般都代表了一定的水平和动向,通过著者线索,可以系统地发现和掌握他们研究的进展和他们的最新论著。
一定程度上可以引导查找到同类或相关文献。这种途径的检索既快速又方便,但查得的文献缺乏系统性和完整性。
题名途径根据文献的名称,如书名、刊名、会议名称进行检索的途径。它以文献的题名按照字顺编排诚一个体系,既简单易行,也便于查检,比较符合一般用户对文献的使用习惯。
代码途径根据文献的序号特征,利用其序号索引进行检索的途径。许多文献具有唯一的序号,
如 ISBN,ISSN、专利号等。根据这些序号可真诚不同的序号索引。在已知序号的前提下,
利用序号途径能方便地查找所需文献。
其它途径有些检索工具还有一些特殊的索引,可用特殊途径找到所需文献的线索。计算机检索系统中的检索途径还很多,几乎文献的每一个特征(如出版社、出版年代等)都可作为检索途径。
调整检索策略检索中,会不可避免地产生一些和检索目标相差甚远的情况。
检索词过于宽泛会造成扩检,这时可以对原检索词增加限定条件,如时间、语种或增加新检索词等。另外也可以换用下位类检索词进行专指性更强的检索。
检索词过于偏窄会造成漏检,这时可以减少限定条件、用上位类检索词或是用相关主题词进行检索。
获取原始文献这是检索过程的终结,也是文献检索的最终目的。获取原文一般有三个步骤:
( 1)判断文献的出版类型(见第 5章);
( 2)整理文献出处。将文献出处中有缩写语、
有音译刊名的还原成全称或原刊名;
( 3)在上面 2个步骤的基础上查找全文数据库、图书馆馆藏目录或联合目录确定馆藏位置。
3.4 检索效果的分析及评估所谓检索效果( retrieval effectiveness)
是指检索结果的有效程度。反映了检索系统的检索能力。检索效果包括检索的技术效果和经济效果两个方面。技术效果是由检索系统完成其功能的能力确定,主要指性能和质量。经济效果由完成这些功能的价值确定,
主要指检索系统服务的成本和时间。
检索效果评价是根据一定评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一步完善检索工作的过程。
常用的评价指标有:收录范围、查全率、
查准率、响应时间、用户负担和输出形式。
其中最主要的指标是查全率和查准率。
检索过程中,检索工具中参加检索的全部文献可分成有关、无关和查出、未查出四个量,这四个量又可分为用户相关性和系统相关性两类。
检索效果评估相关数据表
a+b+c
+db+da+c总 计
c+ddc
a+bba检出文献总 计无关文献相关文献系统相关性未检出文献用户相关性查全率( recall ratio)
查全率是指检出的相关文献数与检索工具中的相关文献总数之比,用字母 R表示。
查准率( precision ratio)
查准率是指检出的相关文献数与检出的文献总数之比,用字母 P表示。
查全率是衡量系统检出与课题相关文献的能力;查准率是衡量系统拒绝无关文献的能力。两者结合起来,即表示检索系统的检索效率。检索者的理想是要求查全率和查准率都是 100%,但这是不可能的。
实验表明:查全率和查准率之间存在相反的相互依赖关系,即提高查全率会降低查准率,反之亦然。
率 40%~ 50%)后,二者呈互逆关系,即查全率提交,查准率就会降低,反之依然。因此,
检索的最佳状态就是在查全率为 60%~ 70%且查准率为 40%~ 50%时(图中红点之间)。
可以看出,查全率和查准率之间存在着相互制约的互逆关系。在同一个检索系统中当查全率与查准率达到一定阈值(即查全率
60%~ 70%,查准影响查全率和查准率的主要因素客观原因 (针对检索系统 ):系统内文献不全;收录遗漏严重;索引词汇缺乏控制;词表结构不完善;标引缺乏详尽性,没有网罗应有的内容;文献分类专指度缺乏深度,不能精确地描述文献主题;组配规则不严密。
主观原因(针对检索者):检索课题要求不明确;检索工具选择不恰当;检索途径和方法过少;检索词缺乏专指性;检索词选择不当;组配错误等。
提高检索效果的措施和方法
1,提高检索工具的质量;
2,提高用户利用检索工具的能力;
3,制定优化的检索策略。
3.5 关于文献检索的几个问题
1,关于课题检索点
2,检索词的选择原则
1,关于课题检索点
1)确定检索点所谓检索点,就是课题自身所包含的某种可供检索的线索。
课题名称,2000- 2003年度刘经南在国内外期刊上发表的有关大地测量的论文有多少?
检索点,2000-2003年度(时间);
期刊论文(范围);
刘经南(人物);
测绘学(学科);
大地测量(主题)
中、外文(语种)
从中,我们可以看出,检索点的选择主要在于确定检索的时间、范围、人物、学科及主题、语种等。
2)检索点的分析内取法:从课题字面上分解出检索点外概法:从题意中概括出检索点
2,检索词的选择原则
从词表规定的专业范围出发,选用各学科内具有检索意义的基本名词术语;
避免使用频率低的词
多选用基本词汇进行组配
一般不选动词和形容词等