1
4-3 Information Retrieval Effectiveness
信息检索效果的概念和研究状况
检索效率指标
提高检索效率的措施思考题
2
一、信息检索效果的概念和研究状况
信息检索效果是利用检索系统进行检索所产生的有效结果 。
Cranfield试验及其主要结论
⑴ UDC,标题语言,元词语言和专业组面分类法等 4种索引语言性能相差无几 。
⑵ 如果同时考虑查全率和查准率两个性能,那么检索效果最好的是自然语言 。
⑶ 收录范围,查全率,查准率,响应时间,用户负担和输出形式等 6
项是评价检索效果和检索系统的 主要指标 。
⑷ 查全率与查准率存在互逆相关关系 。
王云等对截词检索,条件检索,关键词检索,分类号检索,作者检索,期刊检索及其检索效果等进行了实证研究 。
3
What to Evaluate?
Ef
fect
ive
ne
ss
What can be measured that reflects users’ ability to use system?
– Coverage of information
– Form of presentation
– Effort required/ease of use
– Time and space efficiency
– Recall
Proportion of relevant material actually retrieved
– Precision
Proportion of retrieved material actually relevant
4
二、检索效率指标
检索效率是指评价检索系统性能和质量的各种比率。包括查全率、
查准率、新颖率、检索速度、检索方便性和成本效益比等。
F·W·Lancaster 2× 2表:
用户相关性系统相关性
Doc is Relevant Doc is NOT
relevant
总计
Doc is retrieved a(命中) b(误检) a+b
Doc is NOT
retrieved
c(漏检) d(应拒) c+d
总计 a+c b+d a+b+c
+d= n
5
1,Recall ratio
查全率:检出的相关文献数与系统内的相关文献总数之比
( W·佩里和 A·肯特,1956) 。
R= 检出的相关文献 /文献内相关文献总数 × 100%。 漏检率=未检出的相关文献数 /文献库内相关文献总数 × 100%。
在公式中,a值经过一次检索即可确定,而 c值即漏检文献数一般可以用下列 4种方法测定出来,(1)若 n值不大,逐篇鉴别各篇文献; (2)若 n值很大,可对检出的文献随机抽样; (3)由有经验的用户去鉴别检出的文献; (4)通过不同途径去检索同一课题的文献,把各次检出的文献加在一起,剔除重复,形成一份较完整的相关文献清单,以此对比每次检出的相关文献,即可知道相应的 c值 。
6
2,Precision ratio
查准率:检出的相关文献数与检出的文献总数之比,它是衡量一个检索系统的信号噪声比,测度检索系统拒绝非相关文献能力大小的一项指标 (佩里和肯特,1956)。
P=检出的相关文献数 /检出的文献总数 × 100%。 与此相应,
我们称系统检出的非相关文献数与检出的文献总数的比率为误检率 (Noise ratio),其值为 b/a+b,它是查准率的补数 。
7
Relevant vs,Retrieved
Retrieved
Relevant
All Docs
|C o lle c t io nin R e l|
|R e t r ie v e d R e l| R e c a ll?
|R e t r ie v e d|
|R e t r ie v e d R e l| P r e c is io n?
8
3,R-P关系
C·W·Cleverdon指出,在同一个检索中,当 R和 P达到一定阀值,即查全率为 60~70%,查准率为 40~50%后,二者呈互逆相关 。
(1) Get as much good stuff while
at the same time getting
as little junk as possible;
(2) There is a tradeoff between
Precision and Recall;
(3) So measure Precision at
different levels of Recall;
(4) Note,this is an AVERAGE
over MANY queries
影响查全率和查准的因素包括标引因素,词表因素,检索程序的功能因素,系统与用户的交互因素,检索策略因素和数据库选择因素等 。
precision
recall
x
x
x
x
9
Retrieved vs,Relevant Documents
Very high precision,very low recall
Relevant
10
Retrieved vs,Relevant Documents
Very low precision,very low recall (0 in fact)
Relevant
11
Retrieved vs,Relevant Documents
High recall,but low precision
Relevant
12
Retrieved vs,Relevant Documents
High precision,high recall (at last!)
Relevant
13
14
15
16
4、其它评价指标
新颖率:从检索系统中检出来的对用户而言含有新颖信息的文献件数与文档中总相关文献数,检出的总文献数或检出的总相关文献数之比 。
错检率:从检索系统中检出来的无关文献量与系统中无关文献总量之比,它与专指度存在互补关系 。
覆盖率:在某一特定时间里,从某一检索系统中检索到的涉及特定主题领域的所有文献数与该主题领域相关的实有文献总数之比 。
这一指标反映某一文献库提供专门主题文献的范围大小,覆盖率越高,文献库包含的信息量越大,漏检的可能性也就越小 。
17
三、提高检索效率的措施
1,提高文献库的编辑质量,使其收录范围更全面,更切合相应学科或专业的需要,著录的内容更详细准确 。
2,提高标引质量,标引前后一致,用词恰当,组配合理,不错标,
不漏标,不滥标 。
3,提高索引语言的专指性和词表质量 。 加强对索引词汇的控制,
完善词表的结构及其参照关系 。 词表结构要合理,词与词之间的关系要正确,正确控制同义词和多义词,及时反映新学科和新技术的术语等 。
4,提高检索人员的工作水平和能力 。
5,根据实际需求,调整查全率和查准率方案 。
18
检索策略 调整检索策略的方式 备注用于提高查全率的措施
1、去掉用 AND连接的非主题限定词 增加用 OR连接的相关检索词、同义词控制方法既可以提高查全率,也可以提高查准率。
2、增加用 OR连接的相关检索词
3、减少用 NOT限定的检索式
4、删除检索式的某个组面
5、利用词的等级
(1) 族性 (词 )检索
(2) 同位类检索
(3) 上组配检索
(4) 同义词控制方法
6、聚类检索法
7、截词检索法用于提高查准率的措施
1、下组配检索法
2、提高检索词的专指度
3、利用逻辑非 NOT进行限制
4、利用文献外表特征限制
5、连号法和职号法
6、加权检索法
19
Chap4 思考题
1、分析各种信息检索的基本方法及其特点
2、什么是信息检索策略?影响信息检索策略的主要因素有哪些?
3、举例说明制定信息检索策略的主要步骤
4、什么是信息检索式?如果制定科学合理的信息检索式?
5、如何理解布尔检索、限制检索、原文检索和截词检索?
6、信息检索主要有哪些检索途径,各有什么特点?
7、如何选择检索系统和检索工具?
8、全面掌握查全率、查准率、覆盖率等检索效率概念
9、提高查全率和查准率的措施主要有哪些?
10、谈谈信息检索效果研究的主要案例及其结论