计算机信息检索
与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊
POV 也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机信息检索越来越重要,故值得大家对这一技术予以重视。
1.1 机检与手检的异同
先让我们看看信息存贮与能量存贮、材料存贮相比所具有的特点,可以列表比较如下:
表 1.1 信息存贮与能量存贮和材料存贮比较
类别 │ 存贮方式 | 存贮载体
能量 │蓄能、转化 | 水库、蓄电池、燃料 (煤、油、天然气、核燃料等 )
材料 │承载、保管 |场地、运载工具等
信息 │记录、复制 |纸张文献、缩微品、磁盘、光盘等
由此决定了信息存贮及检索在方法上独具特点。
书本式文献的传统存贮方法是图书馆文献管理法,包括图书、期刊、专利、科技报告、政府出版物、技术标准、会议论文、学位论文、产品样本、档案十大情报源的分类 存贮,由这套系统决定的手检体系使文献分类处于核心地位,
文献号码或篇名、作者名等则是天然的补充要素,加上主题,构成手检时按分类、主题、号码、作者名检索的四大途径。
机读信息则以数据库 (Database)形式存贮。根据
ISO/DIS 5127(文献与情报工作术语),数据库是至少由一种文档( File)组成、能满足特定目的或特定数据处理系统需要的数据集合。文档在此即是信息处理单位,按其组织方式可分为顺排档( Sequential File,也称主文档,Master
File)、倒排档( Inverted File)等,前者是完整的顺序信息记录,后者则是将主文档中的可检属性抽出重排而派生出的数据记录。国际上通常根据数据库内容将数据库划分为三大类,A.
参考数据库 ;B.源数据库 ;C.混合数据库
在开始机检实体内容介绍之前,我们将机检与手检的差别作总体比较如下:
项目手检机检总体特征手翻、眼看、大脑判断策略、查寻、机器匹配标引及索引特点检索点较少检索点较多检索时间较慢较快检索要求专业知识、外语知识、检索工具知识专业知识、
外语知识、机检系统知识
查全查准率查准率较高查全率较高综合效率较低较高表 1.2 机检与手检比较
1.2 机检理论基础
信息存贮与检索是信息学中最活跃的研究分支之一,检索理论研究近年发展非常迅速,
涉及的问题有:检索系统、检索策略及其设计、
检索技术及其实现等。现将检索技术及其实现、
检索策略及其设计和描述检索效果的参数简介于下。
(1)检索技术及其实现
检索技术包括基本布尔逻辑组配、截词、
词位限制、检域限制等。
布尔逻辑组配是现行计算机检索的基本技术,主要通过 "和 (and,*)","或 (or,+)"、
"非 (not,-)"等将检索词联络起来,对A、
B两词而言其 AND,OR,NOT的逻辑含义用 Wienn图表示是:
AND A and B 逻辑与。 A和 B
都为真时,结果才为真
OR A or B 逻辑或。 A或 B中只要
有一个为真时,结果就为真
NOT A not B 逻辑非。 A为真,B
为假时,结果才为真
截词包括后截、中截、前截等。在 DIALOG系统中,用?作为截词符,主要包括下列情形:
符号 意义 实例
? 后截断,中截一字符 computer?; wom?n
后截一字符 computer
后、中截二字符 act; encyclopdia
后、中截三字符 computat
词位限制可以是相邻若干词、在同一句中等,
DIALOG系统所用位置算符例如:
用法 意义
A(nW)B A,B两词相隔 n词且前后次序不变符合检
出要求; n=1时即 A()B
A(nN)B A,B两词相隔 n词且前后次序不限符合检出
要求; n=1时即 A(N)B
A(s)B A,B两词只要在同一子字段中就符合检出要求
检域限制可针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符,
对 DIALOG系统而言,前缀限制符例如:
AU= 限查特定作者
JN= 限查特定刊名
LA= 限查特定语种
PN= 限查特定专利号
PY= 限查特定年代
后缀限制符例如:
/TI 限在题目中查
/AB 限在文摘中查
/DE 限在叙词标引中查
后面在具体应用上述技术时还会详述。
2)检索策略及其设计
检索策略是对检索的全面策划,在操作上主要指数据库的选择和检索式的编制,前者取决于现有的数据库资源,后者则反映检索目标。
由于检索策略在机检中具有决定检出结果的重要地位,故编制和调整检索策略意义极其重大,其一般程序是,1)确定检索词和截、位关系 ;2)组配成式并优化 ;3)实检和反馈调节,
例如,对“微藻生长因子”这一课题来说,检索策略可编为:
(algae+algal+microalgal) * growth()factor
实检后调整(考虑提高检准率)、优化(低频词和关键词前置)为:
(microalgal+algae+algal)(s)growth()factor
(microalgal+algae+algal)(3n)growth()factor
又如,对“图象理解专家系统”这一课题,检索策略可编制为:
IMAGE()UNDERSTAND*(EXPERT()SYSTEM+A
RTIFICIAL()INTELLIGEN)
(3)描述检索效果的参数
主要有:查全率 (recall factor)、查准率 (也称适中率,Pertinency factor),漏检率
(omission factor),误检率 ( 也叫检索噪音,
noise factor)以及新颖率、检索速度等。
设 n为检索系统中文献总量,m为检索输出
的文献量,a为 n中与检索课题有关
的文献量,b为 m中与检索课题有关
的文献量 (检准文献量 ),则 n,m,a、
b之间的关系如图 1.1所示。
图 1.1 文献总量与检出文献之间的关系
令 R表示查全率,P表示查准率,M表示漏检率、
N表示误检率,则 R,P,M,N定义如下:
R=b/a*100%
P=b/m*100%
M=(1-b/a)*100% =100% -R
N=(1-b/m)*100% =100% -P
最理想的检索效果是 M,N均为 0,即 R,P
均为 100%,但实际上这是不可能的。
实验表明,R和 P之间存在相反的相互依赖关系,即提高 R会降低 P,反之亦然,
如图 1.2检索特性曲线所示。
有人认为:在物理、技术科学信息检索范围内,
P提高 1%将导致 R降低 3%。实践经验证明:在现代科技信息检索系统中,R为 60-70%,P为 40-
50%。同时,检索特性曲线还与文献专业特点有关,例如在具体概念为主、对象描写明确的化学等专业中,产生误检较少,特性曲线向右移;而在抽象概念多的心理学等领域中,特性曲线则向左移。此外特性曲线还与对查出的文献适用性的评价有关,若评价标准严格,则曲线编左;反之,曲线偏右。
对于检索来说,漏检是影响检索质量的最主要因素,故必须将 M 降低到最低限度;误检会降低检索的效率,也会影响检索质量。因此,
任何检索工具和检索系统必须力争克服漏检 (必要条件 ),同时尽量避免误检 (充分条件 )。
至于新颖率和检索速度,则可定义如下:
能检出的最近单位时间内发表的文献量
新颖率= ────────────× 100%
最近单位时间内发表的文献总量
检索输出的文献量 (m)
检索速度= ───────────
检索所用时间 (t)
与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊
POV 也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机信息检索越来越重要,故值得大家对这一技术予以重视。
1.1 机检与手检的异同
先让我们看看信息存贮与能量存贮、材料存贮相比所具有的特点,可以列表比较如下:
表 1.1 信息存贮与能量存贮和材料存贮比较
类别 │ 存贮方式 | 存贮载体
能量 │蓄能、转化 | 水库、蓄电池、燃料 (煤、油、天然气、核燃料等 )
材料 │承载、保管 |场地、运载工具等
信息 │记录、复制 |纸张文献、缩微品、磁盘、光盘等
由此决定了信息存贮及检索在方法上独具特点。
书本式文献的传统存贮方法是图书馆文献管理法,包括图书、期刊、专利、科技报告、政府出版物、技术标准、会议论文、学位论文、产品样本、档案十大情报源的分类 存贮,由这套系统决定的手检体系使文献分类处于核心地位,
文献号码或篇名、作者名等则是天然的补充要素,加上主题,构成手检时按分类、主题、号码、作者名检索的四大途径。
机读信息则以数据库 (Database)形式存贮。根据
ISO/DIS 5127(文献与情报工作术语),数据库是至少由一种文档( File)组成、能满足特定目的或特定数据处理系统需要的数据集合。文档在此即是信息处理单位,按其组织方式可分为顺排档( Sequential File,也称主文档,Master
File)、倒排档( Inverted File)等,前者是完整的顺序信息记录,后者则是将主文档中的可检属性抽出重排而派生出的数据记录。国际上通常根据数据库内容将数据库划分为三大类,A.
参考数据库 ;B.源数据库 ;C.混合数据库
在开始机检实体内容介绍之前,我们将机检与手检的差别作总体比较如下:
项目手检机检总体特征手翻、眼看、大脑判断策略、查寻、机器匹配标引及索引特点检索点较少检索点较多检索时间较慢较快检索要求专业知识、外语知识、检索工具知识专业知识、
外语知识、机检系统知识
查全查准率查准率较高查全率较高综合效率较低较高表 1.2 机检与手检比较
1.2 机检理论基础
信息存贮与检索是信息学中最活跃的研究分支之一,检索理论研究近年发展非常迅速,
涉及的问题有:检索系统、检索策略及其设计、
检索技术及其实现等。现将检索技术及其实现、
检索策略及其设计和描述检索效果的参数简介于下。
(1)检索技术及其实现
检索技术包括基本布尔逻辑组配、截词、
词位限制、检域限制等。
布尔逻辑组配是现行计算机检索的基本技术,主要通过 "和 (and,*)","或 (or,+)"、
"非 (not,-)"等将检索词联络起来,对A、
B两词而言其 AND,OR,NOT的逻辑含义用 Wienn图表示是:
AND A and B 逻辑与。 A和 B
都为真时,结果才为真
OR A or B 逻辑或。 A或 B中只要
有一个为真时,结果就为真
NOT A not B 逻辑非。 A为真,B
为假时,结果才为真
截词包括后截、中截、前截等。在 DIALOG系统中,用?作为截词符,主要包括下列情形:
符号 意义 实例
? 后截断,中截一字符 computer?; wom?n
后截一字符 computer
后、中截二字符 act; encyclopdia
后、中截三字符 computat
词位限制可以是相邻若干词、在同一句中等,
DIALOG系统所用位置算符例如:
用法 意义
A(nW)B A,B两词相隔 n词且前后次序不变符合检
出要求; n=1时即 A()B
A(nN)B A,B两词相隔 n词且前后次序不限符合检出
要求; n=1时即 A(N)B
A(s)B A,B两词只要在同一子字段中就符合检出要求
检域限制可针对特定年代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符,
对 DIALOG系统而言,前缀限制符例如:
AU= 限查特定作者
JN= 限查特定刊名
LA= 限查特定语种
PN= 限查特定专利号
PY= 限查特定年代
后缀限制符例如:
/TI 限在题目中查
/AB 限在文摘中查
/DE 限在叙词标引中查
后面在具体应用上述技术时还会详述。
2)检索策略及其设计
检索策略是对检索的全面策划,在操作上主要指数据库的选择和检索式的编制,前者取决于现有的数据库资源,后者则反映检索目标。
由于检索策略在机检中具有决定检出结果的重要地位,故编制和调整检索策略意义极其重大,其一般程序是,1)确定检索词和截、位关系 ;2)组配成式并优化 ;3)实检和反馈调节,
例如,对“微藻生长因子”这一课题来说,检索策略可编为:
(algae+algal+microalgal) * growth()factor
实检后调整(考虑提高检准率)、优化(低频词和关键词前置)为:
(microalgal+algae+algal)(s)growth()factor
(microalgal+algae+algal)(3n)growth()factor
又如,对“图象理解专家系统”这一课题,检索策略可编制为:
IMAGE()UNDERSTAND*(EXPERT()SYSTEM+A
RTIFICIAL()INTELLIGEN)
(3)描述检索效果的参数
主要有:查全率 (recall factor)、查准率 (也称适中率,Pertinency factor),漏检率
(omission factor),误检率 ( 也叫检索噪音,
noise factor)以及新颖率、检索速度等。
设 n为检索系统中文献总量,m为检索输出
的文献量,a为 n中与检索课题有关
的文献量,b为 m中与检索课题有关
的文献量 (检准文献量 ),则 n,m,a、
b之间的关系如图 1.1所示。
图 1.1 文献总量与检出文献之间的关系
令 R表示查全率,P表示查准率,M表示漏检率、
N表示误检率,则 R,P,M,N定义如下:
R=b/a*100%
P=b/m*100%
M=(1-b/a)*100% =100% -R
N=(1-b/m)*100% =100% -P
最理想的检索效果是 M,N均为 0,即 R,P
均为 100%,但实际上这是不可能的。
实验表明,R和 P之间存在相反的相互依赖关系,即提高 R会降低 P,反之亦然,
如图 1.2检索特性曲线所示。
有人认为:在物理、技术科学信息检索范围内,
P提高 1%将导致 R降低 3%。实践经验证明:在现代科技信息检索系统中,R为 60-70%,P为 40-
50%。同时,检索特性曲线还与文献专业特点有关,例如在具体概念为主、对象描写明确的化学等专业中,产生误检较少,特性曲线向右移;而在抽象概念多的心理学等领域中,特性曲线则向左移。此外特性曲线还与对查出的文献适用性的评价有关,若评价标准严格,则曲线编左;反之,曲线偏右。
对于检索来说,漏检是影响检索质量的最主要因素,故必须将 M 降低到最低限度;误检会降低检索的效率,也会影响检索质量。因此,
任何检索工具和检索系统必须力争克服漏检 (必要条件 ),同时尽量避免误检 (充分条件 )。
至于新颖率和检索速度,则可定义如下:
能检出的最近单位时间内发表的文献量
新颖率= ────────────× 100%
最近单位时间内发表的文献总量
检索输出的文献量 (m)
检索速度= ───────────
检索所用时间 (t)