本讲主要内容
? 信息检索概述 ( 信息检索系统体系结构, 信
息检索模型, 信息检索的发展 )
? 信息检索的技术与方法( 手工, 机械, 联机,
光盘, 网络信息检索 的技术与方法,基于文
本信息的网络信息检索系统, 搜索引擎, 网
络实名 )
? 系统的概念 ( 大学系统, 系统的类型及特点 )
? 信息系统的概念 ( 手工信息系统与计算机信
息系统, 基于计算机的信息系统 )
? 常见的四种企业信息系统 (事务处理, 管理
信息, 决策支持, 专家系统 )











第二章
信息检索 是根据特定的需求, 运用某种检索工具,
按照一定的方法, 从大量文献中查出所需的资料或
信息的过程 。
信息组织与信息检索是密不可分的 一对互逆过程 。
通常将按照用户需求而建立的, 提供了一定存贮与
检索方法及检索服务功能的一种相对独立的服务实
体, 称为 信息检索系统 ( Information Retrieval
system,IRS) 。
信息检索与信息检索系统
信息检索系统体系结构 (第 2章第 3讲)
信息集, 用户提问集, 信息集与用户提
问集的相似性匹配是信息检索模型的 三
要素 。
基于文本信息检索模型有 布尔逻辑检索
模型, 概率检索模型, 向量空间检索模
型 与 模糊检索模型 。
信息检索模型 (第 2章第 3讲)
?布尔逻辑检索模型 ( Boolean Retrieval
Model,BRM)是一种比较成熟、流行的检索技
术。
?逻辑检索的基础是 逻辑运算 。
?布尔逻辑 运算符 主要有, 与,,, 或,,, 非
”,分别用 AND(或 *),OR(或 +),NOT(或 -
)表示。例如,A,B是检索词,A AND B( A*B
)表示同时含有两个检索词才命中。
布尔逻辑检索模型 (第 2章第 3讲)
?概率检索模型( Probability Retrieval
Model,PRM),它建立在相关性理论基础上,
当文件按相关概率递减原则排列时可以获得最
大的检索性能。
?对相关性的不同理解可建立不同的模型,导出
不同的排序输出原则。
?相关性原理及排序原理是 PRM的核心和技术难
点。
概率检索模型 (第 2章第 3讲)
? 向量空间检索模型( Vector Retrieval
Model,VRM) 。它将文献与查询的匹配问题转
化为一个关于向量空间的计算问题,计算结果是
相似系数,然后将相似系数超过某一特定值的文
献作为检索结果输出,或按相似系数排列,输出
用户需要检出的文献篇数。
向量空间检索模型 (第 2章第 3讲)
模糊检索模型 ( Fuzzy Retrieval Model,FRM
)它是建立在模糊集合论、模糊逻辑及可能性理
论基础上来处理各种不确定性的一类模型。
将相关性用 0和 1之间的 t表示,0表示不相关,
1表示完全相关,t越大,相关性越大,被检索出
的可能性就越大。
模糊检索模型 (第 2章第 3讲)
信息检索的发展经历了 手工信息检索阶段, 机械信息检索阶段 和 计
算机信息检索阶段 。
计算机信息检索系统的发展经历了以下三个阶段,
?传统的批处理检索方式,这一阶段的数据存取与数据通信能力都比较
差。
?联机信息检索系统,如 OCLC在线数据库联机检索系统,这一阶段的特
点是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据
通信能力较差。
?网络信息检索 以互联网为标志,系统大多采用分布式的网络化管理;
信息资源主要以数字形式表达,以多媒体和多载体的形式出现;内容覆
盖全社会的各个领域,并且分布无序,难于规范化和结构化,用户界面
要求高等。
信息检索的发展 (第 2章第 3讲)
? 在手工信息检索过程中,目前主要使用的检索工具包括
,目录、索引、文摘、年鉴、手册、百科全书 等。
? 手工信息检索工具的排检技术主要有 字顺排检技术 (如
字典),分类排检技术 (如百科全书),主题排检技术 (
即以主题词来揭示信息素材记述的中心内容和对象),时
序排检技术 (如年表、年谱 ),地序排检技术 (按一定
时期的行政区域来排列信息素材的技术)。
? 手工信息检索方法有 序查法、倒查法、抽查法、追溯法
和循环法。
手工信息检索的技术和方法 (第 2章第 3讲)
? 机械信息检索最初时从简单的 穿孔卡片 逐步发展起来的
,继手检穿孔卡片之后,出现了机检穿孔卡片和选卡机,
这就形成了 机电信息检索系统 。随着大量信息用缩微胶卷
(片)存贮,出现了 光电信息检索系统 。
? 这种系统的一种检索方法是 寻址检索方式,也叫文献提
供系统,是将缩微品按文献号码排列,按号码检索文献,
然后将与该号码对应的画面显示在阅读者屏幕上。
? 另一种检索方法是 编码检索方式,是在缩微品上对画面
本身加以编码,以代表该文献所包含的主题内容,这些编
码可以由光电装置进行扫描,用以检索到相匹配的文献。
械信息检索的技术与方法 (第 2章第 3讲)
联机信息检索 (第 2章第 3讲)
? 联机信息检索 一般指信息用户利用终端设备,通过
通讯网络与世界各地的信息检索系统联机,进行人机对
话,从检索系统的数据库中查找出用户所需信息的全过
程。
? 联机信息检索的 优点 是检索速度快、传输范围广、
信息全面、实时性强等。
? 联机信息检索也存自身的 缺陷,主要有:主机负担
重,一旦出现故障,整个网络瘫痪;信息组织方式以线
性为主,不够灵活;操作不够方便。
光盘信息检索检索 (第 2章第 3讲)
? 光盘 是一种用激光来记录和再现信息的存贮载体。
? 光盘信息检索系统 由计算机、驱动器及连接设备、
CD-ROM数据库(光盘)及其检索软件构成。
? 使用 光盘信息检索的特点 是,1) 可免除联机检索系
统所必须使用的电讯设备,从而节省电讯费和联机系统
使用费,免除通信线路传输中所造成的失误。 2) 检索
软件向用户提供更方便的检索手段。 3) 光盘存贮容量
大、耐用、复制费用低,但与联机检索相比,信息资源
仍显得有限。 4) 可以把文本、图形、图像、声音及动
态图像结合在一起。 5) 在信息需求的适时性上,不如
联机检索系统。
网络信息检索检索 (第 2章第 3讲)
?网络信息检索的特点是,信息量更大、需要处理各种不同的
语言,信息检索的范围更宽,信息查询的时效性要求更高,
检索结果是检全率较高,而检准率较低。
网络信息检索有两层含义,
?一层是如何 提供网络信息检索服务,即如何对网络上的海量
多态信息进行组织、建立索引、并动态地维护索引;如何设
计检索算法,以提高检全率、检准率和响应时间;如何为用
户设计一个简单易用的用户界面。
?另一层是如何 使用网络信息检索,即如何结合使用网络上已
提供的各种检索工具,扬长避短,最后实现对用户信息提问
的检索查询。
基于文本信息的检索系统有,Archie(文档查询服务), Gopher(菜单
式检索服务), WAIS(广域信息服务)
?Archie是互联网上应用最早的基于文件名查找的信息检索工具,主要用
来查找分布在世界各地的 FTP服务器的特定文件,支持远程登录( Telnet
)、电子邮件 (E-mail),Archie专用客户软件三种方式的检索。
?Gopher是菜单式检索服务,当用户建立一个与 Gopher的连接后,它可以
显示一个供用户选择的, 菜单,,其中的选项通常是由一些简洁的、自解
释的英语短语所构成。 Gopher菜单中的每个菜单项都针对一个信息文件或
别的菜单,用户可根据菜单逐级检索。
?WAIS的特色在于检索的是文档的内容,在用户选定文档集合和内容后,
WAIS将在选定的文档集合中检索所有含有该主题内容的文档并显示之。
基于文本信息的 网络信息检索 系统
?搜索引擎 是一种在互联网上查找信息的工具,建立在信息采
集、信息组织的基础之上。
?搜索引擎的 工作原理 是:用户提出检索要求(检索范围和关
键词),搜索引擎代表用户在数据库中进行检索,并将检索结
果反馈给用户。
?WWW上功能强大的搜索引擎有很多,比较有影响的英文搜索引擎有
Yahoo (http://www.yahoo.com), Infoseek(http://www.infoseek.com),
Alta Vista(http://www.altavista.com), Excite(http://www.excite.com) 等,
中文搜索引擎有网易 (http://www.yeah.com),搜狐 (http://www.sohu.com)
,新浪 (http://www.sina.com.cn) 等 。
搜索引擎 (第 2章第 3讲)
?网络实名 是建立在自然语言基础上的全新互联网访问技术,
是建立在域名基础上的,不会影响到现有的网络基础技术,可
操作性强。
?3721是中国网络实名市场的开创者。 3721公司在技术力量、
产品开发上花大气力为企业上网、用网解决实际问题。它的网
络实名技术可以使客户在浏览器地址栏和各大搜索引擎上,直
接使用企业产品、商标、品牌名称等就能找到企业网站,获取
产品信息,这不仅为企业带来了有明确购买意图的客户,而且
提高了客户访问的商业价值,从而降低了营销成本,帮助企业
建立网上招牌,倍增无形资产,是中国众多企业信息化的, 数
字桥梁, 。
网络实名 (第 2章第 3讲)
?系统 是一系列相互作用以完成某个目标的元素或组
成部分的集合, 元素本身和元素之间的关系决定了
系统是如何工作的 。
?系统由 输入, 处理, 输出和反馈机制 构成 。
?系统边界定义了系统范围, 以便将本系统与其它事
物区分开来, 即与本系统的环境区分开来 。
?不同的系统有各特点, 可以按不同的特点来对 系统
分类 。
系统的概念 (第 2章第 3讲)
在 大学系统 中, 系统输入 是学生, 教师, 管理人员, 教科书
,装置等, 处理机制 是教学, 科研, 服务过程, 系统输出 是
受教育的学生, 有意义的研究, 和为社会提供的服务, 系统
反馈 是学生知识获得情况和科研水平等 。
2.5.1
学生知识获得情
况和科研水平等
反馈
学生、教师、管
理人员、教科书
、装置等
教学、科研、服
务过程等
受教育的学生、有
意义的研究、为社
会提供的服务等
输入 处理 输出
大学系统 (第 2章第 3讲)
系统可分为:简单系统和复杂系统;开放系统和封闭系统;静态系统和
动态系统;适应系统和非适应系统;永久系统和临时系统等 。
系统的类型及特点 (第 2章第 3讲)
类型 系统特点 类型 系统特点
简单 系统内组成部分较少,元素之间
的关系或相互作用简单直接。
复杂 系统内由许多高度相关的相互
关联的元素组成。
开放 系统与其所处的环境相互作用。 封闭 系统与环境无相互作用。
静态 系统随时间没什么变化。 动态 系统随时间快速而不断地变化
适应 系统可根据环境的变化而变化,
自动适应环境变化。
非适

系统不能随环境的变化而变化
永久 系统在很久的时间内存在 临时 系统只在短时间内存在。
?信息系统 是一种专门类型的系统, 是由计算机
硬件, 网络和通信设备, 计算机软件, 信息资源
,信息用户和规章制度组成的以处理信息流为目
的的人机一体化系统 。
?信息系统也有 输入, 处理, 输出 和 反馈 机制 。
?信息系统可分为,事务处理系统, 管理信息系
统, 决策支持系统, 人工智能与专家系统 。
信息系统的概念 (第 2章第 3讲)
“输入, 是 获取和收集原始数据的活动 。 输入内容包括信息资源的采集,
控制指令的输入, 信息检索条件的输入等等 。 要获取理想的输出, 精确
的输入是关键 。
,输出, 是 以文档, 报告或业务数据报告等形式出现的有用的信息 。 对
计算机而言, 打印机和显示屏幕是常用的输出设备, 输出还可以包括手
工书写的报告和文档等手工处理结果 。
,处理, 是 将数据转换成有用的输出 。 处理包括计算, 比较, 替换, 操
作, 存贮等 。 处理可以手工完成, 也可以由计算机辅助完成 。
,反馈, 是 一种用来改变输入或处理的输出 。 反馈回来的误差或问题可
以用来修正输入数据或改变某处理过程 。 反馈对管理人员和决策者也很
重要 。 反馈可对系统存在的问题做出反应, 并向管理者提出警示 。
信息系统的输入、处理、输出和反馈
?许多信息系统开始都是手工的, 然后逐步发展
为计算机信息系统, 以提高系统效率 。
?只是简单地将手工信息系统计算机化, 并不一
定能改进系统的性能, 如果正在使用的信息系统
是有缺陷的, 那么计算机化也只能是扩大这些缺
陷的影响而已 。
手工信息系统与计算机信息系统
基于计算机的信息系统 由硬件, 软件, 数据库, 远程通
信, 人员以及收集, 操作, 存储并将数据加工为信息的各种
过程组成 。
?硬件 是用来执行输入, 输出和处理活动的计算机设备 。
?软件 是计算机的各种程序, 包括系统软件和应用软件 。
?数据库 是事实和信息的有组织的集合 。
?远程通信和网络 可以将计算机系统连成高级的网络 。
?信息系统人员 包括所有管理, 运行, 编程, 维护计算机系统的人员, 用
户是所有使用计算机并从中得益的使用人员, 用户包括财务主管, 市场
代表, 制造人员以及许多其它人员, 一些计算机用户同时也是信息系统
的工作人员 。 人员是大多数计算机信息系统中最重要的元素 。
?过程 包括使用计算机信息系统的战略, 政策, 方法和规则等 。
基于计算机的信息系统 (第 2章第 3讲)
?事务 是所有与企业有关的交易。
?事务处理系统 ( Transaction Processing
System,TPS)是组织中用来记录完成企业交易的
人员、过程、数据库及多种设备的有组织的集合。
首先实现计算机化的企业事务处理系统之一是 工资
处理系统 。
?事务处理系统 的任务是:数据搜集、数据操作、
数据存贮和文档准备。
企业事务处理系统 (第 2章第 3讲)
工资转换处理
工作的
小时数
工资率
工资单
工资处理系统 (第 2章第 3讲)
?管理信息系统 ( Management Information System,
MIS)是用来为管理人员和决策者提供日常信息的人员
、过程、数据库和设备的有组织的集合。
?管理信息系统有不同的 子集 (子系统)出现在不同领
域,以满足不同职能的需求。
?管理信息系统主要关注企业的 经营效率,可以支持营
销(市场)、生产、财务和其它职能部门的工作,并将
这些部门通过一个公用数据库联系在一起。 如图
管理信息系统 (第 2章第 3讲)
营销管理
信息系统
制造管理
信息系统
财务管理
信息系统
其他管理
信息系统
事务处
理系统
公共数据库
企业管理信息系统 (第 2章第 3讲)
模型库 数据库
用户界面
?决策支持系统 ( Decision Support System,DSS)是在决
策者对某些问题做决策时,为其提供支持的人员、过程、数
据库和设备的有组织的集合。
?决策支持系统主要包括用于支持决策者或用户的模型集(模
型库),辅助决策的事实和信息集(数据库),以及帮助决
策者和其它用户与决策支持系统交互的系统和过程(用户界
面)。
决策支持系统 (第 2章第 3讲)
?人工智能 ( Artificial Intelligence,AI)是使计算机
系统具有人类智能特点的领域。 AI包括许多子域,如神经
网络、认知系统、知识工程、机器人学习、智能硬件和自
然语言处理等。
?专家系统 是基于知识的信息系统 ——人工智能( AI)的
一个子集。专家系统的作用就是使计算机能够像某个领域
专家一样提供建议。
?专家系统由用户界面、知识库、推理引擎和开发引擎组
成。
人工智能 与专家系统 (第 2章第 3讲)