本讲主要内容
? 信息组织概述( 信息组织的 任务, 过程,
形式 和 原则 )
? 信息的描述与揭示 ( 元数据,信息 著录,
信息 标引 和 标准, 通用标识语言及相关
标准 )
? 信息组织的技术和方法( 文件, 数据库,
主题树 和 超媒体方式 )
? 知识组织( 知识,知识 表示 和 知识组织
技术和方法 )











信息组织 是指按照一定的目标利用一定的规则、方法和
技术对信息的外部特征和内容特征进行揭示和描述,并
按给定的参数和序列公式排列,使信息从无序集合转换
为有序集合的过程。
信息组织的任务 就是从各种不同渠道收集到的信息,进
行加工整理,使之有序化,并存贮到相应的系统或介质
上,以备利用。
信息组织的基本对象 是信息的外部特征和内容特征。
信息组织的任务 (第 2章第 2讲)
?信息选择 。是从采集到的,处于无序状态的信息源中甄
别出有用的信息,剔除无用的信息。
?信息分析 。是指按照一定的逻辑关系从语义、语用和语
法上对选择过的信息特征进行细化、挖掘、加工整理并
归类的信息活动。
?信息描述与揭示 。是对信息资源的主题内容、形式特征
、物质形态等进行分析、选择、记录的活动。
?信息存贮 。是将经过加工整理后的信息按照一定的格式
与顺序存贮在特定的载体中的一种信息活动。
信息组织的过程 (第 2章第 2讲)
信息组织形式可按不同方式划分,
?按信息表现形式划分,有 文字信息组织 (包括文
字、符号、代码),图像信息组织、声音信息组织
和视频信息组织。
?按信息加工的程度划分,可分为 一次信息组织、
二次信息组织和三次信息组织。
?按信息的传播载体划分,分为 文献信息组织 和 非
文献信息组织 。
信息组织的形式 (第 2章第 2讲)
?一次信息组织 是直接记录人们研究或创造性活动成果
的过程。其结果为图书、论文、研究报告等,一般较
零碎、分散、无序,有时难获取,即使在网上搜索,
其查准率也非常低,逻辑相关性差。
?二次信息组织 是将信息从分散、无序到集中、有序化
的过程。其结果如目录、文摘、索引、数据库等。
?三次信息组织 是对信息进行分析、综合等深加工。其
结果为综述、报告、指南、百科全书、年鉴等,是文
献著者、编辑者、信息加工者的创造性劳动成果。
一次、二次、三次信息组织 (第 2章第 2讲)
?客观性原则 一方面是指要完整地、全局地、精确地反映
信息的客观特征,另一方面是指不断跟踪信息源的发展变
化和信息组织技术的发展变化。
?系统性原则 是指在信息组织过程中要坚持系统的观点和
方法进行信息组织工作的协调管理,强调信息组织的整体
效果。
?目的性原则 是指信息组织要有明确的目的性。
?现代化原则 是指思想观念现代化和技术手段现代化两方
面。
信息组织的原则 (第 2章第 2讲)
信息组织的质量和深度取决于对信息描
述的准确和揭示的深度水平, 为此, 人们创
造了多种技术, 方法, 规则和标准对信息进
行描述和揭示 。 这里主要介绍,
信息的描述与揭示 (第 2章第 2讲)
?元数据
?信息著录 与 标引
?网络信息资源描述的相关标准
?通用标识语言及相关标准
元数据 是关于数据的数据, 关于信息的信息, 是组织数
据, 各种数据域以及它们之间相互关系的信息 。
?元数据描述的 对象 包括各种不同资源类型, 如图书, 期刊
,磁带, 论文, 科技报刊及多种形式的网络资源等 。 描述的
成分 通常是从信息资源中抽取出来的用于说明其特征内容的
数据 。
?元数据用作信息资源的代替物组织检索系统 。
?信息描述的目的, 就是以元数据为中介, 对信息资源进行
各种操作 。
元数据 (第 2章第 2讲)
信息著录 是指在编制文献目录时, 对文献内
容和形式特征进行分析, 选择和记录的过程 。
? 著录的结果是 款目, 将一批款目按照一定的
次序编排而成的一种文献报道和检索工具是目录

? 款目 是一种文献的缩影, 目录 是一批文献的缩
影 。
信息著录 (第 2章第 2讲)
信息标引 是指分析文献的内容属性及相关外表属性
,并用特定语言表达分析出其属性和特征, 从而赋予
文献检索标识的过程 。
? 标引一般分两个环节, 一是 主题分析, 二是 转换标
识 。
? 标引语言 是表达文献主题概念和检索需求主题概念
的简明性, 单义性和关联性的概念标识系统, 是根据
标引和检索需要而编制的人工语言 。
? 标引语言有自己的 词汇和语法 。
信息标引 (第 2章第 2讲)
网络信息资源在资源类型, 结构, 形式, 描述环境,
描述主体等方面与传统信息资源不同 。 不同的信息资源描
述, 揭示和存贮, 对元数据格式的要求不同 。
现在用于 网络数据资源组织的元数据标准 有多种 。 主
要分为,
?MARC(Machine Readable Catalogue)机器可读目录
?Public Core ( 都柏林核心集 )
?VRA核心类目格式
?其它的元数据规范
网络信息资源描述的相关标准
1986 年, SGML ( Standard Generalized
Markup Language) 成为通用的描述各种电子文件
的结构及内容的国际标准, 为创建结构化, 可交换
的电子文件提供了依据 。 随着 Internet的广泛应用
,一种比 SGML简单易用的超文本标识语言 HTML(
Hyper Text Markup Language) 应运而生 。 由于
HTML过于简单, 于是一种即简洁, 功能又强大的
SGML新子集 —— 可扩展标记语言 XML( Extensible
Markup Language) 诞生了 。
通用标识语言及相关标准 (第 2章第 2讲)
SGML是一种元语言, 从结构和内容两个层次来描述文献,
其核心是 文档类型定义 DTD( Document Type Definition) 。
利用 SGML可以定义各种各样的标记语言, 定义一种标记语言的
方法是根据 SGML的规则制定 DTD文档, DTD文档规定了所定义文
档可能出现的置标及其组合规则 。
具体地说, SGML可以把来源不同的原始信息 ( 如图形, 文
本, 声音, 动画, 视频文件等各方面的资料 ) 组装在同一文件
中, DTD可以自由定义文件结构, 给一个文件添加新的标记,
以反映文件结构单元, 并校验电子文件是否遵循在 DTD种所定
义的结构 。 这种标记不依赖于任何软件和硬件 。
SGML语言 (第 2章第 2讲)
HTML是经过简化的 SGML的 DTD的具体应用实现 。
HTML不同于一般的 ASCⅡ 文件, 它在文件中增加了结构
的标记, 如头元素, 列表, 段落等, 并且提供了到其它文档
的超级连接 。
HTML是 Web上的通用语言, 可以方便地制作 网页, 建立
链接, 使数据信息由线性组织转化成网络组织 。
HTML着重描述 Web页面的显示格式, 这是 Web显示数据的
通用方法, 网页开发人员只能按预先定义的标签来描述网页
中的元素 。
HTML语言 (第 2章第 2讲)
XML是由 W3C于 1998年 2月发布的一种标准 。 它同样是
SGML的一个简化子集, 将 SGML的丰富功能于 HTML的易用性
结合到 Web的应用中, 以一种开放的自我描述方式定义了数
据结构, 在描述数据内容的同时能突出对结构的描述, 从
而体现出数据之间的关系 。
XML是一个 元语言, 根据不同的行业和语义, 可以派生
出许许多多的协议和规范 。
XML已发展成为一个比较独立完整的 知识体系, 包含丰
富的内容 。 从数据描述语言的角度看, XML灵活, 可扩展,
有良好的结构和约束;从数据处理的角度看, 它足够简单
且易于阅读 。 因此, XML必将带来下一代网络应用技术的革
命 。
XML语言 (第 2章第 2讲)
将信息按一定的规律进行有序排列的方法, 称为信息的
有序组织方法 。 这里着重介绍 网络信息组织的技术和方
法 。
按一切事物都具有形式, 内容, 效用三个方面的特征或
属性来划分, 网络信息组织方法 可归纳为 语法信息组织
方法, 语义信息组织方法, 和 语用信息组织方法 。
实际中, 有四种应用较为广泛的网络信息资源的组织方
法, 分别为,文件方式, 数据库方式, 主题树方式, 超
媒体方式 。
网络信息组织的技术和方法 (第 2章第 2讲)
?计算机处理的所有结果都能以文件的形式保存下来, 所以
对于图形, 图像, 图表, 声音, 音频, 视频等非结构化信
息, 利用文件系统进行管理是最方便的 。
?但也存在一些弱点, 表现在以下几个方面,难以平衡网络
负载与文件数量的关系, 对结构化信息组织显得软弱无力
,文件本身可看成信息单元, 需要作为对象来管理 。 所以
,文件方式常作为其它信息组织方式的补充 。
?Internet中的 FTP( File Transport Protocol) 是以文
件目录的形式来组织信息资源的 。
文件方式 (第 2章第 2讲)
数据库技术 是从计算机系统中文件系统的基
础上发展起来的对大量规范化数据进行管理的
一种技术 。
数据库处理 海量信息 的能力和优势, 使之
成为组织网络环境中堆积如山的信息资源的重
要方式 。 这种方法也存一些缺陷, 表现为,不
能提供数据信息之间的知识关系, 对用户和数
据库服务端都提出了较高的要求 。
数据库组织方式工作原理图
数据库方式 (第 2章第 2讲)
数据库组织方式将已获得的网络信息资源以固定的
记录格式存贮, 用户通过关键词查询, 可找到所需要的
信息线索 ( 即相关站点链接 ), 并通过信息线索直接连
接到相应的网络信息资源 。
客户端 服务器 数据库
浏览 启动相应的 应用程序 执行 SQL查询
输入检索 结构化查询
检索结果 检索结果
数据库组织方式工作原理图 (第 2章第 2讲)
主题树方式 就使将信息资源按照事先确定的概念体系
结构, 分门别类地逐层加以组织, 用户通过浏览地方式逐
层加以选择;层层遍历, 直至找到所需要的信息线索 ( 即
相关站点链接 ), 并通过信息线索直接找到相应的网络信
息资源 。
这种方法简单易用 。 信息检索按一定的范畴分类体系
,对用户而言, 目的性强, 查准率高 。 采用树形结构, 具
有良好的扩充性和系统性 。 这种方法的 缺陷 在于以下几方
面:必须事先建立一套完整的范畴体系, 不宜建立综合性
的大型网络信息资源系统 。
主题树方式 (第 2章第 2讲)
超媒体方式 来组织网络信息资源, 就是将网上所能获
得的各种媒体 ( 文本, 图像, 声音, 视频, 文件, 网页
,数据库等 ) 的相关信息资源利用超文本技术有机地编
织在一起, 使人们可以通过高度链接的网络结构在各种
信息库中自由航行, 找到所需要的任何媒体的信息 。
用这种非线性的方式组织信息符合人们跳跃性思维习
惯, 超越了媒体类型对信息组织与检索的限制, 是网络
信息组织的发展方向 。
超媒体与线性文本, 超文本, 多媒体的相互关系图
超媒体方式 (第 2章第 2讲)
线性文本 多媒体
超文本 超媒体
加大表现力
加大表现力












超媒体与线性文本、超文本、多媒体的相互关系图
知识 是经过整序和提炼的信息, 是系统化的信息 。
知识组织 是信息组织的高级形式, 是信息组织的发展方
向 。
? 知识 分 主观知识 和 客观知识 。
? 知识表示 是知识组织的基础和前提, 是指把知识客体
中的知识因子和知识关联表示出来, 以便人们识别和理
解知识 。 有 主观知识表示 和 客观知识表示 之分 。
? 知识组织技术与方法
知识组织 (第 2章第 2讲)
主观知识 存贮于人脑之中,它表现为复杂的人脑神经生理
与心理过程。
常见的主观知识表示方法有,
?逻辑表示法 它利用命题逻辑中的联结词符号建立演绎逻
辑系统, 可进行事实推理, 定理证明等运算 。
?产生式规则表示法 这式一种前因后果式的知识表示模型
,其规则式:, IF( 条件 ) THEN( 结果 ), 。
?语义网络表示法 是某领域知识概念之间关系的网式图,
由节点和弧构成 。 节点表示知识的基本概念 ( 知识因子 )
,弧表示节点间的联系 ( 知识关联 ) 。
主观知识及表示方法( 1) (第 2章第 2讲)
?框架表示法 一个框架由多个槽 ( slot) 组成, 每个槽
又由一个或多个侧面来描述, 若干槽共同描述框架所代
表的事物的属性及各方面的表现 。 框架的基本思想是根
据人们以往的经验和背景知识, 来推理当前事物的相关
知识 。
?面向对象的知识表示 面向对象的知识库管理系统通过
类, 对象, 方法和属性等面向对象的概念来描述各种复
杂对象及其行为知识, 从而很好表达了各种复杂的具有
动态和静态知识的对象 。
主观知识及表示方法( 2) (第 2章第 2讲)
客观知识 存在于各种类型的 文献 之中,具有
明确的知识因子和知识关联结构。
客观知识表示的任务 就是把文献中的知识因子
和知识关联用一定方式表现出来。
目前普遍采用的是 分类标引法 和 主题标引法 。
两者的基本原理相同,就是先编制引用词典,然后
把文献知识特征与词典中的标引词汇比较,最后把
相符的词汇用其代号表示出来。
客观知识及表示方法 (第 2章第 2讲)
? 分类法 和 主题法 是客观知识组织的基本工具 。
DDC是世界上使用最广泛, 影响最大的 体系分类法, DDC
把人类学科分为十大类, 每一大类下又分十小类, 层层划分
,形成一个等级严密, 层次分明的类目体系表 。
? 数据仓库 和 知识挖掘 是主观知识组织的基本工具 。
数据仓库 是面向主题的, 集成的, 稳定的, 不同时间的
数据集合, 用以支持经营管理中的决策制定过程 。 数据仓库
的组织过程由三部分组成, 它们依次是:数据抽取, 数据存
储和管理以及数据表现 。 其中数据的存贮和管理方式是知识
组织的关键 。
知识组织技术与方法 (第 2章第 2讲)