上海理工大学电子商务研究所
设计制作:王锡俊
网络信息检索
第 一 章
第一章 网络信息膨胀与信息
膨胀问题的解决
1.1 信息与网络信息
1.2 网络信息膨胀及其带来的负面影响
1.3 信息膨胀问题产生的原因分析
1.4 解决信息膨胀问题的基本思路
1.1 信息与网络信息
1.1.1 信息概述
1.1.2 网络信息
1.1.3 网络信息与非网络信息的比较
1.1.1 信息概述
? 为了科学地理解信息的本质, 必须区分信息, 消息, 信
号, 符号的不同涵义 。 信息与信号, 符号, 消息在科学
涵义上是根本不同的 。 信号是携带信息的各种物理过程,
同一信息可以用各种信号来携带和传递;符号则是语言,
文字, 图像, 密码, 指令, 程序等的统称, 是人类用来
表示信息的各种标志, 是非物理性的, 同样的信息也可
以用不同的符号来表征;各种信号都可以与某种符号集
合建立起对应关系;信号系列和符号系列构成了消息,
消息是信息载体或表达者, 消息和信息是形式和内容的
关系 。 所以, 信息是一个社会概念, 它是社会共享的,
人类的一切知识, 学问以及从客观现象提炼出来的各种
消息的总称, 信息反映了客观世界中各种事物的特征和
变化的组合, 是一种有用的知识 。
信息具有以下几方面的特性:
1,普遍性
? 普遍性是指从空间分布上讲,信息是无处不在的。信息
普遍存在于自然界、人类社会以及人类的思维或精神领
域;从时间上讲,尽管具体的某个信息是有时效的,但
是由于人们对世界的认识是无限的,因此,就整体而言
信息是无限的。从社会学的角度看,信息一开始就直接
联系于社会应用,真正意义上的信息离不开社会。
2,时效性
? 具体的信息都有时效性。在某一特定时刻所获得的关于
某一事物的信息仅仅反映了这一时刻事物自身所处的状
态和环境状况,一般不能反映事物这一时刻之后所产生
的问题。时效性是信息的重要特征。
3,传递性
? 信息可以脱离开某一具体事物而载荷到别的事物 上,从
而可以被转移、被复制、被记录、被存储、被传送。信
息的这种特性使信息借助于一定的载体从一地传递到另
一地,在人们之间进行传播,从而实现信息巨大的潜在
效用。
4,可替代性
? 信息的物质载体形态是可以互相转移变换的。即指信息
的描述可以有多种不同的方法,这些不同的描述方法之
间只需保持某种对应关系,这种对应关系称为信息变换
关系。
5,可转化性
? 信息中包含有知识,使人们对某个事物的运动状态和其
变化方式由不了解到了解,使知识由少变多。由此,人
们利用信息就可以提高工作效率的质量,从而降低经济
成本。因此说,信息的这种可转化的特性,是信息被正
确利用所产生的社会和经济效益的依据。
6,共享性
? 信息可以同时为众多的接收者共同使用。在信息的扩散
和用户分享信息的过程中,信息载体本身的信息量并不
因此过程而减少,各用户分享的信息不因分享的人的多
少而受影响。这是由于信息不是事物本身,而是事物运
动状态及其变化的描述,信息可以脱离开产生它的那个
事物,从而可以实现信息的转移、传播和复制,达到信
息的共享。
? 人类生存与发展离不开信息。信息是人类进化和社会发
展中一种不可缺少的前提和推动社会进步的重要因素,
信息的根本作用在于消除人们认识的不确定性和增强世
界的有序性。
? 信息的运行环境,直接影响着人类利用信息的程度。随
着现代信息技术的不断发展进步,先进的信息技术被广
泛应用,促使信息的运行环境、管理技术逐步现代化。
计算机技术、电子技术、通信技术在信息的搜集、存储、
加工、传递、交换、管理等方面的普遍应用,从根本上
改变了信息的存取与传播方式。计算机、网络已成为传
播文化知识,获取信息资源的重要手段。
1.1.2 网络信息
1,互联网的产生与发展
? 互联网的出现是 20世纪最伟大的科学成就之一,其发展
速度远远超过世界上其他科学技术的发展速度。互联网
与它所负载的海量信息,正在对社会经济生活、对人们
的价值观念和生存方式产生着强烈的冲击。
? 互联网最初起源于 ARPAnet(阿帕网)。目的是通过该
网络把美国的几个军事及研究用计算机主机联接起来,
形成一个新的军事指挥系统。 1981年,美国全国科学基
金会开发了有五个超级计算机中心相连的网络。当时的
全国许多大学和学术机构把已经建成的一批地区性网络
与五个超级计算机中心相连,形成了一个新的大的网
络 —— NSFnet,该网络上的成员之间可以互相进行通讯,
从而开始了互联网真正发展的阶段。
? 采用 Internet的名称是在 MILnet(由 ARPAnet分出来)
实现和 NSFnet连接后开始的。随后,其他联邦部门的计
算机网相继并入 Internet,NSF巨型计算机中心则一直肩
负着扩展 Internet的使命。
? Internet在 20世纪 80年代的扩张不单有量的改变,也带来
质的某些变化。由于多种学术团体、企业研究机构、甚
至个人用户的进入,Internet的使用者不再限于“纯粹”
的计算机专业人员。新的使用者逐步把 Internet当作一种
交流与信息传递的工具,而不仅仅只是共享 NSF巨型计算
机的运算能力。
? 1991年,General Atomics,Performance Systems
International,UUNet Technologies 等 3家公司组成了
“商用 Internet 协会”( Commercial Internet Exchange
Association),宣布用户可以把它们的 Internet子网用于
任何的商业用途。其它 Internet的商业子网也看到了
Internet用于商业用途的巨大潜力,纷纷做出类似的承诺,
Internet商业化服务提供商的接连出现,使工商企业可以
真正地进入 Internet。
? 大量商业机构的进入带来了 Internet发展史上一次质的飞
跃。到 1994年年底,Internet已通往全世界 150个国家和
地区,联接着 3万多个子网,320多万台计算机主机,直
接的用户超过 3500万,成为世界最大的计算机网络。
? 数据库技术的发展,特别是分布式数据库技术的进步使
得大量的信息内容被放入计算机网络,从而使得人们能
够迅速地从网络上检索和得到他们所需的信息。特别是
环球网技术的出现,人们可以使用超文本格式把文字、
图像等信息汇于一体,放入数据库中,极大地丰富了互
联网中的信息资源。
? 目前,互联网上的信息涉及到现代社会生活的各个方面。
通过信息在网上的传播,人们可以方便地从互联网上获
取各种不同需求的信息。对于企业来说,可以从互联网
上获取市场信息,还可以通过创建本企业的主页
( Homepage),在网上发布企业信息,宣传企业形象,
推销企业产品,进行技术支持和售后服务等。
2,网络信息的类型、特点与传播方式
? 信息可根据其载体形式和传递方式分为文献信息和网络
信息两大类型。文献信息是指传统的介质(纸张)和现
代介质(如磁盘、光盘、缩微胶片等)记录和存贮的知
识信息。文献信息的载体形式主要有图书、报纸、期刊,
政府报告、会议资料以及光盘资料和缩微资料等。文献
信息资源具有较强的系统性、连续性和稳定性特点。网
络信息一般可以理解为“通过计算机网络可以利用的各
种信息”,即通过国际互联网可以利用的各种信息,它
包括:科技数据库、时事评论、社会科学、文学艺术、
历史资源等方面丰富的文献资料和一些公用软件。网络
信息具有内容的广泛性、访问的快捷性、搜索的网络性
和资源的动态性等特点。
( 1)网络信息的类型
1) 按信息的时效分类:
? 网上出版物。即在网上出版的报纸,期刊等。
? 动态信息。如政府机构发布的消息、政策法规、会议消
息,以及论文集、科研成果、产品目录、新闻及广告、
交通、股市行情等。
? 联机馆藏书目数据库。在互联网中,图书馆目录正发展
成为 OPAC( Online Public Access Catalog,即联机公
共目录检索系统)。已有上万个电子图书馆的馆藏机读
书目数据库,包括大学图书馆、公共图书馆和专业图书
馆的馆藏。
? 联机数据库。许多国际联机检索系统都开设了与互联网
的接口,用户通过远程登录或互联网均可进行检索。
2)按所对应的非网络信息分类:
? 馆藏书目数据库。
? 电子书刊。即完全在网络环境下编辑、出版、传播的书
刊,以及印刷型书刊的电子版。
? 参考工具书。这是一些传统的和现代的参考工具书的网
络版。如大不列颠百科全书、牛津大辞典等。
? 数据库。指联入互联网的数据库,数据库的内容涉及不
同领域和不同专业。
? 其他类型。如个人主页、电子邮件、电子公告、新闻组、
用户组等也成为信息交流的重要渠道,并成为网络信息
的重要组成部分之一。
3) 按人类信息交流的方式分类:
? 非正式出版信息。如电子邮件、电子会议、专题组和论
坛、电子公告板新闻等。
? 半非正式出版物。一些无法从正式出版物查询到的信息。
如各种学术团体和教育机构、企业、国际组织和政府机
构、行业协会等的网址或主页上发布的信息。
? 正式出版物。即用户可以查询到的各种数据库、联机杂
志、电子版工具书、报纸、专利信息等。
4) 按信息存取方式分,可分为邮件型、揭示板型(如网络
新闻、匿名 FTP等)、广播型、图书馆型以及书目型。
从网络信息检索角度,按信息查询方式对网络信息进行分类:
1) 互联网( WWW)信息。互联网上的信息是分布于网络各
处的文字、图像、声音和多媒体超文本信息。由于检索方
便、灵活、快捷,因此,发展迅速,已成为互联网信息的
主流。
2) FTP信息。 FTP以发布、传递软件和长文件见长。
3) Telnet信息。使用 Telnet用户可以使用远程计算机上对外开
放的信息资源,尤其是图书馆目录系统。
4) USENET/Newsgroup信息资源。 USENET利用网络环境,
为用户提供专题讨论服务。
5) USTSERV/Mailing List 信息。即电子邮件群和邮件列表。
6) Gopher信息。是一种类似互联网的分布式客户机 /服务器
形式的信息资源体系。
( 2)网络信息的特征
1) 数据量大,增长迅速。
2) 内容丰富,形式多样。互联网已发展成为当代信息存储
与传播的主要媒介之一,存储着不同学科,不同领域、不
同地域、不同语言的各种信息,是一个巨大的信息资源
库。
3) 变化快,质量参差不齐。互联网上的信息地址、信息连
接、信息内容均具有动态性,信息资源的更迭、消亡无
法预测。
4) 信息分散、无序。互联网是一个基于 TCP/IP协议的联结
各国、各机构数以万计的计算机网络的通信网,对网络
信息资源本身的组织管理无统一标准和规范,网络信息
分散于不同国家、不同地区服务器上,采用不同的操作
系统及数据结构,字符界面、图形界面、菜单方式、超
文本方式等缺乏集中统一的管理机制。
( 3)网络信息的传播方式
1) 利用环球网传播图、文、音并茂的信息。
2) 利用电子邮件传播信息。
3) 利用远程登录( Telnet)使用远程计算机的有关信息资源。
4) 利用网络论坛 Usenet传播信息。
5) 利用 FTP传播信息。
3,中国网络信息用户使用分析
? 到目前,全世界互联网上的用户已超过 6.5亿。 20世纪 90
年代初,互联网进入中国。从 1997年到 2002年,上网用
户总数已从 62万人达到 5910万人,增长了 94.3倍。截止到
2002年 12月 31日,中国 WWW站点数为 371600个,和
2001年同期相比增长 34.1%。
? 在我国,网络用户的范围十分广泛,年龄和受教育程度
有着很大的差别,知识结构、认知能力也不相同;上网
的目的和利用网络信息的种类也存在明显的差异。
年 龄 18岁以下 18--24 25--30 31--35 36 --40 41-- 50 50岁以上
比重( %)
1997年 10月
5.60% 36.30% 29% 13.20% 4.3% 6.80% 4,80%
比重( %)
2003年 1月
17.5% 10.2 % 14.9% 16.5% 14.4% 16.7% 9.8%
( 1)用户年龄分布
从 1997年 10月到 2003年 1月,中国互联网用户人数已从 62
万发展到 5910万,其年龄分布如表 1-1。
表 1-1 中国互联网用户的年龄分布
资料来源:中国互联网络中心,中国互联网络发展状况统计报告,
因特网, http://www.cnnic.net.cn
( 2)用户性别统计
1998 年 7 月 92.80% 7.20%
1999 年 1 月 86% 14%
1999 年 7 月 85% 15%
2000 年 1 月 79% 21%
2000 年 7 月 74.68% 25.32%
2001 年 7 月 61.30% 38.70%
2002 年 1 月 60% 40%
2002 年 7 月 60.90% 39.10%
2003 年 1 月 59.30% 40.70%
男 女
性别
年份
资料来源:中国互联网络中心,中国互联网络发展状况
统计报告,因特网, http://www.cnnic.net.cn
从右表可以看出,女性用
户 1999年 1月比 1998年 7月
增长 100%,而 2003年 1月
已增至四成以上。中国女
网民的增加非常明显。一
方面说明近几年来中国女
性对互联网的关注在增多,
另一方面也说明中国女性
的知识层次和收入水平也
在提高。充分利用这方面
的信息,有利于女性市场
的开拓。
表 1-2 中国互联网用户的性别统计
( 3)用户文化程度
? 在中国互联网用户的文化结构中,从 1999年到 2003年,
大专、本科学历的用户占 60%左右,且变化不大。这说
明,在中国,上网用户主要集中在学历层次较高的人群
中。另外在上网用户中高中及高中以下学历的占 10%左
右,它比高学历人数(硕士、博士)还要高出 5-10个百分
点,原因是这部分人大多比较年轻,有很强的求知欲和
接受能力。相比之下硕士、博士学历的上网人数仅占到
不足 3%,可见,高学历人才在我国数量还很少,这部分
人是我国目前很缺乏的人才。他们大多是从事科研、教
育的工作者,上网的目的也多是为了获取科技、经济、
教育等方面的信息。这也反映出网络没有为高层次人才
提供足够的有用信息,不能满足他们的需求,这是网络
信息亟待解决的问题之一。
( 4)用户行业分布情况分析
公共管理和社会组织 12.50% 邮政业 0.80%
交通运输、仓储业 4.70% IT业 10.30%
批发和零售业 11.80% 金融业 6.10%
餐饮业 1.20% 房地产业 1.60%
居民服务业 4.10% 娱乐业 1.00%
旅游、旅馆业 1.00% 咨询服务业 2.30%
广告业 1.00% 卫生、社会保障、社会福利业 3.00%
租赁等其它商务服务业 1.40% 文化艺术业 1.00%
体育业 0.20% 教育 10.60%
专业技术服务业 1.90% 建筑业 3.90%
制造业 11.10% 环境和公共设施管理业 0.40%
农、林、牧、渔业 1.70% 科学研究 1.00%
采矿业 0.80% 地质勘查业 0.10%
水利管理业 0.10% 其它 0.20%
国际组织 0.20%
新闻、出版、广播、电视、
电影和音像业
1.10% 2.90%
电力、燃气及水的生产和
供应业
表 1-3用户的行业分布(不包括军人、学生和无业人员)
资料来源:中国互联网络中心,中国互联网络发展状况统计报告,因特网, http://www.cnnic.net.cn
国家机关、党群组织
工作人员
8, 0 0 % 专业技术人员 1 5, 7 0 %
企事业单位管理人员 8, 9 0 % 教师 6, 2 0 %
办事员等协助人员 1 0, 3 0 %
农、林、牧、
渔工作人员
1, 0 0 %
商业、服务业人员 1 0, 3 0 %
生产、运输设
备操作人员及
有关人员
6, 2 0 %
军人 0, 9 0 % 无业 4, 0 0 %
学生 2 8, 0 0 % 其它 0, 5 0 %
表 1-4 用户的职业分布
资料来源:中国互联网络中心,中国互联网络发展状况统计报告,因特网, http://www.cnnic.net.cn
( 5)用户上网目的
? 从 CNNIC 1999年 7月 ~2003年 1月以来的统计报告看,占
用户上网目的第一位的是查询信息,占用户的 50%左右。
之外主要是用于学习、工作需要及获得各种免费资源等
目的的占到了用户总数的 14%左右。所以,在网民中广
泛普及、推广网络信息查询技术,最大限度地利用网络
信息资源,应当成为我国推进信息化建设的一项极为重
要的工作。
( 6)用户最常使用的网络服务
? 网络服务主要是指互联网提供的一些基本服务,如电子
邮件,专题讨论,远程登录,信息发布,文件传输和信
息检索等。在 1999年 7月 ~2003年 1月 CNNIC发布的统计报
告中电子邮件始终排在第一位,2003年 1月调查显示为
92.6%的用户常用这一服务。搜索引擎排在第二位,有
68.3%的上网用户常用这一服务,排在第四位的是各类信
息查询,使用这项服务的用户占 42.2%。这说明,互联网
已经成为继报纸、广播、电视之后,很重要的信息传播
媒体。
( 7)用户在网络上主要获取哪方面信息
信息种类 比重 信息种类 比重
新闻 42% 新闻 78%
计算机软硬件信息 5 3, 4 0 %
休闲信息 2 4, 8 0 % 休闲娱乐信息(体育、
音乐、艺术等)
4 4, 6 0 %
电子书籍 3 2, 6 0 %
科技信息 8 0, 4 0 % 科教信息 3 0, 1 0 %
金融信息 3 2, 8 0 % 金融证券、房地产信息 1 1, 0 0 %
求职招聘信息 2 2, 1 0 %
商业资讯 3 9, 6 0 % 商贸信息 7, 5 0 %
旅行、交通信息 7, 6 0 %
各类广告信息 5, 8 0 %
医疗信息 4, 9 0 %
交友征婚信息 2, 9 0 %
法律、法规、政策信息 8, 5 0 %
其它 0, 7 0 %
一
九
九
七
年
十
月
二
0
0
二
年
七
月
表 1-5 用户在网络上主要获取信息的比例
资料来源:中国互联网络中心,中国互联网络发展状况统计报告,因特网, http://www.cnnic.net.cn
1.1.3 网络信息与非网络信息的比较
1) 信息的发布。与非网络信息相比,网络信息的数量多,
质量也较难控制。
2) 信息的传播。随着光纤技术、交换技术的发展和网络的
迅速普及,使通信速度迅速提高而通信费用显著下降。
这使得计算机网络正在成为人们重要的通信工具,通信
的快速、廉价使人们能够获得超地域的相互沟通能力,
极大地扩大了人们的联系。
3) 信息的变化频率。网络信息,包括信息地址、信息链接、
信息内容经常处于变动之中,非网络信息一般变化较慢。
4) 信息的扩充性。指已发布的信息的扩充性。非网络信息
一经出版,就有了固定的样式,一般较难加以扩展和扩
充,而网络信息则可以根据实际需要,随时加以扩充。
5) 形式多样性。网络信息在形式上包括了文本、超文本、
图像、声音、软件、数据等多种形式;在存取与利用方
法上也具有多样性。这也是与非网络信息的一个很重要
的区别。
6) 关联程度。非网络信息的关联能力较差,主要通过参考
文献、引用文献等方式来进行关联,而网络信息可以利
用超文本技术,通过链接方式直接指导用户去查阅所引
用的原始文献。
1.2 网络信息膨胀及其带来的
负面影响
1.2.1 网络信息膨胀的含义及表现
1.2.2 信息膨胀带来的负面影响
1.2.1 网络信息膨胀的含义及表现
1,信息膨胀和网络信息膨胀的含义
? 信息量与信息价值存在着正比关系,即信息越多,从中
获得的价值越大。信息量与信息价值的正比关系存在着
一个临界点,到达临界点之后,信息量越大,总体价值
却反而开始降低,这就是信息膨胀。信息膨胀问题已经
成为我们生活中难以避免的一个问题。
? 网络信息膨胀是指网络信息随着现代信息技术的发展急
剧增加,过量的“垃圾”信息充斥网络站点,网络信息
的检索成本不断上升,网络信息自身的价值随着网络信
息量的增加而贬值,二者呈现出反比关系。
2,网络信息膨胀的表现
1) 信息失实
2) 信息冗余
3) 信息超载
4) 信息过时
5) 淫秽信息
6) 电脑病毒
1.2.2 信息膨胀带来的负面影响
1,查询时间延长
2,经济损失严重
3,查询结果不理想
1.3 信息膨胀问题产生的原因分析
1.3.1 信息本身在急剧膨胀
1.3.2 网络信息的传播方式导致信息膨胀
1.3.3 网络信息的发布方式导致信息膨胀
1.3.4 法律规范的滞后导致信息膨胀
1.3.1 信息本身在急剧膨胀
? 世界各地的信息通过各种渠道快速的相互传播,全球的
各类信息量都在成数十倍数百倍甚至更多的数量增长。
在这一过程中,大量冗余的、无价值的信息混杂在各类
信息当中。在全球信息系统中,信息垃圾比例不低于
50%,有的学科领域甚至占到 80%!同时,由于科学技
术飞速发展,知识更新速度不断加快,知识老化现象明
显。此外,虚假信息传播者有意识地传递的虚假错误信
息,误导、诱骗消费者;甚至还有一些无从证实的传闻、
流言、诽谤等恶意传递的污垢信息;所有这些都充斥在
信息社会中,成为人们信息处理的负担。
1.3.2 网络信息的传播方式
导致信息膨胀
? 传播速度快、范围广,是网络传播的最大特点,也是其
最大的优势,然而,又反过来造成了信息的膨胀和过剩。
信息作为一种产品,其最大特点是复制成本极低。并且
在绝大多数情况下,信息产品具有非排他性,具有一定
的公共产品的特征。另一方面,影响信息产品扩散的还
有信息的传播成本,互联网的出现使信息的传播成本也
得到了大幅度的降低。
网络外部性( Network Externalities)
? 网络外部性是指一件产品由于其他相同产品的使用而获
得额外的价值。在互联网领域里,网络的外部性表现的
十分明显,特别是在一些侧重与交流的虚拟社区类的网
站中:网站每“销售”出一件信息产品,它就同时获得
了在未来“销售”更多产品的可能。通过对网络外部性
的内部化,使互联网有可能表现出边际收益递增的特征。
并且网站的交互性越强,这种边际收益递增就越明显。
边际收益递增的信息生产也导致了互联网信息产品的生
产过剩。信息过剩不仅仅是过剩,与之相伴随的还有信
息的质量问题,信息的信用问题等等。这些对于互联网
的发展都带来了不利的影响,又反过来对信息使用者带
来不便。
1.3.3 网络信息的发布方式
导致信息膨胀
? 互联网可以使人人都成为出版人。一方面是在互联网上
发表一篇文章,由于占用的磁盘空间少,使发布信息的
成本很低,这使得任何人都可以在网上发表自己的作品
或资料,而不会有什么发布上和经济上的困难,这种信
息发布的便利性使得网络信息的数量迅速增加。另一方
面,在互联网上发表任何文章不需要经过任何人或部门
的审查和批准。由于这两方面的原因,各种任意夸大、
缩小、捏造、剪辑、畸弯、拼凑、克隆得到的信息,低
水平重复、老化失效、无限泛滥和内容不健康的无效信
息都可以不受限制的在互联网上发布,这就使得网络信
息的真实性和可靠性无法得到保障。
1.3.4 法律规范的滞后导致信息膨胀
? 法制规范的滞后,使得各类网站的建设无法可依,信息
发布处于无序状态,重复信息、无用信息充斥网络,造
成大量信息失实、冗余、超载,信息膨胀问题严重。
? 一个健全的网络法律体系应该包括通信与信息服务,电
子商务和知识产权等各方面。在涉及的信息内容方面,
应包括信息采集、处理,互联网信息、电子出版新闻等;
在网络信息安全方面,包括信息网络安全、信息网络保
密、电子签名与认证等 ; 既要制订管理性的法律法规,又
要制订促进信息技术发展的法律法规。
1.4 解决信息膨胀问题的基本思路
1.4.1加强网络信息检索新技术的开发
1.4.2网络信息检索机制及应用的研究
1.4.3 本书网络信息检索的解决办法
1.4.4预期达到的效果
1.4.1加强网络信息检索新技术的开发
1,发展自然语言处理技术
? 自然语言,是指作者的书面用语,采用自然语言。可以
减少概念间转换产主的误差,检索入口词多,操作简单、
方便、灵活,也适合专业人员之外的广大用户群。
? 对自然语言进行适当控制的方法有事先控制法和事后控
制法。
? 由于各种数据库采用的检索语言不同,试图用一种检索
语言统一各种数据库的不同分类体系及叙词法是不现实
的。采用中介语言来实现多种语言的兼容是一种新的尝
试。
? 通过标准化手段实现各种检索语言的兼容也是一种尝试。
标准化是检索语言兼容的最高层次。
2,大力发展智能化检索技术
? 智能化是网络信息检索工具的发展方向。实现检索手段
智能化的技术主要包括:
? 蜘蛛( spiders)软件的智能化。它可以对网页上文献的
相关性及其所含链接的质量作出判断,筛掉不相关的网
页。
? 智能搜索引擎技术(如 Ask Jeeves)。其功能是:先通过
模拟传统检索过程的咨询协商,索取有关检索数据,再
到大型知识库中进行检索。
? 智能搜索引擎还具有推理能力、调整用户检索策略、提
高检索效率和提供用户定制服务等功能。
3,建立以用户为核心的技术服务模式
? 对现代信息技术的深层次开发,创建和支持以用户为核
心的技术服务模式,是网络检索服务研究的重要内容。
?,推”技术,是指根据网上用户个人需求的特征,运用
“筛选”、“过滤”机制。将信息不断、主动地提供给
用户的一系列软件技术的总称。
? 网络信息的查询是一个设计、发现、归纳、总结的过程。
信息的获取,除了必要的技术条件外,还必需有相应的
检索方法与之配合。
? 开展网络环境下的信息检索方法研究就成了一项非常的
重要的工作。这项工作做好了,我们就可以建立一套从
实际需要的角度出发,以一定的查询目的为起点,通过
多种检索途径获取所需资料的方法,更快、更多、更准
确地在网络上获取信息,尽可能的减少或避免信息膨胀
所带累的负面影响。
1.4.2网络信息检索机制及应用的研究
? 针对 WWW网站资源的组织过程与方式,理论界提出了
检索机制的三个组成部分,即采集标引机制、数据组织
机制和用户检索机制。其中,以 Robots为核心的网络信
息资源自动采集,旨在以 HURL,HTTP为基础,集中不
同类型的信息产品,使全球范围内的各种信息资源能实
时及时地进入信息系统。
? 自动采集机制提供的网页样本,为网络检索工具的量化
标引、量化评价提供理论根据。数据组织机制以数据采
集为依据,直接对网上索引数据库系统的动态维护与管
理产生影响。用户检索机制涉及用户界面友好、检索策
略的合理程度、检索执行以及检索结果的相关性处理等。
? 目前,用户可以直接使用的网络检索方法已有很多种类。
现有的检索方法按照信息内容组织方式可以划分为分类
范畴搜索引擎和词语搜索引擎两大类。按照专业范畴可
以划分为通用性和专业性查询引擎两类。按照检索功能
划分为常规(或单一)查询引擎与多元查询引擎。此外,
从功能角度可划分为目录式、索引式、指南式三大类。
? 网络信息检索工具的优劣主要集中在系统功能设置、用
户界面、数据库内容结构与更新,以及对国内外搜索引
擎的准确性、易用性,可选择性、检索效果等方面。对
信息检索工具的评价主要是对数据库资源和搜索引擎性
能的评价。网络信息还应当使用户了解信息发布的权威
性、信息的广度与深度、主页链接的可靠性、版面设计
质量、信息时效性,主页的可操作性以及读者对象等。
? 在网络信息检索策略方面,网上各类型搜索引擎所采用
的检索策略除个别特定符号规定外,大部分都认同布尔
逻辑、截词手段、相邻度检索、位置逻辑检索、字段检
定、加权检索以及自然语言检索、相关信息反馈等的使
用。全面了解这些策略对检索入门至关重要,但灵活运
用则主要取决于用户的直觉、经验和逻辑思维。用户可
以采用网上各种搜索引擎规定的特定检索策略标记符号
及组配原则,利用不同的搜索引擎,浏览、查询自己需
要的信息。应根据不同的搜索引擎的特点选用搜索引擎。
如一般性查询选用 Yahoo,自然语言查询用 Infoseek,不
确切知道关键词时用 excite进行概念检索,全文检索用
Open-Text和 excite,反向检索用 WebCrawler,短语检索
用 Open-Text,查询期刊论文选用 The Electric Library
等。
1.4.3 本书网络信息检索的解决办法
? 首先,为用户设计一个网络信息检索体系,为不同用户
设计不同的信息检索方法,包括网络信息检索的基本原
理和方法,网络信息搜索工具和计算机信息检索系统。
? 其次,介绍相应的网络信息处理技术,包括信息获取技
术、信息推送技术和数据挖掘技术。同时,介绍搜索引
擎的基本原理。
? 再次,对用户已经获取的网络信息进行管理。从信息资
源组织、信息平台协调、用户及其权限管理、安全防范
策略等方面进行集成化协调管理,包括网络信息管理的
基本技术、个人数据库的建立、网络信息的整理和个人
网络信息查询系统的设计。
? 最后,从普通用户、科研用户和企业用户的不同需要出
发,列举不同用户不同目的的检索实例。
1.4.4预期达到的效果
? 希望通过本书网络信息检索方法的介绍,读者能够在进
一步了解网络信息和网络技术发展现状的同时,掌握网
络信息检索的技术和方法,学会从自身的需要出发,从
所需信息本身的特点出发,通过合理设计检索方案和途
径,利用现有的检索工具,充分发掘网络信息资源,在
较短的时间里获取有价值的相关信息,克服网络信息膨
胀给我们带来的时间上、经济上和查询效果上的不利影
响,使我们在信息爆炸的时代里能够更充分更高效地寻
找信息、利用网络,而不是被信息所淹没。
设计制作:王锡俊
网络信息检索
第 一 章
第一章 网络信息膨胀与信息
膨胀问题的解决
1.1 信息与网络信息
1.2 网络信息膨胀及其带来的负面影响
1.3 信息膨胀问题产生的原因分析
1.4 解决信息膨胀问题的基本思路
1.1 信息与网络信息
1.1.1 信息概述
1.1.2 网络信息
1.1.3 网络信息与非网络信息的比较
1.1.1 信息概述
? 为了科学地理解信息的本质, 必须区分信息, 消息, 信
号, 符号的不同涵义 。 信息与信号, 符号, 消息在科学
涵义上是根本不同的 。 信号是携带信息的各种物理过程,
同一信息可以用各种信号来携带和传递;符号则是语言,
文字, 图像, 密码, 指令, 程序等的统称, 是人类用来
表示信息的各种标志, 是非物理性的, 同样的信息也可
以用不同的符号来表征;各种信号都可以与某种符号集
合建立起对应关系;信号系列和符号系列构成了消息,
消息是信息载体或表达者, 消息和信息是形式和内容的
关系 。 所以, 信息是一个社会概念, 它是社会共享的,
人类的一切知识, 学问以及从客观现象提炼出来的各种
消息的总称, 信息反映了客观世界中各种事物的特征和
变化的组合, 是一种有用的知识 。
信息具有以下几方面的特性:
1,普遍性
? 普遍性是指从空间分布上讲,信息是无处不在的。信息
普遍存在于自然界、人类社会以及人类的思维或精神领
域;从时间上讲,尽管具体的某个信息是有时效的,但
是由于人们对世界的认识是无限的,因此,就整体而言
信息是无限的。从社会学的角度看,信息一开始就直接
联系于社会应用,真正意义上的信息离不开社会。
2,时效性
? 具体的信息都有时效性。在某一特定时刻所获得的关于
某一事物的信息仅仅反映了这一时刻事物自身所处的状
态和环境状况,一般不能反映事物这一时刻之后所产生
的问题。时效性是信息的重要特征。
3,传递性
? 信息可以脱离开某一具体事物而载荷到别的事物 上,从
而可以被转移、被复制、被记录、被存储、被传送。信
息的这种特性使信息借助于一定的载体从一地传递到另
一地,在人们之间进行传播,从而实现信息巨大的潜在
效用。
4,可替代性
? 信息的物质载体形态是可以互相转移变换的。即指信息
的描述可以有多种不同的方法,这些不同的描述方法之
间只需保持某种对应关系,这种对应关系称为信息变换
关系。
5,可转化性
? 信息中包含有知识,使人们对某个事物的运动状态和其
变化方式由不了解到了解,使知识由少变多。由此,人
们利用信息就可以提高工作效率的质量,从而降低经济
成本。因此说,信息的这种可转化的特性,是信息被正
确利用所产生的社会和经济效益的依据。
6,共享性
? 信息可以同时为众多的接收者共同使用。在信息的扩散
和用户分享信息的过程中,信息载体本身的信息量并不
因此过程而减少,各用户分享的信息不因分享的人的多
少而受影响。这是由于信息不是事物本身,而是事物运
动状态及其变化的描述,信息可以脱离开产生它的那个
事物,从而可以实现信息的转移、传播和复制,达到信
息的共享。
? 人类生存与发展离不开信息。信息是人类进化和社会发
展中一种不可缺少的前提和推动社会进步的重要因素,
信息的根本作用在于消除人们认识的不确定性和增强世
界的有序性。
? 信息的运行环境,直接影响着人类利用信息的程度。随
着现代信息技术的不断发展进步,先进的信息技术被广
泛应用,促使信息的运行环境、管理技术逐步现代化。
计算机技术、电子技术、通信技术在信息的搜集、存储、
加工、传递、交换、管理等方面的普遍应用,从根本上
改变了信息的存取与传播方式。计算机、网络已成为传
播文化知识,获取信息资源的重要手段。
1.1.2 网络信息
1,互联网的产生与发展
? 互联网的出现是 20世纪最伟大的科学成就之一,其发展
速度远远超过世界上其他科学技术的发展速度。互联网
与它所负载的海量信息,正在对社会经济生活、对人们
的价值观念和生存方式产生着强烈的冲击。
? 互联网最初起源于 ARPAnet(阿帕网)。目的是通过该
网络把美国的几个军事及研究用计算机主机联接起来,
形成一个新的军事指挥系统。 1981年,美国全国科学基
金会开发了有五个超级计算机中心相连的网络。当时的
全国许多大学和学术机构把已经建成的一批地区性网络
与五个超级计算机中心相连,形成了一个新的大的网
络 —— NSFnet,该网络上的成员之间可以互相进行通讯,
从而开始了互联网真正发展的阶段。
? 采用 Internet的名称是在 MILnet(由 ARPAnet分出来)
实现和 NSFnet连接后开始的。随后,其他联邦部门的计
算机网相继并入 Internet,NSF巨型计算机中心则一直肩
负着扩展 Internet的使命。
? Internet在 20世纪 80年代的扩张不单有量的改变,也带来
质的某些变化。由于多种学术团体、企业研究机构、甚
至个人用户的进入,Internet的使用者不再限于“纯粹”
的计算机专业人员。新的使用者逐步把 Internet当作一种
交流与信息传递的工具,而不仅仅只是共享 NSF巨型计算
机的运算能力。
? 1991年,General Atomics,Performance Systems
International,UUNet Technologies 等 3家公司组成了
“商用 Internet 协会”( Commercial Internet Exchange
Association),宣布用户可以把它们的 Internet子网用于
任何的商业用途。其它 Internet的商业子网也看到了
Internet用于商业用途的巨大潜力,纷纷做出类似的承诺,
Internet商业化服务提供商的接连出现,使工商企业可以
真正地进入 Internet。
? 大量商业机构的进入带来了 Internet发展史上一次质的飞
跃。到 1994年年底,Internet已通往全世界 150个国家和
地区,联接着 3万多个子网,320多万台计算机主机,直
接的用户超过 3500万,成为世界最大的计算机网络。
? 数据库技术的发展,特别是分布式数据库技术的进步使
得大量的信息内容被放入计算机网络,从而使得人们能
够迅速地从网络上检索和得到他们所需的信息。特别是
环球网技术的出现,人们可以使用超文本格式把文字、
图像等信息汇于一体,放入数据库中,极大地丰富了互
联网中的信息资源。
? 目前,互联网上的信息涉及到现代社会生活的各个方面。
通过信息在网上的传播,人们可以方便地从互联网上获
取各种不同需求的信息。对于企业来说,可以从互联网
上获取市场信息,还可以通过创建本企业的主页
( Homepage),在网上发布企业信息,宣传企业形象,
推销企业产品,进行技术支持和售后服务等。
2,网络信息的类型、特点与传播方式
? 信息可根据其载体形式和传递方式分为文献信息和网络
信息两大类型。文献信息是指传统的介质(纸张)和现
代介质(如磁盘、光盘、缩微胶片等)记录和存贮的知
识信息。文献信息的载体形式主要有图书、报纸、期刊,
政府报告、会议资料以及光盘资料和缩微资料等。文献
信息资源具有较强的系统性、连续性和稳定性特点。网
络信息一般可以理解为“通过计算机网络可以利用的各
种信息”,即通过国际互联网可以利用的各种信息,它
包括:科技数据库、时事评论、社会科学、文学艺术、
历史资源等方面丰富的文献资料和一些公用软件。网络
信息具有内容的广泛性、访问的快捷性、搜索的网络性
和资源的动态性等特点。
( 1)网络信息的类型
1) 按信息的时效分类:
? 网上出版物。即在网上出版的报纸,期刊等。
? 动态信息。如政府机构发布的消息、政策法规、会议消
息,以及论文集、科研成果、产品目录、新闻及广告、
交通、股市行情等。
? 联机馆藏书目数据库。在互联网中,图书馆目录正发展
成为 OPAC( Online Public Access Catalog,即联机公
共目录检索系统)。已有上万个电子图书馆的馆藏机读
书目数据库,包括大学图书馆、公共图书馆和专业图书
馆的馆藏。
? 联机数据库。许多国际联机检索系统都开设了与互联网
的接口,用户通过远程登录或互联网均可进行检索。
2)按所对应的非网络信息分类:
? 馆藏书目数据库。
? 电子书刊。即完全在网络环境下编辑、出版、传播的书
刊,以及印刷型书刊的电子版。
? 参考工具书。这是一些传统的和现代的参考工具书的网
络版。如大不列颠百科全书、牛津大辞典等。
? 数据库。指联入互联网的数据库,数据库的内容涉及不
同领域和不同专业。
? 其他类型。如个人主页、电子邮件、电子公告、新闻组、
用户组等也成为信息交流的重要渠道,并成为网络信息
的重要组成部分之一。
3) 按人类信息交流的方式分类:
? 非正式出版信息。如电子邮件、电子会议、专题组和论
坛、电子公告板新闻等。
? 半非正式出版物。一些无法从正式出版物查询到的信息。
如各种学术团体和教育机构、企业、国际组织和政府机
构、行业协会等的网址或主页上发布的信息。
? 正式出版物。即用户可以查询到的各种数据库、联机杂
志、电子版工具书、报纸、专利信息等。
4) 按信息存取方式分,可分为邮件型、揭示板型(如网络
新闻、匿名 FTP等)、广播型、图书馆型以及书目型。
从网络信息检索角度,按信息查询方式对网络信息进行分类:
1) 互联网( WWW)信息。互联网上的信息是分布于网络各
处的文字、图像、声音和多媒体超文本信息。由于检索方
便、灵活、快捷,因此,发展迅速,已成为互联网信息的
主流。
2) FTP信息。 FTP以发布、传递软件和长文件见长。
3) Telnet信息。使用 Telnet用户可以使用远程计算机上对外开
放的信息资源,尤其是图书馆目录系统。
4) USENET/Newsgroup信息资源。 USENET利用网络环境,
为用户提供专题讨论服务。
5) USTSERV/Mailing List 信息。即电子邮件群和邮件列表。
6) Gopher信息。是一种类似互联网的分布式客户机 /服务器
形式的信息资源体系。
( 2)网络信息的特征
1) 数据量大,增长迅速。
2) 内容丰富,形式多样。互联网已发展成为当代信息存储
与传播的主要媒介之一,存储着不同学科,不同领域、不
同地域、不同语言的各种信息,是一个巨大的信息资源
库。
3) 变化快,质量参差不齐。互联网上的信息地址、信息连
接、信息内容均具有动态性,信息资源的更迭、消亡无
法预测。
4) 信息分散、无序。互联网是一个基于 TCP/IP协议的联结
各国、各机构数以万计的计算机网络的通信网,对网络
信息资源本身的组织管理无统一标准和规范,网络信息
分散于不同国家、不同地区服务器上,采用不同的操作
系统及数据结构,字符界面、图形界面、菜单方式、超
文本方式等缺乏集中统一的管理机制。
( 3)网络信息的传播方式
1) 利用环球网传播图、文、音并茂的信息。
2) 利用电子邮件传播信息。
3) 利用远程登录( Telnet)使用远程计算机的有关信息资源。
4) 利用网络论坛 Usenet传播信息。
5) 利用 FTP传播信息。
3,中国网络信息用户使用分析
? 到目前,全世界互联网上的用户已超过 6.5亿。 20世纪 90
年代初,互联网进入中国。从 1997年到 2002年,上网用
户总数已从 62万人达到 5910万人,增长了 94.3倍。截止到
2002年 12月 31日,中国 WWW站点数为 371600个,和
2001年同期相比增长 34.1%。
? 在我国,网络用户的范围十分广泛,年龄和受教育程度
有着很大的差别,知识结构、认知能力也不相同;上网
的目的和利用网络信息的种类也存在明显的差异。
年 龄 18岁以下 18--24 25--30 31--35 36 --40 41-- 50 50岁以上
比重( %)
1997年 10月
5.60% 36.30% 29% 13.20% 4.3% 6.80% 4,80%
比重( %)
2003年 1月
17.5% 10.2 % 14.9% 16.5% 14.4% 16.7% 9.8%
( 1)用户年龄分布
从 1997年 10月到 2003年 1月,中国互联网用户人数已从 62
万发展到 5910万,其年龄分布如表 1-1。
表 1-1 中国互联网用户的年龄分布
资料来源:中国互联网络中心,中国互联网络发展状况统计报告,
因特网, http://www.cnnic.net.cn
( 2)用户性别统计
1998 年 7 月 92.80% 7.20%
1999 年 1 月 86% 14%
1999 年 7 月 85% 15%
2000 年 1 月 79% 21%
2000 年 7 月 74.68% 25.32%
2001 年 7 月 61.30% 38.70%
2002 年 1 月 60% 40%
2002 年 7 月 60.90% 39.10%
2003 年 1 月 59.30% 40.70%
男 女
性别
年份
资料来源:中国互联网络中心,中国互联网络发展状况
统计报告,因特网, http://www.cnnic.net.cn
从右表可以看出,女性用
户 1999年 1月比 1998年 7月
增长 100%,而 2003年 1月
已增至四成以上。中国女
网民的增加非常明显。一
方面说明近几年来中国女
性对互联网的关注在增多,
另一方面也说明中国女性
的知识层次和收入水平也
在提高。充分利用这方面
的信息,有利于女性市场
的开拓。
表 1-2 中国互联网用户的性别统计
( 3)用户文化程度
? 在中国互联网用户的文化结构中,从 1999年到 2003年,
大专、本科学历的用户占 60%左右,且变化不大。这说
明,在中国,上网用户主要集中在学历层次较高的人群
中。另外在上网用户中高中及高中以下学历的占 10%左
右,它比高学历人数(硕士、博士)还要高出 5-10个百分
点,原因是这部分人大多比较年轻,有很强的求知欲和
接受能力。相比之下硕士、博士学历的上网人数仅占到
不足 3%,可见,高学历人才在我国数量还很少,这部分
人是我国目前很缺乏的人才。他们大多是从事科研、教
育的工作者,上网的目的也多是为了获取科技、经济、
教育等方面的信息。这也反映出网络没有为高层次人才
提供足够的有用信息,不能满足他们的需求,这是网络
信息亟待解决的问题之一。
( 4)用户行业分布情况分析
公共管理和社会组织 12.50% 邮政业 0.80%
交通运输、仓储业 4.70% IT业 10.30%
批发和零售业 11.80% 金融业 6.10%
餐饮业 1.20% 房地产业 1.60%
居民服务业 4.10% 娱乐业 1.00%
旅游、旅馆业 1.00% 咨询服务业 2.30%
广告业 1.00% 卫生、社会保障、社会福利业 3.00%
租赁等其它商务服务业 1.40% 文化艺术业 1.00%
体育业 0.20% 教育 10.60%
专业技术服务业 1.90% 建筑业 3.90%
制造业 11.10% 环境和公共设施管理业 0.40%
农、林、牧、渔业 1.70% 科学研究 1.00%
采矿业 0.80% 地质勘查业 0.10%
水利管理业 0.10% 其它 0.20%
国际组织 0.20%
新闻、出版、广播、电视、
电影和音像业
1.10% 2.90%
电力、燃气及水的生产和
供应业
表 1-3用户的行业分布(不包括军人、学生和无业人员)
资料来源:中国互联网络中心,中国互联网络发展状况统计报告,因特网, http://www.cnnic.net.cn
国家机关、党群组织
工作人员
8, 0 0 % 专业技术人员 1 5, 7 0 %
企事业单位管理人员 8, 9 0 % 教师 6, 2 0 %
办事员等协助人员 1 0, 3 0 %
农、林、牧、
渔工作人员
1, 0 0 %
商业、服务业人员 1 0, 3 0 %
生产、运输设
备操作人员及
有关人员
6, 2 0 %
军人 0, 9 0 % 无业 4, 0 0 %
学生 2 8, 0 0 % 其它 0, 5 0 %
表 1-4 用户的职业分布
资料来源:中国互联网络中心,中国互联网络发展状况统计报告,因特网, http://www.cnnic.net.cn
( 5)用户上网目的
? 从 CNNIC 1999年 7月 ~2003年 1月以来的统计报告看,占
用户上网目的第一位的是查询信息,占用户的 50%左右。
之外主要是用于学习、工作需要及获得各种免费资源等
目的的占到了用户总数的 14%左右。所以,在网民中广
泛普及、推广网络信息查询技术,最大限度地利用网络
信息资源,应当成为我国推进信息化建设的一项极为重
要的工作。
( 6)用户最常使用的网络服务
? 网络服务主要是指互联网提供的一些基本服务,如电子
邮件,专题讨论,远程登录,信息发布,文件传输和信
息检索等。在 1999年 7月 ~2003年 1月 CNNIC发布的统计报
告中电子邮件始终排在第一位,2003年 1月调查显示为
92.6%的用户常用这一服务。搜索引擎排在第二位,有
68.3%的上网用户常用这一服务,排在第四位的是各类信
息查询,使用这项服务的用户占 42.2%。这说明,互联网
已经成为继报纸、广播、电视之后,很重要的信息传播
媒体。
( 7)用户在网络上主要获取哪方面信息
信息种类 比重 信息种类 比重
新闻 42% 新闻 78%
计算机软硬件信息 5 3, 4 0 %
休闲信息 2 4, 8 0 % 休闲娱乐信息(体育、
音乐、艺术等)
4 4, 6 0 %
电子书籍 3 2, 6 0 %
科技信息 8 0, 4 0 % 科教信息 3 0, 1 0 %
金融信息 3 2, 8 0 % 金融证券、房地产信息 1 1, 0 0 %
求职招聘信息 2 2, 1 0 %
商业资讯 3 9, 6 0 % 商贸信息 7, 5 0 %
旅行、交通信息 7, 6 0 %
各类广告信息 5, 8 0 %
医疗信息 4, 9 0 %
交友征婚信息 2, 9 0 %
法律、法规、政策信息 8, 5 0 %
其它 0, 7 0 %
一
九
九
七
年
十
月
二
0
0
二
年
七
月
表 1-5 用户在网络上主要获取信息的比例
资料来源:中国互联网络中心,中国互联网络发展状况统计报告,因特网, http://www.cnnic.net.cn
1.1.3 网络信息与非网络信息的比较
1) 信息的发布。与非网络信息相比,网络信息的数量多,
质量也较难控制。
2) 信息的传播。随着光纤技术、交换技术的发展和网络的
迅速普及,使通信速度迅速提高而通信费用显著下降。
这使得计算机网络正在成为人们重要的通信工具,通信
的快速、廉价使人们能够获得超地域的相互沟通能力,
极大地扩大了人们的联系。
3) 信息的变化频率。网络信息,包括信息地址、信息链接、
信息内容经常处于变动之中,非网络信息一般变化较慢。
4) 信息的扩充性。指已发布的信息的扩充性。非网络信息
一经出版,就有了固定的样式,一般较难加以扩展和扩
充,而网络信息则可以根据实际需要,随时加以扩充。
5) 形式多样性。网络信息在形式上包括了文本、超文本、
图像、声音、软件、数据等多种形式;在存取与利用方
法上也具有多样性。这也是与非网络信息的一个很重要
的区别。
6) 关联程度。非网络信息的关联能力较差,主要通过参考
文献、引用文献等方式来进行关联,而网络信息可以利
用超文本技术,通过链接方式直接指导用户去查阅所引
用的原始文献。
1.2 网络信息膨胀及其带来的
负面影响
1.2.1 网络信息膨胀的含义及表现
1.2.2 信息膨胀带来的负面影响
1.2.1 网络信息膨胀的含义及表现
1,信息膨胀和网络信息膨胀的含义
? 信息量与信息价值存在着正比关系,即信息越多,从中
获得的价值越大。信息量与信息价值的正比关系存在着
一个临界点,到达临界点之后,信息量越大,总体价值
却反而开始降低,这就是信息膨胀。信息膨胀问题已经
成为我们生活中难以避免的一个问题。
? 网络信息膨胀是指网络信息随着现代信息技术的发展急
剧增加,过量的“垃圾”信息充斥网络站点,网络信息
的检索成本不断上升,网络信息自身的价值随着网络信
息量的增加而贬值,二者呈现出反比关系。
2,网络信息膨胀的表现
1) 信息失实
2) 信息冗余
3) 信息超载
4) 信息过时
5) 淫秽信息
6) 电脑病毒
1.2.2 信息膨胀带来的负面影响
1,查询时间延长
2,经济损失严重
3,查询结果不理想
1.3 信息膨胀问题产生的原因分析
1.3.1 信息本身在急剧膨胀
1.3.2 网络信息的传播方式导致信息膨胀
1.3.3 网络信息的发布方式导致信息膨胀
1.3.4 法律规范的滞后导致信息膨胀
1.3.1 信息本身在急剧膨胀
? 世界各地的信息通过各种渠道快速的相互传播,全球的
各类信息量都在成数十倍数百倍甚至更多的数量增长。
在这一过程中,大量冗余的、无价值的信息混杂在各类
信息当中。在全球信息系统中,信息垃圾比例不低于
50%,有的学科领域甚至占到 80%!同时,由于科学技
术飞速发展,知识更新速度不断加快,知识老化现象明
显。此外,虚假信息传播者有意识地传递的虚假错误信
息,误导、诱骗消费者;甚至还有一些无从证实的传闻、
流言、诽谤等恶意传递的污垢信息;所有这些都充斥在
信息社会中,成为人们信息处理的负担。
1.3.2 网络信息的传播方式
导致信息膨胀
? 传播速度快、范围广,是网络传播的最大特点,也是其
最大的优势,然而,又反过来造成了信息的膨胀和过剩。
信息作为一种产品,其最大特点是复制成本极低。并且
在绝大多数情况下,信息产品具有非排他性,具有一定
的公共产品的特征。另一方面,影响信息产品扩散的还
有信息的传播成本,互联网的出现使信息的传播成本也
得到了大幅度的降低。
网络外部性( Network Externalities)
? 网络外部性是指一件产品由于其他相同产品的使用而获
得额外的价值。在互联网领域里,网络的外部性表现的
十分明显,特别是在一些侧重与交流的虚拟社区类的网
站中:网站每“销售”出一件信息产品,它就同时获得
了在未来“销售”更多产品的可能。通过对网络外部性
的内部化,使互联网有可能表现出边际收益递增的特征。
并且网站的交互性越强,这种边际收益递增就越明显。
边际收益递增的信息生产也导致了互联网信息产品的生
产过剩。信息过剩不仅仅是过剩,与之相伴随的还有信
息的质量问题,信息的信用问题等等。这些对于互联网
的发展都带来了不利的影响,又反过来对信息使用者带
来不便。
1.3.3 网络信息的发布方式
导致信息膨胀
? 互联网可以使人人都成为出版人。一方面是在互联网上
发表一篇文章,由于占用的磁盘空间少,使发布信息的
成本很低,这使得任何人都可以在网上发表自己的作品
或资料,而不会有什么发布上和经济上的困难,这种信
息发布的便利性使得网络信息的数量迅速增加。另一方
面,在互联网上发表任何文章不需要经过任何人或部门
的审查和批准。由于这两方面的原因,各种任意夸大、
缩小、捏造、剪辑、畸弯、拼凑、克隆得到的信息,低
水平重复、老化失效、无限泛滥和内容不健康的无效信
息都可以不受限制的在互联网上发布,这就使得网络信
息的真实性和可靠性无法得到保障。
1.3.4 法律规范的滞后导致信息膨胀
? 法制规范的滞后,使得各类网站的建设无法可依,信息
发布处于无序状态,重复信息、无用信息充斥网络,造
成大量信息失实、冗余、超载,信息膨胀问题严重。
? 一个健全的网络法律体系应该包括通信与信息服务,电
子商务和知识产权等各方面。在涉及的信息内容方面,
应包括信息采集、处理,互联网信息、电子出版新闻等;
在网络信息安全方面,包括信息网络安全、信息网络保
密、电子签名与认证等 ; 既要制订管理性的法律法规,又
要制订促进信息技术发展的法律法规。
1.4 解决信息膨胀问题的基本思路
1.4.1加强网络信息检索新技术的开发
1.4.2网络信息检索机制及应用的研究
1.4.3 本书网络信息检索的解决办法
1.4.4预期达到的效果
1.4.1加强网络信息检索新技术的开发
1,发展自然语言处理技术
? 自然语言,是指作者的书面用语,采用自然语言。可以
减少概念间转换产主的误差,检索入口词多,操作简单、
方便、灵活,也适合专业人员之外的广大用户群。
? 对自然语言进行适当控制的方法有事先控制法和事后控
制法。
? 由于各种数据库采用的检索语言不同,试图用一种检索
语言统一各种数据库的不同分类体系及叙词法是不现实
的。采用中介语言来实现多种语言的兼容是一种新的尝
试。
? 通过标准化手段实现各种检索语言的兼容也是一种尝试。
标准化是检索语言兼容的最高层次。
2,大力发展智能化检索技术
? 智能化是网络信息检索工具的发展方向。实现检索手段
智能化的技术主要包括:
? 蜘蛛( spiders)软件的智能化。它可以对网页上文献的
相关性及其所含链接的质量作出判断,筛掉不相关的网
页。
? 智能搜索引擎技术(如 Ask Jeeves)。其功能是:先通过
模拟传统检索过程的咨询协商,索取有关检索数据,再
到大型知识库中进行检索。
? 智能搜索引擎还具有推理能力、调整用户检索策略、提
高检索效率和提供用户定制服务等功能。
3,建立以用户为核心的技术服务模式
? 对现代信息技术的深层次开发,创建和支持以用户为核
心的技术服务模式,是网络检索服务研究的重要内容。
?,推”技术,是指根据网上用户个人需求的特征,运用
“筛选”、“过滤”机制。将信息不断、主动地提供给
用户的一系列软件技术的总称。
? 网络信息的查询是一个设计、发现、归纳、总结的过程。
信息的获取,除了必要的技术条件外,还必需有相应的
检索方法与之配合。
? 开展网络环境下的信息检索方法研究就成了一项非常的
重要的工作。这项工作做好了,我们就可以建立一套从
实际需要的角度出发,以一定的查询目的为起点,通过
多种检索途径获取所需资料的方法,更快、更多、更准
确地在网络上获取信息,尽可能的减少或避免信息膨胀
所带累的负面影响。
1.4.2网络信息检索机制及应用的研究
? 针对 WWW网站资源的组织过程与方式,理论界提出了
检索机制的三个组成部分,即采集标引机制、数据组织
机制和用户检索机制。其中,以 Robots为核心的网络信
息资源自动采集,旨在以 HURL,HTTP为基础,集中不
同类型的信息产品,使全球范围内的各种信息资源能实
时及时地进入信息系统。
? 自动采集机制提供的网页样本,为网络检索工具的量化
标引、量化评价提供理论根据。数据组织机制以数据采
集为依据,直接对网上索引数据库系统的动态维护与管
理产生影响。用户检索机制涉及用户界面友好、检索策
略的合理程度、检索执行以及检索结果的相关性处理等。
? 目前,用户可以直接使用的网络检索方法已有很多种类。
现有的检索方法按照信息内容组织方式可以划分为分类
范畴搜索引擎和词语搜索引擎两大类。按照专业范畴可
以划分为通用性和专业性查询引擎两类。按照检索功能
划分为常规(或单一)查询引擎与多元查询引擎。此外,
从功能角度可划分为目录式、索引式、指南式三大类。
? 网络信息检索工具的优劣主要集中在系统功能设置、用
户界面、数据库内容结构与更新,以及对国内外搜索引
擎的准确性、易用性,可选择性、检索效果等方面。对
信息检索工具的评价主要是对数据库资源和搜索引擎性
能的评价。网络信息还应当使用户了解信息发布的权威
性、信息的广度与深度、主页链接的可靠性、版面设计
质量、信息时效性,主页的可操作性以及读者对象等。
? 在网络信息检索策略方面,网上各类型搜索引擎所采用
的检索策略除个别特定符号规定外,大部分都认同布尔
逻辑、截词手段、相邻度检索、位置逻辑检索、字段检
定、加权检索以及自然语言检索、相关信息反馈等的使
用。全面了解这些策略对检索入门至关重要,但灵活运
用则主要取决于用户的直觉、经验和逻辑思维。用户可
以采用网上各种搜索引擎规定的特定检索策略标记符号
及组配原则,利用不同的搜索引擎,浏览、查询自己需
要的信息。应根据不同的搜索引擎的特点选用搜索引擎。
如一般性查询选用 Yahoo,自然语言查询用 Infoseek,不
确切知道关键词时用 excite进行概念检索,全文检索用
Open-Text和 excite,反向检索用 WebCrawler,短语检索
用 Open-Text,查询期刊论文选用 The Electric Library
等。
1.4.3 本书网络信息检索的解决办法
? 首先,为用户设计一个网络信息检索体系,为不同用户
设计不同的信息检索方法,包括网络信息检索的基本原
理和方法,网络信息搜索工具和计算机信息检索系统。
? 其次,介绍相应的网络信息处理技术,包括信息获取技
术、信息推送技术和数据挖掘技术。同时,介绍搜索引
擎的基本原理。
? 再次,对用户已经获取的网络信息进行管理。从信息资
源组织、信息平台协调、用户及其权限管理、安全防范
策略等方面进行集成化协调管理,包括网络信息管理的
基本技术、个人数据库的建立、网络信息的整理和个人
网络信息查询系统的设计。
? 最后,从普通用户、科研用户和企业用户的不同需要出
发,列举不同用户不同目的的检索实例。
1.4.4预期达到的效果
? 希望通过本书网络信息检索方法的介绍,读者能够在进
一步了解网络信息和网络技术发展现状的同时,掌握网
络信息检索的技术和方法,学会从自身的需要出发,从
所需信息本身的特点出发,通过合理设计检索方案和途
径,利用现有的检索工具,充分发掘网络信息资源,在
较短的时间里获取有价值的相关信息,克服网络信息膨
胀给我们带来的时间上、经济上和查询效果上的不利影
响,使我们在信息爆炸的时代里能够更充分更高效地寻
找信息、利用网络,而不是被信息所淹没。