上海理工大学电子商务研究所
设计制作:王锡俊
网络信息检索
第 三 章
第三章 网络信息处理技术
3.1 信息网络的技术特征
3.2 网络信息获取技术
3.3 网络信息推送技术
3.4 数据挖掘技术
3.1 信息网络的技术特征
3.1.1 网络的技术构成
3.1.2 网络信息文化是多种技术的汇集
3.1.3 信息在网络中的运作方式
3.1.1 网络的技术构成
? 计算机网络技术是通信技术与计算机技术、微电子技术、
光通信技术等相结合的信息技术,它包含计算机网络中
的语言、计算机网络体系结构等几个方面。
1,计算机网络中的语言
? 通信是在人们之间传递消息,一次通信要 3个因素:通信
双方有通信的愿望和要求;通信双方之间有通信的信道;
通信双方遵循彼此认可的通信规则,即通信协议或网络
协议。
? 网络协议作为计算机之间通信的规范也有 3个要素:语法,
即信息格式;语义,某些信息组合的含义;同步,即收、
发双方能分辨出通信的开始和结束。
2,计算机网络体系结构
? 一个复杂的系统往往划分为若干个层次,每个层次独立
地实现相应的功能,层与层之间有接口衔接,通过接口
传递参数,下层为上层提供服务,从而完成复杂的功能,
通信系统也不例外。以两个人之间的自然语言通信为例,
可以认为分为 3个层次:
1)传输层。 2)语言层。 3)知识层。
? 网络体系结构采用层次结构,TCP/IP网络体系结构就是
层次结构,分为 4个层次,网络接口层( Network
Interface Layer)、网络层( Internet Layer)、传输层
( Transport Layer)和应用层( Application Layer)。
? 网络接口层用于控制对本地局域网或广域网的访问;网
络层负责解决一台计算机通过网络到另一台计算机的通
信问题;传输层负责端到端的通信;应用层包括若干网
络应用程序。
3,本书涉及到的计算机网络术语
1) IIS ( Internet Information Server):互联网信息服务
2) ISP( Internet Service Provider):互联网服务供应商
3) RFC( Request File Comment):征求意见稿(评注)
4) IAB ( Internet Activities Board),Internet 工作委员会
5) GII( Global Information Interconnection):全球信息互
连网络
6) 电子邮件( E-mail):通过计算机网络发送和接收电子邮
件
7) 页面( page)和主页( homepage),WWW是由庞大的、
世界范围的文档集合组成,这些文档简称为页面
8) NII( National Information Infrastructure):国家信息
基础设施
3.1.2 网络信息文化是多种技术的汇集
? 计算机网络信息文化的实质是计算机技术、数据通信技
术和信息处理技术这 3种技术的汇合。计算机技术包括硬
件、软件、大容量存储设备、各种输入输出设备,以及
相应的服务;数据通信技术包括电话、电视、传输电缆、
光缆、通信传输、通信处理、通信卫星和无线通信等;
信息处理技术包括教育、娱乐、出版、信息提供、信息
组织和存储、信息检索等。这些技术形成了信息社会的 3
个行业,总产值的比例分别为计算机技术占 44%,通信
技术占 28%,信息处理占 28%。
3.1.3 信息在网络中的运作方式
? 要完成信息的传送,最常用的办法是把信息先附加(调
制)在一个电磁波(载波)上,然后把被调制的载波送
(传播)到目的地,在目的地接到电磁波后,再把信息
复原(解调)。这种系统通常由无线电通信和光波频段
通信组成(图 3-1)。
计算机
接受器
发送器
发送器
接受器
终端
图 3-1 信息传输流程
3.2 网络信息获取技术
3.2.1 互联网的接入方式
3.2.2 IP地址和域名系统
3.2.3 统一资源定位符 URL
3.2.4 超文本、超链接和超媒体
3.2.5 超文本传输协议 HTTP和
超文本标记语 言 HTML
3.2.1 互联网的接入方式
? 通过局域网直接连接,局域网的服务器是互联网中的一
个主机,有独立的 IP地址,用户的计算机连接到局域网
上。
? 通过电话拨号方式直接连接,用户的计算机利用点到点
协议( PPP协议)和串行接口协议 SLIP,通过 Modem连
接电话线到互联网的主机。
? 通过电话拨号间接连接,进入一个提供互联网服务的联
机服务系统。
? 前两种方法是直接连接,用户运行 TCP/IP协议,在互联
网上具有和其他互联网用户同样的地位。第三种方法是
间接连接,连接服务系统直接连接到互联网上,用户终
端仿真软件访问有联机服务系统提供的服务。
3.2.2 IP地址和域名系统
1,IP地址
? IP地址是指该主机在 INTERNET上的唯一标志。 IP地址
是一个逻辑地址,用 32位二进制数标识计算机网络中的
每一台计算机。它可以写成 4个用小数点分开的十进制数,
每个十进制数表示 IP地址中的 8个二进制数。
? 每个 IP地址由网络标识( NetID)和主机标识( HostID)
两部分组成,分别表示一台计算机所在的网络和在该网
络内的这台计算机。按照网络规模的大小,常用 IP地址
分为以下三类:
? A类:这类地址的特点是以 0开头,第一字节表示网络号,
第二、三、四字节表示网络中的主机号,网络数量少,
最多可以表示 126个网络号,每一网络中最多可以有
16777214个主机号(表 3-1)。 A类地址均分配给大型网
络使用。
1— 2540— 2550— 255l— 126
************************0*******
表 3-1 A类地址
? B类:这类地址的特点是以 l0开头,第一、二字节表示
网络号,第二、三字节表示网络中的主机号,最多可以
表示 16384个网络号,每一网络中最多可以有 66534个主
机号(表 3-2)。适用于中等规模的网络。
1— 2540— 2550— 255128— 191
************************10******
表 3-2 B类地址
? C类:这类地址的特点是以 110开头,第一、二、三字
节表示网络号,第四字节表示网络中的主机号,网络数
量比较多,可以有 2097152个网络号,每一网络中最多
可以有 254个主机号(表 3-3)。一般分配给小型网络。
1— 2540— 2550— 255192— 233
************************110*****
表 3-3 C类地址
? 同时 IP地址规定:网络号不能以 127开头,第一字节不能
全为 0,也不能全为 1;主机号不能全为 0,也不能全为 1。
? IP地址是用数字表示的,使用起来不直观,记忆很困难,
使用者很少用二进制网络地址访问主机、邮件信箱和其
它资源,人们更愿意使用有意义的符号名称如 ASCII字符
串,来标识互联网上的计算机。
2,域名系统
? Internet在 1985 年引入了域名系统 DNS( domain name
system),DNS由一串子名组成,子名之间用“.”分
割,基层名字在前,高层名字在后。
? Internet的最高层域名(顶级域名)由协会的授权机构负
责管理,根据 Internet国际特别委员会 IAHC的最新报告,
将顶级域定义为两类:机构域和地理域。
( 1)机构域
个人Nom
信息服务Info
消遣性娱乐Arc
文化娱乐Arts
和 WWW有关的实体Web
商场Store
商业或公司Firm
非赢利性组织机构Org
网络组织或机构Net
军事机构或设施Mil
国际性机构Int
非军事性的政府机构Gov
教育机构或设施Edu
商业机构Com
表示的组织或机构的类型域名
表 3-4 机构性域
( 2)地理域
俄罗斯RU埃及EG
葡萄牙PT丹麦DK
挪威NO古巴CU
新西兰NZ中国CN
荷兰NL智利CL
墨西哥MX加拿大CA
马来西亚MY巴西BR
中国澳门MO比利时BE
韩国KR奥地利AT
日本JP澳大利亚AU
意大利IT阿根廷AR
表示国家或地区域名表示国家或地区域名
表 3-5 地理性域
( 3)中国的域名体系
教育单位EDU
工、商和金融等企业COM
互联网络、接入网络信息和运行中心NET
各社会团体及民间非盈利组织ORG
国家政府部门GOV
科研院及科技管理部门AC
表示机构二级域名
表 3-6 我国的机构性域名
? 我国的地理性域名
澳门MO香港HK
台湾TW新疆维吾尔族XJ
宁夏回族自治区NS青海省QN
甘肃省GS陕西省SN
西藏自治区XZ云南省YN
贵州省GZ四川省SC
海南省HI广西壮族自治区GX
广东省GD湖南省HN
湖北省HB河南省HA
山东省SD江西省JX
福建省FJ安徽省AH
浙江省ZJ江苏省JS
黑龙江HL吉林省JL
辽宁市LN内蒙古自治区NM
山西市SX河北市HE
重庆市CQ天津市TJ
上海市SH北京市BJ
地理区域二级域名地理区域二级域名
? 域名地址和用数字表示的 IP地址实际上是同一个东西,
只是外表上不同而已,在访问一个站点的时候,可以输
入这个站点的 IP地址,也可以输入它的域名地址,这里
就存在一个域名地址和对应的 IP地址相转换的问题,这
些信息实际上是存放在 ISP中称为域名服务器( DNS)的
计算机上,当输入一个域名地址时,域名服务器就会搜
索其对应的 IP地址,然后访问到该地址所表示的站点。
? DNS的工作原理:
? 当要求 Web 浏览器访问,msdn.microsoft.com”站点时,
将会通过以下步骤来解析该域名的 IP 地址:
1) Web 浏览器调用 DNS 客户端(称为解析器),并使用上
次查询缓存的信息在本地解析该查询。
2)如果在本地无法解析查询,客户端就会向已知的 DNS 服
务器询问答案。如果该 DNS 服务器曾经在特定的时间段
内处理过相同的域名( msdn.microsoft.com)请求,它就
会在缓存中检索相应的 IP 地址,并将它返回给客户端。
3) 如果该 DNS 服务器找不到相应的地址,客户端就会向某
个全局根 DNS 服务器询问,后者返回顶级域权威 DNS
服务器的指针。在这种情况下,,com”域权威服务器的
IP 地址将返回给客户端。
4) 类似地,客户端向,com”服务器询问,microsoft.com”服
务器的地址。然后,客户端将原始查询传到
,microsoft.com”服务器。
5) 因为,microsoft.com”服务器在本地维护
,msdn.microsoft.com”域的权威记录,所以它将最终结
果返回给客户端,并完成特定 IP 地址的查询。
3.2.3 统一资源定位符 URL
( Uniform Resource Locate)
? URL是一种统一格式的 Internet 信息资源地址的标识方法,
它将 Internet上提供的服务统一编址,使用户通过 Web浏
览器进行查询。 URL的格式为:
? 协议服务类型,// 域名 [:端口号 ] / 文件路径和文件名
? URL由三部分组成,第一部分指出数据类型或存取数据
需要的协议类型,第二部分指出页面信息所在的服务器,
第三部分指出包含该页面的文件数据所在的精确路径。
? URL中的服务类型主要有:
1) http WWW服务,传输协议为 HTTP
2) telnet 远程登录服务,传输协议为 Telnet
3) ftp 文件传输服务,传输协议为 FTP
4) gopher Gopher服务
5) mailto E-mail电子邮件服务,传输协议为 SMTP
6) news 网络新闻服务,传输协议为 NNTP
3.2.4 超文本( Hypertext)、
超链接( Hyperlink)和
超媒体( Hypermedia)
? 超文本系统有统一的用户界面,用户使用该系统查询各
种媒体类型(文本、图像、图形、声音)的文件,该系
统还有跨平台的能力,用户可以 Internet上使用各种不同
类型的计算机进行信息查询。超文本( Hypertext)是把
一些信息根据需要连接起来的信息管理技术,它是由结
点( Node)以及结点之间的超链接( hyperlink)构成的
语义网络。超媒体可以看成是超文本和多媒体技术的融
合。
3.2.5 超文本传输协议 HTTP
( Hypertext Transfer Protocol)
和超文本标记语言 HTML
( Hypertext Markup Language)
? HTTP是浏览器客户与 WWW服务器之间交流的“官方语
言”。 HTTP被定义为“无状态”协议,它可以用来提
高数据传送速度。
? HTML是在 WWW上建立超文本文件的语言,它通过标
记和属性对一段文本的语言进行描述。
? HTML的主要特点如下:
1) 简易性。
2) 可扩展性。
3) 平台无关性。
? HTML文件是普通的 ASCII码文本文件,仅仅包含字母、
数字、空格和标点符号等。所以可以使用任何文本编辑
器来编辑 HTML文件。 HTML的编辑器大体可以以下分
为三种:
1) 基本编辑软件。
2) 半所见即所得软件。
3) 所见即所得软件。
3.3 网络信息推送
( Information Push)技术
3.3.1 信息推送的基本内容
3.3.2 信息推送的主要表现方式
3.3.3 信息推送软件的应用
3.3.1 信息推送的基本内容
? 在理论上,Push技术是指服务方不需要客户方的请求即
可主动地将数据送到客户方;但在实际应用中,这种服
务的主动性有一定限度,即在用户许可的范围内提供主
动服务。因此,在信息发布/获取应用中,它表现为
Push服务器自动搜索用户感兴趣的信息并将其定期推送
给用户。
1,Push技术的工作流程
? Push技术的工作流程如下:
1)用户填写订阅单,该单包括用户个人档案、所感兴趣的信
息类型以及要求进行推送的时间等,然后将之提交给信
息提供商。
2)信息提供商按用户的订阅单收集相关信息并通过 Push服务
器推送给用户,客户端获取信息完毕之后告知用户可读
取信息。
? Push技术涉及以下几个方面:
1) 无缝连接
2) 灵活的用户设置
3) 内容定制文件
4) 持久文件传输
5) 有效利用带宽
6) 新旧内容自然衔接
7) 灵活的通知方式
8) 安全性
9) 应用协议
2,Push技术的实现方式
频道内容
客户机
Web服务器
CGI
频道内容
Web服务器
客户机
客户代理
频道内容
Push服务器
客户机
( 1) Web服务器扩展:
CGI方式
( 2)客户代理方式 ( 3) Push服务器方式
图 3-2 Push技术的 3种实现方式
3.3.2 信息推送的主要表现方式
1,频道
? 频道是一个定期更新、定期通知的 WEB站点,由于它采
用推送技术,使得用户不必每次访问固定的站点,就可
以自动获得由网站发送的最新资源,它还提供了拨号用
户离线浏览的功能。
2,服务器推送( Server Push)
? 服务器推送( Server push)是一种先进的服务器和客户
机之间的通信连接方式,利用在服务器端的 CGI脚本程
序把数据源源不断地推向客户机,从而使客户机和服务
器之间的交互性能大大提高。
? 在服务器推送中,多个响应中连接始终保持,使服务器
可在任何时间发送更多的数据。一个明显的好处是服务
器完全能够控制更新数据的时间和频率。另外,这种方
法效率高,因为始终保持连接。缺点是保持连接状态会
浪费服务器端的资源。服务器推送还比较容易中断。
3,其他推送方式
( 1)电子邮件推送
( 2)专题类新闻推送
( 3)滚动条式推送
( 4)屏幕保护推送服务
3.3.3 信息推送软件的应用
1,信息推送软件简介
? 当一个服务器通过推送软件向客户端推送信息时,推送
软件会通过网络的一致性、可靠性、安全性以及经济性
来完整地传送数据。
? 使用 Push 软件至少有 4个好处:可达到减少或降低预定网
络带宽使用率;保证一致且最新的网页、客户端组态、
应用版本以及数据文件;数据发布集中管理;数据发布
安全保险。
2,信息推送方使用的软件
( 1) StarBurst Communications 的 StarBurst Multicast
( 2) Marimba 的 Castanet
( 3) XcelleNet 的 RemoteWare Express SoftWare manager
( 4) Wayfarer Communications 的 INCISA
3,信息推送接受方使用的软件
? PointCast是著名的频道信息广播软件,也是率先提出推
送( Push)技术的公司之一。
? PointCast Business Network 主要应用于商业、贸易及生
活领域。商业网的有效频道分为 5大类:
1) 商业,CNN、幸福杂志、华尔街时报等;
2) 生活:健康、体育、天气等信息;
3) 世界和美国新闻:拥有 CNN的最新数码照片。
4) 地区新闻:有诸多著名报刊,如华盛顿邮报、纽约时报
等。
5) 科技:将 ZDNet等知名的科学、技术类网站的信息汇集在
一起。
? PointCast College Network 它提供的网络信息主要以大
学的咨讯为主,可分为:
1) 学生论坛;
2) E-mail地址的查询;
3) 网上图书馆;
4) 最新娱乐信息;
5) 全美大学优秀论文
? PointCast的使用方法:
? 第一次接通 PointCast频道广播后,在传输信息内容的同
时,你会获得一个登记 ID号。单击左边的,HELP”,在
弹出的窗口中你会找到它。同时,只有在连通后,信息
的帮助文件才会传送过来。以后,每次启动 PointCast后,
按左边菜单列中的 Update All,PointCast会自动接通
ISP,自动从 PointCast的服务器上下载更新的信息。
图 3-3 PointCast软件界面
? 在左上角的按钮是可选择的信息频道( Channel),目前
版本的 PointCast 有 27个频 道。
? 每一个频道都有各自的分类以供用户选择,这是“推”
和“拉”浏览器的根本差别,离线选择后下载和在线寻
找。
? 最上面那条黑底红字是一条走马灯式的活动信息滚动栏,
它把新闻或股票价格以简短的“一句话新闻”
( HeadLine)的形式不停地滚动,让用户在浏览的同时
不会漏失一些重要的信息。
3.4 数据挖掘技术
3.4.1 数据挖掘技术的出现是网络信息
获取的必然产物
3.4.2 数据挖掘的研究和现状
3.4.3 数据挖掘的应用
3.4.4 未来的发展方向
3.4.1 数据挖掘技术的出现是
网络信息获取的必然产物
? 面对大量的信息,为了能真正的实现快速、准确、可靠
地获取有用的数据,需要用到数据挖掘( Data Mining)
和知识发现技术的理论和技术。数据挖掘也称为知识挖
掘,就是从大量的、不完全的、有噪声的、模糊的、随
机的实际数据中,提取隐含在其中的、人们事先不知道
的、但又是潜在有用的信息和知识的过程。
? 对知识挖掘的研究要了解和掌握一个基本原理和两项关
键技术,即:海量信息处理的基本理论,海量信息压缩
技术及海量信息描述和交换技术。
? 网络数据挖掘与网络信息检索所采用的技术有很多相似
之处,但又有本质的不同。作为第二代网络信息处理技
术,网络数据挖掘技术沿用了 Robot、全文检索等网络信
息检索中的优秀成果,同时综合运用人工智能、模式识
别、神经网络领域的各种技术。网络数据挖掘与网络信
息检索的最大不同在于它能够获取用户个性化的信息需
求,根据目标特征在网络上进行有目的的信息搜寻。
3.4.2 数据挖掘的研究和现状
? 网络数据挖掘是从 WWW资源上抽取信息(或知识)的
过程,它是将数据挖掘技术和理论应用于对 WWW资源
进行挖掘的一个新兴的研究领域。目前在该研究领域中,
根据挖掘对象的不同大致可分为三个方面的挖掘研究:
Web内容挖掘,Web结构挖掘,Web使用挖掘。
1,Web内容挖掘
? 根据实现的方法的不同可分为基于代理的方法和数据库
方法;而根据挖掘策略的不同有 Web页概要和搜索引擎
结果概要,Web页概要直接挖掘 Web文档的内容,搜索
引擎结果概要则用于增强搜索引擎的内容查询功能。
( 1)基于代理挖掘方法
? 基于代理的方法包含一个人工智能系统,它可以“自主
或半自主地为某个特殊的用户服务,以发现和组织基于
Web的信息”。
? 使用代理的主要缺点是存在隐私泄露的可能,这是因为
代理具有社会化的能力,信息的交换是透明的,且代理
不会通知某一用户它是否正在提交和检索该用户的信息。
( 2)数据库方法
? 数据库方法主要集中在“对网络上异质的、半结构化的
数据整合和组织,其成为结构化较好的、高层的资源集
合。”然后在对这些组织好的资源进行访问和分析。这
些元数据可以组织成有结构的数据集(如关系数据库或
面向对象数据库),然后再加以分析。目前的数据库方
法又可分为多层数据库和 Web查询系统。
? 多层数据库是由若干层信息构成的数据库。利用多层数
据库,可以提供一个与用户请求对应的指向目标文档集
合的指针列表,其次允许用户交互地浏览用以指向目标
文档集合的详细信息而非目表文档本身。
? Web查询系统利用一个 Web的简单关系视图,将结构和
基于内容的查询准则以类似于标准的数据库查询语言
(如 SQL)的方式结合起来,对 Web上半结构化的数据
进行查询。
2,挖掘策略
( 1) Web页概要
? 互联网上的大量信息通常隐藏于 Web文档内部,因此一
类重要的应用就是对 Web页内容的挖掘。
? 从 Web文档内部进行有效的信息抽取的主要障碍是元数
据的缺乏及没有一个标准的方法用于描述和在电子文档
中交换数据。 WWW协会建议的 XML标准目前已经被很
多公司广泛采用,这为 WWW上的数据挖掘减轻了很大
的负担。
( 2)搜索引擎结果概要
? 对搜索引擎返回的结果进行挖掘是十分必要的,这可以
提供给用户更为准确的查询结果。 WWW文档的异质性
和缺乏结构的特点导致一些研究工作集中于挖掘已知文
档的子集或与某一主题相关的文档,一个这样的子集可
以是一个搜索引擎的查询结果。
3,Web结构挖掘
? Web结构挖掘是对 Web页面之间的结构进行挖掘。由于
超文本文档的关联关系,使得 WWW不仅仅可以揭示文
档中所包含的信息,同时也可以揭示文档间的关联关系
所代表的信息。
4,Web使用挖掘
? 根据应用的不同,可以将 Web使用挖掘分为两种主要倾
向:一般的访问模式跟踪和定制使用跟踪,一般访问模
式跟踪通过分析可以清楚地给出较好的 Web结构及资源
提供者的分组情况。定制使用跟踪可以分析个人的倾向,
它的主要目的是为每个用户定制符合其个人特色的 Web
站点。
3.4.3 数据挖掘的应用
1,数据挖掘的应用类型
( 1)分类模型
? 分类( Classification)模型的主要功能是根据商业数据的
属性将数据分派到不同的组中。
( 2) 关联模型
? 关联( Association)模型主要是描述了一组数据项目的
密切度或关系。
( 3)顺序模型
? 顺序( Sequence)模型主要用于分析数据仓库中的某类
同时间相关的数据,发现某一时间段内数据的相关性。
( 4)聚簇模型
? 聚簇( Clustering)模型是按照某种相近程度度量方法将
用户数据分成互不相同的一些分组。
2,数据挖掘采用的典型方法
( 1)神经网络( Neural Network)
? 神经网络建立在可以自学习的数学模型的基础之上。它
可以对大量复杂的数据进行分析,并可以完成对人脑或
其他计算机来说极为复杂的模式抽取及趋势分析。
? 神经网络系统存在如下问题:首先,神经网络对分类模
型比较适合。但是,神经网络得出结论的因素并不十分
明显。同时其输出结果也没有任何解释,这将影响结果
的可信度及可接受程度。其次,神经网络需要较长的学
习时间,因此当数据量很大时,性能可能会出现问题。
( 2)决策树( Decision Tree)
? 决策树是通过一系列规则对数据进行分类的过程。采用
决策树,可以将数据规则可视化,其输出结果也容易理
解。
? 决策树方法精确度比较高,不像神经网络那样不易理解,
同时系统也不需要长时间的构造过程,因此比较常用。
? 决策树方法的缺点是很难基于多个变量组合发现规则。
不同决策树分支之间的分裂也不平滑。
( 3)联机分析处理( OLAP)
? 联机分析处理( OnLine Analytical Processing,OLAP)
主要通过多维的方式来对数据进行分析、查询和报表。
OLAP应用主要是对用户当前及历史数据进行分析,辅助
领导决策。其典型的应用有对银行信用卡风险的分析与
预测、公司市场营销策略的制定等,主要是进行大量的
查询操作,对时间的要求不太严格。
( 4)数据可视化( Data Visualization)
? 数据库中包含大量的数据,并且充实着各种数据模型,
将如此大量的数据可视化需要复杂的数据可视化工具。
数据挖掘和数据可视化可以很好地协作。就数据可视化
系统本身而言,由于数据仓库中的数据量很大,很容易
使分析人员变得不知所措,数据挖掘工具可以设定通过
富有成效的探索的起点并按恰当的隐喻来表示数据,为
数据分析人员提供很好的帮助。
3,数据挖掘工具简介
( 1)智能型的数据挖掘集成工具,SAS/EM
? 作为智能型的数据挖掘集成工具,SAS/EM的图形化界面、
可视化操作可引导用户(即使是数理统计经验不太多的
用户)按 SEMMA原则成功地进行数据挖掘,用户只要将
数据输入,经过 SAS/EM运行,即可得到一些分析结果。
有经验的专家还可通过修改数据调整分析处理过程。
( 2)基于传统统计算法的数据挖掘工具
? SAS/INSIGHT是一个可视化数据探索与分析工具,它将
统计方法与交互式图形显示融合在一起,为用户提供全
新的使用统计分析方法的环境。
? SAS数据挖掘软件广泛应用于客户关系管理、金融风险防
范、供应关系管理、数据库营销及竞争优势分析等方面。
4,数据挖掘的应用
( 1)数据挖掘在 AutoTrader.com站点访问量分析中的应用
( 2)电子政务中的数据挖掘
3.4.4 未来的发展方向
? 总的来说,数据挖掘技术尤其是网络数据挖掘技术仍处
于其研究的初级阶段,互联网在技术和应用上的不断发
展将会极大地推动索引技术、数据挖掘及数据库技术的
发展,并直接导致网络挖掘在技术和理论上的不断发展。
基于数据挖掘的网络查询工具也会向大型和智能化方向
发展,特别是将半结构化的查询语言与多层数据库结合
是一个研究的趋势。未来的研究焦点会集中到以下几个
方面:
1) 发现语言的形式化描述,即研究专门用于知识发现的数
据挖掘语言,使之像 SQL语言一样走向形式化和标准化。
2) 寻求数据挖掘过程中的可视化方法,使知识发现的过程
能够被用户理解,便于在知识发现过程中进行人机交互。
3) 研究在网络环境下的数据挖掘技术( Web Mining),在
互联网上建立 DMKD服务器,于数据库服务器配合实现
互联网数据挖掘。
4) 加强对各种非结构化数据的挖掘( Data Mining for Audio
and Video)。
5) 交互式发现,友好用户界面的研究。
6) 数据挖掘技术如何适应知识更新和信息数据的维护,有
较长寿命期,具有可扩充性。
设计制作:王锡俊
网络信息检索
第 三 章
第三章 网络信息处理技术
3.1 信息网络的技术特征
3.2 网络信息获取技术
3.3 网络信息推送技术
3.4 数据挖掘技术
3.1 信息网络的技术特征
3.1.1 网络的技术构成
3.1.2 网络信息文化是多种技术的汇集
3.1.3 信息在网络中的运作方式
3.1.1 网络的技术构成
? 计算机网络技术是通信技术与计算机技术、微电子技术、
光通信技术等相结合的信息技术,它包含计算机网络中
的语言、计算机网络体系结构等几个方面。
1,计算机网络中的语言
? 通信是在人们之间传递消息,一次通信要 3个因素:通信
双方有通信的愿望和要求;通信双方之间有通信的信道;
通信双方遵循彼此认可的通信规则,即通信协议或网络
协议。
? 网络协议作为计算机之间通信的规范也有 3个要素:语法,
即信息格式;语义,某些信息组合的含义;同步,即收、
发双方能分辨出通信的开始和结束。
2,计算机网络体系结构
? 一个复杂的系统往往划分为若干个层次,每个层次独立
地实现相应的功能,层与层之间有接口衔接,通过接口
传递参数,下层为上层提供服务,从而完成复杂的功能,
通信系统也不例外。以两个人之间的自然语言通信为例,
可以认为分为 3个层次:
1)传输层。 2)语言层。 3)知识层。
? 网络体系结构采用层次结构,TCP/IP网络体系结构就是
层次结构,分为 4个层次,网络接口层( Network
Interface Layer)、网络层( Internet Layer)、传输层
( Transport Layer)和应用层( Application Layer)。
? 网络接口层用于控制对本地局域网或广域网的访问;网
络层负责解决一台计算机通过网络到另一台计算机的通
信问题;传输层负责端到端的通信;应用层包括若干网
络应用程序。
3,本书涉及到的计算机网络术语
1) IIS ( Internet Information Server):互联网信息服务
2) ISP( Internet Service Provider):互联网服务供应商
3) RFC( Request File Comment):征求意见稿(评注)
4) IAB ( Internet Activities Board),Internet 工作委员会
5) GII( Global Information Interconnection):全球信息互
连网络
6) 电子邮件( E-mail):通过计算机网络发送和接收电子邮
件
7) 页面( page)和主页( homepage),WWW是由庞大的、
世界范围的文档集合组成,这些文档简称为页面
8) NII( National Information Infrastructure):国家信息
基础设施
3.1.2 网络信息文化是多种技术的汇集
? 计算机网络信息文化的实质是计算机技术、数据通信技
术和信息处理技术这 3种技术的汇合。计算机技术包括硬
件、软件、大容量存储设备、各种输入输出设备,以及
相应的服务;数据通信技术包括电话、电视、传输电缆、
光缆、通信传输、通信处理、通信卫星和无线通信等;
信息处理技术包括教育、娱乐、出版、信息提供、信息
组织和存储、信息检索等。这些技术形成了信息社会的 3
个行业,总产值的比例分别为计算机技术占 44%,通信
技术占 28%,信息处理占 28%。
3.1.3 信息在网络中的运作方式
? 要完成信息的传送,最常用的办法是把信息先附加(调
制)在一个电磁波(载波)上,然后把被调制的载波送
(传播)到目的地,在目的地接到电磁波后,再把信息
复原(解调)。这种系统通常由无线电通信和光波频段
通信组成(图 3-1)。
计算机
接受器
发送器
发送器
接受器
终端
图 3-1 信息传输流程
3.2 网络信息获取技术
3.2.1 互联网的接入方式
3.2.2 IP地址和域名系统
3.2.3 统一资源定位符 URL
3.2.4 超文本、超链接和超媒体
3.2.5 超文本传输协议 HTTP和
超文本标记语 言 HTML
3.2.1 互联网的接入方式
? 通过局域网直接连接,局域网的服务器是互联网中的一
个主机,有独立的 IP地址,用户的计算机连接到局域网
上。
? 通过电话拨号方式直接连接,用户的计算机利用点到点
协议( PPP协议)和串行接口协议 SLIP,通过 Modem连
接电话线到互联网的主机。
? 通过电话拨号间接连接,进入一个提供互联网服务的联
机服务系统。
? 前两种方法是直接连接,用户运行 TCP/IP协议,在互联
网上具有和其他互联网用户同样的地位。第三种方法是
间接连接,连接服务系统直接连接到互联网上,用户终
端仿真软件访问有联机服务系统提供的服务。
3.2.2 IP地址和域名系统
1,IP地址
? IP地址是指该主机在 INTERNET上的唯一标志。 IP地址
是一个逻辑地址,用 32位二进制数标识计算机网络中的
每一台计算机。它可以写成 4个用小数点分开的十进制数,
每个十进制数表示 IP地址中的 8个二进制数。
? 每个 IP地址由网络标识( NetID)和主机标识( HostID)
两部分组成,分别表示一台计算机所在的网络和在该网
络内的这台计算机。按照网络规模的大小,常用 IP地址
分为以下三类:
? A类:这类地址的特点是以 0开头,第一字节表示网络号,
第二、三、四字节表示网络中的主机号,网络数量少,
最多可以表示 126个网络号,每一网络中最多可以有
16777214个主机号(表 3-1)。 A类地址均分配给大型网
络使用。
1— 2540— 2550— 255l— 126
************************0*******
表 3-1 A类地址
? B类:这类地址的特点是以 l0开头,第一、二字节表示
网络号,第二、三字节表示网络中的主机号,最多可以
表示 16384个网络号,每一网络中最多可以有 66534个主
机号(表 3-2)。适用于中等规模的网络。
1— 2540— 2550— 255128— 191
************************10******
表 3-2 B类地址
? C类:这类地址的特点是以 110开头,第一、二、三字
节表示网络号,第四字节表示网络中的主机号,网络数
量比较多,可以有 2097152个网络号,每一网络中最多
可以有 254个主机号(表 3-3)。一般分配给小型网络。
1— 2540— 2550— 255192— 233
************************110*****
表 3-3 C类地址
? 同时 IP地址规定:网络号不能以 127开头,第一字节不能
全为 0,也不能全为 1;主机号不能全为 0,也不能全为 1。
? IP地址是用数字表示的,使用起来不直观,记忆很困难,
使用者很少用二进制网络地址访问主机、邮件信箱和其
它资源,人们更愿意使用有意义的符号名称如 ASCII字符
串,来标识互联网上的计算机。
2,域名系统
? Internet在 1985 年引入了域名系统 DNS( domain name
system),DNS由一串子名组成,子名之间用“.”分
割,基层名字在前,高层名字在后。
? Internet的最高层域名(顶级域名)由协会的授权机构负
责管理,根据 Internet国际特别委员会 IAHC的最新报告,
将顶级域定义为两类:机构域和地理域。
( 1)机构域
个人Nom
信息服务Info
消遣性娱乐Arc
文化娱乐Arts
和 WWW有关的实体Web
商场Store
商业或公司Firm
非赢利性组织机构Org
网络组织或机构Net
军事机构或设施Mil
国际性机构Int
非军事性的政府机构Gov
教育机构或设施Edu
商业机构Com
表示的组织或机构的类型域名
表 3-4 机构性域
( 2)地理域
俄罗斯RU埃及EG
葡萄牙PT丹麦DK
挪威NO古巴CU
新西兰NZ中国CN
荷兰NL智利CL
墨西哥MX加拿大CA
马来西亚MY巴西BR
中国澳门MO比利时BE
韩国KR奥地利AT
日本JP澳大利亚AU
意大利IT阿根廷AR
表示国家或地区域名表示国家或地区域名
表 3-5 地理性域
( 3)中国的域名体系
教育单位EDU
工、商和金融等企业COM
互联网络、接入网络信息和运行中心NET
各社会团体及民间非盈利组织ORG
国家政府部门GOV
科研院及科技管理部门AC
表示机构二级域名
表 3-6 我国的机构性域名
? 我国的地理性域名
澳门MO香港HK
台湾TW新疆维吾尔族XJ
宁夏回族自治区NS青海省QN
甘肃省GS陕西省SN
西藏自治区XZ云南省YN
贵州省GZ四川省SC
海南省HI广西壮族自治区GX
广东省GD湖南省HN
湖北省HB河南省HA
山东省SD江西省JX
福建省FJ安徽省AH
浙江省ZJ江苏省JS
黑龙江HL吉林省JL
辽宁市LN内蒙古自治区NM
山西市SX河北市HE
重庆市CQ天津市TJ
上海市SH北京市BJ
地理区域二级域名地理区域二级域名
? 域名地址和用数字表示的 IP地址实际上是同一个东西,
只是外表上不同而已,在访问一个站点的时候,可以输
入这个站点的 IP地址,也可以输入它的域名地址,这里
就存在一个域名地址和对应的 IP地址相转换的问题,这
些信息实际上是存放在 ISP中称为域名服务器( DNS)的
计算机上,当输入一个域名地址时,域名服务器就会搜
索其对应的 IP地址,然后访问到该地址所表示的站点。
? DNS的工作原理:
? 当要求 Web 浏览器访问,msdn.microsoft.com”站点时,
将会通过以下步骤来解析该域名的 IP 地址:
1) Web 浏览器调用 DNS 客户端(称为解析器),并使用上
次查询缓存的信息在本地解析该查询。
2)如果在本地无法解析查询,客户端就会向已知的 DNS 服
务器询问答案。如果该 DNS 服务器曾经在特定的时间段
内处理过相同的域名( msdn.microsoft.com)请求,它就
会在缓存中检索相应的 IP 地址,并将它返回给客户端。
3) 如果该 DNS 服务器找不到相应的地址,客户端就会向某
个全局根 DNS 服务器询问,后者返回顶级域权威 DNS
服务器的指针。在这种情况下,,com”域权威服务器的
IP 地址将返回给客户端。
4) 类似地,客户端向,com”服务器询问,microsoft.com”服
务器的地址。然后,客户端将原始查询传到
,microsoft.com”服务器。
5) 因为,microsoft.com”服务器在本地维护
,msdn.microsoft.com”域的权威记录,所以它将最终结
果返回给客户端,并完成特定 IP 地址的查询。
3.2.3 统一资源定位符 URL
( Uniform Resource Locate)
? URL是一种统一格式的 Internet 信息资源地址的标识方法,
它将 Internet上提供的服务统一编址,使用户通过 Web浏
览器进行查询。 URL的格式为:
? 协议服务类型,// 域名 [:端口号 ] / 文件路径和文件名
? URL由三部分组成,第一部分指出数据类型或存取数据
需要的协议类型,第二部分指出页面信息所在的服务器,
第三部分指出包含该页面的文件数据所在的精确路径。
? URL中的服务类型主要有:
1) http WWW服务,传输协议为 HTTP
2) telnet 远程登录服务,传输协议为 Telnet
3) ftp 文件传输服务,传输协议为 FTP
4) gopher Gopher服务
5) mailto E-mail电子邮件服务,传输协议为 SMTP
6) news 网络新闻服务,传输协议为 NNTP
3.2.4 超文本( Hypertext)、
超链接( Hyperlink)和
超媒体( Hypermedia)
? 超文本系统有统一的用户界面,用户使用该系统查询各
种媒体类型(文本、图像、图形、声音)的文件,该系
统还有跨平台的能力,用户可以 Internet上使用各种不同
类型的计算机进行信息查询。超文本( Hypertext)是把
一些信息根据需要连接起来的信息管理技术,它是由结
点( Node)以及结点之间的超链接( hyperlink)构成的
语义网络。超媒体可以看成是超文本和多媒体技术的融
合。
3.2.5 超文本传输协议 HTTP
( Hypertext Transfer Protocol)
和超文本标记语言 HTML
( Hypertext Markup Language)
? HTTP是浏览器客户与 WWW服务器之间交流的“官方语
言”。 HTTP被定义为“无状态”协议,它可以用来提
高数据传送速度。
? HTML是在 WWW上建立超文本文件的语言,它通过标
记和属性对一段文本的语言进行描述。
? HTML的主要特点如下:
1) 简易性。
2) 可扩展性。
3) 平台无关性。
? HTML文件是普通的 ASCII码文本文件,仅仅包含字母、
数字、空格和标点符号等。所以可以使用任何文本编辑
器来编辑 HTML文件。 HTML的编辑器大体可以以下分
为三种:
1) 基本编辑软件。
2) 半所见即所得软件。
3) 所见即所得软件。
3.3 网络信息推送
( Information Push)技术
3.3.1 信息推送的基本内容
3.3.2 信息推送的主要表现方式
3.3.3 信息推送软件的应用
3.3.1 信息推送的基本内容
? 在理论上,Push技术是指服务方不需要客户方的请求即
可主动地将数据送到客户方;但在实际应用中,这种服
务的主动性有一定限度,即在用户许可的范围内提供主
动服务。因此,在信息发布/获取应用中,它表现为
Push服务器自动搜索用户感兴趣的信息并将其定期推送
给用户。
1,Push技术的工作流程
? Push技术的工作流程如下:
1)用户填写订阅单,该单包括用户个人档案、所感兴趣的信
息类型以及要求进行推送的时间等,然后将之提交给信
息提供商。
2)信息提供商按用户的订阅单收集相关信息并通过 Push服务
器推送给用户,客户端获取信息完毕之后告知用户可读
取信息。
? Push技术涉及以下几个方面:
1) 无缝连接
2) 灵活的用户设置
3) 内容定制文件
4) 持久文件传输
5) 有效利用带宽
6) 新旧内容自然衔接
7) 灵活的通知方式
8) 安全性
9) 应用协议
2,Push技术的实现方式
频道内容
客户机
Web服务器
CGI
频道内容
Web服务器
客户机
客户代理
频道内容
Push服务器
客户机
( 1) Web服务器扩展:
CGI方式
( 2)客户代理方式 ( 3) Push服务器方式
图 3-2 Push技术的 3种实现方式
3.3.2 信息推送的主要表现方式
1,频道
? 频道是一个定期更新、定期通知的 WEB站点,由于它采
用推送技术,使得用户不必每次访问固定的站点,就可
以自动获得由网站发送的最新资源,它还提供了拨号用
户离线浏览的功能。
2,服务器推送( Server Push)
? 服务器推送( Server push)是一种先进的服务器和客户
机之间的通信连接方式,利用在服务器端的 CGI脚本程
序把数据源源不断地推向客户机,从而使客户机和服务
器之间的交互性能大大提高。
? 在服务器推送中,多个响应中连接始终保持,使服务器
可在任何时间发送更多的数据。一个明显的好处是服务
器完全能够控制更新数据的时间和频率。另外,这种方
法效率高,因为始终保持连接。缺点是保持连接状态会
浪费服务器端的资源。服务器推送还比较容易中断。
3,其他推送方式
( 1)电子邮件推送
( 2)专题类新闻推送
( 3)滚动条式推送
( 4)屏幕保护推送服务
3.3.3 信息推送软件的应用
1,信息推送软件简介
? 当一个服务器通过推送软件向客户端推送信息时,推送
软件会通过网络的一致性、可靠性、安全性以及经济性
来完整地传送数据。
? 使用 Push 软件至少有 4个好处:可达到减少或降低预定网
络带宽使用率;保证一致且最新的网页、客户端组态、
应用版本以及数据文件;数据发布集中管理;数据发布
安全保险。
2,信息推送方使用的软件
( 1) StarBurst Communications 的 StarBurst Multicast
( 2) Marimba 的 Castanet
( 3) XcelleNet 的 RemoteWare Express SoftWare manager
( 4) Wayfarer Communications 的 INCISA
3,信息推送接受方使用的软件
? PointCast是著名的频道信息广播软件,也是率先提出推
送( Push)技术的公司之一。
? PointCast Business Network 主要应用于商业、贸易及生
活领域。商业网的有效频道分为 5大类:
1) 商业,CNN、幸福杂志、华尔街时报等;
2) 生活:健康、体育、天气等信息;
3) 世界和美国新闻:拥有 CNN的最新数码照片。
4) 地区新闻:有诸多著名报刊,如华盛顿邮报、纽约时报
等。
5) 科技:将 ZDNet等知名的科学、技术类网站的信息汇集在
一起。
? PointCast College Network 它提供的网络信息主要以大
学的咨讯为主,可分为:
1) 学生论坛;
2) E-mail地址的查询;
3) 网上图书馆;
4) 最新娱乐信息;
5) 全美大学优秀论文
? PointCast的使用方法:
? 第一次接通 PointCast频道广播后,在传输信息内容的同
时,你会获得一个登记 ID号。单击左边的,HELP”,在
弹出的窗口中你会找到它。同时,只有在连通后,信息
的帮助文件才会传送过来。以后,每次启动 PointCast后,
按左边菜单列中的 Update All,PointCast会自动接通
ISP,自动从 PointCast的服务器上下载更新的信息。
图 3-3 PointCast软件界面
? 在左上角的按钮是可选择的信息频道( Channel),目前
版本的 PointCast 有 27个频 道。
? 每一个频道都有各自的分类以供用户选择,这是“推”
和“拉”浏览器的根本差别,离线选择后下载和在线寻
找。
? 最上面那条黑底红字是一条走马灯式的活动信息滚动栏,
它把新闻或股票价格以简短的“一句话新闻”
( HeadLine)的形式不停地滚动,让用户在浏览的同时
不会漏失一些重要的信息。
3.4 数据挖掘技术
3.4.1 数据挖掘技术的出现是网络信息
获取的必然产物
3.4.2 数据挖掘的研究和现状
3.4.3 数据挖掘的应用
3.4.4 未来的发展方向
3.4.1 数据挖掘技术的出现是
网络信息获取的必然产物
? 面对大量的信息,为了能真正的实现快速、准确、可靠
地获取有用的数据,需要用到数据挖掘( Data Mining)
和知识发现技术的理论和技术。数据挖掘也称为知识挖
掘,就是从大量的、不完全的、有噪声的、模糊的、随
机的实际数据中,提取隐含在其中的、人们事先不知道
的、但又是潜在有用的信息和知识的过程。
? 对知识挖掘的研究要了解和掌握一个基本原理和两项关
键技术,即:海量信息处理的基本理论,海量信息压缩
技术及海量信息描述和交换技术。
? 网络数据挖掘与网络信息检索所采用的技术有很多相似
之处,但又有本质的不同。作为第二代网络信息处理技
术,网络数据挖掘技术沿用了 Robot、全文检索等网络信
息检索中的优秀成果,同时综合运用人工智能、模式识
别、神经网络领域的各种技术。网络数据挖掘与网络信
息检索的最大不同在于它能够获取用户个性化的信息需
求,根据目标特征在网络上进行有目的的信息搜寻。
3.4.2 数据挖掘的研究和现状
? 网络数据挖掘是从 WWW资源上抽取信息(或知识)的
过程,它是将数据挖掘技术和理论应用于对 WWW资源
进行挖掘的一个新兴的研究领域。目前在该研究领域中,
根据挖掘对象的不同大致可分为三个方面的挖掘研究:
Web内容挖掘,Web结构挖掘,Web使用挖掘。
1,Web内容挖掘
? 根据实现的方法的不同可分为基于代理的方法和数据库
方法;而根据挖掘策略的不同有 Web页概要和搜索引擎
结果概要,Web页概要直接挖掘 Web文档的内容,搜索
引擎结果概要则用于增强搜索引擎的内容查询功能。
( 1)基于代理挖掘方法
? 基于代理的方法包含一个人工智能系统,它可以“自主
或半自主地为某个特殊的用户服务,以发现和组织基于
Web的信息”。
? 使用代理的主要缺点是存在隐私泄露的可能,这是因为
代理具有社会化的能力,信息的交换是透明的,且代理
不会通知某一用户它是否正在提交和检索该用户的信息。
( 2)数据库方法
? 数据库方法主要集中在“对网络上异质的、半结构化的
数据整合和组织,其成为结构化较好的、高层的资源集
合。”然后在对这些组织好的资源进行访问和分析。这
些元数据可以组织成有结构的数据集(如关系数据库或
面向对象数据库),然后再加以分析。目前的数据库方
法又可分为多层数据库和 Web查询系统。
? 多层数据库是由若干层信息构成的数据库。利用多层数
据库,可以提供一个与用户请求对应的指向目标文档集
合的指针列表,其次允许用户交互地浏览用以指向目标
文档集合的详细信息而非目表文档本身。
? Web查询系统利用一个 Web的简单关系视图,将结构和
基于内容的查询准则以类似于标准的数据库查询语言
(如 SQL)的方式结合起来,对 Web上半结构化的数据
进行查询。
2,挖掘策略
( 1) Web页概要
? 互联网上的大量信息通常隐藏于 Web文档内部,因此一
类重要的应用就是对 Web页内容的挖掘。
? 从 Web文档内部进行有效的信息抽取的主要障碍是元数
据的缺乏及没有一个标准的方法用于描述和在电子文档
中交换数据。 WWW协会建议的 XML标准目前已经被很
多公司广泛采用,这为 WWW上的数据挖掘减轻了很大
的负担。
( 2)搜索引擎结果概要
? 对搜索引擎返回的结果进行挖掘是十分必要的,这可以
提供给用户更为准确的查询结果。 WWW文档的异质性
和缺乏结构的特点导致一些研究工作集中于挖掘已知文
档的子集或与某一主题相关的文档,一个这样的子集可
以是一个搜索引擎的查询结果。
3,Web结构挖掘
? Web结构挖掘是对 Web页面之间的结构进行挖掘。由于
超文本文档的关联关系,使得 WWW不仅仅可以揭示文
档中所包含的信息,同时也可以揭示文档间的关联关系
所代表的信息。
4,Web使用挖掘
? 根据应用的不同,可以将 Web使用挖掘分为两种主要倾
向:一般的访问模式跟踪和定制使用跟踪,一般访问模
式跟踪通过分析可以清楚地给出较好的 Web结构及资源
提供者的分组情况。定制使用跟踪可以分析个人的倾向,
它的主要目的是为每个用户定制符合其个人特色的 Web
站点。
3.4.3 数据挖掘的应用
1,数据挖掘的应用类型
( 1)分类模型
? 分类( Classification)模型的主要功能是根据商业数据的
属性将数据分派到不同的组中。
( 2) 关联模型
? 关联( Association)模型主要是描述了一组数据项目的
密切度或关系。
( 3)顺序模型
? 顺序( Sequence)模型主要用于分析数据仓库中的某类
同时间相关的数据,发现某一时间段内数据的相关性。
( 4)聚簇模型
? 聚簇( Clustering)模型是按照某种相近程度度量方法将
用户数据分成互不相同的一些分组。
2,数据挖掘采用的典型方法
( 1)神经网络( Neural Network)
? 神经网络建立在可以自学习的数学模型的基础之上。它
可以对大量复杂的数据进行分析,并可以完成对人脑或
其他计算机来说极为复杂的模式抽取及趋势分析。
? 神经网络系统存在如下问题:首先,神经网络对分类模
型比较适合。但是,神经网络得出结论的因素并不十分
明显。同时其输出结果也没有任何解释,这将影响结果
的可信度及可接受程度。其次,神经网络需要较长的学
习时间,因此当数据量很大时,性能可能会出现问题。
( 2)决策树( Decision Tree)
? 决策树是通过一系列规则对数据进行分类的过程。采用
决策树,可以将数据规则可视化,其输出结果也容易理
解。
? 决策树方法精确度比较高,不像神经网络那样不易理解,
同时系统也不需要长时间的构造过程,因此比较常用。
? 决策树方法的缺点是很难基于多个变量组合发现规则。
不同决策树分支之间的分裂也不平滑。
( 3)联机分析处理( OLAP)
? 联机分析处理( OnLine Analytical Processing,OLAP)
主要通过多维的方式来对数据进行分析、查询和报表。
OLAP应用主要是对用户当前及历史数据进行分析,辅助
领导决策。其典型的应用有对银行信用卡风险的分析与
预测、公司市场营销策略的制定等,主要是进行大量的
查询操作,对时间的要求不太严格。
( 4)数据可视化( Data Visualization)
? 数据库中包含大量的数据,并且充实着各种数据模型,
将如此大量的数据可视化需要复杂的数据可视化工具。
数据挖掘和数据可视化可以很好地协作。就数据可视化
系统本身而言,由于数据仓库中的数据量很大,很容易
使分析人员变得不知所措,数据挖掘工具可以设定通过
富有成效的探索的起点并按恰当的隐喻来表示数据,为
数据分析人员提供很好的帮助。
3,数据挖掘工具简介
( 1)智能型的数据挖掘集成工具,SAS/EM
? 作为智能型的数据挖掘集成工具,SAS/EM的图形化界面、
可视化操作可引导用户(即使是数理统计经验不太多的
用户)按 SEMMA原则成功地进行数据挖掘,用户只要将
数据输入,经过 SAS/EM运行,即可得到一些分析结果。
有经验的专家还可通过修改数据调整分析处理过程。
( 2)基于传统统计算法的数据挖掘工具
? SAS/INSIGHT是一个可视化数据探索与分析工具,它将
统计方法与交互式图形显示融合在一起,为用户提供全
新的使用统计分析方法的环境。
? SAS数据挖掘软件广泛应用于客户关系管理、金融风险防
范、供应关系管理、数据库营销及竞争优势分析等方面。
4,数据挖掘的应用
( 1)数据挖掘在 AutoTrader.com站点访问量分析中的应用
( 2)电子政务中的数据挖掘
3.4.4 未来的发展方向
? 总的来说,数据挖掘技术尤其是网络数据挖掘技术仍处
于其研究的初级阶段,互联网在技术和应用上的不断发
展将会极大地推动索引技术、数据挖掘及数据库技术的
发展,并直接导致网络挖掘在技术和理论上的不断发展。
基于数据挖掘的网络查询工具也会向大型和智能化方向
发展,特别是将半结构化的查询语言与多层数据库结合
是一个研究的趋势。未来的研究焦点会集中到以下几个
方面:
1) 发现语言的形式化描述,即研究专门用于知识发现的数
据挖掘语言,使之像 SQL语言一样走向形式化和标准化。
2) 寻求数据挖掘过程中的可视化方法,使知识发现的过程
能够被用户理解,便于在知识发现过程中进行人机交互。
3) 研究在网络环境下的数据挖掘技术( Web Mining),在
互联网上建立 DMKD服务器,于数据库服务器配合实现
互联网数据挖掘。
4) 加强对各种非结构化数据的挖掘( Data Mining for Audio
and Video)。
5) 交互式发现,友好用户界面的研究。
6) 数据挖掘技术如何适应知识更新和信息数据的维护,有
较长寿命期,具有可扩充性。