浙江大学：数据挖掘：9、电子商务与数据挖掘

分类：计算机格式：ppt 日期：2007年03月15日

电子商务与数据挖掘
基于 WEB日志的用户访问模式挖掘
电子商务与数据挖掘 ——完美结合
? 在电子商务中进行成功的数据挖掘得益于,
? 电子商务提供海量的数据
? 如果一个电子商务网站平均每个小时卖出五件物品，那么它一个月的平均点击量是 160万次。
? 丰富的记录信息
? 良好的 WEB站点设计将有助于获得丰富的信息
? 干净的数据
? 从电子商务站点收集的都是电子数据，无需人工输入或者是从历史系统进行整合
? 研究成果容易转化
? 在电子商务中，很多知识发现都可以进行直接应用
? 投资收益容易衡量
电子商务为数据挖掘提供海量数据
?,点击流”（ Clickstreams）将会产生电子商务挖掘的
大量数据
? Yahoo!在 2000年每天被访问的页面数是 10亿，如此大的访
问量将会产生巨大的 Web日志（记载页面访问的情况），每
个小时产生的 Web日志量就达到 10GB！
? 即便是一个小的电子商务站点，也会在断时间内产生进行数据挖掘所需的大量数据
? 计算一下，如果你的站点一个小时卖出 5件物品，一个月会
有多少页面访问,
? 5件 × 24小时 × 30天 /％ 2（转化率，表示访问的人中买东西
的人的比率） × 9页面（平均买一件物品要访问 9个页面）＝
1,600,000页面
丰富的记录信息
? 如果你的电子商务站点设计的好，你将可以获
得各种商务的或者是用户访问的信息,
? 商品和商品的属性
? 商品的归类信息（当同时展示多种商品是，归类信
息是非常有用的）
? 促销信息
? 关于访问的信息（比如：访问计数）
? 关于客户额信息（可以通过登陆 /注册来获得）
“干净的数据,
? 信息直接从网站上提取
? 无需从历史系统中集成，避免很多错误
? 可以通过良好的站点设计，直接获得跟数据挖掘有关
的数据
? 而不是再来分析、计算、预处理要用的数据
? 直接收集的电子数据 ——可靠
? 无需人工数据输入，避免了很多错误
? 可以通过良好的站点设计，良好的控制数据采样的颗
粒度
? 颗粒度控制在客户级别或者是 session级别，而不是页面级别
有趣的, 生日现象,
? 一个银行通过对客户数据统计发现，它的 5％
的客户都是在同一天出生的（同年同月同日）！
为什么？
如何解释？
研究成果容易转化
? 历史上的数据挖掘研究有过许多的知识发现，但是这
些知识发现却很少在实际的商业应用中产生什么效果
? 要应用这些发现的知识可能意味着要进行复杂的系统更改、
流程更改或是改变人们的办事习惯，这在现实中是非常困难
的。
? 在电子商务中，很多知识发现都可以进行直接应用
? 改变站点的设计（改变布局，进行个性化设计等）
? 开始有目标的促销
? 根据对广告效果的统计数据改变广告策略
? 可以很容易的提供捆绑销售
投资收益容易衡量
? 使用数据挖掘成果的革新带来的收益如何衡量？
? 在传统的商业中衡量投资收益需要长期的测量和观察,Paco
Underhill在, 购物的科学, 一书中提及，一个超市为了衡量
他们的促销策略带来的投资收益，每年要花 14,000个小时查
看录像带。
? 在电子商务中，衡量革新的投资收益是非常容易的
? 销售变化的报表可以自动产生
? 客户对电子邮件和电子调查的反馈都可以在几天内得到，而
不必等个几个月
? 电子商务乃至整个互联网都是传统商业的理想试验室。
对电子商务网站的 Web数据挖掘
? 通常在一个电子商务网站上应用的数据挖掘技
术是 Web数据挖掘。
? 我们可以在一个电子商务网站挖掘些什么东西？
? 内容挖掘 (Web Content Mining)
? 结构挖掘 (Web Structure Mining)
? 使用挖掘 (Web Usage Mining)
Web Content Mining
? 对 Web页面内容进行挖掘，从 Web数据中发现
信息。
? 自动地从数以百万计的 Web站点和在线数据库中搜
索和获取信息和资料 ;
? 尽管人们可以直接从网上通过抓取建立索引，实现
检索服务来获得资源，但是大量的“隐藏”信息只
能通过内容挖掘来自动挖掘。
Web Structure Mining
? Web Structure Mining是对 Web页面之间的结
构进行挖掘。
? 在整个 Web空间，有用的知识不仅包含在页面的内
容中，而且也包含在页面的结构中。
? Web结构挖掘主要针对的就是页面的超链接结构，
如果有较多的超链接指向它，那么该页面就是重要
的，发现的这种知识可用来改进搜索路径等。
Web Usage Mining
? 与 Web Content Mining和 Web Structure Mining不同
的是,Web Usage Mining的挖掘对象是用户和网络
交互过程中抽取出来的二手数据，这些数据主要是用
户在访问 Web时在 Web日志里留下的信息，以及其它
一些交互信息,
? 日志信息包括访问日期、时间、用户 IP地址、服务器 IP地址、
方法、所请求 URL资源、服务器响应状态、用户代理、发送
字节等。
? Web Usage Mining就是对系统日志信息，以及用户的注册
数据等进行挖掘，以发现有用的模式和知识。
Web Usage Mining的作用
? 通过对电子商务网站应用 Web Usage Mining
数据挖掘技术，可以
? 提高站点的质量
? 改善 WEB缓存，缓解网络交通，提高性能
? 在电子商务中还可捕捉到大量的采购过程的细节，
为更加深入的分析提供了可能
Web日志 (1)
? 典型的日志文件片断
? uplherc.upl.com - - [01/Aug/1995:00:01:38 -0400]
"GET/shuttle/missions/sts-71/images/images.html HTTP/1.0" 200
8529
? 133.43.96.45 - - [01/Aug/1995:00:01:39 -0400]
"GET/shuttle/missions/sts-72/mission-sts-72.html HTTP/1.0" 200
3804
? 133.68.18.180 - - [01/Aug/1995:00:01:48 -0400] "GET
/persons/nasa-cm/jmd.html HTTP/1.0" 200 4067
? WEB日志通常包含 7个字段,
? 第一项：远程主机的地址，即它表明访问网站的究竟是谁。
? 第二项：浏览者的 email地址或者其他唯一标识符。到了今天，
我们在日志记录的第二项看到 email地址的机会已经微乎其微，
所以上面用 -，标志字段为空
Web日志 (2)
? 典型的日志文件片断
? uplherc.upl.com - - [01/Aug/1995:00:01:38 -0400]
"GET/shuttle/missions/sts-71/images/images.html HTTP/1.0" 200
8529
? 第三项：记录浏览者进行身份验证时提供的名字；对于不需
要用户身份验证的网站，这个字段都是空白 -；
? 第四项：请求的时间；
? 第五项：告诉我们服务器收到的是一个什么样的请求。该项
信息的典型格式是,METHOD RESOURCE PROTOCOL”，即
“方法资源协议”；这是 Web日志中最有用的信息，在上
面的示例中
? METHOD是 GET
? RESOURCE是指浏览者向服务器请求的文档，或 URL
? PROTOCOL通常是 HTTP，后面再加上版本号。
Web日志 (3)
? 典型的日志文件片断
? uplherc.upl.com - - [01/Aug/1995:00:01:38 -0400]
"GET/shuttle/missions/sts-71/images/images.html HTTP/1.0" 200
8529
? 第六项：状态代码。它告诉我们请求是否成功，或
者遇到了什么样的错误。大多数时候，这项值是
200，它表示服务器已经成功地响应浏览器的请求，
一切正常。
? 第七项：发送给客户端的总字节数。
Web Usage Mining的基本过程
? 进行 Web Usage Mining主要是通过对系统日志信息
的数据挖掘
? Web 服务器日志
? Error Logs
? Cookies
? Web Usage Mining的基本实现过程
? 预处理
? 模式发现
? 模式分析
预处理
? 通过预处理，使挖掘过程更有效、更容易
? 数据清洗其目的在于把日志文件中一些与数据分析、挖掘
无关的项清除掉；
? 比如：剔除用户请求方法中不是 GET的记录；
? 用户识别日志文件只是记录了主机或代理服务器的 IP地址，
要识别用户，需要 Cookie技术和用一些启发规则来帮助识别 ;
? 路径补充确认 Web日志中是否有重要的页面访问记录被遗
漏 ;
? 事件识别事件识别是与要挖掘什么样的知识有关，将用户
会话针对挖掘活动的特定需要进行事件定义。
模式发现
? 在经过预处理后的数据上应用各种数据挖掘的功能和
算法，挖掘出有用的模式和规则的过程。
? Web Usage Mining中用到的 Web日志分析及用户行
为模式的挖掘方法包括,
? 关联分析
? 分类和预测
? 聚类分析
? 序列模式
? 统计分析
Web Usage Mining——关联分析（ 1）
? 通过分析用户访问网页间的潜在联系而归纳出的一种
规则 ;
? 如 80%的用户访问 Web页面 /company/product1时，也访问
了 /company/product 2;
? 常用算法
? Apriori算法或其变形算法，频繁模式树（ FP-树）算法等等，
挖掘出访问页面中频繁的在一起被访问的页面集
? 比如可以通过
A=>B=>C
A=>B=>D A=>B
A=>B=>E =>F
Web Usage Mining——关联分析（ 2）
? 可以使用通过关联分析挖掘出来的频繁项集
（页面集）来
? 预取可能请求的页面，以减少等待时间,
? 对于频繁项集（页面集） {A,B},在用户访问 A时，将页面 B
调入缓存中，从而改善 Web缓存，缓解网络交通，提高性
能
? 促进网上商务
? 对于频繁项集 {A,B}，如果分别代表两个产品的页面，则
说明这两个产品间存在相关性，可以利用这点在电子商务
的实践中给出更有效的促销策略或广告策略
Web Usage Mining——分类和预测
? 分类和预测功能可以用来提取描述重要数据类的模型，
并使用模型预测来判定未知数据的类标号，从而预测未来的数据趋势。
? 常用算法：判定归纳树、贝叶斯分类,k-最近邻分类
等
? 应用：可以根据用户的个人资料或者其特定的访问模
式，将其归入某一特定的类
? 可以根据用户对某类产品的访问情况，或者时根据其购物情
况，或者根据其抛弃购物车的情况，来决定用户的分类（ e.g,
对电子产品感兴趣的用户），并对相应的分类使用相应的促
销策略。
Web Usage Mining——聚类分析（ 1）
? 聚类：将对象的集合分组成为由类似的对象组成的多
个类的过程。（与分类的区别？）
? 常用聚类算法：划分方法、层次的方法、基于密度的
方法等等。
? 在 Web Usage Mining应用中包含着两种聚类。
? 页聚类
? 将内容相关的页面归在一个网页组，对网上搜索引擎及提供上
网帮助很有用
? 用户聚类
? 将具有相似访问特性的用户归在一起，在电子商务的市场分割
和为用户提供个性化服务中，能发挥巨大作用
Web Usage Mining——聚类分析（ 2）
? 聚类分析可以喜好类似的用户，从而动态地为
用户定制观看的内容或提供浏览建议。
? 比如：购买推荐系统或动态促销系统
? 作用,
? 1)方便用户查询和浏览
? 2)增强广告的作用
? 3)促进网上销售
? 4)提高用户忠诚度
Web Usage Mining——统计分析（ 1）
? 统计分析
? 通过求出现率、求平均、求中值等，统计最常访问
的网页，每页平均访问的时间，浏览路径的平均长
度等，以获得用户访问站点的基本信息。
? 还能提供有限的低层次的错误分析，比如检测未授
权入口点，找出最常见不变的 URL等。
? 可以用来计算客户对某页面的访问次数，停留时间
等，得到访问次数最多的页面（或产品,URL等）
Web Usage Mining——统计分析（ 1）
? 常用的电子商务网站用户访问数据统计（节选）
? 平均一个用户
? 访问 8－ 10个页面
? 在站点上花 5分钟
? 每个页面上花 35秒
? 平均一个购物的用户
? 访问 50个页面
? 在站点上花 30分钟
? 这是经过大量的数据统计得出的结果，具有高度一致性。
Web Usage Mining——序列模式
? 序列模式试图找出页面依照时间顺序出现的内
在模式
? 序列模式可以用来做用户的浏览趋势分析，即一组
数据项之后出现另一组数据项，从而形成一组按时
间排序的会话，以预测未来的访问模式，这将有助
于针对特别用户群安排特定内容。
? 趋势分析
? 访问模式的相似性分析
模式分析
? 在挖掘出一系列用户访问模式和规则后，还需
要进一步观察发现的规则、模式和统计值。
? 确定下一步怎么办？是发布模型？还是对数据
挖掘过程进行进一步的调整，产生新的模型。
? 经过模式分析得到有价值的模式，即我们感兴
趣的规则、模式，采用可视化技术，以图形界
面的方式提供给使用者。
课后思考
? 除了用户访问模式，电子商务中还能挖掘其他
什么东西？
? 基于 Web日志的用户访问模式挖掘有什么缺点？

课件简介

课件名称：	浙江大学：数据挖掘
课件分类：	计算机
课件类型：	电子教案
文件大小：	4.47MB
下载次数：	10
评论次数：	6
用户评分：	9

显示更多>>

用户列表

更多用户>>

关于我们|帮助中心|意见反馈|联系我们