电子商务与数据挖掘
基于 WEB日志的用户访问模式挖掘
电子商务与数据挖掘 ——完美结合
? 在电子商务中进行成功的数据挖掘得益于,
? 电子商务提供海量的数据
? 如果一个电子商务网站平均每个小时卖出五件物品,那么它一 个月的平均点击量是 160万次。
? 丰富的记录信息
? 良好的 WEB站点设计将有助于获得丰富的信息
? 干净的数据
? 从电子商务站点收集的都是电子数据,无需人工输入或者是从 历史系统进行整合
? 研究成果容易转化
? 在电子商务中,很多知识发现都可以进行直接应用
? 投资收益容易衡量
电子商务为数据挖掘提供海量数据
?,点击流”( Clickstreams)将会产生电子商务挖掘的
大量数据
? Yahoo!在 2000年每天被访问的页面数是 10亿,如此大的访
问量将会产生巨大的 Web日志(记载页面访问的情况),每
个小时产生的 Web日志量就达到 10GB!
? 即便是一个小的电子商务站点,也会在断时间内产生进行数据挖掘所需的大量数据
? 计算一下,如果你的站点一个小时卖出 5件物品,一个月会
有多少页面访问,
? 5件 × 24小时 × 30天 /% 2(转化率,表示访问的人中买东西
的人的比率) × 9页面(平均买一件物品要访问 9个页面)=
1,600,000页面
丰富的记录信息
? 如果你的电子商务站点设计的好,你将可以获
得各种商务的或者是用户访问的信息,
? 商品和商品的属性
? 商品的归类信息(当同时展示多种商品是,归类信
息是非常有用的)
? 促销信息
? 关于访问的信息(比如:访问计数)
? 关于客户额信息 (可以通过登陆 /注册来获得)
“干净的数据,
? 信息直接从网站上提取
? 无需从历史系统中集成,避免很多错误
? 可以通过良好的站点设计,直接获得跟数据挖掘有关
的数据
? 而不是再来分析、计算、预处理要用的数据
? 直接收集的电子数据 ——可靠
? 无需人工数据输入,避免了很多错误
? 可以通过良好的站点设计,良好的控制数据采样的颗
粒度
? 颗粒度控制在客户级别或者是 session级别,而不是页面级别
有趣的, 生日现象,
? 一个银行通过对客户数据统计发现,它的 5%
的客户都是在同一天出生的(同年同月同日)!
为什么?
如何解释?
研究成果容易转化
? 历史上的数据挖掘研究有过许多的知识发现,但是这
些知识发现却很少在实际的商业应用中产生什么效果
? 要应用这些发现的知识可能意味着要进行复杂的系统更改、
流程更改或是改变人们的办事习惯,这在现实中是非常困难
的。
? 在电子商务中,很多知识发现都可以进行直接应用
? 改变站点的设计(改变布局,进行个性化设计等)
? 开始有目标的促销
? 根据对广告效果的统计数据改变广告策略
? 可以很容易的提供捆绑销售
投资收益容易衡量
? 使用数据挖掘成果的革新带来的收益如何衡量?
? 在传统的商业中衡量投资收益需要长期的测量和观察,Paco
Underhill在, 购物的科学, 一书中提及,一个超市为了衡量
他们的促销策略带来的投资收益,每年要花 14,000个小时查
看录像带。
? 在电子商务中,衡量革新的投资收益是非常容易的
? 销售变化的报表可以自动产生
? 客户对电子邮件和电子调查的反馈都可以在几天内得到,而
不必等个几个月
? 电子商务乃至整个互联网都是传统商业的理想试验室。
对电子商务网站的 Web数据挖掘
? 通常在一个电子商务网站上应用的数据挖掘技
术是 Web数据挖掘。
? 我们可以在一个电子商务网站挖掘些什么东西?
? 内容挖掘 (Web Content Mining)
? 结构挖掘 (Web Structure Mining)
? 使用挖掘 (Web Usage Mining)
Web Content Mining
? 对 Web页面内容进行挖掘,从 Web数据中发现
信息。
? 自动地从数以百万计的 Web站点和在线数据库中搜
索和获取信息和资料 ;
? 尽管人们可以直接从网上通过抓取建立索引,实现
检索服务来获得资源,但是大量的“隐藏”信息只
能通过内容挖掘来自动挖掘。
Web Structure Mining
? Web Structure Mining是对 Web页面之间的结
构进行挖掘。
? 在整个 Web空间,有用的知识不仅包含在页面的内
容中,而且也包含在页面的结构中。
? Web结构挖掘主要针对的就是页面的超链接结构,
如果有较多的超链接指向它,那么该页面就是重要
的,发现的这种知识可用来改进搜索路径等。
Web Usage Mining
? 与 Web Content Mining和 Web Structure Mining不同
的是,Web Usage Mining的挖掘对象是用户和网络
交互过程中抽取出来的二手数据,这些数据主要是用
户在访问 Web时在 Web日志里留下的信息,以及其它
一些交互信息,
? 日志信息包括访问日期、时间、用户 IP地址、服务器 IP地址、
方法、所请求 URL资源、服务器响应状态、用户代理、发送
字节等。
? Web Usage Mining就是对系统日志信息,以及用户的注册
数据等进行挖掘,以发现有用的模式和知识。
Web Usage Mining的作用
? 通过对电子商务网站应用 Web Usage Mining
数据挖掘技术,可以
? 提高站点的质量
? 改善 WEB缓存,缓解网络交通,提高性能
? 在电子商务中还可捕捉到大量的采购过程的细节,
为更加深入的分析提供了可能
Web日志 (1)
? 典型的日志文件片断
? uplherc.upl.com - - [01/Aug/1995:00:01:38 -0400]
"GET/shuttle/missions/sts-71/images/images.html HTTP/1.0" 200
8529
? 133.43.96.45 - - [01/Aug/1995:00:01:39 -0400]
"GET/shuttle/missions/sts-72/mission-sts-72.html HTTP/1.0" 200
3804
? 133.68.18.180 - - [01/Aug/1995:00:01:48 -0400] "GET
/persons/nasa-cm/jmd.html HTTP/1.0" 200 4067
? WEB日志通常包含 7个字段,
? 第一项:远程主机的地址,即它表明访问网站的究竟是谁。
? 第二项:浏览者的 email地址或者其他唯一标识符。到了今天,
我们在日志记录的第二项看到 email地址的机会已经微乎其微,
所以上面用 -,标志字段为空
Web日志 (2)
? 典型的日志文件片断
? uplherc.upl.com - - [01/Aug/1995:00:01:38 -0400]
"GET/shuttle/missions/sts-71/images/images.html HTTP/1.0" 200
8529
? 第三项:记录浏览者进行身份验证时提供的名字;对于不需
要用户身份验证的网站,这个字段都是空白 -;
? 第四项:请求的时间;
? 第五项:告诉我们服务器收到的是一个什么样的请求。该项
信息的典型格式是,METHOD RESOURCE PROTOCOL”,即
“方法 资源 协议”;这是 Web日志中最有用的信息,在上
面的示例中
? METHOD是 GET
? RESOURCE是指浏览者向服务器请求的文档,或 URL
? PROTOCOL通常是 HTTP,后面再加上版本号。
Web日志 (3)
? 典型的日志文件片断
? uplherc.upl.com - - [01/Aug/1995:00:01:38 -0400]
"GET/shuttle/missions/sts-71/images/images.html HTTP/1.0" 200
8529
? 第六项:状态代码。它告诉我们请求是否成功,或
者遇到了什么样的错误。大多数时候,这项值是
200,它表示服务器已经成功地响应浏览器的请求,
一切正常。
? 第七项:发送给客户端的总字节数。
Web Usage Mining的基本过程
? 进行 Web Usage Mining主要是通过对系统日志信息
的数据挖掘
? Web 服务器日志
? Error Logs
? Cookies
? Web Usage Mining的基本实现过程
? 预处理
? 模式发现
? 模式分析
预处理
? 通过预处理,使挖掘过程更有效、更容易
? 数据清洗 其目的在于把日志文件中一些与数据分析、挖掘
无关的项清除掉;
? 比如:剔除用户请求方法中不是 GET的记录;
? 用户识别 日志文件只是记录了主机或代理服务器的 IP地址,
要识别用户,需要 Cookie技术和用一些启发规则来帮助识别 ;
? 路径补充 确认 Web日志中是否有重要的页面访问记录被遗
漏 ;
? 事件识别 事件识别是与要挖掘什么样的知识有关,将用户
会话针对挖掘活动的特定需要进行事件定义。
模式发现
? 在经过预处理后的数据上应用各种数据挖掘的功能和
算法,挖掘出有用的模式和规则的过程。
? Web Usage Mining中用到的 Web日志分析及用户行
为模式的挖掘方法包括,
? 关联分析
? 分类和预测
? 聚类分析
? 序列模式
? 统计分析
Web Usage Mining——关联分析( 1)
? 通过分析用户访问网页间的潜在联系而归纳出的一种
规则 ;
? 如 80%的用户访问 Web页面 /company/product1时,也访问
了 /company/product 2;
? 常用算法
? Apriori算法或其变形算法,频繁模式树( FP-树)算法等等,
挖掘出访问页面中频繁的在一起被访问的页面集
? 比如可以通过
A=>B=>C
A=>B=>D A=>B
A=>B=>E =>F
Web Usage Mining——关联分析( 2)
? 可以使用通过关联分析挖掘出来的频繁项集
(页面集)来
? 预取可能请求的页面,以减少等待时间,
? 对于频繁项集(页面集) {A,B},在用户访问 A时,将页面 B
调入缓存中,从而改善 Web缓存,缓解网络交通,提高性
能
? 促进网上商务
? 对于频繁项集 {A,B},如果分别代表两个产品的页面,则
说明这两个产品间存在相关性,可以利用这点在电子商务
的实践中给出更有效的促销策略或广告策略
Web Usage Mining——分类和预测
? 分类和预测功能可以用来提取描述重要数据类的模型,
并使用模型预测来判定未知数据的类标号,从而预测未来的数据趋势。
? 常用算法:判定归纳树、贝叶斯分类,k-最近邻分类
等
? 应用:可以根据用户的个人资料或者其特定的访问模
式,将其归入某一特定的类
? 可以根据用户对某类产品的访问情况,或者时根据其购物情
况,或者根据其抛弃购物车的情况,来决定用户的分类( e.g,
对电子产品感兴趣的用户),并对相应的分类使用相应的促
销策略。
Web Usage Mining——聚类分析( 1)
? 聚类:将对象的集合分组成为由类似的对象组成的多
个类的过程。(与分类的区别?)
? 常用聚类算法:划分方法、层次的方法、基于密度的
方法等等。
? 在 Web Usage Mining应用中包含着两种聚类。
? 页聚类
? 将内容相关的页面归在一个网页组,对网上搜索引擎及提供上
网帮助很有用
? 用户聚类
? 将具有相似访问特性的用户归在一起,在电子商务的市场分割
和为用户提供个性化服务中,能发挥巨大作用
Web Usage Mining——聚类分析( 2)
? 聚类分析可以喜好类似的用户,从而动态地为
用户定制观看的内容或提供浏览建议。
? 比如:购买推荐系统或动态促销系统
? 作用,
? 1)方便用户查询和浏览
? 2)增强广告的作用
? 3)促进网上销售
? 4)提高用户忠诚度
Web Usage Mining——统计分析( 1)
? 统计分析
? 通过求出现率、求平均、求中值等,统计最常访问
的网页,每页平均访问的时间,浏览路径的平均长
度等,以获得用户访问站点的基本信息。
? 还能提供有限的低层次的错误分析,比如检测未授
权入口点,找出最常见不变的 URL等。
? 可以用来计算客户对某页面的访问次数,停留时间
等,得到访问次数最多的页面(或产品,URL等)
Web Usage Mining——统计分析( 1)
? 常用的电子商务网站用户访问数据统计(节选)
? 平均一个用户
? 访问 8- 10个页面
? 在站点上花 5分钟
? 每个页面上花 35秒
? 平均一个购物的用户
? 访问 50个页面
? 在站点上花 30分钟
? 这是经过大量的数据统计得出的结果,具有高度一致性。
Web Usage Mining——序列模式
? 序列模式试图找出页面依照时间顺序出现的内
在模式
? 序列模式可以用来做用户的浏览趋势分析,即一组
数据项之后出现另一组数据项,从而形成一组按时
间排序的会话,以预测未来的访问模式,这将有助
于针对特别用户群安排特定内容。
? 趋势分析
? 访问模式的相似性分析
模式分析
? 在挖掘出一系列用户访问模式和规则后,还需
要进一步观察发现的规则、模式和统计值。
? 确定下一步怎么办?是发布模型?还是对数据
挖掘过程进行进一步的调整,产生新的模型。
? 经过模式分析得到有价值的模式,即我们感兴
趣的规则、模式,采用可视化技术,以图形界
面的方式提供给使用者。
课后思考
? 除了用户访问模式,电子商务中还能挖掘其他
什么东西?
? 基于 Web日志的用户访问模式挖掘有什么缺点?
基于 WEB日志的用户访问模式挖掘
电子商务与数据挖掘 ——完美结合
? 在电子商务中进行成功的数据挖掘得益于,
? 电子商务提供海量的数据
? 如果一个电子商务网站平均每个小时卖出五件物品,那么它一 个月的平均点击量是 160万次。
? 丰富的记录信息
? 良好的 WEB站点设计将有助于获得丰富的信息
? 干净的数据
? 从电子商务站点收集的都是电子数据,无需人工输入或者是从 历史系统进行整合
? 研究成果容易转化
? 在电子商务中,很多知识发现都可以进行直接应用
? 投资收益容易衡量
电子商务为数据挖掘提供海量数据
?,点击流”( Clickstreams)将会产生电子商务挖掘的
大量数据
? Yahoo!在 2000年每天被访问的页面数是 10亿,如此大的访
问量将会产生巨大的 Web日志(记载页面访问的情况),每
个小时产生的 Web日志量就达到 10GB!
? 即便是一个小的电子商务站点,也会在断时间内产生进行数据挖掘所需的大量数据
? 计算一下,如果你的站点一个小时卖出 5件物品,一个月会
有多少页面访问,
? 5件 × 24小时 × 30天 /% 2(转化率,表示访问的人中买东西
的人的比率) × 9页面(平均买一件物品要访问 9个页面)=
1,600,000页面
丰富的记录信息
? 如果你的电子商务站点设计的好,你将可以获
得各种商务的或者是用户访问的信息,
? 商品和商品的属性
? 商品的归类信息(当同时展示多种商品是,归类信
息是非常有用的)
? 促销信息
? 关于访问的信息(比如:访问计数)
? 关于客户额信息 (可以通过登陆 /注册来获得)
“干净的数据,
? 信息直接从网站上提取
? 无需从历史系统中集成,避免很多错误
? 可以通过良好的站点设计,直接获得跟数据挖掘有关
的数据
? 而不是再来分析、计算、预处理要用的数据
? 直接收集的电子数据 ——可靠
? 无需人工数据输入,避免了很多错误
? 可以通过良好的站点设计,良好的控制数据采样的颗
粒度
? 颗粒度控制在客户级别或者是 session级别,而不是页面级别
有趣的, 生日现象,
? 一个银行通过对客户数据统计发现,它的 5%
的客户都是在同一天出生的(同年同月同日)!
为什么?
如何解释?
研究成果容易转化
? 历史上的数据挖掘研究有过许多的知识发现,但是这
些知识发现却很少在实际的商业应用中产生什么效果
? 要应用这些发现的知识可能意味着要进行复杂的系统更改、
流程更改或是改变人们的办事习惯,这在现实中是非常困难
的。
? 在电子商务中,很多知识发现都可以进行直接应用
? 改变站点的设计(改变布局,进行个性化设计等)
? 开始有目标的促销
? 根据对广告效果的统计数据改变广告策略
? 可以很容易的提供捆绑销售
投资收益容易衡量
? 使用数据挖掘成果的革新带来的收益如何衡量?
? 在传统的商业中衡量投资收益需要长期的测量和观察,Paco
Underhill在, 购物的科学, 一书中提及,一个超市为了衡量
他们的促销策略带来的投资收益,每年要花 14,000个小时查
看录像带。
? 在电子商务中,衡量革新的投资收益是非常容易的
? 销售变化的报表可以自动产生
? 客户对电子邮件和电子调查的反馈都可以在几天内得到,而
不必等个几个月
? 电子商务乃至整个互联网都是传统商业的理想试验室。
对电子商务网站的 Web数据挖掘
? 通常在一个电子商务网站上应用的数据挖掘技
术是 Web数据挖掘。
? 我们可以在一个电子商务网站挖掘些什么东西?
? 内容挖掘 (Web Content Mining)
? 结构挖掘 (Web Structure Mining)
? 使用挖掘 (Web Usage Mining)
Web Content Mining
? 对 Web页面内容进行挖掘,从 Web数据中发现
信息。
? 自动地从数以百万计的 Web站点和在线数据库中搜
索和获取信息和资料 ;
? 尽管人们可以直接从网上通过抓取建立索引,实现
检索服务来获得资源,但是大量的“隐藏”信息只
能通过内容挖掘来自动挖掘。
Web Structure Mining
? Web Structure Mining是对 Web页面之间的结
构进行挖掘。
? 在整个 Web空间,有用的知识不仅包含在页面的内
容中,而且也包含在页面的结构中。
? Web结构挖掘主要针对的就是页面的超链接结构,
如果有较多的超链接指向它,那么该页面就是重要
的,发现的这种知识可用来改进搜索路径等。
Web Usage Mining
? 与 Web Content Mining和 Web Structure Mining不同
的是,Web Usage Mining的挖掘对象是用户和网络
交互过程中抽取出来的二手数据,这些数据主要是用
户在访问 Web时在 Web日志里留下的信息,以及其它
一些交互信息,
? 日志信息包括访问日期、时间、用户 IP地址、服务器 IP地址、
方法、所请求 URL资源、服务器响应状态、用户代理、发送
字节等。
? Web Usage Mining就是对系统日志信息,以及用户的注册
数据等进行挖掘,以发现有用的模式和知识。
Web Usage Mining的作用
? 通过对电子商务网站应用 Web Usage Mining
数据挖掘技术,可以
? 提高站点的质量
? 改善 WEB缓存,缓解网络交通,提高性能
? 在电子商务中还可捕捉到大量的采购过程的细节,
为更加深入的分析提供了可能
Web日志 (1)
? 典型的日志文件片断
? uplherc.upl.com - - [01/Aug/1995:00:01:38 -0400]
"GET/shuttle/missions/sts-71/images/images.html HTTP/1.0" 200
8529
? 133.43.96.45 - - [01/Aug/1995:00:01:39 -0400]
"GET/shuttle/missions/sts-72/mission-sts-72.html HTTP/1.0" 200
3804
? 133.68.18.180 - - [01/Aug/1995:00:01:48 -0400] "GET
/persons/nasa-cm/jmd.html HTTP/1.0" 200 4067
? WEB日志通常包含 7个字段,
? 第一项:远程主机的地址,即它表明访问网站的究竟是谁。
? 第二项:浏览者的 email地址或者其他唯一标识符。到了今天,
我们在日志记录的第二项看到 email地址的机会已经微乎其微,
所以上面用 -,标志字段为空
Web日志 (2)
? 典型的日志文件片断
? uplherc.upl.com - - [01/Aug/1995:00:01:38 -0400]
"GET/shuttle/missions/sts-71/images/images.html HTTP/1.0" 200
8529
? 第三项:记录浏览者进行身份验证时提供的名字;对于不需
要用户身份验证的网站,这个字段都是空白 -;
? 第四项:请求的时间;
? 第五项:告诉我们服务器收到的是一个什么样的请求。该项
信息的典型格式是,METHOD RESOURCE PROTOCOL”,即
“方法 资源 协议”;这是 Web日志中最有用的信息,在上
面的示例中
? METHOD是 GET
? RESOURCE是指浏览者向服务器请求的文档,或 URL
? PROTOCOL通常是 HTTP,后面再加上版本号。
Web日志 (3)
? 典型的日志文件片断
? uplherc.upl.com - - [01/Aug/1995:00:01:38 -0400]
"GET/shuttle/missions/sts-71/images/images.html HTTP/1.0" 200
8529
? 第六项:状态代码。它告诉我们请求是否成功,或
者遇到了什么样的错误。大多数时候,这项值是
200,它表示服务器已经成功地响应浏览器的请求,
一切正常。
? 第七项:发送给客户端的总字节数。
Web Usage Mining的基本过程
? 进行 Web Usage Mining主要是通过对系统日志信息
的数据挖掘
? Web 服务器日志
? Error Logs
? Cookies
? Web Usage Mining的基本实现过程
? 预处理
? 模式发现
? 模式分析
预处理
? 通过预处理,使挖掘过程更有效、更容易
? 数据清洗 其目的在于把日志文件中一些与数据分析、挖掘
无关的项清除掉;
? 比如:剔除用户请求方法中不是 GET的记录;
? 用户识别 日志文件只是记录了主机或代理服务器的 IP地址,
要识别用户,需要 Cookie技术和用一些启发规则来帮助识别 ;
? 路径补充 确认 Web日志中是否有重要的页面访问记录被遗
漏 ;
? 事件识别 事件识别是与要挖掘什么样的知识有关,将用户
会话针对挖掘活动的特定需要进行事件定义。
模式发现
? 在经过预处理后的数据上应用各种数据挖掘的功能和
算法,挖掘出有用的模式和规则的过程。
? Web Usage Mining中用到的 Web日志分析及用户行
为模式的挖掘方法包括,
? 关联分析
? 分类和预测
? 聚类分析
? 序列模式
? 统计分析
Web Usage Mining——关联分析( 1)
? 通过分析用户访问网页间的潜在联系而归纳出的一种
规则 ;
? 如 80%的用户访问 Web页面 /company/product1时,也访问
了 /company/product 2;
? 常用算法
? Apriori算法或其变形算法,频繁模式树( FP-树)算法等等,
挖掘出访问页面中频繁的在一起被访问的页面集
? 比如可以通过
A=>B=>C
A=>B=>D A=>B
A=>B=>E =>F
Web Usage Mining——关联分析( 2)
? 可以使用通过关联分析挖掘出来的频繁项集
(页面集)来
? 预取可能请求的页面,以减少等待时间,
? 对于频繁项集(页面集) {A,B},在用户访问 A时,将页面 B
调入缓存中,从而改善 Web缓存,缓解网络交通,提高性
能
? 促进网上商务
? 对于频繁项集 {A,B},如果分别代表两个产品的页面,则
说明这两个产品间存在相关性,可以利用这点在电子商务
的实践中给出更有效的促销策略或广告策略
Web Usage Mining——分类和预测
? 分类和预测功能可以用来提取描述重要数据类的模型,
并使用模型预测来判定未知数据的类标号,从而预测未来的数据趋势。
? 常用算法:判定归纳树、贝叶斯分类,k-最近邻分类
等
? 应用:可以根据用户的个人资料或者其特定的访问模
式,将其归入某一特定的类
? 可以根据用户对某类产品的访问情况,或者时根据其购物情
况,或者根据其抛弃购物车的情况,来决定用户的分类( e.g,
对电子产品感兴趣的用户),并对相应的分类使用相应的促
销策略。
Web Usage Mining——聚类分析( 1)
? 聚类:将对象的集合分组成为由类似的对象组成的多
个类的过程。(与分类的区别?)
? 常用聚类算法:划分方法、层次的方法、基于密度的
方法等等。
? 在 Web Usage Mining应用中包含着两种聚类。
? 页聚类
? 将内容相关的页面归在一个网页组,对网上搜索引擎及提供上
网帮助很有用
? 用户聚类
? 将具有相似访问特性的用户归在一起,在电子商务的市场分割
和为用户提供个性化服务中,能发挥巨大作用
Web Usage Mining——聚类分析( 2)
? 聚类分析可以喜好类似的用户,从而动态地为
用户定制观看的内容或提供浏览建议。
? 比如:购买推荐系统或动态促销系统
? 作用,
? 1)方便用户查询和浏览
? 2)增强广告的作用
? 3)促进网上销售
? 4)提高用户忠诚度
Web Usage Mining——统计分析( 1)
? 统计分析
? 通过求出现率、求平均、求中值等,统计最常访问
的网页,每页平均访问的时间,浏览路径的平均长
度等,以获得用户访问站点的基本信息。
? 还能提供有限的低层次的错误分析,比如检测未授
权入口点,找出最常见不变的 URL等。
? 可以用来计算客户对某页面的访问次数,停留时间
等,得到访问次数最多的页面(或产品,URL等)
Web Usage Mining——统计分析( 1)
? 常用的电子商务网站用户访问数据统计(节选)
? 平均一个用户
? 访问 8- 10个页面
? 在站点上花 5分钟
? 每个页面上花 35秒
? 平均一个购物的用户
? 访问 50个页面
? 在站点上花 30分钟
? 这是经过大量的数据统计得出的结果,具有高度一致性。
Web Usage Mining——序列模式
? 序列模式试图找出页面依照时间顺序出现的内
在模式
? 序列模式可以用来做用户的浏览趋势分析,即一组
数据项之后出现另一组数据项,从而形成一组按时
间排序的会话,以预测未来的访问模式,这将有助
于针对特别用户群安排特定内容。
? 趋势分析
? 访问模式的相似性分析
模式分析
? 在挖掘出一系列用户访问模式和规则后,还需
要进一步观察发现的规则、模式和统计值。
? 确定下一步怎么办?是发布模型?还是对数据
挖掘过程进行进一步的调整,产生新的模型。
? 经过模式分析得到有价值的模式,即我们感兴
趣的规则、模式,采用可视化技术,以图形界
面的方式提供给使用者。
课后思考
? 除了用户访问模式,电子商务中还能挖掘其他
什么东西?
? 基于 Web日志的用户访问模式挖掘有什么缺点?