时序聚类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

时序聚类
●小事例 ●算法原理 基本原理 主要应用 类型分类 ●马尔可夫链 概念 例子 定义 ●算法示例
小事例

视频点播系统中的用户行为的时序聚类模型 对视频点播系统中用户行为进行建模和仿真,可以研究系统使用状况、 设计性 能.在很多情况下,在用户行为可分的情况下, 对用户行为进行分类预测, 对不同 模式的行为采用不同的策略能够更好的提供视频传输服务,具有更高的准确 率, 以此为基础制定的部署调度策略, 可以达到更好的效果. 因此可以对视频点播系统中用户点播行为的特性,以及系统优化策略的需要,提 出用户行为时序聚类模型。 在实际的点播系统中, 影响用户行为模式的因素很多, 如 性别, 年龄段, 受教育 状况, 从事的职业, 家庭状况, 个人偏好 等用户个人背景, 再如节假日、天气状 况等偶然因素. 在各种因素的影响下, 大量用户的行为将趋向于一些类似的模 式. 通过建立合适的行为模型, 选择合适的聚类方法, 可以发现这些行为模式, 并加以利用. 通过研究视频点播系统已有的各种内容部署策略、缓存 策略等可知, 各类策 略考查用户行为主要包括了访问到达时刻、访问时长、所涉及的视频文件、 交换式操作分布几个方面,所以利用时间序列来组织是最佳的形式.
求出聚类结果
2、对于含有时间间隔的有序序列的数值数据和定性数据,利用三种不同的相 似度计算方式:

(1)事件共同发生种类相似度: 根据不同序列间的相同事件的并发频率作为序列之间相似度的评估标 准 (2)事件发生周期相似度: (3)基于相同子序列长度的相似度

马尔可夫链
概念:时间、状态都是离散的马尔可夫过程,称为马尔可夫链(马氏链)。 例如:天气预报、质点的随机游动 在某数字通信系统中传递0,1两种信号,且传递需要经过若干级。 因为系统中有噪声,各级将造成错误,若某级输入0,1信号后, 其输出不产生错误的概率为p,产生错误的概率为1-p,
则该级的输入输出状态构成了一个两个状态的马氏链。


马尔可夫链的定义:
设有随机过程{Xn,n∈T},若对于任意的整数n∈T和任意的i0,i1, …,in+1∈I,
条件概率满足
P{ X n1 in1 | X 0 i0 , X 1 i1 ,, X n in } P{ X n1 in1 | X n in }



ຫໍສະໝຸດ Baidu
算法原理
1、基本概念 时序聚类算法是用于根据以前时间的顺序分类或聚集 数据。 2、主要应用 (1)Web应用程序的用户经常按照各种路径浏览网站, 可以对用户进行分组; (2)预测用户可能访问的下一个页面;


3、类型分类 1、有序序列的聚类方法: 先找出数据里序列集合中的共同发生的频率模型, 之后再利用所得来的搭配计算数据中序列对的相似度, 最后使用凝聚的层级算法逐渐合并,
则称{Xn,n∈T}为马尔可夫链,简称马氏链
将来的状态只与当前状态有关,与过去状态无关
为了描述马尔可夫链(n+1)维分布率,最重要的是条件概率P{Xn+1=in+1|Xn=in}. 它表示在时刻n取in值的条件下,下一时刻n+1取值为in+1的概率(一步转移概率)
算法示例

马尔可夫链预测天气 如果明天是否有雨仅于今天的天气(是否有雨)有关,而与过去的天气无关, 并设今天下雨的情况下,明天有雨的概率为α;今天无雨的情况下,而明天 有雨的概率为β;又假定把有雨称为0状态天气,把无雨称为1状态天气, 则本例是一个两状态的马尔可夫链,其一步转移概率矩阵为

P
p 00 p 10
p 01 p 11
1 1

设α=0.7,β=0.4,则一步转移概率矩阵为

于是两步转移概率矩阵为

由此,可预报后天的天气情况,今天有雨,后天仍有雨的概率为p00(2) =0.61,后天无雨概率为p01(2)=0.39;今天无雨,后天有雨的概率是p10 (2)=0.52,后天无雨的概率是p11(2)=0.48。

同理四步转移概率矩阵为
据此可预报四日后的天气状况,今日有雨,第五日仍有雨的概率是p00(4)=0.5749,今天 无雨,则第五日的降雨概率p10(4)=0.5668。 六步转移概率矩阵为
据此可预报六天后的天气状况,今日有雨,第七日仍有雨的概率是p00(6)=0.5717,今天 无雨,则 第七日的降雨概率p10(6)=0.5710。 因此,根据今日的天气状况,可由马尔可夫链的多步转移概率矩阵求得短期内的天气情况的概率,从 而实现对天气的预报。这是马尔科夫链在天气预报方面的应用。 如果我们一直重复作下去,推得每 一天的状况,一直到最后数字趋于稳定,我们称之“终极状态”。 这个状态由马尔可夫链的遍历性可以求得。
相关文档
最新文档