第8章 时间序列与基于Web的数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
使用2010年到2013年的商品房均价数据检验回归方程
• 检验结果
表8.2 线性回归方程检验结果
Excel/Weka属性未筛选 年 2010 2011 2012 2013 实际值 3000 3600 4000 3500 预测值 2865.382 3041.54 3722.672 3988.364 误差 134.618 558.46 277.328 -488.364 Weka属性筛选 预测值 2875.9376 3070.0176 3652.2576 4040.4176 误差 -124.062 -529.982 -347.742 540.4176 神经网络模型预测值 预测值 2971.865 3127.169 3686.292 3780.704 误差 -28.135 -472.831 -313.708 280.704
第13页,共40页
清华大学出版社
使用M5算法进行属性筛选。
图8.5 Weka做了属性筛选的线性回归方程输出结果
• 结论——结果仍然不理想,训练数据的平均绝对误差MAE为282.6627。 • 发现——使用线性回归不能很好地解决问题。
– 时间序列分析的经典方法
• 图表法 • 指标法
• 模型法
2018年11月12日星期一
第5页,共40页
清华大学出版社
图8.2 平均就餐等待时间的时间序列图表
平均就餐等待时间(分钟)
8 7 6
5
4 3
2
1 0 11:00 AM 11:22 AM 11:44 AM 12:05 PM 12:27 PM 12:48 PM
2018年11月12日星期一
第2页,共40页
8.1 时间序列分析
清华大学出版社
8.1.1 概述
1、时间序列
– 用时间排序的一组随机变量。 (1)根据时间序列值的个数分为
• 一元时间序列和多元时间序列。
(2)根据时间的类型分为
• 离散型时间序列和连续型时间序列。
(3)根据时间序列中序列的统计特性分为
2018年11月12日星期一
第7页,共40页
【例8.1】
根据某城市1994年至2013年20年的商品房平均售价,建立线 性回归方程模型,预测2014年该市的商品房平均售价。
清华大Fra Baidu bibliotek出版社
表8.1 某城市1993年至2013年商品房平均售价
表8.1 某城市1993年至2013年商品房平均售价
Year 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014
2018年11月12日星期一
第10页,共40页
清华大学出版社
使用方程预测2014年的商品房均价。
• 2014年的商品房均价为
1.2106*3500-0.4145*4000+0.1506*3600+186.1452 = 3307.4052
2018年11月12日星期一
第11页,共40页
清华大学出版社
2018年11月12日星期一
Cur-HousePrice 1500 1520 1580 540 600 700 1000 1200 2000 2300 1800 1700 1900 2300 2550 2800 3000 3600 4000 3500 ?
Pre-1-HousePrice 1450 1500 1520 1580 540 600 700 1000 1200 2000 2300 1800 1700 1900 2300 2550 2800 3000 3600 4000 3500
• 结论——线性回归方程的预测结果不够理想。
2018年11月12日星期一
第12页,共40页
清华大学出版社
使用Weka软件建立上述时间序列线性回归方程
图8.4 Weka不做属性删选的线性回归方程输出结果
• 结论——训练数据的平均绝对误差MAE为261.018,结果不理想。
2018年11月12日星期一
第9页,共40页
清华大学出版社
线性回归方程结果
图8.3 线性回归方程输出结果 线性回归方程
Cur-HouseP r ice 1.2106( P r e-1-HouseP r ice) 0.4145 ( P r e- 2-HouseP r ice) 0.1506( P r e- 3-HouseP r ice) 186.1452
图8.2 平均就餐等待时间的时间序列图表
2018年11月12日星期一 第6页,共40页
清华大学出版社
8.1.1 概述
3、时间序列数据挖掘的处理过程
1)确定数据挖掘目标,抽取并建立时间序列数据集,选择合适 的数据挖掘技术或算法;
2)在时间序列中设置内部时间间隔,将时间序列分割为若干个 子序列;
3)建立预测模型,应用模型预测未知值。
• 平稳型
• 季节型 • 循环型 • 直线趋势型 • 曲线趋势型
2018年11月12日星期一
第4页,共40页
清华大学出版社
8.1.1 概述
2、时间序列分析和时间序列数据挖掘
– 时间序列挖掘(Time Series Data Mining,,TSDM)
• 对时间序列进行数据挖掘的过程,即从时间序列数据中提取未知的、具有 潜在价值的与时间属性相关的知识或规律,用于短期、中期或长期预测。
Pre-2-HousePrice 1440 1450 1500 1520 1580 540 600 700 1000 1200 2000 2300 1800 1700 1900 2300 2550 2800 3000 3600 4000
Pre-3-HousePrice 1455 1440 1450 1500 1520 1580 540 600 700 1000 1200 2000 2300 1800 1700 1900 2300 2550 2800 3000 3600
第8章 时间序列和基于Web的数据挖掘
时间序列分析
基于Web的数据挖掘
清华大学出版社
本章目标
• 时间序列分析
– 掌握使用神经网络技术和线性回归方法建立预测模型,解决时 间序列预测问题。
• 基于Web的数据挖掘
– 了解如何使用数据挖掘技术对Web站点进行自动化评估和提供 个性化服务,了解Web站点如何自适应调整。 • 了解多模型应用中两种著名的方法——装袋和推进