《大数据挖掘与统计机器学习》教学课件—04案例分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7
8
• 推荐系统
9
Biblioteka Baidu
• (3)分布式实现
• 数据预处理与描述统计 • 基于Spark的模型分析
• 分类、回归;聚类;推荐系统
10
• 2. 美国航空数据案例分析 • (1)数据简介
• 美国境内1988-2008年各机场航班起降记录:表10-16
11
12
• 机场信息:表10-17;航空公司信息:表10-18
24
• 节假日、周末和工作日自行车使用情况
25
• 不同天气
26
• 每个月份各站点自行车使用量动态气泡图
2013年7月
2016年8月
27
• 网络分析、站点地图
28
• 自行车角度的分析
• 1158天内共有11487辆自行车
29
• 单个站点借车量预测分析
时间序列模型
随机森林模型
30
• (3)分布式实现
3
• APP使用情况预测分析
• 因变量:最后一周是否会使用第i类APP(分类问题)及使用强度(回 归问题)
• 自变量:前23天的使用情况
4
• 模型:随机森林
5
• 用户行为聚类分析
• 用户APP使用差异的K均值聚类 • 双向聚类
6
• RFM聚类
• Recency:最近一次消费 • Frequency:消费频率 • Monetary:消费金额
结束时间
变量取值及说明 骑行时间,数值型,秒 借 车 时 间 , 字 符 串 , m/d/YYYY HH:MM:SS 还 车 时 间 , 字 符 串 , m/d/YYYY HH:MM:SS
4
start station id
借车站点编号 定性变量,站点唯一编号
5
start station name
借车站点名称 字符串
11
end station longitude
还车站点经度 数值型
12
bikeid
自行车编号
定性变量,自行车唯一编号
13
usertype
14
birth year
15
gender
用户类型
Subscriber:年度用户; Customer:24小时或7天的临时用户
出生年份
仅有此列存在缺失值
22
性别
0:未知;1:男性;2:女性
• 基于Hive的数据预处理 • 用Spark建立预测模型
31
谢谢! 请多指正!
32
单位:百帕
单位:千米
离散型,类别包括west、Calm等 单位:千米每小时
单位:千米每小时
单位:毫米,存在缺失值
离散型,类别包括snow等 离散型,类别包括 overcast,light snow等 连续型,取值在0~359 YYYY/m/d HH:MM
23
• (2)单机实现
• 描述统计分析与可视化展现
conditions
WindDirDegrees DateUTC
变量含义 日期
时间EDT
气温 露点 湿度 海平面气压 能见度 风向 风速 瞬间风速 降水量 活动
状态
风向角 格林尼治时间
变量取值及说明 字符串,YYYY-m-d EDT(Eastern Daylight Timing)指美国 东部夏令时间 单位:°C 单位:°C 百分数
6
start station latitude
借车站点纬度 数值型
7
start station longitude
借车站点经度 数值型
8
end station id
还车站点编号 定性变量,站点唯一编号
9
end station name
还车站点名称 字符串
10
end station latitude
还车站点纬度 数值型
13
• 天气数据:表10-19
14
15
• (2)单机实现
• 基于Mysql的数据预处理与描述分析
16
• 洛杉矶到波士顿航线的延误分析
17
• 机场聚类分析
18
19
• 最短路径
20
• (3)分布式实现
• 基于Hive的数据预处理
• 2000-2008年全部航班的起飞延误 • 机场聚类
• 用Spark建立分类模型
• 2000-2008年全部航班的起飞延误 • 随机森林
21
• 3. 美国纽约公共自行车数据案例分析
• (1)数据简介
• 2013年7月1日至2016年8月31日共38个月(1158天)的交易流水数据
变量编号 1 2
3
变量名 tripduration starttime
stoptime
变量含义 旅行时长 出发时间
第10章、大数据案例分析
• 1. 智能手机用户监测数据案例分析 • (1)数据简介
• 来自QM公司连续30天4万多智能手机用户的监测数据 • APP使用记录数据(脱敏后):表10-1 • 辅助数据
• app_class.csv: 4000多常用APP所属类别
1
2
• (2)单机实现 • 描述性分析:用户记录的有效情况
• 天气数据:
变量编号 1
2
3 4 5 6 7 8 9 10 11 12
13
14 15
变量名 date
time
temperature dew_point humidity pressure visibility wind_direction wind_speed moment_wind_speed precipitation activity
8
• 推荐系统
9
Biblioteka Baidu
• (3)分布式实现
• 数据预处理与描述统计 • 基于Spark的模型分析
• 分类、回归;聚类;推荐系统
10
• 2. 美国航空数据案例分析 • (1)数据简介
• 美国境内1988-2008年各机场航班起降记录:表10-16
11
12
• 机场信息:表10-17;航空公司信息:表10-18
24
• 节假日、周末和工作日自行车使用情况
25
• 不同天气
26
• 每个月份各站点自行车使用量动态气泡图
2013年7月
2016年8月
27
• 网络分析、站点地图
28
• 自行车角度的分析
• 1158天内共有11487辆自行车
29
• 单个站点借车量预测分析
时间序列模型
随机森林模型
30
• (3)分布式实现
3
• APP使用情况预测分析
• 因变量:最后一周是否会使用第i类APP(分类问题)及使用强度(回 归问题)
• 自变量:前23天的使用情况
4
• 模型:随机森林
5
• 用户行为聚类分析
• 用户APP使用差异的K均值聚类 • 双向聚类
6
• RFM聚类
• Recency:最近一次消费 • Frequency:消费频率 • Monetary:消费金额
结束时间
变量取值及说明 骑行时间,数值型,秒 借 车 时 间 , 字 符 串 , m/d/YYYY HH:MM:SS 还 车 时 间 , 字 符 串 , m/d/YYYY HH:MM:SS
4
start station id
借车站点编号 定性变量,站点唯一编号
5
start station name
借车站点名称 字符串
11
end station longitude
还车站点经度 数值型
12
bikeid
自行车编号
定性变量,自行车唯一编号
13
usertype
14
birth year
15
gender
用户类型
Subscriber:年度用户; Customer:24小时或7天的临时用户
出生年份
仅有此列存在缺失值
22
性别
0:未知;1:男性;2:女性
• 基于Hive的数据预处理 • 用Spark建立预测模型
31
谢谢! 请多指正!
32
单位:百帕
单位:千米
离散型,类别包括west、Calm等 单位:千米每小时
单位:千米每小时
单位:毫米,存在缺失值
离散型,类别包括snow等 离散型,类别包括 overcast,light snow等 连续型,取值在0~359 YYYY/m/d HH:MM
23
• (2)单机实现
• 描述统计分析与可视化展现
conditions
WindDirDegrees DateUTC
变量含义 日期
时间EDT
气温 露点 湿度 海平面气压 能见度 风向 风速 瞬间风速 降水量 活动
状态
风向角 格林尼治时间
变量取值及说明 字符串,YYYY-m-d EDT(Eastern Daylight Timing)指美国 东部夏令时间 单位:°C 单位:°C 百分数
6
start station latitude
借车站点纬度 数值型
7
start station longitude
借车站点经度 数值型
8
end station id
还车站点编号 定性变量,站点唯一编号
9
end station name
还车站点名称 字符串
10
end station latitude
还车站点纬度 数值型
13
• 天气数据:表10-19
14
15
• (2)单机实现
• 基于Mysql的数据预处理与描述分析
16
• 洛杉矶到波士顿航线的延误分析
17
• 机场聚类分析
18
19
• 最短路径
20
• (3)分布式实现
• 基于Hive的数据预处理
• 2000-2008年全部航班的起飞延误 • 机场聚类
• 用Spark建立分类模型
• 2000-2008年全部航班的起飞延误 • 随机森林
21
• 3. 美国纽约公共自行车数据案例分析
• (1)数据简介
• 2013年7月1日至2016年8月31日共38个月(1158天)的交易流水数据
变量编号 1 2
3
变量名 tripduration starttime
stoptime
变量含义 旅行时长 出发时间
第10章、大数据案例分析
• 1. 智能手机用户监测数据案例分析 • (1)数据简介
• 来自QM公司连续30天4万多智能手机用户的监测数据 • APP使用记录数据(脱敏后):表10-1 • 辅助数据
• app_class.csv: 4000多常用APP所属类别
1
2
• (2)单机实现 • 描述性分析:用户记录的有效情况
• 天气数据:
变量编号 1
2
3 4 5 6 7 8 9 10 11 12
13
14 15
变量名 date
time
temperature dew_point humidity pressure visibility wind_direction wind_speed moment_wind_speed precipitation activity