Spark大数据分析实战
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9 基于Spark的社 交网络分析
9.4 案例:基于Spark的 Facebook社团挖掘
A
9.4.1 SNAP社交 网络数据集 介绍
9.4.2 基于Spark 的社团挖掘实现
B
9 基于 Spark的 社交网络 分析
9.5 社交网络中的链路预测算 法
M.94275.CN
9.5.1 分类学习简 介
11.4 基于Spark的分布式 PageRank实现
M.94275.CN
A
11.4.1 PageRank 的MapReduce 实
现
11.4.2 Spark的分 布式图模型GraphX
B
C
11.4.3 基于 GraphX的 PageRank实现
11 构建分布式的搜 索引擎
11.7 Spark中支持向量机的 实现
索引擎
7.1 新闻数据分
7.3 爬虫抓取网
7.5 新闻聚类
析
络信息
B
D
F
7 热点新闻分析系 统
7.7 本章小结
7 热点新闻分析系统
7.3.1 Scrapy简介
7.3.2 创建基于 Scrapy的新闻
爬虫
7.3.3 爬虫分 布式化
7.3 爬虫抓取网络信息
7 热点新闻分析系 统
7.5 新闻聚类
0 1
01
11.7.1 Spark 中的支持向量机 模型
02
11.7.2 使用 Spark测试数据 演示支持向量机 的训练
11 构建分布式的搜 索引擎
Spark大数据分析实 战
演讲人
2025-11-11
01
Part One
1 Spark简介
1 Spark简介
1.1 初识 Spark
1.2 Spark生 态系统BDAS
1.3 Spark架 构与运行逻辑
1.4.1 RDD简 介
1.4.2 RDD算 子分类
1.4 弹性分 布式数据集
1.5 本章 小结
架构分析
3.1 SQL on Spark
3 BDAS简介
2020
3.2.2 Spark Streaming架
构
2022
01
02
03
3.2 Spark Streaming
3.2.1 Spark Streaming简
介
2021
3.2.3 Spark Streaming原
理剖析
3 BDAS简介
3.3.1 GraphX简介
5.7 本章小结
5.1.1 Azure网站模型
5.1.3 Azure Queue消息传递
5.1.2 Azure数据存储
5 基于云平台和用户日志的推荐系统
5.1 Azure云平台简介
5 基于云平台和用户日志的推荐系统
5.3.1 创建Azure Web应用
A
5.3.2 构建本地 Node.js网站
B
8 构建分布式的协同过滤推荐系统
01
02
03
8.3.1 Spark中的矩阵 类型
8.3.2 Spark中的矩阵 运算
8.3.3 实现Userbased协同过滤的示
例
04
05
8.3.4 实现Itembased协同过滤的示
例
8.3.5 基于奇异值分解 实现Model-based协
同过滤的示例
8.3 基于Spark的矩阵运算实 现协同过滤算法
02
Part One
2 Spark开发与环境配置
2 Spark开发与环境配置
2.1 Spark应用开 发环境配置
2.1.1 使用 Intellij开发 Spark程序 2.1.2 使用 SparkShell进行 交互式数据分析
2.2 远程调试 Spwk.baidu.comrk程序
2.4 配置Spark源
2.3 Spark编译
法
10.4.4 基于主题 模型的文本分类算
法
10.4 案例:Newsgroups新 闻的主题分析
11
Part One
11 构建分布式的搜索引擎
11 构建分布式的搜索引擎
A
C
E
11.2 搜索排序概 述
11.4 基于Spark的 分布式PageRank
实现
11.6 查询相关模型 Ranking SVM
4.2 日志分析指标
4.3 Lamda架构
4.4 构建日志分析数据流水线 4.4.1 用Flume进行日志采集
4.4.2 用Kafka将日志汇总 4.4.3 用Spark Streaming进行实时日志分析 4.4.4 Spark SQL离线日志分析 4.4.5 用Flask将日志KPI可视化 4.5 本章小结
5.6.1 加载训练 数据
5.6.3 使用ALS模型 进行电影推荐
5.6.2 使用rating RDD训练ALS模型
5.6.4 评估模型 的均方差
5.6 MLlib离线训练模型
06
Part One
6 Twitter情感分析
6 Twitter情感分析
6.1 系统架构
6.3 数据预处理与 Cassandra存储
05
Part One
5 基于云平台和用户日志的推荐系统
5 基于云平台和用户日志的推荐系统
A
C
E
5.2 系统架构
5.4 数据收集与 预处理
5.6 MLlib离线 训练模型
5.1 Azure云平 台简介
5.3 构建 Node.js应用
B
5.5 Spark
Streaming实时分
析用户日志
D
F
5 基于云平台和用户日志的 推荐系统
7.5.1 数据转换为向量
(向量空间模型VSM)
0 2
7.5.2 新闻聚类
0 3
7.5.3 词向量同义词查
询
0 4
7.5.4 实时热点新闻分
析
7 热点新闻分析系 统
7.6 Spark Elastic Search 构建全文检索引擎
03
7.6.3 通过 Elastic Search
检索数据
02
7.6.2 用Elastic Search索引
6.2 Twitter数据收集
6.2.2 Spark Streaming接 收并输出Tweet
6.3.1 添 加SBT依 赖
6.3.2 创建 Cassandr a Schema
6.3.3 数据 存储于 Cassandr a
6 Twitter情感分析
6.3 数据预处理与Cassandra存储
6 Twitter情感分析
C
8.5 案例:使用MLlib协同过 滤实现电影推荐
09
Part One
9 基于Spark的社交网络分析
9 基于Spark的社交网络分析
9.1 社交网络介绍
9.3 Spark中的K均值 算法
9.5 社交网络中的链路 预测算法
9.2 社交网络中社团挖 掘算法
9.4 案例:基于Spark 的Facebook社团挖掘
11.1 搜索引擎简 介
11.3 查询无关模 型PageRank
11.5 案例: GoogleWeb Graph的
PageRank计算
B
D
F
11 构建分布式的搜索引擎
11.7 Spark中支持向量机 的实现
11.9 本章小结
11.8 案例:基于MSLR数 据集的查询排序
11 构建 分布式的 搜索引擎
10.2 主题模 型LDA
10.3 Spark中 的LDA模型
10.4 案例: Newsgroups新闻
的主题分析
10.5 本章小 结
10 基于 Spark的大规 模新闻主题分 析
10.2 主题模型LDA
M.94275.CN
10.2.1 LDA模型 介绍
A
10.2.2 LDA的训 练算法
B
10 基于 Spark的大 规模新闻 主题分析
5.3.3 发布应用到云 平台
C
5.3 构建Node.js应用
5 基于云平台 和用户日志的 推荐系统
5.4 数据收集与预处理
M.94275.CN
1
5.4.1 通过JS收集用户行为日志
2
5.4.2 用户实时行为回传到 Azure Queue
5 基于云 平台和用 户日志的 推荐系统
5.5 Spark Streaming实时分 析用户日志
1
6.6.1 读取Cassandra数据
2
6.6.2 查看JSON数据模式
3
6.6.3 Spark SQL分析 Twitter
6.6 Spark SQL进行Twitter分 析
07
Part One
7 热点新闻分析系统
7 热点新闻分析系统
A
C
E
7.2 系统架构
7.4 新闻文本数 据预处理
7.6 Spark Elastic Search构建全文检
10.3 Spark中的LDA模型
M.94275.CN
1
10.3.1 MLlib对LDA的支持
2
10.3.2 Spark中LDA模型训练 示例
10 基于Spark的大规模新闻主题分析
10.4.1 Newsgroups数
据集介绍
10.4.2 交叉验证 估计新闻的主题个
数
10.4.3 基于主题 模型的文本聚类算
M.94275.CN
01
5.5.1 构建Azure Queue的 Spark Streaming Receiver
02
5.5.2 Spark Streaming实时处 理Azure Queue日志
03
5.5.3 Spark Streaming数据存 储于Azure Table
5 基于云平台和用户日志的推荐系统
MongoDB数据
01
7.6.1 部署
Elastic Search
08
Part One
8 构建分布式的协同过滤推荐系统
8 构建分布式的协同过滤推荐系统
A
C
E
8.2 协同过滤介 绍
8.4 基于Spark的 MLlib实现协同过
滤算法
8.6 本章小结
8.1 推荐系统简 介
8.3 基于Spark的 矩阵运算实现协同
9.5.2 分类器的评 价指标
9.5.3 基于Logistic 回归的链路预测算法
9 基于 Spark的 社交网络 分析
9.6 Spark MLlib中的Logistic 回归
M.94275.CN
9.6.1 分类器相关 对象
9.6.2 模型验证对 象
9.6.3 基于Spark的 Logistic回归示例
9.6 Spark MLlib中的 Logistic回归
9 基于Spark的社交网络分析
9.7 案例:基于Spark的链路预测 算法
9.8 本章小结
9 基于 Spark的 社交网络 分析
9.1 社交网络介绍
M.94275.CN
1
9.1.1 社交网络的类型
2
9.1.2 社交网络的相关概念
9 基于 Spark的 社交网络 分析
A
3.3.2 GraphX的使 用简介
B
3.3.3 GraphX体系 结构
C
3.3 GraphX
3 BDAS简介
3.4.1 MLlib简介
3.4.2 MLlib中的 聚类和分类
3.4 MLlib
04
Part One
4 Lamda架构日志分析流水线
4 Lamda架构日 志分析流水线
4.1 日志分析概述
9 基于Spark的社 交网络分析
9.7 案例:基于Spark的链路 预测算法
01
9.7.1 SNAP符号 社交网络 Epinions数 据集
02
9.7.2 基 于Spark 的链路预 测算法
10
Part One
10 基于Spark的大规模新闻主题分析
10 基于Spark的大规模新闻主题分析
10.1 主题模 型简介
过滤算法
8.5 案例:使用 MLlib协同过滤实
现电影推荐
B
D
F
8 构建分 布式的协 同过滤推 荐系统
8.2 协同过滤介绍
M.94275.CN
01
8.2.1 基于用户的协同过滤算法 User-based CF
02
8.2.2 基于项目的协同过滤算法 Item-based CF
03
8.2.3 基于模型的协同过滤推荐 Model-based CF
8 构建分布式的协同过滤推荐系统
8.4.1 MLlib的推 荐算法工具
8.4.2 MLlib 协同过滤推荐 示例
8.4 基于Spark的MLlib实现协 同过滤算法
8 构建分布式的协同过滤推荐系统
8.5.1 MovieLens数 据集
A
8.5.2 确定最佳的协 同过滤模型参数
B
8.5.3 利用最佳模型 进行电影推荐
码阅读环境
2.5 本章小结
03
Part One
3 BDAS简介
3 BDAS简介
3.1 SQL on Spark
3.2 Spark Streaming
3.3 Graph X
3.4 MLlib
3.5 本 章小结
3 BDAS简介
3.1.1 为什 么使用
Spark SQL
3.1.2 Spark SQL
6.5 Spark Streaming在 线情感分析
6.2 Twitter数据收集
6.4 Spark Streaming热 点Twitter分析
6.6 Spark SQL进行 Twitter分析
6 Twitter情感分析
6.7 Twitter可 视化
6.8 本章小 结
6.2.1 设置
6 Twitter情感分析
9.2 社交网络中社团挖掘算法
M.94275.CN
9.2.1 聚类分析和K 均值算法简介
9.2.2 社团挖掘的 衡量指标
9.2.3 基于谱聚类 的社团挖掘算法
9 基于Spark的社交网络分析
01
9.3.1 Spark中 与K均值有 关的 对象 和方法
02
9.3.2 Spark下 K均值算 法示例
9.3 Spark中的K均值算法