大数据案例分析-南京大学

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0 , 0 , 1 ,1 , 23 , 23
每个小区每天可以表示成48维的特征向量,针对小区进行特征聚类,利用聚类 结果以及以往同期数据进行预测。
主要案例
电力(环保)大数据 江苏方天电力技术有限公司
环保设施工况寻优模块建模及典型机组应用技术服务
火电机组运行人员行为分析模块建模及典型机组应用技术服务 燃煤机组超低排放监测数据辨识模型建模及典型机组应用技术服 务项目
方天项目:海量数据压缩
项目需求
压缩算法模型,要有较高的压缩比和压缩效率:压缩比至少做到1:5 ,每兆数据压缩时间不多于10秒钟。
研究开发的压缩/解压缩算法必须为无损压缩/解压缩。 能够兼容实时数据流的压缩/解压缩方式和历史数据文件的压缩/解压 缩两种功能需求。 最终提供的交付物包括:完整算法模型文档、完整的算法实现代码 ,且代码能够支持跨平台使用(包括Windows和Linux)。
全南京市,5000基站,8个指标,24小时值,之前一年数据量>10GB
电信大数据:话务预测
需求:通过对各小区(一个基站包含多个小区)上指标分析与建模,预 测各小区未来某天的指标值。 数据量:全南京市,7000多小区,8个指标,24小时值,一年数据量 >13GB。
任务:根据需求,预测任务具体分为两类,
主要创新点
为Hadoop系统提供图形化管理界面 基于Map/Reduce编程模型,对常用的数据挖掘算法进行并行化
基于XML技术,为大数据建立元数据管理系统
应用MVC开发框架,提供可扩展的、易用的大数据分析平台
主要功能
主要核心算法
基本算法 WordCount, TF-IDF, 排序, 距离计算(Euclidean, Manhattan) 聚类算法 K-means, Canopy ,Graph Mining(the Shortest Path) 分类与预测算法 KNN, Naive Bayesian, SVM, BP Neural Network, Locally-Weighted, Linear Regression(LWLR), Logistic Regression 关联规则算法 Apriori, FP 协同过滤算法 User-Based Collaborative Filtering(CF), Item-Based CF 中文处理 分词(具有新词学习和词库扩充功能) 网页解析 VIPS,DOM-Tree, PageRank, InvertedIndexing
数据量:
每天登陆的不同用户数:PC端10万级;APP端万级
每天产生的日志记录:PC端和APP端均有百万条 房源数量级:新房1.8万,二手房200万套左右
高峰时段并发访问:万级用户
365网推荐系统:项目概况
365网推荐系统:用户画像
365网推荐系统:用户画像
算法方案: 冷启动用户:热门标签 低频访问用户:使用K-means进行用户聚类,为目标用户找到距离最 近的聚类中心,将聚类中心的标签作为其画像。
三,四,五
一,二
1 1 2 3 4
全网全指标预测 ——高斯特征抽取聚类
x0 x1 x2 x23
以天为粒度构成序列:
x0 1 2 23 where k xk xk 1
依据n个历年同期序列,可以抽出48个特征值:
n

0
1
2
3
23

电力(环保)大数据
数据描述
数据主要由源于发电机组内部传感器数据以及除尘、脱硫、脱硝等环保 设备的运行参数和环境温度等外部因素构成。
数据特点
原始数据中维数比较高,同时由于数据是由传感器经过固定的时间间隔 进行采集而形成的,因此可以认为是典型的时间序列。
数据量
根据不同的采样时间间隔和总的采样时间,三个项目对应所需处理的数 据量从10万条到55万条不等。
大数据案例分析
高 阳 教授/博导
王皓博士/副研究员,史颖欢 博士/副研究员 南京大学软件新技术国家重点实验室 江苏省软件新技术与产业化协同创新中心 中国计算机学会大数据专家委员会

1
2 3 4 5

大数据应用背景
互联网大数据应用
工业大数据应用 政务大数据应用 大数据与智慧城市
大数据案例分析
1
大数据应用背景
489
297 92.2 362 142 556 23.7 154
95.8
53.2 18.1 69.7 20.1 69.5 3.44 18.1
5.1
5.58 5.09 5.19 7.06 8 6.89 8.51
77.36
41.47 13.01 38.48 17.38 59.75 2.63 48.37
8.26
经测试该算法能够兼容实时数据流和历史数据文件的压缩 /解压缩两种功能需求。 该算法适用于Windows平台和Linux平台。
大数据技术和案例分析
4
政务大数据应用
政务大数据应用案例
审计大数据
江苏省审计厅
财政大数据稽查 科技项目大数据 南京协同软件有限责任公司 科技项目管理关键技术研究及实现
高频访问用户:使用频次统计结合行为优先级加权,按频率设定标签。
算法结果: 个性化用户画像精准定位
365网推荐系统:用户画像
365网推荐系统:个性推荐
模块需求: 推荐结果:根据用户访问记录结合用户画像、房源标签,预测用户可 能感兴趣的房源 实时更新:推荐列表随用户点击实时变化
输出
测试结果
数据压缩测试 文件夹名称 原始大小 (MB) 压缩后的大小 (MB) 压缩比 压缩时间(s) 解压时间(s)
dcc(.hda)
dtl(.hda)
358
585
43.6
83.5
8.21
7.01
36.87
69.99
4.23
7.74
nh(.hda)
rd(.hda) sw(.hda) xcc(.hda) xtl(.hda) xtx(.hda) zyzhly(.hda) ssdata(.rda)
国内外竞争产品
Weka 新西兰Waikato大学研发 数据源/数据格式/算法/用户界面 单机算法(分类、聚类、关联规则等等)
Mahout
Apache开源项目 采用Map/Reduce,并行化数据挖掘算法
用户界面:命令行交互
DoDo 自主知识产权 采用Map/Reduce,并行化数据挖掘算法 友好的图形界面
干道预警 工作日,周末
异常小区预警
行业应用 景区预警
七个法定节假日
全网预测,高效调整和保障
异常小区预警 ——平滑特征抽取,时间维度聚类 异常预警处理方法:
针对小区历史数据,提取每天特征值(平滑后12个值); 对该小区一周七天进行聚类(例如上述例子可以分为两类),并且以属于该 类的聚类中心进行线性插值后的24个值作为一小区的平时正常话务量; 实时监测小区话务量,如果某小区某天值连续超过该类的正常值,则进行异 常预警。 六,日 一,二 pattern 实时周一 预警!
• 决策树:GBDT
365网推荐系统:个性推荐
推荐结果:
协同过滤
SVD
NMF
特征维度
推荐点击率 精确度
1379
6.18% 2.14%
4
18.54% 3.02%
10
18.16% 3.66%
各算法推荐效果对比
大数据技术和案例分析
3
工业大数据应用
主要案例
电信大数据 中博信息技术研究院有限公司 话务预测 大规模电信数据离网用户预测与分析 电信产品健康度管理系统
4.65 1.54 4.6 1.9 6.52 0.3 1.84
注:测试机器的配置为intel i7处理器(主频2.1GHZ)、内存12GB、win8操作系统
效果结论
在所有给定的数据集上进行测试压缩比均在1:5以上,数 据压缩的时间远远超出给定的指标(每兆数据压缩时间不 多于10秒钟)。
经验证,压缩/解压缩算法均为无损压缩/解压缩。
审计厅项目:政府大数据
公民个人数据、环境数据、 各行各业及的业务数据、 ……

作为一个国家最为庞大的组织机构,政府是最大的数据生产、收集、 使用和发布的单位;
方天项目:工况寻优模块建模
以环境温度等为输入条件,发掘特定供热负荷(工况)下机 组可调出力区间(机组负荷的最大值、最小值)。
负荷的最大值、最小值应根据数据分布特征选取数据密集区 的极值。
避免极值落在数据稀疏区域(置信度较低),以确保负荷极 值是合理可达的。
供热机组可调处理区间估计:解决方法
典型的聚 类任务
知识产权
基于Hadoop的KNN,FP,SVM,PLSA以及文档分类等算法
申请国家发明专利9项,授权4项:201210071445.X,201210072524.2等
大数据技术和案例分析
2
互联网大数据应用
365网推荐系统:项目概况
需求:通过对365网APP端和Web端的用户访问日志学习推荐系统模型到达 提高点击推荐到买房的转化率的目的。
压缩方法流程
输入
字典 字符流
待编码区域
...this is a text that is being read through the window...
LZ77编码
Fra Baidu bibliotek...<distance,length,literal>,<distance,length,literal>...
区间编码
..................code................
计算不同因素下的煤耗分布,计算它们 之间的EMD距离从而得到主要影响因素
时间序列 预测
在节假日采用SVR模型,温度过高或过 低月份采用GRNN神经网络,其他时间 采用SARIMA模型
节能环保指标预测结果:
月份 实际值 预测值 绝对误差 相对误差 1 2 3 4 5 6 7 8 3234.66 2071.88 2903.70 2790.80 2698.10 2514.20 2736.70 2822.80 3323.00 2089.00 3031.65 2640.44 2743.21 2702.20 2664.70 2664.70 88.34 17.12 127.95 150.36 45.11 188.00 72.00 158.10 2.73% 0.83% 4.41% 5.39% 1.67% 7.48% 2.63% 5.60%
负荷为427下的SO2排放浓度概率密度曲线
方天项目:超低排放监测数据辨识模型建模
以历史数据为样本进行分布特征分析,识别并剔除其中的异常 数据,并据此估计参数的合理取值范围
方天项目:超低排放监测数据辨识模型建模
任务1(异常值检测)
通过分析历史数据辨别出其中的异常值和正常值。
异常值检 测
通过KDE估计方法,将概率出现次 数较少的点进行辨识。通过时间域 上异常值检测的方法辨识出数据中 的跳变点。
个性化推荐:“千人千面”
2016/11/5
365网推荐系统:个性推荐
算法方案: 基于用户画像的推荐算法 • 根据用户画像对房源进行筛选 • 属性按重要程度加权
• 计算用户对房源综合评分,Top-k形成推荐结果
基于用户行为的推荐算法 • 矩阵分解:SVD,NMF
• 协同过滤:基于用户/物品相似性度量
美国棱镜计划
9家互联网公司,10种类型数据
美国棱镜计划
技术概述
技术名称 并行大数据分析工具箱(DoDo Toolbox) 技术目标
实现基于云计算平台的大数据分析关键技术及应用平台
通过对Hadoop系统进行封装,提供了一套用户友好的基于
图形化界面的软件系统
基于Map/Reduce框架的数据挖掘并行化算法 提供一个可扩展的、易于使用的大数据分析平台
9
10 11
2240.50
2202.70 2505.80
2244.50
2402.10 2773.30
4.00
199.40 267.50
0.18%
9.05% 10.68%
负荷为333下的煤耗概率密度曲线
12
AVG
3121.40
3385.70
264.30
131.85
8.47%
4.93%
2015年负荷预测值和真实值对比
使用k-means聚类
典型的数 据分布刻 画任务
使用高斯分布刻画
方天项目:行为分析模块建模

行为分析模块建模:解决办法
任务1,2(得到分布特征)
得到供电数据煤耗数据特征以及主机小指标的数据分 布特征
概率密度 估计
使用核密度估计
任务3(班组煤耗比较)
比较各种情况下的煤耗分布差异,找出主要影响因素
不同分布 之间的比 较
相关文档
最新文档