基于大数据平台的数据挖掘的研究与应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(5)离散值特征分析
(6)T检验 (7)卡方检验
机器学习
运用机器学习中的回归方法 根据实测数据来求解模型的各个参数,然后评价回归 模型是否能够很好的拟合实测数据;如果能够很好的拟合, 则根据自变量作进一步预测。 (1)线性回归 (2)GBDT回归 (3)XGBOOST回归
机器学习
线性回归,是利用数理统计中回归分析,来确定两种 或两种以上变量间相互依赖的定量关系的一种统计分析方法, 运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值 为0的正态分布。
解决方案-比赛任务
评测成本:
在本赛题中,参赛者需要提供对于每个商品在未来两周的全国最优目标库存和分仓区域最优目标库 存的预测。我们会提供每一个商品的补少成本(A)和补多成本(B),然后根据用户预测的目标库存值 跟实际的需求的差异来计算总的成本。参赛者的目标是让总的成本最低。
全国范围内的成本计最大值,min为样本数据的最小值。这种方法有个缺陷就是 当有新数据加入时,可能导致max和min的变化,需要重新定义。
标准化

Z-score标准化方法
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数 据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函 数为: X -
特征重要性评估
决策树与迭代决策树(GBDT)特征重要性: GBDT是一种常用的非线性模型,它基于集成学习中的boosting思想,每次迭代都在减少残差的梯度 方向新建立一颗决策树,迭代多少次就会生成多少颗决策树。GBDT的思想使其具有天然优势可以发现多种 有区分性的特征以及特征组合,决策树的路径可以直接作为LR输入特征使用,省去了人工寻找特征、特征 组合的步骤。 GBDT树有多少个叶子节点,通过GBDT得到的特征空间就有多大。 计算梯度渐进决策树特征重要性。
分仓区域内的成本计算如下:
总的衡量指标:
解决方案-比赛任务
赛题数据:
我们提供商品从20141010到20151227的全国和区域分仓数据。参赛者需给出后面两周 (20151228-20160110)的全国和区域分仓目标库存。 商品在全国的特征包括商品的本身的一些 分类:类目、品牌等,还有历史的一些用户行为特征:浏览人数、加购物车人数,购买人数。注意 我们要预测的未来需求是“非聚划算支付件数”(qty_alipay_njhs)。
特征工程
特征变换 A 特征重要性 评估
特征选择
数据视图 特征生成
C
E
B
D
天池的御膳房算法平台提供特征工程的工具和方法
菜鸟-需求预测与分仓规划项目的特征工程
特征提取:
提取训练集的特征 提取brand_id的特征 提取store_code 提取brand_id的特征 提取商品的特征 提取store_code的特征 提取supplier_id的特征 提取store_code的特征
阿里巴巴旗下电商拥有海量的买家和卖家交易场景下的数据。利用数据挖掘技术,我们能对未来的 商品需求量进行准确地预测,从而帮助商家自动化很多供应链过程中的决策。这些以大数据驱动的 供应链能够帮助商家大幅降低运营成本,提升用户的体验,对整个电商行业的效率提升起到重要作 用。
赛题介绍:
本赛题以历史一年海量买家和卖家的数据为依据,要求参赛者预测某商品在未来二周全国和区域性 需求量。选手们需要用数据挖掘技术和方法精准刻画商品需求的变动规律,对未来的全国和区域性 需求量进行预测,同时考虑到未来的不确定性对物流成本的影响,做到全局的最优化。更精确的需 求预测,能够大大地优化运营成本,降低收货时效,提升整个社会的供应链物流效率。
数据挖掘是什么?
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿 。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大 量的数据中通过算法搜索隐藏于其中信息的过程。
研究与应用
赛题背景:
提取cate_level_id的特征 提取cate_level_id的特征
合并特征:
合并训练集特征
特征变换
主成成分分析(PCA): 通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。 降维的目的: 1.减少预测变量的个数 2.确保这些变量是相互独立的 3.提供一个框架来解释结果 PCA过程: 1.特征中心化。即每一维的数据都减去该维的均值。 2.求协方差矩阵。 3.计算协方差矩阵的特征值和特征向量。 4.选取大的特征值对应的特征向量,得到新的数据集。
X*

结合赛题的实际情况所做的一些具体的数据预处理步骤
预处理的前期工作:
把表格数据倒进来 数据合并: 合并所有仓库 归一化和标准化: 合并全国表和分仓表 查看数据 congfig的预处理
最后两周每种商品的销售额
求方差
日期的处理
得到每周商品的标准差
数据过滤:消除双十二的影响,得到20151129之后的商品销量数据。双十二的数 据用12月10日和12月13日的平均值代替 购物节数据预处理:每个商品的每周内的销量的平均数和标准差 购物节特征
窗口变量统计: 给定时间窗口,计算相应用户在距离运行时间的时间窗内的行为次数和金额。如时间窗口为’1,7,30,90,180’, 则计算用户相应天数内的行为次数和金额。 数据视图: 大数据通用可视化控件。
统计分析
在御膳房中为我们提供了七种可以使用的统计方法 (1)百分位 (2)全表统计 (3)皮尔森系数 (4)直方图(多字段)
基于大数据平台的数据挖掘 的研究与应用
曹水根
1
大数据平台生态系统
目 录
2
应用与研究
3
软件著作权
大数据是什么?
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集 合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多 样化的信息资产。
随机森林
随机森林特征重要行评估: 指的是利用多棵树对样本进行训练并预测的一种分类器。随机森林就是由多棵CART (Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的 训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵树的 训练集中,也可能从未出现在一棵树的训练集中。 ​2 特征选择 在特征重要性的基础上,特征选择的步骤如下: 1)计算每个特征的重要性,并按降序排序 2)确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集 3)用新的特征集重复上述过程,直到剩下m个特征(m为提前设定的值)。 4)根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集。​
机器学习
Boosting方法: Boosting这其实思想相当的简单,大概是,对一份数据,建立M个 模型(比如分类),一般这种模型比较简单,称为弱分类器(weak learner)每次分类都将上一次分错的数据权重提高一点再进行分类,这样 最终得到的分类器在测试数据与训练数据上都可以得到比较好的成绩。
线性模型特征重要性: 线性模型,是数理统计学中研究变量之间关系的一种模型,其中未知参数仅以线性形式出现。主要包括线性 回归分析、方差分析和协方差分析。 计算线性模型的特征重要性,包括线性回归和二分类逻辑回归, 支持稀疏和稠密。
特征选择与生成
偏好计算: 根据用户的行为数据,计算用户偏好分。 过滤式特征选择: 过滤式特征选择:是指根据一定的算法,从所有特征数据中过滤出比较比较强的特征数据。是一个统一的 特征筛选框架. 目前支持以上方式: iv,信息增益,Gini增益:主要用于单特征重要性评估; Lasso: 用户超大规模特征的降维筛选(集成中); RandomForest,GBDT:用于多特征之间的重要性评估(集成中);
1)Volume(大体量):即可从数百TB到数十数百PB、甚至EB的规模。 2)Variety(多样性):即大数据包括各种格式和形态的数据。 3)Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处 理。 4)Veracity(准确性):即处理的结果要保证一定的准确性。 5)Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利 用将带来巨大的商业价值。
特征变换
特征规范:
当数据变化波动比较大时,采用标准化或者归一化的方式做数据。本节点可以根据特征取值的波动性, 自动筛选需要离散的TopN个特征。
特征尺度变换: 支持稠密或稀疏的数值类特征进行常见的尺度变化。 特征离散: 支持稠密或稀疏的数值类特征 等频离散 和 等距离散。 特征离散: 支持稠密或稀疏的数值类特征 等频离散 和 等距离散。 特征异常平滑: 根据用户选择异常特征,将特征含有异常的数据平滑到一定区间, 支持稀疏和稠密 数值类特征。
机器学习
Gradient Descent Boosting的框架: 假设我们的模型能够用下面的函数来表示,P表示参数,可能有多个参 数组成,P = {p0,p1,p2….},F(x;P)表示以P为参数的x的函数,也就是我 们的预测函数。我们的模型是由多个模型加起来的,β表示每个模型的权 重,α表示模型里面的参数。为了优化F,我们就可以优化{β,α}也就是P。 我们还是用P来表示模型的参数,可以得到,Φ(P)表示P的 likelihood函数,也就是模型F(x;P)的loss函数,Φ(P)=…后面的一块看起 来很复杂。
特征重要性评估
随机森林特征重要行评估:
根据训练数据和随机森林模型评估特征的重要性
优点: 1. 它能够处理很高维度(feature很多)的数据,并且不用做特征选择; 2. 由于随机选择样本导致的每次学习决策树使用不同训练集,所以可以一定程度上避免过拟合。 缺点: 1. 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合; 2. 对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机 森林在这种数据上产出的属性权值是不可信的。

合并列: 将两张表的数据按列合并,需要表的行数保持一致,否则报错。

UNION:
类似sql union的功能,将两张表的数据按行合并,左、右表选择输出的字段保 持完全一致;"去重"是union,不"去重"是union all。
增加序列号
在数据表第一列追加ID列。
缺失值填充

忽略元组

随机采样: 以随机方式生成采样数据,每次采样是各自独立的。

过滤与映射:
对数据按照过滤表达式进行筛选。"过滤条件"中填写where语句后面的sql脚本即 可;"映射规则"可以rename字段名称。

分层采样 : 根据用户指定的分组字段分层采样样本
数据合并

JOIN:
类似sql join的功能,将两张表通过一个字段关联合成一张表;同时用户可以 rename输出的字段名称
注:各表的具体详情请参考赛程说明文档
数据预处理
采样与过滤 A 数据合并
增加序列号 C 拆分
缺失值填充 E 归一化
B
D
F
标准化 G
天池的御膳房算法平台提供数据预处理工具和方法
采样与过滤

加权采样:
以加权方式生成采样数据;权重列必须为double或int类型,按照该列的value大 小采样;如col的值是1.2和1.0;则value=1.2所属样本的被采样的概率就大一些。
表(1)item_feature:商品粒度相关特征
表(2)item_store_feature: 商品和分仓区域粒度相关特征
表(3)config: 每个商品在全国和分仓区域的补少、补多的成本 表(4)选手需要提交的结果表(预测目标表)
参赛者需要提供每个商品的全国和分仓区域的未来两周(20151228-20160110)目标库存。
人工填写缺失值 使用全局常量(如Unknown)填写缺失值
使用属性的中心度量(如均值或者中位数)填充缺失值
使用与给定元组属同一类的所以样本的属性均值或中心值 使用最可能的值填充缺失值
拆分

按照比例拆分样本集,如设置0.6,切分成60:40两个样本集
归一化

min-max 标准化
也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换 X Min 函数如下: *
相关文档
最新文档