J029JX-大数据解决方案交流-数据挖掘交流(北京航天新概念软件有限公司)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
纵 条 纹 缺 陷 控 制 模 型
348.38CSi+660CAl-1.09445 RT01.1681 FT6+1412.7257<0
支持度相49.11%
最终效果
工厂原有生产控制策略
调整前
调整后
不满足控制模型
满足控制模型
348.38CSi+660CAl-1.09445 RT0-1.1681 FT6+1412.7257<0
通过对粉丝们的信息分析,奥巴马团队成功的满足了她们与钟爱的明星 共进晚餐的愿望,也成功的让她们争先的打开钱包。
一次被大数据改变的美国大选
策略2:了解用户的行为,你可以花最少的钱办最大的事
在整个的竞选中,奥巴马团队的广告费用花了不到 3 亿美金,而罗姆尼团队则花了 近 4 亿美金却落败,这是因为奥巴马的数据团队对于广告购买的决策,是经过缜密 的数据挖掘分析之后才制定的。
2.数据的理解以及收集(data understanding)
收集原始数据、描述数据、探索数据、检验数据质量
3.数据的准备(data preparation)
选择数据、清洗数据、构造数据、整合数据、格式化数据
4.建立模型(modeling)
选择建模技术、参数调优、生成测试计划、构建模型
5.评估模型(evaluation)
一次被大数据改变的美国大选
奥巴马是如何赢得竞选的?
目标
让更多的人掏更多的钱 让更多的选民投票给奥巴马 让更多的人参与进来
提炼
解决思路
每个选民在什么情况下最 有可能掏腰包? 每个选民最有可能被什么 因素说服? 什么样的广告投放渠道能 够最高效获取目标选民?
一次被大数据改变的美国大选
策略1:了解用户要什么,你才能知道如何让他们打开钱包
次品率 30%
次品率 1.8%
案例背景-劳动定额
西飞集团某公司,在生产管理过程中积累了丰富的劳动定额数据,但 是这些数据并没能够对生产计划的制定起到指导作用。原有生产计划的制 定是基于一些经验公式对生产时间进行估算,这种经验公式对于以生产过 的零件估算较准确,但对新零件或修改后的零件生产时间的估算与实际值 偏差很大。这导致了生产计划无法做到精确有效,计划延误率居高不下。
• 客户细分 • 市场细分
数据挖掘主要技术
分类(模式识别):
按照某种指定的属性特征将 数据归类。需要确定类别的概念 描述,并找出类判别准则。
分类是利用训练数据集通过 一定的算法而求得分类规则的。 是模式识别的基础。
银行高风险客户,学习得到 分类器。对一个新来的申请 者,根据分类器计算风险, 决定接受或拒绝该申请
数据挖掘主要技术
聚类:
对具有共同趋势或结构的数据进行分 组(数据划分)。将数据项分组成多个类, 类之间的数据差别应尽可能大,类内的数 据差别应尽可能小。即“最小化类间的 相似性, 最大化类内的相似性”。
聚类分析可以建立宏观的概念,发现 数据的分布模式。是知识发现的基础。
聚类分析 Clustering
“克鲁尼效应”复制
在东海岸物色一位对于这个女性群体具有相同号召力的影星时,数据团队发现莎 拉·杰西卡·帕克 (Sarah Jessica Parker,《欲望都市》的女主角)的粉丝们也同样 喜欢竞赛、小型宴会和名人,于是,一个与奥巴马共进晚餐的“竞争”便诞生了, 那就是争夺在杰西卡·帕克的纽约 West Village 豪宅美餐的机会。
数据挖掘
数据挖掘:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、 未知的或验证已知的规律性,用于辅助企业决策。
跨行业数据挖掘标准流程( CRoss-Industry Standard Process for Data Mining, CRISP-DM)
1.商业理解(business understanding) 确定数据挖掘目标、制定项目计划
奥巴马的数据挖掘团队在过去两年搜集、存储和分析了大量数据。他们发现,影星 乔治·克鲁尼(George Clooney)对美国西海岸 40 岁至 49 岁的女性具有非常大的吸 引力,她们无疑是最有可能为了在好莱坞与克鲁尼和奥巴马共进晚餐而不惜自掏腰 包的一个群体。克鲁尼在自家豪宅举办的筹款宴会上,为奥巴马筹集到数百万美元 的竞选资金。(克鲁尼效应)
分析影响变压器正常运行的 因素,预测变压器是否有故 障,若有故障,故障为放电 故障、过热故障、短路故障 等的哪一种。
数据挖掘主要技术
回归:
确定因素与因素或原因与 结果之间的函数关系。通常指 连续要素之间的模型关系。
主要用于连续量的预测;是 因果关系分析的基础。
Residual error
300 200 100
Decrease Usage
???
Time
• 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析
目录
引例 数据挖掘基本知识 案例交流 美林对数据挖掘的认识 美林在数据挖掘的优势
案例背景-硅钢纵条纹
某钢铁企业是中国最大的特种钢材生产企业,在其某条硅钢生产线上, 由于多种复杂因素的作用,成品表面有时会形成一种称为纵条纹的瓦楞状 缺陷。纵条纹缺陷不仅影响产品的外观效果,而且对产品的物理性能如层 间电阻,电磁性能和叠片性能等有着直接的影响,其纵条纹缺陷钢占生产 量的30%左右,每年给企业带来巨大的损失。
主要市场:模具业、汽车工业、航空
工业。
2021/3/22
主要产品图例
32
刀具寿命预测
--原始方法:基于最小二乘法的回归分析
为了使株洲钻石数据库中各种型号的刀具切削数据发挥最大价值,为生产提供 辅助决策,需要通过数学建模的方式,实现利用切削参数预测刀具的寿命。
示例 SEET12T3-DF-YBG202型号刀具切削45钢试验数据
0 -100
0
Gaussian kernel Polynomial kernel
100
200
300
400
500
Data series
数据挖掘主要技术
关联:
变量之间存在的规律性联结称为关 联(通常指离散变量(事件)之间)。要求 找出描述这种关联的规则,并用以预测 或识别。
关联分析的目的是找出数据库中隐 藏的关联网。是离散变量因果分析的 基础。
切削速度 进给量/F 切削宽度/Ae 切削深度/Ap 硬度/HB 真实寿命
250
0.1
30
250
0.2
20
250
0.2
30
250
0.2
40
250
0.2
30
250
0.2
40
250
0.3
30
250
0.3
20
250
0.4
30
1
281
99
2
277
39.7
1
272
43.5
2
优区
数据准备
收集到可能产生纵条纹的影响因素(15个): 连铸中包温度:t1,t2,t3 连铸拉速:v1,v2,v3 铸坯成分:C、Si、Mn、S、P、Al 粗轧出口温度: RT0 精轧出口温度: FT6 卷取温度: CT
1 = 纵条纹产品 -1 = 合格产品
算法建模
建立基于L1/2正则化的稀疏模型
一次被大数据改变的美国大选
在奥巴马获胜前的 70 年时间里,没有一名美国总统能够在全国失业率高于 7.4% 的情况下连任成功。
近 10 亿美金筹款 (网络筹款是罗姆 尼的两倍)
花销不到 3 亿美金
近 10 亿美金筹款 近 4 亿美金
奥巴马
332 票
206 票 打破传统竞选规律
罗姆尼
传统定律 谁筹的钱越多谁胜出可能性越大、谁花的钱越多谁就会赢
目录
引例 数据挖掘基本知识 案例交流 美林对数据挖掘的认识 美林在数据挖掘的优势
一次被大数据改变的美国大选
就在美国总统奥巴马成功击败对手罗姆尼、再次赢得美国总统选举的当天,《时 代》杂志撰写了一篇文章,描述了奥巴马总统获胜背后的秘密——数据挖掘。以 竞选工作组发言人 Ben LaBolt 的话来形容:奥巴马团队拥有“核代码”,数据是 能够击败罗姆尼的最根本优势!
一次被大数据改变的美国大选
数据挖掘
数据挖掘应用无处不在
速食者、单身、有 上学孩子的家庭
邮件促销更个性化;
上架商品及促销也可以根据周围人群的喜 好、消费的时段来更加有针对性;
用户信息、行
为、状态、 Likes、关系圈 等等
ShoppyCat
礼物挑选
目录
引例 数据挖掘基本知识 案例交流 美林对数据挖掘的认识 美林在数据挖掘的优势

传 统
学 法


方 法
设 备 法
降低钢中的硅含量 降低钢中的铝含量
成分控制有 一定限度
酸洗机中增加常化设备 增加电磁搅拌设备
投入大改 造周期长
问题的复杂性
(1)影响产品质量的因素难以确定 该工艺流程属于长流程的复杂生产过程,影响产品
质量的因素特别多,且很难确定。 ●冗余变量 ●变量不足
问题的复杂性
通过复杂的建模来找到目标选民。例如,如果迈阿密戴德郡的 35 岁以下女性是 我们的目标,那么这里有如何覆盖她们的方式。”因此,奥巴马竞选团队在一 些非传统节目中购买了广告,例如 4 月 23 日的电视剧《混乱之子》、《行尸走 肉》和《23 号公寓的坏女孩》。芝加哥总部称,在电视平台上,2012 年的广告 购买效率较 2008 年提升了 14%。
相对误差 6.979%
株洲钻石刀具厂简介
株洲钻石刀具厂公司能根据客户的不同需求来图来样生产各类切削工具,为机械 加工制造提供成套的解决方案。
主要产品:提供各种标准/非标准的物
理、化学涂层、金属陶瓷和超硬材料等牌 号的车削、铣削、镗削、钻削、切断、切 槽和螺纹加工的可转位数控刀片及配套的 高精度刀具,同时提供各种高质量焊接刀 片、机夹刀片,硬质合金孔加工刀具及工 具系统,并配有适合各种加工材料的精加 工、半精加工和粗加工的相应断屑槽型。
5分钟?
10分钟?
多少分钟?
数据准备
收集到各种不同部件的实际定额数据 部件一:累计周长 部件二:加工直径、加工深度 部件三:加工宽度、加工直径、加工深度
部件一
部件二
部件三
算法建模
采用神经网络回归算法对数据进行学习 经过算法参数调优后最终得出预测模型
最终效果
实际值 预测值
相关系数 99.77%
远远超过 人的经验
正常硅钢板
有纵条纹缺陷的硅钢板
案例背景
硅钢的生产属于典型的长流程生产过 程,包括50多道个工序,其中与硅钢成 品表面纵条纹缺陷相关的工序就包括锅炉 冶炼、热轧粗轧、热轧精轧、酸洗、轧制、 退火及涂层和剪切等。
原因分析
硅钢纵条纹缺陷的产生机理十分复杂,其根本原因是硅钢中的硅、铝 含量较高,铸坯组织中柱状晶粗大,而且热轧过程中不发生α–γ相变, 这样铸坯中粗大的柱状晶体由于动态回复和再结晶缓慢而不能彻底破碎, 导致热轧板的板厚中心附近为粗大伸长的变形晶粒,它们在以后的冷轧 和退火过程中难以再结晶,这样宏观上便表现为硅钢成品表面出现纵向 条纹。
对模型进行较为全面的评价,评价结果、重审过程
6.部署(deployment) 形成数据挖掘报告,结果应用
CRISP-DM1999年欧盟机构联合起草. 通过近几年的发展,在各种 KDD过程模型中占据领先位置。
数据挖掘主要技术
聚类 (clustering) 分类 (classification) 回归 (regression) 关联 (association) 预报 (prediction)
这样的样本称为不相容样本,相应的 数据集称为不相容数据集.
问题的复杂性
鉴于流程工业数据的特点,对于流程工业的产品质量控制问题,目前一 般不能应用通用的数据挖掘或机器学习软件直接进行,必须就具体问题具 体分析,根据机器学习的基本原理,构造特殊的模型和算法.
N
支持度最大化准则 分类面P的支持度和置信度
(2)非平衡性
流程工业产品质量数据往往正品样本个数是次品样 本个数的几十甚至几百倍或者普通质量的产品样本个 数是精品样本个数的几十甚至几百倍,这种数据集称 为不平衡数据集.
对不平衡数据集的分类传统的分类方法失效.
问题的复杂性
(3)不相容性
硅钢生产是非常复杂的生产过程,产 生纵条纹的影响因素很多,为了简化问 题和数据获取方便,我们常常忽略了一 些对纵条纹作用相对较小的影响因素, 这样就会存在很多硅钢产品其影响纵条 纹的因素非常相同或相近,但纵条纹的 类别却相反的样本.
关联分析 Association
• 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售
数据挖掘主要技术
预报:
对时间序列数据搜索其重复发 生概率较高的模式,描述基于时 间的经常发生的规律或趋势。
基于历史数据对对未来模式进 行预测。是时序模式分析与预测 的基础。
Open Accn’t
Add New Product
相关文档
最新文档