大数据技术及数据分析课程培训(PPT 51页)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

125
0/1
1/2 2/3 3/4 5/6 7/8 10/11 14/15 21/22
3201~10000
200
0/1
1/2 2/3 3/4 5/6 7/8 10/11 14/15 21/22
10001~35000 315
0/1
1/2 2/3 3/4 5/6 7/8 10/11 14/15 21/22
从以上数据你可以发现什么?
8
目录
数理统计常识
量化的重要性 统计基础知识 数据挖掘简介
数理统计技术
9
误差(波动)
偶然误差
可减小但不可消除
系统误差
可消除
10
抽样
样本大小
AQL 0.010 0.015 0.025 0.040 0.065 0.1 0.15 0.25 0.40 0.65 1.0 1.5 2.5 4.0 6.5 10
13
数据的居中程度和离散程度
主要的居中指标
平均值
数据集的平均值
中位数
数据排序后得到的中间数
众数
数据集中最频繁出现的值
主要的离散指标
极差
数据集中最大值与最小值的差值
方差
与平均值间距的平方和的平均值
标准偏差 方差的平方根
14
正态曲线
大多数(但不是所有)数据符合正态分布
15
目录
数理统计常识
本次改革中,发达国家向发展中 国家共转移了3.13个百分点的投 票权。中国在世行的投票权从目 前的2.77%提高到4.42%,成为 世界银行第三大股东国,仅次于 美国和日本
世界银行规则:任何重要的决议 必须由85%以上的表决权决定
名次 国家 改革后投票权 改革前投票权
1
美国
15.85%
15.85%
抽样数 收/退 收/退 收/退 收/退 收/退 收/退 收/退 收/退 收/退 收/退 收/退 收/退 收/退 收/退 收/退 收/退
1~8 9~15 16~25 26~50 51~90 91~150 151~280 281~500
2
0/1
3
0/1
Hale Waihona Puke Baidu
5
0/1
1/2
8
0/1
1/2 2/3
35001~150000 500
0/1
1/2 2/3 3/4 5/6 7/8 10/11 14/15 21/22
150001~500000 800
0/1
1/2 2/3 3/4 5/6 7/8 10/11 14/15 21/22
≥500001
1250 0/1
1/2 2/3 3/4 5/6 7/8 10/11 14/15 21/22
大数据技术及数据分析
主讲人:师伟
课程收益
学习数理统计的理念 熟悉常见的处理套路 掌握常用软件的使用 解决学员的具体问题
2
目录
数理统计常识 数理统计技术
3
目录
数理统计常识
量化的重要性 统计基础知识 数据挖掘简介
数理统计技术
4
案例
(武汉晨报3月31日报道)经过三天两夜长途跋涉,5万多瓶武汉救命水昨日运抵干旱重 灾区云南省禄劝县,就在大家准备换小货车进山送水时,却遇到了“天价运费”的梗 阻,140公里山路,两名当地司机要价6000元。 昨日下午,晨报记者与林厚凯押运的5万多瓶武汉救命水一到禄劝县城,就受到了该县团 委热情地接待。团委书记夏飞表示,他们接到团省委的通知后,按照武汉送水人的要 求,对全县数十家小学进行了摸底,确定了两个最需要水的小学:离县城最远的大松树 乡小学和雪山乡小学。据了解,从县城过去要走140多公里盘山路,大车根本无法行驶, 必须换乘小货车才行。可禄劝县城小货车稀少,在禄劝县团委的帮助下,林厚凯好不容 易找到了2辆小货车,谁知车主一见是外地人,报出天价运费,两台车运水,运费6000 元。5万瓶水从武汉运到云南禄劝,武汉的两个司机也只是收了5000元运费。知情者透 露,在禄劝像这样的运输,费用最多不超过2000元。有人劝林厚凯不如将水就近发放, 可他坚持要把水送到最需要的地方。林厚凯说,这个价格虽然远超出他的预期,但为了 尽早把水送到孩子们手上,他不会计较。 昨晚,在当地交警部门协调下,两位禄劝货车司机松口,将车费降到5000元。为了尽早 完成送水心愿,昨晚,记者和林厚凯连夜进山送水。
量化的重要性 统计基础知识 数据挖掘简介
数理统计技术
16
数据挖掘简介
数据挖掘(Data Mining)的概念
从数据库数据中揭示出隐含的、未知的并有潜在价值的信息 决策支持,基于人工智能、机器学习、模式识别、统计学、数据库、
可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理, 从中挖掘出潜在的模式,帮助做出正确的决策
13
0/1
1/2 2/3 3/4
20
0/1
1/2 2/3 3/4 5/6
32
0/1
1/2 2/3 3/4 5/6 7/8
50
0/1
1/2 2/3 3/4 5/6 7/8 10/11
501~1200
80
0/1
1/2 2/3 3/4 5/6 7/8 10/11 14/15
1201~3200
11
连续数据和离散数据
连续数据
定量 信息含量大
离散数据
定性 信息含量小
12
判断数据属性
1. 销售订单准确度 2. 数据输入准确度 3. 销售地区 4. 用通规测量得到的孔径 5. 用卡尺测量得到的孔径 6. 客户热线对话时间 7. 空调制冷剂的重量 8. 一批顾客中不满意的人数 9. 一批顾客中不满意的比例
5
案例
记者 樊富珉
在短时间内发生这么多起跳楼的事件,如果站在理论 角度上,发生率算不算高?
按卫生部统计,目前中国自杀率大概是十万分之十六 左右。而富士康40多万人,约十万分之二三左右,大 学生我们也做过统计,大概十万分之二到三左右。如 果从全国的自杀率来比的话,应该还是低的
6
案例
世界银行发展委员会25日通过了 发达国家向发展中国家转移投票 权的改革方案,这一改革从一个 侧面反映了世界经济版图的变化
2
日本
6.84%
7.62%
3
中国
4.42%
2.77%
4
德国
4.00%
4.35%
5
法国
3.75%
4.17%
5
英国
3.75%
4.17%
7
印度
2.91%
2.77%
8 俄罗斯
2.77%
2.77%
8
沙特
2.77%
2.77%
10 意大利
2.64%
2.71%
7
案例
在一次海难中,统计数据为
头等舱乘客319人,200人幸存 二等舱乘客269人,117人幸存 三等舱乘客699人,172人幸存
相关文档
最新文档