统计学基本知识介绍PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
.
7
(3)统计学与其他学科的异同
一、统计学与概率论的异同: ➢ 不是废话的废话:概率论是统计学的基础,统计学是概率论的发展。
➢ 区别:概率论就好比是给你一个模型,你可以知道这个模型会产生什么样的数据;而统计则是给你一些数据,你来判 断是由什么样的模型产生的。
For example,概率论研究的是一个透明箱子,你知道这个箱子的构造(里面有几个红球、几个白球,也就是所谓的 分布函数),然后计算下一个摸出来的球是红球的概率。而统计学面对的是一个黑箱子,你只看得到每次摸出来的是
用统计来认识事物的步骤是:研究设计—>抽样调查—>统计推断—>结论。这里,研究设计就是制定调查研究和实验
研究的计划,抽样调查是搜集资料的过程,统计推断是分析资料的过程。显然统计的主要功能是推断,而推断的方法
是一种不完全归纳法,因为是用部分资料来推断总体。
.
4
(2)统计学起源
•两个源头: 概率论 VS 国情学 一、概率论:
综上:数据挖掘则是知识发现的核心部分,指的是从数据集合中自动抽取隐藏在数据中的那些有用信息
的过程,这些信息的表现形式为:规则、概念、规律以及模式等。
.
9
二、统计分析与数据挖掘的异同
相同点: (1)都是对数据做分析与发现。“不管是白猫还是黑猫,抓住老鼠才是好猫”。在实战中,分析问题解决问题的首要考
数据化运营与决策
——统计学的基本介绍与应用
客户关系管理中心 沈冬冬
2015年3月
目录
什么是统计学 数据分析(挖掘)主要方法及其一些应用 如何养成统计学思维和品质 常用的统计学书籍与软件
.
2
Part One:什么是统计学???
人类发现了统计,统计改变了世界。——《统计学的故事》第一章标题 •(1)统计学的定义 •(2)统计学起源 •(3)统计学与其他学科的区别 •(4)统计模型 •(5)总结:统计学是一门什么样的学科
了极大的发展,概率、期望、二项分布、中心极限定理等概念被相继提出。
结论:赌博也是把双刃剑!!!
.
5
•二、国情学: 统计学的英文是“statistic”,其实它是源于意大利文的“stato”,意思是“国家”、“情况”,也就是后来英语里
的state(国家),在十七、十八世纪,统计学很多时候都是以国情学的姿态出现的。而且很长一段时间,都是在研究人 口统计,尤其是生男生女的比例问题。 概率论和国情学的融合,统计学渐渐发展也是从这开始。在这期间时,一 些重要的理论被发现,如二项分布和大数定律。
红球还是白球,然后需要猜测这个黑箱子的内部结构,例如红球和白球的比例是多少?(参数估计)能不能认为红 球40%,白球60%?(假设检验)
.
8
二、统计分析与数据挖掘的异同:(当前比较热门的话题)
何为数据挖掘(Data Mining)? (1)是个什么样的学科:是在多个学科的基础上发展起来的。包括数据库、人工智能、机器学习、统计学、数据可视化 等一系列学科交叉结合。 (2)为什么会发展起来:随着数据库技术的发展,数据的积累快速膨胀,导致简单的查询和统计已经无法满足企业的商 业需求(尤其是在互联网公司),急需革命性的技术去挖掘数据背后的信息。 (3)如何发展起来:随着计算机领域人工智能的巨大进步,进入机器学习的阶段,故人们将数据库和机器学习相结合, 用数据库管理系统存储数据,用计算机分析数据,产生了一门新的学科:数据库中的知识发现(Knowledge Discovery in Databases,KDD)。
.
3
(1)统计学的定义
•定义:
统计学是一门研究随机现象,以推断为特征的方法论科学,“由部分推及全体”的思想贯穿于统计学的始
终。具体地说,它是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原
理和方法。此外,统计学也是于收集、整理、分析和解释统计数据的科学,是一门认识方法论性质的科学,其目的是探 索数据内在的数量规律性,以达到对客观事物的科学认识。
(2)相对于重视理论和方法的统计分析而言,数据挖掘更强调应用,毕竟数据挖掘的目的是方便企业用户的使用;
(3)“统计分析”不能建立数学模型,需要人工建模,而“数据挖掘”直接完成了数学建模。如传统的控制论建模的本
质就是描述输入变量与输出变量之间的函数关系,“数据挖掘”可以通过机器学习自动建立输入与输出的函数关系,
虑是思路,其次才是筛选与思路相匹配的分析挖掘技术;
(2)二者的理论来源很多是同根同源。数据挖掘中的技术有相当比例是依靠统计分析中的多变量分析来支撑; (3)更有观点认为,数据挖掘是统计分析技术的延伸和发展,用于处理更大规模的数据(几十万行、几百万行的数据)
不同点:
(1)“统计分析”得出的结论是人的智能活动结果,而“数据挖掘”得出的结论是机器从学习集(或训练集、样本集) 发现的知识规则;
16世纪,概率论的体系渐渐发展起来,而这要从一种和掷骰子有关的赌博活动说起。虽然这个起源并不是很光
彩,而且有待考证,但是在欧洲兴起并兴盛的骰子赌博活动,引起了一批好奇的学者的关注。掷骰子得到的点数直接决定 赌局的输赢,于是开始研究各种点数出现的机遇的大小,胜率的大小,最早开始数量研究并且给概率下定义的学者已经无 从考证了,可是有一些著作的问世和问题的讨论对概率统计的发展产生了重大的影响,比如卡丹诺的《机遇博弈》、惠更 斯的《机遇的规律》 、伯努利的《推测数》 、著名的分赌本问题、帕斯卡和费马之间的通信,在这期间,古典概型得到
结论:来自百度文库计学起源于国家的实际应用。
.
6
一个关于生男生女的问题:
• 从生物学角度来说,XX染色体与XY染色体结合是随机的,故孕妇生男生女的概率均是1/2。已知一对夫妇有两个孩子 ,且其中一个是男孩,问另外一个是女孩的概率是多少???
•A: 1/3 •B: 1/2 •C: 2/3 •D: 3/4
你知道答案吗???
根据KDD得出的“规则”,给定一组输入参数,就可以得出一组输出量。
.
10
(4)统计模型
•模型的作用:预测 or 理解产生数据的机制。
•如何寻找模型: (1)对数据进行初步探索性分析,利用图形和各种统计量(比较简单的如期望、方差等)作基础分析,了解数据的分布 ,必要的话对部分数据(缺失值、异常值等)进行清洗或者转换处理; (2)根据具体业务需求选定因变量(目标变量、响应概率)和自变量(解释变量),分析变量与变量之间的关联性、相 关性、线性性、共线性等各种关系; (3)选定变量后就要寻找合适的模型和算法(已有的模型或自己建立新的模型); (4)对多个模型进行比较分析,选择最合适的模型,并对模型不断优化,解释其中的各个变量。 (5)对模型进行检验,是否具有稳健性,对业务是否真的有帮助。