统计学基础知识梳理
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、基础知识及应用
(七)显著水平与单样本假设检验
• 怎么去算55这个值呢?使用如下的公式:
• 上面的公式,其实不是拿来求55的,而是求50或者59对应的z值;
• 然后我们自己定义了一个想要的概率,比如90%,那我们知道一个对应的
z值是-1.65;
• 然后拿50或者59对应的z和-1.65比,就行了;
还健在,也不知道会活多少岁,我们顶多是把过去几年死了的土豪
们拉出来看看各自活了多大;
• 假如我们找过去三年死了的土豪,一共找了200个人,这200个人就
构成了一个样本,我们就可以试着通过研究这200个人的样本特征,
去推断整个土豪群体的平均寿命是否超过了100岁(其实我们只能知
道它是否肯定超过了100岁)
面的公式了:
一、基础知识及应用
(六)总体均值估计与置信水平
• 总体均值估计就是在只有个
别样本的情况下,想知道一
个总体均值位置的一种实用
方法;
• 其原理就是通过一个样本,
可以求得一个样本均值,然
后我们发现当样本数量很大
的候,样本均值会离总体
均值越来越近,因为总体均
值就是样本均值的均值~;
• 把这个样本均值分布转换成
多少。
• 想把一个正态分布转换成标准正态分布,只需要用下面的公式就可
以了:
• 现在有计算机,其实任何正态分布都可以直接求概率,无需转换为z
分布了.
一、基础知识及应用
(五点一)样本均值的概率分布
• 所谓样本均值,就是一个总体,比如p3班所有同学的年龄,我们可
以求出一个年龄的均值来;
• 然后任意找两个同学,可以求出一个均值来,这个均值一般都不等
• 所谓超几何分布,就是每次结果之间互相干扰的一种方法,比如你
还是丢硬币,但接硬币的桌子有毛病,当你这次丢出正了以后,桌
子会往一个方向歪,让你下次丢出反面的概率更大,如果你丢出反
面,桌子会往另一边歪,让你下次丢出正面的概率更大,连续多次
丢出正面,桌子就可能彻底歪到反面了,简单说就是每次丢硬币,
概率不再维持π不变了。
发现出现正面的可能有301种,每个概率算起来很复杂,所以有人推
倒出一个公式叫泊松分布概率公式,用这个公式算起来相对容易一
些。
一、基础知识及应用
(三)二项分布与泊松分布
• 任何时候二项分布概率都比泊松分布算出来的概率要更准确,尤其
是现在有了计算机,可以方便的算出来二项分布的概率是多少,不
管n是几。
• 这个性质也可以推及后文的t分布;
• 我们基本上可以断定,50对应的z肯定比-1.65小,59对应的肯定比-1.65
大;
• 这样,我们就通过一个小样本,揭开了砖家的嘴脸;
一、基础知识及应用
(七)显著水平与单样本假设检验
• 我们有时候会用t分布去算,有时候又用z分布;
• 其实和求总体均值的时候一样,如果n太小,z的误差就太大了,容易被
• 样本就是其中抓出来的一部分,例如你持仓的股票;
• 总体的均值用μ表示,有时候也叫期望;
• 样本的均值用 X 表示。
• 有时候我们研究的问题是一个比例事件,比如本年级定向同学占比;
• 那么总体就是全年级的同学,而样本是根据我们的研究方向而取的
一个合集,比如所有P3班同学;
• 那么这时候可以得到一个全年级定向同学的占比,也就是总体的比
• 或者还有一种情况是比如你从袋子里拿球,如果拿出来再放回去,
那每次概率不变,但如果拿出来不放回去,那下次拿的概率就变了,
这种就不是二项分布了,就是超几何分布。
• 当总体很大的时候,比如袋子里球很多,可以忽略误差,但如果总
体很小,就无法忽略了。
一、基础知识及应用
(四)正态分布与非正态分布
• 正态分布就是符合下述公式计算的一种分布方式,现实中很多东西
DMD学习交流会
统计学基本知识梳理
一、基础知识及应用
重要定义:
• 总体与样本
• 样本均值与总体均值
• 总体比例与样本比例
• 方差与标准差
• 二项分布与泊松分布
• 正态分布与非正态分布
• z分布与t 分布
• 总体均值估计与置信水平
• 显著水平与单样本假设检验
一、基础知识及应用
(一)总体与样本
• 总体就是一个东西的合集,例如A股所有的股票;
• 标准差就是把它开个根号
• 这个n-1也叫做这个样本的自由度;
一、基础知识及应用
(三)二项分布与泊松分布
• 当你丢硬币的时候,只有正反两个可能,而且硬币正反面出现的概
率相同,每次丢结果互不干扰;
• 当你丢了3次的时候,就会有以下几种可能:
• 0次正,1次正,2次正,3次正;
• 这就构成了一个n=3的二项分布;
• 有四种可能性:
• 1.有钱确实能活过100,这200人均也活过了;
• 2.有钱能活过100,但这200人均没活过;
• 3.有钱也活不过100,但这200人均活过了;
• 4.有钱也活不过100,这200人均也确实没活过;
一、基础知识及应用
(七)显著水平与单样本假设检验
• 在日常生活中,其实我们不是很关心“有钱也活不过100,但这200人
布的样子长的很像正态分布;
• 而且当n越大的时候,就越
像正态分布,经过研究,总
结出了定理:
• 1)在n足够大(n=30的时
候)的时候 样本均值,近似
服从正态分布。
• 2)μ =μx(这里缺一撇)
• 3)方差 中心极限定理 (n越
大,波动越小)
• 中心极限定理非常有用,其
意义就是我们可以通过研究
样本均值来推倒总体的性质。
• 另一个例子,所有股票都只有涨跌两种,那么统计其自上市来涨跌
的次数,就能得出一个涨的比例π,假如是0.5,然后比如取两个星
期n=10,然后你发现过去9天这股票都在跌,那你就能算出第10天
这股票还跌的可能只有1/1024,这个很小了,所以可以说第10天这
股票肯定涨(此处保留部分内容)。
• 所谓泊松分布,就是当n太大的时候,比如你要丢300次硬币,你会
大还是小于100;
• 这个5%就叫显著水平,这个过程就叫假设
检验;
一、基础知识及应用
(七)显著水平与单样本假设检验
• 现在研究另一个问题,有无良砖家说,现代人哪怕再穷,也至少活60岁,
或者说所有穷人的人均寿命>=60岁;
• 那我们就先当他说的是真的,假设所有穷人人均寿命>=60,然后我们去抽
样;
• 我们还是找了过去挂掉的200个穷人,发现其人均寿命只有50岁,所以我们
• 除以数字的个数,就得到方差了。
• 比如数字1,2,3,平均值是2,方差就是2/3;
• 标准差就是把它开个根号
• 标准差能够很好的反应这堆数字之间的波动情况。
一、基础知识及应用
(二)方差与标准差
• 样本的方差与总体有些不一样,它需要除以n-1,原因是从统计上算,
这玩意更靠近总体的方差;
• 比如数字1,2,3,平均值是2,方差就是1;
所以把它变成z分布;
• 我们会发现,如果事实上能活过100,那
200人人均小于100的概率会很小,而且是
越往左,概率越小,如果z为1.65,概率就
只有5%了;
一、基础知识及应用
(七)显著水平与单样本假设检验
• 现在反过来理解这个问题;
• 假如我们假定有钱人均寿命最多100,那任
意样本均值在100右边的概率就会越来越小;
可以认为这砖家就是在鬼扯;
• 如果我们发现这200人的人均寿命是59岁,
那我们就不能绝对的反驳说这砖家说的是
错的了;
• 所以我们就需要一个值,来分界50和59;
• 这个值就和概率有关,比如我们算出来小
于55岁的概率已经是95%了,如果样本均
值还是小于55岁,我们就可以说砖家是鬼
扯,如果样本均值是59,那就不好说了。
砖家抓住把柄,用t分布能消除一些误差;
• 当使用计算机软件的时候,因为计算机不怕累,所以基本上都是用的t分
布,但我们考试的时候,我觉得用z分布老师也不会判错;
• 在实际工作生活中,如果遇到上述问题,用t分布应该更好;
一、基础知识及应用
(七)显著水平与单样本假设检验
• 还有一种砖家,更嚣张,和我们说,穷人的人均寿命就是60岁;
以了,这就叫累积概率;
一、基础知识及应用
(三)二项分布与泊松分布
• 二项分布总体的均值(期望)就是μ=n*π,就是说你如果丢10次硬
币,你觉得会出现5次是正面的;
• 如果这个硬币歪了,比如π变成了0.4,那你丢10次硬币,你觉得会
出现4次是正面的,这就叫期望;
• 二项分布总体的方差2=n*π*(1-π)
例,就是全年级所有定向同学除以年级人数,我们叫π;
• 而P3班同学中定向的占比,就是这个样本的比例,叫P;
一、基础知识及应用
(二)方差与标准差
• 当你得到一堆数字的时候,你可能会想知道这堆数字之间有什么规
律,那就要对这些数字比大小;
• 首先需要一个参考数,就用这堆数字的均值μ;
• 然后每个数减去μ,平方后求和;
• 也就是说,每一个样本,可以通过样本均
值和样本标准差求出一个z,拿这个z和我
们希望的显著水平对应的z1去比,比如我
们希望是95%对应的z0=1.96,如果比z0大,
就说明所有土豪的平均寿命应该确实超过
100岁了,否则一个样本的均值不可能在这
么大的地方,
• 如果求出来比z0小,那只能说明有钱人人
均寿命是多少都有可能了,无法判断到底
于总体均值;
• 把所有任意两个同学的年龄均值都求一遍,就得到一堆数字了,而
且数量要比同学总数还多;
• 然后我们就得到了一个n=2的样本均值的随机变量;
• 把这个随机变量画成频数分布图,就会发现是一个中间高,两边低
的图形,这个就叫样本均值的概率分布。
一、基础知识及应用
(五点二)中心极限定理
• 数学家们发现,样本均值分
• 这种砖家就更好对付了,我抽一个样本,如果人均寿命是50岁或者70岁,
那说明肯定不是60岁,如果是59或者61,那就不好说了;
• 那同样的道理,在右边再找一个z值就可以了,这种就叫双边假设检验,
对应的显著水平就会翻倍;
• 当然因为显著水平是给定的,所以其实是在做单边假设检验的时候,给我
一、基础知识及应用
(五)z分布与t 分布
• 所谓t分布就是把右边这些图,
用求z分布的公式照猫画虎
一下,把均值和方差的影响
消除掉;
• 任何一个样本均值的分布,
所有的t分布都不是正态分布,
但n越大,t分布就越陡峭,
就越接近z分布;
• 因为我们不知道样本均值分
布的方差,所以就用中心极
限定理公式来替换,就有下
(六)总体均值估计与置信水平
• 右边这个图是样本均值的分
布图,也就是说,其本质其
实是个t分布图;
• 也就是说,其实我们用t分布
的值去求置信区间和置信水
平将更准确;
• 但因为t分布和n有关,在手
算的时候比较麻烦,所以老
师会用z分布,而计算机和
课后习题上会用t分布;
• 对于小样本,就是n<30的样
本,z分布求出来的置信区
间的误差会变得很大,用t分
布能好一些,但前提是总体
是服从正态分布的,否则误
差还是很大。
一、基础知识及应用
(七)显著水平与单样本假设检验
• 有时候,我们会遇到一些这玩意正常不正常的问题,比如有人说,
只要有钱,就能活过100岁,你想知道这事儿对不对;
• 我们不可能说把自古以来所有马云爸爸都揪出来算,况且马云爸爸
• 对于丢硬币这个实验来说,总体是丢无限次这个硬币,样本就是你
丢的这三次;这时候我们可能需要评估一个样本的比例,也就是正
面出现的概率,就是说你会预估自己下三次丢的时候,会出现几次
正面;
• 因为每次丢出现正面概率都是0.5,通过排列组合就可以求出现各种
出现正面的概率了;
• 如果想知道最多只出现了1次的概率,就把0次的和1次的加起来就可
都是符合正太分布的。
• 正态分布我们一般关心它
的均值和标准差,有了均
值和标准差就可以很容易
找到一个正态分布。
• 并非所有的连续分布都是
正态分布。
一、基础知识及应用
(五)z分布与t 分布
• 所谓z分布,就是标准差是1,均值是0的正态分布,又叫标准正态分
布,用z分布的意义,就是为了方便的求任何正态分布的概率应该是
z分布,方便观察;
• 我们发现,z越大,左右包
含的范围就越广,就越有可 • 取一个合理的z值,这个z值对应的概率,就叫
置信水平,这个概率是中间这部分的面积。
能把总体均值包含在里面;
• 但相对的,z越大,这个区 • 这个范围样本均值加减z倍标准差的范围就叫
置信区间
间就越大,超过一定值就没
有意义了。
一、基础知识及应用
活过”的情况,因为没法验证,这个老师说下节课讲;
• 我们希望的是,假如我们找了200人做了一个样本,我们希望我们的
样本很有说服力,也就是说,我们希望“有钱能活过100,但这200人
人均没活过”的概率最小,这个概率就叫显著水平;
• 200个人的样本能得出一个样本均值,我们
知道样本均值服从正态分布(200>30),