贾俊平 统计学 总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章导论
概念:
统计学:收集、处理、分析、解释数据井从数据中得出结论的科学。
统计的分类:
描述统计:研究的是数据收集,处理,汇总,图表描述,文字概括与分析等统计方法。
推断统计:是研究如何利用样木数据进行推断总体特征。
数据:
1.分类数据:对事物进行分类的结果数据,表现为类别,用文字来表述。例如,人口按性别分为男、女两类
2.顺序数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等
3.数值型数据对事物的精确测度,结果表现为具体的数值。例如:身高为175cm,190cm,200cm 参数:描述总体特征。有总体均值(μ)、标准差()总体比例(T)
统计量:描述样本特征,样本标准差(s),样木比例(p)
第二章 数据的搜集
1. 数据来源包括直接来源(一手数据)和间接来源(二手数据)
2. 抽样方式包括概率抽样与非概率抽样
3. 概率抽样:也称随机抽样。按一定的概率以随机原则抽取样本,抽取样本时使每个单位都
有一定的机会被抽中。
4.
5.抽样误差:是由抽样的随机性引起的样本结果与总体真值之间的误差。抽样误差并不是针对某个样本的检测结果与总体真是结果的差异而言,抽样误差描述
的是所有样本可能的结果与总体真值之间的平均差异。
统计数据的分类
按计量层次
分类的
数据
顺序的数据
数值型数
据 按时间状况
截 面 的 数 据
时序的数据
按收集方法 观察的数
据 实验的数
据
6.抽样误差的大小与样本量的大小和总体的变异程度有关。
第三章数据的图表展示
计算机实训内容,
要求:
1.数据筛选,自动筛选
2.高级筛选,
3.数据排序
4.分类汇总-利用数据透视表
5.对比条形图
6.环形图
7.累计频数图
8.散点图
9.雷达图
等等
频数分布图两种方法:工具-数据分析-直方图数值型和顺序数据
数据-数据透视表数据透视表
第四章数据的概括性度量
集中趋势:
算数平均数:
几何平均数:指n个观察值连乘积的n次方根,计算平均发展速度时复利下的平均年利率,最常用的一种计算公式为,几何平均数≤算术平均数。
中位数:有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。(平均家庭收入)(记忆的重要性)
离散程度:
异众比率:异众比率指的是总体中非众数次数与总体全部次数之比。(了解)四分位差:(了解)
方差:var
标准差:STDEV
平均差:
相对位置的度量:
标准分数:
离散系数:
形状:
偏态:SK>0,正值,正偏或者右偏,,小数集中
SK<0,负值,负偏或者左偏,,大数集中。
绝对值0, 0.5, 1三个界线。
峰态:K>0,尖峰,数据分布集中,
K<0,扁平,数据分布分散。
第五章 概率与概率分布
1.概率的分类:1.概率的古典定义,概率的统计定义,概率的主观定义。
2.期望值:在离散型随机变量X 的一切可能取值的完备组中,各可能取值x i 与其取相对应的概率p i 乘积之和,描述离散型随机变量取值的集中程度,记作E(X),或者μ,其实为加权平均数。
3. 二项分布的数学期望为 E ( X ) = np 方差为
D ( X ) = npq
标准差?
区别二项分布的概率值与期望值。
4. 当二项分布中n 很大,p 很小时,二项分布就变成为Poisson 分布 计算机计算
二项分布计算时候, 已知:1,目标概率 2,实验次数 3,成功次数 公式:失败的次数
成功的次数
成功的次数
实验的次数目标概率)
((目标概率)
-1C 二项分布换泊松分布,已知:1,入=np=1*2 2,成功的次数 (揉合在一起,因为都是那种目标概率小、实验次数多的实验) 入=数学期望值E (X )=方差D(X)=np P119例子,P121例子 5. 正态分布
主要特点:钟型,离μ近的概率大,离μ远的概率小。
标准差小,集中;标准差大,分散。
正态曲线的最高点在均值μ,它也是分布的中位数和众数。
正态分布是一个分布族,每一特定正态分布通过均值μ和标准差σ来区分。
曲线f(x)相对于均值μ对称,尾端向两个方向无限延伸,且理论上永远不会
与横轴相交
正态曲线下的总面积等于1。
计算机计算:已知:1,正态分布(的形状)(μ与σ), 2.临界值(右端值,即默认计算的是改值以左部分的面积)
6.标准正态分布:期望值μ=0,(即曲线图象对称轴为Y轴),
标准差σ=1条件下的正态分布,
记为N(0,1)。(N是正态英文的首字母)
计算:由于形状已知(N(0,1)),所以只需要知道临界值(右端值)
7.此段内容只供理解,不是知识。
概率函数:横轴表示“统计对象”,纵轴表示”概率”。故称概率函数。
概率密度函数:将直方图组距缩小到很密的程度,故称概率密度函数。
分布函数:分布函数F(x)在x处的函数值就表示X落在区间(-∞,x]上的概率。(把概率函数的面积转换成分布函数的纵轴值)
所以:找一个的具体值的概率应该在密度函数上的值,范围区间(-∞,x]是在分布函数上的值,一个范围区间(X1~X2)是分布函数上X2的值-X1的值