统计学章节整理good
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章导论
●统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。
1.2 数据统计的类型
1.按计量尺度划分:定类尺度(分类数据)、定序尺度(顺序数据)、定居尺度&定比尺度(数值型数据)【品质数据(定性数据):分类数据、顺序数据;数量数据(定量数据):数值型数据】
2. 按搜集方法划分:观测数据、实验数据
3. 按时间状况划分:截面数据、时序数据
变量:说明现象某种特征的概念,从一次观察到下一次观察,结果会呈现出变化。
变量值:变量的具体取值
分类变量顺序变量数值型变量(离散型变量&连续型变量)
例:一项调查表明,消费者每月在网上购物的平均花费是200元,他们选择在网上购物的主要原因是“价格便宜”。要求:
(1)这一研究的总体是什么?(2)“消费者在网上购物的原因”是分类变量、顺序变量还是数值型变量?
(3)研究者所关心的参数是什么?(4)“消费者每月在网上购物的平均花费是200元”是参数还是统计量?
(5)研究者所使用的主要是描述统计方法还是推断统计方法?
第二章数据的搜集
——一手资料调查——>调查数据实验——>实验数据调查的方式:普查、抽样调查、统计报表……
——二手资料(统计公报、统计年鉴、网上资料、期刊、杂志、报纸……)
2.2 抽样调查——概率抽样、非概率抽样
概率抽样:也称随机抽样,指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样。
特点:★以随机原则抽取样本★每个单位被抽中的概率是已知的★用样本估计总体时,要考虑入样概率(概率抽样≠等概率抽样)
1)简单随机抽样:从包括总体N个单位的抽样框中随机地、一个一个地抽取n个单位作为样本,每个单位入样的概率是相等的。
2)分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。
3)整群抽样:将总体中若干个单位合并为组,这样的组称为群,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。
4)系统抽样:将总体中的所有单位按一定顺序排列,按照拟抽样数,将其划分成相同的段,然后在每一段中的固定位置抽取一个调查单位。
5)多阶段抽样:先按整群抽样的方法,抽取群,再从选中的群中随机抽取若干单位进行调查,这是二阶段抽样。多阶段抽样以此类推。
数据的误差:(1)抽样误差:由于抽样的随机性引起的样本结果与总体真值之间的误差只在概率抽样中(2)非抽样误差:除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。存在于任何抽样或调查中
第三章数据的图标展示
3.1 数据的预处理:是在队数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。
1. 数据审核(发现数据中的错误)
2. 数据筛选(找出符合条件的数据)
3. 数据排序(发现数据基本特征、升序和降序)
分类数据的排序:字母型数据,排序有升序降序之分,但习惯上用升序
汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分
数值型数据的排序:
(1)递增排序:设一组数据为X1,X2,…,X N,递增排序后可表示为:X(1) (2)递减排序可表示为:X(1)>X(2)>…>X(N) 数据透视表功能:简化数据分析人员的工作量,使其能快速准确地从各个角度查看数据。※在利用数据透视表时,数据表的首行必须有列标题。 3.2 品质数据的整理与展示 3.2.1 分类数据的整理与图示 1. 列出各类别 2. 计算各类别的频数 3. 制作频数分布表 4. 用图形展示 分类数据中需要计算的指标 1频数:落在各类别中的数据个数 频数分布:把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来。 2.比例:某一类别数据占全部数据的比值 3.百分比:将对比的基数作为100而计算的比值 4.比率:不同类别数值的比值如何利用Excel计算频数(插入——函数—— countif) 分类数据的图示 条形图:条形图是用宽度相同的条形的高度或长短来表示数据多少的图形 ★各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图 ★对比条形图——显示分类变量在不同时间或不同空间上的差异或变化 饼图:用圆形及圆内扇形的面积来表示数值大小的图形。主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用,在绘制圆形图时,总体中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的 3.2.2 顺序数据的整理与图示 1. 累积频数:将各有序类别的频数逐级累加起来得到的频数。 向上累积:从类别顺序的开始一方,向类别顺序的最后一方累加频数; 向下累积:从类别顺序的最后一方,向类别顺序的开始一方累加频数。 2. 累积频率:将各类别的百分比逐级累加 3.3 数值型数据的整理与显示 3.3.1 数据的分组:单变量值分组&组距分组(等距分组&异距分组) 单变量值分组(要点)★适合于离散变量★适合于变量值较少的情况 组距分组(要点):1.适合于连续变量,适合于变量值较多的情况;2.将变量值的一个区间作为一组;3.必须遵循“不重不漏”的原则;4.可采用等距分组,也可采用不等距分组 1. 下 限:一个组的最小值 2. 上 限:一个组的最大值 3. 组 距:上限与下限之差 4. 组中值:下限与上限之间的中点值 组距分组(步骤) 第1步:排序,确定组数(K )5≤K ≤15能够显示数据的分布特征和规律 第2步:确定组距 组距=(最大值-最小值)÷组数 ★ 组距宜取5或10的倍数 第3步:根据分组整理成频数分布表 等距分组与不等距分组 1. 等距分组 各组频数的分布不受组距大小的影响 可直接根据绝对频数来观察频数分布的特征和规律 2. 不等距分组 各组频数的分布受组距大小不同的影响 各组绝对频数的多少不能反映频数分布的实际状况 需要用频数密度(频数密度=频数/组距)反映频数分布的实际状况 分组数据—直方图 1. 用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布 2. 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形, 即直方图(Histogram) 直方图与条形图的区别 1. 条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的。 2. 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的 组距,其高度与宽度均有意义。 3. 直方图的各矩形通常是连续排列,条形图则是分开排列。 第4章 数据的概括性度量 数据分布特征的测度 ◆集中趋势的度量—— 反映数据向其中心值靠拢或聚集的程度 ◆离散程度的度量—— 反映数据远离其中心值的趋势 ◆分布的形状—— 反映数据分布的偏态和峰态 4.1 集中趋势: 是指一组数据向其中心值靠拢的倾向和程度,它反映了一组数据中心点的位置所在。 *测度集中趋势就是寻找数据一般水平的代表值或中心值; *不同类型的数据用不同的集中趋势测度值 分类数据—— 众数 顺序数据—— 中位数和分位数 数值型数据 —— 平均数 4.1.1 分类数据:众数 众数(MODE ):一组数据中出现次数最多的变量值,用Mo 表示; (1)主要用于测度分类数据的集中趋势,也可用于顺序数据和数值型数据; (2)众数是位置代表值,不受极端值影响;(3)可能没有众数、有一个众数或几个众数 ●数值型分组数据的众数 1. 众数的值与相邻两组频数的分布有关 2. 相邻两组的频数相等时,众数组的组中值即为众数 3. 相邻两组的频数不相等时,众数采用下列近似公式计算 i f f f f f f L M ⨯-+--+ =+--) ()(111 0 (L 为众数组的下限值,i 为众数组的组距,f 为众数组的频数,f-1为众数组前一组的频数,f+1为众数组 2 组中值= 下限值+上限值