统计学(复习)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章统计和统计数据
1统计学的定义:是收集、处理、分析、解释数据并从数据中得出结论的科学
描述统计与推断统计的含义、内容、目的。
描述统计: 是研究数据收集,处理和描述的统计学方法.其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合,概括与分析,得出所关心的数据特征.
推断统计: 是研究如何利用样本数据来推断总体特征的统计学方法,内容包括两大类:
参数估计: 是利用样本信息推断所关心的总体特征.
假设体验:是利用样本信息判断对总体的某个假设是否成立.
2、变量与数据:不同数据类型的含义,会判断已有数据的类型.
变量:它们的特点是从一次观察到下一次观察会出现不同结果.
Ex: 企业销售额, 上涨股票的家数, 生活费支出,投掷一枚骰子观察其出现的点数
数据: 把观察到的结果记录下来.
总体:包含所研究的全部个体(数据)的集合
样本: 从总体中抽取的一部分元素的集合
样本量: 构成样本的元素的数目
定量变量或数值变量:定量变量的观察结果称为定量数据或数值型数据.可以用阿拉伯数据来记录其观察结
果 .如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”
定性变量:分类变量和顺序变量统称为定性变量
分类变量:表现为不同的类别.如“性别”、“企业所属的行业”、“学生所在的学院”等.
分类变量的观察结果就是分类数据
顺序变量或有序分类变量:具有一定顺序的类别变量. 如考试成绩按等级,一个人对事物的态度.顺序变量的观察结果就是顺序数据或有序分类数据
离散型变量: 只能取有限个值得随机变量
连续型变量:可以取一个或多个区间中任何值得随机变量
3、获得数据的概率抽样方法有哪些?
根据一个已知的概率来抽取样本单位,也称随机抽样
-简单随机抽样:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中. 抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后,再把这个个体放回到原来的总体中参加下一次抽选。不重复抽样抽中的个体不再放回,再从所剩下的个体中抽取第二个元素,直到抽取n 个个为止。
- 分层抽样或分类抽样:它是在抽样之前先将总体的元素划分为若干层(类),然后从各个层中抽取一定数量的元素组成一个样本。
-系统抽样或等距抽样:它是想将总体个元素按某个顺序排列,并按某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直至抽取n 个元素组成一个样本。
-整群抽样:是先将总体划分成若干群,然后以群作为抽样单元从中抽取部分群组成一个样本,再对抽中的每个群中包含的所有元素进行观察。
第二章.用图表展示数据
频数: 落在各类别中的数据个数
比例:某一类别数据个数占全部数据个数的比值
百分比:将对比的基数作为100而计算的比值
比率: 不同类别数值个数的比值
频数分布表:频数分布表中落在某一特定类别数据.频数分布包含了很多有用的信息,通过它可以观察不同类型数据的分布状况.
什么是条形图:是用宽度相同的条形来表示数据多少的图形用于观察不同类别数据的多少或分布状况.
帕累托图: 是按各类别数据出现的频数多少排序后绘制的条形图
饼图:是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分道德数据占全部数据的比例,对于研究结构性问题十分有用.
环形图: 只能显示一个样本各部分所占的比例
数据分组:是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别.
1. 下限(lower limit) :一个组的最小值
2. 上限(upper limit) :一个组的最大值
3. 组距(class width) :上限与下限之差
4. 组中值(class midpoint) :下限与上限之间的中点值
组中值=下限值+上限值/2
直方图与条形图的区别。
1.条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距
2.由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列
3.条形图主要用于展示定性数据,而直方图则主要用于展示定量数据
茎叶图: 是反映原始数据分布的图形.它由茎和叶两部分构成,其图形是由数据组成的.通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如:分布是否对称,数据是否集中,是否有离群点.等等
箱线图:是由一组数据的最大值,最小值,中位数,两个四分位数.这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较.
雷达图: 是显示多个变量的常用图示方法.
1.从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样
本围成多个区域,就是雷达图
2.可用于研究多个样本在多个变量上的相似程度
3.当多个变量的取值相差较大或量纲不同时,可进行变换处理后再做图。
第三章. 用统计量描述数据
1、水平的度量
描述数据水平的统计两主要有: 平均数,中位数,分位数以及众数等.
平均数。平均数的计算:
1.也称为均值,常用的统计量之一
2.消除了观测值的随机波动
3.易受极端值的影响
4.根据总体数据计算的,称为平均数,记为μ;根据样本数据计算的,称为样本平均数,记为⎺x
中位数: 是一组数据排序后处于中间位置上数值,用M e 表示.
四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值
众数、中位数和平均数的关系*
2、差异的度量
极差:
1.一组数据的最大值与最小值之差
2.离散程度的最简单测度值
3.易受极端值影响
4.未考虑数据的分布
5.计算公式为:R = max(x i) - min(x i)
四分位差
1.也称为内距或四分间距
2.上四分位数与下四分位数之差:Q d=Q U–Q L
3.反映了中间50%数据的离散程度
4.不受极端值的影响