统计学期末复习.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

时间序列的分类与成分
时间序列的分类:平稳序列和非平稳序列 时间序列的成分:
– 趋势性:持续向上或持续下降的状态或规律 – 季节性:时间序列在一年内重复出现的周期性波动 – 周期性:围绕长期趋势的一种波浪形或振荡式变动 – 随机性:除去趋势、周期性和季节性之后的偶然性
波动
时间序列预测的程序
确定时间序列所包含的成分 选择合适的预测方法 对可能的预测方法进行评估,以确定最佳预测
偏态系数 峰态系数
4.1 集中趋势的度量
4.1.1 分类数据:众数 4.1.2 顺序数据:中位数和分位数 4.1.3 数值型数据:平均数 4.1.4 众数、中位数和平均数的比较
众数、中位数、平均数的特点和应用
众数 – 不受极端值影响 – 具有不惟一性 – 数据分布偏斜程度较大且有明显峰值时应用
中位数 – 不受极端值影响 – 数据分布偏斜程度较大时应用
饼图
顺序数据的整理与图示
可计算的统计量:累积频数、累积频率 顺序数据的图示—累计频数分布图、环形图
数值型数据的整理与展示
数据分组:组距分组、单变量值分组 数值型数据的图示:
– 分组数据—直方图和折线图(直方图与条形图的区别) – 未分组数据—茎叶图和箱线图 – 时间序列数据—线图 – 多变量数据的图示
方案 利用最佳预测方案进行预测
计算误差
均方误差MSE
n
(Yi Fi )2
MSE i1 n
平稳序列的预测
简单平均法 移动平均法 指数平滑法
相关分析所涉及的变量一般都是随机变量,而回归分析 中因变量是随机的,自变量则作为研究时给定的非随机 变量。
对Excel 的回归结果进行分析
1. 变量间关系的度量 2. 估计的回归方程 3. 回归直线的拟合优度 4. 回归分析中的显著性检验 5. 估计和预测
第13章 时间序列分析和预测
13.1 时间序列及其分解 13.2 时间序列的描述性分析 13.3 时间序列的预测程序 13.4 平稳序列的预测 13.5 趋势型序列的预测 13.6 季节型序列的预测
平均数 – 易受极端值影响 – 数学性质优良 – 数据对称分布或接近对称分布时应用
4.2 离散程度的度量
4.2.1 分类数据:异众比率 4.2.2 顺序数据:四分位差 4.2.3 数值型数据:方差和标准差 4.2.4 相对离散程度:离散系数
4.3 偏态与峰态的度量
4.3.1 偏态及其测度:偏态系数
当样本容量很大时,样本比例的抽样分布可用正态分布 近似 。
样本比例的数学期望 E( p)
样本比例的方差

2 p

(1 )
n
第 7 章 参数估计
7.1 参数估计的一般问题 7.2 一个总体参数的区间估计 7.4 样本量的确定
参数估计的一般问题
点估计:用样本的估计量的某个取值直接作为总体参 数的估计值
性质5:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系
相关系数的经验解释
1. |r|0.8时,可视为两个变量之间高度相关 2. 0.5|r|<0.8时,可视为中度相关 3. 0.3|r|<0.5时,视为低度相关 4. |r|<0.3时,说明两个变量之间的相关程度极弱,可视
比例
大样本
小样本Hale Waihona Puke Baidu
大样本
2已知
2已知
Z分布
Z分布
Z分布
2未知
2未知
Z分布
t分布
方差 2分布
总体均值的区间估计
正态总体、2已知,或非正态总体、大样本
x z 2
n
或 x z 2
s ( 未知) n
正态总体、2未知、小样本
x t 2
s n
总体比例的区间估计
1. 假定条件

n
估计总体比例时样本量的确定
n

( z
2)2
E2
(1 )
第 8 章 假设检验
8.1 假设检验的基本问题 8.2 一个总体参数的检验 8.4 假设检验中的其他问题
假设检验的流程
提出假设 确定适当的检验统计量 规定显著性水平 计算检验统计量的值 作出统计决策
总体均值的检验 (2 已知或2未知大样本)
1. 假定条件 – 总体服从正态分布 – 若不服从正态分布, 可用正态分布来近似(n30)
2. 使用Z-统计量
2 已知:
Z X 0 ~ N(0,1) n
2 未知: Z X 0 ~ N (0,1)
Sn
一个总体比例检验
为不相关 上述解释必须建立在对相关系数的显著性进行检 验的基础之上
回归分析
1. 从一组样本数据出发,确定变量之间的数学关系式 2. 对这些关系式的可信程度进行各种统计检验,并从影
响某一特定变量的诸多变量中找出哪些变量的影响显 著,哪些不显著 3. 利用所求的关系式,根据一个或几个变量的取值来预 测或控制另一个特定变量的取值,并给出这种预测或 控制的精确程度
样本均值的抽样分布
1. 在重复选取容量为n的样本时,由样本均值 的所有可能取值形成的相对频数分布
2. 一种理论概率分布
3. 推断总体均值的理论基础
4. 当总体服从正态分布N(μ,σ2)时,来自该总体的所有 容量为n的样本的均值x也服从正态分布,x 的数
学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)
接受备择假设一定意味着原假设错误,而没有拒绝原假 设并不能表明备择假设是错的,只是还没有足够的证据 推翻原假设。
第11章 一元线性回归
11.1 变量间关系的度量 11.2 一元线性回归 11.3 利用回归方程进行估计和预测
相关分析
变量之间是否存在关系? 如果存在关系,它们之间是什么样的关系? 变量之间的关系强度如何? 样本所反映的变量之间的关系能否代表总体变
1. 假定条件 – 有两类结果 – 总体服从二项分布 – 可用正态分布来近似
2. 比例检验的 Z 统计量
Z P 0 ~ N(0,1) 0 (10 )
n
原假设与备择假设的确定
一般情况下,原假设为“原有的”、“传统的”观点或 结论,被大多数人认可、接受的东西,是不容易否定的 命题。
备择假设为人们比较感兴趣的、新的、猜测的、需要验 证的命题。
中心极限定理
从均值为,方差为 2的一个任意总体中抽取容量为
n的样本,当n充分大时,样本均值的抽样分布近似 服从均值为μ、方差为σ2/n的正态分布。
当样本容量足够大时(n 30) ,样本均值的抽样分
布逐渐趋于正态分布。
样本比例的抽样分布
在重复选取容量为n的样本时,由样本比例的所有可能 取值形成的相对频数分布
偏态系数=0为对称分布 偏态系数> 0为右偏分布 偏态系数< 0为左偏分布
4.3.2 峰态及其测度:峰态系数
峰态系数=0扁平峰度适中 峰态系数<0为扁平分布 峰态系数>0为尖峰分布
第 6 章 统计量及其抽样分布
6.1 统计量 6.2 关于分布的几个概念 6.4 样本均值的分布与中心极限定理 6.5 样本比例的抽样分布 6.7 关于样本方差的分布
量之间的关系?
相关系数的性质
性质1:r 的取值范围是 [-1,1]
– |r|=1,为完全相关
r =1,为完全正相关 r =-1,为完全负正相关
– r = 0,不存在线性相关关系
– -1r<0,为负相关 – 0<r1,为正相关 – |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱
相关系数的性质
性质2:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy= ryx
性质3:r数值大小与x和y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小
性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着, r=0只表示两变 量之间不存在线性相关关系,并不说明变量之没 有任何关系
一个总体参数的检验
一个总体
均值
比例
方差
Z 检验
t 检验
Z 检验
(单尾和双尾) (单尾和双尾) (单尾和双尾)
2检验
(单尾和双尾)
总体均值的检验(检验统计量)

z 检验
Z X 0 n
总体 是否已知 ?

否 样本量n
z 检验
Z X 0
Sn

用样本标 准差S代替
t 检验
t X 0 Sn
区间估计:在点估计的基础上,给出总体参数估计的 一个区间范围,该区间由样本统计量加减估计误差而 得到。
置信水平:将构造置信区间的步骤重复很多次,置信 区间包含总体参数真值的次数所占的比例。
置信区间:由样本统计量所构造的总体参数的估计区 间称为置信区间。
一个总体参数的区间估计
待估参数
均值
第2章 数据的搜集
1. 数据的来源 2. 搜集数据的调查方法 3. 搜集数据的实验方法 4. 数据的误差 5. 数据的质量要求
抽样方法
抽样方式
概率抽样
非概率抽样
简单随机抽样 整群抽样
多阶段抽样
分层抽样 系统抽样
方便抽样 自愿样本 配额抽样
判断抽样 滚雪球抽样
搜集数据的基本方法
搜集数据的基本方法
– 总体服从二项分布 – 可以由正态分布来近似
2. 使用正态分布统计量 z
z p ~ N (0,1) (1 )
n
3. 总体比例在1-置信水平下的置信区间为
p z 2
p(1- p) n
样本量的确定
估计总体均值时样本量的确定
n (z 2 )2 2
E2
其中: E z 2
统计学期末复习
2010.11.10
第1章 导论
1.1 统计及其应用领域 1.2 统计数据的类型 1.3 统计中的几个基本概念
统计数据的分类
按计量层次 按收集方法 按时间状况

顺 数观


序 值察


数 型数


据 数据










统计中的几个基本概念
总体和样本 参数和统计量 变量
调查的数据
实验的数据
自填式
面访式
电话式
数据的误差
数据的误差
抽样误差 非抽样误差
抽样框误差
回答误差
无回答误差 调查员误差
第 3 章 数据的图表展示
3.1 数据的预处理 3.2 品质数据的整理与显示 3.3 数值型数据的整理与显示 3.4 合理使用图表
品质数据的整理与显示
分类数据的整理与图示
可计算的统计量:频数、比例、百分比、比率 分类数据的图示:条形图、对比条形图、帕累托图、
相关分析与回归分析的区别
在相关分析中,不必确定自变量和因变量;而在回归分 析中,必须事先确定哪个为自变量,哪个为因变量,而 且只能从自变量去推测因变量,而不能从因变量去推断 自变量。
相关分析不能指出变量间相互关系的具体形式;而回归 分析能确切的指出变量之间相互关系的具体形式,它可 根据回归模型从已知量估计和预测未知量。
两个变量间的关系—二维散点图 三个变量间的关系—气泡图 多变量数据—雷达图
第 4 章 数据的概括性度量
4.1 集中趋势的度量 4.2 离散程度的度量 4.3 偏态与峰态的度量
数据分布特征和描述统计量
集中趋势
众数 中位数 平均数
数据分布特征
离散程度
分布形状
异众比率
四分位差
极差
平均差
方差或标准差
离散系数
相关文档
最新文档