第一章统计学原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.2.3
2
分布
n i 1 2 i
如果从标准正态分布 N (0,1) 的总体中得到n 个独立的随机变量 X1, X 2 ,, X n ,则 X 得到 2 自由度为n的 分布,记为 X ~ 2 (n) 数学期望 E( X ) n ,方差 Var( X ) 2n
1.4 1 2 3 1.2 1
1.2.2 用EXCEL绘图
验证数据的正态性 例:(数据见p6) 步骤: 1、对销售额升序排列,记为 X ( j) 2、计算(j-0.5)/24 3、根据公式(j-0.5)/24=P( )= ( z ) ,求出正 态分位数
Z zi
i
在D2单元格输入”=normsinv(C2)”,回车,在 单击D2单元格,鼠标指向单元格下角填充 控点,按住鼠标左键往下拖至DC25单元格, 这样,计算出C2:C25区域中概率值对应的 标准正态分位数 4、数据---数据分析—分析工具-回归-确定, 以zi为纵轴,X(j)为横轴。( X(j),zi )在一条 直线附近,可以说该组数据基本遵从正态 分布。
X i ~ N (0,1),i 1,2,, n
则
2 2 X ~ (n) i i 1
n
1.2.4 t分布
设随机变量 则随机变量 布,记为
t
X ~ N (0,1)
t
, , 相互独立 X n 的 t分 遵从自由度为 Y /n
Y ~ 2 (n)
X ,Y
X ~ t ( n) Y /n
当 当 n 30,分散程度比标准正态分布大,随 着n的增大,逐渐接近标准正态分布,当 n ,接近标准正态分布。
n2
E (t ) 0 Var (t )
n n2
0.4 1 4 10
0.35
0.3
0.25
0.2
0.15
0.1
0.05 -2
-1.5
-1
-0.5
0
0.5
1
1.5
10,50 10,10 10,4
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
1.2.6 自由度
自由度:可以自由取值的数据的个数,或 者指不收任何约束,可以自由变动的变量 的个数。 一共有 n 个数据,有 n 个自由度。用 S 估 计总体方差 2 ,自由度本应该为n,但是总 体均值也未知,则用 x 去估计,用掉一个 自由读,故只有 n 1 自由度。 自由度是对随机变量的二次型而言的,自 由度就是二次型矩阵的秩。
1.4.1假设检验中的基本问题
1、假设检验中的小概率原理 2、假设检验的一些基本概念 3、假设检验的步骤
1、 假设检验中的小概率原理
小概率原理:指发生概率很小的随机事件在一次试验中是几乎 不可能发生的。小概率指p<5%。
假设检验的基本思想是应用小概率原理。
例如:某厂产品合格率为99%,从一批(100件)产品中随机抽取 一件,恰好是次品的概率为1%。随机抽取一件是次品几乎是 不可能的, 但是这种情况发生了,我们有理由怀疑该厂的合格 率为99%.这时我们犯错误的概率是1%。
2 n 2 i 1 i
n 2 i 1 i
1.1.3 变异系数
如果两组数据的计量单位相同,均值一样, 可以用标准差来比较两组数据的离散程度。 当两组数据的计量单位不同或均值不同时, 不能直接利用两组数据的标准差来分析两 组数据的离散程度。 变异系数 V S ,分析离散程度 x
1.1.4 偏度和峰度
统计量是样本的函数---它不依赖于任何未知 参数。 最重要的常用统计量:样本均值和样本方 差。 n 设 x1, x2 ,, x 是一组独立的随机样本,样本 n 1 xi 均值 x n i 1 1 S ( x x) n 1 样本方差 1 S 样本标准差 分散(离散) ( x x) n 1 程度的度量
2 、假设检验的一些基本概念
1.原假设和备择假设 原假设:用H0表示,即虚无假设、零假设、无差异假设; 备择假设:用H1表示,是原假设被拒绝后替换的假设。
若证明为H0为真,则H1为假; H0为假,则H1为真。
对于任何一个假设检验问题所有可能的结果都应包含在两个 假设之内,非此即彼。
2.检验统计量 用于假设检验问题的统计量称为检验统计量。
2
1.3 参数估计
1.3.1 点估计 1.3.2 区间估计 1.3.3 估计量的评价标准
1.3.1 点估计
点估计是对参数真值 以单一的数据 ˆ 为 估计值的方法。 点估计就是根据样本 X1, X 2 ,, X n 构造一个统 计量 T ( X1, X 2 ,, X n ) 作为参数 的估计(维数 相同),称T为 的估计量。 如果 x , x ,, x 是样本的一组观测值,代入统 计量得到具体数值,这个数值称为 的估 计值。
当给定常数 ,0 1 若有 P(ˆ1 ˆ2 ) 1 称 ˆ ~ ˆ 覆盖真值的概率为 1 1 为置信水平或者置信系数 为显著性水平 ˆ , ˆ ) 置信区间 ( ˆ , ˆ 称为置信区间下限和上限
1 2
1
2
1
2
1.3.3 估计量的评价标准
显著性水平就是指当原假设正确时人们却把它拒绝了的概率 或风险。
通常取=0.05或=0.01或=0.001, 那么, 接受原假设时正 确的可能性(概率)为:95%, 99%, 99.9%。
通过抽样或者查阅统计年鉴得到的原始数 据,一般是杂乱无章的,很难从中直接看 出有价值的东西。需要对原始数据进行整 理,提取出感兴趣的东西。散点图、饼图 直方图等方法是直观表达数据的常见方法。 统计学中最主要的提取信息的方法:对原 始数据进行一定的运算,得到某些代表性 的数字,足以反映出数据某些方面的特征, 这种数字称为统计量。
1.1 统计数据的整理与描述
统计学是研究数据规律的方法论学科,统 计数据是统计学研究的主要内容。 借助统计学方法研究任何实际问题,首先 就是收集数据,其一般方法有:查阅各种 统计年鉴和报表,运用某种调查方法获取 欲研究问题的有关数据(抽样调查)。 抽样调查的方法多,专业性强,相关研究 者需要学习有关知识。
1.2 几种重要的概率分布
1.2.1 正态分布 1.2.2 用EXCEL绘图 1.2.3 分布 1.2.4 t 分布 1.2.5 F分布 1.2.6 自由度
2
1.2.1 正态分布
正态随机变量的概率密度函数
f ( x)
1 e 2 ( x )2 2 2
, xR
为均值, 2 为方差。X
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -2 0.5 1 2
~ N ( , )
2
-1.5
-1
-0.5
0
0.5
1
1.5
2
当一个经济问题的模型误差是由很多因素 构成的时候,总体的分布与正态分布近似。 所以,在计量经济学和一些经济问题的建 模研究中常假定为正态分布。 当总体概率分布为正态分布时,作为从中 2 抽出的样本,其统计量的样本概率分布 分布,F分布等。正态分布是计量经济学乃 至统计学中最重要的概念之一。
2
1.2.5 F分布
设 X ~ (n ) , Y ~ (n ) ,且 相互独立 则 遵从自由度为 (n n )的F分布 记为 F ~ F(n n ) F分布的形状为正偏态分布,但随着 n1 , n2 的 增大,其密度曲线的偏斜度虽有所减缓, 但仍保持偏态分布,并不以正态分布为其 极限分布形式。
与参数估计相同,需要考虑: 总体是否正态分布; 大样本还是小样本; 总体方差已知还是未知。
3.显著性水平 用样本推断H0是否正确,必有犯错误的可能。 原假设H0正确,而被我们拒绝,犯这种错误的概率用表示。 把称为假设检验中的显著性水平( Significant level), 即决策 中的风险。
1 2 n 1 2 n
1.3.2 区间估计
仅靠点估计难以评价待估计值与真值之间 的接近程度,即无法通过点估计来度量估 计值的可信程度,于是引出区间估计。 给出一个区间(置信区间)并预测真正的 参数以一定概率存在于这一区间的方法称 为区间估计。覆盖真值的概率称为置信水 平。
2
2
第二项表示估计量的系统偏差,如果是无 偏估计,这一项为0. (4)有效性。设 ˆ ,ˆ 为待估计参数 的两 个无偏估计值,若 Var(ˆ ) Var(ˆ ) ,则称 ˆ1 是更 有效的估计量。
1 2
1 2
1.4 假设检验
1.4.1 假设检验中的基本问题 1.4.2 p值
wk.baidu.com
1.1.1 总体与样本 1.1.2 统计量 1.1.3 变异系数 1.1.4 偏度与峰度 1.1.5 累积频数分布
1.1.1 总体与样本
通常把所要调查研究的事物或现象的全体 称为总体,而把组成总体的每个元素(成 员)称为个体,一个总体中所含的个体的 数量称为总体的容量。 例如:研究某城市居民的家庭收入情况, 那么这个城市所有家庭的首日状况就是我 们研究的总体,而每个家庭的收入状况就 是个体。
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
加法原理:设 X1, X 2 ,, X k 是相互独立的随机 变量,且 X ~ 2 (n ),i 1,2,, k i i k 则 2
X
i 1
i
~ (n1 n2 nk )
设 X1, X 2 ,, X n 是相互独立的随机变量,并且
为了推断总体的某些特征,需要从总体中 按一定的抽样技术抽取若干个体,将这一 抽取过程称为抽样。 所抽取的部分个体称为样本,样本中所含 个体的数量称为样本容量。 例如在研究居民家庭收入时,随机抽取 1000户来进行调查,这1000户就是一个样 本,样本容量就是1000。
1.1.2 统计量
偏度系数:描述统计数据分布偏斜
V1
( x x)
i 1 i
n
3
S 3 (n 1)
峰度系数:陡峭程度,
V2
4 ( x x ) i i 1 n
V2 3 (正态分布)
S 4 (n 1)
1.1.5 累积频数分布
对于频数数据,从低到高得到累积频数。 应用:Loretz(洛仑兹)曲线,Gini(基尼)系 数。
2 2 1 2
X ,Y
F
X / n1 Y / n2
1,
2
1, 2
如果 t ~ t (n),则t 2 ~ F (1, n) 如果 F ~ F (n , n ) ,则 F分布在回归方程的显著性检验中具有很重 要的作用。
1 2
1 ~ F ( n2 , n1 ) F
1
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
1 2 n
估计量是样本 X1, X 2 ,, X n 的函数,它不包含 未知参数,也就是说T是一个作估计用的统 计量,当样本获得样本观测值 ( x , x ,, x ) , 就用 T ( x , x ,, x ) 作为未知参数的估计值。 对于不同的样本观测值,所得的估计值是 不同的。 估计方法在后面结合实例介绍。
实用回归分析
柳成林
参考教材:《实用回归分析》(第二版) 何晓群 闵素芹 高等教育出版社 计划学时:54 考查课 成绩评定:平时成绩(课后作业,点名)+ 大作业+期末随堂测试(开卷) 没安排上机课,所涉及的excel和spss软件 自学,并在大作业时应用
第一章 统计学基础
1.1 统计数据的整理与描述 1.2 几种重要的概率分布 1.3 参数估计 1.4 假设检验
(1)无偏性。对于一个估计量,屡次变更 数据反复求估计值时,估计值的平均值与 真值相一致的性质称为无偏性。即 E(ˆ) (2)一致性。随着数据个数的增多,估计 量从概率上接近真值的性质称为一致性。 (3)均方误差。MSE(ˆ) E(ˆ ) Var(ˆ) [E(ˆ) ] ˆ) Var ( 是估计量ˆ 的方差,表示 ˆ 自身变异 的程度。