研究生统计学

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0.10 0.20 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.323 1.321 1.319 1.318 1.316
0.05 0.10 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.721 1.717 1.714 1.711 1.708
22
t 值表规律:
(1) 自由度(υ)一定时,p 与 t 成反比;
(2) 概率(p) 一定时, υ 与 t 成反比;
第三节
总体均数的估计
参数估计: 用样本均数估计总体均数。 1、 点(值)估计(近似值) 2、 区间估计(近似范围)
24
1、点(值)估计(point estimation): •用样本均数直接作为总体均数的估计值 •未考虑抽样误差。
95%(个体)的正常值范围:156.0-170.9 95%的(总体均数)可信区间:163.0-164.5
32
(可信区间)意义:
虽然不能知道某校全体女大学生身高均数的 确切数值,全体女大学生身高均数在163.0 -164.5cm之间的可能性是95%,在 162.7 – 164.7cm 之间的可能性是99%。 换句话说,做出校全体女大学生身高均数为 163.0 -- 164.5cm的结论,说对的概率是95%,说错
14
小样本思想

戈塞特:t分布与小样本
由于“有些实验不能多次地进行”,从而“必须 根据少数的事例(小样本)来判断实验结果的正 确性”


与正态分布的关系
15
16
标准正态变换后:
X X z S
Z~N(0, 1 )
17
18

对X进行标准正态转化以后:
X
x
Z~N(0, 1 )
X
sx
的概率是5%;做出校全体女大学生身高均数为162.7
– 164.7cm的结论,说对的概率是99%,说错的概率 是1%。
准确度:说对的可能性大小, 用 (1-) 来衡量。
99%的可信区间好于95%的可信区间。
精确度:指区间范围的宽窄,范围越宽精确度越差。
99%的可信区间差于95%的可信区间。
准确度与精确度的关系:
~t
19
t 分布的图形(z 分布 是t 分布的特殊形式)
20
曲线下面积分布规律:t 值表(附表2 )
左侧列:自由度, υ 上两行:概率, p, 即曲线下阴影部分的面积; 表中的数字:相应的 |t | 界值。
21
-t
0
t
附表2
自由度
t 界值表
概 率,P 0.025 0.01 0.05 0.02 12.706 31.821 4.303 6.965 3.182 4.541 2.776 3.747 2.571 3.365 2.447 2.365 2.306 2.262 2.228 2.080 2.074 2.069 2.064 2.060 3.143 2.998 2.896 2.821 2.764 2.518 2.508 2.500 2.492 2.485 0.005 0.01 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 2.831 2.819 2.807 2.797 2.787 0.0025 0.001 0.005 0.002 127.321 318.309 14.089 22.327 7.453 10.215 5.598 7.173 4.773 5.893 4.317 4.029 3.833 3.690 3.581 3.135 3.119 3.104 3.091 3.078 5.208 4.785 4.501 4.297 4.144 3.527 3.505 3.485 3.467 3.450 0.0005 0.001 636.619 31.599 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 3.819 3.792 3.768 3.745 3.725
27
95%的可信区间的理解:

从正态总体中随机抽取100个样本,可算得100个样本均 数和标准差,也可算得100个均数的可信区间,平均约有
95个可信区间包含了总体均数 。

但在实际工作中,只能根据一次试验结果估计可信区间, 我们就认为该区间包含了总体均数。
28
公式 (x1.96· x,x1.96 · x) S S 即(x±1.96· x) S
第八节
假设检验的注意事项
第一节 标准误(Standard error)
一、概念 抽样误差:由于抽样引起的样本统计量与总体 参数之间的差异。 标准误 :(σ
x
Sx) 表示抽样误差大小的指标;
样本均数的标准差。
SPSS结果中用std. error of mean 表示
9
标准误示意图
X1 S1
μσ
X2 S2 XI Si Xn Sn

5
假设检验

参数假设检验 非参数假设检验
总体分布已知, 检验关于未知参数 的某个假设
总体分布未知时的 假设检验问题
6
补充:参数统计和非参数统计

参数统计:统计推断方法,通常要求样本来自正态总体,
或方差齐等,在这些假设的基础上,对总体参数进行估计 和检验,称为参数统计。

非参数统计:有许多资料不符合参数统计的要求,不能用
Frequencies----Statistics----
Dispersion---S.E. mean---Continue---OK
Statistics 身高 N St d. Error of M ean St d. Deviatio n Va lid M issing 100 0 .3799 8 3.799 85
骨密度差
37
已知中学一般男生的心率平均为74次/分钟。为
了研究常参加体育锻炼的中学生心脏功能是否与一
般的中学生相同,在某地区中学生中随机抽取常年
参加体育锻炼的男生16名,测量他们的心率,结果
见数据“男生心率.SAV”。
One-S ample S tatistic s N 心率 16 St d. Erro r Mean St d. Deviati on Mean 65.62 50 7.200 69 1.800 17
25
2、区间估计(interval estimation)
▲ 概念:根据样本均数,按一定的可信度计算
出总体均数很可能在的一个数值范围,这个 范围称为总体均数的可信区间(confidence
ቤተ መጻሕፍቲ ባይዱ
interval, CI)。
26
(x1.96· x,x1.96 · x) S S
即(x±1.96· x) S
(例如预测孩子的身高)
34
正常值范围与可信区间
正常值范围 可信区间
概念:绝大多数正常人的某指 概念:总体均数所在的数值 标范围。(95%,99%, 指 范围( 95%,99% 指可信度) 绝大多数正常人)
计算公式:
SPSS程序:百分位数法
计算公式:
SPSS程序:
用途:判断观察对象的某 用途:估计总体均数 项指标是否正常.
Lower Bo und Up per Bo und
.241 .478
31
Statistics 身高 N Va lid Missing
Mean St d. Error of Mean St d. Deviatio n Pe rce ntiles 2.5 97.5
100 0 163.7 430 .3799 8 3.799 85 155.9 675 170.8 850

1 2 3 4 5 6 7 8 9 10 21 22 23 24 25
单侧 双侧
0.25 0.50 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.686 0.686 0.685 0.685 0.684
0.20 0.40 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.859 0.858 0.858 0.857 0.856
意义:与正常值范围进行比较 (x1.96 ·S,x1.96 ·S )
29
SPSS求可信区间

Analyze----Descriptive Statistics---Explore----身高-Statistics----Descriptives--Continue----OK
30
可信区间
De scriptiv es 身高 Mean 95% Confid ence Interval f or Mean 5% T rimme d Mean Medi an Va riance St d. Deviati on Minim um Maximum Ra nge Interq uartile Range Skewness Ku rtosis St atistic 163.7 430 162.9 890 164.4 970 163.7 522 163.6 500 14.43 9 3.799 85 154.7 0 173.6 0 18.90 5.05 -.030 -.250 St d. Erro r .3799 8
王晓莉 http://www.qingis.com/wang.htm xlwang@bjmu.edu.cn
随机抽样
参数?
( 、、)
总体
(一锅)
样本
(一勺)
统计量
(X、s、p)
统计推断
2
基本内容
统计描述
计量资料 频数分布 集中趋势 离散趋势
统计推断(1)
统计推断(2)
直线相关与回归 偏相关 多元线性回归
统计图表
计数资料 相对数
抽样误差 标准误 t z F检验 秩和检验
u 、 2检验 秩和检验
Logistic回归
统计图表
3
统计推断(Statistical inference):用样本 信息推论总体特征的过程。
包括:参数估计
假设检验
4

参数估计: 运用统计学原理,用从样本计算出来
的统计指标量,对总体指标量进行估计。 假设检验:又称显著性检验,是指由样本间存在 的差别对样本所代表的总体间是否存在着差别做 出判断。
参数统计的方法进行检验,而需要一种不依赖于总体分布 类型的假设检验;是通过将样本实际数据排队编秩后,对 秩次进行比较,因此也叫秩和检验。
7
主要内容
第一节 第二节 第三节 第四节 标准误 t 分布 参数估计(总体均数的估计)
假设检验
单一样本的t检验 两组样本的t检验 配对样本的t检验
t检验
第五节 第六节 第七节
13
第二节
哥塞特(W.S. Gosset,1876~ 1937) 1908年,哥塞特首次以“学 生”(Student)为笔名,在 《生物计量学》杂志上发表 了“平均数的概率误差”。 由于这篇文章提供了“学生t 检验”的基础,为此,许多 统计学家把1908年看作是统 计推断理论发展史上的里程 碑。
t 分布
σx
X服从什么分布?
X
X
11
二、(均数)标准误的计算 三、 (均数)标准误
sx
s n
意义:反映抽样误差的大小。标准误越小,
抽样误差越小,用样本均数估计总体均数的可 靠性越大。
与样本量的关系:S 一定,n↑,标准误↓
12
SPSS计算标准误
Analyze----Descriptive
Statistics----
35

为了比较国产药和进口药对治疗更年期妇女骨
质疏松效果是否相同,采取随机双盲的临床试
验方法。国产药组20例,进口药组19例,评价
指标为第2-4腰椎骨密度的改变值,改变值见数 据库”骨密度.sav”。
总体-样本
36
Group Statistics 分组 1 2 N 20 19 Std. Erro r Mean Std. Deviati on Mean 48.25 00 31.98 828 7.152 80 36.36 84 27.64 901 6.343 12
38
第四节
▲也叫显著性检验;
假设检验
▲科研数据处理的重要工具; ▲某事发生了: 是由于碰巧?还是由于必然 的原因?统计学家运用显著 性检验来处理这类问题。
39
假设检验: 1、原因 2、目的 3、原理 4、过程(步骤) 5、结果
1、假设检验的原因
从两个总体中进行随机抽样,得到两个样本均数X1、 X2。 X1、X2不同。不同的原因是什么? X1、X2 不同有两种(而且只有两种)可能: (1)分别所代表的总体均数相同,由于抽样误差造 成了样本均数的差别。差别无显著性 。 (2)分别所代表的总体均数不同。差别有显著性。
相关文档
最新文档