SPSS数据分析教程-第4章-概率论初步
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
2
4
3
模拟投掷的过程 (1)
第1步:设置随机数种子 选择【转换】→【随机数字生成器】,勾 选“设置起点”,并在“固定值”下的 “值”中输入一个用户给定的数值。 第2步:生成均匀分布的随机数,等可能的 产生1,2,3和4这四个数共计1 000个. 选择【转换】→【计算变量】,在“目标 变量”框中输入变量名 “Spinn”,在“数 字表达式”框中输入 TRUNC(RV.UNIFORM(1,5)),然后单击【确 定】按钮.
方法1:选择【图形】→【图表构建程序】,选择 “条” 方法2:选择【分析】→【预测】→【序列图】 方法3:选择【图形】→【旧对话框】→【线图】
该样本数据的确是从正态分布的总体 中随机抽取的呢?
绘制随机数的带有正态 曲线的直方图
4.2 理 论 分 布
除4.1中的均匀分布和正态分布外,常见的 分布还有二项分布、负二项分布、泊松分 布、指数分布、t分布等。SPSS软件中提供 了这些常见分布的分布函数、概率分布函 数和概率密度函数。 SPSS的PDF与非中心PDF函数族提供了相关 分布的概率分布函数或者概率密度函数, CDF与非中心CDF函数族提供了相关分布的 累积概率分布函数(或简称分布函数)。 而逆DF函数族则给出了相应分布的分位数。
比较不同参数的正态分布函数
4.3 经 验 分 布
把观测到的样本数据的相对频率分布称为 经验分布,根据概率的频率定义,当样本 量足够大时,频率稳定到概率。实际问题 中样本数据所服从的分布常常是未知的, 我们只能通过样本数据的经验分布来了解 数据的分布情况。 SPSS描述性统计菜单的的频率过程中把频 率称为百分比,而把结果出现的次数称为 频率。
Sample80.sps
INPUT PROGRAM. VECTOR X(80). LOOP #I = 1 TO 50. LOOP #J=1 TO 80. COMPUTE X(#J)=RV.NORMAL(50, 10). END LOOP. END CASE. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE.
连续型随机变量的任何两个可能取值之间 都有无限多个可能的取值,因此所有可能 取值是不能列举的,也不能给随机变量的 某可能取值赋给一个唯一的概率值。 一般考虑连续型随机变量的分布函数(即 累积概率函数(Probability Cumulative Function,CDF)和密度函数(Probabilitty Density Function,PDF)。
SET SEED=123456. COMPUTE Rnorm01= RV.NORM(0,1). SAVE OUTFILE='D:\SPSSIntro\data\Sim_norm.sav' /COMPRESSED. EXECUTE
生成随机数示意图
二、分析这些正态随机数的性质
绘制随机数的序列图,有几种方法
频率
数据GSS2004.sav,它记录了美国2004年社 会调查的数据,有调查对象的年龄、性别、 受教育年限、最高学历、子女个数等。这 里我们考察调查对象子女个数的分布情况。
频率表
选择【分析】→【频率】,把变量 “CHILDS”选到右侧的“变量(V)”框中。
NUMBER OF CHILDREN 频率 0 1 2 3 4 有效 5 6 7 EIGHT OR MORE 合计 缺失 合计 DK NA 767 474 730 459 221 79 39 18 21 2 808 4 2 812 百分比 27.3 16.9 26.0 16.3 7.9 2.8 1.4 .6 .7 99.9 .1 100.0 有效百分 比 27.3 16.9 26.0 16.3 7.9 2.8 1.4 .6 .7 100.0 累积百 分比 27.3 44.2 70.2 86.5 94.4 97.2 98.6 99.3 100.0
谢谢!
4.2.1 二项分布的分布函数和概 率
如果随机试验只有两个可能的结果,设该 试验中成功的概率为p。如果将该试验独立 地重复进行次n次,这一串重复的独立试验 称为重n贝努力试验。如果用X表示在这次 试验中成功的次数,则随机变量X服从二项 分布,其分布函数为 n
i P( X i ) p (1 p )n i , i 0,1, 2,..., n i
SPSS的CDF函数族给出的就是分布函数的值。 CDF.NORMAL(x,0,1)是给出均值为0,标准 差为1的正态分布变量x的累计概率分布函 数值。 PDF.NORMAL(x,0,1)是给出均值为0,标准 差为1的正态分布变量x的密度函数值。
可以画出累计概率分布 函数的线图
可以画出正态分布变量x 的密度函数的线图
随机数分析(2)
4.1.2 正态分布的随机数
wenku.baidu.com
正态分布的随机变量是连续型随机变量, 它的可能取值是所有实数。数据分析的 许多模型和理论都要求数据服从正态分 布,因此正态分布的随机数在模拟中有 广泛的应用。
一、生成正态分布的随机数
第1步:设置随机数种子为123456 第2步:选择【转换】→【计算变量】, 应用函数RV.Normal(0,1)。
4.5 置 信 区 间
SPSS的许多过程都会给出相关统计量的置 信区间。例如在【描述】菜单中,它会给 出均值的置信区间;在回归分析中,它会 给出拟合值和预测值的置信区间,也可以 给出所估计的回归系数的置信区间。
描述 统 计 量 均值 均值 95% 置信区间 5% 修整均值 中值 方差 当前薪金 标准差 极小值 极大值 范围 四分位距 偏度 峰度 下限 上限 $34,419.57 $32,878.40 $35,960.73 $32,455.19 $28,875.00 291 578 214.453 $17,075.661 $15,750 $135,000 $119,250 $13,163 2.125 5.378 .112 .224 标 准 误 $784.311
CDF.BINOM(x,10,0.25),该函数用于计算 出x所对应的累计概率,即:
P( X ≤ x)
i 0
x
n i n i p (1 p ) i
(1)
这里[x]表示不大于的最大整数。。 PDF.BINOM(x,10,0.25)计算而X取某个特定 值i的概率为: n i n i P( X i ) p (1 p ) i ( 2)
模拟投掷的过程 (2)
第3步:然后分析这四个数出现的次数和相 对频率。 选择【分析】→【描述统计】→【频率】
随机数分析(1)
Spinn 频 1.00 2.00 有效 3.00 4.00 合计 237 259 264 240 1 000 率 百 分 比 23.7 25.9 26.4 24.0 100.0 有效百分比 23.7 25.9 26.4 24.0 100.0 累积百分比 23.7 49.6 76.0 100.0
相对频率直方图
4.4 抽 样 分 布
由于样本选择的随机性,样本统计量也是 随机变量,不同的样本,样本统计量的取 值也可能不同。 每个随机变量都有其分布性质,例如描述 性统计量均值、方差、分位数等。样本统 计量的分布称为抽样分布。
模拟从同一个分布已知的总体中随机抽取 若干不同的样本,然后观察样本统计量的 分布情况。 从一个均值为50、标准差为10的正态总体 中随机抽取80个容量为50的样本。
由上面(1)式计算出的为分布函数的值; 如果是离散随机变量,(2)式给出的为概 率值,它是随机变量X取各个离散值0,1, 2,…,10的概率 。 函数CDF.BINOM(x,10,0.25)用于计算n=10, p=0.25的二项分布下x的分布函数值或者称 为累计概率。
二项分布的概率分布图
4.2.2 连续分布的随机变量—正态分 布
本章学习目标
用仿真方法从总体中抽取随机样本:生成 服从某种分布的随机数; 得到观测值的理论分布、经验分布; 理解抽样分布的形状; 掌握如何求置信区间; 学习如何从数据集中选择符合条件的个案。
4.1 离散型随机变量的仿真
4.1.1 均匀分布的随机数
假设我们有一个正方形,它被均 匀的分为4个相同大小的小正方形。 现在从正方形的中心上方随机地 投掷一颗玉米粒1 000次,假设每 次投掷的玉米粒都等可能的落在4 个小正方形中的一个之中。 问题是:落在1号、2号、3号和4 号正方形中的情况如何呢?
SPSS数据分析教程
—《SPSS数据分析教程》
第4章 概率论初步
目录
4.1 离散型随机变量的仿真
4.1.1 均匀分布的随机数 4.1.2 正态分布的随机数 4.2.1 二项分布的分布函数和概率 4.2.2 连续分布的随机变量—正态分布
4.2 理论分布
4.3 经验分布 4.4 抽样分布 4.5 置信区间