2.基本概念介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
28
分布由总体参数来区分
• 二项分布Bin(n,p)的总体参数为试验 次数n和“成功”概率p • 正态分布N(m,s)由位置参数(均值)m 和形状参数s区分
• Density curves of N(0,1) and N(-2,0.5)
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -5
31
总体和样本
• 在这个例子中,单个北京市民的观点称为 个体(element 或 individual), • 而称所有北京市民对这个问题的观点为一 个总体(population),总体是包含所有要 研究的个体的集合。 • 而调查时问到的那部分市民的观点(也就 是部分个体)称为该总体的一个样本 (sample),是总体中选出的一部分。 • 当然,也有可能试图调查所有的人(比如 人口普查),那叫做普查(census)。 • 普查就一定比抽样准吗?<
30
总体和样本
• 要想了解北京市民对建设北京交通设 施是以包括轨道运输在内的公共交通 工具为主还是以小汽车为主的观点, 需要进行调查; • 调查对象是所有北京市民,调查目的 是希望知道市民中对这个问题的不同 看法各自占有的比例。 • 显然,不可能去问所有的北京市民, 而只能够问一部分;并根据这部分观 点来理解整个北京市民的总体观点。
22
连续分布情况
23
• 连续分布的密度函数:Probability distributions
(also called probability density function frequency function) for continuous random variables (The following is a normal distribution)
• 均值(mean)m=0,标准差(standard deviation) s=1 的正态分布称为标准正态分布. 通常用z表 示标准正态随机变量. • 如果x为有均值m和标准差s的正态变量, 那么 z=(x-m)/s, 即x的标准得分 z-score为标准正 态分布. • 比如, x为均值m=2,标准差s=0.5的正态变量, 则 z=(x-m)/s=(x-2)/.5 为标准正态分布.
4
有些概率是无法精确推断的
• 比如你对别人说你下一个周末去公园 的概率是百分之八十。但你无法精确 说出为什么是百分之八十而不是百分 之八十四或百分之七十八。 • 其实你想说的是你很可能去,但又没 有完全肯定。 • 实际上,到了周末,你或者去,或者 不去;不可能有分身术把百分之八十 的你放到公园,而其余的放在别处。
19
注意二项式展开的系数
n n 1 n n 2 2 n ( a b) a a b a b b 1 2 n x 等价符号: Cn 为组合系数; x n n n n 而且 = =1, = 0 n x n x
29
-4 -3 -2 -1 0 1 2 3 4 5
样本数据:我们能够摸的着的部分
• 我们通常只能够通过抽取样本来得到 对总体的理解> • 样本统计量-对总体特征的描述> • 最好的样本是随机样本> • 数据的收集(二手数据、试验数据、 一手数据、抽样调查)> • 抽样调查的各种误差> • 抽样调查的问卷设计> • 抽样调查数据问题的例子(另外文件)
第三四分位点
170
180
中位数
第一四分位点
160 150
高三男生身高
140
N= 163 175
地区1
地区2
地区
37
茎叶图
•地区1高三男生身高数 据的茎叶图
38
HEIGHT Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 15 . 001223344 17.00 15 . 55666667778899999 20.00 16 . 01112222223333333444 35.00 16 . 55555666666667777788888888888999999 25.00 17 . 0000000011112222233333344 24.00 17 . 555666677777777777888899 13.00 18 . 0111111122333 11.00 18 . 55667788899 4.00 19 . 2333 2.00 19 . 56 3.00 Extremes (>=198) Stem width: 10.00 Each leaf: 1 case(s)
• 只观测到2次红球(恰答对2题)的概率为
p(2)=P(RRB)+P(RBR)+P(BRR)=(1/5)(1/5)(4/5)+ (1/5)(4/5)(1/5)+(4/5)(1/5)(1/5)=3(1/5) 2(4/5)= 3p2q= 0.096. • 三次抽取,均为红球的概率为p(3)=P(RRR) =(1/5)(1/5)(1/5)=(1/5)3=p3=0.008.
15
• 可用表或公式描述分布(想想为什么)
0.2 0.0 0.1 0.3 0.4 0.5
16
上面例子为: 二项分布随机变量 Binomial random variable
17
• 它相当于从一个装有1个红色球 和4个蓝色球(总数5个)的罐子, 每次随机取出一个,观察其颜色; 再放回;再接着取下一个(放回 抽样)。一直取3次(回答3个 问题) • 一次抽取得到红色(答对)的概 率为 p=1/5, 而得到蓝色的概率 为q=1-p=4/5.
32
如 同 给 人 画 像 一 样
数 据 的 描 述
直方图
• 比如某个地区(地区1)学校高三男生 的身高;有163个度量如何用图形来表 示这个数据,使人们能够看出这个数 据的大体分布或“形状”呢?一个办 法就是画一个直方图(histogram)。
34
40
30
20
10 Std. D ev = 10.91 M ean = 170.9 0 150.0 155.0 160.0 165.0 170.0 175.0 180.0 185.0 190.0 195.0 200.0 N = 163.00
Density
0.15 0.1 0.05 0 -4
-3
-2
-1
0 Critical Value
1
2
3
4 26
• 分布 N(0,1) 和N(-2,0.5)的密度函数
不同均值 m 和标准差 s 的 密度曲线有不同的位置和 形状
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 27
6
我们就是要通过对世界 的观测数据,在随机性 中寻找用概率和数学模 型描述的规律性
总体:我们感兴趣的那部分现实世界 • 总体通常用变量来代表 • 变量可以是一维或多维的 • 变量可以是定性或者定量的 • 定性变量由随机(数量)变量描绘 • 随机变量有分布(总体分布) • 而分布又由(总体)参数来区别 • 总体和变量永远也不可能全部认识 • 只有通过样本才能够明白
Probability Between Limits is 0.53281 0.4 0.35
比如,概率 P(-.5<x<1), 为在区间 (-.5,1) 上曲线下面的面积.
0.3 0.25
Density
0.2 0.15 0.1 0.05 0 -4
24
-3 -2 -1 0 Critical Value 1 2 3 4
n n
二项随机变量
• n 次同等条件的独立试验 • 每次试验仅有两种结果,通常记为S (成功) 和 F (失败). • 成功(S)的概率在每次试验保持不变, 用p表示, 失败 (F)概率则为 q=1-p. • n 次试验中成功的数目x, 则为二项随机 变量.
21
Poisson随机变量
• 在某些固定的条件下, 人们认为某些事件出现的 次数服从Poisson分布, 比如 • 在某一个时间段内某种疾病的发生病数, • 显微镜下的微生物数, 血球数, • 门诊病人数, • 投保数, • 商店的顾客数, • 公共汽车到达数, • 电话接通数等等. <
8
总体通常用变量来代表
• 一个调查问卷可能有关于性别、 年龄、收入、观点、教育程度、 财产情况、纳税情况、职业等问 题。 • 这些:性别、年龄、收入、观点、 教育程度、财产情况、纳税情况、 职业等,都是变量
9
变量可以是一维或多维的
• 年龄,收入等都是一维的 • 而地理坐标就是二维的 • 许多变量的组合,则可能是多维的。
地 区 1高 三 男 生 高 度
35
盒型图
•比直方图简单一些的是盒形图 (boxplot,又称箱图、箱线图、盒子 图)。后面图的左边一个是根据地区1高 三男生的身高数据所绘的盒形图;其 右边的图代表另一个地区(地区2)的 高三学生的身高
36
ቤተ መጻሕፍቲ ባይዱ
210
200
158 96 5
190
248 250 259 323
12
随机变量有分布(总体分布)
• 有离散性分布(如二项分布、 Poisson分布、超几何分布)> • 也有连续性分布(如正态分布、 t分布,c2分布,F分布)>
13
离散分布
14
随机回答选答题可能得到的分数 • 例: 纯粹随机回答三个单选题(每个5种选择)可 能答对0、1、2、3题的概率为
0.5 0.0 0.1 0.2 0.3 0.4
t分布c2分布和F分布
• 这几个分布都是正态分布导出的分布, 一般不描述什么实际现象,但是在进行 检验时,总体为正态分布的随机变量的 一些变换呈这些分布,用于相应的检验。 比如t检验c2检验和F检验。 • 其实,t分布是正态变量标准化时,用 样本标准差s代替总体标准差s的结果。 c2分布为独立正态变量的平方和的分布, F分布为c2分布(除以其自由度后)之 比。
5
有些概率是可以估计的
• 如掷骰子。只要没有人做手脚,你得到 任何点的概率都应该是六分之一。 • 这反映了掷骰子的规律性。 • 但掷出骰子之后所得到的结果还只可能 是六个数目之一。 • 这体现了随机性。 • 如果你掷1000次骰子,那么,大约有六 分之一的可能会得到6;这也说明随机结 果也具有规律;而且有可能通过试验等 方法来推测其规律。
10
变量可以是定性或者定量的
• 性别、观点、教育程度、职业等 变量是定性的。 • 年龄、收入、财产情况、纳税情 况等变量可以是定量的
11
定性变量也要由随机(数量)变量描绘 • 性别、观点、教育程度、职业等 变量是定性的,无法用数量直接 描述 • 但是,它们的频数、比例等可以 用数量描述 • 没有用数量描述的量,无法参加 数据分析过程
18
三次抽取(回答3题)
均观测不到红球(答对0题)的概率为
p(0)=P(BBB)=P(B)P(B)P(B)=(4/5) (4/5) (4/5)=(4/5)3= q3= 0.512
• 只观测到1次红球(恰答对1题)的概率为
p(1)=P(RBB)+P(BRB)+P(BBR)=(1/5) (4/5) (4/5)+ (4/5)(1/5)(4/5)+(4/5) (4/5)(1/5)=3(1/5)(4/5)2=3pq2= 0.384.
2
随机性和规律性 • 从总体来说,我国公民的预期寿 命却是非常稳定的。而且女性的 预期寿命也稳定地比男性高几年。 这就是规律性。 • 你可能活过这个寿命,也可能活 不到这个年龄,这是随机的。 • 但是总体来说,预期寿命的稳定 性,却说明了随机之中有规律性。 这种规律就是统计规律。
3
概率和机会
• 常听到概率这个名词。如天气预报中 提到的降水概率。如果降水概率是百 分之九十,那就很可能下雨;但如果 是百分之十,就不大可能下雨。 • 因此,从某种意义说来,概率描述了 某件事情发生的机会。 • 显然,这种概率不可能超过百分之百, 也不可能少于百分之零。换言之,概 率是在0和1之间的一个数,说明某事 件发生的机会有多大。
基本概念介绍
吴喜之
随机性和规律性
• 有许多定律,例如牛顿三定律,物质不 灭定律,爱因斯坦相对论等等。 • 但是在许多领域,很难用如此确定的公 式或论述来描述一些现象。比如,人的 寿命。一个吸烟、喝酒、不锻炼、而且 一口长荤的人可能比一个很少得病、生 活习惯良好的人活得长。 • 可以说,活得长短是有一定随机性的 (randomness)。这种随机性可能和人的 经历、基因、习惯等无数说不清的因素 都有关系。
25
Probability Between Limits is 0.024998
标准正态分布N(0,1), m=0, s=1.
0.35 0.3
0.4
F(1.96)=P(Z<1.96)=0.9750021=1-P(Z>1.96) 0.25 =1-0.02499790 0.2 P(Z>1.96)=1-F(1.96)=1-0.9750021=0.02499790
分布由总体参数来区分
• 二项分布Bin(n,p)的总体参数为试验 次数n和“成功”概率p • 正态分布N(m,s)由位置参数(均值)m 和形状参数s区分
• Density curves of N(0,1) and N(-2,0.5)
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -5
31
总体和样本
• 在这个例子中,单个北京市民的观点称为 个体(element 或 individual), • 而称所有北京市民对这个问题的观点为一 个总体(population),总体是包含所有要 研究的个体的集合。 • 而调查时问到的那部分市民的观点(也就 是部分个体)称为该总体的一个样本 (sample),是总体中选出的一部分。 • 当然,也有可能试图调查所有的人(比如 人口普查),那叫做普查(census)。 • 普查就一定比抽样准吗?<
30
总体和样本
• 要想了解北京市民对建设北京交通设 施是以包括轨道运输在内的公共交通 工具为主还是以小汽车为主的观点, 需要进行调查; • 调查对象是所有北京市民,调查目的 是希望知道市民中对这个问题的不同 看法各自占有的比例。 • 显然,不可能去问所有的北京市民, 而只能够问一部分;并根据这部分观 点来理解整个北京市民的总体观点。
22
连续分布情况
23
• 连续分布的密度函数:Probability distributions
(also called probability density function frequency function) for continuous random variables (The following is a normal distribution)
• 均值(mean)m=0,标准差(standard deviation) s=1 的正态分布称为标准正态分布. 通常用z表 示标准正态随机变量. • 如果x为有均值m和标准差s的正态变量, 那么 z=(x-m)/s, 即x的标准得分 z-score为标准正 态分布. • 比如, x为均值m=2,标准差s=0.5的正态变量, 则 z=(x-m)/s=(x-2)/.5 为标准正态分布.
4
有些概率是无法精确推断的
• 比如你对别人说你下一个周末去公园 的概率是百分之八十。但你无法精确 说出为什么是百分之八十而不是百分 之八十四或百分之七十八。 • 其实你想说的是你很可能去,但又没 有完全肯定。 • 实际上,到了周末,你或者去,或者 不去;不可能有分身术把百分之八十 的你放到公园,而其余的放在别处。
19
注意二项式展开的系数
n n 1 n n 2 2 n ( a b) a a b a b b 1 2 n x 等价符号: Cn 为组合系数; x n n n n 而且 = =1, = 0 n x n x
29
-4 -3 -2 -1 0 1 2 3 4 5
样本数据:我们能够摸的着的部分
• 我们通常只能够通过抽取样本来得到 对总体的理解> • 样本统计量-对总体特征的描述> • 最好的样本是随机样本> • 数据的收集(二手数据、试验数据、 一手数据、抽样调查)> • 抽样调查的各种误差> • 抽样调查的问卷设计> • 抽样调查数据问题的例子(另外文件)
第三四分位点
170
180
中位数
第一四分位点
160 150
高三男生身高
140
N= 163 175
地区1
地区2
地区
37
茎叶图
•地区1高三男生身高数 据的茎叶图
38
HEIGHT Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 15 . 001223344 17.00 15 . 55666667778899999 20.00 16 . 01112222223333333444 35.00 16 . 55555666666667777788888888888999999 25.00 17 . 0000000011112222233333344 24.00 17 . 555666677777777777888899 13.00 18 . 0111111122333 11.00 18 . 55667788899 4.00 19 . 2333 2.00 19 . 56 3.00 Extremes (>=198) Stem width: 10.00 Each leaf: 1 case(s)
• 只观测到2次红球(恰答对2题)的概率为
p(2)=P(RRB)+P(RBR)+P(BRR)=(1/5)(1/5)(4/5)+ (1/5)(4/5)(1/5)+(4/5)(1/5)(1/5)=3(1/5) 2(4/5)= 3p2q= 0.096. • 三次抽取,均为红球的概率为p(3)=P(RRR) =(1/5)(1/5)(1/5)=(1/5)3=p3=0.008.
15
• 可用表或公式描述分布(想想为什么)
0.2 0.0 0.1 0.3 0.4 0.5
16
上面例子为: 二项分布随机变量 Binomial random variable
17
• 它相当于从一个装有1个红色球 和4个蓝色球(总数5个)的罐子, 每次随机取出一个,观察其颜色; 再放回;再接着取下一个(放回 抽样)。一直取3次(回答3个 问题) • 一次抽取得到红色(答对)的概 率为 p=1/5, 而得到蓝色的概率 为q=1-p=4/5.
32
如 同 给 人 画 像 一 样
数 据 的 描 述
直方图
• 比如某个地区(地区1)学校高三男生 的身高;有163个度量如何用图形来表 示这个数据,使人们能够看出这个数 据的大体分布或“形状”呢?一个办 法就是画一个直方图(histogram)。
34
40
30
20
10 Std. D ev = 10.91 M ean = 170.9 0 150.0 155.0 160.0 165.0 170.0 175.0 180.0 185.0 190.0 195.0 200.0 N = 163.00
Density
0.15 0.1 0.05 0 -4
-3
-2
-1
0 Critical Value
1
2
3
4 26
• 分布 N(0,1) 和N(-2,0.5)的密度函数
不同均值 m 和标准差 s 的 密度曲线有不同的位置和 形状
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 27
6
我们就是要通过对世界 的观测数据,在随机性 中寻找用概率和数学模 型描述的规律性
总体:我们感兴趣的那部分现实世界 • 总体通常用变量来代表 • 变量可以是一维或多维的 • 变量可以是定性或者定量的 • 定性变量由随机(数量)变量描绘 • 随机变量有分布(总体分布) • 而分布又由(总体)参数来区别 • 总体和变量永远也不可能全部认识 • 只有通过样本才能够明白
Probability Between Limits is 0.53281 0.4 0.35
比如,概率 P(-.5<x<1), 为在区间 (-.5,1) 上曲线下面的面积.
0.3 0.25
Density
0.2 0.15 0.1 0.05 0 -4
24
-3 -2 -1 0 Critical Value 1 2 3 4
n n
二项随机变量
• n 次同等条件的独立试验 • 每次试验仅有两种结果,通常记为S (成功) 和 F (失败). • 成功(S)的概率在每次试验保持不变, 用p表示, 失败 (F)概率则为 q=1-p. • n 次试验中成功的数目x, 则为二项随机 变量.
21
Poisson随机变量
• 在某些固定的条件下, 人们认为某些事件出现的 次数服从Poisson分布, 比如 • 在某一个时间段内某种疾病的发生病数, • 显微镜下的微生物数, 血球数, • 门诊病人数, • 投保数, • 商店的顾客数, • 公共汽车到达数, • 电话接通数等等. <
8
总体通常用变量来代表
• 一个调查问卷可能有关于性别、 年龄、收入、观点、教育程度、 财产情况、纳税情况、职业等问 题。 • 这些:性别、年龄、收入、观点、 教育程度、财产情况、纳税情况、 职业等,都是变量
9
变量可以是一维或多维的
• 年龄,收入等都是一维的 • 而地理坐标就是二维的 • 许多变量的组合,则可能是多维的。
地 区 1高 三 男 生 高 度
35
盒型图
•比直方图简单一些的是盒形图 (boxplot,又称箱图、箱线图、盒子 图)。后面图的左边一个是根据地区1高 三男生的身高数据所绘的盒形图;其 右边的图代表另一个地区(地区2)的 高三学生的身高
36
ቤተ መጻሕፍቲ ባይዱ
210
200
158 96 5
190
248 250 259 323
12
随机变量有分布(总体分布)
• 有离散性分布(如二项分布、 Poisson分布、超几何分布)> • 也有连续性分布(如正态分布、 t分布,c2分布,F分布)>
13
离散分布
14
随机回答选答题可能得到的分数 • 例: 纯粹随机回答三个单选题(每个5种选择)可 能答对0、1、2、3题的概率为
0.5 0.0 0.1 0.2 0.3 0.4
t分布c2分布和F分布
• 这几个分布都是正态分布导出的分布, 一般不描述什么实际现象,但是在进行 检验时,总体为正态分布的随机变量的 一些变换呈这些分布,用于相应的检验。 比如t检验c2检验和F检验。 • 其实,t分布是正态变量标准化时,用 样本标准差s代替总体标准差s的结果。 c2分布为独立正态变量的平方和的分布, F分布为c2分布(除以其自由度后)之 比。
5
有些概率是可以估计的
• 如掷骰子。只要没有人做手脚,你得到 任何点的概率都应该是六分之一。 • 这反映了掷骰子的规律性。 • 但掷出骰子之后所得到的结果还只可能 是六个数目之一。 • 这体现了随机性。 • 如果你掷1000次骰子,那么,大约有六 分之一的可能会得到6;这也说明随机结 果也具有规律;而且有可能通过试验等 方法来推测其规律。
10
变量可以是定性或者定量的
• 性别、观点、教育程度、职业等 变量是定性的。 • 年龄、收入、财产情况、纳税情 况等变量可以是定量的
11
定性变量也要由随机(数量)变量描绘 • 性别、观点、教育程度、职业等 变量是定性的,无法用数量直接 描述 • 但是,它们的频数、比例等可以 用数量描述 • 没有用数量描述的量,无法参加 数据分析过程
18
三次抽取(回答3题)
均观测不到红球(答对0题)的概率为
p(0)=P(BBB)=P(B)P(B)P(B)=(4/5) (4/5) (4/5)=(4/5)3= q3= 0.512
• 只观测到1次红球(恰答对1题)的概率为
p(1)=P(RBB)+P(BRB)+P(BBR)=(1/5) (4/5) (4/5)+ (4/5)(1/5)(4/5)+(4/5) (4/5)(1/5)=3(1/5)(4/5)2=3pq2= 0.384.
2
随机性和规律性 • 从总体来说,我国公民的预期寿 命却是非常稳定的。而且女性的 预期寿命也稳定地比男性高几年。 这就是规律性。 • 你可能活过这个寿命,也可能活 不到这个年龄,这是随机的。 • 但是总体来说,预期寿命的稳定 性,却说明了随机之中有规律性。 这种规律就是统计规律。
3
概率和机会
• 常听到概率这个名词。如天气预报中 提到的降水概率。如果降水概率是百 分之九十,那就很可能下雨;但如果 是百分之十,就不大可能下雨。 • 因此,从某种意义说来,概率描述了 某件事情发生的机会。 • 显然,这种概率不可能超过百分之百, 也不可能少于百分之零。换言之,概 率是在0和1之间的一个数,说明某事 件发生的机会有多大。
基本概念介绍
吴喜之
随机性和规律性
• 有许多定律,例如牛顿三定律,物质不 灭定律,爱因斯坦相对论等等。 • 但是在许多领域,很难用如此确定的公 式或论述来描述一些现象。比如,人的 寿命。一个吸烟、喝酒、不锻炼、而且 一口长荤的人可能比一个很少得病、生 活习惯良好的人活得长。 • 可以说,活得长短是有一定随机性的 (randomness)。这种随机性可能和人的 经历、基因、习惯等无数说不清的因素 都有关系。
25
Probability Between Limits is 0.024998
标准正态分布N(0,1), m=0, s=1.
0.35 0.3
0.4
F(1.96)=P(Z<1.96)=0.9750021=1-P(Z>1.96) 0.25 =1-0.02499790 0.2 P(Z>1.96)=1-F(1.96)=1-0.9750021=0.02499790