统计学基础培训教材精品示范50张

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中位数是将一批数据从小至大排列后位次居中的
数据值,符号为Md,反映一批观察值在位次上的平
均水平。
适用条件:适合各种类型的资料。尤其适合于
① 大样本偏态分布的资料;
② 参数有不确定数值;
③ 参数分布不明等。
2. 中位数(median)
先将观察值按从小到大顺序排列,再按以下 公式计算:
Md
x(n1) / 2 xn/ 2
已知胖子最近一周抽烟的次数为 1,1,2,2,2,4,2 求胖子上一周抽烟的波动情况
2.标准差 (SD)
标准差 (Standard deviation, Std, SD)即方差的 正平方根;其单位与原变量X的单位相同。
总体标(X准 差)2
N
样本标准差S ∑(X X )2= X 2 X 2 n
变变量量(随机变量)的分类
离散型变量(discrete variable):计数资料(15,17,24,…) 可能取到的值是有限个的随机变量 记数变量,只能通过记数的方法来获取,只能以整数为单位
连续性变量(continuous variable): 计量资料(1.65, 1.73, 1.77,…) 可能取到的值是无限个的随机变量 计量变量,能用量测手段直接测定
D CA
C
A B
D B D
C C
母数
母平均 : μ 母分散 : σ2
母标准偏差 :
σ
对母集团特性的推论
统计量
标本平均 : x
标本分散 : S2 标本标准偏差 :
S
统计学基础培训教材精品示范50张)
资料的测度
中心位置
对资料中心的测度,包括平均,中央值,最频值等。.
平均(Mean)
n 个观测值的平均是, 观测值的总合除于观测值个数
1.正态曲线( normal curve )
f(X)
图形特点: 1. 钟型 2. 中间高 3. 两头低 4. 左右对称 5. 最高处对应于X轴的值就是均数 6. 曲线下面积为1
X 7. 标准差决定曲线的形状
1.正态曲线( normal curve )
➢ 正态分布曲线由两个参数决定,即总体均值μ和总体标准差σ。 ➢ 在σ不变的情况下,函数曲线形状不变,若μ变大时,曲线位置向右移;若变小时,曲线
-2.58 -1.96 -1
99.00%
0
1 1.96 2.58 μ-2.58σ μ-1.96σ μ-σ
99.00%
μ
μ+σ μ+1.96σ μ+2.58σ
标准正态分布 正态分布
-1~1
μ±σ
-1.96~1.96 μ±1.96σ
-2.58~2.58 μ±2.58σ
面积或概率 68.27% 95.00% 99.00%
3. 众数(mode)
胖子和浩子都会修板子,下面是两人去年每月的修板数量 胖子: 77,78,82,81,81,80,81,79,79,81,83,79 浩子 86,87,65,90,85,96,47,86,86,92,55,85 请问可以用平均数来推测下一个月两人的休班量吗?
均值、中位数、众数三者关系
制,就只有(n-k)个自由度了。
例如一个有5个观察值的样本,因为受到统计数 x 的约束,在5
个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五 _
个离均差必须满足 (x x) 0 这一限制条件。
名正态词分解布释(Normal distribution)
正态分布也叫高斯分布(Gaussian distribution),是 最常见、最重要的一种连续型分布。
1.极差(Range)(全距)
R X max X min 580
560
优点:简便
540
520
缺点:
500
1. 只利用了两个极端值
480
2. n大,R也会大
460 440
3. 不稳定
420
1.极差(Range)(全距)
胖子、勇琼、高婕、丽仪、晓冉、蝶婷、许云的体重分别是: 210,78,83,92,86,83,90 请问TA们体重的极差是多少? TA们体重的波动大吗?
1. 均值(mean)
胖子和浩子都会修板子,下面是两人去年每月的修板数量 胖子: 77,78,82,81,81,80,81,79,79,81,83,79 浩子 86,87,65,90,85,96,47,86,86,92,55,85 请问可以用平均数来推测下一个月两人的休班量吗?
2. 中位数(median)
对于 极端值很敏感(outlier) 。
平均 : x
x1 x2
xn n
例 ) 制品完成所需A~F 的7个工程。下面测定了每工程所需要的时间。
求每工程所需要的平均时间。
(单位 :分)
A BC D E F G 2 2 1 3 2 9 30
极端值 30分对平均 的影响大!
统计学基础培训教材精品示范50张)
已知胖子最近一周抽烟的次数为
f(X)
1,1,2,2,2,4,2
假设胖子抽烟的次数的概率统计
符合正态分布,请画出胖子抽烟
次数的概率统计正态分布图
X
1.正态曲线( normal curve )
• 标准正态离差
正态分布:
Z Xμ σ
f (X)
1
2
exp
(
X
2
)2
2
(z)
1
z2
e 2,
2
z
• 标准正态分布:N(0,1)
1.正态曲线-曲线下面积
-∞
0.5
u 0.4 0.3
f(X)
(u)
1
u
u 2
e 2 du
2
0.2
0.1
0.0
-4 -3 -2 -1 0 1 2 3 4 X
累计概率分布函数:
F(X ) 1
(X )2
X
e
(2 2 )dX
2
曲线下面积分布规律
68.27%
68.27%
95.00%
95.00%
n
n
X
f1X1 f2 X 2 f3 X 3 fk X k f1 f2 f3 fk
fi X i fi
适用条件:变量呈正态或近似正态分布的情况
1. 均值(mean)
小A和小B是好战友,周日相约去靶场打靶 小A前10枪的成绩是: 10,10,10,0,10,10,0,10,10,10 小B前10枪的成绩是 8,7,7,9,8,9,7,8,8,9 请问第11枪小A小B的成Fra Baidu bibliotek会是多少?
n 1
n 1
3.标准差 (SD)
已知胖子最近一周抽烟的次数为 1,1,2,2,2,4,2 求胖子上一周抽烟的波动情况
样本方差为什么要除以(n-1)
与自由度(degrees of freedom)有关。 自由度是数学名词,在统计学中,n个数据如不受任何条件的限 制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限
x1n / 2
2
n为奇数 n为偶数
特点:仅仅利用了中间的1~2个数据
2. 中位数(median)
小A和小B是好战友,周日相约去靶场打靶 小A前10枪的成绩是: 10,10,10,0,10,10,0,10,10,10 小B前10枪的成绩是 8,7,7,9,8,9,7,8,8,9 请问第11枪小A小B的成绩会是多少?
统计学基础
基础统计的必要性
在测定阶段中收集材料以分析的方法使用。 把工程的Xs与 Ys特性化资料用数值显示。 用以前的工程和执行DATA推定未来时使用。 高级统计性问题解决方法的基础而使用。 基本统计概念不是根据直观而是创出根据事实的语言。
名1. 总词体解与释样本 Population and sample
出现次数(或频数)最多的观察值;在 频数分布图中对应于高峰所在位置的观察 值。
适用于大样本;较粗糙。
3. 众数(mode)
小A和小B是好战友,周日相约去靶场打靶 小A前10枪的成绩是: 10,10,10,0,10,10,0,10,10,10 小B前10枪的成绩是 8,7,7,9,8,9,7,8,8,9 请问第11枪小A小B的成绩会是多少?
正态分布时: 均值=中位数=众数 正偏态分布时:均值>中位数>众数 负偏态分布时:均值<中位数<众数
名波动词(解v释ariation)指标
反映数据的离散度(Dispersion )。即个体观察值的波动程度。 常用的指标有:
1. 极差(Range) (全距) 2. 百分位数与四分位数间距
Percentile and Quartile range 3. 方差 Variance 4. 标准差 Standard Deviation 5. 变异系数 Coefficient of Variation
2. 中位数(median)
胖子和浩子都会修板子,下面是两人去年每月的修板数量 胖子: 77,78,82,81,81,80,81,79,79,81,83,79 浩子 86,87,65,90,85,96,47,86,86,92,55,85 请问可以用平均数来推测下一个月两人的休班量吗?
3. 众数(mode)
总体:根据研究目的确定的同质研究对象 的全体(集合)。如成年人的身高。 分有限总体与无限总体
样本:从总体中随机抽取的部分观察单位。如
某单位男士的身高
总1. C体VT与E 样& T本V事业部
2. TV事业部 & 技术支持部 3. 技术支持部 & BT1战队 4. 平台支持部 & 订单软件管理组
名从总词体解中释得(到抽样样本方的法方与法样:本抽量样)。
1、正态分布的数学形式 2、正态曲线 3、标准正态分布 4、曲线下面积
1.正态分布(Normal distribution)
f(X)
σ
1 2π
exp
(
X 2σ
μ)2
2
,
X
X ~ N (, 2 ),为X的总体均数,为总体标准差
f ( X )称为X的概率密度函数。 以f ( X )为纵坐标,X为横坐标,绘制的曲线就是 正态曲线(Normalcurve)。
小麦跑一百米10次的速度分别是: 13.63 13.45 13.87 14.21 14.00 13.78 13.99 18.77 14.22 14.12 请问小麦的10次100米时间的极差是多少?
2.方差 (variance)
方差 (variance)也称均方差(mean square deviation), 样本观察值的离均差平方和的均值。表示一组数据的平均离 散情况。
∑ 离均差和(x1 ) (x2 ) ... (xn ) ( X - ) 0 离均差平方和(Sum of square)SS ∑( X - )2
∑( X - )2
总体方差 2
N
∑ 样本方差S 2 ( X X )2 = X 2 X 2 n
n 1
n 1
2.方差 (variance)
资料的测度
母数(Parameter) : 表示母集团的特性值 (母平均,母分散等 )
统计量(Statistic) : 根据从标本中计算的标本特性值,可以推定
母集团的特性。(标本平均, 标本分散等)
母集团
标本
D C C
AAADBCDDCA
B A
A B
B
A D B
DC B CD
抽出(Sampling)
1. 算术均数(arithmetic mean),简称均值(mean) 2. 几何均数(geometric mean) 3. 中位数 (median) 4. 众数(mode) 5. 调和均数(harmonic mean) 6. 截尾平均值(5% trimmed mean)
1. 均值(mean)
X X1 X 2 X n X
从样本推论总体的方法:统计推断 (区间估计,假设检验等)
请问: 计算CVTE的男生的平均身高 推算CVTE的女生的平均体重 推算从14楼到食堂的平均时间
名词解释
变量与随机变量
Variable and random variable
变量——可以测量的任何特征或属性 Any characteristic or attribute that can be measured。 例如:热量值、蛋白质含量、碳水化合物含量。 随机变量——在概率论中称变量为随机变量
有序变量(ordinal variable): 等级资料(优、良、中、差)
变量
胖子的体重 PQ组的出差天数 苹果5S手机的待机时间 刘畅每月发放订单软件软件个数 丽仪跑100米的时间 3553软件的编译时间 订单软件的重测次数 订单软件的重测率
名词解释
平均指标
总称为平均数(average)反映了资料的集中趋势(central tendency)
位置向左移,故称μ为位置参数。 ➢ 在μ不变的情况下,函数曲线位置不变,若σ变大时,曲线形状变的越来越“胖”和
“矮”;若σ变小时,曲线形状变的越来越“瘦”和“高”,故称σ为形态参数或变异度 参数。
max
σ=0.5 f(x) f(x)
σ=1 σ=2
0
µ1
µ2
0
µ
1.正态曲线( normal curve )
相关文档
最新文档