统计学的基础知识分解
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
率或平均规模。
某种转基因鱼不同世代鱼群保种的规
模分别为:F0代200尾,F1代400尾,F2 代600尾;F3代900尾,F4代1500尾,试
求其平均规模。
1 1 H 1 1 1 457 1 1 1 1 0.00219 5 ( 200 400 600 900 1500 ) 5 (0.0109) 1
均数、中位数、众数三者关系
正态分布时: 均数=中位数=众数 正偏态分布时:均数>中位数>众数 负偏态分布时:均数<中位数<众数
5、调和平均数
资料中各观测值 倒数 的 算术平均数 的 倒数,称为 调和平均数,记为H,即
H
1
1 n 1 ( x1
1 x2
1 xn )
1 n
1
1 x
调和平均数主要用于反映变量不同阶段的平均增长
误差:试验中不可控因素所引起的实际观察值 与客观真实值(真值)之差 系统误差 systematic error 随机误差 random error 错误:试验过程中,人为作用引起的差错 如药品称量错误,数据录入错误等
误差(Error)
测量值 = 真值 + 随机误差 +非随机误差 Xi = i + i
第二节 计量资料的统计描述
连续型变量(可测量的变量)
一.频数表与频数分布
二.平均指标(算术均数、几何均数、中位 数、众数) 三.变异指标(极差、百分位数与四分位间 距、方差、标准差、变异系数)
一、频数表与频数分布 (frequency table and frequency distribution)
1. 均数(mean)
X 1 X 2 X n X X n n
f1 X 1 f 2 X 2 f 3 X 3 f k X k f i X i X f1 f 2 f 3 f k f i
适用条件:资料呈正态或近似正态分布的资料
2. 几何均数(geometric mean)
2
2
n
n 1
4.标准差
标准差 (Standard deviation, Std, SD)即方差 的正平方根;其单位与原变量X的单位相同。 总体标准差
2 ( X )
N
样本标准差S
(X X ) X X ∑ =
2 2
2
n
n 1
n 1
样本方差为什么要除以(n-1)
统计学是收集、分析、解释与报告 数据资料的一门科学。
第一节 统计学的一些基本概念
1. 总体与样本
2. 变量与随机变量
3. 同质与变异 4. 参数与统计量 5. 误差与错误 6. 准确性与精确性
1. 总体与样本 Population and sample
总体:根据研究目的确定 的同质研究对象的全体(集 合)。如成年人的身高。 分有限总体与无限总体 样本:从总体中随机抽取 的部分观察单位。如某单 位男士的身高
中位数计算公式与实例
先将观察值按从小到大顺序排列,再按 以下公式计算:
x( n1) / 2 Md xn / 2 x1 n / 2 2
n为奇数 n为偶数
特点:仅仅利用了中间的1~2个数据
例 随机抽查了9名中学生某月的到校天 数分别为12,13,14, 14, 15, 15, 15, 17, 19天,求其中位数。
4. 参数与统计量 Parameter and statistic
参数:总体的统计指标,
总体
参 数
抽样
样本
如总体均数、标准差,采 用希腊字母分别记为μ、
推断
统计量
σ。通常是固定的常数。
统计量:样本的统计指标,如样本均数、标准差,采用拉 丁字母分别记为
X、S
。 参பைடு நூலகம்附近波动的随机变量 。
5. 误差与错误 Error and mistake
抽样与推断
从总体中得到样本的方法:抽样。 (抽样方法与样本量) 从样本推论总体的方法:统计推断 (区间估计,假设检验等)
2、变量与随机变量 Variable and random variable
变量——可以测量的任何特征或属性。 Any characteristic or attribute that can be measured。
精密度(precision) 、也称可靠度(reliability) 或重复性(repeatability):重复观察时观察 值与其均值的接近程度,受随机误差的影响 (常用指标:一致百分率、Kappa值)。
准确度差、精密度好
准确度?精密度差
准确度和精密度都好
准确度和精密度都差
系统误差使数据偏离了其理论值,影响数据的准确度。 随机误差使数据相互分散,影响了数据的精密度。
160名正常成年女子的 血清甘油三酯(mmol/L)
编号 1 2 3 4 血清甘油三脂 0.51 0.52 0.59 0.61 编号 … 153 154 155 血清甘油三脂 … 1.65 1.66 1.67
5 6 7 8 …
0.61 0.62 0.63 0.64 …
156 157 158 159 160
预备内容:
统计学基础知识
统计学—statistics
“a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data”. ----Webster 国际大辞典
二. 平均指标
总称为平均数(average)反映了资料的 集中趋势(central tendency)。常用的有: 1. 算术均数(arithmetic mean),简称 均数(mean) 2. 几何均数(geometric mean) 3. 中位数 (median) 4. 众数(mode) 5. 调和均数(harmonic mean) 6. 截尾平均值(5% trimmed mean)
与自由度(degrees of freedom)有关。 自由度是数学名词,在统计学中,n个数据如 不受任何条件的限制,则n个数据可取任意值,称 为有n个自由度。若受到k个条件的限制,就只有 (n-k)个自由度了。 例如一个有5个观察值的样本,因为受到统计 数 x 的约束,在5个离均差中,只有4个数值可以 在一定范围内自由变动取值,而第五个离均差必 _ 须满足 ( x x) 0 这一限制条件。
离均差和( x1 ) ( x2 ) ... ( xn ) ∑ ( X - ) 0 离均差平方和(Sum of square )SS ∑ ( X - )2 总体方差 2
2 ( X ) ∑
N
2
样本方差S
2
(X X ) ∑ n 1
X X =
1. 极差(Range)(全距)
R X max X min
优点:简便
580 560 540 520 500
缺点:1. 只利用了两个
极端值
480 460 440 420
2. n大,R也会大
3. 不稳定
2. 百分位数与四分位数间距 Percentile and quartile range
Frequency
几种平均数之间的关系
对于同一资料:
算术平均数 > 几何平均数 > 调和平均数 上述五种平均数,最常用的是算术平均数。
截尾平均值
5% trimmed mean:将一组数中去掉 最小的5%数值,再去掉最大的5%,然后 将剩余的90%计算平均值得出的数值。 减小了极端值的影响。
三. 变异(variation)指标
25% 75%
1.6m
1.8m
X
百分位数 :数据从小到大排列,在百分尺度下, 所占百分比对应的值。记为Px。 四分位间距Quartile range:QR=P75- P25 四分位半间距Quartile deviation:QD=QR/2
3. 方差
方差 (variance)也称均方差(mean square deviation),样本观察值的离均差平方 和的均值。表示一组数据的平均离散情况。
M X 91 X 5 15(天)
2
如果只调查了前八位中学生,则: M X 8+X 8 2 (X 4+X 5)2 ( 14+15)2 14.5(天) +1 2 2
4. 众数(mode)
出现次数(或频数)最多的观 察值;在频数分布图中对应于高峰 所在位置的观察值。 适用于大样本;较粗糙。
X G n X1 X 2 X n
1 lg X G (lg X 1 lg X 2 lg X n ) n lg X 1 X G lg n
lg X
n
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态 分布(正偏态)资料;如增长速度、抗体滴度资料 抗体的效价滴度的倒数分别为:10、100、 1000、10000、100000,求几何均数。
1.随机误差(抽样误差):
影响因素众多,变化无方向性,不可避免,但可 用统计方法进行分析。 2.系统误差 受确定因素影响,大小变化有方向性。 偏差bias 3.非系统误差(错误) 可以避免 研究者偶然失误而造成的误差。
6. 准确性与精确性
准确度(accuracy)或真实性(validity):观察值 与真值的接近程度,受系统误差的影响(常用 指标:如灵敏度、特异性)。
如热量值、蛋白质含量、碳水化合物含量。
随机变量——在概率论中称变量为随机 变量
3、变量(随机变量)的分类
离散型变量(discrete variable): 计数资料(15,17,24,…)
连续性变量(continuous variable): 计量资料(1.65, 1.73, 1.77,…) 有序变量(ordinal variable): 等级资料(优、良、中、差)
1.67 1.69 1.7 1.71 1.77
组段 (1) 0.5~ 0.6~ 0.7~ 正 正正
划记 (2)
频数,f (3) 3 9 12
组中值,X (4) 0.55 0.65 0.75
0.8~
0.9~ 1.0~ 1.1~ 1.2~
正正
正正正 正正正 正正正正 正正正
13
17 18 20 18
0.85
0.95 1.05 1.15 1.25
1.3~
1.4~ 1.5~ 1.6~ 1.7~1.8 合计
正正正
正正 正 正
17
13 9 8 3
1.35
1.45 1.55 1.65 1.75
160
茎叶图
男子血清总胆固醇水平(mmol/L) Stem-and-Leaf Plot
Frequency 5.00 13.00 34.00 32.00 35.00 17.00 10.00 4.00 Stem width: Each leaf: Stem & Leaf 2. 3. 3. 4. 4. 5. 5. 6. 78999 0111222333444 5555555566666666777778888999999999 00000001111111222223333334444444 55555555566666666677777888888899999 00112222233333344 5555677899 0022 1.00 1 case (s)
反映数据的离散度(Dispersion )。即 个体观察值的变异程度。常用的指标有:
1. 2.
3. 4. 5.
极差(Range) (全距) 百分位数与四分位数间距 Percentile and Quartile range 方差 Variance 标准差 Standard Deviation 变异系数 Coefficient of Variation
1 2 3 4 5 lg 10 lg 10 lg 10 lg 10 lg 10 1 X G lg 1000 5
此例的算术均数为22222,显然不能代表滴 度的平均水平。 对于同一资料,几何均数 < 均数
3. 中位数(median)
中位数是将一批数据从小至大排列后 位次居中的数据值,符号为Md,反映一批 观察值在位次上的平均水平。 适用条件:适合各种类型的资料。尤 其适合于 ① 大样本偏态分布的资料; ② 资料有不确定数值; ③ 资料分布不明等。
某种转基因鱼不同世代鱼群保种的规
模分别为:F0代200尾,F1代400尾,F2 代600尾;F3代900尾,F4代1500尾,试
求其平均规模。
1 1 H 1 1 1 457 1 1 1 1 0.00219 5 ( 200 400 600 900 1500 ) 5 (0.0109) 1
均数、中位数、众数三者关系
正态分布时: 均数=中位数=众数 正偏态分布时:均数>中位数>众数 负偏态分布时:均数<中位数<众数
5、调和平均数
资料中各观测值 倒数 的 算术平均数 的 倒数,称为 调和平均数,记为H,即
H
1
1 n 1 ( x1
1 x2
1 xn )
1 n
1
1 x
调和平均数主要用于反映变量不同阶段的平均增长
误差:试验中不可控因素所引起的实际观察值 与客观真实值(真值)之差 系统误差 systematic error 随机误差 random error 错误:试验过程中,人为作用引起的差错 如药品称量错误,数据录入错误等
误差(Error)
测量值 = 真值 + 随机误差 +非随机误差 Xi = i + i
第二节 计量资料的统计描述
连续型变量(可测量的变量)
一.频数表与频数分布
二.平均指标(算术均数、几何均数、中位 数、众数) 三.变异指标(极差、百分位数与四分位间 距、方差、标准差、变异系数)
一、频数表与频数分布 (frequency table and frequency distribution)
1. 均数(mean)
X 1 X 2 X n X X n n
f1 X 1 f 2 X 2 f 3 X 3 f k X k f i X i X f1 f 2 f 3 f k f i
适用条件:资料呈正态或近似正态分布的资料
2. 几何均数(geometric mean)
2
2
n
n 1
4.标准差
标准差 (Standard deviation, Std, SD)即方差 的正平方根;其单位与原变量X的单位相同。 总体标准差
2 ( X )
N
样本标准差S
(X X ) X X ∑ =
2 2
2
n
n 1
n 1
样本方差为什么要除以(n-1)
统计学是收集、分析、解释与报告 数据资料的一门科学。
第一节 统计学的一些基本概念
1. 总体与样本
2. 变量与随机变量
3. 同质与变异 4. 参数与统计量 5. 误差与错误 6. 准确性与精确性
1. 总体与样本 Population and sample
总体:根据研究目的确定 的同质研究对象的全体(集 合)。如成年人的身高。 分有限总体与无限总体 样本:从总体中随机抽取 的部分观察单位。如某单 位男士的身高
中位数计算公式与实例
先将观察值按从小到大顺序排列,再按 以下公式计算:
x( n1) / 2 Md xn / 2 x1 n / 2 2
n为奇数 n为偶数
特点:仅仅利用了中间的1~2个数据
例 随机抽查了9名中学生某月的到校天 数分别为12,13,14, 14, 15, 15, 15, 17, 19天,求其中位数。
4. 参数与统计量 Parameter and statistic
参数:总体的统计指标,
总体
参 数
抽样
样本
如总体均数、标准差,采 用希腊字母分别记为μ、
推断
统计量
σ。通常是固定的常数。
统计量:样本的统计指标,如样本均数、标准差,采用拉 丁字母分别记为
X、S
。 参பைடு நூலகம்附近波动的随机变量 。
5. 误差与错误 Error and mistake
抽样与推断
从总体中得到样本的方法:抽样。 (抽样方法与样本量) 从样本推论总体的方法:统计推断 (区间估计,假设检验等)
2、变量与随机变量 Variable and random variable
变量——可以测量的任何特征或属性。 Any characteristic or attribute that can be measured。
精密度(precision) 、也称可靠度(reliability) 或重复性(repeatability):重复观察时观察 值与其均值的接近程度,受随机误差的影响 (常用指标:一致百分率、Kappa值)。
准确度差、精密度好
准确度?精密度差
准确度和精密度都好
准确度和精密度都差
系统误差使数据偏离了其理论值,影响数据的准确度。 随机误差使数据相互分散,影响了数据的精密度。
160名正常成年女子的 血清甘油三酯(mmol/L)
编号 1 2 3 4 血清甘油三脂 0.51 0.52 0.59 0.61 编号 … 153 154 155 血清甘油三脂 … 1.65 1.66 1.67
5 6 7 8 …
0.61 0.62 0.63 0.64 …
156 157 158 159 160
预备内容:
统计学基础知识
统计学—statistics
“a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data”. ----Webster 国际大辞典
二. 平均指标
总称为平均数(average)反映了资料的 集中趋势(central tendency)。常用的有: 1. 算术均数(arithmetic mean),简称 均数(mean) 2. 几何均数(geometric mean) 3. 中位数 (median) 4. 众数(mode) 5. 调和均数(harmonic mean) 6. 截尾平均值(5% trimmed mean)
与自由度(degrees of freedom)有关。 自由度是数学名词,在统计学中,n个数据如 不受任何条件的限制,则n个数据可取任意值,称 为有n个自由度。若受到k个条件的限制,就只有 (n-k)个自由度了。 例如一个有5个观察值的样本,因为受到统计 数 x 的约束,在5个离均差中,只有4个数值可以 在一定范围内自由变动取值,而第五个离均差必 _ 须满足 ( x x) 0 这一限制条件。
离均差和( x1 ) ( x2 ) ... ( xn ) ∑ ( X - ) 0 离均差平方和(Sum of square )SS ∑ ( X - )2 总体方差 2
2 ( X ) ∑
N
2
样本方差S
2
(X X ) ∑ n 1
X X =
1. 极差(Range)(全距)
R X max X min
优点:简便
580 560 540 520 500
缺点:1. 只利用了两个
极端值
480 460 440 420
2. n大,R也会大
3. 不稳定
2. 百分位数与四分位数间距 Percentile and quartile range
Frequency
几种平均数之间的关系
对于同一资料:
算术平均数 > 几何平均数 > 调和平均数 上述五种平均数,最常用的是算术平均数。
截尾平均值
5% trimmed mean:将一组数中去掉 最小的5%数值,再去掉最大的5%,然后 将剩余的90%计算平均值得出的数值。 减小了极端值的影响。
三. 变异(variation)指标
25% 75%
1.6m
1.8m
X
百分位数 :数据从小到大排列,在百分尺度下, 所占百分比对应的值。记为Px。 四分位间距Quartile range:QR=P75- P25 四分位半间距Quartile deviation:QD=QR/2
3. 方差
方差 (variance)也称均方差(mean square deviation),样本观察值的离均差平方 和的均值。表示一组数据的平均离散情况。
M X 91 X 5 15(天)
2
如果只调查了前八位中学生,则: M X 8+X 8 2 (X 4+X 5)2 ( 14+15)2 14.5(天) +1 2 2
4. 众数(mode)
出现次数(或频数)最多的观 察值;在频数分布图中对应于高峰 所在位置的观察值。 适用于大样本;较粗糙。
X G n X1 X 2 X n
1 lg X G (lg X 1 lg X 2 lg X n ) n lg X 1 X G lg n
lg X
n
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态 分布(正偏态)资料;如增长速度、抗体滴度资料 抗体的效价滴度的倒数分别为:10、100、 1000、10000、100000,求几何均数。
1.随机误差(抽样误差):
影响因素众多,变化无方向性,不可避免,但可 用统计方法进行分析。 2.系统误差 受确定因素影响,大小变化有方向性。 偏差bias 3.非系统误差(错误) 可以避免 研究者偶然失误而造成的误差。
6. 准确性与精确性
准确度(accuracy)或真实性(validity):观察值 与真值的接近程度,受系统误差的影响(常用 指标:如灵敏度、特异性)。
如热量值、蛋白质含量、碳水化合物含量。
随机变量——在概率论中称变量为随机 变量
3、变量(随机变量)的分类
离散型变量(discrete variable): 计数资料(15,17,24,…)
连续性变量(continuous variable): 计量资料(1.65, 1.73, 1.77,…) 有序变量(ordinal variable): 等级资料(优、良、中、差)
1.67 1.69 1.7 1.71 1.77
组段 (1) 0.5~ 0.6~ 0.7~ 正 正正
划记 (2)
频数,f (3) 3 9 12
组中值,X (4) 0.55 0.65 0.75
0.8~
0.9~ 1.0~ 1.1~ 1.2~
正正
正正正 正正正 正正正正 正正正
13
17 18 20 18
0.85
0.95 1.05 1.15 1.25
1.3~
1.4~ 1.5~ 1.6~ 1.7~1.8 合计
正正正
正正 正 正
17
13 9 8 3
1.35
1.45 1.55 1.65 1.75
160
茎叶图
男子血清总胆固醇水平(mmol/L) Stem-and-Leaf Plot
Frequency 5.00 13.00 34.00 32.00 35.00 17.00 10.00 4.00 Stem width: Each leaf: Stem & Leaf 2. 3. 3. 4. 4. 5. 5. 6. 78999 0111222333444 5555555566666666777778888999999999 00000001111111222223333334444444 55555555566666666677777888888899999 00112222233333344 5555677899 0022 1.00 1 case (s)
反映数据的离散度(Dispersion )。即 个体观察值的变异程度。常用的指标有:
1. 2.
3. 4. 5.
极差(Range) (全距) 百分位数与四分位数间距 Percentile and Quartile range 方差 Variance 标准差 Standard Deviation 变异系数 Coefficient of Variation
1 2 3 4 5 lg 10 lg 10 lg 10 lg 10 lg 10 1 X G lg 1000 5
此例的算术均数为22222,显然不能代表滴 度的平均水平。 对于同一资料,几何均数 < 均数
3. 中位数(median)
中位数是将一批数据从小至大排列后 位次居中的数据值,符号为Md,反映一批 观察值在位次上的平均水平。 适用条件:适合各种类型的资料。尤 其适合于 ① 大样本偏态分布的资料; ② 资料有不确定数值; ③ 资料分布不明等。