数值变量的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数值变量的统计描述
一 数值变量资料的频数分布
频数表(Frequency table): 以表格的形 频数表 : 式同时列出观察单位的可能取值及其出 现的频数, 现的频数,叫~。 。
㈠ 频数表的编制
⑴连续性变量频数表的编制 ⑵离散性变量频数表的编制
我国某地农村 1985 年已婚育龄妇女现有子女数的分布 (摘录部分)
不分组资料的计算: 不分组资料的计算:
观察单位数为n, 观察单位数为 , 为奇数时, 当n为奇数时, 为奇数时 为偶数时, 当n为偶数时, 为偶数时
分组资料的计算
当观察单位较多时,列出频数表。 当观察单位较多时,列出频数表。先找 所在的组段, 出M所在的组段,再利用下面公式计 所在的组段 算:
㈣百分位数(Percentile) 百分位数(Percentile) 1 定义 : 一种位置指标 , 将一组数据从小 定义: 一种位置指标,
㈢ 连 续 性 变 量 的 频 数 分 布 图 —— 直 方 图 (histogram)
描述连续性变量频数分布的面积图, 描述连续性变量频数分布的面积图 , 横轴表示连续性变量, 横轴表示连续性变量 , 直条的面积表示连 续性变量的频数。 续性变量的频数。
30 25 20 15 10 5 0
频 数 (人 )
⑴不分组资料的几何均数的计算 当样本中的观察单位数不多时 (n≤30),小样本的时候使用 : ≤ ,
⑵分组资料几何均数的计算
当样本中的观察单位数较多时(n> 当样本中的观察单位数较多时 > 30),宜编制频数表,用加权法计算。 ,宜编制频数表,用加权法计算。
㈢中位数(Median) 中位数(Median) 定义: 1 定义 : 将一组数据从小到大的顺序排 列后位于中间位置的数叫中位数, 列后位于中间位置的数叫中位数 , 简 写为M。 写为 。 中位数适用于任何分布类型 的资料, 包括正态和偏态分布的资料, 的资料 , 包括正态和偏态分布的资料 , 尤其适用于偏态分布、开口资料(一端 尤其适用于偏态分布、开口资料 一端 或两端无确切值的资料)和分布类型不 或两端无确切值的资料 和分布类型不 明的资料。 明的资料 。 当数据呈对称或正态分布 理论上和算术均数相等。 时,M理论上和算术均数相等。 理论上和算术均数相等
二 平均水平指标(描述集中趋 平均水平指标( 势的指标) 势的指标)
均数(Mean) (Mean), ㈠ 均数 (Mean) , 又称为算术均 数(ArithmeHale Waihona Puke Baiduic Mean)
1 定义:描述一组同质数据在数量上分 定义: 布的平均水平,适用于对称分布, 布的平均水平,适用于对称分布,特 别是正态或近似正态分布的定量资料。 别是正态或近似正态分布的定量资料。 总体均数用来表示, 总体均数用来表示,样本均数用来表 示 (mu , x bar) 。
计算: 2 计算:
⑴不分组资料的均数计算 当样本中的观察单位数不多时(n≤30), 当样本中的观察单位数不多时 , 小样本的时候使
x= X1 + X 2 + + X n = n
鍈fx
n
式中∑是求和的符号, 是样本含量。 式中∑是求和的符号,n是样本含量。
⑵分组资料均数的计算
当样本中的观察单位数较多时(n> 当样本中的观察单位数较多时 > 30),宜编制频数表,用加权法计算。 ,宜编制频数表,用加权法计算。
从中间向 两侧频数 分布逐渐 减少
频数分布 向中间集 中的趋势 从中间向两 侧频数分布 逐渐减少
270 285 300 315 330 345 360 375 390 405 420435
尿酸浓度(umol/ 尿酸浓度 ( umol / l )
㈣频数分布的类型
对称分布:集中位置位于中央, 对称分布:集中位置位于中央,左 右两侧频数对称,如正态分布、 右两侧频数对称,如正态分布、对 称的双峰分布等。 称的双峰分布等。
到大排列后位于第x百分位上的数叫 , 到大排列后位于第 百分位上的数叫~,记 百分位上的数叫 中位数是百分位数的特例。 为 。中位数是百分位数的特例。
分组资料的计算: 分组资料的计算:
三 离散程度指标
统计学研究的对象是富于变化的事 物,同一总体中的各个体之间存在 着变异,同质各观察值之间具有 各观察值之间具有的 着变异,同质各观察值之间具有的 相互偏离、弥散的趋向, 相互偏离、弥散的趋向,这种趋向 叫离散趋势。 叫离散趋势。
子女数 0 1 2 3
妇女数 13751 25171 30426 28560
频率(%) 频率 9.45 17.30 20.91 19.62
累计频率 9.45 26.75 47.65 67.28
㈡频数表的用途
1 简化资料,揭示资料的分布类型。 2 便于观察到频数分布的两个重要特征:集中趋 势 (Central tendency) 和 离 散 趋 势 (Tendency of disperse)。 3 便于发现某些特大或特小的异常值或极值 (Outlier)。 4 便于进一步的统计分析
x
x为各组段的组中值 为组数,f为各组的 为各组段的组中值n为组数 为各组的 为各组段的组中值 为组数, 频数,又称为权数(权衡比重的作用 权衡比重的作用)。 频数,又称为权数 权衡比重的作用 。
几何均数(geometric ㈡几何均数(geometric mean) 几何均数适用于变量值呈倍 数变化的资料或呈对数正态分布 的资料。如在免疫学、 的资料。如在免疫学、微生物学 广泛应用“滴度” 中,广泛应用“滴度”的概念来 度量某种成分的含量, 度量某种成分的含量,将试样等 比稀释 直到出现某种特定现象 为止。 为止。几何均数适用于对数正态 分布的资料。 分布的资料。
A组:26,28,30,32,34; 26,28,30,32,34; B组:24,27,30,33,36; 24,27,30,33,36;
㈡.四分位数间距(Quartile Range) 四分位数间距(
1.定义: 1.定义: 定义 Q是一种特殊的百分位数,它是所有 是一种特殊的百分位数, 观察值按从小到大的顺序排列后位 于第75百分位数P 和第25 75百分位数 25百分位数 于第75百分位数P75和第25百分位数 的差值。 P25的差值。Q适用于所有分布类型的 定量资料, 定量资料,尤其是呈现偏态分布和 开口资料。 开口资料。
㈣.标准差(Standard Deviation) 标准差
标准差是方差的算术平方根, 标准差是方差的算术平方根,与方 算术平方根 差的应用条件相同,适用于对称分 差的应用条件相同,适用于对称分 布的计量资料包括正态分布和近似 正态分布的资料。 正态分布的资料。
2.计算: 2.计算: 计算
σ=
∑ (x − µ )
2.计算 计算: 2.计算:
Q = P75 − P25
P75叫上四分位数,P25叫下四分位数。
方差( ㈢.方差(variance)
1.定义: 1.定义: 定义 描述定量资料分布离散程度的指标之一, 描述定量资料分布离散程度的指标之一, 它反映了各观察单位与均数之间的离散 程度。适用于对称分布的计量资料,包 程度。适用于对称分布的计量资料, 括正态分布和近似正态分布的计量资料。 括正态分布和近似正态分布的计量资料。
2.计算: 2.计算: 计算 ①总体方差的计算
σ
2
∑ (x − µ ) =
N
2
②样本方差的计算 2 ∑ (x − x ) 2 S = n −1 =
∑x
2
(∑ x ) −
n
2
n −1
自由度( 自由度(Degrees
用
of Freedom) )
表示, ν 表示,它的含义是n个观察单
位中可以自由取值的观察单位数。 位中可以自由取值的观察单位数。
极差( ㈠.极差(Range) 极差 ) 1.定义 定义: 1.定义: 所有数据中最大值与最小值的差值, 所有数据中最大值与最小值的差值, 描述了一组数据的变异幅度或变异程 适用于所有分布类型的定量资料。 度。适用于所有分布类型的定量资料。 2.计算: 2.计算: 计算 R=最大值 最大值R=最大值-最小值
N
2
S=
∑ (x − x )
n −1
2
㈤.变异系数(Coefficient of Variation) 变异系数(
1.定义: 1.定义: 定义 指相对于均数而言标准差的大小, 指相对于均数而言标准差的大小, 即描述了数据的变异相对于其平均 水平的大小。 水平的大小。
2.计算:
S CV = × 100% x
偏态分布:集中位置偏向一侧, 偏态分布:集中位置偏向一侧,左 右两侧频数分布不对称,称之为~ 右两侧频数分布不对称,称之为
常用的描述数值变量资料的统计 指标有两类: 指标有两类:
一类是描述数值变量集中趋势 集中趋势的统计指标 一类是描述数值变量集中趋势的统计指标
一类是描述数值变量离散趋势的统计指标 一类是描述数值变量离散趋势的统计指标 离散趋势
一 数值变量资料的频数分布
频数表(Frequency table): 以表格的形 频数表 : 式同时列出观察单位的可能取值及其出 现的频数, 现的频数,叫~。 。
㈠ 频数表的编制
⑴连续性变量频数表的编制 ⑵离散性变量频数表的编制
我国某地农村 1985 年已婚育龄妇女现有子女数的分布 (摘录部分)
不分组资料的计算: 不分组资料的计算:
观察单位数为n, 观察单位数为 , 为奇数时, 当n为奇数时, 为奇数时 为偶数时, 当n为偶数时, 为偶数时
分组资料的计算
当观察单位较多时,列出频数表。 当观察单位较多时,列出频数表。先找 所在的组段, 出M所在的组段,再利用下面公式计 所在的组段 算:
㈣百分位数(Percentile) 百分位数(Percentile) 1 定义 : 一种位置指标 , 将一组数据从小 定义: 一种位置指标,
㈢ 连 续 性 变 量 的 频 数 分 布 图 —— 直 方 图 (histogram)
描述连续性变量频数分布的面积图, 描述连续性变量频数分布的面积图 , 横轴表示连续性变量, 横轴表示连续性变量 , 直条的面积表示连 续性变量的频数。 续性变量的频数。
30 25 20 15 10 5 0
频 数 (人 )
⑴不分组资料的几何均数的计算 当样本中的观察单位数不多时 (n≤30),小样本的时候使用 : ≤ ,
⑵分组资料几何均数的计算
当样本中的观察单位数较多时(n> 当样本中的观察单位数较多时 > 30),宜编制频数表,用加权法计算。 ,宜编制频数表,用加权法计算。
㈢中位数(Median) 中位数(Median) 定义: 1 定义 : 将一组数据从小到大的顺序排 列后位于中间位置的数叫中位数, 列后位于中间位置的数叫中位数 , 简 写为M。 写为 。 中位数适用于任何分布类型 的资料, 包括正态和偏态分布的资料, 的资料 , 包括正态和偏态分布的资料 , 尤其适用于偏态分布、开口资料(一端 尤其适用于偏态分布、开口资料 一端 或两端无确切值的资料)和分布类型不 或两端无确切值的资料 和分布类型不 明的资料。 明的资料 。 当数据呈对称或正态分布 理论上和算术均数相等。 时,M理论上和算术均数相等。 理论上和算术均数相等
二 平均水平指标(描述集中趋 平均水平指标( 势的指标) 势的指标)
均数(Mean) (Mean), ㈠ 均数 (Mean) , 又称为算术均 数(ArithmeHale Waihona Puke Baiduic Mean)
1 定义:描述一组同质数据在数量上分 定义: 布的平均水平,适用于对称分布, 布的平均水平,适用于对称分布,特 别是正态或近似正态分布的定量资料。 别是正态或近似正态分布的定量资料。 总体均数用来表示, 总体均数用来表示,样本均数用来表 示 (mu , x bar) 。
计算: 2 计算:
⑴不分组资料的均数计算 当样本中的观察单位数不多时(n≤30), 当样本中的观察单位数不多时 , 小样本的时候使
x= X1 + X 2 + + X n = n
鍈fx
n
式中∑是求和的符号, 是样本含量。 式中∑是求和的符号,n是样本含量。
⑵分组资料均数的计算
当样本中的观察单位数较多时(n> 当样本中的观察单位数较多时 > 30),宜编制频数表,用加权法计算。 ,宜编制频数表,用加权法计算。
从中间向 两侧频数 分布逐渐 减少
频数分布 向中间集 中的趋势 从中间向两 侧频数分布 逐渐减少
270 285 300 315 330 345 360 375 390 405 420435
尿酸浓度(umol/ 尿酸浓度 ( umol / l )
㈣频数分布的类型
对称分布:集中位置位于中央, 对称分布:集中位置位于中央,左 右两侧频数对称,如正态分布、 右两侧频数对称,如正态分布、对 称的双峰分布等。 称的双峰分布等。
到大排列后位于第x百分位上的数叫 , 到大排列后位于第 百分位上的数叫~,记 百分位上的数叫 中位数是百分位数的特例。 为 。中位数是百分位数的特例。
分组资料的计算: 分组资料的计算:
三 离散程度指标
统计学研究的对象是富于变化的事 物,同一总体中的各个体之间存在 着变异,同质各观察值之间具有 各观察值之间具有的 着变异,同质各观察值之间具有的 相互偏离、弥散的趋向, 相互偏离、弥散的趋向,这种趋向 叫离散趋势。 叫离散趋势。
子女数 0 1 2 3
妇女数 13751 25171 30426 28560
频率(%) 频率 9.45 17.30 20.91 19.62
累计频率 9.45 26.75 47.65 67.28
㈡频数表的用途
1 简化资料,揭示资料的分布类型。 2 便于观察到频数分布的两个重要特征:集中趋 势 (Central tendency) 和 离 散 趋 势 (Tendency of disperse)。 3 便于发现某些特大或特小的异常值或极值 (Outlier)。 4 便于进一步的统计分析
x
x为各组段的组中值 为组数,f为各组的 为各组段的组中值n为组数 为各组的 为各组段的组中值 为组数, 频数,又称为权数(权衡比重的作用 权衡比重的作用)。 频数,又称为权数 权衡比重的作用 。
几何均数(geometric ㈡几何均数(geometric mean) 几何均数适用于变量值呈倍 数变化的资料或呈对数正态分布 的资料。如在免疫学、 的资料。如在免疫学、微生物学 广泛应用“滴度” 中,广泛应用“滴度”的概念来 度量某种成分的含量, 度量某种成分的含量,将试样等 比稀释 直到出现某种特定现象 为止。 为止。几何均数适用于对数正态 分布的资料。 分布的资料。
A组:26,28,30,32,34; 26,28,30,32,34; B组:24,27,30,33,36; 24,27,30,33,36;
㈡.四分位数间距(Quartile Range) 四分位数间距(
1.定义: 1.定义: 定义 Q是一种特殊的百分位数,它是所有 是一种特殊的百分位数, 观察值按从小到大的顺序排列后位 于第75百分位数P 和第25 75百分位数 25百分位数 于第75百分位数P75和第25百分位数 的差值。 P25的差值。Q适用于所有分布类型的 定量资料, 定量资料,尤其是呈现偏态分布和 开口资料。 开口资料。
㈣.标准差(Standard Deviation) 标准差
标准差是方差的算术平方根, 标准差是方差的算术平方根,与方 算术平方根 差的应用条件相同,适用于对称分 差的应用条件相同,适用于对称分 布的计量资料包括正态分布和近似 正态分布的资料。 正态分布的资料。
2.计算: 2.计算: 计算
σ=
∑ (x − µ )
2.计算 计算: 2.计算:
Q = P75 − P25
P75叫上四分位数,P25叫下四分位数。
方差( ㈢.方差(variance)
1.定义: 1.定义: 定义 描述定量资料分布离散程度的指标之一, 描述定量资料分布离散程度的指标之一, 它反映了各观察单位与均数之间的离散 程度。适用于对称分布的计量资料,包 程度。适用于对称分布的计量资料, 括正态分布和近似正态分布的计量资料。 括正态分布和近似正态分布的计量资料。
2.计算: 2.计算: 计算 ①总体方差的计算
σ
2
∑ (x − µ ) =
N
2
②样本方差的计算 2 ∑ (x − x ) 2 S = n −1 =
∑x
2
(∑ x ) −
n
2
n −1
自由度( 自由度(Degrees
用
of Freedom) )
表示, ν 表示,它的含义是n个观察单
位中可以自由取值的观察单位数。 位中可以自由取值的观察单位数。
极差( ㈠.极差(Range) 极差 ) 1.定义 定义: 1.定义: 所有数据中最大值与最小值的差值, 所有数据中最大值与最小值的差值, 描述了一组数据的变异幅度或变异程 适用于所有分布类型的定量资料。 度。适用于所有分布类型的定量资料。 2.计算: 2.计算: 计算 R=最大值 最大值R=最大值-最小值
N
2
S=
∑ (x − x )
n −1
2
㈤.变异系数(Coefficient of Variation) 变异系数(
1.定义: 1.定义: 定义 指相对于均数而言标准差的大小, 指相对于均数而言标准差的大小, 即描述了数据的变异相对于其平均 水平的大小。 水平的大小。
2.计算:
S CV = × 100% x
偏态分布:集中位置偏向一侧, 偏态分布:集中位置偏向一侧,左 右两侧频数分布不对称,称之为~ 右两侧频数分布不对称,称之为
常用的描述数值变量资料的统计 指标有两类: 指标有两类:
一类是描述数值变量集中趋势 集中趋势的统计指标 一类是描述数值变量集中趋势的统计指标
一类是描述数值变量离散趋势的统计指标 一类是描述数值变量离散趋势的统计指标 离散趋势