《应用统计学教学资料》统计学 第九章 分类数据分析30页PPT
合集下载
3应用统计学教案-统计整理32页PPT

4、可等距、可异距
累计分布数列 各组频数或频率逐组累 计相加,表明总体在某 一标志值的水平上总共 包含的频数或频率。
如:表4中,成绩不到80分的有多少? 80分以上的有多少?(见表5) 向上累计 变量值小的组向变量值大的
组逐组累计,表明各组上限 以下总共包含的频数或频率
向下累计 变量值大的组向变量值小的 组逐组累计,表明各组下限 以上总共包含的频数或频率
30
比重(%) 6.7 13.3 30.0 36.7 13.3
100.0
★ 组距数列基本概念 组限 各组两端变量值 上限 各组最大值 下限 各组最小值 组距 各组上下限之差 全距 数列中最大变量值与最小变量值
之差 组中值 各组上下限和的一半
闭口数列 首末两组上下限齐全的数列 开口数列 首组缺下限或末组缺上限 开口组 上限或下限不齐的组 开口组组距 以相邻组距近似代替 开口组组中值 上限-邻组组距/2(缺下限)
34.8
7
20
17.4
合计
115
100.0
变量分布数列按各组变 量值多少及取值范围:
单项数列(表2)
组距数列(表3)
表3 某县2001年家庭平均收入表
家庭年收入(元) 户数(户) 比重(%)
6000元以下
3410
25.5
6000~7000
4360
32.6
7000~8000
2890
21.6
8000~9000
完备性原则: 任何一个总体单位或原始数据 都能归属于某一个组,而不会 遗漏在外。
互斥性原则: 任何一个总体单位或原始数据 在一种统计分组中只能归属于 某一个组,而不能归属于两个 或两个以上的组。
★ 方法:
简单分组 按一个标志分组。
累计分布数列 各组频数或频率逐组累 计相加,表明总体在某 一标志值的水平上总共 包含的频数或频率。
如:表4中,成绩不到80分的有多少? 80分以上的有多少?(见表5) 向上累计 变量值小的组向变量值大的
组逐组累计,表明各组上限 以下总共包含的频数或频率
向下累计 变量值大的组向变量值小的 组逐组累计,表明各组下限 以上总共包含的频数或频率
30
比重(%) 6.7 13.3 30.0 36.7 13.3
100.0
★ 组距数列基本概念 组限 各组两端变量值 上限 各组最大值 下限 各组最小值 组距 各组上下限之差 全距 数列中最大变量值与最小变量值
之差 组中值 各组上下限和的一半
闭口数列 首末两组上下限齐全的数列 开口数列 首组缺下限或末组缺上限 开口组 上限或下限不齐的组 开口组组距 以相邻组距近似代替 开口组组中值 上限-邻组组距/2(缺下限)
34.8
7
20
17.4
合计
115
100.0
变量分布数列按各组变 量值多少及取值范围:
单项数列(表2)
组距数列(表3)
表3 某县2001年家庭平均收入表
家庭年收入(元) 户数(户) 比重(%)
6000元以下
3410
25.5
6000~7000
4360
32.6
7000~8000
2890
21.6
8000~9000
完备性原则: 任何一个总体单位或原始数据 都能归属于某一个组,而不会 遗漏在外。
互斥性原则: 任何一个总体单位或原始数据 在一种统计分组中只能归属于 某一个组,而不能归属于两个 或两个以上的组。
★ 方法:
简单分组 按一个标志分组。
《应用统计学教学资料》统计学 第九章 分类数据分析

《应用统计学教学资料》统计学 第九章 分类数据分析
本PPT课件仅供学习用 本PPT课件仅供学习用 本PPT课件仅供学习用
学完请删除!
学习目标
本章学习目标
➢ 理解分类数据与χ2 统计量 ➢ 掌握拟合优度检验及其应用 ➢ 掌握性检验及其应用 ➢ 掌握测度列联表中的相关性
2
9.1 理解分类数据与χ2 统计量 3
【例】1912年4月15日,豪华巨轮泰坦尼克号与冰 山相撞沉没。当时船上共有共2208人,其中男性 1738人,女性470人。海难发生后,幸存者为718 人,其中男性374人,女性344人,以的显著性水
平检验存活状况与性别是否有关。 ( 0.05)
10
9.2 拟合优度检验
习题
答案
解:要回答观察频数与期望频数是否一致,
(a b)(c d )(a c)(b d )
22
9.4 φ 相关系数
➢将入 相关系数的计算公式得
2
ad bc
n (a b)(c d )(a c)(b d)
▪ad 等于 bc , = 0,表明变量X 与 Y 之间 ▪若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频数全 部落在对角线上,此时| | =1,表明变量X 与 Y 之间 完全相关
并随行数和列数的增大而增大 ▪ 根据不同行和列的列联表计算的列联系数不
便于比较
25
9.4 V 相关系数(V correlation coefficient)
1. 计算公式为
V
2
n min (r 1),(c 1)
式中:min (r 1), (c 1) 表示取(r 1), (c 1)中较小的一个
检验如下假设:
H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
本PPT课件仅供学习用 本PPT课件仅供学习用 本PPT课件仅供学习用
学完请删除!
学习目标
本章学习目标
➢ 理解分类数据与χ2 统计量 ➢ 掌握拟合优度检验及其应用 ➢ 掌握性检验及其应用 ➢ 掌握测度列联表中的相关性
2
9.1 理解分类数据与χ2 统计量 3
【例】1912年4月15日,豪华巨轮泰坦尼克号与冰 山相撞沉没。当时船上共有共2208人,其中男性 1738人,女性470人。海难发生后,幸存者为718 人,其中男性374人,女性344人,以的显著性水
平检验存活状况与性别是否有关。 ( 0.05)
10
9.2 拟合优度检验
习题
答案
解:要回答观察频数与期望频数是否一致,
(a b)(c d )(a c)(b d )
22
9.4 φ 相关系数
➢将入 相关系数的计算公式得
2
ad bc
n (a b)(c d )(a c)(b d)
▪ad 等于 bc , = 0,表明变量X 与 Y 之间 ▪若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频数全 部落在对角线上,此时| | =1,表明变量X 与 Y 之间 完全相关
并随行数和列数的增大而增大 ▪ 根据不同行和列的列联表计算的列联系数不
便于比较
25
9.4 V 相关系数(V correlation coefficient)
1. 计算公式为
V
2
n min (r 1),(c 1)
式中:min (r 1), (c 1) 表示取(r 1), (c 1)中较小的一个
检验如下假设:
H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
应用统计学PPT课件

30.07.2020
15
数据计量
定距尺度是对现象类别或次序之间间距的测度。定距尺度不 但可以用数表示现象各类别的不同和顺序大小的差异,而且 可以用确切的数值反映现象之间在量方面的差异。定距尺度 使用的计量单位一般为实物单位(自然或物理)或者价值单 位。定距尺度的主要数学特征是“+”或“–”。统计中的总 量指标就是运用定距尺度计量的。
定比尺度是在定距尺度的基础上,确定相应的比较基数,然 后将两种相关的数加以对比而形成相对数(或平均数),用于 反映现象的结构、比重、速度、密度等数量关系。例如,将 一个企业创造的增加值与该企业的职工人数对比,计算全员 劳动生产率,以此反映该企业的生产效率。定比尺度的主要 数学特征是“×”或“÷”。
数据计量:定类、定序,定距、定比。 定类尺度是按照客观现象的某种属性对其进行分
类。例如,人口按性别分为男女,用“1” 表示男 性,用“0” 表示女性。定类尺度的主要数学特征 是“=”或“≠”。 定序尺度是对客观现象各类之间的等级差或顺序 差的一种测度。例如,学生成绩可以分为优、良、 中、及格和不及格等五类。定序尺度的主要数学 特征是“<”或“>”。
30.07.2020
在在在
应用统计学
理抽终 性象极 的的的
基意分
础义析
上下中
,,,
所一一
有切切
的都知
判是识
断科都
C.R.
都学是
是数历
劳 统学史
计
学
1
整体概述
概况一
点击此处输入相关文本内容 点击此处输入相关文本内容
概况二
点击此处输入相关文本内容 点击此处输入相关文本内容
概况三
点击此处输入相关文本内容 点击此处输入相关文本内容
统计学ppt(全)

Jacob Bernoulli (伯努利) (1654-1705) Edmond Halley (哈雷) (1656-1742) De Moivre (棣美佛) (1667-1754) Thomas Bayes (贝叶斯) (1702-1761) Leonhard Euler (欧拉) (1707-1783) Pierre Simon Laplace (拉普拉斯) (1749-1827) Adrien Marie Legendre (勒让德) (1752-1833) Thomas Robert Malthus (马尔萨斯) (1766-1834) Friedrich Gauss (高斯) (1777-1855) Johann Gregor Mendel (孟德尔) (1822-1884) Karl Pearson (皮尔森) (1857-1936) Ronald Aylmer Fisher (费歇) (1890-1962) Jerzy Neyman (内曼)(1894-1981) Egon Sharpe Pearson (皮尔森) (1895-1980) William Feller (费勒)(1906-1970)
第四节 统计学的要素和指标
一.统计学的要素 二.指标及指标体系
统计学的要素
总体(Population) 根据一定目的确定的所要研究事物的总体 2. 样本(Sample) 从总体中抽取出来的部分单位组成的集合体 3. 总体单位 组成整体的各个个体
指标及指标体系
标志与指标 2. 统计指标的特点 3. 指标的分类 统计指标体系
联系 很多统计指标的数值是从总体单位的数量标志值汇总而来的 指标与标志之间存在变换关系
统计指标的特点
同质事物的可量性 小康水平、公司绩效、满意度 量的综合性 许多个体现象的数量综合的结果 具体性
第四节 统计学的要素和指标
一.统计学的要素 二.指标及指标体系
统计学的要素
总体(Population) 根据一定目的确定的所要研究事物的总体 2. 样本(Sample) 从总体中抽取出来的部分单位组成的集合体 3. 总体单位 组成整体的各个个体
指标及指标体系
标志与指标 2. 统计指标的特点 3. 指标的分类 统计指标体系
联系 很多统计指标的数值是从总体单位的数量标志值汇总而来的 指标与标志之间存在变换关系
统计指标的特点
同质事物的可量性 小康水平、公司绩效、满意度 量的综合性 许多个体现象的数量综合的结果 具体性
统计学ppt(全)

概率论—数理统计
概率沦研究起源于17世纪中叶意大利文艺复兴时代,代表人物主要有法国的拉普拉斯和比利时的凯特勒 古典统计时期的概率论基本上是独立发展的,最开始的概率论是从对赌博的研究开始。它与统计学(主要是指政治算术)没有太多的联系 从19世纪中叶到20世纪中叶,概率论的进一步发展为数理统计学的形成和发展奠定了基础。主流从描述性统计学向推断统计学发展 本世纪50年代以后,统计理论、方法和应用进入了一个全面发展的阶段
统计指标体系
由若干个相互联系相互制约的统计指标组成的一个统计指标系统 基本统计指标体系 专题统计指标体系
几种常用的统计软件 (Software)
典型的统计软件 SAS SPSS MINITAB STATISTICA Excel
第一章 绪论
第一节 统计与统计学 第二节 统计学的产生与发展 第三节 统计学的研究对象与方法 第四节 统计学的要素和指标
学习目标
1. 理解统计与统计学的含义 2. 理解统计学的对象和方法 了解统计学的产生与发展过程
第一节 统计与统计学
一. 统计与统计学的含义 二. 统计学的性质和作用
统计数据的内在规律 (一些例子)
正常条件下新生婴儿的性别比为107:100 投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现1~6点的频率各为1/6 农作物的产量与施肥量之间存在相关关系
统计学的应用领域
统计学
经济学
管理学
医学
工程学
社会学
…
应用统计的领域
actuarial work (精算) agriculture (农业) animal science (动物学) anthropology (人类学) archaeology (考古学) auditing (审计学) crystallography (晶体学) demography (人口统计学) dentistry (牙医学) ecology (生态学) econometrics (经济计量学) education (教育学) election forecasting and projection (选举预测和策划) engineering (工程) epidemiology (流行病学) finance (金融) fisheries research (水产渔业研究) gambling (赌博) genetics (遗传学) geography (地理学) geology (地质学) historical research (历史研究) human genetics (人类遗传学)
概率沦研究起源于17世纪中叶意大利文艺复兴时代,代表人物主要有法国的拉普拉斯和比利时的凯特勒 古典统计时期的概率论基本上是独立发展的,最开始的概率论是从对赌博的研究开始。它与统计学(主要是指政治算术)没有太多的联系 从19世纪中叶到20世纪中叶,概率论的进一步发展为数理统计学的形成和发展奠定了基础。主流从描述性统计学向推断统计学发展 本世纪50年代以后,统计理论、方法和应用进入了一个全面发展的阶段
统计指标体系
由若干个相互联系相互制约的统计指标组成的一个统计指标系统 基本统计指标体系 专题统计指标体系
几种常用的统计软件 (Software)
典型的统计软件 SAS SPSS MINITAB STATISTICA Excel
第一章 绪论
第一节 统计与统计学 第二节 统计学的产生与发展 第三节 统计学的研究对象与方法 第四节 统计学的要素和指标
学习目标
1. 理解统计与统计学的含义 2. 理解统计学的对象和方法 了解统计学的产生与发展过程
第一节 统计与统计学
一. 统计与统计学的含义 二. 统计学的性质和作用
统计数据的内在规律 (一些例子)
正常条件下新生婴儿的性别比为107:100 投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现1~6点的频率各为1/6 农作物的产量与施肥量之间存在相关关系
统计学的应用领域
统计学
经济学
管理学
医学
工程学
社会学
…
应用统计的领域
actuarial work (精算) agriculture (农业) animal science (动物学) anthropology (人类学) archaeology (考古学) auditing (审计学) crystallography (晶体学) demography (人口统计学) dentistry (牙医学) ecology (生态学) econometrics (经济计量学) education (教育学) election forecasting and projection (选举预测和策划) engineering (工程) epidemiology (流行病学) finance (金融) fisheries research (水产渔业研究) gambling (赌博) genetics (遗传学) geography (地理学) geology (地质学) historical research (历史研究) human genetics (人类遗传学)
应用统计学

Avoidable risks connected with daring people = 10-3 per year Avoidable risk connected with careful people = 10-4 per year Unavoidable risk : Structural collapse = 10-5 per year
γ Q ≤ φ Rn
Where : γ = load factor φ = reduction factor Q = load Rn = nominal strength of material
機率模式
安全係數及載重因子是為了考量在設計過程中所存在的不定性及 變化性。結構設計乃包含了二個隨機變數Q及R的關係,若R<Q時, 則極限狀態成立。 一種合適的結構設計是允許存在極小機率的極限狀態發生。然而, Q及R的實際機率分佈並不確知,只有其中平均值Qm及Rm,與標 準偏差δQ及δR是可得知的。
統計學之應用
統計學並非一種專門的科學,而是一種科學的 方法,不僅可應用在高科技的科學領域,更可 應用在日前生活中。
統計學在土木工程之應用
Working Stress Design / Allowable Stress Design - ASD
Ultimate Strength Design / Load & Resistance Factor Design - LRFD
Load effect, Q
Q1 Q2
1 2
R1 R2
Ln (R / Q) β= √ (VR2 + VQ2)
β Pf = 460 e-4.3β
Resistance, R
Frequency βσy
统计学课件第9篇章分类数据分析

谢谢聆听
其他回归模型
总结词
除了线性回归分析和Logistic回归分析之外,还有许多其他类型的回归模型可 供选择。
详细描述
这些模型包括岭回归、套索回归、多项式回归、逐步回归等,每种模型都有其 特定的适用场景和假设条件。选择合适的回归模型需要考虑数据的特征、模型 的预测精度和解释性等因素。
06 分类数据分析的实际应用
市场细分分析
市场细分
通过分类数据分析,将市场划分为不 同的细分市场,以便更好地理解客户 需求和行为,从而制定更有效的营销 策略。
消费者行为研究
通过分析消费者的购买行为、偏好和 态度,了解不同细分市场的消费者需 求和趋势,以优化产品设计和市场定 位。
人口统计学研究
人口普查
利用分类数据分析对人口普查数据进行处理和分析,了解人口分布、年龄结构、 性别比例等人口统计学特征。
05 分类数据的回归分析
线性回归分析
总结词
线性回归分析是一种通过建立自变量与因变量之 间的线性关系来预测因变量的方法。
总结词
线性回归分析的假设包括线性关系、误差项独立 同分布、误差项无偏和误差项同方差。
详细描述
线性回归分析基于最小二乘法原理,通过拟合一 条直线来描述自变量和因变量之间的关系。这种 方法适用于因变量是连续变量的数据,并且自变 量和因变量之间存在线性关系。
选择合适的图形类型,将频数分布表 中的数据按照分类变量进行分组并绘 制图形。
相对频率与累积频率
相对频率
01
某一组的频数与总频数之比,用于表示该组在总体中的相对重
要程度。
累积频率
02
某一组的相对频率与前面所有组的相对频率之和,用于表示该
组及之前所有组在总体中的相对重要程度。
应用统计学 教学课件 周志丹 第九章 SPSS在多元统计分析中的应用

同销售方式下的商店销售量
11KC4
主编
第九章 SPSS在多元统计分析中的应用
本章学习目标: (1)了解SPSS17.0下的数据文件建立方法;掌握数据文件的行列转置、分 割文件、个案选择、变量值的秩;掌握加权个案、数据的分类汇总、数据 的变换与计算。 (2)掌握SPSS17.0下列联表分析、方差分析、主成分分析、因子分析、聚 类分析的操作过程,能够看懂输出的各种报表和图形。 第一节 SPSS统计分析的基本知识 第二节 具体应用
图9-22 电话拥有量和汽车 拥有量数据频数加权
图9-23 电话拥有量和汽车拥有量交叉表
图9-24 电话拥有量和汽车 拥有量交叉表统计量
表9-2 电话拥有量与汽车拥有量的卡方检验结果
值
df 4 4 1
渐进 Sig.(双侧) 0.000 0.000 0.000
Pearson卡方 似然比 线性和线性组合 有效案例中的N
框(见图9-6)。
三、变量值的秩
图9-4 “个案排秩”对话框
图9-5 “个案排秩:类型”对话框
图9-6 “个案排秩:结”对话框
四、行列转置
图9-7 “行列转置”对话框
四、行列转置
图9-8 行列转置后的数据文件
五、分割文件
分割文件的功能是把当前工 作文件分割成两个或两个以上 的组,随后的分析将对每个分 组进行。从“数据”→“分割 文件”,进入分割文件对话框 (见图9-9)。
第一节 SPSS统计分析的基本知识
一、数据文件的建立 二、观测量的排序 三、变量值的秩
四、行列转置 五、分割文件 六、选择个案
七、加权个案
八、数据的分类汇总 九、数据的变换与计算
一、数据文件的建立
图9-1 SPSS17.0数据录入窗口
11KC4
主编
第九章 SPSS在多元统计分析中的应用
本章学习目标: (1)了解SPSS17.0下的数据文件建立方法;掌握数据文件的行列转置、分 割文件、个案选择、变量值的秩;掌握加权个案、数据的分类汇总、数据 的变换与计算。 (2)掌握SPSS17.0下列联表分析、方差分析、主成分分析、因子分析、聚 类分析的操作过程,能够看懂输出的各种报表和图形。 第一节 SPSS统计分析的基本知识 第二节 具体应用
图9-22 电话拥有量和汽车 拥有量数据频数加权
图9-23 电话拥有量和汽车拥有量交叉表
图9-24 电话拥有量和汽车 拥有量交叉表统计量
表9-2 电话拥有量与汽车拥有量的卡方检验结果
值
df 4 4 1
渐进 Sig.(双侧) 0.000 0.000 0.000
Pearson卡方 似然比 线性和线性组合 有效案例中的N
框(见图9-6)。
三、变量值的秩
图9-4 “个案排秩”对话框
图9-5 “个案排秩:类型”对话框
图9-6 “个案排秩:结”对话框
四、行列转置
图9-7 “行列转置”对话框
四、行列转置
图9-8 行列转置后的数据文件
五、分割文件
分割文件的功能是把当前工 作文件分割成两个或两个以上 的组,随后的分析将对每个分 组进行。从“数据”→“分割 文件”,进入分割文件对话框 (见图9-9)。
第一节 SPSS统计分析的基本知识
一、数据文件的建立 二、观测量的排序 三、变量值的秩
四、行列转置 五、分割文件 六、选择个案
七、加权个案
八、数据的分类汇总 九、数据的变换与计算
一、数据文件的建立
图9-1 SPSS17.0数据录入窗口
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 列联表中变量的位置可以互换,的符号没有
实际意义,故取绝对值即可
23
9.4 φ 相关系数
1. 用于测度大于22列联表中数据的相关程 度
2. 计算公式为
2
C
2 n
▪ C 的取值范围是 0C<1 ▪ C = 0表明列联表中的两个变量独立 ▪ C 的数值大小取决于列联表的行数和列数,
并随行数和列数的增大而增大 ▪ 根据不同行和列的列联表计算的列联系数不
合计 …
…
r1
…
r2
:
:
…
n
14
9.3独立性检验(例题分析)
习题
样题
【例】一种原料来自三个不同的地区,原料质量被分成三 个不同等级。从这批原料中随机抽取500件进行检验,结 果如表9-3所示,要求检验各个地区和原料质量之间是否 存在依赖关系? ( 0.05)
答案
解:H0:地区和原料等级之间是独立的(不存在依赖关 系)、H1:地区和原料等级之间不独立 (存在依赖关系)
便于比较
24
9.4 V 相关系数(V correlation coefficient)
1. 计算公式为
V
2
n min (r 1),(c 1)
式中:min (r 1), (c 1) 表示取(r 1), (c 1)中较小的一个
式中: 2
r
c (fij
eij)2
i1j1 e
ij
n为实际频数的总个数,即样本容量
19
9.4 φ相关系数(原理分析)
一个简化的 22 列联表
因素 Y
因素 X
x1
x2
合计
y1
a
b
a+b
y2
c
d
c+d
合计
a+c b+d
n
20
9.4 φ 相关系数
➢ 列联表中每个单元格的期望频数分 别为
e11
(a
b)(a n
2. 列联表变量的相关属于品质相关 3. 列联表相关测量的统计量主要有
• 相关系数
• 列联相关系数
• V 相关系数
18
9.4 φ 相关系数(correlation coefficient)
1. 测度22列联表中数据相关程度
2. 对于22 列联表, 系数的值在
0~1之间
3. 相关系数计算公式为
2 n
检验如下假设:
H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
10
9.2 拟合优度检验
自由度的计算为df=R-1,R为分类变量类型的个数。在 本例中,分类变量是性别,有男女两个类别,故R=2,
于是自由度df=2-1=1,经查分布表,
(0.1)
(1)=2.706,故拒绝H0,说明存活状况与性别显著相关
5. 表中列出了行变量和列变量的所有可能的组合,所以称为列联表
6. 一个 r 行 c 列的列联表称为 r c 列联表
13
9.3列联表(contingency table)
列(cj)
行(ri)
j =1
i =1
f11
i=2
f21
:
:
列(cj) j =2
f12 f22
:
合计
c1
c2
fij 表示第 i 行第 j 列的观察频数
11
9.2 拟合优度检验
9.3 列联分析:独立性检验 12
9.3列联表的结构(r 和 c 列联表的一般表示)
1. 由两个以上的变量交叉分类的频数分布表
2. 行变量的类别用 r 表示, ri 表示第 i 个类别 3. 列变量的类别用 c 表示, cj 表示第 j 个类别 4. 每种组合的观察频数用 fij 表示
➢列联表中变量的位置可以互换,的符号 没有实际意义,故取绝对值即可
22
9.4 φ 相关系数
➢ 将入 相关系数的计算公式得
2
ad bc
n (a b)(c d)(a c)(b d)
▪ ad 等于 bc , = 0,表明变量X 与 Y 之间
独立
▪ 若 b=0 ,c=0,或a=0 ,d=0,意味着各 观察频数全部落在对角线上,此时|| =1,表 明变量X 与 Y 之间完全相关
c)
(a b)(b d )
e12
n
e21
(a
c)(c n
d)
(b d )(c d )
e22
n
➢ 将各期望频数代入 的计算公式
得
2 (a e11 ) 2 (b e12 ) 2 (c e21 ) 2 (d e22 ) 2
e11
e12
e21
e22
n(ad bc) 2
【例】1912年4月15日,豪华巨轮泰坦尼克号与 冰山相撞沉没。当时船上共有共2208人,其中男 性1738人,女性470人。海难发生后,幸存者为 718人,其中男性374人,女性344人,以的显著
性水平检验存活状况与性别是否有关。 ( 0.05)
9
9.2 拟合优度检验
习题
答案
解:要回答观察频数与期望频数是否一致,
学习目标
本章学习目标
➢ 理解分类数据与χ2 统计量 ➢ 掌握拟合优度检验及其应用 ➢ 掌握独立性检验及其应用 ➢ 掌握测度列联表中的相关性
1
9.1 理解分类数据与χ2 统计量 2
9.1 理解分类数据与χ2 统计量
1 分类变量的结果表现为类别 •例如:性别 (男, 女) 2.各类别用符号或数字代码来测度 3.使用分类或顺序尺度 •你吸烟吗? •1.是;2.否 •你赞成还是反对这一改革方案? •1.赞成;2.反对 4.对分类数据的描述和分析通常使用列联表 5.可使用检验
4
9.1 理解分类数据与χ2 统计量
1 分类数据
2 χ2 统计量
5
9.1 χ2 统计量
统计量
1. 用于检验分类变量拟合 优度
2. 计算公式为
2
( fo fe)2 fe
6
9.1 χ2 统计量
分布与自由度的关系
7
9.2 拟合优度检验
9.2 拟合优度检验 8
9.2 拟合优度检验
习题
样题
(a b)(c d )(a c)(b d )
21
9.4 φ 相关系数
➢将入 相关系数的计算公式得
2
ad bc
n (a b)(c d )(a c)(b d)
▪ad 等于 bc , = 0,表明变量X 与 Y 之间独立 ▪若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频 数全部落在对角线上,此时|| =1,表明变量X 与 Y 之间完全相关
0.05(4)=9.488故拒绝H0,接受H1 ,即地区和原料等 级之间存在依赖关系,原料的质量受地区的影响
15
9.4 列联表中的相关测量
9.4 列联表中的相关测量
16
9.4 列联表中的相关测量
1 φ相关系数
2 列联相关系数
3 V 相关系数
17
9.4 列联表中的相关测量
1. 品质相关 • 对品质数据(分类和顺序数据)之间 相关程度的测度
实际意义,故取绝对值即可
23
9.4 φ 相关系数
1. 用于测度大于22列联表中数据的相关程 度
2. 计算公式为
2
C
2 n
▪ C 的取值范围是 0C<1 ▪ C = 0表明列联表中的两个变量独立 ▪ C 的数值大小取决于列联表的行数和列数,
并随行数和列数的增大而增大 ▪ 根据不同行和列的列联表计算的列联系数不
合计 …
…
r1
…
r2
:
:
…
n
14
9.3独立性检验(例题分析)
习题
样题
【例】一种原料来自三个不同的地区,原料质量被分成三 个不同等级。从这批原料中随机抽取500件进行检验,结 果如表9-3所示,要求检验各个地区和原料质量之间是否 存在依赖关系? ( 0.05)
答案
解:H0:地区和原料等级之间是独立的(不存在依赖关 系)、H1:地区和原料等级之间不独立 (存在依赖关系)
便于比较
24
9.4 V 相关系数(V correlation coefficient)
1. 计算公式为
V
2
n min (r 1),(c 1)
式中:min (r 1), (c 1) 表示取(r 1), (c 1)中较小的一个
式中: 2
r
c (fij
eij)2
i1j1 e
ij
n为实际频数的总个数,即样本容量
19
9.4 φ相关系数(原理分析)
一个简化的 22 列联表
因素 Y
因素 X
x1
x2
合计
y1
a
b
a+b
y2
c
d
c+d
合计
a+c b+d
n
20
9.4 φ 相关系数
➢ 列联表中每个单元格的期望频数分 别为
e11
(a
b)(a n
2. 列联表变量的相关属于品质相关 3. 列联表相关测量的统计量主要有
• 相关系数
• 列联相关系数
• V 相关系数
18
9.4 φ 相关系数(correlation coefficient)
1. 测度22列联表中数据相关程度
2. 对于22 列联表, 系数的值在
0~1之间
3. 相关系数计算公式为
2 n
检验如下假设:
H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
10
9.2 拟合优度检验
自由度的计算为df=R-1,R为分类变量类型的个数。在 本例中,分类变量是性别,有男女两个类别,故R=2,
于是自由度df=2-1=1,经查分布表,
(0.1)
(1)=2.706,故拒绝H0,说明存活状况与性别显著相关
5. 表中列出了行变量和列变量的所有可能的组合,所以称为列联表
6. 一个 r 行 c 列的列联表称为 r c 列联表
13
9.3列联表(contingency table)
列(cj)
行(ri)
j =1
i =1
f11
i=2
f21
:
:
列(cj) j =2
f12 f22
:
合计
c1
c2
fij 表示第 i 行第 j 列的观察频数
11
9.2 拟合优度检验
9.3 列联分析:独立性检验 12
9.3列联表的结构(r 和 c 列联表的一般表示)
1. 由两个以上的变量交叉分类的频数分布表
2. 行变量的类别用 r 表示, ri 表示第 i 个类别 3. 列变量的类别用 c 表示, cj 表示第 j 个类别 4. 每种组合的观察频数用 fij 表示
➢列联表中变量的位置可以互换,的符号 没有实际意义,故取绝对值即可
22
9.4 φ 相关系数
➢ 将入 相关系数的计算公式得
2
ad bc
n (a b)(c d)(a c)(b d)
▪ ad 等于 bc , = 0,表明变量X 与 Y 之间
独立
▪ 若 b=0 ,c=0,或a=0 ,d=0,意味着各 观察频数全部落在对角线上,此时|| =1,表 明变量X 与 Y 之间完全相关
c)
(a b)(b d )
e12
n
e21
(a
c)(c n
d)
(b d )(c d )
e22
n
➢ 将各期望频数代入 的计算公式
得
2 (a e11 ) 2 (b e12 ) 2 (c e21 ) 2 (d e22 ) 2
e11
e12
e21
e22
n(ad bc) 2
【例】1912年4月15日,豪华巨轮泰坦尼克号与 冰山相撞沉没。当时船上共有共2208人,其中男 性1738人,女性470人。海难发生后,幸存者为 718人,其中男性374人,女性344人,以的显著
性水平检验存活状况与性别是否有关。 ( 0.05)
9
9.2 拟合优度检验
习题
答案
解:要回答观察频数与期望频数是否一致,
学习目标
本章学习目标
➢ 理解分类数据与χ2 统计量 ➢ 掌握拟合优度检验及其应用 ➢ 掌握独立性检验及其应用 ➢ 掌握测度列联表中的相关性
1
9.1 理解分类数据与χ2 统计量 2
9.1 理解分类数据与χ2 统计量
1 分类变量的结果表现为类别 •例如:性别 (男, 女) 2.各类别用符号或数字代码来测度 3.使用分类或顺序尺度 •你吸烟吗? •1.是;2.否 •你赞成还是反对这一改革方案? •1.赞成;2.反对 4.对分类数据的描述和分析通常使用列联表 5.可使用检验
4
9.1 理解分类数据与χ2 统计量
1 分类数据
2 χ2 统计量
5
9.1 χ2 统计量
统计量
1. 用于检验分类变量拟合 优度
2. 计算公式为
2
( fo fe)2 fe
6
9.1 χ2 统计量
分布与自由度的关系
7
9.2 拟合优度检验
9.2 拟合优度检验 8
9.2 拟合优度检验
习题
样题
(a b)(c d )(a c)(b d )
21
9.4 φ 相关系数
➢将入 相关系数的计算公式得
2
ad bc
n (a b)(c d )(a c)(b d)
▪ad 等于 bc , = 0,表明变量X 与 Y 之间独立 ▪若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频 数全部落在对角线上,此时|| =1,表明变量X 与 Y 之间完全相关
0.05(4)=9.488故拒绝H0,接受H1 ,即地区和原料等 级之间存在依赖关系,原料的质量受地区的影响
15
9.4 列联表中的相关测量
9.4 列联表中的相关测量
16
9.4 列联表中的相关测量
1 φ相关系数
2 列联相关系数
3 V 相关系数
17
9.4 列联表中的相关测量
1. 品质相关 • 对品质数据(分类和顺序数据)之间 相关程度的测度