人大版-贾俊平-第五版-统计学-第9章-分类数据分析PPT课件
贾俊平统计学ppt正式完整版
![贾俊平统计学ppt正式完整版](https://img.taocdn.com/s3/m/3c5780bdbb0d4a7302768e9951e79b8969026852.png)
假设检验
假设检验的基本思想
单样本t检验
阐述假设检验的原理、步骤和类型,包括原 假设和备择假设的设立、检验统计量的选择 等。
介绍单样本t检验的原理、方法和应用场景, 包括检验步骤、p值的计算和解释等。
双样本t检验
方差分析
阐述双样本t检验的原理、方法和应用场景, 包括独立双样本t检验和配对双样本t检验的 区别和联系。
要点三
其他综合评价方法的 比较
除了上述方法外,还有如层次分析法、 模糊综合评价法等多种综合评价方法。 这些方法在原理、适用范围和优缺点等 方面各有不同,需要根据具体问题和需 求进行选择和使用。
THANKS
感谢观看
数据分析流程
明确分析目的、收集数据、 数据预处理、数据分析、 结果呈现。
统计软件简介
常用统计软件
01
SPSS、SAS、Stata、Excel等。
软件选择原则
02
根据分析目的、数据类型和统计分析方法选择合适的统计软件。
软件使用技巧
03
熟练掌握软件的基本操作,了解常用命令和函数,注意数据的
导入和导出格式。
08
统计指数与综合评价
Chapter
统计指数的编制原理与方法
统计指数的概念
统计指数是用于反映复杂现象总 体数量上的变动,分析现象总体 变动中受各个因素变动影响的程 度。
统计指数的编制原理
统计指数编制的基本原理是综合 比较法和平均法。通过选定同度 量因素,对不能直接相加的现象 进行过渡性综合,以得到总量指 标,再通过对比分析揭示现象之 间的数量差异和程度。
几种常见的综合评价方法比较
要点一
主成分分析法与因子 分析法的比较
主成分分析法通过降维技术将多个指标 转化为少数几个综合指标,而因子分析 法则是通过寻找公共因子来解释原始变 量之间的相关关系。两种方法在原理和 目的上有所不同,但都可以用于综合评 价。
贾俊平《统计学》配套题库 【课后习题】详解 第9章~第10章【圣才出品】
![贾俊平《统计学》配套题库 【课后习题】详解 第9章~第10章【圣才出品】](https://img.taocdn.com/s3/m/31e877d65acfa1c7ab00cc4a.png)
第9章分类数据分析一、思考题1.简述列联表的构造与列联表的分布。
答:列联表是由两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C 三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2A B C 总计甲乙丙204015459065357070100200150总计75200175450根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
建立假设:H 0:次品类型与厂家生产是独立的,H 1:次品类型与厂家生产不是独立的。
次品类型生产厂可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。
表9-3各组的期望值计算表A B C 总计甲乙丙20(17)40(33)15(25)45(44)90(89)65(67)35(39)70(78)70(58)100200150总计75200175450所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。
而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。
由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。
3.说明计算2χ统计量的步骤。
答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。
统计学九章PowerPoint 演示文稿
![统计学九章PowerPoint 演示文稿](https://img.taocdn.com/s3/m/f52f65b2c77da26925c5b0f0.png)
F ( n ,m )
F
案例
5· 应用一元回归模型进行区间估计 给定x0,y0的置信度(1-α)的置信区间为: n≥30时 特定值估计 n<30时
ˆ y0 y Z Sxy
2
(a bx0 ) Z Sxy
2
ˆ y0 y t
1 ( x0 x ) 2 Sxy 1 2 ( n2) n ( x x ) 2
第九章 相关与回归
相关和回归分析是研究事物的相互关系,测定它们 联系的紧密程度,揭示其变化的具体形式和规律性 的统计方法,是构造各种经济模型、进行结构分析、 政策评价、预测和控制的重要工具。
主要内容
相关分析 回归分析
第一节 相关关系的概念和种类 相关分析
概念160页
种类162页
种类
正相关 负相关
y na b x xy a x b x
2
b
n xy x y n x ( x)
2 2
y x a b n n
参见书169页例9-2
练习172页四
回归系数b表明自变量x每变化一个单位因变量y的增(减)量。 •b与r的关系: r>0 r< 0 r=0
Y的数学期望E(Y) 随机误差
总体多元线性回归模型的一般形式
案例
表明自变量 x1、x2 , 共同变动引起的Y 的平均变动。也称总体的二元线性回归方差。 常数项, x1 x2和Y构成的平面与Y轴的截距 0
E(Y)= 0+1 x1+ 2 x2 ,
1
偏回归系数,表示在 x2 固定时 x1每变化一个单位引起的 Y的平均变动;
平均值估计
1 ( x0 x ) 2 (a bx0 ) t Sxy 1 2 ( n2) n ( x x ) 2
统计学完整(贾俊平)人大课件ppt课件
![统计学完整(贾俊平)人大课件ppt课件](https://img.taocdn.com/s3/m/fae0f9ba915f804d2b16c1b0.png)
agriculture (农业) anthropology (人类学) auditing (审计学)
crystallography (晶体学)
demography (人口统计学)
dentistry (牙医学)
ecology (生态学)
econometrics (经济计量学)
education (教育学)
geology (地质学)
historical research (历史研究) human genetics (人类遗传学)
1 - 11
经济、管理类 基础课程
统计学
应用统计的领域(续)
hydrology (水文学)
Industry (工业)
linguistics (语言学)
literature (文学)
2. 数据整理:例如,分组
3. 数据展示:例如, 图和表
4. 数据分析:例如,回归分析
1 -7
经济、管理类 基础课程
统计学
Statistics的定义 (不列颠百科全书)
Statistics: the science of collecting, analyzing, presenting, and interpreting data.
经济、管理类 基础课程
统计学
统计学
1 -1
作者:中国人民大学统计系
贾俊平
经济、管理类 基础课程
统计学
第一章 绪 论
1 -2
经济、管理类 基础课程
统计学
第一章 绪论
第一节 统计与统计学 第二节 统计学的分科 第三节 统计学与其他学科的关系 第四节 统计学的产生与发展
1 -3
经济、管理类 基础课程
贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】
![贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】](https://img.taocdn.com/s3/m/4a083467d5bbfd0a78567376.png)
第9章 分类数据分析一、思考题1.简述列联表的构造与列联表的分布。
答:列联表是由两个以上的变量进行交叉分类的频数分布表。
列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。
2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。
答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。
抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。
表9-2根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。
建立假设:H0:次品类型与厂家生产是独立的,H1:次品类型与厂家生产不是独立的。
可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。
表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。
而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。
由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。
3.说明计算2χ统计量的步骤。
答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。
4.简述ϕ系数、c 系数、V 系数的各自特点。
答:(1)ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。
它的计算公式为:ϕ,式中,∑-=ee of f f 22)(χ;n 为列联表中的总频数,也即样本量。
统计学课件贾俊平人大课件
![统计学课件贾俊平人大课件](https://img.taocdn.com/s3/m/46fd9716302b3169a45177232f60ddccda38e624.png)
非参数统计方法的意义
不依赖于总体分布的具体形式,对数据的分布要求较少,因此具 有更广泛的适用性。
非参数统计方法的特点
基于秩次或符号等信息进行统计推断,对异常值或离群值不敏感, 具有较好的稳健性。
非参数统计方法的应用场景
适用于总体分布未知或不服从特定分布的情况,如等级数据、顺序 数据等。
单样本非参数检验
假设检验的基本原理
1 2
假设检验的基本思想
了解假设检验的基本原理和步骤,包括提出假设 、构造统计量、确定拒绝域和作出决策等。
两类错误与显著性水平
理解两类错误的概念和关系,了解显著性水平的 意义和作用。
3
单侧检验与双侧检验
掌握单侧检验和双侧检验的区别和应用场景,能 够根据实际情况选择合适的检验方法。
散点图
展示两个变量之间的关系,用点的位置表示 各数据项的数值。
折线图
展示数据随时间或其他因素的变化趋势,用 线段连接各数据点。
饼图
展示各类别数据的占比情况,用扇形的面积 表示各类别的比例。
05
概率论基础与抽样分布
概率论的基本概念
事件与概率
01
了解随机事件的定义,掌握概率的基本性质和运算法则。
条件概率与独立性
变量和指标
变量是描述现象特征的属性, 指标是反映现象数量特征的概
念和数值。
概率和随机性
概率是某一事件发生的可能性 ,随机性是指事件发生的不确
定性。
统计量和抽样分布
统计量是样本的函数,抽样分 布是统计量的概率分布。
统计学的应用领域
01
社会经济领域
如人口普查、经济调查、市场分析 等。
工程技术领域
如质量控制、可靠性分析、设计优 化等。
2024版统计学完整(贾俊平)人大课件ppt课件
![2024版统计学完整(贾俊平)人大课件ppt课件](https://img.taocdn.com/s3/m/3c8b578c6037ee06eff9aef8941ea76e58fa4a9f.png)
统计学完整(贾俊平)人大课件ppt课件•引言•数据收集与整理•描述性统计分析目录•概率论基础•推断性统计分析•方差分析与回归分析•时间序列分析与预测•统计决策与风险管理目录•总结与展望01引言统计学是一门研究如何收集、整理、分析和解释数据的科学。
统计学的定义统计学的历史统计学的分支统计学的发展经历了古典统计学、近代统计学和现代统计学三个阶段。
统计学可以分为描述统计学和推断统计学两大分支。
030201统计学概述社会科学医学与健康工程与技术商业与经济统计学应用领域01020304在社会科学领域,统计学被广泛应用于调查研究、民意测验、市场分析等方面。
在医学和健康领域,统计学被用于临床试验、流行病学研究、健康风险评估等方面。
在工程和技术领域,统计学被用于质量控制、可靠性分析、信号处理等方面。
在商业和经济领域,统计学被用于市场分析、财务分析、经济预测等方面。
通过学习,学生应掌握统计学的基本概念和方法,包括数据收集、整理、描述和分析等方面的内容。
掌握统计学基本概念和方法具备数据处理和分析能力了解统计学的应用领域培养批判性思维学生应具备独立处理和分析数据的能力,能够运用适当的统计方法进行数据分析和解释。
学生应了解统计学的应用领域,能够运用所学知识解决实际问题。
学生应培养批判性思维,能够对统计结果进行合理的解释和评估。
学习目标与要求02数据收集与整理数据来源及类型数据来源包括原始数据和二手数据,原始数据是通过直接调查、实验或观察获得的数据;二手数据则是已经经过他人收集、整理和处理过的数据。
数据类型包括定性数据和定量数据,定性数据是描述性的、非数值的,如文字、图像等;定量数据则是可以用数值表示的,如年龄、收入等。
此外,还可以根据数据的测量尺度将其分为名义型数据、顺序型数据、间隔型数据和比率型数据。
调查法实验法观察法大数据收集数据收集方法通过问卷、访谈、电话调查等方式收集数据,可以获取大量的、详细的信息。
直接观察研究对象的行为、状态等,记录相关数据,适用于无法控制或干预的情况。
统计学_ 贾俊平 -中国人民大学出版社_第五版
![统计学_ 贾俊平 -中国人民大学出版社_第五版](https://img.taocdn.com/s3/m/84329a8dec3a87c24028c44d.png)
3.1 为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。
服务质量的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。
调查结果如下:B EC C AD C B A ED A C B C DE C E EA DBC C A ED C BB ACDE A B D D CC B C ED B C C B CD A C B C DE C E BB EC C AD C B A EB AC E E A BD D CA DBC C A ED C BC B C ED B C C B C要求:(1)指出上面的数据属于什么类型。
顺序数据(2)用Excel制作一张频数分布表。
用数据分析——直方图制作:接收频率E16D17C32B21A14(3)绘制一张条形图,反映评价等级的分布。
用数据分析——直方图制作:(4)绘制评价等级的帕累托图。
逆序排序后,制作累计频数分布表:接收频数频率(%)累计频率(%)C 32 32 32B 21 21 53D 17 17 70E 16 16 86A 14 14 1005101520253035CDBAE204060801001203.2 某行业管理局所属40个企业2002年的产品销售收入数据如下: 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 9788123115119138112146113126要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
1、确定组数:()l g 40l g () 1.60206111 6.32l g (2)l g 20.30103n K =+=+=+=,取k=62、确定组距:组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取10 3(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
2024版统计学贾俊平人大PPT课件
![2024版统计学贾俊平人大PPT课件](https://img.taocdn.com/s3/m/a3f4ee8d88eb172ded630b1c59eef8c75ebf9579.png)
课件•引言•统计数据的收集与整理•统计描述目•概率论基础•统计推断录•统计指数与因素分析•相关与回归分析•统计决策目•统计学的应用与发展录引言统计学概述统计学的定义统计学的发展历史统计学的分支领域1 2 3统计学在决策中的应用统计学在科学研究中的应用统计学在社会生活中的应用统计学的重要性统计学的研究对象01020304数据的收集数据的整理数据的分析数据的解释统计数据的收集与整理原始数据二手数据定性数据定量数据时序数据030201数据的收集方法观察法调查法实验法数据的整理与显示数据整理数据显示通过图表、图像等方式将数据呈现出来,以便于直观理解和分析。
常见的数据显示方式包括表格、条形图、折线图、饼图等。
统计描述集中趋势的描述算术平均数适用于数值型数据,反映数据的平均水平。
中位数适用于顺序数据,反映数据的中等水平。
众数适用于分类数据,反映数据的多数水平。
离散程度的描述四分位数间距极差上四分位数与下四分位数之差,反映中间50%数据的离散程度。
方差与标准差分布形态的描述偏态峰态统计图表的应用适用于分类数据,表示各类别的频数或频率。
适用于时间序列数据,表示事物随时间的变化趋势。
适用于分类数据,表示各类别在总体中的占比。
适用于两个数值型变量,表示它们之间的相关关系。
条形图折线图饼图散点图概率论基础随机事件与概率随机试验与样本空间随机试验是具有某些基本特点的试验,其所有可能结果构成的集合称为样本空间。
随机事件随机试验的某个(些)样本点构成的集合称为随机事件。
概率的定义概率是描述随机事件发生的可能性大小的数值,常用P(A)表示。
概率的性质与运算法则概率的性质01概率的加法公式02概率的乘法公式03事件的独立性如果事件A 与事件B 相互独立,则P(A∩B)=P(A)P(B)。
条件概率在事件B 发生的条件下,事件A 发生的概率称为条件概率,记作P(A|B)。
多个事件的独立性如果事件A1,A2,...,An 相互独立,则对于任意k 个事件Ai1,Ai2,...,Aik(1≤i1<i2<...<ik≤n),都有P(Ai1∩Ai2∩...∩Aik)=P(Ai1)P(Ai2)...P(Aik)。
统计学课件贾俊平人大课件-2024鲜版
![统计学课件贾俊平人大课件-2024鲜版](https://img.taocdn.com/s3/m/452dc4632bf90242a8956bec0975f46527d3a723.png)
常用的统计软件包括SPSS、SAS、Stata、R等,这些软件提供了丰富的统计功能和数据分析工具,方便研 究者进行数据分析和挖掘。
6
02
描述统计学
2024/3/28
7
数据收集与整理
数据来源
明确数据的来源,包括观察、实 验、调查等。
数据类型
区分数据的类型,如定量数据、 定性数据。 2024/3/28
时间序列图
将时间序列数据绘制成图形,直观展示数据的波动情况。
自相关图
展示时间序列数据与其自身不同时间延迟版本之间的相关性。
2024/3/28
偏自相关图
在给定其他时间延迟的情况下,展示时间序列数据与其自身某个 时间延迟版本之间的相关性。
26
时间序列的预测方法
移动平均法
通过计算历史数据的移动平均值来预测 未来值。
无交互作用的双因素方差分析
当两个因素相互独立时,分别考虑各自对试 验结果的影响
2024/3/28
有交互作用的双因素方差分析
当两个因素存在交互作用时,需同时考虑两 个因素及其交互作用对试验结果的影响
19
05
相关与回归分析
2024/3/28
20
相关分析
2024/3/28
相关关系的概念
介绍相关关系的定义、特点和分类,阐述相关分析与回归分析的关 系。
相关系数的计算与检验
详细讲解皮尔逊相关系数、斯皮尔曼等级相关系数的计算方法和假 设检验,包括检验步骤、检验统计量和决策规则。
相关系数的解释
阐述相关系数的大小、方向和显著性水平对所研究变量的意义,以 及需要注意的问题。
21
一元线性回归分析
一元线性回归模型
介绍一元线性回归模型的形式、 假设和参数估计方法,包括最小 二乘法和最大似然法。
《统计学》完整袁卫-贾俊平PPT课件
![《统计学》完整袁卫-贾俊平PPT课件](https://img.taocdn.com/s3/m/567330f46bd97f192379e96f.png)
例如,对企业按经营管理的水平和取得 的效益划分为一级企业、二级企业等。
最新课件
10
定距数据
也称间距数据,是比定序数据的描述功能 更好一些的定量数据。
如10℃、20℃等。它不仅有明确的高低 之分,而且可以计算差距,如20℃比 10℃高10℃,比5℃高15℃等。
计数
产业分类
2. 定序测定 分类;排序 计数;排序 企业等级
3. 定距测定 分类;排序; 计数;排序;温度
有基本测量单位 加减
4. 定比测定 分类;排序; 计数;排序;商品销售
有基本测量单位;加减
额
有绝对零点 乘除
最新课件
12
4. 截面数据和时间序列数据
截面数据:所搜集的不同单位在同一时间的数据。例 如,所有上市公司公布的2004年年度的净利润。
如人口按性别分组、企业按所有制分组等 定量变量编制:分为单项数列和组距数列两种形式。
单项数列:即变量的一个取值为一组,适用于离散
型变量,并且变量的取值较少。
组距数列:即每一组有一个上限值和一个下限值所
形成的区间,适用于连续性变量,或离散型变量且
变量的取值较多的情况最。新课件
34
注意以下三个方面的问题 1.确定组数 2.确定组距:组距为上限与下限之差。
2. 统计数据:统计工作所产生的成果,用以描述我们所 研究现象的属性和特征 。如统计图表,统计分析报告 等。
3. 统计学:一门研究总体数量特征的方法论科学。
统计工作 统计资料 统 计学
工作与工作成果关系
最新课件
实践与理 论关系
3
(二)四个重要的术语
总体 所研究的具有某些相同性质的全部单位或 事件的整体。
统计学ppt课件贾俊平完整版
![统计学ppt课件贾俊平完整版](https://img.taocdn.com/s3/m/1cfbbf5e0a4e767f5acfa1c7aa00b52acfc79cae.png)
时间序列预测的评价指标
平均误差、均方误差、均方根误差和平均绝 对误差等。
08
统计计算与软件应用
统计计算基础
描述性统计
计算数据的中心趋势( 均值、中位数、众数) 和离散程度(方差、标 准差、四分位距)。
概率论基础
理解概率、期望、方差 等基本概念,掌握常见 概率分布(如正态分布 、t分布、F分布等)。
数据分布的图形表示
介绍直方图、箱线图等图形表示方法 ,用于直观展示数据的分布形态。
03
概率论基础
随机事件与概率
随机事件
在一定条件下,并不 总是发生,也不总是 不发生的事件。
概率
描述随机事件发生的 可能性大小的数值。
பைடு நூலகம்
概率的性质
非负性、规范性、可 加性。
条件概率
在给定另一事件发生 的条件下,某一事件 发生的概率。
专注于数据管理和统计分析,提供丰富的计量经济学方法,适 合经济学和金融学等领域。
开源且易学的编程语言,拥有强大的数据处理和可视化库(如 pandas、matplotlib等),适合数据科学和机器学习领域。
R语言在统计学中的应用实例
数据清洗和整理
使用R中的dplyr等包进行数据清洗、 筛选和变换。
02
统计学的研究方法
描述统计方法
描述统计方法是统计学中最基础 的方法,它通过对数据进行整理 、概括和可视化,帮助我们了解
数据的基本情况和分布特征。
推断统计方法
推断统计方法是统计学中更高级 的方法,它基于概率论和数理统 计的理论,通过对样本数据的分 析来推断总体数据的特征和规律
。
实验设计方法
实验设计方法是统计学中用于研 究因果关系的方法,它通过设计 和实施实验来控制和观察各种因 素的变化,从而揭示出因素之间
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 条件分布与条件频数
– 变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变 量 X 的分布
– 每个具体的观察值称为条件频数
-
15
条件频数
行边缘分布
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计 100 120
n
12
列联表的结构
(r c 列联表的一般表示)
列(cj) 行(ri)
i =1
i=2
:
r 行 c 列的列联表
列(cj)
j =1 j = 2
…
f11
f12
…
f21
f22
…
:
:
:
合计
r1 r2
:
合计
c1
c2
…
n
fij 表示第 i 行第 j 列的观察频数
-
13
【例】一个集团公司在四个不同的地区设有分公司,现该集 团公司欲进行一项改革,此项改革可能涉及到各分公司的利 益,故采用抽样调查方式,从四个分公司共抽取420个样本 单位(人),了解职工对此项改革的看法,调查结果如下表
所以称为列联表 6. 一个 r 行 c 列的列联表称为 r c 列联表
-
11
列联表的结构
(2 2 列联表)
一个2 2 列联表
列(cj) 行 (ri)
i =1
i =2 合计
列( cj )
j =1
j =1
f11 f21 f11+ f21
f12 f22 f12+ f22
-
合计
f11+ f12 f21+ f22
反对该方案 22.7% 31.9% 23.4% 22.0% 33.6%
32.0% 37.5% 36.7% 28.2% —
合计
7.6% 10.7% 7.9% 7.4% — 23.8% 28.6% 21.4% 26.2% 100%
-
18
1. 假定行变量和列变量是独立的 2. 一个实际频数 fij 的期望频数 eij ,是总频
2 =
f0
fe fe
2
,描述
f0
与
fe
的接近程度。越
接近, 2 值越小;差异越大, 2 值越大。给
定显著性水平时,将 2 值与临界值比较,做
出是否拒绝原假设的决策。
-
3
9.2 拟合优度检验
依据总体分布状况,计算出分类变量中 各类别的期望频数,与分布的观察频数进行 对比,判断期望频数与观察频数是否有显著 差异。
-
8
如果该项统计可靠,400居民中老年人的频数应该为400*14.7%=59
H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
观测值 f 0
老年人
57
非老年人
343
期望值 f e
59 341
f0 fe
-2 2
f0 fe 2
4 4
f 0 f e 2
fe
0.0678
0.0117
2= f0fe2 0.0795
– 总百分比:每一个观察值除以观察值的总个数 ( fij / n )
-
17
行百分比
列百分比
总百分比
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 24.4% 26.9% 20.4% 28.3% 66.4%
68.0% 62.5% 63.35 71.8% —
16.2% 17.8% 13.6% 18.8% —
第9章 分类数据分析
-
1
9.1 分类数据与卡方统计量
9.1.1 分类数据 调查结果虽然用数值表示,但不同数值描 述的是调查对象的不同特征。分类数据汇 总的结果表现为频数。 卡方检验是对分类数据的频数进行分析的 统计方法。
-
2
9.1.2 卡方统计量
用于检验列联表中变量之间是否存在显
著性差异,或者用于检验变量之间是否独立。
fe
-
9
自由度为:分类变量类型的个数-1=1
5.024
2 0.0795
α=0.05 拒绝域
2
决策:接受H0 结论:调查结果支持该项统计结论
-
10
9.3 列联分析:独立性分析
9.3.1 列联表
1.由两个以上的变量进行交叉分类的频数分布表 2. 行变量的类别用 r 表示, ri 表示第 i 个类别 3. 列变量的类别用 c 表示, cj 表示第 j 个类别 4. 每种组合的观察频数用 fij 表示 5.表中列出了行变量和列变量的所有可能的组合,
海难后幸存比例为718/2208=0.325 男性应该为1738*0.325=565人 女性应该为470*0.325=153人。
H0:观察频数与期望频数一致
观测值 f 0 期望值
H1:观察频数与期望频数不一致
fe
f0 fe
f0 fe
2
f 0 f e 2
fe
男
374
565
-191
36481
90
110 420
列边缘分布
-
16
1. 条件频数反映了数据的分布,但不适合进行 对比
2. 为在相同的基数上进行比较,可以计算相应 的百分比,称为百分比分布
– 行百分比:行的每一个观察频数除以相应的行 合计数(fij / ri)
– 列百分比:列的每一个观察频数除以相应的列 合计数( fij / cj )
-
4
1912年4月15日,豪华巨轮泰坦尼克号与 冰山相撞沉没。当时船上共有2208人,其中 男性1738人,女性470人。海难发生后,幸存 者共718人,其中男性374人,女性344人,以 α=0.1的显著性水平检验存活状况与性别是
否有关。
-
5
如果存活状况与性别无关,男性与女 性的幸存比例应该相等。
数的个数 n 乘以该实际频数 fij 落入第 i 行 和第j列的概率,即
eij
nri ci ricj n n n
-
19
例如,第1行和第1列的实际频数为 f11 ,它落在第1行 的概率估计值为该行的频数之和r1除以总频数的个数 n , 即:r1/n;它落在第1列的概率的估计值为该列的频数 之和c1除以总频数的个数 n ,即:c1/n 。根据概率的乘 法公式,该频数落在第1行和第1列的概率应为
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
Байду номын сангаас
反对该方案 32
75
33
31 141
合计 100 120
90
110 420
-
14
1. 边缘分布
– 行边缘分布
• 行观察值的合计数的分布 • 例如,赞成改革方案的共有279人,反对改革方案的141人
– 列边缘分布
• 列观察值的合计数的分布 • 例如,四个分公司接受调查的人数分别为100人,120人,90
64.6
女
344
153
191
36481
238.4
2= f0 fe2 303
f-e
6
自由度为:分类变量类型的个数-1=1
α=0.1 拒绝域
2.705
2
2 303
决策:拒绝H0 结论:有证据表明存活状况与性别显著相关
-
7
一项统计结果声称,某市老年人口所占 比例为14.7%,该市老年人口研究会为了检验 该项统计是否可靠,随机抽选了400名居民, 发现其中有57人老年人。调查结果是否支持 14.7%的看法?