贾俊平统计学第五版分类数据分析

合集下载

精选人大版,贾俊平,第五版,统计学第4章数据的概括性度量资料

精选人大版,贾俊平,第五版,统计学第4章数据的概括性度量资料

R
. =
最高组上限
-
最低组下限
2. 平均差
1. 离散程度的测度值之一
2. 各变量值与其均值离差绝对值的平均数
3. 能全面反映一组数据的离散程度
4. 数学性质较差,实际中应用较少
5. 计算公式为
未分组数据 组距分组数据
N
Xi X
M D i1 N K X i X Fi
M D i1 K
QD = QU - QL =3–2 =1
4.2.3 数值型数据:方差和标准差 1.极差
1. 一组数据的最大值与最小值之差
2. 离散程度的最简单测度值
3. 易受极端值影响
4. 未考虑数据的分布 5. 计算公式为
7 8 9 10
7 8 9 10
未分组数据 R = max(Xi) - min(Xi)
组距分组数据
QU位置=3×50/4=37.5
350 30
QU 125
4 10
5 128.75(个)
4.1.3 数值型数据:平均值 1.集中趋势的测度值之一 2.最常用的测度值 3.一组数据的均衡点所在 4.易受极端值的影响 5.用于数值型数据,不能用于定类数据和定
序数据
均值(计算公式)
M0
125
(14
14 10 8) (14
10)
5
123(个)
4.1.2 顺序数据:中位数和分位数 1.中位数
集中趋势的测度值之一 排序后处于中间位置上的值 不受极端值的影响 主要用于定序数据,也可用数值型数据,但不能
用于定类数据
各变量值与中位数的离差绝对值之和最小,即
25% 25% 25% 25%

贾俊平统计学五版3章节数据图表展示

贾俊平统计学五版3章节数据图表展示
2. 数据筛选的内容
▪ 将某些不符合要求的数据或有明显错误的数
据予以剔除
▪ 将符合某种特定条件的数据筛选出来,而不
符合特定条件的数据予以剔除
3 - 10
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
数据筛选
(data filter)
用Excel进行数据筛选
8名学生的考试成绩数据
合计
300 100.0




作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
顺序数据的频数分布表
(例题分析)
3 - 33
回答类别
乙城市家庭对住房状况评价的频数分布
乙城市
户数 百分比 (户) (%)
向上累积
户数 百分比
(户)
(%)
向下累积
户数 百分比 (户) (%)
非常不满意 21
2. 主要用于 展示分类 数据的分 布
频数
16
15
12
11
9
9
8
6
4
0 可口可乐 旭日升冰茶 百事可乐
露露
不同品牌饮料的帕累托图
汇源果汁
品牌
3 - 27
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
分类数据的图示—饼图
(pie Chart)
1. 也称圆形图,是用圆形及圆内扇形的角度 来表示数值大小的图形
▪ 升序和降序 ▪ 寻找数据的基本特征
4. 数据透视
按需要汇总
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)

【单位】统计学贾俊平第五版分章习题及答案

【单位】统计学贾俊平第五版分章习题及答案

【关键字】单位《统计学》分章习题及答案(贾俊平,第五版)主编:杨群目录习题部分第1章导论一、单项选择题1.指出下面的数据哪一个属于分类数据()A.年龄B.工资C.汽车产量D.购买商品的支付方式(现金、信用卡、支票)2.指出下面的数据哪一个属于顺序数据()A.年龄B.工资C.汽车产量D.员工对企业某项制度改革措施的态度(赞成、中立、反对)3.某研究部门准备在全市200万个家庭中抽取2000个家庭,据此推断该城市所有职工家庭的年人均收入,这项研究的统计量是()A.2000个家庭B.200万个家庭C.2000个家庭的人均收入D.200万个家庭的人均收入4.了解居民的消费支出情况,则()A.居民的消费支出情况是总体B.所有居民是总体C.居民的消费支出情况是总体单位D.所有居民是总体单位5.统计学研究的基本特点是()A.从数量上认识总体单位的特征和规律B.从数量上认识总体的特征和规律C.从性质上认识总体单位的特征和规律D.从性质上认识总体的特征和规律6.一家研究机构从IT从业者中随机抽取500人作为样本进行调查,其中60%的人回答他们的月收入在5000元以上,50%的回答他们的消费支付方式是使用信用卡。

这里的“月收入”是()A.分类变量B.顺序变量C.数值型变量D.离散变量7.要反映我国工业企业的整体业绩水平,总体单位是()A.我国每一家工业企业B.我国所有工业企业C.我国工业企业总数D.我国工业企业的利润总额8.一项调查表明,在所抽取的1000个消费者中,他们每月在网上购物的平均消费是200元,他们选择在网上购物的主要原因是“价格便宜”。

这里的参数是()A.1000个消费者B.所有在网上购物的消费者C.所有在网上购物的消费者的平均消费额D.1000个消费者的平均消费额9.一名统计学专业的学生为了完成其统计作业,在《统计年鉴》中找到的2006年城镇家庭的人均收入数据属于()A.分类数据B.顺序数据C.截面数据D.时间序列数据10.一家公司的人力资源部主管需要研究公司雇员的饮食习惯,改善公司餐厅的现状。

贾俊平《统计学》配套题库 【课后习题】详解 第9章~第10章【圣才出品】

贾俊平《统计学》配套题库  【课后习题】详解  第9章~第10章【圣才出品】

第9章分类数据分析一、思考题1.简述列联表的构造与列联表的分布。

答:列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。

2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。

答:对三个生产厂甲、乙、丙提供的学习机的A、B、C 三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。

表9-2A B C 总计甲乙丙204015459065357070100200150总计75200175450根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。

建立假设:H 0:次品类型与厂家生产是独立的,H 1:次品类型与厂家生产不是独立的。

次品类型生产厂可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。

表9-3各组的期望值计算表A B C 总计甲乙丙20(17)40(33)15(25)45(44)90(89)65(67)35(39)70(78)70(58)100200150总计75200175450所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。

3.说明计算2χ统计量的步骤。

答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。

贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】

贾俊平《统计学》(第5版)课后习题-第9章 分类数据分析【圣才出品】

第9章 分类数据分析一、思考题1.简述列联表的构造与列联表的分布。

答:列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。

2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。

答:对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品,整理成为如表9-2所示的3×3列联表。

表9-2根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。

建立假设:H0:次品类型与厂家生产是独立的,H1:次品类型与厂家生产不是独立的。

可以计算各组的期望值,如表9-3所示(表中括号内的数值为期望值)。

表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于(R -1)(C -1)=(3-1)×(3-1)=4,若以0.01的显著性水平进行检验,查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=,故接受原假设H 0,即次品类型与厂家生产是独立的。

3.说明计算2χ统计量的步骤。

答:计算2χ统计量的步骤:(1)用观察值o f 减去期望值e f ;(2)将(o f -e f )之差平方;(3)将平方结果2)(e o f f -除以e f ;(4)将步骤(3)的结果加总,即得:22()o e ef f f χ-=∑。

4.简述ϕ系数、c 系数、V 系数的各自特点。

答:(1)ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。

它的计算公式为:ϕ,式中,∑-=ee of f f 22)(χ;n 为列联表中的总频数,也即样本量。

贾俊平《统计学》(第五版)考研真题(含复试)与典型习题详解 分类数据分析

贾俊平《统计学》(第五版)考研真题(含复试)与典型习题详解 分类数据分析

合计
赞成
35
30
65
反对
15
20
35
合计
50
50
100
如果要检验男女教师对教师体制改革的看法是否相同,提出的原假设为( )。
A.H0:π1=π2=35 B.H0:π1=π2=50 C.H0:π1=π2=65
6 / 19
圣才电子书

D.H0:π1=π2=0.65
十万种考研考证电子书、题库视频学习平台
156 162
圣才电子书

A.0.6176
十万种考研考证电子书、题库视频学习平台
B.1.2352
C.2.6176
D.3.2352
【答案】B
【解析】 2 检验可以用于变量间拟合优度检验和独立性检验,可以用于测定两个分类 变量之间的相关程度。用 fo 表示观察值频数,用 fe 表示期望值频数,则 2 统计量为:
圣才电子书

十万种考研考证电子书、题库视频学习平台
第 9 章 分类数据分析
一、单项选择题
1.列联分析是利用列联表来研究( )。
A.两个数值型变量的关系
B.两个分类变量的关系
C.两个数值型变量的分布
D.一个分类变量和一个数值型变量的关系
【答案】B
【解析】列联表是由两个以上的变量进行交叉分类的频数分布表,列联分析是利用列联
【解析】表中的行是态度变量,这里划分为三类,即赞成,中立和反对;表中的列是单 位变量,这里划分为两类,即男同学和女同学,即 3×2 列联表。
5.一所大学为了解男女学生对后勤服务质量的评价,分别抽取了 300 名男学生和 240
名女学生进行调查,得到的结果如表 9-2 所示。
表 9-2 关于后勤服务质量评价的调查结果

贾俊平《统计学》章节题库(分类数据分析)【圣才出品】

贾俊平《统计学》章节题库(分类数据分析)【圣才出品】

观察值
105
78
期望值
102
8l
根据这个列联表计算的 Χ2 统计量为( )。
A.0.6176
B.1.6176
C.0.3088
D.1.3088
【答案】A
【解析】 2 f0 fe 2 45 482 42 392 105 1022 78 812
87
反对
105
78
183
合计
150
120
270
这个列联表的最下边一行称为( )。
A.列边缘频数
B.行边缘频数
3 / 25
圣才电子书

C.条件频数
十万种考研考证电子书、题库视频学习平台
D.总频数
【答案】A
7.一所大学准备采取一项学生在宿舍上网收费的措施,为了解男女学生对这一措施的
2.设 R 为列联表的行数,C 为列联表的列数,则 Χ2 分布的自由度为( )。 A.R B.C C.R×C D.(R-1)×(C-1) 【答案】D
【解析】 2 检验的自由度=(行数-1)(列数-1)=(R-1)(C-1)。
1 / 25
圣才电子书 十万种考研考证电子书、题库视频学习平台

看法,分别抽取了 150 名男学生和 120 名女学生进行调查,得到的结果如下:
男学生
女学生
合计
赞成
45
42
87
反对
105
78
183
合计
150
120
270
根据这个列联表计算的赞成上网收费的行百分比分别为( )。
A.51.7%和 48.3%
B.57.4%和 42.6%
C.30%和 70%
D.35%和 65%

贾俊平《统计学》第五版第14章 指数

贾俊平《统计学》第五版第14章 指数
商品 彩电 蔬菜 计量单位 台 公斤 P0 8000 1 P1 4000 2
Ip
p p
0
1
4002 Biblioteka 50% 8001简单指数2.简单平均指数 将个体指数进行简单平均得到的总 指数。
Ip

p0 p1
n
Iq
q0 q 1
n
简单平均指数的计算
• 采用简单平均的方法计算价格指数。
商品 计量单位 P0 P1
彩电
蔬菜

公斤
8000
1
4000
2
Ip
p0 p 1
n
4000 2 8000 1 = =1.25=125% 2
加权指数
权数的确定(要点)
1. 根据现象之间的联系确定权数
计算数量指数时,应以相应的质量为权数 计算质量指数时,应以相应的物量为权数
2. 确定权数的所属时期
报告期总量加权的平均指数
(要点和计算公式)
1. 以报告期总量为权数对个体指数加权平均
2. 计算形式上采用调和平均形式
3. 计算公式为
质量指数:p1 0
pq p
1 p0
1
1 1
p1 q1

数量指数:q1 0
pq
1 1
1 q q p1q1 1 0
报告期总量加权的平均指数
(实例)
商品名称 粳 米 标准粉 花生油 计量 单位 公斤 公斤 公斤
销售量
1998 1200 1500 500 1999 1500 2000 600 3.6 2.3 9.8
单价(元)
1998 1999 4.0 2.4 10.6
拉氏指数(计算过程)

统计学第五版课后答案(贾俊平)

统计学第五版课后答案(贾俊平)

第四章统计数据的概括性度量4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:2 4 7 10 10 10 12 12 14 15要求:(1)计算汽车销售量的众数、中位数和平均数。

(2)根据定义公式计算四分位数。

(3)计算销售量的标准差。

(4)说明汽车销售量分布的特征。

解:Statistics10Missing 0Mean 9.60Median 10.00Mode 10Std. Deviation 4.169Percentiles 25 6.2550 10.0075单位:周岁19 15 29 25 2423 21 38 22 1830 20 19 19 1623 27 22 34 2441 20 31 17 23要求;(1)计算众数、中位数:排序形成单变量分值的频数分布和累计频数分布:网络用户的年龄(2)根据定义公式计算四分位数。

Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.75×2=26.5。

(3)计算平均数和标准差;Mean=24.00;Std. Deviation=6.652(4)计算偏态系数和峰态系数:Skewness=1.080;Kurtosis=0.773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。

如需看清楚分布形态,需要进行分组。

1、确定组数:()lg 25lg() 1.398111 5.64lg(2)lg 20.30103n K =+=+=+=,取k=62、确定组距:组距=( 最大值 - 最小值)÷ 组数=(41-15)÷6=4.3,取53、分组频数表网络用户的年龄 (Binned)分组后的直方图:客都进入一个等待队列:另—种是顾客在三千业务窗口处列队3排等待。

最新统计学(第五版)贾俊平-课后思考题和练习题答案(完整版)

最新统计学(第五版)贾俊平-课后思考题和练习题答案(完整版)
电话式;优点:1速度快2对调查员比较安全3对访问过程的控制比较容易。缺点:1实施地区有限2调查时间不能过长3使用的问卷要简单4被访者不愿回答时,不易劝服。
2.5
老师说这个内容不讲,应该不会考实验数据的
2.6如何控制调查中的回答误差
对于理解误差,我会去学习一定的心理学知识,对于记忆误差,我会尽量去缩短所涉及的时间范围,对于有意识的误差,我要做好被调查者的心理工作,要遵守职业道德,为被调查者保密,尽量在问卷中不涉及敏感问题。
统计数据;按统计数据都收集方法分;
观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。
实验数据:在实验中控制实验对象而收集到的数据。
统计数据;按被描述的现象与实践的关系分;
截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。
时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。
3.5绘制线图应注意问题
时间在横轴,观测值绘在纵轴。一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。
3.6饼图和环形图的不同
饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。
自填式;优点:1调查组织者管理容易2成本低,可进行大规模调查3对被调查者,可选择方便时间答卷,减少回答敏感问题压力。缺点:1返回率低2不适合结构复杂的问卷,调查内容有限3调查周期长4在数据搜集过程中遇见问题不能及时调整。
面访式;优点:1回答率高2数据质量高3在调查过程中遇见问题可以及时调整。缺点:1成本比较高2搜集数据的方式对调查过程的质量控制有一定难度3对于敏感问题,被访者会有压力。

统计学第五版(贾俊平)课后习题答案

统计学第五版(贾俊平)课后习题答案

统计学第五版(贾俊平)课后题答案第4章 数据的归纳性气宇(1)众数:100=M 。

中位数:5.5211021=+=+=n 中位数位置,1021010=+=e M 。

平均数:6.91096101514421==++++==∑= nxx ni i。

(2)5.24104===n Q L 位置 ,5.5274=+=LQ 。

5.7410343=⨯==n Q U 位置,1221212=+=U Q 。

(3)2.494.156110)6.915()6.914()6.94()6.92(1)(222212==--+-++-+-=--=∑= n x xs ni i(4)由于平均数小于中位数和众数,所以汽车销售量为左偏散布。

(1)从表中数据能够看出,年龄出现频数最多的是19和23,所以有两个众数,即190=M 和230=M 。

将原始数据排序后,计算的中位数的位置为:13212521=+=+=n 中位数位置,第13个位置上的数值为23,所以中位数23=e M 。

(2)25.64254===n Q L 位置,19)1919(25.019=-⨯+=L Q 。

75.184253=⨯=位置U Q ,56.252-7257.052=⨯+=)(U Q 。

(3)平均数242560025231715191==++++==∑= n xx ni i。

65.61251062125)2423()2417()2415()2419(1)(222212=-=--+-++-+-=--=∑= n x xs ni i(4)偏态系数:()08.165.6)225)(125(242533=⨯---=∑i x SK 。

峰态系数:[]77.065.6)325)(225)(125()125()24(3)24()125(254224=⨯-------+=∑∑i i x x K 。

(5)分析:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。

由于标准差较大,说明网民年龄之间有较大不同。

统计学第五版(贾俊平)课后思考题答案(完整版)

统计学第五版(贾俊平)课后思考题答案(完整版)

统计学课后思考题答案第一章思考题1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。

它也是有类别的,但这些类别是有序的。

(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。

统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。

实验数据:在实验中控制实验对象而收集到的数据。

统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。

时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。

1.5举例说明总体,样本,参数,统计量,变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。

1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。

变量也可以分为随机变量和非随机变量。

经验变量和理论变量。

1.7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。

第二章思考题2.1什么是二手资料?使用二手资料应注意什么问题与研究内容有关,由别人调查和试验而来已经存在,并会被我们利用的资料为“二手资料”。

使用时要进行评估,要考虑到资料的原始收集人,收集目的,收集途径,收集时间使用时要注明数据来源。

2.2比较概率抽样和非概率抽样的特点,指出各自适用情况概率抽样:抽样时按一定的概率以随机原则抽取样本。

统计学(贾俊平)第五版课后习题答案(完整版)

统计学(贾俊平)第五版课后习题答案(完整版)

统计学(第五版)贾俊平课后习题答案(完整版)第一章思考题1.1什么是统计学统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。

1.2解释描述统计和推断统计描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。

推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。

1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。

它也是有类别的,但这些类别是有序的。

(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。

统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。

实验数据:在实验中控制实验对象而收集到的数据。

统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。

时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。

1.4解释分类数据,顺序数据和数值型数据答案同1.31.5举例说明总体,样本,参数,统计量,变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。

1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。

变量也可以分为随机变量和非随机变量。

经验变量和理论变量。

1.7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。

(NEW)贾俊平《统计学》(第5版)笔记和课后习题(含考研真题)详解

(NEW)贾俊平《统计学》(第5版)笔记和课后习题(含考研真题)详解

目 录第1章 导 论1.1 复习笔记1.2 课后习题详解1.3 典型习题详解第2章 数据的搜集2.1 复习笔记2.2 课后习题详解2.3 典型习题详解第3章 数据的图表展示3.1 复习笔记3.2 课后习题详解3.3 典型习题详解第4章 数据的概括性度量4.1 复习笔记4.2 课后习题详解4.3 典型习题详解第5章 概率与概率分布5.1 复习笔记5.2 课后习题详解5.3 典型习题详解第6章 统计量及其抽样分布6.1 复习笔记6.2 课后习题详解6.3 典型习题详解第7章 参数估计7.1 复习笔记7.2 课后习题详解7.3 典型习题详解第8章 假设检验8.1 复习笔记8.2 课后习题详解8.3 典型习题详解第9章 分类数据分析9.1 复习笔记9.2 课后习题详解9.3 典型习题详解第10章 方差分析10.1 复习笔记10.2 课后习题详解10.3 典型习题详解第11章 一元线性回归11.1 复习笔记11.2 课后习题详解11.3 典型习题详解第12章 多元线性回归12.1 复习笔记12.2 课后习题详解12.3 典型习题详解第13章 时间序列分析和预测13.1 复习笔记13.2 课后习题详解13.3 典型习题详解第14章 指 数14.1 复习笔记14.2 课后习题详解14.3 典型习题详解第1章 导 论1.1 复习笔记一、统计学1统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。

数据收集也就是取得统计数据;数据处理是将数据用图表等形式展示出来;数据分析则是选择适当的统计方法研究数据,并从数据中提取有用信息进而得出结论。

2.数据分析所用的方法(1)描述统计:研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法;(2)推断统计:研究如何利用样本数据来推断总体特征的统计方法。

二、统计数据的类型1分类数据、顺序数据、数值型数据(按计量尺度不同分类)(1)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的;(2)顺序数据:只能归于某一有序类别的非数字型数据。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
STATISTICS (第五版)
c 统计量
1. 用于检验分类变量拟合优度 2. 计算公式为
c 2
( fo fe)2 fe
9 -8
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
c 统计量
分布与自由度的关系
9 -9
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
1. 品质相关
对品质数据(分类和顺序数据)之间相关程 度的测度
2. 列联表变量的相关属于品质相关
3. 列联表相关测量的统计量主要有
相关系数
列联相关系数 V 相关系数
9 - 20
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
相关系数
(correlation coefficient)
统计学
STATISTICS (第五版)
第 9 章 分类数据分析
9 -1
作者:中国人民大学统计学院 贾俊平
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
第 9 章 分类数据分析
9.1 分类数据与c2统计量 9.2 拟合优度 检验 9.3 列联分析:独立性检验 9.4 列联分析中应注意的问题
独立性检验
(例题分析)
9 - 18
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
9.4 列联表中的相关测量
9.4.1 相关系数
9.4.2 列联相关系数 9.4.3 V 相关系数
9 - 19
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
列联表中的相关测量
合,所以称为列联表
6. 一个 r 行 c 列的列联表称为 r c 列联表
9 - 15
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
列联表的结构
(r c 列联表的一般表示)
列(cj)
行(ri)
j =1
i =1
f11
i=2
f21
:
:
列(cj) j =2
f12 f22
:
合计
9.2 拟合优度检验
9 - 10
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
拟合优度检验
(例题分析)
【例】1912年4月15日,豪华巨轮泰坦尼
克号与冰山相撞沉没。当时船上共有共 2208人,其中男性1738人,女性470人。 海 难 发 生 后 , 幸 存 者 为 718 人 , 其 中 男 性 374人,女性344人,以的显著性水平检验 存活状况与性别是否有关。 ( 0.05)
统计学
STATISTICS
9.3 列联分析:独立性检验
(第五版)
9.3.1 列联表 9.3.2 独立性检验
9 - 14
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
列联表
(contingency table)
1. 由两个以上的变量交叉分类的频数分布表
2. 行变量的类别用 r 表示, ri 表示第 i 个类别 3. 列变量的类别用 c 表示, cj 表示第 j 个类别 4. 每种组合的观察频数用 fij 表示 5. 表中列出了行变量和列变量的所有可能的组
9.1.1 分,中国人民大学统计学院
统计学
STATISTICS (第五版)
分类数据
9 -5
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
分类数据
1. 分类变量的结果表现为类别
例如:性别 (男, 女)
2. 各类别用符号或数字代码来测度
c1
c2
fij 表示第 i 行第 j 列的观察频数
9 - 16
合计 …

r1

r2
:
:

n
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
独立性检验
(例题分析)
【例】一种原料来自三个不同的地区,原料质量被分成三个不 同等级。从这批原料中随机抽取500件进行检验,结果如表9-3 所示,要求检验各个地区和原料质量之间是否存在依赖关系?
( 0.05)
解:H0:地区和原料等级之间是独立的(不存在依赖关系) H1:地区和原料等级之间不独立 (存在依赖关系)
c 0.05(4)=9.488故拒绝H0,接受H1 ,即地区和原 料等级之间存在依赖关系,原料的质量受地区的影响
9 - 17
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
9 -2
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
学习目标
1. 理解分类数据与c2 统计量
2. 掌握拟合优度检验及其应用 3. 掌握独立性检验及其应用 4. 掌握测度列联表中的相关性
9 -3
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
9.1 分类数据与列联表
9 - 11
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
拟合优度检验
(例题分析)
解:要回答观察频数与期望频数是否一致,检验 如下假设:
H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致
9 - 12
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
1. 测度22列联表中数据相关程度
2. 对于22 列联表, 系数的值在0~1之间 3. 相关系数计算公式为
c2
n
式中:c 2
r
c (fij
eij)2
i1j1 e
ij
n为实际频数的总个数,即样本容量
9 - 21
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
相关系数
拟合优度检验
(例题分析)
自由度的计算为df=R-1,R为分类变量类型的 个数。在本例中,分类变量是性别,有男 女 两 个 类 别 , 故 R=2 , 于 是 自 由 度 df=2-
1=1,经查分布表, c(0.1)(1)=2.706,故
拒绝H0,说明存活状况与性别显著相关
9 - 13
作者:贾俊平,中国人民大学统计学院
3. 使用分类或顺序尺度
你吸烟吗?
1.是;2.否
你赞成还是反对这一改革方案?
1.赞成;2.反对
4. 对分类数据的描述和分析通常使用列联表
5. 可使用c检验
9 -6
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第五版)
c 统计量
9 -7
作者:贾俊平,中国人民大学统计学院
统计学
相关文档
最新文档