人大版-贾俊平-第五版-统计学-第9章-分类数据分析PPT课件

合集下载

贾俊平统计学ppt正式完整版

假设检验
假设检验的基本思想
单样本t检验
阐述假设检验的原理、步骤和类型，包括原假设和备择假设的设立、检验统计量的选择等。
介绍单样本t检验的原理、方法和应用场景，包括检验步骤、p值的计算和解释等。
双样本t检验
方差分析
阐述双样本t检验的原理、方法和应用场景，包括独立双样本t检验和配对双样本t检验的区别和联系。
要点三
其他综合评价方法的比较
除了上述方法外，还有如层次分析法、模糊综合评价法等多种综合评价方法。这些方法在原理、适用范围和优缺点等方面各有不同，需要根据具体问题和需求进行选择和使用。
THANKS
感谢观看
数据分析流程
明确分析目的、收集数据、数据预处理、数据分析、结果呈现。
统计软件简介
常用统计软件
01
SPSS、SAS、Stata、Excel等。
软件选择原则
02
根据分析目的、数据类型和统计分析方法选择合适的统计软件。
软件使用技巧
03
熟练掌握软件的基本操作，了解常用命令和函数，注意数据的
导入和导出格式。
08
统计指数与综合评价
Chapter
统计指数的编制原理与方法
统计指数的概念
统计指数是用于反映复杂现象总体数量上的变动，分析现象总体变动中受各个因素变动影响的程度。
统计指数的编制原理
统计指数编制的基本原理是综合比较法和平均法。通过选定同度量因素，对不能直接相加的现象进行过渡性综合，以得到总量指标，再通过对比分析揭示现象之间的数量差异和程度。
几种常见的综合评价方法比较
要点一
主成分分析法与因子分析法的比较
主成分分析法通过降维技术将多个指标转化为少数几个综合指标，而因子分析法则是通过寻找公共因子来解释原始变量之间的相关关系。两种方法在原理和目的上有所不同，但都可以用于综合评价。

贾俊平《统计学》配套题库【课后习题】详解第9章~第10章【圣才出品】

第9章分类数据分析一、思考题1．简述列联表的构造与列联表的分布。

答：列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看，一个是观察值的分布，又称为条件分布，每个具体的观察值就是条件频数；一个是期望值的分布。

2．用一张报纸、一份杂志或你周围的例子构造一个列联表，说明这个调查中两个分类变量的关系，并提出进行检验的问题。

答：对三个生产厂甲、乙、丙提供的学习机的A、B、C 三种性能进行质量检验，欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品，整理成为如表9-2所示的3×3列联表。

表9-2A B C 总计甲乙丙204015459065357070100200150总计75200175450根据抽查检验的数据表明：次品类型与厂家（即哪一个厂）生产是无关的（即是相互独立的）。

建立假设：H 0：次品类型与厂家生产是独立的，H 1：次品类型与厂家生产不是独立的。

次品类型生产厂可以计算各组的期望值，如表9-3所示（表中括号内的数值为期望值）。

表9-3各组的期望值计算表A B C 总计甲乙丙20（17）40（33）15（25）45（44）90（89）65（67）35（39）70（78）70（58）100200150总计75200175450所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于（R －1）（C －1）=（3－1）×（3－1）=4，若以0.01的显著性水平进行检验，查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=，故接受原假设H 0，即次品类型与厂家生产是独立的。

3．说明计算2χ统计量的步骤。

答：计算2χ统计量的步骤：（1）用观察值o f 减去期望值e f ；（2）将（o f －e f ）之差平方；（3）将平方结果2)(e o f f -除以e f ；（4）将步骤（3）的结果加总，即得：22()o e ef f f χ-=∑。

统计学九章PowerPoint 演示文稿

F ( n ,m )
F
案例
5· 应用一元回归模型进行区间估计给定x0，y0的置信度（1-α）的置信区间为： n≥30时特定值估计 n＜30时
ˆ y0 y Z Sxy
2
(a bx0 ) Z Sxy
2
ˆ y0 y t
1 ( x0 x ) 2 Sxy 1 2 ( n2) n ( x x ) 2
第九章相关与回归
相关和回归分析是研究事物的相互关系，测定它们联系的紧密程度，揭示其变化的具体形式和规律性的统计方法，是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。
主要内容
相关分析回归分析
第一节相关关系的概念和种类相关分析
概念160页
种类162页
种类
正相关负相关
y na b x xy a x b x
2
b
n xy x y n x ( x)
2 2
y x a b n n
参见书169页例9-2
练习172页四
回归系数b表明自变量x每变化一个单位因变量y的增（减）量。 •b与r的关系： r＞0 r＜ 0 r=0
Y的数学期望E（Y）随机误差
总体多元线性回归模型的一般形式
案例
表明自变量 x1、x2 , 共同变动引起的Y 的平均变动。也称总体的二元线性回归方差。常数项， x1 x2和Y构成的平面与Y轴的截距 0
E（Y）＝ 0＋1 x1＋ 2 x2 ,
1
偏回归系数，表示在 x2 固定时 x1每变化一个单位引起的 Y的平均变动；
平均值估计
1 ( x0 x ) 2 (a bx0 ) t Sxy 1 2 ( n2) n ( x x ) 2

统计学完整(贾俊平)人大课件ppt课件

agriculture (农业) anthropology (人类学) auditing (审计学)
crystallography (晶体学)
demography (人口统计学)
dentistry (牙医学)
ecology (生态学)
econometrics (经济计量学)
education (教育学)
geology (地质学)
historical research (历史研究) human genetics (人类遗传学)
1 - 11
经济、管理类基础课程
统计学
应用统计的领域(续)
hydrology (水文学)
Industry (工业)
linguistics (语言学)
literature (文学)
2. 数据整理：例如，分组
3. 数据展示：例如，图和表
4. 数据分析：例如，回归分析
1 -7
经济、管理类基础课程
统计学
Statistics的定义 (不列颠百科全书)
Statistics: the science of collecting, analyzing, presenting, and interpreting data.
经济、管理类基础课程
统计学
统计学
1 -1
作者：中国人民大学统计系
贾俊平
经济、管理类基础课程
统计学
第一章绪论
1 -2
经济、管理类基础课程
统计学
第一章绪论
第一节统计与统计学第二节统计学的分科第三节统计学与其他学科的关系第四节统计学的产生与发展
1 -3
经济、管理类基础课程

贾俊平《统计学》(第5版)课后习题-第9章分类数据分析【圣才出品】

第9章　分类数据分析一、思考题1．简述列联表的构造与列联表的分布。

答：列联表是由两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看，一个是观察值的分布，又称为条件分布，每个具体的观察值就是条件频数；一个是期望值的分布。

2．用一张报纸、一份杂志或你周围的例子构造一个列联表，说明这个调查中两个分类变量的关系，并提出进行检验的问题。

答：对三个生产厂甲、乙、丙提供的学习机的A、B、C三种性能进行质量检验，欲了解生产厂家同学习机性能的质量差异是否有关系。

抽查了450部学习机次品，整理成为如表9-2所示的3×3列联表。

表9-2根据抽查检验的数据表明：次品类型与厂家（即哪一个厂）生产是无关的（即是相互独立的）。

建立假设：H0：次品类型与厂家生产是独立的，H1：次品类型与厂家生产不是独立的。

可以计算各组的期望值，如表9-3所示（表中括号内的数值为期望值）。

表9-3 各组的期望值计算表所以2222(2017)(4033)(7058)9.821173358χ---=+++=…。

而自由度等于（R －1）（C －1）=（3－1）×（3－1）=4，若以0.01的显著性水平进行检验，查χ2分布表得20.01(4)13.277χ=。

由于220.019.821(4)13.277χχ=<=，故接受原假设H 0，即次品类型与厂家生产是独立的。

3．说明计算2χ统计量的步骤。

4．简述ϕ系数、c 系数、V 系数的各自特点。

答：（1）ϕ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。

它的计算公式为：ϕ，式中，∑-=ee of f f 22)(χ；n 为列联表中的总频数，也即样本量。

统计学课件贾俊平人大课件

非参数统计方法的意义
不依赖于总体分布的具体形式，对数据的分布要求较少，因此具有更广泛的适用性。
非参数统计方法的特点
基于秩次或符号等信息进行统计推断，对异常值或离群值不敏感，具有较好的稳健性。
非参数统计方法的应用场景
适用于总体分布未知或不服从特定分布的情况，如等级数据、顺序数据等。
单样本非参数检验
假设检验的基本原理
1 2
假设检验的基本思想
了解假设检验的基本原理和步骤，包括提出假设、构造统计量、确定拒绝域和作出决策等。
两类错误与显著性水平
理解两类错误的概念和关系，了解显著性水平的意义和作用。
3
单侧检验与双侧检验
掌握单侧检验和双侧检验的区别和应用场景，能够根据实际情况选择合适的检验方法。
散点图
展示两个变量之间的关系，用点的位置表示各数据项的数值。
折线图
展示数据随时间或其他因素的变化趋势，用线段连接各数据点。
饼图
展示各类别数据的占比情况，用扇形的面积表示各类别的比例。
05
概率论基础与抽样分布
概率论的基本概念
事件与概率
01
了解随机事件的定义，掌握概率的基本性质和运算法则。
条件概率与独立性
变量和指标
变量是描述现象特征的属性，指标是反映现象数量特征的概
念和数值。
概率和随机性
概率是某一事件发生的可能性，随机性是指事件发生的不确
定性。
统计量和抽样分布
统计量是样本的函数，抽样分布是统计量的概率分布。
统计学的应用领域
01
社会经济领域
如人口普查、经济调查、市场分析等。
工程技术领域
如质量控制、可靠性分析、设计优化等。

2024版统计学完整(贾俊平)人大课件ppt课件

统计学完整(贾俊平)人大课件ppt课件•引言•数据收集与整理•描述性统计分析目录•概率论基础•推断性统计分析•方差分析与回归分析•时间序列分析与预测•统计决策与风险管理目录•总结与展望01引言统计学是一门研究如何收集、整理、分析和解释数据的科学。

统计学的定义统计学的历史统计学的分支统计学的发展经历了古典统计学、近代统计学和现代统计学三个阶段。

统计学可以分为描述统计学和推断统计学两大分支。

030201统计学概述社会科学医学与健康工程与技术商业与经济统计学应用领域01020304在社会科学领域，统计学被广泛应用于调查研究、民意测验、市场分析等方面。

在医学和健康领域，统计学被用于临床试验、流行病学研究、健康风险评估等方面。

在工程和技术领域，统计学被用于质量控制、可靠性分析、信号处理等方面。

在商业和经济领域，统计学被用于市场分析、财务分析、经济预测等方面。

通过学习，学生应掌握统计学的基本概念和方法，包括数据收集、整理、描述和分析等方面的内容。

掌握统计学基本概念和方法具备数据处理和分析能力了解统计学的应用领域培养批判性思维学生应具备独立处理和分析数据的能力，能够运用适当的统计方法进行数据分析和解释。

学生应了解统计学的应用领域，能够运用所学知识解决实际问题。

学生应培养批判性思维，能够对统计结果进行合理的解释和评估。

学习目标与要求02数据收集与整理数据来源及类型数据来源包括原始数据和二手数据，原始数据是通过直接调查、实验或观察获得的数据；二手数据则是已经经过他人收集、整理和处理过的数据。

数据类型包括定性数据和定量数据，定性数据是描述性的、非数值的，如文字、图像等；定量数据则是可以用数值表示的，如年龄、收入等。

此外，还可以根据数据的测量尺度将其分为名义型数据、顺序型数据、间隔型数据和比率型数据。

调查法实验法观察法大数据收集数据收集方法通过问卷、访谈、电话调查等方式收集数据，可以获取大量的、详细的信息。

直接观察研究对象的行为、状态等，记录相关数据，适用于无法控制或干预的情况。

统计学_ 贾俊平 -中国人民大学出版社_第五版

3．1 为评价家电行业售后服务的质量，随机抽取了由100个家庭构成的一个样本。

服务质量的等级分别表示为：A．好；B．较好；C一般；D．较差；E.差。

调查结果如下：B EC C AD C B A ED A C B C DE C E EA DBC C A ED C BB ACDE A B D D CC B C ED B C C B CD A C B C DE C E BB EC C AD C B A EB AC E E A BD D CA DBC C A ED C BC B C ED B C C B C要求：(1)指出上面的数据属于什么类型。

顺序数据(2)用Excel制作一张频数分布表。

用数据分析——直方图制作：接收频率E16D17C32B21A14(3)绘制一张条形图，反映评价等级的分布。

用数据分析——直方图制作：(4)绘制评价等级的帕累托图。

逆序排序后，制作累计频数分布表：接收频数频率(%)累计频率(%)C 32 32 32B 21 21 53D 17 17 70E 16 16 86A 14 14 1005101520253035CDBAE204060801001203．2 某行业管理局所属40个企业2002年的产品销售收入数据如下： 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 9788123115119138112146113126要求：(1)根据上面的数据进行适当的分组，编制频数分布表，并计算出累积频数和累积频率。

1、确定组数：()l g 40l g () 1.60206111 6.32l g (2)l g 20.30103n K =+=+=+=，取k=62、确定组距：组距＝( 最大值 - 最小值)÷ 组数=（152-87）÷6=10.83，取10 3(2)按规定，销售收入在125万元以上为先进企业，115～125万元为良好企业，105～115 万元为一般企业，105万元以下为落后企业，按先进企业、良好企业、一般企业、落后企业进行分组。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

人，110人
2. 条件分布与条件频数
– 变量 X 条件下变量 Y 的分布，或在变量 Y 条件下变量 X 的分布
– 每个具体的观察值称为条件频数
-
15
条件频数
行边缘分布
一分公司二分公司三分公司四分公司合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计 100 120
n
12
列联表的结构
（r c 列联表的一般表示）
列(cj) 行(ri)
i =1
i=2
:
r 行 c 列的列联表
列(cj)
j =1 j = 2
…
f11
f12
…
f21
f22
…
:
:
:
合计
r1 r2
:
合计
c1
c2
…
n
fij 表示第 i 行第 j 列的观察频数
-
13
【例】一个集团公司在四个不同的地区设有分公司，现该集团公司欲进行一项改革，此项改革可能涉及到各分公司的利益，故采用抽样调查方式，从四个分公司共抽取420个样本单位(人)，了解职工对此项改革的看法，调查结果如下表
所以称为列联表 6. 一个 r 行 c 列的列联表称为 r c 列联表
-
11
列联表的结构
（2 2 列联表）
一个2 2 列联表
列(cj) 行 (ri)
i =1
i =2 合计
列( cj )
j =1
j =1
f11 f21 f11+ f21
f12 f22 f12+ f22
-
合计
f11+ f12 f21+ f22
反对该方案 22.7% 31.9% 23.4% 22.0% 33.6%
32.0% 37.5% 36.7% 28.2% —
合计
7.6% 10.7% 7.9% 7.4% — 23.8% 28.6% 21.4% 26.2% 100%
-
18
1. 假定行变量和列变量是独立的 2. 一个实际频数 fij 的期望频数 eij ，是总频
2 =
f0
fe fe
2
，描述
f0
与
fe
的接近程度。越
接近， 2 值越小；差异越大， 2 值越大。给
定显著性水平时，将 2 值与临界值比较，做
出是否拒绝原假设的决策。
-
3
9.2 拟合优度检验
依据总体分布状况，计算出分类变量中各类别的期望频数，与分布的观察频数进行对比，判断期望频数与观察频数是否有显著差异。
-
8
如果该项统计可靠，400居民中老年人的频数应该为400*14.7%=59
H0：观察频数与期望频数一致 H1：观察频数与期望频数不一致
观测值 f 0
老年人
57
非老年人
343
期望值 f e
59 341
f0 fe
-2 2
f0 fe 2
4 4
f 0 f e 2
fe
0.0678
0.0117
2= f0fe2 0.0795
– 总百分比：每一个观察值除以观察值的总个数（ fij / n ）
-
17
行百分比
列百分比
总百分比
一分公司二分公司三分公司四分公司合计
赞成该方案 24.4% 26.9% 20.4% 28.3% 66.4%
68.0% 62.5% 63.35 71.8% —
16.2% 17.8% 13.6% 18.8% —
第9章分类数据分析
-
1
9.1 分类数据与卡方统计量
9.1.1 分类数据调查结果虽然用数值表示，但不同数值描述的是调查对象的不同特征。分类数据汇总的结果表现为频数。卡方检验是对分类数据的频数进行分析的统计方法。
-
2
9.1.2 卡方统计量
用于检验列联表中变量之间是否存在显
著性差异，或者用于检验变量之间是否独立。
fe
-
9
自由度为：分类变量类型的个数－1＝1
5.024
2 0.0795
α=0.05 拒绝域
2
决策：接受H0 结论：调查结果支持该项统计结论
-
10
9.3 列联分析：独立性分析
9.3.1 列联表
1.由两个以上的变量进行交叉分类的频数分布表 2. 行变量的类别用 r 表示， ri 表示第 i 个类别 3. 列变量的类别用 c 表示， cj 表示第 j 个类别 4. 每种组合的观察频数用 fij 表示 5.表中列出了行变量和列变量的所有可能的组合，
海难后幸存比例为718/2208=0.325 男性应该为1738*0.325=565人女性应该为470*0.325=153人。
H0：观察频数与期望频数一致
观测值 f 0 期望值
H1：观察频数与期望频数不一致
fe
f0 fe
f0 fe
2
f 0 f e 2
fe
男
374
565
-191
36481
90
110 420
列边缘分布
-
16
1. 条件频数反映了数据的分布，但不适合进行对比
2. 为在相同的基数上进行比较，可以计算相应的百分比，称为百分比分布
– 行百分比：行的每一个观察频数除以相应的行合计数（fij / ri）
– 列百分比：列的每一个观察频数除以相应的列合计数（ fij / cj ）
-
4
1912年4月15日，豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有2208人，其中男性1738人，女性470人。海难发生后，幸存者共718人，其中男性374人，女性344人，以 α=0.1的显著性水平检验存活状况与性别是
否有关。
-
5
如果存活状况与性别无关，男性与女性的幸存比例应该相等。
数的个数 n 乘以该实际频数 fij 落入第 i 行和第j列的概率，即
eij
nri ci ricj n n n
-
19
例如，第1行和第1列的实际频数为 f11 ,它落在第1行的概率估计值为该行的频数之和r1除以总频数的个数 n ，即：r1/n；它落在第1列的概率的估计值为该列的频数之和c1除以总频数的个数 n ，即：c1/n 。根据概率的乘法公式，该频数落在第1行和第1列的概率应为
一分公司二分公司三分公司四分公司合计
赞成该方案 68
75
57
79 279
Байду номын сангаас
反对该方案 32
75
33
31 141
合计 100 120
90
110 420
-
14
1. 边缘分布
– 行边缘分布
• 行观察值的合计数的分布 • 例如，赞成改革方案的共有279人，反对改革方案的141人
– 列边缘分布
• 列观察值的合计数的分布 • 例如，四个分公司接受调查的人数分别为100人，120人，90
64.6
女
344
153
191
36481
238.4
2= f0 fe2 303
f-e
6
自由度为：分类变量类型的个数－1＝1
α=0.1 拒绝域
2.705
2
2 303
决策：拒绝H0 结论：有证据表明存活状况与性别显著相关
-
7
一项统计结果声称，某市老年人口所占比例为14.7%，该市老年人口研究会为了检验该项统计是否可靠，随机抽选了400名居民，发现其中有57人老年人。调查结果是否支持 14.7%的看法？