第二章 单变量统计描述分析
统计第二章单变量统计描述详解
例:调查了200名大学生,内心的苦 恼倾诉对象意愿为:
党团组织41人、家长49人、知心朋友52人、 闷在心里32人、 班团干部15人、随便议论11 人
可见N=200 fmo=52
V= N fmo 200 52 0.74 74%
N
200
众数的代表性很低
注意:众值与众值频数,即MO与fmo的区别。
总数 550
100
2、累加百分率(%)
将各级的百分 率数值逐渐相 加
三、定距层次
以上方法对定距层次的变量都 适用。
但定距层次的变量在使用这些 方法时必须先进行分组,由具 体数字转化为区间。
例:某校学生家庭每月总收入(p41)@
收入(元) f
1500-1899 40
1300-1499 141
1100-1299 158
中位值:由于考虑了变量的顺序和居中位 置,它和总体的频次分布有关。
均值:既考虑到频次,又考虑变量值的大 小,因此最灵敏。
虽然均值对资料的信息利用最充分,但对 严重偏态的分布,会失去它应有的代表性。
3、偏态和三值的关系:
对于对称的图形,众值、中 位值和均值三者位置重叠, 当图形正偏或负偏时,均值 变化最快,中位值次之,众 值不变。
f
17
四、众值、中位值和均值比较
1. 三值设计的共同目的:希望通过一个 数值来描述整体特征,以便简化资料。 三者均反映了变量的集中趋势。
众值:适用于定类、定序和定距变量 中位值:适用于定序和定距变量 均值:适用于定距变量
2、众值 中位值 均值
众值:仅使用了资料中最大频次这一信息, 因此,资料使用是不完全的。
例:某地总人口中有28600 名男性和23500名女性
单变量的统计描述分析社会统计学
特点 概率密度函数关于均值对称。
偏态分布的概念与特点
概念:偏态分布是指概率密 度函数不对称于均值的情况。
特点
01
分布曲线可能有一个或多个
峰值。
02
03
分布曲线可能偏向均值的一 侧或两侧。
04
05
分布的离散程度可能大于正 态分布。
正态性与偏态性的判断与检验
判断方法
可以通过观察数据的直方图或Q-Q 图来判断数据的分布形态。正态分布 的直方图应该呈现钟形,而偏态分布 的直方图则可能呈现其他形状。
如果四分位距较大,说明数据分布较为分散,存在较大的异 常值;如果四分位距较小,说明数据分布较为集中,异常值 的影响较小。
06 正态分布与偏态分布
正态分布的概念与特点
概念:正态分布是一种连续概率分布, 其概率密度函数以均值为中心,呈钟形 对称。
曲线下的面积为1,代表所有可能结果的 概率总和。
分布曲线是单峰的,即只有一个峰值。
直方图是一种用直条矩形面积代表各组频数,各矩形面积总和代表频数的累积,以 扇形面积代表各组出现的频率的统计图。
直方图可以直观地展示数据的分布情况,帮助我们了解数据的离散程度和集中趋势。
在制作直方图时,需要选择合适的分组方法和组距,并根据数据的特征和需求进行 合理的调整。
饼图与环形图
• 饼图是一种圆形图表,用于表示各部分在总体中所 占的比例。
03
中位数主要用于描述偏态分布的数据,对于异常值不敏感。
众数
01
众数是数据中出现次数最多的数值。
02
对于未分组的数据,众数是一组数据中出现次数最多的数值;
对于分组数据,众数是某一组别的频数最高。
众数主要用于描述分类数据的集中趋势,不适用于连续型数据。
统计学课件第2章单变量统计描述分析
04 数据分布形态的 描述
直方图与箱线图
直方图
通过直条矩形面积表示频数,直观展示数据分布情况,便于比较两组数据的分布是否一 致。
箱线图
通过箱体、中位数、四分位数等指标,展示数据的集中趋势和离散程度,便于识别异常 值。
数据的离散程度:方差与标准差
方差
表示数据离散程度的度量,即各数值与 其平均数差的平方的平均数。方差越大 ,数据波动越大。
反映数据集中趋势的统计量
详细描述
均值是一组数据之和除以数据的个数,用于表示数据集的中心倾向。它可以帮 助我们了解数据的平均水平。
中位数
总结词
反映数据中位数的统计量
详细描述
中位数是一组数据按大小排列后处于中间位置的数值。当数据量是奇数时,中位 数就是中间那个数;当数据量是偶数时,中位数是中间两个数的平均值。中位数 可以用来衡量数据的对称性。
案例二:股票市场数据统计描述分析
总结词
股票市场数据是单变量统计描述分析的重要应用之一, 通过对股票价格、成交量等指标的分析,可以了解市场 的走势和投资者的行为特征。
详细描述
股票市场数据包含了大量的交易信息,如股票价格、成 交量、换手率等。通过计算这些指标的均值、标准差、 偏度、峰度等统计量,可以分析市场的走势和波动情况 ,预测未来的趋势。此外,还可以通过分析投资者行为 特征,了解市场的参与情况和投资者的心理预期。
THANKS
感谢观看
统计学课件第2章单变量统 计描述分析
目录
• 引言 • 单变量统计描述分析基础 • 描述性统计量 • 数据分布形态的描述 • 数据特征的度量 • 实际应用案例分析
01 引言
课程背景
01
统计学是数据分析的重要工具, 广泛应用于各个领域。
统计学课件 第2章 单变量统计描述分析
1.47
1.37
1.50
1.43
1.40
表2-5
步骤1:收集数据,写成数据表。 步骤2:找出数据中最大值L,最小值 S。 步骤3:根据表2-4取合适的分组数。 此处K=10。 步骤4:计算组距h = (L-S) ÷K。结 果比原始数据多精确小数点后一位。
步骤5:根据组距h和分点精度比原统 计数据高一位的原则,将数据分组。 步骤6:计算各组的中心值bi。 bi = (第 i组真实下界值+第i组真实上界值) ÷2 步骤7:作频次分布表。
问题:真实组距是否违反变量值必须互斥 的原则? 注意:只有定距变量的统计表存在分组问 题! 规定:组限重迭的组距式分组——各组不 包括它的上限
例:
1.43 1.39 1.40 1.38 1.43 1.39 1.43 1.36 1.44 1.38 1.35 1.41
100个同龄儿童的身高统计(单位:米)
尺度由低级到高级分为四个层次定类尺度nominallevel定序尺度ordinallevel定距尺度intervallevel定比尺度ratiolevel按照对事物计量的精确程度可将所采用的计量一定类尺度列名尺度按照事物的某种属性对其进行平行的分类或分组
第二章 单变量统计描述分析
第一节 分布 统计表 统计图 第二节 集中趋势测量法 第三节 离散趋势测量法
例:设一统计资料中变量年龄的取值 范围为1~8岁,按2岁一组,写出标明 组界和真实组界。 标明组界:根据分组要求得到的分组 点,其精度与原始数据相同,前后分 组点不连续。 真实组界:将标明组界的精度提高一 位,使前后分组点连续。
标明组界 1~2 3~4 5~6 7~8
真实组界 0.5 ~ 2.5 2.5 ~ 4.5 4.5 ~ 6.5 6.5 ~ 8.5
计算机应用技术:SAS数据管理、单变量描述性统计分析、t检验
1第2章SAS 数据管理2.1 录入数据与创建SAS 数据集EXCEL , WORD 等都有数据录入功能,而SAS 系统下建立数据文件或直接产生数据集,可以免去不同系统间的转换。
21)用PGM 窗口录入数据、创建SAS 数据集设一个资料包含m 个变量、n 个观测,将每一个观测的m个数据录在PGM 窗口的同一行上,同一行上各数据间留一个或一个以上的空格。
于是排成一个n 行m 列的数据方阵,用save 或save as 将数据以一个文件名的方式存在指定的硬盘或软盘上,就建立了一个数据文件(.sas 扩展名)。
如录入:(5个变量、2个观测)alice f 1356.584 becka f 1365.398;3 注意:数据文件需要通过编写和发送一段SAS 引导程序才能将其转变成SAS 数据集,只有SAS 数据集,才能方便地被SAS 中的非编程模块所调用。
因此,加引导程序,变成如下:4单击[submit],创建数据集work.pgm ,然后可以被非编程模块调用,进行各种统计分析。
当数据量少时,直接将数据与程序语句写在一起,发送后,就可直接获得计算结果。
562)用viewtable 创建SAS 数据集进入tools, 进入table editor,直接录入数据,然后save 或save as :7 这样就建立了数据集,可被非编程模块调用。
83)用SAS/ASSIST 创建SAS 数据集 solutions →assist →data management →create data →interactively →enter datain tabular form9在Table 后,选SAS 数据集名10Lable 标签,format 输入输出格式,可不输入11录入完后,单击close ,显示窗口:1213录入数据(Insert),一行输入完后,回车,录入下一个记录:14录入结束,单击close ,将录入信息存盘,创建数据集,并退出数据输入状态。
第二章单变量的统计描述分析社会统计学
表2-5 某车间50名工人日加工零件数分组表
按零件数分组
频数(人)
累积频数
105~110
3
3
110~115
5
8
115~120
8
16
120~125
14
30
125~130
10
40
130~135
6
46
135~140
4
50
合计
50
—
50 8
Q25 115
4 8
5 117.81(个)
350 30
合计
组中值(Xi)
频数(Fi)
| Xi- X |
|Xi-X |Fi
107.5
3
15.7
47.1
112.5
5
10.7
53.5
117.5
8
5.7
45.6
122.5
14
0.7
9.8
127.5
10
4.3
43.0
132.5
6
9.3
55.8
137.5
4
14.3
57.2
—
50
—
312
K
M D
i 1
Xi
21
根据分组资料求四分位差
步骤:第一步:计算累加次数(Cf↑)
第二步:求出Q1和Q3位置
其
中Q1N位是置全=N部+个1/案4 数目Q3位置=3(N+1)/4
第三步:参考累加次数分布,决定
Q1和Q3的位置应属于哪一组
第四步:从所属的组中 置和Q3位置的数值
,计算Q1位
卢淑华讲义
社会统计学讲义(卢淑华)第一章社会学研究与统计分析一、社会调查资料的特点(随时掌握)随机性、统计规律性;二、统计学的作用:为社会研究提供数据分析和推论的方法三、统计分析的作用及其前提。
四、统计分析方法的选择1、全面调查和抽样调查的分析方法2、单变量和多变量的统计分析方法五、不同变量层次的比较;定类、定序、定距、定比定义、数学特征、运算特性、涵盖关系、等第二章单变量统计描述分析一、统计图表,熟悉不同层次变量对应的分析图表,不能混淆。
尤其是直方图的意义。
二、标明组限与真实组限的换算,重要。
三、集中趋势测量法1、定义、优缺点、注意事项;2、众值:定义、计算公式、解释、运用,注意事项;3、中位值:定义、计算公式(频数和比例两种公式)、解释、运用,注意事项;4、均值:定义、计算公式(分组与加权)、解释、运用,注意事项;5、众值、中位值和均值的关系及其相互比较,会用众值和中位值估算均值;四、离散趋势测量法1、定义、优缺点、注意事项,与集中趋势的关系;2、异众比例:定义、计算公式、解释、运用,注意事项;3、质异指数:定义、计算公式、解释、运用,注意事项;4、四分位差:定义、计算公式(频数和比例两种公式)、解释、运用,注意事项;要会举一反三,如求十分位差、以及根据数据求其在总体中的位置。
4、方差及标准差:定义、计算公式(分组与加权)、解释、运用,注意事项;第三章概率一、概率:就是指随机现象发生的可能性大小。
随机现象具有不确定性和随机性。
二、概率的性质:1、不可能事件的概率为0;2、必然事件的概率为1;3、随机事件的概率在0-1之间;三、概率的计算方法:1、古典法:计算等概率事件,P=有效样本点数/样本空间数;2、频率法:求随机事件在多次试验后的极限频率。
3、概率是理论值,只有一个,频率是试验值,不同的试验有不同的频率。
四、概率的运算:会画文氏图1、加法公式:两个或多个随机事件的求和概率‘2、乘法公式:两个或多个随机时间共同发生的概率。
第2章:单变量描述分析(下)
累计百分 比c%↑ 2 6 16 56 80 92 100
3、利用分组数据求中位数(只适用于定距变量):
N / 2 Fm 1 Md L h fm 50% c% m 1 Md L h pm
(公式中的N/2应该是有问题的,如果精确点,应该是(N+1)/2)
求中位数。
【解】 (1)计算向上累计频数 (2)找出中位数所在组,为40-49一组; (3)L=40,Fm-1=12,fm=19,h=10 (4)中位数
N / 2 Fm 1 34/2 - 12 Md L h 40 10 42 .6 fm 19
三、均值(Mean)
具体而言,先根据取值情况把这个“中间”个案 找出来,在把它的值作为中位数。 -》将所有个案按取值大小高低排列 -》找出位于中间的那个个案 -》找出这个个案的取值 中位数是把总数(总频数数)分成相等之两半的 那个个案的取值。 如果是条形图,则是两边的频数数之和相等,如 果是直方图,则是两边的面积相等,而不是横轴 的中点。
一、众数(Mode)
众数就是分布中频数或频率最高的变量值。 表1
生源地 华北 中南 华东 频数 350 230 410
东北
西北 西南
101
73 98
Notice
(1)众数是变量的一个取值或者一类,而不是这 个取值所对应的频数或频率。我们说美国非本土 语言的众数是“西班牙语”而非“170万”。 (2)不要求众数的频率超过50%。 (3)众数多用来测量定类变量,当然也可以测量 定序和定距变量。 (4)众数不唯一确定,有的给定数据没有众数, 有的只有一个众数,有的存在好几个众数。
L =中位数所在组之下限; N = 总频数数(样本总数) F m-1 =中位数所在组之下的累计频数(不包括此组); fm = 中位数所在组之频数; h = 中位数所在组之组距; c%↑m-1= 中位数所在组之下的累计频率(不包括此组); Pm=中位数所在组之频率;
知识点归纳总结
社会统计学整理第二章:单变量统计描述分析各种图:定类:圆瓣图、条形图定序:条形图定距:直方图、折线图组界:真实组界=标明组界0.5 条形图:定类变量:长条排列次序任意,条形离散。
定序变量:长条按序排列,条形是离散或紧挨。
直方图:由紧挨着的长条组成,面积表示频次或相对频次,高度是频次密度。
众值:用具有频数最多的变量值来表示集中值。
连续型变量用中心值来表示众值。
定类预测犯错最少。
异众比率:是非众值在总数N中所占的比例(:众值的频次)质异指数:理论上最多可能差异中实际出现了多少差异(k:类比数f:每类次数)中位值:定序预测犯错最少。
(也可以求25%和75%,改为和)n:中位值组的频次cf:含中位值区间的真实下界累积(向上)平次N:调查总数极差:极差=观察的最大值-观察的最小值四分互差:结论:50%位于*间均值:定距变量预测犯错最少。
标准差:第三章:概率互不相容:两者不能同时出现。
互为对立:不同时出现且两者相加为整体。
如果事件A与B互为对立,则必然满足互不相容,但逆定理不存在。
P(A);P(B),互不相容一定不满足互相独立,反之亦然。
互为对立与相互独立不能同时满足。
全概公式:逆概公式:方差:SKEWNESS(偏态)=>0:正偏态=0:对称<0:负偏态(峰在右边)KURTOSIS(峰态)=>0:正峰态=0:正态分布<0:负峰态(峰矮)第四章:二项分布及其他离散型随机变量的分布排列组合:第五章:正态分布、常用统计分布和极限定理大数定理:在什么条件下,随机事件可以转化为不可能事件或必然事件。
中心极限定理:在什么条件下,随机变量之和的分布可以近似为正态分布。
切贝谢夫不等式:贝努利大数定理:m是n次实验中事件A出现的次数,p是A每次出现的概率切贝谢夫大数定理:μ:数学期望:总体均值中心极限定理:只要n足够大,正态分布:众值=均值=中位值1S-68.26%;2S-95.46%;3S-99.37%;0.05-1.65;0.025-1.96;0.01-2.33;0.005-2.58;0.001-3.09;0.0005-3.30第六章:参数估计点估计:均值—样本均值成数—样本成数方差—样本方差S2是σ2的无偏估计,但S不是σ的无偏估计。
第二章单变量统计描述分析(练习题及答案)
第二章单变量统计描述分析(练习题及答案)第二章单变量统计描述分析一、填空1.统计表从内容上看,是由(主词)和宾词两部分构成的。
2.主词是统计表要说明的(对象,);宾词是用来说明主词的(标志和标志值)。
3.变量数列有两个构成要素(变量值)和(频数)。
4.统计表通常有一定格式,统计表各部位的名称分别是(总标题)、横行标题、纵栏标题、(统计数值)。
5.对于连续变量,恰是某一组限的数据应按照(上组限不包括在内)的原则归入相应的组别。
6.统计表按主词的分组情况,可分为简单表、简单分组表和(复合分组表)。
7.统计分组的关键在于(选择分组标志)和划分各组界限。
二、单项选择题1.统计表的数字部分中符号“……”代表的含义是(B)。
A.某项数字不存在B.缺少某项数字C.某项数字较大D.提醒注意核计2.某城市男性青年27岁结婚的人最多,该城市男性青年平均结婚年龄为26.2岁,则该城市男性青年结婚的年龄分布为( B )。
A.正偏B.负偏C.对称D.不能作出结论3.上限与下限之差是(B)。
A.组限B.组距C.组中值D.极差4.小吴为写毕业论文去搜集数据资料,(D)是次级数据。
A.问卷调查上的答案B.班组的原始记录C.车间的台账D.统计局网站上的序列5.为掌握商品销售情况,对占该市商品销售额80%的五个大商场进行调查,这种调查方式属于(B)。
A.抽样调查B.重点调查C.统计报表D.普查6将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为(D)。
A.简单随机抽样B.整群抽样C.分层抽样D.等距抽样7在进行数据分组时,首先考虑的是(D)。
A.分成多少组B.各组差异大小C.分组后计算方便D. 选择什么标志分组8如果统计表中数据的单位都一致,我们可以把单位填写在表格的(A)A.右上角B. 右下角C.左上角D.左下角9. 现有某地区部分住户住房满意调查数据资料,其中包含有性别、文化程度、从业状况、家庭月可支配收入、人均住房面积、住房满意度、计划购买面积等字段。
第二章单变量统计描述分析
第⼆章单变量统计描述分析第⼆章单变量统计描述分析第⼀节单变量统计描述基本技术⼀、变量的计量尺度/层次1、定类变量——最低层次的变量类型。
只有类别属性之分,⽆⼤⼩程度之分。
根据变量值,只能知道研究对象的异同。
从数学运算特性来看,定类变量只有等于或不等于的性质。
2、定序变量——层次⾼于定类变量。
取值除类别属性外,还有等级、次序之分。
数学运算特性除等于或不等于外,还有⼤于或⼩于。
3、定距变量——层次⾼于定序变量。
取值除类别属性、次序之外,取值之间的距离可以⽤标准化的举例度量。
数学运算特性除等于不等于,⼤于⼩于之外,还可以加减。
如收⼊,以1元为标准化距离,则2000元⽐1500元多了500元。
4、定⽐变量——最⾼层次变量。
除了上述三种属性外,可以进⾏乘除运算。
1、社会学研究中,能够满⾜定距⽽不能同时满⾜定⽐要求的变量不多。
如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。
当前社会统计⽅法很少要求达到定⽐层测,所以只介绍前三种层次变量。
2、在社会学研究当中,有些变量的层次是不统⼀可变的,可⽤定序层次也可⽤定距层次,根据研究需要。
⾼层次变量可以降低层次来使⽤。
⼀般来说,测量层次越⾼越好,数学特性就越多,统计分析就越⽅便,能了解资料的程度就越深⼊。
⼆、基本技术1、次数分布(定类)——针对定类变量最基本的统计分析⽅法。
⾯对⼤量的数据资料,⾸先要组织整理,第⼀步就是要采⽤次数分布来简化资料,看某变量的每⼀个值出现的次数是多少。
定类变量的取值要求:变量取值必须完备,使得每个各观察值都有所归类;必须互斥,⼀个观察值只能归⼊⼀类,对于分组数据遵循上限不包括在内原则。
次数分布可简化资料,但不能⽐较样本,因为样本量不同。
2、⽐、⽐例和⽐率(通常保留⼀位或两位⼩数)⽐:某两类的次数相除,如性别⽐=男性/⼥性⽐例:某类次数除以总数,⽼年⼈⼝⽐例=⽼年⼈⼝数/总⼈⼝数×100%⽐率:某⼀确定变量相对应的某些事件发⽣的频率。
第二讲 单变量统计描述
步骤如下: 步骤如下: R=160.8-129.4=31.4。 组段数=10;组距=R/10=3.14≈30(cm);按要 求确定每一组段上下限。 分组统计每一组段的频数,编制频数表。
计量资料频数分布表
118 例 13 岁女孩身高(cm)资料频数表。 身高组段 (1) 129~ 132~ 135~ 138~ 141~ 144~ 147~ 150~ 153~ 156~ 159~162 合计 频数 (2) 2 2 8 20 26 25 20 9 3 2 1 118 组中值 (3) 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5 160.5 —
二、统计表
统计表的制作 要注意的问题: 1、标题、内容简明 2、统计栏数多时,要加编号 3、数字填写:位数对准,同栏数字、小数位要一 致,相同数字不的写“同上”,无数字栏用 “—”, 缺资料“…” 4、表中数字用同一单位时,标在右上角 5、表的左右两端不封闭 判断 练习:分别制作定类、定序、定距变量统计表 注意:统计表的分组科学性问题
年龄 15 16 18 人数 3 6 9
cf↑ cf↓
3 9 18
18 15 9
计量资料频数表的编制
一般情况下,样本含量小于30的统计资料 无须编制频数表,但对于大样本含量的资料, 编制频数表有利于进一步的统计分析、且频 数表本身也具有统计描述的作用.
编制频数表的步骤
第一组段包括极小值,最后 一组段包括极大值,除最后 一组段可同时标出上下限, 一般 8- 15 之间 求出极差 确定组段数 确定组距 其他组段只标出下限。
例:
调查某地6户农民家庭和5户干部家庭,每户人 数如下: 农民家庭:6;4;4;8;6;3; 干部家庭; 4;2;3;3;5; 求均值。
社会统计学3
3. 均值计算:3. 均值算:四、众值、中位值、平均值的性质 众值性质: 1.分组资料中,众值受上下相邻两组频数 大小影响,而不受极端值的影响。 2.受抽样变动影响较大。 3.在反映集中趋势指标中,众值不唯一。 4.在频数分布中,众值标示其“峰值”所 对应的位置,优点—易区分偏态、单峰、 多峰
中位值性质: 1.中位值不受极端值影响。 2.分组资料有开放组时,仍可求中位值。 3.中位值受抽样变动的影响比均值略大。
均值性质: 1.各变量值与平均值的离差和为0。 2.各变量值与平均值离差的平方和小于它 们对任何其它数偏差的平方和。 3.平均值受抽样变动影响微小,是反映总 体分布集中趋势的最佳指标。 4.平均值受极端值影响较大。 5.分组数据有开放组时,不经处理,不能 计算平均值。
五、几何平均数
1. 几何平均数 N个变量值连乘积的N次方根,用Mg 2. 用途: 用以计算某种比率的平均数 用以计算大致具有几何级数关系的一组数字的平均数 3. 公式: N
Mg = X1X2X3…XN
六、调和平均数
1. 调和平均数 N个变量值倒数算术平均数的倒数,用Mh 2. 公式: 1
Mh = 1 X1 1 X2 1 X3 N … 1 XN
用此公式计算上例: Md=L+(N/2-cf )(U-L)/n =25+(212/2-94)(35-25)/30 =29 中位值具有估计或预测的意义。如上例机 械化率研究,假定从212个乡中任取一个乡, 我们应估计其机械化率是29%,长远来说, 以中位值去估计定序变量的数值,所犯的 错误总数是最小的。
3.中位值的计算 原始资料 分组资料
(1)原始资料 方法:Ⅰ 将各个案由小到大排序,居于序列中央位置 的个案的值就是中位值 Ⅱ 求出Md 位置: Md 位置=(n+1)/2 Ⅲ 求出Md
第二章单变量的描述统计ppt课件
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法
家庭结构 核心家庭 直系家庭 联合家庭 其它 总数(合计)
频率 0.493 0.338 0.052 0.117 1
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法
一、变量及其分布 (二)变量的分布 • 3、累计频率分布:将上述频率分布中的频率按变量的取值排
图2-3 2000年全国家庭户主受教育程度分布
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法
• 折线图在描述事物变化趋势时更常用:
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法
二、统计图 • (二)描述尺度变量分布特征的统计图
• 1、直方图: • 描述尺度变量分布,用条形长短或高低来表现数据大小。 • 与简单条形图不同的是,条的宽度表示分组的组距,条与
二、统计表
(三)描述尺度变量分布特征的统计表——分组表 • 1、分组表的制作步骤:确定全距;确定组距与组数;确定各组
的上下限。;登记各组中个案的频次,计算频率。
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法
二、统计图 统计图就是用图的形式来表示变量的分布特征。
• 比统计表更直观、生动、易记忆,缺点是不如统计表精确。
• 对取值很多的尺度变量,通常将变量的取值划分成段,如年龄 段、收入段,再累计该段中的人数,来表示变量的分布。
• 尺度变量取值的数据有两种:
– 离散性数据,如年龄。通常取整数,在相邻的两个数之间 不存在其它的数据。
– 连续性数据,如身高。如果测量的单位可以达到无穷小的 话,理论上,任何两个数之间都有无穷多个数。尺度变量 的分布在统计表中予以详细说明。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社专本111 2011761114 梁雪彩
P59第二章单变量统计描述分析
六、根据以下统计资料:
(汉族,50,000)
(苗族,22,000)
(布依,20,000)
(藏族,1,000)
问:(1)能做成那些统计图?
(2)如果做成条形图,对变量值的排列是否有要求?
答:(1)能做成条形图和圆饼图
(2)如果做成条形图,对变量的排列没有要求,因为题目中的统计资料是定类变量,长条排列次序可以任意,定类变量无大小、高低次序之分。
七、根据以下资统计料:
(老年,1,000)
(中年,2,000)
(青年,5,000)
问:(1)能否做成直方图?为什么?
(2)如果做成条形图,对变量值的排列是否有要求?
答:(1)不能,因为上述为定序变量,定距变量才能做成直方图。
(2)如果做成条形图,对变量的排列有要求,因为题目中的统计资料是定序变量,长条按序排列,定序变量有大小、高低次序之分。
十三、以下是某班参加业余活动的情况的调查:
C=“书社”P=“摄影组”
J=“舞蹈团”O=“体育组”
C C C P O P C C C P O O P C O C P C C P
O C P C C O C J C O O C P C C O O O O P
O C O O O O P O P P
(1)试作统计图和统计表
某班参加业余活动情况的条形图
某班参加业余活动情况的圆饼图:
表1.1某班参加业余活动情况的调查表
(2)选择适当的集中值和离散值,并讨论之。
集中值
众值M0=书社则可知参加书社业余活动的人数最多
中位值Md=N+1/2=25.5 中位值Md=摄影组
均值=19+12+1+18/4=12.5
离散值
异众比率r=(N-fm0)/N=50-19/50=0.62 异众率比较高,则认为总数的代表性较差,所提供的信息量较少。
极差:R=观察的最大值-观察的最小值=18 极差大表示资料分散,人们选择的业余活动的人数有比较大的差异。
四分互差Q=Q75-Q25 Q50 的位置=50+1/2=25.5
Q25的位置=50+1/4=12.75
Q75的位置=3(50+1)/4=38.25
Q25=书社Q75=体育组
四分互差Q=Q75-Q25=体育组-书社
可知有50%的人选择体育组和书社这两项活动方差=[(19-12.5)^2+(12-12.5)^2+(1-12.5)^2+(18-12.5) ^2]/4=51.31
标准差=7.16。