社会统计学 第二章 单变量
社会统计学2
第一节分布、统计表和统计图
• 一、变量及其测量划分 • 变量是所研究问题的特征或性质,也称作指标。在自然科学中,
变量是可以通过仪器进行测量的。在社会学研究中,变量往往通 过向被访者问问题来进行测量。落实在变量的设计上,就需要根 据调查研究的问题的不同,设计出不同层次的变量,具体划分为 定类变量、定序变量、定距变量、定比变量。
• 1、定类变量
• 定类变量是最低的变量层次,它的取值只有类别属性之分,而无 大小程度之别,如民族、婚姻、职业等变量。
• 2、定序变量
• 定序变量的取值除了有类别属性之外,还有等级次序的差别,其 层次高于定类变量,常见的定序变量,如受教育程度、满意度、 幸福感、社会经济地位等。在使用量表测量时,往往是基于定序 变量。
如贫困问题,需要对低收入段分得细一些。研究老龄化问题,则 需要对老年群体分得细一些。这些都会带来非等距分组。
• 3、组限
• 组限是指每组的范围,即每组的上限和下限。对于离散型变量一 般采取相邻组限不重叠的原则,而对于连续型变量,可能出现相 邻组限重叠的情况,这时采取的原则就是“上组限不在内”原则。 对于开口组求组中值,是依据相邻组的组距加减其一半求得。
• 箱体图反映数据的集中程度,也反映出均值的代表性程度。
• 图2-8显示,流动人口中,女性的平均年龄略低于男性,女性的年 龄更加集中。
第二节 集中趋势测量法
• 集中趋势测量法是找出一个数值来代表该变量数据集结情况的方 法。该方法的优劣在于,由于是根据一个代表值来估计或预测每 个研究对象的数值,因此运用该方法要舍去变量的某些信息,但 由于该数据是最有代表性的数值,以该数值做代表所产生的误差 最小。
• 1、点线图
• 线代表变量,线上标明的是变量的取值,线上方的每一个点代表 一个观测值。点线图的优点是直接,能够看到哪些地方观测值密 集,哪些地方观测值稀少,不丢失任何信息。
社会经济统计学各章重点知识
《社会经济统计学》各种重点知识第二章1、总体是根据一定的目的要求所需研究事物的全体,它由客观存在的具有某种共同性质的许多个别事物所组成。
2、总体单位是指组成总体的基本单位,它是所要统计的各种数量特征的承担者。
3、确定总体和总体单位,必须注意:构成总体的单位必须是同质的;构成总体的单位必须是大量的、足够多的;总体与总体单位具有相对性;随着研究目的的不同,总体和总体单位可以相互转化。
4、标志是指用来说明总体单位数量特征或属性特征的概念或名称。
5、标志分为品质标志与数量标志,品质标志表示事物质的特征,一般用文字说明;数量标志表示事物量的特征,一般用数值说明6、指标是用来反映总体数量特征的概念,应该包括他的概念和数值。
7、指标按其所反映总体的内容不同分为数量指标和质量指标。
数量指标是指反映社会经济现象总体规模或工作总量的统计指标;质量指标是指反映社会经济现象的相对水平或工作质量的统计指标。
8、指标按其功能和作用分为描述指标、评价指标和预警指标。
描述指标是指用于反映社会经济现实状况和社会生产、生活过程及其结果的统计指标;评价指标是指用于对社会经济活动的结果进行比较、评估、考核,以检查其经济效益和工作质量的统计指标;预警指标主要用于对宏观经济运行状况进行监控,并依据其指标值的变化,预报国民经济即将出现不平衡状态和突发事件,以及某些结构性障碍。
9、统计指标体系是指由一系列相互联系的统计指标所构成的指标群体,用以说明所研究的社会经济现象总体各方面相互依存和相互制约的关系。
10、变异是标志或指标具体表现的差异。
11、变量是指可变的数量标志和指标。
变量的数值表现就是变量值,亦即可变的数量标志或指标的不同取值。
12、定类尺度是指分组标志是对一些客观事物的名称进行排列。
它的特点是只能对数据进行平行的分组或分类,具有互斥性,不能对各组的编号进行加减乘除等数学运算。
13、定序尺度指把各类事物按一定特征的强弱、高低等顺序排列起来。
统计学第二章
按性别分组 男生 女生 合计
人数 30 20 50
百分比 % 60 40 100
三、按数量标志分组
按照数量或数值等定量指标分组,称为按数量 标志分组。
(1)单变量分组:一个变量值为一组,适合离散 变量,且变量值较少。步骤是先排序再分组。 (2)组距分组:
将全部变量值划分为若干区间,并将这一区间的变量值 作为一组,适用于连续变量或变量值较多的情况。 需要遵循“不重不漏”的原则,可采用等距分组,也可 采用不等距分组。
2.1 统计数据的整理
2.1.0 2.1.1 2.1.2 2.1.3 2.1.4 数据的预处理 统计数据的分组 次数分配 次数分配直方图 洛伦茨曲线
2.1.0 数据的预处理
一、数据的审核 对原始数据,审核完整性和准确性。前者指 调查单位是否遗漏、项目是否齐全等;后者 指数据是否真实、是否错误等。方法是逻辑 检查和计算检查。 对二手数据审核完整性和准确性外,着重审 核数据的适用性和时效性。前者应清楚数据 的来源、口径和背景,后者应注意数据的时 间,使用最新的数据。
当f-1=f+1时如图(a),当f-1>f+1时如图(b), 当f-1<f+1时如图(c)。
(a)
(b)
(c)
②公式计算:
上限公式
f f 1 M0 U ( f f 1) ( f f f f 1 M0 L ( f f 1) ( f f
1
2.1.2 次数分配
对于例2-1采用组距分组,计算组数K=1+1g30/ 1g2=5(组),组距 =(128-84)/ 5=8.8,组距取10件,整理成频数分布表2-3。
第二章单变量的统计描述分析(3)社会统计学
24 108 93 45 30 300
21
根据分组资料求四分位差
步骤:第一步:计算累加次数(Cf↑)
第二步:求出Q1和Q3位置 Q1位置=N+1/4 Q3位置=3(N+1)/4 其 中N是全部个案数目 第三步:参考累加次数分布,决定 Q1和Q3的位置应属于哪一组 第四步:从所属的组中,计算Q1 位 置和Q3位置的数值
低
Q1
Q2
Q3
高
(一) 未分组数据
首先应求出Q1与Q3的位置,公式
是: Q1位置=
N 1 4
;
Q3位置=3(N+1)/4
其中N是全部个案数目
如调查甲、乙两个生产队家庭的 人数
甲队有11户人家,每户人数如下:
2 2 3 4 6 9 10 10 11 13 15 N 1 11 1 Md位置= 6 ∴ Md=9 2 2 N 1 11 1 3 ∴ Q =3 Q1位置= 1 4 4
3 50 30 Q75 125 4 5 128.75(个) 10
四分位差
50 8 Q25 115 4 5 117.81(个) 8
Q=Q75-Q25
=128.75-117.81=10.94
30
线箱图的绘制(举例)
Max(Xi) =107
Q25= 117.81
506 S 10.06 5
总体标准差:计算过程及结果
【例3.14】根据第二章表2-5中的数据,计算工人日加工零件数的标准差
表3-5 按零件数分组 105~110 110~115 115~120 120~125 125~130 130~135 135~140 合计
单变量的统计描述分析社会统计学
特点 概率密度函数关于均值对称。
偏态分布的概念与特点
概念:偏态分布是指概率密 度函数不对称于均值的情况。
特点
01
分布曲线可能有一个或多个
峰值。
02
03
分布曲线可能偏向均值的一 侧或两侧。
04
05
分布的离散程度可能大于正 态分布。
正态性与偏态性的判断与检验
判断方法
可以通过观察数据的直方图或Q-Q 图来判断数据的分布形态。正态分布 的直方图应该呈现钟形,而偏态分布 的直方图则可能呈现其他形状。
如果四分位距较大,说明数据分布较为分散,存在较大的异 常值;如果四分位距较小,说明数据分布较为集中,异常值 的影响较小。
06 正态分布与偏态分布
正态分布的概念与特点
概念:正态分布是一种连续概率分布, 其概率密度函数以均值为中心,呈钟形 对称。
曲线下的面积为1,代表所有可能结果的 概率总和。
分布曲线是单峰的,即只有一个峰值。
直方图是一种用直条矩形面积代表各组频数,各矩形面积总和代表频数的累积,以 扇形面积代表各组出现的频率的统计图。
直方图可以直观地展示数据的分布情况,帮助我们了解数据的离散程度和集中趋势。
在制作直方图时,需要选择合适的分组方法和组距,并根据数据的特征和需求进行 合理的调整。
饼图与环形图
• 饼图是一种圆形图表,用于表示各部分在总体中所 占的比例。
03
中位数主要用于描述偏态分布的数据,对于异常值不敏感。
众数
01
众数是数据中出现次数最多的数值。
02
对于未分组的数据,众数是一组数据中出现次数最多的数值;
对于分组数据,众数是某一组别的频数最高。
众数主要用于描述分类数据的集中趋势,不适用于连续型数据。
社会统计学(卢淑华),第二章
计量资料频数表的编制
计量资Байду номын сангаас频数表的编制
一般情况下,样本含量小于30的统计资料 无须编制频数表,但对于大样本含量的资料,
编制频数表有利于进一步的统计分析、且频
数表本身也具有统计描述的作用.
编制频数表的步骤
编制频数表的步骤
第一组段包括极小值,最后 一组段包括极大值,除最后 一组段可同时标出上下限,
续例
计量资料频数分布表
118 例 13 岁女孩身高(cm)资料频数表。 身高组段 (1) 129~ 132~ 135~ 138~ 141~ 144~ 147~ 150~ 153~ 156~ 159~162 合计 频数 (2) 2 2 8 20 26 25 20 9 3 2 1 118 组中值 (3) 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5 160.5 —
*
144.9 145.5 139.3 146.2 145.2 155.2 148.7 148.7 137.5 146.7 152.3 149.5
152.2 149.5 144.8 146.8 146.8 138.9 139.5 153.2 143.5 139.2 141.8 147.5
145.0 141.1 147.5 142.3 148.9 140.9 140.6 146.5 150.0 142.6 150.8 140.3
%
20.0 27.6 52.4 100.0
干部 工人 农民 总数
二、统计表
统计表的制作 要注意的问题: 1、标题、内容简明 2、统计栏数多时,要加编号 3、数字填写要求:位数对准,同栏数字、小数位 要一致,相同数字不可以写“同上”,无数字栏 用 “—”,缺资料“…” 4、表中数字用同一单位时,标在右上角 5、表的左右两端不封闭 判断 练习:分别制作定类、定序、定距变量统计表 注意:统计表的分组科学性问题
统计学原理第二章新_统计调查与整理
以上处理方法那些正确?
• 第六次全国人口普查的标准时间是2010年11月1日零 时,普查现场登记工作从11月1日开始到11月10日前 结束。调查员到过的几家遇到情况并作出处理: • (1)11月2日到1号家,这家11月1日中午生个小孩, 调查员把关于诞生小孩的材料填入调查表; × • (2)11月3日到2号家,这家11月2日一成员死亡,调 查员把关于死亡者的材料填入调查表; √ • (3)11月4日到3号家,11月2日新婚夫妇到户籍登记 处登记自己的婚姻,统计员登记调查表中的”婚姻状 况”为“已婚”; ×
对全部单位 进行调查
可以为抽样调查提供抽样框 作用
可以收集统计报表所不能提供的反 映重大国情国力的基本统计信息
由于需要大量的人力、物力和财力, 不宜经常进行 建立专门机构,配备专门人员调查 利用基层单位原始记录和核算资料发 表调查 规定统一的标准时点 规定统一的普查期限 规定调查的项目和指标
局限 方式
非全面调查 全面调查 经常性调查 不连续调查 重点抽样 典型抽样 任意抽样 配额抽样
统计调查的种类 按调查单位的范围大小分为 按调查时间是否连续分为 按调查的组织方式不同分为
专门调查
统计报表 普查 随机抽样调查 非随机抽样
指国家为详尽了解某项重要的国情 一、普查 国力而专门组织的一次性全面调查
总体单位 调查单位
④容易引起火灾 ⑤破坏家庭团结 ⑤破坏家庭团结 ⑥其他 。
问卷设计的基本要求:
主题明确 提问科学 逻辑性强
问题的提出要紧扣主题 问句和标准答案要易于理 解和回答 先易后难、先封闭后开放、 先基本问题后派生问题
容量适度 以不超过20分钟为宜
四、调查时间和调查期限。
调查时间是指调查资料所属的时间。 在统计调查中,如果所调查的是时期现象,就要明确 规定调查资料所反映的起止日期。 调查2012年第一季度的钢铁产量,调查时间是从1 月1日起至3月31日止3个月
社会统计学,卢淑华(第4版),第2章.pptx
家庭结构 核心家庭
直系家庭 联合家庭
频次 1050
720 110
百分比(%) 49.30
33.80 5.16
其他
总数
250
2130
11.74
100.00
多选项二分法
a 样本1 样本2 样本3 样本4 样本5 √ × √ √ √ b √ × × √ √ c √ √ × × × d × √ √ × × e √ √ √ √ √
Me=“乙”
(三)组距式分组
• ①首先确定中位数组;②使用公式 • 下限公式: f S m 1 Me L 2 i fm
• 上限公式:
Me U
f
2
S m1 fm
i
公式中各字母含义
• • • • U:中位数组的上限; L:中位数组的下限; fm:中位数组的频数; Sm-1:向上累计时中位数组前一组的累计频数, 即中位数前一组所对应的向上累计频数; • Sm+1:向下累计时中位数组后一组的累计频数 即中位数后一组所对应的向下累计频数; • i:中位数组的组距。
(二)定距数据
1、未分组资料(spss版本)
Q1位置=(n+1)/4; Q2位置=(n+1)/2; Q3位置=3(n+1)/4 表2.10 Q1位置=(n+1)/4=25.25; Q2位置=(n+1)/2=50.5; Q3位置=3(n+1)/4=75.75
Q1=x(25)+0.25× [x(26)-x(25)]=1.37+0.25 ×[1.37-1.37]=1.37 Q2=x(50)+0.5× [x(51)-x(50)]=1.4+0. 5 ×[1.41-1.4]=1.405 Q3=x(75)+0.75× [x(76)-x(75)]=1.44+0.75 ×[1.44-1.44]=1.44
社会统计学课件
300.0
400.0
500.0
600.0
700.0
800.0
月总支出(元)
3、多边形图
将直方图中各矩形顶端的中点用直线连接起来而成的图形。
4、常用曲线:洛仑兹曲线和基尼系数
将一国总人口按收入由低到高排列,考虑收入最低任意百分比人口所得到的收入 百分比,这样得到的人口累计百分比(横轴)和收入累计百分比(纵轴)的对应关系图形 即洛仑兹曲线。
洛仑兹曲线中,不平等面积与完全不平等面积之比。基尼系数是衡量一 个国家贫富差距的标准。
G=A/(A+B),0≤G≤1 G:基尼系数,A:不平等面积,A+B:完全不平等面积
二、集中趋势测量法
(一)定类变量:众值
变量取值中出现次数最多的值。
(二)定序变量:中位数
将全部调查个案的变量取值按等级顺序排列后,位于中央位置的值。
Statistics
父亲 文化程 度
N
Valid
219
Missing
0
Median
2.00
Mode
2
1、根据原始资料求中位数
Md 位置=(n+1)/2 其中,若 n 为偶数,则将位于中央的两个数值的平均值作为中位数。 2、根据分组资料求中位数
(n − cf ↑)
Md = L + 2
(U Percent Valid Percent
16.0
16.0
36.1
36.1
21.9
21.9
15.5
15.5
10.0
10.0
.5
.5
100.0
100.0
Cumulative Percent 16.0 52.1 74.0 89.5 99.5 100.0
社会统计学知识点总结
第一章数据与统计学数据分析所使用的方法大体上可分为描述统计和推论统计(推断统计),描述统计主要是利用图表形式对数据进行展示,或通过计算一些简单的统计量(诸如:比例、比率、平均数、标准差等)对数据进行分析。
推断统计主要研究如何根据样本信息来推断总体的特征,内容包括参数估计和假设检验两大类。
变量:是描述观察对象某种特征的概念,其特点是从一次观察到下一次观察可能会出现不同的结果(具有一个以上取值的概念)1、下列哪一个选项不是变量?( )A. 民族B. 智商C. 衣服的尺寸D. 女性答案:C2、下列变量属于数值型变量的是( )A. 工资收入B. 产品等级C. 学生对考试改革的态度D. 企业的类型答案:A解析:3、社会统计学的数据分析方法主要包括统计描述和( )A. 统计描述B. 统计推导C. 统计推论D. 统计分析答案:C4、能计算均值和标准差的必须是哪种变量( )A. 自变量B. 因变量C. 数值型变量D. 字符串型变量答案:C5、在SPSS中最多可以设置几个独立的缺失值?( )A. 3B. 4C. 5D. 8答案:A6、描述统计可以最恰当地表述为( )A.数据作概括性的表达B.对总体所作的结论C.测量操作的应用D.原始数据到标准分的转变答案:A解析:描述统计主要是利用图表形式对数据进行展示,或通过计算一些简单的统计量(诸如:比例、比率、平均数、标准差等)对数据进行分析。
第二章数据的描述性分析:图表展示1、欲以图形显示两变量X和Y的关系,最好创建( )。
A. 直方图B. 圆形图C. 柱形图D. 散点图答案:D第三章数据的描述性分析:概括性度量1、下列统计指标中,对极端值的变化最不敏感的是( )。
A. 众值B. 中位值C. 四分位差D. 均值答案:A2、经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有 ( )A. 50%的数据B. 68%的数据C. 95%的数据D. 99%的数据答案:B解析:根据标准得分可以判断一组数据中是否存在离群点。
知识点归纳总结
社会统计学整理第二章:单变量统计描述分析各种图:定类:圆瓣图、条形图定序:条形图定距:直方图、折线图组界:真实组界=标明组界0.5 条形图:定类变量:长条排列次序任意,条形离散。
定序变量:长条按序排列,条形是离散或紧挨。
直方图:由紧挨着的长条组成,面积表示频次或相对频次,高度是频次密度。
众值:用具有频数最多的变量值来表示集中值。
连续型变量用中心值来表示众值。
定类预测犯错最少。
异众比率:是非众值在总数N中所占的比例(:众值的频次)质异指数:理论上最多可能差异中实际出现了多少差异(k:类比数f:每类次数)中位值:定序预测犯错最少。
(也可以求25%和75%,改为和)n:中位值组的频次cf:含中位值区间的真实下界累积(向上)平次N:调查总数极差:极差=观察的最大值-观察的最小值四分互差:结论:50%位于*间均值:定距变量预测犯错最少。
标准差:第三章:概率互不相容:两者不能同时出现。
互为对立:不同时出现且两者相加为整体。
如果事件A与B互为对立,则必然满足互不相容,但逆定理不存在。
P(A);P(B),互不相容一定不满足互相独立,反之亦然。
互为对立与相互独立不能同时满足。
全概公式:逆概公式:方差:SKEWNESS(偏态)=>0:正偏态=0:对称<0:负偏态(峰在右边)KURTOSIS(峰态)=>0:正峰态=0:正态分布<0:负峰态(峰矮)第四章:二项分布及其他离散型随机变量的分布排列组合:第五章:正态分布、常用统计分布和极限定理大数定理:在什么条件下,随机事件可以转化为不可能事件或必然事件。
中心极限定理:在什么条件下,随机变量之和的分布可以近似为正态分布。
切贝谢夫不等式:贝努利大数定理:m是n次实验中事件A出现的次数,p是A每次出现的概率切贝谢夫大数定理:μ:数学期望:总体均值中心极限定理:只要n足够大,正态分布:众值=均值=中位值1S-68.26%;2S-95.46%;3S-99.37%;0.05-1.65;0.025-1.96;0.01-2.33;0.005-2.58;0.001-3.09;0.0005-3.30第六章:参数估计点估计:均值—样本均值成数—样本成数方差—样本方差S2是σ2的无偏估计,但S不是σ的无偏估计。
社会统计学3
3. 均值计算:3. 均值算:四、众值、中位值、平均值的性质 众值性质: 1.分组资料中,众值受上下相邻两组频数 大小影响,而不受极端值的影响。 2.受抽样变动影响较大。 3.在反映集中趋势指标中,众值不唯一。 4.在频数分布中,众值标示其“峰值”所 对应的位置,优点—易区分偏态、单峰、 多峰
中位值性质: 1.中位值不受极端值影响。 2.分组资料有开放组时,仍可求中位值。 3.中位值受抽样变动的影响比均值略大。
均值性质: 1.各变量值与平均值的离差和为0。 2.各变量值与平均值离差的平方和小于它 们对任何其它数偏差的平方和。 3.平均值受抽样变动影响微小,是反映总 体分布集中趋势的最佳指标。 4.平均值受极端值影响较大。 5.分组数据有开放组时,不经处理,不能 计算平均值。
五、几何平均数
1. 几何平均数 N个变量值连乘积的N次方根,用Mg 2. 用途: 用以计算某种比率的平均数 用以计算大致具有几何级数关系的一组数字的平均数 3. 公式: N
Mg = X1X2X3…XN
六、调和平均数
1. 调和平均数 N个变量值倒数算术平均数的倒数,用Mh 2. 公式: 1
Mh = 1 X1 1 X2 1 X3 N … 1 XN
用此公式计算上例: Md=L+(N/2-cf )(U-L)/n =25+(212/2-94)(35-25)/30 =29 中位值具有估计或预测的意义。如上例机 械化率研究,假定从212个乡中任取一个乡, 我们应估计其机械化率是29%,长远来说, 以中位值去估计定序变量的数值,所犯的 错误总数是最小的。
3.中位值的计算 原始资料 分组资料
(1)原始资料 方法:Ⅰ 将各个案由小到大排序,居于序列中央位置 的个案的值就是中位值 Ⅱ 求出Md 位置: Md 位置=(n+1)/2 Ⅲ 求出Md
社会统计学复习资料
《社会统计学》复习资料一、概念辨析(3×8') 1.参数估计与假设检验参数估计是通过样本对总体的未知参数进行估计,假设检验指通过样本对总体的某种假设进行检验。
参数估计是先看样本的情况,再看总体的情况。
假设检验是先假设总体的情况,再以一个随机样本的统计值来检验这个假设是否正确。
换言之,要先构思总体情况,才进行抽样和分析样本的资料。
2.点估计与区间估计点估计指根据样本资料以一个最适当的样本统计值来代表总体的参数值,简单明确,但不能说明估计结果的抽样误差和把握程度;区间估计指以两个数值之间的间距来估计参数值。
点估计是区间估计的基础。
3.置信度和置信度水平置信度又称置信概率或置信系数,表示用置信区间估计的可靠性,即置信区间包含参数Q 的概率。
置信度水平表示用置信区间估计不可靠的概率。
置信度与置信度水平之和为1。
4.虚无假设与研究假设虚无假设0H 又称原假设、零假设。
是一种无差别假设,是一种已有的,具有稳定性的经验看法,没有充分根据,是不会被轻易否定的。
研究假设1H 又称备择假设,是研究者所需证实的假设。
否定0H 后可以认为1H 是对的。
5.甲种误差与乙种误差甲种误差又称第一类错误,是指0H 为真,但小概率事件发生了,拒绝了0H ,即把真的当成假的,它是在拒绝原假设时出现的错误。
犯甲种误差的概率是显著性水平α。
乙种误差即纳伪的错误,又称第二类错误,是指0H 为假,但小概率事件没有发生,接受即把假的当成真的,它是在接受原假设时出现的错误。
犯乙种误差的概率为β,β的值随着真值μ与原假设中0μ的偏离程度而变化,0μμμ-=∆越小,β的数值就越大。
α大β就小,α小β就大。
6.独立样本和配对样本独立样本指从二个总体中,分别独立地各抽取一个随机样本进行比较和研究。
配对样本指它只有一个样本,但样本中每个个体要先后观测两次,这样所有个体先观测的值看作是来自第一个总体的样本值,所有个体后观测的值,看作是来自另一个个体的样本值,以此来比较两总体之间的不同。
第2章 统计学的基本范畴
6
标志表现的分类
标志表现有品质标志表现和数量标志表 现之分。
品质标志表现——只能用文字来表现。 数量标志表现——可以用数值来表示,也称 为标志值。
7
*四种计量尺度
数据的计量尺度
定类尺度
定序尺度
定距尺度
定比尺度
标志: 有品质标志和数量标志之分。 品质标志:表示事物质的特征。是不能用数 值表示的 。品质标志又叫属性水准。 属性水准可分为定类尺度和定序尺度。 定类尺度(Nominal Scale):它是一种最粗 略、精确水平最低的计量尺度,它是按照事物 的某种属性对其进行平行的分类或分组 。 定序尺度(Ordinal Scale):这种尺度比定 类尺度的精确性要高一些,表现为各类或各组 之间有一定的顺序,是可以比较大小的。
12
3、定距尺度(概念要点) Interval Scale
(1)对事物的准确测度
(2)比定序尺度精确
(3)数据表现为“数值”
(4)没有绝对零点
(5)具有 + 或 - 的数学特性
具有分类、排顺、计算差距、相等单位、人为
零点等功能和特征。如气温、体温、智商、年
次等都是等距尺度。
4、定比尺度(概念要点) Ratio Scale
24
2、统计指标按其数值形式不同,分为总 量指标、相对指标和平均指标。
25
总量指标的分类
1、按反映总体的内容不同,分为总体单位总 量和总体标志总量。前者指总体单位数之和, 后者指总体各单位某种标志值之和。 2、按指标所反映的时间计量特点不同,分为 时期(流量)指标和时点(存量)指标。前者 反映的是事物在一定时期内发展变化的累计结 果,后者反映的是事物在某一时点上的状况总 量。 3、按指标的计量单位不同,分为实物指标与 价值指标。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
f P n
2.比率:把计算比例时所用的基数变大, 最常用的就是百分率(%)。
二 定序层次
1.累加次数与累加百分率 将各级次数或百分率逐级相加起来,可分 为向上累加与向下累加。
向上累计频数分布(cf↑)是先列出各级别,然后由标志 值低的组向标志值高的组依次累计频数,代表某级水平水 平或以下的总数。 向下累计频数分布(cf↓)是先列出各级别,然后由标志 值高的组向标志值低的组依次累计频数,代表某及水平或 以上的总数。
f
10 65
Cf↑
10 75
Cf↓
550 540
126 158 141 40 550
211 369 510 550
475 339 181 40
总数
19
从分布来看,众数是具有明显集中趋势点 的数值,一组数据分布的最高峰点所对应 的数值及为众数。
20
二 中位值(Me)
1.把一组数据按顺序排列,处于中间位置的 那个数值就是中位值。
X xf X= n n 1720 2120 120
=18.9岁
36
(二)分组资料求均值:
根据组中值求均值
先求出组中值 组中值=(上限+下限)/2 计算组中值的和 计算分组数据的均值
fx X n
组中值
m
159 9.4 17
37
众值、中位数和均值的比较
39
对随机抽样调查来说,平均数比中位数更稳定,它随样本 的变化比较小;
平均数比中位数更容易进行算术运算。
但两种情况不宜用均值:
(1)分组数据的极端组没有组限。 (2)个别数值非常特殊。
如100,200,400,500,600, 均值为360,中位数为400 100,200,400,500,1000, 均值为440,中位数为400 100,200,400,500,3000 均值为840,中位数为400
X 200 X= 20岁 N 10
34
(1)加权平均数
某个变项值重复出现多次,可以先统计每个 值(x)的次数(f),再求次数与相应变量 值的乘积(fx),利用各乘积之和求出均值。 (f也称为权数,f/n称为权重) 公式:
fx X n
35
未分组数据加权平均数
解:根据公式得
【例6】调查某年120名学 生的年龄,结果如下表, 求平均年龄。 年龄 人数 17 20 18 25 19 35 20 20 21 20 N 120
1 = 5+1 =3 解:Md的位置= N+ 2 2
中位值Md=4
排序2,3,4,6,8
23
(2)个案数为偶数
【例2】:乙地的6户人家的人数为:2,4,3,6,8, 5求中位值。 解:Md的位置=
N+ 1 2
6 + 1 = =3.5 2
Md =
45 =4.5 2
排序2,3,4,
5, 6,8
24
(3)频数分布表
170 181 185 168 174 187 167 174 169 165 167 172 174 173 155 179 164 158 165 162
157 175 182 168 176 161 171 163 176 159
171 178 172 169 158 163 166 168 160 178 170 164 160 170 166 178 171 167 162 169 165 171 165 168 176 174 163 177 164 170 161 179 177 162 149 169 166 153 177 164
老中青人数分布图 25
人数(个)
20 15 系列1 10 5 0 老年 中年 年龄类别 青年
三.直方图(Histograms)
直方图是用矩形的面积来表示数列各组的频数或频率。 矩形的宽度表示各组组距,矩形的长度标示次数或百 分率。
四.曲线图
当变量数列中的组数愈加增多,变量值也非常多时, 折线图会逐步过渡到平滑曲线。频数分布曲线图实质 上是对应于连续变量的频数分布的函数关系图。
50 - 30 299 .5 100 349 .5 40
31
三 均值
1、均值的定义:总体各单位取值之和除以 总体单位数目。 2、仅适用于定距变量,不适用于定类和定 序;
32
(一)未分组数据
(1)简单原始资料求均值
x X n
33
解:根据平均数的计算 公式有:
【例】某班10名学生年龄 分别为20、21、19、19、 20、20、21、22、18、 20岁,求他们的平均年 龄。
收入 (元 ) 职工数 Cf 100-200 10 10 200-300 20 30 300-400 40 70 400-500 30 100 合计 N 100
N -cf 2 Md=L+
解:Md位置=50; 从累积频数cf栏找到中位数位 置所在组为“300-400” 引入公式: w f
10.9% 第一季度 9.4%
销售额
第二季度
25.0% 64.1% 第三季度 第四季度
用每个圆瓣代表现象的某
一种情况,其大小代表变 量取值在总体中所占的百 分比。圆瓣图多用于定类 变量。
(二)条形图(Bar graphs) 条形图用长条的高度表示资料类别的次数或百分数。长条一般为等宽,其 宽度没有意义;长条之间通常留有空隙间隔。条形图多用于定序变量。
50 40 30 20 10 0
15 156 6- 1 16 64 4- 17 172 2- 1 18 80 0- 18 188 8- 19 6 14 8-
系列1
五.常见曲线:
1.U形曲线:中间小,两头大
3.J形曲线:正J分布,反J分布
2.倒U形曲线:中间
大,两头小
4.逻辑斯蒂曲线:变量值分布的次数随变 量值增大 而增多或相反,但有上限。
组距 148~156 156~162 162~168 168~174 174~180 合计
f 3 9 25 34 20 91 f 20 34 25 9 3 91
cf↑ 3 12 37 71 91 —— cf↑
cf↓ 91 88 79 54 20 —— cf↓
组距 174-180 168-174 162~168 156-162 148-156 合计
五.常见曲线图
1.峰状曲线:根据曲线的峰顶数目,可以分为单 峰、双峰和多峰曲线。 2.对称与不对称曲线:把曲线从中央分割,两边 资料分布完全相同则为对称,否则为不对称。
第四章 数据分配特征的描述
朱火云 2017-10-13
第一节 集中趋势测量法
集中趋势测量,就是以一个数值来代表变 量的资料分布,反映的是变量值向中心值 聚集的程度,也就是说以这一个数值(或 称典型值)来估计或预测每一个研究对象 的数值时发生的错误总数在理论上是最小 的。
首先将各组的次数累加起来
求中位数的位置: Md位置=n/2 =212/2=106 第106个位置在 25-35之间
28
分组变量看作是一组连续的数值
10 25 12
?
106
35
94
124
30
29
n cf 2 Md L f
w
【例】: 根据下表数据求中位值。
数据类型和所适用的集中趋势测量值 数据类型 测度值 定类 众值▲ ―― ―― 定序 众值 中位值▲ ―― 定距 众值 中位值 均值▲
注:▲ 表示该数据类型最适合用的测度值
38
众数、中位数和平均值的比较
众数是一组数据中出现次数最多的数值。但在社会调 查中众数的代表性较小; 计算平均数时用到数据中所有的数值,而求中位数时 只用到数值的相对位置,平均数比中位数利用了更多 的有关数据的信息; 平均数容易受到极端值的影响,而中位数则不会受这 种影响。当样本中数据值的分布是高度倾斜的,中位 数一般比平均数更适合一些。
40
练习题1:城镇自杀率的分组次数分布
自杀率 3-5 6-8 9-11 次数 12 35 81 真实组限 组中值 向下累积次数
12-14
15-17 18-20
52
30 7
21-23 24-26
合计
9 3
229
41
练习题2:求中位数
求54,65,78,66,43这些数字的中位数。
求34,45,26,70,43,38 这些数字的中 位数。
第二章
简化一个变量的分布
1
第一节 统计分布
一.定类层次之次数分布 分布指变量的各种情况出现的频次,又称频次分布。 其作用在于表明各种情况的相对重要程度。 最基本的用于简化资料的方法。 例如:
家庭类别(变量) 直系家庭 核心家庭 联合家庭 频次(个) 5 20 0
1.比例:将每类的次数(f)除以总数 (n),用以比较不同的样本。
【例3】根据下表求中位值。
解:Md位置
=
成 绩 甲 乙 丙 丁 N
频 累计频次 次 cf 85 500 195 415 210 220 10 10 500 500
N+ 1 2
500+ 1 = 2
=250.5
中位值Md=乙
25
(二)分组数据求中位值
根据统计表中的累积百分比,找出含有 50%的区间 找出含有50%区间的上界值U,下界值L, 上界累计百分数U%,下界累计百分数L% 以及组距等信息 根据线段对应成比例的原理,计算出累计 百分比为50%的变量值
100
44
第四节 离散趋势测量法
离散趋势测量(Measures of dispersion)就是用 一个值表示数据之间的差异情况。 离散趋势测量法和集中趋势测量法具有互补作用。在 进行统计分析时,既要测量变量的集中趋势,也要测 量离散趋势。