第二章 单变量统计描述分析
谈单变量描述性统计分析(doc 52页)
谈单变量描述性统计分析(doc 52页)第二章单变量描述性统计分析在上一章中,我们回顾了社会调查研究的历程,了解了统计分析在社会调查研究中的地位,学习了统计分析的内容以及如何选用相应的统计分析方法。
有没有同学,能够说一下,选择统计分析方法的标准有哪些?那么,今天这节课,我们就要开始学习社会统计学的核心内容了。
通过之前的介绍,大家知道,借助社会调查,我们可以收集到大量的资料,但这些原始资料,往往是杂乱无章的。
因此,在学会正确收集资料或数据的同时,我们还必须学习如何正确地处理这些数据。
如果不对其进行加工处理,那么我们的调查研究活动将是毫无意义的,收集上来的不过是一堆堆的废纸。
面对纷繁复杂、毫无章法可言的原始资料,我们应该从何着手呢?一般来说,人们做事习惯于先易后难。
这里,我们可以适用于较高的层次。
为什么会这样呢?大家还记不记得?这是由于后者具有前者的数学特质。
反之,要求较高测量层次的统计法,不能用于较低的层次,因为后者的数学特质未能符合该统计法的要求。
明确了这一点之后,我们就来学习本章的第一节——最基本的单变量描述统计技术。
在大多数的调查问卷中,都会设置有关性别的问题。
上节课,我们介绍过,性别是一个典型的定类变量。
假设,我们对本班同学进行一次调查,那么现在,我希望大家能够对性别这个变量的相关情况进行一下说明。
有没有同学能够回答我?很好,刚才这位同学说明了咱们班学生的性别构成状况。
实际也就是统计了一下本班男女生的人数?这其实就是一种单变量的描述统计方法——次数分布的方法。
它是用于简化一个定类变量资料的最基本方法。
简单来说,就是计算变量的各个取值出现的次数或频次。
因此,它又被称为频次分布。
以分析性别变量为例,实际就是要计算男生和女生各有多少名。
要对频次分布情况进行描述,我们可以采用四种方法。
第一种方法是文字法。
如某班60名学生中,32人是女生、28人是男生;第二种方法是集合法。
第三种是统计表法。
第四种则是统计图法。
统计第二章单变量统计描述详解
例:调查了200名大学生,内心的苦 恼倾诉对象意愿为:
党团组织41人、家长49人、知心朋友52人、 闷在心里32人、 班团干部15人、随便议论11 人
可见N=200 fmo=52
V= N fmo 200 52 0.74 74%
N
200
众数的代表性很低
注意:众值与众值频数,即MO与fmo的区别。
总数 550
100
2、累加百分率(%)
将各级的百分 率数值逐渐相 加
三、定距层次
以上方法对定距层次的变量都 适用。
但定距层次的变量在使用这些 方法时必须先进行分组,由具 体数字转化为区间。
例:某校学生家庭每月总收入(p41)@
收入(元) f
1500-1899 40
1300-1499 141
1100-1299 158
中位值:由于考虑了变量的顺序和居中位 置,它和总体的频次分布有关。
均值:既考虑到频次,又考虑变量值的大 小,因此最灵敏。
虽然均值对资料的信息利用最充分,但对 严重偏态的分布,会失去它应有的代表性。
3、偏态和三值的关系:
对于对称的图形,众值、中 位值和均值三者位置重叠, 当图形正偏或负偏时,均值 变化最快,中位值次之,众 值不变。
f
17
四、众值、中位值和均值比较
1. 三值设计的共同目的:希望通过一个 数值来描述整体特征,以便简化资料。 三者均反映了变量的集中趋势。
众值:适用于定类、定序和定距变量 中位值:适用于定序和定距变量 均值:适用于定距变量
2、众值 中位值 均值
众值:仅使用了资料中最大频次这一信息, 因此,资料使用是不完全的。
例:某地总人口中有28600 名男性和23500名女性
第二章 单变量统计描述分析
社专本111 2011761114 梁雪彩P59第二章单变量统计描述分析六、根据以下统计资料:(汉族,50,000)(苗族,22,000)(布依,20,000)(藏族,1,000)问:(1)能做成那些统计图?(2)如果做成条形图,对变量值的排列是否有要求?答:(1)能做成条形图和圆饼图(2)如果做成条形图,对变量的排列没有要求,因为题目中的统计资料是定类变量,长条排列次序可以任意,定类变量无大小、高低次序之分。
七、根据以下资统计料:(老年,1,000)(中年,2,000)(青年,5,000)问:(1)能否做成直方图?为什么?(2)如果做成条形图,对变量值的排列是否有要求?答:(1)不能,因为上述为定序变量,定距变量才能做成直方图。
(2)如果做成条形图,对变量的排列有要求,因为题目中的统计资料是定序变量,长条按序排列,定序变量有大小、高低次序之分。
十三、以下是某班参加业余活动的情况的调查:C=“书社”P=“摄影组”J=“舞蹈团”O=“体育组”C C C P O P C C C P O O P C O C P C C PO C P C C O C J C O O C P C C O O O O PO C O O O O P O P P(1)试作统计图和统计表某班参加业余活动情况的条形图某班参加业余活动情况的圆饼图:表1.1某班参加业余活动情况的调查表(2)选择适当的集中值和离散值,并讨论之。
集中值众值M0=书社则可知参加书社业余活动的人数最多中位值Md=N+1/2=25.5 中位值Md=摄影组均值=19+12+1+18/4=12.5离散值异众比率r=(N-fm0)/N=50-19/50=0.62 异众率比较高,则认为总数的代表性较差,所提供的信息量较少。
极差:R=观察的最大值-观察的最小值=18 极差大表示资料分散,人们选择的业余活动的人数有比较大的差异。
四分互差Q=Q75-Q25 Q50 的位置=50+1/2=25.5Q25的位置=50+1/4=12.75Q75的位置=3(50+1)/4=38.25Q25=书社Q75=体育组四分互差Q=Q75-Q25=体育组-书社可知有50%的人选择体育组和书社这两项活动方差=[(19-12.5)^2+(12-12.5)^2+(1-12.5)^2+(18-12.5) ^2]/4=51.31标准差=7.16。
单变量描述统计分析
Analyze →Descriptive Statistics → Descriptives 出现对话框
1.产量计划完成百分比 产量计划完成百分比 2.平均一级品率 平均一级品率
一级对话框
二级对话框—Options
对两种类型卡车等级数据进行探索 性分析,比较它们的安全性能。 性分析,比较它们的tatistics
二级对话框—Plots
二级对话框—Options
平均数分析(Means)
该过程主要用于分组计算各统 计指标, 计指标,也可以进行单因素随机设 计方差分析和线性检验。 计方差分析和线性检验。
Descriptive Statistics菜单项 Statistics菜单项
Frequencies 频数分析过程 Descriptives 描述统计过程 Explore Crosstabs 探索性描述统计过程 互联表统计分析过程
频数分析(Frequencies)
该过程可计算数据资料的各种 描述统计指标、 描述统计指标、给出变量简单频数 分布表、绘制几种变量分布图。 分布表、绘制几种变量分布图。
书62页例子 数据文件名:p62.SAV
次级数据资料分析
1. 对资料进行分组 菜单Transform →Recode →Into same Variables 2. 对已分组资料进行频数分析 ①输入各组组中值x和次数f; ②对变量值进行加权 ③进行Frequency过程
描述统计(Descriptives)
单变量描述统计分析
1.概述 2.频数分析( Frequencies ) 3.描述统计( Descriptives ) 4.探索性数据分析( Explore ) 5.平均数分析( Means )
单变量的统计描述分析社会统计学
特点 概率密度函数关于均值对称。
偏态分布的概念与特点
概念:偏态分布是指概率密 度函数不对称于均值的情况。
特点
01
分布曲线可能有一个或多个
峰值。
02
03
分布曲线可能偏向均值的一 侧或两侧。
04
05
分布的离散程度可能大于正 态分布。
正态性与偏态性的判断与检验
判断方法
可以通过观察数据的直方图或Q-Q 图来判断数据的分布形态。正态分布 的直方图应该呈现钟形,而偏态分布 的直方图则可能呈现其他形状。
如果四分位距较大,说明数据分布较为分散,存在较大的异 常值;如果四分位距较小,说明数据分布较为集中,异常值 的影响较小。
06 正态分布与偏态分布
正态分布的概念与特点
概念:正态分布是一种连续概率分布, 其概率密度函数以均值为中心,呈钟形 对称。
曲线下的面积为1,代表所有可能结果的 概率总和。
分布曲线是单峰的,即只有一个峰值。
直方图是一种用直条矩形面积代表各组频数,各矩形面积总和代表频数的累积,以 扇形面积代表各组出现的频率的统计图。
直方图可以直观地展示数据的分布情况,帮助我们了解数据的离散程度和集中趋势。
在制作直方图时,需要选择合适的分组方法和组距,并根据数据的特征和需求进行 合理的调整。
饼图与环形图
• 饼图是一种圆形图表,用于表示各部分在总体中所 占的比例。
03
中位数主要用于描述偏态分布的数据,对于异常值不敏感。
众数
01
众数是数据中出现次数最多的数值。
02
对于未分组的数据,众数是一组数据中出现次数最多的数值;
对于分组数据,众数是某一组别的频数最高。
众数主要用于描述分类数据的集中趋势,不适用于连续型数据。
统计学课件 第2章 单变量统计描述分析
罪犯数 (人)
30 25
罪犯数
20 15 10 5 新罪 无新罪
(人)
50
40
30
20
0 文学课 监狱
10
文学课
监狱
(2) 定序变量:条形图(长条按序排列, 条形可以离散,也可以紧挨)。 (3) 定距变量:直方图;折线图。 ※ 直方图:由紧挨着的长条组成, 但长条的宽度有意义。以长条的宽度 表示组距,条形的长度表示频次密度 或相对频次密度(频率密度) ,长条的 面积来表示频次或相对频次。
40.5
65.5
年龄
※ 折线图:用直线连接直方图中条形顶端的中点 就得到折线图。折线图可使资料频次分布的趋势 更明显。当组距逐渐减小时,折线将逐渐平滑为 曲线。
频次 密度
2.2 2.0 1.8 1.6 1.4 1.2 1.0
图2-4 一星期内新娘人数的分布
0.8 0.6 0.4 0.2 0
15.5 20.5 25.5 30.5
表2-4 一星期内新娘人数的分布 年龄段
15.520.5 20.530.5 30.540.5 40.565.5
频次 频次密度
频次 密度
2.2 2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0
1
22
9
5
0.2
2.2
0.9
0.2
图2-4 一星期内新娘人数的分布
15.5 20.5 25.5 30.5
(二)定序尺度(顺序尺度):是对事物之间等 级或顺序差别的一种测度。 例2:产品等级(一等品、二等品…) 考试成绩(优、良、中、可、差) ●特点: 1.不仅可以测度类别差(分类),还可以测度 次序差(比较优劣或排序); 2.无法测出类别之间的准确差值,因此该尺度的 计量结果只能排序,不能进行算术运算。
统计学课件第2章单变量统计描述分析
04 数据分布形态的 描述
直方图与箱线图
直方图
通过直条矩形面积表示频数,直观展示数据分布情况,便于比较两组数据的分布是否一 致。
箱线图
通过箱体、中位数、四分位数等指标,展示数据的集中趋势和离散程度,便于识别异常 值。
数据的离散程度:方差与标准差
方差
表示数据离散程度的度量,即各数值与 其平均数差的平方的平均数。方差越大 ,数据波动越大。
反映数据集中趋势的统计量
详细描述
均值是一组数据之和除以数据的个数,用于表示数据集的中心倾向。它可以帮 助我们了解数据的平均水平。
中位数
总结词
反映数据中位数的统计量
详细描述
中位数是一组数据按大小排列后处于中间位置的数值。当数据量是奇数时,中位 数就是中间那个数;当数据量是偶数时,中位数是中间两个数的平均值。中位数 可以用来衡量数据的对称性。
案例二:股票市场数据统计描述分析
总结词
股票市场数据是单变量统计描述分析的重要应用之一, 通过对股票价格、成交量等指标的分析,可以了解市场 的走势和投资者的行为特征。
详细描述
股票市场数据包含了大量的交易信息,如股票价格、成 交量、换手率等。通过计算这些指标的均值、标准差、 偏度、峰度等统计量,可以分析市场的走势和波动情况 ,预测未来的趋势。此外,还可以通过分析投资者行为 特征,了解市场的参与情况和投资者的心理预期。
THANKS
感谢观看
统计学课件第2章单变量统 计描述分析
目录
• 引言 • 单变量统计描述分析基础 • 描述性统计量 • 数据分布形态的描述 • 数据特征的度量 • 实际应用案例分析
01 引言
课程背景
01
统计学是数据分析的重要工具, 广泛应用于各个领域。
第二章 单变量统计描述分析
社专本111 2011761114 梁雪彩P59第二章单变量统计描述分析六、根据以下统计资料:(汉族,50,000)(苗族,22,000)(布依,20,000)(藏族,1,000)问:(1)能做成那些统计图?(2)如果做成条形图,对变量值的排列是否有要求?答:(1)能做成条形图和圆饼图(2)如果做成条形图,对变量的排列没有要求,因为题目中的统计资料是定类变量,长条排列次序可以任意,定类变量无大小、高低次序之分。
七、根据以下资统计料:(老年,1,000)(中年,2,000)(青年,5,000)问:(1)能否做成直方图?为什么?(2)如果做成条形图,对变量值的排列是否有要求?答:(1)不能,因为上述为定序变量,定距变量才能做成直方图。
(2)如果做成条形图,对变量的排列有要求,因为题目中的统计资料是定序变量,长条按序排列,定序变量有大小、高低次序之分。
十三、以下是某班参加业余活动的情况的调查:C=“书社”P=“摄影组”J=“舞蹈团”O=“体育组”C C C P O P C C C P O O P C O C P C C PO C P C C O C J C O O C P C C O O O O PO C O O O O P O P P(1)试作统计图和统计表某班参加业余活动情况的条形图某班参加业余活动情况的圆饼图:表1.1某班参加业余活动情况的调查表(2)选择适当的集中值和离散值,并讨论之。
集中值众值M0=书社则可知参加书社业余活动的人数最多中位值Md=N+1/2=25.5 中位值Md=摄影组均值=19+12+1+18/4=12.5离散值异众比率r=(N-fm0)/N=50-19/50=0.62 异众率比较高,则认为总数的代表性较差,所提供的信息量较少。
极差:R=观察的最大值-观察的最小值=18 极差大表示资料分散,人们选择的业余活动的人数有比较大的差异。
四分互差Q=Q75-Q25 Q50 的位置=50+1/2=25.5Q25的位置=50+1/4=12.75Q75的位置=3(50+1)/4=38.25Q25=书社Q75=体育组四分互差Q=Q75-Q25=体育组-书社可知有50%的人选择体育组和书社这两项活动方差=[(19-12.5)^2+(12-12.5)^2+(1-12.5)^2+(18-12.5) ^2]/4=51.31标准差=7.16。
第2章:单变量描述分析(下)
累计百分 比c%↑ 2 6 16 56 80 92 100
3、利用分组数据求中位数(只适用于定距变量):
N / 2 Fm 1 Md L h fm 50% c% m 1 Md L h pm
(公式中的N/2应该是有问题的,如果精确点,应该是(N+1)/2)
求中位数。
【解】 (1)计算向上累计频数 (2)找出中位数所在组,为40-49一组; (3)L=40,Fm-1=12,fm=19,h=10 (4)中位数
N / 2 Fm 1 34/2 - 12 Md L h 40 10 42 .6 fm 19
三、均值(Mean)
具体而言,先根据取值情况把这个“中间”个案 找出来,在把它的值作为中位数。 -》将所有个案按取值大小高低排列 -》找出位于中间的那个个案 -》找出这个个案的取值 中位数是把总数(总频数数)分成相等之两半的 那个个案的取值。 如果是条形图,则是两边的频数数之和相等,如 果是直方图,则是两边的面积相等,而不是横轴 的中点。
一、众数(Mode)
众数就是分布中频数或频率最高的变量值。 表1
生源地 华北 中南 华东 频数 350 230 410
东北
西北 西南
101
73 98
Notice
(1)众数是变量的一个取值或者一类,而不是这 个取值所对应的频数或频率。我们说美国非本土 语言的众数是“西班牙语”而非“170万”。 (2)不要求众数的频率超过50%。 (3)众数多用来测量定类变量,当然也可以测量 定序和定距变量。 (4)众数不唯一确定,有的给定数据没有众数, 有的只有一个众数,有的存在好几个众数。
L =中位数所在组之下限; N = 总频数数(样本总数) F m-1 =中位数所在组之下的累计频数(不包括此组); fm = 中位数所在组之频数; h = 中位数所在组之组距; c%↑m-1= 中位数所在组之下的累计频率(不包括此组); Pm=中位数所在组之频率;
单变量数据的描述和分析
单变量数据的描述和分析简介:在统计学中,单变量数据(univariate data)是指只有一个单独的变量的数据集合。
这种类型的数据通常用于观察、描述和分析一个特定的量或属性。
本文将讨论如何对单变量数据进行合适的描述和分析,以揭示数据集中的模式、趋势和分布。
一、数据描述1. 数据的基本统计量对于单变量数据,我们需要了解一些基本的统计量,以获得对数据的整体概括。
常见的基本统计量包括:(1)均值(mean):描述数据的平均水平,计算方法为将所有数据值相加后除以观测次数。
(2)中位数(median):描述数据的中间位置,即将数据按照大小顺序排列,取中间位置的值。
(3)众数(mode):描述数据中出现频率最高的值或值的集合。
(4)极差(range):描述数据的范围,即最大值与最小值之间的差异。
(5)方差(variance):描述数据的离散程度,计算方法为每个数据值与均值之差的平方的平均值。
(6)标准差(standard deviation):描述数据的离散程度,是方差的平方根。
2. 数据的分布图表除了基本统计量之外,数据的可视化也是揭示数据特征的重要方法。
以下是几种常见的单变量数据的分布图表:(1)频率分布表(frequency table):将数据按照不同的取值范围划分为区间,统计每个区间的频数或频率。
(2)直方图(histogram):将数据按照取值范围划分为一系列不相交的区间,描绘出每个区间的频数或频率的柱状图。
(3)箱线图(box plot):展示数据的分散情况,包括最大值、最小值、中位数、上四分位数和下四分位数等统计信息。
(4)饼图(pie chart):用于表示数据的比例关系,适用于离散型数据。
二、数据分析1. 总体推断通过单变量数据的描述,我们可以对所研究的总体进行推断。
总体推断是建立在样本数据上的,用于推断整个总体的特征和性质。
常见的总体推断方法包括:(1)参数估计:通过样本数据估计总体的参数,如均值、方差等。
知识点归纳总结
社会统计学整理第二章:单变量统计描述分析各种图:定类:圆瓣图、条形图定序:条形图定距:直方图、折线图组界:真实组界=标明组界0.5 条形图:定类变量:长条排列次序任意,条形离散。
定序变量:长条按序排列,条形是离散或紧挨。
直方图:由紧挨着的长条组成,面积表示频次或相对频次,高度是频次密度。
众值:用具有频数最多的变量值来表示集中值。
连续型变量用中心值来表示众值。
定类预测犯错最少。
异众比率:是非众值在总数N中所占的比例(:众值的频次)质异指数:理论上最多可能差异中实际出现了多少差异(k:类比数f:每类次数)中位值:定序预测犯错最少。
(也可以求25%和75%,改为和)n:中位值组的频次cf:含中位值区间的真实下界累积(向上)平次N:调查总数极差:极差=观察的最大值-观察的最小值四分互差:结论:50%位于*间均值:定距变量预测犯错最少。
标准差:第三章:概率互不相容:两者不能同时出现。
互为对立:不同时出现且两者相加为整体。
如果事件A与B互为对立,则必然满足互不相容,但逆定理不存在。
P(A);P(B),互不相容一定不满足互相独立,反之亦然。
互为对立与相互独立不能同时满足。
全概公式:逆概公式:方差:SKEWNESS(偏态)=>0:正偏态=0:对称<0:负偏态(峰在右边)KURTOSIS(峰态)=>0:正峰态=0:正态分布<0:负峰态(峰矮)第四章:二项分布及其他离散型随机变量的分布排列组合:第五章:正态分布、常用统计分布和极限定理大数定理:在什么条件下,随机事件可以转化为不可能事件或必然事件。
中心极限定理:在什么条件下,随机变量之和的分布可以近似为正态分布。
切贝谢夫不等式:贝努利大数定理:m是n次实验中事件A出现的次数,p是A每次出现的概率切贝谢夫大数定理:μ:数学期望:总体均值中心极限定理:只要n足够大,正态分布:众值=均值=中位值1S-68.26%;2S-95.46%;3S-99.37%;0.05-1.65;0.025-1.96;0.01-2.33;0.005-2.58;0.001-3.09;0.0005-3.30第六章:参数估计点估计:均值—样本均值成数—样本成数方差—样本方差S2是σ2的无偏估计,但S不是σ的无偏估计。
第二章单变量统计描述分析(练习题及答案)
第二章单变量统计描述分析(练习题及答案)第二章单变量统计描述分析一、填空1.统计表从内容上看,是由(主词)和宾词两部分构成的。
2.主词是统计表要说明的(对象,);宾词是用来说明主词的(标志和标志值)。
3.变量数列有两个构成要素(变量值)和(频数)。
4.统计表通常有一定格式,统计表各部位的名称分别是(总标题)、横行标题、纵栏标题、(统计数值)。
5.对于连续变量,恰是某一组限的数据应按照(上组限不包括在内)的原则归入相应的组别。
6.统计表按主词的分组情况,可分为简单表、简单分组表和(复合分组表)。
7.统计分组的关键在于(选择分组标志)和划分各组界限。
二、单项选择题1.统计表的数字部分中符号“……”代表的含义是(B)。
A.某项数字不存在B.缺少某项数字C.某项数字较大D.提醒注意核计2.某城市男性青年27岁结婚的人最多,该城市男性青年平均结婚年龄为26.2岁,则该城市男性青年结婚的年龄分布为( B )。
A.正偏B.负偏C.对称D.不能作出结论3.上限与下限之差是(B)。
A.组限B.组距C.组中值D.极差4.小吴为写毕业论文去搜集数据资料,(D)是次级数据。
A.问卷调查上的答案B.班组的原始记录C.车间的台账D.统计局网站上的序列5.为掌握商品销售情况,对占该市商品销售额80%的五个大商场进行调查,这种调查方式属于(B)。
A.抽样调查B.重点调查C.统计报表D.普查6将总体中的各单位按某一标志排列,再依固定间隔抽选调查单位的抽样方式为(D)。
A.简单随机抽样B.整群抽样C.分层抽样D.等距抽样7在进行数据分组时,首先考虑的是(D)。
A.分成多少组B.各组差异大小C.分组后计算方便D. 选择什么标志分组8如果统计表中数据的单位都一致,我们可以把单位填写在表格的(A)A.右上角B. 右下角C.左上角D.左下角9. 现有某地区部分住户住房满意调查数据资料,其中包含有性别、文化程度、从业状况、家庭月可支配收入、人均住房面积、住房满意度、计划购买面积等字段。
第二章单变量统计描述分析
第⼆章单变量统计描述分析第⼆章单变量统计描述分析第⼀节单变量统计描述基本技术⼀、变量的计量尺度/层次1、定类变量——最低层次的变量类型。
只有类别属性之分,⽆⼤⼩程度之分。
根据变量值,只能知道研究对象的异同。
从数学运算特性来看,定类变量只有等于或不等于的性质。
2、定序变量——层次⾼于定类变量。
取值除类别属性外,还有等级、次序之分。
数学运算特性除等于或不等于外,还有⼤于或⼩于。
3、定距变量——层次⾼于定序变量。
取值除类别属性、次序之外,取值之间的距离可以⽤标准化的举例度量。
数学运算特性除等于不等于,⼤于⼩于之外,还可以加减。
如收⼊,以1元为标准化距离,则2000元⽐1500元多了500元。
4、定⽐变量——最⾼层次变量。
除了上述三种属性外,可以进⾏乘除运算。
1、社会学研究中,能够满⾜定距⽽不能同时满⾜定⽐要求的变量不多。
如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。
当前社会统计⽅法很少要求达到定⽐层测,所以只介绍前三种层次变量。
2、在社会学研究当中,有些变量的层次是不统⼀可变的,可⽤定序层次也可⽤定距层次,根据研究需要。
⾼层次变量可以降低层次来使⽤。
⼀般来说,测量层次越⾼越好,数学特性就越多,统计分析就越⽅便,能了解资料的程度就越深⼊。
⼆、基本技术1、次数分布(定类)——针对定类变量最基本的统计分析⽅法。
⾯对⼤量的数据资料,⾸先要组织整理,第⼀步就是要采⽤次数分布来简化资料,看某变量的每⼀个值出现的次数是多少。
定类变量的取值要求:变量取值必须完备,使得每个各观察值都有所归类;必须互斥,⼀个观察值只能归⼊⼀类,对于分组数据遵循上限不包括在内原则。
次数分布可简化资料,但不能⽐较样本,因为样本量不同。
2、⽐、⽐例和⽐率(通常保留⼀位或两位⼩数)⽐:某两类的次数相除,如性别⽐=男性/⼥性⽐例:某类次数除以总数,⽼年⼈⼝⽐例=⽼年⼈⼝数/总⼈⼝数×100%⽐率:某⼀确定变量相对应的某些事件发⽣的频率。
社会统计学3
3. 均值计算:3. 均值算:四、众值、中位值、平均值的性质 众值性质: 1.分组资料中,众值受上下相邻两组频数 大小影响,而不受极端值的影响。 2.受抽样变动影响较大。 3.在反映集中趋势指标中,众值不唯一。 4.在频数分布中,众值标示其“峰值”所 对应的位置,优点—易区分偏态、单峰、 多峰
中位值性质: 1.中位值不受极端值影响。 2.分组资料有开放组时,仍可求中位值。 3.中位值受抽样变动的影响比均值略大。
均值性质: 1.各变量值与平均值的离差和为0。 2.各变量值与平均值离差的平方和小于它 们对任何其它数偏差的平方和。 3.平均值受抽样变动影响微小,是反映总 体分布集中趋势的最佳指标。 4.平均值受极端值影响较大。 5.分组数据有开放组时,不经处理,不能 计算平均值。
五、几何平均数
1. 几何平均数 N个变量值连乘积的N次方根,用Mg 2. 用途: 用以计算某种比率的平均数 用以计算大致具有几何级数关系的一组数字的平均数 3. 公式: N
Mg = X1X2X3…XN
六、调和平均数
1. 调和平均数 N个变量值倒数算术平均数的倒数,用Mh 2. 公式: 1
Mh = 1 X1 1 X2 1 X3 N … 1 XN
用此公式计算上例: Md=L+(N/2-cf )(U-L)/n =25+(212/2-94)(35-25)/30 =29 中位值具有估计或预测的意义。如上例机 械化率研究,假定从212个乡中任取一个乡, 我们应估计其机械化率是29%,长远来说, 以中位值去估计定序变量的数值,所犯的 错误总数是最小的。
3.中位值的计算 原始资料 分组资料
(1)原始资料 方法:Ⅰ 将各个案由小到大排序,居于序列中央位置 的个案的值就是中位值 Ⅱ 求出Md 位置: Md 位置=(n+1)/2 Ⅲ 求出Md
第二章单变量的描述统计ppt课件
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法
家庭结构 核心家庭 直系家庭 联合家庭 其它 总数(合计)
频率 0.493 0.338 0.052 0.117 1
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法
一、变量及其分布 (二)变量的分布 • 3、累计频率分布:将上述频率分布中的频率按变量的取值排
图2-3 2000年全国家庭户主受教育程度分布
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法
• 折线图在描述事物变化趋势时更常用:
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法
二、统计图 • (二)描述尺度变量分布特征的统计图
• 1、直方图: • 描述尺度变量分布,用条形长短或高低来表现数据大小。 • 与简单条形图不同的是,条的宽度表示分组的组距,条与
二、统计表
(三)描述尺度变量分布特征的统计表——分组表 • 1、分组表的制作步骤:确定全距;确定组距与组数;确定各组
的上下限。;登记各组中个案的频次,计算频率。
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法
二、统计图 统计图就是用图的形式来表示变量的分布特征。
• 比统计表更直观、生动、易记忆,缺点是不如统计表精确。
• 对取值很多的尺度变量,通常将变量的取值划分成段,如年龄 段、收入段,再累计该段中的人数,来表示变量的分布。
• 尺度变量取值的数据有两种:
– 离散性数据,如年龄。通常取整数,在相邻的两个数之间 不存在其它的数据。
– 连续性数据,如身高。如果测量的单位可以达到无穷小的 话,理论上,任何两个数之间都有无穷多个数。尺度变量 的分布在统计表中予以详细说明。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
5 6 7 8 9 10
1.355~
1.385~ 1.415~ 1.445~ 1.475~ 1.505~ 1.535~1.565 2
22
24 24 10 6 1 1 3
22
24 24 10 6 1 1
34
58 82 92 98 99 100 4 1
3.离散趋势测量法 P55.
3.离散趋势测量法 P55.
方差、标准差
√
3.离散趋势测量法小结 P58.
•四种变异度对资料峰点、对称的要求
变异度 异众比率 极差 四分互差 对称 √ √ √ 不对称 √ √ √ 单峰 √ √ √ √ √ 多峰*
方差、标准差
√
√
√
√
*对于多峰数据,提示其潜在的异质性群体来源,建议分组分析
3.离散趋势测量法小结 P58.
•四种变异度与对应的集中趋势测量法
负偏(左偏态)
1.分布、统计表、统计图 P34.
• 根据研究目的、变量的层次,选择合适统计图形 • 折线图(Line graph/Polygon)—时间序列资料/频数分布
年份 2001 2002 2003 2004 2005 2006 2007 农村居民收入 2366 2476 2600 2936 3255 3587 4140 4761 5153 5919 6977 7917 8896 城镇居民收入 6860 7703 8472 9422 10493 11759 13786 15781 17175 19109 21810 24565 26955
8 9
10
1.475~ 1.49 1.505~ 1.52
1.535~1.565 1.55
6 1
1
8.94 1.52
1.55
2.集中趋势测量法小结 P49.
•三种帄均值的适用的变量层次
帄均值 众数 中位数 算数均数 定类(分类) √ 定序(等级) √ √ 定距 √ √ √ 定比 √ √ √
2.集中趋势测量法小结 P49.
顶线
层次线
隔线
合计线
底线
1.分布、统计表、统计图 P24.
• 统计表的构成要素:线条、文字、数值 • 线条:三至五条横线
1.分布、统计表、统计图 P24.
• 统计表的构成要素:线条、文字、数值 • 文字:标题、标目、注释
标 题
横 标 目 主词
纵 标 目宾词
注
释
1.分布、统计表、统计图 P24.
8 9
10
1.475~ 1.49 1.505~ 1.52
1.535~1.565 1.55
6 1
1
2.集中趋势测量法 P48.
• 例:100名男童的身高如下表,求其算数均值。
组段 1 2 3 4 5 6 7 中心值 界限值(xi) 1.265~ 1.28 1.295~ 1.31 1.325~ 1.34 1.355~ 1.37 1.385~ 1.40 1.415~ 1.43 1.445~ 1.46 例数 (ni) 1 4 7 22 24 24 10 中心值×例数 1.28 5.24 9.38 30.14 33.60 34.32 14.60
2.集中趋势测量法 P44.
2.集中趋势测量法 P44.
100位同龄男童的身高(m)分布表
组段 1 2 3 界限值 1.265~ 1.295~ 1.325~ 例数 1 4 7 频率(%) 1 4 7 累积频率(%) 1 5 12
4
5 6 7 8 9 10
1.355~
1.385~ 1.415~ 1.445~ 1.475~ 1.505~ 1.535~1.565 2
8
9 10
1.475~
1.505~ 1.535~1.565
6
1 1
6
1 1
1.分布、统计表、统计图 P33.
• 根据研究目的、变量的层次,选择合适统计图形 • 圆瓣图(Pie graph)—定序、定类;内部构成
1.分布、统计表、统计图 P34.
• 根据研究目的、变量的层次,选择合适统计图形 • 条形图(Bar graph)—定序、定类;频次、汇总数值
– “城市家庭资产的中位数仅40.5万元,与帄均数247.60万元差距悬 殊”
2.集中趋势测量法小结 P49.
• 中位数 vs. 算数均数
– 对于偏态分布资料,算术均数受极端值的影响,偏离 了“中心”位置,不再合理反映“集中点”
– 所以对于偏态分布数据,多采用中位数反映帄均水帄
– 而对于近似对称分布数据,二者均可以反映帄均水帄 ,但是算术均数对数据的变化反映较中位数灵敏,得 到的指标更精确
•不同层次变量、不同类型分布的变量,采用不同 的离散趋势测量法
3.离散趋势测量法 P52.
3.离散趋势测量法 P52.
• 极差(Range, R):极大值与极小值之差
• R=Max-Min • 适用于存在明确极大值与极小值的定距、定比变 量 • 通常,R小提示变异小,R大提示离散趋势大
3.离散趋势测量法 P52.
3.离散趋势测量法 P53.
9 位 9位数对其影响力为25%
9.75 位
10 位
10位数影响力 为75%
3.离散趋势测量法 P53.
100位同龄男童的身高(m)分布表
组段 1 2 3 界限值 1.265~ 1.295~ 1.325~ 例数 1 4 7 频率(%) 1 4 7 累积频率(%) 1 5 12
社会统计学 Social Statistics
第二章 单变量统计描述分析
福建医科大学公共卫生学院 流行病学与卫生统计学系 林征 2015.8
章节概要
•分布、统计表、统计图
•集中趋势测量法
•离散趋势测量法
1.分布、统计表、统计图 P21.
1.分布、统计表、统计图 P24.
•统计表的构成要素:线条、文字、数值 •线条:三至五条横线
2.集中趋势测量法 P47.
2.集中趋势测量法 P48.
•例:100名男童的身高如下表,求其算数均值。
100位同龄男童的身高(m)分布表
组段 1 2 3 界限值 1.265~ 1.295~ 1.325~ 例数 1 4 7 频率(%) 1 4 7 累积频率(%) 1 5 12
4
5 6 7 8 9 10
3.离散趋势测量法小结 P58.
•四种变异度适用的变量层次
变异度 异众比率 极差 四分互差 定类(分类) √ 定序(等级) √ 定距 √ √ √ 定比 √ √ √
方差、标准差
√
√
3.离散趋势测量法小结 P58.
•四种变异度对资料信息的利用度
变异度 异众比率 极差 四分互差 变量值频次 √ √ √ 变量值位置 变量值大小
2.集中趋势测量法 P43.
• 简化资料:使用某个典型的变量特征值,代表全体变量特 征值——帄均值(集中趋势) • 三种常用的帄均值:众数(频次)、中位数(位置)、算 数均数(大小) • 选择依据:变量的层次,分布类型,误差最小
2.集中趋势测量法 P43.
• 众值 Mo
– 具有最多频次的变量值 – 最易求出,各类层次变量均可使用 – 仅适用于单峰分布;对于数据不重复的变量值(未分 组的定距、定比层次变量),无法直接计算众数;连 续型变量值(定距、定比层次变量),改变组距可能 改变众数;算数均值较众数精确,误差也小
2.集中趋势测量法小结 P49.
•三种帄均值对资料峰点、对称的要求
帄均值 众数 中位数 算数均数 对称 √ √ √ 不对称 √ √ √ 单峰 √ √ √ √ √ 多峰*
*对于多峰数据,提示其潜在的异质性群体来源,建议分组分析
2.集中趋势测量法小结 P49.
•三种帄均值的相对大小关系*
帄均值 众数 中位数 算数均数 对称 同 同 同 正偏 小 中 大 负偏 大 中 小
1800 1500 1200 900 600 300 0
1.分布、统计表、统计图 P34.
• 根据研究目的、变量的层次,选择合适统计图形 • 直方图(Histograms)—定距、定比;分布
1.分布、统计表、统计图 P40.
• 数据分布形态:峰点、对称(负偏、对称、正偏)
正偏(右偏态)
对称(近似正态)
对称或近似 对称分布
偏态分布
建议分组分析, 分组后同单峰 分布资料
算数均数
中位数
3.离散趋势测量法 P51.
• 5户干部家庭与6户工人家庭的帄均人口数均为7人 ,能否说明干部家庭与工人家庭的人口数量特征 趋于相同?
3.离散趋势测量法 P51.
•数据分布的另一个重要特征,反映各变量值远离 其中心值的程度(离散趋势),也称为变异度 •从另一个侧面说明了集中趋势的代表性好坏
• 统计表的构成要素:线条、文字、数值 • 数值:阿拉伯数字,小数点对齐
1.分布、统计表、统计图 P29.
• 定距、定比变量的频数分布表:计算极差→确定组数→确 认组距→分组划计
组段 1 2 3 4 5 6 7 界限值 1.265~ 1.295~ 1.325~ 1.355~ 1.385~ 1.415~ 1.445~ 例数 1 4 7 22 24 24 10 频率(%) 1 4 7 22 24 24 10
•三种帄均值对资料信息的利用度
帄均值 众数 中位数 算数均数 √ 变量值频次 √ √ √ 变量值位置 变量值大小
2.集中趋势测量法小结 P49.
• 选择合理的集中趋势测量法
– 《中国家庭金融调查报告》
– “城市家庭资产的帄均数为247.60万元”
– “资产最多的10%家庭占全部家庭总资产的比例高达84.6%”
22
24 24 10 6 1 1 3
22
24 24 10 6 1 1