资料统计分析——单变量描述统计解析

合集下载

单变量描述统计分析

单变量描述统计分析

6
9.2二项Logistic回归分析
二项Logistic回归方程: P 设 P (Y 1) P ,称 为发生比(Odds)或 1 P 相对风险,则定义

P
p P ln( ) 0 i xi 1 P i 1 1
1 exp[( 0 i xi )]

2

问题3:在流行病学的研究中,有一类常见问题是 探索某疾病的危险因素,同时根据危险因素预测某 疾病发生的概率。例如,想探讨胃癌发生的危险因 素,选择两组人群,一组胃癌患者,另一组非胃癌 患者,这形成了因变量。两组人群肯定有不同的体 征和生活方式,自变量可以包括很多,例如:年龄 、性别、饮食习惯、幽门螺杆菌感染等。

9
相对风险比(胜算比,odds ratio)的意义 0dds ratio:在自变量处于不同的水平时的胜算,加 以比较(两个胜算的比值),称为胜算比。 例如:大公司成功经营的概率为10/11,小公司成功 经营的概率为2/13, 则大公司成功经营的胜算为(10/11)/(1/11)=10 小公司成功经营的胜算为(2/13)/(11/13)=0.182 即Odds ratio=10/0.182=55, 即可以解释为大公司的成功胜算为小公司成功胜算的 55倍。
11
二项Logistic回归方程的参数估计: 一般的线性回归模型适合于使用最小二乘法进行估计 ,但是,由于Logistic回归模型中随机扰动项并不满足 经典假设,所以需要使用极大似然法估计。

ˆ 估计就是使Ln(L)达到最大的 。
12
二项Logistic回归方程的检验



回归方程的显著性检验 目的:检验解释变量全体与LogitP (定义LogitP=ln) 的线性关系是否显著,是否可以用线性模型拟合。 检验思想:设没有引入任何解释变量的回归方程的 似然函数为 L0 ,引入解释变量之后回归方程的似然 0 L0 / L1 1 函数值为 L1 ,则似然比为 L0 / L1 。显然, ,且 0 L0 / L1 1 越接近于1,则表明模型中的解释 变量对模型总体没有显著贡献;反之,越接近于0 ,则表明引入变量对模型具有显著贡献。

单变量统计分析与双变量统计分析

单变量统计分析与双变量统计分析

• 在平均数不为零的条件下,离散系数越大,表 明数据的离散程度越大,而所对应的集中趋势 统计量的代表性就越小;反之,则数据的离散 程度越小,集中趋势统计量的代表性就越大。
• 应用举例:
1)一项调查得到下列结果,某市人均月收入为92元 ,标准差为17元;人均住房面积7.5米’,标准差为 1.8米’。试比较该市人均收入和住房情况哪一个差 异程度比较大。
– 一是简化资料,即将调查所得到的一长串原始数 据,以一个十分简洁的统计表反映出来;
– 二是从频数分布表中,我们可以更清楚地了解调 查数据的众多信息。
• 所谓频率分布,则是指一组数据中不同取值的 频数相对于总数的比率分布情况,这种比率通 常以百分比的形式表达,而频率分布情况同样 以频率表的形式出现。下表2就是上例对应的 频率分布表。
• 例如,某班有25名学生,其年龄情况如下 :20, 19,18, 19,18,20, 21, 17, 18, 18, 19,19, 20,19,19, 17, 18 , 20, 19, 19,21,21,19,20, 19。 则该班学生的年龄分布则为下表(见表1)
• 频数分布表的作用主要有两方面:
– 不难理解,这个80分对中文系队同学的代表性最 高,而对政治系队同学的代表性最低。
• 因此,离散趋势的各种统计量,一方面揭示出 数据相互分离的程度;另一方面又对相应的集 中趋势统计量的代表性作出判断。
• 结论:集中趋势统计量的代表性与所对应的离 散趋势统计量是反比关系,即离散趋势统计量 越大,则所对应的集中趋势统计量的代表性就 越小;反之,则越大。
– 例3 调查某厂100名职工的收入情况如下(右表) ,求他们的平均收入。(212)
年龄(岁)
17 18 19 20 21 22 合计

单变量分析

单变量分析

表1.
学 历 小学以下 中学 高中 中专 大专 大学 硕士 博士 合计
97年统计学历分布 年统计学历分布
人 1 72 44 13 52 58 4 7 300 数
频率分布
频率分布是一组数据中不同值的个案相对于总 数的比率分布情况,常用频率分布表表示。 数的比率分布情况,常用频率分布表表示。
表1.
常见的离散量数统计量有:
全距 标准差 异众比率 四分位差
全距(Range) 全距
全距也叫极差,它是一组数据中 最大值与最小 全距也叫极差 它是一组数据中,最大值与最小 它是一组数据中 值之差. 值之差
中文系:78, 79, 80, 81. 82 中文系:78, 数学系:65, 数学系:65, 72, 80, 88, 95 外语系:35, 外语系:35, 78, 89, 98, 100
中位数(Median) 中位数(Median)
1. 把一组数据按值的大小顺序排列起 来,处于中央位置的那个数值就叫中位 数. 2. 它描述的是定序变量以上层次的变 量. 3. 它的含义是整个数据中有一半数值 在她之上,另一半数值在它之下. 在她之上,另一半数值在它之下. 公式为: Md=(n+1)÷ 公式为: Md=(n+1)÷2
原始资料计算中位数
调查五个工厂的职工人数, 规模依次为300人, 调查五个工厂的职工人数, 规模依次为300人 300 200人 800人 500人 1000人 求中位数。 200人, 800人, 500人, 1000人.求中位数。 排列大小:200、300、500、800、1000 排列大小:200、300、500、800、 依据公式(5+1)÷ 依据公式(5+1)÷2=3 第3位为中间位置 (5+1) 所对应的数值500人即为中位数. 所对应的数值500人即为中位数. 500人即为中位数

实验一、变量的描述性统计分析

实验一、变量的描述性统计分析

【实验名称】实验一、变量的描述性统计分析【实验目的】1、掌握在Eviews中建立工作文件的方法;2、掌握单变量序列的描述统计分析;3、利用有关命令,进行多变量的相关分布,会绘制多变量的散点图。

【实验内容】P42-练习题2:查找近二十年来我国财政收入和国内生产总值的数据,利用EViews软件分别以菜单方式和命令方式建立EViews文件,并进行初步的描述性分析。

【实验步骤及结果】一、查找原始数据:在网上查找到1978年-2008年我国财政收入和国内生产总值的数据,将其复制粘贴制作成EXCEL。

EXCEL如下所示:二、导入数据:打开Eviews,点击菜单中的下拉依次选择,,如下图所示。

输出如下图对话框,选择相应的文件,点击打开,再点击finish按钮即可。

得到如下的财政收入y和国内生产总值gdp的数据表:三、单个序列的分析:(1)、折线图:在对话框内输入line语句:依次得到如下财政收入y和国内生产总值gdp单个和合起来的折线图如下所示:从上图中我们可以看出财政收入y和国内生产总值gdp都随着时间不断增长,且存在一定的趋势性。

(2)、直方图:在对话框内输入bar语句:得到如下财政收入y和国内生产总值gdp的直方图如下所示:从上图中我们同样可以看出财政收入y和国内生产总值gdp都随着时间不断增长,且存在一定的趋势性。

(3)、P值:在对话框内输入hist语句:得到如下财政收入y和国内生产总值gdp的描述性统计图:从上图中可知财政收入y的均值是11703.27,中位数是4348.95,最大值是61330.35,最小值是1132.26,标准差是15425.52,偏度是1.86,峰度是5.74,P值接近于0。

从P值可知,序列在99%的置信水平下拒绝原假设,即财政收入y不服从正态分布。

从上图中可知国内生产总值gdp的均值是72289.11,中位数是35333.9,最大值是314045.4,最小值是3645.2,标准差是82654.74,偏度是1.40,峰度是4.22,P值接近于0。

社会调查方法_风笑天_第九章资料的统计分析(Ⅰ)分解

社会调查方法_风笑天_第九章资料的统计分析(Ⅰ)分解

一、单变量描述统计
2、集中趋势分析
(3)中位数:把一组数据按值的
大小顺序排列起来,处于中央位置 的那个数值就叫中位数。 • 中位数的求法: A.单值分组数据
(n+1)÷2=(150+1)÷2=75.5
年龄(岁) 人数(频数) 累计频数↓ 累计频数↑
17 18 19 20
10 25 50 40
10 35 85 125
C.组距分组资料计算:先计算出各组的组中值,然后按单值分组资料计算 公式和方法计算即可。
一、单变量描述统计
3、离散趋势分析
(3)异众比率:一组数据非众数的次数相对于全部单位的比率。
VR n fm n
• 异众比率的意义与作用 (4)四分位差:先将一组数据按大小排列成序,然后将其4等分,去掉序列中
400
即16.7%—23.3%
二、单变量推论统计
2、假设检验
• 假设检验的含义 • 假设检验的依据——小概率原理 • 假设检验的步骤:
(1)建立虚无假设和研究假设,通常是将原假设作为虚无假设; (2)根据需要选择适当的显著性水平a(即概率的大小),通常有。a=0.05, a=0.01等; (3)根据样本数据计算出统计值,并根据显著性水平查出对应的临界值; (4)将临界值与统计值进行比较,以判定是接受虚无假设,还是接受研究假设。
二、单变量推论统计
2、假设检验
(2)总体百分比的假设检验 • 例 一所大学全体学生中抽烟者的比例为35%,经过学习和戒烟宣传后, 随机抽取100名大学生进行调查,结果发现抽烟者为25名。问戒烟宣传是 否收到成效? • 解 设 H 0 : p0 0.35
H1 : p10.35 选择显著性水平 a=0.05 ,查表得 Z(0.05) 1.65

单变量统计分析

单变量统计分析

单变量统计分析在进行两组样本间的差异代谢物分析时,常用的单变量分析方法包括变异倍数分析(Fold Change Analysis,FC Analysis)、T 检验,以及综合前两种分析方法的火山图(Volcano Plot)。

利用单变量分析可以直观地显示两样本间代谢物变化的显著性,从而帮助我们筛选潜在的标志代谢物(通常以FC > 2.0 且P value < 0.05 作为筛选标准)。

下图显示了数据的火山图,图中枚红色点为FC > 2.0 且P value < 0.05 的代谢物,即单变量统计分析筛选的差异代谢物。

其余各组的火山图会以附件形式给出。

火山图分析注:数据结果的火山图(Volcano Plot),绿、红色点为显著性差异代谢物(P value < 0.05)百泰派克选择有多维统计分析筛选标准(VIP>1)和单变量统计分析筛选标准(FC > 2.0 且P value < 0.05)的代谢物作为具有显著性差异的代谢物(图12)。

鉴定出的显著性差异代谢物会以表格形式给出。

显著性差异的代谢物How to order?关于百泰派克北京百泰派克生物科技有限公司(Beijing Bio-Tech Pack Technology Company Ltd. 简称BTP)成立于2015年,是国家级高新技术企业,业务范围主要围绕蛋白和小分子代谢物检测两大板块,从事蛋白质和小分子代谢物的理化性质分析及结构解析等相关技术服务,为客户提供高性价比、高效率的技术服务。

深耕蛋白鉴定、定量蛋白组(iTRAQ/TMT、label free、DIA/SWATCH)、PRM靶蛋白定量、蛋白和抗体测序、蛋白修饰(二硫键、糖基化、磷酸化、乙酰化、泛素化等)、靶向和非靶向代谢物检测。

百泰派克生物科技检测平台包括:检测分析平台、蛋白质组学分析平台、代谢组学分析平台、蛋白质从头测序平台、生物制药分析平台和流式细胞多因子检测平台。

第八讲:单变量描述统计分析.

第八讲:单变量描述统计分析.

第五节:离散趋势测量法
1. 所谓离散趋势,是指用一个或几个值来 测量不同样本(个案)之间的差异情况;与 集中趋势测量法相互补充,反映集中趋势测 量的代表性程度大小。 2. 与集中趋势相同的是,不同层次的变量 有不同的离散趋势测量法。
2.1 定类变量的离散趋势测量
对于定类变量,可以采用异众比例来测量个 案之间的离散性程度。 公式: v n f mo fmo是指众值的频次 n 异众比例越大,说明众值的代表性越低;当 运用众值来预测变量时,所犯的错误会越大
7.3 定距变量分布表
假如某定距变量有100个取值,如100个儿 童的身高;将其制作成分布表; 思路:进行分组统计,转化为定类变量再进 行统计。 方法:确定组数→确定组距→确定分点精度 (比原始数据提高一位精度)→频次统计。
第三节:如何制作分布图?
不同类型变量,可以制作不同类型的图。 1.定类变量:条形图,饼状图; 2.定序变量:条形图; 3.定距变量:直方图; 利用excel作图。
232频次分布数据求方差和标准差频次分布数据求方差和标准差222222iiiiiiiifxxfxfxfxxnnnn???????????222iiiifxxfxxnn???????233分组资料求方差和标准差?用组中值bi来代替个案取值
第八讲:单变量描述统计分析
本讲关注的主要问题
1.什么是单变量分析? 2.变量分布特征; 3.如何制作统计图表? 4.集中趋势分析法; 5.离散趋势分析法;
累积比例
20 .0 95 .3 97 .7 10 0.0
未婚 已婚 离婚 丧偶
To talຫໍສະໝຸດ 11 60 44 40 13 4 15 0 58 94
2.1.1 众值测量法

第四讲单变量分布描述

第四讲单变量分布描述

Std. Error 11.42646
554.4785
494.0708 455.0000 174694.6 417.96480
.00 8000.00 8000.00
321.00 7.748 107.402 396.6563 379.8223
.067 .134 8.57845
413.4902
379.0463
步骤2:从左侧变量框,选择分析变量
步骤3:点击“Option”,弹出对话框
步骤4:点击“Continue”和“OK”
3、Explore
三个功能项中最强大的一个 适用于性质和分布不明的数据资料,故称 为探索性分析 在常用描述统计指标基础上,增加了有关 数据详细分布特征的数字和图形描述
Explore的基本操作
Ascending Counts:根据频数从小到大作频数分布
Descending Counts:根据频数从大到小作频数分布
Outliers:输出五个最大值和五个最小值
Percentiles:输出第5%,10%,25%,50%,75%,90%,95%分位数
Histogram
标准差
样本中各个观测值与均值的平均差异 样本个体间的变异程度指标,反映了整个 样本对样本平均数的离散程度
选择“Percentiles:20” :
选择“Central Tendency”的4个选项 :
选择“Dispersion”的6个选项 :
选择“Distribution”的2个选项 :
条图
饼图
直方图
Ascending Values:根据变量取值从小到大作频数分布
Descending Values:根据变量取值从大到小作频数分布
s (X X )2 n

第十章 定量资料分析(《社会研究方法(第五版)》_风笑天)

第十章 定量资料分析(《社会研究方法(第五版)》_风笑天)


12
10
3

8
30
5
低 合计
4
16
12
24
56
20
合计
25 43 32 100
Ns= 12(30+5+16+12)+ 10(5+12) + 8(16+12)+ 30(12)=1510
Nd= 3(30+8+16+4)+ 10(8+4)
+ 5(16+4)+ 30(4)=514
G=(1510-514)/(1510+514) =0.49
40 50 10 100
结论:青年的性别与志愿两个变量之间呈中等程度 的相关。
定序变量与定序变量
Gamma系数
同序对数目
G NS Nd NS Nd
异序对数目
检验:Z检验
z G NS Nd n(1 G2 )
具体计算过程
工人文化程度与收入水平交互分类表
收入水平
文化程度
大学以上 中学 小学以下
把数据代入总体比例的区间估计公式
1.65
20%± Z(1-a)
20%(1-20%)
400
计算得出总体均值的置信区间为
16.7%——23.3%
第三节 双变量统计分析
一、交互分类与χ2检验
将调查所得的一组数据按照两个不同的变量进行综合分类。
表1 文化水平与工资水平的交互分类表(%)
工资收入
低 中 高 (n)
根据原始数据求平均数
X =x/n
根据单值分组资料求平均数
X =xf/f
根据组距分组资料求平均数

第二章单变量统计描述分析

第二章单变量统计描述分析

第⼆章单变量统计描述分析第⼆章单变量统计描述分析第⼀节单变量统计描述基本技术⼀、变量的计量尺度/层次1、定类变量——最低层次的变量类型。

只有类别属性之分,⽆⼤⼩程度之分。

根据变量值,只能知道研究对象的异同。

从数学运算特性来看,定类变量只有等于或不等于的性质。

2、定序变量——层次⾼于定类变量。

取值除类别属性外,还有等级、次序之分。

数学运算特性除等于或不等于外,还有⼤于或⼩于。

3、定距变量——层次⾼于定序变量。

取值除类别属性、次序之外,取值之间的距离可以⽤标准化的举例度量。

数学运算特性除等于不等于,⼤于⼩于之外,还可以加减。

如收⼊,以1元为标准化距离,则2000元⽐1500元多了500元。

4、定⽐变量——最⾼层次变量。

除了上述三种属性外,可以进⾏乘除运算。

1、社会学研究中,能够满⾜定距⽽不能同时满⾜定⽐要求的变量不多。

如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。

当前社会统计⽅法很少要求达到定⽐层测,所以只介绍前三种层次变量。

2、在社会学研究当中,有些变量的层次是不统⼀可变的,可⽤定序层次也可⽤定距层次,根据研究需要。

⾼层次变量可以降低层次来使⽤。

⼀般来说,测量层次越⾼越好,数学特性就越多,统计分析就越⽅便,能了解资料的程度就越深⼊。

⼆、基本技术1、次数分布(定类)——针对定类变量最基本的统计分析⽅法。

⾯对⼤量的数据资料,⾸先要组织整理,第⼀步就是要采⽤次数分布来简化资料,看某变量的每⼀个值出现的次数是多少。

定类变量的取值要求:变量取值必须完备,使得每个各观察值都有所归类;必须互斥,⼀个观察值只能归⼊⼀类,对于分组数据遵循上限不包括在内原则。

次数分布可简化资料,但不能⽐较样本,因为样本量不同。

2、⽐、⽐例和⽐率(通常保留⼀位或两位⼩数)⽐:某两类的次数相除,如性别⽐=男性/⼥性⽐例:某类次数除以总数,⽼年⼈⼝⽐例=⽼年⼈⼝数/总⼈⼝数×100%⽐率:某⼀确定变量相对应的某些事件发⽣的频率。

社会调查方法第九章 资料的统计分析(一)——单变量分析

社会调查方法第九章  资料的统计分析(一)——单变量分析
基础。
社社会会调调查查方方法法((第第三三版版))
新新编编2211世世纪纪思思想想政政治治教教育育专专业业系系列列教教材材
二二、、社频会数调表查和的直作方用图
因实1基1的达分. 此 或 础.描。 。 数频现。,从 虽述社“”段对频数象总然状会所频的收数表背体有况调谓数学集表后而人查频分生数和的言认的数布数据频本,为作社分表量的率质描用会布显相最表;述预也调,示对初的就状测主查了 于处 作是况趋要的各总理 用指是势体目个的往 是一缺现,的有分学往 显组乏在有助数生是 而数含三三于段数希 易据金个个应的量望 见中量方方对学的获 的取的面面未生相得 。不研::描来数对该 通描同究述。量比数 过述值,但,状率据 对事但的对,况的 数实个这很某,分据、案就多有种布进解的时是利社行,释次候频于而会这现数率,正我对现样象分分确们于象的和布布认更社进处探情表识习会行理索况。社惯研描,本,会原它于究述质现有一以者,是、实的百般而科人;数分以解言学们据频比释, 预深频被的数原测入数简形分因和研分化布式,有对究布,来表异助策该是呈的常于研现最现形庞探究象常各式杂索。的见种表的事 数据都能被整合进简洁的表格来呈现;同时,从频数/频率表中,我们不仅能够看到整个数据的分布范围,更 能直观地看到各个类别的数据的分布,方便对各个类别进行比较。相对于频数表而言,频率表将整个数据 都限定在100%,实际上是一种标准化的过程。这样,不同的变量(数据)之间的初步比较也成为可能。从变 量的测量层次的角度,不难看出,频数/频率表对于定类变量和定序变量是更为合适的。
社社会会调调查查方方法法((第第三三版版))
新新编编2211世世纪纪思思想想政政治治教教育育专专业业系系列列教教材材
二三、、社集会中调趋查势的的作度用量
因实1基据集1来. 此 或 础.描的 中 再均现。,从 虽述社数情除集均值象总然状会值况以中值背体有况调。。累趋是后而人查最加势社“的言认的常数从会集本,为作社见的最调中质描用会的个简查趋;述预也调集数单研势状测主查中 。的 究”况趋要的趋 根意 中在是势体目势 据义 使字缺现,的有的 不理 用面乏在有助度 同解 得上含三三于量 的就 最所金个个应有 资是 为指量方方对三 料计 普代的面面未种 类算 遍的研::描:来型和 的描均是究,述。了 集述我值,用,但状解 中事们、一对况平 趋实一中个某,均势、般有位有种数度解分利数代社量(释两以于a表会v,现种正及也e性现r象方确众称a的象g和式认数为指e进探)计识。算,标而行索算社术来平描本均会平反均述质值现均映数,是、:实数简整是科人;,单解组是能学们算释数将够预深术原据所最测入平因向有好和研均,这的有地对究数个数助代策该和指据于表研现加标累探一究象权值加索组。的算的起事数 术平均数。 2. 中位数

单变量统计分析方法总结

单变量统计分析方法总结

单变量统计分析方法总结一、计量资料1.两组独立样本比较1.1资料符合正态分布,且两组方差齐性,及独立性,可直接采用t检验。

1.2资料不符合正态分布(1)数据转换(如对数转换等)→使之服从正态分布→转换后的数据采用t检验;(2)直接采用非参数检验(如Wilcoxon检验)。

1.3资料方差不齐(1)t’检验(前提是资料满足正态性);(2)采用非参数检验(如Wilcoxon检验)。

2.两组配对样本的比较2.1 两组差值服从正态分布,采用配对t检验。

2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。

3.多组完全随机样本比较3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。

如检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,SNK法,Bonferroni法,tukey法,Scheffe法等。

3.2资料不符合正态分布,或各组方差不齐(1)数据转换(如对数转换等)→使之服从正态分布或方差齐性→转换后数据采用F检验;(2)直接采用非参数检验(如Kruscal-Wallis法)。

如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用两组的Wilcoxon检验,或秩变换方法。

4.多组随机区组样本比较4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。

如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。

4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。

如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。

★需要注意的问题:(1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
项目八:调查资料的统计与分析
任务一 单变量描述统计 任务二 单变量推论统计 任务三 双变量相关关系分析
任务一 单变量描述统计
数据的简化
集中趋势
众值
中位数
均值
离散程度
异众比率 四分位差
方差与标准差
一、频数分布与频率分布
(一)频数分布 所谓频数分布(frequency distribution),就是指
一组数据中取不同值的个案的次数分布情况,它一般 以频数分布表的形式表达。 频数分布表的作用有两方面,一是简化资料,即将调 查所得到的一长串原始数据,以一个十分简洁的统计 表反映出来。二是从频数分布表中,可以更清楚的了 解调查数据的众多信息。
(二)频率分布
所谓频率分布(percentages distribution),就是 指一组数据中不同取值的频数相对于总数的比率分布 情况,这种比率在社会调查中经常是以百分比的形式 来表达。
【例5】根据下表求中位值。
成 频 累计频次
绩次
cf
甲 85
85
乙 195 280
丙 210 490
丁 10
500
N 500
解:Md位置

n+1 2
= 500+1 2
=250.5
中位值Md=乙
练习1:计算表9-7的中位数
3、组距分组(连续取值)资料求中位数
先找出中位数所在组,利用公式
374.25
练习:计算下表中位数
1.原始资料求中位数
将各个个案由低至高排列起来,居序列中央位置 的个案值就是中位数。 Md位置= n 1 2
中位数=中间位置的值 注意:先找位置,再找中位数
①个案数为奇数
【例3】:甲地的5户人家的人数为:2,4,3,6, 8,求中位值。
n+1 5+1 解:Md的位置= 2 = 2=3
Md=4
510
181
1500-1699
40
550
40
总数
550
从分布来看,众数是具有明显集中趋势点的数 值,一组数据分布的最高峰点所对应的数值及 为众数。
(二)中位数(Median)
把一组数据按顺序排列,处于中间位置的那个数
值就是中位值。
Md
50%
50%
主要应用于定序变量,也可用于定距变量,但不 可用于定类变量。
求下表所示数据的的平均数
间距
148―152 152―156 156―160 160―164 164―168 168―172 172―176 176―180 180―184 184―188 1ห้องสมุดไป่ตู้8―192 192―196
例8
先求出组中值
组中值=(上限+下限)
/2
计算组中值的和
计算分组数据的均值
X fxm 159 9.4
n 17
组中值
众数、中位数和平均数的比较1
数据类型和所适用的集中趋势测量值
数据类型 定类
定序
定距
众值▲ 众值
众值
测度值
―― 中位值▲ 中位值
――
――
均值▲
注:▲ 表示该数据类型最适合用的测度值
众数、中位数和平均数的比较2
平均数比中位数利用了更多的数据信息,对总 体的描述更全面和准确。
平均数很容易受到极端值变化的影响,而中位 值不会受到这种影响。
对于抽样调查来说,平均数是一种比中位数更 为稳定的量度,它随样本的变化比较小。
众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数
原始数据:4、5、7、8、19(无众值) 原始数据:4、5、7、5、5、16(一个众值) 原始数据:4、4、5、7、7、9(两个众值)
3、主要应用于定类变量,当然也可以应用于定序 和定距变量
1.单值分组资料(非连续取值)求众数
2.组距分组(连续取值)资料求众数
先找出众数组,代入公式 组距分组资料众数求值公式:
利用各乘积之和求出均值。(f也称为权数,f/n称为
权重)
公式:
X fx
n
【例7】调查某年120名学 生的年龄,结果如下表,求 平均年龄。
年龄 人数
17
20
18
25
19
35
20
20
21
20
n
120
解:根据公式得
X= X xf nn
17 20 21 20 120
=18.9岁
3、组距分组资料求均值
频率分布表除了频数分布表的优点之外,还有一个重 要的优点就是十分方便地用于不同总体或不同类别之 间的比较。
频数分布表和频率分布表实例
注意的是,对于一项有一定规模的调查样 本来说,一般不宜对如年龄、收入、时间 等定比变量做频数分布表或频率分布表。 因为,此时类别很多,而每一类别中个案 数不多,所得结果繁杂不适用。
排序2,3,4,6,8
②个案数为偶数
【例4】:乙地的6户人家的人数为:2,4,3,6, 8,5求中位值。
解:Md的位置=n+2 1=
6+=13.5 2
45
Md= 2 =4.5
排序2,3,4, 5, 6,8
2.单值分组资料(非连续取值)求中位数
先计算累计频数,然后求中间位置,中间位置最先落 入的累计频数所对于的标志值即为中位数。
练习:计算下表中位数
29
(三)平均数(mean)
1、原始资料求均值
X x n
【例6】某班10名学生年龄 分别为20、21、19、19、 20、20、21、22、18、 20岁,求他们的平均年 龄。
解:根据平均数的计算 公式有:
X= X 200 20岁 N 10
2、单值分组资料求平均数
某个变项值重复出现多次,可以先统计每个值(x) 的次数(f),再求次数与相应变量值的乘积(fx),
解: 找出众数组为222.5—227.5 代入组距分组资料众数求值公式:
练习:求下表众数
表X-X 某人群月收入频数分布表
收入(元)
f
cf ↓
cf ↑
500-699
10
10
550
700-899
65
75
540
900-1099
126
211
475
1100-1299
158
369
339
1300-1499
141
二、集中趋势分析
集中趋势测量:用某一个典型的变量值或特 征值来代表全体变量的问题,这个典型的变 量值或特征值就称作集中值或集中趋势。
★ 众值(Mode)——定类层次 ★ 中位值(Median)——定序层次 ★ 均值(Mean)——定距层次
(一)众数(mode)
1、出现频次最多的变量值; 2、众数的不唯一性;
众数 中位数 均值
左偏分布
对称分布
右偏分布
练习:
求下表(单项数列)所示数据的算术平均数。
表X-X 某样本家庭人口数分布表
人口数(X)
2 3 4 5 6 7 8
合计
户数(f)
5 8 16 10 6 4 1
50
频率(P)
0.10 0.16 0.32 0.20 0.12 0.08 0.02
1.00
4.4
相关文档
最新文档