教你区分定类定序定距定比变量e
测量:定类、定序、定距、定比研究方法02
测量:定类、定序、定距、定比研究方法02测量(measurement)是指根据一定的法则,将某种物体或现象所具有的属性或特征用数字或符号表示出来的过程,主要作用是确定一个特定分析单位的特定属性的类别或水平。
在社会研究中,变量按照取值的性质可以分为定类变量、定序变量、定距变量、定比变量。
定类变量称为定性变量,后三个变量称为定量变量。
变量的解释和运用离不开测量,不同的变量需要相应的测量尺度。
史蒂文斯于1951年创立了测量尺度分类法,将测量尺度分为定类尺度、定序尺度、定距尺度、定比尺度。
定类尺度定类尺度(nominal scale),也称为类别尺度、定名尺度,是用于测量定类变量的尺度,是测量尺度中最低的一种。
定类尺度在本质上是一种分类体系,即把研究对象的不同属性或特征加以区分,标以不同的名称或符号,确定其类别。
定类尺度所分的类别必须兼具穷尽性和互斥性,即既要相互排斥,互不交叉重叠,又包罗各种可能的情况。
所测量的每一个对象,都会在分类体系中占据一个类别,并且只占据一个类别。
性别、种族、职业、宗教、籍贯、婚姻状况等是典型的定类尺度。
定类尺度的数学特征是“等于”或“不等于”。
测量给出的数字仅仅是识别调查对象或对调查对象进行分类的标签或编码,不具备任何数学特性,也不能说明其本质特征。
定类尺度具有对称性和传递性。
对称性,即如果甲与乙同类,则乙也一定与甲同类;如果甲与乙不同类,则乙也一定不会与甲同类。
传递性,如果甲与乙同类,乙与丙同类,则甲与丙一定也同类。
对于任何一门学科来说,分类都是基础。
其他几种层次的测量,也都把分类作为其最低限度的操作,都包含着定类尺度的分类功能。
在社会现象的测量中,大量的变量都是定类变量,分类是最基本的目标和最经常的操作。
定类尺度可分为标记和类别两种①标记标记可作为一个识别的记号。
数字当用作标记时,不表示数量的多少,也不能做加减乘除运算。
例如,体育运动中用号码区分运动员:3号球员、6号球员、9号球员……但不能说9号球员>6号球员、3号球员+6号球员=9号球员或者9号球员x3号球员=18号球员。
测量的层次
1.标记 识别的记号,当数字被用做标记时,它并不是 表示数量多少,也不能做数量运算。 例如,足球运动等活动用号码区分运动员,3号 球员、6号球员、9号球员,但是不能说3号运 动员+6号运动员=9号运动员。 2.类别 变量不同状态的度量。 例如,性别:男、女
例如,将“文盲与半文盲” 、“小学毕业”、 “初中毕业”、“高中或中专毕业”、“大专 或大学毕业及以上”
分别于数字1、2、3、4、5来代表。12345,
但是不能说1+2=3。
2)某些时候,定序层次的测量结果可近似的看 作是定距层次的运用。 例如,“非常赞成” 、“比较赞成” 、“中 立”、“不太赞成” 、“很不赞成”。
四、定比测量
Hello!
又称比例测量或等比测量,除具有上述三种测
量的全部性质之外,具有一个有实际意义的绝
对的零点,其数据可以加减或乘除运算。
例如,年龄、工资、出生率、性别比、离婚率 张三工资6800、李四3400,那么6800 ÷3400=2,张三的工资是李四的2倍。
定比测量与 定距测量如 何区分?
此时,研究者可以认为,这样的变量在测 量的尺度上的取值基本上是平均划分的, 即“非常赞成” 与“比较赞成” 之间的距
离也基本上等同于“比较赞成” 与“中立”
之间的距离。
三、定距测量
Hello!
又称等距测量或区间测量,它不仅能将 社会现象或事物区分为不同的类别、不 同的等级,而且可以确定它们相互的间 隔距离和数量差别。
例如,人的智商正常在90~110之间。 张三智商125、李四智商110,那么,张三智商比 李四智商高15, 125-110=15。 “三九” 天,测量到漠河的气温-25℃,三亚气温 15℃,对该结果分析: 1)仅仅了解漠河与三亚两地的气温,是定类测量 的结果 2)了解到三亚气温比漠河气温高,则是定序测量 的结果
定类、定序、定距、定比数据的区分
又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,或者是理论上的极限)。因此,不仅可以进行加减运算,还可以进行乘除运算。例如,绝对温度300K(27℃)时理想气体的体积273K(0℃)时的1.1倍,温度比也是1.1倍,则绝对温度和体积都是定比尺度。一般来说,定比尺度的数据不可能取负值。一般也不会取零值,因为要么就是不存在了,要么就是极限情况。如,绝对零度只能无限接近,不可能完全达到。如果一个物体的体积为零,那么它要么不存在,要么是数学中的抽象概念,比如,几何中的点、线、面的体积都为零。而一个人的年龄为0时呢?作为社会学意义上的人,可以认为它是极限(开始);作为生物学上的人,则是定距尺度的。
又称顺序尺度,是对事物之间等级差别和顺序差别的一种测度。它不仅可以测度类别差,还可以测度次加、减、乘、除数学运算)例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。IYD 7MDKDy(j
(三)定距尺度#j h~7y/y;A
又称间隔尺度,是对事物类别或次序之间距离的测度。该尺度通常使用自然或物理单位作为计量尺度。例:30°C和20℃之间相差10℃,-30°C和-20℃之间也是相差10℃。再比如,1等星比2等星亮10倍,0等星比1等星亮10倍,-1等星又比0等星亮10倍。定距数据可以进行加、减运算,不能进行乘、除运算。其原因为定距尺度中没有绝对零点(定距尺度中的“0”是作为比较的标准,不表示没有)。
定类、定序、定距、定比数据的区分
(一)定类尺度*~4Dc SY
又称类别尺度,按事物的某种属性对其进行平行的分类或分组。(只能测度事物之间的类别差,其他差别无法得知)例:按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类,按洲别分为亚洲人、欧洲人、美洲人、非洲人、澳洲人五类。
定类,定序,定距
(一)定类尺度*~4Dc SY又称类别尺度,按事物的某种属性对其进行平行的分类或分组。
(只能测度事物之间的类别差,其他差别无法得知)例:按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类,按洲别分为亚洲人、欧洲人、美洲人、非洲人、澳洲人五类。
(二)定序尺度又称顺序尺度,是对事物之间等级差别和顺序差别的一种测度。
它不仅可以测度类别差,还可以测度次序差。
(不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算)例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。
满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。
IYD 7MD KDy(j(三)定距尺度#j h~7y/y;A又称间隔尺度,是对事物类别或次序之间距离的测度。
该尺度通常使用自然或物理单位作为计量尺度。
例:30°C和20℃之间相差10℃,-30°C和-20℃之间也是相差10℃。
再比如,1等星比2等星亮10倍,0等星比1等星亮10倍,-1等星又比0等星亮10倍。
定距数据可以进行加、减运算,不能进行乘、除运算。
其原因为定距尺度中没有绝对零点(定距尺度中的“0”是作为比较的标准,不表示没有)。
(四)定比尺度又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,或者是理论上的极限)。
因此,不仅可以进行加减运算,还可以进行乘除运算。
例如,绝对温度300K(27℃)时理想气体的体积273K(0℃)时的1.1倍,温度比也是1.1倍,则绝对温度和体积都是定比尺度。
一般来说,定比尺度的数据不可能取负值。
一般也不会取零值,因为要么就是不存在了,要么就是极限情况。
如,绝对零度只能无限接近,不可能完全达到。
如果一个物体的体积为零,那么它要么不存在,要么是数学中的抽象概念,比如,几何中的点、线、面的体积都为零。
而一个人的年龄为0时呢?作为社会学意义上的人,可以认为它是极限(开始);作为生物学上的人,则是定距尺度的。
第二章测量与操作化
定比尺度
也称比例尺度、等比尺度。是否 具有实际意义的零点存在,是定 比尺度与定距尺度的唯一区别。
例一:您每月的收入是 元。 例二:您有 个孩子。
几种测量尺度的比较
尺度特征
分类(=,≠) 次序(>,<) 距离(+,-) 比例(×,÷)
布拉德和沃尔夫(1960)
丈夫的职业选择; 买什么样的汽车; 是否买人寿保险; 到什么地方度假; 买什么样的房子; 妻子是否应该参加社会工作; 家里有人生病时,应去看哪位医生; 全家每周在食品方面应花什么钱。
森特斯(1971)
• 请谁来做客和与谁一起出门; • 怎样装饰房间和摆设家具; • 收看什么电视节目和广播节目; • 家庭的正餐吃什么; • 买什么样的衣服; • 配偶应买什么样的衣服。
……
……
……
……
……
……
……
社会地位的操作化
社会地位
先赋地位
成就地位
出
性
地
教
职
收
身
别
域
育
业
入
(三)指标选择的多样性
对同一个概念进行测量时,可能会产生出 不同的测量指标。
以对夫妻权力的测量为例,研究者通常将 这一概念界定为夫妻在家庭中的决策权。
布拉德和沃尔夫(1960) 森特斯(1971) 陈明穗(1986) 伊庆春和蔡瑶玲(1988)
例二:有人说“大学中女生比男生少的原因是女生智 力生来就比男生低”,依您看来这一说法: 1.绝对正确 2.大概正确 3.很难说 4.大概不正确 5.绝对不正确
定距尺度
也称等距尺度、区间尺度。定距尺度不 仅能将变量(社会现象)区分类别和等级, 而且可以确定调查对象之间在属性特征 上的数量差别和间隔距离。
定序变量 定距变量 定比变量 定类变量
定类变量定序变量定距变量定比变量定类变量定类变量变量的一种,根据定性的原则区分总体各个案类别的变量。
定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。
例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。
这些变量的值,只能区别异同,属于定类层次。
设计定类变量的各个类别时,要注意两个原则。
一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。
例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。
定序变量变量的一种,区别同一类别个案中等级次序的变量。
定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有>与<的数学特质。
它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(=,≠)。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。
这些变量的值,既可以区分异同,也可以区别研究对象的高低或大小。
但是,各个定序变量的值之间没有确切的间隔距离。
比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。
定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。
它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。
但是,定距变量没有一个真正的零点。
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。
又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。
统计学基础
16
●●
6
离散型变量
其一切可能取值都以整数形式 出现,并可以一一列举的变量
特定范围的人口数、汽 车数量、企业数量、林 木株数、畜禽数量等等
取值不需 要用工具 度量,用 计数的方 式即可
在统计学中,为便于叙述,也有时把 标志值抽象化,把原总体与反映总体 单位特征的变量等同起来,把变量值 的集合看成总体,每一个变量值也就 是一个总体单位。
Statistics is the science and art, which studies how to collect, organize, analyze and interpret data reflecting social, economic and management problems, and makes statistical inference on the research objectives .
值 根据定序尺度得到的数据为
顺序数据。
3、定距尺度 Interval Scale
例如年份、摄氏温度 变量的取值表现为“数值” 可以进行加减运算 “0”是只是尺度上的一个点,
不代表“不存在”
4、定比尺度 Ratio Scale
例如体重、身高 变量的取值表现为“数值” 可以进行加减、乘除运算 “0”表示“没有”或“不
Statistics is the science dealing with the collections, analysis, interpretation and presentation of masses of data.(Webster 国际 大词典)
统计学
统计学是一系列从数据中获取有用信息以帮助决策 的原理和方法。
数据的计量尺度有哪些
1、数据的计量尺度有哪些?各自特征(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或≠的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 ⨯ 或 ÷ 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系) &以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常是连续排列,条形图则是分开排列3、均值、中位数和众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3倍,即:e M X M X -=-30根据这一关系,可以得到以下三个关系式:()X M M X X M e e 2330-=--=320X M M e += 230M M X e -=4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性? (1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。
数据类型
机器学习中数据一般分为四种,分别为标称型数据(Nominal),排序型数据(Ordinal),间隔型数据(Interval)和比率型数据(Ratio),分别对应定类,定序,定距和定比。
一、标称型数据(Nominal)
互斥,无序但是有类别。
变量的不同取值仅仅代表不同类的事物,这样的变量称为定类变量。
比如:性别,肤色就是定类变量,对于这种变量来说,加减乘除的运算时没有意义的。
二、排序型数据(Ordinal)
有顺序,有类别,但是无运算意义。
变量的值不仅可以代表事物的类别,还可以表示事物的某种特性的顺序或大小,这样的变量叫做定序变量。
比如文化程度:小学,中学,高中,大学等,这些数据可以排序,也有一定的实际意义,但是运算没有意义。
三、间隔型数据(Interval)
本质是数据之间的间隔,变量之间的值可以比较大小,差值有实际意义,此类变量可以成为定距变量。
比如年龄,月平均收入等,都是定距变量。
四、比率型数据(Ratio)
0点有明确的定义,比如质量,高度。
定比变量和定距变量在市场调查中一般不加以区分,二者区别在于,定距变量为0时不表示没有,只是值为0,定比变量为0时表示没有。
定名定序定距定比适用的统计方法
定名定序定距定比适用的统计方法在统计学中,有许多方法可用于数据分析和推断。
其中一些方法适用于不同类型的数据和研究设计。
本文将重点介绍四种常用的统计方法,即定名方法、定序方法、定距方法和定比方法,并分别探讨其适用范围和具体应用。
定名方法是一种描述性统计方法,适用于对分类数据进行分析和总结。
分类数据是指具有互斥、无序和不可转化的属性。
在定名方法中,可以计算频数、频率、众数和构建分类型的图表。
这些统计量和图表可以帮助我们了解不同类别的分布情况,以及不同类别之间的关系。
常见的定名方法包括:频数分布表、条形图、饼图等。
例如,我们可以使用饼图来比较男性和女性的比例,以了解不同性别的分布情况。
定序方法是一种用于有序数据分析的统计方法。
有序数据是指具有固定顺序但无固定间隔的数据。
定序方法可以计算中位数、百分位数、累积频率和构建有序数据的图表。
这些统计量和图表可以帮助我们判断数据的中心趋势和变异程度。
常见的定序方法包括:中位数、箱线图、蜡烛图等。
例如,我们可以使用箱线图来比较不同学历水平的工资分布情况。
定距方法是一种用于连续数据分析的统计方法。
连续数据是指具有固定间隔但无固定比例的数据。
定距方法可以计算算术平均数、标准差、相关系数等统计量,并可构建连续数据的直方图、正态图等。
这些统计量和图表可以帮助我们了解数据的集中趋势、离散程度和相关性。
常见的定距方法包括:均值、标准差、相关系数等。
例如,我们可以使用正态图来判断某个连续变量是否符合正态分布。
定比方法是一种用于比率和比例数据分析的统计方法。
比率和比例数据是指具有固定比率的数据,可以进行数学运算。
定比方法可以计算几何平均数、比例差异、相关比例等统计量,并可构建比率和比例数据的直方图、散点图等。
这些统计量和图表可以帮助我们判断比例数据的集中程度、差异和相关性。
常见的定比方法包括:几何平均数、比例差异、相关比例等。
例如,我们可以使用散点图来比较广告投入和销售额之间的关系。
社会统计学知识(2020.05.29)
社会统计学知识1.定类变量:当变量值的含义仅表示个体的不同类别,而不能说明个体的大小、程度等其他特征时,这种变量称为定类变量。
P72.定序变量:当变量值的含义不仅表示个体的不同类别,还可以区分个体之间的大小、程度等序次差异时,这种变量称为定序变量。
P83.定距变量:当变量值不仅可以将个体区分为不同类别并进行排序,而且可以确定不同类别之间的数量差别和间隔差距时,这种变量称为定距变量。
P84.定比变量:当变量除了具有定类、定序、定距这三种变量的全部特征外,还可以计算两个变量之间的比值时,这样的变量称为定比变量。
P95.离散变量:如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。
6.连续变量:如果一个变量的变量值是连续不断的,即可以取无限多个数值,这种变量称为连续变量。
P107.自变量:把能引起其他变量变化的变量,称为自变量。
P108.因变量:把由其他变量的变化而导致自身发生变化的变量称为因变量。
P109.总体:是指构成它的所有个体的集合,P1110.个体:是指构成总体的最基本单位。
P1111.样本:是指从总体中按照一定方法抽取的一部分个体的集合。
P1112.抽样单位:是指一次直接的抽样所使用的基本单位。
P1113.抽样框:是指一次直接抽样时样本中所有抽样单位的名单。
P1114.普查:是指对总体中所有的个体进行的一次全面调查。
P1215.抽样调查:是指从总体中按照一定方法抽取的一部分个体组成一个样本进行调查的方式,再根据调查结果推断总体特征。
16.归纳法:是从特殊到一般,也就是从一组具体的观察结果推导出一般性的规律或法则;17.演绎法:是从一般到特殊,也就是研究者从想要检验的一般性理论开始,然后去观察、收集资料,通过这些资料来检验这个理论。
18.组距:各组上限值与下限值的差。
P4519.频数:就是某个类别或某个小组中的数据个数,也叫次数。
P4920.频率:就是一个样本中某一类别或某一小组中数据个数占总数据个数的比重。
教你区分定类、定序、定距、定比变量
定类变量定序变量定距变量定比变量定类变量变量的一种,根据定性的原则区分总体各个案类别的变量。
定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。
例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。
这些变量的值,只能区别异同,属于定类层次。
设计定类变量的各个类别时,要注意两个原则。
一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。
例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。
定序变量变量的一种,区别同一类别个案中等级次序的变量。
定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有>与<的数学特质。
它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(=,≠)。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。
这些变量的值,既可以区分异同,也可以区别研究对象的高低或大小。
但是,各个定序变量的值之间没有确切的间隔距离。
比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。
定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。
它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。
但是,定距变量没有一个真正的零点。
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。
又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。
统计推断或假设检验的常见问题
统计推断或假设检验的常见问题连续变量和分类变量1.所有测量值可以分为四水平:定类(NOMINAL),定序(ORDINAL),定距(INTERVAL),和定比(RATIO).前面两类是分类变量,后面两类是连续变量. 2.定类变量是只能决定类别,例如白人和黑人,民主党和共和党,男人和女人等.定序变量比定类变量进了一步,因为不但可以决定类别,还可以决定各水平的次序.例如高收入,中等收入,和低收入;非常满意,比较满意,比较不满意,和非常不满意等等.但是各个水平间的距离并无意义.例如痛苦程度用1到10表示.用7表示的痛苦大于5,后者又大于3.但你不能说7和5表示的痛苦和5和3表示的痛苦是等距离的.定距变量又进了一步,不但可以知道次序而且可以知道各个水平间距离,而且各个水平间距离有意义.如100度的开水和90度的温水之间等于90度和80度之间的差别.但是注意0度的水不等于无温度.而定比变量则是最高级水平,具有所有定距变量的特性还加上一个0是本身有意义的.例如重量0克等于0重量.凡是定比变量都可以比较两个量的比值.例如重量:4克的物质是2克物质的2倍.但100度的水不是50度水的两倍热,因为它不是定比变量.社会科学中最好的定比变量例子是收入.年薪十万就是五万的两倍.0收入就是没有收入.:5.有人做了一个实验以决定抗生素是否会增加小牛体重. 下列变量是每头牛的测量值:性别, 初始体重, 体重增加数, 肉质品位等级, 其中肉质品位等级以A, B, 或C表示. 这些变量的测量类型是:a)定类, 定比, 定距, 定类b)定类, 定比, 定比, 定类c)定类, 定比, 定比, 定序d)定序, 定比, 定比, 定序e)定序, 定比, 定比, 定类6.有一项研究调查的是火力发电厂对水质的影响. 研究人员先抓鱼并加以标记再把它们放了. 对每条鱼都作了下列记录:性别(0=雌鱼, 1=雄鱼), 鱼身长度(cm), 成熟度(0=幼小, 1=成熟), 体重(g).这些测量值属于:a.定类, 定比, 定类, 定比b.定类, 定距, 定序, 定比c.定类, 定比, 定序, 定比d.定序, 定比, 定类, 定比e.定序, 定距, 定序, 定比无效和备择(或对立)假设7.无效假设和备择(或对立)假设的内容应该由管理决策问题决定.一般来说是由无效假设当稻草人,而真正目的是看备择(或对立)假设能否成立.8.既然无效假设是稻草人,在设立时要使它可能被推翻.办法是令无效假设等于, 大于或小于一个具体的数值(如销售额增加<15, 广告效应=0, 今天的市场分额=昨天的分额,或婴儿出生体重=8斤,)而不是模棱两可的(如销售额增加不等于0, 广告效应不等于0, 今天的市场分额不等于昨天的分额,或婴儿出生体重不等于8斤).9.备择(或对立)假设一定要和无效假设对应,使得一旦无效假设推翻以后就只能接受备择(或对立)假设.10.参看Excel”统计复习2”工作簿Solution一表中关于假设的例题.11.为了保证对应性,一般说来备择(或对立)假设和无效假设符号要相反,内容要一致,即他们是关于同一事件的不同可能性.12.何时作出假设?研究者应该事先决定假设再作检验.这相当于先设立靶子再射击.不能先测验假设中途又改变它!13.* 当假设表示为一个等号后面跟具体数值的时候就称为简单假设.反之不是等号而是大于,小于,或不等号时就称为合成假设.所有两尾备择(或对立)假设都是合成假设.一尾备择(或对立)假设也是合成假设.多数无效假设都是简单假设*14.参看Excel”统计复习2”工作簿Solution一表关于假设的题目一尾测验还是两尾测验?15.当你对某事件了解不多,或无清楚的理论指导,或无过去经验可供参照,或常识/逻辑不能帮忙时,一般都应该用两尾测验.反之可以用一尾.16.例如加了工资以后消费支出一般不大可能降低,公路加宽后不大可能增加交通事故,打了广告后不大可能减低销售额等等都可以用一尾测验.17.能从假设中看出用一尾还是两尾吗?答案是肯定的.要看备择(或对立)假设.如果备择(或对立)假设是带方向性的(如销售额<300,000, 进口车耗油量<国产车,广告后市场份额>广告前等等=就用一尾.反之不带方向性用两尾.18.什么是临界值? 临界值就是门槛值. 就是在概率分布的横轴上的一个或几个关键值. 没有越过那个值就属于大概率事件, 而一旦越过那个值就变成小概率事件, 就认为那里的事件是由机会引起的而不是真实(即大概率)事件.19.为什么要重视临界值? 因为在概率分布给定时, 每个概率值都对应于一个确定的临界值. 概率值用概率曲线下的面积表示, 而临界值用直线即横轴上的值表示. 后者比前者更方便求取. 故在假设检验时都把概率值化为临界值.20.与两尾测验相比,一尾测验需要比较小的临界值即可以达到显著. 统计上把这个现象称为高检验力度(Power). 直观的说, 一尾测验相当于把两个尾部的概率集中到一个尾部. 比如两尾测验时你需要z=1.96才能达到5%的显著水平, 而一尾时只要z=1.645即可. 后者比1.96更加接近概率分布的中部而不是尾部.也就是说我们把门槛值向左移动了.21.参看Excel”统计复习2”工作簿Solution一表中”下列情况的t或z的临界值是什么”那一节中的例题22.在用Excel函数求临界值时,都是假定你已经决定了显著水平而要求相应临界值.这时需要用Normsinv, Tinv, or Chiinv. 注意前两个函数要考虑一尾还是两尾测验. 而卡方测验只有一尾. 因为卡方分布没有负数.23.一定记得把显著水平即概率值除以2以便得到两尾检验的临界值. 而如果是一尾检验直接代入显著水平即可. 例如求5%显著水平的正态分布一尾临界值其公式是Normsinv(0.05), 而求两尾临界值则用Normsinv(0.05/2). 注意不是Normsinv(0.05)/2, 因为不是临界值的1/2, 而是概率即显著水平的1/2. 再说一次: 两尾检验其概率要除以2, 一尾就不需要!24.参看Excel”统计复习2”工作簿Solution一表中”下列情况应该用何检验”那一节中的例题.25.决定用t测验还是正态z检验取决于两个条件, 一是群体方差是否已知, 二是样本大小. 一般大样本即大于50人以上都可以用正态检验. 否则用t检验.26.参看Excel”统计复习2”工作簿Solution一表关于何种检验的总结表I类错误和II类错误27.I类错误称为拒真错误, II类错误则是纳伪错误. 其中的拒真和纳伪都是指无效假设而言. 即当无效假设是真实时你推翻它(I 类错误), 或当无效假设是错误时你未能推翻它(II类错误).28.II类错误概率用β表示, 而I类错误的概率就是显著水平, 用α表示. I类错误的概率可以人为控制; 而II类错误则受三个因素影响: [1]显著水平(即I类错误概率), 一般α越大β越小; [2]样本大小, 一般样本越大β越小即犯II类错误的概率越小; 和[3]效应大小. 后者是指群体真值和无效假设值的差数, 或两个样本间平均数或其它统计值的差异; 一般效应越大则β越小.29.I类错误和II类错误的方向相反. 例如显著水平=0.05时犯II类错误的概率要比显著水平=0.10时要大. 所以一般而言你不能同时减少两类错误的概率.但是如果你有大样本就可以达到这一目标.30.检验力度(Power)等于1-beta, 其中beta是II类错误的概率. 虽然求II类错误也有公式, 但求起来比较难, 因为我们必须知道对立假设下的分布. 所以我们一般不去求它. 只需要知道I类和II类错误的关系, 知道II类错误和检验力度的关系即可.31.I类错误概率, II类错误概率, 检验力度, 以及效应大小的关系看Churchill的PPT最好理解.关于概率分布32.连续变量常常服从正态分布或其它连续分布,例如对数正态(LOGNORMAL), T分布,F分布等.分类变量服从二项分布,多项分布等.33.样本统计值常常用比例表示,比例常常服从二项分布.例如抽烟和不抽烟,听过(或见过)广告和没有见过广告,喜欢和不喜欢某产品,以及是大学生和不是大学生等等.二项分布有两个特点.第一它可以用正态分布逼近.其原因用抛硬币实验很容易理解.如果我们抛一枚硬币6次,纪录正面出现次数,则N=6,P=0.5因为硬币每次出现正面和负面的概率应该相等.则在6次中有3次是正面的概率是33!6!()(1)(3)0.5*0.5!()!3!(3!)6*5*4*3*2*(.125)*(.125).3125(3*2)*(3*2)r n rnP r Pr n rππ-=-==-==类似地其它概率,比如出现1次,0次,2次等等都可以按此公式计算出来.请看E XCEL工作簿”E XCEL统计推断”中”如何计算事件概率”那个表格.这些概率就形成概率分布,后者虽然服从二项分布但可以用正态分布逼近. 34.样本比例的方差特别容易计算,直接等于P*Q(其中Q=1-P).有了方差则标准差和标准误就都好计算了.我们在假设检验中常常要用到这个特性来求方差,标准差和标准误,非常方便!其标准误捷径公式是pσ=标准差捷径公式是σ=方差捷径公式是(1)Vππ=-.其中的π和1-π是指群体的”成功”比例,即某事件出现次数占总次数的比例.对样本来说就是P和Q.请见E XCEL”统计推断2”工作簿中”S OLUTION”一表,其中关于可锐职业顾问公司的例子35.如果变量服从正态分布则大约68%的值位于正负一个标准差之间,大约95%的值位于正负两个标准差之间,大约99%的值位于正负三个标准差之间.其全距(即极大值和极小值之间差数)是大约六个标准差(最后这一点对于计算样本容量很有用)36.对于服从二项分布的变量,不必用”全距等于6个标准差”这一点来求标准差.应该直接代入样本比例求标准差.自由度问题37.自由度是指样本个体中可以自由变化的程度. 每当你的样本增加一个个体你就多了一个自由度, 反之每当你模型中增加一个变量就用去了一个自由度.在求标准差时要计算平均数, 所以N-1就是标准差的自由度.38.计算自由度的方法要看你的检验方法而定. 下列是常见公式.a.如果你有表格数据, 又只有一个变量, 则应该用分类变量水平数目减去一即是自由度. 例如你用表格列出收入变量. 该变量有六类, 则你的自由度等于6-1=5b.如果你有表格数据, 又有两个变量交叉列表, 则应该用行数减一乘以列数减一得到表格自由度. 例如你用表格列出收入和教育水平. 收入有六水平, 教育5水平, 那么你的表格自由度就是(6-1)(5-1)=20.c.求样本方差和标准差时, 其分母都是N-1, 这是因为标准差和方差都是以平均数为基础, 而求平均数要用去一个自由度. 当然求群体方差和标准差时则不需要自由度, 因为群体大, 用不用自由度关系不大.更主要的是群体参数是需要从样本估计的. 虽然样本统计数要用去自由度, 群体参数却不要. 例如群体平均数等于所有样本平均数的平均数. 对于一个样本来说无需减去自由度以求群体平均数.d.T测验一般是用来检验样本平均数是否等于某一群体平均数, 或者检验两个样本平均数是否相等. 这些情况下常常只需要一个自由度来计算平均数. 所以其自由度一般等于1.e.对于回归模型, 要看模型含有多少变量, 总的原则是用了多少变量就失去多少自由度. 不过要记住加上截距所用的一个自由度. 所以其公式是N-k-1, 其中k等于自变量个数. 例如你的回归模型含有两个自变量, 则k=2, 则模型一共用去三个自由度.标准差和标准误39.群体的标准差(或称标准误差)用σ表示,样本的则用S表示.它们是用来测量一个群体或样本中的变异程度的.顾名思义,标准差就是标准化了的差数.那么什么是差数呢?差数是对平均数而言的.换句话说,标准差就是一个群体或样本中的标准化了的偏离平均数的程度.40.标准误和标准差有两件事不一样.第一,标准差是测量每个个体偏离平均数的程度,而标准误是测量每个样本平均数偏离群体平均数的程度.不过这两者的差别其实比听起来小,因为一个样本只能有一个标准差(不论样本有多大),也只能有一个标准误.第二,因为标准差是测量样本内的变异程度,我们无需重复抽样,仅仅用标准差描述手里这个样本.而标准误则是测量样本之间的变异程度,所以一定要引入重复抽样的概念.即假定我们可以或已经抽取了许多独立样本,每次得到一个平均数,然后看这些平均数偏离群体平均数的程度.41.要求标准差,先求方差.其群体方差公式是:22()xNμσ-=∑,其对应样本方差公式是:22()1x xSn-=-∑.有了方差,只要对它开方就有了标准差.而再把标准差除以根号的样本容量就有了标准误:xS=.42.可以求两个样本的方差是否相等,用F检验.如果方差相等在比较样本平均数时就可以用两样本方差的平均数做分母.正态分布43. 正态分布特点是: [1]分布对称, [2]平均数等于中数(M EDIAN )或中位数,众数(M ODE ), [3]大约68%的值位于正负一个标准差之间, 大约95%的值位于正负两个标准差之间,大约99%的值位于正负三个标准差之间, [4]其全距是大约六个标准差(最后这一点对于计算样本容量很有用)44. 正态分布用的最广,乃因为许多其它分布在大样本下都接近正态分布.比如T 分布, 卡方分布,二项分布等.更重要的是不论原群体分布是何性状,如从该群体反复抽样,把各个样本的平均数(或中位数,或众数)记下来得到平均数的抽样分布,其性状都趋近正态. 这个现象是归因于中央极限定理.45. 正态分布另一个特点是参数比较少,只需两个即可以描述分布: 平均数和标准差.46. 正态分布可以是基于原始数据也可以是标准化的数据. 后者平均数是0, 方差为1.只有标准化的正态分布临界值才能直接用于查表求概率. 标准化的公式是: ()x x z s-=. 47. 在E XCEL 中用函数S TDEV ()估计样本标准差, 用S TDEVP ()估计群体标准差, 或S TDEVA ()估计样本标准差, 且要包括逻辑变量或文字内容. 同理, 用V AR ()求样本方差, 用V ARP ()求群体方差, 或V ARA ()如果包括逻辑变量或文字内容.检验假设显著性的三种方法48. 有三种方法检验假设: 临界值法, 概率法, 置信限法 49. 临界值法就是你求出统计值(如t 值, 卡方值, z 值等), 然后求出5%或1%显著水平下的临界值, 再用统计值去比较临界值. 比较的结果是”不怕临界值小, 就怕临界值大”因为临界值越大概率越小. 如果统计值大于临界值,说明结果显著, 应该推翻无效假设. 反之统计值小于临界值, 说明结果不显著, 不能推翻无效假设.50. 临界值法缺点是你只知道结果是否显著,并不知道精确概率.51. 概率法也是先求统计值, 再根据统计值及其相应的自由度求出概率值. 这个方法随着计算机的普及现在最普遍. 以前要查表才能知道概率, 现在只要输入统计值,用Excel 函数即可以求概率. 它的好处是可以知道精确概率值.52. 如何理解概率值? 最容易的方法是把所得概率值看成是机会引起的事件概率. 例如概率=0.33, 说明有33%的机会所观察到的平均数或其它统计值是有机会引起的. 这个概率相当大, 所以我们不能推翻无效假设. 而如果概率=0.01, 说明只有1%的可能是由机会引起. 这说明机会引起的可能性很小. 所以可以推翻无效假设. 总的说来是”不怕概率大, 只怕概率小”, 小了就可以推翻无效假设.53. 置信限法是先求样本统计值如平均数等, 再求样本标准差和标准误. 根据这些样本统计值就可以求群体参数的置信限为样本平均数加上正负两倍的标准误. 如果在置信限中包括0, 说明无效假设不能被推翻. 反之如果置信限不包括0, 说明群体参数不等于0. 该法多用于回归模型参数检验是否为0, 即某一自变量对因变量效应是否为0.54.所有测验(如t测验, 卡方测验, F测验, 正态测验等)统计值都是可以直接和临界值比较的值! 它们只是告诉你在横坐标上的数值而不是概率.55.临界值不是概率, 但每个临界值都对应相应的概率! 所以知道了临界值再求概率是不难的(求法见后).56.注意不要一看到1.96, 2.58等就认为它们代表0.05或0.01的概率. 1.64,1.96还有2.58都是在标准正态分布下才代表0.1, 0.05和0.01等概率. 在其它分布下它们对应的概率要看自由度而定.57.标准正态分布下的临界值我们用字母z表示. 其它分布时一般不用z表示.例如t分布下的临界值就用字母t表示, F分布下的临界值用字母F表示, 卡方分布下的临界值就是卡方值.58.显著水平和置信水平有何关系? 两者都是概率值. 不过显著水平是指尾部的概率而置信水平是指从左到右的累积概率. 换句话说, 当显著水平等于0.05时, 置信水平就等于1-0.05=.95.59.如何计算不同置信水平下的z值?办法有两个. 一是常用的可以直接记忆.如在标准正态分布下的三个z值是很容易记忆的: 1.64, 1.96, 2.58, 分别表示当置信水平是90%, 95%和99%时的临界值. 对于大多数问题来说记忆法就足够了. 第二种方法是用Excel函数计算. 不论函数用的是那种分布, 在Excel的函数名称里都有一个INV, 表示是把计算过程倒过来, 从概率值求临界值(一般是有了临界值即统计值要求概率值. 所以从概率值求临界值就是反过来了).60.套用Excel函数公式时, 其括号内的值就是你的概率值或置信水平. 有两点要注意, 所有求临界值的Excel函数都是基于累积概率, 即从无穷小到所求的那一点. 也就是从左到右. 但另一方面, 这些函数又都假定两尾概率. 所以其通用公式是(1-alpha/2)=(1-显著水平/2).61.例如要求显著水平=0.1时的临界值, 则在标准正态分布下输入的概率值或置信水平就是Normsinv(1-0.1/2)=Normsinv(0.95)=1.6448. 同理当你的置信水平=0.95时则Normsinv(1-0.05/2)=Normsinv(0.975). 最后如置信水平=0.99时有Normsinv(1-0.01/2)=Normsinv(0.995)=2.5758. 62.如果你不想要两尾置信水平, 只要一尾概率, 那么其公式就是(1-alpha). 例如求置信水平=0.95时的一尾临界值z值, 直接把0.95代入Excel函数有Normsinv(0.95)=1.6448. 又如求置信水平=0.99的一尾临界值z值, 直接代入0.99有Normsinv(0.99)=2.326. 上述例子可见一尾测验时的临界值永远小于两尾时的临界值. 换句话说所以统计学家们说一尾检验力度更大.63.在用Excel函数求临界值时,都是假定你已经决定了显著水平而要求相应临界值.这时需要用Normsinv, Tinv, or Chiinv. 第一个函数只要输入概率即可. 第二个和第三个都需要概率加上自由度.64.用Excel函数求概率时, 用NORMSDIST, TDIST和CHIDIST. 和临界值相似, 第一个函数只要输入z值即可. 第二个不但要t值, 还要自由度和一尾还是两尾, 共需三个参数. 最后的卡方分布概率因为是非对称分布, 且卡方不能为负数, 所以不可能用两尾. 只要卡方值加上自由度即可.65.用Excel求置信限没有简单函数,需要求出平均数和标准差,标准误等以后在手工计算置信限.66.最后Excel还有一套直接求概率的函数, 称为TTEST(), FTEST(),CHITEST() 和ZTEST(). 这些函数要求你给出数据所在位置再直接得出其显著性概率. 例如TTEST()第一个参数是数据范围, 第二个是1或2表示是一尾还是两尾检验, 第三个是测验类型, 共有三类: 第一类是成对比较, 第二是不成对但方差相等, 第三是既不成对方差也不等. 所以TTEST(a1:e22,1,1)表示数据范围是从A1到E22,用一尾检验,成对比较, 而TTEST(a1:b22,2,2)表示数据范围是A1到B22, 用两尾检验, 不成对但方差相等.。
定类变量定序变量定距变量定比变量
定类变量定序变量定距变量定比变量不同类型的数据在统计学分析中具有不同的意义和应用,因此对于数据的分类十分重要。
在数据分析中,我们通常将数据分为四类:定类变量、定序变量、定距变量和定比变量。
下面我们将分步骤阐述这四类变量的定义和特点。
1. 定类变量定类变量是指具有明确分类的变量,如性别、种族、学历等。
这些变量通常是非数值型的,但是它们的分类是互不相交的。
在定类变量中,没有数值大小之分,因此无法进行类似于加减、乘除等算数运算,只能通过比较两个分类的变量是否相同来进行统计分析。
2. 定序变量定序变量是指具有明确分类的变量,但是各个分类之间存在一定的顺序关系。
如考试成绩的优、良、中、差、不及格等级别。
定序变量的分类具有一定的大小等级之分,但是这些等级之间的差距是不确定的,因此也不能进行精确的度量。
3. 定距变量定距变量是指具有明确分类的变量,各个分类之间的差距是确定的,如体重、年龄、温度等。
定距变量可以进行准确的加减运算,但是无法进行乘除运算。
此外,在定距变量中,0点通常是一个意义明确的点,如摄氏度的0点是冰点。
4. 定比变量定比变量是指具有明确分类的变量,各个分类之间的差距是确定的,同时存在一个绝对0点。
如长度、质量、时间等都属于定比变量。
定比变量可以进行准确的加减、乘除等算数运算。
这四类变量在数据分析中的应用非常广泛。
根据变量类型的不同,我们需要采取不同的分析方法。
例如,在分析定类变量时,我们通常使用频数分布表或条形图,而在分析定比变量时,我们更多地使用均值、方差等统计量。
综上所述,对于不同类型的数据,我们需要采取不同的分析方法,才能够准确地得出结论。
了解数据的类型,有助于我们更加深入地理解数据,从而做出更加准确的分析。
第二章单变量统计描述分析
第⼆章单变量统计描述分析第⼆章单变量统计描述分析第⼀节单变量统计描述基本技术⼀、变量的计量尺度/层次1、定类变量——最低层次的变量类型。
只有类别属性之分,⽆⼤⼩程度之分。
根据变量值,只能知道研究对象的异同。
从数学运算特性来看,定类变量只有等于或不等于的性质。
2、定序变量——层次⾼于定类变量。
取值除类别属性外,还有等级、次序之分。
数学运算特性除等于或不等于外,还有⼤于或⼩于。
3、定距变量——层次⾼于定序变量。
取值除类别属性、次序之外,取值之间的距离可以⽤标准化的举例度量。
数学运算特性除等于不等于,⼤于⼩于之外,还可以加减。
如收⼊,以1元为标准化距离,则2000元⽐1500元多了500元。
4、定⽐变量——最⾼层次变量。
除了上述三种属性外,可以进⾏乘除运算。
1、社会学研究中,能够满⾜定距⽽不能同时满⾜定⽐要求的变量不多。
如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。
当前社会统计⽅法很少要求达到定⽐层测,所以只介绍前三种层次变量。
2、在社会学研究当中,有些变量的层次是不统⼀可变的,可⽤定序层次也可⽤定距层次,根据研究需要。
⾼层次变量可以降低层次来使⽤。
⼀般来说,测量层次越⾼越好,数学特性就越多,统计分析就越⽅便,能了解资料的程度就越深⼊。
⼆、基本技术1、次数分布(定类)——针对定类变量最基本的统计分析⽅法。
⾯对⼤量的数据资料,⾸先要组织整理,第⼀步就是要采⽤次数分布来简化资料,看某变量的每⼀个值出现的次数是多少。
定类变量的取值要求:变量取值必须完备,使得每个各观察值都有所归类;必须互斥,⼀个观察值只能归⼊⼀类,对于分组数据遵循上限不包括在内原则。
次数分布可简化资料,但不能⽐较样本,因为样本量不同。
2、⽐、⽐例和⽐率(通常保留⼀位或两位⼩数)⽐:某两类的次数相除,如性别⽐=男性/⼥性⽐例:某类次数除以总数,⽼年⼈⼝⽐例=⽼年⼈⼝数/总⼈⼝数×100%⽐率:某⼀确定变量相对应的某些事件发⽣的频率。
定类,定序,定距,定比
定类,定序,定距,定⽐
在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定⽐变量。
1.定类数据(Nominal):名义级数据,数据的最低级,表⽰个体在属性上的特征或类别上的不同变量,仅仅是⼀种标志,没有序次关系。
例如, ”性别“,”男“编码为1,”⼥“编码为2。
2.定序数据(Ordinal):数据的中间级,⽤数字表⽰个体在某个有序状态中所处的位置,不能做四则运算。
例如,“受教育程度”,⽂盲半⽂盲=1,⼩学=2,初中=3,⾼中=4,⼤学=5,硕⼠研究⽣=6,博⼠及其以上=7。
3.定距数据(Interval):具有间距特征的变量,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。
例如,温度。
4.定⽐变量(Ratio):数据的最⾼级,既有测量单位,也有绝对零点,例如职⼯⼈数,⾝⾼。
名词解释定比变量
名词解释定比变量定比变量(Ratio Variable)是统计学中的一种数据类型,它表示两个数值之间的比例关系。
与定类变量(Nominal Variable)和定序变量(Ordinal Variable)不同,定比变量具有绝对零点,可以进行加减乘除等数学运算。
定比变量的值通常表示为分数、小数或百分比等形式,可以反映事物在数量上的差异。
定比变量的特点:1. 具有绝对零点:定比变量的取值范围包括正数和负数,可以表示事物的增加或减少。
例如,温度可以用摄氏度表示,0摄氏度表示水的冰点,-10摄氏度表示水的温度降低了10度。
2. 可以进行数学运算:由于定比变量具有绝对零点,因此可以进行加减乘除等数学运算。
例如,计算两个城市之间的距离、计算一个产品的利润率等。
3. 反映事物在数量上的差异:定比变量的值可以反映事物在数量上的差异,有助于进行比较和分析。
例如,通过比较不同国家的人均GDP,可以了解各国经济发展水平的差异。
4. 可以进行归一化处理:由于定比变量具有绝对零点,因此可以进行归一化处理,将数据转换为统一的度量单位。
例如,将不同地区的温度转换为摄氏度或华氏度。
5. 可以进行相关性分析:由于定比变量具有绝对零点,因此可以进行相关性分析,研究两个变量之间的关系。
例如,研究教育水平和收入水平之间的关系。
定比变量的分类:根据定比变量的性质和特点,可以将其分为以下几类:1. 连续型定比变量:连续型定比变量的取值是一个连续的区间,可以取任意实数值。
例如,人的身高、体重等。
2. 离散型定比变量:离散型定比变量的取值是一个离散的区间,只能取整数或有限个实数值。
例如,企业的产量、销售额等。
3. 比率型定比变量:比率型定比变量的取值是一个比率,表示两个数值之间的比例关系。
例如,投资回报率、人口密度等。
4. 相对型定比变量:相对型定比变量的取值是一个相对的概念,表示一个数值相对于另一个数值的比例关系。
例如,市场份额、失业率等。
定类变量定序变量定距变量定比变量
定类变量定序变量定距变量定比变量
定类变量、定序变量、定距变量、定比变量是统计学中常用的四种变量类型。
它们在数据分析中有着不同的应用和意义。
定类变量是指具有明确类别的变量,例如性别、民族、职业等。
这种变量通常用于描述人口统计学特征或分类问题。
在数据分析中,我们可以使用频数表或条形图等方式来展示定类变量的分布情况。
定序变量是指具有顺序关系的变量,例如学历、收入等。
这种变量通常用于描述人群的特征或比较不同群体之间的差异。
在数据分析中,我们可以使用频数表、条形图或箱线图等方式来展示定序变量的分布情况和差异。
定距变量是指具有等距关系的变量,例如温度、时间等。
这种变量通常用于描述连续性的数据或时间序列数据。
在数据分析中,我们可以使用直方图、密度图或折线图等方式来展示定距变量的分布情况和趋势。
定比变量是指具有等比关系的变量,例如身高、体重等。
这种变量通常用于描述数量性的数据或比较不同群体之间的差异。
在数据分析中,我们可以使用频数表、直方图或箱线图等方式来展示定比变量的分布情况和差异。
在实际数据分析中,我们需要根据变量的类型选择合适的统计方法和可视化方式。
同时,我们也需要注意变量之间的关系和相互影响,
以便更好地理解数据和做出正确的决策。
测量层次2:定距测量与定比测量
温度
天气预报:沈阳:最高温度3℃,最低-7℃
大连:最高温度6℃,最低-2℃
两地最高温度相差3℃
沈阳最低温度较大连最低温度低5℃
大连最高温度是沈阳最高温度的2倍
2. 定比测量(ration measures)
定比测量也称为等比测量或比例测量,是一种能够测量 事物间比例、倍数关系的测量方法。
定比测量的特点
定类测量 定序测量 定距测量 定比测量
类型(=、 次序(<、 间距(+、 比率(×、
≠)
>)
-)÷)Βιβλιοθήκη √√√√
√
√
√
√
√
√
3. 四种测量层次的联系
(2)测量层次比较高的变量可以转换为测量层次比 较低的变量。
3. 四种测量层次的联系
(3)最高等级的测量并不是必须的。 比如:年龄——定比
年龄层——定序
《社会调查与统计分析》
第五章 测量
知识点3 测量层次2:
定距测量与定比测量
学习导航
测量层次
定距测量 定比测量 四种测量层次的联系
测量层次
史蒂文斯于1951年创立了测量层次(Levels of Measurement) 分类法。
测量层次
定类测量
定序测量
定距测量
定比测量
1. 定距测量(interval measures)
定距测量也称为间距测量或区间测量。它不仅能够将社 会现象或事物区分为不同的类别、不同的等级,而且可 以确定它们相互之间的间隔距离和数量差别。
定距测量的特点
定距测量可将定距指标转换为数字, 不仅能反映社会现 象的类别和序列,而且能反映社会现象的具体数量,计 算出它们之间的距离,可进行加减运算。 定距测量中的“零”并不是绝对的“无”,而是以某种 人为的标准设置的标志值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定类变量定序变量定距变量定比变量
定类变量变量的一种,根据定性的原那么区分总体各个案类别的变量。
定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。
例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。
这些变量的值,只能区别异同,属于定类层次。
设计定类变量的各个类别时,要注意两个原那么。
一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。
例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。
定序变量变量的一种,区别同一类别个案中等级次序的变量。
定序变量能决定次序,也即变量的值能把研究对象排列上下或大小,具有>与<的数学特质。
它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别〔=,≠〕。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。
这些变量的值,既可以区分异同,也可以区别研究对象的上下或大小。
但是,各个定序变量的值之间没有确切的间隔距离。
比方大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定序变
量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。
定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。
它除了包括定序变量的特性外,还能确切测量同一类别各个案上下、大小次序之间的距离,因而具有加与减的数学特质。
但是,定距变量没有一个真正的零点。
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。
又比方调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。
甲区与丙区相差3 3%,丙区与丁区相差15%。
这也是一个定距变量。
定距变量各类别之间的距离,只能用加减而不能用乘除或倍数的形式来说明它们之间的关系。
定比变量也是区别同一类别个案中等级次序及其距离的变量。
定比变量除了具有定距变量的特性外,还具有一个真正的零点,因而它具有乘与除〔×、÷〕的数学特质。
例如年龄和收入这两个变量,固然是定距变量,同时又是定比变量,因为其零点是绝对的,可以作乘除的运算。
如A月收入是60元,而B是30元,我们可以算出前者是后者的两倍。
智力商数这个变量是定距变量,但不是定比变量,因为其0分只具有相对的意义,不是绝对的或固定的,不能说某人的智商
是0分就是没有智力;同时,由于其零点是不固定的,即使A是14 0分而B是70分,我们也不能说前者的智力是后者的两倍,只能说两者相差70分。
因为0值是不固定的,如果将其向上移高20分,那么A的智商变为120分而B变成50分,两者的相差仍是70分,但A却是B的2.4倍,而不是原先的两倍了。
摄氏温度这一变量也如此。
定比变量是最高测量层次的变量。