教你区分定类、定序、定距、定比变量
定距变量分组的步骤

定距变量分组的步骤从宏观上看,数据类型可以分为定性和定量。
定性:变量是质量特征,比如一辆车的牌子,宝马,奔驰,只是为了区分定量:变量是数值,是可以量化的,比如身高体重等。
量化可分为离散型和连续型。
•分散一般是计数的结果,比如硬币抛五次的次数。
•连续一般是一个测量结果,比如手掌长度的测量。
从统计分析来看,有四种类型的数据:分类、排序、距离和比率。
这四种类型由低到高依次递进。
高级类型可以通过低级分析方法进行分析,但反之则不成立。
1、定类变量Norminal Data 【可以分类( = 和≠ ),但不能排序】类的作用是为数据定义一个类别。
这种数据类型可以区分所研究的对象。
例如,将性别分为两类2、定序变量 Ordinal Data:【可以分类( = 和≠ ),可以排序(> 和 <),但不能(+ 和 - )】排序变量的值既可以表示事物的分类,也可以表示事物按照一定特征的排序。
而排序变量的值之间没有确切的区间,只能按其顺序排列,不能反映孰大孰小的数量或距离。
例如,教育水平可分为大学、高中、初中、小学和文盲3、定距变量 Interval Data :【可以分类( = 和≠ ),可以排序(> 和 <),可以(+ 和 - ),但不能(× 和÷)】注意:定距变量没有绝对零点距离变量的值是可以比较的,两个值的差异有实际意义。
但是乘法是没有意义的。
但是加法和减法是可行的。
例如华氏温度:10,20,30,华氏度40不是20的两倍热4、定比变量 Ratio Data :【可以分类( = 和≠ ),可以排序(> 和 <),可以(+ 和 - ),可以(× 和÷)】注意:定比变量有绝对零点定比变量除了具有定距变量的特性外,还具有一个真正的零点,因而它具有乘与除(×、÷)的数学特质。
如A的体重是60kg,而B的体重是30kg,可以算出前者是后者的两倍重,因为其零点是绝对的。
测量:定类、定序、定距、定比研究方法02

测量:定类、定序、定距、定比研究方法02测量(measurement)是指根据一定的法则,将某种物体或现象所具有的属性或特征用数字或符号表示出来的过程,主要作用是确定一个特定分析单位的特定属性的类别或水平。
在社会研究中,变量按照取值的性质可以分为定类变量、定序变量、定距变量、定比变量。
定类变量称为定性变量,后三个变量称为定量变量。
变量的解释和运用离不开测量,不同的变量需要相应的测量尺度。
史蒂文斯于1951年创立了测量尺度分类法,将测量尺度分为定类尺度、定序尺度、定距尺度、定比尺度。
定类尺度定类尺度(nominal scale),也称为类别尺度、定名尺度,是用于测量定类变量的尺度,是测量尺度中最低的一种。
定类尺度在本质上是一种分类体系,即把研究对象的不同属性或特征加以区分,标以不同的名称或符号,确定其类别。
定类尺度所分的类别必须兼具穷尽性和互斥性,即既要相互排斥,互不交叉重叠,又包罗各种可能的情况。
所测量的每一个对象,都会在分类体系中占据一个类别,并且只占据一个类别。
性别、种族、职业、宗教、籍贯、婚姻状况等是典型的定类尺度。
定类尺度的数学特征是“等于”或“不等于”。
测量给出的数字仅仅是识别调查对象或对调查对象进行分类的标签或编码,不具备任何数学特性,也不能说明其本质特征。
定类尺度具有对称性和传递性。
对称性,即如果甲与乙同类,则乙也一定与甲同类;如果甲与乙不同类,则乙也一定不会与甲同类。
传递性,如果甲与乙同类,乙与丙同类,则甲与丙一定也同类。
对于任何一门学科来说,分类都是基础。
其他几种层次的测量,也都把分类作为其最低限度的操作,都包含着定类尺度的分类功能。
在社会现象的测量中,大量的变量都是定类变量,分类是最基本的目标和最经常的操作。
定类尺度可分为标记和类别两种①标记标记可作为一个识别的记号。
数字当用作标记时,不表示数量的多少,也不能做加减乘除运算。
例如,体育运动中用号码区分运动员:3号球员、6号球员、9号球员……但不能说9号球员>6号球员、3号球员+6号球员=9号球员或者9号球员x3号球员=18号球员。
社会调查测量尺度

2、实例:
测量人们的生活水平,可以将其分为贫困、温饱、 小康、富裕,这是一种由低到高的等级排列;测量城 市规模,可以将其分为特大城市、大城市、中等城市、 小城市,这是一种由大到小的排列。
3、适用的统计方法有:
主要有中位数、四分位差、等级相关和非参数检验等。
三、定距尺度
定距尺度是能够确定测量对象的属性和特征 的差别程度的一种测量方法。也就是定距尺 度确定的每一等级之间的间距是相等的,可 以用来相加或相减。如智商、温度、学习成 绩等。
3、注意:
定距测量的值可以为零,但这个零并不具备数学中零的含义,即此时的零 并不是绝对的“无”,它是人们主观认定和选取的。
4、适用的统计方法有:
算术平均数、平均差、方差、积差相关、复相关、参数检验等。
四、定比尺度
定比尺度是反映社会现象之间的比例、倍数 关系的一种测量尺度。 如身高、出生率、 工资额等。
=≠
‹› +-
╳÷
适用统计方法 百分比、X2检验、 列联相关系数 中位数、四分位差、 等级相关、非参数检验
算术平均值、方差、 积差相关、复相关、 参数检验
算术平均值、方差、 积差相关、复相关、 参数检验、几何平均值
back
特点:
1、可将定距指标转换为数字,其尺度水平 比定序指标更高一个层次;
2、定距尺度上没有绝对的零点。
1、数学特征 能够进行加减运算,但不能进行乘除运算。 0不具备数学0的含义
例如:IQ为115与120
2、实例:
测量北京的温度为摄氏20度,广州的温度为摄氏30度。从这一测量中, 我们不仅可以了解到北京与广州的气结果),而且还了解到广州的气温比北京高 出摄氏10度(定距测量的结果)。
测量的层次

1.标记 识别的记号,当数字被用做标记时,它并不是 表示数量多少,也不能做数量运算。 例如,足球运动等活动用号码区分运动员,3号 球员、6号球员、9号球员,但是不能说3号运 动员+6号运动员=9号运动员。 2.类别 变量不同状态的度量。 例如,性别:男、女
例如,将“文盲与半文盲” 、“小学毕业”、 “初中毕业”、“高中或中专毕业”、“大专 或大学毕业及以上”
分别于数字1、2、3、4、5来代表。12345,
但是不能说1+2=3。
2)某些时候,定序层次的测量结果可近似的看 作是定距层次的运用。 例如,“非常赞成” 、“比较赞成” 、“中 立”、“不太赞成” 、“很不赞成”。
四、定比测量
Hello!
又称比例测量或等比测量,除具有上述三种测
量的全部性质之外,具有一个有实际意义的绝
对的零点,其数据可以加减或乘除运算。
例如,年龄、工资、出生率、性别比、离婚率 张三工资6800、李四3400,那么6800 ÷3400=2,张三的工资是李四的2倍。
定比测量与 定距测量如 何区分?
此时,研究者可以认为,这样的变量在测 量的尺度上的取值基本上是平均划分的, 即“非常赞成” 与“比较赞成” 之间的距
离也基本上等同于“比较赞成” 与“中立”
之间的距离。
三、定距测量
Hello!
又称等距测量或区间测量,它不仅能将 社会现象或事物区分为不同的类别、不 同的等级,而且可以确定它们相互的间 隔距离和数量差别。
例如,人的智商正常在90~110之间。 张三智商125、李四智商110,那么,张三智商比 李四智商高15, 125-110=15。 “三九” 天,测量到漠河的气温-25℃,三亚气温 15℃,对该结果分析: 1)仅仅了解漠河与三亚两地的气温,是定类测量 的结果 2)了解到三亚气温比漠河气温高,则是定序测量 的结果
spss整理笔记

1、 spss的三种输出结: 表格格式格式文本格式标准图与交互图果2、变量名的定义与保留字不同,同时变量名不能一数字开头。
变量名不能与spss保留字相同, spss的保留字有ALL 、 END 、 BY 、EQ 、 GE 、 GT 、LE 、 LT 、 NE 、NOT 、 OR 、TO 、WITH 。
3、字符型:字符型数据的默认显示宽度为8 个字符位,系统不区分变量名中的大小写字母,并且不能进行数学运算。
注意:在输入数据时不应输入引号,否则双引号将会作为字符型数据的一部分。
4、(1)定类尺度(Nominal Measurement):定类尺度是对事物的类别或属性的一种测度,按照事物的某种属性对其进行分类或分组。
离散型特点:其值仅代表了事物的类别和属性,即能测度类别差异,不能比较各类之间的大小,所以各类之间没有顺序和等级。
对定类尺度的变量只能计算频数和频率。
在spss中,能适用定类尺度的数据可以是数值型,也可以是字符型变量。
使用定类变量对事物进行分类时,必须符合穷尽原则和互斥原则。
(2)定序尺度( Ordinal Measurement ):定序尺度是对事物之间的等级或顺序差别的一种测度,可比较优劣或排序。
离散型特点:由于定序变量只能侧度类别之间的顺序,无法测出类别之间的准确差值,即测量数值不代表绝对的数量大小,所以其测量结果只能排序,不能进行运算。
(3)定矩尺度( Interval Measurement ):定矩尺度是对事物类别或次序之间间距的测度。
特点:不仅能将事物区分为不同类型并进行排序,而且可能准确指出类别之间的差距是多少;定矩变量通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值,所以计量结果可以进行加减运算。
(4)定比尺度( Scale Measurement ):定比尺度是能够测算两个测度值之间比值的一种计量尺度,它的测量结果同定距变量一样表现为数值。
特点:定比变量是测量尺度的最高水平,它除了具有其他三种测量尺度的全部特点外,还具有可计算两个测度之间比值的特点,因此它可以进行加、减、乘、除运算,而定矩变量值可进行加减运算。
社会统计学2

第一节分布、统计表和统计图
• 一、变量及其测量划分 • 变量是所研究问题的特征或性质,也称作指标。在自然科学中,
变量是可以通过仪器进行测量的。在社会学研究中,变量往往通 过向被访者问问题来进行测量。落实在变量的设计上,就需要根 据调查研究的问题的不同,设计出不同层次的变量,具体划分为 定类变量、定序变量、定距变量、定比变量。
• 1、定类变量
• 定类变量是最低的变量层次,它的取值只有类别属性之分,而无 大小程度之别,如民族、婚姻、职业等变量。
• 2、定序变量
• 定序变量的取值除了有类别属性之外,还有等级次序的差别,其 层次高于定类变量,常见的定序变量,如受教育程度、满意度、 幸福感、社会经济地位等。在使用量表测量时,往往是基于定序 变量。
如贫困问题,需要对低收入段分得细一些。研究老龄化问题,则 需要对老年群体分得细一些。这些都会带来非等距分组。
• 3、组限
• 组限是指每组的范围,即每组的上限和下限。对于离散型变量一 般采取相邻组限不重叠的原则,而对于连续型变量,可能出现相 邻组限重叠的情况,这时采取的原则就是“上组限不在内”原则。 对于开口组求组中值,是依据相邻组的组距加减其一半求得。
• 箱体图反映数据的集中程度,也反映出均值的代表性程度。
• 图2-8显示,流动人口中,女性的平均年龄略低于男性,女性的年 龄更加集中。
第二节 集中趋势测量法
• 集中趋势测量法是找出一个数值来代表该变量数据集结情况的方 法。该方法的优劣在于,由于是根据一个代表值来估计或预测每 个研究对象的数值,因此运用该方法要舍去变量的某些信息,但 由于该数据是最有代表性的数值,以该数值做代表所产生的误差 最小。
• 1、点线图
• 线代表变量,线上标明的是变量的取值,线上方的每一个点代表 一个观测值。点线图的优点是直接,能够看到哪些地方观测值密 集,哪些地方观测值稀少,不丢失任何信息。
定类、定序、定距、定比数据的区分

(一)定类尺度*~4Dc SY
又称类别尺度,按事物的某种属性对其进行平行的分类或分组。(只能测度事物之间女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类,按洲别分为亚洲人、欧洲人、美洲人、非洲人、澳洲人五类。
(二)定序尺度
(三)定距尺度#j h~7y/y;A
又称间隔尺度,是对事物类别或次序之间距离的测度。该尺度通常使用自然或物理单位作为计量尺度。例:30°C和20℃之间相差10℃,-30°C和-20℃之间也是相差10℃。再比如,1等星比2等星亮10倍,0等星比1等星亮10倍,-1等星又比0等星亮10倍。定距数据可以进行加、减运算,不能进行乘、除运算。其原因为定距尺度中没有绝对零点(定距尺度中的“0”是作为比较的标准,不表示没有)。
又称顺序尺度,是对事物之间等级差别和顺序差别的一种测度。它不仅可以测度类别差,还可以测度次序差。(不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算)例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。IYD 7MDKDy(j
(四)定比尺度
又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,或者是理论上的极限)。因此,不仅可以进行加减运算,还可以进行乘除运算。例如,绝对温度300K(27℃)时理想气体的体积273K(0℃)时的1.1倍,温度比也是1.1倍,则绝对温度和体积都是定比尺度。一般来说,定比尺度的数据不可能取负值。一般也不会取零值,因为要么就是不存在了,要么就是极限情况。如,绝对零度只能无限接近,不可能完全达到。如果一个物体的体积为零,那么它要么不存在,要么是数学中的抽象概念,比如,几何中的点、线、面的体积都为零。而一个人的年龄为0时呢?作为社会学意义上的人,可以认为它是极限(开始);作为生物学上的人,则是定距尺度的。
定类,定序,定距

(一)定类尺度*~4Dc SY又称类别尺度,按事物的某种属性对其进行平行的分类或分组。
(只能测度事物之间的类别差,其他差别无法得知)例:按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类,按洲别分为亚洲人、欧洲人、美洲人、非洲人、澳洲人五类。
(二)定序尺度又称顺序尺度,是对事物之间等级差别和顺序差别的一种测度。
它不仅可以测度类别差,还可以测度次序差。
(不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算)例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。
满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。
IYD 7MD KDy(j(三)定距尺度#j h~7y/y;A又称间隔尺度,是对事物类别或次序之间距离的测度。
该尺度通常使用自然或物理单位作为计量尺度。
例:30°C和20℃之间相差10℃,-30°C和-20℃之间也是相差10℃。
再比如,1等星比2等星亮10倍,0等星比1等星亮10倍,-1等星又比0等星亮10倍。
定距数据可以进行加、减运算,不能进行乘、除运算。
其原因为定距尺度中没有绝对零点(定距尺度中的“0”是作为比较的标准,不表示没有)。
(四)定比尺度又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,或者是理论上的极限)。
因此,不仅可以进行加减运算,还可以进行乘除运算。
例如,绝对温度300K(27℃)时理想气体的体积273K(0℃)时的1.1倍,温度比也是1.1倍,则绝对温度和体积都是定比尺度。
一般来说,定比尺度的数据不可能取负值。
一般也不会取零值,因为要么就是不存在了,要么就是极限情况。
如,绝对零度只能无限接近,不可能完全达到。
如果一个物体的体积为零,那么它要么不存在,要么是数学中的抽象概念,比如,几何中的点、线、面的体积都为零。
而一个人的年龄为0时呢?作为社会学意义上的人,可以认为它是极限(开始);作为生物学上的人,则是定距尺度的。
定序变量 定距变量 定比变量 定类变量

定类变量定序变量定距变量定比变量定类变量定类变量变量的一种,根据定性的原则区分总体各个案类别的变量。
定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。
例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。
这些变量的值,只能区别异同,属于定类层次。
设计定类变量的各个类别时,要注意两个原则。
一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。
例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。
定序变量变量的一种,区别同一类别个案中等级次序的变量。
定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有>与<的数学特质。
它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(=,≠)。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。
这些变量的值,既可以区分异同,也可以区别研究对象的高低或大小。
但是,各个定序变量的值之间没有确切的间隔距离。
比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。
定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。
它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。
但是,定距变量没有一个真正的零点。
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。
又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。
数据的计量类型

四种测量尺度一览表
名称 特点 基本功能 数学特性 = ≠ = ≠
定类尺度 分类符号
分类、描述
1.分类 2.可按顺序排列 1.同上 2.同上 3.差值的确定与比较 1.同上 2.同上 3.同上 4.比值的确定与比较
1.分类符号 定序尺度 2.等第顺序
‹
=
›
≠
1.同上 定距尺度 2.同上 3.差值大小有相等单位
四、定比尺度 也称比例尺度或等比尺度,是一种除有上述三种 尺度的全部性质之外,还有测量不同变量(社会现象 )之间的比例或比率关系的方法。如某家庭的收入支 出、企业的产值利润、某地区的人口总数、失业人数 等。 特点: 1、除具备前三个尺度的所有特征外,还能对变 量值进行乘除法的运算; 2、具有绝对的零点,即数字“0”表示没有或不 存在。
二、数据的计量类型
根据计量学的分类方法,按照对事物计量的精确程 度,可将计量尺度从低级到高级、从粗略到精确分 为四类:定类尺度、定序尺度、定距尺度、定比尺 度。
一、定类尺度 按照研究对象的某种属性将其划分为若干组或若干类 的一种测度。 只能测定事物之间的类别差异,不对类别之间的关系 做任何假定。如把人口按性别分为“男、女”,按民族分 为“汉、回、满”。 特点: 1.只能区分事物的类别,无法比较优劣大小。定类尺度具 有“=”或“≠” 的数学性质。各类别平等并列。 2.对定类尺度计量的数据进行分析的统计量主要是频数或 频率。
三、定距尺度 定距尺度又称间隔尺度,是对事物类别或次序之 间的间隔进行的一种测度。定距尺度一般以自然单位 来衡量,如考试成绩用“分”计量,人的身高以“厘 米”或“米”计量,温度用“°C”计量。 特点: 1、不仅能区分事物的类别、进行排序、比较大小 ,还可以精确地计量出两个数字之间的差距,定距尺 度的计量结果表现为数值,可以进行加减数学运算; 2 、没有绝对的零点,定距尺度中的“ 0 ”表示 “0”水平,而不是“没有”“不存在”。
数据类型

机器学习中数据一般分为四种,分别为标称型数据(Nominal),排序型数据(Ordinal),间隔型数据(Interval)和比率型数据(Ratio),分别对应定类,定序,定距和定比。
一、标称型数据(Nominal)
互斥,无序但是有类别。
变量的不同取值仅仅代表不同类的事物,这样的变量称为定类变量。
比如:性别,肤色就是定类变量,对于这种变量来说,加减乘除的运算时没有意义的。
二、排序型数据(Ordinal)
有顺序,有类别,但是无运算意义。
变量的值不仅可以代表事物的类别,还可以表示事物的某种特性的顺序或大小,这样的变量叫做定序变量。
比如文化程度:小学,中学,高中,大学等,这些数据可以排序,也有一定的实际意义,但是运算没有意义。
三、间隔型数据(Interval)
本质是数据之间的间隔,变量之间的值可以比较大小,差值有实际意义,此类变量可以成为定距变量。
比如年龄,月平均收入等,都是定距变量。
四、比率型数据(Ratio)
0点有明确的定义,比如质量,高度。
定比变量和定距变量在市场调查中一般不加以区分,二者区别在于,定距变量为0时不表示没有,只是值为0,定比变量为0时表示没有。
社会统计学知识(2020.05.29)

社会统计学知识1.定类变量:当变量值的含义仅表示个体的不同类别,而不能说明个体的大小、程度等其他特征时,这种变量称为定类变量。
P72.定序变量:当变量值的含义不仅表示个体的不同类别,还可以区分个体之间的大小、程度等序次差异时,这种变量称为定序变量。
P83.定距变量:当变量值不仅可以将个体区分为不同类别并进行排序,而且可以确定不同类别之间的数量差别和间隔差距时,这种变量称为定距变量。
P84.定比变量:当变量除了具有定类、定序、定距这三种变量的全部特征外,还可以计算两个变量之间的比值时,这样的变量称为定比变量。
P95.离散变量:如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。
6.连续变量:如果一个变量的变量值是连续不断的,即可以取无限多个数值,这种变量称为连续变量。
P107.自变量:把能引起其他变量变化的变量,称为自变量。
P108.因变量:把由其他变量的变化而导致自身发生变化的变量称为因变量。
P109.总体:是指构成它的所有个体的集合,P1110.个体:是指构成总体的最基本单位。
P1111.样本:是指从总体中按照一定方法抽取的一部分个体的集合。
P1112.抽样单位:是指一次直接的抽样所使用的基本单位。
P1113.抽样框:是指一次直接抽样时样本中所有抽样单位的名单。
P1114.普查:是指对总体中所有的个体进行的一次全面调查。
P1215.抽样调查:是指从总体中按照一定方法抽取的一部分个体组成一个样本进行调查的方式,再根据调查结果推断总体特征。
16.归纳法:是从特殊到一般,也就是从一组具体的观察结果推导出一般性的规律或法则;17.演绎法:是从一般到特殊,也就是研究者从想要检验的一般性理论开始,然后去观察、收集资料,通过这些资料来检验这个理论。
18.组距:各组上限值与下限值的差。
P4519.频数:就是某个类别或某个小组中的数据个数,也叫次数。
P4920.频率:就是一个样本中某一类别或某一小组中数据个数占总数据个数的比重。
教你区分定类、定序、定距、定比变量

定类变量定序变量定距变量定比变量定类变量变量的一种,根据定性的原则区分总体各个案类别的变量。
定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。
例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。
这些变量的值,只能区别异同,属于定类层次。
设计定类变量的各个类别时,要注意两个原则。
一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。
例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。
定序变量变量的一种,区别同一类别个案中等级次序的变量。
定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有>与<的数学特质。
它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(=,≠)。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。
这些变量的值,既可以区分异同,也可以区别研究对象的高低或大小。
但是,各个定序变量的值之间没有确切的间隔距离。
比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。
定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。
它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。
但是,定距变量没有一个真正的零点。
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。
又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。
教你区分定类、定序、定距、定比变量

定类变量定序变量定距变量定比变量定类变量变量的一种,根据定性的原则区分总体各个案类别的变量。
定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。
例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。
这些变量的值,只能区别异同,属于定类层次。
设计定类变量的各个类别时,要注意两个原则。
一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。
例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。
定序变量变量的一种,区别同一类别个案中等级次序的变量。
定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有>与<的数学特质。
它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(=,≠)。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。
这些变量的值,既可以区分异同,也可以区别研究对象的高低或大小。
但是,各个定序变量的值之间没有确切的间隔距离。
比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定序变量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。
定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。
它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。
但是,定距变量没有一个真正的零点。
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。
又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。
统计推断或假设检验的常见问题

统计推断或假设检验的常见问题连续变量和分类变量1.所有测量值可以分为四水平:定类(NOMINAL),定序(ORDINAL),定距(INTERVAL),和定比(RATIO).前面两类是分类变量,后面两类是连续变量. 2.定类变量是只能决定类别,例如白人和黑人,民主党和共和党,男人和女人等.定序变量比定类变量进了一步,因为不但可以决定类别,还可以决定各水平的次序.例如高收入,中等收入,和低收入;非常满意,比较满意,比较不满意,和非常不满意等等.但是各个水平间的距离并无意义.例如痛苦程度用1到10表示.用7表示的痛苦大于5,后者又大于3.但你不能说7和5表示的痛苦和5和3表示的痛苦是等距离的.定距变量又进了一步,不但可以知道次序而且可以知道各个水平间距离,而且各个水平间距离有意义.如100度的开水和90度的温水之间等于90度和80度之间的差别.但是注意0度的水不等于无温度.而定比变量则是最高级水平,具有所有定距变量的特性还加上一个0是本身有意义的.例如重量0克等于0重量.凡是定比变量都可以比较两个量的比值.例如重量:4克的物质是2克物质的2倍.但100度的水不是50度水的两倍热,因为它不是定比变量.社会科学中最好的定比变量例子是收入.年薪十万就是五万的两倍.0收入就是没有收入.:5.有人做了一个实验以决定抗生素是否会增加小牛体重. 下列变量是每头牛的测量值:性别, 初始体重, 体重增加数, 肉质品位等级, 其中肉质品位等级以A, B, 或C表示. 这些变量的测量类型是:a)定类, 定比, 定距, 定类b)定类, 定比, 定比, 定类c)定类, 定比, 定比, 定序d)定序, 定比, 定比, 定序e)定序, 定比, 定比, 定类6.有一项研究调查的是火力发电厂对水质的影响. 研究人员先抓鱼并加以标记再把它们放了. 对每条鱼都作了下列记录:性别(0=雌鱼, 1=雄鱼), 鱼身长度(cm), 成熟度(0=幼小, 1=成熟), 体重(g).这些测量值属于:a.定类, 定比, 定类, 定比b.定类, 定距, 定序, 定比c.定类, 定比, 定序, 定比d.定序, 定比, 定类, 定比e.定序, 定距, 定序, 定比无效和备择(或对立)假设7.无效假设和备择(或对立)假设的内容应该由管理决策问题决定.一般来说是由无效假设当稻草人,而真正目的是看备择(或对立)假设能否成立.8.既然无效假设是稻草人,在设立时要使它可能被推翻.办法是令无效假设等于, 大于或小于一个具体的数值(如销售额增加<15, 广告效应=0, 今天的市场分额=昨天的分额,或婴儿出生体重=8斤,)而不是模棱两可的(如销售额增加不等于0, 广告效应不等于0, 今天的市场分额不等于昨天的分额,或婴儿出生体重不等于8斤).9.备择(或对立)假设一定要和无效假设对应,使得一旦无效假设推翻以后就只能接受备择(或对立)假设.10.参看Excel”统计复习2”工作簿Solution一表中关于假设的例题.11.为了保证对应性,一般说来备择(或对立)假设和无效假设符号要相反,内容要一致,即他们是关于同一事件的不同可能性.12.何时作出假设?研究者应该事先决定假设再作检验.这相当于先设立靶子再射击.不能先测验假设中途又改变它!13.* 当假设表示为一个等号后面跟具体数值的时候就称为简单假设.反之不是等号而是大于,小于,或不等号时就称为合成假设.所有两尾备择(或对立)假设都是合成假设.一尾备择(或对立)假设也是合成假设.多数无效假设都是简单假设*14.参看Excel”统计复习2”工作簿Solution一表关于假设的题目一尾测验还是两尾测验?15.当你对某事件了解不多,或无清楚的理论指导,或无过去经验可供参照,或常识/逻辑不能帮忙时,一般都应该用两尾测验.反之可以用一尾.16.例如加了工资以后消费支出一般不大可能降低,公路加宽后不大可能增加交通事故,打了广告后不大可能减低销售额等等都可以用一尾测验.17.能从假设中看出用一尾还是两尾吗?答案是肯定的.要看备择(或对立)假设.如果备择(或对立)假设是带方向性的(如销售额<300,000, 进口车耗油量<国产车,广告后市场份额>广告前等等=就用一尾.反之不带方向性用两尾.18.什么是临界值? 临界值就是门槛值. 就是在概率分布的横轴上的一个或几个关键值. 没有越过那个值就属于大概率事件, 而一旦越过那个值就变成小概率事件, 就认为那里的事件是由机会引起的而不是真实(即大概率)事件.19.为什么要重视临界值? 因为在概率分布给定时, 每个概率值都对应于一个确定的临界值. 概率值用概率曲线下的面积表示, 而临界值用直线即横轴上的值表示. 后者比前者更方便求取. 故在假设检验时都把概率值化为临界值.20.与两尾测验相比,一尾测验需要比较小的临界值即可以达到显著. 统计上把这个现象称为高检验力度(Power). 直观的说, 一尾测验相当于把两个尾部的概率集中到一个尾部. 比如两尾测验时你需要z=1.96才能达到5%的显著水平, 而一尾时只要z=1.645即可. 后者比1.96更加接近概率分布的中部而不是尾部.也就是说我们把门槛值向左移动了.21.参看Excel”统计复习2”工作簿Solution一表中”下列情况的t或z的临界值是什么”那一节中的例题22.在用Excel函数求临界值时,都是假定你已经决定了显著水平而要求相应临界值.这时需要用Normsinv, Tinv, or Chiinv. 注意前两个函数要考虑一尾还是两尾测验. 而卡方测验只有一尾. 因为卡方分布没有负数.23.一定记得把显著水平即概率值除以2以便得到两尾检验的临界值. 而如果是一尾检验直接代入显著水平即可. 例如求5%显著水平的正态分布一尾临界值其公式是Normsinv(0.05), 而求两尾临界值则用Normsinv(0.05/2). 注意不是Normsinv(0.05)/2, 因为不是临界值的1/2, 而是概率即显著水平的1/2. 再说一次: 两尾检验其概率要除以2, 一尾就不需要!24.参看Excel”统计复习2”工作簿Solution一表中”下列情况应该用何检验”那一节中的例题.25.决定用t测验还是正态z检验取决于两个条件, 一是群体方差是否已知, 二是样本大小. 一般大样本即大于50人以上都可以用正态检验. 否则用t检验.26.参看Excel”统计复习2”工作簿Solution一表关于何种检验的总结表I类错误和II类错误27.I类错误称为拒真错误, II类错误则是纳伪错误. 其中的拒真和纳伪都是指无效假设而言. 即当无效假设是真实时你推翻它(I 类错误), 或当无效假设是错误时你未能推翻它(II类错误).28.II类错误概率用β表示, 而I类错误的概率就是显著水平, 用α表示. I类错误的概率可以人为控制; 而II类错误则受三个因素影响: [1]显著水平(即I类错误概率), 一般α越大β越小; [2]样本大小, 一般样本越大β越小即犯II类错误的概率越小; 和[3]效应大小. 后者是指群体真值和无效假设值的差数, 或两个样本间平均数或其它统计值的差异; 一般效应越大则β越小.29.I类错误和II类错误的方向相反. 例如显著水平=0.05时犯II类错误的概率要比显著水平=0.10时要大. 所以一般而言你不能同时减少两类错误的概率.但是如果你有大样本就可以达到这一目标.30.检验力度(Power)等于1-beta, 其中beta是II类错误的概率. 虽然求II类错误也有公式, 但求起来比较难, 因为我们必须知道对立假设下的分布. 所以我们一般不去求它. 只需要知道I类和II类错误的关系, 知道II类错误和检验力度的关系即可.31.I类错误概率, II类错误概率, 检验力度, 以及效应大小的关系看Churchill的PPT最好理解.关于概率分布32.连续变量常常服从正态分布或其它连续分布,例如对数正态(LOGNORMAL), T分布,F分布等.分类变量服从二项分布,多项分布等.33.样本统计值常常用比例表示,比例常常服从二项分布.例如抽烟和不抽烟,听过(或见过)广告和没有见过广告,喜欢和不喜欢某产品,以及是大学生和不是大学生等等.二项分布有两个特点.第一它可以用正态分布逼近.其原因用抛硬币实验很容易理解.如果我们抛一枚硬币6次,纪录正面出现次数,则N=6,P=0.5因为硬币每次出现正面和负面的概率应该相等.则在6次中有3次是正面的概率是33!6!()(1)(3)0.5*0.5!()!3!(3!)6*5*4*3*2*(.125)*(.125).3125(3*2)*(3*2)r n rnP r Pr n rππ-=-==-==类似地其它概率,比如出现1次,0次,2次等等都可以按此公式计算出来.请看E XCEL工作簿”E XCEL统计推断”中”如何计算事件概率”那个表格.这些概率就形成概率分布,后者虽然服从二项分布但可以用正态分布逼近. 34.样本比例的方差特别容易计算,直接等于P*Q(其中Q=1-P).有了方差则标准差和标准误就都好计算了.我们在假设检验中常常要用到这个特性来求方差,标准差和标准误,非常方便!其标准误捷径公式是pσ=标准差捷径公式是σ=方差捷径公式是(1)Vππ=-.其中的π和1-π是指群体的”成功”比例,即某事件出现次数占总次数的比例.对样本来说就是P和Q.请见E XCEL”统计推断2”工作簿中”S OLUTION”一表,其中关于可锐职业顾问公司的例子35.如果变量服从正态分布则大约68%的值位于正负一个标准差之间,大约95%的值位于正负两个标准差之间,大约99%的值位于正负三个标准差之间.其全距(即极大值和极小值之间差数)是大约六个标准差(最后这一点对于计算样本容量很有用)36.对于服从二项分布的变量,不必用”全距等于6个标准差”这一点来求标准差.应该直接代入样本比例求标准差.自由度问题37.自由度是指样本个体中可以自由变化的程度. 每当你的样本增加一个个体你就多了一个自由度, 反之每当你模型中增加一个变量就用去了一个自由度.在求标准差时要计算平均数, 所以N-1就是标准差的自由度.38.计算自由度的方法要看你的检验方法而定. 下列是常见公式.a.如果你有表格数据, 又只有一个变量, 则应该用分类变量水平数目减去一即是自由度. 例如你用表格列出收入变量. 该变量有六类, 则你的自由度等于6-1=5b.如果你有表格数据, 又有两个变量交叉列表, 则应该用行数减一乘以列数减一得到表格自由度. 例如你用表格列出收入和教育水平. 收入有六水平, 教育5水平, 那么你的表格自由度就是(6-1)(5-1)=20.c.求样本方差和标准差时, 其分母都是N-1, 这是因为标准差和方差都是以平均数为基础, 而求平均数要用去一个自由度. 当然求群体方差和标准差时则不需要自由度, 因为群体大, 用不用自由度关系不大.更主要的是群体参数是需要从样本估计的. 虽然样本统计数要用去自由度, 群体参数却不要. 例如群体平均数等于所有样本平均数的平均数. 对于一个样本来说无需减去自由度以求群体平均数.d.T测验一般是用来检验样本平均数是否等于某一群体平均数, 或者检验两个样本平均数是否相等. 这些情况下常常只需要一个自由度来计算平均数. 所以其自由度一般等于1.e.对于回归模型, 要看模型含有多少变量, 总的原则是用了多少变量就失去多少自由度. 不过要记住加上截距所用的一个自由度. 所以其公式是N-k-1, 其中k等于自变量个数. 例如你的回归模型含有两个自变量, 则k=2, 则模型一共用去三个自由度.标准差和标准误39.群体的标准差(或称标准误差)用σ表示,样本的则用S表示.它们是用来测量一个群体或样本中的变异程度的.顾名思义,标准差就是标准化了的差数.那么什么是差数呢?差数是对平均数而言的.换句话说,标准差就是一个群体或样本中的标准化了的偏离平均数的程度.40.标准误和标准差有两件事不一样.第一,标准差是测量每个个体偏离平均数的程度,而标准误是测量每个样本平均数偏离群体平均数的程度.不过这两者的差别其实比听起来小,因为一个样本只能有一个标准差(不论样本有多大),也只能有一个标准误.第二,因为标准差是测量样本内的变异程度,我们无需重复抽样,仅仅用标准差描述手里这个样本.而标准误则是测量样本之间的变异程度,所以一定要引入重复抽样的概念.即假定我们可以或已经抽取了许多独立样本,每次得到一个平均数,然后看这些平均数偏离群体平均数的程度.41.要求标准差,先求方差.其群体方差公式是:22()xNμσ-=∑,其对应样本方差公式是:22()1x xSn-=-∑.有了方差,只要对它开方就有了标准差.而再把标准差除以根号的样本容量就有了标准误:xS=.42.可以求两个样本的方差是否相等,用F检验.如果方差相等在比较样本平均数时就可以用两样本方差的平均数做分母.正态分布43. 正态分布特点是: [1]分布对称, [2]平均数等于中数(M EDIAN )或中位数,众数(M ODE ), [3]大约68%的值位于正负一个标准差之间, 大约95%的值位于正负两个标准差之间,大约99%的值位于正负三个标准差之间, [4]其全距是大约六个标准差(最后这一点对于计算样本容量很有用)44. 正态分布用的最广,乃因为许多其它分布在大样本下都接近正态分布.比如T 分布, 卡方分布,二项分布等.更重要的是不论原群体分布是何性状,如从该群体反复抽样,把各个样本的平均数(或中位数,或众数)记下来得到平均数的抽样分布,其性状都趋近正态. 这个现象是归因于中央极限定理.45. 正态分布另一个特点是参数比较少,只需两个即可以描述分布: 平均数和标准差.46. 正态分布可以是基于原始数据也可以是标准化的数据. 后者平均数是0, 方差为1.只有标准化的正态分布临界值才能直接用于查表求概率. 标准化的公式是: ()x x z s-=. 47. 在E XCEL 中用函数S TDEV ()估计样本标准差, 用S TDEVP ()估计群体标准差, 或S TDEVA ()估计样本标准差, 且要包括逻辑变量或文字内容. 同理, 用V AR ()求样本方差, 用V ARP ()求群体方差, 或V ARA ()如果包括逻辑变量或文字内容.检验假设显著性的三种方法48. 有三种方法检验假设: 临界值法, 概率法, 置信限法 49. 临界值法就是你求出统计值(如t 值, 卡方值, z 值等), 然后求出5%或1%显著水平下的临界值, 再用统计值去比较临界值. 比较的结果是”不怕临界值小, 就怕临界值大”因为临界值越大概率越小. 如果统计值大于临界值,说明结果显著, 应该推翻无效假设. 反之统计值小于临界值, 说明结果不显著, 不能推翻无效假设.50. 临界值法缺点是你只知道结果是否显著,并不知道精确概率.51. 概率法也是先求统计值, 再根据统计值及其相应的自由度求出概率值. 这个方法随着计算机的普及现在最普遍. 以前要查表才能知道概率, 现在只要输入统计值,用Excel 函数即可以求概率. 它的好处是可以知道精确概率值.52. 如何理解概率值? 最容易的方法是把所得概率值看成是机会引起的事件概率. 例如概率=0.33, 说明有33%的机会所观察到的平均数或其它统计值是有机会引起的. 这个概率相当大, 所以我们不能推翻无效假设. 而如果概率=0.01, 说明只有1%的可能是由机会引起. 这说明机会引起的可能性很小. 所以可以推翻无效假设. 总的说来是”不怕概率大, 只怕概率小”, 小了就可以推翻无效假设.53. 置信限法是先求样本统计值如平均数等, 再求样本标准差和标准误. 根据这些样本统计值就可以求群体参数的置信限为样本平均数加上正负两倍的标准误. 如果在置信限中包括0, 说明无效假设不能被推翻. 反之如果置信限不包括0, 说明群体参数不等于0. 该法多用于回归模型参数检验是否为0, 即某一自变量对因变量效应是否为0.54.所有测验(如t测验, 卡方测验, F测验, 正态测验等)统计值都是可以直接和临界值比较的值! 它们只是告诉你在横坐标上的数值而不是概率.55.临界值不是概率, 但每个临界值都对应相应的概率! 所以知道了临界值再求概率是不难的(求法见后).56.注意不要一看到1.96, 2.58等就认为它们代表0.05或0.01的概率. 1.64,1.96还有2.58都是在标准正态分布下才代表0.1, 0.05和0.01等概率. 在其它分布下它们对应的概率要看自由度而定.57.标准正态分布下的临界值我们用字母z表示. 其它分布时一般不用z表示.例如t分布下的临界值就用字母t表示, F分布下的临界值用字母F表示, 卡方分布下的临界值就是卡方值.58.显著水平和置信水平有何关系? 两者都是概率值. 不过显著水平是指尾部的概率而置信水平是指从左到右的累积概率. 换句话说, 当显著水平等于0.05时, 置信水平就等于1-0.05=.95.59.如何计算不同置信水平下的z值?办法有两个. 一是常用的可以直接记忆.如在标准正态分布下的三个z值是很容易记忆的: 1.64, 1.96, 2.58, 分别表示当置信水平是90%, 95%和99%时的临界值. 对于大多数问题来说记忆法就足够了. 第二种方法是用Excel函数计算. 不论函数用的是那种分布, 在Excel的函数名称里都有一个INV, 表示是把计算过程倒过来, 从概率值求临界值(一般是有了临界值即统计值要求概率值. 所以从概率值求临界值就是反过来了).60.套用Excel函数公式时, 其括号内的值就是你的概率值或置信水平. 有两点要注意, 所有求临界值的Excel函数都是基于累积概率, 即从无穷小到所求的那一点. 也就是从左到右. 但另一方面, 这些函数又都假定两尾概率. 所以其通用公式是(1-alpha/2)=(1-显著水平/2).61.例如要求显著水平=0.1时的临界值, 则在标准正态分布下输入的概率值或置信水平就是Normsinv(1-0.1/2)=Normsinv(0.95)=1.6448. 同理当你的置信水平=0.95时则Normsinv(1-0.05/2)=Normsinv(0.975). 最后如置信水平=0.99时有Normsinv(1-0.01/2)=Normsinv(0.995)=2.5758. 62.如果你不想要两尾置信水平, 只要一尾概率, 那么其公式就是(1-alpha). 例如求置信水平=0.95时的一尾临界值z值, 直接把0.95代入Excel函数有Normsinv(0.95)=1.6448. 又如求置信水平=0.99的一尾临界值z值, 直接代入0.99有Normsinv(0.99)=2.326. 上述例子可见一尾测验时的临界值永远小于两尾时的临界值. 换句话说所以统计学家们说一尾检验力度更大.63.在用Excel函数求临界值时,都是假定你已经决定了显著水平而要求相应临界值.这时需要用Normsinv, Tinv, or Chiinv. 第一个函数只要输入概率即可. 第二个和第三个都需要概率加上自由度.64.用Excel函数求概率时, 用NORMSDIST, TDIST和CHIDIST. 和临界值相似, 第一个函数只要输入z值即可. 第二个不但要t值, 还要自由度和一尾还是两尾, 共需三个参数. 最后的卡方分布概率因为是非对称分布, 且卡方不能为负数, 所以不可能用两尾. 只要卡方值加上自由度即可.65.用Excel求置信限没有简单函数,需要求出平均数和标准差,标准误等以后在手工计算置信限.66.最后Excel还有一套直接求概率的函数, 称为TTEST(), FTEST(),CHITEST() 和ZTEST(). 这些函数要求你给出数据所在位置再直接得出其显著性概率. 例如TTEST()第一个参数是数据范围, 第二个是1或2表示是一尾还是两尾检验, 第三个是测验类型, 共有三类: 第一类是成对比较, 第二是不成对但方差相等, 第三是既不成对方差也不等. 所以TTEST(a1:e22,1,1)表示数据范围是从A1到E22,用一尾检验,成对比较, 而TTEST(a1:b22,2,2)表示数据范围是A1到B22, 用两尾检验, 不成对但方差相等.。
定类变量定序变量定距变量定比变量

定类变量定序变量定距变量定比变量不同类型的数据在统计学分析中具有不同的意义和应用,因此对于数据的分类十分重要。
在数据分析中,我们通常将数据分为四类:定类变量、定序变量、定距变量和定比变量。
下面我们将分步骤阐述这四类变量的定义和特点。
1. 定类变量定类变量是指具有明确分类的变量,如性别、种族、学历等。
这些变量通常是非数值型的,但是它们的分类是互不相交的。
在定类变量中,没有数值大小之分,因此无法进行类似于加减、乘除等算数运算,只能通过比较两个分类的变量是否相同来进行统计分析。
2. 定序变量定序变量是指具有明确分类的变量,但是各个分类之间存在一定的顺序关系。
如考试成绩的优、良、中、差、不及格等级别。
定序变量的分类具有一定的大小等级之分,但是这些等级之间的差距是不确定的,因此也不能进行精确的度量。
3. 定距变量定距变量是指具有明确分类的变量,各个分类之间的差距是确定的,如体重、年龄、温度等。
定距变量可以进行准确的加减运算,但是无法进行乘除运算。
此外,在定距变量中,0点通常是一个意义明确的点,如摄氏度的0点是冰点。
4. 定比变量定比变量是指具有明确分类的变量,各个分类之间的差距是确定的,同时存在一个绝对0点。
如长度、质量、时间等都属于定比变量。
定比变量可以进行准确的加减、乘除等算数运算。
这四类变量在数据分析中的应用非常广泛。
根据变量类型的不同,我们需要采取不同的分析方法。
例如,在分析定类变量时,我们通常使用频数分布表或条形图,而在分析定比变量时,我们更多地使用均值、方差等统计量。
综上所述,对于不同类型的数据,我们需要采取不同的分析方法,才能够准确地得出结论。
了解数据的类型,有助于我们更加深入地理解数据,从而做出更加准确的分析。
定类数据,定序数据,定距数据,定比数据各举一个例子

定类数据,定序数据,定距数据,定比数据各举一个例子定类,指规定的类别,品种。
例如我们是皮饰加工厂,专业生产各种皮类制品。
定序,指规定的程序,我们生产一段分为开料、备料、贴合、针车最后包装。
定距规定的距离,我们针车车物品时一般分为一寸5针。
定比也就是按规定的比例去调配或制作。
例如我们食用的调和油就是按1:1:1调配而成。
统计学中,统计数据主要可分为四种类型。
1.定类数据:名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。
例如,”性别“,”男“编码为1,”女“编码为2。
2.定序数据: 数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。
例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。
3.定距数剧: 具有间距特征的变量,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。
例如,温度。
4.定比变量: 数据的最高级,既有测量单位,也有绝对零点,例如职工人数,身高。
一般来说,数据的等级越高,应用范围越广泛,等级越低,应用范围越受限。
不同测度级别的数据,应用范围不同。
等级高的数据,可以兼有等级低的数据的功能,而等级低的数据,不能兼有等级高的数据的功能。
测量层次2:定距测量与定比测量

定距测量的特点
定距测量可将定距指标转换为数字, 不仅能反映社会现 象的类别和序列,而且能反映社会现象的具体数量,计 算出它们之间的距离,可进行加减运算。 定距测量中的“零”并不是绝对的“无”,而是以某种 人为的标准设置的标志值。
温度
天气预报:沈阳:最高温度3℃,最低-7℃
大连:最高温度6℃,最低-2℃
÷)
√√√√ Nhomakorabea√
√
√
√
√
√
3. 四种测量层次的联系
(2)测量层次比较高的变量可以转换为测量层次比 较低的变量。
3. 四种测量层次的联系
(3)最高等级的测量并不是必须的。 比如:年龄——定比
年龄层——定序
测量层次
史蒂文斯于1951年创立了测量层次(Levels of Measurement) 分类法。
测量层次
定类测量
定序测量
定距测量
定比测量
1. 定距测量(interval measures)
定距测量也称为间距测量或区间测量。它不仅能够将社 会现象或事物区分为不同的类别、不同的等级,而且可 以确定它们相互之间的间隔距离和数量差别。
真正的零: 一无所有
思考题:
下面的变量属于什么层次的测量变量? 身份证号码、 出生年份、工龄
3. 四种测量层次的联系
(1)从定类——定序——定距——定比测量,层次 依次上升,趋向复杂,水平也不断提高。
定类测量 定序测量 定距测量 定比测量
类型(=、 次序(<、 间距(+、 比率(×、
≠)
>)
-)
两地最高温度相差3℃
沈阳最低温度较大连最低温度低5℃
大连最高温度是沈阳最高温度的2倍
2. 定比测量(ration measures)
名词解释定比变量

名词解释定比变量定比变量(Ratio Variable)是统计学中的一种数据类型,它表示两个数值之间的比例关系。
与定类变量(Nominal Variable)和定序变量(Ordinal Variable)不同,定比变量具有绝对零点,可以进行加减乘除等数学运算。
定比变量的值通常表示为分数、小数或百分比等形式,可以反映事物在数量上的差异。
定比变量的特点:1. 具有绝对零点:定比变量的取值范围包括正数和负数,可以表示事物的增加或减少。
例如,温度可以用摄氏度表示,0摄氏度表示水的冰点,-10摄氏度表示水的温度降低了10度。
2. 可以进行数学运算:由于定比变量具有绝对零点,因此可以进行加减乘除等数学运算。
例如,计算两个城市之间的距离、计算一个产品的利润率等。
3. 反映事物在数量上的差异:定比变量的值可以反映事物在数量上的差异,有助于进行比较和分析。
例如,通过比较不同国家的人均GDP,可以了解各国经济发展水平的差异。
4. 可以进行归一化处理:由于定比变量具有绝对零点,因此可以进行归一化处理,将数据转换为统一的度量单位。
例如,将不同地区的温度转换为摄氏度或华氏度。
5. 可以进行相关性分析:由于定比变量具有绝对零点,因此可以进行相关性分析,研究两个变量之间的关系。
例如,研究教育水平和收入水平之间的关系。
定比变量的分类:根据定比变量的性质和特点,可以将其分为以下几类:1. 连续型定比变量:连续型定比变量的取值是一个连续的区间,可以取任意实数值。
例如,人的身高、体重等。
2. 离散型定比变量:离散型定比变量的取值是一个离散的区间,只能取整数或有限个实数值。
例如,企业的产量、销售额等。
3. 比率型定比变量:比率型定比变量的取值是一个比率,表示两个数值之间的比例关系。
例如,投资回报率、人口密度等。
4. 相对型定比变量:相对型定比变量的取值是一个相对的概念,表示一个数值相对于另一个数值的比例关系。
例如,市场份额、失业率等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定类变量定序变量定距变量定比变量
定类变量变量的一种,根据定性的原则区分总体各个案类别的变量。
定类变量的值只能把研究对象分类,也即只能决定研究对象是同类抑或不同类,具有=与≠的数学性质。
例如性别区分为男性和女性两类;出生地区分为农村、城市、城镇三类;民族背景区分为汉、蒙、回、苗、壮、藏、维吾尔等;婚姻状况区分为未婚、已婚、分居、离婚、丧偶等类。
这些变量的值,只能区别异同,属于定类层次。
设计定类变量的各个类别时,要注意两个原则。
一个是类与类之间要互相排斥,也即每个研究对象只能归入一类;另一个是所有研究对象均有归属,不可遗漏。
例如性别分为男女两类,它既概括了人的性别的全部类别,同时类别之间又具有排斥性。
定序变量变量的一种,区别同一类别个案中等级次序的变量。
定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有>与<的数学特质。
它是比定类变量层次更高的变量,因此也具有定类变量的特质,即区分类别(=,≠)。
例如文化程度可以分为大学、高中、初中、小学、文盲;工厂规模可以分为大、中、小;年龄可以分为老、中、青。
这些变量的值,既可以区分异同,也可以区别研究对象的高低或大小。
但是,各个定序变量的值之间没有确切的间隔距离。
比如大学究竟比高中高出多少,大学与高中之间的距离和初中与小学之间的距离是否相等,通常是没有确切的尺度来测量的。
定序变
量在各个案上所取的变量值只具有大于或小于的性质,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。
定距变量也是变量的一种,区别同一类别个案中等级次序及其距离的变量。
它除了包括定序变量的特性外,还能确切测量同一类别各个案高低、大小次序之间的距离,因而具有加与减的数学特质。
但是,定距变量没有一个真正的零点。
例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。
又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2%、10%、35%、20%、10%。
甲区与丙区相差3 3%,丙区与丁区相差15%。
这也是一个定距变量。
定距变量各类别之间的距离,只能用加减而不能用乘除或倍数的形式来说明它们之间的关系。
定比变量也是区别同一类别个案中等级次序及其距离的变量。
定比变量除了具有定距变量的特性外,还具有一个真正的零点,因而它具有乘与除(×、÷)的数学特质。
例如年龄和收入这两个变量,固然是定距变量,同时又是定比变量,因为其零点是绝对的,可以作乘除的运算。
如A月收入是60元,而B是30元,我们可以算出前者是后者的两倍。
智力商数这个变量是定距变量,但不是定比变量,因为其0分只具有相对的意义,不是绝对的或固定的,不能说某人的智商
是0分就是没有智力;同时,由于其零点是不固定的,即使A是14 0分而B是70分,我们也不能说前者的智力是后者的两倍,只能说两者相差70分。
因为0值是不固定的,如果将其向上移高20分,则A的智商变为120分而B变成50分,两者的相差仍是70分,但A却是B的2.4倍,而不是原先的两倍了。
摄氏温度这一变量也如此。
定比变量是最高测量层次的变量。