数据的计量尺度有哪些 (1)
数据的计量尺度与数据类型
(一)数据的定义 (二)数据的计量尺度
1-2
!
(一)数据的定义
数据就是对现象特征进行计量的结果,也即变量值。
•不是指单个的数字,而是由多个数据构成的数据集 。 •不仅仅是指数字,它可以是数字的,也可以是文字的 。
1-3
!
(二)数据的计量尺度
1. 定类尺度Nominal
- 对事物的‘属性特征’进行测定; - 计量结果表现为‘类别’。 例,性别、民族、居住能归于某一有序类别的非数字型数据 定序尺度计量的结果,表现为类别,但有一定的顺序, 用文字来表述 例如,产品按质量分为一等品、二等品、三等品、次品等
3. 数值型数据(Numerical data)
定距或定比尺度计量的结果,表现为具体的数值 例如:身高为175cm、168cm、183cm
4. 定比尺度Ratio
-对事物的‘数量特征’进行测量; 计量结果表现为‘数值’ 有绝对零点,没有0水平 例,身高、产量、收入、住房面积
、人口密度、人均GDP等的测量。 0表示没有,不存在 定比数据一般取正值。
1-4
!
二、数据的类型
1. 定类数据(Nominal data)
只能归于某一类别的非数字型数据 定类尺度计量的结果,表现为类别,用文字来表述 例如,人口按性别分为男、女两类
采用定类尺度计量。
2. 定序尺度Ordinal
-对事物的‘属性特征’进行测定; -计量结果表现为‘类别’,但类别之间
又顺序。 例,成绩、文化程度、满意度、产品等
级等。采用定序尺度计量
3. 定距尺度Interval
-对事物的‘数量特征’进行测量; 计量结果表现为‘数值’ - 没有绝对零点,具有0水平 例,温度、学生成绩等的测量 0可表示实际测度值,有意义
数据的计量与类型.
Part I数据的计量与类型一、数据的计量尺度(一定类尺度又称类别尺度,按事物的某种属性对其进行平行的分类或分组。
(只能测度事物之间的类别差,其他差别无法得知例:按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类,按洲别分为亚洲人、欧洲人、美洲人、非洲人、澳洲人五类。
(二定序尺度又称顺序尺度, 是对事物之间等级差别和顺序差别的一种测度。
它不仅可以测度类别差,还可以测度次序差。
(不能测量类别之间的准确差值,只能比较大小, 不能进行加、减、乘、除数学运算例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。
满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。
(三定距尺度又称间隔尺度, 是对事物类别或次序之间距离的测度。
该尺度通常使用自然或物理单位作为计量尺度。
例:30°C 和 20℃之间相差 10℃, -30°C 和 -20℃之间也是相差 10℃。
再比如, 1等星比 2等星亮 10倍, 0等星比 1等星亮 10倍, -1等星又比 0等星亮 10倍。
定距数据可以进行加、减运算,不能进行乘、除运算。
其原因为定距尺度中没有绝对零点(定距尺度中的“0”是作为比较的标准,不表示没有。
(四定比尺度又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,或者是理论上的极限。
因此, 不仅可以进行加减运算, 还可以进行乘除运算。
例如, 绝对温度 300K(27℃时理想气体的体积 273K(0℃时的 1.1倍, 温度比也是 1.1倍, 则绝对温度和体积都是定比尺度。
一般来说, 定比尺度的数据不可能取负值。
一般也不会取零值, 因为要么就是不存在了, 要么就是极限情况。
如, 绝对零度只能无限接近, 不可能完全达到。
如果一个物体的体积为零, 那么它要么不存在, 要么是数学中的抽象概念,比如,几何中的点、线、面的体积都为零。
而一个人的年龄为 0时呢?作为社会学意义上的人,可以认为它是极限(开始 ;作为生物学上的人,则是定距尺度的。
统计学原理(第二章)
数据的计量和类型
一、数据的计量尺度 4.定比尺度:又称为比例尺度或是比较水平, 是对事物之间比值的一种测度,它是最高层 次的测量,可用于参数和非参数统计推断。 它是与定距尺度属于同一层次的一种计量尺 度,但其功能比定距尺度更强一些。
在日常生活中,大多数情况下使用的都是 定比尺度。例如,年龄、收入、某地区每年的 失业人数、罪犯人数等。
数值数据的描述
一、数值数据的 分组
为什么要进行数据的分组?
品质数据的描述
某电脑公司50名销售代表某季度电脑销售量按从小 到大排序如下表:
107 108 108 110 112 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 126 126 126 127 127 128 128 129 130 131 133 133 134 134 135 139 139 139
204 80.00% 105 41.17%
235 92.16% 51 20%
255 100% 20 7.84%
— 100% —
品质数据的描述
二、品质数据的 图示 1.条形图:是用宽度相同的条形的高度或长 短来表示数据变动的图形,横置的称为带形 图,纵置的称为柱形图(直方图)。
柱形图(直方图)
120 100 80 60 40 20
定类变量、定序变量、 数值型变量(离散变量、连续变量)
第二节 品质数据的描述
一、品质数据的描述 二、数据的类型品质数据的图示 三、品质数据的分布特征描述
品质数据的描述
一、品质数据的 描述 1.频数:是落在某一特定类别(或组)中的 数据的个数。把各个类别及其相应的频数全 部列出来则形成频数分布。
数据的计量尺度有哪些
1、数据的计量尺度有哪些?各自特征(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽与互斥的要求;数据表现为“类别”;具有=或≠的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但就是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 ⨯ 或 ÷ 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系)&以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图就是用条形的长度表示各类别频数的多少,其宽度就是固定的;直方图就是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常就是连续排列,条形图则就是分开排列3、均值、中位数与众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系就是:众数与算术平均数的距离就是中位数与算术平均数距离的3倍,即:e M X M X -=-30根据这一关系,可以得到以下三个关系式:()X M M X X M e e 2330-=--=320X M M e += 230M M X e -=4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性? (1)离散系数:标准差与其相应的均值之比,就是对数据相对离散程度的测度,消除了数据水平高低与计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。
数据的计量尺度有哪些
数据的计量尺度有哪些集团标准化工作小组 #Q8QGGQT-GX8G08Q8-GNQGJ8-MHHGN#1、数据的计量尺度有哪些各自特征(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或—的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有或的数学特性,也可+或—,倍数关系成立(如年龄可以有差值也可以有倍数关系)&以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常是连续排列,条形图则是分开排列3、均值、中位数和众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3根据这一关系,可以得到以下三个关系式:4、为什么要计算离散系数如何运用离散系数判断平均数的代表性(1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V表示。
统计学原理
统计学原理数据的计量与类型一、数据的计量尺度统计研究的任务之一就是要对数据进行处理和分析,而对数据进行处理与分析的前提就是要对数量进行计量,而要对数据进行计量,就要确定数据的计量尺度。
按照对客观事物测度的程度或精确水平来划分,可将计量尺度从低级到高级、由粗略到精确分为定类尺度、定序尺度、定距尺度、定比尺度四种。
1.定类尺度定类尺度又称列名尺度或列名水平,它是按照某种属性对客观事物进行平行分类或分组的一种测度,主要用于非参数的统计推断。
它是对事物的一种最粗略、计量精度最低或最基本的测度,是其他计量尺度的基础,其主要特征体现为:(1)只能区分事物的类别,但无法比较类间的大小。
(2)对事物的区分必须符合穷尽和互斥的要求。
(3)对其进行分析的统计量主要是频数或频率。
2.定序尺度定序尺度又称顺序尺度或有序水平,它是对事物之间等级或顺序差别的一种测度。
其计量精度要优于定类尺度。
它不仅可以测度类别差,而且还可以测度次序差,并可比较大小。
3.定距尺度定距尺度又称间隔尺度或间隔水平,它是对事物类别或次序之间间距进行的一种测度。
它是一种较定类尺度和定序尺度更为高级,更为精确的一种计量尺度。
其主要特征体现为:(1)不仅能区分事物的类别、进行排序、比较大小,而且可以精确地计量大小的差异,即可以进行加减运算,但不能计算乘除。
(2)没有绝对零点,即可以以任意一个零为起点。
这里的“零”表示一个数值,即“0”水平,而不表示“没有”或“不存在”。
4.定比尺度定比尺度又称比率尺度或比较水平,它是对事物之间比值的一种测度,可用于参数与非参数统计推断。
虽然它与定距尺度同属于一个等级的计量尺度,但其功能要比定距尺度强一些,其主要特征体现为:(1)除能区分类别、排序、比较大小、求出大小差异、可采用加减运算以外,还可以进行乘除运算。
(2)具有绝对零点,即“0”表示“没有”或“不存在”。
可见,定比尺度中的“0”是个没有意义的数值。
(3)所有统计量均可对其进行分析。
统计学依据数据的计量尺度
统计学依据数据的计量尺度将数据划分为三类:定距型数据(Scale)、定序型数据(Ordinal)、定类型数据(Nominal)。
定距型数据通常是指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以数值或字符表示。
如职称变量可以有低级、中级、高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、青三个取值,分别用A B C表示等。
这里,无论是数值型的1、2 、3 还是字符型的A B C ,都是有大小或高低顺序的,但数据之间却是不等距的。
因为,低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的;定类型数据是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。
如性别变量中的男、女取值,可以分别用1、 2表示,民族变量中的各个民族,可以用‘汉’‘回’‘满’等字符表示等。
这里,无论是数值型的1、 2 还是字符型的‘汉’‘回’‘满’,都不存在内部固有的大小或高低顺序,而只是一种名义上的指代。
我觉得教育年限应该设置成定距型数据(Scale)吧。
因为,教育年限应该是一个连续的变量,它不存在内在的大小或高低顺序问题。
将可变的数量标志抽象化就称其为变量,其取值称为变量值或标志值。
变量分为确定性变量和随机变量。
确定性变量是指受必然性因素的作用,各变量值呈现出上升或下降惟一方向性变动的变量;随机变量是指受偶然性因素的作用,变量值呈现出随机的混沌状态变动的变量。
根据变量的取值是否连续划分,有连续型变量和离散型变量。
连续型变量是指在一个取值区间内可取无穷多个值。
连续型变量值要用测量或计算的方法取得;离散型变量是指在一个取值区间内变量仅可取有限个可列值。
离散型变量值只能用计数的方法取得。
离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得.如果变量可以在某个区间内取任一实数,即变量的取值可以是连续的,这随机变量就称为连续型随机变量,1)无偏性。
统计数据的类型和来源
一、统计数据的类型和来源
综上所述,统计调查资料的准确性、 及时性、完整性和经济性,是对统计工作 的基本要求,它们之间存在着有机联系。 以上要求中,准确性是基础,要在准确中 求及时、(3)统计调查的分类。 ①按被调查者包括的范围不同,统计调查可分为全面调
查和非全面调查。 a.全面调查。全面调查是指对调查对象中的全部单位都无
一、统计数据的类型和来源
②统计调查的意义。统计调查担负着提供基础资料的任务, 是统计工作的基础环节,是决定整个统计工作质量的重要环节, 也是统计整理和分析的前提。如果统计调查工作做得好,能准确、 及时、全面、系统地占有丰富的统计资料,那么就为统计整理和 分析打下了坚实的基础,从而有利于正确认识被研究现象的本质 及其规律性;反之,若调查工作做得不好,所得到的资料不完整、 不真实或不及时,即使是经过科学的整理、严谨周密的分析,也 不能得到正确的判断,这将直接影响整个统计工作的成果。因此, 调查工作的好坏及取得的资料是否完整、准确和及时,将直接影 响以后各个阶段工作的好坏,从而影响整个统计工作任务的完成。
一、统计数据的类型和来源
(1)定类尺度。定类尺度也称类别尺度或列名尺度, 是最粗略、最低层次的计量尺度。这种计量尺度只能按照事 物的某种属性对其进行平行的分类或分组。
(2)定序尺度。定序尺度又称顺序尺度,是对客观现 象之间等级差别或顺序差别的一种测度。这种计量尺度不仅 可以将客观现象分成不同的类别,还可以确定这些类别的优 劣或顺序。
一、统计数据的类型和来源
1. 统计调查概述
(1)统计调查的定义和意义。 ①统计调查的定义。统计调查是按照统计任务的要求, 运用科学的调查方法,有计划、有组织地向社会实际收集各项 资料的过程。统计资料的收集内容有两方面:一是直接收集反 映被调查者的个体原始资料(又称初级资料);二是根据研究 的目的,收集已经加工、整理出来的,说明现象总体的第二手 资料(又称次级资料)。由于第二手资料来源于原始资料,因 而,统计调查的基本任务是收集社会经济现象的原始资料。
数据的计量尺度
常用指标:
全距(极差) 四分位距 方差和标准差
离散系数
三个不同的曲线表示三个不同的总体 ,其均值相同,但离散趋势不同。
第二十九页,共57页。
4.2 离散程度的测定
4.2.1 全距 (Range)
7 8 9 10 7 8 9 10
• 全距也称极差,是一组数据的最大值与最
小值之差。
– R=最大值—最小值
51,52,64
Stem - and - Leaf Plot Frequency Stem & Leaf
9.00 2 . 677888999 4.00 3 .3344 8.00 3 .55566679 1 0.00 4.0011222233 3.00 4 .588 4.00 5 .0112 1.00 5 .5 1.00Extremes (>=64)
审计时 频 间(天) 数 10-15 4 15-20 8 20-25 5 25-35 3 合计 20
频数 密度 0.8 1.6 1 0.3 -
频数密度
2 1.5
1 0.5
0 5 10 15 20 25 30 35 40 审计时间(天)
第十七页,共57页。
直方图与条形图的异同
• 都是用来反映数据的分布状况,适用于不同类型的 数据。
– 主要用于顺序数据,也可用数值型数据,但不能用 于分类数据。
第二十四页,共57页。
根据原始数据计算中位数
– n为奇数时等于第(n+1)/2个数。 – n为偶数时等于第n/2和n/2+1个数的平均值
1,2 ,5,9 ,11 1,2 ,5 , 9,11,18
中位数=5
中位数=(5+9)/2=7
第二十五页,共57页。
统计学简答题划重点
1.数据的计量尺度有哪几种?有定类尺度、定序尺度、定距尺度、定比尺度。
定类尺度也称类别尺度或列名尺度,它是把事物按属性或类别分组。
其计量的结果只是表现为某种类别,而对各类间的其他差别却无法测度。
定序尺度也叫顺序尺度,它是对事物之间等级差别或顺序差别的测度。
具有定类尺度的所有性能。
定距尺度也叫间隔尺度,是对事物间的类别或次序间的间距的测度,其计量结果表现为数值。
定比尺度也叫比率尺度,它与定距尺度属于同一层次,其计量结果也表现为数值。
2.常用的统计调查方式主要有哪些?⑴统计报表。
是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。
⑵普查。
是为特定目的而专门组织的一次性全面调查。
⑶抽样调查。
是从研究对象的总体中随机抽取一部分个体作为样本进行调查,并根据调查结果来推断总体数量特征的一种非全面调查方法。
3.分类数据,顺序数据的整理及图示方法各有哪些?⑴用频数分布表展示分类数据和顺序数据⑵用图形展示分类数据和顺序数据①条形图②饼图4.数据型数据的整理及图示方法有哪些?试述组距分组的步骤。
⑴用频数分布表(变量数列)展示数值型数据①单变量值分组②组距分组⑵用图示展示数值型数据①直方图②箱线图③线图④茎叶图组距分组的步骤:①确定组数②确定各组的组距③整理成频数分布表5.试描述均值,中位数,众数的特点及应用场合均值的计算是建立在每个观测值之上的,因此均值受极端值的影响很大。
在这种时候,均值歪曲了数据实际传递的信息,因此,当数据集有极端值时,均值并不是集中趋势的最好的描述。
众数、中位数和均值各自具有不同的特点,在实际应用中,应选择合理的测度值来描述数据的集中趋势。
当数据呈对称分布或接近对称分布时,三个代表值相等或接近相等,选择用均值比较好,因为均值包含了全部数据的信息,易被大多数人所理解和接受;当数据为偏态分布是,特别是当偏斜的程度较大时,应选择众数或中位数;当数据为定类尺度时,如商品(服装、鞋类)等的规格,用众数是较好的选择。
计量尺度
原始数据:
24, 26, 24, 21, 27, 27, 30, 41, 32, 38
从小到大排序后的数据: 30
21, 24, 24, 26, 27, 27,30, 32, 38, 41
2 144677 3 028
41
茎叶图
SPSS Statistics生成的一个茎叶图
50-59.99歲
20歲以下 20-24.99歲
25-29.99歲
第二产业 52%
40-49.99歲
2003年我国国内生产总值中各产业比重
30-34.99歲 35-39.99歲
3.2.4 直方图(Histogram)
• 用来反映定量变量的分布状况。在统计分组的基础上, 用横轴表示数据分组,纵轴表示频数或频率,各组与 相应的频数就形成了一个矩形,即直方图。
分类数据。
(2)定序尺度(Ordinal Scale)
也称顺序尺度 例如健康状况、质量等级 可对等级、大小等排序 未测量出类别之间的准确差值 根据定序尺度得到的数据为顺序数据。
(3)定距尺度(Interval Scale)
• 也称间隔尺度 • 例如年份、摄氏温度 • 数据表现为“数值” • 可以进行加减运算 • “0”是只是尺度上的一个点,不代表
• 注意对不等距分组:纵轴必须表示为频数密度。 – 频数密度=频数/组距(面积之和=总频数) • 手工绘制直方图时需要先对数据进行分组;用统计软
件spss作直方图时统计软件可以自动进行分组。
直方图(等距分组)
某会计师事务所对20家公司 进行年终审计所需时间(天)
的频数分布表
审计时间(天) 频数
10-15
“不存在” • 根据定距尺度得到的数据为间距数据。
数据的计量类型
四种测量尺度一览表
名称 特点 基本功能 数学特性 = ≠ = ≠
定类尺度 分类符号
分类、描述
1.分类 2.可按顺序排列 1.同上 2.同上 3.差值的确定与比较 1.同上 2.同上 3.同上 4.比值的确定与比较
1.分类符号 定序尺度 2.等第顺序
‹
=
›
≠
1.同上 定距尺度 2.同上 3.差值大小有相等单位
四、定比尺度 也称比例尺度或等比尺度,是一种除有上述三种 尺度的全部性质之外,还有测量不同变量(社会现象 )之间的比例或比率关系的方法。如某家庭的收入支 出、企业的产值利润、某地区的人口总数、失业人数 等。 特点: 1、除具备前三个尺度的所有特征外,还能对变 量值进行乘除法的运算; 2、具有绝对的零点,即数字“0”表示没有或不 存在。
二、数据的计量类型
根据计量学的分类方法,按照对事物计量的精确程 度,可将计量尺度从低级到高级、从粗略到精确分 为四类:定类尺度、定序尺度、定距尺度、定比尺 度。
一、定类尺度 按照研究对象的某种属性将其划分为若干组或若干类 的一种测度。 只能测定事物之间的类别差异,不对类别之间的关系 做任何假定。如把人口按性别分为“男、女”,按民族分 为“汉、回、满”。 特点: 1.只能区分事物的类别,无法比较优劣大小。定类尺度具 有“=”或“≠” 的数学性质。各类别平等并列。 2.对定类尺度计量的数据进行分析的统计量主要是频数或 频率。
三、定距尺度 定距尺度又称间隔尺度,是对事物类别或次序之 间的间隔进行的一种测度。定距尺度一般以自然单位 来衡量,如考试成绩用“分”计量,人的身高以“厘 米”或“米”计量,温度用“°C”计量。 特点: 1、不仅能区分事物的类别、进行排序、比较大小 ,还可以精确地计量出两个数字之间的差距,定距尺 度的计量结果表现为数值,可以进行加减数学运算; 2 、没有绝对的零点,定距尺度中的“ 0 ”表示 “0”水平,而不是“没有”“不存在”。
数据的计量尺度有哪些
(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 或 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系) &以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常是连续排列,条形图则是分开排列3、均值、中位数和众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3倍,即:e M X M X -=-30根据这一关系,可以得到以下三个关系式:()X M M X X M e e 2330-=--=320X M M e += 230M M X e -=4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性? (1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。
统计学思考题
统计学思考题(2009级金融学双学位班)(2010至2011年学年第二学期)1、简述数据的度量尺度与数据的作用。
计量尺度;(1)定类尺度:计量层次最低,只能对事物进行平行的分类和分组,各组各类之间的关系是系列的或平行的。
各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求。
仅具有=或不等于的数学特征。
(2)定序尺度:对事物分类的同时给出各类别的顺序;比定尺度精确,未测出类别之间的准确差值;数据表现为“类别”,但有序。
具有大于或小于的数学特征。
(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数据”;没有绝对零点;具有+或—的数学特性。
(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;没有绝对零点;具有乘或除的数学特征。
数据的作用:统计学是一门收集整理显示和分析统计数据的科学,其目的是探索数据内在的数量规律性,可见数据是统计学的灵魂和基础。
没有较好的统计数据,在好的统计方法或高明的统计学家也难有所作为那。
一切的统计工作都是在围着数据进行。
数据不单单是指数字,而且还包括事物的类型,当然这些事物类型也可用一定的数字代码来表示。
为统计学提供了研究对象,通过对数据的收集整理分析,可以探寻导数据反映出来的内在数量规律性,达到对客观事物的科学认识,从而为我们的各种实践领域提供决策依据。
2、从随机试验角度说明什么是不确定性。
随时事件与必然现象确定性相对应。
生活中还存在随机现象,如抛出一枚硬币得到正面还是反面,商场每天的顾客数和销售额。
这种随机现象有一个共同点就是,在一定条件下可能出现这种结果也可能出现另外一种结果,出现哪种结果纯属偶然,完全随机会而定。
人们事先并不确定哪种结果会出现,这种特点就是统计学中的不确定性。
对随机现象虽然很难用一个确定的公式来描述其变化特征,但不确定性中蕴含着规律性,为研究这种规律性就要先获取有关信息,这就需要我们进行有关随机试验,随机试验需满足三个条件:1)试验可现在相同条件下重复进行,2)每次试验的结果不止一个,但试验的所有可能结果在试验之前是明确可知的;3)每次试验只能观察到可能结果之中的一个,但在试验结束之前不能肯定该次试验出现哪个结果。
第2章 统计数据搜集
第二章统计数据搜集习题一、单项选择题1.统计数据的计量尺度有定类尺度、定序尺度、定距尺度和定比尺度。
其中,形成数值型数据的是()。
A、定距尺度和定比尺度B、定类尺度和定序尺度C、定距尺度和定序尺度D、定类尺度和定比尺度2.教育程度是()的测量。
A 、定比尺度B、定类尺度C、定距尺度D、定序尺度3.智商是()的测量。
A、定比尺度B、定类尺度C、定距尺度D、定序尺度4.籍贯是()的测量。
A、定比尺度B、定类尺度C、定距尺度D、定序尺度5.能作加、减、乘、除等数学运算是()。
A、定比尺度B、定类尺度C、定距尺度D、定序尺度6.只能作加减,而不能作乘除运算的测量尺度是()。
A、定比尺度B、定类尺度C、定距尺度D、定序尺度7.对2008年保定百货商店工作人员进行普查,调查对象是( )。
A、各百货商店B、各百货商店的全体工作人员C、一个百货商店D、每位工作人员8.全国人口普查中,调查单位是( )。
A、全国人口B、每一个人C、每一户D、工人工资9.对某城市工业企业的设备进行普查,填报单位是( )A、全部设备B、每台设备C、每个工业企业D、全部工业企业10.通过调查木兰国有林场管理局、赛寒坝机械林场、滦平坑木林场等几个大型林场,了解承德市木材生产量的基本情况。
这种调查方式是( )。
A、典型调查B、普查C、抽样调查D、重点调查11.人口普查规定统一的标准时间是为了( )。
A、避免登记的重复与遗漏B、确定调查的范围C、确定调查的单位D、登记的方便12.对一批商品进行质量检验,最适宜采用的方法是( ) 。
A、全面调查B、抽样调查C、典型调查D、重点调查13.有一批灯泡共1000箱,每箱200个,现随机抽取20箱并检查这些箱中全部灯泡,此种检验属于()。
A、纯随机抽样B、类型抽样C、整群抽样D、等距抽样14.孟滦林场为了掌握本场的造林质量,拟进行一次全场的造林质量大检查,这种检查应选择( )。
A、统计报表B、重点调查C、全面调查D、抽样调查15.某地进行国有商业企业经营情况调查,则调查对象是( )。
统计学(第3章)
4、定比尺度(比率尺度 ratio scale)
是对事物之间比值的一种测度,可用
于参数与非参数统计推断。 特征:
除区分事物的类别、进行排序、比较大 小,而且还可以进行加减乘除运算。 具有绝对零点,即“0”表示“没有” 或“不存在”。 所有统计量都可以对其进行分析。与定 距尺度的唯一区别是有绝对固定的零点。
第三章 统计数据的整理 10
3、观察数据和实验数据
观察数据:通过调查或观测而得 到的数据。 实验数据:通过控制实验对象而 收集的数据。
第三章 统计数据的整理
11
4、直接数据和间接数据
直接数据:即原始数据。
间接数据:已加工整理过的数据。
第三章 统计数据的整理
12
第二节 统计整理的含义和步骤
当异距分组时,各组的次数还受 到组距不同的影响。为消除异距 分组的这种影响,须计算频率密 度(或次数密度),计算公式: 频数密度 = 频数/组距 频率密度 = 频率/组距
第三章 统计数据的整理
36
二、分布数列的编制
将原始资料按其数值大小重新排列 2. 确定全距 3. 确定组距和组数 4. 确定组限 5. 编制变量数列 示例3-5
第三章 统计数据的整理
某地人口
21
(三)按分组标志的不同性质分
品质分组(属性分组):是将总体按
品质(或属性)标志进行分组。如企 业按经济成份、企业规模,职工按性 别、文化程度分组等。 数量分组(变量分组):是将总体按 数量标志进行分组,如企业按职工人 数、劳动生产率分组,职工按工龄、 工资分组等。
第三章 统计数据的整理 31
4、开口组的组距与组中值
计量尺度
频数 密度 0.8 1.6 1 0.3 -
频数密度
2
1.5
1 0.5
0 5 10 15 20 25 30 35 40 审计时间(天)
18
直方图与条形图的异同
• 都是用来反映数据的分布状况,适用于不同类型 的数据。
• 条形图是用条形的高度表示各类别频数的多少, 其宽度(表示类别)则是固定的。
• 直方图是用面积表示各组频数的多少,矩形的高 度表示每一组的频数或百分比,宽度则表示各组 的组距,其高度与宽度均有意义。
数据的基本类型
数据特性 文 字 性
量化性
开 放 性 : 如档案与文件数 如家庭人口数、
答案不限定 据、访谈观察记 身高体重、IQ
录、开放式语句 无明确范围的
等
数据
封 闭 性 : 以文字形式呈现 限定的尺度,如 答案限定 之限定数据,如 Likert type 问卷
性别之男、女 题目
9
• 问卷题目的类型大致可以分为单选、多选、 排序、开放题目四种类型,他们的变量
定期
活期
50000.0
40000.0
30000.0
20000.0
10000.0
0.0 1996 1997 1998 1999 2000 2001 2002 2003
1996年-2003年城乡居民人民币储蓄存款年底余额
12
3.2.1 线图(Line Chart)
40
百 20
计
分
比
30
20
10
┦
╧
0 17 22 25 28 31 34 37 40 43 46 49 52 56 60
• 注意对不等距分组:纵轴必须表示为频数密度。 – 频数密度=频数/组距(面积之和=总频数) • 手工绘制直方图时需要先对数据进行分组;用统计软
数据的计量尺度有哪些
1、数据的计量尺度有哪些?各自特征(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或?的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有+ 或—的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有?或?的数学特性,也可+或—,倍数关系成立(如年龄可以有差值也可以有倍数关系)&以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常是连续排列,条形图则是分开排列3、均值、中位数和众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3根据这一关系,可以得到以下三个关系式:4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性?(1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V表示。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、数据的计量尺度有哪些?各自特征(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或?的数学特性(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系)(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 ? 或 ? 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系) &以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)(2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义(3)直方图的各矩形通常是连续排列,条形图则是分开排列3、均值、中位数和众数的特点及之间的关系(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3倍,即:e M X M X -=-30根据这一关系,可以得到以下三个关系式:4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性?(1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。
公式如下:(2)离散系数大的离散程度大,平均数代表性小;反之,离散系数小的离散程度小,平均数代表性大。
5、什么是参数?什么是统计量?二者有何关系?(1)参数:研究者想要了解的总体的某种特征值。
总体参数通常用希腊字母表示,所关心的参数主要有总体均值(?)、标准差(?)、总体比例(π)等。
(2)统计量:根据样本数据计算出来的一个量。
样本统计量通常用小写英文字母来表示,所关心的样本统计量有样本均值(?x)、样本标准差(s)、样本比例(p)等(3)关系:6、评价估计量优良的标准是什么?(1)无偏性:估计量抽样分布的数学期望等于被估计的总体参数。
若,则称为的无偏估计量。
(2)有效性:作为优良的估计量,除了满足无偏性的要求外,其方差应比较小。
假定、为总体参数的两个无偏估计量,其抽样分布的方差分别用和表示,若,则称为比更有效的估计量。
在无偏估计条件下,估计量方差越小,离散程度越小,估计越有效。
(3)一致性:指随着样本单位数n的增大,样本估计量将在概率意义下越来越接近于总体真实值。
若n越大越小,则称为的一致估计量。
7、什么是假设检验中的两类错误?第一类错误和第二类错误分别指什么?它们发生的概率大小之间存在怎样的关系?(1)第一类错误(弃真错误):原假设正确却拒绝了原假设。
第Ⅰ类错误的概率记为,被称为显着性水平。
(2)第二类错误(存为错误):原假设为假时未拒绝原假设。
第Ⅱ类错误的概率记为。
(3)关系:在样本量不变的情况下,越小,犯第一类错误的可能性越小,但就大,犯第二类错误的可能性越大;反之,越大,犯第一类错误的可能性越大,,但就小,饭第二类错误的可能性越小。
不能同时减少两类错误,要使二者同时减小的唯一办法就是增加样本量。
8、另加:什么是小概率事件原理?(1)在一次试验中,一个几乎不可能发生的事件发生的概率(2)在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设(3)小概率由研究者事先确定9、什么是方差分析,它研究的是什么?(1)方差分析就是从数据差异入手,通过检验多个总体均值是否相等来判断分类型自变量对数值型因变量是否有显着影响的统计方法。
(2)方差分析从形式上看是比较多个总体的均值是否相等,但本质上研究的是变量之间的关系,包括他们之间有没有影响关系,关系的强度如何等。
10、方差分析中有哪些基本假定⑴每个总体均服从正态分布。
即有:x~N(u,σ2)对于每个因素中的每一个水平,其观测值是来自正态分布总体的简单随机样本。
⑵每个总体的方差都相同。
即:σ21=σ22=……=σn2 各组观测数据是从具有相同方差的正态分布总体中抽取的。
⑶各水平下的观测值相互独立。
11、简述方差分析的基本思想⑴比较两类误差,以检验均值是否相等⑵比较的基础是方差比⑶如果系统(处理)误差明显地不同于随机误差,则均值就不相等;反之,均值相等⑷误差是由各部分的误差占总误差的比例来测度的12、简述方差分析的基本步骤(一)提出假设一般提法H0 :m1 = m2 =…= mk 自变量对因变量没有显着影响H1 : m1 ,m2 ,… ,mk不全相等自变量对因变量有显着影响x n x σσ=注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等(二)构造检验的统计量1. 计算各水平的均值(1)假定从第i 个总体中抽取一个容量为ni 的简单随机样本,第i 个总体的样本均值为该样本的全部观察值总和除以观察值的个数(2)计算公式为式中: ni 为第 i 个总体的样本观察值个数 xij 为第 i 个总体的第 j 个观察值 2. 计算全部观察值的总均值 (1)全部观察值的总和除以观察值的总个数(2)计算公式为:k k i ii k i n j ij n n n n n x n n xx i +++===∑∑∑===Λ21111式中:3. 计算误差平方和 (1)总误差平方和()∑∑==-=k i n j ij i x x SST 112 (2)水平项误差平方和()()∑∑∑===-=-=k i i i k i n j i x x n x x SSA i 121123)误差平方和()∑∑==-=k i n j i ij i x x SSE 112(4)三个平方和的关系SST=SSA+SSE(5)三个平方和的作用① SST 反映全部数据总的误差程度;SSE 反映随机误差的大小;SSA 反映随机误差和系统误差的大小② 如果原假设成立,则表明没有系统误差,组间平方和SSA 除以自由度后的均方与组内平方和SSE 和除以自由度后的均方差异就不会太大;如果组间均方显着地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差③ 判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小4. 计算统计量(1)计算均方差(MS )④组间均方差:SSA 的均方差,记为MSA ,1-=k SSA MSA⑤组内均方差:SSE 的均方差,记为MSE ,k n SSEMSE -= 2)计算检验统计量F ),1(~k n k F MSE MSA F --=(三)统计决策将统计量的值F与给定的显着性水平?的临界值F?进行比较,作出对原假设H0的决策根据给定的显着性水平?,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k 相应的临界值 F?若F>F?,则拒绝原假设H0 ,表明均值之间的差异是显着的,所检验的因素对观察值有显着影响若F<F?,则不能拒绝原假设H0 ,表明所检验的因素对观察值没有显着影响13、一元线性回归模型中有哪些假定?14、相关分析与回归分析的联系(1).共同的研究对象:都是对变量间相关关系的分析(2)只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义(3).相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析(4).相关分析中相关系数的确定建立在回归分析的基础上15、时期数列和时点数列的区别有哪些?(1)当绝对数时间序列中的数据反映的是现象在所属时期内发展过程的总量时,就称为时期序列。
其特点:1>序列中不同时间的数据具有可加性。
2>序列中每个数据的大小与其所属时间的长短有直接联系。
3>序列中每个数据需要连续登记取得。
如国内生产总值序列(2)当绝对数时间序列中的总量数据反映的是现象在某一时点上所处的总量时,称该序列为时点序列。
其特点:1>序列中不同时点的数据不具有可加性。
2>序列中各数据的大小与其间隔长短没有直接联系。
3>序列中各数据无需连续登记取得。
如我国2000~2010年全国年末总人口序列16、季节变动分析中的按月(季)平均法和趋势剔除法有什么不同?(1)按月(季)平均法:直接根据原时间序列通过简单平均来计算季节指数,适用于包含水平趋势、季节变动和不规则变动的时间序列,即时间序列中不存在明显的长期趋势和循环波动因素。
·【基本假定】原时间序列包含水平趋势、季节变动和不规则变动,没有明显的上升或下降的长期趋势和循环变动·【计算步骤】第一步:计算时间序列中各年同期(同月或同季)的平均数;第二步:计算时间序列全部数据的总平均数;第三步:计算各年同期(同月或同季)的平均数与总平均数的比值,即为季节指数(S)。
公式:(2)趋势剔除法:该方法的基本思想是,先将时间序列中的长期趋势予以消除,然后再计算季节指数。
·【基本假定】采用移动平均趋势剔除法分析季节变动时,假定时间序列各要素的关系结构为:y=T×S×C×I,同时假定各年度的不规则波动I彼此独立·【计算步骤】第一步:根据各年的月份(或季度)数据,计算12个月(或4个季度)移动平均趋势值T×C;第二步:将各实际观察值y除以相应趋势值T×C,即:第三步:将S×I重新按月(季)排列,求得同月(或同季)平均数,再将其除以总平均数,即得季节指数S。
17、什么是同度量因素?它有何作用?(1)同度量因素就是使不同度量的现象过渡到可以同度量的没接因素。
(2)作用:1)同度量作用,即作为一种媒介,使原来度量单位不同而不能直接相加的现象数量,过渡到可以直接相加的现象数量。