数据分析处理技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据分析处理技术
主讲教师简介:郑军,女,辽宁税专第一教学部教师,副教授。
导论
一、什么是统计学
1、统计是处理数据的一门科学。
2、统计学是关于数据的科学,它所提供的是一套有关数据收
集、处理、分析、解释并从数据中得出结论的方法。
3、数据分析所用的方法可分为描述统计方法和推断统计方法。
二、理解统计对每个人都是必要的。
第一部分数据的整理与图示一、数据的类型按照采用的计量尺度不同,可以将数据分为分类数据、顺序数据和数值型数据。
1、分类数据:是只能归于某一类别的非数字型数据,它是对事物进
行分类的结果,数据表现为类别,用文字来表述。
如:企业按行业分类等。
为便于统计处理,对于分类数据可以用数字代码表示各类别,如用1 表示制造业,2 表示建筑业等。
2、顺序数据:是只能归于某一有序类别的非数字型数据。
顺序数据
虽然也有类别,但这些类别是有序的。
如将产品分为一等品、二等品、三等品、次品等。
同样,对顺序数据也可以用数字代码来表示。
3、数值型数据:是按照数字尺度测量的观测值,其结果表现为具体的数值。
现实中所处理的大多数都是数值型数据。
品质数据(分类数据和顺序数据、定性数据)
数量数据(数值型数据、定量数据)
4、区分数据的类型十分重要。
因为对不同类型的数据,需要采用不同的方法来处理和分析。
二、数据的搜集
1、数据的来源(数据的间接来源、直接来源)。
2、调查数据(概率抽样、非概率抽样)。
概率抽样(即随机抽样):常用的方式有简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样。
非概率抽样:常用的方式有方便抽样、判断抽样(重点抽样、典型抽样)、自愿样本、滚雪球抽样
3、搜集数据的基本方法(自填式、面访式、电话式、)
4、数据的误差(抽样误差、非抽样误差)。
抽样误差(由于抽样的随机性引起的样本结果与总体真值间
的误差)
非抽样误差(回答误差、调查员误差等)
★三、数据的图表展示
(一)、数据的预处理(审核、筛选、排序等)。
(二八分类汇总与数据透视表(数据的全新整理分析方法)
(三八品质数据的整理与展示。
1、分类数据的整理与图示(频数与频数分布)
2、顺序数据的整理与图示(累计频数和累计频率、环形图)(四八数值型数据的整理与图示(数据分组、直方图)
(五)合理使用图表
(一)、数据的预处理:是在对数据分类或分组前所做的必要处理。
内容包括数据的审核、筛选、排序等。
1、数据审核:对原始数据审核其完整性和准确性;
对二手数据审核其适用性和时效性。
2、数据筛选:根据需要找出符合特定条件的某类数据。
3、数据排序:按一定顺序将数据排列,以便通过浏览数据
发现明显的特征或趋势等。
(二)、数据透视表(数据的全新整理分析方法)为了从复杂的数据中提取有用的信息,可以利用Excel 提供的【数据透视表】工具。
利用数据透视表,可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合要求的交叉表(列联表)。
在利用数据透视表时,数据源表中的首行必须有列标题。
(三)、品质数据的整理与展示数据经过预处理后,可根据需要进一步做分类或分组。
对品质数据主要做分类整理,对数值型数据主要是做分组整理。
1 、分类数据的整理与图示(频数与频数分布)分类数据本身即是对事物的一种分类。
在整理时首先列出所分的类别,然后计算出每一类别的频数、比例等,即可形成一张频数分布表,最后根据需要选择适当图形进行展示,以便对数据及其特征有一个初步了解。
分类数据的图示(条形图、帕累托图、饼图等)
2、顺序数据的整理与图示(累计频数和累计频率、环形图)
(四八数值型数据的整理与图示(数据分组、直方图)
第二部分数据的概括性度量
(集中趋势、离散程度、偏态与峰态的度量)
一、总量指标分析
二、相对指标分析
★三、集中趋势度量
★ 四、离散程度度量
★五、偏态与峰态度量
一、税收总量指标分析
(一)、税收总量指标的分析要求
对总量指标的分析和描述应简洁、明了、突出其主要数量特征,给人以深刻印象。
例:“十五”期间,我市税收从2000年的561,484万元增加到2005年的1,203,402万元,年均增长16.47%,为我市经济和社会的发展提供了有力的财力保障。
(二)、税收总量指标的图表描述
总量指标在Excel中的图表具体可描述为折线图、条形图(横置或纵置)等。
(条形图纵置时也称为柱形图)
二、税收相对指标分析
在税收数据分析中,方法最简便、应用最广泛的就是相对指标的计
算与分析,因其概念比较清晰,这里只对其计算方法作一介绍。
相对指标是两个有联系的指标对比的比值,反映事物的数量
特征和数量关系。
随着税收分析目的的不同,两个相互联系的指标数值对比,可以采取不同的比较标准(即对比的基础),而对比所起的作用
也有所不同,从而形成不同的相对指标。
归纳起来有两类:一是同一总体内部之比,二是两个总体之间对比。
(一)、属于同一总体内部之比的相对指标
属于同一总体内部之比的相对指标有:计划完成程度相对指标、结构相对指标、比例相对指标、动态相对指标四种。
1、计划完成程度相对指标(分析计划完成情况及计划进度执行情况等)。
实际完成数
计划完成程度相对指标= 计划数—=100%
2、结构相对指标。
例:分税种结构分析。
总体部分数值
结构相对指标=总体总量=100%
3、比例相对指标。
例:两税收入中消、增两税之比。
4、动态相对指标。
例:不同时间的税收指标之比。
动态相对指标=报—100%
(二)、属于两个总体之间对比的相对指标
属于两个总体之间对比的相对指标有:比较相对指标和强度相对 指标。
5、比较相对指标。
例:两地区税收之比。
(较少用绝对量比)
6、强度相对指标。
例:每百元 GDF 税收含量
强度相对指标
某现象税收扌曰标 ------
强度相标
另一有联系而性质不同 现象的税收指标
例:X 市“十五”时期税收发展情况报告
一、“十五”时期X 市税收发展总体情况
1、增长速度加快,总量节节攀升。
“十五”期间我市税收从 2000年的561, 484万元增加到2005 年的1, 203, 402万元(图表),增长了 114.33%,翻了一番还 多,每年增收额都在10亿元以上,年均增长16.47%,比“九五”
比较相对指标
某条件下某类税收指标 另一条件下同类税收指 标
比例相对指标二
税收总量中某部分数值 税收总量中另一部分数值
期间9.21%的年均增长率高出7.26个百分点,比我市14%勺GDP 年均增长率高出2.47个百分点。
2、一产比重下降,二产比重提高,三产基本持平
――从三次产业的静态结构看,第三产业为税收的主要来
源。
“十五”期间三次产业在税收中的比重分别为 1.86%、29.3%
和68.84%,税收的三分之二以上来自第三产业。
(图表)
-------- 从三次产业的动态结构看,第一产业税收比重下降,第
二产业比重提高,第三产业比重基本持平。
2002年我市税收三
次产业税收收入比例为2.72:27.46:69.82 ,至U 2005年演变为0.67:30.20:69.13 。
税收贡献率和税收拉动作用百分点的计算。
三、集中趋势度量
应用平均指标分析总体数量方面一般特征的方法。
平均指标是社
会经济分析中常用的综合指标。
(静态、动态均值)
常用的平均指标:
1、静态均值
(1) 算术平均数
(2) 、调和平均数
(3) 众数
(4) 中位数
2、动态均值
几何平均数(平均比率、平均速度)
反映一个时期内事物发展的快慢程度,一般用百分数表示。
简单几何平均数:
G 二:x i x2x n - | ] X
加权几何平均数:
G =V.x1f1x2f^' x/n= “ ;x f
四、离散程度度量
1、反映各变量值之间差异或离散程度的指标称为变异指标。
以
绝对数形式表现的变异指标有全距、平均差和标准差,以相对数
形式表现的变异指标有全距系数、平均差系数和标准差系数,其
中最常用、最重要的是标准差和标准差系数。
2、全距计算简单、容易理解,但受极端值影响较大。
3、平均差和标准差的意义基本相同,都是各变量值与算术平均
数的平均离差,但在数学处理上有所不同。
平均差是采用取绝对值的方法消除离差正负,而标准差是采用平方的方法消除离差的正负。
由于标准差具有优良的数学性质,
因此它是测定离散程度
最重要的指标。
忆(X -X)2忆(x _x)2f
口= v n 口= {-n
4、变异系数消除了变量值水平高低和计量单位不同的影响,是反映离散程度的相对指标。
因为实际工作中,经常要对不同水平或不同计量单位的现象进行研究,所以变异系数是衡量离散程度最普遍使用的指标。
7 一= > 100 %
x
“标准差”和“离散系数”这两项指标可应用于行业税负分析
中,当一个行业税负标准差和离散系数越大,说明这个行业企业
间的税负差异越大。
这种差异可能受两个方面因素的影响,一是
企业增值幅度不同产生的税负差异;二是企业申报质量和税收征管力度强弱不同产生的差异。
行业税负
1、行业税负涵义
行业税负一般是指某一行业税收总量与税源总量之间的比例关
系,是一项反映行业税收经济关系的数据指标,是一个行业税负
的平均值。
它可以是一个行业所有税种税收总量负担概念,也可
以是该行业一个税种税收总量负担的概念。
口径定义可依据研究
目的不同自行定义。
行业税负的计算公式:
某一行业税收总量
行业税负二同期本行业计税收入或―所得
2、行业税负分析的意义
按照《税收征管法实施细则》第四十七条有关规定,行业税负测算标准可以用于企业纳税评估和企业税负水平核定工作。
税收负担是经济结构、税收政策和税收征管等多种因素综合作用的结果。
由于这多种因素的影响,所以,地区间、行业间或企业间的税负是不可比的。
但具体到同一行业的企业时,由于同一产品或服务的生产技术、加工工艺和原材料、能源消耗相近,适用的税收政策也相同,研究分析同一行业内的企业税负,就可以消除经济结构和税收政策的影响,找出影响行业税负形成的特征规律和建立行业税负的客观标准,为税收征管征收力度考核提供数据支持;为纳税评估提供客观评价指标体系和标准,参考这一标
准确定各行业的重点评估对象,可以较为方便地判定企业申报不
实的问题。
税负预警值的设定
1、税负预警值的设定
(1 )税负预警的涵义
预警机制是在对事物规律特征研究的基础上,通过鉴别异常
事件,预报警示信息。
税负预警是针对异常税负事件予以警示报告。
税负预警分析,是通过对同一行业样本个体税负离散状况的分析,总结个体税负相关关系的规律特征。
各主管税务机关可根
据上级税务机关公布的行业税负率预警区间或选取各行业中的典型企业所测算的样本企业税负率,在考虑企业经营规模、管理水平等因素的基础上,制定本辖区行业税负率的合理浮动区间,对超过浮动区间范围的企业作为纳税评估、稽查选案的重点加以
关注。
(2)税负预警值的设定
方法一:A、计算各样本的税负情况
B 、计算该行业的平均税负X
C 、计算该行业税负标准差s
D 、计算该行业税负离散系数
E、确定预警范围(当离散系数V 0.6时:x〒s;
当离散系数〉0.6时:X〒0.6 X)
方法二:A、确定要设定税负预警的行业
通过调查、搜集、整理该行业的税收经济关系的相关样
本(n)数据,并计算出该地区行业税负和税负样本标准差(s)
B、确定税负预警的中心线
以上级税务机关设立的行业税负作为本地区税负预警的中心线(X),参考本
地区该行业的经营规模、管理水平等因素,给定一个合理的把握程度(概
率),一般
为95%。
C、确定预警范围
X _Z- si、n
2
Z«
对于95%的置信度,2的取值为1.96
s
上式可以写为X〒1.96 = n
2、案例分析
某地区某行业平均税负率为7.10%,从中抽取35户企业,税负率情况见下表。
要求确定预警范围并排查出低于预警下限的企
应交税负鳴 企业名称
应交猊负%
6. 47 企业 19 5. 72
5.4U 企业加
8. 13 乱盯企业21 ~T^
6.41
E 能企业22 8.79 e. 52企业23
7. 19企业24 6, 18企业/
五、偏态与峰态度量
偏态与峰态是对数据分布形状的测度(即分布的形状是否对称、 偏斜的程度以及分布的扁平程度等)。
(1 )、偏态系数(SK )=0,数据分布对称;
(2)、偏态系数(SK )明显不同于0,数据分布非对称;
(偏态系数大于1或小于-1,高度偏态;)
(偏态系数大于0为正偏或右偏,偏态系数小于0为负偏或左偏)
(偏态系数在0.5〜1或-1〜-0.5之间,中等偏态;) (偏态系数越接近0,偏斜越低程度)
峰态通常是与标准正态分布相比较而言的
(3)、峰态系数(K ) =0,数据服从标准正态分布;
(4、、峰态系数(K )明显不同于 0,数据分布比标准正态分布
9
10
11企业10
12企业11 13企业12 14企业口 15企业14 16企业口
|企业16 18企业17 19企业岭
6. 07 企业36 5. 06
民37 侣1切 8 . 24 反79 企业28 6.50 8. 56 企业孙 12. 23 5. 96
1& (M 6.58 企业引 6.47 8. 95 企业卫 5. 38 6. 69 企业S3 6. 93 4. 63 企业字 6.42 8. 09
8. 95 8. 29 诗行业平均税负% 7- 10
企业名称 企业1 企业2
3.63
7,12
更平或更尖,称为平峰分布或尖峰分布;
(K > 0,尖峰分布,数据分布更集中) (K v 0,扁平分布,数据分布越分散)
第三部分 时间序列分析
时间序列又称时间数列、动态数列,是将反映某一现象总体在时 间上变化发展的一系列同类统计指标数值, 按时间先后顺序排列 所形成的数列。
一、在税收数据分析中,常用的动态分析指标有增长量、 平均增 长量、序时平均数、发展速度、增长速度、平均发展速度、平均 增长速度、增长1%色对值。
1、 增长量(逐期增长量和累计增长量)
第一,逐期增长量:报告期水平与前期水平之差。
a i
-a o
, a 2
- a
i
,…,a n
- a
n-1
第二,累计增长量:报告期水平与某一固定基期水平之差。
a
i _ a 0,a
2 _ a 0 /
耳 - a o
二者关系:一定时期内,逐期增长量之和等于累计增长量, 用公
式表示为:
⑻-a 。
)•(a ? -aj © -a ?)
(a n -a n ^= a n -a 。
2、 平均增长量:是时间数列中各逐期增长量的序时平均数,表 明现象在
一定时期内平均每期增(减)的绝对数量。
平均增长量=逐期增长量之和累计增长量
均曰量逐期增长量个数一时间数列项数-1
3、序时平均数。
即针对某一动态数列求平均值。
又由于该动态数列可能
是绝对数,也可能是相对数而使计算方法不同。
当动态数列为绝对数时,其平均数计算方法比较简单,即用
各标志值除以时间项数即可。
某地区税收与经济分析单位:万元
某地区2003 -2010年平均税收收入=
222.53 234.21 249.16 265.51 277.01 323.75 384.82 411.03 _ 2368.02
8 8
当动态数列为相对数时,其平均数计算不能简单加总相对数296万元
后除以项数,而必须以绝对数动态数列序时平均数为基础, 分别
计算构成该相对数的分子、分母两个绝对数动态数列的平均数, 再加以对比。
仍用上例,某地区近 8年的平均税收含量为:
8年税收收入合计 8 8年税收收入合计
8年GDP 合计8
~ 8年GDP 合计
4、发展速度与增长速度
第一,发展速度:动态数列中两个不同时期发展水平的比值。
用
公式表示:
由于对比时所采用的基期不同, 发展速度可分为定基发展速度和 环比发展速度。
(1 )环比发展速度:报告期水平与前一期水平的比值。
它选择 对比的基准点是滚动变化的。
用公式表示:
环比发展速度
埜100%
( i =1,2,…,n )
Si 4
(2)定基发展速度:报告期水平与某一固定基期水平的比值。
它选择对比的基准点是固定不变的。
用公式表示:
定基发展速度二旦100%
(,1,2,…,n )
a0
二者关系:
(1) 一定时期内,各环比发展速度的连乘积等于相应时期总
的定基发展速度,即
8年平均税收收入
8年平均国内生产总
值 2368.02
32746.52
= 0.0723 =7.23%
发展速度
报告期水平 基期水平
100%
a ?
83
一X ——X ——X …X ——
(2) 两个相邻的定基发展速度的比值等于相应的环比发展
速度,用公式表示为:
a n ... a n j
a n
a
a
a
n
二
第二,增长速度:报告期增长量与基期水平之比。
用公式表示为:
同理:定基增长速度=定基发展速度-1
环比增长速度=环比发展速度-1
5年平均发展速度和年平均增长速度。
(1)几何平均法:以上例求税收收入年平均发展速度如下: 方法一:应用第3列绝对指标计算
2010
年税收收入=7 411・°3
=1.0916 =
109.16% :222.53
方法二:应用第5列环比发展速度指标计算
年平均发展速度 -7 1.0525 1.0638 1.0656 1.0433 1.1687 1.1886 1.0681 =1.0916
方法三:应用总速度指标计算,即已知2003年到2010年税 收收入发
展的总速度为184.7077%,贝V
年平均发展速度 二8:总速度二7 1.847077二1.0916
(2)方程式法
计算年均增长速度不能由增长量和增长速度直接计算, 而必须将
a
a i a
2
a
n J a
增长速度
增长量 基期水平
100%二发展速度 -1
年平均发展速度
=8韵 -------------
\ 2003年税收收入
历年增长速度还原为历年发展速度,并应用上述方法求出年平均
发展速度,再计算平均增长速度,即:
年平均增长速度二年平均发展速度一1 (或一100%
上例中,年平均增长速度=1.0916-1=0.0916=9.16%
6、增长1%色对值:报告期的前一期水平除以100,表明某一现
象每增长1渐代表的实际绝对数量。
思考:某省2009年完成税收收入182.5亿元,比上年增长20% 该省税收收入在1999年-2000年平均每年递增15% 2001年
-2003年平均每年递增16% 2004年-2008年平均每年递增18% 问该省1999年-2008年十年的总发展速度。
(十年间平均每年的发展速度和递增速度)
总发展速度=1.15 2= 1.16 3= 1.18 5=4.72=472%
十年间平均每年的发展速度=10472% =116.79%
十年间平均每年的增长速度=10472% - 1=16.79%
如果未来五年内仍以此速度发展,到2011年该省税收收入
将达到182.5*(116.79%)3=290.75 亿元。
二、时间序列的分析和预测
1、影响动态数列变动的因素一般可归纳为四种,它们是长期趋
势、季节变动、循环变动和不规则变动。
2、测定长期趋势的方法很多,其中两种基本的方法是移动平均法和最小平
方法(最小二乘法)。
(1 )移动平均法测定长期趋势的基本原理是将原时间数列的时距扩大,并按一定的间隔长度逐项移动计算一系列序时平均数,由这些序时平均数形成一个新的时间数列,在这个新的时间数列
中,偶然因素的影响被削弱,从而呈现出现象发展的长期趋势。
(2)最小平方法(最小二乘法)测定长期趋势的基本原理是对时间数列配合一条趋势线,使其满足条件㈣- yj2二最小值,同时、(% - yj = 0,然后根据趋势线计算出相应各时期的趋势值,由趋势值形成的新时间数列呈现出现象发展的长期趋势。
为了计算方便,计算时可令t = 0。
用最小平方法既可以配合直线方程也可以配合曲线方程。
3、测定季节变动的方法也很多,常用的方法有两种:原资料平均法和趋势剔除法。
4、测定循环波动可以用残余法(剩余法)。
5、不规则变动具有不可预测性,它是由大量偶然的、随机的因素造成现象的波动,从一个较长时间看,各种偶然、随机因素的影响会互相抵消,因此,实际分析现象变动趋势时,可以不予考虑。
第四部分指数分析思路与方法
指数是指反映经济现象数量变动的相对数。
指数分析法即运用这种相对数来反映不能直接加总的多因素组成的经济现象的综合变动。
因此在社会实践中,也有人称其为因素分析法。
通过指数分析方法可以将受两个及两个以上因素影响的经济总量的变动情况进行因素分解分析,判断每一个因素对总量变动的影响程度和影响方向,在税收实践中具有广泛的应用价值。
进行指数分析须遵循的一个基本原则是:首先将每一因素定
性为数量指标(说明经济现象总体数量或规模的指标)或是质量
指标(说明总体质量变动程度的指标);然后,进行“同度量因素”的确定,即当分析数量指标时,把其他的质量指标固定在基期,当分析质量指标时,把其他的数量指标固定在报告期。
这样可以得到综合指数、数量指标指数和质量指标指数,他们共同构成了指数体系。
这种把不能直接加总的经济指标,通过“同度量
因素”进行量化加总,再对比分析的指数分析方法,是统计分析方法的重要内容之一。
为叙述简便,设某一经济总量受两因素影响,其中数量指标为q,质量指标为p,指标报告期(或称本期)为1,基期(或同期)为0,则指数体系为:
' p1q1 _ ' p1q1、 p0q〔
' p°q。
' Poqi ' p°q。
式中:
〔p1q1为综合指数;'p1q1为质量指标指数「p°q1为数量指标指数
' p0q0 p o q1 ' p o q o
绝对数形式为:
二p1q1 二p o q o =C p1q1 八p o q1)C p o q1 二p o q o
共变影响额质量指标影响额数量指标影响额
例:设某企业仅生产汽油和柴油,某月的销售收入及汽油、
柴油销量和价格如下表,试分析销售收入增减变化。
某企业某月产品销售收入变动分析表
按照指数分析原理:该企业产品销售收入在价格和销量两因
素共同影响下出现增减变化。
其增长幅度为10.88%,增长额为
6805万元。
相对数上的分析为:为方便起见先计算出
' p0q〔=1599 14.14 1691 14.07 = 46402.23
绝对数上的分析为:
' p0q0 = (' p1q^x p0q1)(' P0q〔P0q0)
= (69338 -46402.23)(46402.23 -62534)= 22935.77 - 16131.77 = 6804万元
以上分析的经济意义:通过分析可以看出,该企业某月产品
销售收入受售价和售量两因素共同影响。
其中,由于两个品目的
销售价格增加而使销售收入增长49.43%,增加22936 万元;由于销售数量的减少而使销售收入下降25.8%(1-0.7420 ),减收
16132 万元。
总量指标的多因素变动分析。
平均指标的因素变动分析。
第五部分相关分析与回归分析
一、相关分析
1、函数关系与相关关系
2、相关关系的种类
(1)按相关关系涉及的因素多少划分,分为单相关、复相关和偏相关
单相关又称一元相关,是指两个变量之间的相关关系,即仅限于一个变量与另一个变量之间的依存关系。
复相关又称多元相关,是指三个或三个以上变量之间的相关关系。
在某一变量与多个变量相关时,当假定其他变量不变,其中两个变量的相关关系称为偏相关。
(2)按相关形式划分,可以分为线性相关和非线性相关当一个变量发生变动,另一个变量随之发生大致均等的变动(增加或减少),从图形上看,其观测点的分布近似地表现为直线形式,就是线性相关。
而当一个变量发生变动,另一个变量也随之发生变动(增加或减少),但是这种变动是不均等的,从图形上看,其观察点的分布表现为各种不同的曲线形式,这种相关关系称为非线性相关。
(3)按相关的方向划分,可分为正相关和负相关两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少),这种相关称为正相关。
当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少
(或增加)趋势变化,称为负相关。
(4)按相关关系的程度划分,可分为完全相关、不完全相关和不相关
在数据分析中,可采用相关系数(r )这一指标来反映相关关系的密切程度。
以直线相关来说,如果因变量完全随着自变量而变动,在散点图上可以看出所有的观测点都位于同一条直线上,这时的相关关系就转化为函数关系,称为完全相关,
|r|=1 。
当因变量完全不随自变量的变动而作相应的变动,亦即变量之间完全不存在任何依存关系,就称为不相关或零相关,|r|=0 。
以上是两种极端情况。
介于完全相关和零相关之间的关系,称为不完全相关。
在一般情况下,相关系数R的绝对值是在0与1这一闭区间的实数值,即0W r < 1。