数据统计分析方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据统计分析⽅法数据统计分析常⽤⽅法
⽬录
1 统计学基础知识 (3)
1.1 统计的含义 (3)
1.2 统计的分类 (3)
1.3 样本 (3)
2 数据的概括性度量 (4)
2.1 总规模度量 (4)
2.1.1 总量指标 (4)
2.2 ⽐较度量 (5)
2.2.1 相对指标 (5)
2.3 平均度量 (6)
2.3.1 概念 (6)
2.3.2 平均数的种类和计算⽅法 (6)
2.4 离散变量 (8)
2.4.1 变异指标 (8)
2.5 数据的标准化 (11)
2.5.1 Min-max标准化 (11)
2.5.2 Z-score标准化 (11)
3 相关分析 (11)
3.1 概念 (11)
3.2 分类 (12)
3.3 相关分析的作⽤ (12)
3.4 相关系数的计算 (12)
3.5 相关系数的性质 (12)
3.5.1 相关性类型 (12)
3.5.2 相关性强弱 (12)
4 数据分析 (13)
4.1 数据分析的含义 (13)
4.2 数据分析的作⽤ (13)
4.3 数据分析⽅法 (13)
4.3.1 对⽐分析法 (13)
4.3.2 分组分析法 (14)
4.3.3 结构分析法 (15)
4.3.4 平均分析法 (15)
4.3.5 交叉分析法 (15)
4.3.6 综合评价分析法 (16)
4.3.7 漏⽃图分析法 (17)
4.3.8 抽样分析法 (17)
4.3.9 相关分析 (18)
4.3.10 时间序列预测 (20)
1统计学基础知识
1.1统计的含义
“统计”⼀词在各种实践活动和科学研究领域中都经常出现。

然⽽,不同的⼈或在不同的场合,对其理解是有差异的。

⽐较公认的看法认为统计有三种含义,即统计活动、统计数据和统计学。

●统计活动
统计活动⼜称统计⼯作,是指收集、整理和分析统计数据,并探索数据的内在数量规律性的活动过程。

●统计资料
统计资料⼜称统计数据,即统计活动过程所获得的各种数字资料和其他资料的总称。

表现为各种反映社会经济现象数量特征的原始记录、统计台账、统计表、统计图、统计分析报告、政府统计公报、统计年鉴等各种数字和⽂字资料。

●统计学
统计学是指阐述统计⼯作基本理论和基本⽅法的科学,是对统计⼯作实践的理论概括和经验总结。

它以现象总体的数量⽅⾯为研究对象,阐明统计设计、统计调查、统计整理和统计分析的理论与⽅法,是⼀门⽅法论科学。

1.2统计的分类
从统计⽅法的功能来看,统计学可以分为描述统计学与推断统计学。

从⽅法研究的重点来看,统计学可分为理论统计学和应⽤统计学。

本⽂中主要按统计⽅法的功能进⾏讨论,不涉及理论统计学。

●描述统计学
研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进⾏加⼯处理和显⽰,进⽽通过综合、概括与分析得出反映客观现象的规律性数量特征。

描述统计学的内容包括统计数据的搜集⽅法、数据的加⼯处理⽅法、数据的显⽰⽅法、数据分布特征的概括与分析⽅法等。

●推断统计学
研究如何根据样本数据去推断总体数量特征的⽅法,它是在对样本数据进⾏描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。

描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。

1.3样本
样本是统计学中⾮常重要的概念,理解这个概念需要注意三⼤问题:
构成某⼀样本的每⼀单位都必须取⾃某⼀特定的统计总体,不允许该总体之外的单位介⼊该总体的样本。

样本单位的抽取应是按⼀定的概率进⾏的,⽽具体样本的产⽣应是随机的,因此必须排除⼈的主观因素对样本单位抽取和样本⽣成的⼲扰。

样本是母体的代表,带有母体的信息,因⽽能够推断母体;然⽽,样本只是母体的⼀个⼦集,且具有随机性,故由样本去推断总体会产⽣代表性误差。

2 数据的概括性度量
2.1 总规模度量 2.1.1 总量指标
2.1.1.1 概念
总量指标是反映社会经济现象总体在⼀定时间、地点和条件下总规模或总⽔平的统计指标。

其表现形式通常是绝对数,所以也称为绝对指标或绝对数。

2.1.1.2 作⽤
●总量指标反映的是总体情况
●总量指标是计算相对指标和平均指标的基础
2.1.1.3 总量指标的计算⽅法
总量指标的计算⽅法,抽掉其具体内容,都可以归结到加法上,分简单加法和加权加法。

●简单算法
123n 0
+n
M x x x x x =++=∑……
●加权算法
112233n 0
+n
n M x f x f x f x f x f =++=∑……
其中,式中:M 表⽰总量指标;x 表⽰变量值;f 表⽰权数
2.2⽐较度量
2.2.1相对指标
2.2.1.1概念
相对指标⼜称相对数,是两个有联系的统计指标的⽐值,⽤以说明社会经济现象之间的数量对⽐关系。

2.2.1.2作⽤
●反映现象的内部结构、⽐例关系、普遍程度与速度。

●使某些不能直接进⾏对⽐的统计指标,取得可以⽐较的基础
2.2.1.3相对数的种类和计算⽅法
2.2.1.
3.1结构相对数
结构相对数是表明总体内部各个组成部分在总体中所占⽐重的相对指标。

2.2.1.
3.2⽐例相对数
反映⼀个统计总体内部各个组成部分之间数量对⽐关系的相对指标,常⽤系数和倍数表⽰。

2.2.1.
3.3⽐较相对数
反映同⼀时期的同类现象在不同地区、部门和单位之间数量对⽐关系的相对指标。

2.2.1.
3.4动态相对数
同类现象在不同时间上数量对⽐关系的相对指标称为动态相对数,说明现象发展变化的⽅向和程度。

常见的例如同⽐、环⽐等。

2.2.1.
3.5强度相对数
强度相对数反映两个性质不同但有联系的统计指标之间数量对⽐关系的相对指标。

2.2.1.
3.6计划完成相对数
计划完成相对数也称计划完成百分⽐,它是现象在某⼀时期的实际完成数与其计划任务数的⽐值,⽤来检查、监督计划的执⾏情况,⼀般⽤百分数表⽰。

2.2.1.4运⽤相对指标的原则
●可⽐性原则
●多种相对指标综合运⽤的原则
●同总量指标、平均指标综合运⽤的原则
2.3平均度量
2.3.1概念
计算平均数是统计分析中最常⽤的⼀种⽅法。

在统计分析中,除了⽤平均数表现数据资料的集中趋势外,还常运⽤平均数进⾏静态和动态的对⽐分析,运⽤平均数分析现象之间的依存关系。

2.3.2平均数的种类和计算⽅法
2.3.2.1数值平均数
算数平均数:算术平均数也称为均值,是全部数据算术平均的结果。

2.3.2.1.1简单算数平均数
未经分组整理的原始数据,其算术平均数的计算就是直接将⼀组数据的各个数值相加除以数值个数。

2.3.2.1.2加权算数平均数
根据分组整理的数据计算算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。

2.3.2.1.3调和平均数
有时会遇到已知各组变量值和各组标志总量⽽缺少总体单位数的情况,这时就要⽤调和平均数法计算平均指标。

调和平均数是各个变量值倒数的算术平均数的倒数。

●简单调和平均数
●加权调和平均数
2.3.2.1.4⼏何平均数
⼏何平均数是n个变量值乘积的n次⽅根,可分为简单⼏何平均数和加权⼏何平均数。

●简单⼏何平均数、
●加权⼏何平均数
⼏何平均数是适应于特殊数据的⼀种平均数,在实际⽣活中,通常⽤来计算平均⽐率和
平均速度,如过去历年的平均增长率。

2.3.2.1.5平⽅平均数
平⽅平均数是n个数据的平⽅的算术平均数的算术平⽅根。

M=
n
2.3.2.1.6中位数
中位数是⼀组数据按从⼩到⼤排序后,处于中间位置上的变量值,⽤Me表⽰。

根据未分组数据计算中位数时,要先对数据排序,然后确定中位数的位置,其公式为
其中n为数据的个数,最后确定中位数的具体数值。

当n为奇数时,处在中间位置上只有⼀个变量,;当n为偶数时,处在中间位置上有两个变量值。

2.3.2.1.7众数
众数是指⼀组数据中出现次数最多的变量值,⽤Mo表⽰。

众数是具有明显集中趋势点的数值,⼀组数据分布的最⾼峰点所对应的数值即为众数。

2.3.2.1.8分位数
中位数是从中间点将全部数据等分为两部分。

与中位数类似的还有四分位数、⼗分位数和百分位数等。

2.4离散变量
2.4.1变异指标
数据的差异程度就是各变量值远离其中⼼值的程度。

2.4.1.1概念
在统计研究中,通常把⼀组数值之间的差异程度叫做标志变动度。

测定标志变动度⼤⼩的指标叫做标志变异指标。

标志变动度
与标志变异指标在数值上成正⽐。

标志变异指标则说明总体分布的离中趋势。

2.4.1.2变异指标的作⽤
●反映总体各单位变量值分布的均衡性。

⼀般来说,标志变异指标数值越⼤,总体各
单位变量值分布的离散趋势越⾼、均衡性越低;
●判断平均指标对总体各单位变量值代表性的⾼低;
●标志变异指标是衡量风险⼤⼩的重要指标。

2.4.1.3变异指标的类型
根据所依据数据类型的不同,变异指标有异众⽐率、四分位差、全距、平均差、⽅差和标准差、离散系数等。

2.4.1.4异众⽐率
⾮众数组的频数占总频数的⽐率(Variation Ratio),称为异众⽐率,⽤Vr表⽰。

式中:Σfi为变量值的总频数;fm为众数组的频数。

异众⽐率越⼤,说明⾮众数组的频数占总频数的⽐重就越⼤,众数的代表性就越差;反之,异众⽐率越⼩,众数的代表性就越好。

2.4.1.5全距或极差
全距⼜称极差,是⼀组数据的最⼤值与最⼩值之差,⽤R表⽰
式中:max(Xi)、min(Xi)分别表⽰为⼀组数据的最⼤值与最⼩值。

R越⼤,表明数值变动的范围越⼤,即数列中各变量值差异⼤;反之,R越⼩,表明数值变动的范围越⼩,即数列中各变量值差异⼩。

2.4.1.6平均差
M表⽰。

平均差是各变量值与其算术平均数离差绝对值的平均数,⽤
D
2.4.1.6.1简单平均法
对于未分组资料,采⽤简单平均法。

2.4.1.6.2加权平均法
在资料分组的情况下,应采⽤加权平均式
2.4.1.7⽅差和标准差
⽅差是各变量值与其算术平均数离差平⽅的算术平均数。

标准差是⽅差的平⽅根。

⽅差、标准差是实际中应⽤最⼴泛的离中程度度量值。

⽅差⽤来度量随机变量和其数学期望(即均值)之间的偏离程度;标准差⽤来反映反映组内个体间的离散程度。

2.4.1.7.1总体的⽅差与标准差
σ,标准差为σ,对于未分组整理的原始资料
设总体的⽅差为2
2.4.1.7.2样本的⽅差和标准差
样本的⽅差、标准差与总体的⽅差、标准差在计算上有所差别。

总体的⽅差和标准
差在对各个离差平⽅平均时是除以数据个数或总频数,⽽样本的⽅差和标准差在对
各个离差平⽅平均时是⽤样本数据个数或总频数减1去除总离差平⽅和。

2.4.1.8标准分数
有了均值和标准差之后,我们可以计算⼀组数据中各个数值的标准分数(Standard Score),以测度每个数据在该组数据中的相对位置,并可以⽤它来判断⼀组数据是否有离群
值。

变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或z值。

2.4.1.9相对离散程度:离散系数
离散系数是反映⼀组数据相对差异程度的指标,是各变异指标与其算术平均数的⽐值。

离散系数通常⽤V表⽰,常⽤的离散系数有平均差系数和标准差系数。

2.5数据的标准化
2.5.1Min-max标准化
Min-Max标准化⽅法是对原始数据进⾏线性变换。

设MinA和MaxA分别为属性A的最⼩值和最⼤值,将A的⼀个原始值x通过Min-Max标准化映射成在区间[0,1]中的值x',其公式为:
新数据=(原数据-极⼩值)/(极⼤值-极⼩值)
2.5.2Z-score标准化
基于原始数据的均值(Mean)和标准差(Standard deviation)进⾏数据的标准化,以距离平均数的远近程度及数据的“离散程度”为基础,将数据的价值转换为易于探讨的数值。

Z-score标准化⽅法适⽤于属性A的最⼤值和最⼩值未知的情况,或有超出取值范围的离群数据的情况。

新数据=(原数据-均值)/标准差
3相关分析
3.1概念
相关关系是指现象之间存在着的⼀种⾮确定性的数量依存关系,即⼀个现象发⽣数量变化时,另⼀现象也相应地发⽣数量变化,但其关系值是不固定的,往往同时出现⼏个不同的数值,在⼀定的范围内变动着,这些数值分布在它们的平均数周围的⼀种数量依存关系。

3.2 分类
●按相关关系涉及的变量(或因素)的多少,可分为单相关与复相关。

单相关也称⼀元相
关,是两个变量之间的相互关系。

复相关是指多个变量之间的相互关系,所以复相关⼜称多元相关;
●按相关关系的表现形式来分,有线性相关和⾮线性相关;●按相关的⽅向,线性相关可分为正相关和负相关。

如果两个变量同时趋向在同⼀⽅向上
变,即它们是同时增加或同时减少,则称正相关;否则,如果两个变量趋于反向变化,则称为负相关;
●按变量之间的相关程度来分,可分为完全相关、不完全相关和不相关三类。

所谓完全相
关,就是变量之间的⼀种确定性的函数关系。

反之,若变量之间不存在相关关系,彼此独⽴,相互之间没有联系,则称不相关。

3.3 相关分析的作⽤
相关分析是研究两个或两个以上的变量之间相关程度的⼤⼩的⼀种统计⽅法,其主要作⽤包括:
●确定现象之间有⽆关系存在,以及相关关系呈现的形态。

●确定相关关系的密切程度。

判断相关关系密切程度的主要⽅法是绘制散点图和计算相关
系数。

3.4 相关系数的计算
2
2
()()
()()
n
i
i
n n
i
i
x x y y r x x y y --=
--∑∑∑,其中i x 、i y 表⽰样本变量,x 、y 表⽰样本平均值。

3.5 相关系数的性质 3.5.1 相关性类型
●正相关:如果x,y 变化的⽅向⼀致,如⾝⾼与体重的关系,r>0;●负相关:如果x,y 变化的⽅向相反,如吸烟与肺功能的关系,r<0;●⽆线性相关:r=0。

3.5.2 相关性强弱
● |r|>0.95存在显著性相关;
●|r|≥0.8⾼度相关;
●0.5≤|r|<0.8中度相关;
●0.3≤|r|<0.5低度相关;
●|r|<0.3关系极弱,认为不相关
4数据分析
4.1数据分析的含义
数据分析是指⽤适当的统计分析⽅法对收集来的⼤量数据进⾏分析,提取有⽤信息和形成结论⽽对数据加以详细研究和概括总结的过程。

数据挖掘是基于数据分析,是从⼤量的数据中挖掘出有⽤的信息,它是根据⽤户的特定需求,从浩如烟海的数据中找出所需的信息,以满⾜⽤户特定的需求。

数据挖掘技术是⼈们长期对数据库技术进⾏研究和开发的结果。

⼀般来说,数据挖掘侧重解决四类数据分析问题:分类、聚类、关联与预测,重点在于模式与规律。

数据分析和挖掘的本质都是⼀样的,都是从数据⾥⾯发掘关于业务的知识。

4.2数据分析的作⽤
数据分析⽅法的三⼤作⽤,主要有现状分析、原因分析、预测分析。

其中这三⼤作⽤基本可分别对应对⽐、细分、预测三⼤基本⽅法。

4.3数据分析⽅法
4.3.1对⽐分析法
4.3.1.1概念
对⽐分析法可分为静态⽐较和动态⽐较两⼤类:
静态⽐较是在同⼀时间条件下对不同总体指标的⽐较,如不同部门、不同地区、不同国家的⽐较,也叫横向⽐较,简称横⽐;
动态⽐较是在同⼀总体条件下对不同时间指标数值的⽐较,也叫纵向⽐较,简称纵⽐。

这两种⽅法既可单独使⽤,也可结合使⽤。

进⾏对⽐分析时,可以单独使⽤总体指标、相对指标或平均指标,也可将他们结合起来进⾏对⽐。

⽐较的结果可⽤相对数、倍数等指标。

4.3.1.2实践运⽤
●与⽬标对⽐
实际完成值与⽬标进⾏对⽐,属于横⽐
●不同时期对⽐
与去年同期对⽐简称同⽐,与上个⽉完成情况对⽐简称环⽐
●同级部门、单位、地区对⽐
同级部门、单位、地区进⾏对⽐,属于横⽐
●⾏业内对⽐
与⾏业内的标杆企业、竞争对⼿或⾏业的平均⽔平进⾏对⽐,属于横⽐
●活动效果对⽐
与某项活动开展前后进⾏对⽐,属于纵⽐
4.3.1.3对⽐分析的关键点
●指标的⼝径范围、计算⽅法、计量单位必须⼀致,即要⽤同⼀种单位或标准去衡量
●对⽐的对象要有可⽐性
●对⽐的指标类型必须⼀致
4.3.2分组分析法
4.3.2.1概念
做数据分析不仅要对总体的数量特征与数量关系进⾏分析,还要深⼊总体的内部进⾏分组分析。

分组分析法时⼀种重要的数据分析⽅法,这种⽅法时根据数据分析对象的特征,按照⼀定的标志(指标),把数据分析对象划分不同的部分和类型进⾏研究,以揭⽰其内在的联系的规律性。

4.3.2.2实际运⽤
数据分组是⼀种重要的数据分析⽅法,这种⽅法根据数据分析对象的特征,按照⼀定的标志(指标),如业务、⽤户属性、时间等维度,把数据分析对象划分为不同的部分和类型来进⾏研究,以揭⽰其内在的联系和规律性。

分组的⽬的就是为了便于对⽐,把总体中具有不同性质的对象区分开,把性质相同的对象合并在⼀起,保持各组内对象的⼀致性,组与组之间的差异性,以便进⼀步运⽤各种分析⽅法来结构内在的数量关系,因此分组法必须与对⽐法结合运⽤。

分组的⽅法以等距分组为例进⾏说明:
●确定组数
●确定各组的组距。

组距=(最⼤值-最⼩值)/组数
●根据组距⼤⼩,对数据进⾏分组整理,划归⾄相应组内。

4.3.3结构分析法
4.3.3.1概念
结构分析法是指被分析总体内的各部分与总体之间进⾏对⽐的分析⽅法,即总体内各部分占总体的⽐例,属于相对指标,已办某部分的⽐例越⼤,说明其重要程度越⾼,对总体的影响就越⼤。

4.3.3.2实际运⽤
结构相对指标(⽐例)的计算公式为:
结构相对指标(⽐例)=(总体某部分的数值/总体总量)*100%
结构分析法的优点是简单实⽤,在实际的企业运营分析中,市场占有率就是⼀个⾮常经典的应⽤。

市场占有率=(某种商品销售量/该种商品市场销售总量)*100%
4.3.4平均分析法
4.3.4.1概念
平均分析法就是运⽤计算平均数的⽅法反映总体在⼀定时间、地点条件下某⼀数量特征的⼀般⽔平。

平均指标可⽤于同⼀现象在不同地区、不同部门或单位之间的对⽐,还可⽤于同⼀现象在不同时间内的对⽐。

4.3.4.2实际运⽤
平均指标有算数平均数、调和平均数、⼏何平均数、众数和中位数,其中最为常⽤的时算数平均数,即⽇常所说的平均数或平均值。

算数平均数的计算公式为:
算数平均数=总体各单位数值的总和/总体单位个数
算数平均数是⾮常重要的基础性指标。

平均数是总和指标,它的特点是将总体内各单位的数量差异抽象化,它只能代表总体的⼀般⽔平,掩盖了在平均数后各单位的差异。

4.3.5交叉分析法
交叉分析法通常⽤于分析两个变量(字段)之间的关系,即同时有两个有⼀定联系的变量及其值交叉排列在⼀张表格内,使各变量成为不同变量的交叉节点,形成交叉表,从⽽分析交叉表中变量之间的关系,也叫交叉表分析法。

4.3.6综合评价分析法
综合评价分析法的基本思想是将多个指标转化为⼀个能够反映综合情况的指标来进⾏分析评价。

进⾏综合评价,主要有五个步骤:
●确定综合评价的指标体系,即包括哪些指标,是综合评价的基础和依据
●收集数据,并对不同计量单位的指标数据进⾏标准化处理
●确定指标体系中各指标的权重,以保证评价的科学性
●对经处理后的指标再进⾏汇总计算出综合评价指数或综合评价分值
●根据评价指数或分值对参评单位进⾏排序,并由此得出结论。

4.3.6.1综合评价法的三⼤特点
●评价过程不是逐个指标顺次完成的,⽽是通过⼀些特殊⽅法将多个指标的评价同时
完成
●在综合评价过程中,⼀般要根据指标的重要性进⾏加权处理
●评价结果不再是具有具体意义的统计指标,⽽以指数或分值表⽰参评单位综合状况
的排序。

4.3.6.2综合评价的关键
4.3.6.2.1数据标准化
数据的标准化是将数据按⽐例缩放,使之落⼊⼀个⼩的特定区间。

在⽐较和评价某些指标时,经常会⽤到数据的标准化,去除数据的单位限制,使其转化为⽆量纲的纯数值,便于不同单位或量级的指标能够进⾏⽐较和加权。

其中最典型的就是0-1标准化和Z标准化。

4.3.6.2.1.10-1标准化
0-1标准化也叫离差标准化,就是对原始数据做线性变化,使结果落在[0,1]区间。

0-1标准化的转换公式:
第N个经标准化处理的值=(第N个原始值-最⼩值)/(最⼤值-最⼩值)
需要注意的是,当有新数据加⼊时,需要对最⼤、最⼩值进⾏重新计算。

4.3.6.2.1.2Z标准化
Z标准化也叫Z分数(z-score),是⼀个数与平均数的差再除以标准差的过程。

⽤公式表⽰为:
z=(x-µ)/σ。

其中x为某⼀具体分数,µ为平均数,σ为标准差。

Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。

4.3.6.2.2权重确定⽅法
确定指标权重的⽅法较多,⽐如专家访谈法、德尔菲法、层次分析法、主成分分析法、因⼦分析法、回归分析法等。

还有⼀种⽐较简单的权重确定法,即⽬标优化矩阵表。

⽬标优化矩阵的⼯作原理就是把⼈脑的模糊思维,简化为计算机的1/0式逻辑思维,最后得出量化的结果,这种⽅法不仅量化准确,⽽且简单、⽅便、快捷。

⽬标优化矩阵表的⽤法为:将纵轴上的项⽬依次与横轴上的项⽬对⽐,由专家进⾏投票表决,如果纵轴上的项⽬⽐横轴上的项⽬重要,那么在两个项⽬相交的格⼦中天“1”,否则填“0”,最后将每⾏数字相加,根据合计的数值进⾏排序。

例如,假设对⼈才评价的指标有
排序。

则可得出各维度的重要性和权重。

某指标权重=(某指标新的重要性合计得分/所有指标新的重要性合计得分)*100%
4.3.7漏⽃图分析法
漏⽃图是⼀个适合业务流程⽐较规范、周期⽐较长、各流程环节设计复杂,业务过程⽐较多的管理分析⼯具。

漏⽃图是对业务流程最直观的⼀种表现形式,并且也最能说明问题的所在。

通过漏⽃图可以很快发现业务流程中存在问题的环节。

例如,下属漏⽃图⽤于分析⽹站中某些关键路径的转化率分析:
4.3.8抽样分析法
在做数据分析的时候,尤其现在我们正往⼤数据时代迈进,通常会遇到分析的总体数据
源过于庞⼤,这样会⼤⼤降低系统分析运⾏效率,因此,⼀般会抽取部分有代表性的样本数据进⾏分析,并根据这⼀部分样本去估计与推断总体情况。

抽样分析⽅法是利⽤⼰知的有效样本去估计未知的庞⼤总体,这是抽样分析的本质。

4.3.8.1 常⽤抽样⽅法
●周期间隔:选择间隔抽样,需要输⼊周期间隔。

●随机抽样直接输⼊将本数,系统⾃⾏进⾏随机抽样,不⽤受间隔的规律限制。

4.3.9 相关分析
相关关系是指现象之间存在的⾮严格的、不确定的依存关系。

这种依存关系的特点是某现象在数量上发⽣的变化会影响另⼀现象数量上的变化,⽽且这种变化具有⼀定的随机性,即当给定某现象⼀个数值时,另⼀现象会有若⼲个数值与之对应,并且
总是遵循定规律,围绕这些数值的平均数上下波动,其原因是影响现象发⽣变化的因素不⽌⼀个。

例如,影响销售额的因素除了推⼴费⽤外,还有产品质量、价格、渠道等因素。

相关分析是研究两个或两个以上随机变量之间相互依存关系的⽅向和密切程度的⽅法,直线相关⽤相关系数表⽰,曲线相关⽤相关指数表⽰,多重相关⽤复相关系数表⽰,其中最常⽤的是线性相关。

以下以线性相关为例进⾏说明。

4.3.9.1 相关系数
相关系数就是反映变量之间线性相关强度的⼀个度量指标,通常⽤r 表⽰,它的取值范围为[-1,1]。

r 的正、负号可以反映相关的⽅向,当r>0时表⽰线性正相关,当r<0时表⽰线性负相关;r 的⼤⼩可以反映相关的程度, r=0表⽰两个变量之间不存在线性关系。

通常相关系数的取值与相关程度
相关系数计算公式
2
2
()()
()()
n
i
i
n n
i
i
x x y y r x x y y --=
--∑∑∑
4.3.9.2回归分析
回归函数关系是指现象之间存在的依存关系中,对于某变量的每个数值,都有另⼀变量值与之相对应,并且这种依存关系可⽤⼀个数学表达式反映出来,例如,在⼀定的条件下,⾝⾼与体重存在的依存关系。

回归是研究⾃变量与因变量之间关系形式的分析⽅法,它主要是通过建⽴因变量Y与影响它的⾃变量X,(i=1,2,3,)之间的回归模型,来预测因变量Y的发展趋势。

4.3.9.2.1回归分析举例
回归分析模型主要包括线性回归及⾮线性回归两种。

线性回归⼜分为简单线性回归与多重线性回归,⽽对于⾮线性回归,通常通过对数转化等⽅式,将其转化为线性。

此处以线性回归为例进⾏介绍。

线性回归分析的五个步骤
●根据预测⽬标,确定⾃变量和因变量;
●绘制散点图,确定回归模型类型;
●绘制模型参数,建⽴回归模型
●对回归模型进⾏检验
●利⽤回归模型进⾏预测
简单线性回归也称为⼀元线性回归,也就是回归模型中只含⼀个⾃变量,否则称为多重线性回归。

简单线性回归模型为:
Y=a+bX+ε
其中Y-因变量;X-⾃变量;a-常数项,是回归直线在纵坐标轴上的截距;b-回归系数,是回归直线的斜率;ε-随机误差,即随。

相关文档
最新文档