数据分析与筛选
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据分析与筛选 数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。
一:分析方法
列表法:
将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。
作图法:
作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等),读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以lgR 为纵轴,以1/T 为横轴画图,则为一条直线。
二:数学建模中的数据分析
2.1.基本概率分布
在数学建模中对数据进行分析时通常要考虑数据的概率分布情况,这样可以更好的了解数据总体的分布情况,以及分布是否稳定等一些数据的相关特征,其中常用的概率分布有:
正态分布),(2σμN :密度函数:
22
2)(21)(σμπσ
-=x e x p 分布函数为:
dt t e x F x ⎰∞
---=22
2)(21)(σμπσ )(分布n 2
2χχ:若随机变量X 1,X 2,X 3,.......Xn 相互独立,都服从标准正态分布N(0,1),则随机变量
n Y Y Y Y 22221...++=
是服从自由度n 的分布,记Y~t(n)。
n
Y X T /= 服从自由度为n 的t 分布,记为T~t(n )。
F 分布F(n1,n2)
若X~)(~),(2212n Y n χχ,且相互独立,则随机变量
2
1/n Y n X 服从自由度为(n1,n2)的F 分布,记为F~F(n1,n2)。
在对随机现象的观察和研究中,人们发现有许多随机变量,它们是由大量的相互独立的随机因素的综合影响而形成的,而其中每个因素在总的影响中所起的作用又很小,且各因素的作用还是相对均匀的,则这种随机变量往往服从或近似服从正态分布。
数据分析在生活中的运用非常广泛,最住要的体现是在销售利益、性能测试等的方面。下面是数学建模中常用的数据分析类型。
2.2.异常数据的挖掘和处理[1 ]
在预测与决策时,经常需要对所要研究的对象进行分析和收集数据,从大量的统计数据中找规律,而这些数据真实与否直接影响分析结论的科学性。在多数情况下会发现,统计来的数据是按照某一规律且起伏并不是很大,但其中都可能混有“异常数据”,这些异常数据是由异常因素(例异常时间、干扰或误差等)造成的与大多数观察值不一致。有些异常值可能是在统计时度量或执行错误所得到的,在分析过程中应剔除的,但有些数据非任何统计错误所致不能简单地剔除,否则可能导致重要的隐藏信息丢失[2,特别有些异常数据非常有价值,若剔除则可能影响到结论的科学性。因此,对于异常数据的挖掘及处理(利用)是值得研究的问题。 ]
异常数据的挖掘方法
所谓数据挖掘就是按照既定的目标, 对大量的统计数据进行探索, 揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。对异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值,挖掘过程实际上是识别过程,可以用以下几种方法进行挖掘:
3σ检测法[2 ]
一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时间序列),都分布在其均值周围,标准差σ能反映其离散程度。统计数据可以是来自某一总体的样本。如果是一般总体,可以由概率统计中的切贝谢夫不等式知道,对于任意的0ε>,有:
22
}|)({|ε
σε≤≥-X E X P 特别地有,9
1)3(}3|)({|22=≤≥-σσσX E X P 即统计数据与其均值的偏差超过3σ 比例不超过1/9则由不等式027.0)]3(1[2}3|)({|=-=≥-φσx E X P ,即在正态分布下统计数据与平均值的离差大于3σ的概率仅为0.27%,所以可将那3σ 些有均值之差的绝对值超过3σ的统计数据视为异常数据。 根据概率论中的中心极限定理,
因此3σ检测法在实际中比较常用。当然它的局限性是只适用于单维异常数据的挖掘。
2.3利用聚类分析法对数据处理
聚类分析又称群分析,是研究分类问题的一种多元统计方法。在聚类分析的过程中,将样品或变量按相互之间距离的大小或由相似系数反映出的相近性聚成若干类,常用的距离有欧氏距离、马氏距离、兰氏距离等,马氏距离可以排除指标之间相关性的干扰且不受量纲的影响,最为实用。根据聚类的结果,距离较小
或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的限制。如果存在几个样品,聚合成哪一类都不合适,或与其它样品的距离都比较远,那么就可断定这些样品数据为异常数据。
1、数据在聚类分析之前要进行数据的变换,常用的方法有
a 中心化变换:
),...3,2,1(*m i x x x ij =-=
变换后的数据均值为0,而协方差不变。
B.标准变换:
),...2,1;,...2,1(*m j n i s x x x j
j ij ==-= 其中s j 是标准差;变换后的数据每个变量的样本均值为0,而且标准变换后的数据与变量的量纲无关;
2、由聚类分析法的基本思想,即可得出
① 数据变换:常用的数据变换方法在上面已经详细举出。数据变换的目的时为了便于计算和比较,或改变数据的结构;
② 计算n 各样品两两间的距离,得到样品间的距离(常用欧式距离)矩阵)0(D ; ③ 初始(第一步:i =1)n 个样品各自构成一类,类的个数k =n ,第i 类),...2,1}({)(n i x G ij i ==,此时类的间距就是样品距离,然后对样品),...,2,1()(n i X i =执行并类过程④和⑤;
④ 对步骤3得到的距离矩阵1-i D ,合并类间距离最小的两类为一新类,此时类的总个数k 减少一类,即k=n-i+1;
⑤ 计算新类与其他类的距离,得到新的距离矩阵,若合并后的总个数k 仍然大于1,重复以上的过程,
⑥ 画谱系聚类图;
⑦ 觉定分类个数及各类的成员。
2.4.典型例子——市场占有率问题
一个企业的销售量(或销售额)在市场同类产品中所占的比重。直接反映企业所提供的商品和劳务对消费者和用户的满足程度,表明企业的商品在市场上所处的地位。市场份额越高,表明企业经营、竞争能力越强。市场份额根据不同市场范围有4种测算方法:
(1).总体市场份额。指一个企业的销售量(额)在整个行业中所占的比重。
(2).目标市场份额。指一个企业的销售量(额)在其目标市场,即它所服务的市场中所占的比重。一个企业的目标市场的范围小于或等于整个行业的服务市场,因而它的目标市场份额总是大于它在总体市场中的份额 。
(3).相对于3个最大竞争者的市场份额。指一个企业的销售量和市场上最大的 3个竞争者的销售总量之比。如:一个企业的市场份额是30%,而它的3个最大竞争者的市场份额分别为20%,10%,10%,则该企业的相对市场份额就是30%÷40%=75%,如4个企业各占25%,则该企业的相对市场份额为33%。一般地,一个企业拥有33%以上的相对市场份额,就表明它在这一市场中有一定实力。
4.相对于最大竞争者的市场份额。指一个企业的销售量与市场上最大竞争者的销售量之比。若高于100%,表明该企业是这一市场的领袖。