浅谈R语言
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅谈R语言
摘要
经过一个学期的R语言学习,不仅仅使我对R语言熟练掌握,也对我对统计这门课在实际应用中有了新的认识。在这篇文章中,主要阐述对搜集的数据进行分析。首先给出了数据来源——葡萄酒的评价,然后我们通过数据分别进行了基本函数处理、假设检验、方差分析、聚类分析、主成分分析、因子分析和回归分析,基本包括R语言所学内容。其中,在假设检验中,我们给出所有正态分布检验方法;在聚类分析中,给出了葡萄酒数据的分类;在最后的回归分析中,我们利用了step回归、主成分分析,使结果更合理。
关键词:基本函数,假设检验,聚类分析,主成分分析,因子分析,回归分析
目录
一数据来源-------------------------------------------------- 3
二基本函数-------------------------------------------------- 3 2.1 数据读取与处理-------------------------------------------- 3三假设检验-------------------------------------------------- 8
3.1 正态分布检验---------------------------------------------- 8 3.2 均值检验------------------------------------------------- 11
四方差分析与聚类分析--------------------------------------- 12
4.1 方差分析------------------------------------------------- 12 4.2 聚类分析------------------------------------------------- 12
五主成分分析和因子分析 ------------------------------------- 14
5.1 主成分分析----------------------------------------------- 14 5.2 因子分析------------------------------------------------- 15
六回归分析------------------------------------------------- 15七参考文献------------------------------------------------- 17
一数据来源
本数据是来自2012高教社杯全国大学生数学建模竞赛A题——葡萄酒的评价,实际来源如下所述。
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
下面我们将运用上面数据,对本学期的R语言学习进行实现和总结。
二基本函数
在本节中,主要是将利用学过的R语言基本函数对上述数据进行处理,这些基本函数包括数据存储与数据读取、编写基础函数、基本作图(散点图,茎叶图,箱型图等)。另外,在本节最后我们通过星图评判了27中红葡萄酒的好坏。
2.1 数据读取与处理
问题1:数据1是红葡萄酒和白葡萄酒的各项指标,在原始数据中每项指标都测量过三次(白藜芦醇指标除外),我们将对其进行平均,并生成新的数据文档。
分析:手工输入很麻烦,运用R语言中的读取命令会有事半功倍的效果。运行结果见下表1。
红葡萄酒指标:
白葡萄酒指标:
问题2:自己编写一个函数,求数据1中白藜芦醇指标的均值、标准差、偏度与峰度。
分析:向量()n x x x x X ,,,,321
=的偏度公式为:
2
/3231))
(())((X E X E X E X E --=
β
向量()n x x x x X ,,,,321
=的峰度公式为:
2
2
42))(())((X E X E X E X E --=
β
问题3:对表2白葡萄酒指标数据,按下列要求作图。
用直方图呈现白葡萄酒各指标的分布并添加核密度曲线;
做出变量单宁的茎叶图和所有指标的框须图;
作出个指标间的散点图。
分析:根据要求,运行结果如下:
图1白葡萄酒各指标的分布和核密度曲线变量单宁的茎叶图:
框须图:
图2白葡萄酒各指标的框须图
图3各指标之间的散点图
V1V2V3V4V5
024
6
V1
0.5 1.5 2.5
3.5
0.02
0.08
0.14
1.53.0
4.
5
0.51.52.53.
5
V2
V3
024
60.020.08
0.1
4
V4
1.5
3.0
4.5
2
4
6
0.00.40.8 1.2
0.00.40.81.2
V5
问题4:根据27种红葡萄酒的指标,画出星图,评判葡萄酒的优劣。
分析:运行结果图4红葡萄酒星图。
图4红葡萄酒星图
根据上面星图我们看出,第3、9种中红葡萄酒指标均衡,要优于其他葡萄酒。
三假设检验
在本节中,我们将主要介绍假设检验。当然,在假设检验中包括好多检验,例如:方差齐性检验、分布检验、参数检验等,在此不作详细介绍,可见参考文献[1][2],在此介绍包括两个检验——正态分布检验和均值检验。
3.1 正态分布检验
问题:对附件1中数据(葡萄酒品尝评分表)操作,判断第一组评分员的评分结果是否服从正态分布。
分析:首先将原始数据(附件1)处理,得到第一组评分员评分结果(代码见附件)见下表3。