R语言基础培训第二讲常用统计分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

R语言基础培训第二讲常用统计分析
在R语言中进行统计分析是其强大功能之一、R语言提供了许多常用的统计分析函数和包，可以帮助我们进行数据的描述、分布分析、相关分析等。

一、描述统计分析
描述统计分析主要是对数据进行整理和总结，常用的统计描述指标包括均值、中位数、众数、标准差、方差、四分位数等。

在R中，常用的函数有mean、median、mode、sd、var、quantile等。

下面以一个实例进行说明：
数据：x<-c(1,2,3,4,5,6,7,8,9,10)
1. 均值：mean(x)，结果为5.5
2. 中位数：median(x)，结果为5.5
3. 众数：由于R语言没有内建的众数函数，可以使用table函数统计各值出现的频数，再选出频数最高的值，实现代码如下：
table_result <- table(x)
mode_value <- as.numeric(names(table_result)[table_result == max(table_result)])
结果为5
4. 标准差：sd(x)，结果为3.03
5. 方差：var(x)，结果为9.17
6. 四分位数：quantile(x)，结果为1, 3.25, 5.5,
7.75, 10
二、分布分析
分布分析主要是对数据的分布情况进行分析，包括概率分布、频数分布等。

R语言提供了多种分布函数和绘图函数，可以帮助我们进行分布分析。

1. 正态分布：R中的dnorm函数用于计算正态分布的概率密度函数值，pnorm函数用于计算正态分布的累积分布函数值，qnorm函数用于计算正态分布的分位数值，rnorm函数用于生成服从正态分布的随机数。

下面以均值为0，标准差为1的正态分布为例进行说明：
x <- seq(-3, 3, 0.01)
y <- dnorm(x, mean = 0, sd = 1)
plot(x, y, type = "n", xlab = "x", ylab = "Probability Density", main = "Normal Distribution")
lines(x, y, col = "blue", lwd = 2)
结果为一条钟形曲线，表示正态分布的概率密度函数。

2. 频数分布：R中的hist函数用于绘制直方图，可以帮助我们分析数据的分布情况。

下面以一个数据集为例进行说明：
data <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
hist(data, breaks = seq(0, 11, by = 1), main = "Histogram", xlab = "Value", ylab = "Frequency")
结果为一个由10个等宽区间组成的直方图，表示数据的频数分布情况。

三、相关分析
相关分析主要是用来研究变量之间的相关关系，常用的统计指标有相关系数等。

R语言提供了cor函数用于计算相关系数，还有scatterplot 函数和corrplot函数用于绘制散点图和相关矩阵图。

下面以两个变量x 和y为例进行说明：
x<-c(1,2,3,4,5)
y<-c(2,4,6,8,10)
1. 相关系数：cor(x, y)，结果为1，表示x和y两个变量呈完全正相关。

2. 散点图：scatterplot(x, y, main = "Scatterplot", xlab = "x", ylab = "y")
结果为一张散点图，表示x和y两个变量的分布情况。

3. 相关矩阵图：corrplot(cor(x, y), method = "circle")
结果为一张圆形相关矩阵图，表示各个变量之间的相关关系。

以上只是R语言中常用的统计分析方法的简要介绍，实际应用中，还有更多的统计分析方法和技巧可以使用。

通过学习和熟练掌握这些方法和技巧，可以更好地提取和分析数据，为决策提供有力支持。