R语言方法总结要点 - 360文档中心

合集下载

相关主题

计算描述性统计量:

1、summary():

例：summary(mtcars[vars])

summary()函数提供了最小值、最大值、四分位数和数值型变量的均值，以及因子向量和逻

辑型向量的频数统计。

2、apply()函数或sapply()函数

计算所选择的任意描述性统计量。mean、sd、var、min、max、median、length、range 和quantile。函数fivenum()可返回图基五数总括（Tukey’s five-number summary，即最小值、下四分位数、中位数、上四分位数和最大值）。

sapply()

例：mystats <- function(x, na.omit = FALSE) {

if (na.omit)

x <- x[!is.na(x)]

m <- mean(x)

n <- length(x)

s <- sd(x)

skew <- sum((x - m)^3/s^3)/n

kurt <- sum((x - m)^4/s^4)/n - 3

return(c(n = n, mean = m, stdev = s, skew = skew, kurtosis = kurt))

}

sapply(mtcars[vars], mystats)

3、describe()：

Hmisc包：返回变量和观测的数量、缺失值和唯一值的数目、平均值、

分位数，以及五个最大的值和五个最小的值。

例：library(Hmisc)

describe(mtcars[vars])

4、stat.desc()：pastecs包

若basic=TRUE（默认值），则计算其中所有值、空值、缺失值的数量，以及最小值、

最大值、值域，还有总和。

若desc=TRUE（同样也是默认值），则计算中位数、平均数、平均数的标准误、平均

数置信度为95%的置信区间、方差、标准差以及变异系数。

若norm=TRUE（不是默认的），则返回正态分布统计量，包括偏度和峰度（以及它们

的统计显著程度）和Shapiro–Wilk正态检验结果。这里使用了p值来计算平均数的置信区

间（默认置信度为0.95：

例：library(pastecs)

stat.desc(mtcars[vars])

5、describe()：psych包

计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误