R语言方法总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
R语言方法总结
WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】
计算描述性统计量: 1、summary():
例: summary(mtcars[vars])
summary()函数提供了最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻
辑型向量的频数统计。
2、apply()函数或sapply()函数
计算所选择的任意描述性统计量。mean、 sd、 var、 min、 max、 median、 length、range
和quantile。函数fivenum()可返回图基五数总括(Tukey’s five-number summary,即最小值、
下四分位数、中位数、上四分位数和最大值)。
sapply()
例: mystats <- function(x, = FALSE) {
if
x <- x[!(x)]
m <- mean(x)
n <- length(x)
s <- sd(x)
skew <- sum((x - m)^3/s^3)/n
kurt <- sum((x - m)^4/s^4)/n - 3
return(c(n = n, mean = m, stdev = s, skew = skew, kurtosis = kurt))
}
sapply(mtcars[vars], mystats)
3、describe():
Hmisc包:返回变量和观测的数量、缺失值和唯一值的数目、平均值、
分位数,以及五个最大的值和五个最小的值。
例: library(Hmisc)
describe(mtcars[vars])
4、():pastecs包
若basic=TRUE(默认值),则计算其中所有值、空值、缺失值的数量,以及最小值、最大值、值域,还有总和。
若desc=TRUE(同样也是默认值),则计算中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数。
若norm=TRUE(不是默认的),则返回正态分布统计量,包括偏度和峰度(以及它们的统计显着程度)和Shapiro–Wilk正态检验结果。这里使用了p值来计算平均数的置信区间(默认置信度为:
例: library(pastecs)
(mtcars[vars])
5、describe():psych包
计算非缺失值的数量、平均数、标准差、中位数、截尾均值、绝对中位差、最小值、最大值、值域、偏度、峰度和平均值的标准误
例: library(psych)
describe(mtcars[vars])
分组计算描述性统计量
1、aggregate():
例:aggregate(mtcars[vars], by = list(am = mtcars$am), mean)
2、by():
例: dstats <- function(x)(c(mean=mean(x), sd=sd(x)))
by(mtcars[vars], mtcars$am, dstats)
by(mtcars[,vars],mtcars$am,plyr::colwis(dstats))
3、summaryBy():doBy包
例 library(doBy)
summaryBy(mpg + hp + wt ~ am, data = mtcars, FUN = mystats) 4、():doBy包(()函数不允许指定任意函数,)
例:library(psych)
(mtcars[vars], mtcars$am)
5、reshape包分组:(重铸和融合)
例:library(reshape)
dstats <- function(x) (c(n = length(x), mean = mean(x),
sd = sd(x)))
dfm <- melt(mtcars, = c("mpg", "hp",
"wt"), = c("am", "cyl"))
cast(dfm, am + cyl + variable ~ ., dstats)
频数表和列联表
1、table():生成简单的频数统计表
mytable <- with(Arthritis, table(Improved))
Mytable
2、():频数转化为比例值
(mytable)
3、()*100:转化为百分比
(mytable)*100
二维列联表
4、table(A,B)/xtabs(~A+b,data=mydata)
例:mytable <- xtabs(~ Treatment+Improved, data=Arthritis) 5、()和():函数分别生成边际频数和比例
(1:行,2:列)
行和与行比例
(mytable, 1)
(mytable, 1)
列和与列比例
(mytable, 2)
(mytable, 2)
(mytable)
6、addmargins():函数为这些表格添加边际和
addmargins(mytable)
admargins(mytable))
addmargins(mytable, 1), 2)
addmargins(mytable, 2, 1)
():gmodels包
例:library(gmodels)
CrossTable(Arthritis$Treatment, Arthritis$Improved)
多维列联表
1、table()和xtabs():都可以基于三个或更多的类别型变量生成多维列联表。
2、ftable():
例:mytable <- xtabs(~ Treatment+Sex+Improved, data=Arthritis)
mytable
ftable(mytable)
(mytable, 1)
(mytable, 2)
(mytable, 3)
(mytable, c(1,3))
ftable(mytable, c(1, 2)))
ftable(addmargins(mytable, c(1, 2)), 3))
gtable(addmargins(mytable, c(1, 2)), 3)) * 100
独立检验
1、卡方独立性检验:()
例:library(vcd)
mytable <- xtabs(~Treatment+Improved, data=Arthritis)
(mytable)
mytable <- xtabs(~Improved+Sex, data=Arthritis)
(mytable)