数据离散化
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、分布一致性检验
1.1 连续分布
1.1.1 ks.test(x, y) #Kolmogorov-Smirnov分布一致性检验
#x是数字向量,y若为数字向量,则检验x与y是否分布一致
#y若为连续分布(!)的累积概率函数,则检验x是否与已知分布一致。
#注意累积概率函数还可以带参数
例:
x=rnorm(100, 175, 10); ks.test(x, pnorm, 175, 10);
y=runif(100, 100, 1000); ks.test(y, punif, 100, 1000);
1.1.2 shapiro.test(x) #Shapiro-Wilk正态性检验,样本含量在[3, 5000]之间
1.2离散分布
chisq.test(x, p) #p是与x等长的概率向量,缺省表示x取值概率相等
离散分布的一致性检验实际上是理论频数和实际频数的差别检验
步骤:
利用样本对分布进行参数的点估计
用估计的分布函数计算理论频数
对实际频数和理论频数进行卡方检验
2、离散一致性检验
2.1 非参数方法(基于秩)
mood.test(x, y) #该检验假设两样本中位数相同,因此需要将两个中位数的差异消除再比较
#实际使用如下:
diff=median(x)-median(y); y=y+diff; mood.test(x,y);
ansari.test(x,y) #用于两样本,当数据中有结时会出现警告。也需要将两个中位数的差异消除再比较fligner.test(x) #x是一个列表(!),用于多样本,不需要消除中位数的差异
2.2 参数方法
var.test(x,y) #用于来自正态总体的两个样本
bartlett.test(x) #用于来自正态总体的多个样本