抽样调查 作业二 R语言

合集下载

R语言实验二

R语言实验二

R语⾔实验⼆实验2 R基础(⼆)⼀、实验⽬的:1.掌握数字与向量的运算;2.掌握对象及其模式与属性;3.掌握因⼦变量;4.掌握多维数组和矩阵的使⽤。

⼆、实验内容:1.完成教材例题;2.完成以下练习。

练习:要求:①完成练习并粘贴运⾏截图到⽂档相应位置(截图⽅法见下),并将所有⾃⼰输⼊⽂字的字体颜⾊设为红⾊(包括后⾯的思考及⼩结),②回答思考题,③简要书写实验⼩结。

④修改本⽂档名为“本⼈完整学号姓名1”,其中1表⽰第1次实验,以后更改为2,3,...。

如⽂件名为“1305543109张⽴1”,表⽰学号为1305543109的张⽴同学的第1次实验,注意⽂件名中没有空格及任何其它字符。

最后连同数据⽂件、源程序⽂件等(如果有的话),⼀起压缩打包发给课代表,压缩包的⽂件名同上。

截图⽅法:法1:调整需要截图的窗⼝⾄合适的⼤⼩,并使该窗⼝为当前激活窗⼝(即该窗⼝在屏幕最前⽅),按住键盘Alt键(空格键两侧各有⼀个)不放,再按键盘右上⾓的截图键(通常印有“印屏幕”或“Pr Scrn”等字符),即完成截图。

再粘贴到word⽂档的相应位置即可。

法2:利⽤QQ输⼊法的截屏⼯具。

点击QQ输⼊法⼯具条最右边的“扳⼿”图标,选择其中的“截屏”⼯具。

)1.⾃⾏完成教材P58页2.2-2.5节中的例题。

2.(习题2.1)建⽴⼀个R⽂件,在⽂件中输⼊变量x = (1,2,3)T,y = (4,5,6)T,并作以下运算(1)计算z = 2x + y + e,其中e = (1,1,1)T;(2)计算x与y的内积;(3)计算x与y的外积。

解:源代码:(1)x<-c(1,2,3)y<-c(4,5,6)e<-c(1,1,1)z=2*x+y+ez1=crossprod(x,y) #z1为x与y的内积或者x%*%yz2=tcrossprod(x,y) #z2为x与y的外积或者x%o%yz;z1;z2(2) x<-c(1,2,3)y<-c(4,5,6)e<-c(1,1,1)z=2*x+y+ez1= x%*%yz2=x%o%yz;z1;z2运⾏截图:3.(习题2.2)将1,2,…,20构成两个4×5阶的矩阵,其中矩阵A是按列输⼊,矩阵B是按⾏输⼊,并作如下运算(1)C = A + B;(相对应的数相加)(2) D = AB T;(3)E = (e ij )4×5,其中e ij = a ij·b ij;(相对应的数相乘)(4)F是由A的前3⾏和前3列构成的矩阵;(5)G是由矩阵B的各列构成的矩阵,但不含B的第3列。

R语言实验分析报告—习题详解

R语言实验分析报告—习题详解

R语言实验报告—习题详解————————————————————————————————作者:————————————————————————————————日期:R语言实验报告习题详解学院:班级:学号:姓名:导师:成绩:目录一、实验目的 (1)二、实验内容 (1)1.1问题叙述 (1)1.2问题求解 (1)1.2.1创建按列、行输入的4×5矩阵; (1)1.2.2编写程序求解 (1)1.3结果展示 (3)2.1问题叙述 (3)2.2问题求解 (4)2.2.1创建StudentData数据框 (4)2.2.2运行程序求解 (4)2.3结果展示 (4)3.1问题叙述 (5)3.2问题求解 (6)3.2.1运用hist函数绘制直方图; (6)3.2.2运用lines函数绘制密度估计曲线; (6)3.2.3运用plot函数绘制经验分布图; (6)3.2.4运用qqnorm函数绘制QQ图 (7)3.3结果展示 (7)4.1问题叙述 (9)4.2问题求解 (10)4.2.1创建x、y数据框 (10)4.2.2运用t.test函数求解 (10)4.3结果展示 (10)5.1问题叙述 (10)5.2问题求解 (11)5.2.1创建x、y数据框 (11)5.2.2运用t.test函数求解 (11)5.3结果展示 (11)6.1问题叙述 (11)6.2问题求解 (12)6.2.1创建x数据框 (12)6.2.2运用pnorm函数求解 (12)6.3结果展示 (12)三、实验总结 (12)一、实验目的R是用于统计分析、绘图的语言和操作环境。

R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具;本次试验要求掌握了解R语言的各项功能和函数,能够通过完成试验内容对R语言有一定的了解,会运用软件对数据进行分析;通过本实验加深对课本知识的理解以及熟练地运用R语言软件来解决一些复杂的问题。

基于R语言的社会统计分析3

基于R语言的社会统计分析3
PAIRS. • 相依的两个样本中有相同的研究对象/个体。前面所说的追踪研究所产生的
样本是相依样本,另一种类型的相依样本发生于对同一个研究对象进行两 种刺激干预,称为交叉型研究 CROSS-OVER STUDY。
例: 手机使用及司机的反应时间
最近的一项实验使用大学生样本来检测手机使用是否会削弱司机的反应时间。 在模拟驾驶环境的一个机器上,用时间周期不规律的目标快速发出红色或绿 色的光。当被试对象发现红色光时,要求他们尽可能快的去按一个制动按钮。 在使用手机条件下,学生用手机和另一个屋子里的人进行有关政治议题方面 的交谈。在控制条件下,在进行模拟驾驶时,他们同时收听无线电广播或磁 带。对于每个学生,记录几次试验中他们的平均反应时间(单位毫秒)。
• 方差分析的目的是检验总体间的均值是否相同。 • 其检验的方法或手段是通过对方差的分析实现的。 • 这里我们来介绍一下一元方差分析的基本理论。 • 所谓一元,是指只有一个定类的自变量。因变量是数值型变量。
行的。
• 我们所关注的、进行比较的结果变量是响应变量; • AN OUTCOME VARIABLE ABOUT WHICH COMPARISONS ARE MADE IS CALLED A
RESPONSE VARIABLE. • 定义组别的那个变量为解释变量。 • THE VARIABLE THAT DEFINES THE GROUPS IS CALLED EXPLANATORY VARIABLE.
想要的结果的比率。 • 当两个比例都接近于0时,比率通常比差异提供更多的实用信息。
根据美国最近的数据,在美国每年的枪杀比率为62.4人每百万居民 (0.0000624),而英国为1.3每百万居民(0.0000013)。比例间的差异为 0.0000624-0.0000013=0.0000611;而比率是0.0000624/0.0000013=48。

r语言 m重采样方法

r语言 m重采样方法

r语言 m重采样方法
R语言中常见的重采样方法有以下几种:
1. 自助法(Bootstrap):自助法是一种基于自助采样的重采样方法,通过从原始样本中有放回地抽取样本,构建多个重复样本,用于估计样本的分布、参数估计、置信区间等。

2. 非参数自助法(Nonparametric Bootstrap):非参数自助法是自助法的一种扩展,通过在每次抽样时不同的样本大小,构建多个样本来估计样本的分布。

3. Jackknife方法:Jackknife方法是一种通过留一个样本估计法来进行重采样的方法,即通过从原始样本中剔除一个样本,构建多个留一样本,用于估计样本的方差、偏差等。

4. 交叉验证(Cross-Validation):交叉验证是一种将原始样本划分为训练集和验证集的方法,通过多次划分并训练模型来进行重采样,用于评估模型性能、选择模型参数等。

5. 自相关法(Autocorrelation Method):自相关法是一种针对时间序列数据的重采样方法,通过对时间序列进行滞后操作,构建多个时间序列样本,用于估计时间序列的自相关、周期性等特征。

以上只是常见的重采样方法,根据具体任务和数据类型,还可以使用其他重采样方法来进一步优化模型的训练和评估。

R语言实验报告范文

R语言实验报告范文

R语言实验报告范文实验报告:基于R语言的数据分析摘要:本实验基于R语言进行数据分析,主要从数据类型、数据预处理、数据可视化以及数据分析四个方面进行了详细的探索和实践。

实验结果表明,R语言作为一种强大的数据分析工具,在数据处理和可视化方面具有较高的效率和灵活性。

一、引言数据分析在现代科学研究和商业决策中扮演着重要角色。

随着大数据时代的到来,数据分析的方法和工具也得到了极大发展。

R语言作为一种开源的数据分析工具,被广泛应用于数据科学领域。

本实验旨在通过使用R语言进行数据分析,展示R语言在数据处理和可视化方面的应用能力。

二、材料与方法1.数据集:本实验使用了一个包含学生身高、体重、年龄和成绩的数据集。

2.R语言版本:R语言版本为3.6.1三、结果与讨论1.数据类型处理在数据分析中,需要对数据进行适当的处理和转换。

R语言提供了丰富的数据类型和操作函数。

在本实验中,我们使用了R语言中的函数将数据从字符型转换为数值型,并进行了缺失值处理。

同时,我们还进行了数据类型的检查和转换。

2.数据预处理数据预处理是数据分析中的重要一步。

在本实验中,我们使用R语言中的函数处理了异常值、重复值和离群值。

通过计算均值、中位数和四分位数,我们对数据进行了描述性统计,并进行了异常值和离群值的检测和处理。

3.数据可视化数据可视化是数据分析的重要手段之一、R语言提供了丰富的绘图函数和包,可以用于生成各种类型的图表。

在本实验中,我们使用了ggplot2包绘制了散点图、直方图和箱线图等图表。

这些图表直观地展示了数据的分布情况和特点。

4.数据分析数据分析是数据分析的核心环节。

在本实验中,我们使用R语言中的函数进行了相关性分析和回归分析。

通过计算相关系数和回归系数,我们探索了数据之间的关系,并对学生成绩进行了预测。

四、结论本实验通过使用R语言进行数据分析,展示了R语言在数据处理和可视化方面的强大能力。

通过将数据从字符型转换为数值型、处理异常值和离群值,我们获取了可靠的数据集。

R语言随机抽样二项分布仿真案例

R语言随机抽样二项分布仿真案例

R语言随机抽样二项分布仿真案例在R语言中,可以使用`rbinom(`函数进行二项分布的随机抽样仿真。

二项分布的仿真案例可以是模拟投掷硬币的结果。

设想一个情境,我们有一枚硬币,我们想要模拟投掷100次,然后计算正面朝上的次数。

首先,我们需要设定硬币正面朝上的概率,假设为0.5(即硬币是公平的)。

然后,我们可以使用`rbinom(`函数来进行100次投掷的模拟,其中n参数为投掷的次数,size参数为二项分布的参数,prob参数为硬币正面朝上的概率。

```R#模拟投掷100次硬币的结果set.seed(123) # 设置随机种子,以确保结果可重现n<-100#投掷次数p<-0.5#正面朝上的概率#进行100次投掷的模拟coin_results <- rbinom(n, size = 1, prob = p)#统计正面朝上的次数num_heads <- sum(coin_results)#输出结果print(paste("正面朝上的次数:", num_heads))```运行上述代码,我们可以获得模拟投掷100次硬币的结果,即正面朝上的次数。

```Rcoin_results <- rbinom(n, size = 1, prob = p)#统计不同正面朝上次数的频率分布head_counts <- table(coin_results)#绘制直方图```此外,我们也可以计算正面朝上的概率以及其置信区间。

请注意,我们需要使用二项分布的参数进行计算。

```R#计算正面朝上的概率及其置信区间p_hat <- num_heads / n # 正面朝上的概率估计值se <- sqrt(p_hat * (1 - p_hat) / n) # 标准误差alpha <- 0.05 # 置信水平me <- qnorm(1 - alpha / 2) * se # 边际误差lower_bound <- p_hat - me # 置信区间下界upper_bound <- p_hat + me # 置信区间上界#输出结果print(paste("正面朝上的概率:", p_hat))print(paste("置信区间:[", lower_bound, ",", upper_bound, "]"))```运行上述代码,我们可以获得正面朝上的概率以及其置信区间。

抽样调查实验一

抽样调查实验一

实验(实训)报告项目名称R语言初步
所属课程名称抽样调查
项目类型综合性实验
实验(实训)日期2013年4月1日
班级
学号
姓名
指导教师
浙江财经学院教务处制
实验名称: R语言初步
实验目的: 熟悉R语言
实验要求:会以下操作:
1.安装R并导入程序包
2.查询函数帮助
3.数据读取和t检验
4.方差分析和箱线图绘制
5.下标和条件筛选
6.了解工作路径
7.R脚本运行
8.绘图练习
9.编写函数
作业: 画出三大抽样分布2 分布、t分布、F分布的概率密度函数,并比较参数不同时,概率密度函数的不同形态。

作业说明:作业用word 编辑,以唯一附件的方式上传。

作业中要包含程序及图形。

实验过程: 1.2χ分布。

2020-2021学年第二学期《R语言数据分析方法与实验》期末试卷

2020-2021学年第二学期《R语言数据分析方法与实验》期末试卷

2020-2021学年第二学期《R语言数据分析方法与实验》期末考试试题第一题(共35分)探索nycflights13数据集1.从flights数据中找出到达时间延误2小时或者更多的所有航班,并将生成的新数据保存为flight_arr2hr。

(5分)2.将生成的flight_arr2hr数据集根据目的地(dest)进行分组,统计出抵达每个目的地的航班数量,筛选出抵达航班数量前十名的目的地,将结果命名为top10_dest。

(5分) 3.从weather表中挑选出以下变量:year, month, day, hour, origin, humid, wind_speed,并将其与flight_arr2hr表根据共同变量进行左连接, 生成的新数据保存为flight_weather (5分)4.基于flight_weather数据集,根据不同出发地(origin)在平行的三个图中画出风速wind_speed(x轴)和出发延误时间dep_delay(y轴)的散点图,以及平滑曲线。

(5分)5.flights中每家航空公司在2013年有多少班次的航班被取消了?提示:依据dep_time来判断某班次航班是否被取消(5分)6.找出flights中每一家航空公司的航班最常去的目的地机场,以及flights中每家航空公司飞往最常去的目的地机场的航班数量(10分)第二题(共20分)探索diamonds数据集1.对diamonds数据集,生成一个新变量id,用于存储每条观测值所在的行数。

挑选出id, x, y, z四个变量,将宽数据转换为长数据:将x, y, z的变量名存为新变量dimension,将x, y, z的值存为新变量length。

转换后的长数据存为xyz_long。

(5分)2.将xyz_long数据集转换回宽数据xyz_wide。

宽数据xyz_wide包含id, x, y, z四个变量。

(5分)3.写代码找出diamonds中最常见和最不常见的color,即出现次数最多和最少的color。

R语言:常用统计检验方法

R语言:常用统计检验方法

R已经成为当前国际学术界最流行的统计和绘图软件之一,该语言较为简单易学,统计分析功能强大,且具有很强的绘图功能,能够绘制学术出版要求的多种图表.R语言在生物信息学,进化生物学、生态学与环境、经济学、语言学等领域有着极为广泛的应用。

R软件是跨平台的,可以在Linux, MacOs, Windows等多种系统上运行。

针对每个研究方向,有大量的科研人员编写了相关的程序包,可以导入到基本的程序平台上运行。

现有的程序包已经超过了1800个,并且还在增加中。

学习并掌握R语言,对于需要用到统计学的研究人员和学生都是非常必要的。

这里选取了R语言中若干操作实例,所有的命令行均可以在R中运行,并得到结果。

正态总体均值的假设检验t检验单个总体例一某种元件的寿命X(小时),服从正态分布,N(mu,sigma^2),其中mu,sigma^2均未知,16只元件的寿命如下:问是否有理由认为元件的平均寿命大于255小时。

命令:X<-c(159, 280, 101, 212, 224, 379, 179, 264,222, 362, 168, 250, 149, 260, 485, 170)t.test(X, alternative = "greater", mu = 225)两个总体例二X为旧炼钢炉出炉率,Y为新炼钢炉出炉率,问新的操作能否提高出炉率命令:X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3)Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1)t.test(X, Y, var.equal=TRUE, alternative = "less")成对数据t检验例三对每个高炉进行配对t检验命令:X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3)Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1)t.test(X-Y, alternative = "less")正态总体方差的假设检验例四从小学5年级男生中抽取20名,测量其身高(厘米)如下:问,在0.05显著性水平下,平均值是否等于149sigma^2 是否等于 75命令:X<-scan()136 144 143 157 137 159 135 158 147 165158 142 159 150 156 152 140 149 148 155var.test(X,Y)例五对炼钢炉的数据进行分析命令:X<-c(78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3)Y<-c(79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1)var.test(X,Y)二项分布的总体检验例六有一批蔬菜种子的平均发芽率为P=0.85,现在随机抽取500粒,用种衣剂进行浸种处理,结果有445粒发芽,问种衣剂有无效果。

R语言统计分析作业

R语言统计分析作业

T<- read.table("G:/学习文件夹/R语言/R语言作业/5/住房状况调查.csv",header=TRUE,sep=",")1、对变量计划户型制作一张频数分布表,并绘制相应的图形,写出相应的结论(请写出R代码)table(T$计划户型)2、请对变量计划面积选择正确的图形进行描述,写出相应的结论(请写出R代码);hist(T$计划面积, col = "lightgreen")3、对变量计划面积,计算样本数、平均值、中位数、修剪均值、样本标准差、偏态系数、峰态系数、最大值、最小值、上下四分位数,并对计划面积的分布特征进行综合分析(请写出R代码);t<-na.omit(T$计划面积)summary(t)library("psych")describe(t)根据第二题的直方图显示,计划面积的数据分布是非对称分布,其中位数为100,平均数为101.6,上四分位数为80.0,下四分位数为120.0,分位数之差是40.04、请选用合适的图形来展示变量计划户型和变量从业状况之间的关系,并进行独立性检验;(请写出R代码);t<- na.omit(T)b<-data.frame(t$从业状况,t$计划户型)a<-table(b)barplot(a,main="从业状况与计划户型的关系",ylab="频数",col=c(rainbow(6)),beside=TRUE)summary(assocstats(a))H0:计划户型与从业状况独立,即两个变量不关联;H1:计划户型与从业状况不独立,即两个变量关联;Pearson卡方检验结果表明,n=719,X-squared = 129.270, df = 50, p-value = 6.0761e-09,小于0.05, 拒绝原假设,Cramer′s V = 0.19,有证据表明计划户型与从业状况不独立。

R语言数据分析练习题参考答案

R语言数据分析练习题参考答案

R语言数据分析练习题参考答案一、问题描述在这个练习中,我们将进行R语言数据分析的练习,并给出相应的参考答案。

以下是各个问题的具体描述:1. 统计数据给定一个包含10个正整数的向量x,求出以下统计数据:(1)向量x的均值;(2)向量x的中位数;(3)向量x的最大值;(4)向量x的最小值;(5)向量x的标准差。

2. 数据可视化使用R语言绘制以下数据的散点图:(1)给定一个包含50个数据点的数据集,x轴为变量x,y轴为变量y;(2)给定一个包含100个数据点的数据集,x轴为变量x,y轴为变量y,并对数据点进行颜色编码。

3. 数据处理给定一个包含100个数据点的数据集,其中的数据存在缺失值。

请使用R语言进行数据处理,具体要求如下:(1)删除包含缺失值的数据点;(2)计算数据集的均值并输出;(3)使用均值填充缺失值,并重新计算数据集的均值并输出。

二、问题解答下面给出以上问题的详细解答。

1. 统计数据(1)向量x的均值:mean(x)(2)向量x的中位数:median(x)(3)向量x的最大值:max(x)(4)向量x的最小值:min(x)(5)向量x的标准差:sd(x)2. 数据可视化(1)散点图1:plot(x, y)(2)散点图2:plot(x, y, col = colors)3. 数据处理(1)删除包含缺失值的数据点:complete_data <- na.omit(data)(2)计算数据集的均值并输出:mean(data)(3)使用均值填充缺失值,并重新计算数据集的均值并输出:data_filled <- datadata_filled[is.na(data_filled)] <- mean(data_filled, na.rm = TRUE)mean(data_filled)以上就是R语言数据分析练习题的参考答案。

通过这些练习,希望能够帮助你熟悉R语言的数据分析操作,并掌握常用的统计和可视化技巧。

R语言练习题(统计软件实验)

R语言练习题(统计软件实验)
2x = sin(223/3),y = x^2,z = y*10;求x+2y-5z
x <- sin(223/3);y <- x^2;x+2*y-5*z
3建立起始值=3,增量值=5.5,终止值=44的一维数组x
x <- seq(3.47,by=5.5)
4建立等差一维数组x:首项为0,末项为 ,项数为15
colnames(mtupper)<-NULL
rownames(mtupper)<-NULL
colnames(mtupper)<-NULL
rownames(mtupper)<-NULL
colnames(mtupper)<-NULL
10. mtupper每一行求和,存入mtsum。
mtsum<-apply(mtupper,MARGIN=1,FUN=sum)
print(I)
2
while (i<=100) {
sum <- sum+i
i <- i+1
}
print(sum)
3
repeat{
if(i%%2!=0)sum <- sum+i
i <- i+1
if(i>100)break
}
print(sum)
2使用while循环求1+2+3+…+100的和。
i <- 1
How many pairs are there?(Use R to solve all these questions!)
(思考使用循环和不使用循环两种方式解答)
sum=0
for(i in 1:100)

R语言实验报告

R语言实验报告

一、试验目的R是用于统计分析、绘图的语言和操作环境。

R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

本次试验要求掌握了解R语言的各项功能和函数,能够通过完成试验内容对R语言有一定的了解,会运用软件对数据进行分析。

二、试验环境Windows系统,RGui(32-bit)三、试验内容模拟产生电商专业学生名单(学号区分),记录高数、英语、网站开发三科成绩,然后进行统计分析。

假设有的100 名学生,起始学号为210222001,各科成绩取整,高数成绩为均匀分布随机数,都在75分以上。

英语成绩为正态分布,平均成绩80,标准差为7。

网站开发成绩为正态分布,平均成绩83,标准差为18。

把正态分布中超过100分的成绩变成100分。

1 把上述信息组合成数据框,并写到文本文件中;2计算各种指标:平均分,每个人的总分,最高分,最低分,(使用apply 函数)3求总分最高的同学的学号4绘各科成绩直方图、散点图、柱状图丶饼图丶箱尾图(要求指定颜色和缺口)5画星相图,解释其含义6画脸谱图,解释其含义,7画茎叶图、qq图四、试验实现(一)按要求随机生成学号,和对于的高数、英语、网站开发三科成绩。

A、生成学号B、生成高数成绩高数成绩要求:高数成绩为均匀分布随机数,都在75分以上均匀分布函数:runif(n,min=0,max=1)其中,n 为产生随机值个数(长度),min为最小值,max为最大值。

C、生成英语成绩英语成绩要求:正态分布,平均成绩80,标准差为7正态分布函数:rnorm(n, mean = 0, sd = 1)其中,n 为产生随机值个数(长度),mean 是平均数,sd 是标准差。

D、生成网站开发成绩网站开发成绩要求:网站开发成绩为正态分布,平均成绩83,标准差为18。

其中大于100的都记为100。

(二)把上述信息组合成数据框,并写到文本文件中; 计算各种指标:平均分,每个人的总分,最高分,最低分,(使用apply 函数)A、生成文本文件B、打开数据框C、在数据框中命名变量D、计算各种指标:平均分,每个人的总分,最高分,最低分平均分(x4):总分(x5):最低分(x6):最高分(x7):(三)将生成成绩写入文本文件中(四)求总分最高的同学的学号(五)绘各科成绩直方图、散点图、柱状图丶饼图丶箱尾图(要求指定颜色和缺口)直方图散点图柱状图饼图箱尾图(要求指定颜色和缺口)(六)画星相图,解释其含义(七)画脸谱图,解释其含义(八)画茎叶图(九)qq图五、试验总结这次试验是我第一次接触R语言,刚开始遇到了很多困难,对于R语言一窍不通,后来经过老师的悉心指导,以及自己积极的去查找资料,对R语言有了进一步的了解。

抽样技术 第三版 第二章课后部分答案 R语言

抽样技术 第三版 第二章课后部分答案 R语言

抽样技术作业一(2.5——2.10)袁闪闪 21205021192.5 解:这里N =200,n =20,由表中的数据可得:2011221211144.5201()826.052611()- 6.097n i i i i n i i y y y n s y y n nv y s n N=======-=-=⨯=∑∑∑(1) 因而该小区平均的文化支出Y 的95%的近似置信区间为:22/2/211[-,-][144.5 1.96 6.097][132.5503,156.4497]n n y z s y z s n N n Nαα-⨯+⨯=±⨯=(1)(1) 所以该小区平均的文化支出Y 的估计为144.5元,其95%的置信区间为 (132.55元,156.45元)。

2.6解:有题意可得:N =350,n =50, y =1120,2s =25600, 所以粮食总产量为:3501120392000()Y N y ∧==⨯=元 代入数据得:22/2/211[-,-][392000 1.967332.12][377629,406371]n n y z Ns y z N s n N n Nαα-⨯+⨯=±⨯=(1)(1) 所以总产值的95%的置信区间为:(377629吨,406371吨)。

2.7解:由题意可得:N =1000,d =2,α=0.05,2S =68,r=70%, 带入公式,可得初始样本量:222/2022222/2/21161.362Nz S d n N z S Nd z S ααα⎛⎫=+==≈ ⎪+⎝⎭ 由于有效回答率为r=70%,,对样本容量进行再调整:0070%87.5788nn n r===≈所以样本最终确定为88。

2.8解:由题意已知:N =100,n =10, X =2135,y =25,x =22, 方法一:简单随机估计:100252500()Y N y ∧==⨯=吨方法二:比估计:由经验可知去年的化肥总产量和今年的总产量之间存在较强的相关性,引入去年的化肥总产量作为辅助变量。

抽样调查作业二R语言

抽样调查作业二R语言

抽样调查学号:2013104874 姓名:孙影莉班级:统计学131一、作业要求:1、利用R软件进行相关运算,给出运算结果;2、逐一给出每题的R代码及其相应的运行结果;3、作业以word文档提交,命名格式为“学号姓名作业二”。

二、作业题目:P104.3.3题:某居委会辖有三个居民新村,居委会欲对居民购买彩票的情况进行调查。

调查者考虑以新村分层,在每个新村中随机抽取了10个居民户并调查每户最近一个月购买彩票所花费的金额(元),结果列于下表:新村居民用户123456789101256101020201001030202420203510500405010202031680200303050400300问题:(1)试估计该小区居民户购买彩票的平均支出,并给估计的标准差。

(2)当置信度为95%,要求极限相对误差不超过10%时,按比例分配和按内曼分配时样本量及各层的样本量分别为多少?解答:(1)首先计算出每层的简单估计量:ybar1、ybar2、ybar3=分别为,其中,N1、N2、N3分别为:,N=。

然后求出每层的层权w1、w2、w3分别为:利用分层随机抽样得到该小区居民购买彩票的平均支出的估计量ybar=购买彩票的每层的平均支出样本方差sh1^2、sh2^2、sh3^2为:然后fh1 、fh2、fh3分别得:(Nh*yh)1、(Nh*yh) 2、(Nh*yh) 分别是:总和为:根据以上数据整理成表格为:h nh Nh fh wh yh Nhyh sh21102560.03910.303311.22867.294.4 2104200.02380.497625.510710302.5 3101680.05950.1991203360355.6总计30844116937.2然后求得方差的估计值为vybar=则估计的标准差为sybar=(2)a、比例估计:总体n= ,n1、n2、n3分别为:n、n1、n2、n3分别约等于: 185、56、92、37b 、内曼估计:总体n= ,n1、n2、n3分别为:n、n1、n2、n3分别约等于: 175、33、98、42代码如下:setwd('C:\\Users\\user\\Desktop\\新建文件夹')dat <- read.csv('syl3.3.csv',header=F)View(dat)alpha <- 0.05nh <- 10Nh <- dat[,2]N<-sum(Nh)Wh<-Nh/Nw<-sum(Wh)#检验Wh是否正确fh<-nh/Nhyh<- 1:nrow(dat) # rep(0,nrow(dat))sh2<-1:nrow(dat)yh<- rowSums(dat[,3:12])/nhYh<- Nh*yhY<-crossprod(Nh,yh)ybar<-sum(Wh*yh)var_ybar<-sum(Wh^2*(1-fh)/nh*sh2)sybar<-sqrt(var_ybar)for(i in 1:nrow(dat)){yh[i]<- mean(as.numeric(dat[i,3:12]))sh2[i]<- sd(dat[i,3:12])^2}# 比例分配r<-0.1a<-sum(Wh*sh2)b<-(0.1*ybar/qnorm(1-alpha/2))^2n<-a/(b+a/N) #总数n1<- n*Wh #各分层样本数# 内曼估计a1 <-sum(Wh*sqrt(sh2))n2 <-a1^2/(b+a/N) #总数n22 <-n2*Wh*sqrt(sh2)/a1 #各分层样本数P104.3.4题:随着经济发展,某市民正在悄悄的改变他们的过年习惯,虽然仍有大多数选择除夕夜在家吃年夜饭、看电视节目,但也有一些家庭到饭店吃年夜饭或逛夜市,或利用春节假期到处旅游。

r语言 检验统计量

r语言 检验统计量

r语言检验统计量检验统计量是统计学中常用的方法,用于对数据进行分析和推断。

在R语言中,有多种函数和方法可以用来计算和检验统计量。

本文将介绍几种常见的检验统计量及其在R语言中的应用。

一、均值检验均值检验是用来比较两个样本的均值是否有显著差异的方法。

在R 语言中,可以使用t.test()函数进行均值检验。

该函数的参数包括两个样本的数据向量以及其他可选参数,如置信水平和假设检验类型。

例如,我们有两组数据分别为group1和group2,想要比较它们的均值是否有显著差异。

可以使用以下代码进行均值检验:```{r}group1 <- c(1, 2, 3, 4, 5)group2 <- c(6, 7, 8, 9, 10)result <- t.test(group1, group2)```函数t.test()返回的结果中包含了检验统计量t值、自由度df、p 值等信息,可以用来进行假设检验和推断。

二、方差检验方差检验是用来比较两个或多个样本的方差是否有显著差异的方法。

在R语言中,可以使用var.test()函数进行方差检验。

该函数的参数包括多个样本的数据向量。

例如,我们有三组数据分别为group1、group2和group3,想要比较它们的方差是否有显著差异。

可以使用以下代码进行方差检验:```{r}group1 <- c(1, 2, 3, 4, 5)group2 <- c(6, 7, 8, 9, 10)group3 <- c(11, 12, 13, 14, 15)result <- var.test(group1, group2, group3)```函数var.test()返回的结果中包含了检验统计量F值、自由度df1和df2、p值等信息,可以用来进行假设检验和推断。

三、相关系数检验相关系数检验是用来评估两个变量之间是否存在线性相关关系的方法。

在R语言中,可以使用cor.test()函数进行相关系数检验。

R语言实验指导书(二)

R语言实验指导书(二)

R语言实验指导书(二)2016年10月27日实验三创建和使用R语言数据集一、实验目的:1.了解R语言中的数据结构。

2.熟练掌握他们的创建方法,和函数中一些参数的使用。

3.对创建的数据结构进行,排序、查找、删除等简单的操作。

二、实验内容:1.向量的创建及因子的创建和查看有一份来自澳大利亚所有州和行政区的20个税务会计师的信息样本 1 以及他们各自所在地的州名。

州名为:tas, sa, qld, nsw, nsw, nt, wa, wa, qld, vic, nsw, vic, qld, qld, sa, tas, sa, nt, wa, vic。

1)将这些州名以字符串的形式保存在state当中。

2)创建一个为这个向量创建一个因子statef。

3)使用levels函数查看因子的水平。

2.矩阵与数组。

i.创建一个4*5的数组如图,创建一个索引矩阵如图,用这个索引矩阵访问数组,观察结果。

3.将之前的state,数组,矩阵合在一起创建一个长度为3的列表。

4.创建一个数据框如图。

5.将这个数据框按照mpg列进行排序。

6.访问数据框中drat列值为3.90的数据。

三、实验要求要求学生熟练掌握向量、矩阵、数据框、列表、因子的创建和使用。

实验四数据的导入导出一、实验目的1.熟练掌握从一些包中读取数据。

2.熟练掌握csv文件的导入。

3.创建一个数据框,并导出为csv格式。

二、实验内容1.创建一个csv文件(内容自定),并用readtable函数导入该文件。

2.查看R语言自带的数据集airquality(纽约1973年5-9月每日空气质量)。

3.列出airquality的前十列,并将这前十列保存到air中。

4.查看airquality中列的对象类型。

5.查看airquality数据集中各成分的名称6.将air这个数据框导出为csv格式文件。

(write.table (x, file ="", sep="", s =TRUE, s =TRUE, quote =TRUE))三、实验要求要求学生掌握从包中读取数据,导入csv文件的数据,并学会将文件导出。

r语言多个样本率的卡方检验

r语言多个样本率的卡方检验

R语言多个样本率的卡方检验1. 介绍卡方检验(Chi-square test)是一种常用的统计方法,用于比较观察到的频数与期望频数之间的差异。

它可以用于分析两个或多个分类变量之间是否存在关联性。

在R语言中,我们可以使用chisq.test()函数来进行卡方检验。

本文将介绍如何使用R语言进行多个样本率的卡方检验。

在多个样本率的卡方检验中,我们比较的是多个组别之间的样本率是否存在差异。

2. 数据准备在进行多个样本率的卡方检验之前,我们需要准备好相应的数据。

假设我们有一个调查问卷,涉及三个不同地区的人对于某个产品的满意度评价,评价结果分为三个等级:满意、一般和不满意。

我们想要比较这三个地区的满意度评价是否存在差异。

首先,我们需要将数据整理成适合进行卡方检验的形式。

假设我们有一个数据框df,其中包含了地区和满意度评价的信息。

数据框的结构如下:地区满意度评价A 满意A 一般B 一般B 不满意C 满意C 满意我们可以使用R语言的table()函数来生成一个列联表,列联表用于展示两个变量之间的关系。

在本例中,我们想要展示地区和满意度评价之间的关系。

代码如下:# 创建列联表table_df <- table(df$地区, df$满意度评价)3. 多个样本率的卡方检验在R语言中,我们可以使用chisq.test()函数进行多个样本率的卡方检验。

该函数接受一个列联表作为输入,并返回卡方检验的结果。

代码如下:# 进行多个样本率的卡方检验result <- chisq.test(table_df)运行以上代码后,我们可以通过打印result来查看卡方检验的结果,包括卡方统计量、自由度、p值等信息。

# 打印卡方检验结果print(result)4. 结果解读卡方检验的结果包含了卡方统计量、自由度和p值。

其中,卡方统计量用于衡量观察到的频数与期望频数之间的差异,自由度表示自由变动的频数的个数。

p值是卡方检验的重要输出,用于判断样本率之间是否存在显著差异。

“生物统计学”课程作业(R语言)及参考答案

“生物统计学”课程作业(R语言)及参考答案

“生物统计学”课程作业(R语言)第一次作业:请各位同学用如下格式提交作业:题目一:题目:2006年四川省5个县奶牛的增长率(与2005年相比)如下,绘制成长条图。

双流县名山县宣汉县青川县泸定县增长率(%)22.6 13.8 18.2 31.3 9.5解:代码:x<-c (22. 6,13.8,18. 2, 31.3, 9. 5)barplot (x, col=rainbow(5), y Iab=‘增长率%' , xIab二’县名'.main='2005^2006四川省5个县奶牛的增长率Lnames.arg=c(双流县‘名山县‘宣汉县‘青川县‘,’泸定县’))2005~2006四川省5个县奶牛的增长率图片:题目二:题目:广9周龄大型肉鸭杂交组合GW 和GY 的料肉比如下表所示,绘制成线图。

周龄1 2 3 4 5 6 7 89 GW 1.42 1.56 1.66 1.84 2.13 2.48 2.83 3.113.48 GY 1.47 1.71 1.80 1.97 2.31 2.91 3.02 3.293.57 解: 代码:x<-1 :9y<-c (1.42, 1.56,1.66,1.84, 2. 13, 2. 48, 2. 83, 3. 11,3. 48) plot (y~x, type=" I", coI="red", y lab =,料肉比,,xIab='周龄 ',ma i n 二T9周龄大型肉鸭杂交组合GW 和GY 的料肉比,)z<-c (1.47,1.71,1.80,1.97, 2. 31,2.91,3. 02, 3. 29, 3. 57) Iines(z~x, type="I", col="blue")legend(1,3. 0, 'GW-red')legend(1,3. 25, 'GY-blue')图片:题目三:附加题set. seed (学号后8位)data <- rnorm (100, 10. 5, 1.0)data 为某场猪一月龄体重记录1 .求数据data 的平均数、标准差和变异系数1~9周龄大型肉鸭杂交组合GWftlGY 的料肉比2 4 6 8平均数:10.62118标准差:1.076999变异系数:0.10140112.选择合适的统计图,展示数据data的总体分布情况作图软件:R统计图:(请将做好的统计图粘贴到此处)菜场猪一月龄体王记豪0 20 40 60 80 100100头培标号代码:(若使用R,或SAS,请将代码粘贴到此处,若使用的软件不需代码则可忽略此部分)set.seed(20020125)data<-rnorm(100,10.5,1.0)dataplot(data,type="p'',ylab=,^<',xlab='100 头猪标号[main上某场猪一月龄体重记录')结果解释:(100字以内解释该统计图中看到的结果)由统计图可知,该场猪一月龄体重主要介于8-14kg之间,但在该区间内,猪的体重数据分布较分散,相对来说数据较为集中的区域为10-这100头猪中,体重最轻的大约为8.0g, 体重最重的大约为13.3g。

r语言 样本量计算

r语言 样本量计算

r语言样本量计算样本量计算是在进行统计推断时非常重要的一步。

它用于确定在给定的置信水平下,需要收集多少个样本才能得出可靠的结果。

在R 语言中,我们可以使用一些函数来进行样本量计算,以确保我们的实验或研究具有足够的样本量。

我们需要明确我们的研究目的和假设。

样本量计算的结果取决于我们希望达到的统计效应大小、置信水平和统计功效。

例如,如果我们希望检测两组之间的平均值差异,我们需要指定我们希望检测到的最小平均值差异、所需的置信水平和统计功效。

在R语言中,我们可以使用`pwr`包中的函数来进行样本量计算。

这个包提供了许多函数,可以用于计算不同类型的实验设计的样本量。

下面是一些常用的函数和示例:1. `pwr.t.test()`函数用于计算两组均值差异的样本量。

例如,我们希望检测两组之间的平均值差异是否显著,我们可以使用以下代码来计算所需的样本量:```{r}library(pwr)pwr.t.test(d = 0.5, sig.level = 0.05, power = 0.8)```在这个例子中,我们假设两组之间的平均值差异为0.5,置信水平为0.05,统计功效为0.8。

函数将返回所需的样本量。

2. `pwr.chisq.test()`函数用于计算两个分类变量之间的卡方检验的样本量。

例如,我们希望检测两个分类变量之间的关联是否显著,我们可以使用以下代码来计算所需的样本量:```{r}library(pwr)pwr.chisq.test(w = 0.3, N = NULL, df = 1, sig.level = 0.05, power = 0.8)```在这个例子中,我们假设两个分类变量之间的关联强度为0.3,置信水平为0.05,统计功效为0.8。

函数将返回所需的样本量。

3. `pwr.anova.test()`函数用于计算方差分析的样本量。

例如,我们希望比较三个或更多组之间的均值差异是否显著,我们可以使用以下代码来计算所需的样本量:```{r}library(pwr)pwr.anova.test(k = 3, n = NULL, f = 0.25, sig.level = 0.05, power = 0.8)```在这个例子中,我们假设有三个组,均值差异的效应大小为0.25,置信水平为0.05,统计功效为0.8。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

抽样调查学号:2013104874 姓名:孙影莉班级:统计学131一、作业要求:1、利用R软件进行相关运算,给出运算结果;2、逐一给出每题的R代码及其相应的运行结果;3、作业以word文档提交,命名格式为“学号姓名作业二”。

二、作业题目:P104.3.3题:某居委会辖有三个居民新村,居委会欲对居民购买彩票的情况进行调查。

调查者考虑以新村分层,在每个新村中随机抽取了10个居民户并调查每户最近一个月购买彩票所花费的金额(元),结果列于下表:新村居民用户123456789101256101020201001030202420203510500405010202031680200303050400300问题:(1)试估计该小区居民户购买彩票的平均支出,并给估计的标准差。

(2)当置信度为95%,要求极限相对误差不超过10%时,按比例分配和按内曼分配时样本量及各层的样本量分别为多少?解答:(1)首先计算出每层的简单估计量:ybar1、ybar2、ybar3=分别为,其中,N1、N2、N3分别为:,N=。

然后求出每层的层权w1、w2、w3分别为:利用分层随机抽样得到该小区居民购买彩票的平均支出的估计量ybar=购买彩票的每层的平均支出样本方差sh1^2、sh2^2、sh3^2为:然后fh1 、fh2、fh3分别得:(Nh*yh)1、(Nh*yh) 2、(Nh*yh) 分别是:总和为:根据以上数据整理成表格为:h nh Nh fh wh yh Nhyh sh21102560.03910.303311.22867.294.4 2104200.02380.497625.510710302.5 3101680.05950.1991203360355.6总计30844116937.2然后求得方差的估计值为vybar=则估计的标准差为sybar=(2)a、比例估计:总体n= ,n1、n2、n3分别为:n、n1、n2、n3分别约等于: 185、56、92、37b 、内曼估计:总体n= ,n1、n2、n3分别为:n、n1、n2、n3分别约等于: 175、33、98、42代码如下:setwd('C:\\Users\\user\\Desktop\\新建文件夹')dat <- read.csv('syl3.3.csv',header=F)View(dat)alpha <- 0.05nh <- 10Nh <- dat[,2]N<-sum(Nh)Wh<-Nh/Nw<-sum(Wh)#检验Wh是否正确fh<-nh/Nhyh<- 1:nrow(dat) # rep(0,nrow(dat))sh2<-1:nrow(dat)yh<- rowSums(dat[,3:12])/nhYh<- Nh*yhY<-crossprod(Nh,yh)ybar<-sum(Wh*yh)var_ybar<-sum(Wh^2*(1-fh)/nh*sh2)sybar<-sqrt(var_ybar)for(i in 1:nrow(dat)){yh[i]<- mean(as.numeric(dat[i,3:12]))sh2[i]<- sd(dat[i,3:12])^2}# 比例分配r<-0.1a<-sum(Wh*sh2)b<-(0.1*ybar/qnorm(1-alpha/2))^2n<-a/(b+a/N) #总数n1<- n*Wh #各分层样本数# 内曼估计a1 <-sum(Wh*sqrt(sh2))n2 <-a1^2/(b+a/N) #总数n22 <-n2*Wh*sqrt(sh2)/a1 #各分层样本数P104.3.4题:随着经济发展,某市民正在悄悄的改变他们的过年习惯,虽然仍有大多数选择除夕夜在家吃年夜饭、看电视节目,但也有一些家庭到饭店吃年夜饭或逛夜市,或利用春节假期到处旅游。

为研究这种现象,某研究机构以市中心165万居民户作为研究对象,将居民户按6个行政区分层,在每个行政区随机抽取30户居民户进行了调查(各层抽样比可以忽略),每个行政区的情况以及在家(或亲戚家)吃年夜饭、看电视节目的居民数见下表:行政区h居民户比例Wh在家居民户nk10.182720.212830.142740.092650.162860.2229问题:(1)试估计该市区居民在家吃年夜饭的比例,并给出估计的标准差。

(2)当置信度为95%,要求极限绝对误差不超过1%时,按比例分配和内曼分配时总样本量及各层的样本量分别为多少?解答:(1):首先计算得到每层在家中吃年夜饭的样本比例分别为:那么根据每一层的层权,计算得到该市民在家吃年夜饭的样本比例为:Pst=每一层在家吃年夜饭的样本比例的方差为:V(Pn)=样本比例方差的估计值为:V(Pst)=该估计值的标准差为:s(Pst)=所以估计量的标准差为1.99%,比例为9.24%(2)、a、比例分配的条件下:n=约等于2659所以n1、n2、n3、n4、n5、n6分别为:n1= 479、n2=559、n=373、n4=240、n5=426、n6=586由于n1+n2+n3+n4+n5+n6=n所以n=2663.b、内曼分配n2=约等于2561所以n1、n2、n3、n4、n5、n6分别为:n1= 536、n2=520、n=417、n4=304、n5=396、n6=392由于n1+n2+n3+n4+n5+n6=n所以n=2565.程序代码如下:setwd('C:\\Users\\user\\Desktop\\新建文件夹')dat <- read.csv('syl3.4.csv',header=F)View(dat)N<-165*10^4 #样本总量n1<-30 #样本量wh<-dat[,2]nh<-dat[,3]p<-nh/n1 #每层样本比例pst<-sum(wh*p)#样本比例var_pst<-sum((wh^2-n1/(N*wh))*(p*(1-p)/(n1-1)))spst<-sqrt(var_pst)#(1)比率分配r<-0.01s<-p*(1-p)a<-sum(wh*s)b<-(r/qnorm(1-0.025))^2n<-a/(b+a/N) #总数n1<-n*wh #各分层样本数#(2)内曼分配a1 <-sum(wh*sqrt(s))n2 <-a1^2/(b+a/N) #总数n22 <-n2*wh*sqrt(s)/a1 #各分层样本数P104.3.5题:某开发区利用电话调查(RDD)对区内居民消费冷冻食品情况进行调查。

他们将电话号码(六位数字)的前两位作为一部分,后四位作为一部分,前两位代表局号,局号及每个局号中拥有的电话数可以找到,安局分层,按每个局号(剔除商户后)拥有的电话数比例分配样本量(分层抽样比可以忽略)。

调查后各层样本户购买冷冻食品支出的中间结果见下表:局号层权(%)样本量样本平均(元)样本标准差18.216891052 6.5135674313.7271021864 5.6117697511.82497106611.6237989717348311289.820527398.8183644107145265问题:试估计该开发区居民购买冷冻食品的平均支出,以及估计的95%置信区间。

解:先求出购买冷冻食品的平均支出为:在计算平均支出的方差估计值为:V(ybar)=95%的置信区间为:以下为代码:setwd('C:\\Users\\user\\Desktop\\新建文件夹')dat <- read.csv('syl3.5.csv',header=F)View<-(dat)alpha <- 0.05wh<-dat[,2]nh<-dat[,3]ay<-dat[,4]sc<-dat[,5]Nh<-(nh/wh)*100ybar<-sum((ay*wh)/100)ybar<-sum((wh/100)* ay)var_ybar<-sum((wh/100)^2* (sc^2/nh))Y_interval<- ybar + c(-1,1)*qnorm(1-alpha/2)*sqrt(var_ybar)P105.3.9题:下列数据是N=6,两层单元数相同的人为总体。

第一层第二层x1i y1i x2i y2i3086531591062515对n1=n2=2的一个分层随机样本:问题:(1)列出所有可能的样本;(2)分别用比估计和联合比估计来估计Ybar,计算估计的偏差及MSE; (3)对上述结果进行比较分析。

解答:(1)所有可能的样本的数量为3*3=9,所有的样本如下:{(3,0),(5,3),(8,6),(15,9)};{(3,0),(5,3),(8,6),(25,15)};{(3,0),(5,3),(25,15),(15,9)}; {(3,0),(10,6),(8,6),(15,9)};{(3,0),(10,6),(8,6),(25,15)};{(3,0),(5,3),(15,9),(25,15)}; {(10,6),(5,3),(8,6),(15,9)}; {(10,6),(5,3),(8,6),(25,15)};{(10,6),(5,3),(25,15),(15,9)}; (2)比估计的估计ybar为6.5;计算估计的方差为0.1048177,MSE为3.773437联合比估计的估计ybar为6.5;计算估计的方差为0.06370523,MSE为2.293388。

(3)答:从分别比估计和联合比估计的偏差和均方误差可以看出,联合比估计的MSE(2.3)<比估计的MSE(3.78),且联合比估计的均方误差0.06<比估计的均方误差0.1,所以说联合比估计要比分别估计好。

各层的比率和总体的比率相差基本差不多,从整个样本出发进行的联合比估计比基于每层的分别比估计更好一些,偏差更小,均方误差也更小。

以下为本体所有代码:setwd('C:\\Users\\user\\Desktop\\新建文件夹')dat <- read.csv('syl3.9.csv',header=F)N<-6N1<-3n1 <-2N2 <-3n2 <-2nh <- c(n1,n2)Nh <- c(N1,N2)X1<-sum(dat[,1])X2<-sum(dat[,3])yh <- c(mean(dat[,2]),mean(dat[,4],na.rm=T))xh <- c(mean(dat[,1]),mean(dat[,3],na.rm=T))wh <- c(N1,N2)/sum(N1+N2)fh <- c(n1/N1,n2/N2)nh <- c(n1,n2)sy2 <- 1:2sx2 <- 1:2sxy <- 1:2sy2[1] <- sd(dat[,2])^2sy2[2] <- sd(dat[,4])^2sx2[1] <- sd(dat[,1])^2sx2[2] <- sd(dat[,3])^2sxy[1] <- cov(dat[,1],dat[,2])sxy[2] <- cov(dat[,3],dat[,4])#比估计rh<- yh/xhyrs<-sum(wh*Rh*xh)temp1 <- wh^2*(1-fh)/nhtemp2 <- sy2 + rh^2*sx2-2*rh*sxy vy<-sum(temp1*temp2)temp3 <- Nh^2*(1-fh)/nhMSEb<-sum(temp3*temp2)#联合比估计yst<-sum(wh*yh)xst<-sum(wh*xh)Rc<-yst/xstxbar<-(X1+X2)/Nybar<-Rc*xbartemp1 <- wh^2*(1-fh)/nhtemp2 <- sy2 +Rc^2*sx2-2*Rc*sxy vy<-sum(temp1*temp2)temp3 <-Nh^2*(1-fh)/nhMSEh<-sum(temp3*temp2)。

相关文档
最新文档