正态分布、线性回归(1)

合集下载

线性回归分析的基本原理

线性回归分析的基本原理

线性回归分析的基本原理线性回归分析是一种常用的统计分析方法,用于研究两个变量之间的线性关系。

它通过拟合一条直线来描述两个变量之间的关系,并利用这条直线进行预测和推断。

本文将介绍线性回归分析的基本原理,包括模型假设、参数估计、模型评估等内容。

一、模型假设线性回归分析的基本假设是:自变量和因变量之间存在线性关系,并且误差项服从正态分布。

具体来说,线性回归模型可以表示为:Y = β0 + β1X + ε其中,Y表示因变量,X表示自变量,β0和β1表示模型的参数,ε表示误差项。

线性回归模型假设误差项ε服从均值为0、方差为σ^2的正态分布。

二、参数估计线性回归模型的参数估计通常使用最小二乘法。

最小二乘法的基本思想是通过最小化观测值与模型预测值之间的差异来估计模型的参数。

具体来说,最小二乘法的目标是最小化残差平方和:min Σ(Yi - (β0 + β1Xi))^2通过对残差平方和进行求导,可以得到参数的估计值:β1 = Σ(Xi - X̄)(Yi - Ȳ) / Σ(Xi - X̄)^2β0 = Ȳ - β1X̄其中,Xi和Yi分别表示观测值的自变量和因变量,X̄和Ȳ分别表示自变量和因变量的均值。

三、模型评估线性回归模型的拟合程度可以通过多个指标进行评估,包括决定系数(R^2)、标准误差(SE)和F统计量等。

决定系数是用来衡量模型解释变量变异性的比例,其取值范围为0到1。

决定系数越接近1,说明模型对观测值的解释能力越强。

标准误差是用来衡量模型预测值与观测值之间的平均误差。

标准误差越小,说明模型的预测精度越高。

F统计量是用来检验模型的显著性。

F统计量的计算公式为:F = (SSR / k) / (SSE / (n - k - 1))其中,SSR表示回归平方和,SSE表示残差平方和,k表示模型的自由度,n表示观测值的个数。

F统计量的值越大,说明模型的显著性越高。

四、模型应用线性回归分析可以用于预测和推断。

通过拟合一条直线,可以根据自变量的取值来预测因变量的值。

正态分布与线性回归

正态分布与线性回归
独立重复试验时事件 A 第一次发生,且 P(ξ=k)=_q_k_-_1_p_(其中 P 是在
一次试题中事件 A 发生的概率;p+q=1,k=1,2,3,…),则称 ξ 服从 几何分布,记作 g(k,p)=qk-1p.
第74讲 │ 要点探究
要点探究
► 探究点1 离散型随机变量的分布列及其应用
例 1 已知某离散型随机变量 ξ 的分布列如下:
A=A1 B 1+ A 1B1+A1B1+A2B2,故所求的概率为
P(A)=P(A1 B 1)+P( A 1B1)+P(A1B1)+P(A2B2)
第74讲 │ 要点探究
=P(A1)P( B 1)+P( A 1)P(B1)+P(A1)P(B1)+P(A2)P(B2) =0.1×0.9+0.9×0.1+0.1×0.1+0.3×0.3=0.28.
[点评] (1)二项分布是一类重要的分布,要熟练掌握.在写分布列时, 首先要判断随机变量是否满足二项分布的条件.(2)在进行概率计算时, 要注意排列、组合等知识在等可能事件中的应用,要注意互斥事件、相 互独立事件、独立重复试验的概率的应用.
第74讲 │ 要点探究
某厂生产电子元件,其产品的次品率为 5%,现从 一批产品中任意连续取出 2 件.
3.课时安排:本单元共安排了4讲及一个单元能力训练卷, 每讲建议1课时完成,单元能力训练卷建议1课时完成,大约共 需5课时.
第74讲 │ 离散型随机变量的分布列
第74讲 离散型随机变量的分布 列
第74讲 │ 编读互动
编读互动
离散型随机变量及其分布列是高考必考的一个知识点,常常作为 解答题的一问出现.本讲主要复习离散型随机变量及其分布列的计算, 复习时,要抓住离散型随机变量的概率分布的两个本质特征:pi≥0(i =1,2,…,n),p1+p2+…+pn=1,这是确定分布列中参数值的依据.求 离散型随机变量的分布列时,首先要根据具体情况确定随机变量 ξ 的 取值情况,然后利用排列、组合与概率知识求出 ξ 取各个值的概率.掌 握几个典型的分布列:几何分布、二项分布等.

平均分布,正态分布,一阶滑动和,一阶线性回归 C语言编程

平均分布,正态分布,一阶滑动和,一阶线性回归  C语言编程

#include <stdlib.h>#include <stdio.h>#include <time.h>#include <math.h>#include<string.h># define pi 3.1415926# define sqr 0.707106781//在一阶线性回归出现了参数adouble uni[2000]={0};//程序中出现大数组时,很可能导致堆栈溢出,为了避免double nor[2000]={0};//这个问题,把数组声明为全局变量,double ovlap[1000];double linreg[1000];double nor_num[10];double nor_num_theory[10]={0.0};double mean( double a[]){ int i;double ever=0.0;for(i=0;i<2000;i++)ever+=a[i]/2000.0;return ever;}double std(double a[],double mean){ int i;double stda=0.0;for(i=0;i<2000;i++)stda+=(a[i]-mean)*(a[i]-mean)/2000.0;return stda;}double integral(double a,double b){double i,num=0.0;for(i=a;i<b;i+=0.0001){num+=1/sqrt(2*pi)*exp(-i*i/2)*0.0001;}num=2000*num;return num;}//double B_rela(double a)void main( ){FILE *fp1=fopen("D:\\data1.txt","w");//用于存放平均分布的相关函数FILE *fp2=fopen("D:\\data2.txt","w");//用于存放正态分布的相关函数FILE *fp3=fopen("D:\\data3.txt","w");//用于存放一阶滑动序列的相关函数FILE *fp4=fopen("D:\\data4.txt","w");//用于存放一阶线性回归的相关函数FILE *fp=fopen("D:\\data.txt","w");int i,j,k=0,uni_num[10]={0};//检验平均分布double uni_mean,uni_std; //均匀分布double nor_mean,nor_std;//正态分布double ovlap_mean,ovlap_ju,ovlap_std;//一阶滑动序列的平均数,矩,方差double linreg_mean,linreg_ju,linreg_std;// 一阶线性回归的平均数,矩,方差double uni_B[21],nor_B[21], ovlap_B[21],linreg_B[21];//相关函数srand( (unsigned)time( NULL ) );fprintf(fp,"the following are contents of uniform distribution:\n");for( i=0;i<2011;i++ )uni[i]=rand()/32767.0 ;for(j=0;j<=9;j++){if(i<2000&&(uni[i]>=j*0.1)&&(uni[i]<(j+1)*0.1))uni_num[j]++ ;}if(i<50)fprintf( fp,"%6.4f\t", uni[i]);}fprintf(fp,"\n\n");uni_mean=mean(uni);fprintf(fp,"the average number of the uniform distribution is:%6.4f\n",uni_mean);//打印平均分布的平均数uni_std=std(uni,uni_mean);fprintf(fp,"the variance of the uniform distribution is :%6.4f\n",uni_std);//打印平均分布的方差fprintf(fp,"the following are numbers in each erea \n\n");for(j=0;j<=9;j++) fprintf(fp,"%d\t",uni_num[j]);fprintf(fp,"\n\n");fprintf(fp,"the followings are correlation function value\n\n");double sum1;int B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(uni[j+abs(B_j)]-uni_mean)*(uni[j]-uni_mean);}uni_B[i]=sum1/1000.0;fprintf(fp,"%f\n",uni_B[i]);fprintf(fp1,"%f\n",uni_B[i]);B_j++;fclose(fp1);fprintf(fp,"\n\nthe following are the contents of normal distribution:\n"); memset(nor_num,0,sizeof(nor_num));memset(nor_num,0,sizeof(nor_num));//将数组置零,避免堆栈的叠加double index1,index2;srand( (unsigned)time( NULL ) );for(i=0;i<2000;i++){do{index1=rand()/32767.0 ;index2=rand()/32767.0;}while(index1==0);nor[i]=sqrt(-2*log(index1))*cos(2*pi*index2);if(i<50){fprintf(fp,"%f\t",nor[i]);}if(nor[i]>=-2.0 && nor[i]<-1.6) nor_num[0]++;if(nor[i]>=-1.6 && nor[i]<-1.2) nor_num[1]++;if(nor[i]>=-1.2 && nor[i]<-0.8) nor_num[2]++;if(nor[i]>=-0.8 && nor[i]<-0.4) nor_num[3]++;if(nor[i]>=-0.4 && nor[i]<0.0) nor_num[4]++;if(nor[i]>=0.0 && nor[i]<0.4) nor_num[5]++;if(nor[i]>=0.4 && nor[i]<0.8) nor_num[6]++;if(nor[i]>=0.8 && nor[i]<1.2) nor_num[7]++;if(nor[i]>=1.2 && nor[i]<1.6) nor_num[8]++;if(nor[i]>=1.6 && nor[i]<2.0) nor_num[9]++;}nor_mean=mean(nor);fprintf(fp,"the average number of normal distribution is:%6.4f\n",nor_mean); //正态分布的平均数nor_std=std(nor,nor_mean);fprintf(fp,"the variance of normal distribution is %6.4f\n",nor_std);//正态分布的方差fprintf(fp," the following outputs showed numbers of random number in determined zone\n"); fprintf(fp,"the former number is calculated in theory,the latter one is actual quantity\n");fprintf(fp," theoretical\t\t\tactual\n");for(i=-5;i<5;i++){nor_num_theory[i+5]=integral(0.4*i,0.4*i+0.4);fprintf(fp,"%f\t\t\t",nor_num_theory[i+5]);fprintf(fp,"%f\n",nor_num[i+5]);}//在求相关函数的过程中,会用到中间量fprintf(fp,"\n\n\n");fprintf(fp,"the followings are values of correlation functions\n\n ");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(nor[j+abs(B_j)]-nor_mean)*(nor[j]-nor_mean);}nor_B[i]=sum1/1000.0;fprintf(fp,"%f\n",nor_B[i]);fprintf(fp2,"%f\n",nor_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp2);// 以下部分为关于一阶滑动和序列的内容fprintf(fp,"the follwings are contents of overlap \n\n\n");memset(ovlap,0,sizeof(ovlap));ovlap_mean=0;ovlap_ju=0;ovlap_std=0;double ov_sum2=0.0,ov_sum3=0.0;for(i=0;i<1100;i++){ovlap[i]=nor[i+1]+4*nor[i];if(i<50)fprintf(fp,"%f\t",ovlap[i]);ov_sum2+=ovlap[i]; //ov_sum3+=ovlap[i]*ovlap[i];}ovlap_mean=ov_sum2/1000.0;//求平均数ovlap_ju=ov_sum3/1000.0;//求二阶距ovlap_std=ovlap_ju-ovlap_mean*ovlap_mean;//求方差fprintf(fp,"\n\naverage:%f\nju:%f\nstandard:%f\n",ovlap_mean,ovlap_ju,ovlap_std); fprintf(fp,"\n\n\n");/////123fprintf(fp,"the following are correlation function value\n\n");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(ovlap[j+abs(B_j)]-ovlap_mean)*(ovlap[j]-ovlap_mean);}ovlap_B[i]=sum1/1000.0;fprintf(fp,"%f\n",ovlap_B[i]);fprintf(fp3,"%f\n",ovlap_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp3);//一下为关于一阶线性回归的内容memset(linreg,0,sizeof(linreg));fprintf(fp,"the following are contents about linear regression\n\n ");linreg_mean=0;linreg_ju=0;linreg_std=0;linreg[0]=0.5;//get the value of each memberdouble li_sum1,li_sum2;li_sum1=0;li_sum2=0;for(i=1;i<=1000;i++){linreg[i]=nor[i]-sqr*linreg[i-1];if(i<50){fprintf(fp,"%f\t",linreg[i]);}if(i>100){li_sum1+=linreg[i];li_sum2+=pow(linreg[i],2);}}linreg_mean=li_sum1/900; //求平均数linreg_ju=li_sum2/900; //求二阶原点矩linreg_std=linreg_ju-pow(linreg_mean,2); //求方差fprintf(fp,"\n\naverage:%f\nju:%f\nstandard:%f\n\n",linreg_mean,linreg_ju,linreg_std);fprintf(fp,"the following are correlation function value\n\n");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=100;j<1000-abs(B_j);j++){sum1+=(linreg[j+abs(B_j)]-linreg_mean)*(linreg[j]-linreg_mean);}linreg_B[i]=sum1/900;fprintf(fp,"%f\n",linreg_B[i]);fprintf(fp4,"%f\n",ovlap_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp4);fclose(fp);getchar();}以下为程序生成的数据:the following are contents of uniform distribution:0.0949 0.2003 0.1722 0.7819 0.7060 0.1859 0.9555 0.6196 0.4057 0.12170.0213 0.8671 0.1353 0.0969 0.8642 0.2540 0.5656 0.0188 0.50070.0146 0.6431 0.6016 0.6290 0.0331 0.2777 0.9265 0.0720 0.14010.5796 0.3563 0.1599 0.5901 0.5519 0.0843 0.2079 0.2519 0.64290.0991 0.7468 0.5435 0.0682 0.8469 0.6612 0.6420 0.3045 0.37220.8919 0.0005 0.6651 0.2186the average number of the uniform distribution is:0.5050the variance of the uniform distribution is :0.0851the following are numbers in each erea206 189 214 182 184 209 199 200 211 206the followings are correlation function value0.0030370.0000780.0015480.0030860.0008270.0012770.001035-0.001017-0.003483-0.0065300.087185-0.006530-0.003483-0.0010170.0010350.0012770.0008270.0030860.0015480.0000780.003037the following are the contents of normal distribution:0.667303 0.372894 0.326978 -0.220477 0.969196 1.862360 1.640884 -0.0137021.060122 1.171379 -0.754567 0.942319 1.433209 1.461014 -0.646995 -1.6161470.940878 -0.021497 0.763536 -0.735703 1.325226 -0.570759 -1.0710600.478394 0.177006 -0.160915 0.977499 -0.633792 0.310996 -0.881002-0.847941 -0.221102 -1.514981 0.270405 -0.919251 0.421879 -1.2492052.062010 -0.070496 0.538043 2.382505 0.088082 -0.374721 -1.116906-2.267095 1.570966 -0.136206 -0.417198 0.960820 0.078101 the average number of normal distribution is:-0.0052the variance of normal distribution is 1.0091the following outputs showed numbers of random number in determined zonethe former number is calculated in theory,the latter one is actual quantitytheoretical actual64.114811 71.000000120.571269 132.000000193.619846 202.000000265.511518 269.000000310.920207 317.000000310.920207 298.000000265.511518 237.000000193.619846 196.000000120.571269 120.00000064.114811 81.000000the followings are values of correlation functions0.005019-0.000179-0.0239050.022543-0.0009890.024601-0.0068160.028706-0.0051880.0249710.9695730.024971-0.0051880.0287060.024601-0.0009890.022543-0.023905-0.0001790.005019the follwings are contents of overlap3.042107 1.818552 1.087433 0.087288 5.739144 9.090323 6.5498351.005315 5.411866 3.930947 -2.075949 5.202484 7. 193850 5.197061-4.204127 -5.523712 3.742015 0.677548 2.318441 -1.617586 4.730147 -3.354095 -3.805846 2.090581 0.547111 0.333840 3.276205 -2.2241700.362982 -4.371949 -3.612864 -2.399387 -5.789518 0.162370 - 3.2551270.438311 -2.934810 8.177543 0.256058 4.534676 9.618101 -0.022393-2.615791 -6.734720 -7.497414 6.147657 -0.962023 -0.7079743.921381 0.589083average:0.111364ju:18.264297standard:18.251895the following are correlation function value0.105750-0.109536-0.3461690.2506860.1354860.3537250.0650560.4082470.0942794.24996516.6526394.2499650.0942790.4082470.0650560.1354860.250686-0.346169-0.1095360.105750the following are contents about linear regression0.019340 0.313302 -0.442015 1.281748 0.956027 0.964871 -0.695969 1.5522460.073775 -0.806734 1.512766 0.363522 1.203965 -1.498327 -0.5566711.334504 -0.965134 1.445989 -1.7581712.568441 -2.386921 0.6167480.042287 0.147105 -0.264934 1.164835 -1.457455 1.341572 -1.8296370.445808 -0.536335 -1.135735 1.073491 -1.678324 1.608633 -2.3866803.749648 -2.721897 2.462715 0.641102 -0.365246 -0.116453 -1.034561-1.535550 2.656763 -2.014821 1.007495 0.248413 -0.097553average:0.018926ju:1.770050standard:1.769692the following are correlation function value0.018228-0.000412-0.007155-0.0265130.100574-0.1809430.310911-0.5030500.804904-1.2063651.777504-1.2063650.804904-0.5030500.310911-0.1809430.100574-0.026513-0.007155-0.000412平均分布图:正态数列分布图:相关函数图:。

线性回归分析

线性回归分析

线性回归分析线性回归是一种用来建立和预测变量间线性关系的统计分析方法。

它可以帮助我们了解变量之间的相互影响和趋势,并将这些关系用一条直线来表示。

线性回归分析常被应用于经济学、社会科学、自然科学和工程等领域。

一、概述线性回归分析是一个广泛使用的统计工具,用于建立变量间的线性关系模型。

该模型假设自变量(独立变量)与因变量(依赖变量)之间存在线性关系,并通过最小化观测值与模型预测值之间的误差来确定模型的参数。

二、基本原理线性回归分析基于最小二乘法,通过最小化观测值与模型预测值之间的残差平方和来确定模型的参数。

具体来说,线性回归模型可以表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε,其中Y是因变量,X1到Xn是自变量,β0到βn是回归系数,ε是误差项。

回归系数表示自变量对因变量的影响程度。

三、应用步骤进行线性回归分析时,通常需要以下几个步骤:1. 收集数据:获取自变量和因变量的样本数据。

2. 建立模型:根据数据建立线性回归模型。

3. 评估模型的准确性:通过计算残差、决定系数等指标来评估模型的准确性。

4. 进行预测和推断:利用模型对未知数据进行预测和推断。

四、模型评价指标在线性回归分析中,有几个常用的指标用于评价模型的准确性:1. R平方值:R平方值表示因变量的变异性能够被模型解释的比例,数值范围为0到1。

R平方值越接近1,表示模型对数据的拟合程度越好。

2. 残差分析:进行残差分析可以帮助我们判断模型是否符合线性回归的基本假设。

一般来说,残差应该满足正态分布、独立性和等方差性的假设。

五、优缺点线性回归分析有以下几个优点:1. 简单易懂:线性回归模型的建立和解释相对较为简单,无需复杂的数学知识。

2. 实用性强:线性回归模型适用于很多实际问题,可以解决很多预测和推断的需求。

然而,线性回归分析也存在以下几个缺点:1. 假设限制:线性回归模型对于变量间关系的假设比较严格,不适用于非线性关系的建模。

正态分布-线性回归

正态分布-线性回归

正态分布、线性回归一、 知识梳理1.正态分布的重要性正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。

一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。

2.正态曲线及其性质正态分布函数:22()2()x f x μσ--=,x ∈(-∞,+∞)3.标准正态曲线标准正态曲线N (0,1)是一种特殊的正态分布曲线,00()1()x x Φ-=-Φ,以及标准正态总体在任一区间(a ,b)内取值概率)()(a b P Φ-Φ=。

4.一般正态分布与标准正态分布的转化由于一般的正态总体),(2σμN 其图像不一定关于y 轴对称,对于任一正态总体),(2σμN ,其取值小于x 的概率)()(σμ-Φ=x x F 。

只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。

5.“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。

这种认识便是进行推断的出发点。

关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。

进行假设检验一般分三步:第一步,提出统计假设。

课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2σμN ; 第二步,确定一次试验中的取值a 是否落入范围(μ-3σ,μ+3σ); 第三步,作出推断。

如果a ∈(μ-3σ,μ+3σ),接受统计假设;如果)3,3(σμσμ+-∉a ,由于这是小概率事件,就拒绝统计假设。

6.相关关系研究两个变量间的相关关系是学习本节的目的。

高考数学理一轮复习 X1-4正态分布、线性回归精品课件

高考数学理一轮复习 X1-4正态分布、线性回归精品课件

备选例题1 设随机变量ξ服从正态分布:ξ~ N(1,4),试求:
(1)P(0<ξ≤2); (2)求常数C,使P(ξ≤C)=32·P(ξ>C).
参考数据:Φ(0)=0.5,Φ(1)=0.8413,Φ(2) =0.9772,Φ(0.5)=0.6915,Φ(1.88)= 0.9697,Φ(3)=0.9987.
2.小概率事件是指事件发生的概率很小的事, 通常认为这些情况在一次试验中几乎是不可 能发生的.
3.统计中假设检验的基本思想:根据小概率 事件在一次试验中几乎不可能发生的原理和 从总体中抽测的个体的数值,对事先所作的 统计假设作出判断,是拒绝假设,还是接受 假设.
4.利用线性回归方程,可由一个变量的值预 测或控制另一个变量的值.借助计算器,特 别是含统计的计算器,能简化手工的计算, 迅速得出正确结果.
(函数Φ(x0)实际上是正态总体N(0,1)的累积分
布函数),即Φ(x0)=

(5)两个重要公式:ⅰ.Φ(-x)=1Φ(x)


Φ(a)
ⅱ.P(a<ξ<b)=Φ(b)-
. 小于
(6)对于任一正态分布总体N(μ,σ2)来说,取
值 x的概率为F(x)=Φ(
).
(7)假设检验的基本思想
ⅰ.提出统计假设,如假设随机变量服从正态 分布等;
5.“回归”和“相关”含义是不同的:如果 两个变量中的一个变量是人为可以控制、非 随机的,另一变量的变化是随机的且随着控 制变量的变化而变化,则这两变量间的关系 就称为回归关系;若两个变量都是随机的, 则称它们之间的关系为相关关系,在本教材 中,两者不加区别.
方法规律·归纳
题型 一
正态分布的基本运算
思维 提示
①P(x<x0)=Φ(x0); ②Φ(x0)=1-Φ(-x0);

第4章:经典正态线性回归模型

第4章:经典正态线性回归模型

上述似然函数中,含待估参数,分别对待估参数求偏导并令其为0, 即可求出参数估计。 ln LF (1/ 2 ) (Y 1 2 X i )(1) 0 ˆ 1 ln LF (1/ 2 ) (Y 1 2 X i )( X i ) 0 ˆ 2 ln LF 2 2 4 (n / 2 ) (1/ 2 ) (Y 1 2 X i ) 0 2 ˆ 联立求解上述方程组, 有 ˆ ( X i X )(Yi Y ) , Y X (与OLS 估计量相同) ˆ ˆ 2 1 2 2 (Xi X ) ˆ LS ˆ ( 2 ui2 / (n 2)
暨南大学经济学院统计系 陈文静 12
4.3 在正态性假定下OLS估计量的性质
ˆ 1、无偏性:E ( ) 2、有效性:最小方差 3、 一致性:随着样本容量无限增大,估计量将收敛于其真值。 ˆ lim P i i 1
n


ˆ 0 或 p lim i i
暨南大学经济学院统计系
陈文静
23
4.4
最大似然估计(ML估计)
方法:将每一个Yi的分布函数相乘,取对数再取偏导并令其为0. 由于假定了ui为独立同(正态)分布, 那么Yi也为独立同(正态)分布, 其均值为1 2 X i 方差为 2 , 密度函数为: 1 (Yi 1 2 X i ) 2 1 f (Yi ) exp 2 2 2 而联合密度函数(由于独立性)为每一个Yi的密度函数相乘, 即有极大 似然函数为: LF f (Y1 ,...Yn 1 2 X i , 2 ) f (Y1 1 2 X i , 2 ) f (Yn 1 2 X i , 2 ) 1 (Yi 1 2 X i ) 2 1 n exp 2 n ( 2 ) 2 对 LF 取对数,有: n 1 (Y 1 2 X i ) 2 ln LF n ln ln(2 ) 2 2 2 n n 1 (Y 1 2 X i ) 2 2 ln ln(2 ) 2 2 2 2

第十一章(理) 第四节 正态分布、线性回归

第十一章(理)  第四节  正态分布、线性回归

第十一章(理) 第四节 正态分布、线性回归1.111222则有 ( )A .μ1<μ2,σ1<σ2B .μ1<μ2,σ1>σ2C .μ1>μ2,σ1<σ2D .μ1>μ2,σ1>σ2解析:μ反映正态分布的平均水平,x =μ是正态曲线的对称轴,由图知μ1<μ2,σ 反映正态分布的离散程度,σ越大,曲线越“矮胖”,表明越分散,σ越小,曲线越 “高瘦”,表明越集中,由图知σ1<σ2. 答案:A2.已知随机变量ξ服从正态分布N (3,σ2),则P (ξ<3)= ( ) A.15 B.14C.13D.12解析:根据正态分布的知识可知此正态分布图象的对称轴为x =3,而P (ξ<3)表示对 称轴左边图象的面积,对称轴左右两边图象面积相等,整个图象的面积为1. 答案:D3.设随机变量ξ服从正态分布N (2,9),若P (ξ>c +1)=P (ξ<c -1),则c = ( ) A .1 B .2 C .3 D .4解析:由题意得随机变量ξ相应的正态密度曲线关于直线x =2对称,又P (ξ>c +1) =P (ξ<c -1),因此(c +1)+(c -1)2=2,c =2.答案:B4.设随机变量ξ服从标准正态分布N (0,1),已知Φ(-1.96)=0.025,则P (|ξ|<1.96)=( ) A .0.025 B .0.050 C .0.950 D .0.975 解析:P (|ξ|<1.96)=Φ(1.96)-Φ(-1.96) =1-2Φ(-1.96)=0.950. 答案:C5.已知随机变量ξ服从正态分布N (2,σ2),P (ξ≤4)=0.84,则P (ξ≤0)= ( ) A .0.16 B .0.32C .0.68D .0.84解析:根据正态分布曲线的对称性,得P (ξ≤0)=1-P (ξ≤4)=1-0.84=0.16. 答案:A6.对有线性相关关系的两个变量建立的回归直线方程y =a +bx 中,回归系数b ( ) A .可以小于0 B .大于0 C .能等于0 D .只能小于0解析:因为b =0时,r =0,这时不具有线性相关关系,但b 能大于0也能小于0. 答案:A7.以下是两个变量x 和y 的一组数据:则这两个变量间的回归直线方程为 ( ) A.y ^=x 2 B.y ^=x C.y ^=9x -15 D.y ^=15x -9 解析:根据数据可得x =4.5,y =25.5, ∑i =1n x 2i =204,∑i =1nx i y i =1 296.b =1221niii nii x ynx y xnx ==--∑∑=1 296-8×4.5×25.5204-8×4.52=9,a =y -b x =25.5-9×4.5=-15. ∴y ^=9x -15. 答案:C8.已知回归直线方程y ^=4.4x +838.19,则可估计x 与y 的增长速度之比约为________. 解析:x 与y 的增长速度之比即为回归直线方程的斜率的倒数14.4=1044=522.答案:5229.某肉食鸡养殖小区某种病的发病鸡只数呈上升趋势,统计近4个月这种病的新发病鸡只数的线性回归分析如下表所示:该养殖小区这种病的新发病鸡总只数约为________.解析:由上表可得:y ^=94.7x +1 924.7,当x 分别取9,10,11,12时,得估计值分别 为:2 777,2 871.7,2 966.4,3 061.1,则总只数约为2 777+2 871.7+2 966.4+3 061.1≈11 676. 答案:11 67610.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的 生产能耗y (吨标准煤)的几组对照数据:(1)请根据上表提供的数据,求出y 关于x 的回归直线方程y ^=bx +a ;(2)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(1)求出的回归 直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解:(1)∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,x —=3+4+5+64=4.5, y —=2.5+3+4+4.54=3.5,∑i =14x 2i =32+42+52+62=86,b =66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a =y —-b x —=3.5-0.7×4.5=0.35. 故回归直线方程为y ^=0.7x +0.35.(2)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,故耗能减少了90-70.35=19.65(吨).。

线性回归

线性回归

假设4:解释变量X 假设4:解释变量X是非随机的,即在重复抽样下,X的 取值是确定不变的。 假设5 假设5:随机误差项与解释变量之间不相关, ( Xi ,εi ) = 0 Cov 假设6:随机误差项服从均值为0 假设6:随机误差项服从均值为0,方差为σ 2 的正态分布, 即 ε i ~ N 0, σ 2
第五步,模型的运用。
主要用于预测。
2.2.3 参数的普通最小二乘估计
最小二乘法(OLS)的基本思想 最小二乘法(OLS)的基本思想 在来自于总体的n 在来自于总体的n个观测点中,找到一条直线使得这些
ˆ 点到这条直线的垂直距离的平方和∑( yi − yi ) = ∑( )= ˆ β ˆ 最小。即在给定样本观测值下,选择出β0、ˆ1 能使 Yi 与Yi
2.1.3 相关分析与回归分析
散点图是描述变量之间关系的一种直观的方法,从中可以 直观地看出变量之间的关系形态及关系强度。下列就是不 同形态的散点图。
2.1.3 相关分析与回归分析
不同形态的散点图
2.1.3 相关分析与回归分析
不同形态的散点图
2.1.3 相关分析与回归分析
通过散点图可以判断两个变量之间有无相关关系,并对变 量之间的关系形态做出大致的描述,但散点图不能准确反 映变量之间的关系密切程度。因此,为准确地度量两个变 量之间的关系密切程度,需要计算相关系数。 相关系数是对变量之间密切程度的度量。对两个变量之间 线性相关程度的度量称为简单相关系数。若相关系数是根 据总体全部数据计算出来的,称为总体相关系数ρ ;若是 根据样本数据计算出来的,则称为样本相关系数γ。样本 相关系数的计算公式为: = ∑( x − x )( y − y ) γ
相关分析和回归分析的联系
在进行回归分析之前,一般要确定变量之间的线性关系是否密 切,这就要依赖相关分析。 变量之间的相关系数与回归分析中的拟合程度存在一定关系。

正态分布 线性回归

正态分布 线性回归

正态分布与线性回归1 已知连续型随机变量ζ的概率密度函数⎪⎩⎪⎨⎧>≤≤+<=)2(0)20(1)0(0)(x x kx x x f ,且f(x) ≥0,求常数k 的值,并计算概率P(1.5≤ξ<2.5)。

分析:凡是计算连续型随机变量ξ的密度函数f(x)中的参数、概率P(a ≤ξ≤b)都需要通过求面积来转化而求得。

若f(x) ≥0且在[a ,b]上为线性,那么P(a ≤ξ≤b)的值等于以b-a 为高,f(a)与f(b)为上、下底的直角梯形的面积,即1()[()()]()2P a b f a f b b a ξ≤≤=+-。

解: ∵1()(0)(02)(2)P P P P εξξξ=-∞<<+∞=-∞<<+≤≤+<<+∞0(02)0P ξ=+≤≤+1[(0)(2)](20)(0)(2)222f f f f k =+-=+=+∴21-=k ;∴1(1.5 2.5)(1.52)(2 2.5)(1.52)16P P P P ξξξξ≤<=≤≤+<<=≤≤=。

2 设),(~2σμN X ,且总体密度曲线的函数表达式为:412221)(+--=x x ex f π,x ∈R 。

(1)求μ,σ;(2)求)2|1(|<-x P 及)22121(+<<-x P 的值。

分析:根据表示正态曲线函数的结构特征,对照已知函数求出μ和σ。

利用一般正态总体),(2σμN 与标准正态总体N (0,1)概率间的关系,将一般正态总体划归为标准正态总体来解决。

解:(1)由于222)2(2)1(41222121)(--+--⋅==x x x eex f ππ,根据一般正态分布的函数表达形式,可知μ=1,2=σ,故X ~N (1,2)。

(2))2121()2|1(|+<<-=<-x P x P2121(12)(12)()()22(1)(1)2(1)120.84131F F 1+-1--=+--=Φ-Φ=Φ-Φ-=Φ-=⨯- 6826.0=。

高考数学复习全套课件 第十一章(理) 第四节 正态分布、线性回归

高考数学复习全套课件 第十一章(理)  第四节  正态分布、线性回归

4.若施化肥量x与小麦产量y之间的回归直线方程为 =
250+4x,当施化肥量为50 kg时,预计小麦产量为
________.
解析:把x=50代入
答案:450 kg
=250+4x可求得
=450(kg).
5.设随机变量ξ服从正态分布N(0,1),记Φ(x)=P(ξ<x),给 出下列结论: ①Φ(0)=0.5;②Φ(x)=1-Φ(-x);③P(|ξ|<2)=2Φ (2)-1. 则正确结论的序号是________.
用函数关系式来表示,D中的两个变量之间的关系是相
关关系.
答案:D
3.已知x与y之间的几组数据如下表: x y 0 1 1 3 2 5 3 7 ( )
则y与x的线性回归方程 =bx+a必过 A.点(2,2) C.点(1,2) B.点(1.5,0) D.点(1.5,4)
解析:
∴线性回归方程必过(1.5,4). 答案:D
标准正态分布
①曲线在 x轴 上方,与 x轴 不相交,以 x轴 为渐近线 ②曲线关于直线x=μ对称 ②曲线关于直线 x=0 对称 x=μ ③曲线在 时位于最 ③曲线在 x=0时位于最高点 高点 x<μ ④当 x<0 时,曲线上升, 性 ④当 时,曲线上升, x>μ x>0 当 质 当 时,曲线下降 时,曲线下降 分散 矮胖 ⑤当μ一定时,曲线的形状由σ确定 σ越大,曲线越“ 瘦高 ”,表示总体的分布越 集中 ; σ越小,曲线越“ ”,表示总体的分布越
x
4
9
16
=4;
25
=5; =112.3
36
90
=90;
于是有b= a= -b =5-1.23×4=0.08.
=1.23;

从统计学看线性回归(1)——一元线性回归

从统计学看线性回归(1)——一元线性回归

从统计学看线性回归(1)——⼀元线性回归⽬录1. ⼀元线性回归模型的数学形式2. 回归参数β0 , β1的估计3. 最⼩⼆乘估计的性质 线性性 ⽆偏性 最⼩⽅差性⼀、⼀元线性回归模型的数学形式 ⼀元线性回归是描述两个变量之间相关关系的最简单的回归模型。

⾃变量与因变量间的线性关系的数学结构通常⽤式(1)的形式:y = β0 + β1x + ε (1)其中两个变量y与x之间的关系⽤两部分描述。

⼀部分是由于x的变化引起y线性变化的部分,即β0+ β1x,另⼀部分是由其他⼀切随机因素引起的,记为ε。

该式确切的表达了变量x与y之间密切关系,但密切的程度⼜没有到x唯⼀确定y的这种特殊关系。

式(1)称为变量y对x的⼀元线性回归理论模型。

⼀般称y为被解释变量(因变量),x为解释变量(⾃变量),β0和β1是未知参数,成β0为回归常数,β1为回归系数。

ε表⽰其他随机因素的影响。

⼀般假定ε是不可观测的随机误差,它是⼀个随机变量,通常假定ε满⾜:(2)对式(1)两边求期望,得E(y) = β0 + β1x, (3)称式(3)为回归⽅程。

E(ε) = 0 可以理解为ε对 y 的总体影响期望为 0,也就是说在给定 x 下,由x确定的线性部分β0 + β1x 已经确定,现在只有ε对 y 产⽣影响,在 x = x0,ε = 0即除x以外其他⼀切因素对 y 的影响为0时,设 y = y0,经过多次采样,y 的值在 y0 上下波动(因为采样中ε不恒等于0),若 E(ε) = 0 则说明综合多次采样的结果,ε对 y 的综合影响为0,则可以很好的分析 x 对 y 的影响(因为其他⼀切因素的综合影响为0,但要保证样本量不能太少);若 E(ε) = c ≠ 0,即ε对 y 的综合影响是⼀个不为0的常数,则E(y) = β0 + β1x + E(ε),那么 E(ε) 这个常数可以直接被β0 捕获,从⽽变为公式(3);若 E(ε) = 变量,则说明ε在不同的 x 下对 y 的影响不同,那么说明存在其他变量也对 y 有显著作⽤。

线性回归分析

线性回归分析

线性回归分析线性回归是一种广泛应用于统计学和机器学习的分析方法,用于建立和预测两个变量之间的线性关系。

它可以帮助我们理解变量之间的相互作用和影响,并进行未来的预测。

本文将介绍线性回归的基本原理、模型建立过程和一些应用实例。

一、线性回归的基本原理线性回归的目标是通过一条直线(或超平面)来拟合数据点,使得预测值和实际观测值之间的误差最小。

这条直线的方程可以表示为:y=β0+β1*x+ε,其中y是因变量,x是自变量,β0和β1是回归系数,ε是误差项。

线性回归的核心假设是,自变量x和因变量y之间存在线性关系,并且误差项ε服从正态分布。

在此基础上,线性回归通过最小二乘法来估计回归系数β0和β1的值,使得预测值和实际值的误差平方和最小。

二、线性回归的模型建立过程1.数据准备:收集包含自变量和因变量的样本数据,确保数据的质量和准确性。

2.模型选择:根据自变量和因变量之间的性质和关系,选择合适的线性回归模型。

3.模型拟合:使用最小二乘法来估计回归系数β0和β1的值,计算出拟合直线的方程。

4.模型评估:通过误差分析、残差分析等方法来评估模型的拟合效果和预测能力。

5.模型应用:利用已建立的模型进行预测和推断,帮助决策和预测未来的结果。

三、线性回归的应用实例线性回归可以应用于各个领域和实际问题中,下面以几个典型的实例来说明其应用:1.经济学:通过分析自变量(如GDP、通货膨胀率)对因变量(如消费水平、投资额)的影响,可以建立GDP与消费的线性回归模型,预测未来消费水平。

2.市场营销:通过分析广告投入与销售额之间的关系,可以建立销售额与广告投入的线性回归模型,帮助制定广告投放策略。

3.医学研究:通过收集患者的生理指标(如血压、血糖水平)和疾病状况,可以建立生理指标与疾病发展程度的线性回归模型,帮助疾病诊断和治疗。

4.金融风险管理:通过分析利率、汇率等宏观经济变量与企业盈利、股价波动之间的关系,可以建立风险预警模型,帮助企业进行风险控制和决策。

高二人数学选修练习课件正态分布(1)

高二人数学选修练习课件正态分布(1)

身高、体重等生理指标评估
生理指标的正态分布
身高、体重等生理指标在人群中也呈 现出正态分布的特点。大多数人的指 标值接近平均值,极端值较少。
评估健康状况
医生可以根据身高、体重等生理指标 的正态分布情况,对患者的健康状况 进行评估。如果某个指标偏离正常值 范围过大,可能提示存在健康问题。
产品质量控制过程监控
在假设检验中,需要构造一个检验统计量,并根据显著性水平确定拒绝
域。如果检验统计量的值落入拒绝域,则拒绝原假设;否则接受原假设

方差分析(ANOVA)初步了解
方差分析概念
方差分析是一种用于比较多个总体均值是否有显著差异的 统计方法。它通过计算不同组间的方差和组内的方差来判 断各组均值是否存在显著差异。
对数正态分布
描述一个随机变量的对数服从正 态分布的情况。
幂律分布
描述大量数据中极少数极端值出现 概率较高的情况,如社交网络中的 “大V”现象。
关系
对数正态分布和幂律分布在某些情 况下具有相似的特性,如对极端值 的敏感性,但它们属于不同的概率 分布家族。
多元正态分布简介
01
02
03
多元正态分布
描述多个随机变量组成的 向量服从正态分布的情况 。
03
非参数统计方法与参数统计方法的比较
非参数统计方法和参数统计方法各有优缺点,应根据实际 情况进行选择和使用。一般来说,如果总体分布类型已知 且满足参数统计方法的假设条件,则优先使用参数统计方 法;否则可以考虑使用非参数统计方法进行推断。
谢谢您的聆听
THANKS
参数关系
均值和标准差是正态分布的两个重要参数,它们共同决定了正态曲线的形态和 位置。当均值不变时,标准差越大,曲线越扁平;当标准差不变时,均值越大 ,曲线越向右移动。

【统计分析】简单线性回归

【统计分析】简单线性回归
34 36 38 40 42 44 46 48 50 年龄
年龄与运动后最大心率的回归方程
X =41.8
Y 166.8
lXX 381.2 lYY 4477.2 lXY
1226.8
b lXY lXX
1226.8 381.2
3.218
a 166.8-(-3.218) 41.8 301.3124
Yˆ 301.3124 3.218X
2.研究目的不同:回归用来说明两变量数量上的依存 变化关系,相关说明变量间的相关关系。
小结
简单线性回归是研究两个变量间线性关系的数量表 达式。根据最小二乘法原则,计算回归方程。
进行简单线性回归分析需要满足线性、独立 、正 态 与等方差4个条件。
在简单线性回归分析中,对回归方程的检验等价于 对回归系数的假设检验,可通过方差分析或t检验 完成。
区别
1.资料要求不同:回归要求y服从正态分布,x是可以 精确测量和严格控制的变量,一般称为Ⅰ型回归; 相关要求两个变量服从双变量正态分布。这种资料 若进行回归分析称为Ⅱ回归,可计算两个方程。
I型回归:X是精确控制的; II型回归:X是随机的。 由X推算Y: Yˆ aY .X bY .X X 由Y推算X: Xˆ aX .Y bX .YY
n
(X X )2
Y 的容许区间估计 个体Y值的容许区间
给定 X 时 Y 的估计值是 Y 的均数 Y的一个估计。
给定X 时 Y 值的容许区间是 Y 值的可能范围。
Y 的100(1- )%容许限:
1 (X X )2
Y t ,n2 sY Y t ,n2 sY .X
1 n
(X X )2
小的。(最小二乘)
三、总体回归系数的假设检验

【新人教】高考数学总复习专题训练正态分布、线性回归2013

【新人教】高考数学总复习专题训练正态分布、线性回归2013

正态分布、线性回归1.已知从某批材料中任取一件时,取得的这件材料的强度ε~N (200,18),则取得的这件材料的强度不低于180的概率为( )A .0.9973B .0.8665C .0.8413D .0.81592.已知连续型随机变量x 的概率密度函数是⎪⎩⎪⎨⎧>≤≤<=b x 0b x a A a x 0)(x f 其中常数A>0,则A 的值为( )A .1B .bC .ab -1D .b-a3.某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程x y 82.136.77^-=,则以下说法中正确的是 ( ) A .产量每增加1000件,单位成本下降1.82元 B .产量每减少1000件,单位成本上升1.82元 C .产量每增加1000件,单位成本上升1.82元 D .产量每减少1000件,单位成本下降1.82元4.工人月工资(元)依劳动生产率(千元)变化的回归方程为x y 9060^+=,下列判断正确的是 ( ) A .劳动生产率为1000元时,工资为150元 B .劳动生产率提高1000元时,工资提高150元 C .劳动生产率提高1000元时,工资提高90元 D .劳动生产率为1000元时,工资为90元 5.若随机变量ε~N (5,2),且P(ε<a)=0.9,则a=_____________。

6.已知连续型随机变量x 的分布函数为:⎪⎩⎪⎨⎧≤<≤<=21 a 1x 0ax0)(x x f 其他 则a=___________,=<)23(x P _____________。

7.设随机变量ε服从N (0,1),求下列各式的值:(1)P(ε≥2.55); (2)P(ε<-1.44); (3)P(|ε|<1.52)。

8.某厂生产的圆柱形零件的外径ε~N (4,0.25)。

质检人员从该厂生产的1000件零件中随机抽查一件,测得它的外径为5.7cm 。

医学统计学-第五章线性回归(1)

医学统计学-第五章线性回归(1)

体表 体重 体表 体重 体表 体重
体表 1.000 .918 . .000 10 10
体重 .918 1.000 .000 . 10 10
分析:此表给出了体重和体表的相关系数阵和P值。
Va ri abl es En ter ed/ Re mov edb
Model 1
Variables
Entered 体 重a
Sig. .153
3.Regression过程 菜单 “Analyze” | “Regression ” | “linear ”命令
Enter 强迫进入
将“体表[y]”选入 【Dependent框】; 将“体重[x]”选入 【Independent(s) 框】中, 点击 “Statistics”按 钮
a. Lilliefors Significance Correction
可以认为体重值、血压值服从正态分布。
Sig. .573
.397
3.相关分析过程 菜单 “Analyze” | “Correlate ” | “Bivariate ”命令
【Variables框】用于选 入需要进行相关分析的 变量,至少需要选入两个。
判断X和Y是否是线性相关的。
5.1 相关分析原理 1.直线相关: (1)两个变量均服从正态分布 Pearson简单相关分析
总体相关系数:
样本相关系数:
性质:
r绝对值愈接近1,两个变量间的线性相关越密切 r绝对值越接近0,两个变量间的线性相关越不密切
相关系数的检验 原假设
则:
(× )
(2)如果不服从正态分布,则应考虑变量变换,或采用 等级相关来分析。
.823
a. Predictors: (Constant), 体重

线性回归正态分布

线性回归正态分布

每日作业线性回归一、选择题1.(2011·陕西卷)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()A.x和y的相关系数为直线l的斜率B.x和y的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同D.直线l过点(x,y)2.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r 0.820.780.690.85m 106115124103则哪位同学的试验结果体现A、B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁3.下面是一个2×2列联表y1y2总计x1 a 2173x222527总计 b 46则表中a、b处的值分别为()A.94、96 B.52、50 C.52、54 D.54、524.对分类变量X与Y的随机变量K2的观测值k,说法正确的是()A.k越大,“X与Y有关系”可信程度越小B.k越小,“X与Y有关系”可信程度越小C.k越接近于0,“X与Y无关”程度越小D.k越大,“X与Y无关”程度越大5.(2011·山东卷)某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)423 5销售额y(万元)49263954根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元6.在第29届奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居世界金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明性别对判断“中国进入体育强国之列”是否有关系时,用什么方法最有说服力()A.平均数与方差B.回归直线方程C.独立性检验D.概率二、填空题7.已知一个线性回归方程为=1.5x+45(x i∈{1,7,5,13,19}),则y=________.8.第二十届世界石油大会将于2011年12月4日-8日在卡塔尔首都多哈举行,能源问题已经成为全球关注的焦点.某工厂经过技术改造后,降低了能源消耗,经统计该厂某种产品的产量x(单位:吨)与相应的生产能耗y(单位:吨)有如下几组样本数据:x 3456y 2.534 4.5根据相关性检验,这组样本数据具有线性相关关系,通过线性回归分析,求得回归直线的斜率为0.7.已知该产品的年产量为10吨,则该工厂每年大约消耗的汽油为________吨.9.x和y的散点图如图,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R21,用y=bx+a拟合时的相关指数为R22,则R21>R22;③x、y之间不能建立回归直线方程.三、解答题10.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:推销员编号1234 5工作年限x/年35679推销金额y/万元2334 5(1)以工作年限为自变量x,推销金额为因变量y,作出散点图;(2)求年推销金额y关于工作年限x的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.11.(2011·广雅中学高三模拟)为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:喜爱打篮球不喜爱打篮球合计 男生 5 女生 10 合计50已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99.5%的把握认为喜爱打篮球与性别有关?说明你的理由.12.2011年3月,日本发生了9.0级地震,地震引发了海啸及核泄漏.某国际组织用分层抽样的方法从心理专家、核专家、地质专家三类专家中抽取若干人组成研究团队赴日本工作,有关数据见表1(单位:人).核专家为了检测当地动物受核辐射后对身体健康的影响,随机选取了110只羊进行了检测,并将有关数据整理为不完整的2×2列联表(表2).表1相关人员数抽取人数心理专家 24 x 核专家 48 y 地质专家72 6表2高度辐射 轻微辐射合计 身体健康 30 A 50 身体不健康 B 10 60 合计CDE附:临界值表K 0 2.072 2.706 3.841 5.024 6.635 7.879 10.828 P (K 2≥K 0)0.150.100.050.0250.0100.0050.001参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(1)求研究小组的总人数;(2)写出表2中A 、B 、C 、D 、E 的值,并判断有多大的把握认为羊受到高度辐射与身体不健康有关.每日作业 正态分布一、选择题1.(2012·深圳调研)已知三个正态分布密度函数φi (x )=12πσie -(x -μi )22σi 2(x ∈R ,i =1,2,3)的图象如图所示,则( )A .μ1<μ2=μ3,σ1=σ2>σ3B .μ1>μ2=μ3,σ1=σ2<σ3C .μ1=μ2<μ3,σ1<σ2=σ3D .μ1<μ2=μ3,σ1=σ2<σ32.已知X 的分布列为X -1 0 1 P121316,且Y =aX +3,EY =73,则a 为( )A .1B .2C .3D .43.正态总体N (1,9)在区间(2,3)和(-1,0)上取值的概率分别为m ,n ,则( ) A .m >n B .m <n C .m =n D .不确定4.已知随机变量ξ+η=8,若ξ~B (10,0.6),则E (η),D (η)分别是( ) A .6和2.4 B .2和2.4 C .2和5.6 D .6和5.65.口袋中有5只球,编号分别为1,2,3,4,5,从中任意取3只球,以X 表示取出的球的最大号码,则X 的期望E (X )的值是( )A .4B .4.5C .4.75D .56.某种种子每粒发芽的概率都为0.9,现播种了1 000粒,对于没有发芽的种子,每粒需再补种2粒,补种的种子数记为X ,则X 的数学期望为( )A .100B .200C .300D .400 二、填空题7.若p 为非负实数,随机变量X 的概率分布如下表,则E (X )的最大值为________,D (X )的最大值为________.X 0 1 2 P12-p p128.拋掷两个骰子,至少有一个4点或5点出现时,就说这次试验成功,则在10次试验中,成功次数X 的期望是________.9.某班有50名学生,一次考试后数学成绩X (X ∈N)服从正态分布N (100,102),已知P (90≤X ≤100)=0.3,估计该班学生数学成绩在110分以上的人数为________.每日作业 线性回归一、选择题1.(2011·陕西卷)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()A.x和y的相关系数为直线l的斜率B.x和y的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同D.直线l过点(x,y)解析:因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以A、B错误.C中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以C错误.根据回归直线方程一定经过样本中心点可知D 正确.所以选D.答案: D2.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r 0.820.780.690.85m 106115124103则哪位同学的试验结果体现A、B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析:丁同学所得相关系数0.85最大,残差平方和m最小,所以A、B两变量线性相关性更强.答案: D3.下面是一个2×2列联表y1y2总计x1 a 2173x222527总计 b 46则表中a、b处的值分别为()A.94、96 B.52、50C.52、54 D.54、52解析:∵a+21=73,∴a=52,又a+2=b,∴b =54. 答案: C4.对分类变量X 与Y 的随机变量K 2的观测值k ,说法正确的是( ) A .k 越大,“X 与Y 有关系”可信程度越小 B .k 越小,“X 与Y 有关系”可信程度越小 C .k 越接近于0,“X 与Y 无关”程度越小 D .k 越大,“X 与Y 无关”程度越大解析: k 越大,说明“X 与Y 有关系”成立的可信程度越大,反之越小. 答案: B5.(2011·山东卷)某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程=x +中的为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析: ∵x =4+2+3+54=72,y =49+26+39+544=42,又=x +必过(x ,y ),∴42=72×9.4+,∴=9.1.∴线性回归方程为=9.4x +9.1.∴当x =6时,=9.4×6+9.1=65.5(万元). 答案: B6.在第29届奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居世界金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明性别对判断“中国进入体育强国之列”是否有关系时,用什么方法最有说服力( )A .平均数与方差B .回归直线方程C .独立性检验D .概率解析: 由于参加调查的公民性别分别被分成了两组,而且每一组被分成了两种情况,认为有关与无关符合2×2列联表的要求,故用独立性检验最有说服力.答案: C 二、填空题7.已知一个线性回归方程为=1.5x +45(x i ∈{1,7,5,13,19}),则y =________. 解析: 线性回归方程为=1.5x +45,经过点(x ,y ),由x =9,知y =58.5. 答案: 58.58.第二十届世界石油大会将于2011年12月4日-8日在卡塔尔首都多哈举行,能源问题已经成为全球关注的焦点.某工厂经过技术改造后,降低了能源消耗,经统计该厂某种产品的产量x (单位:吨)与相应的生产能耗y (单位:吨)有如下几组样本数据:x 3 4 5 6 y2.5344.5根据相关性检验,这组样本数据具有线性相关关系,通过线性回归分析,求得回归直线的斜率为0.7.已知该产品的年产量为10吨,则该工厂每年大约消耗的汽油为________吨.解析: 由题知,x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,故样本数据的中心点为A (4.5,3.5).设回归直线方程为y =0.7x +b ,将中心点坐标代入得:3.5=0.7×4.5+b ,解得b =0.35,故回归直线方程为y =0.7x +0.35,所以当x =10时,y =0.7×10+0.35=7.35,即该工厂每年大约消耗的汽油为7.35吨.答案: 7.359.x 和y 的散点图如图,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1ec 2x 拟合时的相关指数为R 21,用y =bx +a 拟合时的相关指数为R 22,则R 21>R 22;③x 、y 之间不能建立回归直线方程.解析: ①显然正确;由散点图知,用y =c 1ec 2x 拟合的效果比用y =bx +a 拟合的效果要好,∴②正确;x ,y 之间能建立回归直线方程,只不过预报精度不高,∴③不正确.答案: ①② 三、解答题10.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:推销员编号 1 2 3 4 5 工作年限x /年 3 5 6 7 9 推销金额y /万元23345(1)以工作年限为自变量x ,推销金额为因变量y ,作出散点图; (2)求年推销金额y 关于工作年限x 的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额. 解析: (1)依题意,画出散点图如图所示,(2)从散点图可以看出,这些点大致在一条直线附近,设所求的线性回归方程为=x +.则=∴年推销金额y 关于工作年限x 的线性回归方程为 =0.5x +0.4.(3)由(2)可知,当x =11时,=0.5x +0.4=0.5×11+0.4=5.9(万元).∴可以估计第6名推销员的年推销金额为5.9万元.11.(2011·广雅中学高三模拟)为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:喜爱打篮球不喜爱打篮球合计 男生 5 女生 10 合计50已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99.5%的把握认为喜爱打篮球与性别有关?说明你的理由. 解析: (1)喜爱打篮球 不喜爱打篮球 合计男生 20 5 25 女生 10 15 25 合计302050(2)∵K 2=50×(20×15-10×5)230×20×25×25≈8.333>7.879.∴有99.5%的把握认为“喜爱打篮球与性别有关”.12.2011年3月,日本发生了9.0级地震,地震引发了海啸及核泄漏.某国际组织用分层抽样的方法从心理专家、核专家、地质专家三类专家中抽取若干人组成研究团队赴日本工作,有关数据见表1(单位:人).核专家为了检测当地动物受核辐射后对身体健康的影响,随机选取了110只羊进行了检测,并将有关数据整理为不完整的2×2列联表(表2).表1相关人员数抽取人数心理专家 24 x 核专家 48 y 地质专家72 6表2高度辐射 轻微辐射合计 身体健康 30 A 50 身体不健康 B 10 60 合计CDE附:临界值表K 0 2.072 2.706 3.841 5.024 6.635 7.879 10.828 P (K 2≥K 0)0.150.100.050.0250.0100.0050.001参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(1)求研究小组的总人数;(2)写出表2中A 、B 、C 、D 、E 的值,并判断有多大的把握认为羊受到高度辐射与身体不健康有关.解析: (1)依题意知726=48y =24x ,解得y =4,x =2.所以研究小组的总人数为2+4+6=12.(2)根据列联表特点得A =20,B =50,C =80,D =30,E =110. 可求得K 2=110×(30×10-50×20)250×60×80×30≈7.486>6.635.由临界值表知,有99%的把握认为羊受到高度辐射与身体不健康有关.每日作业 正态分布一、选择题1.(2012·深圳调研)已知三个正态分布密度函数φi (x )=12πσie -(x -μi )22σi 2(x ∈R ,i =1,2,3)的图象如图所示,则( ) A .μ1<μ2=μ3,σ1=σ2>σ3 B .μ1>μ2=μ3,σ1=σ2<σ3 C .μ1=μ2<μ3,σ1<σ2=σ3D .μ1<μ2=μ3,σ1=σ2<σ3解析: 正态分布密度函数φ2(x )和φ3(x )的图象都是关于同一条直线对称,所以其平均数相同,故μ2=μ3,又φ2(x )的对称轴的横坐标值比φ1(x )的对称轴的横坐标值大,故有μ1<μ2=μ3.又σ越大,曲线越“矮胖”,σ越小,曲线越“瘦高”,由图象可知,正态分布密度函数φ1(x )和φ2(x )的图象一样“瘦高”,φ3(x )明显“矮胖”,从而可知σ1=σ2<σ3.答案: D2.已知X 的分布列为X -1 0 1 P121316,且Y =aX +3,EY =73,则a 为( )A .1B .2C .3D .4解析: 先求出E (X )=(-1)×12+0×13+1×16=-13.再由Y =aX +3得E (Y )=aE (X )+3. ∴73=a ⎝⎛⎭⎫-13+3,解得a =2. 答案: B3.正态总体N (1,9)在区间(2,3)和(-1,0)上取值的概率分别为m ,n ,则( ) A .m >nB .m <nC .m =nD .不确定解析: 正态总体N (1,9)的曲线关于x =1对称,区间(2,3)与(-1,0)与对称轴距离相等,故m =n .答案: C4.已知随机变量ξ+η=8,若ξ~B (10,0.6),则E (η),D (η)分别是( )A .6和2.4B .2和2.4C .2和5.6D .6和5.6解析: 若两个随机变量η,ξ满足一次关系式η=aξ+b (a ,b 为常数),当已知E (ξ)、D (ξ)时,则有E (η)=aE (ξ)+b ,D (η)=a 2D (ξ).由已知随机变量ξ+η=8,所以有η=8-ξ.因此,求得E (η)=8-E (ξ)=8-10×0.6=2,D (η)=(-1)2D (ξ)=10×0.6×0.4=2.4.答案: B5.口袋中有5只球,编号分别为1,2,3,4,5,从中任意取3只球,以X 表示取出的球的最大号码,则X 的期望E (X )的值是( )A .4B .4.5C .4.75D .5解析: X 的所有可能取值是3,4,5,且P (X =3)=1C 53=110,P (X =4)=C 32C 53=310, P (X =5)=C 42C 53=610=35, ∴E (X )=3×110+4×310+5×35=4.5. 答案: B6.某种种子每粒发芽的概率都为0.9,现播种了1 000粒,对于没有发芽的种子,每粒需再补种2粒,补种的种子数记为X ,则X 的数学期望为( )A .100B .200C .300D .400 解析: 种子发芽率为0.9,不发芽率为0.1,每粒种子发芽与否相互独立,故设没有发芽的种子数为ξ,则ξ~B (1 000,0.1),∴Eξ=1 000×0.1=100,故X 的期望为2·Eξ=200.答案: B二、填空题7.若p 为非负实数,随机变量X 的概率分布如下表,则E (X )的最大值为________,D (X )的最大值为________. X0 1 2 P 12-p p 12 解析: ∵⎩⎪⎨⎪⎧ 0≤12-p <10≤p <1,∴p ∈⎣⎡⎦⎤0,12, ∴E (X )=p +1≤32,D (X )=-p 2-p +1≤1. 答案: 321 8.拋掷两个骰子,至少有一个4点或5点出现时,就说这次试验成功,则在10次试验中,成功次数X 的期望是________.解析: 由题意一次试验成功的概率为1-23×23=59,10次试验为10次独立重复试验,则成功次数X ~B ⎝⎛⎭⎫10,59,所以E (X )=509. 答案: 509 9.某班有50名学生,一次考试后数学成绩X (X ∈N)服从正态分布N (100,102),已知P (90≤X ≤100)=0.3,估计该班学生数学成绩在110分以上的人数为________.解析: 由题意知,P (X >110)=1-2P (90≤X ≤100)2=0.2, ∴该班学生数学成绩在110分以上的人数为0.2×50=10.答案: 10。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

12.4 正态分布、线性回归一、 知识梳理1.正态分布的重要性正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。

一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。

2.正态曲线及其性质正态分布函数:22()2()x f x μσ--=,x ∈(-∞,+∞)3.标准正态曲线标准正态曲线N (0,1)是一种特殊的正态分布曲线,00()1()x x Φ-=-Φ,以及标准正态总体在任一区间(a ,b)内取值概率)()(a b P Φ-Φ=。

4.一般正态分布与标准正态分布的转化由于一般的正态总体),(2σμN 其图像不一定关于y 轴对称,对于任一正态总体),(2σμN ,其取值小于x 的概率)()(σμ-Φ=x x F 。

只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。

5.“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。

这种认识便是进行推断的出发点。

关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。

进行假设检验一般分三步: 第一步,提出统计假设。

课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2σμN ;第二步,确定一次试验中的取值a 是否落入范围(μ-3σ,μ+3σ); 第三步,作出推断。

如果a ∈(μ-3σ,μ+3σ),接受统计假设;如果)3,3(σμσμ+-∉a ,由于这是小概率事件,就拒绝统计假设。

6.相关关系研究两个变量间的相关关系是学习本节的目的。

对于相关关系我们可以从下三个方面加以认识:⑴相关关系与函数关系不同。

函数关系中的两个变量间是一种确定性关系。

相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。

⑵函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。

⑶函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。

7.回归分析本节所研究的回归分析是回归分析中最简单,也是最基本的一种类型——一元线性回归分析。

对于线性回归分析,我们要注意以下几个方面:⑴回归分析是对具有相关关系的两个变量进行统计分析的方法。

两个变量具有相关关系是回归分析的前提。

⑵散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。

⑶求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。

8.相关系数有时散点图中的各点并不集中在一条直线的附近,仍可以按照求回归直线方程的步骤求得回归直线方程。

显然这种情形下求得的回归直线方程没有实际意义。

那么,在什么情况下求得的回归直线方程才能对相应的一组观测数据具有代表意义?课本中不加证明地给出了相关系数的公式。

相关系数公式的作用在于,我们对一组数据之间的线性相关程度可作出定量的分析,而不是仅凭画出散点图,直觉地从散点图的形状粗浅地得出数据之间的线性相关程度。

9.线性相关性检验相关性检验是一种假设检验,它给出了一个具体检验y 与x 之间线性相关与否的具体办法。

限于要求,中学阶段只要求掌握这种检验方法的操作步骤,而不要求对这种方法包含的原理进行深入研究。

其具体检验的步骤如下:⑴在课本中的附表3中查出与显著性水平0.05与自由度n-2(n 为观测值组数)相应的相关系数临界值05.0r 。

⑵根据公式∑∑∑===---=ni ni i i ni ii y n y x n x yx n yx r 1212221))((计算r 的值。

⑶检验所得结果。

如果05.0||r r ≤,那么可以认为y 与x 之间的线性相关关系不显著,从而接受统计假设。

如果05.0||r r >,表明一个发生的概率不到5%的事件在一次试验中竟发生了。

这个小概率事件的发生使我们有理由认为y 与x 之间不具有线性相关关系的假设是不成立的,拒绝这一统计假设也就是表明可以认为y 与x 之间具有线性相关关系。

● 教学目标1.了解正态分布的意义,能借助正态曲线的图像理解正态曲线的性质。

2.了解标准正态分布的意义和性质,掌握正态总体),(2σμN 转化为标准正态总体N (0,1)的公式)()(σμ-Φ=x x F 及其应用;通过生产过程的质量控制图,了解假设检验的基本思想。

3.了解相关关系、回归分析、散点图等概念,会求回归直线方程。

4.了解相关系数的计算公式及其意义,会用相关系数公式进行计算;了解相关性检验的方法与步骤,会用相关性检验方法进行检验。

重点:正态分布的意义及主要性质,线性回归的方法和简单应用。

二、基础训练1.如果随机变量ξ~N (μ,σ2),且E ξ=3,D ξ=1,则P (-1<ξ≤1=等于B A.2Φ(1)-1 B.Φ(4)-Φ(2) C.Φ(2)-Φ(4) D.Φ(-4)-Φ(-2)现要使销售额达到6万元,则需广告费用为__1.5万元____.(保留两位有效数字) 三、例题剖析【例1】 将温度调节器放置在贮存着某种液体的容器内,调节器设定在d ℃,液体的温度ξ(单位:℃)是一个随机变量,且ξ~N (d ,0.52). (1)若d =90°,求ξ<89的概率;(2)若要保持液体的温度至少为80 ℃的概率不低于0.99,问d 至少是多少?(其中若η~N (0,1),则Φ(2)=P (η<2)=0.9772,Φ(-2.327)=P (η<-2.327)=0.01).在实际生活中,常用统计中假设检验的思想检验产品是否合格,方法是:(1)提出统计假设:某种指标服从正态分布N (μ,σ2);(2)确定一次试验中的取值a ;(2)作出统计推断:若a ∈(μ-3σ,μ+3σ),则接受假设,若a ∈(μ-3σ,μ+3σ),则拒绝假设.如:某砖瓦厂生产的砖的“抗断强度”ξ服从正态分布N (30,0.8),质检人员从该厂某一天生产的1000块砖中随机抽查一块,测得它的抗断强度为27.5 kg/cm 2,你认为该厂这天 生产的这批砖是否合格?为什么?【例2】1. 已知测量误差ξ~N (2,100)(cm ),必须进行多少次测量,才能使至少有一次测量误差的绝对值不超过8 cm 的频率大于0.9?2. 随机变量ξ服从正态分布N (0,1),如果P (ξ<1)=0.8413,求P (-1<ξ<0)3. 公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的,如果某地成年男子的身高ξ~N (173,72)(cm ),问车门应设计多高?4. 公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的,如果某地成年男子的身高ξ~N (173,72)(cm ),问车门应设计多高?5. 一投资者在两个投资方案中选择一个,这两个投资方案的利润x (万元)分别服从正态分布N (8,32)和N (6,22),投资者要求利润超过5万元的概率尽量地大,那么他应选择哪一个方案?【例3】设),(~2σμN X ,且总体密度曲线的函数表达式为:412221)(+--=x x ex f π,x ∈R 。

⑴求μ,σ;⑵求)2|1(|<-x P 及)22121(+<<-x P 的值。

【例4】公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的,如果某地成年男子的身高ε~N (173,7)(单位:cm ),问车门应设计多高(精确到1cm )? 【例5】已知某地每单位面积菜地年平均使用氮肥量xkg 与每单位面积蔬菜年平均产量yt 之间的关系有如下数据:年份1985 1986 1987 1988 1989 1990 1991 1992 x(kg) 70 74 80 78 85 92 90 95 y(t) 5.1 6.0 6.8 7.8 9.0 10.2 10.0 12.0年份1993 1994 1995 1996 1997 1998 1999 x(kg) 92 108 115 123 130 138 145 y(t) 11.5 11.0 11.8 12.2 12.5 12.8 13.0 ⑵若线性相关,求蔬菜产量y 与使用氮肥量之间的回归直线方程,并估计每单位面积施肥150kg 时,每单位面积蔬菜的年平均产量。

〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒四、同步练习 g3.1100 正态分布、线性回归1.已知从某批材料中任取一件时,取得的这件材料的强度ε~N (200,18),则取得的这件材料的强度不低于180的概率为( )A .0.9973B .0.8665C .0.8413D .0.81592.已知连续型随机变量x 的概率密度函数是⎪⎩⎪⎨⎧>≤≤<=b x 0b x a A a x 0)(x f其中常数A>0,则A 的值为( )A .1B .bC .ab -1D .b-a3.某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程x y 82.136.77^-=,则以下说法中正确的是 ( ) A .产量每增加1000件,单位成本下降1.82元 B .产量每减少1000件,单位成本上升1.82元 C .产量每增加1000件,单位成本上升1.82元 D .产量每减少1000件,单位成本下降1.82元4.工人月工资(元)依劳动生产率(千元)变化的回归方程为x y 9060^+=,下列判断正确的是 ( ) A .劳动生产率为1000元时,工资为150元 B .劳动生产率提高1000元时,工资提高150元 C .劳动生产率提高1000元时,工资提高90元 D .劳动生产率为1000元时,工资为90元 5.若随机变量ε~N (5,2),且P(ε<a)=0.9,则a=_____________。

6.已知连续型随机变量x 的分布函数为:⎪⎩⎪⎨⎧≤<≤<=21 a 1x 0ax 0)(x x f 其他则a=___________,=<)23(x P _____________。

7.设随机变量ε服从N (0,1),求下列各式的值:(1)P(ε≥2.55); (2)P(ε<-1.44); (3)P(|ε|<1.52)。

相关文档
最新文档