正态分布与线性回归

合集下载

正态分布与回归分析

正态分布与回归分析

正态分布与回归分析正态分布是统计学中非常重要的一种概率分布,也被称为高斯分布。

它具有许多重要的性质,广泛应用于各个领域的数据分析和建模中。

回归分析则是统计学中另一个重要的概念,用于研究自变量和因变量之间的关系。

本文将介绍正态分布和回归分析的基本概念,以及它们在实际应用中的重要性和作用。

正态分布是一种连续型的概率分布,其概率密度函数呈钟形曲线,左右对称,中心峰对称于均值。

正态分布的均值、方差完全决定了整个分布。

在正态分布中,68%的数据落在均值加减一个标准差的范围内,95%的数据落在均值加减两个标准差的范围内,99.7%的数据落在均值加减三个标准差的范围内。

这种性质使得正态分布在统计学中有着重要的地位,许多统计推断和假设检验方法都建立在对数据服从正态分布的假设之上。

正态分布在实际应用中有着广泛的应用,例如在自然科学、社会科学、工程技术等领域都能看到正态分布的身影。

许多自然现象和人类行为都服从正态分布,比如身高、体重、考试成绩等。

在实验设计和数据分析中,研究人员常常假设数据服从正态分布,以便进行后续的统计推断和分析工作。

正态分布的性质使得我们能够更好地理解和描述数据的分布规律,为数据分析提供了重要的理论基础。

回归分析是一种用于研究自变量和因变量之间关系的统计方法。

在回归分析中,我们试图通过建立一个数学模型来描述自变量和因变量之间的函数关系。

最常见的回归分析是线性回归分析,即假设自变量和因变量之间的关系是线性的。

通过最小二乘法等方法,我们可以估计出回归系数,从而得到一个最佳拟合的线性模型。

回归分析在实际应用中有着广泛的应用,例如在经济学、医学、市场营销等领域都能看到回归分析的身影。

通过回归分析,我们可以揭示自变量对因变量的影响程度,预测未来的趋势,评估政策措施的效果等。

回归分析不仅可以帮助我们理解数据之间的关系,还可以为决策提供科学依据,指导实践工作的开展。

正态分布和回归分析在实际应用中常常结合起来,例如在线性回归分析中,我们通常假设误差项服从正态分布。

线性回归原理

线性回归原理

线性回归原理
线性回归是一种基本的回归分析方法,用于探索自变量与因变量之间的线性关系。

其原理是通过拟合一条(或多条)直线(或平面)来预测连续型的因变量。

具体而言,线性回归假设自变量和因变量之间存在一个线性关系,表示为一个线性方程:Y = α + βX + ε。

其中,Y代表因
变量,X代表自变量,α表示截距,β表示自变量的系数,ε表示误差项。

线性回归的目标就是找到合适的截距和系数来最小化误差项,从而使得预测值和观测值之间的差异最小。

通过最小二乘法可以求解出最佳的截距和系数。

最小二乘法的基本思想是通过计算预测值与实际观测值之间的差异的平方和,来评估拟合线性关系的质量,并通过调整截距和系数使得差异平方和最小化。

在进行线性回归之前,需要先满足以下假设条件:1. 自变量和因变量之间存在线性关系;2. 自变量和误差项之间不存在相关性;3. 误差项具有常数方差;4. 误差项服从正态分布。

线性回归可以应用于多个领域,例如经济学中的价格预测、市场需求分析,医学领域中的药物剂量选择等。

通过分析得到的截距和系数,可以解释自变量对于因变量的影响程度和方向。

需要注意的是,线性回归模型对数据集中的异常值和离群点较为敏感,当数据集中存在异常值时,需要进行数据处理或者考虑其他回归方法。

此外,线性回归模型也适用于有限的自变量
和因变量之间的关系。

如果存在非线性关系,可以考虑使用多项式回归或其他非线性回归模型进行建模。

正态分布与线性回归

正态分布与线性回归
独立重复试验时事件 A 第一次发生,且 P(ξ=k)=_q_k_-_1_p_(其中 P 是在
一次试题中事件 A 发生的概率;p+q=1,k=1,2,3,…),则称 ξ 服从 几何分布,记作 g(k,p)=qk-1p.
第74讲 │ 要点探究
要点探究
► 探究点1 离散型随机变量的分布列及其应用
例 1 已知某离散型随机变量 ξ 的分布列如下:
A=A1 B 1+ A 1B1+A1B1+A2B2,故所求的概率为
P(A)=P(A1 B 1)+P( A 1B1)+P(A1B1)+P(A2B2)
第74讲 │ 要点探究
=P(A1)P( B 1)+P( A 1)P(B1)+P(A1)P(B1)+P(A2)P(B2) =0.1×0.9+0.9×0.1+0.1×0.1+0.3×0.3=0.28.
[点评] (1)二项分布是一类重要的分布,要熟练掌握.在写分布列时, 首先要判断随机变量是否满足二项分布的条件.(2)在进行概率计算时, 要注意排列、组合等知识在等可能事件中的应用,要注意互斥事件、相 互独立事件、独立重复试验的概率的应用.
第74讲 │ 要点探究
某厂生产电子元件,其产品的次品率为 5%,现从 一批产品中任意连续取出 2 件.
3.课时安排:本单元共安排了4讲及一个单元能力训练卷, 每讲建议1课时完成,单元能力训练卷建议1课时完成,大约共 需5课时.
第74讲 │ 离散型随机变量的分布列
第74讲 离散型随机变量的分布 列
第74讲 │ 编读互动
编读互动
离散型随机变量及其分布列是高考必考的一个知识点,常常作为 解答题的一问出现.本讲主要复习离散型随机变量及其分布列的计算, 复习时,要抓住离散型随机变量的概率分布的两个本质特征:pi≥0(i =1,2,…,n),p1+p2+…+pn=1,这是确定分布列中参数值的依据.求 离散型随机变量的分布列时,首先要根据具体情况确定随机变量 ξ 的 取值情况,然后利用排列、组合与概率知识求出 ξ 取各个值的概率.掌 握几个典型的分布列:几何分布、二项分布等.

平均分布,正态分布,一阶滑动和,一阶线性回归 C语言编程

平均分布,正态分布,一阶滑动和,一阶线性回归  C语言编程

#include <stdlib.h>#include <stdio.h>#include <time.h>#include <math.h>#include<string.h># define pi 3.1415926# define sqr 0.707106781//在一阶线性回归出现了参数adouble uni[2000]={0};//程序中出现大数组时,很可能导致堆栈溢出,为了避免double nor[2000]={0};//这个问题,把数组声明为全局变量,double ovlap[1000];double linreg[1000];double nor_num[10];double nor_num_theory[10]={0.0};double mean( double a[]){ int i;double ever=0.0;for(i=0;i<2000;i++)ever+=a[i]/2000.0;return ever;}double std(double a[],double mean){ int i;double stda=0.0;for(i=0;i<2000;i++)stda+=(a[i]-mean)*(a[i]-mean)/2000.0;return stda;}double integral(double a,double b){double i,num=0.0;for(i=a;i<b;i+=0.0001){num+=1/sqrt(2*pi)*exp(-i*i/2)*0.0001;}num=2000*num;return num;}//double B_rela(double a)void main( ){FILE *fp1=fopen("D:\\data1.txt","w");//用于存放平均分布的相关函数FILE *fp2=fopen("D:\\data2.txt","w");//用于存放正态分布的相关函数FILE *fp3=fopen("D:\\data3.txt","w");//用于存放一阶滑动序列的相关函数FILE *fp4=fopen("D:\\data4.txt","w");//用于存放一阶线性回归的相关函数FILE *fp=fopen("D:\\data.txt","w");int i,j,k=0,uni_num[10]={0};//检验平均分布double uni_mean,uni_std; //均匀分布double nor_mean,nor_std;//正态分布double ovlap_mean,ovlap_ju,ovlap_std;//一阶滑动序列的平均数,矩,方差double linreg_mean,linreg_ju,linreg_std;// 一阶线性回归的平均数,矩,方差double uni_B[21],nor_B[21], ovlap_B[21],linreg_B[21];//相关函数srand( (unsigned)time( NULL ) );fprintf(fp,"the following are contents of uniform distribution:\n");for( i=0;i<2011;i++ )uni[i]=rand()/32767.0 ;for(j=0;j<=9;j++){if(i<2000&&(uni[i]>=j*0.1)&&(uni[i]<(j+1)*0.1))uni_num[j]++ ;}if(i<50)fprintf( fp,"%6.4f\t", uni[i]);}fprintf(fp,"\n\n");uni_mean=mean(uni);fprintf(fp,"the average number of the uniform distribution is:%6.4f\n",uni_mean);//打印平均分布的平均数uni_std=std(uni,uni_mean);fprintf(fp,"the variance of the uniform distribution is :%6.4f\n",uni_std);//打印平均分布的方差fprintf(fp,"the following are numbers in each erea \n\n");for(j=0;j<=9;j++) fprintf(fp,"%d\t",uni_num[j]);fprintf(fp,"\n\n");fprintf(fp,"the followings are correlation function value\n\n");double sum1;int B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(uni[j+abs(B_j)]-uni_mean)*(uni[j]-uni_mean);}uni_B[i]=sum1/1000.0;fprintf(fp,"%f\n",uni_B[i]);fprintf(fp1,"%f\n",uni_B[i]);B_j++;fclose(fp1);fprintf(fp,"\n\nthe following are the contents of normal distribution:\n"); memset(nor_num,0,sizeof(nor_num));memset(nor_num,0,sizeof(nor_num));//将数组置零,避免堆栈的叠加double index1,index2;srand( (unsigned)time( NULL ) );for(i=0;i<2000;i++){do{index1=rand()/32767.0 ;index2=rand()/32767.0;}while(index1==0);nor[i]=sqrt(-2*log(index1))*cos(2*pi*index2);if(i<50){fprintf(fp,"%f\t",nor[i]);}if(nor[i]>=-2.0 && nor[i]<-1.6) nor_num[0]++;if(nor[i]>=-1.6 && nor[i]<-1.2) nor_num[1]++;if(nor[i]>=-1.2 && nor[i]<-0.8) nor_num[2]++;if(nor[i]>=-0.8 && nor[i]<-0.4) nor_num[3]++;if(nor[i]>=-0.4 && nor[i]<0.0) nor_num[4]++;if(nor[i]>=0.0 && nor[i]<0.4) nor_num[5]++;if(nor[i]>=0.4 && nor[i]<0.8) nor_num[6]++;if(nor[i]>=0.8 && nor[i]<1.2) nor_num[7]++;if(nor[i]>=1.2 && nor[i]<1.6) nor_num[8]++;if(nor[i]>=1.6 && nor[i]<2.0) nor_num[9]++;}nor_mean=mean(nor);fprintf(fp,"the average number of normal distribution is:%6.4f\n",nor_mean); //正态分布的平均数nor_std=std(nor,nor_mean);fprintf(fp,"the variance of normal distribution is %6.4f\n",nor_std);//正态分布的方差fprintf(fp," the following outputs showed numbers of random number in determined zone\n"); fprintf(fp,"the former number is calculated in theory,the latter one is actual quantity\n");fprintf(fp," theoretical\t\t\tactual\n");for(i=-5;i<5;i++){nor_num_theory[i+5]=integral(0.4*i,0.4*i+0.4);fprintf(fp,"%f\t\t\t",nor_num_theory[i+5]);fprintf(fp,"%f\n",nor_num[i+5]);}//在求相关函数的过程中,会用到中间量fprintf(fp,"\n\n\n");fprintf(fp,"the followings are values of correlation functions\n\n ");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(nor[j+abs(B_j)]-nor_mean)*(nor[j]-nor_mean);}nor_B[i]=sum1/1000.0;fprintf(fp,"%f\n",nor_B[i]);fprintf(fp2,"%f\n",nor_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp2);// 以下部分为关于一阶滑动和序列的内容fprintf(fp,"the follwings are contents of overlap \n\n\n");memset(ovlap,0,sizeof(ovlap));ovlap_mean=0;ovlap_ju=0;ovlap_std=0;double ov_sum2=0.0,ov_sum3=0.0;for(i=0;i<1100;i++){ovlap[i]=nor[i+1]+4*nor[i];if(i<50)fprintf(fp,"%f\t",ovlap[i]);ov_sum2+=ovlap[i]; //ov_sum3+=ovlap[i]*ovlap[i];}ovlap_mean=ov_sum2/1000.0;//求平均数ovlap_ju=ov_sum3/1000.0;//求二阶距ovlap_std=ovlap_ju-ovlap_mean*ovlap_mean;//求方差fprintf(fp,"\n\naverage:%f\nju:%f\nstandard:%f\n",ovlap_mean,ovlap_ju,ovlap_std); fprintf(fp,"\n\n\n");/////123fprintf(fp,"the following are correlation function value\n\n");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(ovlap[j+abs(B_j)]-ovlap_mean)*(ovlap[j]-ovlap_mean);}ovlap_B[i]=sum1/1000.0;fprintf(fp,"%f\n",ovlap_B[i]);fprintf(fp3,"%f\n",ovlap_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp3);//一下为关于一阶线性回归的内容memset(linreg,0,sizeof(linreg));fprintf(fp,"the following are contents about linear regression\n\n ");linreg_mean=0;linreg_ju=0;linreg_std=0;linreg[0]=0.5;//get the value of each memberdouble li_sum1,li_sum2;li_sum1=0;li_sum2=0;for(i=1;i<=1000;i++){linreg[i]=nor[i]-sqr*linreg[i-1];if(i<50){fprintf(fp,"%f\t",linreg[i]);}if(i>100){li_sum1+=linreg[i];li_sum2+=pow(linreg[i],2);}}linreg_mean=li_sum1/900; //求平均数linreg_ju=li_sum2/900; //求二阶原点矩linreg_std=linreg_ju-pow(linreg_mean,2); //求方差fprintf(fp,"\n\naverage:%f\nju:%f\nstandard:%f\n\n",linreg_mean,linreg_ju,linreg_std);fprintf(fp,"the following are correlation function value\n\n");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=100;j<1000-abs(B_j);j++){sum1+=(linreg[j+abs(B_j)]-linreg_mean)*(linreg[j]-linreg_mean);}linreg_B[i]=sum1/900;fprintf(fp,"%f\n",linreg_B[i]);fprintf(fp4,"%f\n",ovlap_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp4);fclose(fp);getchar();}以下为程序生成的数据:the following are contents of uniform distribution:0.0949 0.2003 0.1722 0.7819 0.7060 0.1859 0.9555 0.6196 0.4057 0.12170.0213 0.8671 0.1353 0.0969 0.8642 0.2540 0.5656 0.0188 0.50070.0146 0.6431 0.6016 0.6290 0.0331 0.2777 0.9265 0.0720 0.14010.5796 0.3563 0.1599 0.5901 0.5519 0.0843 0.2079 0.2519 0.64290.0991 0.7468 0.5435 0.0682 0.8469 0.6612 0.6420 0.3045 0.37220.8919 0.0005 0.6651 0.2186the average number of the uniform distribution is:0.5050the variance of the uniform distribution is :0.0851the following are numbers in each erea206 189 214 182 184 209 199 200 211 206the followings are correlation function value0.0030370.0000780.0015480.0030860.0008270.0012770.001035-0.001017-0.003483-0.0065300.087185-0.006530-0.003483-0.0010170.0010350.0012770.0008270.0030860.0015480.0000780.003037the following are the contents of normal distribution:0.667303 0.372894 0.326978 -0.220477 0.969196 1.862360 1.640884 -0.0137021.060122 1.171379 -0.754567 0.942319 1.433209 1.461014 -0.646995 -1.6161470.940878 -0.021497 0.763536 -0.735703 1.325226 -0.570759 -1.0710600.478394 0.177006 -0.160915 0.977499 -0.633792 0.310996 -0.881002-0.847941 -0.221102 -1.514981 0.270405 -0.919251 0.421879 -1.2492052.062010 -0.070496 0.538043 2.382505 0.088082 -0.374721 -1.116906-2.267095 1.570966 -0.136206 -0.417198 0.960820 0.078101 the average number of normal distribution is:-0.0052the variance of normal distribution is 1.0091the following outputs showed numbers of random number in determined zonethe former number is calculated in theory,the latter one is actual quantitytheoretical actual64.114811 71.000000120.571269 132.000000193.619846 202.000000265.511518 269.000000310.920207 317.000000310.920207 298.000000265.511518 237.000000193.619846 196.000000120.571269 120.00000064.114811 81.000000the followings are values of correlation functions0.005019-0.000179-0.0239050.022543-0.0009890.024601-0.0068160.028706-0.0051880.0249710.9695730.024971-0.0051880.0287060.024601-0.0009890.022543-0.023905-0.0001790.005019the follwings are contents of overlap3.042107 1.818552 1.087433 0.087288 5.739144 9.090323 6.5498351.005315 5.411866 3.930947 -2.075949 5.202484 7. 193850 5.197061-4.204127 -5.523712 3.742015 0.677548 2.318441 -1.617586 4.730147 -3.354095 -3.805846 2.090581 0.547111 0.333840 3.276205 -2.2241700.362982 -4.371949 -3.612864 -2.399387 -5.789518 0.162370 - 3.2551270.438311 -2.934810 8.177543 0.256058 4.534676 9.618101 -0.022393-2.615791 -6.734720 -7.497414 6.147657 -0.962023 -0.7079743.921381 0.589083average:0.111364ju:18.264297standard:18.251895the following are correlation function value0.105750-0.109536-0.3461690.2506860.1354860.3537250.0650560.4082470.0942794.24996516.6526394.2499650.0942790.4082470.0650560.1354860.250686-0.346169-0.1095360.105750the following are contents about linear regression0.019340 0.313302 -0.442015 1.281748 0.956027 0.964871 -0.695969 1.5522460.073775 -0.806734 1.512766 0.363522 1.203965 -1.498327 -0.5566711.334504 -0.965134 1.445989 -1.7581712.568441 -2.386921 0.6167480.042287 0.147105 -0.264934 1.164835 -1.457455 1.341572 -1.8296370.445808 -0.536335 -1.135735 1.073491 -1.678324 1.608633 -2.3866803.749648 -2.721897 2.462715 0.641102 -0.365246 -0.116453 -1.034561-1.535550 2.656763 -2.014821 1.007495 0.248413 -0.097553average:0.018926ju:1.770050standard:1.769692the following are correlation function value0.018228-0.000412-0.007155-0.0265130.100574-0.1809430.310911-0.5030500.804904-1.2063651.777504-1.2063650.804904-0.5030500.310911-0.1809430.100574-0.026513-0.007155-0.000412平均分布图:正态数列分布图:相关函数图:。

线性回归分析

线性回归分析

线性回归分析线性回归是一种用来建立和预测变量间线性关系的统计分析方法。

它可以帮助我们了解变量之间的相互影响和趋势,并将这些关系用一条直线来表示。

线性回归分析常被应用于经济学、社会科学、自然科学和工程等领域。

一、概述线性回归分析是一个广泛使用的统计工具,用于建立变量间的线性关系模型。

该模型假设自变量(独立变量)与因变量(依赖变量)之间存在线性关系,并通过最小化观测值与模型预测值之间的误差来确定模型的参数。

二、基本原理线性回归分析基于最小二乘法,通过最小化观测值与模型预测值之间的残差平方和来确定模型的参数。

具体来说,线性回归模型可以表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε,其中Y是因变量,X1到Xn是自变量,β0到βn是回归系数,ε是误差项。

回归系数表示自变量对因变量的影响程度。

三、应用步骤进行线性回归分析时,通常需要以下几个步骤:1. 收集数据:获取自变量和因变量的样本数据。

2. 建立模型:根据数据建立线性回归模型。

3. 评估模型的准确性:通过计算残差、决定系数等指标来评估模型的准确性。

4. 进行预测和推断:利用模型对未知数据进行预测和推断。

四、模型评价指标在线性回归分析中,有几个常用的指标用于评价模型的准确性:1. R平方值:R平方值表示因变量的变异性能够被模型解释的比例,数值范围为0到1。

R平方值越接近1,表示模型对数据的拟合程度越好。

2. 残差分析:进行残差分析可以帮助我们判断模型是否符合线性回归的基本假设。

一般来说,残差应该满足正态分布、独立性和等方差性的假设。

五、优缺点线性回归分析有以下几个优点:1. 简单易懂:线性回归模型的建立和解释相对较为简单,无需复杂的数学知识。

2. 实用性强:线性回归模型适用于很多实际问题,可以解决很多预测和推断的需求。

然而,线性回归分析也存在以下几个缺点:1. 假设限制:线性回归模型对于变量间关系的假设比较严格,不适用于非线性关系的建模。

线性回归的前提条件

线性回归的前提条件

线性回归的前提条件线性回归的前提假设条件是:(1)自变量与因变量是否呈直线关系。

(2)因变量是否符合正态分布。

(3)因变量数值之间是否独立。

(4)方差是否齐性。

其实如果正规地来说,应该是看残差(residual)是否正态、独立以及方差齐。

所谓残差,就是因变量的真实值与估计值之间的差值。

回归分析是一类统计方法,包括本次介绍的线性回归以及后面将要介绍的logistic回归、Cox回归等,该类方法内容十分丰富,在医学应用中也极为广泛。

回归分析主要是通过建立回归方程来说明某一个事物随另一个(或多个)事物的变化而变动的规律。

相关分析研究的是两个或多个变量相互依存变动的规律,见统计分析之相关,而回归分析则是探索某变量(因变量)如何依赖于其他变量(自变量)的变化而变动的规律,是单方依存,而不是相互依存。

回归分析主要根据因变量的类型而划分不同方法,线性回归其因变量必须是定量变量,后面介绍的logistic回归、Cox回归等因变量则属于其他类型。

线性回归可以说是回归家族中最为经典的方法,同时也是相对简单、容易理解的方法。

本系列主要介绍线性回归的应用,具体内容包括:(1)线性回归的单因素分析;(2)线性回归的多因素分析;一、线性回归简介线性回归是研究因变量(dependent variable)与自变量(independent variable)相依关系的技术。

因变量又称应变量(response variable),是随机变量,具有一个随机分布,依赖于一个或多个自变量。

自变量有时也被称为解释变量(explanatory variable)或预测变量(predictor variable),是非随机的,不依赖于其他变量。

线性回归中的因变量必须是定量变量,自变量可以是定量变量,也可以是分类变量。

例如研究体重对高血压的影响,体重是自变量,高血压受体重的影响,是因变量。

线性回归大致可分为三类:当因变量有一个,自变量也只有一个时,称之为简单线性回归(simple linear regression);当因变量有一个,自变量有多个时,称之为多重线性回归(multiple linear regression);当因变量有多个,自变量有多个时,称之为多元回归(multi-variate regression)。

正态分布-线性回归

正态分布-线性回归

正态分布、线性回归一、 知识梳理1.正态分布的重要性正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。

一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。

2.正态曲线及其性质正态分布函数:22()2()x f x μσ--=,x ∈(-∞,+∞)3.标准正态曲线标准正态曲线N (0,1)是一种特殊的正态分布曲线,00()1()x x Φ-=-Φ,以及标准正态总体在任一区间(a ,b)内取值概率)()(a b P Φ-Φ=。

4.一般正态分布与标准正态分布的转化由于一般的正态总体),(2σμN 其图像不一定关于y 轴对称,对于任一正态总体),(2σμN ,其取值小于x 的概率)()(σμ-Φ=x x F 。

只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。

5.“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。

这种认识便是进行推断的出发点。

关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。

进行假设检验一般分三步:第一步,提出统计假设。

课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2σμN ; 第二步,确定一次试验中的取值a 是否落入范围(μ-3σ,μ+3σ); 第三步,作出推断。

如果a ∈(μ-3σ,μ+3σ),接受统计假设;如果)3,3(σμσμ+-∉a ,由于这是小概率事件,就拒绝统计假设。

6.相关关系研究两个变量间的相关关系是学习本节的目的。

高考数学理一轮复习 X1-4正态分布、线性回归精品课件

高考数学理一轮复习 X1-4正态分布、线性回归精品课件

备选例题1 设随机变量ξ服从正态分布:ξ~ N(1,4),试求:
(1)P(0<ξ≤2); (2)求常数C,使P(ξ≤C)=32·P(ξ>C).
参考数据:Φ(0)=0.5,Φ(1)=0.8413,Φ(2) =0.9772,Φ(0.5)=0.6915,Φ(1.88)= 0.9697,Φ(3)=0.9987.
2.小概率事件是指事件发生的概率很小的事, 通常认为这些情况在一次试验中几乎是不可 能发生的.
3.统计中假设检验的基本思想:根据小概率 事件在一次试验中几乎不可能发生的原理和 从总体中抽测的个体的数值,对事先所作的 统计假设作出判断,是拒绝假设,还是接受 假设.
4.利用线性回归方程,可由一个变量的值预 测或控制另一个变量的值.借助计算器,特 别是含统计的计算器,能简化手工的计算, 迅速得出正确结果.
(函数Φ(x0)实际上是正态总体N(0,1)的累积分
布函数),即Φ(x0)=

(5)两个重要公式:ⅰ.Φ(-x)=1Φ(x)


Φ(a)
ⅱ.P(a<ξ<b)=Φ(b)-
. 小于
(6)对于任一正态分布总体N(μ,σ2)来说,取
值 x的概率为F(x)=Φ(
).
(7)假设检验的基本思想
ⅰ.提出统计假设,如假设随机变量服从正态 分布等;
5.“回归”和“相关”含义是不同的:如果 两个变量中的一个变量是人为可以控制、非 随机的,另一变量的变化是随机的且随着控 制变量的变化而变化,则这两变量间的关系 就称为回归关系;若两个变量都是随机的, 则称它们之间的关系为相关关系,在本教材 中,两者不加区别.
方法规律·归纳
题型 一
正态分布的基本运算
思维 提示
①P(x<x0)=Φ(x0); ②Φ(x0)=1-Φ(-x0);

小题专练11-2023届高考数学一轮复习新高考版

小题专练11-2023届高考数学一轮复习新高考版

小题专练11计数原理、概率与统计(A)一、单项选择题:本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.1..(考点:古典概型的应用,★)有编号分别为1,2,3的三个盒子和编号分别为1,2,3的三个小球,每个盒子放入一个小球,则小球的编号与盒子编号全不相同的概率为().A.1 3B.56C.23D.8272.(考点:随机数表的应用,★)福利彩票“双色球”中红色球由编号为01,02,…,33的33个球组成,某彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为().A.21B.09C.02D.173(考点:二项分布的期望与方差,★)已知随机变量ξ~B(n,p),且E(ξ)=6,D(ξ)=3,则n的值为().A.10B.8C.16D.124.(考点:组合和计数原理的应用,★★)若从1,2,3,…,9这9个整数中同时取4个不同的数,其和为偶数,则不同的取法共有().A.60种B.64种C.65种D.66种5.(考点:二项式定理的应用,★★)设(1-2x)n=a0+a1x+a2x2+…+a n x n,若a3+a4=0,则a5=().A.256B.-128C.64D.-326.(考点:排列组合的应用,★★)某食品厂为了促销,制作了3种不同的精美卡片,每袋食品中随机装入一张卡片,集齐3种卡片可获奖,现购买4袋该食品,能获奖的概率为().A.4 27B.827C.49D.897.(考点:条件概率的应用,★★)若全体Ω={1,2,3,4,5,6},令事件A={2,3,5},B={1,2,4,5,6},则P(B|A)的值为().A.2 3B.13C.12D.358.(考点:线性回归方程,★★)具有相关关系的两个量x 、y 的一组数据如下表,回归方程是y ^=0.67x+54.9,则m=( ).x 10 20 30 40 50 y62m758189A.65B.67C.68D.70二、多项选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,部分选对的得3分,有选错的得0分.9.(考点:正态分布与线性回归,★★)下列说法中正确的是( ).A .已知随机变量ξ服从正态分布N (2,σ2),P (ξ<4)=0.84,则P (2<ξ<4)=0.16B .以模型y=c e kx去拟合一组数据时,为了求出回归方程,设z=ln y ,将其变换后得到线性回归方程z ^=0.3x+4,则c ,k 的值分别是e 4和0.3C .已知两个变量具有线性相关关系,其回归直线方程为y ^=a+bx ,若b=2,x −=1,y −=3,则a=1 D .若样本数据x 1,x 2,…,x 10的方差为2,则数据2x 1-1,2x 2-1,…,2x 10-1的方差为1610.(考点:扇形统计图,★★)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中正确的是( ). A .新农村建设后,种植收入减少B .新农村建设后,其他收入增加了一倍以上C .新农村建设后,养殖收入增加了一倍D .新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半11.(考点:独立性检验的应用,★★)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”做了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数的35,若有95%的把握认为是否喜欢抖音和性别有关,则调查人数中男生可能有( )人. 附:P (K 2≥k 0) 0.050 0.010 k 03.8416.635K 2=n (ad -bc )2(a+b )(c+d )(a+c )(b+d ). A .25 B .45C .60D .7512.(考点:概率的求解公式,★★)下列对各事件发生的概率判断正确的是( ).A .某学生在上学的路上要经过4个路口,假设在各路口是否遇到红灯是相互独立的,遇到红灯的概率都是13,那么该学生在上学路上到第3个路口首次遇到红灯的概率为427B .三人独立破译一份密码,他们能单独译出的概率分别为15,13,14,假设他们破译密码是彼此独立的,则此密码被破译的概率为25C .甲袋中有8个白球,4个红球,乙袋中有6个白球,6个红球,从每袋中各任取一个球,则取到同色球的概率为12D .设两个独立事件A 和B 都不发生的概率为19,A 发生B 不发生的概率与B 发生A 不发生的概率相同,则事件A 发生的概率是29三、填空题:本题共4小题,每小题5分,共20分.13.(考点:分层抽样的应用,★★)某公司的老年人、中年人、青年人的比例为2∶6∶4,用分层抽样的方法抽取了一个容量为n 的样本进行调查,其中青年人人数为100,则n= . 14.(考点:二项式定理的应用,★★)若二项式(√x +m x 2)n 的展开式的二项式系数之和为32,常数项为10,则实数n 的值为 ,实数m 的值为 .15.(考点:正态分布的应用,★★)已知在某市的高二期末考试中,该市学生的数学成绩X~N (90,σ2),若P (70≤X≤90)=0.4,则从该市学生中任选一名学生,该学生的数学成绩小于110分的概率为 .16.(考点:离散型随机变量的数学期望,★★★)某袋中装有5个除编号外完全相同的小球,编号为1,2,3,4,5.现从该袋内随机取出3个小球,记被取出的小球的最大号码数为ξ,则E (ξ)= .答案解析:1.(考点:二项分布的期望与方差,★)已知随机变量ξ~B (n ,p ),且E (ξ)=6,D (ξ)=3,则n 的值为( ). A .10 B .8 C .16 D .12【解析】依题意,由二项分布的期望和方差公式得{E (ξ)=np =6,D (ξ)=np (1-p )=3,解得{n =12,p =12. 【答案】D2.(考点:随机数表的应用,★)福利彩票“双色球”中红色球由编号为01,02,…,33的33个球组成,某彩民利用下面的随机数表选取6组数作为6个红色球的编号,选取方法是从随机数表第1行的第6列数字开始由左到右依次选取两个数字,则选出来的第6个红色球的编号为( ).A .21B .09C .02D .17【解析】从随机数表第1行的第6列数字开始由左到右依次选取两个数字,除去大于33的数字以及重复数字,则选出的6个红色球的编号依次为21,32,09,16,17,02,故选出的第6个红色球的编号为02. 【答案】C3.(考点:古典概型的应用,★)有编号分别为1,2,3的三个盒子和编号分别为1,2,3的三个小球,每个盒子放入一个小球,则小球的编号与盒子编号全不相同的概率为( ). A .13 B .56 C .23 D .827【解析】以(a ,b ,c )表示编号为1,2,3的盒子分别放编号为a ,b ,c 的小球,则所有的基本事件有(1,2,3),(1,3,2),(2,1,3),(2,3,1),(3,1,2),(3,2,1),共6种,其中,事件“小球的编号与盒子编号全不相同”所包含的基本事件有(2,3,1),(3,1,2),共2个,因此“小球的编号与盒子编号全不相同”的概率为26=13. 【答案】A4.(考点:组合和计数原理的应用,★★)若从1,2,3,…,9这9个整数中同时取4个不同的数,其和为偶数,则不同的取法共有( ).A .60种B .64种C .65种D .66种【解析】从1,2,3,…,9这9个整数中同时取4个不同的数,其和为偶数,有3种情况:4个偶数,2个偶数2个奇数,4个奇数.所以不同的取法共有C 44+C 42C 52+C 54=66(种).【答案】D5.(考点:二项式定理的应用,★★)设(1-2x )n =a 0+a 1x+a 2x 2+…+a n x n ,若a 3+a 4=0,则a 5=( ). A .256B .-128C .64D .-32【解析】∵a 3+a 4=C n 3·(-2)3+C n 4·(-2)4=0,∴n=5,则a 5=C 55·(-2)5=-32.【答案】D6.(考点:排列组合的应用,★★)某食品厂为了促销,制作了3种不同的精美卡片,每袋食品中随机装入一张卡片,集齐3种卡片可获奖,现购买4袋该食品,能获奖的概率为( ). A .427 B .827 C .49 D .89【解析】由分步乘法计数原理可知,3种不同的精美卡片随机放进4袋食品中共有34=81种不同放法,4袋食品中有3种不同的卡片的放法有C 42·A 33=36种,根据等可能事件的概率公式得能获奖的概率为3681=49,故选C . 【答案】C7.(考点:条件概率的应用,★★)若全体Ω={1,2,3,4,5,6},令事件A={2,3,5},B={1,2,4,5,6},则P (B|A )的值为( ). A .23 B .13 C .12 D .35【解析】由题意可得P (A )=36=12,事件AB={2,5},则P (AB )=26=13,由条件概率公式得P (B|A )=1312=23. 【答案】A8.(考点:线性回归方程,★★)具有相关关系的两个量x 、y 的一组数据如下表,回归方程是y ^=0.67x+54.9,则m=( ).A.65B.67C.68D.70 【解析】∵x −=10+20+30+40+505=30,y −=62+m+75+81+895=307+m5,将点(30,307+m 5)代入回归直线方程得0.67×30+54.9=307+m 5,解得m=68.故选C. 【答案】C二、多项选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,部分选对的得3分,有选错的得0分.9.(考点:正态分布与线性回归,★★)下列说法中正确的是( ).A .已知随机变量ξ服从正态分布N (2,σ2),P (ξ<4)=0.84,则P (2<ξ<4)=0.16B .以模型y=c e kx去拟合一组数据时,为了求出回归方程,设z=ln y ,将其变换后得到线性回归方程z ^=0.3x+4,则c ,k 的值分别是e 4和0.3C .已知两个变量具有线性相关关系,其回归直线方程为y ^=a+bx ,若b=2,x −=1,y −=3,则a=1 D .若样本数据x 1,x 2,…,x 10的方差为2,则数据2x 1-1,2x 2-1,…,2x 10-1的方差为16 【解析】∵随机变量ξ服从正态分布N (2,σ2),P (ξ<4)=0.84,∴P (2<ξ<4)=P (ξ<4)-0.5=0.84-0.5=0.34,故A 错误; ∵y=c e kx ,∴ln y=ln(c e kx )=kx+ln c ,∵z ^=0.3x+4,∴ln y=0.3x+4,从而k=0.3,ln c=4,∴k=0.3,c=e 4,故B 正确; ∵直线y ^=a+bx 过点(x −,y −),∴3=a+b ,∵b=2,∴a=1,故C 正确;∵样本数据x 1,x 2,…,x 10的方差为2,∴数据2x 1-1,2x 2-1,…,2x 10-1的方差为2×22=8,故D 错误.【答案】BC10.(考点:扇形统计图,★★)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中正确的是( ). A .新农村建设后,种植收入减少B .新农村建设后,其他收入增加了一倍以上C .新农村建设后,养殖收入增加了一倍D .新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半【解析】设新农村建设前,农村的经济收入为a ,则新农村建设后,农村经济收入为2a.新农村建设前后,各项收入的对比如下表:故选BCD.【答案】BCD11.(考点:独立性检验的应用,★★)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”做,女生喜欢抖音的人数占了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,若有95%的把握认为是否喜欢抖音和性别有关,则调查人数中男生可能有()人.女生人数的35附:K 2=n (ad -bc )2(a+b )(c+d )(a+c )(b+d ). A .25 B .45 C .60 D .75【解析】设男生的人数为5n (n ∈N *),根据题意列出2×2列联表如下:则K 2的观测值k=10n×(4n×2n -3n×n )25n×5n×7n×3n=10n 21,由于有95%的把握认为是否喜欢抖音和性别有关,则3.841≤k<6.635,即3.841≤10n21<6.635,解得8.0661≤n<13.9335.因为n ∈N *,则n 的可能取值有9,10,11,12,13,所以调查人数中男生人数的可能值为45,50,55,60,65,故选BC . 【答案】BC12.(考点:概率的求解公式,★★)下列对各事件发生的概率判断正确的是( ).A .某学生在上学的路上要经过4个路口,假设在各路口是否遇到红灯是相互独立的,遇到红灯的概率都是13,那么该学生在上学路上到第3个路口首次遇到红灯的概率为427B .三人独立破译一份密码,他们能单独译出的概率分别为15,13,14,假设他们破译密码是彼此独立的,则此密码被破译的概率为25C .甲袋中有8个白球,4个红球,乙袋中有6个白球,6个红球,从每袋中各任取一个球,则取到同色球的概率为12D .设两个独立事件A 和B 都不发生的概率为19,A 发生B 不发生的概率与B 发生A 不发生的概率相同,则事件A 发生的概率是29【解析】对于A 选项,该学生在第3个路口首次遇到红灯的情况为前2个路口不是红灯,第3个路口是红灯,所以概率为(1-13)2×13=427,故A 正确;对于B 选项,用A ,B ,C 分別表示甲、乙、丙三人能破译出密码,则P (A )=15,P (B )=13,P (C )=14,“三个人都不能破译出密码”发生的概率为45×23×34=25,所以此密码被破译的概率为1-25=35,故B 错误;对于C 选项,设“从甲袋中取到白球”为事件A ,则P (A )=812=23,设“从乙袋中取到白球”为事件B ,则P (B )=612=12,故取到同色球的概率为23×12+13×12=12,故C 正确;对于D 选项,易得P (A ∩B −)=P (B ∩A −),即P (A )·P (B −)=P (B )·P (A −),即P (A )[1-P (B )]=P (B )·[1-P (A )],所以P (A )=P (B ).又P (A −∩B −)=19,所以P (A −)=P (B −)=13,所以P (A )=23,故D 错误.【答案】AC三、填空题:本题共4小题,每小题5分,共20分.13.(考点:分层抽样的应用,★★)某公司的老年人、中年人、青年人的比例为2∶6∶4,用分层抽样的方法抽取了一个容量为n 的样本进行调查,其中青年人人数为100,则n= .【解析】用分层抽样的方法抽取了一个容量为n 的样本进行调查,其中青年人人数为100,则100n=42+6+4,解得n=300. 【答案】30014.(考点:二项式定理的应用,★★)若二项式(√x +m x 2)n的展开式的二项式系数之和为32,常数项为10,则实数n 的值为 ,实数m 的值为 . 【解析】由题意得2n =32,即n=5, 则(√x +m x 2)n 的展开式的通项公式为T r+1=C 5r ·(√x )5-r ·(m x2)r =m r ·C 5r ·x 5-5r2. 令5-5r 2=0,可得r=1,则(√x +m x 2)n展开式中的常数项为T 2=m ·C 51=5m ,故5m=10,解得m=2. 【答案】5 215.(考点:正态分布的应用,★★)已知在某市的高二期末考试中,该市学生的数学成绩X~N (90,σ2),若P (70≤X≤90)=0.4,则从该市学生中任选一名学生,该学生的数学成绩小于110分的概率为 . 【解析】∵X~N (90,σ2),∴μ=90,又P (70≤X ≤90)=0.4,∴P (90≤x ≤110)=0.4,∴P (X ≥110)=1-0.4×22=0.1,则P (X<110)=1-0.1=0.9.∴该学生的数学成绩小于110分的概率为0.9.【答案】0.916.(考点:离散型随机变量的数学期望,★★★)某袋中装有5个除编号外完全相同的小球,编号为1,2,3,4,5.现从该袋内随机取出3个小球,记被取出的小球的最大号码数为ξ,则E (ξ)= . 【解析】由题意可知ξ的可能取值为3,4,5, 则P (ξ=3)=C 33C 53=0.1,P (ξ=4)=C 32C 53=0.3,P (ξ=5)=C 42C 53=0.6,所以E (ξ)=0.1×3+0.3×4+0.6×5=4.5. 【答案】4.5。

正态分布 线性回归

正态分布 线性回归

正态分布与线性回归1 已知连续型随机变量ζ的概率密度函数⎪⎩⎪⎨⎧>≤≤+<=)2(0)20(1)0(0)(x x kx x x f ,且f(x) ≥0,求常数k 的值,并计算概率P(1.5≤ξ<2.5)。

分析:凡是计算连续型随机变量ξ的密度函数f(x)中的参数、概率P(a ≤ξ≤b)都需要通过求面积来转化而求得。

若f(x) ≥0且在[a ,b]上为线性,那么P(a ≤ξ≤b)的值等于以b-a 为高,f(a)与f(b)为上、下底的直角梯形的面积,即1()[()()]()2P a b f a f b b a ξ≤≤=+-。

解: ∵1()(0)(02)(2)P P P P εξξξ=-∞<<+∞=-∞<<+≤≤+<<+∞0(02)0P ξ=+≤≤+1[(0)(2)](20)(0)(2)222f f f f k =+-=+=+∴21-=k ;∴1(1.5 2.5)(1.52)(2 2.5)(1.52)16P P P P ξξξξ≤<=≤≤+<<=≤≤=。

2 设),(~2σμN X ,且总体密度曲线的函数表达式为:412221)(+--=x x ex f π,x ∈R 。

(1)求μ,σ;(2)求)2|1(|<-x P 及)22121(+<<-x P 的值。

分析:根据表示正态曲线函数的结构特征,对照已知函数求出μ和σ。

利用一般正态总体),(2σμN 与标准正态总体N (0,1)概率间的关系,将一般正态总体划归为标准正态总体来解决。

解:(1)由于222)2(2)1(41222121)(--+--⋅==x x x eex f ππ,根据一般正态分布的函数表达形式,可知μ=1,2=σ,故X ~N (1,2)。

(2))2121()2|1(|+<<-=<-x P x P2121(12)(12)()()22(1)(1)2(1)120.84131F F 1+-1--=+--=Φ-Φ=Φ-Φ-=Φ-=⨯- 6826.0=。

高考数学复习全套课件 第十一章(理) 第四节 正态分布、线性回归

高考数学复习全套课件 第十一章(理)  第四节  正态分布、线性回归

4.若施化肥量x与小麦产量y之间的回归直线方程为 =
250+4x,当施化肥量为50 kg时,预计小麦产量为
________.
解析:把x=50代入
答案:450 kg
=250+4x可求得
=450(kg).
5.设随机变量ξ服从正态分布N(0,1),记Φ(x)=P(ξ<x),给 出下列结论: ①Φ(0)=0.5;②Φ(x)=1-Φ(-x);③P(|ξ|<2)=2Φ (2)-1. 则正确结论的序号是________.
用函数关系式来表示,D中的两个变量之间的关系是相
关关系.
答案:D
3.已知x与y之间的几组数据如下表: x y 0 1 1 3 2 5 3 7 ( )
则y与x的线性回归方程 =bx+a必过 A.点(2,2) C.点(1,2) B.点(1.5,0) D.点(1.5,4)
解析:
∴线性回归方程必过(1.5,4). 答案:D
标准正态分布
①曲线在 x轴 上方,与 x轴 不相交,以 x轴 为渐近线 ②曲线关于直线x=μ对称 ②曲线关于直线 x=0 对称 x=μ ③曲线在 时位于最 ③曲线在 x=0时位于最高点 高点 x<μ ④当 x<0 时,曲线上升, 性 ④当 时,曲线上升, x>μ x>0 当 质 当 时,曲线下降 时,曲线下降 分散 矮胖 ⑤当μ一定时,曲线的形状由σ确定 σ越大,曲线越“ 瘦高 ”,表示总体的分布越 集中 ; σ越小,曲线越“ ”,表示总体的分布越
x
4
9
16
=4;
25
=5; =112.3
36
90
=90;
于是有b= a= -b =5-1.23×4=0.08.
=1.23;

正态分布、回归分析、独立性检验(教师)

正态分布、回归分析、独立性检验(教师)

资料范本本资料为word版本,可以直接编辑和打印,感谢您的下载正态分布、回归分析、独立性检验(教师)地点:__________________时间:__________________说明:本资料适用于约定双方经过谈判,协商而共同承认,共同遵守的责任与义务,仅供参考,文档可直接下载或修改,不需要的部分可直接删除,使用时请详细阅读内容正态分布、回归分析、独立性检验一、正态分布1.已知随机变量X服从正态分布N(a,4),且P(X>1)=0.5,则实数a的值为( )A.1B.2C.3D.4【解题指南】画正态曲线图,由对称性得图象关于x=a对称且P(X>a)=0.5,结合题意得到a的值.【解析】选A.随机变量X服从正态分布N(a,4),所以曲线关于x=a对称,且P(X>a)=0.5,由P(X>1)=0.5,可知μ=a=1.故选A.2.(2014·广州高二检测)已知ξ~N(3,σ2),若P(ξ≤2)=0.2,则P(ξ≤4)等于( )A.0.2B.0.3C.0.7D.0.8【解析】选D.根据正态曲线的特征:知对称轴为x=3,[来源:学+科+网Z+X+X+K]所以P(ξ≤3)=0.5,则P(ξ≤2)=P(ξ>4)=0.2,所以P(ξ≤4)=1-P(ξ>4)=1-0.2=0.8.3.随机变量ξ服从正态分布N(1,4),若P(2<ξ<3)=a,则P(ξ<-1)+P(1<ξ<2)=( )A.1-a2B.12-aC.a+0.003aD.12+a【解析】选B.因为随机变量ξ服从正态分布N(1,4),所以正态曲线关于x=1对称,因为P(2<ξ<3)=a,所以P(-1<ξ<0)=a,P(1<ξ<2)=P(0<ξ<1),P(ξ<-1)+P(1<ξ<2)=12-a,故选B.4.已知随机变量X服从正态分布N(3,1),且P(2≤X≤4)=0.6826,则P(X>4)= ( )A.0.158 8B.0.158 7C.0.158 6D.0.158 5【解析】选B.P(3≤X≤4)=12P(2≤X≤4)=0.3413,P(X>4)=0.5-P(3≤X≤4)=0.5-0.3413=0.1587.5.设随机变量ξ服从正态分布N(μ,σ2),且二次方程x2+4x+ξ=0无实数根的概率为12,则μ等于( )A.1B.2C.4D.不能确定【解析】选C.因为方程x2+4x+ξ=0无实数根的概率为12,由Δ=16-4ξ<0,得ξ>4,即P(ξ>4)=12=1-P(ξ≤4),故P(ξ≤4)=12,所以μ=4.6. 设某地区某一年龄段的儿童的身高服从均值为135cm,方差为100的正态分布,令ξ表示从中随机抽取的一名儿童的身高,则下列概率中最大的是( )A.P(120<ξ<130)B.P(125<ξ<135)C.P(130<ξ<140)D.P(135<ξ<145)【解析】选C.因为某一年龄段的儿童的身高服从均值为135cm,方差为100的正态分布,即ξ~N(135,100),所以在长度都是10的区间上,概率最大的应该是在对称轴两侧关于对称轴对称的区间,从四个选项可知C最大,故选C.7.设随机变量ξ服从正态分布N(0,1),则下列结论正确的是.①P(|ξ|<a)=P(ξ<a)+P(ξ>-a)(a>0);②P(|ξ|<a)=2P(ξ<a)-1(a>0);③P(|ξ|<a)=1-2P(ξ<a)(a>0);④P(|ξ|<a)=1-P(|ξ|>a)(a>0).【解析】因为P(|ξ|<a)=P(-a<ξ<a),所以①不正确;因为P(|ξ|<a)=P(-a<ξ<a)=P(ξ<a)-P(ξ<-a)=P(ξ<a)-P(ξ>a)=P(ξ<a)-(1-P(ξ<a))=2P(ξ<a)-1,所以②正确,③不正确;因为P(|ξ|<a)+P(|ξ|>a)=1,所以P(|ξ|<a)=1-P(|ξ|>a)(a>0),所以④正确.答案:②④8.在某次数学考试中,考生的成绩服从正态分布N(90,100),则考试成绩在110分以上的概率是.【解析】因为考生的成绩X~N(90,100),所以正态曲线关于x=90对称,且标准差为10,根据3σ原则知P(70<x<110)=P(90-2×10<x<90+2×10)=0.9544,所以考试成绩X位于区间(70,110)上的概率为0.9544,则考试成绩在110分以上的概率是=12(1-0.9544)=0.0228.9.某大型国有企业为10000名员工定制工作服,设员工的身高(单位:cm)服从正态分布N(173,52),则适合身高在163~183cm范围内员工穿的服装大约要定制套.【解析】因为员工的身高(单位:cm)服从正态分布N(173,52),即服从均值为173cm,方差为25的正态分布,因为适合身高在163~183cm范围内取值即在(μ-2σ,μ+2σ)内取值,其概率为:95.44%,从而得出适合身高在163~183cm范围内员工穿的服装大约套数是:10000×95.44%=9544套.10.随机变量ξ服从正态分布N(1,σ2),已知P(ξ<0)=0.3,则P(ξ<2)等于( )A.0.7B.0.6C.0.5D.0.3【解析】选A.根据图象的对称性知P(ξ>2)=P(ξ<0)=0.3,所以P(ξ<2)=1-P(ξ>2)=0.7.11.正态分布N0,49中,数值落在(-∞,-2)∪(2,+∞)内的概率是( )A.0.46B.0.997C.0.03D.0.0026[来源:]【解析】选D.由题意μ=0,σ=23,所以P(-2<X<2)=P0-3×23<X<0+3×23=0.9974,所以P(X<-2)+P(X>2)=1-P(-2≤X≤2)=1-0.9974=0.0026.故选D.12.某中学高考数学成绩近似地服从正态分布N(100,100),则此校数学成绩在80~120分的考生占总人数的百分比为( )A.31.74%B.68.26%C.95.44%D.99.74%【解析】选C.设此校学生的数学成绩为X,随机变量X~N(100,100),所以μ=100,σ2=100,即σ=10.则P(μ-2σ<X≤μ+2σ)=95.44%.故选C.13.我校在模块考试中约有1000人参加考试,其数学考试成绩ξ~N(90,a2)(a>0,试卷满分150分),统计结果显示数学考试成绩在70分到110分之间的人数约为总人数的35,则此次数学考试成绩不低于110分的学生人数约为( )A.600B.400C.300D.200【解析】选D.由平均分为90,考试成绩在70分到110分之间的人数为600,则落在90分到110分之间的人数为300人,故数学考试成绩不低于110分的学生人数约为500-300=200.14.某个部件由三个元件按如图方式连接而成,元件1或元件2正常工作,且元件3正常工作,则部件正常工作,设三个电子元件的使用寿命(单位:小时)均服从正态分布N(1000,502),且各个元件能否正常工作相互独立,那么该部件的使用寿命超过1000小时的概率为.【解析】三个电子元件的使用寿命均服从正态分布N(1000,502)得:三个电子元件的使用寿命超过1000小时的概率为p=12,超过1000小时时元件1或元件2正常工作的概率p1=1-(1-p)2=34,那么该部件的使用寿命超过1000小时的概率为p2=p1×p=38.二、回归分析1.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )A.y与x具有正的线性相关关系B.回归直线过样本点的中心点(x,y)C.若该大学某女生身高增加1cm,则其体重约增加0.85kgD.若该大学某女生身高为170cm,则可断定其体重必为58.79kg【解析】选D.对于A,0.85>0,所以y与x具有正的线性相关关系,故正确;对于B,回归直线过样本点的中心点(x,y),故正确;对于C,因为回归方程为=0.85x-85.71,所以该大学某女生身高增加1cm,则其体重约增加0.85kg,故正确;对于D,x=170cm时,=0.85×170-85.71=58.79,但这是预测值,不可断定其体重为58.79kg,故不正确.2.某单位为了制定节能减排的目标,先调查了用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表: 由表中数据,得线性回归方程y=-2x+a,则a= ( )A.20 B.40C.60D.80【解析】选C.根据所给的表格中的数据,求出数据的样本点的中心,根据样本点的中心在线性回归直线上,代入可得a的值.由表格得x=18+13+10-14=10,y=24+34+38+644=40,因为(x,y)满足线性回归方程y=-2x+a,则可知40=10×(-2)+a,解得:a=60,3.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据(1)请画出上表数据的散点图.(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+.(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【解析】(1)如图(2)由对照数据,计算得:∑i=14xiyi=66.5,∑i=1nxi2=32+42+52+62=86,x=4.5,y=3.5,=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,=y-x=3.5-0.7×4.5=0.35,所求的线性回归方程为:=0.7x+0.35.(3)x=100,=100×0.7+0.35=70.35(吨),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨).三、独立性检验1.下面是一个2×2列联表:则表中a,b的值分别为( )A.54,103B.64,103C.54,93D.64,93【解析】选A.由题意,a+40=94,40+63=b,所以a=54,b=103.2.对于独立性检验,下列说法正确的是( )A.K2独立性检验的统计假设是各事件之间相互独立B.K2可以为负值C.K2独立性检验显示“患慢性气管炎和吸烟习惯有关”,这就是指“有吸烟习惯的人必定会患慢性气管炎”D.2×2列联表中的4个数据可以是任意正数【解析】选A.由独立性检验的检验步骤可知A正确;因为2×2列联表中的数据均为正整数,故K2不可能为负值,排除B;因为K2独立性检验显示“患慢性气管炎和吸烟习惯有关”,是指有一定的出错率,故排除C;因为2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系,故排除D.3.在对人们休闲方式的一次调查中,根据数据建立如下的2×2列联表:为了判断休闲方式是否与性别有关,根据表中数据,得到K2的观测值k≈4.667,因为3.841≤k≤6.635,所以判定休闲方式与性别有关系,那么这种判断出错的可能性至多为( )A.1%B.99%C.5%D.95%选C.因为3.841≤k≤6.635,P(K2≥3.841)≈0.05,P(K2≥6.635)≈0.01,所以判断出错的可能性至多为5%.4.在第29届北京奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2548名男性中有1560名持反对意见,2452名女性中有1200名持反对意见,在运用这些数据说明性别对判断“中国进入了世界体育强国之列”是否有关系时,用什么方法最有说服力( )A.平均数与方差B.回归直线方程C.独立性检验D.概率【解析】选C.由于参加调查的人按性别被分成了两组,而且每一组又被分成了两种情况,判断有关与无关,符合2×2列联表的要求,故用独立性检验最有说服力.5.在列联表中,类1在类B中所占的比例为.【解析】因为由列联表可以看出类1在类B中有c个,而类B共有(c+d)个,所以类1在类B中所占的比例是cc+d.6.某厂家为调查一种新推出的产品的颜色接受程度是否与性别有关,数据如下表:根据表中的数据,得到k≈10.653,因为k≥7.879,所以产品的颜色接受程度与性别有关系,那么这种判断出错的可能性为.【解析】根据k≈10.653,对照临界值表可以得到,这种判断出错的可能性是0.005.7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k≈4.844.则可以在犯错误的概率不超过的前提下认为选修文科与性别有关系.【解析】因为根据表中数据,得到K2的观测值k≈4.844>3.841.所以可以在犯错误的概率不超过0.05的前提下认为选修文科与性别有关系.答案:0.058.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:(1)根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.【解析】(1)将2×2列联表中的数据代入计算公式,得K2的观测值k=100×60×10-20×10280×20×70×30=10021≈4.762,由于4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中抽取3人的一切可能结果所组成的基本事件为下列10个:a1,a2,b1,a1,a2,b2,a1,a2,b3,a1,b1,b2,a1,b1,b3,a1,b2,b3,a2,b1,b2,a2 ,b1,b3,a2,b2,b3,b1,b2,b3,其中ai(i=1,2)表示喜欢甜品的学生,bj(j=1,2,3)表示不喜欢甜品的学生,这10个基本事件的出现是等可能的.抽取3人,至多有1人喜欢甜品的事件为以下7个:a1,b1,b2,a1,b1,b3,a1,b2,b3,a2,b1,b2,a2,b1,b3,a2,b2,b3,b1,b2,b3,从这5名学生中随机抽取3人,至多有1人喜欢甜品的概率为710.。

高考数学概率与统计知识点

高考数学概率与统计知识点

高中数学之概率与统计求等可能性事件、互斥事件和相互独立事件的概率解此类题目常应用以下知识:(1)等可能性事件(古典概型)的概率:P(A)=)()(I card A card =n m;等可能事件概率的计算步骤:计算一次试验的基本事件总数n ;设所求事件A,并计算事件A 包含的基本事件的个数m ; 依公式()mP A n =求值;答,即给问题一个明确的答复.(2)互斥事件有一个发生的概率:P(A+B)=P(A)+P (B); 特例:对立事件的概率:P(A)+P(A )=P(A +A )=1. (3)相互独立事件同时发生的概率:P(A ·B)=P (A )·P(B ); 特例:独立重复试验的概率:Pn(k)=kn k kn p p C --)1(.其中P 为事件A在一次试验中发生的概率,此式为二项式[(1-P)+P]n 展开的第k+1项.(4)解决概率问题要注意“四个步骤,一个结合”:求概率的步骤是:第一步,确定事件性质⎧⎪⎪⎨⎪⎪⎩等可能事件 互斥事件 独立事件 n 次独立重复试验即所给的问题归结为四类事件中的某一种. 第二步,判断事件的运算⎧⎨⎩和事件积事件即是至少有一个发生,还是同时发生,分别运用相加或相乘事件.第三步,运用公式()()()()()()()()(1)k k n k n n m P A nP A B P A P B P A B P A P B P k C p p -⎧=⎪⎪⎪+=+⎨⎪⋅=⋅⎪=-⎪⎩等可能事件: 互斥事件: 独立事件: n 次独立重复试验:求解第四步,答,即给提出的问题有一个明确的答复. 例1. 在五个数字12345,,,,中,。

例2. 若随机取出三个数字,则剩下两个数字都是奇数的概率是(结果用数值表示).[解答过程]0.3提示:1335C 33.54C 102P ===⨯例2.一个总体含有100个个体,以简单随机抽样方式从该总体中抽取一个容量为5的样本,则指定的某个个体被抽到的概率为 .[解答过程]1.20提示:51.10020P == 例3.接种某疫苗后,出现发热反应的概率为0.80.现有5人接种该疫苗,至少有3人出现发热反应的概率为__________.(精确到0.01)[考查目的] 本题主要考查运用组合、概率的基本知识和分类计数原理解决问题的能力,以及推理和运算能力.[解答提示]至少有3人出现发热反应的概率为33244555550.800.200.800.200.800.94C C C ⋅⋅+⋅⋅+⋅=.故填0.94.离散型随机变量的分布列 1.随机变量及相关概念①随机试验的结果可以用一个变量来表示,这样的变量叫做随机变量,常用希腊字母ξ、η等表示.②随机变量可能取的值,可以按一定次序一一列出,这样的随机变量叫做离散型随机变量. ③随机变量可以取某区间内的一切值,这样的随机变量叫做连续型随机变量. 2.离散型随机变量的分布列①离散型随机变量的分布列的概念和性质一般地,设离散型随机变量ξ可能取的值为1x ,2x ,……,ix ,……,ξ取每一个值ix (=i 1,2,……)的概率P(i x =ξ)=i P ,则称下表.为随机变量ξ的概率分布,简称ξ的分布列.由概率的性质可知,任一离散型随机变量的分布列都具有下述两个性质: (1)0≥i P ,=i 1,2,…;(2)++21P P …=1. ②常见的离散型随机变量的分布列: (1)二项分布n 次独立重复试验中,事件A 发生的次数ξ是一个随机变量,其所有可能的取值为0,1,2,…n,并且kn k kn k q p C k P P -===)(ξ,其中n k ≤≤0,p q -=1,随机变量ξ的分布列如下:称这样随机变量ξ服从二项分布,记作),(~p n B ξ,其中n 、p 为参数,并记:),;(p n k b q p C k n k k n =- .(2) 几何分布在独立重复试验中,某事件第一次发生时所作的试验的次数ξ是一个取值为正整数的离散型随机变量,“k ξ=”表示在第k 次独立重复试验时事件第一次发生. 随机变量ξ的概率分布为:例1.厂家在产品出厂前,需对产品做检验,厂家将一批产品发给商家时,商家按合同规定也需随机抽取一定数量的产品做检验,以决定是否接收这批产品.(Ⅰ)若厂家库房中的每件产品合格的概率为0.8,从中任意取出4件进行检验,求至少有1件是合格的概率;(Ⅱ)若厂家发给商家20件产品中,其中有3件不合格,按合同规定该商家从中任取2件.都进行检验,只有2件都合格时才接收这批产品.否则拒收,求出该商家检验出不合格产品数ξ的分布列及期望ξE ,并求出该商家拒收这批产品的概率.[解答过程](Ⅰ)记“厂家任取4件产品检验,其中至少有1件是合格品”为事件A 用对立事件A 来算,有()()4110.20.9984P A P A =-=-=(Ⅱ)ξ可能的取值为0,1,2.()2172201360190C P C ξ===, ()11317220511190C C P C ξ===,()2322032190C P C ξ===136513301219019019010E ξ=⨯+⨯+⨯=.记“商家任取2件产品检验,都合格”为事件B,则商家拒收这批产品的概率()136271119095P P B =-=-=.所以商家拒收这批产品的概率为2795.例12.某项选拔共有三轮考核,每轮设有一个问题,能正确回答问题者进入下一轮考核,否则即被淘汰. 已知某选手能正确回答第一、二、三轮的问题的概率分别为54、53、52,且各轮问题能否正确回答互不影响.(Ⅰ)求该选手被淘汰的概率;(Ⅱ)该选手在选拔中回答问题的个数记为ξ,求随机变量ξ的分布列与数学期望. (注:本小题结果可用分数表示)[解答过程]解法一:(Ⅰ)记“该选手能正确回答第i 轮的问题”的事件为(123)i A i =,,,则14()5P A =,23()5P A =,32()5P A =,∴该选手被淘汰的概率112223112123()()()()()()()P P A A A A A A P A P A P A P A P A P A =++=++142433101555555125=+⨯+⨯⨯=.(Ⅱ)ξ的可能值为123,,,11(1)()5P P A ξ===,1212428(2)()()()5525P P A A P A P A ξ====⨯=, 12124312(3)()()()5525P P A A P A P A ξ====⨯=.ξ∴的分布列为11235252525E ξ∴=⨯+⨯+⨯=.解法二:(Ⅰ)记“该选手能正确回答第i 轮的问题”的事件为(123)i A i =,,,则14()5P A =,23()5P A =,32()5P A =.∴该选手被淘汰的概率1231231()1()()()P P A A A P A P A P A =-=-4321011555125=-⨯⨯=. (Ⅱ)同解法一.(3)离散型随机变量的期望与方差随机变量的数学期望和方差(1)离散型随机变量的数学期望:++=2211p x p x E ξ…;期望反映随机变量取值的平均水平.⑵离散型随机变量的方差:+-+-=222121)()(p E x p E x D ξξξ…+-+n n p E x 2)(ξ…;方差反映随机变量取值的稳定与波动,集中与离散的程度.⑶基本性质:b aE b a E +=+ξξ)(;ξξD a b a D 2)(=+. (4)若ξ~B(n,p),则 np E =ξ ; Dξ =npq(这里q =1-p) ;如果随机变量ξ服从几何分布,),()(p k g k P ==ξ,则p E 1=ξ,D ξ =2p q 其中q=1-p.例1.甲、乙两名工人加工同一种零件,两人每天加工的零件数相等,所得次品数分别为ε、η,ε和η的分布列如下:思路:一是要比较两名工人在加工零件数相等的条件下出次品数的平均值,即期望;二是要看出次品数的波动情况,即方差值的大小.解答过程:工人甲生产出次品数ε的期望和方差分别为:7.0103210111060=⨯+⨯+⨯=εE ,891.0103)7.02(101)7.01(106)7.00(222=⨯-+⨯-+⨯-=εD ;工人乙生产出次品数η的期望和方差分别为:7.0102210311050=⨯+⨯+⨯=ηE ,664.0102)7.02(103)7.01(105)7.00(222=⨯-+⨯-+⨯-=ηD由E ε=E η知,两人出次品的平均数相同,技术水平相当,但D ε>D η,可见乙的技术比较稳定.小结:期望反映随机变量取值的平均水平;方差反映随机变量取值的稳定与波动,集中与离散的程度. 例2.某商场经销某商品,根据以往资料统计,顾客采用的付款期数ξ的分布列为商场经销一件该商品,采用1期付款,其利润为200元;分2期或3期付款,其利润为250元;分4期或5期付款,其利润为300元.η表示经销一件该商品的利润.(Ⅰ)求事件A :“购买该商品的3位顾客中,至少有1位采用1期付款”的概率()P A ;(Ⅱ)求η的分布列及期望E η.[解答过程](Ⅰ)由A 表示事件“购买该商品的3位顾客中至少有1位采用1期付款”. 知A 表示事件“购买该商品的3位顾客中无人采用1期付款”2()(10.4)0.216P A =-=, ()1()10.2160.784P A P A =-=-=.(Ⅱ)η的可能取值为200元,250元,300元.(200)(1)0.4P P ηξ====,(250)(2)(3)0.20.20.4P P P ηξξ===+==+=,(300)1(200)(250)10.40.40.2P P P ηηη==-=-==--=.η的分布列为2000.42500.43000.2E η=⨯+⨯+⨯240=(元).抽样方法与总体分布的估计 抽样方法1.简单随机抽样:设一个总体的个数为N,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.常用抽签法和随机数表法. 2.系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样). 3.分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样. 总体分布的估计由于总体分布通常不易知道,我们往往用样本的频率分布去估计总体的分布,一般地,样本容量越大,这种估计就越精确.总体分布:总体取值的概率分布规律通常称为总体分布.当总体中的个体取不同数值很少时,其频率分布表由所取样本的不同数值及相应的频率表示,几何表示就是相应的条形图.当总体中的个体取值在某个区间上时用频率分布直方图来表示相应样本的频率分布.总体密度曲线:当样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线,即总体密度曲线. 典型例题例1.某工厂生产A 、B 、C 三种不同型号的产品,产品数量之比依次为2:3:5.现用分层抽样方法抽出一个容量为n 的样本,样本中A种型号产品有16件.那么此样本的容量n= .解答过程:A 种型号的总体是210,则样本容量n=1016802⨯=.例2.一个总体中有100个个体,随机编号0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m ,那么在第k 组中抽取的号码个位数字与m k +的个位数字相同,若6m =,则在第7组中抽取的号码是 .解答过程:第K组的号码为(1)10k - ,(1)101k -+,…,(1)109k -+,当m =6时,第k 组抽取的号的个位数字为m+k的个位数字,所以第7组中抽取的号码的个位数字为3 ,所以抽取号码为63.正态分布与线性回归1.正态分布的概念及主要性质(1)正态分布的概念如果连续型随机变量ξ 的概率密度函数为222)(21)(σμπσ--=x ex f ,x R ∈ 其中σ、μ为常数,并且σ>0,则称ξ服从正态分布,记为~N ξ(μ,2σ).(2)期望Eξ =μ,方差2σξ=D .(3)正态分布的性质 正态曲线具有下列性质:①曲线在x 轴上方,并且关于直线x =μ对称.②曲线在x=μ时处于最高点,由这一点向左右两边延伸时,曲线逐渐降低.③曲线的对称轴位置由μ确定;曲线的形状由σ确定,σ越大,曲线越“矮胖”;反之越“高瘦”. 三σ原则即为数值分布在(μ—σ,μ+σ)中的概率为0.6526数值分布在(μ—2σ,μ+2σ)中的概率为0.9544ﻫ数值分布在(μ—3σ,μ+3σ)中的概率为0.9974(4)标准正态分布当μ=0,σ=1时ξ服从标准的正态分布,记作~N ξ(0,1) (5)两个重要的公式①()1()x x φφ-=-,② ()()()P a b b a ξφφ<<=-.(6)2(,)N μσ与(0,1)N 二者联系.若2~(,)N ξμσ,则~(0,1)N ξμησ-=;②若2~(,)N ξμσ,则()()()b a P a b μμξφφσσ--<<=-.2.线性回归简单的说,线性回归就是处理变量与变量之间的线性关系的一种数学方法.变量和变量之间的关系大致可分为两种类型:确定性的函数关系和不确定的函数关系.不确定性的两个变量之间往往仍有规律可循.回归分析就是处理变量之间的相关关系的一种数量统计方法.它可以提供变量之间相关关系的经验公式.具体说来,对n 个样本数据(11,x y ),(22,x y ),…,(,n n x y ),其回归直线方程,或经验公式为:a bx y+=ˆ.其中,,)(1221x b y a x n xyx n yx b ni ini ii⋅-=--=∑∑==,其中y x ,分别为|i x |、|i y |的平均数.例1.如果随机变量ξ~N (μ,σ2),且E ξ=3,D ξ=1,则P(-1<ξ≤1=等于( ) A .2Φ(1)-1 ﻩB.Φ(4)-Φ(2) C.Φ(2)-Φ(4) ﻩD.Φ(-4)-Φ(-2)解答过程:对正态分布,μ=E ξ=3,σ2=D ξ=1,故P (-1<ξ≤1)=Φ(1-3)-Φ(-1-3)=Φ(-2)-Φ(-4)=Φ(4)-Φ(2). 答案:B例2. 将温度调节器放置在贮存着某种液体的容器内,调节器设定在d ℃,液体的温度ξ(单位:℃)是一个随机变量,且ξ~N (d ,0.52). (1)若d=90°,则ξ<89的概率为 ;(2)若要保持液体的温度至少为80 ℃的概率不低于0.99,则d 至少是 ?(其中若η~N(0,1),则Φ(2)=P (η<2)=0.9772,Φ(-2.327)=P(η<-2.327)=0.01).解答过程:(1)P(ξ<89)=F(89)=Φ(5.09089-)=Φ(-2)=1-Φ(2)=1-0.9772=0.0228.(2)由已知d 满足0.99≤P(ξ≥80),即1-P(ξ<80)≥1-0.01,∴P(ξ<80)≤0.01.∴Φ(5.080d-)≤0.01=Φ(-2.327).∴5.080d -≤-2.327.∴d ≤81.1635. 故d 至少为81.1635.小结:(1)若ξ~N(0,1),则η=σμξ-~N(0,1).(2)标准正态分布的密度函数f (x )是偶函数,x<0时,f(x )为增函数,x>0时,f (x )为减函数.。

高二数学正态分布、线性回归知识精讲试题

高二数学正态分布、线性回归知识精讲试题

高二数学正态分布、线性回归知识精讲 人教版制卷人:打自企; 成别使; 而都那。

审核人:众闪壹; 春壹阑; 各厅…… 日期:2022年二月八日。

一. 本周教学内容:高三新课:抽样方法、总体分布的估计、正态分布、线性回归二. 本周教学重、难点:1. 抽样方法:简单随机抽样,系统抽样,分层抽样。

2. 正态分布:〔1〕正态分布的密度函数:222)(21)(σμσπ--=x ex f 〔R x ∈>,0σ〕〔2〕正态曲线〔3〕HY 正态分布的密度函数:2221)(x ex f -=π〔R x ∈〕〔4〕HY 正态曲线 〔5〕正态曲线的性质[例1] 为了理解参加某次数学竞赛的1000名学生的成绩,打算抽取一个容量为50的样本,说明抽样方法。

解:用系统抽样法:假定这1000名学生的编号为1,2,…,1000,由于20:11000:50=,将总体均分成50个局部,其中每一局部包含20个个体,假设第一局部的编号为1,2,…,20,然后在第一局部随机抽取一个号码〔比方它是第18号〕,那么从该号码开场,每隔20抽取一个号码,这样得到一个容量为50的样本:18,38,58,…,978,998即为系统抽样样本。

[例2] 某有在编人员160人,其中行政人员16人,老师112人,后勤人员32人,教育部门为了理解机构HY 意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,并写出抽样过程。

解:因为机构HY 关系到各种人的不同利益,故采用分层抽样方法较为妥当。

∵820160=,∴ 2816=,148112=,4832=。

因行政人员和后勤人员较少,可将他们分别按1~16编号与1~32编号,然后采取抽签法分别抽取2人和4人。

对老师112人采用000,001,…,111编号,然后用随机数表法抽取14人。

[例3] 某批零件一共160个,其中,一级品有48个,二级品有64个,三级品32个,等外品16个,从中抽取一个容量为20的样本。

一元线性回归分析与多元线性回归分析比较

一元线性回归分析与多元线性回归分析比较

58.82333
(11) y y
n
41.08739(12) S .D . 6.573289
(y y )2 n 1
Schwarz criterion
6.694516
Hannan-Quinn criter.
6.528407
Durbin-Watson stat
1.010820 TSS (y y )2 (n 1) (S .D .)2

j
至少一个x j 对因变量
有影响。 P值
p
方程的显著性检验
一元线性回归分析
相关系数 r Lxy Lxx Lyy
拟合优度
TSS=ESS+RSS
R 2
ESS TSS
(yˆt y )2 (yt y )2
1
RSS TSS
ESS
F检验 F RSS 1
(n 2)
多元线性回归分析 拟合优度 TSS=ESS+RSS
n
n
t2
yt (ˆ0 ˆ1 x1t ˆ2 x2t ˆk xkt ) 2
t 1
t 1
β参数最小二乘估计量的统计性质
一元线性回归分析 (1)线性性 (2)无偏性 (3)有效性
多元线性回归分析
(1)线性
(2)无偏性
(3)最小方差性 (4)参数的最小二乘估计量服 从正态分布
2 的估计量
一元线性回归分析
输出结果的变量关系
Dependent Variable: Y Method: Least Squares Date: 10/25/11 Time: 21:03 Sample: 1 12 Included observations: 12
(5)

线性回归正态分布

线性回归正态分布

每日作业线性回归一、选择题1.(2011·陕西卷)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()A.x和y的相关系数为直线l的斜率B.x和y的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同D.直线l过点(x,y)2.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r 0.820.780.690.85m 106115124103则哪位同学的试验结果体现A、B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁3.下面是一个2×2列联表y1y2总计x1 a 2173x222527总计 b 46则表中a、b处的值分别为()A.94、96 B.52、50 C.52、54 D.54、524.对分类变量X与Y的随机变量K2的观测值k,说法正确的是()A.k越大,“X与Y有关系”可信程度越小B.k越小,“X与Y有关系”可信程度越小C.k越接近于0,“X与Y无关”程度越小D.k越大,“X与Y无关”程度越大5.(2011·山东卷)某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)423 5销售额y(万元)49263954根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元6.在第29届奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居世界金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明性别对判断“中国进入体育强国之列”是否有关系时,用什么方法最有说服力()A.平均数与方差B.回归直线方程C.独立性检验D.概率二、填空题7.已知一个线性回归方程为=1.5x+45(x i∈{1,7,5,13,19}),则y=________.8.第二十届世界石油大会将于2011年12月4日-8日在卡塔尔首都多哈举行,能源问题已经成为全球关注的焦点.某工厂经过技术改造后,降低了能源消耗,经统计该厂某种产品的产量x(单位:吨)与相应的生产能耗y(单位:吨)有如下几组样本数据:x 3456y 2.534 4.5根据相关性检验,这组样本数据具有线性相关关系,通过线性回归分析,求得回归直线的斜率为0.7.已知该产品的年产量为10吨,则该工厂每年大约消耗的汽油为________吨.9.x和y的散点图如图,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R21,用y=bx+a拟合时的相关指数为R22,则R21>R22;③x、y之间不能建立回归直线方程.三、解答题10.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:推销员编号1234 5工作年限x/年35679推销金额y/万元2334 5(1)以工作年限为自变量x,推销金额为因变量y,作出散点图;(2)求年推销金额y关于工作年限x的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.11.(2011·广雅中学高三模拟)为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:喜爱打篮球不喜爱打篮球合计 男生 5 女生 10 合计50已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99.5%的把握认为喜爱打篮球与性别有关?说明你的理由.12.2011年3月,日本发生了9.0级地震,地震引发了海啸及核泄漏.某国际组织用分层抽样的方法从心理专家、核专家、地质专家三类专家中抽取若干人组成研究团队赴日本工作,有关数据见表1(单位:人).核专家为了检测当地动物受核辐射后对身体健康的影响,随机选取了110只羊进行了检测,并将有关数据整理为不完整的2×2列联表(表2).表1相关人员数抽取人数心理专家 24 x 核专家 48 y 地质专家72 6表2高度辐射 轻微辐射合计 身体健康 30 A 50 身体不健康 B 10 60 合计CDE附:临界值表K 0 2.072 2.706 3.841 5.024 6.635 7.879 10.828 P (K 2≥K 0)0.150.100.050.0250.0100.0050.001参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(1)求研究小组的总人数;(2)写出表2中A 、B 、C 、D 、E 的值,并判断有多大的把握认为羊受到高度辐射与身体不健康有关.每日作业 正态分布一、选择题1.(2012·深圳调研)已知三个正态分布密度函数φi (x )=12πσie -(x -μi )22σi 2(x ∈R ,i =1,2,3)的图象如图所示,则( )A .μ1<μ2=μ3,σ1=σ2>σ3B .μ1>μ2=μ3,σ1=σ2<σ3C .μ1=μ2<μ3,σ1<σ2=σ3D .μ1<μ2=μ3,σ1=σ2<σ32.已知X 的分布列为X -1 0 1 P121316,且Y =aX +3,EY =73,则a 为( )A .1B .2C .3D .43.正态总体N (1,9)在区间(2,3)和(-1,0)上取值的概率分别为m ,n ,则( ) A .m >n B .m <n C .m =n D .不确定4.已知随机变量ξ+η=8,若ξ~B (10,0.6),则E (η),D (η)分别是( ) A .6和2.4 B .2和2.4 C .2和5.6 D .6和5.65.口袋中有5只球,编号分别为1,2,3,4,5,从中任意取3只球,以X 表示取出的球的最大号码,则X 的期望E (X )的值是( )A .4B .4.5C .4.75D .56.某种种子每粒发芽的概率都为0.9,现播种了1 000粒,对于没有发芽的种子,每粒需再补种2粒,补种的种子数记为X ,则X 的数学期望为( )A .100B .200C .300D .400 二、填空题7.若p 为非负实数,随机变量X 的概率分布如下表,则E (X )的最大值为________,D (X )的最大值为________.X 0 1 2 P12-p p128.拋掷两个骰子,至少有一个4点或5点出现时,就说这次试验成功,则在10次试验中,成功次数X 的期望是________.9.某班有50名学生,一次考试后数学成绩X (X ∈N)服从正态分布N (100,102),已知P (90≤X ≤100)=0.3,估计该班学生数学成绩在110分以上的人数为________.每日作业 线性回归一、选择题1.(2011·陕西卷)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()A.x和y的相关系数为直线l的斜率B.x和y的相关系数在0到1之间C.当n为偶数时,分布在l两侧的样本点的个数一定相同D.直线l过点(x,y)解析:因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以A、B错误.C中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以C错误.根据回归直线方程一定经过样本中心点可知D 正确.所以选D.答案: D2.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r 0.820.780.690.85m 106115124103则哪位同学的试验结果体现A、B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁解析:丁同学所得相关系数0.85最大,残差平方和m最小,所以A、B两变量线性相关性更强.答案: D3.下面是一个2×2列联表y1y2总计x1 a 2173x222527总计 b 46则表中a、b处的值分别为()A.94、96 B.52、50C.52、54 D.54、52解析:∵a+21=73,∴a=52,又a+2=b,∴b =54. 答案: C4.对分类变量X 与Y 的随机变量K 2的观测值k ,说法正确的是( ) A .k 越大,“X 与Y 有关系”可信程度越小 B .k 越小,“X 与Y 有关系”可信程度越小 C .k 越接近于0,“X 与Y 无关”程度越小 D .k 越大,“X 与Y 无关”程度越大解析: k 越大,说明“X 与Y 有关系”成立的可信程度越大,反之越小. 答案: B5.(2011·山东卷)某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程=x +中的为9.4,据此模型预报广告费用为6万元时销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析: ∵x =4+2+3+54=72,y =49+26+39+544=42,又=x +必过(x ,y ),∴42=72×9.4+,∴=9.1.∴线性回归方程为=9.4x +9.1.∴当x =6时,=9.4×6+9.1=65.5(万元). 答案: B6.在第29届奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居世界金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见.有网友为此进行了调查,在参加调查的2 548名男性公民中有1 560名持反对意见,2 452名女性公民中有1 200人持反对意见,在运用这些数据说明性别对判断“中国进入体育强国之列”是否有关系时,用什么方法最有说服力( )A .平均数与方差B .回归直线方程C .独立性检验D .概率解析: 由于参加调查的公民性别分别被分成了两组,而且每一组被分成了两种情况,认为有关与无关符合2×2列联表的要求,故用独立性检验最有说服力.答案: C 二、填空题7.已知一个线性回归方程为=1.5x +45(x i ∈{1,7,5,13,19}),则y =________. 解析: 线性回归方程为=1.5x +45,经过点(x ,y ),由x =9,知y =58.5. 答案: 58.58.第二十届世界石油大会将于2011年12月4日-8日在卡塔尔首都多哈举行,能源问题已经成为全球关注的焦点.某工厂经过技术改造后,降低了能源消耗,经统计该厂某种产品的产量x (单位:吨)与相应的生产能耗y (单位:吨)有如下几组样本数据:x 3 4 5 6 y2.5344.5根据相关性检验,这组样本数据具有线性相关关系,通过线性回归分析,求得回归直线的斜率为0.7.已知该产品的年产量为10吨,则该工厂每年大约消耗的汽油为________吨.解析: 由题知,x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,故样本数据的中心点为A (4.5,3.5).设回归直线方程为y =0.7x +b ,将中心点坐标代入得:3.5=0.7×4.5+b ,解得b =0.35,故回归直线方程为y =0.7x +0.35,所以当x =10时,y =0.7×10+0.35=7.35,即该工厂每年大约消耗的汽油为7.35吨.答案: 7.359.x 和y 的散点图如图,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1ec 2x 拟合时的相关指数为R 21,用y =bx +a 拟合时的相关指数为R 22,则R 21>R 22;③x 、y 之间不能建立回归直线方程.解析: ①显然正确;由散点图知,用y =c 1ec 2x 拟合的效果比用y =bx +a 拟合的效果要好,∴②正确;x ,y 之间能建立回归直线方程,只不过预报精度不高,∴③不正确.答案: ①② 三、解答题10.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:推销员编号 1 2 3 4 5 工作年限x /年 3 5 6 7 9 推销金额y /万元23345(1)以工作年限为自变量x ,推销金额为因变量y ,作出散点图; (2)求年推销金额y 关于工作年限x 的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额. 解析: (1)依题意,画出散点图如图所示,(2)从散点图可以看出,这些点大致在一条直线附近,设所求的线性回归方程为=x +.则=∴年推销金额y 关于工作年限x 的线性回归方程为 =0.5x +0.4.(3)由(2)可知,当x =11时,=0.5x +0.4=0.5×11+0.4=5.9(万元).∴可以估计第6名推销员的年推销金额为5.9万元.11.(2011·广雅中学高三模拟)为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:喜爱打篮球不喜爱打篮球合计 男生 5 女生 10 合计50已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99.5%的把握认为喜爱打篮球与性别有关?说明你的理由. 解析: (1)喜爱打篮球 不喜爱打篮球 合计男生 20 5 25 女生 10 15 25 合计302050(2)∵K 2=50×(20×15-10×5)230×20×25×25≈8.333>7.879.∴有99.5%的把握认为“喜爱打篮球与性别有关”.12.2011年3月,日本发生了9.0级地震,地震引发了海啸及核泄漏.某国际组织用分层抽样的方法从心理专家、核专家、地质专家三类专家中抽取若干人组成研究团队赴日本工作,有关数据见表1(单位:人).核专家为了检测当地动物受核辐射后对身体健康的影响,随机选取了110只羊进行了检测,并将有关数据整理为不完整的2×2列联表(表2).表1相关人员数抽取人数心理专家 24 x 核专家 48 y 地质专家72 6表2高度辐射 轻微辐射合计 身体健康 30 A 50 身体不健康 B 10 60 合计CDE附:临界值表K 0 2.072 2.706 3.841 5.024 6.635 7.879 10.828 P (K 2≥K 0)0.150.100.050.0250.0100.0050.001参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(1)求研究小组的总人数;(2)写出表2中A 、B 、C 、D 、E 的值,并判断有多大的把握认为羊受到高度辐射与身体不健康有关.解析: (1)依题意知726=48y =24x ,解得y =4,x =2.所以研究小组的总人数为2+4+6=12.(2)根据列联表特点得A =20,B =50,C =80,D =30,E =110. 可求得K 2=110×(30×10-50×20)250×60×80×30≈7.486>6.635.由临界值表知,有99%的把握认为羊受到高度辐射与身体不健康有关.每日作业 正态分布一、选择题1.(2012·深圳调研)已知三个正态分布密度函数φi (x )=12πσie -(x -μi )22σi 2(x ∈R ,i =1,2,3)的图象如图所示,则( ) A .μ1<μ2=μ3,σ1=σ2>σ3 B .μ1>μ2=μ3,σ1=σ2<σ3 C .μ1=μ2<μ3,σ1<σ2=σ3D .μ1<μ2=μ3,σ1=σ2<σ3解析: 正态分布密度函数φ2(x )和φ3(x )的图象都是关于同一条直线对称,所以其平均数相同,故μ2=μ3,又φ2(x )的对称轴的横坐标值比φ1(x )的对称轴的横坐标值大,故有μ1<μ2=μ3.又σ越大,曲线越“矮胖”,σ越小,曲线越“瘦高”,由图象可知,正态分布密度函数φ1(x )和φ2(x )的图象一样“瘦高”,φ3(x )明显“矮胖”,从而可知σ1=σ2<σ3.答案: D2.已知X 的分布列为X -1 0 1 P121316,且Y =aX +3,EY =73,则a 为( )A .1B .2C .3D .4解析: 先求出E (X )=(-1)×12+0×13+1×16=-13.再由Y =aX +3得E (Y )=aE (X )+3. ∴73=a ⎝⎛⎭⎫-13+3,解得a =2. 答案: B3.正态总体N (1,9)在区间(2,3)和(-1,0)上取值的概率分别为m ,n ,则( ) A .m >nB .m <nC .m =nD .不确定解析: 正态总体N (1,9)的曲线关于x =1对称,区间(2,3)与(-1,0)与对称轴距离相等,故m =n .答案: C4.已知随机变量ξ+η=8,若ξ~B (10,0.6),则E (η),D (η)分别是( )A .6和2.4B .2和2.4C .2和5.6D .6和5.6解析: 若两个随机变量η,ξ满足一次关系式η=aξ+b (a ,b 为常数),当已知E (ξ)、D (ξ)时,则有E (η)=aE (ξ)+b ,D (η)=a 2D (ξ).由已知随机变量ξ+η=8,所以有η=8-ξ.因此,求得E (η)=8-E (ξ)=8-10×0.6=2,D (η)=(-1)2D (ξ)=10×0.6×0.4=2.4.答案: B5.口袋中有5只球,编号分别为1,2,3,4,5,从中任意取3只球,以X 表示取出的球的最大号码,则X 的期望E (X )的值是( )A .4B .4.5C .4.75D .5解析: X 的所有可能取值是3,4,5,且P (X =3)=1C 53=110,P (X =4)=C 32C 53=310, P (X =5)=C 42C 53=610=35, ∴E (X )=3×110+4×310+5×35=4.5. 答案: B6.某种种子每粒发芽的概率都为0.9,现播种了1 000粒,对于没有发芽的种子,每粒需再补种2粒,补种的种子数记为X ,则X 的数学期望为( )A .100B .200C .300D .400 解析: 种子发芽率为0.9,不发芽率为0.1,每粒种子发芽与否相互独立,故设没有发芽的种子数为ξ,则ξ~B (1 000,0.1),∴Eξ=1 000×0.1=100,故X 的期望为2·Eξ=200.答案: B二、填空题7.若p 为非负实数,随机变量X 的概率分布如下表,则E (X )的最大值为________,D (X )的最大值为________. X0 1 2 P 12-p p 12 解析: ∵⎩⎪⎨⎪⎧ 0≤12-p <10≤p <1,∴p ∈⎣⎡⎦⎤0,12, ∴E (X )=p +1≤32,D (X )=-p 2-p +1≤1. 答案: 321 8.拋掷两个骰子,至少有一个4点或5点出现时,就说这次试验成功,则在10次试验中,成功次数X 的期望是________.解析: 由题意一次试验成功的概率为1-23×23=59,10次试验为10次独立重复试验,则成功次数X ~B ⎝⎛⎭⎫10,59,所以E (X )=509. 答案: 509 9.某班有50名学生,一次考试后数学成绩X (X ∈N)服从正态分布N (100,102),已知P (90≤X ≤100)=0.3,估计该班学生数学成绩在110分以上的人数为________.解析: 由题意知,P (X >110)=1-2P (90≤X ≤100)2=0.2, ∴该班学生数学成绩在110分以上的人数为0.2×50=10.答案: 10。

【新人教】高考数学总复习专题训练正态分布、线性回归2013

【新人教】高考数学总复习专题训练正态分布、线性回归2013

正态分布、线性回归1.已知从某批材料中任取一件时,取得的这件材料的强度ε~N (200,18),则取得的这件材料的强度不低于180的概率为( )A .0.9973B .0.8665C .0.8413D .0.81592.已知连续型随机变量x 的概率密度函数是⎪⎩⎪⎨⎧>≤≤<=b x 0b x a A a x 0)(x f 其中常数A>0,则A 的值为( )A .1B .bC .ab -1D .b-a3.某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程x y 82.136.77^-=,则以下说法中正确的是 ( ) A .产量每增加1000件,单位成本下降1.82元 B .产量每减少1000件,单位成本上升1.82元 C .产量每增加1000件,单位成本上升1.82元 D .产量每减少1000件,单位成本下降1.82元4.工人月工资(元)依劳动生产率(千元)变化的回归方程为x y 9060^+=,下列判断正确的是 ( ) A .劳动生产率为1000元时,工资为150元 B .劳动生产率提高1000元时,工资提高150元 C .劳动生产率提高1000元时,工资提高90元 D .劳动生产率为1000元时,工资为90元 5.若随机变量ε~N (5,2),且P(ε<a)=0.9,则a=_____________。

6.已知连续型随机变量x 的分布函数为:⎪⎩⎪⎨⎧≤<≤<=21 a 1x 0ax0)(x x f 其他 则a=___________,=<)23(x P _____________。

7.设随机变量ε服从N (0,1),求下列各式的值:(1)P(ε≥2.55); (2)P(ε<-1.44); (3)P(|ε|<1.52)。

8.某厂生产的圆柱形零件的外径ε~N (4,0.25)。

质检人员从该厂生产的1000件零件中随机抽查一件,测得它的外径为5.7cm 。

高二数学正态分布、线性回归知识精讲 试题

高二数学正态分布、线性回归知识精讲 试题

高二数学正态分布、线性回归人教版制卷人:歐陽文化、歐陽理複;制卷時間:二O 二二年二月七日【同步教育信息】一. 本周教学内容正态分布、线性回归二. 重点、难点 〔一〕抽样方法1. 简单随机抽样⎩⎨⎧随机数表法抽签法2. 系统抽样3. 分层抽样关键:三种抽样均使每个个体被抽到的概率相等〔二〕总体分布总体分布曲条形图线总体密度频率分布直方图频率分布条⎪⎩⎪⎨⎧---累积频率分布,曲线上一点),(b a P 即:)(a P b <=ξ〔三〕正态分布1. 正态分布),(2σμN ,其总体密度曲线近似为函数。

R x x f x ∈=--222)(21)(σμσσπ 〔σμ,为参数,0>σ〕〔1〕曲线在x 轴上方,与x 轴不相交。

〔2〕曲线关于直线μ=x 对称。

〔3〕μ=x 时,)(x f 获得最大值。

〔4〕↑-∞),(μ↓∞+),(μ〔6〕σ越大,曲线越“矮胖〞,σ越小曲线越“高瘦〞。

2. HY 正态分布)1,0(N2221)(x ex f -=πR x ∈〔1〕偶函数 〔2〕π21)(max =x f〔3〕↑-∞)0,( ),0(∞+↓ 3. HY 正态分布)(1)()(000x x x P x --=<=φφ )()()(a b b x a P φφ-=<<4. 一般正态分布与HY 正态分布的转化),(2σμN 中,)()()(σμφξ-=<=x x P x F〔四〕线性回归相关关系、回归分析、散点图 数据)(21n x x x n x +++=)(121n y y y ny +++=2222121n i x x x xni +++=∑=2222121n i y y y yn i +++=∑=n n iiy x y x y x yx ni +++=∑= 22111∴ 2211xn xyx n y x b ni ni ii i --=∑∑== x b y a -=回归直线方程a bx y+=ˆ 样本相关系数))((2222111y n y x n x yx n yx r ni ni ii i i ni ---=∑∑∑===1≤r 且r 越接近于1,相关程度越大r 越接近0,相关程度越小05.0r r > 回归直线方程有意义05.0r r ≤ 回归直线方程无意义【典型例题】[例1] 某政府机关在职人员100人,其中副处级HY10人,一般HY70人,职员20人,上级机关为理解政府机构HY 的意见,要从中抽一个容量为10人的样本应选择〔 D 〕A. 抽签法B. 随机数表法C. 系统抽样D. 分层抽系[例2] 某校高中生一共有900人,其中高一年级300人,高二年级200人,高三年级400人,现采用分层抽样抽取一个容量为45的样本,那么高一、高二、高三各年级抽取人数分别为〔 D 〕A. 15,5,25B. 15,15,15C. 10,5,30D. 15,10,20=n 〔 B 〕A. 750B. 120C. 240D. 150[例4] ξ~)05.0,4.1(N ,=<<)45.135.1(ξP 〔 C 〕A. 8413.0B. 4406.0C. 6826.0D. 5671.0[例5] 一个容量为20的样本数据,分组后组距与频数如下:]20,10(2个,]30,20(3个,]40,30(4个,]50,40(5个,]60,50(4个,]70,60(2个,那么样本在区间〔∞-,50〕上的频率为〔 D 〕A. 5%B. 25%C. 50%D. 70%[例6] 线性回归方程a bx y+=ˆ过定点),(y x 。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正态分布、线性回归一、 知识梳理1.正态分布的重要性正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。

一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。

2.正态曲线及其性质正态分布函数:22()2()x f x μσ--=,x ∈(-∞,+∞)3.标准正态曲线标准正态曲线N (0,1)是一种特殊的正态分布曲线,00()1()x x Φ-=-Φ,以及标准正态总体在任一区间(a ,b)内取值概率)()(a b P Φ-Φ=。

4.一般正态分布与标准正态分布的转化由于一般的正态总体),(2σμN 其图像不一定关于y 轴对称,对于任一正态总体),(2σμN ,其取值小于x 的概率)()(σμ-Φ=x x F 。

只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。

5.“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。

这种认识便是进行推断的出发点。

关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。

进行假设检验一般分三步:第一步,提出统计假设。

课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2σμN ; 第二步,确定一次试验中的取值a 是否落入范围(μ-3σ,μ+3σ); 第三步,作出推断。

如果a ∈(μ-3σ,μ+3σ),接受统计假设;如果)3,3(σμσμ+-∉a ,由于这是小概率事件,就拒绝统计假设。

6.相关关系研究两个变量间的相关关系是学习本节的目的。

对于相关关系我们可以从下三个方面加以认识:⑴相关关系与函数关系不同。

函数关系中的两个变量间是一种确定性关系。

相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。

⑵函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。

⑶函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。

7.回归分析本节所研究的回归分析是回归分析中最简单,也是最基本的一种类型——一元线性回归分析。

对于线性回归分析,我们要注意以下几个方面:⑴回归分析是对具有相关关系的两个变量进行统计分析的方法。

两个变量具有相关关系是回归分析的前提。

⑵散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。

⑶求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。

8.相关系数有时散点图中的各点并不集中在一条直线的附近,仍可以按照求回归直线方程的步骤求得回归直线方程。

显然这种情形下求得的回归直线方程没有实际意义。

那么,在什么情况下求得的回归直线方程才能对相应的一组观测数据具有代表意义?课本中不加证明地给出了相关系数的公式。

相关系数公式的作用在于,我们对一组数据之间的线性相关程度可作出定量的分析,而不是仅凭画出散点图,直觉地从散点图的形状粗浅地得出数据之间的线性相关程度。

9.线性相关性检验相关性检验是一种假设检验,它给出了一个具体检验y 与x 之间线性相关与否的具体办法。

限于要求,中学阶段只要求掌握这种检验方法的操作步骤,而不要求对这种方法包含的原理进行深入研究。

其具体检验的步骤如下:⑴在课本中的附表3中查出与显著性水平0.05与自由度n-2(n 为观测值组数)相应的相关系数临界值05.0r 。

⑵根据公式∑∑∑===---=ni ni i i ni ii y n y x n x yx n yx r 1212221))((计算r 的值。

⑶检验所得结果。

如果05.0||r r ≤,那么可以认为y 与x 之间的线性相关关系不显著,从而接受统计假设。

如果05.0||r r >,表明一个发生的概率不到5%的事件在一次试验中竟发生了。

这个小概率事件的发生使我们有理由认为y 与x 之间不具有线性相关关系的假设是不成立的,拒绝这一统计假设也就是表明可以认为y 与x 之间具有线性相关关系。

二、基础训练1.如果随机变量ξ~N (μ,σ2),且E ξ=3,D ξ=1,则P (-1<ξ≤1=等于B A.2Φ(1)-1 B.Φ(4)-Φ(2) C.Φ(2)-Φ(4) D.Φ(-4)-Φ(-2)2. 随机变量ξ服从正态分布N (0,1),如果P (ξ<1)=0.8413,则P (-1<ξ<0)= .三、例题剖析【例1】 将温度调节器放置在贮存着某种液体的容器内,调节器设定在d ℃,液体的温度ξ(单位:℃)是一个随机变量,且ξ~N (d ,0.52). (1)若d =90°,求ξ<89的概率;(2)若要保持液体的温度至少为80 ℃的概率不低于0.99,问d 至少是多少?(其中若η~N (0,1),则Φ(2)=P (η<2)=0.9772,Φ(-2.327)=P (η<-2.327)=0.01).剖析:(1)要求P (ξ<89)=F (89),∵ξ~N (d ,0.5)不是标准正态分布,而给出的是Φ(2),Φ(-2.327),故需转化为标准正态分布的数值.(2)转化为标准正态分布下的数值求概率p ,再利用p ≥0.99,解d .解:(1)P (ξ<89)=F (89)=Φ(5.09089-)=Φ(-2)=1-Φ(2)=1-0.9772=0.0228. (2)由已知d 满足0.99≤P (ξ≥80),即1-P (ξ<80)≥1-0.01,∴P (ξ<80)≤0.01. ∴Φ(5.080d-)≤0.01=Φ(-2.327). ∴5.080d-≤-2.327. ∴d ≤81.1635.故d 至少为81.1635.评述:(1)若ξ~N (0,1),则η=σμξ-~N (0,1).(2)标准正态分布的密度函数f (x )是偶函数,x <0时,f (x )为增函数,x >0时,f (x )为减函数.【例2】一投资者在两个投资方案中选择一个,这两个投资方案的利润x (万元)分别服从正态分布N (8,32)和N (6,22),投资者要求利润超过5万元的概率尽量地大,那么他应选择哪一个方案?解:对第一个方案,有x ~N (8,32),于是P (x >5)=1-P (x ≤5)=1-F (5)=1-Φ(385-)=1-Φ(-1)=1-[1-Φ(1)]=Φ(1)=0.8413.对第二个方案,有x ~N (6,22),于是P (x >5)=1-P (x ≤5)=1-F (5)=1-Φ(265-)=1-Φ(-0.5)=Φ(0.5)=0.6915. 相比之下,“利润超过5万元”的概率以第一个方案为好,可选第一个方案.【例3】设),(~2σμN X ,且总体密度曲线的函数表达式为:412221)(+--=x x ex f π,x ∈R 。

⑴求μ,σ;⑵求)2|1(|<-x P 及)22121(+<<-x P 的值。

【例4】公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的,如果某地成年男子的身高ε~N (173,7)(单位:cm ),问车门应设计多高(精确到1cm )?解:设公共汽车门的设计高度为x cm ,由题意,需使P (ξ≥x )<1%.∵ξ~N (173,72),∴P (ξ≤x )=Φ(7173-x )>0.99. 查表得7173-x >2.33,∴x >189.31,即公共汽车门的高度应设计为190 cm ,可确保99%以上的成年男子头部不跟车门顶部碰撞.同步练习 正态分布、线性回归1.已知从某批材料中任取一件时,取得的这件材料的强度ε~N (200,18),则取得的这件材料的强度不低于180的概率为( )A .0.9973B .0.8665C .0.8413D .0.81592.已知连续型随机变量x 的概率密度函数是⎪⎩⎪⎨⎧>≤≤<=b x 0b x a A a x 0)(x f其中常数A>0,则A 的值为( )A .1B .bC .ab -1D .b-a3.某工厂某产品产量x (千件)与单位成本y (元)满足回归直线方程x y 82.136.77^-=,则以下说法中正确的是 ( ) A .产量每增加1000件,单位成本下降1.82元 B .产量每减少1000件,单位成本上升1.82元 C .产量每增加1000件,单位成本上升1.82元 D .产量每减少1000件,单位成本下降1.82元4.工人月工资(元)依劳动生产率(千元)变化的回归方程为x y 9060^+=,下列判断正确的是( ) A .劳动生产率为1000元时,工资为150元 B .劳动生产率提高1000元时,工资提高150元 C .劳动生产率提高1000元时,工资提高90元 D .劳动生产率为1000元时,工资为90元 5.若随机变量ε~N (5,2),且P(ε<a)=0.9,则a=_____________。

6.已知连续型随机变量x 的分布函数为:⎪⎩⎪⎨⎧≤<≤<=21 a 1x 0ax 0)(x x f 其他则a=___________,=<)23(x P _____________。

7.设随机变量ε服从N (0,1),求下列各式的值:(1)P(ε≥2.55); (2)P(ε<-1.44); (3)P(|ε|<1.52)。

8.某厂生产的圆柱形零件的外径ε~N (4,0.25)。

质检人员从该厂生产的1000件零件中随机抽查一件,测得它的外径为5.7cm 。

试问该厂生产的这批零件是否合格?9.现随机抽取了我校10名学生在入学考试中的数学成绩(x )与入学后的第一次考试中的数学成绩(y ),10.某工业部门进行一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机抽取选了10(1)计算x 与y 的相关系数;(2)对这两个变量之间是否线性相关进行相关性检验;(3)设回归直线方程为a bx y +=^,求系数a ,b 。

同步练习(参考答案):1.B 2.C 3.A 4.C 5.6.52 6.32=a ,32)23(=<x P 提示:5.因为ε~N (5,2),9.0)25()(=-=<a a P φε,查表知28.125=-a ,解得a=6.52。

相关文档
最新文档