1-数理统计基础
数理统计基础公式详解样本统计量与抽样分布
数理统计基础公式详解样本统计量与抽样分布数理统计作为一门重要的学科,为我们分析和理解数据提供了基础和方法。
在数理统计中,样本统计量和抽样分布是两个关键概念。
本文将详细解释这些概念,并介绍相关的公式和定理。
一、样本统计量样本统计量是从数据样本中计算得到的数值,用于描述总体的特征。
常用的样本统计量有平均值、方差、标准差、相关系数等。
下面我们将详细介绍这些统计量以及它们的计算公式。
1. 平均值平均值是一组数据的总和除以观测数量,用于衡量数据的集中趋势。
样本平均值的计算公式如下:\[ \overline{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]其中,\( \overline{x} \) 表示样本平均值,\( x_i \) 表示第 i 个观测值,n 表示观测数量。
2. 方差方差衡量了一组数据的离散程度,它表示各观测值与平均值之差的平方和的平均值。
样本方差的计算公式如下:\[ S^2 = \frac{\sum_{i=1}^{n} (x_i - \overline{x})^2}{n-1} \]其中,\( S^2 \) 表示样本方差,\( x_i \) 表示第 i 个观测值,\( \overline{x} \) 表示样本平均值,n 表示观测数量。
3. 标准差标准差是方差的平方根,用于衡量数据的离散程度。
样本标准差的计算公式如下:\[ S = \sqrt{S^2} \]其中,S 表示样本标准差,\( S^2 \) 表示样本方差。
4. 相关系数相关系数衡量了两个变量之间的线性关系的强弱和方向。
样本相关系数的计算公式如下:\[ r = \frac{\sum_{i=1}^{n} (x_i - \overline{x})(y_i -\overline{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \overline{x})^2 \sum_{i=1}^{n} (y_i - \overline{y})^2}} \]其中,r 表示样本相关系数,\( x_i \) 和 \( y_i \) 分别表示第 i 个观测值的两个变量,\( \overline{x} \) 和 \( \overline{y} \) 分别表示两个变量的样本平均值,n 表示观测数量。
数理统计的基础知识
样本容量:=10
1 10 1 (2)x xi (100+85+&&+86)=78.1 10 i 1 10
n 1 1 * 2 2 2 s ( x x ) [21.9 6.9 i n 1 i 1 9
1. 定义 设 1 ,
称为自由度为n的 分布.
2. 临界值表的结构和使用 设 ~ 2(n),若对于: 0<<1,
存在
则称
2
0 满足 2 2 P{ } , 为 2 (n) 分布的上分位点。
2
( ; n)
2 2
例16.3 给定=0.05,自由度n=25,求 满足下面等式的临界值:
2 *2
1 x,1 x 0, 解:分布密度为 p( x) 1 x,0 x 1, 0, 其它
则 E x(1 x)dx x(1 x)dx 0
1 0
0
1
1 D x (1 x )dx x (1 x )dx 1 0 6
(4) F 统计量及其分布
总体 ~ N (1, 12),(1, 2, ... n1 )为样本, ,S
*2 1
1 2 ( ) i n1 1 i 1
2 2
n1
总体 ~ N (2, ),(1, 2, ... n2 )为样本, , S 2*2 1 n2 2 ( ) i n2 1 i 1
(1) P{F 2 } (2) P{F 1}
解 (1)2 F ( ; n1, n2 ) F (0.1;10,5) 3.3
数理统计基础
Y
X12
X
2 3
X2 2n1
X
2 2
X
2 4
X
2 2n
.
解 X1 , X 2 ,, X 2n 相互独立, 且均服从 N (0, 2 ) , 则
( X i )2 , i 1,2,,2n 相互独立,且均服从 2 (1) ,
由 2 分布的可加性,知
U ( X1 )2 ( X3 )2 ( X2n1 )2 ~ 2(n) ,
方差 S 2 , 有 E( X ) , D( X ) 2 , E(S 2 ) 2 .
n 证 X1, X 2 ,, Xn 相互独立,且与总体 X 同分布,故有
E( X i ) E( X ) , D( X i ) D( X ) 2 , i 1,2,, n
所以
E( X )
E( 1 n
n i 1
(Xi
X
)2
1 n1
n
(
i 1
X
2 i
nX
2)
n
n
推导:
(Xi X )2
(
X
2 i
2Xi
X
X
2)
i 1
i 1
n
n
n
X
2 i
2X
Xi
X2
i 1
i 1
i 1
n
n
X
2 i
2X
nX
nX
2
X
2 i
nX
2
.
i1
i1
14
样本k阶原点矩 样本k阶中心矩
Ak
1 n
n i 1
X
k i
,
1. 代表性: X1,X2,…,Xn中每一个与所考察的总体 有相同的分布. 2. 独立性: X1,X2,…,Xn是相互独立的随机变量. 由简单随机抽样得到的样本称为简单随机样本,
高级统计师考试内容
高级统计师考试内容
高级统计师考试是中国国家职业资格考试之一,主要面向从事统计分析工作的人员,考试内容包括以下几个方面:
1.数理统计基础:包括概率论、数理统计、大数定律和中心极限定理等基础知识,以及参数估计、假设检验、方差分析、回归分析等统计推断方法。
2.数据处理与分析:包括数据采集、数据预处理、数据挖掘、数据可视化等数据处理与分析方法。
3.统计模型与方法:包括时间序列分析、非参数统计、贝叶斯统计、生存分析、协方差分析等统计模型与方法。
4.统计软件应用:包括SPSS、SAS、R等统计软件的使用方法和应用技巧。
5.统计应用案例分析:包括实际应用案例的统计分析方法和应用技巧。
考试形式为笔试,时间为3小时,总分为100分,及格分数为60分。
考试内容较为全面,需要考生有扎实的数理统计基础和丰富的统计分析经验,同时还需要具备较强的数据分析和统计软件应用能力。
数理统计的基础知识
第4章数理统计的基础知识数理统计与概率论是两个有密切联系的学科, 它们都以随机现象的统计规律为研究对象.但在研究问题的方法上有很大区别:概率论——已知随机变量服从某分布,寻求分布的性质、数字特征、及其应用;数理统计——通过对实验数据的统计分析, 寻找所服从的分布和数字特征, 从而推断整体的规律性. 数理统计的核心问题——由样本推断总体从本章开始,我们将讨论另一主题:数理统计。
数理统计是研究统计工作的一般原理和方法的科学,它主要阐述搜集、整理、分析统计数据,并据以对研究对象进行统计推断的理论和方法,是统计学的核心和基础。
本章将介绍数理统计的基本概念:总体、样本、统计量与抽样分布。
由于大量随机现象必然呈现出它的规律性,因而从理论上讲,只要对随机现象进行足够多次观察,被研究的随机现象的规律性一定能清楚地呈现出来。
但客观上只允许我们对随机现象进行次数不多的观察试验,也就是说, 我们获得的只是局部观察资料。
数理统计就是在概率论的基础上研究怎样以有效的方式收集、整理和分析可获的有限的, 带有随机性的数据资料,对所考察问题的统计性规律尽可能地作出精确而可靠的推断或预测,为采取一定的决策和行动提供依据和建议.§4.1 总体与样本一、 总体与总体分布1.总体:具有一定的共同属性的研究对象全体。
总体中每个对象或成员称为个体。
研究某批灯泡的质量,该批灯泡寿命的全体就是总体;考察国产 轿车的质量,所有国产轿车每公里耗油量的全体就是总体;某高校学习“高等数学”的全体一年级学生。
个体与总体的关系,即集合中元素与集合之间的关系。
统计学中关心的不是每个个体的所有具体特性,而是它的某一项或某几项数量指标。
某高校一年级学生“高等数学”的期末考试成绩。
对于选定的数量指标 X (可以是向量)而言,每个个体所取的值是不同的,这一数量指标X 就是一个随机变量(或向量);X 的概率分布就完全描述了总体中我们所关心的这一数量指标的分布情况。
数学概率论与数理统计的基础知识
数学概率论与数理统计的基础知识概率论和数理统计是数学中的重要分支,它们研究了随机事件的发生规律以及通过对数据进行统计分析来了解事物的规律性。
本文将介绍数学概率论与数理统计的基础知识,帮助读者了解这两个领域的重要概念和方法。
一、概率论的基础知识1. 随机试验和样本空间随机试验是在相同条件下具有不确定性的实验,其结果不能事先预知。
样本空间是随机试验所有可能结果的集合。
2. 事件和概率事件是样本空间的子集,表示一些感兴趣的结果。
概率是事件发生的可能性大小的度量,介于0和1之间。
3. 古典概型古典概型是指具有有限样本空间且样本点等可能出现的随机试验。
在古典概型中,事件的概率可以通过样本点的数目来计算。
4. 条件概率条件概率是指事件B在另一个事件A已经发生的条件下发生的概率,表示为P(B|A)。
条件概率的计算可以使用“乘法规则”。
5. 独立事件事件A和B称为独立事件,如果事件A的发生不会对事件B的发生产生影响。
独立事件的概率计算可以使用“乘法规则”。
二、数理统计的基础知识1. 总体和样本总体是指研究对象的全体,而样本是从总体中选取的一部分个体。
统计学中,我们通常通过对样本的统计分析来推断总体的特征。
2. 随机变量和概率分布随机变量是取值具有随机性的变量,可以是离散的或连续的。
概率分布描述了随机变量各个取值的概率。
3. 参数和统计量参数是总体的特征指标,统计量是样本的特征指标。
通过样本统计量的计算,我们可以对总体参数进行估计。
4. 抽样分布和中心极限定理抽样分布是指统计量的分布,它反映了统计量的随机性。
中心极限定理表明,当样本容量足够大时,样本均值的抽样分布近似服从正态分布。
5. 置信区间和假设检验置信区间用于对总体参数进行估计,假设检验用于对总体参数的假设进行推断。
通过置信区间和假设检验,我们可以对统计结论进行推断和验证。
三、应用案例概率论和数理统计在各个领域都有广泛的应用。
例如,金融领域中的风险评估和投资决策,医学领域中的临床试验和流行病学研究,工程领域中的质量控制和可靠性分析等等。
数理统计基本知识
2 (5), Y
E( 2 ) n, D( 2 ) 2n.
P{ (n)}
2 2
2 2 ( n ) 的点 为分布 (n) 的上分位点.
( n)
2
f ( y)dy
19
•当n充分大(>45)时,有
2
1 ( z 2n 1 ) 2 2
i 1
n
X i 2 等均
1 ( X 1 X 2 ) 等都不是统计 2 Xi i 1 2 量,因为它们含有未知参数 ,
为统计量,而
1
n
2
从统计量的定义可知,统计量是不含任何未知参数的
随机变量.
10
几个常用的统计量 设X1, X2 ,…, Xn是来自总体X
的一个样本, (x1,x2,…,xn)是其观察值.
§6.2
抽样分布
一、统计量 样本是进行统计推断的依据.但在应
用时,往往不是直接使用是样本本身,而是针对不同 的问题构造样本的适当函数,利用这些样本的函数进 行统计推断. 定义1 设X1, X2 ,…, Xn是来自总体 X 的一个样本, g(X1, X2 ,…, Xn)是X1, X2 ,…, Xn函数,若g 中不含任 何未知参数,则称g(X1, X2 ,…, Xn)是一个统计量. [注] (1) 统计量是一个随机变量;
n 11
0
18
y
2 分布的可加性 设 12 ~ 2 (n1 ), 2 ~ 2 (n2 ) 2 2 2 2 2 且 1 与 2相互独立,则有 1 2 ~ ( n1 n2 )
分布的数学期望和方差
例: X
U ( 0, 4), 则 E ( X Y ) _____ D( X Y ) _____ . 分布的分位点 对于给定正数 (0<<1), 称满足
高等数学与工程数学课件第十章数理统计基础.ppt
的平均直径为15.25 mm? ( 0.05) 解 提出原假设: 0 15.25,
由于方差已知,故选统计量
U X 0 ~ N (0,1) n
由P{|U | } P{U } P{U } 1 () () 2 2 () 0.05 .
由P{ 2
2}
2
0.025, 2
~
2 (15),查表得2
27.5,
由P{ 2
1}
1
2
0.975, 2
~
2 (15),查表得1
6.26.
故 2的95%的置信区间为
15
0.00244,15 27.5
0.00244 6.26
即 [0.0013,0.0058] .
二、假设检验的方法
假设检验的一般步骤如下: (1) 提出原假设 H0,明确所要检验的对象, (2) 构造合适的统计量 , (3) 求出临界值,确定拒绝域,
6
9.05.
S2 1 6 5 i1
2
Xi X
1 0.052 0.252 0.052 0.252 0.152 0.152
5
0.035.
返回
4、解: X N u, 2 且已知 2
选取统计量
U
X
n
该统计量服从标准正态分布,即:U N 0,1.
ห้องสมุดไป่ตู้
返回
机变量
X1,X
,
2
,X n 的函数称为样本函数,若样本函
数不含未知参数且是连续的,我们称之为统计量.(不含
未知参数的样本函数叫统计量.)
数理统计主要知识点
数理统计主要知识点数理统计是统计学的重要分支,旨在通过对概率论和数学方法的研究和应用,解决实际问题上的不确定性和随机性。
本文将介绍数理统计中的主要知识点,包括概率分布、参数估计、假设检验和回归分析。
一、概率分布概率分布是数理统计的基础。
它描述了一个随机变量所有可能的取值及其对应的概率。
常见的概率分布包括:1. 均匀分布:假设一个随机变量在某一区间内取值的概率是相等的,则该随机变量服从均匀分布。
2. 正态分布:正态分布是最常见的连续型概率分布,其概率密度函数呈钟形曲线,具有均值和标准差两个参数。
3. 泊松分布:泊松分布描述了在一定时间内发生某个事件的次数的概率分布,例如在一天内发生交通事故的次数。
4. 二项分布:二项分布描述了进行一系列独立实验,每次实验成功的概率为p时,实验成功的次数在n次内取特定值的概率。
二、参数估计参数估计是根据样本数据来推断随机变量的参数值。
常见的参数估计方法包括:1. 最大似然估计:假设数据服从某种分布,最大似然估计方法寻找最能“解释”数据的那个分布,计算出分布的参数值。
2. 矩估计:矩估计方法利用样本矩来估计分布的参数值,例如用样本均值估计正态分布的均值,样本方差估计正态分布的方差。
三、假设检验假设检验是为了判断一个统计假设是否成立而进行的一种统计方法。
它包括假设、检验统计量和显著性水平三个重要概念。
1. 假设:假设指的是要进行验证的观察结果,分为零假设和备择假设两种。
2. 检验统计量:检验统计量是为了检验零假设而构造的统计量,其值代表目标样本符合零假设的程度。
3. 显著性水平:显著性水平是用来决定是否拒绝零假设的标准,通常为0.01或0.05。
四、回归分析回归分析是用来研究和描述两个或多个变量之间关系的统计方法。
它可以帮助人们了解因果关系,做出预测和控制因素的效果。
1. 简单线性回归:简单线性回归是一种简单的回归分析方法,它描述一个因变量和一个自变量之间的线性关系。
2. 多元线性回归:多元线性回归描述多个自变量和一个因变量之间的关系,通过多元回归模型可以找到最佳的回归系数,从而用来预测未来的结果。
01第一章 数理统计的基础知识
为推断总体分布及其各种特征,一般方法是按一定规则从总体中抽取若干 个体进行观察,称为抽样。
2
第一章 数理统计的基础知识
第一节 总体与样本
一 . 总体与样本
定义1:研究的对象称为总体,总体往往以某一项数量指标为其特征。实 际上总体就是一个随机变量 X 。
为推断总体分布及其各种特征,一般方法是按一定规则从总体中抽取若干 个体进行观察,称为抽样。 定义2:从总体中抽取的 n 个个体 (X1,X2,…,Xn) 称为样本,实际上样本就 是一个 n 维随机变量(或向量)。
简单随机样本: (X1,X2,…,Xn) 是相互独立的随机变量(独立性);且 Xi ~ X (同分布) 。 样本容量 n:样本中所含个体数目,为已知的一个自然数。 样本观察值: (X1,X2,…,Xn) = (x1,x2,…,xn)
上例中,若某次抽样得: (X1,X2,X3,X4,X5) = (0,0,1,0,1)
P(Y 15) f ( y)dy
15
10 0 15 20 y y 1 3 7 dy dy 10 100 100 2 8 8
例3:设总体 X ~ b(1,p)。现从中抽取容量为 2 的样本,得到样本 (X1, X2),求样本的函数 Y = X12 + X22 的概率分布,并求出事件 P(Y < 15) 的概率。
i 1 n
如上例:总体 X ~ b(1,p),概率分布为:P(X = x) = (1 – p)1 – x p x (x = 0,1) 则样本 (X1,X2,…,Xn) 的联合分布为:
P( X 1 x1 , X n xn ) p x1 (1 p)1 x1 p xn (1 p)1 xn p i1 (1 p)
第五章数理统计的基础知识
第五章数理统计的基础知识在前四章的概率论部分中,我们讨论了概率论的基本概念、思想和方法。
知道随机变量的统计规律性是通过随机变量的概率分布来全面描述的。
在概率论的许多问题中,概率分布通常是已知的或假设为已知的,在这一前提下我们去研究它的性质、特点和规律性,即讨论我们关心的某些概率、数字特征的计算以及对某些问题的判断、推理等。
但在许多实际问题中,所涉及到的某个随机变量服从什么分布我们可能完全不知道,或有时我们能够根据某些事实推断出分布的类型,但却不知道其分布函数中的某些参数。
例如:1、某种电子元件的寿命服从什么分布是完全不知道的。
2、检测一批灯泡是否合格,则每个灯泡可能合格,也可能不合格,则服从(0—1)分布,但其中的参数p 未知。
对这类问题要深入研究,就必须知道与之相应的分布或分布中的参数.数理统计要解决的首要问题就是:确定一个随机变量的分布或分布中的参数.数理统计学是研究随机现象规律性的一门学科,它以概率论为理论基础,研究如何以有效的方式收集、整理和分析受到随机因素影响的数据,并对所考察的问题作出推理和预测,直至为采取某种决策提供依据和建议。
数理统计研究的内容非常广泛,可分为两大类:一是:怎样有效地收集、整理有限的数据资料.二是:怎样对所得的数据资料进行分析和研究,从而对所考察对象的某些性质作出尽可能精确可靠的判断—本书中参数估计和假设检验。
第一节数理统计的基本概念一、总体与总体的分布在数理统计中,我们将研究对象的全体称为总体或母体,而把组成总体的每个元素称为个体。
总体中所包含的个体的个数称为总体的容量. 容量为有限的总体称为有限总体;容量为无限的总体称为无限总体. 总体和个体之间的关系就是集合与元素之间的关系。
在实际问题中,研究对象往往是很具体的事物或现象,而我们所关心的不是每一个个体的种种具体的特征,而是其中某项或某几项数量指标,记为X .例如:研究一批灯泡的平均寿命时,该批灯泡的全体构成了研究的总体,其中每个灯泡就是个体.但在实际问题中,我们仅仅关心灯泡的使用寿命(记X 表示该批灯泡的寿命)。
概率论与数理统计课件:数理统计基础知识
数理统计基础知识
首页 返回 退出
6.1.1 总体
§6.1 总体和随机样本
总体:研究对象的全部可能观察值叫做总体. 个体:组成全体的每个观察值叫做个体.
如:考察某校学生的身高
总体:该校的所有学生的身高 个体:每个学生的身高
数理统计基础知识
首页 返回 退出
实际问题中,要研究的是有关对象的各种数量指标. 总体可以用一个随机变量及其分布来描述.
首页 返回 退出
由于抽样的目的是为了对总体进行统计推断, 为了使抽取的样本能很好地反映总体的信息,必 须考虑抽样方法.
最常用的一种抽样方法叫作“简单随机抽样” 它要求抽取的样本满足下面两点: 1. 代表性: X1,X2,…,Xn中每一个与所考察 的总体有相同的分布.
2. 独立性: X1,X2,…,Xn是相互独立的随机变量.
从一批产品中抽5件,检验产品是否合格.
数理统计基础知识
样本容量为5
首页 返回 退出
样本是随机变量.
抽到哪5辆是随机的
容量为n的样本可以看作n维随机变量(X1,X2,…,Xn).
但是,一旦取定一组样本,得到的是n个具体的数 (x1,x2,…,xn),称为样本的一次观察值,简称样本值 .
数理统计基础知识
总体的指标 如体重、身高、寿命等 是随机变量X 个体的指标 如体重、身高、寿命等 是随机变量X 的一个取值
常用随机变量的记号或用其分布函数表示总体.
如:总体X或总体F X
数理统计基础知识
首页 返回 退出
有限总体 总体
无限总体
1.考察某校大一新生(共2000人)的身高. 有限总体
2.观测某地每天最高气温. 无限总体 3.某厂生产的所有电视显像管的寿命. 无限总体
数理统计学的基础与实际应用案例
数理统计学的基础与实际应用案例数理统计学是一门研究收集、分析和解释数据的学科,它的应用范围广泛,涵盖了许多领域,如经济学、医学、生态学等。
本文将介绍数理统计学的基础概念,并结合实际应用案例,展示其在解决实际问题中的重要性。
一、基础概念1. 总体与样本在数理统计学中,总体是指研究对象的全体,而样本是从总体中选取的一部分。
研究者通常无法对整个总体进行研究,因此通过对样本的研究来推断总体的特征。
2. 参数与统计量参数是总体的数值特征,如总体均值、方差等。
统计量是样本的数值特征,如样本均值、样本方差等。
通过对样本的统计量进行计算,可以推断总体的参数。
3. 随机变量与概率分布随机变量是数理统计学中的重要概念,它表示随机试验的结果。
概率分布描述了随机变量的取值及其对应的概率。
常见的概率分布有正态分布、泊松分布等。
二、实际应用案例1. 市场调研市场调研是商业领域中常见的应用场景。
通过对一定数量的样本进行调查,可以了解市场的需求和消费者的偏好。
例如,某公司想要推出一款新产品,为了确定市场的潜在需求,可以对一定数量的消费者进行问卷调查,并通过数理统计学的方法分析调查结果,得出市场需求的估计值。
2. 医学研究在医学研究中,数理统计学发挥着重要的作用。
例如,某研究机构想要评估某种药物对某种疾病的治疗效果,可以将患者分为两组,一组接受药物治疗,另一组接受安慰剂治疗,然后通过对两组患者的治疗效果进行比较,利用数理统计学的方法判断药物的疗效是否显著。
3. 生态学研究生态学研究中,也经常使用数理统计学的方法。
例如,某生态学家想要了解某个生态系统中不同物种的数量分布情况,可以通过对样本进行抽样调查,然后利用数理统计学的方法估计总体的物种数量和分布情况。
三、数理统计学的局限性虽然数理统计学在实际应用中具有重要的作用,但也存在一定的局限性。
首先,数理统计学是基于样本的推断,因此样本的选择和样本量的大小对结果具有影响。
其次,数理统计学的结果只是概率性的估计,不能完全准确地描述总体的特征。
概率论与数理统计知识点总结
概率论与数理统计知识点总结1. 概率论基础- 随机事件:一个事件是随机的,如果它可能发生也可能不发生。
- 样本空间:所有可能事件发生的集合。
- 事件的概率:事件发生的可能性的度量,满足0≤P(A)≤1。
- 条件概率:在另一个事件发生的条件下,一个事件发生的概率。
- 贝叶斯定理:描述了随机事件A和B的条件概率和边缘概率之间的关系。
- 独立事件:两个事件A和B是独立的,如果P(A∩B) = P(A)P(B)。
- 互斥事件:两个事件A和B是互斥的,如果它们不能同时发生,即P(A∩B) = 0。
2. 随机变量及其分布- 随机变量:将随机事件映射到实数的函数。
- 离散随机变量:取值为有限或可数无限的随机变量。
- 连续随机变量:可以在某个区间内取任意值的随机变量。
- 概率分布函数:描述随机变量取值的概率。
- 概率密度函数:连续随机变量的概率分布函数的导数。
- 累积分布函数:随机变量取小于或等于某个值的概率。
- 期望值:随机变量的长期平均值。
- 方差:衡量随机变量取值的离散程度。
3. 多维随机变量及其分布- 联合分布:描述两个或多个随机变量同时取特定值的概率。
- 边缘分布:通过联合分布求得的单个随机变量的分布。
- 条件分布:给定一个随机变量的值时,另一个随机变量的分布。
- 协方差:衡量两个随机变量之间的线性关系。
- 相关系数:协方差标准化后的值,表示变量间的线性相关程度。
4. 大数定律和中心极限定理- 大数定律:随着试验次数的增加,样本均值以概率1收敛于总体均值。
- 中心极限定理:独立同分布的随机变量之和,在适当的标准化后,其分布趋近于正态分布。
5. 数理统计基础- 样本:从总体中抽取的一部分个体。
- 总体:研究对象的全体。
- 参数估计:用样本统计量来估计总体参数。
- 点估计:给出总体参数的一个具体估计值。
- 区间估计:给出一个包含总体参数可能值的区间。
- 假设检验:对总体分布的某些假设进行检验。
- 显著性水平:拒绝正确假设的最大概率。
[研究生入学考试]第六章数理统计基础
〔2)样本要有独立性,即要求样本中每一样品的取 值不影响其他样品的取值,这意味着x1,x2,…,xn相 互独立.
用简单随机抽样方法得到的样本称为简单随 机样本,也简称样本.除非特别指明,本书中的样本 皆为简单随机样本.
于是,样本x1,x2,…,xn可以看成是相互独立的 具有同一分布的随机变量,其共同分布即为总体分 布.
对于样本均值的抽样分布,我们有下面的定理 定理1 设x1,x2,…,xn是来自某个总体X的样本, 为样本均值. 〔1)若总体分布为N〔μσ2),则的精确分布为
N〔μσ2/n); 〔2)若总体X分布未知〔或不是正态分布),且
n1E渐<i近nX1 >分x=i 布μ的,D是渐<指X近>n分=较σ布大2,为则时N当的〔样近μ本似σ2容分/n量)布,这n较里大的时,
〔1)x<1>的分布函数F1<x>=1-<1-F<x>>n,x<1> 的分布密度f1<x>=n-<1-F<x>>n-1f<x>
〔2)x〔n)的分布函数Fn<x>=[F<x>]n,x<n>的分 布密度fn<x>=n[F<x>]n-1f<x>
证明 先求出x<1>及x<n>的分布函数F1<x>及Fn<x>: 分别对F1〔x),Fn〔x)求导即得
定义1 设x1,x2,…,xn为取自某总体的样本,若样 本函数T=T〔x1,x2,…,xn)中不含有任何未知参 数,则称T为统计量.统计量的分布称为抽样分布.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、数理统计基础1.1 随机变量1.1.1随机事件和概率观测或试验的一种结果,称为一个事件。
在一定条件下进行大量重复试验时,每次都发生的事件,称为必然事件(Ω);反之,每次都不发生的事件,称为不可能事件(Φ);有时发生有时不发生的事件,称为随机事件或偶然事件(A )。
随机事件的特点是在一次观测或试验中,它可能出现,也可能不出现,但在大量重复观测或试验中呈现统计规律性。
用来描述事件发生可能性大小的量就是概率。
概率的统计定义是:在相同条件下进行n 次重复试验,事件A 发生了m 次,称m 为事件的频数,称m /n 为事件的频率。
当n 足够大时,频率m /n 稳定地趋向于某一个常数p ,此常数p 称为事件A 的概率,记为)(A P =p ,即:)(A P =nm n ∞→lim =p (1.1) 即概率是频率的极限值。
由概率的定义可归纳出概率的三个基本性质:(1)必然事件Ω的概率等于1,即)(Ωp =1;(2)不可能事件Φ的概率等于0,即)(Φp =0;(3)任何事件的概率都介于0和1之间,即0≤)(A P ≤1。
小概率原理:当某一事件的概率非常接近于0时,说明这个事件在大量的试验中出现的概率非常小,这样的事件称为小概率事件。
小概率事件虽然不是不可能事件,但在一次连续试验中出现的可能性很小,一般可以认为不会发生,此即为小概率原理。
概率的三个定理:(1)互补定理:某事件发生的概率与不发生的概率之和为1。
当发生的概率为p,则不发生的概率为1-p。
全部基本事件之和为必然事件。
(2)加法定理:相互独立而又互不相容的各个事件,其概率等于它们分别出现之和。
例如,A1,A2,…An为相互独立而又互不相容的事件,其中任一事件出现的概率为各个事件概率的总和,即P(A)=P(A1)+P(A2)+…+P(An)=∑=niiAP1)((1.2)(3)乘法定理:相互独立的事件同时发生的概率是这些事件各自发生的概率的乘积,即P(A1A2…An)=P(A1)P(A2)…P(An)=∏=niiAP1)((1.3)1.1.2 随机变量与分布函数每次试验的结果可以用一个变量X的数值来表示,这个变量的取值随偶然因素而变化,但又遵从一定的概率分布规律,这种变量称为随机变量。
随机变量根据其取值的特征可以分为离散型随机变量和连续型随机变量。
离散型随机变量试验结果的可能值可以一一列举出来,即随机变量X可取的值是间断的、可数的。
连续型随机变量试验结果的可能值不能一一列举出来,即随机变量X可取的值是连续充满在一个区间的。
随机变量的特点是以一定的概率在一定的区间范围内取值,但并不是所有的观测值都能以一定的概率取某一固定值。
因此人们关心的是随机变量在某一个区间取值的概率是多少?即P(a≤X≤b)=?根据概率的加法定理,某随机变量X在区间[a,b]的取值概率为:P(a≤X≤b)=P(X<b)-P(X<a)显然只要求出P(X<b)和P(X<a)即可,这比求出P(a≤X≤b)简单得多。
对于任何实数x,事件(X<x)的概率当然是x的函数,令F(x)=P(X <x)表示(X<x)的概率,并定义F(x)为随机变量X的概率分布函数,用来描述随机变量的统计规律。
分布函数F (x )完全决定了事件(a ≤X ≤b )的概率。
连续型随机变量X 的分布函数的表达式为:)(x F =P (X <x )=⎰∞-xdx x f )( (1.4) 式中, )(x f 称为随机变量X 的概率密度函数(或简称概率密度)。
正态分布是连续型随机变量最常见的一种分布。
正态分布的概率密度函数)(x f 和概率分布函数)(x F 分别为:)(x f =222)(21σμπσ--x e (1.5))(x F =dx e xx ⎰∞---22)(21σμπσ (1.6)以X 的取值x 为横坐标,以概率密度函数)(x f 为纵坐标,正态分布的图象如图1.1所示。
图中的曲线即为概率密度函数)(x f ,积分区间内的曲线与横轴之间所包含的面积就是概率分布函数)(x F ,亦即随机变量X 的概率。
图1.1 正态分布示意图)(x f 的图象具有如下性质:a 、μ为随机变量X 一系列取值的中位值(或称均值),)(x f 对称于直线x =μ,且)(x f >0,曲线位于横轴的上方。
它向左右无限延伸,并以横轴为渐近线。
b 、当x =μ时,)(x f 取最大值: σπμ21)(=fx 离μ越远)(x f 越小,这表明对于同样长度的区间,当区间离μ越远,X 落在这个区间上的概率越小。
c 、参数σ为曲线拐点的横坐标,其大小决定了正态曲线的形状特点,σ愈大曲线愈平缓,σ愈小曲线愈高陡。
可以看出,正态分布主要取决于μ和σ两个参数,称μ为随机变量X 的数学期望,σ2为随机变量X 的方差。
当随机变量X 服从正态分布时,常记作X ~N (μ,σ2)。
如令随机变量t =(x-μ)/σ,通过变量转换,可由一般正态分布推算得随机变量t 的概率密度函数)(t ϕ及相应的概率分布函数)(t Φ:)(t ϕ=2221t e-π (1.7) )(t Φ=dt e t t ⎰∞--2221π (1.8)这种分布称为标准正态分布,是正态分布中μ=0,σ2=1的特例。
当随机变量服从标准正态分布时,常记作X ~N (0,1)。
通常将t ~)(t Φ制成数值表,称t 为标准正态分布的分位数。
如已知t ,即可从表中查得相应的)(t Φ;反之,亦然。
标准正态分布与一般正态分布具有如下关系:)(x F =Φ)(σμ-x (1.9)因此,对于任意正态分布N (μ,σ2),当已知x ,需求相应的F (x )时,均可通过下式变换 σμ-=x t (1.10)算得对应于x 的t 值,再在标准正态分布函数数值表上查得相应的概率。
正态随机变量中有三个重要的概率值(见图1.2),它们分别是P (μ-σ<X ≤μ+σ)=0.6826,P (μ-2σ<X ≤μ+2σ)=0.9544,P (μ-3σ<X ≤μ+3σ)=0.9973。
图1.2 正态分布的三个重要概率值注意到第三个概率值,对于正态随机变量X 来说,它落在μ±3σ内的概率约为99.7%,落在μ±3σ外的概率约为0.3%。
可见,在具有正态分布特征的试验中,其数据落在μ±3σ以外的概率是很小的,可视为“小概率事件”。
因此,试验中一旦出现μ±3σ外的数据,根据“3σ规则”,即可将其认为是“可疑数据”而予以剔除,或是工艺过程出现异常,应予注意。
[例1.1] 已知一批强度等级为C25的混凝土,其试件的抗压强度平均值为30.0MPa,标准差为5.0MPa,设该混凝土的抗压强度R 服从N(30.0,5.0)的正态分布,试计算抗压强度高于25.0MPa 的概率(即求该混凝土的强度保证率)。
[解] P (R ≥25.0)=1-P (R <25.0)=1-)(t Φ=1-)0.50.300.25(-Φ =1-)0.1(-Φ=1-0.1587=0.8413即该批混凝土的强度保证率为84.1%。
由此可见,对于标准差为5.0MPa 的C25混凝土,即使其抗压强度平均值为30.0MPa 时,仍不能达到相关规范所规定的95%的强度保证率。
[例1.2] 条件同[例1.1],其试件抗压强度平均值m 为多少时,才能使该混凝土的强度保证率达到95%?[解] 由 P (R ≥25.0)=1-P (R <25.0)=0.95得 t =0.50.25m -=-1.645 m =25.0+1.645×5.0=33.2MPa上式中,t 被称为强度保证率系数,它对应于95%的强度保证率。
1.2 随机变量的数字特征由上所述,利用分布函数或分布密度函数可以完全确定一个随机变量。
但在实际问题中,求分布函数或分布密度函数不仅十分困难,而且常常没有必要。
用一些数字来描述随机变量的主要特征,显得十分方便、直观、实用。
描述随机变量某种特征的量称为随机变量的数字特征。
1.2.1 数学期望数学期望又称均值,记作E (X ),其计算公式为:当X 为离散型时 ∑∞==1)(i i i p x X E (1.11)当X 为连续型时 ⎰∞∞-=dx x xf X E )()( (1.12)数学期望描述了随机变量的取值中心,但它不是简单的算术平均,而是以概率为权的加权平均。
数学期望有如下性质(下式中c 、k 、b 均为常数):(1)E (c )=c (1.13a )(2)E (kX )=kE (X ) (1.13b )(3)E (X+b )=E (X )+b (1.13c )(4)E (kX+b )=kE (X )+b (1.13d)(5)E (X+Y )=E (X )+E (Y ) (1.13e )(6)E (XY )=E (X )E (Y )+Cov (X ,Y ) (1.13f ) 称Cov (X ,Y )为协方差,当X ,Y 相互独立时,Cov (X ,Y )=0,则有 )()()(Y E X E XY E = (1.13g )1.2.2 方差记作D (X ):D (X )=E{[X-E (X )]2}=E (X 2)-[E (X )]2 (1.14) 方差描述了随机变量X 取值对于数学期望E (X )的离散程度。
1、方差的计算公式当X 为离散型时 ∑-=i i p X E x X D 2)]([)( (1.15) 当X 为连续型时 ⎰∞∞--=dx x f X E x X D )()]([)(2 (1.16)2、方差的性质(下式中a 、b 、c 、k 为常数)(1)D (c )= 0 (1.17a )(2)D (kX )= k 2D (X ) (1.17b )(3)D (X+b )= D (X ) (1.17c )(4)D (kX+b )= k 2D (X ) (1.17d )(5)D (X+Y )= D (X )+D (Y )+ 2Cov (X ,Y ) (1.17d ) 当X ,Y 相互独立时,协方差Cov (X ,Y )= 0,则有:D (X+Y )= D (X )+D (Y ) (1.17e )(4)、(5)可推广至随机变量X 1,X 2,…,X n 。
1.3 随机变量的基本定理1.3.1 大数定理设X 1,X 2,…,X n 是独立同分布的随机变量列,且E (X 1)、D (X 1)存在,则对于任何ε>0,有 {}1)(lim 1=-∞→ε<X E x P n (1.18)式中: ∑==nk i k x n x 1 (1.19)上式又称切比谢夫(Tchebyshev )定理。
大数定律的实际意义在于,只要n 充分大,算术平均值x 以很大的概率取值接近于数学期望,即当n 充分大时,可以用算术平均值x 代替真值)(1X E ,以满足测量不确定度ε的要求。