第九章 多元正态分布与统计中的三大分布
三大分布和正态分布的关系
三大分布和正态分布的关系三大分布是指均匀分布、正态分布和泊松分布。
在统计学中,这三个分布都是非常重要的基本概率分布之一。
正态分布是最为常见的一种概率分布,也被称为高斯分布或钟形曲线,因其形状呈钟形而得名。
均匀分布则是一种平均分布的概率分布,泊松分布则是一种描述稀有事件发生次数的概率分布。
首先,我们来探讨一下正态分布和均匀分布的关系。
首先需要了解的是,均匀分布是一种最简单的概率分布,它在给定区间内的各个取值概率相等,也就是说每个取值都是等可能发生的。
而正态分布则是一种近似正常分布的概率分布,它的概率密度在均值处达到最大值,两侧逐渐减小。
在正态分布中,大部分的值都集中在均值附近,并且对称分布。
均匀分布和正态分布在形状上有明显的区别。
均匀分布的概率密度函数是一个矩形,在给定区间内的取值概率是相等的,因此其形状是平坦的。
而正态分布的概率密度函数呈现钟形曲线,形状相对较高且对称。
在正态分布中,均值和标准差控制了曲线的位置和形状。
对于均匀分布,通过区间的长度可以控制分布的形状。
另外,均匀分布和正态分布在数学性质上也有一些区别。
对于均匀分布,其期望值和方差均可以通过区间的长度来计算。
例如,在[0,1]区间上的均匀分布的期望值为0.5,方差为1/12。
而对于正态分布,其期望值恒为均值μ,方差为标准差的平方σ^2。
在正态分布中,许多常见的统计推理方法都是基于正态分布的假设,这也是正态分布被广泛应用的原因之一。
此外,正态分布和均匀分布在实际应用中也有着不同的特点和用途。
正态分布广泛应用于实际测量的误差分布、自然现象的变异分布等。
在统计学中,许多假设检验和参数估计方法都是基于正态分布的推论,因此正态分布在统计学中具有重要作用。
而均匀分布常常用于随机数生成、模拟实验中,以及一些特定的情况下,如等可能事件的建模等。
最后,我们来讨论一下正态分布和泊松分布的关系。
正态分布和泊松分布是两种完全不同的概率分布。
正态分布是描述连续型随机变量的概率分布,而泊松分布则是描述离散型随机变量的概率分布。
统计学三大分布的应用
统计学三大分布的应用
统计学三大分布是指正态分布、t分布和卡方分布。
这些分布在统计学中应用广泛,下面将分别介绍其应用。
正态分布是自然界中最常见的分布之一,常用于描述连续性变量。
例如,身高、体重、智商等连续性变量都可以用正态分布来描述。
在假设检验、置信区间估计和回归分析等统计学方法中,正态分布也是一个非常重要的理论基础。
t分布是由威廉·塞德威克·高斯特(W.S.Gosset)于1908年提
出的,用来解决小样本量的问题。
t分布的形状与正态分布非常接近,但是在样本量较小的情况下,t分布的尾部更宽一些,因此在小样本量的情况下,使用t分布进行假设检验和置信区间估计更为合适。
卡方分布是概率论中一个重要的分布,通常应用于描述计数数据。
例如,在卡方检验中,卡方分布常常用来处理分类数据,如调查中统计“喜欢”或“不喜欢”某种产品或服务的人数。
卡方分布也常用于多项式回归和逻辑回归等模型中。
综上所述,正态分布、t分布和卡方分布在统计学中应用非常广泛,是统计学的重要组成部分。
对于从事统计学研究或相关领域的人员来说,深入理解和熟练运用这些分布是非常重要的。
- 1 -。
统计学上三大分布推导方法
统计学上三大分布推导方法统计学涉及到众多的概率分布,其中三大分布推导方法是统计学中的重要内容。
这三种分布分别是正态分布、指数分布和泊松分布。
首先,我们来介绍正态分布。
正态分布又称为高斯分布,是统计学中常见且重要的分布之一。
正态分布的形状呈钟形曲线,两侧尾部逐渐递减。
我们经常可以在生活中观察到符合正态分布的现象,如人的身高、体重等。
正态分布的推导方法主要基于中心极限定理,通过对大量独立随机变量求平均值的方式得到。
正态分布的参数包括均值和标准差,通过对原始数据进行变换和标准化,可以将任意分布转化为标准正态分布。
正态分布在统计学中有广泛的应用,如假设检验、置信区间估计等。
接下来,让我们看看指数分布。
指数分布是一种描述随机事件发生时间间隔的分布,常用于描述连续事件的无记忆性。
例如,指数分布可以用于描述等待某件事情发生的时间,如等待公交车到站的时间。
指数分布的推导方法主要基于随机过程理论中的泊松过程。
指数分布的参数是速率参数,参数的倒数表示了事件发生的平均等待时间。
指数分布的特点是呈右偏态分布,即事件发生的概率逐渐减小。
在实际应用中,指数分布常用于可靠性分析、风险评估等方面。
最后,我们来了解一下泊松分布。
泊松分布是一种用于描述单位时间内随机事件发生次数的分布。
例如,泊松分布可以用于描述在一段时间内电话呼叫的次数、邮件的接收量等。
泊松分布的推导方法主要基于稀有事件的统计推断,通过限制时间段内的事件次数来得到。
泊松分布的参数是平均发生次数,参数越大,分布形状越集中在平均发生次数附近。
泊松分布的特点是呈正偏态分布,即事件发生的概率逐渐增加后逐渐减小。
在实际应用中,泊松分布常用于建模离散事件的发生情况,如交通流量、事故发生率等。
综上所述,正态分布、指数分布和泊松分布是统计学中重要的三大分布推导方法。
通过对中心极限定理、随机过程理论和稀有事件统计推断的研究,我们可以得到这三种分布。
这些分布在实际问题的建模和分析中有广泛的应用,对于理解和解决实际问题具有重要的指导意义。
多元统计分析——多元正态分布
一、多元正态分布的定义
1、一元正态分布的定义 若变量 X 的概率密度为:
x 2
2 2
1 f x e 2
, 0 ,
则称 X 服从一元正态分布,记为 X ~ N , 2 。 我们可以将上式改写为:
f x 2
1 2
1 exp x ' 2 2
量 X 的相关阵为
R rij p p
其中
rij
Var X i Var X j
covX i , X j
ij ii Байду номын сангаасj
i, j 1,2,, p
另证明:标准化数据的协方差阵正好是原始指标的相 关阵
第2节
多元正态分布
一、多元正态分布的定义 二、均值向量和协方差阵的估计 三、维希特(Wishart)分布 四、统计距离
三、多元变量的独立性
定义 3 两个随机向量 x 和 y 相互独立的充要条件为:
PX x, Y y PX x PY y
对任意的 x, y
若 F x, y 为 x, y 的联合分布函数; G x 和 H y 分别为 x 和 y 的分布函数, 则 x 与 y 独立当且仅当 F x, y G x H y 若 X ,Y ' 有密度函数 f x, y , g x 和 h y 分别表示 X 和 Y 的分布密度, X 和 Y 用 则 独立当且仅当
X 1 X 2 X p q
q
μ 1 μ 2 μ p q
q
11 21
12 21 p q
统计学三大分布与正态分布的差异
申请大学学士学位论文大学学士学位论文统计学三大分布与正态分布的差异年级专业:学生:指导教师:统计学三大分布与正态分布的差异中文摘要统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策者提供依据和参考。
它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。
而对数据的分析过程中就需要利用到数据的分布来研究分类。
在实际遇到的许多随机现象都服从或近似服从正态分布。
而由正态分布构造的三大分布在实际中有广泛的应用,因为这三大分布不仅有明确的背景,而且其抽样分布的密度函数有明显表达式,研究三大分布与正态分布有助于研究实际事例,比如经济安全与金融保险领域、人口统计等。
本文讨论了三大分布与正态分布,并将它们之间的密度函数进行比较说明.第二章介绍了正态分布的定义、性质,三大分布的定义、性质。
第三章介绍了正态分布与三大分布的密度函数,并将它们之间的密度函数进行比较关键词:正态分布;三大分布;密度函数The Difference between the Three Statistical Distributions andthe Normal DistributionAbstractStatistics is a branch of applied mathematics, the mathematical models are mainly established by the probability and statistics theory based on the collectingthe data, so as to conduct the quantitative analysis, and obtain the correct inference. It is widely used in the subjects, such as physical, social science, industrial and commercial field, and government intelligence decision. The process of the data analysis will need to use the data distributions to study.In practice, many random phenomena are obedient for the normal distributions, or approximately. And the three statistical distributions structured by the normal distributions have extensive applications, because these three distributions is explicitly background, and the sampling distribution density function have obvious expressions. Research on the distributions and normal distributions is useful for the study of economic security and financial insurance fields, population statistics, etc.This paper discusses the three statistical distributions and normal distributions, their density functions are compared.The second chapter presents the definition of the normal distribution, the distribution of nature, three definitions and properties.The third chapter covers a normal distribution and the density functions of the three distributions, and then the density functions are compared. Keywords: the normal distribution; Three distribution; Density function目录中文摘要 (2)英文摘要 (2)1 绪论 (5)1.1 问题的提出 (5)1.2 国外研究现状 (5)1.3 本文的主要工作 (6)2 基础知识介绍 (7)2.1 正态分布 (7)2.2 三大统计分布 (8)3 三大分布与正态分布的比较 (12)3.1 三大分布与正态分布的密度函数 (12)3.2 三大分布与正态分布的密度函数比较 (12)3.3 本章小结 (16)4 进一步工作 (16)参考文献 (17)致 (17)1 绪论统计学,最早是由Gottfried Achenwall(1749)所使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。
统计学三大分布的应用
统计学三大分布的应用统计学是一门重要的学科,它通过收集、整理和分析数据来揭示事物之间的潜在规律和关系。
在统计学中,分布是一种揭示数据特征的重要工具。
在统计学中,有三大常见的分布,它们分别是正态分布、均匀分布和指数分布。
这些分布在各个领域都有广泛的应用,能够帮助我们更好地理解和解释现象。
首先,正态分布是统计学的核心概念之一。
正态分布也被称为高斯分布,它的形状近似为一个钟形曲线。
正态分布在自然界中广泛存在,例如人的身高、体重等,也在许多地方出现,如测试成绩、产品质量等。
统计学家常常使用正态分布来研究和描述各种现象,并通过计算均值和标准差来分析数据的集中度和离散程度。
正态分布也是许多假设检验和参数估计方法的基础,为我们进行科学研究和决策提供了强有力的工具。
其次,均匀分布是一种简单且常见的分布形式。
在均匀分布中,所有的取值都具有相同的概率。
这种分布可以用来模拟随机实验的结果,例如抛硬币的正反面、掷骰子的点数等。
均匀分布还在随机数生成、概率推断等方面发挥着重要作用。
在实际应用中,均匀分布也可以用来描述一些特定的自然现象,如某些地区的降雨量、温度等。
通过研究和理解均匀分布,我们可以更好地预测和解释这些现象。
最后,指数分布是描述事件发生时间的一种重要分布。
在指数分布中,事件发生的概率密度函数随时间指数级衰减。
这种分布常常用于研究和模拟一些连续系统的寿命、等待时间等。
指数分布也在信号处理、通信理论、生物学等领域中得到广泛应用。
通过对指数分布的研究,我们能够更好地理解和预测事件的发生模式,为我们提供关键信息,以便做出合理的决策。
总而言之,正态分布、均匀分布和指数分布是统计学中三大重要分布。
它们在各个领域都有广泛的应用,帮助我们更好地理解和解释现象,提供科学依据和决策支持。
通过对分布的研究和应用,统计学可以发挥重要作用,推动科学发展和社会进步。
统计学三大分布与正态分布的关系
统计学三大分布与正态分布的关系[1] 张柏林 41060045 理实1002班摘要:本文首先将介绍2χ分布,t 分布,F 分布与正态分布的定义及基本性质,然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之、1、 三大分布函数[2]1、12χ分布2()n χ分布就是一种连续型随机变量的概率分布。
这个分布就是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它就是由正态分布派生出来的,主要用于列联表检验。
定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,),则称统计量222212n =+X X χ++…X 为服从自由度为n 的2χ分布,记为22~()n χχ、2χ分布的概率密度函数为122210(;),2()200n xn x e x nf x n x --⎧≥⎪⎪=Γ⎨⎪⎪<⎩ 其中伽玛函数1(),0t x x et dt x +∞--Γ=>⎰,2χ分布的密度函数图形就是一个只取非负值的偏态分布,如下图、卡方分布具有如下基本性质:性质1:22(()),(())2E n n D n n χχ==;性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++;性质3:2n χ→∞→时,(n )正态分布; 性质4:设)(~22n αχχ,对给定的实数),10(<<αα称满足条件:αχχαχα==>⎰+∞)(222)()}({n dx x f n P 的点)(2n αχ为)(2n χ分布的水平α的上侧分位数、 简称为上侧α分位数、 对不同的α与n , 分位数的值已经编制成表供查用、2()n χ分布的上α分位数 1、2t 分布t 分布也称为学生分布,就是由英国统计学家戈赛特在1908年“student”的笔名首次发表的,这个分布在数理统计中也占有重要的位置、定义:设2~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量/XT Y n=服从自由度为n 的t 分布,记为~()T t n 、t 分布的密度函数为1221()2(;)(1),.()2n n x t x n t n n n π+-+Γ=+-∞<<+∞Γt 分布的密度函数图t 分布具有如下一些性质:性质1:()n f t 就是偶函数,221,()()2t n n f t t e ϕπ-→∞→=;性质2:设)(~n t T α,对给定的实数),10(<<αα 称满足条件;ααα==>⎰+∞)()()}({n tdx x f n t T P 的点)(n t α为)(n t 分布的水平α的上侧分位数、 由密度函数)(x f 的对称性,可得 ).()(1n t n t αα-=-类似地,我们可以给出t 分布的双侧分位数,)()()}(|{|)()(2/2/2/αααα=+=>⎰⎰+∞-∞-n t n t dx x f dx x f n t T P 显然有.2)}({;2)}({2/2/αααα=-<=>n t T P n t T P对不同的α与n , t 分布的双侧分位数可从附表查得、t 分布的上α分位数 1、3F 分布F 分布就是随机变量的另一种重要的小样本分布,应用也相当广泛、 它可用来检验两个总体的方差就是否相等,多个总体的均值就是否相等、 F 分布还就是方差分析与正交设计的理论基础、定义:设22~(),~()X n Y m χχ,,X Y 相互独立,令则称统计量//X nF Y m=服从为第一自由度为n ,第二自由度为m 的F 分布、F 分布的密度函数图F 分布具有如下一些性质:性质1:若~(,),1/~(,)F F n m F F m n 则; 性质2:若)(~n t X ,则2~(1,)X F n ; 性质3:设),(~m n F F α,对给定的实数),10(<<αα称满足条件;ααα==>⎰+∞),()()},({m n F dx x f m n F F P的点),(m n F α为),(m n F 分布的水平α的上侧分位数、F分布的上α分位数F 分布的上侧分位数的可自附表查得、性质4:.),(1),(1m n F n m F αα-=此式常常用来求F 分布表中没有列出的某些上侧分位数、 1、4正态分布正态分布就是数理统计中的一种重要的理论分布 ,就是许多统计方法的理论基础、 高斯(Gauss)在研究误差理论时首先用正态分布来刻画误差的分布,所以正态分布又称为高斯分布、 正态分布有两个参数,μ与σ,决定了正态分布的位置与形态、 为了应用方便,常将一般的正态变量X 通过u 变换转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布N (0,1)、 正态分布的密度函数与分布函数若连续型随机变量X 具有概率密度()f x 为22()21(),,2x f x ex μσπσ--=-∞<<+∞其中,(0)μσσ>为常数,则称X 服从参数为μσ,的正态分布,记为2~()X N μσ,、正态分布的密度函数图特征1:正态曲线(normal curve)在横轴上方均数处最高; 特征2:正态分布以均数为中心,左右对称;特征3:正态分布有两个参数,即均数μ与标准差σ、 μ就是位置参数,σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动、 σ就是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭、 通常用2N μσ(,)表示均数为μ,方差为2σ的正态分布、 用N (0,1)表示标准正态分布、 特征4:正态曲线下面积的分布有一定规律。
《多元正态分布》课件
度概率密度函数的乘积。
高维正态分布在机器学习中的应用
降维处理
高维正态分布可以用于降维处理,通过保留数据的主要特征,降低 数据的维度,提高数据的可解释性和处理效率。
特征选择
高维正态分布可以用于特征选择,通过分析特征之间的相关性,选 择与目标变量高度相关的特征,去除冗余和无关的特征。
概率模型
高维正态分布可以用于构建概率模型,通过估计数据的概率分布, 进行分类、回归和聚类等机器学习任务。
总结词
检验多元正态分布的协方差矩阵是否与预期 协方差矩阵一致。
详细描述
通过对比样本协方差矩阵与预期协方差矩阵 ,评估样本数据是否符合多元正态分布的假 设。常用的方法包括样本协方差矩阵与预期 协方差矩阵的差异检验、样本数据的散点图 和拟合曲线分析等。
多元正态分布的其他假设检验方法
总结词
其他用于检验多元正态分布的方法。
REPORT
CATALOG
DATE
ANALYSIS
SUMMAR Y
02
二元正态分布
二元正态分布的定义
总结词
二元正态分布是多元正态分布在两个维度上的特例,其概率密度函数呈钟形, 且服从二维高斯分布。
详细描述
二元正态分布是一种连续概率分布,描述了两个随机变量之间的关系,当这两 个随机变量相互独立时,其联合概率分布是二元正态分布。它的概率密度函数 由均值向量和协方差矩阵决定,呈现出钟形曲线。
多元正态分布的均值向量和协方差矩阵决定了其 分布形态。
多元正态分布的应用场景
多元统计分析
多元正态分布在多元统计分析中 广泛应用,如主成分分析、因子 分析、聚类分析等。
机器学习
在机器学习中,多元正态分布用 于描述特征之间的相关性,以及 在隐含层节点中实现特征的映射 。
统计三大分布
根据独立随机变量商的密度公式(3-32),
可以证明(过程从略):(6-13)中的
Tn
概率密度函数为
根据独立随机变量商的密度公式(3-32),可
以证明(过程从略):(6-13)中 Tn 的概率
密度函数为
, x . fn(x)
Γ(
n1 2
)
n
Γ(
n 2
)
1
x2 n
n1 2
(6-14)
另外,t -分布具有以下性质:
变量不小于该数的概率为 . 比如,若记 2-
变量
2 n
的
-上侧分位数为,则满足(见图
6.2).
fn (x)
2 (n)
x
图 6.2
对不太大的n,如
n
60,可用附表3查
2
(n)
的
值,而对较大的n,则可用(6-11)近似计
算
2 (n) n 2n U , (6-12)
其中U 是标准正态分布N(0,1)的 -上侧分位
数,可通过附表2查出.
二、t -分布
定则 自义称由6.2度T为设n nX的Y~XtN/ -n(0分,1)布,Y,(6~记-123作()n)所,Tn 服X~ t与从(n)Y的.独t分-立分布,布是
也称为学生分布,是英国统计学家戈塞特 (Goset,1876-1937)在1908年“Student”
的笔名首次发表的,这个分布在数理统计 中也占有重要的地位.
,则
顺便指出,自由度为1的t -分布也称为柯西
(Cauchy)分布,它以其数学期望和方差
均不存在而闻名(见例4.3).
记t -分布t(n) 的 -上侧分位数为t (n),附表4
给出了不同n和 所对应的t (n) 数值. 另外,
多元正态分布
图1-2
2019/3/1
随机向量
x1 p x2 p (x1 , x 2 , xnp
/ x(1) / x(2) ,xp) x/ (n)
• 因此,样本资料矩阵可用矩阵语言表示为:
若无特别说明,本书所称向量均指列向量
定义1.1 设 x1 , x2 , , x p为p个随机变量,由它们组成 的向量 (x1, x2 , , x p ) 称为随机向量。
p
1 . 6
是一个p维向量,称为均值向量. 当 A 、B 为常数矩阵时,由定义可立即推出如下性质:
(1) E ( AX ) AE ( X ) (2) E ( AXB) AE ( X ) B
2019/3/1
1.7
(1.8)
目录 上页 下页 返回
10
结束
§1.1.4
随机向量的数字特征
15
结束
§1.2 统计距离和马氏距离
欧氏距离 马氏距离
2019/3/1
目录 上页 下页 返回
16
结束
§1.2 统计距离和马氏距离
欧氏距离
在多指标统计分析中,距离的概念十分重要,样品间的不 少特征都可用距离去描述。大部分多元方法是建立在简单 的距离概念基础上的。即平时人们熟悉的欧氏距离,或称 直线距离.如几何平面上的点p=(x1,x2)到原点O=(0,0)的 欧氏距离,依勾股定理有
2019/3/1
目录 上页 下页 返回
6
结束
§1.1.2
分布函数与密度函数
描述随机变量的最基本工具是分布函数,类似地描述 随机向量的最基本工具还是分布函数。 定义1.2 设 X (x1 , x2 , 函数是 式中: 是以随机向量,它的多元分布 , x p )
三种分布介绍(正态分布,伯努利分布,泊松分布)
1、正态分布正态分布(Normal distribution)又名高斯分布(Gaussiandistribution),若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。
其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。
我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。
当μ=0,σ=1时,正态分布就成为标准正态分布N(0,1)。
概率密度函数为:正态分布的密度函数的特点是:关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,图像是一条位于x轴上方的钟形曲线。
2、伯努利分布如果随机变量X只取0和1两个值,并且相应的概率为:则称随机变量X服从参数为p的伯努利分布,若令q=1一p,则X的概率函数可写为:伯努利分布(二点分布)的期望E(X)=p,D(X)=p(1-p)。
(其中,离散数据的方差计算公式为D(X)=E{[X-E(X)]^2})n重伯努利分布(二项分布)的期望E(X)=np,D(X)=np(1-p)。
3、泊松分布在统计学上,只要某类事件满足三个条件,它就服从"泊松分布"。
三个条件分别是:①事件X的发生是小概率事件②事件X的发生是随机而且互相独立的③事件X发生的概率相对稳定。
泊松分布的公式为:各个参数的含义:单位时间(或单位面积)内随机事件的平均发生率,即P(X=k)事件X发生k次的概率,λ表示事件X稳定发生的概率。
当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似。
设X~B(n,p),当n很大,p很小,且λ=np适中时,有P(x=k)≈λ^k/k! ·e^(-λ),推导过程如下所示:为第二重要极限公式,上面的推到会涉及到。
多元正态分布
混合模型
除了高斯混合模型,还有其他类 型的混合模型,如多项式混合模 型、泊松混合模型等。
扩展应用领域
多元正态分布在许多领域都有广 泛的应用,如心理学、经济学、 生物统计学等。
THANKS
感谢观看
02
联合分布的均值向量和协方差矩阵由各个分量的均 值和协方差决定。
03
当各分量之间相互独立时,其联合分布的协方差矩 阵为各分量协方差矩阵的线性组合。
04
多元正态分布的推断
参数估计
最大似然估计
01
通过最大化样本数据的似然函数来估计多元正态分布的参数,
包括均值向量和协方差矩阵。
最小二乘估计
02
将多元正态分布的均值向量作为回归系数,利用最小二乘法进
多元正态分布
• 多元正态分布概述 • 多元正态分布的参数 • 多元正态分布的性质 • 多元正态分布的推断 • 多元正态分布在统计和机器学习中的
应用 • 多元正态分布的扩展和变种
01
多元正态分布概述
定义与性质
定义
多元正态分布是多个连续随机变量的 概率分布,其概率密度函数是多元高 斯函数。
性质
多元正态分布具有旋转对称性、椭球 等高性、边缘分布的独立性和最大熵 等性质。
当其他维度固定时,该维度的边缘分 布是关于均值对称的,且方差与该维 度与其他维度的协方差成正比。
随机变量的线性变换
对于多元正态分布的随机变量,对其 进行线性变换后,新变量的分布仍然 是多元正态分布。
线性变换包括平移、旋转、缩放等, 这些变换不会改变变量的分布形态。
随机向量的联合分布
01
对于多元正态分布的随机向量,其各分量之间的联 合分布也是正态分布。
06
统计学三大分布与正态分布的关系
统计学三大分布与正态分布的关系[1] 张柏林 41060045 理实1002班摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质,然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之.1. 三大分布函数[2]1.12χ分布2()n χ分布是一种连续型随机变量的概率分布。
这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。
定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,),则称统计量222212n =+X X χ++…X 为服从自由度为n 的2χ分布,记为22~()n χχ. 2χ分布的概率密度函数为122210(;),2()200n xn x e x n f x n x --⎧≥⎪⎪=Γ⎨⎪⎪<⎩其中伽玛函数1(),0t x x e t dt x +∞--Γ=>⎰,2χ分布的密度函数图形是一个只取非负值的偏态分布,如下图.卡方分布具有如下基本性质:性质1:22(()),(())2E n n D n n χχ==;性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++;性质3:2n χ→∞→时,(n )正态分布; 性质4:设)(~22n αχχ,对给定的实数),10(<<αα称满足条件:αχχαχα==>⎰+∞)(222)()}({n dx x f n P 的点)(2n αχ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查用.2()n χ分布的上α分位数 1.2t 分布t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student”的笔名首次发表的,这个分布在数理统计中也占有重要的位置.定义:设2~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量/T Y n=服从自由度为n 的t 分布,记为~()T t n .t分布的密度函数为1221()2(;)(1),.()2nnxt x n tn nnπ+-+Γ=+-∞<<+∞Γt分布的密度函数图t分布具有如下一些性质:性质1:()nf t是偶函数,22,()()2tnn f t t eϕπ-→∞→=;性质2:设)(~ntTα,对给定的实数),10(<<αα称满足条件;ααα==>⎰+∞)()()}({ntdxxfntTP的点)(ntα为)(n t分布的水平α的上侧分位数. 由密度函数)(xf的对称性,可得).()(1ntntαα-=-类似地,我们可以给出t分布的双侧分位数,)()()}(|{|)()(2/2/2/αααα=+=>⎰⎰+∞-∞-ntntdxxfdxxfntTP显然有.2)}({;2)}({2/2/αααα=-<=>ntTPntTP对不同的α与n , t 分布的双侧分位数可从附表查得.t 分布的上α分位数1.3F 分布F 分布是随机变量的另一种重要的小样本分布,应用也相当广泛. 它可用来检验两个总体的方差是否相等,多个总体的均值是否相等. F 分布还是方差分析和正交设计的理论基础.定义:设22~(),~()X n Y m χχ,,X Y 相互独立,令则称统计量//X nF Y m=服从为第一自由度为n ,第二自由度为m 的F 分布.F 分布的密度函数图F 分布具有如下一些性质:性质1:若~(,),1/~(,)F F n m F F m n 则; 性质2:若)(~n t X ,则2~(1,)X F n ;性质3:设),(~m n F F α,对给定的实数),10(<<αα称满足条件;ααα==>⎰+∞),()()},({m n F dx x f m n F F P的点),(m n F α为),(m n F 分布的水平α的上侧分位数.F 分布的上α分位数F 分布的上侧分位数的可自附表查得. 性质4:.),(1),(1m n F n m F αα-= 此式常常用来求F 分布表中没有列出的某些上侧分位数.1.4正态分布正态分布是数理统计中的一种重要的理论分布 ,是许多统计方法的理论基础. 高斯(Gauss )在研究误差理论时首先用正态分布来刻画误差的分布,所以正态分布又称为高斯分布. 正态分布有两个参数,μ和σ,决定了正态分布的位置和形态. 为了应用方便,常将一般的正态变量X 通过u 变换转化成标准正态变量u ,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布N (0,1). 正态分布的密度函数和分布函数若连续型随机变量X 具有概率密度()f x 为22()2(),,x f x x μσ--=-∞<<+∞其中,(0)μσσ>为常数,则称X 服从参数为μσ,的正态分布,记为2~()X N μσ,.正态分布的密度函数图特征1:正态曲线(normal curve)在横轴上方均数处最高;特征2:正态分布以均数为中心,左右对称;特征3:正态分布有两个参数,即均数μ和标准差σ. μ是位置参数,σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动. σ是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭. 通常用2(,)表示均数为μ,方差为2σ的正态分布.Nμσ用N(0,1)表示标准正态分布.特征4:正态曲线下面积的分布有一定规律。
统计学三大分布的应用
统计学三大分布的应用
统计学三大分布的应用着实多,这三大分布是正态分布、`t`分布
和χ2分布,在其各自领域都扮演着十分重要的角色。
首先正态分布可以用来描述很多自然事物,比如人体身高,体重,智力测试等等,它也是描述数据量很大的连续型变量,例如说回报率
等等,也可以用来作抽样采集,比如实施一个全国性的抽样调查,可
以用正态分布来对所有可能的值,一路分布一路抽样,进行百分比抽样。
`t`分布的应用也相当广泛,它和正态分布很相似,但它的尾部更
加隆起,所以会更集中在中间,它主要用于描述样本数量较小、但又
有很多衡量指标的情况,比如实验数据或者是调查数据,这样可以让
每一个样本数据都能有很好的效果,而不会产生太多偏差。
χ2分布在统计学上最常见的应用之一就是通过定性预测进行验证,它可以用来测量两个独立事件之间的相关性,也可以用来检验某一用
例的假设是否正确,比如说,当你想检验一个癌症患者是否会改善的
时候,你可以使用一个χ2分布来计算出变化的概率,看看改善的可
能性有多大。
另外,χ2分布也可以用来进行多元统计分析,其实就是
对多个变量之间的关系进行分析,比如说他们之间存在着多大的相关性。
总而言之,统计学三大分布都很重要,他们都有各自不同的应用
场景,并且有多种方式可以用来分析数据,比如简单的相关性分析,
多元统计分析,模型检验等等。
希望这些信息能够帮助大家更好的理
解这三大分布的应用,以充分发挥他们的优势。
统计学三大分布与正态分布的关系
统计学三大分布与正态分布的关系[1] 张柏林 41060045 理实1002班摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质,然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之.1. 三大分布函数[2]1.12χ分布2()n χ分布是一种连续型随机变量的概率分布。
这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。
定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,),则称统计量222212n =+X X χ++…X 为服从自由度为n 的2χ分布,记为22~()n χχ.2χ分布的概率密度函数为122210(;),2()200n xn x e x n f x n x --⎧≥⎪⎪=Γ⎨⎪⎪<⎩ 其中伽玛函数1(),0t x x e t dt x +∞--Γ=>⎰,2χ分布的密度函数图形是一个只取非负值的偏态分布,如下图.卡方分布具有如下基本性质:性质1:22(()),(())2E n n D n n χχ==;性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++;性质3:2n χ→∞→时,(n )正态分布; 性质4:设)(~22n αχχ,对给定的实数),10(<<αα称满足条件:αχχαχα==>⎰+∞)(222)()}({n dx x f n P 的点)(2n αχ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查用.2()n χ分布的上α分位数 1.2t 分布t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student”的笔名首次发表的,这个分布在数理统计中也占有重要的位置.定义:设2~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量/T Y n=服从自由度为n 的t 分布,记为~()T t n .t 分布的密度函数为1221()2(;)(1),.()2nnxt x n tn nnπ+-+Γ=+-∞<<+∞Γt分布的密度函数图t分布具有如下一些性质:性质1:()nf t是偶函数,22,()()2tnn f t t eϕπ-→∞→=;性质2:设)(~ntTα,对给定的实数),10(<<αα称满足条件;ααα==>⎰+∞)()()}({ntdxxfntTP的点)(ntα为)(nt分布的水平α的上侧分位数. 由密度函数)(xf的对称性,可得).()(1ntntαα-=-类似地,我们可以给出t分布的双侧分位数,)()()}(|{|)()(2/2/2/αααα=+=>⎰⎰+∞-∞-ntntdxxfdxxfntTP显然有.2)}({;2)}({2/2/αααα=-<=>ntTPntTP对不同的α与n,t分布的双侧分位数可从附表查得.t分布的上α分位数1.3F 分布F 分布是随机变量的另一种重要的小样本分布,应用也相当广泛. 它可用来检验两个总体的方差是否相等,多个总体的均值是否相等. F 分布还是方差分析和正交设计的理论基础.定义:设22~(),~()X n Y m χχ,,X Y 相互独立,令则称统计量//X nF Y m=服从为第一自由度为n ,第二自由度为m 的F 分布.F 分布的密度函数图F 分布具有如下一些性质:性质1:若~(,),1/~(,)F F n m F F m n 则; 性质2:若)(~n t X ,则2~(1,)X F n ; 性质3:设),(~m n F F α,对给定的实数),10(<<αα称满足条件;ααα==>⎰+∞),()()},({m n F dx x f m n F F P的点),(m n F α为),(m n F 分布的水平α的上侧分位数.F 分布的上α分位数F 分布的上侧分位数的可自附表查得.性质4:.),(1),(1m n F n m F αα-= 此式常常用来求F 分布表中没有列出的某些上侧分位数.1.4正态分布正态分布是数理统计中的一种重要的理论分布 ,是许多统计方法的理论基础. 高斯(Gauss )在研究误差理论时首先用正态分布来刻画误差的分布,所以正态分布又称为高斯分布. 正态分布有两个参数,μ和σ,决定了正态分布的位置和形态. 为了应用方便,常将一般的正态变量X 通过u 变换转化成标准正态变量u ,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布N (0,1). 正态分布的密度函数和分布函数若连续型随机变量X 具有概率密度()f x 为22()2(),,2x f x e x μσπσ--=-∞<<+∞其中,(0)μσσ>为常数,则称X 服从参数为μσ,的正态分布,记为2~()X N μσ,.正态分布的密度函数图特征1:正态曲线(normal curve )在横轴上方均数处最高;特征2:正态分布以均数为中心,左右对称;特征3:正态分布有两个参数,即均数μ和标准差σ. μ是位置参数,σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动. σ是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭. 通常用2N μσ(,)表示均数为μ,方差为2σ的正态分布.用N (0,1)表示标准正态分布. 特征4:正态曲线下面积的分布有一定规律。
4.三大统计分布
> X a2 (n) )
的概率为α 的概率为
• 不同自由度的卡方分布 的概率密度曲线图形如 图所示. 图所示.
不同容量样本的抽样分布
n=1 n=4 n=10 n=20
χ2
• 查卡方表
•
设随机变量x, 相互独立 相互独立, 设随机变量 ,y相互独立, X~N(0,1), , , 记 Y~
则随机变量T服从自由度为 的 分布 分布. 则随机变量 服从自由度为n的t分布. 服从自由度为
据此可以讨论有关两个样本方差、 据此可以讨论有关两个样本方差、总体方 两个样本方差 差关系的问题。 差关系的问题。
• 定理:
据此可以讨论有关两个样本方差、 据此可以讨论有关两个样本方差、总体方 两个样本方差 差关系的问题。 差关系的问题。
据此可以讨论有关两个样本均值、总体均 据此可以讨论有关两个样本均值、 两个样本均值 值关系的问题。 值关系的问题。
课堂练习: 课堂练习: • 设X~N(µ,4)问至少应抽取多大容量的样本, 问至少应抽取多大容量的样本, 问至少应抽取多大容量的样本 才能使样本均值与总体数学期望的误差小于 才能使样本均值与总体数学期望的误差小于 样本均值 0.4的概率为 %? 的概率为95% 的概率为
课堂练习: 课堂练习: • 设X~N(µ,4)问至少应抽取多大容量的样本, 问至少应抽取多大容量的样本, 问至少应抽取多大容量的样本 才能使样本均值与总体数学期望的误差小于 才能使样本均值与总体数学期望的误差小于 样本均值 0.4的概率为 %? 的概率为95% 的概率为
变换为: 变换为:
− 0 .4 X − µ 0 .4 P{ < < } = 95 %
σ
n
σ
n
σ
三大分布及正态总体统计量的分布
泊松分布在统计学中的应用
01
在计数数据分析和可靠性工程中,泊松分布在预测和解释随机 事件发生的频率方面非常有用。
02
在生物统计学中,泊松分布用于描述遗传变异和基因突变的频
率。
在物理学中,泊松分布用于描述放射性衰变和粒子碰撞的次数。
03
泊松分布的参数
λ
事件的平均发生率,决定了泊 松分布的形状和规模。
p
每次试验成功的概率,是一 个0到1之间的实数。
k
成功的次数,是一个0到n之 间的非负整数。
04
正态总体统计量的分布
样本均值的分布
1
样本均值是总体均值的无偏估计,其分布近似于 正态分布,当样本量足够大时,样本均值的分布具有对称性,即均值点是其对称 轴,标准差越小,分布越集中,对称性越好。
3
样本均值的标准误是衡量样本均值与总体均值差 异的指标,其计算公式为标准差除以样本量的平 方根。
样本方差的分布
01
样本方差是总体方差的估计量,其分布并不服从正 态分布,而是卡方分布。
02
样本方差的大小与样本量有关,样本量越大,方差 越小;样本量越小,方差越大。
03
样本方差的自由度等于样本量减去1。
二项分布在统计学中的应用
01
可靠性分析
在可靠性工程中,二项分布用于 描述产品在多次试验中失败的次 数。
遗传学
02
03
统计学
在遗传学中,二项分布用于描述 在n次独立重复的遗传试验中某 基因出现的次数。
在统计学中,二项分布用于描述 在n次独立重复的伯努利试验中 成功的次数。
二项分布的参数
n
试验次数,是一个非负整数 。
正态分布的性质
(完整word版)统计学三大分布与正态分布的关系
统计学三大分布与正态分布的关系[1]张柏林 41060045 理实1002班摘要:本文首先将介绍 2分布,t 分布,F 分布和正态分布的定义及基本性质, 然后用理论说明2分布,t 分布,F 分布与正态分布的关系,并且利用数学软件 MATLAB 来验证之.1.三大分布函数[2]1.1 2分布2(n )分布是一种连续型随机变量的概率分布。
这个分布是由别奈梅(Benayme )赫尔默特(Helmert )、皮尔逊分别于1858年、1876年、1900年所发 现,它是由正态分布派生出来的,主要用于列联表检验。
定义:若随机变量X 1,X 2,…X n 相互独立,且都来自正态总体 N (0,,),则称 统计量2=x ; X ;…+X ;为服从自由度为n 的2分布,记为2 2~ (n ).2分布的概率密度函数为1 xe 2 x 0Jx 0其中伽玛函数(X ) e t t x 1dt,x 0,2分布的密度函数图形是一个只取非负值的偏态分布,如下图•x 2 n2° f(x; n)2(n2) ,X!,X2相互独立,则X! X2~ 2g n2);性质3: n 时,2(n) 正态分布;性质4:设2~ 2(n),对给定的实数(0 1),称满足条件:P{ 2 2(n)} 2(、f(x)dx(n)的点2(n)为2(n)分布的水平的上侧分位数.简称为上侧分位数.对不同的与n,分位数的值已经编制成表供查分布,是由英国统计学家戈赛特在1908年“student的'笔名布在数理统计中也占有重要的位置.1), Y〜2(n), X,Y相互独立,,则称统计量T —XVY/ n分布,记为T~t( n).为性质1: E( 2(n)) n,D( 2(n)) 2n ; 性质2:若X! 2(nJ,X2t 分布具有如下一些性质:P{T t (n)} t (n )f (x )dx 的点 t(n)为 t( n)分布的水平的上侧分位数.由密度函数f(x) 的对称性,可得t 1 (n) t (n).类似地,我们 可以给出t 分布的双侧分位数t /2(n)P{|T|t /2( n)} f (x)dx t ,、f(x)dxt /2(n)显然有 P{T t /2(n)}-;P{T t /2 (n)}-.对不同的与n ,t 分布的双侧分位数可从附表查得.t 分布的上分位数t(x; n)士 (1J(”nt 分布的密度函数图t 2性质1 : f n (t)是偶函数,n,f n (t)性质2 :设T~t (n),对给定的实数(01),称满足条件;1.3 F分布F 分布是随机变量的另一种重要的小样本分布,应用也相当广泛.它可用来检验两个总体的方差是否相等,多个总体的均值是否相等• F分布还是方差分析和正交设计的理论基础.定义:设X〜2(n ),Y~ 2(m),X,Y相互独立,令则称统计量F 冬耳服Y/m 从为第一自由度为n,第二自由度为m的F分布.F分布的密度函数图F分布具有如下一些性质:性质1:若 F ~F(n,m),贝M/F 〜F(m,n);7性质2:若X ~t(n),则X2 ~ F(1,n);性质3:设F〜F (n,m),对给定的实数P{F F (n,m)} f(x)dxF (n,m)的点F (n,m)为F(n,m)分布的水平的上侧(0 1),称满足条件;艮個]T,叶1)分位数.F 分布的上分位数F 分布的上侧分位数的可自附表查得•性质4: F (m,n) 1 .此式常常用来求F 分布表中没有列出的某些上F i (n,m)侧分位数. 1.4正态分布正态分布是数理统计中的一种重要的理论分布 ,是许多统计方法的理论基础.高斯(GausS 在研究误差理论时首先用正态分布来刻画误差的分布,所以 正态分布又称为高斯分布.正态分布有两个参数,卩和(T,决定了正态分布的位 置和形态.为了应用方便,常将一般的正态变量X 通过u 变换转化成标准正态变量u ,以使原来各种形态的正态分布都转换为 正态分布的密度函数和分布函数若连续型随机变量X 具有概率密度f (x)为为,的正态分布,记为X ~ N( , 2).特征1:正态曲线(normal curve )在横轴上方均数处最高;卩=0 CT =1的标准正态分布N( 0, 1).,其中,(0)为常数,则称X 服从参数f(x)-3-2-10123正态分布的密度函数图特征2:正态分布以均数为中心,左右对称; 特征3:正态分布有两个参数,即均数 和标准差 越小,曲线越尖峭•通常用N( , 2)表示均数为 ,方差为 2的正态分布 用N( 0, 1)表示标准正态分布.特征4:正态曲线下面积的分布有一定规律。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
由度的 t 分布,记为 Z ~ t (n) 。
n +1 ) n +1 y2 − 2 2 密度函数为 t n ( y ) = (1 + ) 。当 n = 1 时, t 分布的均值不存在, n n nπ Γ( ) 2 n (n > 2) 。 当 n > 1 时, t (n) 的均值为 0,方差为 n−2 X /m 定义 3:设 X , Y 独立且 X ~ χ 2 (m), Y ~ χ 2 (n) ,称 Z = 的分布为具有自由度 Y /n
i =1
n
i
− X )2
,则
n −1
1)
X ~ N (µ , (n − 1) S 2
σ2
n
);
2) 3) 4)
σ
2
~ χ 2 (n − 1) ;
X 与 S 2 独立; n(X − µ) ~ t (n − 1) 。 S
2 定 理 2 : 设 X 1 ,L X n i.i.d ~ N ( µ1 , σ 12 ) , Y1 , LYm i.i.d ~ N ( µ 2 , σ 2 ) 且 X 1 ,L X n 与
− (σ 14 u 2 u 3 + σ 24 u1u 3 + σ 34 u1u 2 )ϕ (t1 , t 2 , t 3 , t 4 ) + u1u 2 u 3u 4ϕ (t1 , t 2 , t 3 , t 4 )
从而 Eξ1ξ 2ξ 3ξ 4 =
+ (σ 13σ 24 + σ 23σ 14 )ϕ (t1 , t 2 , t 3 , t 4 ) − (σ 13 u 2 + σ 23 u1 )u 4ϕ (t1 , t 2 , t 3 , t 4 )
= u 3σ 12ϕ (t1 , t 2 , t 3 , t 4 ) + (σ 13 u 2 + σ 23u1 )ϕ (t1 , t 2 , t 3 , t 4 ) − u1u 2 u 3ϕ (t1 , t 2 , t 3 , t 4 )
1
∂u ∂ 4ϕ = 3 σ 12ϕ (t1 , t 2 , t 3 , t 4 ) − u 3u 4σ 12ϕ (t1 , t 2 , t 3 , t 4 ) ∂t 4 ∂t 3 ∂t 2 ∂t1 ∂t 4 + [σ 12 − ∂u 2 ∂u + σ 23 1 ]ϕ (t1 , t 2 , t 3 , t 4 ) − (σ 13 u 2 + σ 23u1 )u 4ϕ (t1 , t 2 , t 3 , t 4 ) ∂t 4 ∂t 4
∑(X
i =1
n
i
− X ) + ∑ (Yi − Y )
2 i =1
m
~ t ( m + n − 2) 。
2
4
(
)
(
)
(
)
9.2 统计中三大分布 首先介绍 Γ 函数与 β 函数。 Γ 函数定义为 Γ( x) = ∫ e −t t x −1 dt , x > 0 ,基本性质:
0 ∞
1 Γ(1) = 1, Γ( ) = π , Γ( x + 1) = xΓ( x) 。 β 函数定义为: 2
2
β ( x, y ) = ∫ t x −1 (1 − t ) y −1 dt , x, y > 0 , β ( x, y ) =
Y1 µ1 V11 V12 定理 4:设 Y = V > 0 。则给定 Y2 时 Y1 Y ~ N ( µ , V ), 其中µ = µ ,V = 21 V22 2 q 2
的条件分布是 p 维正态分布,并且条件期望和方差分别为:
−1 −1 V11 − V12V22 µ2 V21 0 u µ1 − V12V22 u ,这表明 且 E = = = , ( ) ' Var BVar y B v µ 0 V22 2 v −1 Y1 − V12V22 Y2 和Y2 是独立的,因此给定 Y2 , Y1 的条件分布是 p 维正态分布。 −1 −1 −1 E (Y1 | Y2 ) = E Y1 − V12V22 Y2 + V12V22 Y2 | Y2 = E (Y1 | Y2 ) = µ1 + V12V22 (Y2 − µ 2 ) −1 −1 −1 −1 Var (Y1 | Y2 ) = Var Y1 − V12V22 Y2 + V12V22 Y2 | Y2 = Var Y1 − V12V22 Y2 | Y2 == V11 − V12V22 V21
−1 −1 E (Y1 | Y2 ) = µ1 + V12V22 (Y2 − µ 2 ), Var (Y1 | Y2 ) = V11 − V12V22 V21 。
p
u I p 证明:定义 v = 0
−1 −1 Y1 Y − V12V22 − V12V22 Y2 u = By = 1 ,则 v 是正态分布, Y Y Iq 2 2
的均值为
n 2n 2 (m + n − 2) (n > 2) ,方差为 (n > 4) 。 n−2 m(n − 2) 2 (n − 4)
9.3 正态分布与三大分布的关系
3
定理 1:设 X 1 ,L X n i.i.d ~ N ( µ , σ 2 ) ,令 X =
∑ Xi
i =1
n
n
,S2 =
∑(X
Γ(
m 和 n 的 F 分布,记为 Z ~ F (m, n) 。
m+n n m m+ n Γ( 2 ) m −1 − 2 2 2 m n y (my + n) 2 , y > 0 密度函数为 f mn ( y ) = m 。 F (m, n) 分布 n Γ ( 2 )Γ ( 2 ) 0, y ≤ 0
2 Y1 , LYm 独立。令 S X =
∑ (X i − X )2
i =1
n
n −1
2 , SY =
∑ (Y
i =1
m
i
− Y )2
,则
m −1
2 S Y2 / σ 2 ~ F (m, n) ;当 2 SX / σ 12
2 σ 12 = σ 2 时
nm(n + m − 2) [(X − Y ) − (µ1 − µ 2 )] n+m
l =1
4
4 ∂ϕ 1 = ϕ (t1 , t 2 , t 3 , t 4 )[− (u1 + ∑ t k σ k1 )] ∂t1 2 k =1
1 = ϕ (t1 , t 2 , t 3 , t 4 )[− (u1 + u1 )] = −u1ϕ (t1 , t 2 , t 3 , t 4 ) 2 ∂u ∂ 2ϕ = − 1 ϕ (t1 , t 2 , t 3 , t 4 ) + u1u 2ϕ (t1 , t 2 , t 3 , t 4 ) ∂t 2 ∂t1 ∂t 2 = −σ 12ϕ (t1 , t 2 , t 3 , t 4 ) + u1u 2ϕ (t1 , t 2 , t 3 , t 4 ) ∂u u ∂ 3ϕ = u 3σ 12ϕ (t1 , t 2 , t 3 , t 4 ) + 1 2 ϕ (t1 , t 2 , t 3 , t 4 ) − u1u 2 u 3ϕ (t1 , t 2 , t 3 , t 4 ) ∂t 3 ∂t 2 ∂t1 ∂t 3 ∂u k = σ kj 。 ∂t j
Σ ≠ 0 ,则 X 的分布密度为 f ( x ) =
1 (2π )
n 2
Σ
1
2
1 exp − ( x − µ )' Σ −1 ( x − µ ) 。 2
定理 1:多元正态分布随机变量的边际分布仍然是正态分布。 定理 2: X ~ N ( µ , Σ) ⇔ 对任意n维向量t , t ' X ~ N (t ' µ , t ' Σt ) 。 定理 3:随机变量 ξ1 , ξ 2 的联合分布是正态分布,则 ξ1 , ξ 2 相互独立等价于 ξ1 , ξ 2 不 相关。 例 1 : 若 ξ1 , ξ 2 , ξ 3 , ξ 4 的 联 合 分 布 为 零 均 值 的 正 态 分 布 , 则 Eξ1ξ 2ξ 3ξ 4 = Eξ1ξ 2 Eξ 3ξ 4 + Eξ1ξ 3 Eξ 2ξ 4 + Eξ1ξ 4 Eξ 2ξ 3 。 证明:设其特征函数为
0 n
1
Γ ( x )Γ ( y ) 。 Γ( x + y )
定义 1: 设 X 1 ,L X n i.i.d ~ N (0,1) , 称 Y = ∑ X i2 的分布为具有 n 个自由度的 χ 2 分
i =1
布,或记为 Y ~ χ 2 (n) 。
y n − −1 1 2 2 e y ,y >0 n 密度函数为 k n ( y ) = 2 2 Γ( n ) 。 χ 2 分布的基本性质: 2 0, y ≤ 0
1)
设 Y1 ,LYk 独立且 Yi ~ χ 2 (ni ) ,则 ∑ Yi ~ χ 2 (∑ ni ) ;
i =1 i =1
k
k
2)
χ 2 (n) 的均值为 n ,方差为 2n 。
X Y n
定义 2:设 X ~ N (0,1) , Y ~ χ 2 (n) 且 X , Y 独立,称 Z =
的分布为具有 n 个自
4
ϕ (t1 , t 2 , t 3 , t 4 ) = E exp(i ∑ t j ξ j ) = exp(− t ' Σt )
j =1
1 2
= exp(−
1 4 1 4 t σ t = − ) exp( ∑ k k ,l l ∑ tk uk ) 2 k =1 2 k ,l =1