第六章数理统计学的基本概念

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六章数理统计的基本概念

一、教学要求

1.理解总体、个体、简单随机样本和统计量的概念,掌握样本均值、样本方差及样本矩的计算。

2.了解分布、t分布和F分布的定义和性质,了解分位数的概念并会查表计算。

3.掌握正态总体的某些常用统计量的分布。

4.了解最大次序统计量和最小次序统计量的分布。

本章重点:统计量的概念及其分布。

二、主要内容

1.总体与个体

我们把研究对象的全体称为总体(或母体),把组成总体的每个成员称为个体。在实际问题中,通常研究对象的某个或某几个数值指标,因而常把总体的数值指标称为总体。设x为总体的某个数值指标,常称这个总体为总体X。X的分布函数称为总体分布函数。当X为离散型随机变量时,称X的概率函数为总体概率函数。当X为连续型随机变量时,称X的密度函数为总体密度函数。当X服从

正态分布时,称总体X为正态总体。正态总体有以下三种类型:

(1)未知,但已知;

(2)未知,但已知;

(3)和均未知。

2.简单随机样本

数理统计方法实质上是由局部来推断整体的方法,即通过一些个体的特征来推断总体的特征。要作统计推断,首先要依照一定的规则抽取n个个体,然后对这些个体进行测试或观察得到一组数据,这一过程称为抽样。由于抽样前无法知道得到的数据值,因而站在抽样前的立场上,设有可能得到的值为,n维随机向量()称为样本。n称为样本容量。()称为样本观测值。

如果样本()满足

(1)相互独立;

(2) 服从相同的分布,即总体分布;

则称()为简单随机样本。简称样本。

设总体X的概率函数(密度函数)为,则样本()的联合概率函数(联合密度函数为)

3. 统计量

完全由样本确定的量,是样本的函数。即:设是来自总体X 的一个样本,是一个n元函数,如果中不含任何总体的未知参数,则称为一个统计量,经过抽样后得到一组样本观测值,则称为统计量观测值或统计量值。

4. 常用统计量

(1)样本均值:

(2)样本方差:

(3)样本标准差:

它们的观察值分别为:

这些观察值仍分别称为样本均值、样本方差和样本标准差。

(4)样本(k阶)原点矩

1

1

,1,2,

n

k

k i

i

A X k

n=

==

∑L

(5)样本(k阶)中心矩

1

1

(),2,3,

n

k

k i

i

B X X k

n=

=-=

∑L

其中样本二阶中心矩2

1

1

(),

n

k i

i

B X X

n=

=-

∑又称为未修正样本方差。

(6)顺序统计量

将样本中的各个分量由小到大的重排成

(1)(2)()n

X X X

≤≤≤

L

则称

(1)(2)()

,,

n

X X X

L为样本顺序统计量,

()(1)

n

X X

-为样本的极差。

(7)样本相关系数:

11

22

11

()()()()

11

()()

n n

i i i i

i i

xy n n

x y

i i

i i

x x y y x x y y

r

S S

x x y y

n n

==

==

----

==

--

∑∑

∑∑

其中:,x y分别为数据,

i i

x y的样本均值,,

x y

S S分别为样本a标准差。5、直方图与箱线图

(1)直方图

先将所有采集的数据进行整理,得到顺序统计量,找出其中的最小值

(1)

x,最

大值

()n

x,即所有的数据都落在区间

(1)()

,

n

x x

⎡⎤

⎣⎦上,现取区间(1)()

,

n

x k x k

⎡⎤

-+

⎣⎦(其

中k 可取0.5,1.5等),该区间能覆盖区间(1)(),n x x ⎡⎤⎣⎦,将区间(1)(),n x k x k ⎡⎤-+⎣⎦等分为m 个小区间(先取一个区间,其下限比最小的数据稍小,其上限比最大的数据稍大,然后将这一区间等分为m 个小区间,通常n 较大时m 取1020:,当50n <时则m 取56:。若m 取得过大,则会出现某些区间内频数为零,分点通常取比数据精度高一位,以避免数据落在分点上),小区间的长度记为∆,

(1)()()()n x k x k l m

+--∆==,∆称为组距,小区间的端点称为组限,数出数据落

在每个小区间内的数据的频数i f ,算出频率(1,2,)i f

i l n

=L ,然后自左至右依次

在各个小区间上做以(1,2,)i

f n i l =∆

L 为高的小矩形,这样的图形就称其为频率直方图。显然这种小矩形的面积就等于数据落在该小区间的频率(1,2,)i f

i l n

=L ,

直方图的外廓曲线接近于总体X 的概率密度曲线。 (2)p 分位数

定义 设有容量为n 的样本观察值12,,,n x x x L ,样本(01)p p <<分为数记为p x ,它具有以下性质:(1)至少有np 个观察值小于或等于p x ;(2)至少有(1)n p -个观察值大于或等于p x

样本p 分位数可按以下法则求得:

将12,,,n x x x L 按从小到大的顺序排成(1)(2)()n x x x ≤≤≤L

01,若np 不是整数,则只有一个数据满足定义中的两点要求,这一数据位于大于np 的最小整数处,即为位于[]1np +处的数。

02,若np 是整数,则1,np np x x +都符合性质要求,故p x 取1,np np x x +的平均值。

综上可得:[](1)

()(1)12

np p np np x x x x ++⎧⎪

=⎨⎡⎤+⎪⎣⎦⎩ np np 不是整是整

特别的:1

()

20.51()()

2

21

2n n n x x med x x ++⎧⎪⎪

==⎨⎡⎤⎪+⎢⎥⎪⎣⎦⎩ n n 奇偶

0.25分位数又称为第一四分位数,又记为1Q ;0.75分位数又称为第三

四分位数,又记为3Q

(3)箱线图:

数据集的箱线图是由箱子和直线组成的图形,它是在基于以下5个数据的图形概括:最小值13,,,,Min Q M Q 最大值Max ,做法如下:

(1)画一水平数轴,在轴上标记最小值13,,,,Min Q M Q 最大值Max ,在数轴上方画一个上下侧平行于数轴的矩形箱子,箱子的左右两侧分别位于13,Q Q 的上方,在M 点的上方画一条垂直线段,线段位于箱子的内部;

(2)自箱子的左侧中点引一条水平线直至最小值上方;在同一水平高度自箱子右侧引一条水平线直至最大值上方。箱线图完成。

相关文档
最新文档