王静龙《非参数统计分析》教案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
.引言
一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。 例如:分析下面的供应商的产品是否合格?
合格产品的标准长度为(±),随即抽取n=100件零件,数据如下:
表
经计算,平均长度为cm x 4958.8=,非常接近中心位置,样本标准差为
()
1047.011
2
=--=
∑=n
i i
n x x s cm.一般产品的质量服从正态分布,),(~2δμN X 。
这说明产品有接近三分之一不合格,三分之二合格,所以需要更换供应厂 商,而用非参数分析却是另外一个结果。 以下是100个零件长度的分布表:
这说明有90%的零件长度在)2.05.8(±cm 之间,有9%的零件不合格,所以工厂不需要换供应商。
例2 哪一个企业职工的工资高? 表两个企业职工的工资
显然,企业1职工的工资高,倘若假设企业1与企业2的职工工资分别服从正态分布),(),,(22σσb N a N ,则这两个企业职工的工资比较问题就可以转化为一个参数的假设检验问题,原假设为b a H =:0,备择假设为b a H >:0 则 ))11(,(~2σn
m b a N y x +-- 若0H 为真,则
其中])()([211
212
2∑∑==-+--+=
n
i i m i i w
y y x x n m S 拒绝域为:}325.1{)}20({90.0≥=≥t t t 检测值为:282.1=t
故不能拒绝原假设,认为两企业的工资水平无差异。 也可以用值-P 检验
由于1073.0)282.1)20((=≥t P
故不能拒绝原假设,认为两企业的工资水平无差异。
这里我们采用的显着性水平为.
但这个统计结论与实际数据不相符合。主要是因为假设工资服从正态分布,这个假设是错误的,用错误的假设结合参数分析自然得出的结论不可靠。这时候有两种方法处理,一种更换其他分布的假设,二是用非参数数据的方法的分析。非参数统计如同光谱抗生素,应用范围十分广泛。
参数统计与非参数统计针对不同的情况提出的统计方法,它们各有优缺点,互为补充。
第二章描述性统计
§表格法和图形法
表格法主要有列频数分布表和频率分布表
例某公司测试新灯丝的寿命,列表如下:
(1)找到最小值43,最大值116;
(2)将组数分为5~20组,最小值)
,分16组,组距为5
(最大值
组距-
表灯丝寿命的频率分布表
对应的直方图为:
§表格法和图形法
数值方法主要是用数值来表示数据的中心位置(或者平均大小)和离散程度等。
列1
平均
标准误差
中位数 3
众数 3
标准差
方差
峰度
偏度
区域 4
最小值 1
最大值 5
求和34
观测数12
它的平均数,中位数,众数差不多大。但大部分情况不是这样的,例如:
§表某保险公司赔款样本数据频率分布表
左峰的时候:众数≤中位数≤平均数,
右峰的时候:平均数≤中位数≤众数。
平均数容易受到异常值的影响,故不能很好地代表中心位。
例如某地农户收入增长了%,但减收的农户却是60%,为了更好地反映中心位,所以很多情α的切尾平均数。人们熟知的去掉最大值与最小值的平均数也是切尾平均数。
况采用%
§经济专业毕业生的月收入数据
为1940.但中位数都一样,均为1905,中位数表现了稳定性。因此我们不仅用平均数表示中心位置,有时候也用中位数描述数据的中心位置。
另外,众数也能用来描述数据的中心位置,尤其是定性数据的中心位置,例如:§有缺陷的小巧克力不合格品问题的频数频率分布表
这种情况下计算平均数和中位数没有多大意义,相反众数为1,众数值得关注。一般情况,平均数,中位数,众数应该综合考量,这三个数目,使得我们可以从不同角度表达数据的中心位置,给评估对象一个全面的评价,例如:某企业的职工收入的平均数为5700,元,中位数为3000元,众数为2000元,这说明收入2000元的人最多,有一半职工低于3000元,有一半职工高于3000元,平均数5700大于中位数,说明有些员工工资特别高。
平均数与中位数为何可以表示数据的中心位置呢?主要是因为:
2
1
2
1
)
(min )
(∑∑==-=-n
i i a
n
i i
a x x x ()
∑∑==-=-n
i i
a
n
i i a x me x 1
1
min ()
这说明用不同的距离标准衡量,平均数与中位数到各点的距离最近。 另外平均数的物理意义还有重心的意义,在重心位置,系统可以平衡,在图处,平均数为4,中位数为3,就意味着把树木集中在3这点,所走的路最短。
* *
* *
* * * * * * * 1 2 3 4 5 6 7 8 9 中位数 平均数
§ 表示离散程度的数值
表示离散程度的数值一般有方差,四分位数,而四分位数又分上四分位数与下四分位数。
为表示数据的离散程度,我们一般用五个数概括,即最小值,下四分位数,中位数,上四分位数,最大值,分别记为.,,,,43210Q Q Q Q Q
例如:将12名经济专业毕业生月收入数据处理结果如下:(用Minitab )