王向东数学实验本
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
王向东数学实验本
————————————————————————————————作者:————————————————————————————————日期:
实验十二 刀具寿命的测定
【实验目的】
1.了解数理统计中数据描述和分析的基本概念和方法。
2.通过对实际数据的分析、统计,初步培养统计推断解决问题的建模思想。 3.学习掌握用MA TLAB 命令进行参数估计、假设检验和统计推断问题的求解。
【实验内容】
一道工序用自动化车床连续加工某种零件,由于刀具损坏等原因,该工序会出现故障,工序出现故障是完全随机的,假定在生产任一零件时出现故障的机会均相同。工作人员通过检查零件来确定工序是否出现故障。现积累有100次刀具故障记录,故障出现时该刀具完成的零件数如下表:
100次刀具故障记录(已完成的零件数)
459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 49 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764
558
378
765
666
763
217
715
310
851
试确定刀具的平均寿命,同时判断该刀具出现故障时完成的零件数属于何种分布。
【实验准备】
在现代社会中,数据是事物现象的反映,是科学推断的依据,起着至关重要的作用。由于各种随机因素的影响,实验数据往往带有一定的误差,这时需要从数据中分离出随机因素的成分,从而挖掘出事物规律性的成分,以此对所研究总体的性质作出推测性的判断。进行这样的分析建立在收集大量数据的基础之上,称为统计分析。
1.概率统计的基本概念
总体是人们研究对象的全体,又称为母体,而组成总体的每个单元叫做个体。任何一个总体都可以用一个随机变量来描述它。所以,总体就是一个带有确定概率分布的随机变量,常用X ,Y ,Z 等表示总体。一般情况下,总体的数目非常大,对于总体X 分布规律进行研究就必须对总体抽样观察,并分析推断,这种研究过程称为抽样。
从总体X 中,随机地抽取n 个个体1x ,2x ,…,n x (例如在10000件灯管中抽取100件检查次品数量),这样取得的(1x ,2x ,…,n x )称为总体X 的一个样本容量为n 的样本或子样。
统计推断就是根据样本来对总体进行分析、推断。通常的作法,依据某种理由或经验来假定总体服从已知形式的概率分布,只要由样本来推断总体概率分布中的若干参数。所以样
本的获取会直接影响统计推断的结果,理想的样本是随机、相互独立且与总体同分布。
抽取样本后,我们并不直接利用样本的n 个观察值进行推断,需要对这些值进行加工、提炼,把样本中包含的对我们研究推断有用的信息、特征找出来,这便要针对不同问题构造样本的某种函数,这种不带未知参数的样本的函数称为统计量,几个最基本的统计量是:
均值(平均值、数学期望):x =n 1∑=n
i i x 1
,反映了样本取值的中心;
中位数:将样本1x ,2x ,…,n x 从小到大排序后位于中间位置的那个数;
标准差:s =2
1
121)(11⎥⎦
⎤⎢
⎣⎡--∑=n
i x x n ,它是各个样本数据对于均值的偏离程度; 方差:标准差的平方;
协方差:),cov(y x =
1
1
-n ∑---n
i i i y y x x 1
))((,样本相关系数),(y x r =
y
x s s y x )
,cov(,
反映了样本1x ,2x ,…,n x 与样本1y ,2y ,…,n y 的线性相关关系。若|r |接近1,说两样本线性关系密切,若|r |接近0说明两样本取值大小无线性关系。
当n 足够大时,样本均值和样本标准差结合起来可大致描述数据的分布结构。统计量的概率分布称为抽样分布,最常用的概率分布形式有正态分布、指数分布、2
χ分布、t 分布、
F 分布等。一个随机变量ξ的p 分位数p x 定义为
P (ξ<p x )=p ,0≤p ≤1 (1) 一组样本数据往往是杂乱无章的,可以通过作频数表和直方图的方式,大致描绘出分布密度曲线,并对总体的分布函数作出假设判断。将数据的取值范围划分为若干个小区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取舍为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图(频数分布图)。X 是否符合该假设的分布规律,我们通过对分布密度的参数估计的基础上用假充检验来加以验证。
2.统计推断方法
在统计推断中,总体概率分布的某些参数θ未知,需要根据样本1x ,2x ,…,n x 估计
θ的值,称为参数估计。参数估计分为两类:点估计和区间估计。点估计就是直接给出θ的估计值,如“θ大约等于某个数”,点估计缺乏对估计精度的说明。区间估计给出θ的估计值区间,并附加一个概率,如“θ的95%置信区间是[5.2,6.3]”,含意是:θ在[5.2,6.3]
内的概率为0.95。
设有总体),(θx F ,其中参数θ未知,现有来自),(θx F 的一个样本1x ,2x ,…,n x ,要估计θ的值。如有区间CI =[1θ,2θ],使得
P (1θ<θ<2θ)=1-a (2) 称CI 为θ的100(1-a )%置信区间。
设ξ为正态总体),(2
σμN ,μ,σ未知,1x ,2x ,…,n x 为样本,那么μ,σ的点估计分别为
μ=x ,σ=s (3)
它们的100(1-a )%的置信区间分别为 ))1(,)1((2
12
1n
s n t
x n
s n t
x a a -+---
-
(4)
))
1()1(,)1()1((22
2
22
12-----n x s n n x s n a a (5)