概率论与数理统计基础知识

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、个体、母体与子样 在统计分析中,构成研究对象的每一个最基本的单位称为个体。
进行统计分析,通常是从母体中随机地选择一部分样品,称为子样(又称样本)。用它来代 表母体进行观察、研究、检验、分析,取得数据后加以整理,得出结论
例如,我们可将一个编号水泥看成是母体,每一包水泥看成是个体,通过随机取样(连续取 样或从20个以上不同部位取样),所取出的12kg检验样品可称为子样,通过检验分析,即可 判断该编号水泥(母体)的质量状况。
实例2 随机变量 X 为“测量某零件尺寸时的测量 误差”.
则 X 的取值范围为 (a, b) .
定义
设 E 是随机试验, 它的样本空间是 S {e}. 如 果对于每一个 e S , 有一个实数 X (e) 与之对应, 这样就得到一个定义在 S 上的单值实值函数 X (e), 称 X (e) 为随机变量.
如果事件A发生必然导致事件B发生,即A的每个样本点都是B的样本点,则称 B包含A,记作 A B .从事件的集合表示看,事件B包含事件A就是样本空间的 子集B包含子集A 等对,任记何为事A件=AB,,总即有,AA与 B含有如相果同A 的 B样本,点同时B A ,则称事件A和事件B相
事件的互斥
如果事件A和B不可能同时发生,即A与B没有公共样本点,则称A与B是互斥 的(Mutually Exclusive)或互不相容的,换句话说,两个事件A与B互斥就是 样本空间两个子集A与B不相交
四、数据统计特征数
算术平均值 我们从总体抽了一个样本(子样),得到一批数据X1、X2、X3……Xn在处理这批数据时,经常
用算术平均值X来代表这个总体的平均水平。统计中称这个算术平均值为“样平均值”。 中位数 把数据按大小顺序排列,排在正中间的一个数即为中位数。当数据的个数n为奇数时,中位数就
是正中间的数值,当n为偶数时,则中位数为中间两个数的算术平均值。 极差R 极差就是数据中最大值和最小值的差,又称全距,用符号R表示。 R=Xmax-Xmin 式中 Xmax—数据中的最大值
随机变量的定义
实例1 抛掷骰子,观察出现的点数. 则有
S={1,2,3,4,5,6} 样本点本身就是数量(不需要数量转化) X (e) e 恒等变换
X (1) 1, X (2) 2, X (3) 3, X (4) 4, X (5) 5, X (6) 6,
且有
P{ X i} 1 , (i 1,2,3,4,5,6). 6
准确度与误差
准确度是分析结果与真实值相符合的程度,通过用误差的大小来表示。误差越小。分析结果的准 确度越高。
误差有两种表示方法:绝对误差和相对误差。绝对误差是测定值与真实值之差,相对误差是绝对 误差在真实值中所占的百分率,即
绝对值=测定值—真实值
绝对误差
相对误差= —————— X 100%
真实值
由于一般分析测定中误差的数值是相当小的,因此有时也用测定结果代替真实值,即相对误差 近视地等于绝对误差与测定结果之比,再乘以100%
绝对偏差 相对偏差=——————— X100%
算术平均值
误差的来源
根据误差的性质,可将误差分为两类。即系统误差和偶然误差。
系统误差
系统误差又称可定误差或可测误差。这是由于测定过程中某些经常性的原因所造成的误差, 它影响分析结果的准确度。
偶然误差
偶然误差又称非确定误差或随机误差。这是由一些难以控制的偶然因素所造成的误差,没有 一定的规律性。虽然操作者仔细操作,外界条件也尽量保持一直,但测得的一系列数据仍有差 别,并且所得数据误差的正负不定、大小不定。产生这类误差的原因常常难于觉察,可能是由 于室温、气压、温度等检验条件的偶然波动所引起;或是因使用的砝码偶然缺损,试剂质量或 浓度改变所造成;也可能由于个人一时辨别的差异使读书不一致。
有客观依据的估计,这个依据就是所谓的频率稳定性:当试验或观 察次数n较大时,事件A发生的频率Fn (A)会在某个确定的常数p附近摆 动,并渐趋稳定.
根据频率稳定性,我们可以对概率给出一个客观描述,这就是概
率的统计定义:一个事件A的概率 P(A) 就是该事件的频率稳定值p,
即 P(A) p
常见的数理统计方式
变异系数CV 用极差和标准偏差都只反映数据波动的绝对大小。
当测量单位不同或测量单位相同,但不同组的平均数相差很大时,用标准偏差来衡量离散程度 的大小是不合理的,必须用相对标准偏差(即变异系数)来表示离散程度。如在做水泥均匀性 试验时,就要求计算变异系数,通过变异系数就可以比较不同企业的水泥质量波动情况。
二、数据、计量值与计数值 数据
通过测试或调查母体所得的数字或符号记录,称为数据。 计量值
凡具有连续性或可以利用各种计量分析一起、量具测出的数据。如长度、质量、温度、化学 成分、强度等,多属于计量值数据。计量值也可以是整数,也可以是小数,具有连续性。 计数值 凡不能用测量工具和一起进行测量,而是用计数的方法得到的非连续性数据。如合格率,废品 个数等,数据计数值数据。计数值是不连续的、间断的,以离散状态出现。
或者 X(t, )是一个二元函数: 固定t,X(t, )是一个随机变量; (随机过程在t时刻的状态) 固定,X(t, )是一个实值函数; (随机过程的样本函数或 样本曲线、现实或轨道)
随机变量(random variable):简单的随机现象,如某班一天 学生出勤人数,是静态的。
随机过程(stochastic process):随机现象的动态变化过程。 动态的。如某一时期各个时刻的状态
随机变量的分类
(1)离散型 随机变量所取的可能值是有限多个或 无限可列个, 叫做离散型随机变量. (2)连续型 随机变量所取的可能值可以连续地充 满某个区间,叫做连续型随机变量.
随机过程的基本概念及分类
例1 用X(t)表示某手机在大年初一早上从8:00开始经过 t 时刻收 到的短信数。
例2 设质点Q在一直线上移动,每单位时间移动一次,且只能在整数 点上移动。用X(t)表示 t 时刻该质点所处的位置。
Xmin—数据中的最小值
标准偏差(子样S,母体O)
标准偏差是人们总结和推导出来的一个衡量总体分散程度的度量值,又称为均方根差。
其推导过程是:设有n个数据,先技术出算术平均值X,将总体中各个数据减去平均值,即得 离差。离差可能是正数,也可能是负数或零。如果将全部离差相加,其代数和将会为零。为此 先将各离差平方,计算出离差的平方和。并除以数据的个数n,则求得各离差平方的算是平均 值(即方差)。子样的标准偏差用S表示,母样的标准偏差用O表示。
减少系统误差的方法 选择合适的分析方法。这是减少系统误差的根本途径。对不同种类的试样应采取不同的分析 步骤, 防止不明成分的干扰。 采用对比检验方法。即用标样进行对比分析或用标准方法进行对比分析。
利用标准样来检查和校正分析结果消除系统误差的方法,在实际工作中应用得较为普遍。通 常应取用与分析样品的组成比较接近的标准样进行对比分析。 记录及计算上的错误等等。都会对检验结果带来严重影响,必须避免。但操作错误不是误差, 如果已发现错误的测定结果,应予剔除,不得报出或参加平均值的计算.
随机过程的定义
(, F, P)为一概率空间,T(, +)为参数集。若对任一tT,有一个定义在 (, F, P)随机变量X(t, )(或Xt ()), , 与之对应, 则称{X(t, ), tT}为随机过程 (Stochastic Processes)。简记{X(t), tT}(或{Xt , tT})(s.p.)。
事件的互逆
如果事件A和B中必有一个发生但又不可能同时发生,则称A与B是 互逆(Mutually Inverse)或对立的,称B为A的逆事件(或对立事
件),
事件间的运算
和事件
对事件A和B,定义它们的和事件为A B 和B中至少有一个发生”
=“A发生或B发生”=“A
积事件
定义事件与的积事件为 AB =“A和B同时发生”
五、定量分析中的误差
定量分析中,反省结果应具有一定的准确度,因为不准确的分析结果会导致产品报废,资源 浪费,甚至得出错误的结论。但是在分析过程中,即使是技术很熟练的人,用同一方法对同一 试样仔细地进行多次分析,也不能得到完全一致的分析结果,而是分析结果在一定的范围内波 动。这就是说,分析过程中误差是客观存在的。因此要善于判断分析结果的准确性,查出产生 误差的原因,进一步研究减小误差的方法,以不断提高分析结果的准确程度。
差事件
定义事件A与B的差事件为“A-B=A发生且B不发生”=“A与B 同 时发生”
随机事件的概率
一个事件的概率(记为)就是能刻画该事件发生的可能性大小的一
个数值.
在大量的重复试验或观察中,事件发生的可能性却可呈现出一定的统
计规律,并且随着试验或观察次数的增加,这种规律会表现得愈加 明显.
显然,在重复试验或观察中,要反映一个事件发生的可能性大
三、频数、频率与概率
随机变量是一种随着机会而改变其数值并且具有一定规律性的变量。
如测定水泥的强度,每一袋水泥的试验结果不可能完全相同,即使一袋水泥,抽取几组试样, 其试验结果也不可能完全一致,但是在一定的范围内波动,这是由于水泥的均匀性及试验误差 等因素的影响,使得每次试验结果都是一个随机变量。
频数、频率
随机试验:
每次试验究竟出现哪个结果不能事先肯定,则称其为一个随机试验,简称试 验,常用字母E表示. 样本点:.在概率论中,把随机试验的每个可能的基本结果称为样本点(Sample Point), 样本空间:把样本点的全体称为该试验的样本空间(Sample Space),
事件间的关系
事件的包含与相等
测定的一组数据中某一数值重复出现的次数或在某一范围内数值重复出现的次数为频数。
频率为频数占数据总数的百分比。
概率
概率的统计定义,就是把概率理解为频率的稳定值;在条件基本相同的大量重复试验中,随 着试验总次数不断增加,频率总是在某一常数附近波动,相对地稳定下来,这就是频率的相对 稳定性。这个常数表现为该频率的相对稳定值,称为概率。
概率论与数理统计基础
概率论概述
数学作为一门工具性学科在我们的日常生活以及科学研究中扮演着极其重要 的角色。概率论与数理统计作为数学的一个重要组成部分,在生Байду номын сангаас中的应用也越来 越广泛。概率论是研究随机现象数量规律的数学分支。
在一定条件下,在个别试验或观察中呈现不确定性,但在大量重复试验或观察 中其结果又具有一定规律性的现象,称为随机现象。亦即事前不可预言的现象,即 在相同条件下重复进行试验,每次结果未必相同,或知道事物过去的状况,但未来 的发展却不能完全肯定。 如:以同样的方式抛置硬币却可能出现正面向上也可能出现反面向上;走到某十字 路口时,可能正好是红灯,也可能正好是绿灯。研究这类现象的数学工具便是概率 论和数理统计。
精密度与偏差 精密度是指在相同条件下几次平行测定的结果相互接近的程度。通常用偏差的大小来表示。偏差
越小,分析结果的精密度越高。 偏差也有绝对偏差和相对偏差之分。测定结果(Xi)与平均值(X)之差为绝对偏差(d),即个
别测定的绝对偏差;绝对偏差在平均值中所占的百分率为相对偏差(dr),即个别测定的相对 偏差。因此 绝对值=测定值 – n 次测定值的算术平均值
它是完全由样本决定的量.
几个常见统计量
样本及抽样分布
一、总体与样本
1、总体与个体
一个统计问题总有它明确的研究对象.
研究对象的全体称为总体,总体中每个成员称为个体 总体中所包含的个体的个数称为总体的容量.
2、样本
总体中抽出若干个体而成的集体,称为样本。 样本中所含个体的个数,称为样本容量。
抽样分布
1. 统计量 不含任何未知参数的样本的函数称为统计量.
小,最直观的一个量就是频率(Frequency),其定义是:若在n次试
验中,事件A发生了次 nA ,则A在n次试验中发生的频率:
Fn ( A)
nA n
我们知道,频率 Fn (A) 越大(或小),事件A发生的可能性就越大 (或小),即,A的概率就越大(或小). 可见,频率是概率的一个 很好反映.但是,频率却不能因此作为概率,因为概率应当是一个 确定的量,不应象频率那样随重复试验和重复次数的变化而变化. 不过,即使这样,频率还是可以作为概率的一个估计,而且是一个
相关文档
最新文档