生物统计学考试总结.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)样本平均数的标准误差的定义
(4)当总体服从正态分布 N~(μ, σ n 的样本的 2 均值 也服从正态分布, 的数学期望为μ,方差为σ ~N(μ, σ X X/n。即 2/n) 中心极限定理:设从均值为,方差为 2 的一个任意总体中抽取容量为 n 的样本, 当 n 充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n 的正态分布 两个独立样本平均数差数的分布 P44
2
x!
POISSON x X mean cumulative 事件出现的次数 期望值 True: P ( X x ) i False:
3. 4. 5. 6.
当 的绝对值越大,f(x)值就越小,但永远不等于 0 正态分布曲线完全由函数 和 来决定 正态分布曲线在 处各有一个拐点 正态分布求和为 0
标准正态分布:
0, 2 1
u
x
双尾值由 TINV(0.05,10) 计算得到 2.28139; 而同样概率和自由度的单尾值由 TINV(2*0.05,10) 计算得到 1.812462。
NORMSDIST xi Z NORMSINV u probability 正态分布概率,介于 0~1 之间,含 0,1 标准正态分布的区间点
6.样本方差:
总体方差:
用 n-1 代替 n 作, 可以避免偏小估计, 从而实现样本方差对总体方差的无偏估计 在统计上,自由度(df =n-1 )是指样本内独立而能自由变动的观测值的个数 在计算其他统计数时,如果受到 k 个条件的限制,则其自由度为 n-k
7.样本标准差:
总体标准差:
(1)标准差的大小,受多个观测值的影响,如果观测值与观测值间差异大,标准 差就大 (2)在计算标准差的时候,如果对各个观测值加上或者减去一个常数 a,其标准 差不变;如果乘以或除以一个常数 a,则标准差扩大或者缩小 a 倍 STDEV: 基于给定样本的标准偏差 STDEVP:基于给定样本总体的标准偏差 8 变异系数(CV) :样本标准差除以样本的平均数,得到百分比 (1)变异系数是样本变量的相对变量,是不带单位的纯数 (2)用变异系数可以比较不同样本相对变异程度的大小 第三章 概率的计算法则: (1)乘法定理:如果 A 和 B 为独立事件[ P(A`B)=P(A)*P(B) ] ,则事件 A 和 B 同时发生的概率等于各自事件的概率的乘积 (2)加法定理:互斥事件[P(A+B)=P(A)+P(B)]A 和 B 的和的概率等于事件 A 和事件 B 的概率之和 加法定理推理 1:如果 A1、A2、…An 为 n 个互斥事件,则其和事件的概率为: P(A1+A2…An)=P(A1)+P(A2)+…+P(An) 加法定理:如果 A 和 B 是任何两件事件,则 P ( A B ) P ( A) P ( B ) P ( A B ) 概率分布: (1)离散型随机变量的概率分布 变量(x) 概率(P) x1 p1 x2 p2 x3 p3 … … xn pn
x p( x ) np
i i
i
Fra Baidu bibliotek
pq n
P(x=xi)=pi (i=1,2,…, n) R 离散随机变量的方差 2 ( xi ) 2 P ( X xi )
i 1
P x1 x x2 f ( x)dx
x2
x2
cumulative
True: False:
P ( X 3) P ( X 4)
0.981 0.019
3 POISSION x 3
1000 mean 1
解:如果用泊松分布,则 n=1000,p=1/1000, 则平均值 =1
P ( X 3)
0.981
P ( X 4)
0.019
则:这个事件是异常事件,则认为有乳腺癌的妇女,她们的子代具有遗传敏感性 3. 正态分布(高斯分布) N ( , ) 为总体平均数, 为总体标准差 正态分布的特征 1. 当 x 时,f(x)有最大值 2. 当 x 的绝对值相等的时候,f(x)值也相等
5.卡方分布
P45
6.F 分布
的值, 不同的样本得到的该统计量的值是不一样的, 由此得到这个统计量的分布, 称之为抽样分布 1. 所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布 2. 是一种理论概率分布 3. 随机变量是 样本统计量——样本均值, 样本比例等 4 结果来自容量相同的所有可能样本
(符号)
1、概率抽样:根据已知的概率选取样本 简单随机抽样:完全随机地抽选样本 分层抽样:总体分成不同的“层” ,然后在每一层内进行抽样 整群抽样:将一组被调查者(群)作为一个抽样单位 等距抽样:在样本框中每隔一定距离抽选一个被调查者 2、非概率抽样:不是完全按随机原则选取样本 非随机抽样:由调查人员自由选取被调查者 判断抽样:通过某些条件过滤来选择被调查者 3、配额抽样:选择一群特定数目、满足特定条件的被调查者 抽样分布:从一个给定的总体中抽取(不论是否有放回)容量(或大小)为 n 的 所有可能的样本,对于每一个样本,计算出某个统计量(如样本均值或标准差)
癌。试问乳腺癌有没有敏感性? 解:如果用二项分布,则 n=1000,p=1/1000, BINOMDIST number_s Trials probability_s cumulative 0.001 cumulative Ture Ture
例:假设年龄 60~64 岁的 100 名男性在 1986 年注射了一种新的流感疫苗而 在第二年内死亡 5 人,这正常嘛?(注:1986 年,60~64 岁的男性老人第二年的 死亡率约为 0.02) 解:要知道 100 个男性的样本死亡 5 人是不是“异常”事件,这种估计的一个 准则是寻找至少 5 人死亡的概率。 注: 通常是把概率值为 0.05 或者更小的概率事件识别 为异常(稀有事件) 。 由于至少 5 人死亡的概率是 0.05,可见 100 人中至少 死亡 5 人是稍微有点异常,但不是很异常。 如果至少死亡 10 人,那么概率是 3.44*10-5,这就很 不正常,因而,在没有其他证据显示此疫苗有效前, 应考虑停止使用。 2. 泊松分布 二项式分布中,如果 p 值很小而 n 值很大( p<0.1 和 np<5 ),则泊松分布 式中: 为参数, np, x 0,1,2,... e x P( x) 泊松分布的平均数、方差、标准差 2
1.算术平均数:是所有观察值的和除以观察的个数 (AVERAGE) 特性: (1)样本中各观测值与平均数之差-离均差-的总和等于零
平均数
(2)样本中各观测值与其平均数之差平方的总和,比各观测值与任一数值 离均差的平方和小,即离均差平方和最小(设 a 为 x 以外任何值)
2.中位数:将试验或调查资料中所有观测依从大小顺序排列,居于中间位置的观 测值称为中位数,以 Md 表示 3.众数:在一个样本的所有观察值中,发生频率最大的一个值称为样本的众数, 以 Mo 表示 4.几何平均数:资料中有 n 个观测值,其乘积开 n 次方所得的数值,以 G 表示。 5.极差(全距) :样本数据资料中最大观测值与最小观测值的差值 R=max{x1,x2,…,xn} — mix{x1,x2,…,xn}
(2)连续型随机变量的概率分布 连续型随机变量的概率分布 1. 连续型随机变量可以取某一区间或整个实数轴上的任意一个值 2. 它取任何一个特定的值的概率都等于 0 3. 不能列出每一个值及其相应的概率 4. 通常研究它取某一区间值的概率 5. 用数学函数的形式和分布函数的形式来描述 概率密度函数: (1)设 X 为一连续型随机变量,x 为任意实数,X 的概率密度函 数记为 f(x),它满足条件 (2) ,f(x)不是概率 几种常见的概率分布: (适用范围,尾函数,自由度) 1. 二项分布的概率函数 记作 B(n,p)或者 B(n,π) (1)每次试验只有两个对立结果,分布记为 A 与 A ,它们出现的概率分布 为 p 与 q(q=1-p) (2)试验具有重复性和独立性 i 二项式分布的概率累积函数: F ( x ) P( x)
x 0 i
若随机变量 x 服从二项式分布,则有二项分布的总体平均数为 x 二项分布的总体标准差为: ( x ) 2 p x npq
x
x np p n n npq 二项成数(百分数)分布的标准差: x p n n
二项成数(百分数)分布的平均数: p B(n, p) x n p BINOMDIST number_s trials probability_s 实验成功次数 独立实验次数 一次实验中成功的概率
样本平均数的基本性质: (1)样本均值的均值(数学期望)等于总体均值 x
ˆ) ,则称 ˆ ,如果 E ( ˆ 是 的无偏估计 定义: 一个参数 的估计量是
(2)样本均值的方差等于总体方差的 1/n
2 n
2 x
3、确定显著性水平 a
4、计算概率
5、推断是否接受假设
生物统计学考试总结
第一章 生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理和方 法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的 一个分支。 内容:试验设计:试验设计的基本原则、试验设计方案的制定和常用试验设计的 方法 统计分析:数据资料的搜集、整理和特征数的计算、统计推断、方差分析、 回归和相关分析、协方差分析等 生物统计学的作用: 1. 提供整理、描述数据资料的科学方法并确定其特征 2. 判断试验结果的可靠性 3. 提供由样本推断总体的方法 4. 试验设计的原则 相关概念:1.总体:研究对象的全体,是具有相同性质的个体所组成的集合 2.个体:组成总体的基本单元 3.样本: 由总体中抽出的若干个体所构成的集合 n>30 大样本; n<30 小样本 4.参数:描述总体特征的数量 5.统计数:描述样本特征的数量 由于总体一般很大, 有时候甚至不可能取得, 所以总体参数一般不可能计算出来, 而采用样本统计数来估计总体的参数 6..效应:由因素而引起试验差异的作用 7. 互作:两个或两个以上处理因素间的相互作用产生的效应 生物统计学的研究包括了两个过程: 1. 从总体抽取样本的过程——抽样过程 2. 从样本的统计数到总体参数的过程——统计推断过程 第二章
TINV Probability Degrees_freedom 双尾学生 t 分布的概率 自由度
注意:1)TINV 返回 t 值,P(|X| > t) = probability,即 P(|X| > t) = P(X < -t or X > t) 2)单尾 t 值可通过用两倍概率替换概率而求得 eg:如果概率为 0.05 而自由度为 10 ,
2 )时,来自该总体的所有容量为
两类:1)弃真错误;2)取伪错误 一.大样本平均数的假设检验 ——u 检验 X 应用范围:1)总体方差 2) 总体方差
2
已知 未知, 但样本为大样本( n 30 ), 用 s2 来代替
x
x
NORMDIST xi X Mean Standard_dev cumulative 函数值的区间点 算术平均值 标准差 True: 累积 False:概率密度函数值
P ( X xi )
例:假如我们研究乳腺癌的遗传敏感性。我们发现,母亲 曾患有乳腺癌的 1000 名 40~49 岁的妇女,在研究开始后的 1 年中,有 4 人患有 乳腺癌,而我们从大总体中知道在这相同的时间内,1000 人中有 1 个人发生乳腺
4. t 分布:是小样本分布,小样本分布一般是指 n<30。t 分布适用于当总体标准 差未知时用样本标准差代替总体标准差,由样本平均数推断总体平均数以及 2 个 小样本之间差异的显著性检验等 P45
TDIST:返回自由度为 n 的 t 分布在 x 点处的单尾或者双尾概率。
TINV: 返回自由度为 n 的 t 分布的双尾概率分布函数的反函数.