第三章第三节(续)样本容量的选取
抽样及样本容量概论
4. 您希望的置信度为多高(通常为 95%)
样本容量-19
假设检验中样本容量的重要性
当样本容量太小 • 不能检验出差异
过程A
过程 B
过程A
过程 B
n=1 xB is less than 2x away from xA
n=5 xB is more than 3x away from xA
样本容量-30
精度 (d)(续)
– 决定您需要多大的精度。 – 精度与样本容量的平方根成反比。
1 n
样本容量-31
精度和样本容量
– 要提高精度、必须增加样本容量(但会增加成本)。 – 对于需要多大的精度没有明确的答案;
该答案取决于使用该估计值对业务产生多大的影响。 – 每种情况都是独特的;不要效仿别人的决定。
– 要使推论有效、样本必须真实地代表总体或过程。 • 总体所需的抽样策略不同于过程所需的抽样策略、 以确保样本具有代表性(在下一节中讨论)。
样本容量-6
从稳定的过程中抽样
– 如果过程是稳定的、样本容量公式可应用于过程情况。
• 可获得具有特定精度的可靠估计值。 • 当进行比较时、如果存在的差异具有一定功效、便可找出它们。
样本容量-3
总体和过程(续)
•过程 – 情况:过程是动态的且不断变化的;过程中的个体并不是全可以鉴定的、
因为某些个体尚不存在(如明天制造的那些个体)。
以时间顺序排列的过程输出
昨天
今天
明天
??
抽样数据的时间曲线图
?
20%
15%
?
10%
5%
?
使用样本 对过程 未来的行为 进行推论
保存时间顺序!
第三章 车速调查
5.地点车速正态分布的拟合优度检验
概率密度函数式
x
1 2
e
x 2
2 2
x
0
标准化密度形式:
0
1 2
x2 2
1
e
简记为N(0,1)
概率密度函数
x
似合优度检验
建立原假设H0 (f F) x 选择统计比 F x 2 确定统计量的临界值 x 根据置信水平和自由度确定 统计检验结果 x 2 的计算值与临界值。若x 2 <xi,则车 比较 速服从假设的正态分布.否则不接受原假 设,至此检验结束
2.样本容量
样本量与精度的关系
x
n
E
x
x
n t
1
t:决定置信水平和自由度的t分布
E xt
t n E
2
置信水平与精度 车速测定值的允许误差E决定于平均车速 估计量所要求的精确度,其范围可从 5.0哩/h(土8.0km/h)一 1.0哩/ h(1.6km/h)或更小。 我国城市道路上车辆行驶速度普遍偏低, 根据若干地区实测结果,速度平均标准偏 差较小,故建议允许误差E取低值。
五、地点车速数据统计分析实例
[例31 上海市北路某断面实测地点车速样本如表3—6.试整理出该车速的 频率分布表、频率分布直方图、累计频率曲线,计算速度分布特征值 (平均车速、标准离差、85%地点车速、15%地点车速),并检验该样本 是否拟合正态分布。
解: 实测车速分组频数如表3—7。 地点车速频率分布表。 绘制地点车速频率分布直方图(图3—9)。 绘制地点车速累计频率曲线(图3—10)。
统计学 第三章抽样与抽样分布
=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
从非正态总体中抽样
结论:
从非正态中体中抽样,所形成 的抽样分布最终也是趋近于正态分 布的。只是样本容量需要更大些。
总结:中心极限定理
设从均值为,方差为 2的一个任意总体中抽 取容量为n的样本,当n充分大时(超过30),样本 均值的抽样分布近似服从均值为μ、方差为σ2/n的
总体
样本
参数
统计量
总体与样本的指标表示法
总体参数
样本统计量
(Parameter) (Sample Statistic)
容量 平均数 比例 方差 标准差
N
n
X
x
p
2
s2
s
小练习
某药品制造商感兴趣的是用该公司开发的某 种新药能控制高血压人群血压的比例。进行了一 项包含5000个高血压病人个体的研究。他发现用 这种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别此统计量并给出它的值 5、我们知道这个参数的值么?
正态分布
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
X
总体分布
正态分布
非正态分布
大样本 小样本 大样本 小样本
正态分布
正态分布
非正态分布
三 中心极限定理的应用
中心极限定理(Central Limit theorem) 不论总体服从何种分布,从中抽取
第三章 抽样分布
集合体,具有可变性。
7
2、抽样
从总体中抽取有限个个体对总体进行观测 的过程叫做抽样。
在相同的条件下对总体 X 进行 n 次重复的、 独立的观测,将n次观测结果按试验的次序 记为 X1,X 2, ,X n,这样得到的 X1,X 2, ,X n 称为来自总体 X 的一个简单随机样本, n 称 为这个样本的容量。
第三章 抽样分布
学生姓名 小张 小刘 小李 小王 小赵 小黄
身高 X1 X2 X3 X4 X5 X6
小谭
小杜 小蔡 小唐 小高 小许 小卢 小吴 小郑
X7
X8 X9 X10 X11 X12 X13 X14 X15
2
12000名
求全校学生的平均身高
测量每一名学生的身高 ?
根据部分学生身高估计 全体学生身高
21
抽样时,可以作若干次抽取,若第一次抽样时,抽 到小王、小赵、小刘等100名学生,他们的身高可依 次表示为: x ,x , ,x ,则:
1 2 100
g(x1,x2, ,x100 ) x
x
n 1
100
i
100
称为统计量g(X1,X 2, ,X100 )的观测值
22
二、几种常用的抽样分布
3
学生姓名 小张 小王
身高 X1 X4
小赵
小蔡
X5
X9
样本
小唐
小吴
X10
X14
x1
4
学生姓名
小刘 小李
身高
X2 X3
小蔡
小许
X9
X12
样本
小卢
小郑
X13
X15
x2
5
C
6 12000
市场调研中的样本选择与样本有效性探讨
市场调研中的样本选择与样本有效性探讨市场调研在商业领域中扮演着至关重要的角色,通过采集和分析样本数据,可以为企业的决策提供科学依据。
而样本选择和样本有效性则是市场调研中必须重视的两个方面。
本文将探讨在市场调研中如何选择样本,以及如何确保样本的有效性。
一、样本选择在市场调研中,样本选择是确保调研结果准确性和可靠性的前提。
合理的样本选择应该既能代表目标受众的整体特征,又具备统计学上的意义。
以下是几种常见的样本选择方法:1. 随机抽样:随机抽样是一种常见的样本选择方法,它能够确保每个个体被抽取的机会相等,从而减少样本的偏差。
随机抽样可以通过各种方式实施,例如使用随机数生成器或公开抽签等。
2. 分层抽样:分层抽样是将目标受众按照不同特征划分为若干层,然后从每个层中随机抽取样本。
这一方法能够更好地反映目标受众的特征,并减小样本选择的误差。
3. 整群抽样:整群抽样是将目标受众按照一定的分类标准划分为不同的群体,然后从每个群中选择全部个体作为样本。
这种方法通常用于调研特定的群体,比如某个行业的从业人员或某个地区的居民等。
二、样本有效性样本有效性是指样本数据能够准确、全面地反映目标受众的特征和态度。
确保样本有效性对于市场调研的准确性和可靠性至关重要。
以下是几种确保样本有效性的措施:1. 样本容量:样本容量是指所选取的样本数量。
样本容量的大小应该符合统计学上的要求,以确保调研结果有足够的代表性和置信度。
根据研究的目的和样本的多样性,可以采用不同的计算方法来确定合适的样本容量。
2. 样本分布:样本分布是指样本在不同特征上的分布情况。
为了确保样本有效性,我们应该在样本选择时充分考虑目标受众在不同特征上的分布情况,例如性别、年龄、地域等。
样本的分布应该能够准确地反映目标受众的整体特征。
3. 数据质量:在进行市场调研时,我们需要确保所收集到的数据质量高。
数据质量包括数据的准确性、完整性和一致性等方面。
为了确保数据质量,我们可以通过训练调查员、设立数据验证机制等方式进行控制。
样本的选取
普查与抽样调查各有 什么优缺点?
复习与思考 ☞
品尝一勺汤,可以知道一锅汤的味道吗?为什么?
生活中的“数 学”
为了了解 某中学62个班的学生暑假 期间参加体育活动的情况,学校准备抽取 一部分学生进行问卷调查,现有三个发放 调查问卷的方案:
方案一:发给学校篮球队的20名同学; 方案二:从每个班级随机抽取1名同学; 方案三:从每个班级中抽取学号为1, 11,21,31,41,51,61,71的8名同学
5.请指出下列哪些调查的样本具有代表性 ③ (填序号)
①在大学生中调查我国青年业余时间娱乐的主要方式; ②在公园里调查老年人的健康状况; ③调查一个班级里学号为3的倍数的学生,以了解学生 们对班主任老师某一新举错的意见和建议.
6.某出租车公司在“十一”长假期间平均每天的营业 额 为5万元,由此推断十月份的总营业额约为 5×31=155 (万元).你认为这样的推断是否合理?
2.下列调查的样本具有代表性的是 ( D )
A、利用当地的七月份的日平均最高气温值估计当地全年的 日最高气温 B、在农村调查市民的平均寿命 C、利用一块实验水稻田的产量估水稻的实际产量 D、为了了解一批洗衣粉的质量情况,从仓库中任意抽取100袋 进行检验
3.要了解一个城市的气温变化情况,下列观测方法 最可靠的一种方法是( C)
精品课件!
精品课件!
解:不合理.该样本不具有代表性.十一”长假 期间平均每天的营业额一般比平时大.
ቤተ መጻሕፍቲ ባይዱ
学以致用
• 一家大超市为了更好地安排售货员的工作, 计划从每周中抽查2天的营业情况。下面给 出了三个方案,你能帮他们选择一个比较 合理的方案吗?说说你的理由。
• 方案1:调查星期一、星期二; • 方案2:调查星期一、星期五; • 方案3:调查星期二、星期六
第三章(多元线性回归模型)3-3答案(可编辑修改word版)
ESS kRSS (n - k -1) n3.3 多元线性回归模型的检验一、判断题1、在线性回归模型中,为解释变量或者被解释变量重新选取单位(比如,元变换成千元), 会影响 t 统计量和 R 2 的数值。
( F )2、在多元线性回归中,t 检验和 F 检验缺一不可。
( T) 3、回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。
( F )4、多元线性回归中,可决系数 R 2 是评价模型拟合优度好坏的最佳标准。
(F )二 、单项选择1、在模型Y t = 0 + 1 X 1t + 2 X 2t + 3 X 3t + t 的回归分析结果中,有 F = 462.58 ,F 的p 值= 0.000000 ,则表明(C )A 、解释变量 X 2t 对Y t 的影响不显著B 、解释变量 X 1t 对Y t 的影响显著C 、模型所描述的变量之间的线性关系总体上显著D 、解释变量 X 2t 和 X 1t 对Y t 的影响显著2、设k 为回归模型中的实解释变量的个数, n 为样本容量。
则对回归模型进行总体显著性 检验( F 检验)时构造的 F 统计量为 (A )A 、 F =B 、 F =C 、 F =ESS RSSD 、 F = 1-RSS TSS3、在多元回归中,调整后的可决系数 R 2与可决系数 R 2 的关系为 ( A )A 、 R 2 < R 2 C 、 R 2= R 2B 、 R 2 > R 2D 、 R 2 与 R 2 的关系不能确定4、根据调整的可决系数 R 2 与 F 统计量的关系可知,当 R 2 = 1 时,有 (C ) A 、F=0B 、F=-1C 、F→+∞D 、F=-∞5、下面哪一表述是正确的 (D )1 nA 、线性回归模型Y i = 0 + 1 X i + i 的零均值假设是指∑i= 0i =1ESS (k -1)RSS (n - k )0 1 1i 2 2ik ki i B 、对模型Y i = 0 + 1 X 1i + 2 X 2i + i 进行方程显著性检验(即 F 检验),检验的零假 设是 H 0 : 0 = 1 = 2 = 0C 、相关系数较大意味着两个变量存在较强的因果关系D 、当随机误差项的方差估计量等于零时,说明被解释变量与解释变量之间为函数关系5、对于Y i = ˆ +ˆ X +ˆ X+… +ˆ X + e ,如果原模型满足线性模型的基本假设则 在零假设 j = 0 下, 统计量 ˆj (B ) s (ˆj ) ( 其中 s (ˆj ) 是 j 的标准误差) 服从A 、t (n - k )B 、t (n - k -1)C 、 F (k -1, n - k )D 、 F (k , n - k -1)6、在由 n = 30 的一组样本估计的、包含 3 个解释变量的线性回归模型中,计算得多重可决系数为 0.8500,则调整后的多重可决系数为( D )A 、8603B 、 0.8389C 、0.8655D 、0.8327 7、可决系数 R 2=0.8,说明回归直线能解释被解释变量总变差的:( A )A 、 80%B 、 64%C 、 20%D 、 89%8、线性回归模型 y t= b 0 + b 1 x 1t + b 2 x 2t + ...... + b k x kt + u tH 0 : b t = 0(i = 0,1, 2,...k ) 时,所用的统计量服从(C )中,检验A.t(n-k+1)B.t(n-k-2)C.t(n-k-1)D.t(n-k+2)三、多项选择题1、对模型满足所有假定条件的模型Y i = 0 + 1 X 1i + 2 X 2i + i 进行总体显著性检验,如 果检验结果总体线性关系显著,则很可能出现 ( BCD )A 、1 = 2 = 0 C 、1 ≠ 0,2 ≠ 0 E 、1= 0,2 = 0B 、1 ≠ 0,2 = 0 D 、1= 0,2 ≠ 02、设 k 为回归模型中的参数个数(包含截距项)则总体线性回归模型进行显著性检验时所用的 F 统计量可以表示为( BC )∑(Y ˆ - Y )2/(n - k )∑(Y ˆ - Y )2/(k - 1)A 、 ii 2 ( ) B 、 ii 2 ( ) ∑e i / k- 1 ∑e i/ n- k R 2 /(k - 1)C 、(1 - R 2 )/(n - k )(1 - R 2 )/(n - k )D 、R 2/(k - 1)R2/(n -k )E、(1 -R2)/(k -1)3、在多元回归分析中,调整的可决系数R2与可决系数R2之间(AD )A、R2<R2B、R2≥R2C、R2只可能大于零D、R2可能为负值E、R2不可能为负值四、简答题1.在多元线性回归分析中,为什么用修正的可决系数衡量估计模型对样本观测值的拟合优度?答:因为人们发现随着模型中解释变量的增多,多重可决系数R2的值往往会变大,从而增加了模型的解释功能。
样本的选取
品尝一勺汤,就可以知道一锅汤的味道, 你知道其中蕴涵的道理吗?
‹# ›
复习与思考
☞
“儿子,帮妈妈买盒火柴去” 儿子,帮妈妈买盒火柴去” 儿子 “这次注意点,上次你买的火柴好多划不着。” 这次注意点,上次你买的火柴好多划不着。 这次注意点
‹# ›
1、某校的黑板报上刊登了一篇题为 、 大部分学生不吃早餐》的报道,文章说。 《大部分学生不吃早餐》的报道,文章说。 通过对课间学校商品部买小食品的20名 “通过对课间学校商品部买小食品的 名 同学的调查发现16人是因为没有吃早餐而 同学的调查发现 人是因为没有吃早餐而 去买零食,由此判断,我校80%的同学在 去买零食,由此判断,我校 的同学在 家不吃早餐” 家不吃早餐”
‹# ›
复习与思考
☞
(1)当调查的对象个数较少,调查容易进行 )当调查的对象个数较少, 我们一般采用普查的方式进行。 普查的方式进行 时,我们一般采用普查的方式进行。 (2)当调查的结果对调查对象具有破坏性时, )当调查的结果对调查对象具有破坏性时, 或者会产生一定的危害性时,我们通常采用抽 或者会产生一定的危害性时,我们通常采用抽 样调查的方式进行调查 的方式进行调查。 样调查的方式进行调查。 (3)当调查对象的个数较多,调查不易进行 )当调查对象的个数较多, 我们常采用抽样调查的方式进行调查。 抽样调查的方式进行调查 时,我们常采用抽样调查的方式进行调查。 当调查的结果有特别要求时, (4)当调查的结果有特别要求时,或调查的 结果有特殊意义时,如国家的人口普查, 结果有特殊意义时,如国家的人口普查,我们 普查的方式进行 就仍须采用普查的方式进行。 就央电视台第一套节目的收视率, 为了解观众对中央电视台第一套节目的收视率,对所有 上英特网的家庭进行在线调查. 上英特网的家庭进行在线调查.
(完整版)第三章(多元线性回归模型)3-3答案
3.3 多元线性回归模型的检验一、判断题1、在线性回归模型中,为解释变量或者被解释变量重新选取单位(比如,元变换成千元),会影响t 统计量和 2R 的数值。
( F )2、在多元线性回归中,t 检验和F 检验缺一不可。
( T )3、回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。
( F )4、多元线性回归中,可决系数2R 是评价模型拟合优度好坏的最佳标准。
( F )二 、单项选择1、在模型0112233t t t t t Y X X X ββββμ=++++的回归分析结果中,有462.58F =,0.000000F p =的值,则表明 ( C )A 、解释变量2t X 对t Y 的影响不显著B 、解释变量1t X 对t Y 的影响显著C 、模型所描述的变量之间的线性关系总体上显著D 、解释变量2t X 和1t X 对t Y 的影响显著2、设k 为回归模型中的实解释变量的个数,n 为样本容量。
则对回归模型进行总体显著性 检验(F 检验)时构造的F 统计量为 ( A )A 、1)ESS k F RSS n k =--B 、(1)()ESS k F RSS n k -=- C 、ESS F RSS = D 、1RSS F TSS=- 3、在多元回归中,调整后的可决系数2R 与可决系数2R 的关系为 ( A ) A 、22R R < B 、22R R >C 、22R R =D 、2R 与2R 的关系不能确定4、根据调整的可决系数2R 与F 统计量的关系可知,当21R =时,有 ( C )A 、F=0B 、F=-1C 、F →+∞D 、F=-∞5、下面哪一表述是正确的 ( D ) A 、线性回归模型01i i i Y X ββμ=++的零均值假设是指110ni i n μ==∑ B 、对模型01122i i i i Y X X βββμ=+++进行方程显著性检验(即F 检验),检验的零假 设是0012:0H βββ===C 、相关系数较大意味着两个变量存在较强的因果关系D 、当随机误差项的方差估计量等于零时,说明被解释变量与解释变量之间为函数关系5、对于01122ˆˆˆˆi i i k ki iY X X X e ββββ=+++++…,如果原模型满足线性模型的基本假设则 在零假设0j β=下,统计量ˆˆ()j j s ββ(其中ˆ()js β是j β的标准误差)服从 (B )A 、()t n k -B 、(1)t n k --C 、(1,)F k n k --D 、(,1)F k n k --6、在由的一组样本估计的、包含3个解释变量的线性回归模型中,计算得多重可决系数为0.8500,则调整后的多重可决系数为( D )A 、8603B 、 0.8389C 、0.8655D 、0.83277、可决系数R 2=0.8,说明回归直线能解释被解释变量总变差的:( A )A 、 80%B 、 64%C 、 20%D 、 89%8、线性回归模型01122......t t t k kt t y b b x b x b x u =+++++ 中,检验0:0(0,1,2,...)t H b i k ==时,所用的统计量服从( C )A.t(n-k+1)B.t(n-k-2)C.t(n-k-1)D.t(n-k+2)三、多项选择题1、对模型满足所有假定条件的模型01122i i i i Y X X βββμ=+++进行总体显著性检验,如果检验结果总体线性关系显著,则很可能出现 ( BCD )A 、120ββ==B 、120,0ββ≠=C 、120,0ββ≠≠D 、120,0ββ=≠E 、120,0ββ==2、设k 为回归模型中的参数个数(包含截距项)则总体线性回归模型进行显著性检验时所 用的F 统计量可以表示为 ( BC )A 、()()()∑∑---1k e k n Y Y 2i 2i i //ˆ B 、()()()∑∑---k n e 1k Y Y 2i2ii //ˆ C 、()()()k n R 11k R 22---// D 、()()()1k R k n R 122---// 30n =E 、()()()1k R 1k n R 22---// 3、在多元回归分析中,调整的可决系数2R 与可决系数2R 之间 ( AD )A 、22R R <B 、22R R ≥C 、2R 只可能大于零D 、2R 可能为负值E 、2R 不可能为负值四、简答题1.在多元线性回归分析中,为什么用修正的可决系数衡量估计模型对样本观测值的拟合优度?答:因为人们发现随着模型中解释变量的增多,多重可决系数2R 的值往往会变大,从而增加了模型的解释功能。
教育研究方法第三章 自 测 题及参考答案
附:第三章自测题和参考答案一、填空1. 一个具有信度的研究程序,不论其过程是由谁操作, 或进行多少次同样的操作,其结果总是非常(一致) 的。
2. 分层随机取样是指对由性质并非完全相同的部分组成的总体,按照性质不同分层,然后对各层次按(比例抽样)的方式选择样本。
3. 系统取样指从一个正确排列起来的总体序列中,每(隔一定)间隔选择样本的方式。
4. 研究计划一般包括:(课题表述),课题意义,定义、限制和界定,(文献查阅,假设,方法,时间表7部分。
5. 影响研究信度的因素主要有:(被试方面的因素)、主试方面的因素、研究设计方面的因素和研究实施方面的因素。
6. 一般来说,在自然环境中所进行的研究其结果的(外部效度)较高;然而,在实验室环境中所进行的研究其结果的(内部效度)较高。
7. 广义的教育科学研究设计是为(解决研究问题)所拟定的比较详细的规划及付诸实施的全部过程。
8. 狭义的教育研究设计,是指研究者为了解答所欲研究的问题而说明对研究中各种变量(如何控制)的一种简要的计划、结构、方法和策略等,即资料搜集与分析的程序。
9. 教育科学研究设计的基本目的有两项:其一是通过研究设计,确定(收集和分析)研究数据的方式方法,实现采用合理、有效和经济的研究方法;其二是通过研究设计,提出实现研究目标的操作方案和研究过程,保证(回答)研究的问题和达到研究目的。
10. 教育科学研究方法可以按照方法中使用的手段分为四种基本类型:(思辨)、实证、数学方法、(符号)表述四类基本方法。
二、名词解释1.取样:研究取样是从确定的研究对象总体中,为实现教育科学研究的目标,而随机选取的一定样本容量的样本。
2.自变量:即能够独立的变化和引起因变量变化的条件或因素。
3.因变量即随自变量的变化而变化的有关因素或特征。
4.中介变量:中介变量即位于两个或多个变量之间,起联系、传导、转化或解释变量之间关系作用的变量,由于它起中介作用,因而得名。
5.操作性定义操作定义就是用可感知、可度量的事物、事件、现象和方法对变量或指标做出具体的界定、说明。
《社会科学研究方法导论》课程教学大纲
《社会科学研究方法导论》教学大纲一、教学目的与要求《社会科学研究方法》是劳动与社会保障、劳动关系和行政管理专业的必修课,主要讲授社会科学研究的基本思路与范式、基本的数据收集和定量分析方法,是学生参加科研活动的入门课程。
通过本课程的学习,力求使学生获得如下能力:(1)以定量语言解构、重构和构建(用自然语言描述的)社会科学理论的能力(2)把握社会科学理论和定量模型设定之间的联系:数据生成机制(3)理解测量对于定量分析的重要性,掌握基本的测量理论、模型及其分析工具(4)理解研究设计、测量类型、统计假定和模型设定在定量分析模型选择的作用(5)掌握常见分析模型的统计原理、分析技巧和结果解释(6)提高批判性阅读、创造性写作社会科学定量研究论文和报告的综合能力二、教学中应注意的问题本课程的先修课程有《管理学原理》、《宏观经济学》、《微观经济学》、《概率论与数理统计》、《统计学》、《社会保障学》、《劳动关系》等课程,有条件的情况下还应开设《计量经济学》课程。
本课程的教学应坚持理论联系实际,课堂教学采用讲授、讨论、案例(经典案例和师生调研案例)相结合的方法。
掌握学界研究的趋势,总结国内外社会保障、劳动关系和公共管理方面的研究成果,不断充实教学内容,提高教学质量。
本课程教学中应注意事项如下:1.把握社会科学研究方法课程的实践性特征,强调方法上的学习;2.把握和社会科学研究方法课程的应用性特征,与毕业论文和实习报告紧密结合;3.要特别重视学术规范习惯和技能的培养。
三、基本教学内容第一章导论(一)学习目的与要求通过本章的学习,应理解社会科学研究方法的内涵、特点、体系及发展趋势,了解社会科学研究方法的科学性和局限性以及社会科学成果科学性的标准。
(二)学习重点与难点1.社会科学成果科学性的标准2.定性研究与定量研究的结合(三)基本教学内容第一节科学简论一、科学的概念与分类二、人类求知方式辨析三、科学方法的含义、特点和局限性。
统计学中的样本容量计算方法
统计学中的样本容量计算方法在统计学研究中,样本容量的计算是非常重要的一项工作。
正确的样本容量计算可以保证统计结果的准确性和可靠性。
本文将介绍统计学中常用的几种样本容量计算方法,并对其原理进行详细解析。
一、样本容量计算的背景和意义在进行统计研究之前,我们常常需要确定所需的样本容量。
样本容量的大小直接影响到研究结果的可信度。
如果样本容量过小,可能会导致结果不具有代表性,无法得到准确的结论;而样本容量过大,则会造成资源浪费。
因此,合理的样本容量计算对于统计学研究的科学性至关重要。
二、常见的样本容量计算方法1. 代表性样本容量计算方法代表性样本容量计算方法是一种基于总体特征和置信水平的计算方法。
它通过对总体的特征参数进行估计,然后使用这些参数来确定样本容量的大小。
具体的计算公式如下:n = Z² * p * (1-p) / E²其中,n表示样本容量大小,Z表示标准正态分布的分位数,p表示总体的特征参数值,E表示预期的误差范围。
这种方法能够在一定程度上保证样本具有代表性,但是需要对总体参数有较准确的估计。
2. 力度样本容量计算方法力度样本容量计算方法是一种基于统计功效的计算方法。
统计功效是指在一个给定的显著性水平下,检验能够发现效应的概率。
利用这种方法计算样本容量的大小可以帮助我们确定在给定的显著性水平下是否能够检测到所关心的效应。
计算公式如下:n = 2 * (Z₁-α / E + Z₁-β)²其中,n表示样本容量大小,Z₁-α表示显著性水平的分位数,E表示预期的效应大小,Z₁-β表示统计功效的分位数。
这种方法能够帮助我们在保证结果可靠性的前提下最大程度地节约资源。
3. 特殊设计样本容量计算方法特殊设计样本容量计算方法主要用于特殊设计的统计研究,如配对设计、重复测量设计等。
在这些设计下,样本容量的计算需要考虑到样本间的相关性等因素。
具体的计算方法根据不同的设计进行调整,在此不做详细介绍。
论文中的研究样本选择如何获取代表性样本
论文中的研究样本选择如何获取代表性样本在科学研究中,样本选择是非常关键的步骤之一,它能够影响研究结果的准确性和可靠性。
一个好的研究样本应该具备代表性,能够准确反映研究对象的总体特征。
本文将讨论论文中的研究样本选择如何获取代表性样本。
一、引言样本选择在研究中具有重要的意义。
一个代表性的样本能够保证研究结论的普适性和可推广性。
因此,如何获取具有代表性的样本是每个研究者在设计和实施研究时必须面对的挑战。
二、样本选择原则(1)随机抽样随机抽样是一种常用的样本选择方法。
在随机抽样中,每个研究对象有相同的机会被选入样本。
这种方法可以降低选择偏差,确保样本能够代表总体。
随机抽样可以通过随机数生成器、抽签或者其他方法实施。
(2)分层抽样分层抽样是根据研究对象的特征将总体分为若干层,并从每层抽取一定数量的样本。
这种方法可以确保每个层次的特征在样本中得到充分反映。
分层抽样常用于人口统计学数据的研究,例如根据性别、年龄、地域等因素进行分层。
(3)配额抽样配额抽样是根据研究对象的特征设定一定的配额,并在满足配额的前提下自由选择样本。
这种方法可以更灵活地控制样本的特征,但需要研究者具备一定的判断能力和经验。
三、样本选择的问题与挑战(1)样本偏倚样本偏倚是指样本与总体在某些特征上存在显著差异。
样本偏倚可能导致研究结论的误导性和缺乏可靠性。
为了解决样本偏倚问题,研究者需要对总体进行充分了解,并采取适当的样本选择方法。
(2)样本容量样本容量是指研究中所选取的样本数量。
样本容量的大小直接影响到研究结果的可靠性和稳定性。
一般来说,样本容量越大,研究结果的误差越小。
然而,在实际研究中,样本容量受限制是一个常见的问题。
研究者需要根据研究目的和资源限制合理确定样本容量。
四、样本选择的优化方法(1)多重抽样多重抽样是一种通过多次抽样来提高样本的代表性的方法。
例如,研究者可以先进行初步抽样,然后从初步抽样得到的样本中再进行抽样,以此类推。
多重抽样可以逐步提高样本的代表性。
样本容量选取所对精确结果要求对象
样本容量选取所对精确结果要求对象在社会科学研究中,样本容量的选取是非常重要的一个环节,它直接影响着研究结果的可靠性和精确性。
样本容量选取所对精确结果要求对象,即选择何种目标样本容量,以获得精确的结果。
本文将探讨样本容量选取对精确结果的要求对象,并介绍一些常用的方法和准则。
样本容量选取的目的是保证样本能够代表整个总体,并且能够获得较为精确的结果。
在研究设计过程中,研究者需要明确研究的目标和研究问题,以确定所需的样本容量。
样本容量要求的精确结果应该是研究问题所需的统计精度,并且还要兼顾研究的可行性和经济性。
首先,确定样本容量的要求,需要考虑研究的目标和研究问题的性质。
对于一些关于总体参数的估计问题,例如总体均值或比例的估计,通常可以利用经典统计理论来确定样本容量。
根据经验和预先的研究,可以估计总体的方差或标准差,并结合研究者对估计的所需精度,来确定样本容量。
其次,样本容量的要求还可以根据研究设计的方法来确定。
对于一些实验设计或控制研究,样本容量的选取往往需要考虑效应大小、显著水平以及统计功效等因素。
在这种情况下,研究者需要考虑所需的最小效应大小,以及控制类型Ⅰ错误和类型Ⅱ错误的风险水平。
此外,样本容量的选取还要考虑研究的可行性和经济性。
在实际研究中,我们可能面临时间、资源和预算的限制。
研究者需要权衡精确结果的需求和可行性之间的平衡,以确定一个合理的样本容量。
有时候,我们可以选择一个相对较小的样本容量,然后利用随机抽样或同质性分析等方法来减少抽样误差。
除了经典统计理论和研究设计的方法外,还有一些常用的样本容量选取准则可以参考。
例如,奈曼-皮尔逊准则和库珀准则等。
奈曼-皮尔逊准则基于最小显著差别来确定样本容量,而库珀准则则基于统计功效和显著性水平来确定样本容量。
这些准则可以作为参考,但需要根据具体的研究问题和研究设计来灵活应用。
总的来说,样本容量选取所对精确结果的要求对象是研究目标和研究问题,同时也需要考虑研究设计的方法以及可行性和经济性。
抽样的方案至少包括哪些内容
抽样的方案至少包括哪些内容抽样的方案至少包括哪些内容摘要:本文旨在介绍抽样方案,重点讨论抽样方案应包括的内容。
抽样是研究中常用的一种方法,通过从总体中选择一部分样本来代表整体,从而推断总体的特征。
一个合理有效的抽样方案可以确保研究结果的准确性和可靠性。
本文将从样本定义、抽样方法、样本容量、样本选择、数据收集和分析等六个方面展开叙述,以帮助研究者制定科学可行的抽样方案。
第一节:样本定义在抽样方案中,首先需要明确定义样本。
样本是指从总体中选取的一部分个体或观察值,用以代表总体。
样本的选择应该符合研究问题的要求,既要具备代表性又要能够反映出总体的特征。
样本可以是人群、物品、事件等。
第二节:抽样方法抽样方法是指从总体中选择样本的具体方法。
常见的抽样方法包括随机抽样、系统抽样、分层抽样、整群抽样等。
随机抽样是最基本的抽样方法,通过随机选择样本,使得每个个体都有被选中的机会,从而保证样本的代表性。
系统抽样是指将总体按照某种规则分为若干个等距的部分,然后从每个部分按照一定的间隔选择一个样本。
分层抽样是将总体划分为若干个层次,然后在每个层次中进行抽样。
整群抽样是将总体分为若干个群组,然后随机选择若干个群组作为样本。
第三节:样本容量样本容量是指抽样中所选取的样本的数量。
样本容量的确定对于研究的可靠性和推广性至关重要。
样本容量的大小应该根据研究目的、总体大小、抽样方法和可用资源等因素来确定。
一般来说,样本容量越大,研究结果越可靠,但同时也会增加研究的时间和成本。
第四节:样本选择样本选择是指从总体中具体选取样本的过程。
在样本选择过程中,需要确保每个个体都有被选中的机会。
如果样本选择不具备随机性,可能导致样本的偏倚,从而影响研究结果的准确性。
因此,样本选择应该采用随机抽样或者其他具有随机性的方法,以确保样本的代表性。
第五节:数据收集数据收集是指在抽样调查中获取样本相关数据的过程。
数据收集可以采用问卷调查、观察、实验等方法。
第三章 参数估计
第三章 参数估计重点:1.总体参数与统计量2.样本均值与样本比例及其标准误差难点:1.区间估计2.样本量的确定知识点一:总体分布与总体参数统计分析数据的方法包括:描述统计和推断统计(第一章)推断统计是研究如何利用样本数据来推 断总体特征的统计学方法,包括参数估计和假设检验两大类。
总体分布是总体中所有观测值所形成的分布。
总体参数是对总体特征的某个概括性的度量。
通常有总体平均数( μ)总体方差(σ2 )总体比例( π)知识点二:统计量和抽样分布总体参数是未知的,但可以利用样本信息来推断。
统计量是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量。
统计量是样本的函数,如样本均值()、样本方差( s2)、样本比例(p)等。
构成统计量的函数中不能包括未知因素。
由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出的统计量也就是随机的。
统计量的取值是依据样本而变化的,不同的样本可以计算出不同的统计量值。
[例题·单选题]以下为总体参数的是( )a.样本均值b.样本方差c.样本比例d.总体均值答案:d解析:总体参数是对总体特征的某个概括性的度量。
通常有总体平均数、总体方差、总体比例题·判断题:统计量是样本的函数。
答案:正确解析:统计量是样本的函数,如样本均值()、样本方差()、样本比例(p)等。
构成统计量的函数中不能包括未知因素。
[例题·判断题]在抽样推断中,作为推断对象的总体和作为观察对象的样本都是确定的、唯一的。
答案:错误解析:作为推断对象的总体是唯一的,但作为观察对象的样本不是唯一的,不同的样本可以计算出不同的统计量值。
(一)样本均值的抽样分布设总体共有n个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有n n种抽法,即可以组成n n不同的样本,在不重复抽样时,共有个可能的样本。
每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。
第三章(多元线性回归模型)3-3答案
3.3 多元线性回归模型的检验一、判断题1、在线性回归模型中,为解释变量或者被解释变量重新选取单位(比如,元变换成千元),会影响t 统计量和 2R 的数值。
( F )2、在多元线性回归中,t 检验和F 检验缺一不可。
( T )3、回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。
( F )4、多元线性回归中,可决系数2R 是评价模型拟合优度好坏的最佳标准。
( F )二 、单项选择1、在模型0112233t t t t t Y X X X ββββμ=++++的回归分析结果中,有462.58F =,0.000000F p =的值,则表明 ( C )A 、解释变量2t X 对t Y 的影响不显著B 、解释变量1t X 对t Y 的影响显著C 、模型所描述的变量之间的线性关系总体上显著D 、解释变量2t X 和1t X 对t Y 的影响显著2、设k 为回归模型中的实解释变量的个数,n 为样本容量。
则对回归模型进行总体显著性 检验(F 检验)时构造的F 统计量为 ( A )A 、1)ESS k F RSS n k =--B 、(1)()ESS k F RSS n k -=- C 、ESS F RSS = D 、1RSS F TSS=- 3、在多元回归中,调整后的可决系数2R 与可决系数2R 的关系为 ( A ) A 、22R R < B 、22R R >C 、22R R =D 、2R 与2R 的关系不能确定4、根据调整的可决系数2R 与F 统计量的关系可知,当21R =时,有 ( C )A 、F=0B 、F=-1C 、F →+∞D 、F=-∞5、下面哪一表述是正确的 ( D ) A 、线性回归模型01i i i Y X ββμ=++的零均值假设是指110ni i n μ==∑ B 、对模型01122i i i i Y X X βββμ=+++进行方程显著性检验(即F 检验),检验的零假 设是0012:0H βββ===C 、相关系数较大意味着两个变量存在较强的因果关系D 、当随机误差项的方差估计量等于零时,说明被解释变量与解释变量之间为函数关系5、对于01122ˆˆˆˆi i i k ki iY X X X e ββββ=+++++…,如果原模型满足线性模型的基本假设则 在零假设0j β=下,统计量ˆˆ()j j s ββ(其中ˆ()js β是j β的标准误差)服从 (B )A 、()t n k -B 、(1)t n k --C 、(1,)F k n k --D 、(,1)F k n k --6、在由的一组样本估计的、包含3个解释变量的线性回归模型中,计算得多重可决系数为0.8500,则调整后的多重可决系数为( D )A 、8603B 、 0.8389C 、0.8655D 、0.83277、可决系数R 2=0.8,说明回归直线能解释被解释变量总变差的:( A )A 、 80%B 、 64%C 、 20%D 、 89%8、线性回归模型01122......t t t k kt t y b b x b x b x u =+++++ 中,检验0:0(0,1,2,...)t H b i k ==时,所用的统计量 服从( C )A.t(n-k+1)B.t(n-k-2)C.t(n-k-1)D.t(n-k+2)三、多项选择题1、对模型满足所有假定条件的模型01122i i i i Y X X βββμ=+++进行总体显著性检验,如果检验结果总体线性关系显著,则很可能出现 ( BCD )A 、120ββ==B 、120,0ββ≠=C 、120,0ββ≠≠D 、120,0ββ=≠E 、120,0ββ==2、设k 为回归模型中的参数个数(包含截距项)则总体线性回归模型进行显著性检验时所 用的F 统计量可以表示为 ( BC )A 、()()()∑∑---1k e k n Y Y 2i 2i i //ˆ B 、()()()∑∑---k n e 1k Y Y 2i2ii //ˆ C 、()()()k n R 11k R 22---// D 、()()()1k R k n R 122---// E 、()()()1k R 1k n R 22---// 3、在多元回归分析中,调整的可决系数2R 与可决系数2R 之间 ( AD )A 、22R R <B 、22R R ≥C 、2R 只可能大于零D 、2R 可能为负值E 、2R 不可能为负值四、简答题30n =1.在多元线性回归分析中,为什么用修正的可决系数衡量估计模型对样本观测值的拟合优度?答:因为人们发现随着模型中解释变量的增多,多重可决系数2R 的值往往会变大,从而增加了模型的解释功能。
知识卡片-总体、个体、样本、样本容量
总体、个体、样本、样本容量
能量储备
●在抽样调查时,要考察的全体对象称为总体,组成总体的每一个考察对象称为个体,从
总体中被抽取的那些个体构成总体的一个样本,样本中包含的个体的数目称为样本容量.
(1)样本在一定程度上能够反映总体,为了使样本能较好地反映总体情况,在选取样本时要使其具有一定的代表性;
(2)样本容量是样本中个体的数目,一般地,样本容量越大,通过样本对总体的估计越精确.在实际研究中,要根据具体情况确定样本容量的大小.
●总体包括所有个体,样本只包括所抽取的个体,样本是总体的一部分,一个总体中可以
有许多样本.
样本容量是样本中所含个体的个数,不是调查对象,而且没有单位.
通关宝典
★基础方法点
方法点1:样本必须具有代表性和广泛性才能估计总体的情况.
例题:说明在以下几个问题中,总体、个体、样本各指什么?
(1)为了考察一个学校的学生每天参加课外体育活动情况,调查了其中50名学生参加课外体育活动的时间.
(2)为了了解一批灯泡的使用寿命,从中抽取了50只进行试验.
解答:该校学生每天参加课外体育活动时间的全体是总体,每个学生每天参加课外体育活动的时间是个体,所抽查的50名学生每天参加课外体育活动的时间是从总体中抽取的一个样本.
(2)这批灯泡使用寿命的全体是总体,每只灯泡的使用寿命是个体,抽取的50只灯泡的使用寿命是总体的一个样本.
蓄势待发
考前攻略
该知识点单独考查较少,偶尔考查根据实际问题辨认总体、个体、样本、样本容量的概念.完胜关卡。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
犯第II类错误的概率不超过给定的 β .
因为 β ( μ ) 是 μ 的递减函数 ,
故当 μ ≥ μ0 + δ 时, β ( μ0 + δ ) ≥ β ( μ ) , nδ ⎞ ⎛ 于是只要 β ( μ0 + δ ) = Φ⎜ zα − ⎟ ≤ β, σ ⎠ ⎝ nδ ( zα + zβ )σ 即n满足 zα − ≤ − zβ , 只要 n ≥ ,
燃料 A 燃料 B
燃料的辛烷值越高, 燃料质量越好. 因燃料 B 较燃 料 A价格便宜, 因此, 如果两者辛烷值相同时, 则 使用燃料 B. 但若含量的均值差 μ A − μB ≥ 5 , 则 使用燃料 A. 设两总体的分布均可认为是正态的, 而两个样本相互独立. 问应采用那种燃料? (α = β = 0.01) 解 按题意需要在显著水平 α = 0.01 下检验假设
当分别自两个总体取得的相互独立的样本容量 μ1 − μ2 n1 = n2 = n时, 给定 α , β 及 的值后 ,
σ
可以查附表8得到所需的样本容量.
若两个正态总体 N ( μ1 ,σ 1 ), N ( μ 2 ,σ 2 2 )中
2
σ 12 = σ 2 2 = σ 2 ,
(σ 2未知 )
在均值差 μ1 − μ 2 的检验问题 H 0 : μ1 − μ 2 = 0 , H 1 : μ1 − μ 2 ≠ 0 ( > 0 或 < 0 ) , 的t检验法中, 当分别自两个总体取得的相互独立的 样本容量 n1 = n2 = n时, 可以查附表8得到所需的样
例3 考虑在显著水平 α = 0.05 下进行 t 检验 ,
H 0 : μ = 14, H 1 : μ ≠ 14 ,
μ − 14 要求在 H 1 中 ≥ 0.4时, 犯第 ΙΙ 类错误的概率 σ 不超过 β = 0.1, 求所需样本容量 .
解
此处 α = 0.05, β = 0.1, δ = 0.4,
假设检验 H 0 : μ = μ0 , H 1 : μ ≠ μ0 . 若给定 α , β 以及 δ > 0, 则可从附表 7 查得所需容量 n, μ − μ0 ≥ δ 时, 使当 μ ∈ H 1 且
犯第 II类错误的概率不超过给定的 β .
σ
例2 考虑在显著水平 α = 0.05 下进行 t 检验 ,
1. 右边检验问题
H 0 : μ ≤ μ0 , H 1 : μ > μ0的OC 函数是
X − μ0 ⎧ ⎫ β ( μ ) = Pμ ( 接受H 0 ) = Pμ ⎨ < zα ⎬ ⎩σ / n ⎭ − μ0 ⎫ μ X −μ ⎧ = Pμ ⎨ < zα − ⎬ σ / n⎭ ⎩σ / n μ − μ0 = Φ( zα − λ ), λ= . σ/ n
σ
错误的概率不超过 β .
2. 左边检验问题
假设检验 H 0 : μ ≥ μ0 , H 1 : μ < μ0 . 若给定 α , β 以及 δ > 0, 则可从附表 6 查得所需容量 n, μ − μ0 ≤ −δ 时 , 使当 μ ∈ H 1 且
犯第 II类错误的概率不超过给定的 β .
σ
3. 双边检验问题
H 0 : μ ≤ 68, H 1 : μ > 68 , (1) 要求在 H 1 中μ ≥ μ1 = 68 + σ时, 犯第 ΙΙ类错误的
概率不超过 β = 0.05, 求所需样本容量 .
(2) 若样本容量 n = 30,问在 H 1 中μ = μ1 = 68 + 0.75σ
时, 犯第 ΙΙ类错误的概率是多少?
H 0 : μ A − μ B ≤ 0,
H 1 : μ A − μ B > 0.
并要求 μ A − μB ≥ 5 时, 犯第II类错误的概率不超过 β = 0.01, 所取的样本容量 nA = nB = 12, 且有 x A = 80.83, σ A = σ B , s A = 5.61, s B 2 = 6.06, 经 水平为 0.1 的F 检验知: x B = 78.67, 记为 σ 2 . 因 s A + sB 2 n1 = n2 , 取 σ = 5.835 作为 σ 2 的点估 ˆ = 2 5 2 计, 取 σ = σ ˆ , 于是 δ = = 2.07, 查表 , σ ˆ 当α = β = 0.01, δ = 2.07 时 n ≥ 8. 附表5-4
解 (1) α = β = 0.05, μ0 = 68,
附表5-1
μ1 − μ 0 (68 + σ ) − 68 = δ = = 1, 查表 7 知 n = 13. σ σ
( 2) 现在 α = 0.05, n = 30,
μ1 − μ 0 (68 + 0.75σ ) − 68 = δ = = 0.75, σ σ 附表5 -2 查表 7 知 β = 0.01 .
§3.3(续) 样本容量 的选取
一、施行特征函数 二、Z检验法的OC函数 三、t检验法的OC函数 四、小结
一、施行特征函数
在一些实际问题中, 我们除了希望控制犯第I 类错误的概率外, 往往还希望控制犯第 II类错误的 概率. 以上在进行假设检验时, 总是根据问题的需要, 预先给出显著性水平以控制犯第I类错误的概率, 而犯第 II类错误的概率则依赖于样本容量的选择. 在本节中, 我们将阐明如何选取样本的容量使 得犯第 II类错误的概率控制在预先给定的限度内, 为此, 引入施行特征函数.
施行特征函数的定义:
若 C 是参数 θ 的某检验问题的一个检 验法,
β (θ ) = P0 ( 接受H )
称为检验法 C 的施行特征函数或 OC 函数 ,
其图形 称为 OC 曲线.
施行特征函数的作用: 适当地选取样本的容量, 使得犯第 II类错误 的概率控制在预先给定的限度内.
二、Z 检验法的OC 函数
现在要求当 μ ≥ μ0 + δ 时, β ( μ ) ≤ β .
δ
25. 根据给定的数据知 n ≥ 24.35, 故取 n=
即x ≥ 129.87时, 买方就拒绝这批产品 , 而当x < 129.87时, 买方就接受这批产品 .
三、t 检验法的OC函数
1. 右边检验问题
H 0 : μ ≤ μ0 , H 1 : μ > μ0的 OC 函数是 − μ X ⎧ ⎫ 0 β ( μ ) = Pμ ( 接受H 0 ) = Pμ ⎨ < tα ( n − 1)⎬ ⎩ S/ n ⎭
5. 两个正态总体均值差的 t 检验问题
若两个正态总体 N ( μ1 ,σ 1 ), N ( μ 2 ,σ 2 )中
2 2
σ 1 = σ 2 = σ , (σ 未知)
2 2
2
2
均值差 μ1 − μ 2 的检验问题 H 0 : μ1 − μ 2 = 0 , H 1 : μ1 − μ2 ≠ 0 ( > 0 或 < 0 ) ,
σ
就能使犯第 II类错误的概率不超过给定的 β .
δ
2. 左边检验问题
假设检验 H 0 : μ ≥ μ0 , H 1 : μ < μ0 的OC 函数是
β ( μ ) = Pμ ( 接受H 0 ) = Φ ( zα + λ ),
μ − μ0 λ= . σ/ n
当真值 μ ≥ μ0 时β ( μ ) 为作出正确判断的概率 ; 当真值 μ < μ 0 时β ( μ )给出犯第 II类错误的概率 . 只要样本容量 n 满足 n ≥ ( zα + zβ )σ
其中变量
X − μ0 ⎛ X − μ ⎞ ⎛ S ⎞ λ = μ − μ0 . + λ ⎟ ⎜ ⎟, =⎜ σ/ n S / n ⎝σ / n ⎠ ⎝σ ⎠
X − μ0 我们称变量 服从非中心参数为 λ , S/ n 自由度为 n − 1 的非中心 t 分布 .
当 λ = 0 时, 它是通常的 t ( n − 1) 变量. 若给定 α , β 以及 δ > 0, 则可从教材附表 7查得所 μ-μ 0 需容量 n, 使得当 μ ∈ H 1且 ≥ δ 时, 犯第 II类
μ − μ0 = Φ ( zα / 2 − λ ) + Φ ( zα / 2 + λ ) − 1, λ = . σ/ n
此OC函数的图形如下:
只要样本容量 n 满足 n ≥
( zα / 2 + zβ )σ
就能使犯第 II类错误的概率不超过给定的 β .
δ
,
例1 (工业产品质量抽验方案) 设有一大批产品, 产品质量指标 x ~ N ( μ ,σ 2 ) .以 μ 小者为佳 , 厂方
就能使犯第 II类错误的概率不超过给定的 β .
δ
3. 双边检验问题
假设检验 H 0 : μ = μ0 , H 1 : μ ≠ μ0 的OC 函数是 X − μ0 ⎧ ⎫ < zα / 2 ⎬ β ( μ ) = Pμ ( 接受H 0 ) = Pμ ⎨− zα / 2 < σ/ n ⎩ ⎭ X −μ ⎧ ⎫ < − λ + zα / 2 ⎬ = Pμ ⎨− λ − zα / 2 < σ/ n ⎩ ⎭ = Φ ( zα / 2 − λ ) − Φ ( − zα / 2 − λ )
解
检验问题 可表达为 H 0 : μ ≤ μ0 , H 1 : μ > μ0 ,
且要求当 μ ≥ μ1 + δ时能以 1 − β = 0.95的概率拒绝
H 0 .由 Z 检验 , 拒绝域为 x − μ0 ≥ zα . σ/ n
⎫ ⎧ X − μ0 < zα ⎬ 故OC函数为 β ( μ ) = Pμ ⎨ ⎭ ⎩σ / n
μ − μ0 ⎫ ⎧X − μ = Pμ ⎨ < zα − ⎬ σ / n⎭ ⎩σ / n μ − μ 0 ⎞ (∗) ⎛ = Φ ⎜ zα − ⎟. σ / n⎠ ⎝