EXCEL显著性水平置信度置信区间
excel计算95%置信区间的公式
excel计算95%置信区间的公式
摘要:
一、引言
二、置信区间的概念
三、Excel 计算置信区间的公式
四、如何使用Excel 计算95% 置信区间
五、结论
正文:
一、引言
在数据分析中,我们常常需要估计某个参数的真实值。置信区间是一种度量估计值与真实值之间差距的方法,可以帮助我们更准确地了解参数的真实值。在Excel 中,我们可以通过公式来计算置信区间,从而更方便地进行数据分析。
二、置信区间的概念
置信区间是根据样本数据计算的一个范围,用以估计总体参数的真实值。通常,置信区间具有一个置信水平,例如95%,表示在多次抽样中,有95% 的置信区间包含参数的真实值。
三、Excel 计算置信区间的公式
在Excel 中,我们可以使用以下公式来计算置信区间:
置信区间= 样本均值± Z 值* 标准误差
其中,Z 值是标准正态分布表中的数值,根据置信水平(例如95%)查
表得到。标准误差则是样本标准差除以样本大小的平方根。
四、如何使用Excel 计算95% 置信区间
1.首先,需要有一个包含样本数据的表格。例如,我们可以有一个表格,其中列出了不同产品的尺寸(如长度、宽度等)。
2.接着,在另一个单元格中,输入以下公式来计算置信区间:
`=CONFIDENCE.NORM(0.95, SUM(1/COUNTIF(数据区域,数据区域))-1)`
其中,“数据区域”应替换为包含样本数据的区域。
3.按下回车键,Excel 将自动计算95% 置信区间的上下限。
五、结论
通过使用Excel 的置信区间公式,我们可以快速、准确地估计总体参数的真实值。
excel 拟合 置信区间
excel 拟合置信区间
在Excel中,可以使用线性回归函数拟合数据并计算置信区间。以下是在Excel中进行此操作的步骤:
1. 将数据输入Excel工作表中的两列,一列用作自变量(X)
的数据,一列用作因变量(Y)的数据。
2. 在工作表的空白单元格中,使用"=LINEST(y_range, x_range, conf, True)"函数来进行线性回归计算。其中,y_range是因变
量的数据范围,x_range是自变量的数据范围,conf是置信水
平(通常取值0.05表示95%的置信水平),True表示返回拟
合值的置信区间。
3. 按下"Ctrl+Shift+Enter"组合键来确认该公式为一个数组公式。
4. Excel将返回一个数组,其中包含拟合参数和置信区间的上
下限。
5. 定位到单元格中的线性拟合参数(斜率和截距)。
6. 随后的单元格中将显示置信区间的上下限。
请注意,输入的数据范围应始终具有相同数量的数据点。否则,线性回归函数将无法计算。
EXCEL 显著性水平 置信度 置信区间
帮我通俗的解释下显著性水平和置信水平
这两个概念通俗的理解是咋样的啊,显著水平的0.05和0.01是什么意思,越高越好还是越低越好?除了0.05和0.01外还有别的值么?置信度和置信区间又是什么意思?置信度越高越好么?
回答:首先,置信水平和置信度应该是一样的,就是变量落在置信区间的可能性,“置信水平”就是相信变量在设定的置信区间的程度,是个0~1的数,用1-α表示。置信区间,就是变量的一个范围,变量落在这个范围的可能性是就是1-α。
显著性水平就是变量落在置信区间以外的可能性,“显著”就是与设想的置信区间不一样,用α表示。
显然,显著性水平与置信水平的和为1。
显著性水平为0.05时,α=0.05,1-α=0.95
如果置信区间为(-1,1),即代表变量x在(-1,1)之间的可能性为0.95。0.05和0.01是比较常用的,但换个数也是可以的,计算方法还是不变。
总之,置信度越高,显著性水平越低,代表假设的可靠性越高,越好。
置信度计算
现认为置信度在此算法中应该是用户指定一个即可。“In general,due to the weak (logarithmic)dependence on T,small settings for T(i.e.,less than 0.1)do not have a large effect on the overall window size”。
没找到较好的计算过程,先贴一段吧。
置信度:
置信度,是指特定个体对待特定命题真实性相信的程度,也就是概率是对个人信念合理性的量度。
excel计算95%置信区间的公式
excel计算95%置信区间的公式
在日常的数据分析工作中,我们常常需要对样本数据进行统计推断,以评估总体数据的性质。置信区间是一种衡量统计推断准确性的方法,它可以帮助我们确定总体参数的真实值在一个可信范围内。在这篇文章中,我们将介绍如何使用Excel计算95%置信区间。
首先,我们需要明白置信区间的概念。置信区间是由样本数据所推断出的总体参数的真实值的一个范围,这个范围具有一定的可信度。95%置信区间意味着我们有95%的信心,总体参数的真实值位于这个区间内。
接下来,我们来解释一下95%置信区间的意义。假设我们使用样本数据计算出一个总体参数的值,如均值。通过95%置信区间,我们可以知道这个均值在总体中真实值的可能性较大。换句话说,如果我们多次从总体中抽取样本并计算置信区间,那么大约有95%的样本所计算出的置信区间将包含真实值。
现在,我们来介绍如何使用Excel计算95%置信区间。以计算均值为例,假设我们有一个包含n个数据的单元格区域,如下所示:
A1:An分别为数据1至n。
步骤1:在Excel中,选择“数据”菜单,然后点击“数据分析”。
步骤2:在“数据分析”对话框中,选择“描述性统计”选项,然后点击“确定”。
步骤3:在“描述性统计”对话框中,将“平均值”和“标准误差”分别设置为“计算平均值”和“计算标准误差”。在“输出区域”设置为所需的输出单元格,例如C1。
步骤4:点击“确定”,Excel将计算出均值和标准误差。
步骤5:在输出单元格C1的右侧,输入以下公式以计算95%置信区间:`=C1+C1*SQRT((n-1)/n)*Z0.95`
excel置信区间曲线
在Excel中创建置信区间曲线需要按照以下步骤进行:
1. 准备数据:将数据输入到Excel电子表格中,并按照需要的方式进行排列和格式化。
2. 计算平均值和标准误差:使用Excel的函数计算平均值和标准误差,这些函数包括AVERAGE和STDEV.S等。
3. 计算置信区间:使用Excel的函数计算置信区间,这些函数包括CONFIDENCE.T和CONFIDENCE.NORM等。选择适当的函数,根据所需的置信水平、样本大小和标准误差计算置信区间上限和下限。
4. 创建图表:选择数据区域并创建图表。在图表中添加置信区间,可以使用误差线或填充区域的方式来显示。可以使用Excel的内置图表类型,如散点图或柱形图,并进行必要的自定义和格式化,以使图表更加清晰易读。
以上步骤是基本的操作流程,可以根据具体需求进行适当的调整和修改。在Excel中创建置信区间图需要一定的统计学基础和Excel 操作技能,建议在操作前进行一定的学习和练习。
[整理版]EXCEL区间估计
区间估计
计算置信区间的本质是输入两个公式,分别计算置信下限与置信上限.当熟悉了数据输入方法及常见统计函数后,变得十分简单。
1、单一总体均值的区间估计
在2σ未知时,均值μ的置信区间:),(22n s
z x n s z x αα+-
例1:一家保险公司收集到由36位投保人组成的随机样本,得到每位投保人的年龄数据如下图7-1所示。试建立投保人年龄95%的置信区间。
图7-1 36个投保人年龄的数据
具体操作步骤如下:
①在单元格C3输入样本数(n)=36。
②计算平均数和标准差。在单元格C4输入平均数公式:= A VERAGE (E1:J6),在单元格C5输入样本标准差公式:= STDEV (E1:J6)。
③在单元格C6输入置信度(1-α)=95%,在单元格C7中输入显著水平(α)=5%。
④计算Z 值,在单元格C8中输入 =NORMSINV (1-C7/2)
⑤计算置信区间上限和下限。在单元格C9输入求置信区间下限公式:=C4-C8*C5/SQRT(C3),在单元格C10输入求置信区间上限公式:= C4+C8*C5/SQRT(C3)。
⑥在单元格C11输入求置信区间公式:=CONCA TENA TE("(",C9,",",C10,")")。
由上可得置信区间为(36.96, 42.04),如图7-2所示。
图7-2 单一总体均值的区间估计
2、单一总体比例的区间估计: 置信区间为:)
/)1(,/)1((2/2/n q q z q n q q z q -+--αα 例2:美国某调查机构想了解美国民众对政府某项税收议案的态度,调查了1000位美国人,结果发现5成人表示支持,4成人表示反对,1成人既不支持,也不反对。试估计支持比例的95%置信区间。
excel 95%置信区间的计算公式
excel 95%置信区间的计算公式
Excel中计算95%置信区间的公式如下:
对于总体均值的置信区间:=CONFIDENCE(alpha,
standard_dev, sample_size)
其中,alpha表示显著性水平(一般取0.05),standard_dev表示总体标准差,sample_size表示样本容量。
对于总体比例的置信区间:=CONFIDENCE.NORM(alpha, stdev, sample_size)
其中,alpha表示显著性水平(一般取0.05),stdev表示总体
比例(用百分数表示,如20%即输入0.2),sample_size表示
样本容量。
对于总体方差的置信区间:=CONFIDENCE.T(alpha,
standard_dev, sample_size)
其中,alpha表示显著性水平(一般取0.05),standard_dev表示总体标准差,sample_size表示样本容量。
以上公式都是在Excel中自带的函数,可以直接输入进行计算。
EXCEL显著性水平置信度置信区间
帮我通俗的解释下显著性水平和置信水平
这两个概念通俗的理解是咋样的啊,显著水平的0.05和0.01是什么意思,越高越好还是越低越好?除了0.05和0.01外还有别的值么?置信度和置信区间又是什么意思?置信度越高越好么?
回答:首先,置信水平和置信度应该是一样的,就是变量落在置信区间的可能性,“置信水平”就是相信变量在设定的置信区间的程度,是个0~1的数,用1-α表示。置信区间,就是变量的一个范围,变量落在这个范围的可能性是就是1-α。
显著性水平就是变量落在置信区间以外的可能性,“显著”就是与设想的置信区间不一样,用α表示。
显然,显著性水平与置信水平的和为1。
显著性水平为0.05时,α=0.05,1-α=0.95
如果置信区间为(-1,1),即代表变量x在(-1,1)之间的可能性为0.95。0.05和0.01是比较常用的,但换个数也是可以的,计算方法还是不变。
总之,置信度越高,显著性水平越低,代表假设的可靠性越高,越好。
置信度计算
现认为置信度在此算法中应该是用户指定一个即可。“Ingeneral,due to the weak (logarit hmic)depende nce on T,small setting s for T(i.e.,less than 0.1)do not have a large effecton the overall windowsize”。
没找到较好的计算过程,先贴一段吧。
统计学中的显著性水平和置信区间
统计学中的显著性水平和置信区间统计学是一种研究数据收集、分析和解释的科学方法。在统计学中,我们经常会遇到两个重要的概念:显著性水平和置信区间。它们是帮
助我们做出可靠统计推断的工具。
一、显著性水平
显著性水平是指在进行统计推断时,我们所设置的判断标准。通常
用字母α来表示显著性水平。它反映了当我们对假设进行检验时,犯
错误的风险。一般来说,常见的显著性水平有0.05和0.01。
在假设检验中,我们通常会对一个假设进行判断。根据显著性水平
的设置,将统计得到的结果与临界值进行比较,从而判断是否拒绝原
假设。如果统计得到的结果小于临界值,我们就可以认为结果是显著的,即假设成立的可能性较小;反之,如果统计结果大于临界值,我
们就无法拒绝原假设,即假设存在较大的可能性。
举个例子来说,假设我们要研究某药物对疾病的疗效,我们将随机
选择一组患者进行药物治疗,并将另一组患者作为对照组接受安慰剂。最后,我们通过收集数据并进行统计分析,得到了一个p值,即观察
到的差异出现的概率。当我们设置显著性水平为0.05时,如果p值小
于0.05,我们就可以拒绝原假设,即药物对疾病的疗效存在差异;反之,如果p值大于0.05,我们则无法拒绝原假设,即药物对疾病的疗
效可能没有显著差异。
二、置信区间
置信区间是统计推断中另一个重要的概念。它是用来度量样本估计
值与总体参数之间差异的范围。通常用一个区间来表示,其中包含了
样本估计值的可能取值范围。
在统计推断中,我们通常根据样本数据来估计总体参数,比如均值、比例等。然而,由于样本的随机性,样本估计值很可能与总体参数存
EXCEL显著性水平置信度置信区间
帮我通俗的解释下显著性水平和置信水平
这两个概念通俗的理解是咋样的啊,显著水平的0.05和0.01是什么意思,越高越好还是越低越好?除了0.05和0.01外还有别的值么?置信度和置信区间又是什么意思?置信度越高越好么?
回答:首先,置信水平和置信度应该是一样的,就是变量落在置信区间的可能性,“置信水平”就是相信变量在设定的置信区间的程度,是个0~1的数,用1-α表示。置信区间,就是变量的一个范围,变量落在这个范围的可能性是就是1-α。
显著性水平就是变量落在置信区间以外的可能性,“显著”就是与设想的置信区间不一样,用α表示。
显然,显著性水平与置信水平的和为1。
显著性水平为0.05时,α=0.05,1-α=0.95
如果置信区间为(-1,1),即代表变量x在(-1,1)之间的可能性为0.95。0.05和0.01是比较常用的,但换个数也是可以的,计算方法还是不变。
总之,置信度越高,显著性水平越低,代表假设的可靠性越高,越好。
置信度计算
现认为置信度在此算法中应该是用户指定一个即可。“Ingenera l,due to the weak (logari thmic)depend enceon T,smallsettin gs for T(i.e.,less than 0.1)do not have a largeeffect on the overal l windowsize”。
excel 95%置信区间的计算公式
在Excel中计算95%置信区间的公式是:=STDEV.S(A1:A10)*T.INV.2T(1-0.05,9)/SQRT(10)。
这个公式中,STDEV.S(A1:A10)表示样本标准差,T.INV.2T(1-0.05,9)表示自由度为9(样本容量为10)在95%置信水平下的双侧t分位数,SQRT(10)表示样本容量的平方根。
excel作置信度为95%的回归系数的置信区间
excel作置信度为95%的回归系数的置信区间
一、引言
回归分析是一种广泛应用于数据分析的方法,它通过建立数学模型来描述两个或多个变量之间的关系。在回归分析中,回归系数是模型中最重要的参数之一,它代表了每个变量对因变量的影响程度。为了更好地理解和评估回归模型的性能,我们需要对回归系数的置信区间进行估计。本文将介绍如何使用Excel软件来作置信度为95%的回归系数的置信区间。
二、步骤
1.数据输入:首先,在Excel表格中输入你的数据。这些数据应该包括因变量和所有自变量。确保数据是数值型的,并且没有缺失值。
2.执行线性回归:在Excel中,你可以使用“线性回归”工具来执行线性回归分析。选择“数据”菜单,然后选择“自定函数”。在弹出的窗口中,找到并选择“线性回归”,然后按“确定”。这将自动执行线性回归分析,并生成回归系数和相关统计信息。
3.生成置信区间:线性回归分析将生成回归系数的估计值。为了得到置信区间,你需要使用t检验的结果。在Excel中,你可以通过点击“数据”菜单,选择“数据分析”,然后在“描述性统计”选项卡中,选择“t检验:双尾”。选择你的数据区域,然后点击“确定”。这将生成每个回归系数的t检验结果和置信区间。
4.查看置信区间:在Excel的回归结果表中,你将看到每个回归系数的置信区间。这些区间代表了该系数在95%置信度下的可能取值。
如果你的回归系数在置信区间内,那么你可以认为该系数是统计上显著的。
三、总结
通过以上步骤,你可以使用Excel软件来作置信度为95%的回归系数的置信区间。这有助于你更好地理解回归模型的性能,并确定回归系数的可靠程度。请注意,这只是一种基本的方法,实际的数据分析可能需要更复杂的方法和技巧。在使用Excel或其他数据分析工具时,请务必参考相关的教程和文档以获得最佳实践。
EXCEL 显著性水平 置信度 置信区间
帮我通俗的解释下显著性水平和置信水平
这两个概念通俗的理解是咋样的啊,显著水平的0.05和0.01是什么意思,越高越好还是越低越好?除了0.05和0.01外还有别的值么?置信度和置信区间又是什么意思?置信度越高越好么?
回答:首先,置信水平和置信度应该是一样的,就是变量落在置信区间的可能性,“置信水平”就是相信变量在设定的置信区间的程度,是个0~1的数,用1-α表示。置信区间,就是变量的一个范围,变量落在这个范围的可能性是就是1-α。
显著性水平就是变量落在置信区间以外的可能性,“显著”就是与设想的置信区间不一样,用α表示。
显然,显著性水平与置信水平的和为1。
显著性水平为0.05时,α=0.05,1-α=0.95
如果置信区间为(-1,1),即代表变量x在(-1,1)之间的可能性为0.95。0.05和0.01是比较常用的,但换个数也是可以的,计算方法还是不变。
总之,置信度越高,显著性水平越低,代表假设的可靠性越高,越好。
置信度计算
现认为置信度在此算法中应该是用户指定一个即可。“In general,due to the weak (logarithmic)dependence on T,small settings for T(i.e.,less than 0.1)do not have a large effect on the overall window size”。
没找到较好的计算过程,先贴一段吧。
置信度:
置信度,是指特定个体对待特定命题真实性相信的程度,也就是概率是对个人信念合理性的量度。
利用EXCEL求置信区间
利用EXCEL求置信区间
一、总体均值的区间估计
(一)总体方差未知
例1 为研究某种汽车轮胎的磨损情况,随机选取16只轮胎,每只轮胎行驶到磨坏为止。记录所行驶的里程(以公里计)如下:
4125040187431754101039265418724265441287 3897040200425504109540680435003977540400 假设汽车轮胎的行驶里程服从正态分布,均值、方差未知。试求总体均值
的置信度为0.95的置信区间。
解 1.在单元格A1中输入“样本数据”,在单元格B4中输入“指标名称”,在单元格C4中输入“指标数值”,并在单元格A2:A17中输入样本数据。
2.在单元格B5中输入“样本容量”,在单元格C5中输入“16”。
3.计算样本平均行驶里程。在单元格B6中输入“样本均值”,在单元格C6中输入公式:
“
”,回车后得到的结果为41116.875。
4.计算样本标准差(标准偏差)。在单元格B7中输入“样本标准差”,在单元格C7中输入公式:
“STDEV(A2:A17),回车后得到的结果为1346.842771。
5.计算抽样平均误差。在单元格B8中输入“抽样平均误差”,在单元格C8中输入公式:
“
” ,回车后得到的结果为336.7106928。
6.在单元格B9中输入“置信度”,在单元格C9中输入“0.95”。
7.在单元格B10中输入“自由度”,在单元格C10中输入“15”。
8.在单元格B11中输入“
分布的双侧分位数”,在单元格C11中输入公式:
“
”,回车后得到
的
分布的双侧分位数
excel 置信区间 函数
在Excel 中,可以使用TINV 函数和CONFIDENCE 函数来计算置信区间。
1.使用TINV 函数计算t 分布的临界值:
TINV 函数用于返回t 分布的临界值,其中包含一个双尾t 分布,可以用来计算置信区间。TINV 函数的语法如下:
TINV(probability,deg_freedom)
其中,probability 是指要计算临界值的概率,deg_freedom 是指自由度(即数据集中的数据点数)。例如,如果要在95% 的置信水平下计算双侧临界值,可以选择TINV(0.05,n-1)(其中n 是数据集中的数据点数),Excel 会返回一个临界值。
2.使用CONFIDENCE 函数计算置信区间:
CONFIDENCE 函数用于返回一个样本的置信区间。CONFIDENCE 函数的语法如下:
CONFIDENCE(alpha,std_dev,size)
其中,alpha 是指置信水平(例如95% 或99%),std_dev 是指标准差,size 是指数据集中的数据点数。例如,如果要在95% 的置信水平下计算一个包含10 个数据点的样本的置信区间,可以选择CONFIDENCE(0.05,std,10),Excel 会返回一个置信区间。
需要注意的是,CONFIDENCE 函数计算的是双侧置信区间,而TINV 函数计算的是单侧临界值。因此,在使用CONFIDENCE 函数时需要注意选择正确的临界值类型。
excel置信区间计算公式
excel置信区间计算公式Excel是微软公司推出的一种电子表格软件,广泛用于各行业、各领域的数据处理、计算和分析。Excel中内置了丰富的函数和公式,使用户能够方便地进行复杂的数据分析和统计。其中,置信区间计算公式是Excel中常用的一种,本文将对其进行详细的介绍和说明。
一、什么是置信区间
在统计学上,置信区间是指对总体某个未知参数的值做出基于样本数据的区间估计,使得当样本量增大时,这个区间越来越稳定,越来越接近于总体参数的真值。置信区间一般用于说明样本均值、比例、方差等指标的不确定性。在实际应用中,一个置信区间一般是由分布的中心统计量和它的标准误组成。标准误是用来衡量样本统计量与总体参数的真值之间差异的标准差。较小的标准误意味着置信区间更狭窄,对总体参数的估计更准确。
二、Excel置信区间计算公式
在Excel中,可以使用STDEV函数来计算样本标准偏差(S)和STDEV.S函数来计算总体标准偏差(σ),这是置信区间计算公式中必须的参数之一。其他参数包括样本大小(n),样本均值(x̄)和置信水平(1-α),其中置信水平代表对总体参数的估计所具有的置信程度,通常取值为0.95或0.99。
Excel置信区间计算公式为:
样本均值的置信区间:x̄± (tinv(1-α/2, n-1) x (S/√n))
总体均值的置信区间:x̄± (tinv(1-α/2, n-1) x (σ/√n))
其中,tinv(1-α/2, n-1)表示t分布的反函数值,即对于t分布的累积分布函数中1-α/2的概率对应的t值。n-1表示自由度,代表样本中独立观测值的个数减1。√n
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
帮我通俗的解释下显著性水平和置信水平
这两个概念通俗的理解是咋样的啊,显著水平的0.05和0.01是什么意思,越高越好还是越低越好?除了0.05和0.01外还有别的值么?置信度和置信区间又是什么意思?置信度越高越好么?
回答:首先,置信水平和置信度应该是一样的,就是变量落在置信区间的可能性,“置信水平”就是相信变量在设定的置信区间的程度,是个0~1的数,用1-α表示。置信区间,就是变量的一个范围,变量落在这个范围的可能性是就是1-α。
显著性水平就是变量落在置信区间以外的可能性,“显著”就是与设想的置信区间不一样,用α表示。
显然,显著性水平与置信水平的和为1。
显著性水平为0.05时,α=0.05,1-α=0.95
如果置信区间为(-1,1),即代表变量x在(-1,1)之间的可能性为0.95。0.05和0.01是比较常用的,但换个数也是可以的,计算方法还是不变。
总之,置信度越高,显著性水平越低,代表假设的可靠性越高,越好。
置信度计算
现认为置信度在此算法中应该是用户指定一个即可。“In general,due to the weak (logarithmic)dependence on T,small settings for T(i.e.,less than 0.1)do not have a large effect on the overall window size”。
没找到较好的计算过程,先贴一段吧。
置信度:
置信度,是指特定个体对待特定命题真实性相信的程度,也就是概率是对个人信念合理性的量度。
对概率的置信度解释表明,事件本身并没有什么概率,事件之所以指派有概率只是指派概率的人头脑中所具有的信念证据。置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。
置信度,也称为可靠度,或置信水平、置信系数,即在抽样对总体参数作出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即估计值与总体参数在一定允许的误差范围以内,其相应的概率有多大,这个相应的概率称作置信度。
一般情况下,置信度是表明抽样指标和总体指标的误差不超过一定范围的概率保证度,用F(t)来表示,在大样本(n>30)条件下,置信度F(t)是概率度t函数,概率度越大,置信度越越大。假设我们指出测量结果的准确性有95%的可靠性,这个95%就称为置信度(P),又称为置信水平,它是指人们对测量结果判断的可信程度。
置信水平(Confidence level),是描述GIS中线元素与面元素的位置不确定性的重要指标之一。置信水平表示区间估计的把握程度,置信区间的跨度是置信水平的正函数,即要求的把握程度越大,势必得到一个较宽的置信区间,这就相应降低了估计的准确程度.
简单地从数学角度分析一下。
首先明确其统计模型的类型,加入把每个对象的感觉量化为分数的话,例如从0~100之间的某个数字,那么该统计的结果即3000个数值,应该近似服从于正态分布。即,当结果受到若干个彼此影响力差不多的因素影响时,所得的大量结果服从正态分布。
如果调查不是上述那样简单,则基本思路是:先将结果量化为数值,再根据影响结果的因素的特征来分类,看它具体符合哪种分布类型。
具体的置信度设置:它应当是样本容量(例如上面的“3000”)和数值结果波动范围的函数。也就是说,你得到的结果会在某个特定数值附近波动,你希望知道的是波动范围到底有多大。简单的说,置信度随着所取范围增大而减小,例如假设平均值为50分,那么45~55之间的可能性显然比35~65之间小,也就是置信度低,而出现在0~100之间的置信度则是100%,因为全部范围就这么大。另外,样本容量一般有利于提高置信度,即人数越多所得结果越可靠,不过在达到一定界限之后对于提高置信度贡献就很小了,所以一般取一定容量就足够了。
具体估算置信度时,利用所得到的结果(平均值和样本方差)计算出一个表征偏离程度的数,然后在任何一本概率统计的书后查表,表中给出的是偏离程度与置信百分数的对应关系。基本上就是这个道理,更具体的涉及到操作层面的东西,恐怕还是要参考有关书籍,按图索骥会更稳妥些。
例如在10000个样本中,要得到95%的置信度,大概需要抽取至少600份样本。
确定调查样本量的计算公式,可以从统计教材中找到,例如:
n=Z[(2×S)2/d]2
其中:
N:代表所需要样本量
Z:置信水平的Z统计量,如95%置信水平的Z统计量为1.96
S:总体的标准差
d:置信区间的1/2,在实际应用中就是容许误差,或者调查误差
但是总体标准差往往难以确定,所以按经验,这个总体数量,抽取600份左右。当然,如果分层分类控制得好,也可以少一些样本。
置信度是区间估计里的概念,显著性水平是假设检验里的概念。置信度是一个比较接近于1的数字,如0.9,0.95,0.99等,显著性水平是一个比较接近于0的数字,如0.01,0.05,0.1等。置信水平是1-a,显著性水平是a,在区间估计商,只关注置信度或置信水平1-a,而显著性水平是假设检验中的概念。
置信度或置信水平是正确的概率,显著性水平是犯错误的概率,置信度可以直接理解为所做的估计有多大的把握,比如有95%的把握,观测值落在所给出的区间中
可以这么说:
置信度是人为规定的,是检验是否发生小概率的标准,显著性水平则是数据本身是否有差异,一般用P表示,P越小越好,例如,P<0.05,说明差异显著。
期望两组数不同,但假设它们完全相同,概率是95%、98%(置信度),但处理后的结果发现数在置信区间外,即发生了小概率事件,P<0.05或P<0.01,那么既然发生了小概率事件,则两组数据不同,选择置信度0.95和0.98是不同的,就要剔除一个离群数据,选择高置信度的结果就更可靠。
置信区间是一个期望轴,以T检验为例,以样本情况推断总体情况,如果总体多出现在置信区间外,则推翻原假设,差异显著的检验其实是想证明两数据不同,但只能假设相同推翻这个假设,才能证明它们不同。
[转载]置信区间与置信度
置信区间或称置信间距,是指在某一置信度时,总体参数所在的区域距离或区域长度。
置信度又称显著性水平,意义阶段,信任系数等,是指估计总体参数落在某一区间时,可能犯错误的概率,用符号α表示。
例如.95置信区间是指总体参数落在该区间之内,估计正确的概率为95%,而出现错误的概率为5%(α=.05),由此可见:
.95置信间距=.05显著性水平的置信间距,或.05置信度的置信间距。
.99置信间距=.01显著性水平的置信间距,或.01置信度的置信间距。
显著性水平在假设检验中,还指拒绝虚无假设时可能出现的犯错误的概率水平。
区间估计的原理与标准误
区间估计是根据样本分布的理论,用样本分布的标准误(SE)计算区间长度,解释总体参数落入某置信区间可能的概率。
区间估计包括成功估计的概率大小及估计范围大小两个问题。人们在解决实际问题时,总希望估计值的范围小一点,成功的概率大一些。但在样本容量一定的情况下,二者不可兼得。如果使估计正确的概率加大些,势必要将置信区间加长,若使正确估计的概率为1.00,即完全估计正确,则置信区间就会很长,也就等于没作估计了。这就像在百分制的测验中你估计一个人的得分可能为0
至100分之间一样。反之,如果要使估计的区间变小,那就势必会使正确估计的概率降低。
统计分析中一般规定:正确估计的概率,也即置信水平为.95或.99,那么显著性水平则为.05或.01,这是依据.05或.01属于小概率事件,而小概率事件在一次抽样中是不可能出现的原理规定的。