统计学问答题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学问答题
1. 什么是统计学?怎样理解统计学与统计数据的关系?
答:统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法乃至统计学就失去了其存在意义。
3.简要说明抽样误差和非抽样误差
答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各有关环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以计量和控制的。
4(先分为集中趋势与分散程度,再继续细分,即综述7、8)
一组数据的分布特征可以从哪几个方面进行测度?
答:数据分布特征一般可从集中趋势、离散程度、分布形状(偏态和峰度)几方面来测度。
分布集中趋势的测度有众数、中位数、分位数、均值、几何平均数、切尾均值;分布离散程度的测度有极差、内距、方差和标准差、离散系数。
7.简述众数、中位数和均值的特点和应用场合。
答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。
众数一组数据分布的峰值,容易计算,但不是总是存在,众数只有在数据量较多时才有意义,数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值,应用场合较少;
中位数是一组数据中间位置上的代表值,直观,不受极端数据的影响,但数据信息利用不够充分,当数据的分布偏斜较大时,使用中位数也许不错。主要适合作为顺序数据的集中趋势测度值。
;
均值数据对数值型数据计算的,而且利用了全部数据信息,提取的信息最充分,当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数。但受极端数据的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。
8.标准差和方差反映数据的什么特征
反映数据离散程度的特征. 标准差反应数据的变化幅度,即上下左右波动的剧烈程度。在统计中可以用来计算某变量值的区间范围(即置信区间)。方差:即标准差的平方。
所以,标准差和方差两者没有本质区别。
5怎样理解均值在统计中的地位?
答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。
10为什么要计算离散系数?
答:在比较二组数据的差异程度时,由于方差和标准差是以均值为中心计算出来的,有时直接比较标准差是不准确的,需要剔除均值大小不等的影响,计算并比较离散系数
1怎样理解频率与概率的关系?频率的极限是概率吗?
频率在一定程度上反映了事件发生的可能性大小. 尽管每进行一连串(n次)试验,所得到的频率可以各不相同,但只要n相当大,频率与概率是会非常接近的.因此,概率是可以通过频率来“测量”的, 频率是概率的一个近似. 概率是频率稳定性的依据,是随机事件规律的一个体现. 实际中,当概率不易求出时,人们常通过作大量试验,用事件出现的频率去近似概率. 当实验次数趋向于无穷时,频率的极限就是概率。
2概率的三种定义各有什么应用场合和局限性
⑴古典概率实验的基本事件总数有限,每个基本事件出现的可能性相同;要求样本空间是有限并且是已知的。机会游
戏的很多问题可以满足这些条件;但现实生活的实际问题样本空间或者出现的结果无限或者未知,因此具有较强的局限性
⑵统计概率历史上同类事物发生的稳定频率。在日常生活与工作中,应用较为普遍;统计概率通常是计算大量重复试
验中该事件出现次数的频率,但有些试验是不能重复的
⑶主观概率随机事件发生的可能性既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来估计,但决
策者又必须对其进行估计从而做出相应决策。具有主观随意性
3概率密度函数和分布函数的联系与区别表现在哪些方面
一元函数下.
概率分布函数是概率密度函数的变上限积分,就是原函数.
概率密度函数是概率分布函数的一阶导函数.
多元函数下.
联合分布函数是联合密度函数的重积分.
联合密度函数是联合分布函数关于每个变量的偏导.
6随机变量的数学期望和方差与第二章所讲的均值和方差有何区别,联系
数学期望又称均值,实质上是随机变量所有可能取值的一个加权平均,其权数就是取值的概率,方差一样
12解释总体分布、样本分布和抽样分布的含义
总体分布:所有元素出现概率的分布
样本分布:样本n个观察值的概率分布。
抽样分布:由样本n个观察值计算的统计量的概率分布
1.简述评价估计量好坏的标准
1、无偏性:估计量抽样分布的数学期望等于被估计的总体参数
2、有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
3、一致性:随着样本量的增大时,点估计量的值越来越接近被估总体的参数。
举例
2.说明区间估计的基本原理
答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间。
3解释置信水平的含义(画图)
置信区间中包含总体参数真值的次数所占的比率称为置信水平;而置信区间是指由样本统计量所构成的总体参数的估计区间。置信区间越大,置信水平越高。
4.解释置信水平为95%的置信区间的含义
答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。
5.简述样本容量与置信水平、总体方差、允许误差的关系
答:以估计总体均值时样本容量的确定公式为例:样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。