keyuan统计学_期末复习重点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
●统计学:收集、处理、分析、解释数据并从中得出结论的科学。研究对象:客观现象总体的数量特征和数量关系,及通过数量方面反映的客观现象发展变化规律性。
统计工作:关于数据采集、整理、分析、发布、使用全过程的活动总称。
统计工作过程:统计设计,统计数据收集,统计整理,统计分析,统计发布,统计资料的整理,开发与应用。
●统计分析方法:描述统计,推断统计。
描述统计:研究如何取得反映客观现象的数据,通过图表形式对收集的数据进行加工处理和显示,综合、概括与分析得出反映客观现象的规律性数量特征。
推断统计:在对样本数据进行描述的基础上,利用一定方法根据样本数据估计活对端总体的数量特征(部分→总体)。
●数据类型:⑴定型(品质)数据:分类数据(eg购买商品支付方式,职业)、顺序数据(eg评价教育质量);定量:数值型数据(eg收入,年龄)⑵观测数据(eg电视收视率)、实验数据。都在没有对事物进行人为控制的条件下得到的⑶时间序列数据(又称动态数据,在不同时间或时点收集的数据)(eg就业人数逐年变化情况)、截面数据(又称静态数据,在相同时间下收集的数据,反映不同空间或主体在同一时间下的数量特征)、面板数据(时间序列和截面数据的综合,有空间时间两个维度,综合反映不同时间空间的数据分布情况)。
●总体N:根据一定目的确定的所要研究事物的全体。
个体:组成总体的各单位。
样本:总体部分单位组成的集合。样本单位必须取自同一总体。样本个数多少和样本量与抽样方法有关。样本抽取必排除主观因素影响,确保样本客观性代表性。
样本容量n:样本所包含的元素。
总体参数:描述总体特征的概括性数字度量。总体均值μ总体方差σ方,总体标准差σ总体比例π。参数对应总体。
统计量:描述样本特征的概括性数字度量。样本均值x拔,样本方差s2样本标准差s样本比例p。统计量对应样本。
变量:说明总体或样本数量特征的属性。分类:⑴分类、顺序、数值型变量⑵连续型、离散型变量。
方便抽样:根据调查方便性,以无目标、随意的方式自行确定调查单位。
志愿者抽样:被调查者自愿参加冰箱调查者提供有关信息。
滚雪球抽样:先对随机选择的一些被调查者实施访问,然后请他们推荐具有研究目标总体特征的调查单位。
配额抽样:根据一定标准对总体分层分类后,从各层各类中主管选取一定比例调查单位。
判断抽样:根据经验判断了解的基本情况有目的地选择单位。
统计指标:说明现象总体数量特征的属性。
统计指标体系:若干相互联系的统计指标构成的有机整体。
●统计调查方式:⑴普查:为某特定目专门组织的一次性全面调查。特点:一次性,周期性;规定统一标准调查时间;数据规范化程度较高;适用范围较窄⑵统计报表⑶抽样调查:从总体中随机抽取部分个体作为样本进行调查。特点:经济性,时效性强,适应面广,准确性高。
●调查方案设计:明确调查目的,确定调查对象和单位,确定调查项目,确定调查时间和方法,调查工作的组织实施。
调查问卷设计:引言,被调查者基本情况,问题和答案,结语。问题:⑴开放式问题:优:被调查者有机会进行自我表达或详细描述。缺:开放式要求更高,被调查者须在没有选项帮助情况下确定问题意图;调查机构数据录入较困难;费用更高⑵封闭式:优:答案已设计好,被调查者只需简单地选择合适选项,不需用自己语言陈述答案,回答问题更快更容易;被调查者更可能按设计者希望的意图回答;数据更易分析;编码和数据录入更容易,花费更省;若一问题被用于多项调查,相同回答选项有助于对结果进行比较。
●数据误差分类:抽样、非抽样误差。
●数据预处理:⑴数据审核:检查数据错误。审核准确性:逻辑检查,计算检查⑵数据筛选⑶数据排序。
●统计表:构成:表头,行标题列标题,数字资料,表外附加。注意:总标题简明扼要;上下两端端线粗线绘制,其他线细线,左右两端开口式不划线;数字资料应有计量单位;“合计”置于最后一列;没有数字的单元格用“—”表示;填好的统计表无空白单元格。
●异众比率Vr:非众数组频数占总频数的比率。衡量众数对一组数据代表性程度大小。
Vr=(Σfi-fm)/ Σfi=1-fm/Σfi
●频数:落在某一类别或组中的数据个数。
频率:各类别频数与总频数之比。
累积频数:各类别或组的频数逐级累加得到的频数。
帕累托图:把各类别数据的频数由大到小排序并计算累积频率绘制条线
图。
●极差R:一组数据最大值最小值之差。R=max(xi)-min(xi)
●四分位差Qd:上四分位数与下四分位数之差,亦称内距、四分间距。反映中间50%数据离散程度。衡量中位数代表性。Qd=Q U-Q L
●抽样分布:样本统计量的概率分布。设总体变量X,X1到XN;样本变量x,x1到xn:⑴数学期望:E(x拔)=E[(x1+…+xn)/n]=1/n[E(x1)+…+E(xn)],重复抽样x1到xn相互独立,且都是从X1到XN抽取的,每单位机会相等,概率均为1/N所以E(x1)=…=E(xn)=Σ(上n下i=1)XiPi =μ,E(x拔)=1/n[E(x1)+…+E(xn)]= 1/n(nμ)=μ⑵方差:σ2(x 拔)=σ2[(x1+…+xn) /n]=σ2/n方(x1+…+xn)=1/n2[σ2(x1)+…+σ2(xn)]重复抽样x1到xn相互独立,且都是从X1到XN抽取的,所以xi 与总体同分布σ2(x1)=…=σ2(xn)=σ2,σ方(x拔)= 1/n方(σ2+σ2+…+σ2)=σ2/n,σ2(x拔)=σ/根n。
●大样本:⑴大样本且σ已知:任何服从正态分布的随机变量95%值
在“均值±1.96个标准差”之内。Z=(x拔-μ)/σx拔~N(0,1),P(|z|≤Zα/2)=1-α,P(|x拔-μ|/σx拔≤Zα/2)=1-α,P(|x拔-μ|≤Zα/2σx拔)=1-α,x拔- Zα/2σx拔≤μ≤x拔+ Zα/2σx拔,边际误差Zα/2*σ/根n=E。σ越大,可靠性越低,区间越窄。⑵σ未知:σx拔=s/根n。
●假设:检验为目的对单或多个总体分布或分布中所含参数具体数值所作的陈述。总体参数:总体均值、比例、方差。
假设检验:对总体参数提出某种假设,利用样本信息判断该假设是否成立的方法。采用逻辑上反证法,统计学上小概率原则。
假设检验—古典方法:⑴提出假设:原假设(待检验的假设,又称零假设)、备择假设(与原假设对立的假设,又称研究假设)。备择假设常是研究者搜集证据予以支持的假设,原假设常是研究者搜集证据予以反对的假设⑵确定检验统计量及其分布⑶确定显著性水平及拒绝域:原假设为真时拒绝原假设所犯错位称为I类错误,又叫弃真错误;原假设为假时喂拒绝原假设,II类错误,取伪错误;原假设被拒绝时才可能犯I 错误,未被拒绝时犯II错误。⑷构选取决规则:①双侧检验:|检验统计量|>|检验临界值|拒绝H0,否则不拒绝②左侧检验:统计量<临界值,拒绝H0,否则不拒绝③右侧检验:检验统计量>临界值,拒绝H0,否则不拒绝⑸计算检验统计量值作出决策(不能拒绝)。
●总体均值检验:⑴大样本:根据抽样分布理论,x拔~N(μ,σ2/n),