统计学重点名词解释培训讲学
统计学名词解释
统计学名词解释第一章绪论1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。
2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。
3.个体:构成总体的每个基本单元称为个体。
4.样本:从总体中抽取的一部分个体,称为总体的一个样本。
5.次数:指某一事件在某一类别中出现的数目,又称为频数。
6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。
7.概率:某一事物或某一情在某一总体中出现的比率。
8.观测值:一旦确定了某个值。
就称这个值为某一变量的观测值。
9.参数:又称为总体参数,是描述一个总体情况的统计指标。
10.统计量:样本的那些特征值叫做统计量,又称特征值。
第二章统计图表1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。
一般由表号、名称、标目、数字、表注组成。
2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。
纵轴表示事物出现的次数或因变量,称为数值轴。
一般由图号及图题、图目、图尺、图形、图例、图组成。
3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。
4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。
5.分组次数分布表的编制步骤:(1)求全距(2)定组距和组数(3)列出分组组距(4)登记次数(5)计算次数6.分组次数分布的意义:(1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。
B.可显示一组数据的集中情况和差异情况等。
(2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。
统计学名称解释
第一章一、名词解释1、参数parameter:也叫参变量,是一个变量;如果我们引入一个或一些另外的变量来描述自变量与因变量的变化,引入的变量本来并不是当前问题必须研究的变量,我们把这样的变量叫做参变量或参数;描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值;2、统计量statistic:描述样本特征的数,是统计理论中用来对数据进行分析、检验的变量;3、总体population:根据研究目的确定的研究对象的全体;当研究有具体而明确的指标时,总体是指该项变量值的全体;4、样本 sample:从总体中随机抽取的部分观察单位,总体中有代表性的一部分;5、同质 homogeneity:是指观察单位研究个体间被研究指标的影响因素相同;6、变异 variation:同质事物个体间的差异;来源于一些未加控制或无法控制的甚至不明原因的因素;7、概率 probability:度量随机事件发生可能性大小的一个数值,是一个在0到1之间的实数;8、抽样误差 sampling error:由于抽样所造成的样本统计量与总体参数的差别;三、简答题1、统计学的基本步骤有哪些设计、搜集、整理、分析资料2、总体与样本的区别与关系区别:总体:根据研究目的确定的研究对象的全体;当研究有具体而明确的指标时,总体是指该项变量值的全体;样本:总体中有代表性的一部分;联系:总体包含样本,样本是总体中的一部分3、抽样误差产生的原因有哪些可以避免抽样误差吗产生原因:1总体单位的标志值的差异程度; 差异程度愈大则抽样误差愈大,反之则愈小; 2样本单位数的多少; 在其他条件相同的情况下,样本单位数愈多,则抽样误差愈小;3抽样方法; 抽样方法不同,抽样误差也不相同;一般说,重复抽样比不重复抽样,误差要大些;4抽样调查的组织形式; 抽样调查的组织形式不同,其抽样误差也不相同,而且同一组织形式的合理程度也会影响抽样误差;不可以,它具有不可避免性,只能减少抽样误差4、何为概率及小概率事件概率:度量随机事件发生可能性大小的一个数值,是一个在0到1之间的实数; 小概率事件:统计分析中的很多结论都基于一定置信程度下的概率推断,习惯上将 pA≤或≤称为小概率事件,认为小概率事件在一次试验中不可能发生;第二章第三章1. 正态分布 normal distribution:也叫高斯分布Gaussian distribution,一种最常见、最重要的连续型对称分布正态分布是对称分布,但对称分布不一定是正态分布2. 中位数 median:是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平;3. 四分位数间距 quartile interval:是上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小.即:Q3 --Q14. 方差 variance:样本观察值的离均差平方和的均值;表示一组数据的平均离散情况;反映一组数据的平均离散水平;5. 正偏态分布 positively skewed distribution:也称右偏态分布,右侧的组段数多于左侧的组段数,频数向右侧拖尾6. 负偏态分布 negatively skewed distribution:左偏态分布,左侧的组段数多于右侧的组段数,频数向左侧拖尾7. 对数正态分布 logarithmic normal distribution :对数为正态分布的任意随机变量的概率分布;如果X是正态分布的随机变量,则 exp X为对数分布;同样,如果Y是对数正态分布,则 log Y为正态分布;8. 医学参考值范围 medical reference range:指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围;最常用的是95%参考值范围;三、简答题1. 描述数值变量资料集中趋势的指标有哪些其适用范围有何异同平均数:描述一组变量值的集中位置或平均水平的指标体系;不同的分布使用不同的指标算术均数:正态或近似正态或观察值相差不大的小样本资料几何均数:对数正态分布或等比级数资料中位数:一般偏态分布传染病发病的潜伏期2. 描述数值变量资料离散趋势的指标有哪些其适用范围有何异同反映数据的离散度 Dispersion ;即个体观察值的变异variation程度;常用的指标有:1. 极差Range 全距适用范围:任何计量资料;是参考变异指标2. 百分位数与四分位数间距 Percentile and Quartile range百分位数:适用范围广泛,可用于偏态资料,分布不明的资料和分布两端无确定值的资料四分位数间距:常用于描述偏态分布资料的离散程度,值越大——变异程度越大,中位数与四分位间距一起使用,描述偏态分布资料的特征;3. 方差 Variance正态分布资料4. 标准差Standard Deviation适用范围:均数与标准差经常被同时用来描述正态分布资料的集中和离散趋势;5. 变异系数 Coefficient of Variation适用范围:主要用于单位不同或均数相差悬殊资料3. 医学中参考值范围的涵义是什么确定的步骤和方法是什么医学参考值范围:指绝大多数正常人的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围;最常用的是95%参考值范围;步骤与方法:1. 确定“正常人”对象的范围:即根据研究目的确定的未患被研究疾病的个体;2. 统一测定标准:即检验用的试剂批号、仪器、人员、条件等应相同;3. 确定分组:一般需用年龄、性别等对“正常人”对象进行分组,分组特征也可根据检验判断;4. 样本含量确定:一般来讲,正态分布资料所需的样本含量应在100以上,偏态或未知分布时样本含量应更大;5. 确定参考值范围的单双侧:一般生理物质指标多为双侧、毒物指标则多为单侧;6. 确定百分位点:一般取95%或99%;第四章第五章一、名词解释1 标准误standard error:表示样本统计量抽样误差大小的统计指标,统计上通常将统计量如样本均数、样本率p等的标准差称为标准误;2 可信区间confidence interval:按一定的或1-α用一个区间来估计参数所在的范围,该范围通常称为参数的可信区间或者置信区间confidenceinterval,CI,预先给定的概率1-α称为可信度或者confidencelevel,常取95%或99%;3 假设检验hypothesis testing:利用样本提供的信息判断假设是否成立的统计方法称为统计假设检验;4 统计推断statistical inference:用一个或一系列样本的结果去估计总体可能的结果的过程;包括假设检验和参数估计;5 Ⅰ型错误type I error::“实际无差别,但下了有差别的结论”,假阳性错误;犯这种错误的概率是其值等于检验水准6 Ⅱ型错误type II error:“实际有差别,但下了不拒绝H0的结论”,假阴性错误;犯这种错误的概率是其值未知7 检验效能power of test:当两总体确有差别,按检验水准所能发现这种差别的能力;8 变量变换 variable transformation:也称变量代换,是将原始数据作某种函数转换,如转换为对数值;三、简答题1 假设检验的基本原理和步骤;假设检验过去称显着性检验;它是利用小概率反证法,从问题的对立面H0出发间接判断要解决的问题H1是否成立;然后在H0成立的条件下计算检验统计量,最后获得P值来判断;1. 建立检验假设,确定检验水准选用单侧或双侧检验1无效假设null hypothesis零假设,记为H0;2备择假设又称对立假设,记为H1;2. 计算检验统计量根据变量和资料类型、设计方案、统计推断的目的、是否满足特定条件等如数据的分布类型选择相应的检验统计量;3. 确定P值,下结论;选定显着性水平α的值,P≤α,拒绝H0,接受H1 ,下“有差别”的结论;P>α不拒绝H0,但不能下“无差别”或“相等”的结论,只能下“根据目前试验结果,尚不能认为有差别”的结论;2 标准差和标准误的异同;相同点:都是用来表示变异程度的,均是反映随机误差的;区别:标准差与标准误的意义、作用和使用范围均不同;标准差亦称单数标准差一般用SD 表示,是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标;而标准误一般用SE 表示,反映样本平均数对总体平均数的变异程度,从而反映抽样误差,是量度结果精密度的指标;标准差是最常用的统计量, 一般用于表示一组样本变量的分散程度;标准误一般用于统计推断中,主要包括假设检验和参数估计,如样本平均数的假设检验、参数的区间估计与点估计等;3 参考值范围和置信区间有何区别参考值范围是指具有明确背景资料的参考人群某项指标的测定值,例如医学参考范围指包括绝大多数的正常人的人体形态,功能和代谢产物等,表示值时可能有单侧也可能有双侧,表示方法为正态分布或百分位数法.置信区间是指在做区间的估计时指按一定的概率1-a估计总体参数所在的范围,其中1-a被称为置信度,两者的不同之处在于前者是对于某种指标的估计,后者是对参数的估计;前者用,后者用;前者用,后者用α为,为v的t或u界值;4 t 检验和方差分析的基本思想各是什么二者的区别是什么t 检验假设检验的一种:假设检验的基本思想是小概率反证法思想;小概率思想是指小概率事件P<或P<在一次试验中基本上不会发生;反证法思想是先提出假设检验假设H0,再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立;方差分析的基本思想是根据资料设计的类型及研究目的,可将总变异分解为两个或多个部分,每个部分的变异可由某因素的作用来解释;通过比较可能由某因素所至的变异与随机误差,即可了解该因素对测定结果有无影响;区别:t检验可用于2个样本均数差异的显着性检验,但不适于多组均数的检验;方差分析是判断多组≥3 数据之间均数差异是否显着的一种假设检验方法;5、t 检验和t 检验的应用条件有何异同t 检验:样本含量n较小时如n<601正态分布2方差齐性homogeneity of variance方差分析:总体——正态且方差相等样本——独立、随机6 以随机区组设计的两因素方差分析为例,简述方差分析的基本原理;正态分布且方差齐同的资料,应采用两因素处理、配伍方差分析two-way ANOVA或配对t检验g=21总变异:反映所有观察值之间的变异,记为SS总;2 处理间变异:由处理因素的不同水平作用和随机误差产生的变异,记为SS处理;3 区组间变异:由不同区组作用和随机误差产生的变异,记为SS区组.4 误差变异:由随机误差产生的变异,记为SS误差;对总离均差平方和及其自由度的分解,有:7 可信区间和假设检验的区别和联系;一主要区别:1、可信区间是以样本资料估计总体参数的真值,假设检验是以样本资料检验对总体参数的先验假设是否成立;2、可信区间为双侧,假设检验既有双侧检验,也有单侧检验;3、可信区间立足于大概率,假设检验立足于小概率;二主要联系:1、都是根据样本信息推断总体参数;2、都以抽样分布为理论依据,建立在概率论基础之上的推断;3、二者可相互转换,形成对偶性;可信区间与假设检验各自不同的作用,要结合使用;一方面,可信区间亦可回答假设检验的问题,算得的可信区间若包含了H0,则按水准,不拒绝H0;若不包含H0,则按水准,拒绝H0,接受H1;另一方面,可信区间不但能回答差别有无统计学意义,而且还能比假设检验提供更多的信息,即提示差别有无实际的专业意义;8 配对t 检验与两样本t 检验的基本原理有何不同;配对t 检验适用于配对设计的计量资料;配对设计类型:①两同质受试对象分别接受两种不同的处理;②同一受试对象分别接受两种不同处理;③同一受试对象一种处理前后;两样本t 检验适用于完全随机设计两样本均数的比较,第七章1. 二项分布、Poisson 分布与正态分布间有何关系二项分布:是正态分布的特殊形式,记作X~Bn, ,理论上n→+∞且→则二项分布呈正态分布;在实际应用中,当n较大、np与n1-p均>5, 且有→时,二项分布可看成近似正态分布;Poisson 分布:它是普通二项分布在次数极大,发生机率很小时的极限,记作PX,λ越大则Poisson分布渐近正态分布;实际应用上,λ≥20就可将其看作()~λ是正态分布;第六章分类资料的统计描述一、名词解释1、率rate:是说明某事物或现象发生的频率或强度的指标;2、构成比constituent ratio:是说明某事物内部各组成部分的比重或分布的指标;3、相对比relative ratio:是说明两个有关联的事物间的相对关系的指标;4、标准化率standardized rate:也称调整率,是多组率之间按统一的“标准”进行调整,使之具有可比性的率;5、标化发病比standardized incidence ratio:被标化组实际发病数与预期发病数之比;6、标化死亡比standardized mortality ratio:被标化组实际死亡发病、患病等数与预期死亡发病、患病等数之比;第七章二项分布与Poisson分布及其应用第八章X2检验第九章秩和检验三、简答题1、二项分布、Poisson分布与正态分布间有何关系2、X2检验的应用条件有哪些1四格表的分析方法选择条件:n≥40,T≥5,专用公式;n≥40,1≤T<5,校正公式;n<40或T<1,直接计算概率;X2连续性校正仅用于v=1的四格表资料,当v≥2时,一般不作校正;2配对四格表的分析分析方法选择条件:b+c>40,专用公式;20<b+c≤40,用校正公式;b+c<20,二项分布直接计算概率;3R×C表的分析方法选择条件:1.理论数不能小于1;2.理论数大于等于1小于5的格子数不超过总格子数的1/5;3.否则用Fisher确切概率,或似然比检验;4.如果以上条件不能满足,可采用:增加样本含量;删去某行或某列;合理地合并部分行或列;Fisher精确概率法;5.多个率或构成比比较的X2检验,结论为拒绝H0时,仅表示几组有差别,并非任两组之间都有差别;若要了解之,可进行多重比较:X2表的分割或率的可信区间法;6.对于有序的分类变量,采用X2检验方法不能考虑数据的有序性质;为此,对于单向有序可采用秩和检验、Ridit分析,双向有序可采用趋势检验等;3、X2检验用于解决哪些问题1推断两个总体率或构成比之间有无差别2多个总体率或构成比之间有无差别3多个样本率的多重比较4两个分类变量之间有无关联性4、四格表的u检验与X2检验有何异同二者的相同点:1.四格表u检验是根据正态近似的原理np,n1-p>5,n充分大,凡是能用u检验的都可以用卡方检验,u2=x2ν=1;2.两者都有连续性校正问题;二者的不同点:1.由于正态分布可确定单双侧检验界值,当满足正态分布近似条件时,可使用u检验进行单侧检验;2.满足四格表U检验的资料,计算两率间的95%可信区间,尚可分析两率之差有无实际意义;检验可用于2×2列联表资料有无关联的检验5、请列举R×C表X2检验的注意事项;1注意对T值大小的要求:要求T<5的个数不能超过1/5,且不能有T<1;如果不符可选用以下方法处理:1.增加样本例数;2.相邻行列例数进行合理地合并;3.删去理论数小的行或列;4.确切概率法;(2)注意多组比较结果如为差别有显着性,并不代表每两组差别有显着性,如需分析可进一步作两两比较;(3)注意有序行×列表资料不宜采用X2检验,因为X2检验与分类变量的顺序无关;。
统计学名词解释
统筹学统计学:是一门搜集、整理、显示和分析统计数据的方法论科学。
总体:就是统计所要研究的事物或现象的全体,即由客观存在的,具有某种共同特征的许多个别事物构成的整体。
参数:是描述总体数量特征的指标,又称总体指标。
样本:是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。
变量:指给所要研究的事物起的名字,包括可变的标志和所有的统计指标。
总体参数:描述总体数量特征的指标,又称总体指标。
样本统计量:是根据样本数据计算出来的样本指标,用来描述样本的数量特征。
普查:为某一特定目的而专门组织的一次性全面调查。
抽样调查:是按随机原则,从总体中抽选部分单位进行观察,并根据部分单位(样本)的调查数据,从数量方面推断总体参数的一种非全面调查。
统计分组:根据被研究现象总体的内在特点以及统计研究的目的,将总体按照一定的标志分为若干个性质不同的组成部分的一种统计方法。
统计表:指显示统计整理结果的表格,就是把通过整理的调查数据,使其成为得以说明现象总体数量特征的分组数据,并按一定顺序排列而形成的表格。
时期数据:反映现象总体在一段时期内发展变化总结果的总量指标。
时点指标:反映现象总体在某一的点(瞬间)上所处状况的总量指标。
众数:是一组数据中出现次数最多的变量值。
时间序列:将反映某种现象的统计指标在不同时间上的数值,按时间顺序排列而成的序列。
发展水平:时间序列中的每一项指标数值,都称为发展水平,它反映了某种现象在一定时期或时点所达到的规模和水平。
平均发展水平:将不同时间的发展水平加以平均而得到的平均数。
发展速度:是反映现象发展变化快慢程度的动态相对指标,是根据两个不同时期的发展水平对比求得的。
环比发展速度:是时间序列中报告期发展水平与前期发展水平之比,表明现象逐期发展变化的方向和程度。
定基发展速度:是报告期发展水平与某一固定时期发展水平(最初发展水平)之比,说明现象在较长时期内总的发展变动方向与程度。
年距发展速度:反映报告期发展水平对于上年同期发展水平的变化方向与程度。
统计学名词解释
名词解释1.统计学:是应用概率论和数理统计的基本原理和方法,研究数据的收集、整理、分析、表达和解释的一门科学。
2.医学统计学:是应用统计学的基本原理和方法,研究医学及其有关领域数据信息的搜集整理、分析、表达和解释的一门科学。
3.抽样:是从研那个研究总体抽取少量有代表性的个体,称为抽样。
4.统计推断:是根据已知的样本信息来推断未知的总体,是统计分析的目的,包括参数估计和假设检验。
5.总体:是根据研究目的确定的同质研究对象的全体。
6.概率:是随机事件发生可能性大小的数值度量。
7.同质:是指所研究的观察对象具有某些相同的性质或特征。
8.变异:是同质个体的某项指标之间的差异,即个体差异。
9.正态分布:频数分布的高峰在中间,两端基本对称,逐步减少,这种分布称为近似正态分布,如果两端完全对称则称为正态分布。
10.医学参考值范围:又称正常值范围,医学上常将包括绝大多数正常人的某指标值的波动范围称为该指标的正常值范围。
11.动态数列(dynamic series):是按照一定的时间顺序,将一系列描述某事物的统计指标依次排列起来,观察和比较该事物在时间上的变化和发展趋势,这些统计指标可以为绝对数、相对数或平均数。
12.人口金字塔:将人口的性别与年龄资料结合起来以图形的方式表达人口的性别与年龄结构,以年龄为纵轴,人口百分比为横轴,左侧为男,右侧为女,两个对应的直方图,其形似金字塔。
13.负担系数(dependency ratio):又称抚养比或抚养系数,是指人口中非劳动年龄人数与劳动年龄人数之比。
14.标准化死亡比(SMR):实际死亡人数与期望死亡人数之比称为标准化死亡比。
15.统计图:是用点的位置、线段的升降、直条的长短和面积的大小等来表达数据的一种形式。
16.半对数线图(semi-logarithmic linear chart):横轴是算数尺度,纵轴是对数尺度,使线图上的数量关系变为对数关系。
适用于描述某项指随某个连续型数值变量变化而变化的速度(相对变化趋势)。
统计学名词解释 (超全)
统计学:是一门搜集、整理、显示和分析统计数据的方法论科学。
总体:就是统计所要研究的事物或现象的全体,即由客观存在的,具有某种共同特征的许多个别事物构成的整体。
参数:是描述总体数量特征的指标,又称总体指标。
样本:是指从统计总体中抽取出来作为代表这一总体的、由部分个体组成的集合体。
变量:指给所要研究的事物起的名字,包括可变的标志和所有的统计指标。
总体参数:描述总体数量特征的指标,又称总体指标。
样本统计量:是根据样本数据计算出来的样本指标,用来描述样本的数量特征。
普查:为某一特定目的而专门组织的一次性全面调查。
抽样调查:是按随机原则,从总体中抽选部分单位进行观察,并根据部分单位(样本)的调查数据,从数量方面推断总体参数的一种非全面调查。
统计分组:根据被研究现象总体的内在特点以及统计研究的目的,将总体按照一定的标志分为若干个性质不同的组成部分的一种统计方法。
统计表:指显示统计整理结果的表格,就是把通过整理的调查数据,使其成为得以说明现象总体数量特征的分组数据,并按一定顺序排列而形成的表格。
时期数据:反映现象总体在一段时期内发展变化总结果的总量指标。
时点指标:反映现象总体在某一的点(瞬间)上所处状况的总量指标。
众数:是一组数据中出现次数最多的变量值。
时间序列:将反映某种现象的统计指标在不同时间上的数值,按时间顺序排列而成的序列。
发展水平:时间序列中的每一项指标数值,都称为发展水平,它反映了某种现象在一定时期或时点所达到的规模和水平。
平均发展水平:将不同时间的发展水平加以平均而得到的平均数。
发展速度:是反映现象发展变化快慢程度的动态相对指标,是根据两个不同时期的发展水平对比求得的。
环比发展速度:是时间序列中报告期发展水平与前期发展水平之比,表明现象逐期发展变化的方向和程度。
定基发展速度:是报告期发展水平与某一固定时期发展水平(最初发展水平)之比,说明现象在较长时期内总的发展变动方向与程度。
年距发展速度:反映报告期发展水平对于上年同期发展水平的变化方向与程度。
统计学名词解释
名词解释:1、分类数据:是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表示的。
(P5)2、四分位数:也称四分位点,它是一组数据排序后处于25%和75%位置上的值。
(P89)3、方差分析:是通过检验个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。
(P264)4、相关系数:是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
(P304)5、居民消费价格指数:是度量居民消费品和服务项目价格随时间变动的相对数,反映居民家庭购买的消费品和服务价格水平的变动情况。
(420)6、顺序数据:是只能归于某一有序类别的非数字型数据。
(P6)7、抽样误差:是由于抽样的随机性引起的样本结果与总体真值之间的误差。
(P33)8、离散系数:也称变异系数,它是一组数据的标准差与其相应的平均数之比。
计算公式为:(P103)1.v s= s/⎺x9、置信区间:在区间估计中,由样本统计量所构成的总体参数的估计区间。
(P177)10、点估计:用样本统计量^θ的某个取值直接作为总体参数θ的估计值。
(P176)11、系统抽样:将总体中的所有单位(抽样单位)按一定的顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按后按事先规定好的规则确定其他样本单位。
(P19)12、中心极限定理:设从均值为μ、方差为σ2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值⎺X的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。
(P165)13、回归模型:描述因变量y如何依赖于自变量x和误差项的方程。
对于只涉及一个自变量的一元线性回归模型可表示为y=β0+β1x+ε。
(P308)14、指数平滑法:是通过对过去的观察值加权平均进行预测的一种方法,该方法是t+1期的预测值等于t期的实际观察值与t期的预测值的加权平均值。
(P378)15、非概率抽样:是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
统计学名词解释
抽样平均误差:是指所有可能出现的样本的样本指标的标准差,也可以说是所有可能出现的样本指标和总体指标的平均离差。
总量指标:是反映社会经济现象在一段时间、地点、条件下的总规模或总水平的统计指标。
也称绝对指标或绝对数。
平均指标:平均指标是说明同质总体内某一数量标志在一定历史条件下一般水平的综合指标。
不变价格:是在综合不同的产品产量并反映他们的总动态时,为了消除不同时期价格变动的影响所用的固定价格。
指数:广义:指一切说明社会经济现象数量变动或差异程度的相对数。
狭义:指一种特殊相对数,也即专指不能直接相加和对比的复杂社会经济现象综合变动程度的相对数。
置信区间:统计上把这个给定的抽样误差范围叫做抽样极限误差,也称置信区间(抽样误差范围:变动的的抽样指标与确定的全及指标之间离差的可能范围)发展水平:在动态数列中,各项具体的指标数值叫发展水平或动态数列水平。
它反映社会经济现象在不同时期所达到的水平,是计算其他动态分析指标的基础。
长期趋势:就是研究某种现象在一个相当长的时期内持续向上或向下发展变动的趋势。
抽样推断:按已经抽定的样本指标(样本平均数或样本成数)来估计总体指标(总体平均数或总体成数),或其所在的区间范围。
抽样调查:按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。
质量指标:指反映现象总体的社会经济效益和工作质量的各种相对指标和平均指标。
标准差系数:根据标准差与算术平均数对比的离散系数。
数量指标:指说明总体规模和水平的各种总量指标。
相对指标:又称相对数,它是两个有联系的指标数值对比的结果。
用来对比的两个数,既可以是绝对数,也可以是平均数和相对数。
估计标准误差:就是用来说明回归方程推算结果的准确程度的统计分析指标,或者说是反映回归直线代表性大小的统计分析指标。
指数体系:是由三个或三个以上有联系的指数所组成的数学关系式。
统计学名词解释汇总
统计学名词解释汇总(总9页) -CAL-FENGHAI.-(YICAI)-Company One1-CAL-本页仅作为文档封面,使用请直接删除1什么是统计学统计方法可分为哪两大类统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
方法有描述统计和推断统计两类2统计数据可分为哪几种类型不同类型数据各有什么特点按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。
它也是有类别的,但这些类别是有序的。
(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。
统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。
实验数据:在实验中控制实验对象而收集到的数据。
统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。
时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。
3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
4什么是有限总体和无限总体?举例说明有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。
无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体5变量可分为哪几类?变量可以分为分类变量,顺序变量,数值型变量。
统计学名词解释
统计学名词解释1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学2.描述统计:研究数据收集、处理、汇总、图标描述、概括与分析等统计方法3.推断统计:研究如何利用样本数据来推断总体特征的统计方法4.分类数据:只能归于某一类别的非数字型数据5.顺序数据:只能归于某一有序类别的非数字型数据6.数值型数据:按数字尺度测量的观察值7.观察数据:通过调查或观测收集到的数据8.实验数据:实验中控制实验对象而收集到的数据9.截面数据:在相同或近似相同的时间点上收集的数据10.时间序列数据:在不同时间收集的数据11.样本:从总体中抽取的一部分元素的集合12.样本量:构成样本元素的数目13.参数:用来描述总体特征的概括性数字度量14.统计量:用来描述样本特征的概括性数字度量15.变量:说明现象某种特征的概念16.离散型变量:只能取可数值的变量17.连续性变量:可以在一个或多个区间中取任何值的变量18.概率抽样:(随机抽样)遵循随机原则进行的抽样,总体中每个单位都有一定机会被选入样本19.抽样框:包括所有形体单位信息20.分层抽样:将抽样单位按某种特征或者某种规则划分为不同的层,从不同层中独立、随机抽取样本21.整群抽样:将总体中若干单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查22.系统抽样:将总体中所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位23.非概率抽样:抽取样本时根据研究目的对数据的要求采取某种方式从总体中抽取部分单位对其实施调查24.抽样误差:抽样的随机性引起的样本结果与总体真值之间的误差25.累积频数:将各有序类别或组的频数逐级累加起来得到的频数26.集中趋势:一组数据向某一中心值靠拢的程度27.自由度:样本个数减128.统计量:样本构造函数,不依赖于任何未知参数,此函数为一个统计量29.次序统计量:30.充分统计量:对样本加工处理过程中信息部损失的统计量31.抽样分布:在总体分布类型已知时,若对任一自然数n都能到处统计量的分布数学表达式32.中心极限定理:33.估计量:用来估计总体参数的统计量34.估计值:根据一个具体的样本计算出来的估计量的数值35.点估计:用样本统计量的某个取值直接作为总体参数的估计值36.区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到37.置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间38.置信水平:(置信系数)若果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例。
统计学名词解释
统计学名词解释
①Ⅰ类错误:当拒绝H0时,可能犯错误;拒绝一个正确的H0所犯的
错误,称为Ⅰ类错误,其概率为α。
(拒真错误)
②Ⅱ类错误:当接受H0时,可能犯错误;接受一个错误的H0所犯的错
误,称为Ⅱ类错误,其概率为β。
(存伪错误)
③独立事件:一个事件是否发生不影响另一事件的发生。
④概率:是描述随机事件出现可能性的大小的统计指标。
⑤小概率事件:概率小于或等于5%的随机事件;通常情况下,在一
次随机抽样中不可能出现。
⑥随机样本:按照概率的规律抽取的样本。
(不由个人意志所决定的,)
⑦抽样误差:样本统计量与总体参数之间总会存在一定差距,而这种
差距是由于抽样的随机性所引起的。
⑧标准误:是样本统计量分布的标准差,用来衡量抽样误差的大小。
⑨参数检验:根据样本统计量去估计对应总体的参数
⑩假设检验:又称显著性检验,是用样本差异大小去估计总体之间是否存在差异。
区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围。
四分位差:
完全随机化设计:被试通过随机抽取并被随机分配到各个实验条件下进行实验的设计形式。
随机区组设计:将特征相似的被试分为一组,称为区组。
随机让每个区组接受一种实验的设计形式。
相关系数:表示两列量数之间的线性相互关系(程度)
决定系数:回归分析中衡量回归方程有效性高低指标,是回归平方和在离差平方和所占的比例。
(完整版)统计学名词解释
统计学名词解释第一章绪论1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。
2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。
3.个体:构成总体的每个基本单元称为个体。
4.样本:从总体中抽取的一部分个体,称为总体的一个样本。
5.次数:指某一事件在某一类别中出现的数目,又称为频数。
6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。
7.概率:某一事物或某一情在某一总体中出现的比率。
8.观测值:一旦确定了某个值。
就称这个值为某一变量的观测值。
9.参数:又称为总体参数,是描述一个总体情况的统计指标。
10.统计量:样本的那些特征值叫做统计量,又称特征值。
第二章统计图表1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。
一般由表号、名称、标目、数字、表注组成。
2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。
纵轴表示事物出现的次数或因变量,称为数值轴。
一般由图号及图题、图目、图尺、图形、图例、图组成。
3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。
4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。
5.分组次数分布表的编制步骤:(1)求全距(2)定组距和组数(3)列出分组组距(4)登记次数(5)计算次数6.分组次数分布的意义:(1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。
B.可显示一组数据的集中情况和差异情况等。
(2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。
统计学名词解释
名词解释1.备择假设(alternative hypothesis):与原假设逻辑上反面的假设。
2.标准分数(standard score):也称标准化值或分数,它是变量值与其平均数的离差除以标准差后的值。
3.残值(residual):因变量的观测值y i与根据估计的回归方程求出的预测值y i之差,用e表示。
对于第i个观测值,残差为e i=y i-y i。
4.α错误(αerror):原假设为真却在检验中将原假设被拒绝,又称弃真错误或者第一类错误(type I error),用α表示其概率。
5.β错误(βerror)原假设为伪却在检验中未拒绝的原假设,又称取伪错误或者第二类错误(type II error),用β表示其概率。
6.对照组(control group):随记选取的实验对象的子集。
在这个子集中,每个单元不接受实验组成员所接受的某种特别的处理。
7.多重共线性(multicollinearity)回归模型中两个或两个以上的自变量彼此相关。
8.多重判定系数(multiple coefficient of determination)回归平方和占总平方和的比例,反映因变量y取值的变差中,能被估计的多元回归方程所解释的比例。
9.峰态(kurtosis)对数据分布平峰或尖峰的程度的测度。
10.假设检验(hypothesis testing)根据样本信息,对提出的命题进行检验的一套程序和方法。
11.离散系数(coefficient variation)也称变异系数,一组数据的标准差与其相对应的平均数之比,是测度数据离散程度的相对值。
12.拟合优度实验(goodness of fit test)对多个总体比例是否等于其期望概率的检验。
当期望概率相同时,表现为对多个总体的比例是否相等的检验。
13.偏态(skewness)对数据分布对称性的测度。
14.异众比率(variation ratio)非众数组的频数占总频数的比例。
统计学名词解释与重点
統計學名詞解釋與重點1.名義變數:只用來判定類別,數字不是用來比較大小的變數,如:0、1分別代表男、女。
P8[1] P3[2]2.次序變數:可用來判定類別、比較大小、優劣,但不能衡量彼此間的差距,如:考試名次。
P8[1] P3[2]3.等距變數:可用來判定類別、比較大小,還可算出差距。
如:溫度差。
P9[1] P3[2]4.比率變數:可用來判定類別、比較大小、算出差距,還可表示比例關係,如:60cm是30cm的兩倍。
P9[1] P3[2]5.莖葉圖(枝葉圖):在直方圖中長方形之內代入實際數字,兼具數字和圖形的優點,可以使我們看到資料的次數分配圖形而不致喪失原有的訊息,亦即可以將資料復原。
P25[1] P7[2]6.集中量數:描述所搜集到的資料裡各分數之集中情形的最佳代表值,也是描述一個團體中心位置的一個數值。
P34[1]△7.變異量數(離中量數):表示團體中各分數之分散情形的統計數,即用來表示個別差異大小的指標。
P53[1]8.變異係數:標準差的大小與平均數大小相比起來是佔平均數的多少百分比。
CV=SD*100/M。
P67[1]9.相對地位量數:描述一個人在其所處團體中與別人比較起來,或與某一參照點比較起來,佔在什麼地位。
P73[1]10.線性轉換:原始分數X減去其平均數,再除以標準差。
這種轉換過程叫做線性轉換。
P29[2]11.常態分配:常態分配是指一般值較多見,異常值較少見的分配,形狀如鐘形。
P35[2] △12.常態化T分數(Normalized T Score):經過常態化的標準分數,其平均數為50,標準差為10,T=10z+50。
P92[1]△13.偏態(Skewness):大部份的分數落在平均的一邊,呈非對稱性分佈。
正偏態g1>0,負偏態g1<0。
P106[1]14.峰度:次數分配較常態分配曲線平坦者,為低闊峰分配g2<0。
較常態分配曲線為尖峻,但兩端之分數又較多者,為高狹峰分配g2>0。
统计学名词解释
统计学名词解释1.标志:说明总体单位特征或属性的名称;指标:是反映社会经济现象总体数量特征的概念和具体数值。
2.统计调查:是根据统计研究预定的目的和任务,运用各种科学的调查方法,有计划、有组织地向调查对象搜集各种真实、可靠的原始资料的工作过程。
3.统计分组:就是根据统计研究的需要,将统计总体按照一定的标志区分为若干个组成部分的一种统计方法。
4.相对指标:就是将两个有直接联系的指标数值对比形成的一种比率,是用来反映现象之间数量对比关系和联系程度的综合指标。
5.标志变异指标:又称标志变动指标,它是综合地反映社会经济现象总各单位标志值之间差异程度的综合指标。
6.动态数列:它是指各个不同时间的社会经济统计指标,按照时间先后顺序排列而形成的数列。
7.平均发展水平:对各个不同时间上的指标数值求平均数,将指标在各个时间上表现的差异加以抽象,以一个数值来代表现象在这一段时间上的一般发展水平。
8.综合指数:是两个总量指标对比形成的指数。
9.平均发展速度:是各个时期环比发展速度的序时平均数,说明社会经济现象的较长时期内速度变化的平均程度。
10.次数分布数列:在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位中各个单位在各组间的分布。
11.统计分组的作用:(1)区分社会经济现象的类型;(2)反映社会经济总体的内部结构;(3)反映社会经济现象的依存关系。
12.总量指标的作用:(1)总量指标是认识社会经济现象总体的起点;(2)总量指标是进行科学管理的依据;(3)总量指标是计算相对指标和平均指标的基础,也是反映社会经济活动绝对效果的工具。
13.相对指标的作用:(1)进行数量指标分析,就可以充分反映社会经济现象之间的联系程度、发展速度、有助于鉴别好坏,分析其效益;(2)它是一个抽象化的数值,所以他能深入、概括的说明总量指标所不能反映的问题,便于比较和分析事物。
14.动态数列的编制原则:最基本的原则是保证数列中各个指标数值之间的可比性。
(完整)统计学名词解释
名词解释:医学统计学:用统计学的原理和方法研究生物医学问题的一门学科.变量(variable ):观察单位的某项特征变量值(value of variable ):变量的观察结果(测量值)总体(population ):是根据研究目的确定的同质的观察单位的全体,确切的说是同质的所有的观察单位某种变量值的集合。
样本(sample)从总体中随机抽取部分由代表性的观察单位,其测量值的集合称为样本。
随机抽样(random sample ):按随机化原则从总体中抽取部分观察单位的过程。
同质(homogeneity ):是针对被研究指标来讲,其影响因素相同.简单地理解就是指对研究指标影响大约可以控制的主要因素应尽可能相同。
变异(variation):指在自然地状态下,个体测量结果在同质基础上的差异。
等级资料(ordinal data ):将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位称为等级资料,如患者的治疗结果可分为治愈,好转,有效,无效,死亡.有序变量(定性变量的一种)。
概率(probability):是度量某一随机事件A 发生可能性大小的一个数值,记为P (A ),P (A )越大,说明A 事件发生的可能性越大,0〈P(A)<1,小概率事件.频率(frequency ):在相同的条件下,独立重复做n 次实验,事件A 出现了m 次,比值m/n 称为随机事件A 在n 次实验中出现的频率。
随机误差(random error):排除了系统误差后的尚存的误差,受多种因素影响,使观察值不按照方向性和系统性而随机的变化,误差变量一般服从正态分布,可以通过统计处理来估计.系统误差(system error ):由于受试对象,研究者,仪器设备,研究方法等非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差,可以避免.随机变量(random variable ):是指取值不能事先确定的观察结果,不能用一个正常数来表示,每个变量的取值服从特定的概率分布。
统计学名词解释与重点(2)
统计学名词解释与重点(2)统计学名词解释与重点25、中心极限定理:设从均值为,方差为(有限)的任意一个总体中抽取样本量为n的样本,当n充分大是,样本均值X的抽样分布近似服从均值为,方差为/n的正态分布。
26、区间估计:是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
27、置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,区间的最小值称为置信下限,最大值称为置信上限。
28、置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数针织的次数所占的比例称为置信水平,为成为置信度或置信系数。
29、评估估计量的标准:无偏性(小样本中)、有效性(小样本中)、一致性(大样本中)。
无偏性:估计量抽样分布的数学期望等于被估计的总体参数。
有效性:对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。
一致性:随着样本量的增大,点估计量的值越来越接近被估计总体的参数。
30、t分布:类似正态分布的一种对称分布,通常要比正态分布平摊和分散。
一个特定的t分布依赖于称之为自由度的参数。
随着自由度的增大,t分布也逐渐趋于正态分布。
31、匹配样本:一个样本中的数据与另一个样本中的数据相对应。
32、错误(弃真错误):原假设H0为真却被我们拒绝了,烦这种错误的概率用表示33、错误(取伪错误):原假设为伪我们却没有拒绝,犯这种错误的概率用表示。
34、P值:当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
P值越小,我们拒绝原假设的理由越充分。
统计学名词解释2017-04-09 08:52 | #2楼1、统计学是收集、分析、表述和解释数据的科学。
2、社会统计方法是指搜集、整理与分析资料的研究技术或手段。
3、大量观察是就总体中足够多的单位进行调查和综合分析,用以反映社会总体的数量特征,大量观察法是统计调查阶段的重要方法。
4、统计按其内容主要包括两个方面:描述统计和推断统计。
统计学重点名词解释
什么叫因素或因子:所要检验的对象。
因素的不同表现成为水平或处理,每个因子水平下得到的数据称为观察值。
无偏性:估计量抽样分布的数学期望等于被估计的总体参数。
有效性:对同一总体参数的两个无偏估计量,有更小估计差得估计量更有效。
一致性:随着样本量的增大,点估计量的值越来越接近被估总体的参数。
原假设:提出一个或两个参数是否等于或大于、小于某个特殊值的命题。
备择假设:与原假设逻辑相反的假设。
点估计:就是用样本统计量的某个取值直接作为总体参数的估计值。
区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减误差得到。
置信水平:将构造置信区间的步骤重复很多次,置信区间包括总体参数真值的次数所占的比例。
方差分析就是通过检验个总体的均值是否相等来判断分类自变量对数值型因变量是否有相助影响假设检验:利用样本信息,对提出的命题进行检验的一套程序和方法。
显著性水平:是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险单因素方差分析:研究一个分类型自变量同数值型自变量之间关系的一种统计方法。
离散系数:也称为变异系数,一组数据的标准差与其相应的平均数之比,是测度数据离散程度的相对值。
离散程度:它反映的是各变量值远离其中心值的程度。
统计学:收集、处理、分析、解释数据并从数据中得到结论的科学。
统计量:描述样本特征的概括性数字度量。
误差的控制主要方法有:改变样本容量、构造不同的抽样框、注意问卷中得措辞方式以及对调查过程的质量控制。
估计量:用来估计总体参数的统计量的名称。
根据一个具体样本计算出来的估计量数值称为估计值。
抽样调查的作用:应用范围广、调查结果准确可靠、调查速度快、节省调查费中位数:将所研究的总体中的各单位标志值按大小顺序排列,位于中点位置的那个标志值就是中位数小概率原理:是指在发生概率很小的随机事件再一次试验中几乎是不可能发生的。
根据这一原理可以做出是否拒绝原假设的决定。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学重点名词解释
1、数据类型:
分类数据:只能归于某一类别的非数字型数据,它是对事物进行匪类的结果,数据表现为类别,是用文字来表述。
(定性数据或品质数据)
顺序数据:只能归于某一有序类别的非数字型数据。
有类别,但类别是有序的。
(定性数据或品质数据)
数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。
现实中所处理的大多数都是数值型数据。
(定量数据或数量数据)
2、截面数据:在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况。
3、总体:是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成。
可分为有限总体和无限总体。
4、样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。
5、参数(对应总体)是用来描述总体特征的概括性数字度量,是研究者想要了解总体的某种特征值。
6、统计量(对应样本)是用来描述样本特征的概括性数字度量。
是根据样本数据计算出来来的一个量,由于抽样时随机的,因此统计量是样本的函数。
7、调查方法:普查,抽样调查,统计报表
8、抽样采集数据的方式分为概率抽样和非概率抽样。
9、概率抽样:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样。
10、非概率抽样:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样。
11、搜集数据的基本方法:自填式、面访式、电话式
12、数据的误差:抽样误差和非抽样误差
抽样误差:是有抽样的随机性引起的样本结果与总体真值的误差。
非抽样误差:相对抽样误差而言的,初抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。
13、集中趋势:一组数据向某一中心值靠拢的程度,反映了一组数据中心点的位置所在
14、众数(分类数据):是一组数据中出现次数最多的变量值,用M
表示。
众数主要用于测度分类数据的集中趋势,当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。
众数是一个位置代表值,他不受数据中极端值的影响。
从分布的角度看,众数是具有明显集中区试点的数值,一组数据分布的最高峰点所对应的数值即为众数。
15、中位数(顺序数据):一组数据排序后处于中间位置上的变量值,用M
e 表示。
中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不是用于分类数据。
中位数是一个位置代表字号,特点是不受极端值的影响,在研究收入分配时很有用。
16、四分位数(顺序数据):也称四分位点,是一组数据排序后处于25%(下四分位数)和75%(上四分位数)位置上的值。
四分位数是通过3个点将全部数据等分为4部分,每部分包含25%的数据。
17、平均数也称均值,是一组数据相加后除以数据的个数得到的结果。
18、异众比率:非众数组的频数占总频数的比例,用V
表示。
异众比率主要用
r
于衡量众数对一组数据的代表程度。
异众比率越大,说明非众数组的频数占总聘书的比重约达,众数的代表性越差,越小,说明占总频数的比重越小,众数
的代表性越好。
主要是和测度分类数据的离散程度,对于顺序数据以及数值型数据也可以计算异众比率。
19、极差:一组数据的最大值与最小值只差成为极差,也称全距,用R表示。
20、平均差:也称平均绝对利差,是各变量值与其平均数离差绝对值的平均
表示。
数,用M
d
21、标准分数:变量值与其平均数的离差除以标准差后的值成为标准分数,也称标准化值或Z分数。
22、相对离散程度:离散系数:也成为变异系数,是一组数据的标准差与其相应的平均数之比。
离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。
离散系数大,说明数据的离散程度也大;小,说明数据的离散程度也小。
23、偏态:是对数据分布对称性的测度。
测度偏态的统计量是偏态系数,记作SK。
如果分布式对称的,则偏态系数等于0。
大于1或小于-1,成为高度偏态分布,在0.5-1或-1到--0.5,被认为是中等偏态分布;越接近0,偏斜程度越低。
0.4表示右偏,偏斜程度不大。
SK为正值时,表示正离差值较大,可以判断为正偏或右偏;负值时,表示负离差值较大,判断为负偏或左偏。
数值越大,偏斜程度越大。
24、峰态:是对数据分布平峰或尖锋程度的测度。
测度峰态的统计量是峰态系数。
峰态通常是与标准正态分布相比较而言的。
服从标准正态分布,峰态系数的值等于0;不等于0,表明分布比正态分布更平或更尖,通常称为平峰分布或尖峰分布。
当K>0,尖峰分布,数据的分布更集中;小于0,扁平分布,数据的分布越分散。
25、中心极限定理:设从均值为μ,方差为2σ(有限)的任意一个总体中抽取样本量为n的样本,当n充分大是,样本均值X的抽样分布近似服从均值为μ,方差为2σ/n的正态分布。
26、区间估计:是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。
27、置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,区间的最小值称为置信下限,最大值称为置信上限。
28、置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数针织的次数所占的比例称为置信水平,为成为置信度或置信系数。
29、评估估计量的标准:无偏性(小样本中)、有效性(小样本中)、一致性(大样本中)。
无偏性:估计量抽样分布的数学期望等于被估计的总体参数。
有效性:对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。
一致性:随着样本量的增大,点估计量的值越来越接近被估计总体的参数。
30、t分布:类似正态分布的一种对称分布,通常要比正态分布平摊和分散。
一个特定的t分布依赖于称之为自由度的参数。
随着自由度的增大,t分布也逐渐趋于正态分布。
31、匹配样本:一个样本中的数据与另一个样本中的数据相对应。
32、α错误(弃真错误):原假设H
为真却被我们拒绝了,烦这种错误的概率
用α表示
33、β错误(取伪错误):原假设为伪我们却没有拒绝,犯这种错误的概率用β表示。
34、P值:当原假设为真时所得到的样本观察结果或更极端结果出现的概率。
P 值越小,我们拒绝原假设的理由越充分。