统计学:以Excel为分析工具
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、统计总体:凡是客观存在、在某一共同性质基础上结合起来的许多个别事物的整体。分类:有限总体、无限总体;特点:同质性、大量性、变异性
2、在统计研究过程中,统计研究的目的和任务居于支配和主导地位,是考虑问题的出发点。
3、样本按照一定的概率从总体中抽取并作为总体代表的一部分总体单位的集合体
4、统计总体单位:构成统计总体的个别单位。总体和总体单位的关系:整体同个体、集合同元素的关系,相互依存、相互联系,它们的关系不是一成不变的,随着研究目的的变动,二者可以相互转化
5、标志:是指说明总体单位特征的名称。分类:数量标志、品类标志;不变标志、可变标志
6、指标:说明现象总体特征的概念或范畴。分类:总量指标(绝对数)、相对指标(相对数,两个绝对数之比)、平均指标(平均数、均值)。设计要求:(1)要素完整(2)指标名称必须有科学的理论依据(3)要明确统计指标的计算口径和范围(4)要有科学的计算方法
7、指标和标志:区别:标志是说明总体单位特性的,指标是说明总体特征的;标志中的数量标志可以用数值表示,而品质标志不可以用数值表示。所有的统计指标都是用数值表示。联系:有些统计指标的数值是在总体单位的数量标志值基础上直接汇总得到的;在一定条件下,二者可以相互转化。
8、指标体系:指由若干相互联系的统计指标构成的有机整体。设计的基本要求:(1)科学性(2)目的性(3)全面性(4)统一性(5)可比性(6)核心性(7)可行性(8)互斥性
9、参数:描述总体特征的概括性数字度量
10、统计量:描述样本特征的概括性数字度量
11、数据的计量尺度由低到高分层:(1)名类尺度(品质标志)(2)顺序尺度(3)区间尺度(4)比尺度
12、数据类型:(1)按计量尺度分(2)按数据的收集方式分(3)按数据的时间关系分
13、变量:表示现象某种特征的概念(标志、指标)。具体表现称为变量值(统计标志的标志表现和指标数值)。分类:品质变量、数量(数字)变量——离散变量(取值有限)、连续变量——取值无穷
1、问卷格式:(1)开头部分(问候语、填表说明、问卷编号)(2)甄别部分(过滤)(3)主体部分(核心部分,问题和答案)(4)背景部分
2、问卷设计标准:(1)能有效地用来收集数据,同时尽可能减少误差和矛盾(2)对被调查者有友好界面(3)尽量减少由无回答所引起的追踪回访的数量,且便于数据编码和录入,从而尽量减少审核与插补工作量,最终减少收集和处理数据所花的费用和时间
3、问卷的开发程序:(1)向数据用户对象进行咨询(2)参考以前相同主题的问卷(3)起草问题(4)对问卷进行审议与修改(5)对问卷进行测试与修改(认知法、焦点座谈、非正式测试、向被调查者了解情况、向访员了解情况、分裂样本测试、试试点调查)(6)定稿
4、问题措辞应注意的问题:(1)简单(2)易懂(3)针对性(4)具体性和充分性(5)避免含糊歧义重复(6)避免诱导性问题(7)避免使用双重否定(8)减少敏感问题或隐私问题的影响(每个人法、为回答辩护技巧、即使一次技术、系列问题或热身法、设立档次)(9)确保问题读来顺口
5、问卷问题类型:(1)开放性问题(2)封闭式问题
数据的预处理是数据分组整理的先前步骤,内容包括数据的审核(首先)、插补、筛选、排序等
1、审核:应用各种检查规则来辨别缺失、无效、不一致的录入。目的:更好地了解调查过
程、调查数据,确保调查数据的完整、准确、一致。(贯穿整个调查过程,简单初步检查——数据录入后计算机程序复杂校验,为整理分析打基础)。分类:直接调查取得原始数据的审核(完整性、准确性——逻辑检查和计算检查);间接取得的二手数据的审核(适用性、时效性,加工资料时应做到适用性审核、实效性审核、确认是否必要做进一步加工处理)。从数据的表现性质来看,数据审核内容主要有有效性审核、一致性审核、分布审核。
2、插补:解决在审核过程中辨别出来的数据缺失无效与不一致等问题的过程。方法分类:随机插补;确定插补【(差不每次都是相同的值)具体方法:1、推理插补;2、均值插补;3)比率或回归插补;4、热平台插补:使用同一插补类中的供者记录的信息来代替一个相似的受者记录中缺失的或不一致数据的插补方法(分类:序贯热平台插补、随机热平台插补。优点:可以保持数据的原始分布形式。缺:常导致同一个供者的多次使用,有时很难找到一个合适的供者)(为确保找到供者记录,可以用多层次热平台插补);5、冷平台插补:与热不同为使用前期的或普查中的供者资料;6、最近邻插补:与热一样基于匹配变量选择一个供者记录,但它的目的不是非要找出一个和受者记录在匹配变量上完全相同的供者记录,而是插补类中按匹配变量找到和受记录者最接近的供者记录——找到距离最近的值】
3、离群值:一个观测值或一组观测值,它们看起来与数据集中的其他观测值不一致。
4、统计数据的筛选:(1)将某些不符合要求的数据或有明显错误的数据予以剔除(2)将符合某种特定条件的数据筛选出来,不符合特定条件的数据予以剔除
5、数据排序:按一定顺序将数据排列,目的是便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索(定性数据、定量数据)
1、统计分组:根据统计研究的目的和客观现象的内在特点,按一定的标志把被研究总体划分为若干个性质不同但又有联系的组。目的是使资料系统化、科学化、条理化,从而得出能够反映事务总体特征的资料。方法:(1)按品质标志进行分组{属性特征}(2)按数量标志分组{按表现总体数量特征的标志}——单项式分组(每个组变量值是一个值)、组距式分组(连续变量、离散型变量多)
2、频数分布(次数分布):在对总体进行分组的基础上将总体中所有单位按组归类整理,形成总体各单位在各组间的分布,反映总体单位数在各组的分布状况和特征。包括要素:(1)组的名称(2)组的次数或频数。次数的相对数即各组次数与总次数之比——比率或频率(反映总体构成)。频数分布表明总体分布特征和内部结构,并据以研究总体中某种标志的平均水平及其变动规律。频数分布按分组标志不同分:品质数列(品质标志)、变量数列
3、组中值=(上限值+下限值)÷2。使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧对称分布
4、统计图:可以将表中的数据用图来表示,使表图文字有机结合起来,使人们一目了然地认识客观事物的状态、形成、发展趋势或在某地区上的分布状况等。分类:(1)条形图和柱形图(2)饼图(3)环形图(4)直方图(5)折线图(6)散点图与气泡图
5、统计表:把杂乱的数据有条理的组织在一张简明的表格内。组成部分:表头、行标题、列标题、数字资料,必要时可以再表下方附加。设计要求科学、实用、简练、美观。注意:(1)合理安排结构(2)表头一般包括表号、总标题、表中数据的单位等内容(3)表中的上下两条横线一般用粗线,中间其他线要用细线(4)使用统计表必要时可在表下方加注释,特别要注明资料来源
1、总量指标:反映社会经济现象在一定时间、地点、条件下总规模或总水平的统计指标,它通常是用绝对数来表现的,又称为绝对指标、绝对数。它是社会经济统计中最基本的统计综合指标。作用:(1)反映社会经济现象总体的基本情况(2)是制定政策、编制计划、进