(李金昌)统计学(第四版)复习资料.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10
不论是用加权算术平均数公式还是加权调和平均数,都要从相对数 或平均数指标本身的经济含义出发来计算,这是一个很重要的原则。 几何平均数:是计算平均比率或平均速度常用的一种方法。分为简单 几何平均数和加权几何平均数。
G= 简单几何平均数:就是变量的 n 个变量值连乘积的 n 次方根。 (可简记为 G=)
中位数确定:1.根据未经分组的原始数据来确定 , n 为奇数
= ,n 为偶数
11
2.根据变量分布数列来确定 按组距数列来计算中位数,首先要计算各组的累计频数,然后找出 中位数所在的位置,即累计次数大于或等于的组,(严格上讲是,简化 起见取)。 下限公式:
(L 为中位数所在组的下限,为中位数所在组的频数,为向上累计至 中位数所在组下一组止的累计频数,d 为中位数所在组的组距。)
观测的原始记录是记录和核算资料,发表,由观测单位填报。 如物资库存普查。 特点:一般全国范围,涉及面广、工作量大、需要大量物力人力 和财力。 抽样调查:一种非全面调查,从总体中抽取样本,以样本推断总体。 根据抽取样本方式的不同,分为概率抽样和非概率抽样。 特点:经济节省、时效性高、准确度高、灵活方便 概率抽样从抽样方法上看分为重复抽样和不重复抽样;从抽样组 织形式上看,分为简单随机抽样、分层抽样、等距抽样、整群抽样和 多阶段抽样 非概率抽样分为任意抽样、典型抽样、定额抽样、和流动总体抽样 几种。 数据收集误差:观测性误差和代表性误差。 观测性误差:也叫登记性误差或调查性误差,事调查工作的各个环 节因工作粗心或被观测者不愿很好配合而造成的所收集数据与实际 情况不符的去查,包括计量错误、记录错误、计算错误、抄写错误、 汇总错误、计算机输入误差等各种人为因素干扰的误差。在全面调查 和非全面调查中都会产生,调查范围越广、观测个体越多,产生误差
第三章:变量分布特征的描述
变量分布特征的描述:1.变量分布的集中趋势,反映变量分布中各变 量值向中心值靠拢或聚集的程度;2.变量分布的离中趋势,反映变量 分布中变量值远离中心值的程度;3.变量分布的形状,反映变量分布 的偏斜程度和尖陡程度。 平均指标:将变量的各变量值差异抽象化,以反映变量值一般水平或 平均水平的指标,即反映变量分布中心值或代表值的指标。平均指标 的拘役表现为平均数,平均数因计算方法不同分为数值平均数和位置 平均数。
基本要求:准确性(核心)、及时性(信息价值体现)、完整性(分 析需要)
统计数据收集方式:普查、抽样调查、重点调查及间接的统计调查—
4
统计推算 普查:根据特定的统计目的而专门组织的一次性的全面调查,用以手
机所研究现象总体的全面资料(总体中所有个体都是观测单位) 分类:1.专门建立普查机构,配备人员,如我国人口普查;2.利用
5
可能性越大。是一种非一致性误差。 代表性误差:是在抽样调查中,由于样本不能完全代表总体而产生
的估计结果与总体真实数量特征不符的误差。分为系统代表性误差和 偶然性代表性误差。
系统代表性误差:由于抽样框(用于抽取样本的名录)不完善、 抽样时违反随机原则、被调查者误会等因素引起的误差,等距抽样也 会有这种误差。是难以计算和控制的。
分类
可变标志:每个个体上表现不同
表现个体直接程度 直接标志(第一标志):直接表明个体
属性或数量特征
2
间接标志(第二标志):两个或两个
以上标志计算后(通常对比)
变量:狭义:可变的数量标志;变量是可变数量标志的抽象化;变量
的具体数值—变量值(标志值)。 广义:可变标志(可变数量/品质标志)。
定性变量 定类变量
2.由于总体和个体的确定是相对的,可以换位,因而指标和标 志的确定也是相对的。
计算范围
总体指标
样本指标
反应现象不同 总体标志总量
数量指标
总体容量
指标 反映现象内容不同
反应时间状况 时期指标
时点指标
质量指标
相对指标
平均指标
反映现象时间状态 静态指标
动态指标
第二章:统计数据的收集、整理与显示
统计数据收集:按照统计研究目的和任务,运用各种科学有效的方式 和方法,有针对地收集反映客观现实的统计数据的活动过程, 是整个统计活动的基础阶段,通常也称统计调查阶段。
分类:
6
分组标志多少:简单分组:只按一个标志分组 复合分组:按两个或两个以上标志进行层叠式分 组,先按第一个标志分组,再按第二个…
两个标志进行复合分组时,还可以用交叉式,形成交叉分组表。 分组标志性质:品质分组,即属性分组,总体按一个或多个品质 标志分组,分组标志一经确定,各组名称、界限 和组数也就随之确定。 数量分组,即变量分组,总体按一个或多个数量 标志分组。是反映总体内部数量差异的重要方法; 难点是合理确定组间数量界限和分组数,其结果 形成变量数列。
简单调和平均数:当各组的标志总量相等时,所计算的调和平均数 称为简单调和平均数;设总体分为 k 组,每个组的标志总量都为 km。
H=(可简记为 H=)
加权调和平均数:当各组标志总量不相等时,所计算的调和平均数 要以各组的标志总量为权数,其结果为加权调和平均数。
H=(可简记为 H=)
简单和加权调和平均数的联系和区别:区别在于计算过程中应用的数 据条件的不同前者以各组频数为权数,后者以各组标志总量为权数, 但它们都符合总体标志总量与总体总频数的对比关系,事实上,两者 是可以相互变通的。对于同一现象,无论用加权或是简单调和平均数, 计算结果是相等的,无非是因数据条件不同采用了不同的计算形式。 由相对数或平均数计算平均数
人为判定个体:自然/人为总体 个体:组成总体的个别事物,也称总体单位。
总体与个体关系:1.总体随个体数量可变大变小; 2.研究目的不同,总体中个体可改变; 3.研究范围不同,总体和个体角色可变换。
样本:从总体中抽取一部分个体所组成的集合,也称字样。其不具唯
一性,除非其实总体本身。
样本数:总体中最多可抽取的不同样本数量。
分布数列:在统计分组的基础上,将总体中的所有个体按组归类排列, 并计算出各组的个体数,就形成频数分布。分配在各组的个体数,称 为频数或次数,各组频数或次数之和称为总频数或总次数,各组频数 于总频数之比称为频率。将各组的频数或频率按分组的一定顺序加以 排列,就形成分布数列。分布数列有两个构成要素:统计分组所形成 的各个组和各组的聘书或频率。
(可简记为)
加权算术平均数:根据变量数列,即以各组变量值(或组中值)乘 以相应的频数求出各组标志总量,加总各组标志总量得出总体标志总 量,再用总体标志总量除以总频数。
(可简记为)
算术平均数的数学性质:1.各变量值与算术平均数的离差之和等于零, 即(对于简单算术平均数)或(对于加权算术平均数);
2.各变量值与算术平均数的离差平方和为最小值,即 或,只有当时,等号成立。 算术平均数优缺点:
优:1.可以利用算术平均数来推算总体标志总量,算术平均数与变 量值之乘积等于总体标志总量(变量值总和);
9
2.由算术平均数的数学性质知,算术平均数在数理上具有无偏性 与有效性(方差最小性);
3.其具有良好的代数运算功能 局限性:1.算术平均数易受特殊值(特大或特小值)影响;
2.根据组距数列计算算术平均数时,由于组中值具有假定 性而使得计算结果只是一个近似值,尤其是当组距数列存在开口组时, 算术平均数的准确性会更差。 调和平均数:是平均数的一种,是变量值的倒数的算术平均数。分为 简单调和平均数和加权调和平均数。
性质:1.兼有分与合的双重功能,是分与合的对立统一;2 必须遵 循“穷尽原则”和“互斥原则”,即现象总体中的任何一个个体都必须 而且只能归属于某一个组,不能出现遗漏或重复出选的情况;3 其目 的是在同质性的基础上研究总体的内在差异性,即尽量体现出分组标 志的组间差异而缩小其组内差异;4 其在体现分组标志的组间差异的 同时,可能掩盖了其他标志的组间差异,任何统计分组的意义都有一 定的限定性。
定序变量
定量变量 定距变量
变量分类
定比变量
所受影响因素 确定性变量
随机性变量
是否连续 离散型变量(只能取整)
连续性变量(随意取)
统计指标:简称指标,是反映现象总体数量特征的概念及其数值。
组成:统计指标由指标名称和指标数值两个基本部分组成。指标名
称反映所研究现象的实际内容,是对现象本质特征的一种概括;
统计学研究对象:现象的数量方面—统计数据 定性数据 定类数据
计量尺度
定序数据
定量数据 定距数据
统计数据
定比数据
表现形式:绝对数、相对数、平均数
来源:观测数据、实验数据
加工程度:原始数据、次级数据
时空状态:时序数据、截面数据
总体:统计研究的客观对象全体,也称母体。特征:大量性、同质性、差异性
1
个体数量:有限/无限总体 存在形态:具体/形象总体 总体分类: 个体计数:可计数/不可计数总体
作用:1.反映变量分布的一般水平,帮助人们对研究现象的一般 数量特征有一个可观的认识;
2.利用平均指标可以对不同空间的发展水平进行比较,消除 因总体规模不同而不能直接比较的因素,以反映他们之间总体水平上
8
能够存在的差距,进而分析产生差距的原因。 3.利用平均指标可以对某一现象总体在不同时间上的发展
偶然性代表性误差:也叫抽样误差或偶然性误差,是由于抽样的 随机性引起的样本机构与总体结构不完全相符,从而产生的估计结果 与总体真值不一致的误差,这种误差在随机抽样不可避免,但可以计 算和控制。 统计分组:根据据统计研究的目的和事物本身的特点。选择一定的标 志(一个或多个),将研究现象总体划分为若干性质不同的组或类的 一种攻击研究方法。
分类:按分组标志的性质不同,分为品质标志的品质分布数列和按 数量标志分组的变量分布数列。变量数列又分为单项式数列(一个变 量值表示一个组)和组距式数列(一个变量区间表示一个组的变量数 列)。
频数密度是频数与组距之比,频率密度是频率与组距之比,各组的
7
频数密度或频率密度可以进行比较。 注意:1.最小组的下限应略低于总体的最小变量值,最大组的上限应 略大于总体的最大变量值;2.连续型变量的各组组限必须重叠 ,采用“上限不在内”原则;3。开口组:最小组只有上限,最大组只 有下限;开口组一般按相邻组的组距加以确定,进而确定上下限。4. 组中值,代表各组变量值的一般水平的数值,是各组上限与下限的简 单算术平均数。
加权调和平均数:当计算几何平均数的各种变量值出现的次数不 等,即数据经过了统计分组时,则应采用加权几何平均数。
G=(可简记为 G=)
算术、调和、几何平均数的数学关系:单从数学意义上说三者大小关
系为:H<=G<=
位置平均数 中位数:变量的所有变量值按定徐尺度排序后,处于中间位置的变 量值,由于处于中间位置,可以用来代表变量值的一般水平,可以预 测定量变量的集中趋势,也可测定定序变量的集中趋势,但不适用于 定类变量。
水平进行比较,以说明这种现象发展变化的趋势或规律性。 4.利用平均指标可以分析现象之间的依存关系或进行数量
上的推算 5.平均指标可以作为研究和评价事物的一种数量标准或参考。
算术平均数:也称均值,是变量的所有取值的总和除以变量值个数的 结果。
简单算术平均数:根据未分组数据计算的,直接将变量的每一个变 量值相加,除以变量值的个数。
指标数值时所研究现象实际内容的数量表现,是对总体本质
特征的量的规定性,是对个体特征综合和计算的结果。
统计指标和标志的联系和区别:
Байду номын сангаас区别:1.说明对象不同:指标说明总体的特征;标志说明个体的特 征;
2.表现形式不同:指标用数值体现;标志既有文字又有数值。
3
联系:1.标志是计算统计指标的依据,即统计指标数值是根据个体 的标志表现综合而来的;
此为整本书的复习资料,若应对期末考试, 则不再考试范围内的请自动忽略。 第一章:总论
统计含义:统计数据、统计活动、统计学
统计学:关于如何搜集、整理和分析统计数据的科学。
统计学发展历程 国
古典统计学时期 国势学派——德国 政治算术学派——英国
近代统计学时期 社会统计学派——德
数理统计学派——比利 时
现代统计学时期:推断统计
样本与总体关系:1.总体是研究对象,样本是观测对象,样本是总体 的代表和缩影;
2.样本用来推断总体:观测样本的目的是对总体数量特征作出判断。
3.总体和样本角色可改变
标志:描述或体现个体特征的名称,标志在每个不同个体的结果为标志变形
表示方式 品质标志:表明个体属性特征
数量标志:表明个体数量特征
表现结果是否相同 不变标志:每个个体上表现完全相同
相关文档
最新文档