第1章统计与数据.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
定类尺度 精
定序尺度 确 程
定距尺度 度
定比尺度
(1)、定类尺度 (Nominal Scale)
也称列名尺度、名义尺度、 分类尺度
例如:性别、民族、职业 数据表现为“类别” 各类之间无等级次序
各类别可以用数字代码表 示
根据定类尺度得到的数据 为分类数据。
(2)、定序尺度(Ordinal Scale)
面板数据(Panel Data):对多个事物在不同时 期或时点上进行测量得到的数据 。如1990-2008 年全国各个省份的GDP
3、统计指标的概念
一般有两种理解和两种使用方法: 1、统计指标是指反映现象数量特征的概念。
如年末人口数、商品销售额、劳动生产率 等。 2、统计指标是反映现象数量特征的概念和 具体数值。我国2004年的国内生产总值为 136515亿元 。
小结
“统计”有统计工作、统计资料和统计学三种含义 统计学是一门收集、分析、展示和解释数据的艺
术和科学 描述统计和推断统计 总体和样本,参数和统计量 分类数据、顺序数据、间距数据和比率数据 统计指标的概念和表现形式
思考题
下面是我国《2002年国民经济和社会发展统 计公报》中的部分内容,请说出这些数据的计量 尺度 和类型:
SPSS Statistics 17.0
软件在课程网站提供试用下载(文件在网 站上只保留一个月)或者自己google一下。 大部分统计方法都可以通过鼠标操作得到 相应的分析结果,学习成本非常低。 包含的统计方法较为齐全。
Excel
Excel软件也具有较强的统计分析功能。 其数据分析模块提供了常用的统计方法 可以做出美观的图形
四种计量尺度的比较
1、四种尺度所包含的信息量是依次递 增的,级别由低到高。
2、根据较高层次的计量尺度可以获得 较低层次的计量尺度。
3、不同的尺度数据对应这不同数据显 示方法和分析方法。
数据和变量类型:总结
数据的类型
定类数据 定序数据 定距数据 定比数据
变量 类型
定性数据
品质变量
Attribute Categorical
定量数据
数量变量 Numerical
变量的概念和类型
变量是用来描述现象某种令人感兴趣的特征的 概念。
品质变量是描述个体有关属性特征的变量,本 质上不能用数字来表示。例如性别。
数量变量是描述个体有关数量特征的变量,都 是用数字来表示的。例如人数,年龄等。
离散型变量指的是有限个数值或诸如0, 1,2……之类无限可列值的变量。
总体
样本
推断统计的主要任务:用统计量估计参数
总体
样本
参数(parameter):描 述总体数量特征的概念 常用希腊字母。例如总
体均值用 表示;总体
方差用 2表示等。
统计量(statistic):描 述样本数量特征的概念, 常用英文字母表示,如样
本均值用 x 表示,样本
方差用 s 2表示等。
推断统计的例子
表示“没有”或“不存在”,定比尺度 中“0”表示“没有”或“不存在” 。
定距尺度
- 273.15℃
定比尺度
-123.15 ℃
0℃ 26.85℃
0K
150K
300K
定距尺度与定比尺度的区别(续)
在实际应用中定距尺度与定比尺度差别 微不足道,往往不作区分。 例如在SPSS Statistics软件中,数据的计量尺度被分为3 类: 名义(Nominal) 有序(Ordinal) 度量(Scale )
对失业农民工数量的调查:农业部不久前组织 的一次抽样调查显示,到春节前返乡的农民工 约占总数的38.5%。其中,有60.4%的农民工是 正常的春节回家探亲,他们在城市的工作仍然 保留着,节后会回去正常上班。剩余39.6%的 农民工则属于失去工作或者还没有找到工作而 提前返乡。据此测算,失业返乡农民工约占农 民工总量的15.3%,即约2000万人。
代表“不存在”
根据定距尺度得到的数据为间距 数据。
(4)、定比尺度 Ratio Scale
也称比率尺度 例如体重、身高 数据表现为“数值” 可以进行加减、乘除运算 “0”表示“没有”或“不
存在” 根据定比尺度得到的数据
为比率数据。
定距尺度与定比尺度的区别
定距尺度中“0”表示一个具体数值,不
应用案例:通用电气(GE)
“六西格玛” 是当前流行的质量管理思想, 其核心是利用统计方法不断改进产品的质 量。Welch 1995年底在通用电气开始发起 “六西格玛” 项目,这些项目的实施取得 了令人诧异的成功:1997年带来的效益是 3.2亿美元。
应用案例:抽样调查
美国大选2008年11月02日民意调查机构调查结果 (选民票得票率)
也称顺序尺度 例如健康状况、质量等级 数据表现为“类别” 可对等级、大小等排序 未测量出类别之间的准确差
值 根据定序尺度得到的数据为
顺序数据。
(3)、定距尺度 Interval Scale
也称间隔尺度 例如年份、摄氏温度
数据表现为“数值”
可以进行加减运算 “0”是只是尺度上的一个点,不
区分数据是时点数还是时期数的方法之一看其加 总后的结果是否有意义。若有意义则该指标必定 是时期数。反之,则必定是时点数。
相对数和平均数
相对指标:采用两个有联系的数值进行对比 而得到的比值。也称为相对数,如产业结构
比例、性别比、人口密度等等。 平均指标:也称为平均数,反映现象在某一时
间或空间上的平均数量水平。例如职工的平均 工资,平均考试成绩,等等。
课程重点
掌握各种统计方法的原理和应用范围 使用统计软件实现这些统计方法的能力
能够用 Excel /SPSS进行统计分析, 熟悉Excel/SPSS的输出结果
对计算机输出结果的解释和使用能力
二、统计学中的基本概念
描述统计和推断统计 总体和样本 参数和统计量
数据和变量类型 统计指标及其分类
统计指标的 分类(概括)
统计ห้องสมุดไป่ตู้标的分类
总量指标
相对指标
平均指标
时点数 时期数
总量指标
也称为绝对数:以绝对数形式表现现象规 模和水平的统计指标。可以分为时点数和 时期数。 例如,2007全年入境旅游人数13187万人 次 ;2007年全年国内生产总值246619亿元 ; 2007年末全国参加城镇基本养老保险人数 为20107万人 .
描述统计与推断统计的关系
总体数据 样本数据
概率论与 数理统计
描述 统计
推断 统计
总体内在的 数量规律性
2 数据和变量类型
“数据!数据!数据!”他不耐烦地喊 道,“我不能做无米之炊!”
—Sherlock ·福尔摩斯
数据的计量尺度与类型:例子
国籍: 中国 健康状况: 良好 出生年份: 1980
体重:134公斤
马里斯特: 奥巴马 50,麦凯恩 43. 拉斯马森: 奥巴马 51, 麦凯恩47. 盖洛普: 奥巴马 52, 麦凯恩 43. 佐格比: 奥巴马50, 麦凯恩43. 迪亚乔: 奥巴马48, 麦凯恩 41. 战场: 奥巴马49, 麦凯恩45. IBD: 奥巴马48, 麦凯恩44.
实际结果:奥巴马和麦凯恩的选民票得票率分别 为52%和46%。
三、常用统计软件简介
应用统计学涉及大量数据的处理工作,需 要借助统计软件完成。
统计软件的种类很多。本课程要求使用 Excel和SPSS Statistics软件。
由于软件的操作很容易,对统计软件的教 学主要采取视频课件+自学的方式完成。
对统计软件的掌握情况通过课程作业来进 行考核。
统计学绪论
统计学中的基本概念 统计数据的分类 统计软件简介
“统计”一词的三种含义
统计工作:获取、分析、展示和解释数据的 过程。
统计数据,统计资料。 统计学。
中
国中
人国
口市
统 计 年
场 统 计
鉴
年 鉴
什么是统计学
统计学是一门收集、分析、展示和解释数 据 的 艺 术 和 科 学 。 ( collection, analysis, interpretation or explanation, and presentation of data)
如果某一变量可以取某一区间或多个区 间中任意数值,则该变量称为连续型变 量。
横截面、时间序列和面板数据
横截面数据(Cross-sectional data)是在同一 时点或是大约在同一时点所收集的数据。 例如2008年我国各直辖市的GDP 。
时间序列数据(Time series data)是按时间顺 序取得的一系列数据。 例如我国历年的GDP。
是一系列从数据中获取有用信息以帮助决 策的原理和方法。
统计学的广泛应用
由于大部分学科都涉及数据分析工作, 因此统计学几乎可以与任何一个学科结 合起来……
经济学
医学
管理学
统计学
工程学
社会学
…
应用案例:制定宏观经济政策
制定当前金融危机的各项应对措施需要大量的统 计支持(数据收集、影响程度的预测、政策效果 的预测等等)。
例1: 2003年人口变动抽样调查以全国为总体, 在全国抽取了990个县(市、区)、3734个乡(镇、 街道)、6544个调查小区的126万人。根据调查 结果推算,2003年末全国总人口为129227万 人,出生人口为1599万人,死亡人口为825万 人,净增人口为774万人。
例2:一家大公司的会计部门会从所有的发票 中选择一部分来检查公司所有发票的准确性。
2002 1999 1996 1993 1990 1987 1984 1981 1978
推断统计
推断统计(Inferential Statistics): 从总体中抽取样本,并利用样本数据来推断 总体特征的统计方法。 总体(population):由统计研究所涉及的那 些同质个体(也称单位)所形成的集合。 样本(sample):所研究总体的一部分。
城乡居民生活继续得到改善。全国城镇居民 人均可支配收入7703元,比2001年实际增长 13.4%;农村居民人均纯收入2476元,实际增长 4.8%。
下列数据中哪些采用了定距尺度?
海拔8848米 960万平方公里
23岁
北纬38度
R 软件
完全免费的开源统计软件 需要学习编程技术,学习成本稍高; 功能非常强大,适合专门的数据分析人员
使用。 从国际来看用户增长很快。
SAS软件
具有非常强大的数据分析能力,是数据分 析和统计分析领域的巨无霸。
《财富》全球500强企业前100家企业中的 91家在用SAS。
需要学习一定的编程技术; 软件的使用成本非常高。
1、描述统计与推断统计
描述统计(Descriptive Statistics):用表格、 图形和数字来概括、显示数据特征的统计方法。
例1:2005年我国出生人口性别比(男:女)已经 升高到119.92,与正常值106相比有严重的偏离。
例2:中国经济增长的起伏
20 15 10
5 0
年份
GDP增长率
时点数和时期数
时点数 是描述某种现象在某一个特定时刻(某 一瞬间或某一时点)数量表现的数据。 例如,2007年年末全国总人口为132129万人 。
时期数 是描述某种现象在某一个特定时间范围 内所实现的成果的数据。例如,2004年我国全年 各种运输方式完成货物运输周转量66698亿吨公 里。