数据描述方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

课程大纲 1 统计学基本概念、数据收集和数据描述
2 线性回归分析和广义线性模型SPSS上机 3 聚类分析 + SPSS上机 4 判别分析 + SPSS上机 5 主成份+ 因子分析、 6 对应分析+SPSS上机
统计学的定义
•统计学(statistics) 是‚收集、分析、展 示和解释数据的科学‛
什么地方统计用得上呢?
原始数据(一手数据,Primary data
- 要去收集 - 用科学的方法 书:抽样调查(sampling techniques) -例子:预测美国总统大选结果 某个决策的民意调查 中国人口普查
原始数据收集方法
试验数据(experimental data) 观测数据(observational data) -电话调查(Telephone survey) - 邮寄问卷( Mail questionnaires) -直接观测和面对面访问(Direct observation and personal interview)
5. 多级抽样(multistage sampling)。在群 体很大时,往往在抽取若干群之后,再在 其中抽取若干子群,甚至再在子群中抽取 子群,等等。最后只对最后选定的最下面 一级进行调查。
例:在全国调查时,先抽取省,再抽取市 地,再抽取县区,再抽取乡、村直到户。
抽样方法的选择不能一概而论
• 实际上每个抽样通常都可能是各种抽样方 法的组合。如: 在多级抽样中的每一级也 可采取各种抽样方法。此时,整个抽样计 划可能比较复杂,也称为多级混和型抽样 • 制定抽样方案时既要考虑精确度,还要根 据客观情况考虑方便性、可行性和经济性。 不能一概而论。
普查和抽样框
• 当然,也有可能试图调查所有的人(比 如人口普查), 叫做普查(census).
• 抽样框(Frame)–所关心的所有对象或 个- 是总体的一部分
参数和统计量
参数(parameter)- 从整个总体达到的 平均值或百分比等描述性数据. 而从样本中得到的相应的数据称为统计 量Statistics.
1. Married 2. Single 3. Divorced 4.Other 或 M. Married S. Single D. Divorced O.Other 性别: 1 男 2 女
2. 有序数据 Ordinal (rank) data: - 比名义数据高一级别 - 数据的类别是有序的
满意度 level of satisfaction:
2.系统抽样(systematic sampling): 先把总体 中的单元编号,然后随机选取其中之一作 为抽样的开始点, 然后从开始点按照编号进 行等距抽样
例:从60人的一班人中,随机抽出5人,如开 始点为10号, “距离‛为12,则调查对象为: 10号、22号、34号、46号、58号 - 如果原始名单号是随机的,得到的抽样 对象是随机的。
数据度量级别(measurement Levels) 1. 定性、名义数据(Nominal data) 2. 有序数据(Ordinal data) 3. 区间数据(Interval data) 4. 比率数据(Ratio data)
1. 定性或名义数据(Nominal data) - 最低级形式的数据 - 可以对类别编号 - 我们对所用的编号有决定权 婚姻状态 Marital status:
•任何领域.
运用统计的领域包括(1)
• • • • • • • • • • • • • • •
• 精算 • 农业 • 动物学 • 人类学 • 考古学 • 审计学 • 晶体学 人口统计学 • • 牙医学 • 生态学 经济计量学 • • 教育学 • 选举预测和策划 • 工程 • 流行病学 •
• 金融 • 水产渔业研究 • 遗传学 • 地理学 • 地质学 • 历史研究 人类遗传学 • • 水文学 • 工业 • 法律 • 语言学 • 文学 劳动力计划 • • 管理科学 市场营销学 • • 医学诊断
3. 整群抽样(cluster sampling): 先把总体划分 成若干群(cluster),再(通常是随机地) 从这些群中抽取几群;然后再在这些群中 随机地抽取个体。 例:在某县进行调查,首先在所有村中选取 若干村子,然后只对这些村子的人进行调 查。显然,如果各村情况差异不大,这种 抽样还是方便的。
定义关心的调查问题 定义所关心的总体 专家开发调查问题 小规模试用 pre-test 决定样本量和抽样方法 sample size 抽取样本并进行调查
电话调查
-要解释调查目的 purpose of the survey - 要调查的人是否能通过电话找到 - 时间要短 - 固定结果问题 Closed-end questions - 告诉被访者结果保密 - 花费相对不太高、有效率
3. 邮件问卷
花费低 问卷可含固定结果和不固定结果问题 (both closed-end and open -end questions) 使参加者有更多时间完成问卷 提供更准确可靠的数据
固定结果的问题 Closed-end questions – 如: ‚请问你所属的党派 - 是共和党、民主 党还是其他党派? 不固定结果问题 Open-end questions – 如: ‚你所属的党派?
总体、样本、个体和样本量
• 此例中,单个山东和广东人或个人的 身高数据称为个体(individual) • 而称所有所有山东和广东人或他们的 身高数据为总体(population),总体是 包含所有要研究的个体的集合。 • 抽样抽到的人或身高数据称为该总体 的样本(sample),样本是总体的一部 分 。 样 本 中 个 体 的 个 数 -- 样 本 量 (sample size)
如何用一部分数据较好地 代表所有数据
与抽样有关的概念: 总体、样本、个体和样本量 普查和抽样框 参数和统计量
例: 广东省和山东省成年人身高比较 - 前者不如后者高? • 确定观测对象和范围(总体): 按户口所在 地,还是居住地,还是出生地? 抽出多少人? 如何抽? 随机? • 两省各自随机抽取5000人男女各半(样本). • 利用这10000个数据回答所关心的问题 (T-test, T检验)
4. 直接观测和面对面采访
直接观测:是否系安全带、 新影电影是否成功 面对面访采访 personal interview
固定问题Structured interview (scripted) 不固定问题unstructured interview
数据收集注意事项
1. 查找一下是否有二手数据存在 2. 在利用二手数据之前,要核实数据来源, 确认收集和录入的数据符合你的研究目的 3. 要注意一下偏差(bias) . 如:不回答是否随机,否则数据会有系统偏 差, 抽样偏差, 有些人可能会在回答某些敏感 问题时撒谎
气象学 军事科学 核材料安全管理 眼科学 制药学 物理学 政治学 心理学 心理物理学 质量控制 宗教研究 社会学 调查抽样 分类学 气象改善 搏采,等等...
• 统计可应用于各个不同学科,在有 些学科已经有其特有的方法和特点; 如生物统计(biostatistics), 计量经济 学(econometrics)以及目前很热门的 生物信息(bioinformation)和数据挖掘 (Data Mining)的方法主体都是统计。 • 以归纳为主要思维方式的统计不是 以演绎为主的数学
数据类型: 定量数据 Quantitative 定性数据 Qualitative 时间序列 Time series 截面数据 Cross-sectional
定量和定性变量
• 当变量所取的值是数量时称为定量变量(quantitative variable) 如: 收入(元)、重量(kg)、身高(cm)、某企业广
告投入(元)、某企业销售额(元)
• 取非数量值的变量就称为定性变量或分类变 (qualitative or categorical or nominal variable) 如:学历 (中学、高中、本科、研究生)
观点 (赞成、反对) 性别 (男、女) 国家 (中国、美国、英国、加拿大…) 收入(低、中、高三个水平)
- 定性变量也可数量来描述,比如男性和女性的数目, 用这些数量来建立模型
时间序列数据和截面数据 时间序列数据(Time series data) : 某人自工作以来每年的收入 中国1998-2008的每年的人均GDP 某厂2008年度每周出现的废品率 你所在城市自1970年来每年的人口数 截面数据 (Cross-sectional Data): 2008年某大学本科学生成绩
第二章: 数据的收集
二手数据(Secondary data )
- 从报纸、书刊、电视看到的数据。
-从网站上找到的数据 - 由公司或组织专门收集和维护数据 - 由政府机构收集和维护 比如高速公路通车里程、物价指数、股 票行情、外汇牌价、犯罪率、房价、流 行病的有关数据(确诊病例、疑似病例、 死亡人数和出院人数等等)
综合评价
讲授老师: 赵博娟 (博士、教授) e-mail: bojuan_zhao@
成绩:满分100
- 期末考试 70% - 作业、出勤
课本:
统计学
─从数据到结论
吴喜之编著 中国统计出版社
参考书目:
• Business Statistics: A Decision-making Approach (D. F. Groebner & P. W. Shannon) • 《商务与经济统计精要》(原书第2 版)戴维R· 安德森等著,机械工业 出版社,2005。 • 《统计分析与SPSS的应用》,薛薇 编著,中国人民大学出版社,2001。 • 《多元统计分析》何晓群编著,中 国人民大学出版社,2004。
1. exceptional 2. very good 3. good 4. satisfactory 5. unsatisfactory
3. 区间数据 Interval data: - 任两点的距离是可以精确度量出来的 - 数据有循序性质 (>,< or =).
如:温度 (华氏和摄氏Fahrenheit and Celsius)
spss中graphslegacydialogsscatterdotssimplescatter4810williamgatesiiiunitedstatesnam500500unitedstates20warrenbuffettunitedstatesnam750420unitedstates30carlosslimhelumexiconam660300mexico40ingvarkampradswedeneu790280switzerland50lakshmimittalindia550235unitedkingdom60paulallenunitedstatesnam530220unitedstates70bernardarnaultfranceeu570215france80princealwaleedbintalalsaudiarabia490200saudiarabia90kenneththomsonfamilycanadanam820196canada100likashinghongkong770188hongkong110romanabramovichrussiaeu390182unitedkingdomranknamecitizenshipregionagenetworthresident49histogram横坐标是年龄区间纵坐标高度是落在相应的年龄区间里的人数50histogram横坐标财富区间纵坐标高度是落在相应的财富区间里的人数51boxplotboxwhisker盒子中间横线是中位数median闭盒子的上下两横线边为上下四分位数点spss默认如所有样本都在离四分位点15最大和最小值否则线长就是15的盒长在其外面的点被软件认为是离群点out 该金属的强度高为目标 - 金属强度与温度和时间长短有关 - 寻找最佳温度和时间
温度B1(低) 时间A1(短) 时间A2(长) 38.0 38.6 45.0 43.8 温度B2(高) 47.0 44.8 42.4 40.8
如何分析数据?方差分析
2. 电话调查要点(邮件问卷情况相同)
一些常用的抽样方法
1 简单随机样本
• 如果总体中的每一个体都有同等机会被选 到样本中,这种抽样称为简单随机抽样 (simple random sampling),而这样得到的 样本则称为简单随机样本(random sample) . 如:通常的抽奖、抓阄 • 问卷调查中,没有随机找人回答问卷而是 找一些你认识的人填写问卷- 这种样本也 不是随机样本,而是方便样本 (convenience sample)。
4.分层抽样(stratified sampling)。这是先 把要研究的总体按照某些性质分类 (stratum),再在各类中分别随机抽取样本。
例1:经理意见调查目标是从大、小企业得到各200有效问卷 例2:按照教育程度把要访问的人群分成几 类;每一类中调查和该类成比例数目的人。 以确保每一类都有按比例的代表。
4. 比例数据 Ratio data: - 有区间数据的特点+有真正的有意义 的零点 - 是最高的度量级别 - 如:体重, 高度, 距离, 钱包里的钱数
0℃ 温度 $0 口袋没钱
计算机中常用的数据形式
- 数据是由一些变量和它们的观测值所组成。 - 例子有6 个变量:观点(观测值为支持、反对和 不知道三种)、教育程度(有高中低三种取值,用 H、M、L 表示)、月收入(取值为实际数字)、 性别(取值有男女两个,用M 和F 表示)以及地 区号(用数字1,2,3,4 表示)等。 - 该表一共有1364 个观测值(问卷回答)。 - 每一列为一个变量的不同观测值; - 而每一行则称为一个观测值,它是个由数量值 和属性值组成的向量
相关文档
最新文档