变量和数据
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
40
讨论
1. 举出一些观测数据和试验数据的例子。 2. 举出简单随机样本的例子。 3. 根据你的经验,举出总体和样本的一些具体例子。 4. 举出调查抽样时可能发生的各种影响调查结果的问 题,并且提出你认为可以减少或避免这些问题的建 议。 5. 根据你的直觉,本章提到的几种抽样方法的优缺点 是什么?原因何在? 6. 举出一些书报上发表的数据例子,并指出哪些是变 量,哪些是观测值。
• 而每个重庆家庭的家庭人口数称为总体的一个个体(individual) 。
• 调查时接受调查的那些家庭的家庭人口数则构成总体的一个样本 (sample)。样本是从总体中选出的具有代表性的一部分。 • 样本中包含的个体数量称为样本容量(sample size)。
调查例
• • • • • • • • • • 调查: “你在无信号灯的人行横道过街时有安全感吗?” 可能的答案:“有”、“没有”,“不知道/不回答” 目的:市民中对这个问题的三种不同看法各自占有的比例 不可能调查所有的重庆市民 可以调查一部分市民 市民称为调查的对象 他们的观点称为个体 所有重庆市民的观点:总体(有限总体) 调查到的观点: 样本 普查
3. 收集二手资料在研究中应优先考虑
应用二手数据应注意的问题
1. 数据是谁收集的?
• 可信度评估
2. 为什么目的而收集的?
3. 数据是怎样收集的?
4. 什么时候收集的?
2.3 数据的收集
一手数据 顾名思义,一手数据是指在自然的未被控制的条件下获 得的原始的数据。 获得第一手数据并不象得到二手数据那么轻松。一般地, 我们可以通过观察、观测、调查或试验等手段获得。 通过观察、观测和调查等手段获得的一手数据常称为观 测数据(observation data);通过试验手段获得的 一手数据则称为试验数据(experimental data)。
2.3 数据的收集
例 1) 在重庆大学北门路口观察,记录每分钟经过的机动车 与非机动车辆数,获得一组观测数据。 2) 利用仪器,在重庆大学北门口测量,每5分钟记录一次 空气中二氧化碳含量,获得一组观测数据。 3) 在观音桥步行街,随机找寻路人进行某问卷调查,共 获得100份有效问卷,录得多组有用(观测)数据。 4) 在重庆市某小区,对偶数搂层偶数门号的住户进行上 门问卷调查,获得家庭人口数、家庭月收入等多组数据。 5) 某医院在征得病人同意的情况下,对病人试用新的医 疗手段,并记录下各种试验数据。
第二章 变量和数据
观测到的任何东西都可为数据
• 回忆你的午饭:人数,遇见熟人,饭菜质量、价格、意见等等 • 一些定量的,一些定性
2006年世界最富有的10人
(排名、姓名、国籍/地区、年龄、净资产、居住地)
2012年3月8日全榜单
2013年全球富豪榜单
Do you know?
Do you want to know?
41
附录:抽样调查的一些问题
• • 手段:邮件、报刊、网络、电话、面对面的调查;各种记录的 计算机抽样等 问卷 • 问题数目 • 选择题(最好单选) 选择项不宜过多 • 语言(不懂、误解、误导) • 问题的次序 • 问题的相关性 • 调查者的选择
2.6 误差error
• 非抽样误差按误差来源不同又可以分为以下四类。
1) 由于真正作为研究对象的目标总体与用作抽样的总体不一致 造成的误差,称为抽样框误差。
2) 在对人作抽样调查时,由于一些人没有对调查作出反映或回 答造成的误差称为未响应误差(non-response error)。 3) 而另有一些人可能因为各种原因回答时并没有真实反映他们 的观点,这称为响应误差(response error)。 4) 由于调查时记录错误,或由问卷向电脑录入数据出错等原因 造成的误差称为计量误差(recording error)。
•
非抽样误差是可以人为地尽量避免的。
思考一下
• • • • • 在食堂门口随机地提问;随机样本? 晚上按照宿舍打电话调查,得到的是随机样本吗? 按照学号随机挑选学生来提问,得到的是随机样本吗? 响应误差是被访者说谎吗? 有用数学方法都能弥补未响应误差吗?
2.7.5抽样调查的一般步骤
1. 制订计划。计划应包括调查目的、内容、预期成果、采 用的技术、时间安排、经费预算等; 2. 设计抽样方案。包括怎样抽、抽多少等; 3. 抽样; 4. 设计问卷(调查表); 5. 调查; 6. 分析数据; 7. 撰写调查报告。
2.5 抽样(方便样本)
• 在实践中,得到随机样本不容易。很多搞调查的人就采取简单的 办法。 • 在调查中,即使选择对象的确是随机的,最理想的情况所得到的 样本也只代表那些愿意回答问题人的观点所组成的总体;没有回 答问题的人的观点永远不会被这种调查的样本所代表。 • 这样得到的伪随机样本称为方便样本。
思考一下
• • • • • 对于某个问题的观点可以为“同意”、“不同意”和“不知 道”;这是定序变量吗? 企业规模的“大”、“中”、“小”是定序变量吗? 掷骰子中的1至6点是定量变量吗? 教育程度中的“小学”、“中学”、“大学”、“研究生”、 “不识字”等是什么变量? 上了多少年学又是什么变量?
思考一下
• •
二手数据的来源
1.
2.
3.
4.
5.
统计部门和政府部门公布的有关资料, 如各类统计年鉴 各类经济信息中心、信息咨询机构、专 业调查机构等提供的数据 各类专业期刊、报纸、书籍所提供的资 料 各种会议,如博览会、展销会、交易会 及专业性、学术性研讨会上交流的有关 资料 从互联网或图书馆查阅到的相关资料
有些概率在某种假定下可以算出来。 掷骰子 桥 牌 : 抽 取 到 任 意 一 副 13 张 牌 的 概 率 都 是 1/635013559600。choose(52,13) 称为等可能事件(equally likely event)
2.2 概率和随机变量
主观概率:“中东地区发生大规模军事冲突的概率是百分之八 十。”
统计数据的类型
统计数据的类型
计量尺度 接收数据的方法 按时间状况
分 类 数 据
顺 序 数 据
数 值 数 据
观 测 数 据
实 验 数 据
截 面 数 据
时 序 数 据
2.1 变量
• 定性变量(取的值称为水平或类):按某一个品质特 征将总体单位划分若干个类型;如:性别;婚姻
• 定量变量或数量变量 • 连续型变量 • 离散型变量
• • 图形是数据吗? 举出离散和连续型变量的例子。
•
有人说,连续变量可能取的值是无穷多个(因为至少包含一个 区间中的所有点),而有些离散变量取值范围中的值也可能是 无穷多个(比如所有非负整数)。那么这两个无穷有区别吗?
2.2 概率和随机变量
• • • 概率:可能性、机会、相信程度; 取值[0,1] 不是随机的变量:常数或者常量(constant)。
2.5 抽样
• • • • • 概率抽样方法:假定每一个体出现在样本中的概率是已知的。 但常采取非概率抽样方法 非随机样本:方便样本 不愿回答问题的人的观点会得到吗? 肺癌研究例;网站、杂志和报纸
2.6 误差error
• 假定在某一职业人群中女性占的比例为60%。如果在这个人群中 抽取一些随机样本(比如说利用随机数来抽样),这些随机样本中 女性的比例并不一定是刚好60%,可能稍微多些或稍微少些。 • 上述这种样本与总体的某些特征数值的差异不是错误,而是由于 抽选样本的随机性而产生的误差,我们称其为抽样误差(samplin g error)。 • 在随机抽样中,抽样误差是必然会出现的。 • 另一类误差是非抽样误差(non-sampling error) ,它是指除抽 样误差以外的、由于各种原因而引起的误差。
•
思考一下
• • 概率为0的事件是不是不会发生? 你认为一本书的重量是常数吗?如果你用精密天平对它反复称 重100次,准确到小数点后若干位数字;你可能得到许多不同 的结果。那么,在这个问题中,什么是常数,什么是变量?
•
骰子是否公平时是不是真的容易验证呢?
概率运算回顾
• 我们用大写拉丁字母表示事件,而用 P(A)表示事件 A 发生的概 率。 互补:比如今天开车“出事故”和“不出事故”、一道题“选 对答案”和“选错答案” 等等。 不相容事件:比如“你得到100分”及“你得到0分”就是不相 容的。互补事件仅是不相容事件的特例。 独立 条件概率(conditional probability):P(A|B)
• • • •
P( A B) P( A | B) , P( B)
P( B) 0
思考一下
• • 能不能用“如果事件A发生,则事件B肯定不会发生”来定义互 补事件? 如果一个仪器有三个主要部件,它们出问题的可能是独立的。 如果每个部件出问题的概率为分别为0.3、0.4、0.5,那么, 至少有一个部件出事的概率是多少?同时出事的概率是多少?
思考一下
• •
•wk.baidu.com
二手数据很难再加工 原始数据往往很难获取
因果关系 先发生的事物是不是后发生事物的原因?
2.4 个体、总体和样本
我们以例2.3.4为例来解释这几个概念。
• 假设我们想通过调查了解重庆每户家庭人口数的情况,则所有重 庆家庭的家庭人口数就是我们所关心的一个总体(population)。
各个专业术语不同
• 变量(variable)在计算机/数据库等行业也叫属性(attribute)、 特征(feature) 、特性 (characteristic)、字段(field)等等
• 数量变量也叫“指标”、“区间变量”;定性变量也叫“维度”、 “标称变量”、“名义变量”等等
• 观测值(observation)也叫记录(record)、对象(object)、点(po int)、向量(vector)、模式(pattern)、事件(event)、例(case、 instance)、样本(sample)、或项、实体(entity)等等
2.5 抽样
• • 每一个体都有同等机会被选到样本中:简单随机抽样 这样得到的样本:随机样本
•
随机抽样:如同从一锅搅和匀的八宝粥中舀出一碗,其中各种 成分的比例应该和锅里的比例大致一样。
2.5 抽样(随机样本)
• 例2.3.4)中,我们抽取了重庆市的部分家庭进行调查,这里我们 用了抽样调查(sampling survey)的调查方法。同样地,例2.3.3 )也用了抽样调查方法。 • 如果我们对重庆市的每个家庭都进行调查,则我们采用的是普查 (census)的调查方法。 • 在例2.3.3)中我们随机地抽取总体(观音桥步行街路人)中的100 个个体进行调查,每个路人被抽到的可能性都是一样的,这种抽 样称为简单随机抽样(simple random sampling),而这样得到的 样本称为简单随机样本(simple random sample),或简称为随机 样本(random sample)。
Internet
http//WWW.
中 国 人 口 统 计 年 鉴
中 国 市 场 统 计 年 鉴
二手数据的特点
1. 收集容易,采集成本低(特别是网络)
2. 作用广泛
• • • • • 分析所要研究的问题 提供研究问题的背景 帮助研究者更好地定义问题 检验和回答某些疑问和假设 寻找研究问题的思路和途径
2.3 数据的收集
• 二手数据 报纸、电视和杂志提供各种数据。比如高速公路通车里程、物 价指数、股票行情、外汇牌价、犯罪率、房价、流行病的有关 数据(确诊病例、疑似病例、死亡人数和出院人数等等);当 然还有国家统计局定期发布的各种国家经济数据、海关发布的 进出口贸易数据等等。从中可以选取对自己有用的信息。 一手数据 某些在华的外资企业每年至少要花三四千万元来收集和分析数 据。他们调查其产品目前在市场中的状况和地位并确定其竞争 对手的态势。
• 定序变量:对事物分类的同时给出各类别的顺序;如: 教育程度;社会经济地位 • 观测值:数据点或例
2006年前10富人
定性变量 定量变量
第六条观测值 第六个点
数据/观测值
定性变量与定量变量关系
• 定性变量的描述与计算需要借助于定量变量,建立 数学模型和使用计算机进行分析。 • 例如:性别(男,女)属于定性变量,一般要用频 率、频数或比例来描述。在概率论中的随机变量就 定义为仅取实数值的定量变量。统计软件也可以分 析定性变量,但需要转换,使数据能够成为计算机 可以运行的数字代码形式。