2.试验资料的整理与特征数的计算

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例1:某单位职工受教育程度的结构
教育程度 频数 小学 1 初中 2 高中 2 大学 9 硕士 2 合计 16
频数分布表
受教 育程度 Frequency 1 2 2 9 2 16 Percent 6.3 12.5 12.5 56.3 12.5 100.0 Valid Percent 6.3 12.5 12.5 56.3 12.5 100.0 Cumulative Percent 6.3 18.8 31.3 87.5 100.0
特点:
• 不受极端值的影响 • 可能没有众数或有几个众数(不唯一性) • 主要用于分类数据,也可用于顺序数据或数值型 数据
算例
某城市居民关注广告类型的频数分布 广告类型 人数 比例 频率(%) 商品广告 112 0.560 56.0 服务广告 51 0.255 25.5 金融广告 9 0.045 4.5 房地产广告 16 0.080 8.0 招生招聘广告 10 0.050 5.0 其它广告 2 0.010 1.0 合计 200 1 100
• 推断:统计学中统计推断结论利用小概率事件原理。
频率和概率:举例
• 我们知道,投掷一枚硬币,其落地出现哪一面是一个随
机事件。若做一个投币实验,共投50次,结果出现某面
20 次。这里 20 次是一个频数, 40% ( =20/50 )就是一个 频率,它代表了这次投币实验中该面实际出现的强度。 • 概率则是硬币未投之前应知道的某面可能出现的强度数 值。我们都知道,投掷一枚硬币,其落地出现某一面的
误差与错误
• (试验)误差:试验中不可控制的因素所引起的观测值偏 离真值的差异。 • 分类: 随机误差(偶然误差):试验中许多无法控制的因素 导致实验结果与真实结果之间的差异。消除:增加试 验次数可减少但不能消除。 系统误差:条件不一致导致倾向性的偏离。如仪器调 校侧差异,不同操作者习惯的差异等。试验做得精细 可以避免。 • 错误:任务因素导致的差错,如粗心大意、药品配置不当、 数据抄错等。
M0=商品广告
算例
甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数(户) 百分比(%) 非常不满意 24 8 不满意 108 36 一般 93 31 满意 45 15 非常满意 30 10 合计 300 100
• 加权计算法:适合于频数分布表资料求均数。
f1 X 1 f 2 X 2 f 3 X 3 ... f k X k fX fX X f1 f 2 f 3 ... f k f n
• 式中k是组段;fi为每组段的频数;Xi为每组段 的组中值。组中值等于本组段的下限和上限相 加除以2。i=1,2… k 。
分 类 数 据
顺 序 数 据
数 值 型 数 据
观 测 数 据
实 验 数 据
截 面 数 据
序 时 数 据
一、分类数据、顺序数据、数值型数据
1.分类数据(Categorical data)
对事物进行分类的结果。
数据表现为类别,用文字表述。
对事物应进行平行的分类。 各类别可以指定数字代码表示。 分类数据举例:性别,学历,地区等。性别:男-1, 女-0。
特征称为变量或变数。
• 如:化合物的浓度、叶绿素的含量、人体身高、体重、生
物生理指标,记为x(x1,x2……xi)。
• 分类:连续变量(continuous variable)和非连续变量
(discontinuous variable)。可以是定量的(数值),也 可是定性的(红、白等,血型AB)。
• 常数(constant):不能给于不同数值的变量。它代表事
概率是0.5 (=1/2)。
频数(频率)和百分比
• 频数(Frequency):变量值落在某个区间(或某个类别) 中的次数。 • 百分比(Percent):各频数占总样本数的百分比。
• 有效百分比(Valid Percent):各频数占有效样本数的百
分比。 • 累计百分比(Cumulative Percent):各百分比逐级累加 起来的结果。最终取值为100。
高中
大学
硕士
受教育程度
饼图(Pie Chart)
用圆形及圆内扇形的面积来表示频数百分比 变化的图形
利于研究事物内在结构组成等问题
饼图中圆内的扇形面积可以表示频数,也可 以表示百分比。
受教育程度
小学 6.3% 12.5% 12.5%
硕士
初中
12.5%
高中
56.3%
大学
直方图(Histograms)
fX ⑷=⑵×⑶ 7 27 66 104 180 340 513 378 276 200 108 29 2228
fX X f
1 7 3 9 1 29 18.57m ol/ L 1 3 1
众数(Mode)
定义:样本数据中出现频数最高的那个样本值.
用矩形的面积来表示频数分布变化的图形。
适用于定距形变量的分析。 可以在直方图上附加正态分布曲线,以便于正 态分布比较。
受教育程度
10
8
6
4
2 Std. Dev = 1.09 Mean = 3.6 0 1.0 2.0 3.0 4.0 5.0 N = 16.00
受教育程度
直方图(频率分布图)
2.顺序数据(Rank data)
对事物进行分类的结果,但类别有顺序。
比分类尺度精确。 未测量出类别之间的准确差值。 顺序数据举例:考试成绩、消费者对产品的偏爱程 度等。考试成绩:优-5、良-4、中-3、及格-2、不 及格-1。
3.数值型数据(Metric data)
使用自然或度量衡单位对事物进行计量的结果。
用加权法计算均数
表2-3 频率表法计算均数 组段 ⑴ 6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 合计 频数f ⑵ 1 3 6 8 12 20 27 18 12 8 4 1 120
0
组中值(X) ⑶ 7 9 11 13 15 17 19 21 23 25 27 29 —
试验资料的整理与特征数的计算
• 资料的收集常用的方法有调查和试验,资料的整理一般
需要通过对原始资料进行检查、核对、制作次数分布表
和次数分布图来完成。 • 试验资料有集中型和离散型两种基本特征。 集中性:平均数反映集中型的特征,其中包括算术平 均值、中位数、几何平均值;
离散型:离散型的特征数是变异数,主要包括极差、
Valid
小学 初中 高中 大学 硕士 Total
频数分析中常用的统计图
条形图(Bar Chart) 用宽度相同的条形高度或长短来表示频数分布变 化的图形 适用于顺序和分类变量的分析
纵坐标可以是频数,也可以是百分比
受教育程度
60 56 50
40
30
20
10 6 0 小学
13
13
13
初中
平均数(Mean)
算术均数(arithmetic mean):全部数据的算术 平均数 x1 x2 ... xn 1 n xi 计算公式: x n n i 1 特点: • 最常用的测度值
• 均值利用了全体数据
• 易受数据中极端值的影响
• 用于数值型数据,而不能用于分类数据和顺序数据
物的特征和性质值,由变量计算而来,在一定过程中是不 变的。如:总体平均数,标准差等。
参数与统计数
• 参数(parameter):是对总体特征的度量。如总体平均数
(μ)、总体标准差(σ)。
• 统计数(statistic):样本的计算值,是描述样本的特征
的数量,如样本的平均数(x)、标准差(s)。
• 样本估算总体:由于总体一般很大,有时不可能获得,所
结果表现为具体数值,是最常见的数据类型。
数值型数据举例:污染物的浓度。
三种类型数据的比较
分类数据和顺序数据:说明的是事物的品质特征,用文字 表示---定性数据或品质数据。
数值型数据:说明的是现象的数量特征,用数值表示--定量数据或数量数据。 定性数据和定量数据也可以相互转化。 如年龄:老年、中年、青年、儿童 学历:大学-1、高中-2、初中-3、小学-4
二、观测数据和实验数据
1. 观测数据(observational data):通过调查或观测
而收集到的数据—社会经济领域
2. 实验数据(experimental data):在实验中控制实验
对象而收集到的数据—自然科学领域
三、截面数据和时间序列数据
1. 截面数据(cross-sectional data):在相同或近似相同 的时间点上收集的数据。如2005年我国各地区的GDP数据。 2. 时间序列数据(time series data):在不同时间上收集
12 10 8 6 4 2 0
频率密度(%)
7
9
11
13
15
17
19
21
23
25
27
29
鲤鱼体长
散点图
• 散点图(scatter chart):适合于表示计数资料和计 量资料的次数分布等。
1
0.8
浓度
0.6 0.4 0.2 0 0 2 4 6 时间 8 10 12
全距、组数、组距
• 全距:全距(range)亦称极差,用R表示,R=最大值- 最小值。 • 组数:分组的个数。根据样本观测值的多少和组距来确 定。组数多,组距变小,统计数精确,但不便于计算。 • 组距:每组内的上下限范围。(组距=全距/组数) • 组中值:组上下限的中间值。 样本容量 30-60 60-100 100-200 200-500 >500 分组数 5-8 7-10 9-12 10-18 15-30
• 例:测得8只正常大鼠血清总酸性磷酸酶 ( TACP )含量( U/L )为 4.20 , 6.43 , 2.08 , 3.45 , 2.26 , 4.04 , 5.42 , 3.38 。试求其算术均 数。
X X
n 4.20 6.43 2.08 3.45 2.26 4.04 5.42 3.38 8 3.9075 (U / L)
方差、标准差和变异系数。
准确度和精确度
• 准确度(accuracy):观测值与真值的接近程度。 • 精确度(precision):观测值彼此接近的程度,通
常用变量间变异程度的大小来衡量该样本的统计
数的精确度的高低。
频率和概率
• • • 频率(frequency):是指某事件实际发生的强度或频度。 概率(probability ):是描述随机事件发生可能性大小的 数值。 概率表示(P): 其值介于0到1之间。P越接近1,表示该事件 发生的可能性越大,反之越小。 P=1 为必然事件, P=0 为不 可能事件。 • 小概率事件:是指P≤0.05 或P≤0.01 的事件。若小概率事 件出现,我们认为不发生。
的数据。如1996-2005年我国的GDP数据。
总体和个体
• 总体(population):具有相同性质的个体所组成的集合,
它是指研究对象的全体。 有限总体:被研究对象是有限的,如:一批样品的总
数。
无限总体:被研究对象是无限的,如:如企业生产以 前、现在、将来全部的产品。
• 个体(individual):组成总体的基本单元。 • 总体含量:总体所含的个体数,常用N来表示。
样本
• 样本(sample):从总体中随机抽出,并要对其进
行详细研究的一部分个体。样本有一个或若干个 样品(个体)组成。
• 样本容量(n):样本中所含个体的数目。n<30
(50),小样本;n≥30(50),大样本。
• 样本作用:估算总体。
变量与常数
• 变量(variable):相同性质的事物间表现差异性的某项
以总体参数不可能计算出来,通常用样本统计数来估计总
计的参数。
效应与互助
• 主效应:试验因素中相对独立的作用因素产生的效应。 • 互助效应:两个因素以上产生的效应。如,氮肥、磷肥对
作物的产量产生互助效应。
• 效应分类:正效应、负效应、零效应(无交作用)
• 判断互作效应:专门的推断方法、专业知识、经验。
数据统计分析基础:
试验资料的整理与特征数的计算
基于统计或实际观察提出假设(问题)
概念的可操作型定义
抽取样本或受试者 调查 实验设计 数据收集
统计分析过程
数据整理
编制图表、统计描述 解释 样本 数据是总体或样本 总体 结果发现,对总体进行分析、总结 统计推断
统计数据的类型
按计量尺度
按收集方法按时ຫໍສະໝຸດ 状况
相关文档
最新文档