统计学1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§2.4 百分位数、百分等级
• 频数分布主要目的是描述整组数据,但也 可以用来描述整组数据中的个体位置。 • 个体分数或X值被称为原始分数,可以把原 始分数转化为百分位数; • 一个特定分数的等级或百分等级被定义为 分布中分数低于或与特定分数相等的个体 的百分率, • 当一个分数被它的百分等级确认时,这个 分数被称为百分位数,
• 如研究温度与记忆力之间的关系 • 被试变量,如年龄、智力等会随着个体 不同而变化,研究者必须保证两组被试 变量完全不同; • 环境变量,一些环境特性可能包含光线、 天气等因素,需保证每组被试个体的环 境是相同的; • 通常有三种方法来控制:随机分配;匹 配;将变量控制为常量;
实验法的术语 • 自变量是被研究者操纵的变量; • 因变量是被观察的那个变量,用于评估处 理效应; • 实验研究通过操纵自变量,测量因变量, 并评估二者间的关系; • 在实验中,将没有接受任何处理的条件下 得到的被试分数与接受了处理的那些被试 分数比较,来分析不同处理条件下是否存 在处理效应。非处理条件被称为控制条件; 处理条件被称为实验条件。
• 图的使用与误用 年份 2003 2004 2005
重大犯罪数量 230.00 228.00 226.00 224.00 222.00 220.00 218.00 216.00 214.00 212.00 2003 2004 2005
0.00 2003 2004 2005 50.00 150.00 200.00 250.00
• 实限。X=40实际上是一个从39.5到 40.5的区间; • 表面界限。从X=40到X=49的区间,40 和49是表面界限,实际上是从38.5到 49.5的区间;
§2.2 频数分布图
• 一个频数分布图基本上描绘了频数分布表 中所显示的信息。 • 测量量表在X轴上以递增形式由左至右,频 数以递增形式由下至上列于Y轴; 等距或等比数据的频数分布图 • 直方图,将数字(测量类别)沿X轴列出, 然后画出位于每个X值上的一个矩形: a 高度对应每个类别的频数; b 宽度为每个类别的实限;
%( p ) 10% 25% 35% 15% 10% 0% 5%
• 分组频数表 • 当一个数据组涵盖了较大范围的值时,在 频数分布表中列出所有数据就不合理了; • 常用规则: 1:大约具有10个组距; 2:每个区间的宽度应为相对简单的数字; 3:每组距的最小数值应为宽度的倍数; 4:所有区间应具有相同宽度;
重大犯罪数量 218.00 225.00 229.00
重大犯罪数量
重大犯罪数量
100.00
重大犯罪数量
§2.3Hale Waihona Puke Baidu频数分布的形状
• 由三个特性完整地描述了任意分布:形状、 集中趋势、变异性 • 对称分布,可通过中心画一条垂直线使得分 布的一侧为另一侧的镜像; • 在一个偏态分布中,分数倾向于堆积在量表 的一端并向另一端逐渐变细的部位被称为分 布的尾。 • 尾在右侧的分布被称为正偏态分布,若尾指 向左侧,则这个分布被称为负偏态分布
统计学
部分一 简介及描述性统计
第一章 基本概念
§1.1 统计定义 • 统计学是数学的一个分支,研究如何收集、 整理、分析、总结及解释数据。 • 统计、统计过程; • 统计过程提供给研究者客观及系统的描述及 解释他们的研究成果的工具; • 统计服务于两个目的:(1)整理及总结, 看出发生了什么,并与其他研究者交流; (2)回答引出的普遍问题,根据获得的结 果确定结论究竟是什么;
样本1 A、B、C、D、E 样本统计量 平均年龄=19.8岁 平均IQ=104.6 60%为女性,40%为男性
样本2 1、2、3、4、5 样本统计量 平均年龄=20.4岁 平均IQ=114.2 40%为女性,60%为男性
• 通常样本统计量和相应的总体参数间 存在一些差异。这种差异被称为取样 误差。 • 样本统计量根据样本的不同而变化, 且通常与其相应的总体参数不同。 • 天然存在的由随机的偶然性导致的差 异被称为取样误差;
• N=20,来自一个满分为10分的统计测验。 8,9,8,7,10,9,6,4,9,8, 7,8,10,9,8,6,9,7,8,8
X 10 9 8 7 6 5 4
f 2 5 7 3 2 0 1
X 10 9 8 7 6 5 4
f 2 5 7 3 2 0 1
p=f/N 2/20=0.10 5/20=0.25 7/20=0.35 3/20=0.15 2/20=0.10 0/20=0.00 1/20=0.05
• 从个体中得到的测量或观察被称为数据,或 被称为分数或原始分数; • 发展出一系列不同的统计过程来组织并解释 数据,这些不同的过程被归为两类:第一类, 描述性统计,用于简化和总结数据的统计过 程;第二类,推论性统计,是用样本数据做 出关于总体的一般性陈述的方法。
例:
总体 1000个大学生 总体参数 平均年龄=21.3岁 平均IQ=112.5 65%为女性,35%为男性
• 累积频数和累积百分率
X 5 4 3 f 1 5 8 cf(累积频数) 20 19 14 c% 100% 95% 70%
2
1
4
2
6
2
30%
10%
内插法
§2.5 茎叶图 • 一种组织数据的方法,是频数分布或图的简单替 代。把数据组织成茎和叶
数据 83 62 71 76 85 32 56 74 茎叶图 3 23 4 26 5 6279 6 283 7 1643846 8 3521 9 37
• 比较两组或多组测量:实验法或非实验 法 • 检验两个变量之间关系的方法包括比较 两组或多组数据; • 一个变量被用来定义组别,然后测量第 二个变量; • 实验法 • 目的是展示两个变量之间的因果关系 • 两个特性:操纵和控制
• 操纵,操纵一个变量,将其值从一个水 平变化至另一个水平,然后观察(测量) 第二个变量,来确定这种操纵是否导致 了变化的产生; • 控制,研究者必须控制研究情况,使得 其它无用的变量不能影响需要研究的变 量关系;
82 93 68 52 42 57 73 81
63 78 33 97 46 59 74 76
第三章
集中趋势
• 集中趋势是一个统计测量,确定了能够代 表分布中心的一个数值 • 集中趋势的目的是找到最典型或最能代表 整个组的单个数值,描述了一个大型总体 的典型特征 • 确定集中趋势并没有统一、标准化的方法。 问题是没有一种测量集中趋势的代表性数 值的方法适用于所有的情况
• 平均数 • 也称算术平均数,是数据的总和除以数据的 个数 X • 总体平均数的公式: N • 样本平均数的公式: M X
n
• 加权平均数 • 两个独立样本:一个样本n=12,M=6;第二个样 本n=8,M=7(平均数为6.4) • 样本大小不同对整个组做出更大贡献, • 另一种方法: 12 6 8 7 6.4 20 20
§1.3 数据结构、研究方法与统计 • 变量是一种针对不同个体具有不同值的特性或 条件; • 常量是一个特性或条件,它不会变化,并且对 每一个个体都相同; • 测量每个个体的两个变量:相关法 • 观察一组个体的这两个变量的自然存在状态, 即测量每个个体的这两个变量,找出变量内部 的联系; • 一种是数字值,可以分析二者间的关系;另一 种是非数字值,是类别,而每个类别中是个体 的数字,采用卡方检验;
总体: 所有感兴趣的个体
从样本中得到结果 被推广到总体
从总体中选取的样本
样本: 选出参加研究的个体
图1.1 总体与样本间的关系
§1.2 总体与样本 • 总体是一个特定研究中所有感兴趣个体集合; • 样本是从一个总体中选择出来的个体的集合, 通常在研究中被期望代表总体; • 必须区分数据是来自总体还是样本。描述总体 的特性被称为参数;描述样本的特征被称为统 计量 • 参数和统计量是一个值,通常是一个数字值。 可分别从单个测量中得到,或从对总体和样本 的一组测量中推导出来; • 通常,每个总体参数都与一个样本统计量相对 应
• 修正的直方图,矩形是一摞方块,每个方块代表 一个个体,方块的数目与这个分数的频数相对应。 • 折线图,将数字(测量类别)沿X轴列出, a. 每个坐标的中心上方有一个点,它的垂直位置 对应着这一类别的频数; b. 点和点之间的连续线段将这一系列点连在一起; c. 在分数全距的两端各画一条直线与X轴相交。这 两条线与X轴的交点通常使得一个低于最低分数 的类别在交点的左侧,另一个高于最高分数的类 别在交点右侧;
• 非实验与准实验法 • 并非真正的实验,但也通过不同的数据来 检验变量之间的关系,被称为非实验或准 实验 • 没有使用操纵和控制,或使用了操作和控 制,但无法控制时间,也无法通过控制其 他变量来改变时间; • 对组别不是通过操纵自变量得到的,通常 是由被试变量或是时间变量决定。决定组 别的变量称为准自变量。
§1.4 变量与测量
• 构念(construct)是事物的内部属性,不 能被直接观察到,但可描述并解释行为; • 操作定义是一个测量过程,测量了外部行 为,并使用测量结果作为定义和对假设的 构念的测量。 • 操作定义有两个部分:首先,它描述了一 系列测量构念的操作;其次,用测量结果 定义了构念。
• 离散变量和连续变量 • 离散变量是由不同的、不可分割的类别组成。在两个 相邻的类别之间不存在其他的值。 • 连续变量,在任意两个观察到的值之间都存在无限多 个可能的值。一个连续变量可被分割为无限个小数部 分。 • 当测量连续变量时,两个不同个体很少会得到完全一 样的测量。每个测量类别事实上都是一个区间,需要 用边界来定义。 • 实限是可以被表示为一条连续数据线上数值组成的区 间的界限。将两个相邻数值分开的实限恰好位于这两 个数值中点。每个数值都有两个实限。上实限是区间 的定边,下实限是区间的底边。
• 最简单的频数分布表在测量量表时,将不同测 量类别X值按由高至低顺序放在列中。在每个 X值旁表明频数,或一个特定的测量在数据中 出现的次数。 • 习惯上用X表示分数,f表示频数 • 比例测量了每个数据在整个组中所占的部分; • 比例描述了频数与数据数目之间的关系,也被 称为相对频数; • 百分率则被描述为相对频数百分数的形式;
称名数据或顺序数据的频数分布图 • 当数据用称名量表或顺序量表测量时,频 数分布可以被表示为柱形图 • 柱形图,除了相邻矩形间留有空隙外,柱 形图与直方图相同; • 沿X轴列出类别的测量,然后在每个类别上 画一个矩形,使得矩形的高度与类别的频 数相对应。
总体分布的频数分布图
• 相对频数,通常无法得出总体中每个分数的具 体频数,但可得出相对频数, • 如:某湖中一种鱼的数量是另一种鱼的两倍 • 平滑曲线,当总体由等比量表的数字分数构成 时,习惯上用平滑曲线代替直方图或折线图中 的阶梯状或锯齿状。 • 平滑曲线并非将一系列点连在一起,而是将一 个分数至另一个分数的相对变化展示出来, • 如:正态曲线
第二章
频数分布
• 分析处理大量的数据。首要的问题是如何 将数据组织为某些可理解的形式,使得比 较容易发现数据的趋势,并与他人交流。 这是描述统计学的任务:简化结构并整理 组织数据。 • 整理数据最常用的一个过程是将数据放入 一个频数分布 §2.1 频数分布表 • 频数分布是一种组织好的关于位于测量量 表每个类别上的个体数目的数据表
• 测量量表 • 测量包括了将事件分类(定性测量)或使 用数字描述事物的大小(定量测量) • 测量与一些量表类型有关,且某些统计过 程适用于用一些种类的量表收集的数据;
• 称名量表由一系列具有不同名称的类别组 成。称名量表的测量将观察的对象分类并 贴上标签,但不对观察做任何定量的区分
• 顺序量表由一组按顺序排列的类别组成。顺 序量表的测量将观测的对象按大小排序; • 等距量表与等比量表, • 等距量表由排序的类别组成,这些类别都是 完全相同大小的区间。在等距量表中,量表 上的数字之间的差异等价于量上的差异。然 而大小的比例没有意义; • 等比量表是一种等距表,有一个绝对零值。 使用等比量表,数字的比例可反映量上的比 例。