第六章统计分析方法(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7225 6400 7056 7396 6084 5625 6889 8100 7921 7744
70440
7744 7569 7225 7056 6561 5776 7225 8836 8464 8464
74920
7480 6960 7140 7224 6318 5700 7055 8460 8188 8096
5、标准分数
27
标准分数 z 科目 平均数 标准差 原始分 标准分
政治
语文
84
77
5
6
86(甲)75(乙)
80 68
0.40(甲)-1.8 0
0.50 -1.50
外语
数学
70
70
12
8
56
74
82
78
-1.17
0.50
1.00
1.00
物理
化学
62
85
12
5
56
91
87
83
-0.50
1.20
2.08
例:某区要在2500名初三学生中选50人参加全市初中物理竞赛。 已知该区初三上学期物理考试成绩近似正态分布,且平均数57分, 标准差16分。若以这次考试为准来选拔参赛者,分数应定为多少?
性别
男 女 合计
2、多项表
优 2 11 13
成绩(人数) 良 8 9
8 16 5 14
合计
3 2 5 22 26 48
根据两个或两个以上变量进行分类的统计表 3、次数分布表
Байду номын сангаас
反映数据在各分组区间内的分布情况
例:80个学生的考试成绩如下: 84,81,94,72,82,80,84,92,93,86,83,89,76,77,90,85,93, 91,90,84,96,76,79,87,78,77,76,74,85,84,79,83,80,85, 98,77,86,84,75,82,77,89,88,84,83,83,78,89,83,84,80, 96,83,83,86,93,87,73,89,76,97,82,87,79,80,70,80,85, 67,83,88,78,73,69,78,82,79,80,77,72
表2-11 我国上网用户每周上网时间统计表
上网时间 所占百分比(%)
1小时以内 1-5小时
6-10小时 11-20小时
3.00 27.00
29.00 21.00
21小时以上 合计
20.00 100
资料来源:《当代工人》,1999.7
3% 20% 27% 1小时以内 1-5小时 6-10小时 11-20小时 21小时以上
-0.40
443
473
0.93
0.38
思考题? 1、甲、乙两班语文入学成绩的平均分与标准差分别为甲班96 分,标准差为3.50分,乙班的平均分为78分,标准差为3.28分,试比 较甲、乙两班语文入学成绩的离散程度。 2、某学生参加统考的数学和外语成绩分别为x1=92分, x2=80分,已知全体考生的数学平均分为90分,标准差为4.20 分;外语的平均分为74分,标准差为5.40分,问该生数学和外语哪 科成绩好些?
3、定距变量(等距变量) 是取值具有“距离”(间距)特征的变量。如温度、测验分数 等都属于这类变量。 定距变量数值可以用于表明事物距离差异大小 。如我们不仅知 道40温度高于20的温度,而且还知道40于20的温度之差,相当于 30于10的温度之差。但是间隔变量没有绝对零点,其“0”并不表 示绝对的没有,而是根据实际需要人为确定一个基点。 等距变量在比较时只能进行差数的对比,而不能用倍数进行比 较。其统计方法有标准差、T检验、Z检验、F检验、积差相关等。 4、定比变量(比率变量) 是一种既有测量单位又有绝对零点的变量。
当Z=3.00,查表得P=0.4986
正态分布的应用 例:某小学一年级220名学生,语文期末考试成绩近似正态分布, 已知语文成绩平均分数为77.5分,标准差为7.5分,求: (1)70分至85分之间的学生有几人? (2)90分以上的学生有几人?
(3)60分以下的学生又有几人?
解:Z1=(70-77.5)/7.5=-1 Z2=(85-77.5)/7.5=1
第六章 统计分析方法
第一节
一、总体与样本 总体:统计研究对象的全体 如,某项统计分析的任务是要了解全区一年级学生的视力情况, 那么,全区所有一年级学生的视力就构成了一个总体。 总 体 无限总体 :总体包含的数目是无限的。 有限总体 :总体包含的数目是有限的。
若干基本统计术语
个体:组成总体的基本单位。 比如,某区一年级学生视力总体的每一个学生的视力都是一个个 体。 样品:从总体中抽出一部分个体进行研究,被抽到的个体。 样品容量(n或N):样品的个数。 样本容量大于30的样本称为大样本,样本容量小于30的样本称 为小样本。 二、变量 变量(variable):是指研究对象的个体之间在性质和数量上可以 变化并可以测量的条件、现象或特征。 比如年级的高低、成绩的多少、态度的好坏等。
例:全区1000名三年级学生参加算术竞赛,平均分为70分, 标准差为6分,若分数分布呈近似正态,问: (1)包括中间75%的人数的分数范围为多少? (2)选拔参加全市算术竞赛的人数为50人,分数线应定 在多少分? 解:(1)正态分布中,75%的个体包括在平均分数上的37.5% 和在平均分数下的37.5%. 查表得知:Z=0至Z=1.15之间的面积为0.375 Z=(x-u)/£ X2=70+1.15×6=76.9 X1=70-1.15×6=63.1 (2)被选拔的50名学生占总人数的50/100=5% 50%-5%=45% 查表得知Z=1.64 X=70+1.64×6=79.84
(1)、求全距。全距是全部数据中的最大值与最小值的差。用 R表示。R=98-67=31 (2)、确定组距和组数 组数是分组的个数,组距指每一组的间距。 分组一般以10—15组为宜,至多不超过20组,组距常取1、2、 3、5、10等数值。 i(组距)=R全距/K(组数)
(3)、决定组限:组限是每组上、下端分界点。 第一,组值最大的分组区间内应包含数值最大的数据,组值最 小的分组区间内应包含数值最小的数据。 第二,分组区间一般列在次数分布表左边第一列,数值小的 分组区间写在下方。 (4)、分组登记次数 二、统计图 1、条形图(直条图) 用宽度相同的直条(长方形)的长度(高度)来表示事物的数 量或者百分比的大小的一种统计图。 主要用于性质相似的非连续性(间断)数据(变量)。
处理类别变量的统计方法有求总数、比例、众数、×2检验等。
2、定序变量(顺序变量) 是用数字表示个体在某个有序状态中所处的位置(层次、水平) 的变量。 顺序变量的数值不具有间隔和比例的性质,因此,仍然不能直接 进行四则运算。 例如“学生品德”y定义为y=1(优秀),y=2(良好),y=3(一 般),y=4(差)。 顺序变量常用的统计分析方法有中位数、百分数、等级相关等。
例如身高、体重、距离、教育投资数、学校固定资产金额等均 属这类变量。
比率变量在比较时不仅能用差数进行比较,而且还能用倍数 进行比较,统计方法除了上述各种变量所使用的方法外,还可用 几何平均数、相对差异量数进行分析。
定类变量 定距和定比变量 定性型变量 定量变量
第二节
描述统计
描述统计是在数据整理的基础上用统计图或表呈现结果,或者 计算变量的数字特征,以反映研究对象的规模、水平、比例集 中趋势或离散程度等。 一、统计表 (一)、根据分类变量的个数 1、单项表 是只根据一个变量进行分类的统计表。
例如:10名5岁幼儿在语言X和常识Y上的得分如表所示,求两 者的相关程度。
序号 语言X 常识Y X2 Y2 语言x常识(XY)
1 2 3 4 5 6 7 8 9 10
总计
85 80 84 86 78 75 83 90 89 88
838
88 87 85 84 81 76 85 94 92 92
864
21% 29%
图2-5 我国上网用户每周上网时间统计图
次数分布直方图
图2-9 90名学生语文成绩绘制的直方图
某中学1998年对240名学生家长的职业调查:公务员58人;军人1 人;工人90人;个体工商业主45人;教师`45人。请绘制一圆形图。
例如,7、8、11、12、14、15、18、20、22这9个数中,第5个数 14便是中数。 若数据的个数是偶数,一般应以中间两个数值的平均值作中数。 3、众数 是一组数据中出现次数最多的那个数值。M0。比如,4、5、8、 8、8、7、9、9、10、12、8、7 4、方差 方差和标准差都属于差异量数,反映了变量取值的离散程度。
正态曲线是左右对称的,呈钟形---中间高,多数数据处于 这一位置,离均值越远,曲线高度越低。 在正态曲线中,中数、众数以及平均数都是同一个数。 可以预测,某个分数所占的具体百分比落在曲线的不同区间里。 例:从Z=-1.00至Z=+1.00之间的面积,正好是Z=0至Z=+1.00 之间的面积的2倍,而Z=+1.00,查表得面积P=0.3413,则Z=-1.00至 Z=+1.00之间的面积为2×0.3413=0.6826 当Z=2.00,查表得P=0.4772
某班学生李红在期中、期末考试中,语文成绩和物理成绩 如下表,班的平均分和标准差已知,问李红哪门功课进步了, 哪门功课退步了?
科目 班平均分 期中 语文 物理 80 66 期末 74 69 班标准差 期中 8 9 期末 8 9 李红原始分x 期中 88 77 期末 84 80
四、相关系数
1、相关
两个变量之间的关系,一般可以分为两类:函数关系与相关关系。 ①、正相关r>0 ②、负相关r<0 ③、零相关r=0 2、相关系数---积差相关 由20世纪英国统计学家皮尔逊提出,也称皮尔逊相关
1995 1994
年份
1993 1992 1991 1990 0 1000 2000 3000 册数 4000 5000 6000
图2-2 1990-1995年某中学图书馆藏书统计图(横式带形图)
2、饼图(圆形图)
用圆形中的扇形面积来表示事物的百分比的构成。 3、次数直方图(直方图) 在次数分布表的基础上做出来的,横轴表示变量的数值大小, 纵轴表示数量在每组中的取值次数。 4、次数多边图 三、样本的数字特征 1、平均值 2、中位数
72621
第三节 推断统计
推断统计指用概率形式来决断数据之间是否存在某种关系及用 样本统计值来推测总体特征的一种重要的统计方法。 一、概率 概率也称“机率”、“或然率”。表示随机事件发生可能大小 的量。 二、正态分布 正态分布是一种应用广泛的常见分布。例如同一年龄组学生的 身高、智商、成绩等均服从或近似服从正态分布。
广义地讲,变量不仅包括反映事物数量差异的数量变量(比如身 高、体重、分数、人数等),而且还包括反映事物性质差异的品质 变量(比如性别、地区、民族等)。
三、变量的类型 1、定类变量(名称变量) 是指其数值只用于区分事物的不同类别,而并不表示事物数 量大小关系的一种变量。 如性别分男女,颜色分红、橙、黄、绿、青、蓝、紫。健康状况 分为健康、一般、不健康等。班级的编号,(1)班、(2)班、 (3)班中的“1、2、3”只是一种类别差异的代码,而不能表示数量 大小关系。
查表得知: Z1 与Z2(70分至85分)之间的面积为:
0.3413+0.3413=0.6826 n=220×0.6826≈150
(2)Z=(90-77.5)/7.5=1.67 查表得知Z=1.67至Z=0之间的面积为0.4525 90分以上的学生所占的面积为0.5-0.4525=0.0475 n=220×0.0475≈10 (3) Z=(60-77.5)/7.5=-2.33 查表得知Z =-2.33至Z=0之间的面积为0.4901 60分以下的学生所占的面积为0.5-0.4901=0.0099 n=220×0.0099≈2 练习:假设500名学生的数学成绩分布符合正态分布。且已知平 均分70分,标准差5分。试问60分以下,60—80分,80分以上, 这三个分数段中,学生的人数分布各为多少?
表2-8 1990-1995年某中学图书馆藏书统计表
年份 册数
1990 2124
1991 2922
1992 2326
1993 2633
1994 3073
1995 4888
6000 5000 4000
册数
3000 2000 1000 0
1990 1991 1992 1993 1994 1995
年份
图2-1 1990-1995年某中学图书馆藏书统计图(纵式柱形图)