第03章描述统计
03第三章 统计分布的数值特征
f 解法二: x x f
2014-3-30
第三章 统计分布的数值特征
1.1 算术平均数
算术平均数的性质
1. 各变量值与平均数离差之和为零。
x
2
i
x 0
x
2
i
x fi 0
2. 各变量值与平均数的离差平方和为最小。
x x x c
x f x f
x1 f 1 x 2 f 2 x n f n f
x1
f
f1
x2
f
f2
xn
f
16
fn
f x f
2014-3-30 第三章 统计分布的数值特征
1.1 算术平均数
加权算术平均数:
x f f x x f f
第三章 统计分布的数值特征
24
1.2 调和平均数
甲 企 业 工人人数 f 100 总产量 xf 108 000 乙 企 业 总产量 m 107 000 工人人数 m/x 100
甲企业人均产量: xf x f 108 000 1 080 件 人 100
乙企业人均产量: m H m x
xf 18 000 44 000 135 000 52 500
(%)
f
(元)
x f
f
10 20 50 15
f
90.0
220.0 675.0 262.5
2 000以上
合 计
2014-3-30
2 250
—
10
200
22 500
272 000
SPSS-03描述性统计分析
这三组数据的均值都是15.5,即他们的集中
趋势相同,但偏离中心的离散趋势却大不相 同:B最集中,A较的分散,C最分散。
①全距(range):又称极差,定义是range=maxmin,不常使用,只适合于度量型变量的计算。
②方差(variance)和标准差(std. deviation ):
如果勾选“描述性”:则输出均值、中位数、众数、
标准差、方差、最小值、最大值、峰度、偏度…… 如果勾选“M-估计量”:通常用来判断异常值,若 此统计量离均值较远,说明数据中有异常值
如果勾选“界外值”:则输出最大的5个值和最小
的5个值 如果勾选百分位数:输出第5%、10%、25%、50%、 75%、90%、95%分位数 这里勾选“描述性”,单击【继续】返回,单击 【绘制】,勾选“茎叶图”和箱图,即保持默认选 项,【继续】后返回,最后点击【确定】 结果显示,案例共有1963个,有效率是100%,缺 失率是0%;表格列出了均值、中位数、方差等统 计量,统计量偏度为1.371表示数据右偏,峰度大 于0,表现出“尖峰拖尾”的特性。
3.2 度量型变量的描述性统计分析
度量型变量的性质很好,最适合做统计分 析,与前两种变量相比,针对度量型变量的 统计方法要丰富的多。 首先来学习度量型数据描述性统计分析时 常用的几个统计量。
度量型变量的特点可以归纳为:
变量的取值可以是有限或无限个,可以是离
散取值,也可以是连续取值;变量的大小不 仅表示顺序,而且取值的差表示两个变量的 距离;不同的差距是可以比较的。
如果n是偶数,中位数为按从小到大的顺序,取中间
那两个数的平均数。 ③众数(mode): 是指变量值中出现频数最多的那个取值,三种类型 的变量都可以计算众数,众数可能不止一个,也可 能没有。 例如,调查10个学生的成绩,分别是: 69,72,84,75,84,75,74,89,90,75 众数是75
统计学原理第03章第三、四节
从形式上看:统计表由总标题、横行标题、纵栏
标题、指标数值构成。
从内容上看:统计表由主词和宾词两部
分构成。 主词 说明总体或总体的分组。 宾词 用哪些指标数值来说明总体或总体 的分组。
第四节 统计数据的显示
一、统计表
(三)统计表的分类
作用
主词 分组
(1)简单表 (2)简单分组表
第三节 分配数列
一、分配数列的概念的和种类
(一)分配数列的概念
将总体各单位按某个标志分成若干组,列出各组的总体
单位数或各组单位数在总体单位数中所占的比重,这样
形成的数列称为次数分布数列。简称分布数列或次数分
布。
分布在各组的数据个数叫做次数或频数。 各组数据个数在全部个数中所占的比重为频率。
2、3„
有计量单位
表中不允许有空格:若不需要此资料则
用“-”;暂缺某资料则用“„„”
第四节 统计资料的显示
二、统计图
(一)统计图的概念
统计图就是以散点、直线、折线、曲线、面积、 形状等具体的形象来表示统计数据的形式。
第四节 统计资料的显示
二、统计图
2
3
4
5
• 表中数字影填写整齐,对准位数等
• 统计表中必须注明数字资料的计量单位 • 必要时统计表应该加注说明或者解释
6
7
第四节 统计数据的显示
(五) 统计表的编制原则 1. 总标题须简明扼要表达出全表的内容; 2. 各标题要确切反映表的内容,且表格安排合理; 3. 指标数值要位数对齐,合计或总计一般放在表的
宾词
设计
(1)调查表 (2)汇总表或整
(1)简单设计 (2)复合设计
管理统计学在线作业答案
管理统计学在线作业答案1.【第01章】经济管理统计的职能是:正确答案:ABDA 信息职能;B 咨询职能;C 决策职能;D 监督职能;E 预测职能2.【第01章】描述统计与推断统计的区别在于前者简单,后者复杂。
正确答案: 错3.【第01章】经济管理统计的基本内容,包括:正确答案:ACEA 描述统计;B 设计统计;C 推断统计;D 预测统计;E 统计分析4.【第01章】西方统计学界常把概率论引入到统计学研究方法的凯特勒称为“近代统计学之父”。
正确答案: 对5.【第01章】国势学派代表人物是阿亨瓦尔,他代表了统计学中的“有实无名”学派。
正确答案: 错6.【第01章】任何统计数据都可以归结为绝对数、相对数和平均数中的一种。
正确答案: 对7.【第01章】某班学生数学考试成绩分别为65分、71分、80分和87分,那末,这四个数字是:正确答案:D A 指标; B 标志; C 变量;D 标志值8.【第01章】一个管理统计总体:正确答案:D A.只能有一个标志 B.只能有一个指标 C.可以有多个标志 D.可以有多个指标9.【第01章】对50名职工的工资收入情况进行调查,则总体单位是:正确答案:CA 50名职工;B 50名职工的工资总额;C 每一名职工;D 每一名职工的工资10.【第01章】统计总体的基本特征是:正确答案:BA 同质性,数量性,变异性;B 大量性,变异性,同质性;C 数量性,具体性,综合性;D 总体性,社会性,大量性11.【第01章】下列属于品质标志的是:正确答案:B A 工人年龄; B 工人性别; C 工人体重; D 工人工资12.【第01章】品质标志表示事物的质的特征,数量标志表示事物的量的特征,所以:正确答案:ADA 数量标志可以用数值表示;B 品质标志可以用数值表示;C 数量标志不可以用数值表示;D 品质标志不可以用数值表示13.【第01章】在全市科技人员调查中:正确答案:ABCA.全市所有的科技人员是总体B.每一位科技人员是总体单位C.具有高级职称的人数是数量指标D.具有高级职称的人数是质量指标14.【第01章】下列标志中,属于数量标志的有:正确答案:CE A 性别; B 工种; C 工资; D 民族;E 年龄15.【第01章】下列指标中属于质量指标的有:正确答案:ACDA 劳动生产率;B 废品量;C 单位产品成本;D 资金利润率;E 上缴税利额16.【第01章】变量的具体表现称为变量值,只能用数值来表示。
SPSS 第03章 数据的描述
(=<22) 44 789999999 000001112333344444 55555677789999 000011111112223333333344444 5555666666777888889999 000111111112222222333444444 55555566678888888899999 0000000111123333 555666677888999999 000222233344 5566899 22 5
43
44
一般把因变量放在纵轴上.
鼠标点 击散点 图的任 意位置 不松手, 拖动即 可旋转 散点图.
45
二、计算基本统计量
• 定性变量(定序型和定类型变量):频数分析 • 定量变量(数值型变量):描述统计分析 • 菜单选项:【分析】-> 【描述统计】
46
1、频数分析
• 目的:通过频数分析,可以产生详细的频数分布 表和常用的图形,从中能够了解变量取值的状况 ,对把握数据的分布特征非常有用。
2、计算基本描述统计量
• 目的:计算基本描述性统计量,对数据的分布特
征有更准确的认识。 • 主要适用于:定量变量 • 基本描述统计量可分为三类:
刻画集中趋势的统计量:均值、中位数、众数; 刻画离散程度的统计量:全距、方差、标准差、 均值的标准误; 刻画分布形态的统计量:偏度、峰度。
53
1、刻画集中趋势的统计量 集中趋势是指一组数据向某一中心值靠拢的倾向。
37
简单散点图
38
重叠散点图
39
矩阵散点图
40
41
旋转后的3-D散点图
42
可选入一个分组变量,则表示按该变 量的不同取值将样本数据分成若干组, 并在一张图上分别以不同颜色绘制各 组数据的散点图. (可以省略)
CH03
n +1
B. n +1 a 0 a1 a n D.
n
an C. a 0
n
an 1 a0
E.
n
an a n 1
某部队夏季拉练,发生中暑21 21例 5. 某部队夏季拉练,发生中暑21例,其中北方籍战士为南方籍战士的 2.5倍 2.5倍,则结论为 C . A. 北方籍战士容易发生中暑 B. 南方籍战士容易发生中暑 C. 尚不能得出结论 D. 北方,南方籍战士都容易发生中暑 E. 北方籍战士中暑频率比南方籍战士高 6. 定基比与环比指标是 E . A. 构成比 B.平均数 C. 频率 D.绝对数 E. 相对比
二,描述人口学特征的常用指标
常 用 指 标 人 口 总 数
第二节
医学人口统计常用指标
意 义
根 据 资 料 整 理 的 特 点 , 人 口 总 数 分 为 时 点 人 口 数 : 指 一 个 国 家 或 地 区 在 某 一 特 定 时 间 的 人 口 数 ; 时 期 人 口 数 : 指 某 一 时 期 (或 某 一 年 )的 平 均 人 口 数 . 平 均 人 口 数 常 用 作 计 算 出 生 率 , 死 亡 率 , 发 病 率 等 指 标 的 分 母 . 是 将 人 口 的 性 别 和 年 龄 资 料 结 合 起 来 , 以 图 形 的 方 式 表 达 人 口 的 性 别 和 年 龄 构 成 . 它 以 年 龄 为 纵 轴 , 人 口 构 成 作 为 横 轴 , 左 侧 为 男 , 右 侧 为 女 而 人 口 金 字 塔 绘 制 的 两 个 相 对 应 的 直 方 图 . 人 口 金 字 塔 形 象 直 观 地 反 映 了 现 有 男 女 性 别 人 口 的 年 龄 构 成 , 而 且 也 可 以 分 析 过 去 人 口 的 出 生 死 亡 情 况 以 及 今 后 人 口 的 发 展 趋 势 . 指 老 年 人 口 系 数 及 老 化 的 程 度 . 可 作 为 划 分 人 口 类 型 的 尺 度 . 指 14 岁 及 以 下 少 年 儿 童 人 口 占 总 人 口 的 比 重 , 从 另 一 侧 面 反 映 人 口 老 化 程 少 年 儿 童 人 口 系 数 度 的 指 标 . 其 大 小 主 要 受 生 育 水 平 的 影 响 . 指 每 负 担 系 数 100 名 劳 动 年 龄 人 口 所 负 担 的 非 劳 动 年 龄 人 口 数 , 反 映 了 劳 动 年 龄 人 1 5 -6 4 岁 者 为 劳 动 人 口 , 0 -1 4 岁 65 岁 ( 或 60 岁 ) 及 以 上 人 口 占 总 人 口 的 比 重 , 用 于 反 映 人 口 是 否 老 化
《管理统计学》焦建玲 第03章 描述性统计分析
第三章 描述性统计分析
3.1 统计数据整理与显示
频数分布
【例3-1】以下是一个班级60名学生数学期末考试成绩,请编制 组距式变量数列。 90 78 81 64 83 75 78 79 81 82 91 93 95 94 84 64 61 87 70 60 20 65 77 73 78 92 88 73 86 73 64 76 71 67 63 69 70 89 90 83 74 79 76 99 75 38 55 82 93 98 85 78 89 66 71 84 70 68 72 80
第三章 描述性统计分析
3.1 统计数据整理与显示
统计分组
统计分组是根据统计研究的任务的要求和现象总体的内 在特点,按照一定的标志,将统计总体区分为不同类型或 不同性质的若干组成部分。这些组成部分中的每一个部分 就叫做一个分组,通过分组把总体内部不同性质的单位分 开,把性质相同的单位归并在一个组内,说明总体内部各 组之间的相互关系及其特征。
下限公式: 上限公式:
Me L
fi 2 Sm1 h fm
Me U
fi 2 Sm1 h fm
第三章 描述性统计分析
3.1 统计数据整理与显示
【例3-2】某高校随机抽取300名学生的身高样本资料,
并根据研究需求对样本进行分组,数据如表3-4所示,试
计算该校学生身高的中位数。
表3-4 某高校学生身高样本数据
第三章 描述性统计分析
3.1 统计数据整理与显示
频数分布
组限的具体形式有间断组限和重合组限,开口组限和闭口组限。 例如:企业职工按年龄分组,其 组限可表示为:30岁以下,30~39 岁,40~49岁,50~59岁,60岁以 上。
间断组限是每一组的组限与邻组的组限都是间断设置的。
第03章 描述性研究
第二节 个案调查与病例报告
(四)调查内容 个案调查的主要内容包括一般的人口学资料、 临床特征资料及流行病学资料。对于传染病来说, 除了调查一般的人口学资料、核实诊断的临床资 料外,还应着重调查病例的发病时间、地点、方 式,追查传染源、传播因素或发病因素,确定疫 源地的范围和接触者,从而指导医疗、护理、隔 离消毒、接触者的检疫,并积极采取科普宣传和 针对性健康教育措施。
前言
描述性研究中所利用的信息来源除了现况 调查外,还包括生命统计资料、健康体检资料、 疾病监测资料、环境监测资料以及国家食品、 药物或其他产品消耗的数字等。这些资料大多 是常规收集和比较容易获得的,因此与其他类 型的研究相比更节省经费与时间。
目录
第一节 概 述 第二节 个案调查与病例报告 第三节 现况调查 第四节 生态学研究
第三节 现况调查
2. 应用原则 ①要明确普查的主要目的是为了早期发现病 例,以便及时治疗 ②所普查的疾病患病率较高,是当前该地区 的主要公共卫生问题 ③疾病的检验方法和操作技术不很复杂,具 有较好的成本效益,群众易于接受 ④疾病的自然史明确,具有较长的领先时间 ⑤须有足够的人力、物力和财力
第三节 现况调查
第二节 个案调查与病例报告
个案调查应当是边调查、边分析并及 时采取措施。找出病例发病原因、可能的 传播因素、制订防治措施,得出调查结论。
第二节 个案调查与病例报告
【案例3-1】 患者,男,30岁,在美国某大学学习。患者于 2009年5月7日由美国圣路易斯经圣保罗到日本东 京,5月8日从东京乘NW029航班于5月9日凌晨1 时30分抵达北京首都国际机场,口岸入境检疫体 温低于37℃,没有反映个人有不适症状,并于同 日10时50分从北京起飞,乘3U8882航班于13时17 分抵达SC省CD市。患者5月9日在北京至CD航程 中自觉发热,伴有咽痛、咳嗽、鼻塞和极少量流 涕等症状,在CD机场下机后与家人乘出租车到 SC省人民医院就诊。
描述统计 统计推断
描述统计统计推断
标题,描述统计与统计推断。
描述统计和统计推断是统计学中两个重要的概念,它们在数据
分析和推断中起着至关重要的作用。
本文将简要介绍描述统计和统
计推断的概念及其在实际应用中的重要性。
描述统计是通过对数据的整理、总结和展示来描述数据的特征
和规律。
描述统计的方法包括计算平均值、中位数、众数、标准差、方差等统计量,绘制直方图、饼图、散点图等图表来展示数据的分
布和特征。
描述统计的主要目的是帮助人们更直观地了解数据,从
而对数据进行初步的分析和解释。
而统计推断则是基于样本数据对总体特征进行推断和决策的过程。
统计推断的方法包括假设检验、置信区间估计、方差分析等,
通过对样本数据的分析来推断总体的特征,并对这些推断进行统计
学上的验证。
统计推断的主要目的是通过样本数据对总体的特征进
行推断,并对这些推断进行科学的验证,从而为决策提供依据。
描述统计和统计推断在实际应用中有着广泛的应用。
在医学领
域,通过对患者的病历数据进行描述统计和统计推断,可以对疾病的发病规律和治疗效果进行分析和推断;在市场营销领域,通过对消费者的购买行为数据进行描述统计和统计推断,可以对产品的市场需求和销售趋势进行分析和预测;在财务领域,通过对企业的财务数据进行描述统计和统计推断,可以对企业的经营状况和盈利能力进行分析和评估。
综上所述,描述统计和统计推断在数据分析和推断中起着不可替代的作用,它们为人们提供了一种科学的方法来对数据进行分析和推断,从而为决策提供科学的依据。
因此,深入理解和掌握描述统计和统计推断的概念及方法对于提高数据分析和推断的准确性和科学性具有重要意义。
第三章 统计整理
开口组组中值的确定
缺下限开中组组中值=上限-邻组组距/2 缺下限开中组组中值=上限-邻组组距/2 缺上限开中组组中值=下限+邻组组距/2 缺上限开中组组中值=下限+邻组组距/2
19:18:05
31
把资料中各数值归到应属的组内
按照各个总体单位的具体标志值, 按照各个总体单位的具体标志值 , 将其划归某一 具体组之中, 在归类汇总时 , 要遵循 “ 具体组之中 , 在归类汇总时, 要遵循“ 不重复不 遗漏”的基本原则。 遗漏”的基本原则。 对于单项数列和不重叠设置的离散型组距数列来 说,上述原则容易做到。 上述原则容易做到。 对于重叠设置的连续型组距数列来说, 对于重叠设置的连续型组距数列来说 , 应处理好 恰好是组限的标志值的总体单位之归类问题, 恰好是组限的标志值的总体单位之归类问题 , 一 般应按“ 上组限不在内 ” 原则 , 般应按 “ 上组限不在内” 原则, 即本组下限的次 数属于本组, 本组上限的次数归于邻近的较大组 。 数属于本组 , 本组上限的次数归于邻近的较大组。
19:18:05
34
确定组数和组距
根据考试成绩性质的不同,在60分的基础上 根据考试成绩性质的不同,在60分的基础上 分为不及格、及格、中等、良好、优秀五 个类型。 令组距=10 令组距=10 则组数=43/10=4.3,因此组数取5 则组数=43/10=4.3,因此组数取5。
19:18:05
35
品质标志分组 数量标志分组
19:18:05
17
四、简单分组和复合分组
根据分组选择标志的多少不同,统计分组又可分 为: 简单分组
简单分组是指对统计总体仅按一个标志进行分组
Chapter03第三章 空间平滑和空间插值
35第三章空间平滑和空间插值本章介绍基于GIS的空间分析中两个常用操作:空间平滑和空间插值。
空间平滑和空间插值关系密切,它们都可以用于显示空间分布态式及空间分布趋势,二者还共享某些算法(如核密度估计法Find/Replace All)。
空间平滑和空间插值的方法有很多种,本章只介绍其中最常用的几种。
空间平滑与移动平均在概念上类似(移动平均是求一个时间段内的均值),而空间平滑术是一个空间窗口内计算平均值。
第 3.1节介绍空间平滑的概念和方法,第 3.2节是案例分析3A,用空间平滑法研究中国南方/泰语地名(Find/Replace all)分布。
空间插值是用某些点的已知数值来估算其他点的未知数值。
第3.3节介绍了基于点的空间插值,第3.4节为案例3B,演示了一些常用的点插值法。
案例3B所用数据与3A相同,是案例3A工作的延伸。
第3.5节介绍基于面的空间插值,用一套面域数值(一般面单元较小)来估算另一个面域的数值(范围较大)。
面插值可用于数据融合以及不同面域单元的数据整合。
第 3.6节为案例3C,介绍两种简单的面插值法。
第3.7节为小结。
3.1空间平滑与移动平均法计算一个时间段的平均值(例如:五日平均温度)相似,空间平滑是将某点周围地区(定义为一个空间窗口)的平均值作为该点的平滑值,以此减少空间变异。
空间平滑适用面很广。
其中一种应用是处理小样本问题,我们在第八章会详细讨论。
对于那些人口较少的地区,由于小样本事件中随机误差的影响,癌症或谋杀等稀有事件发生率的估算不够可靠。
对于某些地区,这样的事情发生一次就可导致一个高发生率,而对于另外许多地区,没有发生这种事情的结果是零发生率。
另外一种应用是将离散的点数据转化为连续的密度图,从而考察点数据的空间分布模式,可参见下面的第3.2节。
本节介绍两种空间平滑方法(移动搜索法及核密度估计法),附录3介绍经验贝叶斯估计。
3.1.1移动搜索法移动搜索法(FCA)是以某点为中心画一个圆或正方形作为滤波窗口,用窗口内的平均值(或数值密度)作为该点的值。
统计学例题
比重 (% 8.75 12.50 47.50 18.75 12.50 100.0
日产量 人数 (件) (人 10 11 12 13 14 合 计 700 1000 3800 1500 1000 8000
比重 (% 8.75 12.50 47.50 18.75 12.50 100.0
日产量 (件) 10 11 12 13 14 合 计
例4,某企业生产某种产品的工人有 ,某企业生产某种产品的工人有1000人, 人 某日采用不重复抽样从中随机抽取100人调查 人调查 某日采用不重复抽样从中随机抽取 他们的当日产量,人均产量为 件 他们的当日产量,人均产量为35件,标准差为 4.5件,试以95.45%的置信度估计平均产量的 件 试以 的置信度估计平均产量的 置信区间。 置信区间。
(p − ∆p, p + ∆p)
我们有95%的把握程度,认为该企业每天看电视一小 我们有 %的把握程度,认为该企业每天看电视一小 时以上的职工比例在 的职工比例在63.6%~76.4%之间。 之间。 时以上的职工比例在 之间
例7、某手表厂生产的精益牌手表 其走时误差 、某手表厂生产的精益牌手表,其走时误差 为正态分布,(单位 秒 日 。 为正态分布 单位:秒/日)。检验员从装配线上 单位 随机抽出9只进行检验,检测的结果如下: 随机抽出 只进行检验,检测的结果如下: 只进行检验 -4.0, 3.1, 2.5, -2.9, 0.9, 1.1, 2.0, -3.0, 2.8 取置信度为0.95,求该品牌手表的走时 误差的 取置信度为 求该品牌手表的走时,误差的 求该品牌手表的走时 均值和方差的置信区间。 均值和方差的置信区间。
人数 (人 50 120 380 150 100 800
比重 (% 6.25 15.00 47.50 18.75 12.50 100.0
第三章统计数据分布特征的描述
第三章统计数据分布特征的描述统计数据分布特征的描述是统计学中非常重要的一个概念,它用于对数据进行系统化的描述和分析。
统计数据分布特征的描述包括位置参数、散布参数和形状参数。
位置参数描述了数据集中心位置的特征。
最常用的位置参数是均值和中位数。
均值是指所有数据值的总和除以数据个数,它能够反映数据集的平均水平。
中位数是将数据值按大小排序后的中间值,它能够反映数据集的中心位置。
均值对异常值比较敏感,中位数能够较好地排除异常值的干扰。
散布参数描述了数据集的离散程度。
最常用的散布参数是方差和标准差。
方差是指每个数据值与均值之差的平方和的平均值,它能够反映数据集的离散程度。
标准差是方差的平方根,它与数据的单位相一致,常用于衡量数据的波动性。
方差和标准差越大,表示数据的离散程度越大。
形状参数描述了数据集的分布形状。
常用的形状参数包括偏度和峰度。
偏度是指数据分布的不对称程度,大于0表示右偏,小于0表示左偏,等于0表示对称。
偏度能够反映数据集的分布形态。
峰度是指数据分布的尖锐程度,大于0表示尖锐,小于0表示平坦,等于0表示与正态分布相似。
峰度能够反映数据集的尖峰或扁平程度。
除了这些常见的参数之外,还有其他一些描述统计数据分布特征的方法,如四分位数和箱线图。
四分位数是将数据分为四等分的值,它包括上四分位数、下四分位数和中位数。
上四分位数是四分之三分位数,下四分位数是四分之一分位数。
箱线图是以箱子和线段的形式展示数据分布特征,箱子的上边界和下边界分别代表上四分位数和下四分位数,箱子的中线代表中位数,箱子的长度代表数据的离散程度。
统计数据分布特征的描述对于研究数据的特征、提取有效信息以及进行统计推断都非常重要。
了解数据的位置、散布和形状特征能够帮助研究者更好地理解数据集的性质和规律。
在实际应用中,统计数据分布特征的描述还可以帮助决策者进行决策,例如对于质量控制的判断和产品的质量评估等。
综上所述,统计数据分布特征的描述是对数据集进行系统化描述和分析的重要工具。
概率论与数理统计03-第三章作业及答案
习题3-11. 已知随机变量X 1和X 2的概率分布分别为而且12{0}1P X X ==. 求1和2的联合分布律.解 由12{0}1P X X ==知12{0}0P X X ≠=. 因此X 1和X 2的联合分布必形如于是根据边缘概率密度和联合概率分布的关系有X 1和X 2的联合分布律(2) 注意到12{0,0}0P X X ===, 而121{0}{0}04P X P X =⋅==≠, 所以X 1和X 2不独立.2. 设随机变量(X ,Y )的概率密度为(,)(6),02,24,0,.f x y k x y x y =--<<<<⎧⎨⎩其它 求: (1) 常数k ; (2) {1,3}P X Y <<; (3) { 1.5}P X <; (4) {4}P X Y +≤.解 (1) 由(,)d d 1f x y x y +∞+∞-∞-∞=⎰⎰, 得2424222204211d (6)d (6)d (10)82y k x y x k y x x y k y y k =--=--=-=⎡⎤⎢⎥⎣⎦⎰⎰⎰, 所以 18k =. (2) 3121,31{1,3}d (6)d 8(,)d d x y P X Y y x y x f x y x y <<<<==--⎰⎰⎰⎰1322011(6)d 82y x x y=--⎡⎤⎢⎥⎣⎦⎰321113()d 828y y =-=⎰. (3) 1.51.5{ 1.5}d (,)d ()d X P X x f x y y f x x +∞-∞-∞-∞<==⎰⎰⎰4 1.521d (6)d 8y x y x --=⎰⎰1.542211(6)d 82y x x y =--⎡⎤⎢⎥⎣⎦⎰ 421633()d 882y y =-⎰ 2732=. (4) 作直线4x y +=, 并记此直线下方区域与(,)0f x y ≠的矩形区域(0,2)(0,4)⨯的交集为G . 即:02,0G x y <<<≤4x -.见图3-8. 因此{P X Y +≤4}{(,)}P X Y G =∈(,)d d Gf x y x y =⎰⎰4421d (6)d 8x y x y x -=--⎰⎰4422011(6)d 82xy x x y -=--⎡⎤⎢⎥⎣⎦⎰ 42211[(6)(4)(4)]d 82y y y y =----⎰ 42211[2(4)(4)]d 82y y y =-+-⎰ 423211(4)(4)86y y =----⎡⎤⎢⎥⎣⎦23=.图3-8 第4题积分区域3. 二维随机变量(,)X Y 的概率密度为2(,),1,01,0,f x y kxy x y x =⎧⎨⎩≤≤≤≤其它. 试确定k , 并求2{(,)},:,01P X Y G G x y x x ∈≤≤≤≤. 解 由2111401(,)d d d (1)d 26xk k f x y xdy x kxy y x x x +∞+∞-∞-∞====-⎰⎰⎰⎰⎰,解得6=k .因而 2112401{(,)}d 6d 3()d 4x xP X Y G x xy y x x x x ∈==-=⎰⎰⎰. 4. 设二维随机变量(X , Y )概率密度为4.8(2),01,0,(,)0,.y x x y x f x y -=⎧⎨⎩≤≤≤≤其它 求关于X 和Y 边缘概率密度.解 (,)X Y 的概率密度(,)f x y 在区域:0G ≤x ≤1,0≤y ≤x 外取零值.因而, 有24.8(2)d ,01,()(,)d 0,2.4(2),01,0,x X y x y x f x f x y y x x x +∞-∞-<<==-<<=⎧⎪⎨⎪⎩⎧⎨⎩⎰⎰其它.其它.124.8(2)d ,01,()(,)d 0,2.4(34),01,0,yY y x x y f y f x y x y y y y +∞-∞-<<==-+<<=⎧⎪⎨⎪⎩⎧⎨⎩⎰⎰其它.其它. 5. 假设随机变量U 在区间[-2, 2]上服从均匀分布, 随机变量1,1,1,1,U X U --=>-⎧⎨⎩若≤若 1,1,1, 1.U Y U -=>⎧⎨⎩若≤若试求:(1) X 和Y 的联合概率分布;(2){P X Y +≤1}.解 (1) 见本章第三节三(4).(2){P X Y +≤1}1{1}P X Y =-+>1{1,1}P X Y =-==13144=-=. 习题3-21. 设(X , Y )的分布律为求: (1)在条件X =2下Y的条件分布律;{22}P X Y ≥≤.解 (1) 由于6.02.01.003.0}2{=+++==X P ,所以在条件X =2下Y 的条件分布律为216.03.0}2{}1,2{}2|1{========X P Y X P X Y P ,06.00}2{}2,2{}2|2{========X P Y X P X Y P ,616.01.0}2{}3,2{}2|3{========X P Y X P X Y P ,316.02.0}2{}4,2{}2|4{========X P Y X P X Y P ,或写成{P Y ≤2}{1}{2}P Y P Y ==+==0.10.3000.20.6++++=.而{2,2}{2,1}{2,2}{3,1}{3,2}P X Y P X Y P X Y P X Y P X Y ===+==+==+==≥≤0.3000.20.5=+++=.因此{2,2}{22}{2}P X Y P X Y P Y =≥≤≤≥≤0.550.66==. 2. 设二维随机变量(X , Y )的概率密度为(,)1,01,02,0,.f x y x y x =<<<<⎧⎨⎩其它求:(1) (X , Y )的边缘概率密度(),()X Y f x f y ;(2)11{}.22P Y X ≤≤ 解 (1) 当01x <<时,20()(,)d d 2xX f x f x y y y x +∞-∞===⎰⎰;当x ≤0时或x ≥1时, ()0X f x =. 故 2,01,()0,其它.X x x f x <<=⎧⎨⎩当0<y <2时,12()(,)d d 12y Y y f y f x y x x +∞-∞===-⎰⎰;当y ≤0时或y ≥2时, ()0Y f y =.故 1,02,()20,.Y yy f y -<<=⎧⎪⎨⎪⎩其它(2) 当z ≤0时,()0Z F z =; 当z ≥2时,1)(=z F Z ;当0<z <2时, (){2Z F z P X Y =-≤2}(,)d d x y zz f x y x y -=⎰⎰≤2x 12202-2d 1d d 1d zxz x zx y x y =⋅+⋅⎰⎰⎰⎰24z z =-.故 1,02,()20,.()其它Z z zz f z F z -<<'==⎧⎪⎨⎪⎩(3) {}{}11311322161122442≤,≤≤≤≤P X Y P Y X P X ===⎧⎫⎨⎬⎩⎭. 3. 设G 是由直线y =x , y =3,x =1所围成的三角形区域, 二维随机变量(,)X Y 在G 上服从二维均匀分布.求:(1) (X , Y )的联合概率密度;(2) {1}P Y X -≤;(3) 关于X 的边缘概率密度.解 (1)由于三角形区域G 的面积等于2, 所以(,)X Y 的概率密度为⎪⎩⎪⎨⎧∉∈=.),(,0,),(,21),(G y x G y x y x f (2)记区域x y y x D -=|),{(≤}1与G 的交集为0G ,则{1}P Y X -≤0011113d d (2)22224G G x y S ===-=⎰⎰. 其中0G S 为G 0的面积.(3) X 的边缘概率密度()(,)d X f x f x y y +∞-∞=⎰. 所以,当]3,1[∈x 时, 311()d (3)22X xf x y x ==-⎰. 当1<x 或3>x 时, 0)(=x f X .因此 ⎪⎩⎪⎨⎧∈-=.,0],3,1[),1(21)(其它x x x f X习题3-31. 设X 与Y 相互独立, 且分布律分别为下表:求二维随机变量(,)X Y 的分布律.解 由于X 与Y 相互独立, 所以有}{}{},{j i j i y Y P x X P y Y x X P =⋅====,6,5,2,0;0,21,1=--=j i .因此可得二维随机变量(,)X Y 的联合分布律2. 设(X , Y )的分布律如下表:问,αβ为何值时X 与Y 相互独立 解 首先, 由分布律求得边缘分布律由于边缘分布满足23111,1i j i j p p ⋅⋅====∑∑, 又X , Y 相互独立的等价条件为p ij = p i . (i =1,2; j =1,2,3).故可得方程组 21,3111().939αβα++==⋅+⎧⎪⎪⎨⎪⎪⎩解得29α=,19β=.经检验, 当29α=,19β=时, 对于所有的i =1,2; j =1,2,3均有p ij = p i .成立. 因此当29α=,19β=时, X 与Y 相互独立..3. 设随机变量X 与Y 的概率密度为()e (,)0,.,01,0,x y b f x y x y -+=⎧<<>⎨⎩其它 (1) 试确定常数b .(2) 求边缘概率密度()X f x , ()Y f y . (3) 问X 与Y 是否相互独立 解 (1) 由11()101(,)d d e d d e d e d (1e )x y y x f x y x y b y x b y x b +∞+∞+∞+∞-+----∞-∞====-⎰⎰⎰⎰⎰⎰,得 111eb -=-.(2) ()(,)d X f x f x y y ∞-∞=⎰1e ,01,1e 0,xx --<<=-⎧⎪⎨⎪⎩其它.()(,)d Y f y f x y x ∞-∞=⎰e ,0,0,y y ->=⎧⎨⎩其它.(3) 由于(,)()()X Y f x y f x f y =⋅,所以X 与Y 相互独立.4. 设X 和Y 是两个相互独立的随机变量, X 在(0, 1)上服从均匀分布, Y 的概率密度为21e ,0,()20Y yy f y y ->=⎧⎪⎨⎪⎩,≤0.(1) 求X 和Y 的联合概率密度.(2) 设关于a 的二次方程为220a Xa Y ++=, 试求a 有实根的概率. 解 (1) 由题设知X 和Y 的概率密度分别为1,01,()0,X x f x <<=⎧⎨⎩其它, 21e ,0,()20,.yY y f y ->=⎧⎪⎨⎪⎩其它 因X 和Y 相互独立, 故(X , Y )的联合概率密度为21e ,01,0(,)()()20,.yX Y x y f x y f x f y -<<>==⎧⎪⎨⎪⎩其它 (2) 方程有实根的充要条件是判别式大于等于零. 即244X Y ∆=-≥20X ⇔≥Y .因此事件{方程有实根}2{X =≥}Y .下面计算2{P X ≥}Y (参见图3-3).2{P X ≥}Y 2211221(,)d d e d (1e)d 2yxx Df x y xdy x y x --===-⎰⎰⎰⎰⎰2121ed 12[(1)(0)]0.1445xx πΦΦ-=-=--≈⎰.图3-3 第6题积分区域 习题3-41. 设二维随机变量(X ,Y )的概率分布为若随机事件{X =0}与{X +Y =1}相互独立, 求常数a , b .解 首先, 由题设知0.40.11a b +++=. 由此得0.5a b +=. 此外,{0}0.4P X a ==+,{1}{0,1}{1,0}0.5P X Y P X Y P X Y a b +====+===+=,{0,1}{0,1}P X X Y P X Y a =+=====. 根据题意有{0,1}{0}{1}P X X Y P X P X Y =+===+=,即(0.4)0.5a a =+⨯. 解得0.4,0.1a b ==.2. 设两个相互独立的随机变量X ,Y 的分布律分别为求随机变量Z = X + Y 的分布律.解 随机变量Z = X + Y 的可能取值为7,5,3.Z 的分布律为18.06.0.03}2,1{}3{=⨯=====Y X P Z P ,{5}{1,4}{3,2}0.30.4070.60.54P Z P X Y P X Y ====+===⨯+⨯=,28.04.07.0}4,3{}7{=⨯=====Y X P Z P ,或写为3. 设X 和Y 是两个相互独立的随机变量, 且X 服从正态分布N (μ, σ2),Y 服从均匀分布U (-a , a )( a >0), 试求随机变量和Z =X +Y 的概率密度.解 已知X 和Y 的概率密度分别为22()2()x X f x μσ--=,),(+∞-∞∈x ;⎪⎩⎪⎨⎧-∉-∈=).,(,0),,(,21)(a a y a a y ay f Y .由于X 和Y 相互独立, 所以22()21()()()d d 2z y a Z X Y f z f z y f y y y a μσ---+∞-∞-=-=⎰⎰=1[()()]2z μa z μa ΦΦa σσ-+---. 4. 设随机变量X 和Y 的联合分布是正方形G={(x,y )|1≤x ≤3, 1≤y ≤3}上的均匀分布, 试求随机变量U=|X -Y|的概率密度f (u ).解 由题设知, X 和Y 的联合概率密度为111,3,3,(,)40,.x y f x y =⎧⎪⎨⎪⎩≤≤≤≤其它记()F u 为U 的分布函数, 参见图3-7, 则有 当u ≤0时,(){||F u P X Y =-≤u }=0; 当u ≥2时,()1F u =;当0< u <2时, 图3-7 第8题积分区域||(){}(,)d d x y uF u P U u f x y x y -==⎰⎰≤≤21[42(2)]412u =-⨯- 211(2)4u =--.故随机变量||U X Y =-的概率密度为1(2),02,()20,u u p u -<<=⎧⎪⎨⎪⎩其它..总习题三1. 设随机变量(X , Y )的概率密度为⎪⎩⎪⎨⎧<<<=.,0,10,||,1),(其它x x y y x f 求条件概率密度)|()|(||y x f x y f Y X X Y 和.解 首先2,01,()0,.(,)其它X x x f x f x y dy +∞-∞<<==⎧⎨⎩⎰1,01,()1,10,0,(,)≤其它.Y y y f y y y f x y dx +∞-∞-<<==+-<⎧⎪⎨⎪⎩⎰图3-9第1题积分区域当01y <<时, |1,1,1(|)0,X Y y x y f x y x <<-=⎧⎪⎨⎪⎩取其它值.当1y -<≤0时, |1,1,1(|)0,X Y y x y f x y x -<<+=⎧⎪⎨⎪⎩取其它值.当10<<x 时, |1,||,(|)20,Y X y x f y x x y <=⎧⎪⎨⎪⎩取其它值.2. 设随机变量X 与Y 相互独立, 下表列出二维随机变量(,)X Y 的分布律及关于X 和关于Y 的边缘分布律中部分数值, 试将其余数值填入表中空白处 .解 首先, 由于11121{}{,}{,}P Y y P X x Y y P X x Y y ====+==,所以有11121111{,}{}{,}6824P X x Y y P Y y P X x Y y ====-===-=.在此基础上利用X 和Y 的独立性, 有11111{,}124{}1{}46P X x Y y P X x P Y y =======.于是 2113{}1{}144P X x P X x ==-==-=.再次, 利用X 和Y 的独立性, 有12211{,}18{}1{}24P X x Y y P Y y P X x =======. 于是 312111{}1{}{}1623P Y y P Y y P Y y ==-=-==--=.最后, 利用X 和Y 的独立性, 有2222313{,}{}{}428P X x Y y P X x P Y y ======⨯=; 2323311{,}{}{}434P X x Y y P X x P Y y ======⨯=;1313111{,}{}{}4312P X x Y y P X x P Y y ======⨯=. 因此得到下表3.(34)e (,)0,.,0,0,x y k f x y x y -+=⎧>>⎨⎩其它(1) 求常数k ;(2) 求(X ,Y )的分布函数;(3) 计算{01,02}P X Y <<≤≤; (4) 计算(),x f x ()y f y ;(5) 问随机变量X 与Y 是否相互独立 解 (1)由3401(,)d d e d e d 12xy kf x y x y k x y +∞+∞+∞+∞---∞-∞===⎰⎰⎰⎰,可得12=k .(2) (X ,Y )的分布函数(,)(,)d d x y F x y f u v x y -∞-∞=⎰⎰.当x ≤0或y ≤0时,有 0),(=y x F ; 当,0>>y x 时,34340(,)12e d e d (1e )(1e )xyuv x y F x y u v ----==--⎰⎰.即 34(1e )(1e ),0,0,(,)0,.其它x y x y F x y --⎧-->>=⎨⎩(3) {01,02}P X Y <<≤≤38(1,2)(0,0)(1e )(1e )F F --=-=--.(4) (34)012ed ,0,()(,)d 0,其它.x y X y x f x f x y y +∞-++∞-∞⎧>⎪==⎨⎪⎩⎰⎰所以 33e ,0,()0,其它.x X x f x -⎧>=⎨⎩类似地, 有44e ,0,()0,其它.y Y y f y -⎧>=⎨⎩ 显然2),(),()(),(R y x y f x f y x f Y X ∈∀⋅=, 故X 与Y 相互独立.4.解 已知),(Y X 的分布律为注意到41260}1{}1{=++====Y P X P , 而0}1,1{===Y X P ,可见P {X =1, Y =1}≠P {X =1}P {Y =1}. 因此X 与Y 不相互独立.(2) Z X Y =+的可能取值为3, 4, 5, 6, 且316161}1,2{}2,1{}3{=+===+====Y X P Y X P Z P , }1,3{}2,2{}3,1{}4{==+==+====Y X P Y X P Y X P Z P3112161121=++=, 316161}2,3{}3,2{}5{=+===+====Y X P Y X P Z P . 即Z X Y =+的分布律为(3) V =21}2,2{}1,2{}2,1{}2{===+==+====Y X P Y X P Y X P V P , 21}2{1}3{==-==V P V P . 即max(,)V X Y =的分布律为(4) min{U =}3,1{}2,1{}1{==+====Y X P Y X P U P}1,2{}1,3{==+==+Y X P Y X P 21=, 21}1{1}2{==-==U P U P .即min{,}U X Y =的分布律为(5) W U =+31}1,2{}2,1{}2,1{}3{===+=======Y X P Y X P V U P W P ,}2,2{}3,1{}4{==+====V U P V U P W P31}2,2{}1,3{}3,1{===+==+===y X P Y X P Y X P , 31}2,3{}3,2{}3,2{}5{===+=======Y X P Y X P V U P W P .5. 2,01,01,(,)0,x y x y f x y --<<<<⎧=⎨⎩其它. (1) 求P {X >2Y }; (2) 求Z = X +Y 的概率密度f Z (z ).解 (1) 1120227{2}(,)d d d (2)d 24yx yP X Y f x y x y y x y x >>==--=⎰⎰⎰⎰.(2) 方法一: 先求Z 的分布函数:()()(,)d d Z x y zF z P X Y Z f x y x y +=+=⎰⎰≤≤.当z <0时, F Z (z )<0; 当0≤z <1时, 1()(,)d d d (2)d zz yZ D F z f x y x y y x y x -==--⎰⎰⎰⎰= z 2-13z 3; 当1≤z <2时, 2111()1(,)d d 1d (2)d Z z z yD F z f x y x y y x y x --=-=---⎰⎰⎰⎰= 1-13(2-z )3; 当z ≥2时, F Z (z ) = 1. 故Z = X +Y 的概率密度为222,01,()()(2),12,0,Z Z z z z f z F z z z ⎧-<<⎪'==-<⎨⎪⎩≤其它.方法二: 利用公式()(,)d :Z f z f x z x x +∞-∞=-⎰2(),01,01,(,)0,x z x x z x f x z x ---<<<-<⎧-=⎨⎩其它 2,01,1,0,.z x x z x -<<<<+⎧=⎨⎩其它当z ≤0或z ≥2时, f Z (z ) = 0;当0<z <1时, 0()(2)d (2);zZ f z z x z z =-=-⎰当1≤z <2时, 121()(2)d (2).Z z f z z x z -=-=-⎰故Z = X +Y 的概率密度为222,01,()(2),12,0,.Z z z z f z z z ⎧-<<⎪=-<⎨⎪⎩≤其它.6. 设随机变量(X , Y )得密度为21,01,02,(,)30,.其它x xy x y x y ϕ⎧+⎪=⎨⎪⎩≤≤≤≤试求: (1) (X , Y )的分布函数; (2) (X , Y )的两个边缘分布密度; (3) (X , Y )的两个条件密度; (4) 概率P {X +Y >1}, P {Y >X }及P {Y <12|X <12}.解 (1) 当x ≤0或y ≤0时, φ(x , y ) = 0, 所以 F (x , y ) = 0.当0<x ≤1, 0<y ≤2时, φ(x , y ) = x 2+13xy ,所以 201(,)(,)d d [()d ]d 3x yx yF x y u v u v u uv v u -∞-∞==+⎰⎰⎰⎰ϕ32211312x y x y =+. 当0<x ≤1, y >2时,2(,)(,)d d [(,)d ]d [(,)d ]d xyx y x F x y u v u v u v v u u v v u -∞-∞===⎰⎰⎰⎰⎰⎰ϕϕϕ22001[()d ]d 3xu uv v u =+⎰⎰21(21)3x x =+. 当x >1, 0<y ≤2时,10(,)(,)d d [(,)d ]d xyyF x y u v u v u v v u -∞-∞==⎰⎰⎰⎰ϕϕ12001[()d ]d 3y u uv v u =+⎰⎰1(4)12y y =+. 当x >1, y >2时,122001(,)[()d ]d 13F x y u uv v u =+=⎰⎰.综上所述, 分布函数为220,00,1(),01,02,341(,)(21),01,2,31(4),1,02,121,1, 2.或≤≤≤≤≤≤x y y x y x x y F x y x x x y y y x y x y ⎧⎪⎪+<<⎪⎪⎪=+<>⎨⎪⎪+><⎪⎪>>⎪⎩(2) 当0≤x ≤1时,22202()(,)d ()d 2,33X xy x x y y x y x x ϕϕ+∞-∞==+=+⎰⎰ 故 222,01,()30,.其它≤≤X x x x x ϕ⎧+⎪=⎨⎪⎩当0≤y ≤2时,12011()(,)d ()d ,336Y xy y x y x x x y ϕϕ+∞-∞==+=+⎰⎰ 故 11,02,()360,.其它≤≤Y y y y ϕ⎧+⎪=⎨⎪⎩(3) 当0≤y ≤2时, X 关于Y = y 的条件概率密度为2(,)62(|).()2Y x y x xyx y yyϕϕϕ+==+当0≤x ≤1时, Y 关于X = x 的条件概率密度为(,)3(|).()62X x y x yy x y x ϕϕϕ+==+(4) 参见图3-10.图3-10 第9题积分区域 图3-11 第9题积分区域1{1}(,)d d x y P X Y x y x y ϕ+>+>=⎰⎰12201165d ()d .372xx x xy y -=+=⎰⎰ 同理, 参见图3-11.{}(,)d d y xP Y X x y x y ϕ>>=⎰⎰122117d ()d .324xx x xy y =+=⎰⎰ 1111{,}(,)112222{|}1122{}()22X P X Y F P Y X P X F <<<<==<211(,)22121()534.32()d |Xy x y x x x ϕ+==⎰。
Stata统计分析与行业应用案例详解(第2版)
第5章 Stata 非参数检验
1
第6章 Stata 方差分析
2
第7章 Stata 相关分析
3 第8章 Stata
主成分分析与 因子分析
4
第9章 Stata 聚类分析
5 第10章 Stata
最小二乘线性 回归分析
第11章 Stata回归 诊断与应对
第12章 Stata非线 性回归分析
第13章 Stata Logistic回归分析
6.1实例一——单因素方差分析 6.2实例二——多因素方差分析 6.3实例三——协方差分析 6.4实例四——重复测量方差分析 6.5本章习题
7.1实例一——简单相关分析 7.2实例二——偏相关分析 7.3本章习题
8.1实例一——主成分分析 8.2实例二——因子分析 8.3本章习题
9.1实例一——划分聚类分析 9.2实例二——层次聚类分析 9.3本章习题
4.1实例一——单一样本T检验 4.2实例二——独立样本T检验 4.3实例三——配对样本T检验 4.4实例四——单一样本方差的假设检验 4.5实例五——双样本方差的假设检验 4.6本章习题
5.1实例一——单样本正态分布检验 5.2实例二——两独立样本检验 5.3实例三——两相关样本检验 5.4实例四——多独立样本检验 5.5实例五——游程检验 5.6本章习题
第14章 Stata因变 量受限回归分析
1
第15章 Stata 时间序列分析
2
第16章 Stata 面板数据分析
3 第17章 Stata
在研究城市综 合经济实力中 的应用
4 第18章 Stata
在旅游业中的 应用
5 第19章 Stata
在经济增长分 析中的应用
第20章 Stata在原 油与黄金价格联动关
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
补充材料:累计求和运算规则求和算子定义:对于T 个观测值,x 1, x 2, …, x T ,求和可以简化地表示为x 1 + x 2 + …+ x T =∑=Tt t x 1其中∑⋅)(称作求和算子。
求和算子的运算规则如下: ① 变量观测值倍数的和等于变量观测值和的倍数。
∑=T t t kx 1= k ∑=Tt t x 1② 两个变量观测值和的总和等于它们分别求总和后再求和。
∑=+Tt t t y x 1)(= ∑=Tt t x 1+∑=Tt t y 1③ T 个常数求和等于该常数的T 倍。
∑=Tt k 1= kT其中k 是常数。
④ 定义双重求和为∑∑==T j ij T i x 11= ∑=Ti 1(x i 1 + x i 2 + …+ x iT )= (x 11 + x 12 + …+ x 1T ) +(x 21 + x 22 + …+ x 2T ) + … +(x T 1 + x T 2 + …+ x TT )⑤ 两个变量和的双重求和等于它们各自双重求和的和。
∑∑==+T j ij ij T i y x 11)(= ∑∑==T j ij T i x 11+∑∑==Tj ij T i y 11⑥ 两个不同单下标变量积的双重求和等于它们各自求和的乘积。
∑∑==Tj j i Ti y x 11= (∑=T i i x 1) (∑=Tj j y 1)证:∑∑==Tj j i T i y x 11= ∑=+++Ti T i y y y x 121)...(= (∑=T i i x 1) (∑=Tj j y 1)第3章 统计资料的综合(Data Summarization )用频数分布表与统计图可以展示数据分布的大概特征。
为更准确的描述数据的特征,有必要用一些数值描述一组数据的特征,称这些数值为特征数。
特征数分三类:(1)表示集中位置;(2)表示分散程度;(3)表示偏斜程度;(4)相关程度。
3.1 表示集中位置的特征数: (1)平均数;(算术平均数,几何平均数,调和平均数) (2)中位数; (3)众数; (4)百分位数; 3.1.1 平均数(1)算术平均数(Arithmetic mean ) 对于不分组数据算术平均数定义:一组数据,(x 1, x 2, …, x n ),容量为n ,则算术平均数x 表示为x = n x x x n +++ (21)=n1∑=ni i x 1(1)例1:5个学生的英语考试分数是80, 70, 85, 90, 82。
则平均考试分数x =59085828070++++= 81.4算术平均数的性质:① 观测值的和等于其平均数与观测值个数的乘积。
对(1)式两侧同乘n 得,∑i x = n x说明x 有代表性。
若不考虑x i 的差异。
用x 代替x i ,并乘n ,则总和相等。
所以人们常用x 描述数据。
如平均年龄,平均工资等。
② 一组观测值与其平均数的离差和等于零。
)(1x x ni i -∑== 0证:)(1x x ni i -∑==∑∑-x x i = ∑i x - n x = 0(利用性质①)此性质以后常常用到。
③ x i 与某一定值 A 的离差平方和∑=ni i x 1(- A )2以A =x 时为最小。
证:∑=ni i x 1(- A )2=)[(1x x ni i -∑=+ (x - A )] 2=)(1x x ni i -∑= 2+ 2 (x - A ))(1x x n i i -∑=+ 21)(A x ni -∑==∑-2)(x x i + 2)(A x n -可见只有当x = A 时,方程左端∑-2)(A x i 的值才最小。
当数据为分组形式时,x ≈i k i i x f n ∑=11=n1(f 1x 1 + f 2 x 2 + … + f k x k ) (2)其中:k 为分组数;x i 为第i 组的组中值;f i 为观测值落入第i 组的频数;n 为观测值总个数,n = f 1 + f 2 + … + f k 。
分组数据形式下求得的平均数,只是用原始数据计算的x 的近似值。
只有当各组中值与相应组内观测值的平均值全相等时,(1)、(2)式的计算结果才相等。
因此,只要条件允许,应该用原始数据直接计算。
当n 很大时,由(2)式计算的x 的误差会减小。
例2:见30页例2。
例2:见第2章例2,婴儿体重分组数据分布表如下:体重(克) 频数组中值2400—2700 以下 2 2550 2700—3000 以下 3 2850 3000—3300 以下 8 3150 3300—3600 以下 5 3450 3600—3900 以下23750x =2037502...2850325502⨯++⨯+⨯= 3180若用原始数据直接计算(见第2章例2,北京妇产科医院新生儿体重分布) x =203860...26202440+++= 3149(2)几何平均数(Geometric mean )当数据是以环比形式给出时,应该用几何平均数求该数据的平均递增率。
定义:一组环比数据r 1, r 2, …, r n (容量为n ),则几何平均数 G =nn r r r ,...,,21 (3)例3:有天津市“六五”期间工农业总产值环比指数如下年份环比指数 1981 1.059 1982 1.069 1983 1.082 1984 1.116 19851.157G = 5157.1116.1082.1069.1059.1⨯⨯⨯⨯= 1.096 即1980—1985期间年平均年增长率为9.6%。
注意:开方数n 不要用错。
几何平均数的性质:1 r 1 r2 … r n = G G ⋅ ⋅ ⋅ G (共n 个)对于环比数据,几何平均数G 有代表性。
若r 0期观测值为x 0,则x 0 ⋅ r 1 ⋅ r 2 ⋅ ⋅ ⋅ r n = x 0 ⋅ G nn 个G 与x 0相乘与r 1 ⋅ r 2 ⋅ ⋅ ⋅ r n 与x 0相乘的值相等。
(3)调和平均数(Harmonic mean ) 当一组数据表示不同比率时,若求平均变化率应该用调和平均数。
它是各观测值倒数的算术平均数的倒数。
调和平均数定义:设有一组n 个观测值 x 1, x 2, …, x n ,则调和平均值H 定义如下:H =nx x x n)1(...)1()1(121+++=)1(...)1()1(21nx x x n+++ (4)注意:这里各数据所赋的权相等。
例4:市场上某种蔬菜早晨价格为X 1 = 0.25元/斤,中午X 2 = 0.2元/斤,晚上X 3 = 0.1元/斤。
若早、中、晚各买1元钱的该种蔬菜,求这批蔬菜平均价格。
解:要求平均价格应先知共花了多少钱,共买了多少菜。
显然共花了3元钱,共买了19斤菜(早晨买1/0.25 = 4斤,中午买1/0.2 = 5斤,晚上买1/0.1=10斤)。
H =1.012.0125.013++ = 193= 0.158元/斤2.中位数(Median )算术平均数虽然有代表性,但当数据分布不均匀时,这种代表性显得很差。
如观察 班上5名学生的考试成绩如下:93,90,85,82,0,显然x =582859093++++ = 70没有代表性。
因为这五个数据中,有四个值都大于70,说明受0这个极端值影响太大。
若没有0这个值,平均数应该是87.5。
为避免这种影响,引出中位数的概念。
中位数定义(1):一组n 个观测值,按数值大小排列如下。
x 1, x 2, …, x n ,处于中央位置的数值称为中位数。
用Md 表示(Median )x (n +1)/2 n 为奇数Md = (5) [x n / 2 + x (n / 2)+1] / 2 n 为偶数例5:对5名学生的考试分数(n 为奇数),则中位数Md = 85,(比70更有代表性)。
93,9082,0 (因有5个数值,5为奇数。
)例6:设有一组数据如下(n 为偶数)x 1, x 2, x , x , x 5, x 6, (n = 6) 10 12 41 66 则 Md =21( x 6 / 2 + x (6 / 2) + 1) =21( x 3 + x 4) =21714+= 15.5 例7:一组数据是 3,9,6,1,5。
哪个是中位数?按上述要求排序,x 1, x 2, x 3, x 4, x 5, n = 5为奇数 1 3 5 6 9 则Md = x (5+1) / 2 = x 3 = 5,即中位数是5。
中位数定义(2):对于分组数据,Md 的计算公式如下: Md = L +h n n 21(6) 其中:L 为中位数所在组的下限值n 1为中位数所在组内,达到中位数所需频数。
n 2为中位数所在组内,观测值总个(频)数。
h 为该中位数所在组组距。
例8:把第2章例2中20个新生儿体重数据按从小到大顺序排列如下:2440,2620,2700,2880,2900,3000,3020,3040,30803200,3200,3300,3420,3440,3500,3500,3600,3860, 求: Md (中位数),解:1. 当数据不分组时,因为20是偶数,Md = (X 20 / 2 + X (20 / 2) + 1)/2 = (X 10 + X 11) /2 = (3100+ 3180) / 2 = 3140 2. 作频数分布表图,把数据分成5组分组频数f iX i 2400—2700以下 2 2550 2700—3000以下 3 2850 3000—3300以下 8 3150 3300—3600以下 5 3450 3600—3900以下2 3750 合计2020 / 2 = 10, 中位数在第3组,组频数= 8。
Md = L+h n n 21= 3000+30085= 3187 例9:1987年1%抽样调查全国人口,数据与分布图如下。
年龄(岁)人数(万人) 累计人数 010020020406080100120POPULATIONAGE0-10以下 195.2781 195.2781 10-20以下 248.1611 443.4329 20-30以下 195.8780 639.3172 30-40以下 161.0804 40-50以下 99.61830 50-60以下 85.61920 60-70以下 56.18770 70-80以下 27.38030 80-90以下 6.558400 90-100以下 0.359300 100-110以下 0.009900 合 计1067.9307数据的特点是分布不均。
年轻人人数多,年老人人数少。
平均年龄是28.8岁。
显然这个特征数偏高,不能十分满意地反映数据的特征。
计算中位数如下。