第2章 描述统计:数量方法
描述统计第二章PPT课件
特点
典型单位的选择具有主观性。因此只能作为 全面调查的补充
种类
划类选典式和解剖麻雀式
数据的收集方法
数据收集方法
询问调查
观察
访问调查
邮寄调查
电话调查
电脑辅助
座谈会
个别深访
实验
访问调查
(personal interview)
1. 调查者与被调查者通过 面对面地交谈而获得资料
2. 有标准式访问和非标准 式访问
5. 从互联网或图书馆查阅到的相关资料
Internet
http//WWW.
中 国中 人国 口市 统场 计统 年计 鉴年
鉴
中国商品交易市场统计年鉴 中国连锁餐饮企业统计年鉴中国连锁零售业统计年鉴 中国能源统计年鉴 全国农产品成本收益资料汇编 国际统计年鉴 中国对外经济贸易统计年鉴 中国基本单位统计年鉴 中国民政统计年鉴 中国高技术产业统计年鉴 中国农村统计年鉴 中国农村住户调查年鉴 中国农村住户调查年鉴中国乡镇统计资料 中国县(市)社会经济调查年鉴 中国西部农村统计资料 中国建制镇统计资料
2.1 数据来源(data sources)
2.1.1 数据的间接来源 2.1.2 数据的直接来源
二手数据的来源
1. 统计部门和政府部门公布的有关资料, 如各类统计年鉴
2. 各类经济信息中心、信息咨询机构、专 业调查机构等提供的数据
3. 各类专业期刊、报纸、书籍所提供的资 料
4. 各种会议,如博览会、展销会、交易会 及专业性、学术性研讨会上交流的有关 资料
电话调查
(telephone survey)
1. 调查者利用电话与被调查者 进行语言交流以获得信息
2. 时效快、成本低 3. 问题的数量不宜过多
统计学--第二章统计数据的描述PPT课件
统计先是思维而后才是数学
.
41
例:组中值计算
按周加工零件数 分组
80以下 80—90 90—100 100—110 110—120 120—130 130以上 合计
组中值
75 85 95 105 115 125 135 ——
录取 未录取 报考人数
工程系
男生 女生
300
100
300
100
600
200
财经系
男生 女生
50
100
150
300
200
400
工程系:男女录取比率50%,财经系:男女录取比率25%。
说明的问题:对数据 1.要从不同的角度进行分析; 2.要注意结构或是权数的影响。
统计先是思维而后才是数学
.
5
2.1 统计数据的整理
按周加工零件数分组 80—90 90—100 100—110 110—120 120—130 合计
次数(频数) 3
7 13 5 2
30
频率(%) 10
23.33 43.33 16.67 6.67 100
统计先是思维而后才是数学
重合组限、闭口组限
.
31
对于重合组限的形式,为解决“不重”的 问题,统计分组时习惯上规定“上组限不 在内”,即当相邻两组的上下限重叠时, 恰好等于其一组上限的变量值不算在本组 内,而计算在下一组内。
1. 按一定顺序将数据排列,以发现一些明显的特征或趋 势,找到解决问题的线索
2. 排序有助于对数据检查纠错,以及为重新归类或分组 等提供依据
3. 在某些场合,排序本身就是分析的目的之一 4. 排序可借助于计算机完成
数量方法笔记整理
数量方法笔记整理数量方法笔记第一章数据的整理和描述通过本章的学习,考生应当理解和掌握如何对数据进行整理、分组、制表和画图,能够适当地选择和解释数据的各种综合指标,以便能够突出地显示数据的本技和统计含义,从而更有效地交流数据和使用数据。
第一节数据的类型●不同分类型数据描述的是事物的品质特征●度量●尺度数量型●截面数据——不同单位同一时间●时间的关系时间序列数据——同一单位不同时间●平行数据——不同单位不同时间第二节数据的整理与图表显示一、数据的分组与频率直方图分组的标志及方法频数与布表1.整理——分组分几个组单变量值分组——离散型的变量(数出来的不能再分割)如人口数2.分组的方法数量表现比较小组距分组——条件:离散型变量但数量比较多所有连续变量只能用组距分组组距,组数m是根据实际情况而定的组数最小值最大值组中值=二、图形显示:饼形图、条形图、柱形图、散点图、折线图、曲线图、茎叶图。
1.饼图的作用:反映各个部分的构成各频率的总合是100%。
2.条形图和柱形图:信息的比较条形图:不同单位,不同信息的比较柱形图:同一单位不同时间信息的比较。
3.折线图:同柱形图作用相似,对同一的数据折线图具有唯一性(两点间有且只有一条直线)。
4.曲线图:同折线图作用相似也是表示不同时间信息的比较,但不具有唯一性。
5.散点图:表示两个变量之间的相互关系。
(两个变量的任何一对取值都在平面直角坐标系上代表一个点)。
6.茎叶图:把每一个数据分解成两部分——茎与叶它的优点在于它既保留了所有的原始数据又直观地显示出了数据的分布情况(与条形图有相似)第三节数据集中趋势的度量一、平均数1.简单平均= (没有分组的数据)2.加权算术平均:(对于分组的数据)是频数也叫权数例如:求下列平均数:X频数vX.V34567343213×34×45×36×27×1平均数 =利用距中数计算的平均数不是精确的而是近似的。
数量方法知识点
高等教育自学考试是应考者获得高等教育学历的国家考试,命题是确保考试质量的核心工作。
为做好电子商务专业(独立本科段)“数量方法(二)”课程全国统一命题工作,特制定本命题大纲。
一、课程性质和考试目标1.课程性质数量方法是全国高等教育自学考试电子商务专业开设的一门基础课程,是一门理论性和技能性都比较强的课程。
它以概率论和数理统计原理为基础,对金融、商业、工农业中的数据进行收集、概括、推断、预测。
数量方法课程的任务是:使考生具有收集、概括和呈现数据的意识,能够理解基本的概率论原理解和运用基本的统计概念,理解关于统计推断的有关概念并对数据进行统计分析,识别两个变之间是否存在线性关系并能作出估计和预测,理解简单的时间序列模型并进行预测,学会运用指数综合方法分析和评价经济现象,为更好地适应商务管理和金融管理工作需要作必要的准备。
2.考试目标通过本课程的学习考试,要求考生:(1 )掌握数量方法中涉及的数据整理和描述方法、概率论中的基本概念和计算方法、统计推断的基本理论和方法。
考生要全面系统学习教材、循序渐进,有目的地深入理解基本概念,并能运用基本概念和基本理论分析简单实际问题。
(2 )掌握相关分析、回归分析的基本内容和检验方法,熟悉指数分析的技术和时间的基本方法,并能运用这些方法解决实际问题。
(3 )重视理论联系实际,弄清各种数量方法的区别和联系,主要是能够应用推断统计法和回归模型分析法解决实际问题。
二、考试内容(各章节的重点内容)本课程的考试内容与考核目标以课程纲为标准,其重点内容为:第一章了解数据的类型、数据的整理与图表显示,数据集中趋势的度量和数据离散趋势的度量。
重点是使学生能够适当地选择和解释数据的各种综合指标,能进行基本的计算。
第二章了解随机试验、随机事件、样本空间、事件的概率、条件概率、独立事件的概率,重点掌握各种概率公式的运用和计算概率。
第三章了解随机变量、随机变量的分类、重要的随机变量及分布、随机变量的数学期望和方差,二元随机变量及分布的定义,联合分布、边缘分布的定义,协方差与相关系数、随机变量的方差和数学期望的方差、决策准则与决策树。
金融统计02-统计描述-47页精选文档
第1节 统计描述的图形法
• 主要内容
– 原始数据图 – 构成图 – 频率分布图 – 散点图
常用的图形法
• 原始数据图
– 按一定顺序显示各个体的数值 – 常用的有线形图Байду номын сангаас柱状图等
• 频率分布图(Frequency distribution or Histogram)
– 将样本分组,显示各组的个数
• 构成图(饼图)
9 3%
8 3%
7 54%
Rooms
10 0%
4 1%
5
9%
6 30%
4 5 6 7 8 9 10
• 饼图将样本分组, 显示各组的个数占 样本总数的比率
• 7个房间的商品房 最多,占总房屋数 的一半以上,其次 是6个房间,约占 1/3,占比最少的 是10个房间的商品 房
价格和房间数的散点图
价格(万美元)
用于时间序 列数据时可 显示趋势
0
50
100
150
200
250
300
PRICE
样本序号
房屋价格的频率分布( Histogram )
Frequency
各价格组包含的房屋个数
50
40
30
20
10
0
0
4
8
12 16 20 24 28 32
各价格组 (万美元)
• 频率分布图将 样本分组,显 示各组的个数
• 信息量小
– 价格(price) 、 – 房间数(rooms) 、 – 面积(area)、 – 建筑年代(age) 等
• 用图形法分析:价格、房间数、面积
房屋价格的原始数据图(线形图)
价格(万美元)
统计学 第二章 描述统计:数量方法(课件)
1、定义:反映总体一般水平 一般水平的代表值。 一般水平 2、特点 (1)消除离差;(2)找出中心。
第二章 描述统计:数量方法 描述统计:
三、均值的种类
A : 65 B : 70 ⇒ x = 70分 / 人 C : 75
STAT
2001 : 1200 2002 : 1300 ⇒ a = 1300万元 / 年 2003 : 1400
STAT
10 人年龄资料 [例]10人年龄资料:15,16,16,17,17, 年龄 x 人数 f 比重 17,18,18,18,18。求平均年龄。 15(x 15(x1) 1(f1) 0.1 15 × 1 + 16 × 2 + 17 × 3 + 18 × 4 x= = 17岁 16(x ) 2(f ) 0.2 16(x2 2 1+ 2 + 3 + 4 17(x 17(x3) 3(f3) 0.3 x1 f 1 + x 2 f 2 + L + x n f n Σxf = = 18(x 18(x4) 4(f4) 0.4 f1 + f 2 + L + f n Σf 10( 合计 10(∑f) 1.0
1 1 1 1 (2)倒数: , , L , ⇔ 令y = x1 x 2 xn x 1 1 1 1 + +L+ Σ xn Σy x1 x 2 (3)求算术平均数: y = = = x n 1+1+L +1 n n (4)倒数: H = ⇒“简单 H ” 1 Σ x
STAT
第二章 描述统计:数量方法 描述统计:
STAT
第二章 描述统计:数量方法 描述统计:
(2)资料为单项式数列时 ⇒中位=( ∑f +1)/2=12.5; ( ) = ⇒24个人年龄的Me=17(岁) ( 年龄 15(下) 15( 16 17 18 19(上) 19( 合计 人数(f) 向上累计 人数( 2 2(第1~2) 1~2) 4 6(第3~6) 3~6) 15 9 6 21 24 3 —— 24(∑f) 24(
数量方法 2
2.1 数据的整理和图表显示
2.1.1 定性数据的频数分布表 1.频数f 分配在一个组内的数据个数 2.频率 频数与全部数据个数之比(频数/n)
回答 满意 一般 不满意 合计 频数f 5 3 2 10 频率/% 50 30 20 100 累积频率/% 50 80 100 —
2.1.2 定量数据的频数分布表 对于数量型数据中的离散型数据,取值个数较 少,参考定性数据频数分布表。 参考教材P13页【例2.2】
实施方法:抓阄和随机数表
例:设要对某市 5000 家工厂随机抽选 100 家作 样本。下面是随机数表的一部分:(横向排列) 7590,9691,1601,6615,0848,2885,1885, 1863 , 5682 , 1666 , 3398 , …… 要求利用随机数 表抽选样本。 步骤: 1、应对全市的工厂从0001~5000编号,与所给予 的样本单元的位数相同; 2、依次对比,超出编号范围的都舍去; 每个单元被抽中的概率是相同。
随机试验的三个特点:
1)在相同的条件下重复进行; 2 )每次的试验结果可能不止一个。试验前,确 切知道所有可能的试验结果; 3 )试验结束之前,不能确定该次试验的确切结 果。
3.1.2 随机事件 必然事件:每次试验一定发生的事件Ω 确定性事件
例:掷一枚骰子,点数小于7
不可能事件:每次试验一定不发生的事件Ø
对于数量型数据中的连续型数据,或当离散型 数据的取值个数较多时,采取区间分组法。 参考教材P13页【例2.3】
区间分组法:
1)将所有数据按从小到大排列,找出最小值min和最大值max; 2)确定组数,一般以5~20组为宜; 3)计算组距=(max-min)÷组数,可四舍五入; 4)计算每组的上组界和下组界(上组界=下组界+组距)、组 中值(组中值=(上组界+下租界)÷2); 5)计算各组的频数fi(个数)和频率(频数/n),制表。
数量方法基本公式
《数量方法》基本公式第一章 数据的整理与描述1.平均数 平均数=数据的个数全体数据的总和∑==ni x n x 111加权平均数 ∑∑⨯≈mimi i v y v 11=频数的和组中值)的和(频数平均数 2. 中位数:将数据按从小到大顺序排列,处在中间位置的一个数或最中间的两个数的平均数。
3. 众数:数据中出现次数最多的数。
4.极差:R =最大值max -最小值min5.四分位点:把数据等分为四部分的那些数值。
第一四分位点Q 1是所有小于(或等于)Q 2的数据所组成的数据集的中位数;第三四分位点Q 3是所有大于(或等于)Q 2的数据所组成的数据集的中位数。
四分位极差=Q 3-Q 1,它不像极差R 那么容易受极端值的影响,但是仍然存在着没有充分地利用数据所有信息地缺点。
6.方差: ny n y v v y v v y v nx n x x x n iiii i ii i n i ii 222212222)(1)(1-=-=-=-=∑∑∑∑∑∑∑=σi v 是频数,i y 是组中值,∑=i v n 即数据的个数,∑∑=iii vy v y 即用分组数据计算的平均数。
或(加权公式)22()iiix x v vσ-=∑∑7.标准差:2σσ=8.变异系数: %100⨯=xV σ 第二章 随机事件及概率1.古典概率的计算:NN A P A =)(;2.广义加法公式:对于任意的两个事件A 和B ,)()()()(AB P B P A P B A P -+=+3.减法公式: ()()()()P AB P A B P A P AB =-=- 4.乘法公式:P (AB )=P (A )P (B|A ), P (A )≠0; 5.逆事件概率: ()1()P A P A =- 6.独立性事件概率:()()()P AB P A P B =7. 全概率公式:设事件A 1,A 2,…, A n 两两互斥,A 1+A 2+……+A n =Ω(完备事件组),且P (A i )>0,i =1,2,…,n 则对于任意事件B ,有:∑==ni iiA B P A P B P 1)|()()(;8. 贝叶斯公式:条件同上, 则对于任意事件B ,如果P (B )>0,有:∑==ni iii i i A B P A P A B P A P B A P 1)|()()|()()|(;第三章 随机变量及其分布 1.数学期望 ()i iiE X x p =∑2.方差 ∑-=-=ii i p Ex x Ex x E Dx 22)()( 22)()(Ex x E Dx -=3.数学期望性质: ()E c c =, ()()E a b X a b E X +=+ ; 4.方差性质: ()0D c =, ()()2D a b X b D X+= 5.常用连续型随机变量:6.标准化定理:设)1,0(~Z (~2N N X σσμ=),则,7.随机变量的线性组合:1) E(aX+bY)=aEX+bEy;2) )(),(2)()(22Y D b Y X abCov X D a bY aX D ++=+8. X ,Y 的相关系数:DYDX Y X r y x ⨯=),cov(,,取值范围是11,≤≤-Y X r ,越接近1,表明X 与Y 之间的正线性相关程度越强,越接近于-1,表明X 与Y 之间的负线性相关程度越弱,当等于0时,X 与Y 不相关。
第2章 统计数据的描述PPT资料161页
1. 统计部门和政府部门公布的有关资料, 如各类统计年鉴
2. 各类经济信息中心、信息咨询机构、专 业调查机构等提供的数据
3. 各类专业期刊、报纸、书籍所提供的资 料
4. 各种会议,如博览会、展销会、交易会 及专业性、学术性研讨会上交流的有关 资料
5. 从互联网或图书馆查阅到的相关资料
Internet
总体
5. 应用范围比较狭窄
2.抽样调查(P19)
1.从总体中随机抽取一部分单位作为样本
进行调查,并根据样本调查结果来推断 总体特征的数据收集方法
2. 具有经济性、时
效性强、适应面广、☺ 准确性高等特点 ☺
☺ ☺☺
3. 可以估计和控制误 ☺ ☺
差的大小
总体
随机样本
☺☺
2.3 统计数据的质量(P20)
仅对事物起分类作用,仅仅是个便于相互区别 的符号,不能对各分类起排序、比较的作用, 各类之间也都不能比较差异及进行运算。
2.1.2 顺序尺度(P17)
1. 也称定序尺度 2. 对事物分类的同时给出各类别的顺序 3. 比列名尺度精确一些 4. 未测量出类别之间的准确差值 5. 数据表现为有序的“类别” ,仍为品质标
http//WWW.
中 国中 人国 口市 统场 计统 年计 鉴年
鉴
2.2.2 直接获取的数据(P19)
直接获取数据的手段主要有: • 1.普查 • 2.抽样调查
1.普查(P19)
1. 为特定目的专门组织的,非经常性的全面 调查
2. 通常是一次性或周期性的
3. 一般需要规定统一的标准调查时间
4. 数据的规范化程度较高
数据的误差 抽样误差 非抽样误差 抽样框误差 回答误差 无回答误差 调查员误差
统计学(第四版)课件第2篇章统计数据的描述
在经济学中的应用
宏观经济分析
01
通过统计数据了解经济增长、就业、物价等指标,为政策制定
提供依据。
微观经济研究
02
利用统计方法研究个体经济行为,如消费、投资等。
市场调研
03
通过统计分析了解市场需求、竞争状况,为企业决策提供支持。
THANKS FOR WATCHING
感谢您的观看
标准化的方法
包括最小-最大标准化、Z分数标 准化和百分位数标准化等,应根
据研究需求选择合适的方法。
标准化的步骤
包括确定标准化方法和计算标准 化值等步骤,需注意确保标准化
的准确性和合理性。
03 统计数据的描述
描述集中趋势的指标
中位数
将数据按大小顺序排列后,位 于中间位置的数值。
几何平均数
适用于比较非对称分布的数据 集,计算方式为将数据相乘后 取算术平均数的算术平均数。
社会调查
通过统计方法了解社会现象,如教育水平、就业 情况、家庭关系等。
犯罪研究
利用统计数据对犯罪行为进行定量分析,为预防 和打击犯罪提供支持。
在医学中的应用
临床试验
通过统计分析,评估新药或治疗方法的疗效和安全性。
流行病学
利用统计方法研究疾病分布、传播和影响因素,为防控提供依据。
诊断与预后
通过统计分析,评估患者的诊断和预后情况,制定个性化治疗方案。
变异系数
标准差与平均数的比值,用于 比较不同量纲或不同平均数的 数据的离散程度。
四分位差
表示一组数据中间50%的离散 程度,计算方式为第三四分位
数与第一四分位数的差值。
描述数据分布形态的指标
偏态系数
描述数据分布的不对称性,大于0表 示右偏态,小于0表示左偏态。
数量方法知识点总结归纳(精华版)
1.数据的类型:依据描述事物所采纳的不同尺度,数据分为分类型数据和数量型 数据;9. 样本空间与随机大事的两种表示方法: ( 1)列举法; ( 2)描述法10.依据随机变量的取值情形,一般把随机变量分为: 连续型随机变量; ( 1)离散型随机变量; ( 2)依据被描述的对象与时间的关系分为截面数据,时间序列数据与平行数据;2.图形显示:饼形图,条形图,柱形图,散点图,折线图,曲线图,茎叶图; 11. 如两个大事是相依的, 就不肯定是互斥的;12.概率的乘法公式:P( AB ) P(B) P( A B) P( A) P(B A) ( B 发生的概( 1)饼形图的作用:反映各个部分的构成各频率的总合是 100%;( 2)条形图和柱形图:信息的比较——条形图:不同单位,不同信息的比较;柱 形图:同一单位不同时间信息的比较;( 3)折线图:同柱形图作用相像,对同一的数据折线图具有唯独性(两点间有且只有一条直线) ;率× B 发生条件下 A 也同时发生的概率)P( B) PA 1 P( A 1B) P( B A 1 ) P( A 2 B)P( A n B)PA 2 A i )P( B A 2 ) PA n P( B A n ) 全概率公式:13. P (A i )P( B ( 4)曲线图: 同折线图作用相像也是表示不同时间信息的比较, 但不具有唯独性; ( 5)散点图:表示两个变量之间的相互关系; (两个变量的任何一对取值都在平P( A i ) P(B A i ) P( A i )P(B A i )P ( A i B )面直角坐标系上代表一个点);贝叶斯公式:14. ( 6)茎叶图:把每一个数据分解成两部分——茎与叶(它的优点在于它既保留了 全部的原始数据又直观地显示出了数据的分布情形(与条形图相像) 3. 平均数,中位数和众数的关系: )【例;全概率】某车间有4 个工人生产同一种产品,每个人生产的产品个数分别占总产量的 15%,20% ,30% 和 35%,每个人的次品率分别为 0.05,0.4,0.03 和 ,;B 代表“取到的产品( 1)数据分布是对称分布时:众数=中位数 =平均数求该产品的总次品率(即随机地抽取一个产品,它是次品的概率) ( 2)数据分布不是对称分布时:左偏分布时:众数<中位数<平均数右偏分布时:众数>中位数>平均数解:设 Ai 代表“取到的产品是第 是次品”;依据题意有: i 个人生产的” ,i=1,2,3,4. 设 P ( B/A1 ) P ( A1 ) 我们想要求的是A1+A2+A3+A4=M P ( B/A2 ) P ( A2 )P ( B/A3 ) P ( A3 )P ( B/A4 ) P (A4 )(频数 * 组中值)的和频数的和4.分组数据的平均数(加权平均):平均数 =P ( B ),第一全部的产品都是由 4 个人中的一个人生产的,因此5. 极差 R=最大值—最小值(极差简单受极端值的影响有时是无效的) ,同时, A1 ,A2 ,A3.A4 两两互斥, 由概率的加法公式得P ( B )n 1 3(n 41) =P ( BM )+P{B ∩( A1+A2+A3+A4 )}=P ( BA1 )+P ( BA2 )+ P ( BA3 )+P ( BA4 )对应 Q1 ,中位数为 Q2 ,6. 四分位极差先排队再等分为4 份,其中再 由 概 率 的 乘 法 公 式 , 得 到4的对应 Q3, n 为总个数; Q3-Q1= 四分位极差,这两个点上的数值叫四分位点;如 P ( A i ) P (B A i P(B) )果四分位点不是一个整数就将前后两位数相加除以2 便是;即总次品率为 3.15%1 n22( x ix)【例;全概率】在上例中,假设车间规定,出了次品要追究有关人士的经济责任, 现从生产出的产品中任取一件,结果为次品,但它是由谁生产的标志已脱落,问 7. 方差这 4 个人当中谁生产了这个次品的可能解:沿用上例的符号,我们想求的是性最大?P ( Ai/B ),i=1,2,3,4. 由条件概率的定义和乘V100%8. 变异系数是标准差与平均数的比值,即:x法 公 式 , 我 们 可 以 得到: P ( A1/BP ( A3/B )) P ( A2/B )P ( A4/B )17. 二项分布 即该次品由第 3 个人生产的概率最大; 【例】 : 次品率为从中抽取10 个 1 个为次品 , 其余为正品(1)【例;贝叶斯】某出版社向80%教授 治理经济学的老师寄送了关于一本管MBA 9P理经济学方面的新教科书的广告;在收到广告的老师当中,有 30% 采纳了该书,在没有收到广告的老师中了,有 收到了广告的概率是多少? 解:设 A 代表大事“收到广告”10% 采纳了该书,已知某老师采纳了该书,问他(2)10个 中 有 个 正 品 , 第 个 为 次 品 , 其 余 为 正 品 的 概 率 P( 概1 2 119C 10率 ) , B 为“采纳了该书”;就依据题意P ( A ) , P ( B/A ) , P ( B/A 非) 我们想求的是2 28C(3)10个 中 有 个 次 品2 [ 次 品 位 置 固 定 时 前 两 个 为1028P(A) P(B A)]P ( A B )=[0.8*0.3]/[0.8*0.3+0.2*0P( A 非) P ( B / A非)P( A)P(B / A) k kn kP(k) CnP(1 P)表示做几次试验 ,有 K 次显现的概率为多少; X=K E( X )X i P i15 .期望值:二项颁布率为 二项颁布期望值 X~B ( n , p ) E(X)= np方差 D(X)= np(1-p) (2 X ) P E(2 X ) E (2 3 X ) 3E ( X )2 泊松公布: X~P ()单位时间内某大事显现的次数E ( X ) 18. 2 E ( X )X i p ia bE( X )kek !P X ke 为自然数E(a bx) E ( 2 x 3 2 x5当 n 很大并且 P 很小时,可以利用泊松分布来近似地运算二项分布; E ( X ) ), 20 ,求 【例;数学期望】如 的期望值; E4 泊松分布特点值: E(X)=( 期望值 ) 标准差D(X)=(2 X ) 1 X ) 4 1 E ( X ) 4 1E ( X ) 4 1 4E ( E 0 5 20【例;泊松分布】某高校运算机中心有运算机 80 台,各台工作是相互独立的,发4 生故障的概率都是,假设一台运算机的故障可由一个保护人员来处理,问至3 2 X 5 3 5 2 5 3 5 25随3 5 2 5变少需配备多少保护人员,才能保证运算机发生故障但不能准时修理的概率小于 0.01.E ( ) E ( X ) E( X ) 20解:设需配备 N 人,用 X 表示同一时刻发生故障的运算机台数,就 X---B ( ),离散型机量的方16 .2) 2) 2) 2)差 : D (X )( x p E(E( (kN2ek !N (n) 1即我们要确定使 P ( X ≤ N )≥ 的最小的 N ;N 应满意x z x z 重复抽样;不重复抽样;a 2n N nk 0kN0.8 e1 Z2 的置信度为 90%时,查表得满意上式的最小的N 是 3,即至少应配备 个3 1—k !k 01Z 2 的置信度为 95%时, 保护人员;19 .连续型随机变量的数学期望值和方差 1 Z 2 =2 置信度为 95.45% 时, 如已知 E(x) , 运算 2b D(X)全部变量值减去期望值为方差:如已知 D(x) ,运算 E(a+bx)=a+bE(x) D(a+bx) = 1Z2 =3置信度为 99.73% 时,0;X 除以标准差的方差为1;【例;连续型随机变量的数学期望和方差】某人估量她家八月份的电费(元)由 二,总体正态分布,方差未知,大样本下式打算: 其中 C 是八月份的平均温度(单位:C ),它是均值为22ss( N n )1 x Zx Z,标准差为的连续型随机变量,求该人家八月份的平均电费以及标准差;重复抽样;不重复抽样2nn N 1 解: 该人家八月份的平均电费为: ( C )(元)【例;置信区间】某汽车租赁公司欲估量全年每个租赁汽车的顾客每次租赁平均x= √2=其标准差为 σσ* 2行驶的里程;由于全年汽车租赁量很大,随机抽取了 200 个顾客,依据记录运算平均行驶里程 X=325 公里, 标准差 s=60 公里; 试估量全年全部租赁汽车每次平均20 . 决策的准就: ( 1)极大微小原就(悲观准就) ;( 2)最大期望收益原就; ( 3)最小期望机会缺失原就(机会缺失);行驶里程的置信区间;置信水平分别为( 1) ,( 2) 0.95.21 . 决策的三个基本要素: ( 1)要找出决策方案(两个以上) ;( 2)找出自然状态x 的抽样分布为正态分布, x 的标准差的估解:由于样本量n=200 为大样本,故(无法掌握的) ;( 3)收益值和缺失值(找出不同方案在不同自然状态下的收益值和缺失值) ;s n60 200计值为=x (总体均值) ; P (总体比例) ;22 . 总体均值的估量:S n90% 时,Z 2 ,由公式( 1)置信度为x z ,置信区间为a 2x 1 x 2 (两个总体均值之差) ; P 1 P 2 (总体比例差)2 2 22( )=325 ,为 公里至 公里之间;=325 P (x ) ; P( x1x 12x 2n)nnnn95% 时 Z2 =1.96 , u 的置信区间为( 2)置信度为( )325一,总体分布方差 σ 2已知,用Z 代表大样本=325 ;2s40 = ( 元)20【例;置信区间】某药厂在生产过程中改换了一种新的霉素,测定了 产出率与理论产出率的比值: 36 批产品的x t ( n 1)= 1072 n24. 假设检验的基本思想——小概率原理;接受域和拒绝域—如在小概率范畴的 区域【例】:< -n ,> n ( 内) 称< -n ,> n 为拒绝域;显著水平 => α —原假设为α (也就真的,但我们却错误地拒绝了它,而这种可能性是多少?就是显著水平是小概率原理)要求:( 1)运算这一比值 95% 的置信区间; ( 2)得出上述结论时作出了什么假设; ( 3)能否以 95%的置信水平说明新霉素的产出率提高了; 25. 假设检验中两类错误: 假的 β弃真错误——同第五点 α取伪错误——样本本是 解:( 1)运算得到x ,置信度为Z 2 ,故置信区间为95%时 弃真错误削减就取伪错误增加 误”26. 原假设和备择假设=> 两者成反比我们只能掌握“弃真错S n假设 6x z a )得 4﹤ u ﹤ 1.342.=1.268 (2H : u=u H :u ≠ u 拒绝域两边 拒绝域左边 拒绝域右边0 0 1 0( 3) ( 4)36 批的样品是随机的;H 0: u ≥ u 0 H 1:u < u 0H 0: u ≤ u 0 H 1:u > u 0说明新的霉素的产出率提高了,由于置信下限已超过1.23 . 总体正态分布,方差未知,小样本 =>①等号肯定在原假设上;②(单侧检验);③一般把期望拒绝的假设放在原假设 中(对立方不一样) ,(拒绝的错误,就是弃真错误,更直观地知道)在中立立场 22ss ( N n ) 1上,把可能拒绝的放在原假设中;三种形式,期望拒绝;可能拒绝;x t ( n 1)x t (n 1)重复抽样;不重复抽样;2 2 nn N 【例;置信区间】为讨论独生子女的每月零花钱,从某学校随机抽取了 20 个独生27. 相关关系定义——变量间的关系—函数关系:一个变量打算了另外一个变量,是确定的完全严格的—相关关系:两者间有关系,一个变量不是完全由另外一个变量确定的(受其它 因素的影响)28. 相关关系表现形状(相关关系的类型) 线性相关:变量这间的关系近似地表现为一条直线 非线性相关:变量之间的关系近似地表现为一条曲线 正相关:两个变量同一方向变动负相关:两个变量相反方向变动 子女的家庭,得到x =107 , s=40,试以 95% 的置信度估量该校独生子女学校生家庭平均每月零花钱的置信区间;解:由于 t 分布适用于正态总体, 因此讨论这一问题应第一假设独生子女家庭的子x 非 su 女零花钱应听从正态分布, 在小样本, 总体方差未知用 S2 代替时,~(t n-1),s2n由 公 式x t 2 (n 1)其 置 信 区 间 为 :E ( y )1x 回来方程:yix29. 回来模型:∑ )=0E( 035. 时间数列分析:①肯定数的时间数列,反应总规模总水平(时期指标可相加; y .b 0 b 1x 估量的回来方程y. 估量值为b 0 ;1 为b 1 ; E( y)为 0 时点指标不行相加) ;②平均类的时间数列,反应一般水平;③相对数的时间数列n n xy x ( y2y 1y 2 y 2y 3 y n y n1 30 . ( 1)最小二乘法; b 0 y b 1 xb ( )T ()T ( )T 1212 n 1xx)222间隔不等:y36. nT i回来方程参数含义: —回来系数 几何意义: b0——截距; b1——斜率;经济意义: b1—i 1y .【例;最小二乘法】a b 相对数,平均数序时平均数a : y=a/b ; b : y37. ;收入( x )每增加 平均变动的数值 )元,储蓄额 平均增加 万元 每变动一个单位 100 (y) ,(x ,yy iy i 增长量 = 报告期水平 - 基期水平逐期增长:累计增长:38. 1B 与 r( 相关系数 ) 的关系 :b1 > 0 时, x , y 为正相关 , 斜方差为正 b1 < 0 时, x , y 为负相关 , 斜方差为负 y iy 0y) 2( y . y) 2y.)2( y ( y 31 . 回来方程拟合程度的分析:关系:逐期增长量等相应时期的累计增长量, y iy iy i y 01( SST )总变差平方和 =回来平方和 SSR+剩余平方和 SSE 相邻两时期累计增长量之差=逐期增长量2( y. ( y SSRSSTy)SST SSESSE SST 2R1,判定系数:1累计增长量 增长时间y) 2( y i y i 1 )SST39. 平均增长量 =时间22判定系数取值 0≤ R ≤ 1,判定系数越大,拟合程度越高 R =1;32 . 回来方程线性关系检验: 40. 进展速度 =报告期的水平÷基期水平×100%第一步:确定存假设H 0,不存在线性关系;H 1:存在线性关系;环比 =本期÷上期×100%;定基 =报告期的水平÷固定时期水平×100%其次步: F=( SSR/1) /[SSE/ ( n-2 ) ]~F ( 1, n-2 ) 说明:环比进展速度的连乘积 =相应时期的定基进展速度第三步:确定显著性水平,α , F 2 ( 1,n-2 )平均进展速度41. 第四步: F 1> F 2 ( 1, n-2 )拒绝原假设; n ny 1y y 2y y n y n n①几何平均(水平)法: yy y y ( n1 2 n33 . 多元线性回来回来方程: E( y)1 x12 x2k xky y 00 1n 1指进展的次数)y . y. 估量回来方程:b 0 b 1 x 1 b 2 x 2b 0 b 1 x 1 b 2 x 2b k x k应用条件:从基期水平动身达到未期的水平, y 0 ~ y n22234 . 一元线性回来方程中 方差; 反相等量之间相关方向:R =rr 相关系数, b 1 回来系数, R 判定系数, 协cov ②累积法(方程式法)平均增长速度 =平均进展速度 -1 2r , b 1, cov反相等量之间相关方向:r , Reg : 01 0203048% 7% 8% 9%n平均进展速度108% 107% 108% 109%42 . 时间数列构成要素:长期趋势T,季节变动S (周期固定,周期短),循环变动C(经济周期→宏观)周期不固定,周期长),不规章变动I两种模式:Y= T×S×C×I (乘法模式);Y=T+S+C+I (加法模式)43 . 季节指数(S)=同月(季)平均数/ 总月(季)平均数*100%44 . 指数的性质:相对性(个体指数,时间性指数,区域性指数)性;45 . 总量指数:由两个不同时期的总量对比形成的相对数;,综合性,平均V1/0=p1q1/p0q0.。
统计方法描述
统计方法描述嘿,咱今儿就来聊聊统计方法!这统计方法啊,就像是个神奇的魔法棒,能把一堆杂乱无章的数据变得有条有理。
你想想看,生活中那么多的数据,就像一群调皮的小孩子,到处乱跑乱跳。
而统计方法呢,就是那个能让这些“小调皮”乖乖站好队的厉害角色。
比如说啊,你想知道一个班级里同学们的成绩分布情况,这时候统计方法就出马啦!它能把每个同学的成绩都整理清楚,告诉你高分有多少,低分有多少,中间的又有多少。
这多有意思呀!再比如说,市场调查的时候,要了解消费者对某个产品的喜好程度。
那怎么知道呢?靠统计方法呀!通过问卷调查或者其他方式收集来的数据,统计方法就能帮我们分析出大家到底是喜欢还是不喜欢,喜欢到什么程度。
这不就像个侦探一样,能找出隐藏在数据背后的秘密嘛!统计方法里还有各种各样的工具呢,就像一个装满宝贝的百宝箱。
平均数,这可是个常见的家伙,它能大概地告诉你这堆数据的一个中间水平。
还有方差,它能告诉你数据的离散程度,就像看看这些“小调皮”们是不是都老老实实待在一块儿,还是到处乱跑。
还有啊,假设检验,这可厉害了!就好像你对一个事情有个猜测,然后通过统计方法来验证你的猜测对不对。
是不是很神奇?就像你觉得今天会下雨,然后通过观察各种迹象,用统计方法来判断到底会不会下。
咱们平时生活中也经常会用到统计方法呢,只是可能没意识到。
比如说你想知道自己这个月花了多少钱,把每一笔开销都记下来,然后一统计,哇,就清楚啦!这也是一种简单的统计呀。
统计方法可不只是在学校、工作中有用,在很多其他地方都能大显身手。
比如医学研究中,要看看一种药有没有效果,就得靠统计方法来分析数据。
还有社会科学里,研究人们的行为、态度,也得靠它呢。
你说,这统计方法是不是特别牛?它就像一个默默无闻的幕后英雄,虽然我们平时可能不太注意到它,但它却在悄悄地发挥着巨大的作用。
所以啊,咱们可别小看了它,要好好学。
第二讲描述统计
圆形图(饼图)
98年北京城镇居民消费结构
8% 14%
6% 食 品 衣 着 家庭设备 医疗保健 交通和通讯 文化教育 居 住 杂项商品
41%
5% 5% 11% 10%
折线图
图2。5 某市教育系统1995-2000年人员平均工资 和经费投入变化情况(1995年=1) 3 2 1 0 1995 1996 1997 1998 1999 2000 平均工资 经费投入
实验班
83 92 84 84 86 91 76 86 87 87 83 85 89 74 87 78 82 81 88 84 80 78 90 95 91 87 92 81 72 88 79 90 85 79 75 76 77 89 79 85 76 89 86 87 78 82 75 68 84 76 75 72 78 84 74 78 78 79 76 66 87 83 87 73 84 85 65
品 着 备 育 住 健 设 讯 教 保 通 食 衣 居 商 品
四 川 北 京
庭
疗
化
家
医
和
文
交
通
杂
项
VAR00001
12
10
8
6
4
Frequency
2
Std. Dev = 11.81 Mean = 71.1 N = 30.00 45.0 55.0 65.0 75.0 85.0 95.0
0
VAR00001
二、
集中量数
集中量是代表一组数据典型水平或集 中趋势的量。 常用的集中量有平均数、中位数和众 数。
一、平均数
1、算术平均数 2、加权平均数
1、算术平均数 简称为平均数或均数 (Mean)。
数量方法概念
第一章:数据的整理和描述(一)名词解释1:分类型数据:即属性数据,它所描述的是事物的品质特征。
从统计的计量水准来说是一种较原始和低级的计量,称列名水准。
这类数据只能计算各类的频数和比例,不能进行其他数学运算,如人口按性别、民族等分类,这种分类没有严格的先后顺序。
广义的分类数据,也包括顺序的计量水准,如学生的成绩划分为优良中及格和不及格,它们之间有一定的顺序关系,可以比较,但也不能进行其他数学运算。
2:数量型数据:这类数据是用来说明事物的数量特征,从统计的计量水准来说包括定距水准和定比水准。
如:人的年龄,企业职工人数,产品产量,国家的国民生产总值等用数值的形式表示,这类数据除了计算频数和比例外,还可进行计算平均数和方差。
3:截面数据:是指用来描述事物在同一时点社会经济各种不同指标的数据。
如在同一时期的人口数、国内生产总值、运输量、财政收入等数据,可观察同一时期各指标间的相互关系。
它还包括同一时期相同指标在不同部门的分布,又称横向数据,它可研究客观现象之间的相互联系。
4:时间序列数据:将数据按时间的先后顺序排列后形成的数据序列,又称纵向数据。
时间序列数据可以反映事物在一定时间范围内的变化情况,研究事物动态变化的规律性并进行预测等。
5:频数分布:即次数分布,是按数据的某种特征进行分组后再计算出各类数据在各组出现的次数加以整理,这种次数也称频数,整理后形成的表称频数分布表。
把频数与全体数据个数之比,称频率,这样的表就为频率分布表。
6:组距:在数量型数列中按单变量分组有时组数过多,不便于观察数据分布特征和规律,需要将数据的大小适当归并,在每组中规定的最大值与最小值之差就称为组距。
各组的组距均相等时称等距数列,不完全相等时称不等距数列。
7:组界:又称组限,指组距的变量数列的分组中,各组变动范围两端的数值,最小限度的值称下限,最大限度的值称上限,上限与下限之差即为组距。
8:组中值:组距的变量数列中每组上限与下限的平均值,其公式为:组中值=(上限+下限)/29:频率分布表:频数分布表的另一种表现形式,它把每组中变量出现的频数转换为相对次数,即得每组次数除以总次数,称各组的频率,各组的频率相加为1。
第二章 简单统计描述分析
第二章单变量和双变量统计描述分析第一节单变量统计描述基本技术一、变量的计量尺度/层次1、定类变量——最低层次的变量类型。
只有类别属性之分,无大小程度之分。
根据变量值,只能知道研究对象的异同。
从数学运算特性来看,定类变量只有等于或不等于的性质。
2、定序变量——层次高于定类变量。
取值除类别属性外,还有等级、次序之分。
数学运算特性除等于或不等于外,还有大于或小于。
3、定距变量——层次高于定序变量。
取值除类别属性、次序之外,取值之间的距离可以用标准化的举例度量。
数学运算特性除等于不等于,大于小于之外,还可以加减。
如收入,以1元为标准化距离,则2000元比1500元多了500元。
4、定比变量——最高层次变量。
除了上述三种属性外,可以进行乘除运算。
1、社会学研究中,能够满足定距而不能同时满足定比要求的变量不多。
如智商,因为智商0分只有相对的意义,0分不等于没有智商,且0值不固定。
当前社会统计方法很少要求达到定比层测,所以只介绍前三种层次变量。
2、在社会学研究当中,有些变量的层次是不统一可变的,可用定序层次也可用定距层次,根据研究需要。
高层次变量可以降低层次来使用。
一般来说,测量层次越高越好,数学特性就越多,统计分析就越方便,能了解资料的程度就越深入。
二、基本技术1、次数分布(定类)——针对定类变量最基本的统计分析方法。
面对大量的数据资料,首先要组织整理,第一步就是要采用次数分布来简化资料,看某变量的每一个值出现的次数是多少。
定类变量的取值要求:变量取值必须完备,使得每个各观察值都有所归类;必须互斥,一个观察值只能归入一类,对于分组数据遵循上限不包括在内原则。
次数分布可简化资料,但不能比较样本,因为样本量不同。
2、比、比例和比率(通常保留一位或两位小数)比:某两类的次数相除,如性别比=男性/女性比例:某类次数除以总数,老年人口比例=老年人口数/总人口数×100%比率:某一确定变量相对应的某些事件发生的频率。
自考-数量方法-讲义(一)
第一章数据的整理和描述打印本页数据需要用越完备的统计方法进行分析和描述。
获取定距和定比数据需要花费更多的费用尤其是调查顾客时,但它更适合分析用。
因此,在收集数据前,应先考虑到底需要哪种类型的数据。
五、变量(Variable)(一)说明现象某种特征的概念1.如商品销售额、受教育程度、产品的质量等级等2.变量的具体表现称为变量值,即数据(二)变量可以分为1.分类变量(categorical variable):说明事物类别的一个名称,如性别2.顺序变量(rank variable ):说明事物有序类别的一个名称,如顾客满意度3.数值型变量(metric variable ):说明事物数字特征的一个名称(1)离散变量:取有限个值,如企业数,产品产量等(2)连续变量:可以取无穷多个值,如体重、零件尺寸。
第二节数据的整理与图表显示在第一节中我们讨论了数据的类型,在这一节中我们将讨论如何用有效的数量方法展示数据和概括数据,获得有用的管理信息。
由于现代社会科技发达,使得收集、传输数据变得非常容易,因此管理者、企业董事甚至一线员工都可参与。
由此,尽可能的以简洁的方式来收集、总结、展示数据至关重要,而表图就是一种简便的交流工具,所有员工都很容易看懂它。
一、数据整理的必要性1.数据的整理对所搜集到的原始资料进行分组、汇总,使其条理化、系统化的工作过程称数据的整理。
2.数据的整理意义由于所取得的资料是零星的,分散的,数据的整理对资料进行科学加工,使之系统化,成为说明总体特征的综合资料,是人们对社会经济现象从感性认识到理性认识的过渡阶段。
(基本问题)(1)要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的;(2)对分类数据和顺序数据主要是做分类整理;(3)对数值型数据则主要是做分组整理;(4)适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据二、分类数据的整理基本过程1.列出各类别2.计算各类别的频数3.制作频数分布表4.用图形显示数据(一)频数与频数分布1.频数:落在各类别中的数据个数称为频数也称次数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章
描述统计:数量方法
STAT
4、评价 (1)测度数据的重心位置。
年龄(x) 人数(f) 36 1 A、Mean=38 37 1 离差:2+1=1+2 38 1 B、Mean=38.3333 39 1 离差:2.3333+1.3333+0.3333 40 1( 2) =0.6667+1.66672
STAT
[例]某人早、中、晚购买蔬菜的资料如下,求平均价格。
总金额 价格 数量 3元 xf x =0.26 总数量 数量 11.5斤 f
第二章
描述统计:数量方法
STAT
二、调和平均数(Harmonic Mean ,P35) 1、定义:变量值①倒数②的算术平均数③的倒数④ 。 2、公式推导 ( 1 )变量值: x1 , x2 ,, xn
1 1 1 1 (2)倒数: , ,, 令yi x1 x2 xn xi 1 1 1 1 x x x y 2 n (3)求算术平均数: y 1 x n 111 n n (4)倒数: H “简单调和平均数” 1 x
均值 78.67 77.78
[例2]2000年哈佛大学研究生部6个最大专业录取情况如下:
专业 男性报名人数 录取率(%) 女性报名人数 录取率(%) A 825 62 108 82 B 560 63 25 68 C 325 37 593 34 D 417 33 375 35 E 191 28 393 24 F 373 6 341 7
STAT
第二节
一、概念 1、集中趋势:越靠近中间水平,出现的频数越多,反之亦反。 2、离中趋势:离开并分散在中间水平两侧的趋势。 按年龄分组(岁) 38 39 40 41 42 合计 人数(人) 10 30 70 40 20 170
第二章
A : 65 三人成绩 B : 70 C : 75
x1 x 2 x3 x n x x E ( x) 1111 n
x ( 1 )简单算术平均数: x n
适用前提:未分组数据 且计算工作量不大。
第二章
描述统计:数量方法
STAT
10 人年龄资料 [例]10人年龄资料:15,16,16,17,17, 年龄 x 人数 f 比重 17,18,18,18,18。求平均年龄。 15(x1) 1(f1) 0.1 15 1 16 2 17 3 18 4 x 17岁 16(x ) 2(f ) 0.2 2 2 1 2 3 4
第二章
描述统计:数量方法
计算(数值)平均数
STAT
第三节
一、算术平均数(Mean,均值)(P33)※ 1、含义:数据的重心测度。 [例]10人年龄:15,16,16,17,17,17,18,18,18,18。求平均年龄。 2、计算公式 平均的对象:年龄“x ” 总年龄(总体总量) 15 16 16 18 170 x 17岁/ 人 x “x bar” 总人数(个体数) 1111 10
STAT
公元前4000年 131,119,138,125, 129,126,131,132, 126,128,128,131
公元150年 136,130,126,126, 139,141,137,138, 133,131,134,129
实践中的统计
[远洋运输船队的选择]
STAT
中国某国际贸易公司,从国内采购多种化工、医药产品销往世界 各地,因此需选择远洋运输船队。现在三家船队分别提供了从中 国上海到秘鲁Callao(卡亚俄)港的运输天数的记录资料。 (1)检验并剔除异常值; (2)计算平均运输天数;(3)计算运输天数的标准差。 供应商 A B C 交货期(天) 24,9,15,16,19,23,14,19,18,18,18,15,12,13,21
14,21,14,39,18,21,18,12,19,17,26,26,15,16,17, 18,14,60,11 9,14,37,23,11,10,10,21,19,26,39,32,30,14,15,22,23,39, 14,11,13,47,14,23,19,20
第二章
描述统计:数量方法
集中趋势与离中趋势
第二章三、均值的种类Fra bibliotek描述统计:数量方法
STAT
A : 65 B : 70 x 70分 / 人 C : 75
2001: 1200 万元 / 年 2002: 1300 a 1300 2003: 1400
算术平均数x () 计算平均数调和平均数H 几何平均数G 静态平均数 中位数 M e 位置平均数 众数 M o 数、平均发展速度等 动态平均数:序时平均
( x x0 ) 2 f ( x x ) 2 f
第二章
评委 甲选手 乙选手 A 89 90 B 78 80
描述统计:数量方法
C 79 81 D 77 79 E 76 78 F 75 76 G 81 84 H 79 82 I 74 50
STAT
[例1]两选手的参赛得分,谁将赢得比赛?
36 37 38 39 40
(2)受极值影响很大。 [例]36,37,38,39,40,80 Mean=46(岁)
第二章
描述统计:数量方法
STAT
(3)变量值与其均值离差之和为零。
简单式:( x x ) 0 加权式:( x x ) f 0 (4)变量值与其均值离差平方和为最小值
男性录取率
男性录取人数 录取率 报名人数 xf 44.52% 男性报名人数 报名人数 f
xf 0.82 108 0.68 25 556.62 x女 30.33% f 108 25 1835
x y,x y “辛普森悖论”
描述统计:数量方法
(5) 70 70 x 70分 / 人 (5) 70
STAT
二、均值(平均指标)的概念(P33)
年: 1200 2001 财政收入2002 年: 1300 a 1300 万元 / 年 2003 年: 1400
1、定义:反映总体一般水平的代表值。 2、特点 (1)消除离差;(2)找出中心。
f n x1 f1 x2 f 2 xf f1 f2 x1 x2 xn f f f f f xf f 适用前提:分 (2)加权算术平均数: x x 组数据。 f f
第二章
描述统计:数量方法
STAT
3、注意的问题 (1)权数(Weight):权衡轻重的数 “ f或f/f ” [例]“五一”期间10名同学的旅游地点选择:黄山5人,武 夷山2人,泰山2人,老福山1人。 表一 x 17岁 / 人 表二 x 17.1岁/ 人 年龄 人数 比重 年龄 人数 比重 15 1 0.1 15 1 0.1 16 2 0.2 16 2 0.2 17 3 0.3 17 2 0.2 18 4 0.4 18 5 0.5 10 1.0 10 1.0
类别:绝对权数与相对权数→取值区间:0~1,总和为1。
第二章
描述统计:数量方法
STAT
[附]权数的起源和发展(曾宪报,1998) (1)思想最早源于中国春秋初期著名政治家管仲的治国思想 [例]《史记· 平淮书》:“管仲既任政相齐……,贵轻重,慎权 衡”;《管子轻重· 山权数篇》:桓公问管子曰:“请问权数”。 管子对曰:“天以时为权,地以财为权,人以力为权,君以令为 权”;《孟子· 梁惠王篇》:“权,然后知轻重”。 (2)现代统计科学中的权数起源 1812年,英国政治算术学家阿瑟· 杨格(Arthur Young)在其所著 的《英国币值递增的研究》一书中,首次提出用加权平均法计算 物价指数。为了求出物价水平的变动,杨格将各种商品按重要性 分别配以一定的权数,如“大麦的重要性二倍于羊毛、煤、铁, 而粮食有四倍的重要性,小麦与劳动力则有五倍的重要性”。 (3)运用:均值、方差、指数、预测和综合评价等。
实践中的统计
统计实例(Statistics in Practice)
[古埃及男性头骨样本的最大宽度] 均值:公元前 头骨宽度 4000年128.67 公元前 (毫米) 4000年 公元150年 公元 年 133.33(毫米) 1 0 120150 以下 离差:133.33 120-130 –128.67=4.66(毫米) 6 3 130-140 5 8 结论:1、智力水平的提高; 0 1 140以上 2、古埃及人与来自其他地区的人们通婚的结果。
组中值(x) 17.5岁/人 22.5 27.5 ——
xf 17.5×3=52.5 112.5 82.5 247.5 ∑xf
xf 247.5 x 22.5岁 f 11
结论:以组中值代替x 尔后计算。
第二章
描述统计:数量方法
STAT
(3)算术平均数的影响因素
变量水平 x xf f f x x 权数结构 f f f 表一 表二 表三 体重 人数 体重 人数 体重 人数 x f x f x f 80 3 75 3 75 7 81 7 76 7 76 3 82 2 77 2 77 2 12 12 12
第二章
描述统计:数量方法
STAT
[例]某种蔬菜价格:早上0.4元/斤(x1),中午0.25(x2),晚 上0.20(x3),某人早、中、晚各买1斤(f),求平均价格。 [原型公式]平均价格=总金额/总数量 xf 0.4 1 0.251 0.201 0.85元 x =0.28元 / 斤 f 111 3斤 [例]类似地,某人早、中、晚各买1元,求平均价格。 1 1元 1 1 1 1 2.5斤, 4斤, 5斤 x1 0.4元 / 斤 x2 0.25 x3 0.20
n 111 3元 H 0.26元 / 斤 1 1 1 1 11 .5斤 x 0.4 0.25 0.20