优秀大学统计学授课ppt讲义statistics
合集下载
第十三讲统计学讲义 PPT
α=P(V|H0 真)
对于第 3 种情况,H0 本来是非真的,却根据检验统计 量的值把它给接受了,在统计上,称为第二类错误,也称 取伪错误,这种错误发生的概率通常用β表示,即
β=P(V |H0 非真)
表 6.1.1 给出了上述 4 种情况。
表 6.1.1 假设检验的四种可能结果
对假设 H0 采取的决策
• H0: P≤0、01; H1: P>0、01
• H0:
; H1:
• H0:随机 1变20量0 X与Y独立 ;H121:0随0 机变量 X与Y不独
立。
•
关于总体参数得假设称为参数假设,否则,
称为非参数假设。例如,例 6、1、1 、例6、2、
2 就是参数假设,例 6、1、3 就是非参数假设。
•
完全决定总体分布得假设称为简单假设,否
• 根据小概率原理进行假设检验得方法就就是概率意义 下得反证法,其思想就是:为了检验原假设H0就是否正 确,我们首先假定“H0正确”,然后来瞧在H0就是正确 得假定下能导出什么结果。如果导出一个与小概率原 理相矛盾得结果,则说明“H0正确” 得假定就是错误得, 即原假设H0不正确,于就是我们应作出否定原假设H0得 决策;如果没有导出与小概率原理相矛盾得结果,则说明 “H0正确” 得假定没有错误,即不能认为原假设H0就 是不正确得,于就是我们应作出不否定原假设H0得决策。
第十三讲统计学讲义
• 例 6、1、2 按照质量标准,某种导线得平均拉力 强度为1200公斤,一批导线在出厂时抽取了100根 进行检验,测得得平均拉力强度为1150公斤,试问: 这批导线得平均拉力强度就是否符合质量标准。
• 在本例中,即将出厂得这批导线得平均拉力强度就是未
知得,我们关心得问题就是,如何根据样本得平均拉力强度 公斤x 来 1判15断0 : • 这批导线得平均拉力强度 1200就是否成立。
对于第 3 种情况,H0 本来是非真的,却根据检验统计 量的值把它给接受了,在统计上,称为第二类错误,也称 取伪错误,这种错误发生的概率通常用β表示,即
β=P(V |H0 非真)
表 6.1.1 给出了上述 4 种情况。
表 6.1.1 假设检验的四种可能结果
对假设 H0 采取的决策
• H0: P≤0、01; H1: P>0、01
• H0:
; H1:
• H0:随机 1变20量0 X与Y独立 ;H121:0随0 机变量 X与Y不独
立。
•
关于总体参数得假设称为参数假设,否则,
称为非参数假设。例如,例 6、1、1 、例6、2、
2 就是参数假设,例 6、1、3 就是非参数假设。
•
完全决定总体分布得假设称为简单假设,否
• 根据小概率原理进行假设检验得方法就就是概率意义 下得反证法,其思想就是:为了检验原假设H0就是否正 确,我们首先假定“H0正确”,然后来瞧在H0就是正确 得假定下能导出什么结果。如果导出一个与小概率原 理相矛盾得结果,则说明“H0正确” 得假定就是错误得, 即原假设H0不正确,于就是我们应作出否定原假设H0得 决策;如果没有导出与小概率原理相矛盾得结果,则说明 “H0正确” 得假定没有错误,即不能认为原假设H0就 是不正确得,于就是我们应作出不否定原假设H0得决策。
第十三讲统计学讲义
• 例 6、1、2 按照质量标准,某种导线得平均拉力 强度为1200公斤,一批导线在出厂时抽取了100根 进行检验,测得得平均拉力强度为1150公斤,试问: 这批导线得平均拉力强度就是否符合质量标准。
• 在本例中,即将出厂得这批导线得平均拉力强度就是未
知得,我们关心得问题就是,如何根据样本得平均拉力强度 公斤x 来 1判15断0 : • 这批导线得平均拉力强度 1200就是否成立。
统计学课件ppt(全)
统计是以数据为食物的动物 统计的本业是消化数据, 并产生有营养的结果。
Data—— Statistics ——Information
经济学家、教育家、人口学家 原北京大学校长 马寅初
• 学者不能离开统计而研究 • 政治家不能离开统计而施政 • 企业家不能离开统计而执业
第一节 统计与统计学
• 统计与统计学的含义 • 统计数据的规律与统计方法
二、统计数据的规律与统计方法
以上例子说明,通过多次观察或试验可 以得到大量的统计数据,利用统计方法是 可以探索其内在的数量规律性。因为客观 事物本身是必然性与偶然性的对立统一, 必然性反映了事物的本质特征,偶然性反 映了事物表现形式的差异。(举例学生的 平均分,标准差)
举例3:《2011年武汉地区高校毕业 生就业报告》
• 即使入职相同行业,不同部门间的收入差 距也较大。从总体看,高校毕业生薪资起 点呈现“研发岗”>“销售岗”>“职能 岗”>“行政岗”的总体态势。 • 在不同性质的企业中,应届高校毕业生工 资最高的是外资企业,达2500元以上的占 到62.3%,达5000元以上的占到8.2%。接 近半数的应届毕业生,工资水平集中在 1500元-2500元之间。
举例5:文学也与统计有关
据统计学家(复旦大学李贤平教授)对《红 楼梦》各回的虚词(47个虚词:之,其,或,呀, 吗,可,便,就……)出现的频率进行统计分析 (原因是由于个人写作特点和习惯的不同,所用 的虚词是不会一样的),采用聚类分析,(物以 聚类,人以群分)发现前80回和后40回明显不同, 出自不同的人,进一步运用判别分析,发现前80 回是曹雪芹缩写,后40回不是高鹗一人所写,而 是曹雪芹亲友将其草稿整理而成,宝黛故事为一 人所写,贾府衰败情景为另一人所写等等,这个 论证在红学界轰动很大。
统计学课程(第一章-绪论)PPT课件
第一节 统计和统计学
第二阶段:近代统计学时期 近代统计学时期是指18世纪末到19世纪末统计 学的重大发展时期。其主要代表学派有数理统计 学派和社会经济统计学派。
第三阶段:现代统计学时期 现代统计学时期是指从20世纪初至今的统计学 新的发展时期。
第一章 绪论
第二节 统计学的性质、研究对象和研究方法
统计工作,就是统计实践活动,是收集、整理 和分析统计数据的活动。
统计资料,是统计实践活动过程所取得的各项 数据资料的总称。
第一节 统计和统计学
一、统计的概念
统计学,是在统计实践活动中所积累的理论和 方法的知识体系,是关于认识客观现象总体数量 特征和数量关系的科学。
统计工作是人们的统计实践工作,是基础和前 提;统计资料是统计工作的结果,统计工作与统 计资料是工作过程与工作成果的关系。统计学是 统计工作经验的总结与概括,统计学与统计工作 之间是统计理论与统计实践的关系。
调查研究,根据对这一部分观察单位的观察结果, 再去推断和估计总体情况。这部分观察单位就叫 做总体的样本。
样本具有以下特点: • 1.样本的单位必须取自同一总体的内部,不能取自不同的总体。 •来自2.从一个总体可以抽取若干个样本。
第三节 统计学的基本概念
样本具有以下特点:
• 3.样本是用来代表总体的。 • 4.从总体中抽取样本进行调查的目的是为了对总
的数量方面。包括社会经济现象总体的数量表现、 现象总体之间的数量关系,以及质量互变的数量 界限及其规律性。
统计学的研究对象具有以下几个方面的特征: (一)数量性 (二)总体性 (三)具体性 (四)社会性 (五)变异性
第二节 统计学的性质、研究对象和研究方法 三、统计学的研究方法 (一)大量观察法
统计学讲义(ppt 16页)
次數 0 2 3 6 8 5 3 2 1
累積次數 0 2 5 11 19 24 27 29 30
根據這張次數分配表,就可以得到圖(1)的直方圖。 ── 直方圖的目的是什麼? ── 直方圖可能有那些基本模式? ── 每一種基本模式透露了那些重要的訊息? ── 如何運用直方圖來改善品質?
四. 不吻合常態分配的基本模式?
下組界 below 59.50 60.50 61.50 62.50 63.50 64.50 65.50 66.50 67.50 σ=1.72906
上組界 59.50 60.50 61.50 62.50 63.50 64.50 65.50 66.50 67.50
組中值
60.00 61.00 62.00 63.00 64.00 65.00 66.00 67.00
你所計算的 與σ,如何才能讓沒學過統計的人一目瞭然呢?
三. 直方圖(Frequency Histogram)
• 傳統做直方圖之前要先斟酌: • (1) 樣本數,然后依據樣本數來決定 • (2) 分組數,然后再決定 • (3) 每組之組距組界,而后根據上述(1)(2)(3)來設計 • (4) 次數分配表,最后再依據次數分配表來繪制(5)直方圖
4.3偏向一邊洞燭機先
圖4:右偏型直方圖
『這一類的直方圖既與管理疏失所造成的數據混雜無關(詳見4.1), 又與技術原因造成的離島問題無涉(詳見4.2)。它反而可說是一種 難以避免的自然現象,統計學家特別將它稱為偏態型直方圖,換 言之它就是會慢慢偏向一邊,請各位想想看,在我們生活週遭, 有那些類似的現象?』 汽車老了就會愈來愈耗油
如果我們有一組數據如下:
63 60 64 62 63 64 63 62 66 64 60 62 61 65 62 63 66 63 67 64 63 62 65 63 65 61 62 64 63 61
统计学(课件)
将一系列相互联系、相互补充共同说明一个总体各方面特征的指 标组成整体就构成统计指标体系。
《统计学》第一章 绪论
统计指标 反映社会经济现象总体数量特征
的概念及其具体数值
构成要素:
时间 限制
空间 计算方法 具体 限制 指标名称 数值
1999年末 大连市 总人口 570
计量 单位
万人
性质: 数量性 具体性 综合性
不变标志:标志表现相同
可变标志:标志表现不同
标志
性别 民族
品 质
宗教信仰 政治倾向
标 志
年龄
数
身高
量 标
体重
志
标志表 现
男
文
汉族
字
佛教 无党派
表 述
43岁 数
182cm 75公斤
据 表 述
标志和变量
《统计学》第一章 绪论
不变标志决定 总体的同质性
不变标志
总体单 (标志表现无差别)
位标志
变异标志
品质标志
同质性
总体的特点 差异性
大量性
总体的分类
有限总体:总体单位数目有限 无限总体:总体单位数目无限
《统计学》第一章 绪论
总体、总体单位
总体、总体单位
总体或总体单位的区分不是固定的, 在一定条件下可以相互转化。
二、标志和变量
(一)标志是反映总体单位特征的名称。
1、标志的分类
品质标志:不能用数量表示
数量标志:用数量表示
行加减运算。
定距变量或指标各类别间自 然有大小之分,但没有绝对 的零点,不能乘除计算。
温度
天气预报:沈阳:最高温度3℃,最低-7℃ 大连:最高温度6℃,最低-2℃
✓ 两地最高温度相差3℃ ✓ 沈阳最低温度较大连最低温度低5℃ 大连最高温度是沈阳最高温度的2倍
《统计学》第一章 绪论
统计指标 反映社会经济现象总体数量特征
的概念及其具体数值
构成要素:
时间 限制
空间 计算方法 具体 限制 指标名称 数值
1999年末 大连市 总人口 570
计量 单位
万人
性质: 数量性 具体性 综合性
不变标志:标志表现相同
可变标志:标志表现不同
标志
性别 民族
品 质
宗教信仰 政治倾向
标 志
年龄
数
身高
量 标
体重
志
标志表 现
男
文
汉族
字
佛教 无党派
表 述
43岁 数
182cm 75公斤
据 表 述
标志和变量
《统计学》第一章 绪论
不变标志决定 总体的同质性
不变标志
总体单 (标志表现无差别)
位标志
变异标志
品质标志
同质性
总体的特点 差异性
大量性
总体的分类
有限总体:总体单位数目有限 无限总体:总体单位数目无限
《统计学》第一章 绪论
总体、总体单位
总体、总体单位
总体或总体单位的区分不是固定的, 在一定条件下可以相互转化。
二、标志和变量
(一)标志是反映总体单位特征的名称。
1、标志的分类
品质标志:不能用数量表示
数量标志:用数量表示
行加减运算。
定距变量或指标各类别间自 然有大小之分,但没有绝对 的零点,不能乘除计算。
温度
天气预报:沈阳:最高温度3℃,最低-7℃ 大连:最高温度6℃,最低-2℃
✓ 两地最高温度相差3℃ ✓ 沈阳最低温度较大连最低温度低5℃ 大连最高温度是沈阳最高温度的2倍
基础统计学PPT培训课件讲义
1-8
Types of Statistics
Descriptive Statistics: Methods of organizing, summarizing, and presenting data in an informative way.
EXAMPLE 3: The Canadian government reports that the population of Canada was 18,238,000 in 1961, 21,568,000 in 1971, 24,820,000 in 1981, 28,031,000 in 1991, and 31,050,700 in 2001. If we calculate percentage growth over the decades it is also descriptive statistics.
1-7
Types of Statistics
Descriptive Statistics: Methods of organizing, summarizing, and presenting data in an informative way.
EXAMPLE 2: According to Consumer Reports, General Electric washing machine owners reported 9 problems per 100 machines during 2002. The statistic 9 describes the number of problems out of every 100 machines.
– This is why younger people pay more for insurance…
统计学教程讲义(PPT73张)
2.平均增长量 平均增长量( Average Growth Amount )是逐期增长量的算术平均数, 用来事物及其现象的某一数量特征在一定时期内平均每期增加或减少的 绝对数量。其计算公式为
Y Y Y 2 N Y 1
N
(10.9)
由于逐期增长量之和等于累计增长量,所以上式又可写成:
要求 试计算该工厂第三季度计划完成程度。 ( 1 )在各月的计划数和实际数数据都具备时,直接采用式(10.5 )计 算。 (2)在拥有各月的计划数和计划完成情况数据,缺少母项数据时,则 可根据式(10.5)间接地获得各月的实际数数据,再计算出该工厂第三 季度计划完成程度。 ( 3)在拥有各月的实际数和计划完成情况数据,缺少子项计划数数据 时,仍然可以根据式(10.5)间接地获得各月的计划数数据,再计算出 该工厂第三季度计划完成程度。
SS 1
(10.16)
根据环比发展速度计算的平均发展速度,也是一种序时平均数,可以 采用几何平均法或方程式法这两种方法来计算。
/6:07
《统计学教程》
第10章 时间序列分析
10.1 描述性分析
1.水平法 水平法又叫几何平均法。由于现象在一段时期内环比发展的总速度不 等于各期环比发展速度之和,而是等于各期环比发展速度的连乘积,所 以计算平均发展速度不能应用算术平均法,可以使用几何平均法。即
/6:07
《统计学教程》
第10章 时间序列分析
10.1 描述性分析
2.平均发展水平 平均发展水平( Average Development Level)使指时间序列中的发 展水平的平均数,一般又称为序时平均数。 按照时间序列是时期序列,还是时点序列,序列中各项数据的时期长 度是否一致,有以下4种平均发展水平的计算公式。 (1)时期序列,各项时期数据的时期长度一致,其计算公式为 Y Y Y 1 N 0 1 N Y Y t (10.1) N 1 N 1 t 0 在时点序列情况下,采用逐日登记方式采集数据时,称之为连续性的 时点序列,一般也采用式(10.1)。 (2)时期序列,各项时期数据的时期长度(用表示)不一致,其计算 N 公式为 Y t ft Y f Y f Y f N N Y 0 0 1 1 t0 N (10.2) f0 f2 fN f i
统计学原理经典ppt课件说课讲解
二、统计学的研究对象和研究方法
(一)统计包含三种涵义,两重关系
1、统计工作:调查研究。资料收集、整理和分析。
2、统计资料:工作成果。包括统计数据和分析报告。
3、统计学:研究如何搜集、整理、分析数据资料的一
门方法论科学。
统计工作 统计资料
工作与工作成果关系
实践与理 论关系
统 计学
(二)统计学的研究对象
4、变量和变量值 变量 可变的数量标志和统计指标。
分类
确定性变量 随机性变量 离散性变量
连续性变量
变量值:即变量的具体数值,包括标志值和指标数值
社会经济现象中许多变量,既受确定性因素影响,又 受随机性因素影响。要根据具体情况加以认定。
5、样本 是从总体中随机抽取部分单位所构成的集合 体。 特点 必须取自所要研究的总体;
频数分布 统计表
统计图
分组
25% 33%
42%
分组前
分组后
作用:1·划分现象类型
例:按所有制性质划分,我国现有8种经济类型:
国有经济;集体经济;私营经济;个体经济 联营经济;股份制经济;外商投资经济;港 澳台投资经济
2·研究总体结构
例:上海市按GDP计算的三次产业结构(%)
1980年 1990年 1996年 1997年
查
误 差
代表性误差
编差
实际误差
随机误差 抽样平均误差
统计推断中的抽样误差就是抽样平均误差。它是处 于调查所固有的,是对抽样推断精确度的量度。
样本容量
抽样方式
总 体 内 部 差 异
抽样调查的组织方式:
1·简单随机抽样(纯随机抽样)
•方法:将总体单位编成抽样框,而后用抽签或 随机数表抽取样本单位。
(一)统计包含三种涵义,两重关系
1、统计工作:调查研究。资料收集、整理和分析。
2、统计资料:工作成果。包括统计数据和分析报告。
3、统计学:研究如何搜集、整理、分析数据资料的一
门方法论科学。
统计工作 统计资料
工作与工作成果关系
实践与理 论关系
统 计学
(二)统计学的研究对象
4、变量和变量值 变量 可变的数量标志和统计指标。
分类
确定性变量 随机性变量 离散性变量
连续性变量
变量值:即变量的具体数值,包括标志值和指标数值
社会经济现象中许多变量,既受确定性因素影响,又 受随机性因素影响。要根据具体情况加以认定。
5、样本 是从总体中随机抽取部分单位所构成的集合 体。 特点 必须取自所要研究的总体;
频数分布 统计表
统计图
分组
25% 33%
42%
分组前
分组后
作用:1·划分现象类型
例:按所有制性质划分,我国现有8种经济类型:
国有经济;集体经济;私营经济;个体经济 联营经济;股份制经济;外商投资经济;港 澳台投资经济
2·研究总体结构
例:上海市按GDP计算的三次产业结构(%)
1980年 1990年 1996年 1997年
查
误 差
代表性误差
编差
实际误差
随机误差 抽样平均误差
统计推断中的抽样误差就是抽样平均误差。它是处 于调查所固有的,是对抽样推断精确度的量度。
样本容量
抽样方式
总 体 内 部 差 异
抽样调查的组织方式:
1·简单随机抽样(纯随机抽样)
•方法:将总体单位编成抽样框,而后用抽签或 随机数表抽取样本单位。
《统计学基础》课件
《统计学基础》PPT课件
统计学基础的介绍
课程目标
1
掌握基本统计概念
理解统计学的基础概念,为进一步学习
应用常用统计方法
2
打下坚实基础。
学习和掌握常见的统计学方法,包括数
据收集、整理与分析。
3
解决实际问题
通过案例分析和实践训练,能够运用统 计学知识解决实际问题。
统计学的定义与重要性
统计学是一门研究数据收集、整理、分析与解释的科学,是决策制定和问题解决的重要工具。
基本概念和术语
总体与样本
了解总体和样本的概念,以 及它们在统计学中的重要性。
变量与常量
掌握统计学中的变量计与推断统计
学习区分描述统计和推断统 计的概念和应用领域。
常用统计方法
1
概率与统计分布
了解概率的基本概念,以及常见的统计分布,如正态分布和二项分布。
2
假设检验与置信区间
学习如何进行假设检验和构建置信区间,以进行统计推断。
3
相关分析与回归分析
掌握相关分析和回归分析的原理和应用,以研究变量之间的关系。
实际应用案例
市场调研数据分析
通过统计学方法分析市场调研数 据,为企业决策提供准确的市场 见解。
医学研究统计
运用统计学方法进行医学研究, 分析实验数据,推断治疗效果。
社会调查与问卷统计
通过统计学方法对社会调查和问 卷数据进行分析,发现群体趋势 和关联因素。
总结与回顾
通过学习《统计学基础》,我们掌握了基本概念和常用统计方法,并了解了 统计学在实际应用中的重要性。
统计学基础的介绍
课程目标
1
掌握基本统计概念
理解统计学的基础概念,为进一步学习
应用常用统计方法
2
打下坚实基础。
学习和掌握常见的统计学方法,包括数
据收集、整理与分析。
3
解决实际问题
通过案例分析和实践训练,能够运用统 计学知识解决实际问题。
统计学的定义与重要性
统计学是一门研究数据收集、整理、分析与解释的科学,是决策制定和问题解决的重要工具。
基本概念和术语
总体与样本
了解总体和样本的概念,以 及它们在统计学中的重要性。
变量与常量
掌握统计学中的变量计与推断统计
学习区分描述统计和推断统 计的概念和应用领域。
常用统计方法
1
概率与统计分布
了解概率的基本概念,以及常见的统计分布,如正态分布和二项分布。
2
假设检验与置信区间
学习如何进行假设检验和构建置信区间,以进行统计推断。
3
相关分析与回归分析
掌握相关分析和回归分析的原理和应用,以研究变量之间的关系。
实际应用案例
市场调研数据分析
通过统计学方法分析市场调研数 据,为企业决策提供准确的市场 见解。
医学研究统计
运用统计学方法进行医学研究, 分析实验数据,推断治疗效果。
社会调查与问卷统计
通过统计学方法对社会调查和问 卷数据进行分析,发现群体趋势 和关联因素。
总结与回顾
通过学习《统计学基础》,我们掌握了基本概念和常用统计方法,并了解了 统计学在实际应用中的重要性。
《统计学讲稿》PPT课件
这些分组区间的界限(上限)必须按升序排列。 6.在“输出区域
”中输入想让输出表显示其范围的左上角单元引用(必须是空的单
元),注意防止表格与图表以及原始数据的覆盖和重叠。本例取
$D$1。勾选“图表输出(C)”复选框,单击确定。输出如下
图表 。
直方图
分组上限
频率
频率
59
3
20
69
4
15
79
18
10
频率
89
······
· ·····
(总体单位按某一标志排序)
排序依据的标志:(1)无关标志;(2)有关标志
4·整群抽样(cluster sampling)
•方法: 将总体全部单位分为许多个“群”,然后随 机抽取若干“群”,对被抽中的各“群”内的所有单位 登记调查。 例:
优点:组织工作简便,费用节约。
局限性:调查单位过于集中在少数样本群中,限 制样本在总体分布的均匀性。
的倍数。2.输入原始数据。在B1单元中输入标志名称,在B2单
元中输入“59”(说明在小于和等于“59分”的变量数计在第一组
的频数内,等于“60分”的变量数将计到下一组的频数内),作
为第一组的分组上限,在B3单元中输入“69”作为第二项数据,
依此输入。3.从工具菜单中下拉,选择数据分析→直方图→点
击确定按钮。 4.在直方图分析选项框的“输入区域(I)”中
优点: 精心周密设计、高度统一、规范。 回收率高,内容相对稳定,便于资料积 累、对比。 层层上报、逐级汇总,可以满足各部门 需要。
普查
特点:工作量大,时间性强,需要大量人力和财力。 任务:搜集重要的国情国力和资源状况的全面资
料,为政府制定规划、方针政策提供依据。
统计学STATISTICSPPT.
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第三版)
拉氏指数与帕氏指数
(比较)
1. 拉氏指数以基期销售量为权数,可以消除销售量变动对价 格指数的影响,从而使不同时期的指数具有可比性。但拉 氏指数也存在一定的缺陷。它在假定销售量不变的情况下 报告期价格的变动水平,这一指数尽管可以单纯反映价格 的变动水平,但确不能反映出消费结构的变化。因此,拉 氏价格指数在实际中应用较少
(weighted aggregative index number)
1. 通过加权来测定一组项目的综合变动
2. 因权数不同,有不同的计算公式
3. 有拉氏价格指数(Laspeyres index)和帕氏 价格指数(Paasche Laspeyres index)
14 - 6
作者:贾俊平,中国人民大学统计学院
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第三版)
帕氏价格指数
(Paasche index)
1. 1874年德国学者帕煦(Paasche)所提出的一 种指数计算方法
2. 该方法在计算价格综合指数时,把作为权数 的销售量固定在报告期
3. 计算公式为
I p
p1q1 p0q1
14 - 8
I p
p1 p0
p0q0
p0q0
3. 以销售额p1q1为权数的价格指数为
14 - 15
I p
p1q1 1
p1 p0 p1q1
作者:贾俊平,中国人民大学统计学院
统计学
STATISTICS (第三版)
统计学
STATISTICS (第三版)
第14章 指 数
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Literary Digest had been conducting successful presidential election polls since 1916 They had correctly predicted the outcomes of the 1916, 1920, 1924, 1928, and 1932 elections by conducting polls. These polls were a lucrative venture for the magazine: readers liked them; newspapers played them up; and each “ballot” included a subscription blank.
Types of Data
Continuous
height, age, time # of days worked this week, # leaves on a tree {Good, O.K., Bad} {Yes/No}, {Teacher/Chemist/Haberda
Ordinal
Nominal
Picturing The Data
Pie Charts
Nominal/Ordinal Only suitable for data that adds up to 1 Hard to compare values in the chart
Bar Charts
Overview
General Statistics The Normal Distribution Z-Tests Confidence Intervals T-Tests
General Statistics
~ THE GOLDEN RULE ~ Statistics NEVER replace the judgment of the expert.
Terminology
Population: is a set of entities concerning which statistical inferences are to be drawn. Sample: a number of independent observations from the same probability distribution Parameter: the distribution of a random variable as belonging to a family of probability distributions, distinguished from each other by the values of a finite number of parameters Bias: a factor that causes a statistical sample of a population to have some examples of the population less represented than others.
Outliers (and their treatment)
An "outlier" is an observation that does not fit the pattern in the rest of the data
Check the data Check with the measurer If reason to believe it is NOT real, change it if possible, otherwise leave it out (but note). If reason to believe it is real, leave it out and note.
Time-Series Plots
Time related Data e.g. Stock Prices
Question 1
In a telephone survey of 68 households, when asked do they have pets, the following were the responses :
Question 1 - Solution
How many? It must be (60 - 52) = 8 people No pets = 16 Dogs = 20 Cats = 24 Both = 8 ------------------------Total = 68
Question 1 - Solution
The Literary Digest Poll
Response rate: approximately 25%, or 2,376,523 responses Result: Landon in a landslide (predicted 57% of the vote, Roosevelt predicted 40%) Election result: Roosevelt received approximately 60% of the vote
Nominal/Ordinal Easier to compare values than pie chart Suitable for a wider range of data
Dot Plots
Nominal/Ordinal Represents all the data
Difficult to read
(Basically the same as all other research)
Hypothesis Testing
H0 : Null Hypothesis, status quo HA : Alternative Hypothesis, research question
So, either : "The data does not support H0" or "We fail to reject H0"
The Literary Digest Poll
POSSIBLE CAUSES OF ERROR Selection Bias: By taking names and addresses from telephone directories, survey systematically excluded poor voters. Republicans were markedly overrepresented in 1936, Democrats did not have as many phones, not as likely to drive cars, and did not read the Literary Digest “Sampling Frame” is the actual population of individuals from which a sample is drawn: Selection bias results when sampling frame is not representative of the population of interest
The Mean
The Mean (Arithmetic) The mean is defined as the sum of all the elements, divided by the number of elements. The statistical mean of a set of observations is the average of the measurements in a set of data
The Literary Digest Poll
POSSIBLE CAUSES OF ERROR Non-response Bias: Because only 20% of 10 million people returned surveys, nonrespondents may have different preferences from respondents Indeed, respondents favored Landon Greater response rates reduce the odds of biased samples
Quantitative Data Analysis: Statistics
Sherlock Holmes
"... while man is an insoluble puzzle, in the aggregate he becomes a mathematical certainty. You can, for example, never foretell what any one man will do, but you can say with precision what an average number will be up to. Individuals vary, but percentages remain constant. So says the statistician"
Box Plots
Nominal/Ordinal 1IQR, 3IQR Outliers
Scatter Plots
Excellent for examining association between two variables