社会统计学讲义
社会统计学讲义
![社会统计学讲义](https://img.taocdn.com/s3/m/fd860375af1ffc4ffe47acd9.png)
《社会统计学》讲义教学目的和要求:通过本课程的学习,使学生熟悉常用的统计方法,并且学会如何将统计分析知识应用于社会调查研究之中,掌握统计方法的灵活运用。
本课程偏重统计方法的实际应用,而非其数理基础。
在教学过程中,注重对于不同统计分析方法适用条件的说明,统计公式的讲解,以及对于统计值意义的说明。
教学重点和难点:本课程的教学重点是不同统计分析方法所适用的条件以及统计值意义的解释。
难点是统计公式的讲解以及不同统计分析方法在实际社会调查研究中的应用。
教法特点说明:课堂讲授为主,注重对实例的讲解。
教材和参考书目:1、卢淑华著:《社会统计学(第三版)》,北京大学出版社,2007年。
2、李沛良著:《社会研究的统计应用》,社会科学文献出版社,2002年。
3、柯惠新等著:《调查研究中的统计分析法》,北京广播学院出版社,1992年。
4、风笑天著:《现代社会调查方法》,华中科技大学出版社,2001年。
5、袁方主编:《社会研究方法教程》,北京大学出版社,1997年。
第一章统计学简史教学目的和要求:通过本章的学习使学生了解统计学的产生、发展历程有初步的认识。
教学重点和难点:重点是国势学派与政治算数学派的差异,难点是文字记述与数字记述各自的特点。
教学方法:课堂讲授教学内容:一、统计学的起源统计技术:古埃及、古中国(大禹治水)统计学:17世纪中叶Status(拉丁词汇,国家、状态)——Statistics 研究国家的宏观状态①国势学②政治算术二、国势学(17世纪的德国)德国大学学派:H·Coring 用文字记录一个国家的状况和制度G·Achenwall 第一个定义——把国家的显著事项全部记录下来的学科三、政治算术(17世纪的英国)英国的经验主义者:用数量或数字的方法说明国家的特征J·Graunt 《关于伦敦死亡表的观察》用数量分析社会、政治问题William Petty 《政治算术》四、概率论(数理特征更加明显)1.J Bernoulli(贝努里)瑞士大数法则借助大数法则可以从社会现象复杂不定的偶然性中寻找规律,它说明了社会现象的稳定性2.Gauss(高斯)德国正态分布(中心极限定理的基础)五、数理统计学Adolphe Quetelet(阿道夫·凯特勒)法籍比利时人数理统计学派的创始人“经验社会学之父”《社会物理学》“平均人”六、描述统计高尔顿(F Galton)回归现象根据对1078对父、子身高的散布图发现,虽然身材高的父母比身材矮的父母倾向于有高的孩子。
(完整word版)卢淑华 《社会统计学》讲义
![(完整word版)卢淑华 《社会统计学》讲义](https://img.taocdn.com/s3/m/047d34afd15abe23492f4d70.png)
社会统计学讲义第一章导论一、社会统计学1、社会统计学是运用统计的一般原理,对社会各种静态结构与动态趋势进行定量描述或推断的一种专门方法和技术。
研究对象:概括而言是指社会现象的数量方面。
2、选择统计分析方法的原则是根据研究目的和资料本身的特点选择。
3、统计分析的作用:(1)可对资料进行简化和描述;(2)可对变量间的关系进行描述和深入地分析(统计分析通过事后解释使得探讨变量间复杂的因果联系成为可能);(3)可通过样本资料推断总体(通过参数估计和假设检验,将样本推论到总体并指出这种推论的误差及做出这种推论的把握有多大)。
4、社会统计的基本程序(1)制定计划;(2)统计调查;(3)统计整理;(4)统计分析;(5)统计报告。
5、几个基本概念(1)总体与单位总体又称母体,是作为统计研究对象的、由许多具有共性的单位构成的整体。
构成总体的每一个个体称为总体单位,简称单位或个体。
3个基本特征:大量性、同质性和变异性。
(2)标志与变量总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志,分为数量标志和品质标志。
可变的品质标志无法用数值表示,我们称之为变项;可变的数量标志能够用数值表示,我们称之为变量。
(3)指标与指标体系统计指标是反映总体(或样本总体)的数量特征的概念或范畴。
一个完整的统计指标由两部分构成:指标名称和指标数值。
在社会统计中,如要全面把握对象总体情况,就不能单凭一个指标,而要靠一组相互联系的并与之相适应的指标来完整地反映对象总体。
指标体系就是一系列有内在联系的统计指标的集合体。
二、社会调查研究的程序社会学研究之阶段与步骤(1)确定课题:来源与社会学理论、当前社会现实和要解决的实际问题;具有强烈的时代感、为国家现代化服务;(2)了解情况:查阅文献和向有经验、有知识的人了解,运用个案调查、典型调查进行探索性研究;(3)提出一定的想法和建立假设:差异式、函数式;(4)建立概念和测量方法:采用适当的术语和概念;操作化定义;概念的表现形式往往具有多值性;(5)设计问卷:内容包括事实、态度与看法、行为趋向、理由;方式有固定答题式和自由答题式;(6)试填问卷:发现不周或遗漏之处在试填阶段予以纠正;(7)调查实施(抽样调查):从局部推论到全体(8)校核与登录(9)统计分析与命题的检验:检验最初研究阶段的命题或假设是否得到证实或部分证实,在此基础上对研究内容提出建议和确定进一步的研究方案。
社会统计学讲义
![社会统计学讲义](https://img.taocdn.com/s3/m/bf037b1cfc4ffe473368ab69.png)
社会统计学讲义(卢淑华)第一章社会学研究与统计分析一、社会调查资料的特点(随时掌握)随机性、统计规律性;二、统计学的作用:为社会研究提供数据分析和推论的方法三、统计分析的作用及其前提。
四、统计分析方法的选择1 、全面调查和抽样调查的分析方法2 、单变量和多变量的统计分析方法五、不同变量层次的比较;定类、定序、定距、定比定义、数学特征、运算特性、涵盖关系、等第二章单变量统计描述分析一、统计图表,熟悉不同层次变量对应的分析图表,不能混淆。
尤其是直方图的意义。
二、标明组限与真实组限的换算,重要。
三、集中趋势测量法1 、定义、优缺点、注意事项;2 、众值:定义、计算公式、解释、运用,注意事项;3 、中位值:定义、计算公式(频数和比例两种公式)、解释、运用,注意事项;4 、均值:定义、计算公式(分组与加权)、解释、运用,注意事项;5 、众值、中位值和均值的关系及其相互比较,会用众值和中位值估算均值;四、离散趋势测量法1 、定义、优缺点、注意事项,与集中趋势的关系;2 、异众比例:定义、计算公式、解释、运用,注意事项;3 、质异指数:定义、计算公式、解释、运用,注意事项;4 、四分位差:定义、计算公式(频数和比例两种公式)、解释、运用,注意事项;要会举一反三,如求十分位差、以及根据数据求其在总体中的位置。
5 、方差及标准差:定义、计算公式(分组与加权)、解释、运用,注意事项;第三章概率一、概率:就是指随机现象发生的可能性大小。
随机现象具有不确定性和随机性。
二、概率的性质:1 、不可能事件的概率为O ;2 、必然事件的概率为1 ;3 、随机事件的概率在O 一1 之间;三、概率的计算方法:1 、古典法:计算等概率事件,P 一有效样本点数/样本空间数;2 、频率法:求随机事件在多次试验后的极限频率。
3 、概率是理论值,只有一个,频率是试验值,不同的试验有不同的频率。
四、概率的运算:会画文氏图1 、加法公式:两个或多个随机事件的求和概率‘2 、乘法公式:两个或多个随机时间共同发生的概率。
社会统计学(第一讲)
![社会统计学(第一讲)](https://img.taocdn.com/s3/m/1610743e3169a4517723a361.png)
子代偏重
开始学习社会统计学之前的知识储备
什么是变量? 变量有哪些层次? 不同类型变量的统计表制作方法?
总体与单位
所谓总体,就是作为统计研究对象的、由许多具有共性的单位 构成的整体。总体也有人称之为母体。 构成总体的每一个个体 称为总体单位,简称单位,也称为个体。
有限总体与无限总体
可加总体与不可加总体
广东
广东 广东 广东 广东
综合
师范 农林 医药 综合
8.20
6.64 6.15 4.36 3.94
6.94
4.03 6.17 3.78 4.21
7.03
7.74 5.85 4.54 2.80
18.79
13.34 6.03 5.46 7.26
128
173
广州中医药大学
广州大学
广东
广东
医药
综合
3.16
1.84
样本
样本是从总体中抽取的一部分个体所组成的集合,也称子样。 样本容量是指样本所包含的个体数。当样本容量大于30时,为大样本。 样本个数是指从总体中最多可以抽取的不同样本的套数。样本容量用
n表示。样本个数用m表示。
总体与样本的关系 1、总体是所要研究的对象,而样本则是所要观测的对象。 2、样本是用来推断总体的。 3、总体和样本的角色是可以改变的。 4、总体与样本都有大量性,同质性和差异性的特征。样本容量用n表示。样本 个数用m表示。
社会科学研究的一般过程
二、统计学的运用 介绍有关社会调查资料收集、整理、分析和 推论的统计方法。 社会统计学的特点: 抽象概念向操作化定义,设计好调查问卷; 被测量对象是人,主观意识影响资料收集; 低层次变量占较大比重。
确定课题、了解情况 建立研究假设 概念的操作化 设计问卷、抽样调查
社会统计学2
![社会统计学2](https://img.taocdn.com/s3/m/0f90daf152ea551811a6878b.png)
第一节分布、统计表和统计图
• 一、变量及其测量划分 • 变量是所研究问题的特征或性质,也称作指标。在自然科学中,
变量是可以通过仪器进行测量的。在社会学研究中,变量往往通 过向被访者问问题来进行测量。落实在变量的设计上,就需要根 据调查研究的问题的不同,设计出不同层次的变量,具体划分为 定类变量、定序变量、定距变量、定比变量。
• 1、定类变量
• 定类变量是最低的变量层次,它的取值只有类别属性之分,而无 大小程度之别,如民族、婚姻、职业等变量。
• 2、定序变量
• 定序变量的取值除了有类别属性之外,还有等级次序的差别,其 层次高于定类变量,常见的定序变量,如受教育程度、满意度、 幸福感、社会经济地位等。在使用量表测量时,往往是基于定序 变量。
如贫困问题,需要对低收入段分得细一些。研究老龄化问题,则 需要对老年群体分得细一些。这些都会带来非等距分组。
• 3、组限
• 组限是指每组的范围,即每组的上限和下限。对于离散型变量一 般采取相邻组限不重叠的原则,而对于连续型变量,可能出现相 邻组限重叠的情况,这时采取的原则就是“上组限不在内”原则。 对于开口组求组中值,是依据相邻组的组距加减其一半求得。
• 箱体图反映数据的集中程度,也反映出均值的代表性程度。
• 图2-8显示,流动人口中,女性的平均年龄略低于男性,女性的年 龄更加集中。
第二节 集中趋势测量法
• 集中趋势测量法是找出一个数值来代表该变量数据集结情况的方 法。该方法的优劣在于,由于是根据一个代表值来估计或预测每 个研究对象的数值,因此运用该方法要舍去变量的某些信息,但 由于该数据是最有代表性的数值,以该数值做代表所产生的误差 最小。
• 1、点线图
• 线代表变量,线上标明的是变量的取值,线上方的每一个点代表 一个观测值。点线图的优点是直接,能够看到哪些地方观测值密 集,哪些地方观测值稀少,不丢失任何信息。
社会统计学4
![社会统计学4](https://img.taocdn.com/s3/m/4055f7d0b4daa58da1114a73.png)
• (一)几何平均法
• 几何平均法也称水平法,其基本原理是一定时期社会现象发 展的总速度应等 于各期环比发展速度的连乘积。隐含的假设 是从时间序列的最初水平出发,以序 列的平均发展速度代替 各期环比发展速度,计算出的期末理论值水平应与期末实 际 水平相一致。以公式表示为:
• 一、序时平均数
• 序时平均数也称动态平均数或平均发展水平,是对时间序列中各 时期发展水平计算的平均数。计算序时平均数包括两种情形:一 是由时期序列计算序时平均数;二是由时点序列计算序时平均数。
(一)时期序列的序时平均数 时期序列具有可加性,因而常用简单算术平均数计算:
(二)时点序列的序时平均数
• 时间序列分析的内容包括: • 第一,计算各种水平指标和速度指标,考察社会经济现
象发展变化的方向、速度与结果,并进行动态比较。 • 第二,用于建立数学模型,描述社会经济现象发展变化
的特征与趋势,揭示其变动的规律性,对未来的发展变 化进行预测。 • 第三,将多个变量的时间序列列入一个模型中进行分析, 以揭示现象之间的因果关系或相关关系,同时对这种因 果关系或相关关系的动态演变进行揭示和刻画。
• 由于时期序列的累加性,因而每一指标所属的时间越长,指标值 越大;反之,指标值则越小。这也要求指标值的获取采用连续登 记的方式。
• 2、时点序列
• 时点序列反映社会现象在一定时点上的瞬间水平,如年末人口数、 全国人民代表大会代表人数。时点数据的采集是以间断登记获得 的,依照时点序列的性质,只要在某一时点进行统计,取得的资 料就代表现象在该时点上的数量水平。因而时点序列的具体特征 是不具累加性,各时点上指标大小与时间长短没有直接关系。
社会统计学(卢淑华),第十二章
![社会统计学(卢淑华),第十二章](https://img.taocdn.com/s3/m/cc0c2219a216147917112838.png)
第五节 用回归方程迚行预测
求y的区间估计值
y1 a x1 e1
y2 a x2 …… e2 yn a xn en
e , e e 相互独立。都服从相同的正态分
1 2
布
ห้องสมุดไป่ตู้
N 0, 2
n
,则随机变量y的标准化:
y y
S y
tn 2 服从自由度为n-2的t分布
生的误差
3)回归平方和:通过回归直线解释 掉的误差。
RSS
n
i 1
yˆi y
2
3、统计量:
F
RSS ESS n2
F 1, n 2
TSS
2
x n 1
2
RSS
2
x 1
2
ESS
2
x n 2
2
如果 F F 拒绝 H 0 。
例:统计某城市家具销售额y(万元)与 新建住宅面积x(千平方米),得如下资 料:
当x x 0时,置信度为1 a的y区间估计为: [ yˆ0 t 2 S yˆ 0 , yˆ0 t 2 S yˆ 0 ]. 其中:
1 x 0 x S 1
2
S yˆ 0
n
L
S
y yˆ
2
xx
n2
L
xx
x i
x
2
表示x与y两变量观测值相对其各自均值 所造成的共同平均偏差。协方差的数量
可以作为变量线性相关程度的度量。
2、相关系数
x x y y xi x yi y
社会统计学课件1
![社会统计学课件1](https://img.taocdn.com/s3/m/9aad5ff6b0717fd5360cdcae.png)
所进行的描述。 例如:某村新生婴儿的平均体重。 (二)统计推断(statistical inference) 统计推断即对全部对象(总体,population)的数量特征(平均值;标准
与‘合计’、‘总计’相同”。继之,他的学生沈秉诚更说:“我国‘统计’二 字流传亦久,,惟其义创用之于动词,如‘合计’、‘总计’等字是”。二十 世纪三十年代,我国统计学家吴大钧说:“我国统计肇端最早,自三 代以迄有清,统计资料散见于历代官书,惟虽有统计之实,向无统计 之名”。
第一章 统计学简史
我国统计史学家卫聚贤说:“按‘统计’二字在我国有共统 一起计算之义”,又说:“日人初译此名词为‘政表’、‘综 计 ’、‘国势’、‘政算’等。至明治十四年(公元1881年)统计院 成立,此名始确定。中国用‘统计’二字是自日本搬来的。”
可以进行+、-运算(关键是减法,加法只是用减法求距离的前提)。 在社会统计学中,只有智商(IQ)属于单纯的定距变量(智商IQ
的比率无意义)。
Silent movie The Artist has triumphed at the Oscars, winning five awards
标题中,如果5个奖品减去1个奖品,那么,5个奖品与1个奖品之间的数值 距离是多少?
第二章 社会学研究与统计分析
第一节 社会学研究程序
一、确定课题
社会学研究课题除了少部分来源于社会学理论外,大部 分来源于社会现实问题的研究。
例如:
为研究我国目前构建和谐社会中存在的问题,可以选择
《社会统计学》PPT课件(110页)
![《社会统计学》PPT课件(110页)](https://img.taocdn.com/s3/m/1ebfbbbd7e192279168884868762caaedc33ba58.png)
《社会统计学》PPT课件(110页)一、引言社会统计学是研究社会现象数量特征及其规律的学科,是社会学的重要组成部分。
本课件将带领大家深入了解社会统计学的定义、研究方法、数据来源以及在社会各个领域的应用。
二、社会统计学的定义社会统计学是一门应用统计学原理和方法,对社会现象进行数量分析和描述的学科。
它通过收集、整理、分析和解释社会数据,揭示社会现象的数量特征、变化规律和相互关系,为社会决策提供科学依据。
三、社会统计学的研究方法1. 调查研究法:通过问卷调查、访谈等方式,收集社会数据,了解社会现象的实际情况。
2. 实验研究法:在控制条件下,对研究对象进行实验,观察和记录实验结果,分析社会现象的因果关系。
3. 文献研究法:通过查阅相关文献,了解社会现象的历史、现状和发展趋势。
4. 案例研究法:选取具有代表性的社会现象,进行深入分析,揭示其内在规律。
5. 统计模型法:运用统计模型,对社会现象进行定量分析,预测社会现象的未来发展趋势。
四、社会统计学数据来源1. 政府统计部门:提供国家、地区和行业的社会经济数据。
2. 学术研究机构:发布学术研究报告,提供社会现象的定量分析结果。
3. 社会调查机构:开展社会调查,收集社会数据,为政府、企业和社会组织提供决策依据。
4. 新闻媒体:报道社会现象,提供社会数据的实时更新。
5. 公共图书馆和档案馆:保存历史文献,为研究社会现象提供数据支持。
五、社会统计学在社会领域的应用1. 社会经济领域:分析经济增长、就业、收入分配等社会经济现象,为国家制定经济发展政策提供依据。
3. 社会问题领域:分析社会问题,如贫困、犯罪、环境污染等,为解决社会问题提供科学依据。
4. 社会发展领域:研究社会发展规律,为推动社会进步提供理论支持。
5. 社会管理领域:分析社会管理现状,为提高社会管理水平提供数据支持。
社会统计学作为一门研究社会现象数量特征及其规律的学科,具有广泛的应用价值。
通过掌握社会统计学的定义、研究方法、数据来源及其在社会领域的应用,我们可以更好地了解社会现象,为政府、企业和社会组织提供决策依据,推动社会进步。
社会统计学第五讲
![社会统计学第五讲](https://img.taocdn.com/s3/m/e6301a3449649b6649d7479c.png)
体与已知总体在参数值上有差别。 ➢ 假设一与二必居其一; ➢ 假设一被称为原假设或虚无假设(Null Hypothesis) ➢ 假设二被称为备择假设(Alternative Hypothesis)
可编辑ppt
5
假设检验的原理与方法
社会统计学
2006年4月28日
主要内容
➢ 假设检验的原理与方法 ➢ 单总体假设检验 ➢ 两类错误 ➢ 二总体假设检验 ➢ 课本映射:第七章、第八章、第九章(第一、
二节、第三节第一条)
可编辑ppt
2
假设检验的原理与方法
➢ 抽样误差(sampling error):
➢ 抽样(sampling):通过一定的方法从总体中 随机抽取一定量的个体的过程。
➢ 这种检验方法被称为双边检验(Two-Tailed Test)
可编辑ppt
11
假设检验的原理与方法
➢ 如果备择假设明确假定样本对应总体的参数值 大于或小于已知总体参数值,则可以直接确定 拒绝域为α及所对应的临界值。
➢ 这种检验方法称为单边检验(One-Tailed Test)
可编辑ppt
12
假设检验的原理与方法
➢ 第四步:比较观测值与临界值。如果观测值的绝对值 大于临界值的绝对值,则拒绝原假设,接受备择假设; 反之,则接受原假设。
➢ 第五步:做结论。
可编辑ppt
14
单样本假设检验
➢ 单总体假设检验:总体的参数值已知的条件下, 对总体进行随机抽样调查得出样本的统计值。 通过样本统计值构建统计量检验总体参数值是 否与先前已知的总体参数不同。
α
单边│Zα│
社会统计学重点章节讲义
![社会统计学重点章节讲义](https://img.taocdn.com/s3/m/bd9894f80342a8956bec0975f46527d3240ca6e6.png)
30%
25.8% 25.8%
25%
20%
19.2% 17.1%
15%
10%
8.8%
5%
0%
保健品 功能饮料 健身场所 减肥产品 体育用品 健身器材
第四页,编辑于星期日:二十点 三十八分。
• 原始数据
2.2 样本分布
第五页,编辑于星期日:二十点 三十八分。
2.2 样本分布
• 频数表
职业 公司职员 公务员 个体户/自营职业者 专业技术人员(医生/律师等) 专职家庭主妇 学生 其他 合计
– 差异性检验的基本方法 – 方差分析
• 变量间的关联性分析
第三十三页,编辑于星期日:二十点 三十八分。
4.1 差异性检验的基本方法
• 单一样本检验:
–置信区间
–t检验概值
• 两个独立/配对样本检验:
–置信区间 –t检验概值
• 多个样本:
t 估计标 值 原 准假 误设 差的值
–方差分析:F检验概值
t
用了多少 桶水
2.6
检验值=6
差值的95%置
df
双侧概 平均差
值
异
信区间
下限 上限
65 0.012 3.08 0.71 5.44
概值小于0.05,可以在95%置信度下拒绝原假设。
第三十七页,编辑于星期日:二十点 三十八分。
案例:过去三月平均每户用水量
• 两个独立样本t检验
– 全家平均月收入2000以下者:9.49桶 – 全家平均月收入2000以上者:8.19桶
• 抽样调查的原理和方法 • 描述性统计 • 推断性统计
–抽样分布 –参数估计 –假设检验
• 群体间的差异性检验 • 变量间的关联性分析
社会统计学(卢淑华),第五章
![社会统计学(卢淑华),第五章](https://img.taocdn.com/s3/m/a5e218dfb14e852458fb573e.png)
卡方分布性质
性质1 如果随机变量 1 , 2 ,…… k 相互独立,
2
量:
x
2
1
2
i
k 2 i 1
仍然服从自由度为k的 X2 的平方分布。
性质2:
如果随机变量 和 独立,并且分别服 从自由度为K1与K2的X2 分布,则其和 服从自由度为K1 + K2的X2分布。
,求
2)P 1.3 3)P1.3 2.3
2、ξ 满足N 0,1 ,P 0.05 ,求λ 值。 3、ξ 满足 N 50,52 ,求 P 61
第四节 常用统计分布
一、X2分布(卡方分布) 1、设随机变量 1,2, k 相互独立,且都服
三、切贝谢夫大数定理
1、定义:设随机变量 , …是相互独立服 从 同 一 分 布 , 并 且 有 数 学 期 望 E i 差 Di 2 ,那么对于任何一个正数 ,
1
2
有: n 为 1 , 2 …n个随即变量的平均值 2、含义:当实验次数n足够大时,n个随机变 量的平均值 与单个随机变量的数学期望 的 差可以任意的小,这个事实以接近于1的很大 概率来说是正确的,即 趋近于数学期望 3、实际:意义可以用抽样的均值 做为总体均
P 2 z 2 0.9546
P 3 z 3 0.9973
例:
例1:σ相同而µ 不同。学习成绩:甲位于一班, 乙位于二班。一班平均成绩80分,二班平均成绩 60分,甲成绩80分,乙成绩80分。σ相同,为 10,比较二者在班上的成绩。 例二: µ 相同而σ不同:如果 1 2 60
社会统计学第四讲
![社会统计学第四讲](https://img.taocdn.com/s3/m/7696b90e6c85ec3a87c2c5af.png)
小样本的区间估计
以0.05为显著度,该社区 妇女每天从事家务劳动的 时间的均值的置信区间为 [2.43,2.87] 总体方差未知: 可以使用样本方差代替总 体方差,此时样本均值的 抽样分布满足自由度为 k=n-1的t分布。
(C)GUOH 2006
x −µ t= s n
2
2 2 s12 s2 s12 s2 + ≤ µ1 − µ2 ≤ ( x1 − x2 ) + Z α + ) = 1−α n1 n2 n1 n2 2
(C)GUOH 2006
30
大样本二总体均值差的区间估计
为了解甲、乙两地中学毕业生成绩的差别,两 地作了抽样调查,结果发现: 甲地:x1 bar=520, s1=40, n1=800 乙地:x2 bar=505, s2=50, n2=1000 求置信度为0.95时两地平均成绩差的双侧置信 区间。 n1>50, n2>50, σx
社会统计学
2006年 2006年4月3日
主要内容
统计推论的基础知识 参数的点估计 参数的区间估计 小样本的区间估计 大样本的区间估计 课本映射:第六章:第一节、第二节、第三节 第一条、第四节第一条、第五节第一、二条、 第六节
(C)GUOH 2006 2
统计推论的基础知识
推论统计(statistical inference)是根据局部 资料对总体的特征进行推断。 推论统计主要包括两大部分: 参数估计(parameter’s estimation):通过样 本对总体的未知参数进行估计; 假设检验(hypothesis test):通过样本的情 况对总体的某种假设进行检验。
大样本的区间估计
n≥50, 在σ未知的情况下可以使用大样本的区间估计; 1-α=0.95, Zα/2=1.96 n=50 P(11.51.96*3.6/sqrt(50)≤μ≤11.5+1.96*3.6/sqrt(50))= 0.95 CI=[11.5-0.998,11.5+0.998]=[10.502,12.498] 该社区人口受教育年限的95%的置信区间为[10.502, 12.498]。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社会统计学讲义(卢淑华)第一章社会学研究与统计分析一、社会调查资料的特点(随时掌握)随机性、统计规律性;二、统计学的作用:为社会研究提供数据分析和推论的方法三、统计分析的作用及其前提。
四、统计分析方法的选择1 、全面调查和抽样调查的分析方法2 、单变量和多变量的统计分析方法五、不同变量层次的比较;定类、定序、定距、定比定义、数学特征、运算特性、涵盖关系、等第二章单变量统计描述分析一、统计图表,熟悉不同层次变量对应的分析图表,不能混淆。
尤其是直方图的意义。
二、标明组限与真实组限的换算,重要。
三、集中趋势测量法1 、定义、优缺点、注意事项;2 、众值:定义、计算公式、解释、运用,注意事项;3 、中位值:定义、计算公式(频数和比例两种公式)、解释、运用,注意事项;4 、均值:定义、计算公式(分组与加权)、解释、运用,注意事项;5 、众值、中位值和均值的关系及其相互比较,会用众值和中位值估算均值;四、离散趋势测量法1 、定义、优缺点、注意事项,与集中趋势的关系;2 、异众比例:定义、计算公式、解释、运用,注意事项;3 、质异指数:定义、计算公式、解释、运用,注意事项;4 、四分位差:定义、计算公式(频数和比例两种公式)、解释、运用,注意事项;要会举一反三,如求十分位差、以及根据数据求其在总体中的位置。
5 、方差及标准差:定义、计算公式(分组与加权)、解释、运用,注意事项;第三章概率一、概率:就是指随机现象发生的可能性大小。
随机现象具有不确定性和随机性。
二、概率的性质:1 、不可能事件的概率为O ;2 、必然事件的概率为1 ;3 、随机事件的概率在O 一1 之间;三、概率的计算方法:1 、古典法:计算等概率事件,P 一有效样本点数/样本空间数;2 、频率法:求随机事件在多次试验后的极限频率。
3 、概率是理论值,只有一个,频率是试验值,不同的试验有不同的频率。
四、概率的运算:会画文氏图1 、加法公式:两个或多个随机事件的求和概率‘2 、乘法公式:两个或多个随机时间共同发生的概率。
分为独立事件的乘法和条件概率的乘法公式。
( l )独立:P ( AB ) = P ( A ) * P ( B )( 2 )条件:PAB ) = P ( A ) * P ( A / B ) = P ( B ) * P ( B / A )3 、条件概率:将(2 )反过来即可。
P ( B / A )是指在A 发生的条件下B 发生的概率。
4 、全概公式:互不相容的完备事件组,求任意一个事件的发生5 、逆概公式:与4 相反。
五、离散型随机变量和连续型随机变量的概率分布及密度函数。
六、数学期望:1 、离散型变量数学期望的计算2 、连续型变量数学期望的计算,可以忽略3 、数学期望的性质,6 点,重要七、方差:1 、简化公式,一个变量的方差等于变量平方的期望减去变量期望的平方。
2 、方差的性质,4 点,重要,经常在参数估计和假设检验中用到。
第四章二项分布及其离散型随机变量的分布一、二点分布,O 一1 分布,l 、定义,2 、概率分布、期望、方差二、二项分布,贝努里分布:l 、定义,2 、概率分布公式3 、期望、方差4 、会求不同条件下的概率,如至多、至少出项多少次?5 、二项分布的讨论三、多项分布,重点是三项分布,了解。
1 、三项分布的公式2 、每个变量的期望和方差,注意n 项分布,分别有n 一1 个期望和方差。
四、超几何分布:1 、定义,跟二项分布的区别2 、概率分布、期望、方差。
五、泊松分布1 、定义、分布形式2 、期望、方差,与二项分布的关系。
3 、应用范围及条件。
第五章正态分布、常用统计分布和极限定理一、正态分布,常态分布:1 、定义、密度分布、性质2 、均值、方差,正态曲线下方面积的意义。
3 、正态分布标准化及实际意义。
4 、正态分布表的查法(注意对称性)。
二、常用统计分布1 、卡方分布:定义,自由度,均值、方差,性质,换算。
2 、t 分布,定义,自由度,均值、方差,性质,换算。
3 、F 分布,定义,自由度,均值、方差,性质,换算。
4 、三种常用分布适用范围的比较。
三、大数定理1 、大数定理的含义2 、切贝谢夫不等式:用于保守估计某事件发生的概率3 、贝努里大数定理。
4 、切贝谢夫大数定理。
四、中心极限定理:重点1 、极限定理的含义。
2 、中心极限定理的含义,在何种情况下,何种变量趋向于正态分布。
3 、中心极限定理的4 个推论,灵活运用。
五、二项分布、泊松分布、正态分布三者的近似关系第六章参数估计一、统计推论1 、统计推论的定义2 、统计推论的特点(优缺点),考题3 、统计推论的理论基础及内容。
二、参数的点估计:(定义)1 、什么是点估计(样本中称统计值,总体中称为参数)2 、点估计的评价标准:3 点或4 点。
3 、总体均值的点估计4 、总体方差(或标准差)的点估计5 、总体成数的点估计。
三、抽样分布:统计量的抽样分布,如均值、方差的抽样分布1 、样本均值的抽样分布:不同的抽样,其均值是不一样的,在具体抽样之前,均值是一个变量,抽样之后,均值就是一个具体的观察指(或统计值)。
2 、总体分布为正态分布、总体方差已知情况下的均值分布:可以用中心极限定理推演出来。
(一般指小样本)3 、总体分布为正态分布,总体方差未知、样本方差可知情况下的均值分布:(一般指小样本)。
4 、大样本、总体未知(或已知都无所谓),总体方差未知(或已知无所谓)情况下的均值分布:凡是提到大样本,均可用正态分布计算,用样本方差替代总体方差5 、样本成数的抽样分布:凡是提到样本成数p ,都是特指大样本,小样本提成数没有意义。
在大样本情况下,无论其分布如何,成数的分布都可以确定。
6 、样本方差的分布,这里特指总体是正态总体的情况。
这个运用很多,其分布形式以及卡方换算,重要。
四、区间估计:根据样本大小、总体情况、样本个数情况,待估参数,可以将需要计算的区间估计划分为9 种类型,同假设检验。
1 、小样本、正态总体、总体方差已知,总体均值的区间估计:Z 分布2 、小样本、正态总体、总体方差未知,总体均值的区间估计:t 分布3 、小样本(一般不包括大样本)、正态总体,总体方差的区间估计,卡方分布。
4 、小样本、正态二总体,总体方差已知,总体均值差的区间估计,Z 分布5 、小样本,正态二总体,总体方差未知,总体均值差的区间估计,t 分布6 、大样本,分布未知(或已知无所谓),方差未知(或已知无所谓),总体均值的区间,Z 分布。
7 、大样本,分布未知(或已知无所谓),方差未知(或已知无所谓),二总体均值差的区间,Z 分布。
8 、大样本,分布未知(或已知无所谓),总体成数的区间估计,Z 分布9 、大样本,分布未知(或已知无所谓),二总体成数差的区间估计,Z 分布第七章假设检验的基本概念一、假设检验的思想:二、假设检验的原理:小概率原理和大数定理三、基本假定:总体、抽样等假定。
四、基本概念:原假设、备择假设、单边检验、双边检验、显著性水平、临界值、接受域、拒绝域、两类错误(是指针对原假设而言的弃真和纳伪错误)。
五、假设检验的基本步骤:4 步。
做题时候,要严格按照步骤及作出解释。
六、纳伪错误的计算原理,熟悉,多年没有考,计算相对复杂。
第八章单总体假设检验一、跟参数估计类似,原则上有多少参数估计就会有多少对应的假设检验。
二、假设检验的类型:本章只讨论单总体,注意单边/双边及拒绝域1 、大样本、总体均值检验,无论总体分布、方差已知与否:Z 检验2 、大样本,总体成数检验,不考虑分布,Z 检验3 、小样本、正态总体、总体方差已知,均值检验,Z 检验4 、小样本、正态总体、总体方差未知,样本方差已知,均值检验:Z 检验。
5 、小样本、正态总体,总体方差检验:卡方检验。
6 、小样本、正态总体、总体标准差检验:同5 ,直接在5 后开方即可。
三、纳伪错误的计算,见书上例题。
第九章二总体假设检验(二分vs .二分,二分vs .定距变量)一、二总体假设检验的类型:1 、大样本、二总体分布未知(或已知无所谓)、二总体方差未知(或已知无所谓):二均值差检验:Z 检验2 、大样本、二总体成数差检验:Z 检验3 、小样本、正态总体、二总体方差已知,二总体均值差检验:Z 检验4 、小样本、正态总体,二总体方差未知,但相等,二总体均值差检验:t 检验。
注意,在未知二总体方差相等时,要检验二总体方差是否相等?5 、小样本、正态总体、二总体方差比检验:F 检验二、配对样本的比较:t 检验,重点。
第十章列联表(定类变量vs .定类变量)一、列联表的定义:二、列联表中的分布情况:(分频次,概率分布两种情况)1 、联合分布:2 、边缘分布:2 个,自变量和因变量各一个。
3 、条件分布:r + c 个,通常只求因变量的条件分布,控制自变量。
三、列联表中变量的独立性:条件概率分布等于边缘概率分布,那么自变量和因变量相互独立。
四、对于列联表的检验:l 、原假设:场:plJ = pi , p , J2 、选择统计量:卡方变量,注意公式,自由度。
3 、计算样本统计值。
4 、比较统计值和临界值的大小,决定原假设的取舍(即统计决策)。
五、关于列联表统计量的几点补充讨论说明:1 、对于2X2 的列联表,由于格数的限制,需要为减少作为离散观测值与作为连续型变量x 值之间的偏差,需要对其进行连续性修正。
2 、卡方检验适用于单变量二项总体或多总体的检验(重点,06 考)3 、列联表格值的取值范围。
4 、列联表就其检验的内容来看是双边检验,就其形式而言是右侧单边检验。
5 、列联表的检验只能通过频次来检验而不能通过频率(相对频次)来检验。
当相对频次不变时,样本容量增加K 倍时,卡方XZ 值也增加K 倍。
(也即相对频次的统计表必须注明调查总数的原因)六、列联强度的含义:表示变量间相关程度,程度越高,说明社会现象与社会现象间的关系越密切。
七、2X2 表的列联强度计算:1 、中系数:(费系数),公式,取值范围卜1 , + 1 ] ,当bc 一0 ,且bc 相等时中一1 ,二变量完全相关;ad 一0 ,且ad 相等时,中一1 ,二变量完全相关;ad 一bC 时,中一0 ,二变量相互独立。
说明:二定类变量的相关没有方向之分。
2 、尤拉Q 系数:公式,取值范围,注意Q 一1 时候的情况。
3 、如何选择中系数和Q 系数?取决于研究对象,当自变量的不同取值都会影响因变量时,则用中系数。
八、rXc 列联表的列联强度计算:1 、以卡方值xZ 为基础的相关性测量:中2 , CZ , v 系数等,注意公式,取值范围的临界值,相互比较其优缺点。
2 、以减少误差比例为基础的相关性测量:( 1 )何为减少误差比例?PRE( 2 ) PRE 的取值范围:[ O , l ]( 3 ) PRE 的优点及意义。