社会统计学笔记
社会统计学复习整理

社会统计学复习整理一、变量的测量层次二、判断变量层次的技巧1.首先所有的变量都是定类变量。
2.其次看变量的取值能否比较大小,不能这个变量只能是定类变量。
3.最后如果这个变量能够比较大小,那么就看变量取值加减乘除是否有意义,如果有意义就是定距变量,如果没有意义就只能是定序变量。
三、变量层次的比较定类变量、定序变量和定比变量的数层次是从低到高排列的,高层次的变量同时具有低层次变量的功能。
四、相关分析方法第二节简化一个变项的分布一、定类变量1.统计表:用表格的形式来表示变量频次(或频率)分布的一种工具。
2.统计表必备的内容:(1)表号、标题(2)标识行:变量名、对应数据说明(频次、频率)(3)主题行:变量取值的统计数据(4)表尾:如果是引用必须说明资料来源二、定序变量1.适合定序变量的简化资料的方法(1)累加次数:把次数逐渐相加起来,分为向上累加次数(cf↑)和向下累加次数(cf↓)。
(2)累加频率:把各级的百分率逐渐相加。
也分为向下累加百分率和向下累加百分率。
2.cf↑的计算方法就是按照变量取值的等级从低往高逐层相加。
3.cf↓计算方法就是按照变量取值的等级从高往低逐层相加。
cf↑表示低于某个等级的频数有多少cf↓表示高于某个等级的频数有多少三、定距变量1.定距变量的简化工具是:分组、直方图和折线图。
2.连续型定距变量的分组统计(1)组数:分组的数量,一般5到7组合适,分为等距分组和非等距分组。
(2)组限:包括上限(up)和下限(low)(3)标识下限和标识上限,例500—699(4)真实下限:标识下限—0.5;真实上限:标识上限+0.5.(5)组距:真实上限与真实下限之差。
(6)组中值:真实上限与真实下限的平均值。
第三节集中趋势测量法1.集中趋势:用一个典型的变量值或特征值来代表全体变量的问题,用这个数值来代表变项的资料分布,以反映资料的集结情况。
2.集中趋势测量的意义就是可以根据这个代表值来估计或预测每个研究对象的数值。
社会统计学重点

2.社会调查资料的特点:随机性和统计规律性。
3.怎样选用统计分析方法:1.全面调查和非全面调查。
2.单变量和多变量。
3.变量层次.4.分布概念:指一个概念或变量,它的各个情况出现的次数或频次,又称频次分布。
表现形式:数对的集合.5.变量取值的要求—⑴变量取值必须完备;⑵变量取值必须互斥。
6.统计表:是用表格形式来标识前面所说变量的分布。
它不需要文字叙述,就能反应出资料的特性以及资料之间的关系,在编印,传递方面有很大优点,比统计表更精确,但不及统计图直观。
7.统计表必须具备的内容:1.表号。
2.表头。
3.标识行。
4.主体行。
5.表尾。
8.根据变量的层次,可以选择以下不同的统计图形:定类变量:圆瓣图、条形图。
定序变量:条形图。
定距变量:直方图、折线图。
9.圆瓣图:是将资料展示在一个圆的平面上,通常用圆形代表现象的总体,用圆瓣代表现象中一种情况,其大小代表变量取值在总体中所占的百分数。
10.条形图:是用长条的高度来表示资料类别的次数或百分数。
定类:离散。
定序:离散或紧挨着的。
11.直方图:直方图从图形来看,也是紧挨着的长条形所组成,它与条形图不同,宽度有意义,一般来说,直方图是以长条的面积来表示频次或相对频次,而条形的长度。
即纵轴高度表示是频次密度或相对频次密度。
频次密度=频次/组距。
12.折线图:如果用直线连接直方图中条形顶端的中点,就是折线图。
折线图可使资料的频次分布趋势更一目了然。
13.累计图和累计表:表示的是大于某个变量值的频次是多少或小于某个变量值的频次是多少。
14.众值:就是用具有频数最多的变量值来表示变量的集中值。
15.中位值:是数据序列之中央位置之变量值。
未分组:N为奇数时:中位值等于n+1/2. N 为偶数时:中位值等于中间两变量和/2. 根据频次分布求中位值:中位值等于频次的和+1/2.中位值等于求出所对应值所在的区域。
分组:1.计算出累计频次,得到累计百分比。
2.确定最高频次所在组。
统计学自笔记

第一章统计总论1、统计的概念(1)统计工作:即统计实践,它是对社会自然现象客观存在的现实数量方面进行搜集,整理和分析的过程。
(2)统计资料:是指统计实践活动过程所取得的各项数字资料以及与之相关的其它实际资料的总称。
(3)统计学:统计学(理论),是指关于认识客观现象总体数量特征和数量关系的科学。
2、统计几个概念的关系(1)统计工作与统计资料的关系是统计活动与统计成果的关系;(2)统计工作与统计学是实践与理论的关系。
3、社会统计学的研究对象社会经济现象总体的数量特征和数量关系。
4、社会统计学的研究对象的特点社会性:与人类社会生产活动相联系的数量;总体性;有许多单独数量组成;具体性:研究的是具体事物的数量方面,而不是抽象的量。
5、统计学的研究方法大量观察法、统计分组法、综合指标法、统计模型法、归纳推断法。
6、统计总体的概念根据一定的目的与要求所确定的研究事物的全体。
它是由客观存在的,具有某种共同性质的许多个别事物所构成的整体。
7、统计总体的性质大量性、同质性、具体性。
8、统计总体的单位的概念构成总体的个别事物(个体单位),是总体的基本单位,构成基础。
9、统计总体和单位的联系与区别联系:互相依存,密不可分。
单位是形成总体的基本个体,同时单位也只有依赖于总体才存在区别:含义上的区别、总体是指标的载体,单位是标志的载体。
10、单位标志的概念简称标志,总体中各单位所共同具有的属性和特征。
是说明总体单位属性和特征的名称。
11、单位标志的表现表明标志特征在各个单位的具体表现(用来回答标志的文字或数字)。
12、统计的职能信息职能(基础职能)、咨询职能、监督职能13、统计总体的概念反映社会经济现象总体某一综合数量特征的社会经济范畴的数据。
14、统计指标的分类(1)数量指标:也称总量指标,反映社会经济现象的总规模和总水平的统计指标。
(2)质量指标:反映社会经济现象的相对水平或工作质量的统计指标。
15、统计指标的特点(1)一定社会经济范畴的具体表现(2)可量性(3)综合性16、统计指标与统计标志的关系联系:(1)互相依存,相互生成。
统计学第三章笔记

统计学第三章笔记最近在学统计学,这第三章可真是让我印象深刻啊!这一章主要讲的是数据的收集、整理和展示。
说起来好像挺简单,但里面的门道可多了去了。
就拿数据收集来说吧,以前我总觉得收集数据不就是随便问问、随便记记嘛。
可学了这章才知道,这里面的讲究可大了。
比如说,你要确定收集数据的目的是什么,是为了了解市场需求,还是为了评估产品质量?目的不一样,收集的方法和对象也就大不相同。
就拿我前段时间做的一个小调查来说吧。
我想知道我们小区居民对小区停车位紧张问题的看法。
一开始,我想得可简单了,就拿着个本子在小区门口见人就问。
结果呢,有的人行色匆匆,根本不理我;有的人随便应付几句,也说不到点子上。
后来我才发现,这样的收集方法太盲目了。
我回去好好琢磨了一下,重新制定了计划。
我先在小区的业主群里发了个简单的通知,告诉大家我要做这个调查,并且说明了调查的目的和意义,希望大家能支持。
然后,我把调查问卷分成了线上和线下两种方式。
线上的通过问卷星来收集,线下的我选择在小区人多的地方,比如小广场、超市门口设点,专门找那些看起来不忙、愿意交流的居民来填写。
为了让问卷更有针对性,我可花了不少心思。
问题不能太多,不然人家会嫌烦;也不能太简单,否则收集不到有用的信息。
我把问题分成了几个部分,比如居民目前的停车情况,每天找车位花费的时间,对小区停车位规划的建议等等。
而且,每个问题都提供了几个选项,方便大家回答。
在收集数据的过程中,我还遇到了一些有趣的事儿。
有个大爷特别热情,拉着我聊了半天,从小区的历史讲到现在的管理问题,差点把我带偏了。
还有个大妈,对停车位的问题特别有意见,一个劲儿地跟我抱怨,我都插不上话。
不过通过和他们的交流,我也更深入地了解了大家的想法和需求。
数据收集完了,接下来就是整理。
这也是个繁琐但重要的工作。
我把线上线下收集到的问卷都汇总到一起,先进行筛选,把那些填写不完整或者明显乱填的去掉。
然后,对每个问题的答案进行分类统计。
社会统计知识点总结

社会统计知识点总结一、社会统计学的基本概念社会统计学是一门研究社会现象的数量特征和变化规律的学科,它涉及人口、经济、社会、文化等各个方面的统计数据,通过对这些数据的研究,揭示社会问题的本质和规律。
社会统计学的研究对象主要包括社会现象的数量特征、数量关系、数量规律和数量变化等内容。
社会统计学的研究方法主要包括数据收集、数据整理、数据分析和数据解释等步骤。
社会统计学的研究成果主要包括统计数据、统计报告、统计分析和统计推断等内容。
社会统计学的研究目的主要包括为社会政策的制定和实施提供科学依据、揭示社会问题的本质和规律、为社会管理和发展提供科学指导等内容。
社会统计学主要的研究领域包括人口统计、经济统计、社会统计、文化统计等内容。
二、数据收集方法数据收集是社会统计学研究的第一步,它是获取社会现象的数量特征和变化规律的基础。
数据收集的方法主要包括调查、抽样、实验、观察、测量等内容。
调查是一种常用的数据收集方法,它可以通过问卷调查、访谈调查、电话调查等方式获取社会现象的数量特征和变化规律。
抽样是一种常用的数据收集方法,它可以通过简单随机抽样、分层抽样、整群抽样等方式获取代表性的样本数据。
实验是一种常用的数据收集方法,它可以通过对实验组和对照组进行比较研究来获取社会现象的数量特征和变化规律。
观察是一种常用的数据收集方法,它可以通过直接观察社会现象的数量特征和变化规律来获取数据。
测量是一种常用的数据收集方法,它可以通过对社会现象进行量化研究来获取数据。
三、数据分析技术数据分析是社会统计学研究的重要环节,它是对收集到的数据进行整理、分析和解释的过程。
数据分析的技术主要包括描述统计分析、推断统计分析、多元统计分析和时间序列分析等内容。
描述统计分析是对收集到的数据进行整理、汇总、分类和计算的过程,它可以通过频数分布、比例分布、平均数、标准差、相关系数等指标来描述数据的数量特征和变化规律。
推断统计分析是对收集到的数据进行推断和预测的过程,它可以通过抽样误差、置信区间、假设检验、回归分析等方法来推断数据的数量特征和变化规律。
社会统计学公式总结及要点

3.一个变项,1个样本 :
①(n≥100):
②(n≤30): , df=b-1
4.1个变项,2个样本 1 2
n=n1+n2>100 →
五、归类总结之五:有关消减误差比例
1.
有消减误差比例意义,且对称
、G、Q拉系数、rs2、r2、rxy.12、、Ry.122= Ry.x1x22
2.有无自由度的表达
G、r、F、x2结果解释加上“其显著度水平达到或没有达到……水平”
3.有关r净相关系数
(两个定距变项)
r=rxy.1——引入第三个变项时对X、Y变项产生共同影响。
rx(y-1)——引入第三个变项时,只对Y产生影响,无消减误差意义。
ry(x-1)——引入第三个变项时,只对X产生影响,无消减误差意义。
Q= Q3- Q1
有单个数(n为偶数时会出现偏离)、区间之分。
(有几种Q,就有几种S计算法)
当为区间表格时(n/4)
①计算向上累加数cf;②Q1位置= ,Q3位置= ;
③Q1=L1+ W1,Q3= L3+ W3;④Q= Q3- Q1P57
5.标准差
①单个数:S= ,②区间:S= P60
对S的解释:如以均值来估计各个个案的数值,所犯的错误 平均是S。用均值作估计变项数值时所犯错误的大小。
社会统计学公式汇总及要点2011.09.09-09.10
(仅供参考,如不能显示公式,请安装Microsoft公式3.0)
一、归类总结之一
测量层次
特质
数学特质
单变项:X
定类变项
只分类
Mo、V
比例、比率、对比值、
社会统计学重点知识梳理

《社会统计学》重点知识梳理第一章绪论[教学目的]:本章是对社会统计学这门课程对概要性介绍。
通过本章对学习,首先使学生熟悉到学习这门课程对重要意义和作用,激发其学习对踊跃性和主动性。
其次使学生对该课程有一个大体对了解,并掌握其中的一些基础性的知识,为后面对学习打下基础。
[教学重点]:变量及变量层次[教学难点]:统计和统计学对含义[教学方法和手段]:讲授法[学时分配]:4学时[教学内容]:统计和统计学的含义,统计学的产生和发展,变量及变量层次第一节统计和统计学的含义一统计的含义统计作为一种社会实践活动已有悠长的历史。
在外语中,统计一词与国家一词来自同一词源。
因此,可以说,自从有了国家就有了统计实践活动。
最初,统计只是为统治者管理国家对需要而搜集资料,弄清国家对人力、物力、财力,作为国家管理的依据。
(如早在古代奴隶制的国家,由于赋税、徭役、征兵对需要,就开始了人口、土地等的记录和简单的统计工作。
今天,统计一词已被人们赋予多种含义,在不同场合,其可以具有不同含义。
一般来说,统计一词包括以下三种含义:一指统计工作,即调查研究,包括资料的收集、整理和分析;二指统计资料,包括统计数据和分析报告;三指统计学这门学科,研究如何搜集、整理和分析数据资料。
其中,前两种含义统计工作和统计资料指的是统计的实践活动,统计学则指理论研究。
二统计学的含义一、概念统计学是一门收集、整理和分析统计数据的方法科学,其目的是探索数据的内在规律性,以达到对客观事物的科学认识。
统计数据的收集是取得统计数据的过程,它是进行统计分析对基础。
离开了统计数据,统计方法就失去了用武之地。
如何取得所需的统计数据是统计学研究的内容之一。
统计数据的整理是对统计数据的加工处理过程,目的是使统计数据系统化、条理化,符合统计分析的需要。
数据整理是介于数据收集与数据分析之间的一个必要环节。
统计数据的分析是统计学的核心内容,它是通过统计描述和统计推断的方法探索数据内在规律对过程。
社会经济统计学各章重点知识

《社会经济统计学》各种重点知识第二章1、总体是根据一定的目的要求所需研究事物的全体,它由客观存在的具有某种共同性质的许多个别事物所组成。
2、总体单位是指组成总体的基本单位,它是所要统计的各种数量特征的承担者。
3、确定总体和总体单位,必须注意:构成总体的单位必须是同质的;构成总体的单位必须是大量的、足够多的;总体与总体单位具有相对性;随着研究目的的不同,总体和总体单位可以相互转化。
4、标志是指用来说明总体单位数量特征或属性特征的概念或名称。
5、标志分为品质标志与数量标志,品质标志表示事物质的特征,一般用文字说明;数量标志表示事物量的特征,一般用数值说明6、指标是用来反映总体数量特征的概念,应该包括他的概念和数值。
7、指标按其所反映总体的内容不同分为数量指标和质量指标。
数量指标是指反映社会经济现象总体规模或工作总量的统计指标;质量指标是指反映社会经济现象的相对水平或工作质量的统计指标。
8、指标按其功能和作用分为描述指标、评价指标和预警指标。
描述指标是指用于反映社会经济现实状况和社会生产、生活过程及其结果的统计指标;评价指标是指用于对社会经济活动的结果进行比较、评估、考核,以检查其经济效益和工作质量的统计指标;预警指标主要用于对宏观经济运行状况进行监控,并依据其指标值的变化,预报国民经济即将出现不平衡状态和突发事件,以及某些结构性障碍。
9、统计指标体系是指由一系列相互联系的统计指标所构成的指标群体,用以说明所研究的社会经济现象总体各方面相互依存和相互制约的关系。
10、变异是标志或指标具体表现的差异。
11、变量是指可变的数量标志和指标。
变量的数值表现就是变量值,亦即可变的数量标志或指标的不同取值。
12、定类尺度是指分组标志是对一些客观事物的名称进行排列。
它的特点是只能对数据进行平行的分组或分类,具有互斥性,不能对各组的编号进行加减乘除等数学运算。
13、定序尺度指把各类事物按一定特征的强弱、高低等顺序排列起来。
2023年社会研究的统计应用复习笔记

第二章简化一种变项之分布第一节基本技术一、定类层次次数分布、比例、比率、图示和对比值二、定序层次累加次数 累加比例三、定距层次组限 组中点矩形图多角线图第二节集中趋势测量法定义:指记录分析中用以简化一种变项旳资料旳分布状况旳措施,就是找出一种数值来代表变项旳资料分布,以反应资料旳集结状况,可以根据这个代表值来估计或预测每个研究对象旳数值经包括众值、中位值和均值。
一、定类变项:众值二、定序变项:中位值1、根据原资料求出中位值MD旳位置=(n+1)/22、根据分组资料求出中位值 (以中位值去估计定序变项旳数值,所犯旳错误总数是最小旳。
MD =L +w f cf n ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡-2三、定距变项:均值 以均值估计定距变项旳资料,错误最小nxx ∑=第四节 离散趋势测量法定义:指用以简化一种变项旳资料旳分布旳记录措施,是规定求出一种数值,来表达个案与个案之间旳差异状况,重要包括离异比率、四分位差和原则差等方案。
离散趋势测量法与集中趋势测量法有互相补充旳作用。
集中趋势所求出旳是一种最能代表变项所有资料旳值,但其代表性旳高下却要视乎各个个案之间旳差异状况。
假如个案之间旳差异很大,则众值、中位值、均值旳代表性就会很低。
一、离异比率:非众值旳次数与所有个案数目旳比率二、四分位差:将个案由低至高排列,然后分为四个等分,则第一种四分位置旳值(Q1)与第三个四分位差(Q3)旳差异,就是四分位差。
三、原则差就是将各数值(X)与其均值()之差旳平方和除以所有个案数目,然后取其平方根。
x公式如下:()n x x s ∑-=2公式中X 与 旳相差,就是表达以均值人微言轻代表值时会引起旳偏差或错误。
假如各个实际数值与均值之相差旳总和很大,就表达变项旳离势很大,即均值旳代表性很小。
方差:就是原则差旳平方,其意义与原则差相似。
第四节正态分布与原则值一、正态分布定距资料可以用一条平滑旳曲线表达。
正态曲线可如下公式表达: 正态分布具有()单峰和对称旳特质,因此众值、中位值和均值都是相似旳;(2)X x 与其均值()旳差异愈大,另一方面数会愈少,但不会等于零;换言之,曲线两端逐渐减降,x 但不会接触底线。
《社会统计学》知识-传文档(2020.06.11)

三、简答题1.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。
(1)网络供应商的姓名(定性变量)(2)每月的网络服务费(定量变量-连续变量)(3)每月上网时间(定量变量-连续变量)(4)上网的主要目的(定性变量)(5)上周收到的电子邮件数量(定量变量-离散变量)(6)每月用于网上购物的金额(定量变量-连续变量)(7)上月网上购物的次数(定量变量-离散变量)(8)使用的电脑的品牌(定性变量)(9)上网是否玩游戏(定性变量)(10)电脑是否带有光盘刻录机(定性变量)2.社会调查方法主要包括哪几种?简要说明各种方法的优缺点。
答:社会调查的方法包括:一、问卷法。
是调查者根据一定的目的和要求,采取己经设计好的问卷,向被调查者了解情况、征询意见。
其优点有:(1)获得的资料便于进行定量分析;(2)节约时间、人力、经费;(3)应用范围广。
缺点有:(1)由于问卷调查一般是对某一时间点的调查,因而在探讨和分析变量间的因果关系方面相对较弱;(2)对事物的理解和解释的深入性及效度相对较差;(3)由于卷调查按照事先设计好的问卷进行,结构相对固定,这在无形中限制了被调查者对问题的回答,使得所得资料比较表面化、简单化。
二、访谈法。
是指由调查者直接向被调查者进行访问和交谈,并记录调查结果的方法。
其优点有:(1)调查的回答率较高;(2)调查资料的质量较高;(3)调对象的适用范围较广。
其缺点有:(1)访谈员的语言、表情等可能影响被调查者的回答;同时对访谈人员的要求比较高;(2)匿名性较差,对于隐私等敏感性内容不适合用访谈法进行调查;(3)调查事件比较长、费用比较高。
三、观察法。
是指研究者深入到所要研究对象的生活中去,在实际中参与研究对象的日常生活的过程中,直接记录研究对象的有关资料的方法。
其优点有:(1)和访谈法相比,观察法将自己的观点强加于研究对象可能性较小,因而能获得更真实的结果;(2)由于观察者直接记录有关资料,因而调查结果不受研究对象的意愿和回答能力的影响;(3)可以更快更准确的收集想要得到的数据。
社会统计学知识点

1,狭义社会是与经济相对应的一个概念。
(选择)P12,狭义社会统计是20世纪60年代以来,首先由美国等国家提出来的,它与经济统计相对应,是与经济统计并存的概念。
(选择)P23,1980年,国家统计局在《关于改革和加强统计的报告》中首先提出应制定社会,人口统计指标体系问题,从而拉开了中国社会统计学研究的序幕。
P24,1983年提出了中国第一套《社会统计指标体系》草案。
P25,狭义社会统计学的三种研究范围。
P46,中国社会统计学的发展过程。
P5第一阶段:以“引进”为主;第二阶段:是发展较为迅速的一个阶段;第三阶段:以“体系”建立为中心。
P57,从社会统计学的学科性质可以看出,社会统计学学科体系的主要特征有哪些?P8-9(简答,选择)(1)研究客体的独立性(2)研究方法的特有性(3)内容结构的系统性与层次性(4)与专业统计的相互渗透性(5)学科体系的发展性8,客观指标——指居民个人,社会群体,社会事物的自然属性和社会属性,它是对社会现象的客观反映,说明客观现象是什么。
P229,主观指标——指居民个人或社会群体对客观事物的意愿,要求,态度,评价等,它是对社会现象的主观反映,说明客观现象怎么样。
P2210,定类指标,定序指标,定距指标,定比指标是有一定层次的,后一种指标比前一种指标的层次高,较高一级层次指标即包括较低一级层次指标的统计功能,又具有自身的统计统计功能。
定类指标的统计功能只是分类,定序指标不仅能反映统计客体的类别,还能反映统计客体的顺序。
P2311,为反映企业经营状况选用哪5个指标来计算综合指标值?P24(多选)(1)工业增加值(2)利润总额(3)销售总额(4)工业总产值增长速度(5)经济效益好(或中,或差)前4个指标属于定比指标,最后一个指标属于定序指标。
12,人口总量既可以从存量角度理解,也可以从流量角度理解,也可以从平均量的角度理解。
P2513,人口数量——指一定时点,一定地区有生命人口的总和。
社会统计学笔记

第一章科学方法与社会研究历程1·社会学研究:就是运用科学的方法来搜集和分析社会事实,以理解社会现象之间的关系。
2·科学研究:就是运用客观的、逻辑的和系统的方法来搜集事实及分析事实。
3·社会学研究的整个历程,大致上可以分为三个阶段:(1)筹划,(2)执行,(3)总结。
4·初步探索步骤:(1)收集有关的文献,(2)咨询那些对研究的题目有经验、有知识的人,进行了解,(3)观察个案.5·假设:就是根据我们对问题的了解,假定现象与现象之间的关系。
就是假定某一现象的变化与另一种现象的变化具有某种关系.假设的方式:函数式(要求变项之数值有高低之分)、差异式(不存在高低之分)6·较为常用的研究方式:实验法、社会调查法.(皆可验证假设)①实验法的逻辑:有意的改变A变项,然后看看B变项是否随着变化;如果B变项显然是随着A变项的变化而变化,就说明A变项对B变项有影响。
②社会调查法特点:在研究过程中不改变社会现状,只求就地取材,然后以统计方法推算变项与变项之间的关系。
7·能够有效地验证假设的实验法称为典型或理想实验法8·社会调查法可以分为两大类:一是叙述性调查(重点是报道社会事实,较少分析社会事实(即变项)之间的因果关系),一是解释性调查(目的是要证明不同的变项之间是否有因果关系)。
9·全体调查:就是从所有研究对象中搜集资料。
抽样调查:就是从全体的研究对象中科学的抽出一个数目较少的样本,然后据此样本的资料推论全体的情况。
10·个案研究:就是选择一个或几个个案(即研究对象),作深入的接触和观察,目的是对所研究的问题作深入的了解.11·横剖研究:指的是在同一时期搜集资料,目的是理解各种社会现象(即变项)在某时期的相关情况的研究.纵贯研究:是指在不同时期搜集的,目的在了解社会现象(即变项)在不同时期中的变动情况的研究.12·纵贯研究分为两种:趋势研究、同组研究(指的是在不同时期调查相同的样本).同组分析的问题:遗失个案的问题。
社会统计学知识点笔记大全

第四章时间序列分析第一节时间序列的一般问题一、时间序列及其分类(一)时间序列的概念及分析目的1、时间序列的概念同一现象在不同时间上的观察值按时间顺序排列而成的数列。
例:上海市历年国内生产总值年份2000 2001 2002 2003 2004 2005 GDP 4551.15 4950.84 5408.76 6250.81 7450.27 9143.95 (亿元)2、时间数列的基本要素:§现象所属的时间§反映数量特征的数值,即不同时间上该现象的发展水平。
3、时间序列的分析目的(二)时间序列的类型时期数列特点:数列中各个指标值是可加的;数列中每个指标值的大小随着时期的长短而变动。
时点数列特点:数列中各个指标值是不能直接相加的;数列中每个指标值的大小与时间间隔的长短没有直接关系。
二、编制时间数列的基本原则各指标数值应当可比:所属时间可比、总体范围可比、经济内容可比、计算口径可比、计算方法可比第二节时间序列的水平分析指标一、发展水平现象在不同时间上的观察值。
说明现象在某一时间上所达到的水平。
按照发展水平在序列中的位置可分为最初水平、最末水平和中间水平。
按照研究目的分为基期水平和报告期水平(计算期水平)。
二、平均发展水平(序时平均数)(一)概念:平均发展水平是对不同时时间的发展水平求平均数,统计上又叫序时平均数。
(二) 序时平均数的计算1、绝对数时间数列的序时平均数(1)时期数列的序时平均数 (2)时点数列的序时平均数例:某厂7月份的职工人数自7月1日至7月10日为258人,7月11日起至7月底均为279人,则该厂7月份平均职工人数为:na n a a a a n ∑=+⋅⋅⋅++=21)26.5( 6293028282024万件上半年平均月产量=+++++=对连续变动的连续时点数列a a n =∑ 对非连续变动的连续时点数列 af a f=∑∑)(272312792125810人=⨯+⨯=a对间隔相等的间断时点资料 1221222132132211-++⋅⋅⋅+++=-++⋅⋅⋅++++=--n a a a a a n a a a a a a a nn n n。
社会统计学知识点总结

第一章数据与统计学数据分析所使用的方法大体上可分为描述统计和推论统计(推断统计),描述统计主要是利用图表形式对数据进行展示,或通过计算一些简单的统计量(诸如:比例、比率、平均数、标准差等)对数据进行分析。
推断统计主要研究如何根据样本信息来推断总体的特征,内容包括参数估计和假设检验两大类。
变量:是描述观察对象某种特征的概念,其特点是从一次观察到下一次观察可能会出现不同的结果(具有一个以上取值的概念)1、下列哪一个选项不是变量?( )A. 民族B. 智商C. 衣服的尺寸D. 女性答案:C2、下列变量属于数值型变量的是( )A. 工资收入B. 产品等级C. 学生对考试改革的态度D. 企业的类型答案:A解析:3、社会统计学的数据分析方法主要包括统计描述和( )A. 统计描述B. 统计推导C. 统计推论D. 统计分析答案:C4、能计算均值和标准差的必须是哪种变量( )A. 自变量B. 因变量C. 数值型变量D. 字符串型变量答案:C5、在SPSS中最多可以设置几个独立的缺失值?( )A. 3B. 4C. 5D. 8答案:A6、描述统计可以最恰当地表述为( )A.数据作概括性的表达B.对总体所作的结论C.测量操作的应用D.原始数据到标准分的转变答案:A解析:描述统计主要是利用图表形式对数据进行展示,或通过计算一些简单的统计量(诸如:比例、比率、平均数、标准差等)对数据进行分析。
第二章数据的描述性分析:图表展示1、欲以图形显示两变量X和Y的关系,最好创建( )。
A. 直方图B. 圆形图C. 柱形图D. 散点图答案:D第三章数据的描述性分析:概括性度量1、下列统计指标中,对极端值的变化最不敏感的是( )。
A. 众值B. 中位值C. 四分位差D. 均值答案:A2、经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有 ( )A. 50%的数据B. 68%的数据C. 95%的数据D. 99%的数据答案:B解析:根据标准得分可以判断一组数据中是否存在离群点。
社会统计学 复习资料

社会统计学第一章导论一.社会统计学的产生与发展1.国势学派:(又称记录学派或历史学派)对国家显著事迹的记录和比较。
“有名无实”代表人物:阿享瓦尔(1719—1772)“统计学之父”、康令(1606—1681)2.政治算术学派:对国家事项首创数字对比、分析。
“有实无名”代表人物:威廉 配第(1623—1687)“政治经济学之父”、格朗特(1620—1674)3.数理统计学派:将法国古典概率论引入统计学,用纯数学的方法对社会现象进行研究。
代表人物:凯特勒(1796—1874)“现代统计学之父”4.社会统计学派:研究社会现象代表人物:克尼斯(1821—1898)、梅尔(1841—1925)、恩格尔(1821—1896)二.社会统计学的对象和特点社会统计学:用于统计的一般原理,对社会各种静态结构和动态趋势进行定量描述或推断的一种方法与技术。
研究对象概括而言是指社会现象的数量方面。
社会统计学特点:就研究对象而言,社会统计学主要是从研究和反映一定经济基础之上的上层建筑方面去认识社会;就研究内容而言,社会统计需要对人们的态度、观念、行为进行度量,测量这些社会现象目前还没有一个精确而统一的尺度,只能以近似估算或词语表达等方式来代替;就调查方法而言,社会统计中,由于其研究对象所具有的特征,抽样调查更为常用。
三.社会统计学的方法1.大量观察法:就总体中足够多的单位进行调查和综合分析,用以反映社会总体的数量特征。
2.大数定理:是随机现象出现的基本规律,一般意义为:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。
3.综合指标法4.统计推断法四.社会统计学的几个基本概念1.总体与单位总体:作为统计研究对象的,由许多具有共性的单位构成的整体。
单位:构成整体的每一个个体。
2.标志与变量,标志:总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志。
社会统计学复习重点

社会统计学第一章社会统计学的研究范围内容社会统计学是研究如何描述和分析社会生活与社会发展状况数量方面的科学。
从社会统计的学科性质可以看出,社会统计学学科体系具有以下主要特征:1,研究客体的独立性。
2,研究方法的特有性。
3,内容结构的系统性与层次性。
4,与专业统计的相互渗透性。
5,学科体系的发展性。
社会统计指标的种类分为;主观指标与客观指标,定类指标,定序指标,定距指标与定比指标。
问题:为什么要开展主观指标的搜集工作呢?1,主观指标调查是社会主义生产目的的要求。
2,补充客观指标的不足。
在实际运用时,应注意以下几点:1,对于同一现象,可以用不同类型的指标反映。
2,在采用指标体系法对统计客体进行统计描述时,应尽量采用同一层次统计指标,当较低层次的统计指标引人指标体系时,就会降低其测量层次。
3,对于定序指标或定类指标不能不加分析地直接将其转化成高层次统计指标。
第二章人口总量统计人口总量既可以从存量角度理解,也可以从流量角度理解,也可以从平均量的角度理解。
人口存量与人口流量的一般定义:人口存量指一定时点上具有某种特征(或处于某种状态)的人口总体。
人口结构又称人口构成,人口结构统计在于通过相应的计算方法揭示了人口结构的内在联系及其与社会经济因素的相互关系。
根据人口结构的性质大致可分为三大类,人口的自然结构,人口的地域结构和人口的社会结构。
人口年龄金子塔的横轴表示人口数或者人口构成,其中左侧表示男性人口,右侧表示女性人口,纵轴表示年龄。
研究人口再生产过程时应该注意的几点:1,不仅要注意人口群体数量的再生产,也要注意人口群体质量的再生产。
2,由于人口再生产有很强的惯性作用,所以在限制人口政策时要有长远观点。
3,应该注意人口群体的年龄结构。
反应人口增长率的指标有两个,一是人口增长率,一是人口自然增长率。
人口增长率是指人口增量与平均人口之比,反映一定时期内总人口的增长程度。
人口增长率和人口自然增长率之差为迁移增长率。
社会统计学-社会统计学知识点(仅供参考)

第7章住户活动统计
第一节住户活动及其统计内容
1、住户的概念
2、住户活动统计应该包括的内容
3、住户的分类
第二节居民收入统计
1、居民收入、居民消费、居民投资、居民财产的含义
2、居民总收入和居民可支配收入的概念
3、工资性收入、经营性收入、财产性收入、转移性收入
4、居民收入需要明确的两点
5、住户收入总量统计:
1)住户总收入:城镇住户总收入、农村住户总收入
2)住户可支配收入:城镇住户可支配收入、农村住户纯收入(可支配收入)、农村住户现金收入
6、居民收入水平及其变动统计:
1)总体人均收入
2)户人均收入
3)实际收入
7、居民收入结构统计:
第三节居民消费统计
1、居民消费含义
2、居民消费统计需注意的六点
3、居民消费总量及其水平统计:
1)住户主要消费品消费量和人均消费量:居民人均消费品消费量;户人均消费品消费量
2)居民消费支出总额与人均消费支出:人均年消费支出;户人均年消费支出4、居民消费倾向与消费结构统计:
1)居民消费倾向统计:居民平均消费倾向;居民边际消费倾向
2)居民消费结构统计:消费内容结构;消费方式结构;消费目的结构
5、恩格尔系数及其应用:恩格尔定律;恩格尔系数定义及计算公式
第四节居民收入、消费分布差异的统计与分析。
社会经济统计学原理复习要点

一、统计的涵义:一是指统计活动(统计工作);二是指统计资料;三是指统计科学。
二、社会经济统计:它是从数量方面入手研究社会经济现象的现状及发展规律的一种手段.社会经济统计的性质:它是社会认识的最有力的武器之一。
三、社会经济统计认识社会的特点:A、数量性是它的基本特点;B、总体性是统计的另一重要特点。
四、社会经济统计学的研究对象:是社会经济统计活动的过程。
1、统计总体:是指根据统计任务的要求,由客观存在的,在同一性质基础上结合起来的许多个别事物的集合。
2、总体单位:构成统计总体的个别事物叫总体单位。
3、标志:是指总体单位的特征或属性的的名称。
4、标志按其表现形式不同,分为数量标志和品质标志。
数量标志表现为数量上不同的标志,如职工的年龄、工资、工龄等;品质标志是指不能用数量表现的标志,如性别、隶属关系等。
5、变量:统计中的变量是指可变的数量标志.6、变量的数值叫变量值,即可变数量标志的数值,也称标志值。
7、变量值按其数值是否连续分为离散变量和连续变量.离散变量是指变量的值只能是整数而不出现小数;如职工人数、机器设备台数.连续变量是指其数值在整数之间可以有无限的数值;如人的身高、体重。
8、统计指标:表明总体特征的概念及其数量表现.标志:是指总体单位的特征或属性的的名称。
9、简答统计指标的设置的要求。
A、指标所反映的总体特征,概念要有理论依据;B、指标要有明确的计算口径范围;C、指标要有科学的计算方法。
10、指标的分类:A、按反映的时间特点不同,有时点指标和时期指标;时点指标是反映总体特征在某一时点上的数量表现,常用的是期末数字;时期指标是反映总体特征在某一时期的数量表现。
B、按其计量单位的特点,有实物指标和价值指标;实物指标是以实物单位计量的指标;价值指标是以货币单位计量,反映情况事物价值量的指标C、按其反映总体特征的性质不同分为数量指标和质量指标;数量指标反映情况总体某一特征的绝对数量,这类指标主要说明总体的规模、工作总量和小平,一般用绝对数表示;质量指标反映总体的强度、密度、效果、工作量等.这类指标用平均数、相对数表示。
(完整)社会统计学公式总结及要点,推荐文档

社会统计学公式汇总及要点2011.09.09-09.10(仅供参考,如不能显示公式,请安装Microsoft 公式3.0)一、归类总结之一测量层次特质数学特质单变项:X定类变项只分类M o、V比例、比率、对比值、次数分布、长作图、圆瓣双变项:X、Y 定序变项不仅分类,有大小、高低、程度等M o、V、M d、Q累加次数、累加百分率定距变项不仅分类,有大小、高低、程度,还可加减M o、V、M d、Q、、S(S2)X同上定比变项最高测量层次加减乘除二、归类总结之二①2个定类、、tau-y λyλ②2个定序G、d y③2个定距R、b,即r=r xy,b=b xy④定类+定距E⑤定类+定序同①:、、tau-y大多数社λyλ会学者将定序看作定类,即2个定类。
1. 集中趋势测量法:Mo 、M d、X2. 离散趋势测量法:V、Q、S2. 有下标,表示不对称3. 具有消减误差比例意义的有:r2、E2、G、d y、、、tau-y、r s2(r s斯皮尔曼λyλ系数)4. 参数检定:Z、t、F非参数检定:x2、U、H、K-S、走动检定P201三、归类总结之三:理解如下:(红色字体为特别关注的公式)变项X 变项Y可计算检定法①两个定类定类定类、、tau-yλyλx2②定类+定序定类定序同上③两个定序定序定序G、d y Z(n≥100)、t(n≤30)④两个定距定距定距r、b,即r=r xy,b=b xy F、r (n≤30)⑤定类+定距定类定距E只能用F检定⑥定序+定距定序定距E只能用F检定五、归类总结之五:有关消减误差比例1.有 消减误差比例意义,且 对称、G 、Q 拉系数、r s 2、r 2、r xy.12、、R y.122= R y.x1x22λ2.有 消减误差比例意义,且 不 对称d y 、、tau-y 、E 2、CR 2(特征值)y λ3.无 消减误差比例意义,且对称、V 系数、C 系数、tau-a 、tau-b 、tau-c 、Vs 、rϕ4.无 消减误差比例意义,且 不 对称b 、E六、其他细节1.显著度的表达①两端检定:; ②一端检定:; ③; ④F (df1,df2) ; ⑤x 2(df)1.96Z ≥ 1.65Z ≥(df)Z∂2. 有无自由度的表达G 、r 、F 、x 2 结果解释加上“其显著度水平达到或没有达到……水平”3. 有关r 净相关系数 (两个定距变项)r=r xy.1 —— 引入第三个变项时对X 、Y 变项产生共同影响。
《统计学》读书笔记摘抄(3篇)

第1篇第一章绪论1. 统计学是一门研究数据的收集、整理、分析和解释的学科,它广泛应用于各个领域,如经济学、生物学、医学、社会学等。
2. 统计学的基本任务是从大量的数据中提取有用信息,以帮助人们作出科学决策。
3. 统计学的发展经历了从简单描述到复杂推断的过程,其核心是概率论和数理统计。
4. 统计学的研究方法包括描述性统计、推断性统计和决策理论。
第二章数据收集与描述1. 数据收集是统计学的第一步,包括定性和定量数据。
2. 定性数据分为名义数据、有序数据和间隔数据,定量数据分为离散数据和连续数据。
3. 描述性统计的主要目的是用图表、表格和数值来描述数据的特征,如集中趋势、离散程度和分布形态。
4. 集中趋势的度量有均值、中位数和众数,离散程度的度量有方差、标准差和极差。
5. 分布形态的度量有偏度和峰度。
第三章概率论基础1. 概率论是统计学的基础,它研究随机事件发生的可能性。
2. 概率的基本概念包括样本空间、事件、概率、条件概率和独立事件。
3. 概率的公理包括加法法则、乘法法则和全概率公式。
4. 概率的性质包括非负性、规范性、可加性、条件概率的性质和独立事件的性质。
5. 常见的概率分布有二项分布、泊松分布、正态分布、均匀分布和指数分布。
第四章推断性统计1. 推断性统计是基于样本数据对总体参数进行估计和假设检验。
2. 参数估计包括点估计和区间估计,假设检验包括参数假设检验和非参数假设检验。
3. 点估计的常用方法有矩估计和最大似然估计。
4. 区间估计的常用方法有置信区间和最优置信区间。
5. 假设检验的常用方法有卡方检验、t检验、F检验和秩和检验。
第五章方差分析1. 方差分析(ANOVA)是一种用于比较多个样本均值差异的统计方法。
2. 方差分析的基本思想是将总方差分解为组内方差和组间方差。
3. 方差分析的主要步骤包括方差分解、假设检验和结果解释。
4. 方差分析的类型有单因素方差分析、双因素方差分析和多因素方差分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章绪论第一节社会学研究过程及统计学的应用一.确定研究课题:遵循重要性,创造性,可行性原则方法文化基础不同,研究课题不同:人文主义:定性实证主义:定量二.探索性研究提出理论假设——解释性研究建构指标体系——描述性研究三.操作化——社会现象数量化的过程四.社会测量:统计思想和统计方法直接应用的阶段五.问卷设计六.调查实施七.审核录入八.统计分析九.得出研究结论第二节统计分析方法在社会学研究中的应用一.统计方法的应用是社会学研究科学性的重要标志二.统计方法的应用的目的是要发现和描述社会现象的统计规律性,很多不确定的现象虽然在个体有不同表现,但通过大量研究会揭示其统计规律性。
三.统计学在社会学研究中的地位——工具1.不能代替深度的理论思考2.不能弥补在研究设计中的任何不足第三节变量的层次及统计分析方法的选择一.变量的层次:变量之间是可以转化的(一)类别变量:定类定序:有序类别变量(二)尺度变量:定距定比二.统计分析方法的选择(一)不同抽样方法的影响:随机抽样:推论统计非随机抽样:描述统计(二)不同层次的变量的影响:描述:定类比率尺度平均值关系:类别—类别x2,列联相关类别—尺度方差分析尺度—尺度皮尔逊相关,回归分析上篇描述统计描述统计:对调查数据进行整理分类浓缩概括的过程第二章单变量的描述统计分析第一节变量的分布及其描述方法一.变量及其分布:常量常用来界定总体(一)变量的特征随机性:有两个以上的取值变量的取值:1.完备性2.互斥性(二)变量的分布:个体在变量取值上的分布频次分布{x1,n1} 频率分布{x1,p1}{x2,n2} {x2,p2}{x3,n3} {x3,p3}{x i,n i} {x i,p i}二. 统计表:是将数据按照一定顺序排列在横行纵栏交叉的表格中(二)制作统计表的原则1.每个表的正上方必须有标题,用以简明扼要,准确的说明表的内容2.表的左上方应该有表的编号3.数字部分的横行间不标划线条,两侧不画纵线(开口),呈开口式4.数字书写要工整,小数点上下要对位5.当整项数字缺少时,要用“——”标示6.如有资料来源或对表的其它说明可在表的下面写出标注资料来源:————(三)简单表(主词表)简单表是指主词没有经过任何分组,只按变量的取值,列出的统计表,不适用于尺度变量,适用于表现类别变量的分布(四)分组表:分组表的主词是将变量的取值按一定的标准分组或分段的统计表组上限:每一组的最大值组下限:每一组的最小值制作过程:1.确定全距:R=最大值-最小值2.确定组距与组数(不宜过多)组距:一般选择2,3,5及其倍数组距决定组数,一般根据数据多少成正比例3.确定各组上下限最高组上限必须大于数据的最大值最低组下限必须小于数据的最小值尺度变量:离散型数据高组下限与低组下限不重合,是相邻的数据连续型数据高组下限与低组下限重合,是同一数据解决方法:确定组上限与下限哪个为实,哪个为虚三. 统计图:统计图就是用图的形式来表示变量的分布与状态。
它比统计表更直观、生动、容易记忆,但缺点是不如统计表精确原则:1.每个图的左下方要有图的编号2.每个图的正下方要有图的名称(一)简单条形图:适用于类别变量简单条形图是用条形的长短或高低来表示数据的大小,但条的宽度没有意义,条与条之间是分离的,适用于描述类别变量的分布。
图的横轴为类别变量的取值,高度表示频次,频率等。
(二)直方图—描述尺度变量的特征直方图与条形图不同的是,条的宽度表示组距,条与条之间是不分离的,以尺度变量为横轴,分组的组距为横轴的数据标志,高度来表示频次,频率等。
(三)累计频率直方图以尺度变量为横轴,以分组的组距为横轴的数据标志,以纵轴表示累积频率(条间差代表前组数据与后组数据之差)(四)点状分布图:以尺度变量与横轴,用点的累积表现变量取值上的个体数。
如果数据足够大,可以用点状分布图来详细地表现变量的分布特征。
(五)图形图(饼图)用于表示每一部分在总体中所占的比例,以一个圆为总体,以每一个部分所占比例来分割圆心角,该圆心角所对应的扇形表示这部分所占的比例。
(六)线形图在坐标系用折线或连续曲线来表示事物的分布或变化,由于可以把多条线画在同一坐标系内,所以线形图特别有利于进行比较分析。
第二节集中趋势概括地说明变量的状态或水平的统计特征值,由于测量层次不同,变量取值的数据特征不同,用于概括变量状态的集中趋势也不同。
一. 众数M0众数M0根据频次来确定。
在一个变量的取值中出现频次最多的变量的值就是众数,适用类别变量的描述,对于定类变量只能用众数描述。
一般认为,用出现频次最高的变量的值来概括变量的状态,代表性是最好的。
注意点:1.适合于任何层次的变量,只要知道了频次分布就可以找到众数,但主要用于类别变量的描述。
2.对于分组的尺度变量,出现频次最高的组称为众数组,可以用众数组的组中值[ 组中值=1/2(组上限+组下限)]近似的代替众数。
3.众数较适用于单峰分布的情况,在多峰分布时,由于众数不唯一,所以通常不使用众数来表示变量分布的状态。
二.中位数Md中位数是位于数列中点的数值,恰好地把全部数据分为两半,确定中位数需要比较数据的大小,因此定序以上变量,才可以使用。
(一)未分组数据资料只要将数据大小按顺序排成数列即可找到中位数。
奇数位置的数值偶数位置的数据(二)分组数据的中位数第个数据所在的组为中位数组,确定中位数组后利用下式进行计算:L中位数组的下限,h组距,n中位数组的频次,N调查总数,cf↑ L以下的累计频次一般式: Md=L+X中位值中位值三. 算术平均数(一)未分组数据(均值)1.根据原始数据计算 (i=1,2,…,n)2.根据频次分布计算第i个变量的值,第i个变量的频次,K变量值的总个数解:=(二)分组数据如果数据存在于分组表中,计算分组数据的平均值时是以组中值来代替原始值进行计算,为组中值,,为第i组的频次,k为总组数解:=四. 众数,中位数和平均值的比较三个集中趋势量都是通过一个数值来描述数据的整体特征以简化资料,一般来说平均值适用于尺度变量,中位数适用于定序以上变量,而众数适用于所有的变量,但是求平均值时所有数据的值都参与了计算,所以平均值是概括性最好,代表性最强的集中趋势量,尺度变量大多取值很多,有时可能呈现多峰分布,所以一般不用人数,也很少用中位数来描述尺度变量。
第三节离散趋势对于一个变量的一组观察值,仅用集中趋势来描述是不够的,首先变量的取值范围不同,集中趋势的代表性不同,离散程度越大,集中趋势代表性越差,反之亦然,其次集中值告诉我们怎样去估计和预测总体,而离散趋势则告诉我们估计值误差的大小。
一. 异众比率r fm0为众数的频次,n为数据总个数异众比率是对众数的补充,当r=0时,说明变量只有一个取值,那就是众值,其代表性最大。
二.极差(全距):极差是变量取值的范围,主要配合中位值或平均值说明数据的离散趋势程度的统计特征值。
极差一般用R表示R=最大值—最小值极差小表示数据分布集中,反之亦然三.四分位差:对于定序以上变量,也可以用四分位差来描述变量分布的离散趋势,将数据按大小排成数列以后,以从下向上数第25%数据所在位置的值为下四分位数,用Q25表示,以从下向上数第75%的数据所在的位置为上四分位数用Q75表示,上下四分位数之差即为四分位差,一般用Q表示:Q=Q75—Q25,四分位差反映了中间50%数据的分散程度,它既比较好的说明了数据的分散状况,又减少了极端数据所造成的影响,由于中位数处于中间位置,四分位差在一定程度上说明了中位数的代表性。
(一)未分组数据的四分位差的计算Q25的位置= Q75的位置=未除尽Q25=位置前一位数据+25%(位置后一位数据)Q75=位置前一位数据+75%(位置后一位数据)(二)分组数据的四分位差的计算L是第25%数据所在组的下限,n是第25%个数据所在组的频次,h是组距,N为数据总个数,cf↑是L以下的累计频次。
U含有50%区间的上界值,L含有50%区间的下界值,U%上界累计百分比,L%下界累计百分比h=(U—L)四. 方差与标准差(对应平均数)虽然极差和四分位数能够比较好的说明数据的离散情况,但它们只给出了数据的范围,只利用了数据的一部分信息,极差和四分位差相等的两组数据分布情况可能差异很大,对于尺度变量,概括其离散程度最好的特征值是方差和标准差。
(一)平均差离差:变量的一个观察值与变量平均之间的差用d表示,,它反映的是个体相对于平均值的离散情况。
平均差是离差绝对值的平均值。
也称平均离差。
平均差用D表示:(二)方差,标准差方差:标准差:1.用原始数据计算方差、标准差2.用分组数据计算方差、标准差方差:标准差:如果数据呈正态分布,数据的平均值左右各加减三个标准差,表示数据的全距,点99.9%。
例中国平均身高1.7m,标准差为0.1m,则中国身高分布1.4—2.0米之间。
第三章两个类别变量关系的描述统计采用交叉列表的方法,从变量分布上分析两变量之间的联系。
第一节交叉列表分析一. 交叉列表两个类别变量之间的关系,要通过两个变量的变量交叉分布来描述。
这种分析方法称为交叉列表分析,构成的表格称为交叉列表,或列联表。
如果两个类别变量相关,就是有一个变量取不同类别时,另一个变量的分布有显著差异,如果一个变量取不同类别时,另一个变量的分布没有显著差异,则认为这两个变量不相关。
表:不同性别残疾人文化程度的交叉列表1.列联表的种类设两个类别变量x与y,x分为共c类,y分为共R类,数据总个数为n,为单元格x=x i,y=y j的频次,则频次分布的交叉列表的一般形式如下,n*j是对应行j的频次和,n i* 是对应列i的频次和。
P ij与其意义相同,为频率交叉列表。
2.列联表的分布交叉列表中间部分数n ij或p ij是由两个变量共同决定的,称为联合分布。
最下面一行是x的分布,最右面的一列是变量y 的分布,称之为边缘分布。
如果将一个变量取固定值,另一个变量的分布就是就是条件分布。
条件分布都采用频率分布,使用条件分布的目的是要看当一个变量取不同类别时,另一个变量的分布是否有差异。
这次差异通过频次分布难以表现。
用单元格的频次除以对应列的总频次,即n ij/n i* 构成的分布称为关于y的条件分布,也就是当x取固定值时y的分布。
关于x的条件分布,(y取固定值)。
二. 列联表中变量的相互独立性如果一个变量取不同值时,另一个变量的条件分布只有微小的差异或是根本无差异,则认为两个变量不相关,即两个变量相互独立。
以频率分布看,表现形式是条件分布等于边缘分布。
通式:将上式左侧的分子分母同乘以n得:→又因为:所以:若两个变量相互独立,在频率分布的交叉列表中,联合分布等于边缘分布的乘积。
(书276页表10-16)第二节分类图(分类圆形图和多线图、条形图)一. 分类条形图二. 分类圆形图更容易表明数据的内部结构三. 多线图便于数据的比较定量的指标得出定性的结论第三节列联相关系数用图和表可以粗略地说明两个变量之间是否相关,但难以对两个变量的关系进行度量,为准确清晰地度量变量之间的关系的强度与方向,就用相关系数。