社会统计学公式总结
统计学 相关系数 判定系数
统计学相关系数判定系数1. 引言统计学是现代社会中广泛应用的一门学科,通过对数据的收集、整理和分析来推断出背后的规律和关系。
其中,相关系数和判定系数是两个非常重要的概念,它们可以帮助我们评估两个变量之间的相关性和预测模型的可靠性。
本文将重点讲述这两个概念的定义、计算方法及其应用。
2. 相关系数相关系数是指用于评价两个变量之间线性相关程度的统计量。
通常用r来表示,其取值范围在-1到1之间。
当r为1时,表示两个变量完全正相关;当r为-1时,表示两个变量完全负相关;当r为0时,表示两个变量之间没有线性相关性。
相关系数的计算公式为:![image.png](attachment:image.png)其中,x和y分别代表两个变量的观测值,x̄和ȳ分别是它们的平均值,sx和sy分别是它们的标准差,n是样本容量。
3. 判定系数判定系数是一种用于衡量回归模型拟合程度的指标,通常用r2来表示。
它表示在已知因变量的情况下,由自变量所建立的回归模型能够解释的因变量变化部分所占的比例。
其取值范围在0到1之间,值越接近1,模型的拟合程度越好。
判定系数的计算公式为:![image-2.png](attachment:image-2.png)其中,SSE是残差平方和,SST是总平方和,而SST=SSE+SSR,其中SSR是回归平方和。
4. 相关系数和判定系数的应用相关系数和判定系数常常在金融、经济、工业、医学等领域得到广泛应用。
其中,相关系数可以帮助我们评估两个变量之间的相关性,例如:评价商品A的销售量和价格之间的关系;研究身高和体重之间的关系等。
而判定系数则可以衡量回归模型的拟合程度,例如:对于经济学家而言,他们可以使用判定系数来衡量GDP与各经济指标的关系,以及它们之间的预测和解释能力。
同样,医学研究者可以使用判定系数来确定疾病与各种治疗方法之间的关系。
5. 结论总之,相关系数和判定系数是统计学中非常重要的两个指标,它们在广泛应用领域有着重要的作用。
社会统计学(卢淑华)-第三章
B=该家庭有电视机 P(A)=0.60 P(B)=0.80 P(AB)=0.60*0.80=0.48
例题2
对同一目标进行3次射击,第一、二、三、 次射击命中的概率分别是:0.3,0.4,0.6,求 在这三次射击中恰有一次命中的概率。
答案
Ai=第i次射击命中 A=恰有一次命中 P(A)
x2
Px1 x2 x dx x1
概率密度 x 存在以下性质:
1)x 0
2)
xdx 1
3、分布函数
1)定义:F(x)=P( x) 意义:随机变量从最远的起点(- )到所研究的x点所有概率的总和。
2)对于离散型随机变量,则:依据概率的加法定理:例
F x P x P xi
1、离散型随机变量
方差:D E E 2 x E 2 Pi
ii
2、连续型随机变量
方差:D
x
E
2
xdx
标准差 : D
3、方差和标准差都反映了随机变量的可能值密集在数学 期望周围的程度。方差值越小,密集程度越高;反之则方
差值较大。
4、计算过程
① 利用公式求 E()=
② 求[ E()]2
例2:两名孕妇,生女婴的概率分布。
性质:1) Pk 0
2) PK 1 K 1
分布列表明全部概率在各可能取值之间的分布规律,全面描叙离散随机变量
的统计规律
2、连续型随机变量及其概率分布 ——概率密度函数
概率密度
:
x
P
lim
x 0
x
x 2
x
x
x
2
任意两点(X1,X2)之间的概率为:
三种情况:
1、不可能事件Ø 概率 P()=0 2、必然事件S 概率 P(S)=1 3、必然与不可能之间E 概率 0 P(E) 1
社会统计学公式总结及要点
3.一个变项,1个样本 :
①(n≥100):
②(n≤30): , df=b-1
4.1个变项,2个样本 1 2
n=n1+n2>100 →
五、归类总结之五:有关消减误差比例
1.
有消减误差比例意义,且对称
、G、Q拉系数、rs2、r2、rxy.12、、Ry.122= Ry.x1x22
2.有无自由度的表达
G、r、F、x2结果解释加上“其显著度水平达到或没有达到……水平”
3.有关r净相关系数
(两个定距变项)
r=rxy.1——引入第三个变项时对X、Y变项产生共同影响。
rx(y-1)——引入第三个变项时,只对Y产生影响,无消减误差意义。
ry(x-1)——引入第三个变项时,只对X产生影响,无消减误差意义。
Q= Q3- Q1
有单个数(n为偶数时会出现偏离)、区间之分。
(有几种Q,就有几种S计算法)
当为区间表格时(n/4)
①计算向上累加数cf;②Q1位置= ,Q3位置= ;
③Q1=L1+ W1,Q3= L3+ W3;④Q= Q3- Q1P57
5.标准差
①单个数:S= ,②区间:S= P60
对S的解释:如以均值来估计各个个案的数值,所犯的错误 平均是S。用均值作估计变项数值时所犯错误的大小。
社会统计学公式汇总及要点2011.09.09-09.10
(仅供参考,如不能显示公式,请安装Microsoft公式3.0)
一、归类总结之一
测量层次
特质
数学特质
单变项:X
定类变项
只分类
Mo、V
比例、比率、对比值、
电大 社会统计学 第六章 正态分布
maxLeabharlann 第一节 正态分布f(x)
二、正态分布的特点 (二)正态分布是对称的
0
µ
正态分布曲线位于横轴上方,呈钟形。中间大,两头小,左 右对称。 正态分布曲线以均数所在处最高,且以均数(x=μ)为中心 左右对称。 在正态分布中,平均数=中数=众数,此点对应y值最大。 X=μ ±σ为图像的拐点,在(μ-σ,μ+σ)内是凹的,其他范 围是秃的。 x轴是渐近线。
( x) 1 ( x).
P(x1<X<x2)=P(X<x2)-P(x1<X)=F(x2)-F(x1)
例题1
• 已知X~N(1.5,4),求P(X<-4)和P(|X|>2)。 • 解:因为X服从μ=1,5,σ=4的正态分布,故:
- 4 1.5 P( X -4 ) ( ) (-2.75 ) 1 (2.75 ) 0.003 2 P ( X 2 ) P ( X 2 ) P ( X 2 )
X
~N(0,1),
Z=(X—μ)/σ
• 某班同学平均体重为50公斤,标准差为10,某同学体重为70 公斤,将这个分数转化为Z值。 • Z=(X—μ)/σ=(70—50)/10= 2 • 表明这个同学的体重在分布中高于均值2个标准差。
68—95—99.7规则(重要)
• 约有68%的数据在平均数加减1个标准差的范围之内; • 约有95%的数据在平均数加减2个标准差的范围之内; • 约有99.7%的数据在平均数加减3个标准差的范围之内。 • 这就是68—95—99.7规则,由此可见,X的取值几乎全部落 在(μ—3σ,μ+3σ)之间,即在均值的3个标准差范围之 内。X值几乎不可能在区间
社会统计学常用公式及说明
b
b
i 1
n
i
n
yn y0
平均发展速度-1
回归方程
公式名称
数学公式
yt a bt (方程式)
说明
说明
当 t 0 时:
b
N tY t Y N t 2 ( t ) 2
Y b t N
直线回归
b
N tY t Y N t 2 ( t ) 2
H
调和平均数
H
x
1
简单
H :平均数
m 1 x *m
x x
f
加权
x :单位变量值 n :总体单位数 m :权数
Gn
简单 加权
G :平均数
几何平均数
f G
n :项数
:连乘
f
Me L 2
sm 1 fm
*d
下限公式
中位数
Me U
f
2
sm 1 fm
*d
上限公式
环比
Ai
增长速度
Bi
yi y0 (i 1,2,....n) y0
yi yi 1 (i 1,2,....n) yi 1
n
定基
环比
环比发展速度-1 1、等 于 各 环 比 发 展 速度连乘开 n 次方 根 2、等于 n 次方根下报 告期水平 / 基期水 平
平均发展 速度 平均增长 速度
a
a
Y
N
回归方程
a
yt a bt ct 2 (方程式)
t Y t t Y N t ( t )
4 2 2 4 2 2
b
社会统计学公式总结LIJUN
社会统计学考试必备公式
学院:人文学院
姓名:李军
学号:2011014737
专业:社会学
班级:社会111
时间:2013年6月20日
社会统计学考试必备公式
第二章单变量统计描述分析
直方图:频次密度=频次/组距(条宽)
相对频次密度(频率密度)=相对频次(频率)/组距(条宽)
频次=频率密度*组距
A、集中趋势测量法
众值:m0
B、离散趋势测量法
极值R:观察的最大值-观察的最小值
四分互差Q=Q75-Q25
第三章概率
一、概率的运算
1.当事件A与事件B互不相容时,
P(A+B)=P(A)+P(B)
2. 当事件A与事件B不满足互不相容时,
P(A+B)=P(A)+P(B)-P(AB)
3.A、B相互独立
P(AB)=P(A)P(B)
4. A、B不相互独立
P(AB)=P(A)P(B/A)或P(B)(A/B)
第五章正态分布
第六章参数估计
第七章假设检验的基本概念
1.统计假设
2.原假设与备择假设
3.假设检验的基本原理
4.双边检验与单边检验
第十四章非参数检验。
统计学原理有关公式记忆方法举隅
平均 差式算
资料 已 分组 , 用 加权 式计 算
A. l :二 鱼
.
: 迎
盯:
:
忆问题。
平均 指标 与变异 指标
1 .算术平均数 与调和平均数 算术 平均数 与调和平均 数是平均指标 的两种 表现形式 , 都是用来 反映被研究现 象总体某一数量 标志在一 定的时 间 、 地点 、条件下一般 水平的统计指标。正确理解和熟练掌握这 两个 公式 ,对本课 程后 面章节的学习及公式的记忆具有非常 重要的促 进作用 。将两类公式进行 比较可 以发现 以下异同 : ( )相 同点 都遵循基本计算公式 : I
把算术平 均数作 为学习基础 ,将这两类公式与算术平均 数公式进行对 比可发现有 以下异 同: ( ) 同点 对 未分组 资料都采用 简单公式计算 ,对分组 1相 资料都采用加权公式计算 。 ( )不 同点 算术平均数是 对总体 内各单位标 志值 求平 2 均 。平均差是 对总体内各单位标志值与其算术平均数离差的 绝对值求平均 ,方 差是 对总体内各单位标志值与其算术平均 数离差 的平方求平均 。 另外 , 在学习平均指标和变异指标这 部分 内容时, 还可根 据资料是否分组这两条主线将有关公式分别进行整理后记忆 。
教 研 探 索
统计学原理有关公式记忆方法举隅
] j
习
芮宝宣 _ l _ j
[ 要] 摘 统计学公式的记忆是学习统计学的难点之一 ,使用好的记忆方法,可以收到事半功倍的效果。本文针对有 关统计 公 式探 讨 有针 对性 的记忆 方 法。
[ 关键词】 统计 学 公 式 记 忆 目前 ,在我 国,统计学不仅是教育部 明文规定 的高 等院 校财经类专业核心课程之一 ,而且近年来在 国家公务员 考试 的综合能力测试中 ,也有约 2 %的内容涉及 到对统计基础知 0 识 的运用 。伴随着社会 的发展和科技进步 ,统计学理论 的运 用领域越来越广泛 。即使在我们 的 日常生 活中 ,生动的统计 信息也随处可见 :例如人 口出生率 、 亡率 、国内生产 总值 、 死 消费价格 指数 、高考 录取率 、房 价同 比增 长速度 、环 比增长 速度等统计指标 出现报端 的频率越来越 高。正确解读 这些信 息 ,并能利用 简单 的统计方法对社会 经济 现象数量变化的一 般规律进行分析 ,是时代对我们的客观要求。 统计学是通过研究客观现象 总体数量方 面和数 量关 系对 社会 经济 总体现象进行定量认识 的方 法论科 学。它不仅 内容 丰富 、系统性强 ,而且计算 多 ,公式 复杂 ,难 以记 忆 ,常使 些初学者望 而却 步 ,特别 是那些数 学基础较差的文科学生 更是如此 。笔 者根据 自己多年的教学 经验 ,对该课 程 中的有 关公式进行科学梳理 、总结 、归纳 ,并运用一 定的记忆技巧 , 总结 出一套记忆方 法 ,使学 习者在学 习时既节省时间 ,又可 使公式牢记不忘 ,减轻记忆公式的压力。 心 理学研究成 果表 明,记忆 是通过识 记 、保持 、回忆 、 再现等方式 , 在人 的头脑 中积 累和保持个体经验的心理过程 。 在记忆 活动中 ,识记 与保持 是回忆 与再现 的前 提 ,回忆与再 现是识记 与保 持的结果 。正确 的识记 与理解是记忆 的基础 , 而如何有效地保持则是记忆 的关键环 节。本文将从 如何正确 理解 和有效保持 的角度探讨 统计 学课 程中部分有关公式的记
电大社会统计学
一、基本概念1、众数众数是一组数据中出现频数最多的数值,用Mo表示。
例如,一个城市有多种产业,但如果以旅游业为最多,那么旅游业就是众数,这个城市也被称为旅游城市。
2、中位数中位数是中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。
中位数处于中间位置,前后每部分均包括50%的数据,而且前面部分小于中位数、后面部分大于中位数。
例如,在职工收入水平差异比较大的单位,要了解职工收入的一般水平,用职工收入分布的中位数作为收入水平的代表值要比用算术平均数更恰当,因为它排除了极端数据的影响。
3、四分位数四分位数是将一组数据排序后,找出将该组数据等分为四等份的三个点,每份包括25%的数据,这三个点上的数据就是四分位数。
第二个四分位数就是中位数,它前面包括50%数据,后面也包括50%数据,因而,平时所说的四分位数主要是指第一个四分位数和第三个四分位数。
通常,我们将第一个四分位数称为下四分位数(QL),将第三个四分位数称为上四分位数(QU)。
4、均值均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数,也称为算数平均数。
均值包含一组数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。
因而,我们说均值是集中趋势最主要的测量值。
二、基本方法1、众数的计算(1)众数的计算比较简单,就是找出频数最大的即可。
例如“甲城居民对交通满意度调查”,调查者在甲城市随机抽取统计500人调查,调查结果发现,选择“非常不满意”的有50人,“不满意”的有98人,选择“一般”的有204人,选择“满意”的有110人,选择“非常满意”的有38人。
从调查结果可以看出,选择“一般”的居民最多,为204人,占总数的40.8%,因而众数为“一般”这一变量值,即Mo=“一般”。
对于数值型数据,计算众数时,最好先对数据进行排序,有利于计算各变量值频数,避免出错。
(2)对于分组数据,计算具体数值时,根据公式:对于任意一组数据,基本都存在频数最多的数值,这个数值可能有一个,也可能是两个,或者三个甚至更多,不管存在几个,它们均是该组数据的众数。
社会统计学第四章相关测量法与变量层次
同分对:
Txy
n(1 n1 1) 2
n9
(n9 2
1)
例:计算G系数与dy系数
文化程度 婚姻美满
美满
大学 9
中学 16
小学 5
一般
8
30
18
不美满
3
4
7
同序对:9(30+18+4+7)+8(4+7)+16(18+7)+30(7)=1229 异序对:5(8+30+3+4)+18(3+4)+16(8+3)+30(3)=617 同分对:9(16+5)+16(5)+8(30+18)+30(18)+3(4+7)+4 (7)=1254 G系数=0.33 dy系数=0.22
E2的定义:
当已知y与x有关之后,如果再去预测y值,则可借 助x预测y。即用各类x条件下,y的条件分布中的 众值去预测y,可能性最大。
分析:
E2 = n —∑max(nij)
1)E2 = 0 (即∑max(nij) = n,即各类x条件下的 众值皆为最大值)
2)E2 = n (即∑max(nij) = 0,即各类x条件下的 众值皆为最小值)
例:对称与不对称λ系数
▪ 表 青年人与其知心朋友的志愿
自己志愿
快乐家庭
知心朋友志愿
理想工作
增广见闻
总数
快乐家庭
28
9
3
40
理想工作
2
41
7
50
增广见闻
2
4
4
10
最新国家开放大学电大本科《社会统计学》名词解释题简答题题库及答案(试卷号:1318)
最新国家开放大学电大本科《社会统计学》名词解释题简答题题库及答案(试卷号:1318)一、名词解释题1.非概率抽样:根据主观意愿、实际情况等进行抽样,而不依据随机原则进行抽样,这些不符合概率抽样要求的抽样都称为非概率抽样。
2.二维表:二维表就是行列交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。
3.置信水平:置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。
4.卡方检验:卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验,即根据样本的频数分布来推断总体的分布。
5.非概率抽样:根据主观意愿、实际情况等进行抽样,而不依据随机原则进行抽样,这些不符合概率抽样要求的抽样都称为非概率抽样。
6.二维表:二维表就是行列交叉的表格,(1分)将两个变量一个分行排放,一个分列排放,(1分)行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。
7.置信水平:置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。
8.卡方检验:卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验,即根据样本的频数分布来推断总体的分布。
9.整群抽样:先将总体按照某种标志或特征划分为一些子群体,然后从总体中随机抽取一些子群体,再将这些抽出的若干小群体内的所有元素构成总体样本的方法。
10.Z值:Z值:Z值又称为标准分数,它是以平均数为参照点,以标准差为单位的描述原始数据在总体中相对位置的量数,通过计算Z值将一般正态分布转换为标准正态分布,Z值的计算公式为:Z=(X-μ)/σ11.二维表:二维表就是行列交叉的表格,(1分)将两个变量一个分行排放,一个分列排放,(1分)行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。
12.误差减少比例:在预测变量Y的值时,知道变量x的值时所减少的误差(E.- Ez)与总误差E,的比值称为误差减少比例,简称PRE。
(完整版)社会统计学
社会统计学(Social Statistics)科学只有当它利用了数学的时候,它才达到了完善的程度。
——马克思对于追求效率的公民而言,统计思维总有一天会和读写能力一样必要。
——H.G.Wells教材及参考书目社会统计学,张彦,高等教育出版社,2005社会统计学,张彦,南京大学出版社,1997社会统计学(第八版),布莱洛克,社会科学文献出版社社会统计学(重排本),卢淑华,北京大学出版社,2002社会研究的统计分析,李沛良,社会科学文献出版社17世纪以前,社会统计主要局限于对事物进行原始的调查登记和简单的计算汇总。
如大禹时的九州表,明初的黄册和鱼鳞册;古埃及、古希腊、古罗马在公元前400年就建立的出生、死亡登记制度。
17世纪后,产生了以工业、农业、贸易、交通等方面统计为主的社会经济统计。
国势学派政治算术学派数理统计学派1.国势学派代表人物是康令(1606~1681)和阿亨瓦尔(1719~1772)。
1749年,阿亨瓦尔根据拉丁文“Status”、意大利文Stato 和Statista及德文Statisti等字根创造出“Statistik”这个新词,原意指“国家显著事项的比较和记述”。
国势学派可谓“有名无实”的学派:只用文字记述,不用数字计量。
它又称记述学派和历史学派。
2. 政治算术学派格朗特1662年在其《自然和社会观察》一书中,从宗教管理、商业、气候、疾病等方面,对当时伦敦人口的出生率、死亡率和性比例等方面进行了综合的统计分析。
威廉·配第1667年在其《政治算术》一书中,运用有关人口、土地税收和国家收入等方面的数字资料,对英国、荷兰的经济实力进行比较,首创了一种数字对比分析的方法。
“即用数字、重量、尺度来表达自己想说的问题。
”与国势学派相对应,政治算术学派可谓“有实无名”的学派3.数理统计学派凯特勒(1796~1896)首先将概率论原理引入到社会现象的研究,在《社会物理学》,《道德统计》、《论人类》等书中,他认识到人类的社会活动服从于一定规律,并发现这种规律只有通过大量观察才能被人们所认识。
社会统计学 第九章 参数估计
[例]研究者要调查某社区居民家庭收入分 布的差异情况,现随机抽查了10户,得到样本 方差为=200(元2)。试以此资料估计总体家庭 收入分布的差异情况。
[解] 因为样本容量较小,宜用修正样本 方差作为总体方差点估计量。即
=
=ห้องสมุดไป่ตู้
=222.2
第二节 区间估计(Interval estimation)
区间估计的任务是,在点估计值的两侧设置 一个区间,使得总体参数被估计到的概率大大增 加。可靠性和精确性(即信度和效度)在区间估计中 是相互矛盾的两个方面。
10元以内,问样本容量为多少? (2)若置信水平为90%,平均收入的最大误差在
10元以内,问样本容量为多少? (3)若置信水平为99%,平均收入的最大误差在
10元以内,问样本容量为多少? (4)若置信水平为95%,平均收入的最大误差在
20元以内,问样本容量为多少? (5)改变最大误差,对样本大小有什么影响? (6)改变置信水平,对样本大小有什么影响? (983,697,1704,246)
率度
=
(24)=2.064
代入公式得
=52±2.064
=52±5.06
因此,置信水平95%的总体均值的置信区 间是从46.94到57.06。
2. 大样本总体成数的估计 从总体的均值估计过渡到总体的成数估计,其方法和
思路完全相同,只要用 代替 ,用 代替
若总体成数未知,允许误差取 或
[例]假若从某社区抽取一个由200个家庭组成的样 本,发现其中有36%的家庭由丈夫在家庭开支上作决 定的次数超过半数。试问家庭开支的半数以上由丈夫 决定的家庭的置信区间是多少?(置信水平99%)
层内方差的平均(层间方差不进入): 回置抽样:
社会统计学社会学测量尺度复习资料大纲总结
1、四种测量尺度:(1)定类尺度:按现象性质差异进行的辨别与区分。
测量结果形成定类变量或指标。
定类变量或指标确切的值是以文字表述的,可用数值标识,但仅起标签作用。
各类别间是平等的,没有高低、大小、优劣之分。
分类的原则:穷尽性或无遗性;互不重叠或互斥性属性:对称性;传递性(2)定序尺度:按现象顺序差异进行的辨别与区分。
测量结果形成定序变量或指标。
定类变量或指标确切的值是以文字表述的,可用数值标识,但仅起标签作用。
定序变量或指标各类别间有高低优劣之分,不能随意排列。
(3)定距尺度:按现象绝对数量差异进行的辨别与区分。
测量结果形成定距变量或指标。
定居变量或指标的值以数字表述,有计量单位可进行加减运算,不能进行乘除运算。
各类别间有大小之分,但没有绝对零点。
(4)定比尺度:按现象绝对差异与相对差异进行的辨别与区分。
测量结果形成定比变量或指标。
定比变量或指标确切的值以数字表述,有计量单位,可加减。
有绝对意义上的零点,可乘除。
2、测量尺度的作用:(1)决定数据的整理、显示方法。
(2)决定数据的分析方法。
(3)决定计算机的处理方法。
3、对测量尺度的判断:测量精度、计算方法、信息数量4、条形图和直方图的区别:条形图:是以长方形的长度(宽度相同)来表示次数或百分率的多少,为求清楚长方形之间可以分开(当然也可以不分),宽度没有意义。
直方图:又称矩形图,以一个矩形的面积()表示每组数值的次数或百分率的多少。
与条形图的不同。
条形图的宽度没有意义,直方图的长度与宽度均有意义;直方图各个矩形要相连排列,条形图可以分开。
5、累加次数:累加次数就是把次数逐级相加起来,分为两种;一种是向上累加(cf↑),一种是向下累加(cf ↓),其作用是使我们容易知道某值以下(或以上)之次数总和。
向上累积表示由低层向高层累加。
向下累积表示由高层向低层累加。
6、众值:众值(Mo)就是次数最多之值。
对于定类变项,以众值作预测所犯的错误是最小的。
众值适合于分析定类变项,也可以用来分析定序、定距变项的资料。
知识点归纳总结
社会统计学整理第二章:单变量统计描述分析各种图:定类:圆瓣图、条形图定序:条形图定距:直方图、折线图组界:真实组界=标明组界0.5 条形图:定类变量:长条排列次序任意,条形离散。
定序变量:长条按序排列,条形是离散或紧挨。
直方图:由紧挨着的长条组成,面积表示频次或相对频次,高度是频次密度。
众值:用具有频数最多的变量值来表示集中值。
连续型变量用中心值来表示众值。
定类预测犯错最少。
异众比率:是非众值在总数N中所占的比例(:众值的频次)质异指数:理论上最多可能差异中实际出现了多少差异(k:类比数f:每类次数)中位值:定序预测犯错最少。
(也可以求25%和75%,改为和)n:中位值组的频次cf:含中位值区间的真实下界累积(向上)平次N:调查总数极差:极差=观察的最大值-观察的最小值四分互差:结论:50%位于*间均值:定距变量预测犯错最少。
标准差:第三章:概率互不相容:两者不能同时出现。
互为对立:不同时出现且两者相加为整体。
如果事件A与B互为对立,则必然满足互不相容,但逆定理不存在。
P(A);P(B),互不相容一定不满足互相独立,反之亦然。
互为对立与相互独立不能同时满足。
全概公式:逆概公式:方差:SKEWNESS(偏态)=>0:正偏态=0:对称<0:负偏态(峰在右边)KURTOSIS(峰态)=>0:正峰态=0:正态分布<0:负峰态(峰矮)第四章:二项分布及其他离散型随机变量的分布排列组合:第五章:正态分布、常用统计分布和极限定理大数定理:在什么条件下,随机事件可以转化为不可能事件或必然事件。
中心极限定理:在什么条件下,随机变量之和的分布可以近似为正态分布。
切贝谢夫不等式:贝努利大数定理:m是n次实验中事件A出现的次数,p是A每次出现的概率切贝谢夫大数定理:μ:数学期望:总体均值中心极限定理:只要n足够大,正态分布:众值=均值=中位值1S-68.26%;2S-95.46%;3S-99.37%;0.05-1.65;0.025-1.96;0.01-2.33;0.005-2.58;0.001-3.09;0.0005-3.30第六章:参数估计点估计:均值—样本均值成数—样本成数方差—样本方差S2是σ2的无偏估计,但S不是σ的无偏估计。
社会统计学4
• (一)几何平均法
• 几何平均法也称水平法,其基本原理是一定时期社会现象发 展的总速度应等 于各期环比发展速度的连乘积。隐含的假设 是从时间序列的最初水平出发,以序 列的平均发展速度代替 各期环比发展速度,计算出的期末理论值水平应与期末实 际 水平相一致。以公式表示为:
• 一、序时平均数
• 序时平均数也称动态平均数或平均发展水平,是对时间序列中各 时期发展水平计算的平均数。计算序时平均数包括两种情形:一 是由时期序列计算序时平均数;二是由时点序列计算序时平均数。
(一)时期序列的序时平均数 时期序列具有可加性,因而常用简单算术平均数计算:
(二)时点序列的序时平均数
• 时间序列分析的内容包括: • 第一,计算各种水平指标和速度指标,考察社会经济现
象发展变化的方向、速度与结果,并进行动态比较。 • 第二,用于建立数学模型,描述社会经济现象发展变化
的特征与趋势,揭示其变动的规律性,对未来的发展变 化进行预测。 • 第三,将多个变量的时间序列列入一个模型中进行分析, 以揭示现象之间的因果关系或相关关系,同时对这种因 果关系或相关关系的动态演变进行揭示和刻画。
• 由于时期序列的累加性,因而每一指标所属的时间越长,指标值 越大;反之,指标值则越小。这也要求指标值的获取采用连续登 记的方式。
• 2、时点序列
• 时点序列反映社会现象在一定时点上的瞬间水平,如年末人口数、 全国人民代表大会代表人数。时点数据的采集是以间断登记获得 的,依照时点序列的性质,只要在某一时点进行统计,取得的资 料就代表现象在该时点上的数量水平。因而时点序列的具体特征 是不具累加性,各时点上指标大小与时间长短没有直接关系。
社会统计学-社会统计学知识点(仅供参考)
第7章住户活动统计
第一节住户活动及其统计内容
1、住户的概念
2、住户活动统计应该包括的内容
3、住户的分类
第二节居民收入统计
1、居民收入、居民消费、居民投资、居民财产的含义
2、居民总收入和居民可支配收入的概念
3、工资性收入、经营性收入、财产性收入、转移性收入
4、居民收入需要明确的两点
5、住户收入总量统计:
1)住户总收入:城镇住户总收入、农村住户总收入
2)住户可支配收入:城镇住户可支配收入、农村住户纯收入(可支配收入)、农村住户现金收入
6、居民收入水平及其变动统计:
1)总体人均收入
2)户人均收入
3)实际收入
7、居民收入结构统计:
第三节居民消费统计
1、居民消费含义
2、居民消费统计需注意的六点
3、居民消费总量及其水平统计:
1)住户主要消费品消费量和人均消费量:居民人均消费品消费量;户人均消费品消费量
2)居民消费支出总额与人均消费支出:人均年消费支出;户人均年消费支出4、居民消费倾向与消费结构统计:
1)居民消费倾向统计:居民平均消费倾向;居民边际消费倾向
2)居民消费结构统计:消费内容结构;消费方式结构;消费目的结构
5、恩格尔系数及其应用:恩格尔定律;恩格尔系数定义及计算公式
第四节居民收入、消费分布差异的统计与分析。