社会统计学笔记

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1·社会学研究:就是运用科学的方法来搜集和分析社会事实,以理解社会现象之间的关系。

2·科学研究:就是运用客观的、逻辑的和系统的方法来搜集事实及分析事实。

3·社会学研究的整个历程,大致上可以分为三个阶段:(1)筹划,(2)执行,(3)总结。

4·初步探索步骤:(1)收集有关的文献,(2)咨询那些对研究的题目有经验、有知识的人,进行了解,(3)观察个案。

5·假设:就是根据我们对问题的了解,假定现象与现象之间的关系。

就是假定某一现象的变化与另一种现象的变化具有某种关系。

假设的方式:函数式(要求变项之数值有高低之分)、差异式(不存在高低之分)
6·较为常用的研究方式:实验法、社会调查法。

(皆可验证假设)
①实验法的逻辑:有意的改变A变项,然后看看B变项是否随着变化;如果B变项显然
是随着A变项的变化而变化,就说明A变项对B变项有影响。

②社会调查法特点:在研究过程中不改变社会现状,只求就地取材,然后以统计方法推
算变项与变项之间的关系。

7·能够有效地验证假设的实验法称为典型或理想实验法
8·社会调查法可以分为两大类:一是叙述性调查(重点是报道社会事实,较少分析社会事实(即变项)之间的因果关系),一是解释性调查(目的是要证明不同的变项之间是否有因果关系)。

9·全体调查:就是从所有研究对象中搜集资料。

抽样调查:就是从全体的研究对象中科学的抽出一个数目较少的样本,然后据此样本的资料推论全体的情况。

10·个案研究:就是选择一个或几个个案(即研究对象),作深入的接触和观察,目的是对所研究的问题作深入的了解。

11·横剖研究:指的是在同一时期搜集资料,目的是理解各种社会现象(即变项)在某时期的相关情况的研究。

纵贯研究:是指在不同时期搜集的,目的在了解社会现象(即变项)在不同时期中的变动情况的研究。

12·纵贯研究分为两种:趋势研究、同组研究(指的是在不同时期调查相同的样本)。

同组分析的问题:遗失个案的问题。

同组研究要求调查相同的个案,但在第一次调查的样本可能在第二次调查时一部分已丢失。

13·指标合并方法:类型法、指数构成法、尺度法
①类型法:是将各指标交互分类。

②指数构成法:是用简明而合理的公式,来综合各指标。

③尺度法:是据各指标之间的关系来计算总值,使研究对象高低有序。

14·个人变项:以个人为研究对象的变项。

群体变项:以地区或群体为研究单位的。

15·区群谬误:以群体研究单位研究的出的结论推论到以个人为研究单位时所犯的错误。

微体谬误:以个人为研究单位,把研究结论推及于群体或整个社区时所犯的错误。

16·定类层次:是指变项的值只能把研究对象分类,即只能决定研究对象是同类抑或不同类,具有=与/=的数学特质。

定序层次:就是能确定值的次序,即变项的值能把研究对象排列高低或大小,具有>与<的数学特质。

定距层次:就是能确定值与值之间的距离,即变项之值与值间的距离是可以知道的,因而具有加与减的数学特质。

定比层次:最高的测量层次,其数值中的零是绝对的、固定的,因而除了上面讲的特质
之外,也具有乘与除的数学特质。

17·界定母体:就是清楚说明研究对象的范围,即所研究的人物、时间和地点。

18·统计方法分两类:叙述统计法(帮助简化资料的方法)、推论统计法(就是根据抽样取出的资料推论出母体的情况)。

19·试点研究:即抽取若干研究对象来试验整套计划是否可行。

20·搜集资料的方法:访问、观察和档案资料。

固定答题:是由研究员预先设计了若干可能的答案,由答者选择。

自由答题:就是让答者随着自己的意思回答,研究员不提供可能的答案。

优缺点比较:固定答题的好处是便于统计分析,但所提供的答案不一定适当。

自由答题的好处,是让答者充分表达他的意思,较为准确,但答者可能啰嗦和花样众多,访问时费时间且分析起来也不容易。

观察法:就是以耳闻目睹的方式,实地了解研究对象的行为。

观察法分为:参与观察法和非参与观察法。

①参与观察法:就是研究员要参加所研究的活动,从而获取资料,其身份好像一位情报
员。

②非参与观察法:就是研究员的身份是旁观者。

21·整理资料时,一般分为两步:校对(就是查看所收集的资料有没有错)、编码(把资料作简明的记录和分类)。

22·测量效度:是指所得的资料是否与测量的目标相吻合。

测量信度:是指用相同的方法重复测量变项时的资料是否吻合。

信度高不等于效度高,因为重复的测量所得的资料,即使是吻合的(信度高),却可能是重复的错误(效度低)。

第二章简化一个变项之分布
1·集中趋势测量法:就是找出一个数值来代表变项的资料分布,以反映资料的集结情况。

意义在于可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。

①众值:就是次数最多的值。

(以长远来说,以众值做预测所犯的错误总数是最小的)
②中位值:就是在一个序列的中央位置之值,即高于此值的有50%的研究个案,低于此
值的也有50%。

(长远来说,以中位值去估计定序变量的数值,所犯的错误总数是最小的)
③均值:将变项的各个数值相加,求取一个平均的数值。

(长远来说,以均值估计定距变
项的资料,错误最小)
2·离散趋势测量法:是要求出一个值来表示个案与个案之间的差异情况。

①离异比率:就是非众值的次数与全部个案数目的比率。

②质异指数:其作用是求出各个类别之间在理论上最多的可能差异中实际上出现了多少
差异。

③四分位差:是将个案由低至高排列,然后分为四个等分,则第一个四分位置的值与第
三个四分位置的值的差异。

3·离散趋势测量法与集中趋势测量法是有互补作用的。

二法并用,就可以一方面知道资料的代表值,有助于估计和预测的工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。

4·标准正态分布:以标准差为单位的正态分布。

均值是0,标准差是1
第三章简化两个变项之分布
1·相关:是指一个变项的值与另一个变项的值有连带性。

换言之,如果一个变项的值发生变化,另一个变项的值也有变化,则两个变项就是相关了。

正相关:是指一个变项的值增加时,另一变项也增加。

负相关:是指一个变项的值增加时,另一变项的值却减少。

2·不对称关系:X影响Y,而Y不会影响X。

对称关系:不确定或不区分影响的方向。

3·交互分类:同时依据两个变项的值,将所研究的个案分类。

列联表:综合了两个变项的共同分布的统计表。

条件次数表的缺点:难于比较不同条件下的次数分布,这是因为作为基数的边缘次数的值各不相同。

因此,为求相互比较从而知道两个变项间的关系,就必须将各个基数标准化。

将所有基数都变成100,各个条件次数就随而变为百分率。

4·在制定条件百分表时的准则:每个表的顶端要有表号和标题。

绘表时所用的线条,要尽可能简洁。

在表上层的自变项每个值之下的%号,表示下列的数值都是百分率。

表下层括弧内的数值,表示在计算百分率时所根据的个案总数。

表内百分率数值的小数位要保留多少,视乎研究的需要,但最好是有一致性。

以自变项作为计算百分率的方向,是社会学研究的常规。

然而,也有例外的情况:如果依变项在样本内的分布不能代表其在总体内的分布,则百分率的计算要根据依变项的方向。

5·相关测量法:就是以一个统计值表示变项与变项之间的关系。

这个值,通常称为相关系数。

第四章相关测量法与测量层次
1·Lambda相关测量法,又称为格特曼的可预测度系数,基本逻辑是:以一个定类变项的值来预测另一个定类变项的值时,如果以众值作为预测的准则,可以减少多少误差。

Lambda相关测量法的特点是:以众值作为预测的准则,不理会众值以外的次数分布。

2·级序相关法的基本逻辑是要求出:根据任何两个个案在某变项上的等级来预测他们在另一个变项上的等级时,可以减少的误差是多少。

同序对:某对个案在两个变项上的相对等级相同。

异序对:若果不相同则称为异序对。

3·肯德尔的tau系数的基本逻辑:计算同序对数与异序对数之差在全部的可能对数中所占的比例。

4·斯皮尔曼rho系数的特点:是在计算每个个案在两个变项上的等级时,不仅要区别二者的高低差异,而且还要计算二者差异的确切数值。

基本逻辑:求出在最大可能的等级差异总值中,实际的等级差异所占的比例是多少。

统计值是由-1到+1,其平均值有PRE性质。

5·简单线性回归分析法:根据一个直线方程式,以一个自变项的数值来预测一个依变项的数值。

目的:是要找出一个错误最小的方法来预测依变项的数值。

回归系数b的大小,就表示X对Y的影响有多少。

如果b=0,表示X对Y没有影响,即X 变但Y不变。

如果b值越大,就表示X变化时所引起的Y变化愈大。

b值有正负之分:如果是正值就表示X对Y有正向效果,即X增大,Y也增大;如果是负值就表示X对Y 有负向效果,即X增大,Y却减少。

b值是表示自变项对依变项的影响的大小和方向。

它是一个分析不对称关系的统计法。

6·积矩相关系数r与b系数的不同:r系数假定X与Y的关系是对称的,而且r的统计值是由-1到+1,同时r的平方值具有PRE性质。

这个r平方值,称为决定系数。

r系数的意义:r系数所要表示的,就是以线性回归方程式作为预测的工具时所能减少的误差比例。

因此,如果r系数值愈大,就表示线性回归程式的预测能力愈强。

7·相关比率(eta平方系数):是以一个定类变项为自变项,以一个定距变项为依变项。

它是根据自变项的每一个值来预测或估计依变项的均值。

Eta系数由0到+1,其平方值具有PRE性质。

8·区分系数(又称theta系数)其基本逻辑:根据各个个案在定类变项上所属的类别来估计他们在定序变项上的相对等级,故此时属于不对称相关的测量法。

其系数值是由0到+1,没有PRE性质。

第五章抽样与统计推论
1·统计值:从样本中计算出来的数值
参数值:在总体中的数值。

代表性样本:样本的统计值近似总体的参数值,这个样本可以称为代表性样本。

2·抽样步骤:①界定总体(总体的定义,愈清楚愈好。

有样本所得的研究结果,原则上只能推论到这个所界定的总体范围);②搜集全部名单(必须审核其完整性和准确性);③决定样本的大小(决定样本大小的一般准则:根据所能付出的研究代价的最大限度抽取最大的样本);④选取样本个案;⑤在收集资料之后,评估样本之正误。

3·抽样可以分为:随机抽样法与非随机抽样法,前者是随着一定的几率来抽样,后者则不受几率的限制。

两者之中,只有随机抽样法可作统计推论。

非随机抽样法:立意抽样法;偶遇抽样法;定额抽样法。

①立意抽样法(判定抽样法):是依据研究员的主观见解和判断,选取他认为是典型的个
案。

②偶遇抽样法(方便抽样法):是选取一些偶然遇见的个案为样本。

③定额抽样法:是根据某些标准将总体分组,然后用立意或偶遇抽样法由每组中选取样
本个案。

4·随机抽样法的特点:是根据已知的几率来抽取样本个案。

①简单随机抽样:它要求每个个案被选取的机会是相同的。

②系统随机抽样:首先将全部个案排列起来,按抽样比例分成间隔,并在第一个间隔内
选取第一个个案,然后每经一个间隔就选取一个个案。

周期性偏差:当我们每隔若干个案便抽取一个时,这些被抽取的个案可能具有某种特征,与不被抽取的个案有所不同。

解决方法:经过若干间隔以后,再用随机方式抽取个案,以新的秩序取代原来的秩序。

③分层随机抽样:定比分层随机抽样;异比分层随机抽样。

定比分层随机抽样:首先将总体按某些标准分组,然后在每组中按照相同的比例用简单随机或系统随机抽样法选取个案。

异比分层随机抽样:在不同的组中用不同的比例来抽样。

(如果在总体中某些组的个案数量特别少,按相同比例抽取的样本个案就会很少,以致影响统计分析的准确性,此时采用异比分层随机抽样)
④集体抽样法:即随机的抽取若干集体,然后以它们所包含的全部个案作为研究的样本。

评价:集体抽样的好处是代价小。

特别适用于大规模的抽样调查。

然而,以集体作为抽样的单位,所犯的抽样误差会比较大,样本的代表性通常是比不上用简单或分层随机抽
样法。

一般来说,如果每个集体内的各个个案之间的差异较小,而集体与集体之间的差异较大,则集体抽样法所犯的误差会较大。

相反的,如果集体内差异大,而集体间差异小,则抽样误差会较小。

⑤多段抽样:即先抽取若干集体,然后从所选取的集体中再抽取若干较小的单位。

5·抽样分布:是根据几率的原则而成立的理论性分布,显示由同一总体中反复不断抽取不同样本时,各个可能出现的样本统计值的分布情况。

6·均值的抽样分布的特征:①如果样本相当大,则抽样分布接近正态分布;②抽样分布之均值就是总体之均值,抽样的分布的标准差称为标准误差。

7·统计推论分为:参数估计和假设检定
参数估计:根据一个随机样本的统计值来估计总体之参数值是对少。

假设检定:首先假设总体的情况是怎样的,然后以一个随机样本的统计值来检验这个假设是否正确。

参数估计与假设检定,虽然都是用来作统计推论,但在逻辑上略有不同:前者是先看样本情况才问及总体的情况,后者则先构思总体的情况,然后才进行抽样和检定原先的设想是否正确。

第六章参数值的估计
1·点值估计:以一个最适当的样本统计值来代表总体的参数值。

2·间距估计:以两个数值之间的间距来估计参数值。

至于间距的大小,就要取决于我们在估计时所要求的可信程度是多少。

在样本大小相同的情况下,如果要求的可信度愈大,则间距就会愈大。

这个间距通常称为“可信间距”
间距的大小与可信度的高低成正比。

3·可信度已经确定的前提下,提高间距估计的精确性的方法是加大样本容量。

因为随着样本容量的加大,S/√n将逐渐变小,因此间距估计的间距也逐渐变小,而精确度则逐渐加大。

第七章假设检定:均值与百分率
1·研究假设:假设在总体中存在某些情况,如假定X与Y是相关的。

与研究假设相对立的假设,在统计学上称为虚无假设。

检定假设的基本原则:直接检定虚无假设,因而间接地检定研究假设,目的是排除抽样误差的可能性。

2·否定域:抽样分布内一端或两端的小区域,如果样本的统计值在此区域范围内,则否定虚无假设。

3·显著度:表示否定域在整个抽样分布中所占的比例,也即表示样本的统计值落在否定域内的机会。

显著度愈小,便愈难否定虚无假设,也即愈难证明研究假设是对的。

4·甲种误差:是指否定虚无假设,但实际上虚无假设是对的错误可能性。

乙种误差:是指不否定虚无假设,但实际上虚无假设是不对的错误可能性。

甲种误差与乙种误差是对立的,成反比的。

5·统计法的检定力:是指该统计法能够准确的判断虚无假设的正误之能力。

参数检定法的特点:是要求总体具备某些条件。

非参数检定法(分布自由检定法)特点:不要求总体数值具备特殊的条件。

6·检定假设的步骤:①根据研究假设成立于其对立的虚无假设。

明确检定的目的就是要否定虚无假设,从而知道研究假设是对的可能性;②选择适当的检定统计法,并要列举其
假定或要求;③确定抽样分布;④决定显著度,并依据研究假设的性质选用一端或两端检定,然后从抽样分布中求出否定域的位置和大小;⑤根据样本的资料计算检定值,从而作出决策。

7·假设的检定的基本逻辑:先设立虚无假设,进而以此为基础来确定抽样分布。

倘若我们所抽取的一个随机样本中的均值,在以虚无假设为基础的抽样分布中出现的机会是很小的,那就理应否定虚无假设,改而接受研究假设。

8·自由度:是指有多少个个案的数值可以随意变更。

第八章假设的检定:两个变项之相关
1·预期次数(e):是指在总体中两个变项没有关系的话,表内没格所应有的次数。

简而言之,表内每格的预期次数(e),也就是相应的两个边缘次数的乘积除以样本的大小。

2·单因方差分析中的F检定其目的:是要推算在各组总体中的均值是否相等。

3·异:相关测量法,目的是要理解两个变项在“样本”(随机与非随机样本均可)中的相关“强弱”程度。

检定假设的方法,则是根据“随机”样本的资料来推论两个变项在“总体”中“是否”相关。

检定假设方法的共同点是:只适用于随机样本,不能用于分析非随机样本;其关心的都是总体的情况,而不是样本的情况;目的都在了解在总体中是否相关,而不是相关的强弱程度。

4·任何的假设检定法,都是样本愈大是愈容易否定虚无假设。

第九章详析模式与统计控制
1·多变项分析可依研究目的分为三大类:详析分析;多因分析;多项相互关系分析。

①详析分析所关心的是两个变项的关系,而引进其它变项的目的就是为了加深了解这两
个变项的相关性质。

②多因分析的目的:是要理解多个自变项对某个依变项的共同影响与相对效应。

③多项相互关系分析的目的:则是为求简化众多变项之间的相互关系。

2·详析分析的三种模式:因果分析;阐明分析;条件分析。

3·因果分析在控制W以后,研究结果在原则上分为三种可能:①X与Y的关系消失——虚假关系;②X与Y的关系维系原状——真实关系;③X与Y虽然仍有关系,但其相关程度弱小了——部分真实关系。

4·详析分析的一般步骤:①分析X→Y;②分析W→X与W→Y;③控制W,分析X→Y的变化5·阐明分析的作用:以事实来验证:X是通过某些因素而对Y产生影响的。

①完全阐明:即X完全是通过T而影响Y;
②不能阐明:即X完全不是通过T而影响Y;
③部分阐明:即X是部分通过T而影响Y。

6·条件分析的作用:就是以第三类变项作为基础来了解X与Y在不同情况下的关系。

7·压抑分析:X与Y本来是没有关系的,但是标明了若干条件之后,X与Y显然是有关系。

8·曲解分析:把原先的负相关变为正相关,或把原先的正相关变为负相关的分析。

9·净相关分析:以一个系数值来表示在控制第三类变项以后X与Y的相关。

基本逻辑:是以第三类变项尽量分别解释X与Y的方差,然后计算X与Y的剩余方差的相关。

第十章多因分析
1·复相关统计法:是一种以一个统计值来简化多个自变项与一个依变项的关系的统计方法。

2·多因线性回归分析:以两个或以上的自变项来预测一个依变项的数值。

作用:是比较各个自变项的影响力的大小。

多因回归分析的特点:是使各个X变项互相控制,然后才比较它们的相对效果。

3·互动效果:一个变项与另一个变项共处时,还可能产生一种特殊效果,可能超越原来的相加效果。

相关文档
最新文档