行为科学统计(第七版)笔记
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
科学研究是一个系统,我们用它来收集信息,而统计则是一个工具,我们用它从这些信息中提取合理的结论。本书的目的不仅是讲述这些统计方法,并且还讲解了科学及日常生活中重要的客观法则和逻辑。
1。统计这个概念被用来描述,组织,总结以及解释数据的方法。(这句话翻译的很有问题。。。) 2。科学问题通常考虑需要研究的整个总体,通常,总体非常庞大,很难检验其中的每一个个体,因此,很多研究都是用样本来进行的。一个样本是从总体中取出的一个组,通常服务于研究的目的。
3。描述样本的特征被称为统计量,描述总体的特征被称为参数。虽然样本统计量通常能代表相应的总体参数,但通常在统计量和参数之间存在一些差异。在统计量和参数之间自然存在的差异被称为取样误差。
4。统计方法可以被分成两大类:描述性统计。它组织并总结了数据;推论性统计,它使用样本数据作出对总体的推论。
5。相关法找出了变量内部的联系,但是却不能确定后这种关系的因果关系。实验法可以建立这种因果关系。
6。在试验中,操纵一个变量(自变量),并观察可能由操纵的另一个变量(因变量)的变化。控制所有的其他变量。
7。一个测量量表由一组用来将个体归类的类别组成。称名量表由具有不同名称的类别组成。这些类别是同样大小的区间。使用等距量表,我们可以区分类别之间的差异和大小(或距离)。最后,等比量表是等距量表的一种,它的零点代表没有被测量的变量。使用等比量表,测量的比例反应了差异大小的比例。
8。离散变量的任意两个值之间只存在有限个值。它通常由整数组成,并且只有有限的变化。连续变量的任意两个值之间都有无限多个数值。
9。对于一个连续变量。每个数值对应着量表上的一个区间。分开区间的界限被称为实限。实限消耗位于相邻两个数值的正中间。
10。字母X 被用来表示变量的值。如果有第二个变量,则使用Y 表示变量值。字母N 被用来表示总体的数据个数,n 是样本的数据个数。
11。希腊字母被用来表示求和。
第二章频数分布
1.描述统计的目的是简化数据的结构与表述。一个描述性技术是将数据放入频数分布表或图中,这些表或图显示了测量量表的每个类别中确切的个体分数个数。
2。频数分布表将组成测量量表X 值的类别列成一列。除了每个X 值。在第二列中海列出了这个类别的的频数或个体数。频数分布表可以包括比例。它显示了每个类别的相对频数。比例= p = f / n
频数分布表还可以包括百分率,它显示了每个X值对应的百分率。
百分率= p(100) = f / n (100)
3.通常。为了简化的目的,一个频数分布表最多有10至15行。如果数据的全距宽于这个建议的最大值。习惯上将全距分成组距。在频数分布表中,这些区间于每个区间的频数或个体分数个数列在一起,结果被称为分组频数分布。构造一个分组频数分布表的方针如下:
a。应该有大约10个区间。
b.每个区间的宽度应为一个简单数字(例如,2,5或10)。
c。每个区间的最新小数应为宽度的倍数。
d.所以区间应具有相同宽度,并无间隔地涵盖整个数值域。
4.频数分布图将数值列于横坐标上。频数列于纵坐标上。频数分布的类型由使用的测量量表类型决定。对于等距量表或等比量表应用直方图或折线图。对于直方图,在每个分数上方画一个矩形。使矩形高度与频数相对应。每个矩形延伸至分数的实限。使相邻矩形相接。对于折线图,在每个分数或组距的中点上方画一个点,使这个点的高度与频数相对应,然后用直线将这些点相连。柱形图被用于称名量表或顺序量表。柱形图于直方图相似。但相邻矩形间有空隙。
5.形状是用于描述数据分布的基本特征之一。多数分布可以被归类于对称分布或偏态分布。一个偏态分布的尾端向右则被称为正偏态分布,尾端向左则被称为负偏态分布。
6.累积百分率是分布中分数处于或低于一个特定点的个体百分率。累积百分率值与相应分数或区间的上实限相对应。
7.百分位数和百分等级被用于描述分布中的个体位置。百分等级给出了于一个特定分数相对应的累积百分率。被等级确认的分数称为百分位数。
8.当一个想求的百分位数或百分等级位于两个已知值之间时,可以用内插法估计相求的值。内插法假定两个已知值之间的变化为一般线性变化。
9.茎叶图式另一种组织数据的过程。每个数值被分为茎(数值的第一位获前几位)和叶(数值的最后一位或几位)。图形由列成一列的茎和写在茎旁边的每个数值的叶组成。茎叶图融合了表和图的特性,能得到简明有条理的数据概况。
集中趋势的重要性:将一整组数据减少成一个数据,用这个数据(集中趋势)来代表整个整组数据。
总结:
1.集中趋势的目的是确定分布的中点并能代表整组数据的值。三种标准集中趋势测量为中数,众数与平均数。
2.平均数是算数平均数。它的计算方法为将所有数据相加再除以数据个数。虽然总体与样本平均数的计算方法相同。总体平均数用符号表示。样本平均数用M 表示。
3.在几乎所有情况下。平均数是最具代表性的值。并且是最常用的集中趋势测量。
4.中数是一个分布恰好一分为二的值。当一个分布具有少数极端值并使平均数产生位移时。中数是更常用的集中趋势测量。如果存在未确定的或无限的数值。不能计算平均数。这时也可以使用中数。
5.众数是一个分布中最常出现的数值。在一个频率分布图中,找出高峰也就找出了众数。队友用称名量表测量的数据。众数是合理的集中趋势测量。一个分布可能具有多于一个众数。
6.对于对称分布。平均数将等于中数。如果只有一个众数,那么,它也具有相同值。
7.对于偏态分布。众数的位置将靠近数据聚集的那侧,平均数则将被拉向尾端的极端值。中数将位于这两个值之间。
第四章变异性
1.变异性的目的是决定在一个分布中数据的分散程度。有四种对变异性的基本测量:全距,四分位距,方差,标准差。
全距是一个分布中的最大值到最小值之间的距离,它被定义为最大X的上实限和最小X的下实限之间的差。四分位距是分布中央的50%的距离。它被定义为第三分位数(Q3)和第一分位数(Q1)之间的差。标准差和方差是最常用的变异性测量。这两个测量的基础是每个分数都能被描述为到平均数的差或距离。方差是平方差的平均数。标准差是方差的平方根,它提供了到平均数的标准距离的测量。
2.为了计算方差或标准差,你首先需要找出平方和SS。计算SS有两个方法:
Ⅰ.根据定义,你可以使用下列步骤找出SS:
a.找出每个离差(X-μ)。
b.将每个离差平方。
c.将平方差相加。
这个程序被总结为下列公式:
定义公式:SS=∑(X-μ)2
Ⅱ.平方差也可以用计算公式求得:
计算公式:SS=∑X2 –(∑X)2/N
3.方差是平方差和平均数。它需要先求出平方差和,然后再除以数据个数。对于一个总体。方差是:δ2 = SS / N
对于一个样本,只有n-1个数值是可以自由变化的(自由度或df = n-1)。
因此样本方差是:S2 = SS/(n-1) = SS / df