第二章简单统计描述分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第二章单变量和双变量统计描述分析

第一节单变量统计描述基本技术

一、变量的计量尺度/层次

1、定类变量——最低层次的变量类型。只有类别属性之分，无大小程度之分。根据变量值，只能知道研究对象的异同。从数学运算特性来看，定类变量只有等于或不等于的性质。

2、定序变量——层次高于定类变量。取值除类别属性外，还有等级、次序之分。数学运算特性除等于或不等于外，还有大于或小于。

3、定距变量——层次高于定序变量。取值除类别属性、次序之外，取值之间的距离可以用标准化的举例度量。数学运算特性除等于不等于，大于小于之外，还可以加减。如收入，以1元为标准化距离，则2000元比1500元多了500元。

4、定比变量——最高层次变量。除了上述三种属性外，可以进行乘除运算。

1、社会学研究中，能够满足定距而不能同时满足定比要求的变量不多。如智商,因为智商0分只有相对的意义，0分不等于没有智商，且0值不固定。当前社会统计方法很少要求达到定比层测，所以只介绍前三种层次变量。

2、在社会学研究当中，有些变量的层次是不统一可变的，可用定序层次也可用定距层次，根据研究需要。高层次变量可以降低层次来使用。一般来说，测量层次越高越好，数学特性就越多，统计分析就越方便，能了解资料的程度就越深入。

二、基本技术

1、次数分布（定类）——针对定类变量

最基本的统计分析方法。面对大量的数据资料，首先要组织整理，第一步就是要采用次数分布来简化资料，看某变量的每一个值出现的次数是多少。

定类变量的取值要求：变量取值必须完备，使得每个各观察值都有所归类；必须互斥，一个观察值只能归入一类，对于分组数据遵循上限不包括在内原则。

次数分布可简化资料，但不能比较样本，因为样本量不同。

2、比、比例和比率（通常保留一位或两位小数）

比：某两类的次数相除，如性别比=男性/女性

比例：某类次数除以总数，老年人口比例=老年人口数/总人口数×100%

比率：某一确定变量相对应的某些事件发生的频率。分子和分母不存在隶属关系，有时是不同的变量，如人均GDP，患病率。

3、累加次数和累加百分比（定序和定距）

累加次数就是把次数累加起来，分为向上累加和向下累加。作用：知道某值以下或以上的次数总和。累加百分比同理。

4、定距层次的特殊处理

定距变量的取值很多，难以计算每个值的次数和百分比，需分组测量。

组限：上限和下限。组距：上限和下限之差。组中值：上限和下限的平均数。

如何分组？要考虑几个问题：1、组数太少会掩盖变量变动时频次的变化。组数太多会是每组内频次过少，增加偶然因素，使各组高度参差不齐，看不出规律。2、等距分组和不等距分组。通常用等距分组，但有时不等距分组能更好反映现象本质，如收入1000元和2000元的职工生活水平差距较大，而5000和6000元之间差距较小。

5、统计图

饼图：多用于定类变量，因为表示变量取值在总体中占的比例，而不管取值的排序。

条形图：用长条的高度表示变量类别的次数或百分比，宽度无意义，一般画成等宽长条，用于定类变量和定序变量。

直方图：仅用于定距变量。以长条面积表示频次或相对频次，条形高度表示频次密度（单位组距包含的频次）或相对频次密度，宽度是组距。为何用频次密度而非频次作为条形高度？因为非等距分组情况下，频次作为条形高度会产生错误，每一组的相对比例不一致。例如：

根据频次来比较，得出错误结论：40-50岁结婚的人比26-27岁结婚的人多。

频次密度=频次/组距；相对频次密度=相对频次/组距

30人/27-26=30（人/岁）35人/50-40=3.5（人/岁）

可见，26-27岁结婚的频次密度远大于40-50岁结婚的频次密度。

折线图：如果用直线联结直方图中条形顶端的中点，则得折线图。

组距减小，线条越平滑，最终成为曲线。社会学研究常见曲线如J形曲线、U形曲线、峰状曲线（单峰、双峰、多峰）、对称和不对称曲线（正态和偏态、右偏/正向偏和左偏/负

向偏）。以正态、单峰图形最为常见。

第二节集中趋势测量法

用一个典型的变量值来代表全体变量，这个值就称为集中值或集中趋势。用这个值估计或预测变量肯定有误差，但是这些数值是最具代表性的，所以用这个集中值来估计或预测变量所产生的误差最小。一、众数（定类变量）

用频数最多的变量值来表示变量的集中值。适合任何层次的变量，只要知道频次分布，就能找到众值，定距变量可以用频次密度最高的组的组中值来表示众值。二、中位数（定序变量）Md

位于最中间的变量值，将观察总数一分为二，其中一般比它小，一半比它大。 1、根据原始资料求中位数

N 为奇数时，中位数位于（N+1/）2的地方。 N 为偶数时，取居中位置左右两数的平均值。 2、根据分组资料求中位数

公式1：中位数=中位数组下限+（n/2-低于中位数组下限的累积次数）/中位数组次数×组距

159.5+（50-20）/48×10=165.8

中位数需要数据排序，不适合定类变量，适合于定序变量和定距变量，特别是对分布不规则的情况，中位数比较理想。三、均值（定距变量和定比变量）

1、根据原始资料求平均数=∑Xi/N

2、根据频次求平均数=

i i

n x N ∑ =i i x n N

∑

3、用分组资料求平均数：将X i 替换为组中值四、众数、中位数和均值的关系

众值：主要适用于定类变量，也可用于定序和定距变量中位数：主要适用于定序，也适用定距变量

平均数：主要适用于定距变量

统计方法中，平均数最常用。对于定序变量可求平均等级；对于定类变量，可赋予每类一个数值：男为1，女为0，则男性占总体比例就是特殊的均值。

虽然平均数对资料利用最充分，但对于严重偏态的数据分布，会失去应有的代表性。

第二章 简单统计描述分析

第二章简单统计描述分析