数据分析知识点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总体、个体、样本、样本容量
(1)定义
①总体:我们把所要考察的对象的全体叫做总体;
②个体:把组成总体的每一个考察对象叫做个体;
③样本:从总体中取出的一部分个体叫做这个总体的一个样本;
④样本容量:一个样本包括的个体数量叫做样本容量.
(2)关于样本容量
样本容量只是个数字,没有单位.
用样本估计总体
用样本估计总体是统计的基本思想.
1、用样本的频率分布估计总体分布:
从一个总体得到一个包含大量数据的样本,我们很难从一个个数字中直接看出样本所包含的信息.这时,我们用频率分布直方图来表示相应样本的频率分布,从而去估计总体的分布情况.
2、用样本的数字特征估计总体的数字特征(主要数据有众数、中位数、平均数、
标准差与方差).
一般来说,用样本去估计总体时,样本越具有代表性、容量越大,这时对总体的估计也就越精确.
频数与频率
(1)频数是指每个对象出现的次数.
(2)频率是指每个对象出现的次数与总次数的比值(或者百分比).即频率=频数数据总数
一般称落在不同小组中的数据个数为该组的频数,频数与数据总数的比值为频率.频率反映了各组频数的大小在总数中所占的分量.
频数(率)分布表
1、在统计数据时,经常把数据按照不同的范围分成几个组,分成的组的个数称
为组数,每一组两个端点的差称为组距,称这样画出的统计图表为频数分布
表.
2、列频率分布表的步骤:
(1)计算极差,即计算最大值与最小值的差.
(2)决定组距与组数(组数与样本容量有关,一般来说样本容量越大,分组就越多,样本容量不超过100时,按数据的多少,常分成5~12组).
(3)将数据分组.
(4)列频率分布表.
频数(率)分布直方图
画频率分布直方图的步骤:
(1)计算极差,即计算最大值与最小值的差.(2)决定组距与组数(组数与样本容量有关,一般来说样本容量越大,分组就越多,样本容量不超过100时,按数据的多少,常分成5~12组).(3)确定分点,将数据分组.(4)列频率分布表.(5)绘制频率分布直方图.
注:①频率分布表列出的是在各个不同区间内取值的频率,频率分布直方图是用小长方形面积的大小来表示在各个区间内取值的频率.直角坐标系中的纵轴表示频率与组距的比值,即小长方形面积=组距×频数组距=频率.②各组频率的和等于1,即所有长方形面积的和等于1.③频率分布表在数量表示上比较确切,但不够直观、形象,不利于分析数据分布的总体态势.④从频率分布直方图可以清楚地看出数据分布的总体态势,但是从直方图本身得不出原始的数据内容.
统计表
统计表可以将大量数据的分类结果清晰,一目了然地表达出来.
统计调查所得的原始资料,经过整理,得到说明社会现象及其发展过程的数据,把这些数据按一定的顺序排列在表格中,就形成“统计表”.统计表是表现数字资料整理结果的最常用的一种表格.统计表是由纵横交叉线条所绘制的表格来表现统计资料的一种形式.
扇形统计图
(1)扇形统计图是用整个圆表示总数用圆内各个扇形的大小表示各部分数量占总数的百分数.通过扇形统计图可以很清楚地表示出各部分数量同总数之间的关系.用整个圆的面积表示总数(单位1),用圆的扇形面积表示各部分占总数的百分数.
(2)扇形图的特点:从扇形图上可以清楚地看出各部分数量和总数量之间的关系.
(3)制作扇形图的步骤
①根据有关数据先算出各部分在总体中所占的百分数,再算出各部分圆心角的度
数,公式是各部分扇形圆心角的度数=部分占总体的百分比×360°.②按比例取适当半径画一个圆;按扇形圆心角的度数用量角器在圆内量出各个扇形的圆心角的度数;
④在各扇形内写上相应的名称及百分数,并用不同的标记把各扇形区分开来.
条形统计图
(1)定义:条形统计图是用线段长度表示数据,根据数量的多少画成长短不同的矩形直条,然后按顺序把这些直条排列起来.
(2)特点:从条形图可以很容易看出数据的大小,便于比较.
(3)制作条形图的一般步骤:
①根据图纸的大小,画出两条互相垂直的射线.
②在水平射线上,适当分配条形的位置,确定直条的宽度和间隔.
③在与水平射线垂直的射线上,根据数据大小的具体情况,确定单位长度表示多
少.
④按照数据大小,画出长短不同的直条,并注明数量.
算术平均数
(1)平均数是指在一组数据中所有数据之和再除以数据的个数.它是反映数据集中趋势的一项指标.
(2)算术平均数:对于n个数x1,x2,…,x n,则x¯=1n(x1+x2+…+x n)就叫做这n个数的算术平均数.
(3)算术平均数是加权平均数的一种特殊情况,加权平均数包含算术平均数,
当加权平均数中的权相等时,就是算术平均数.
加权平均数
(1)加权平均数:若n个数x1,x2,x3,…,x n的权分别是w1,w2,w3,…,w n,则x1w1+x2w2+…+xnwnw1+w2+…+wn叫做这n个数的加权平均数.
(2)权的表现形式,一种是比的形式,如4:3:2,另一种是百分比的形式,如创新占50%,综合知识占30%,语言占20%,权的大小直接影响结果.
(3)数据的权能够反映数据的相对“重要程度”,要突出某个数据,只需要给它较大的“权”,权的差异对结果会产生直接的影响.
(4)对于一组不同权重的数据,加权平均数更能反映数据的真实信息.
中位数
(1)中位数:
将一组数据按照从小到大(或从大到小)的顺序排列,如果数据的个数是奇数,则处于中间位置的数就是这组数据的中位数.
如果这组数据的个数是偶数,则中间两个数据的平均数就是这组数据的中位数.(2)中位数代表了这组数据值大小的“中点”,不易受极端值影响,但不能充分利用所有数据的信息.
(3)中位数仅与数据的排列位置有关,某些数据的移动对中位数没有影响,中位数可能出现在所给数据中也可能不在所给的数据中出现,当一组数据中的个别数据变动较大时,可用中位数描述其趋势.
众数
(1)一组数据中出现次数最多的数据叫做众数.
(2)求一组数据的众数的方法:找出频数最多的那个数据,若几个数据频数都是最多且相同,此时众数就是这多个数据.
(3)众数不易受数据中极端值的影响.众数也是数据的一种代表数,反映了一组数据的集中程度,众数可作为描述一组数据集中趋势的量.
极差