数据分析初步
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计与知识回顾(上)
数据的收集、整理和描述
1.数据处理一般包括收集数据、整理数据、描述数据和分析 数据等过程。
2.全面调查与抽样调查是收集数据的两种形式。 全面调查: ⑴全面调查(普查)是通过调查总体来收集数据。 ⑵普查收集的数据全面精准,但花费大量的时间、人力和 物力; ⑶对于下列情况需要用普查: ①每个个体都要有具体的数据 ②总体小,采用普查方式可行的一般用普查
2
2.中位数和众数
⑴中位数:是一组数据按照由大到小(或由小到大)的顺序排 列,如果数据的个数是奇 数,则处于中间位置的数就是
这组数据的中位数;如果数据个数是偶数,则中间两个 数据的平均数就是这组数据的中位数。
⑵众数:一组数据中出现出现次数最多的数据就是这组数 据的众数。如果一组数据中有两个数据的频数一样,都 是最大,那么这两个数据都是这组数据的众数。
清楚的表示出每 个项目的具体数 目
统计图 直方图
特征
优点
为了了解数据的分布情况,将数据 ①能够显示
从小到大的顺序排列,对数据进行 各组频数分
Fra Baidu bibliotek
分组,使每组的两个端点的差都相 布情况
等,分成的组的个数称为组数,每 ②易于显示
个小组的两个端点之间的距离(组 各组频数的
内数据的取值范围)称为组距
差别
直方图中的概念:
统计图 特征
优点
扇形统 用圆表示整体,用圆的各个大小 直观反映部分在
计图 不同的扇形来表示各个部分所占 总体中所占有的
整体的百分数
百分比
1
统计图 折线统 计图
条形统 计图
特征
将所统计的不同的数据用不同 的点来表示,再将各个点用折 线连接起来
用高低不同的长方形来分别表 示各组不同的数据
优点 反映事物的变化 情况
样本
在总体中被抽取出来的实际调查的个体组成 一个样本
样本容量 样本中个体的数目
简单随机 抽取样本的过程中,总体中的每一个个体都有 抽样 相等的机会被抽取,像这样的抽样方法是一种 简单随机抽样
注:在采用抽样调查时,要科学的选取样本
3.整理数据经常使用表格法。 4.描述数据可使用条形图、扇形图、折线图、直方图。
频数 频数又称为次数,是指落在各组(或类别)中数据 的个数
频率 频数与数据总数的比为频率,反映了各组频率的 大小在总数中所占的分量
数据的分析
1.平均数:
⑴算数平均数:一般的,如果有n个数x1,x2,…,xn,
那么把
1 n
( x1
x2
xn )
叫做这n个数的算数平均数,
简称平均数。
⑵平均数的意义:平均数反映的是一组数据的平均水平,在 计算平均数时,所有数据都参加运算,它能充分的利用数 据所提供的信息,在现实生活中较为常用,平均数极易受 极端值的影响,当一组数据中个别数据如果偏大或偏小, 对平均数的值影响较大,所以在很多评比中常去掉最高分 和最低分,再计算平均分。
( x2
x)2
( xn
x)2
通过化简,方差的表达式还可简化为
S2
1 n
( x12
x22
xn2 )
n
x
2
4.方差
或
S2
1 n
(
x12
x22
xn2 )
2
x
方差是和中心偏离的程度,用来衡量一批数据的波动大小 (即这批数据偏离平均数的大小),在样本容量相同的情况 下,方差越大,说明数据的波动越大,越不稳定。
3.极差
⑴定义:一组数据中的最大数据和最小数据的差叫做这组 数据的极差。
⑵极差的特点:在反映数据波动的各种量中,极差是最简 单、最便于计算的一个量。
4.方差
方差:在一组数据中x1,x2,…,xn中,各数据与他们的 平均数的差的平方的平均数叫做这组数据的方差。通常用
S2来表示,即
S2
1 n
( x1
x)2
2.全面调查与抽样调查是收集数据的两种形式。 抽样调查: ⑴抽样调查是通过调查样本来收集数据。 ⑵抽样调查省时省力,但数据没有普查那样精确; ⑶对于下列情况需要用抽样调查:
①总体过大,普查不具可行性,也不要求要有每个个体 的数据
②调查时带有破坏性和危险性,一般用抽样调查。
总体
要考察的全体对象
个体
组成总体的每一个考察对象
3
数据的收集、整理和描述
1.数据处理一般包括收集数据、整理数据、描述数据和分析 数据等过程。
2.全面调查与抽样调查是收集数据的两种形式。 全面调查: ⑴全面调查(普查)是通过调查总体来收集数据。 ⑵普查收集的数据全面精准,但花费大量的时间、人力和 物力; ⑶对于下列情况需要用普查: ①每个个体都要有具体的数据 ②总体小,采用普查方式可行的一般用普查
2
2.中位数和众数
⑴中位数:是一组数据按照由大到小(或由小到大)的顺序排 列,如果数据的个数是奇 数,则处于中间位置的数就是
这组数据的中位数;如果数据个数是偶数,则中间两个 数据的平均数就是这组数据的中位数。
⑵众数:一组数据中出现出现次数最多的数据就是这组数 据的众数。如果一组数据中有两个数据的频数一样,都 是最大,那么这两个数据都是这组数据的众数。
清楚的表示出每 个项目的具体数 目
统计图 直方图
特征
优点
为了了解数据的分布情况,将数据 ①能够显示
从小到大的顺序排列,对数据进行 各组频数分
Fra Baidu bibliotek
分组,使每组的两个端点的差都相 布情况
等,分成的组的个数称为组数,每 ②易于显示
个小组的两个端点之间的距离(组 各组频数的
内数据的取值范围)称为组距
差别
直方图中的概念:
统计图 特征
优点
扇形统 用圆表示整体,用圆的各个大小 直观反映部分在
计图 不同的扇形来表示各个部分所占 总体中所占有的
整体的百分数
百分比
1
统计图 折线统 计图
条形统 计图
特征
将所统计的不同的数据用不同 的点来表示,再将各个点用折 线连接起来
用高低不同的长方形来分别表 示各组不同的数据
优点 反映事物的变化 情况
样本
在总体中被抽取出来的实际调查的个体组成 一个样本
样本容量 样本中个体的数目
简单随机 抽取样本的过程中,总体中的每一个个体都有 抽样 相等的机会被抽取,像这样的抽样方法是一种 简单随机抽样
注:在采用抽样调查时,要科学的选取样本
3.整理数据经常使用表格法。 4.描述数据可使用条形图、扇形图、折线图、直方图。
频数 频数又称为次数,是指落在各组(或类别)中数据 的个数
频率 频数与数据总数的比为频率,反映了各组频率的 大小在总数中所占的分量
数据的分析
1.平均数:
⑴算数平均数:一般的,如果有n个数x1,x2,…,xn,
那么把
1 n
( x1
x2
xn )
叫做这n个数的算数平均数,
简称平均数。
⑵平均数的意义:平均数反映的是一组数据的平均水平,在 计算平均数时,所有数据都参加运算,它能充分的利用数 据所提供的信息,在现实生活中较为常用,平均数极易受 极端值的影响,当一组数据中个别数据如果偏大或偏小, 对平均数的值影响较大,所以在很多评比中常去掉最高分 和最低分,再计算平均分。
( x2
x)2
( xn
x)2
通过化简,方差的表达式还可简化为
S2
1 n
( x12
x22
xn2 )
n
x
2
4.方差
或
S2
1 n
(
x12
x22
xn2 )
2
x
方差是和中心偏离的程度,用来衡量一批数据的波动大小 (即这批数据偏离平均数的大小),在样本容量相同的情况 下,方差越大,说明数据的波动越大,越不稳定。
3.极差
⑴定义:一组数据中的最大数据和最小数据的差叫做这组 数据的极差。
⑵极差的特点:在反映数据波动的各种量中,极差是最简 单、最便于计算的一个量。
4.方差
方差:在一组数据中x1,x2,…,xn中,各数据与他们的 平均数的差的平方的平均数叫做这组数据的方差。通常用
S2来表示,即
S2
1 n
( x1
x)2
2.全面调查与抽样调查是收集数据的两种形式。 抽样调查: ⑴抽样调查是通过调查样本来收集数据。 ⑵抽样调查省时省力,但数据没有普查那样精确; ⑶对于下列情况需要用抽样调查:
①总体过大,普查不具可行性,也不要求要有每个个体 的数据
②调查时带有破坏性和危险性,一般用抽样调查。
总体
要考察的全体对象
个体
组成总体的每一个考察对象
3