数据分析基础知识

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(2)相关系数r的取值范围:-1≤r≤1;
0<|r|<1表示存在不同程度线性相关:
3、直接绘制散点图,判断相关性
数据分析类型
2、数据分析类型
2-2 定量分析 2-2-2 验证性数据分析:验证科研假设测试所需的条件是否 达到,以保证验证性分析的可靠性。 T检验、F检验、方差分析 检验工具:SPSS
2-2-3 探索性数据分析:从海量数据中找出规律并产生分析模 型和研究假设, 数据挖掘
数据分析类型
2-2-1-2 中位数:
(1)假设观测值为偶数个:我们有工资的如下值(以千美元为单位),按递增次序 显示: 30,31,47,50,52,52,56,60,63,70,70,110。 则中位数为54
(2)假设观测值为奇数个:我们有工资的如下值(以千美元为单位),按递增次 序显示:30,31,47,50,52,53,56,63,70,70,110。 则中位数为第6个数值 53
(3)重点: A、σ度量关于均值的发散,仅当选择均值作为中心度量时使用; 低标准差意味数据观测趋向于非常靠近均值,而高标准差表示数据散布在一 个大的值域中。 B、仅当不存在发散时,即当所有的观测值都具有相同值时,σ=0; 否则,σ>0;
数据分析类型
2-2-1-5 相关系数
(1)Pearson相关系数公式
数据分析类型
数据仓库例子:
AllElectronics的数据立方体。AllElectronics的汇总销售数据的数据立方体显示在图1.7a中。该立方 体有三个维:地区(城市值芝加哥、纽约、多伦多、温哥华),时间time(季度值Q1、Q2、Q3、Q4 ),item(商品类型值家庭娱乐、计算机、电话、安全)。存放在立方体的每个单元中的聚集值是 sales_amount(单位:千美元)。例如,在第一季度Q1,与安全系统相关的商品在温哥华的总销售为 400,存放在单元〈温哥华,Q1,安全〉中。其他立方体可以用于存放每个维上的聚集和, 对应于使用不同的SQL分组得到的聚集值(例如,每个城市和季度的,或每个季度和商品的,或每一 维的总销售量)。
通过题目将不合要求的 受访者筛选出去
问卷结构
主题 部分
用于调查 核心问题
背景 部分
被调查者的基本情况 及感谢语等
问卷
5-2 问卷问题类型
问卷
5-3 问卷的设计质量
5-3-1 信度:指测试结果是否反映了被测者的稳定的、一贯性的真实特征。 信度只受随机误差的影响,随机误差越小,信度越高。 检测每次测试结果是否接近真实水平 检验工具SPSS:测试的信度通常用一种相关系数(即两个数之 间的比例关系)来表示,相关系数越大,信度则越高 5-3-2 效度:指测试结果的有效性和正确性的程度 检测测试结果达到测试目的的程度 5-3-3 信度和效度关系:测试可能是可信却无效的,但是有效测试却不 可能没有信度,因为不论一个测试的内容为何都可以重复进行(这就是 信度),但可能仍然没有测量应该测量的内容( 效度) 5-3-4 检验工具:SPSS 举例:比如A买2斤白糖,2斤是卖家的信度,而最终买到的是不是白糖是效 度,买的东西是买家选的,所以效度可以反映问卷问题是否合适
样本
4、样本
4-1 定义:研究中实际观测或调查的一部分个体称为样本(sample),研究对象的全 部称为总体。 4-2 确定样本量 4-2-1 抽样原则:样本量的选取要考虑经济情况、允许的抽样误差范围; 4-2-2 抽样误差: (1)定义:是指用样本统计值(样本平均数)与被推断的总体参数(总体平 均数)出现的偏差 ,抽样方法本身所引起的误差 (2)含义:抽样误差越小,说明样本的代表性越高;反之,样本的代表性越低。 (3)影响因素: A、当样本量少时,抽样误差随样本量增加而减少;但样本量大时,抽样误差 随样本量增加,减少的程度越少 B、抽样方法的选择。采用不重复抽样比采用重复抽样的抽样误差小。
数据分析类型
2-2-1 T检验
(1)定义:主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分 布资料。t检验分为单体检验和双总体检验。 (2)作用:t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数 的差异是否显著 (3)类型: 单体检验:单总体t检验是检验一个样本平均数与一个已知的总体平均数的 差异是否显著 双总体检验:检验两个样本平均数与其各自所代表的总体的差异是否显著
样本
4-2-3 样本量确定方法: A、根据允许的抽样误差的范围确定样本量 根据显著性水平、总体的百分比、抽样误差,用SPSS工具算出样本量
B、根据特定目的确定样本量,以分层抽样为例子(见 PPT 23 页)
样本
4-3 抽样方法
4-3-1 定义:随机抽样(除整群抽样),即按照随机的原则做不放回的抽样, 即保证总体中每个单位都有同等机会被抽中的原则抽取样本的方法
数据分析学习分享
数据分析学习分享
数据分析学习分享
1
数据分析及其步骤
2
数据分析类型
3
正态分布
4
样本
5
问卷
数据分析定义及步骤
Βιβλιοθήκη Baidu1、数据分析及其步骤
用适当的统计分析方法对收集来的大量数据进行分析,从海量数 据中提取和挖掘出对决策者有价值的规律和趋势。
3 2
数据录入 处理 4 数据分析
数据采集
1 调研蓝图 方案设计
数据分析类型
2-2-1-3 众数: (1)具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的和三峰; 一般地,具有两个或更多众数的数据集是多峰的(multimodal)。在另一种 极端情况下,如果每个数据值仅出现一次,则它没有众数。
(2)假设:我们有工资的如下值(以千美元为单位),按递增次序显示: 30,31,47,50,52,52,56,60,63,70,70,110。
3、正态分布
3-3 图形特征 : (1)集中性:正态曲线的高峰位于正中央,即均数所在的位置; (2)对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。 (3)均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。 3-4、图形含义:假如平均数为1.70,标准差为0.05,则平均数周围的得分在总体上 占到大多数(平均数上下1.96个标准差的得分占到95%的总体) 假如我们拿一个省的人口进行身高测量,那么我们可以将所有人的平均数和标准 差求出。会发现在平均数附近的人特别多,比如说在1.70-1.96*0.05到1.70+1.96*0.05 的人占到了总人数的95%,这个时候我们大概能够判断出这个省的身高服从正态分 布。
正态分布
3、正态分布
3-5 特点:实际上大多数的牵涉到很大样本的数据都被证明是正态分布的,比如体重 ,学习成绩等。拿学习成绩来说,中等得分的学生占大多数,非常拔尖的以及非常 差的占很少的一部分,这就是正态分布的。 3-6 作用:正态分布是许多统计方法的理论基础。 (T)检验、方差分析、 相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计 方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正 态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。
2-2-1-1 均值:
(1)公式: 假设我们有工资的如下值(以千美元为单位),按递增次序显示:30,31,47, 50,52,52,56,60,63,70,70,110。则均值计算如下:
因此,均值为58000美元。 (2)平均收入,但是受到极值影响很大
例如,公司的平均薪水可能被少数几个高收入的经理显著推高;类似地,一个班的 考试平均成绩可能被少数很低的成绩拉低一些 我们可以使用截尾均值。截尾均值是丢弃高低极端值后的均值。例如,我们可以对 工资的观测值排序,并且在计算均值之前去掉高端和低端的2%。但应避免在两端截去 太多(如20%),因为这可能导致丢失有价值的信息。
数据 分析
5
图表展现
数据分析类型
2、数据分析类型
2-1 定性分析 定性数据分析是指对诸如词语、照片、观察结果之类的非数值 型数据的分析
整容前后对比照,整容让人变美
数据分析类型
2、数据分析类型
2-2 定量分析 2-2-1 描述性统计分析: 自一组数据中,可以摘要并且描述这份数据的集中和离散情形
数据分析类型
3、正态分布
概率密度函数
3-1 参数: (1)期望值μ描述正态分布的集中趋势位置 ,正态分布的期望、均数、中位数 、众数相同,均等于μ。 (2)标准差σ决定了离散程度,σ越大,数据分布越分散,曲线越扁平;σ越小 ,数据分布越集中,曲线越瘦高。 当μ = 0,σ = 1时的正态分布是标准正态分布 3-2 面积分布 (1)横轴区间(μ-σ,μ+σ)内的面积为68.268949% (2)横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974% (3)横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020% 小概率事件:(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认 为相应的事件是不会发生的
则众数有2个:52和70(数据集属于多峰)
数据分析类型
均值、中位数和众数关系图(单峰频率曲线中)
特点:(1)在具有完全对称的数据分布的单峰频率曲线中,均值、中位数和众 数都是相同的中心值 (2)在大部分实际应用中,数据都是不对称的。它们可能是正倾斜的, 其中众数出现在小于中位数的值上 (3)负倾斜的,其中众数出现在大于中位数的值上
数据分析类型
2-2-1-4 方差和标准差 (1)方差公式:数值属性X的N个观测值x1,x2,…,xN的方差(variance)是: x是观测的均值 标准差:σ是方差σ2的平方根。 (2)例如序列:30,31,47,50,52,52,56,60,63,70,70,110 σ2=112(302+362+472+…+1102)-582≈379.17
数据分析类型
(3)数据挖掘数据源包括:数据库、数据仓库、Web、其他信息存储库 或动态地流入系统的数据。
A、关系数据库:由表组成,每个表有一个唯一的表名。 比如:Oracle、DB2、 MySQL 等 B、数据仓库:指存储大量历史数据的数据库;一般情况下将被长期 保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很 少,通常只需要定期的加载、刷新 特点:数据仓库是集成的,可以把来自不同数据源(如关系数据库、文件 数据、在线事务记录等 )的信息以同一模式保存在同一个物理地点。
抽样误差大小比较
样本大,要求抽样 误差小,如:全校 抽10人,按男女比 例,共抽取5名同学
样本大,如: 全校学生,抽20人
样本少,如: 抓阄
样本大,受成本有 限,如:人口普查
样本
4-3-2 分层抽样法举例说明
问卷
5、问卷设计
5-1 问卷的基本结构
起始 部分
包括标题、 问卷编号、 访问员信息等
甄别 部分
比如验证参加了培训班的学生和没有参加培训班的学生相比,谁的考试成绩更好
数据分析类型
2-2-2 数据挖掘
(1)数据挖掘定义:从大量数据中挖掘有趣模式和知识的过程。
(2)数据挖掘的过程: A、数据清理(消除噪声和删除不一致数据)。 B、数据集成(多种数据源可以组合在一起)。 C、数据选择(从数据库中提取与分析任务相关的数据)。 D、数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)。 E、数据挖掘(基本步骤,使用智能方法提取数据模式)。 F、模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式。 G、知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
相关文档
最新文档