业务数据的分析方法(精)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例7:Accounting Professionals. xls 数据集
来自Accounting Professionals. xls
创建数据透视图的步骤
•选择数据范围
•确定所要创建表格的类型
•确定字段设置
•选择报表格式
•选择读取方式
创建数据透视图的优点
数据透视表的优点在于:如果想要改分析, 可以仅仅将带有阴影的变量名拖出透视表, 并用其他变量代替,你能轻易地在字段域 中增加多个变量来创建不同的数据图。
什么是Data Mining?
Data Mining的应用 Data Mining 算法包括: – 预测 (Prediction) – 分类 (Classification) – 联系 (Association) – 回归 (Regression)
什么是Data Mining?
通过采用自动或半自动的手段,从大量数据中
相关分析举例
– 收入与用于文化的支出的关系
正相关散点图 $90,000 $80,000 $70,000 $60,000
工资
$50,000 $40,000 $30,000 $20,000 $10,000 $0 $0 $500 $1,000 文化 $1,500 $2,000
来自Expenses. xls
平均值
平均值:是某个变量所有值的平均数。
如果数据代表了一个大量数据的样本, 我们就叫他样本均值。如果是对象是整 体分析,就是整体均值。
 ̄ 公式: χ=
Σ
n
i =1 χi
n
Excel命令:=AVERAGE( )
四分位数和百分比
Excel命令:
QUARTILE (salary,1): 返回一组数据的四分位点 PERCENTILE (salary,.05): 返回一组数据的K百 分比的数值点
提取出可信、新颖、有效并能被人理解的信息 的高级处理过程 按企业既定业务目标,对大量的企业数据进行 探索和分析,揭示隐藏的、未知的或验证已知 的规律性,并进一步将其模型化的先进有效的 方法 数据挖掘能够帮助你选择正确瞄准潜在目标, 向现有的客户提供额外的产品,识别那些准备 离开的好客户
数据挖掘的作用
利用EXCEL分析数据
常用图和表:
– 折线图, 饼图, 面积图, 频数表和柱状图, 散点图, 时 间序列 – 数据透视图
常用简单的统计命令: AVERAGE, VAR,
STDEV, MODE, MEDIAN, SUM, SUMIF, SUMPRODUCT, COUNT, COUNTIF, MAX, MIN , QUARTILE, PERCENTILE
可重复双因素分析 : 对单因素方差分析的扩展,即每
一组数据包含不止一个样本。
无重复双因素分析: 通过双因素方差分析(但每组数
据只包含一个样本),对两个以上样本均值进行相等 性假设检验(样本取自具有相同平均值的样本总体)。 此方法是对双平均值检验(如 t-检验)的扩充。
回归分析
回归分析是一种用于两个或两个以上变量之间建立关 系的统计技术 在回归分析里,要在分析所感兴趣的变量-因变量或相 应变量与一个或几个字变量或预测变量之间建立关系 回归分析的目标,是建立一个回归模型或一个预测方 程,使因变量能与那一个或几个自变量联系起来。这 样回归模型就可以用来凭借这些自变量描述预测和控 制因变量。 包括:简单回归模型、多元回归模型
柱状图:比较相交于类别轴上的数值大小;
堆积柱状图:比较相交于类别轴上的每一数值相对 于总数值的大小
90 80 70 60 50 40 30 20 10 0
东部 西部 北部
第一季度
第二季度
第三季度
பைடு நூலகம்
第四季度
柱状图类型
条形图类型
条形图也可用一种类似的方法显示数据,仅仅是将垂 直方向换成水平方法而已。 堆积条形图可以在同一个条上连续地显示各种数据, 而不像簇状条形图那样把条并列在一起显示数据。
发现最有价值的客户
数据挖掘的作用
使组合销售更有效率
数据挖掘的作用
留住那些最有价值的客户
数据挖掘的作用
用更小的成本发现欺诈现象
议程
利用EXCEL分析数据
常用统计软件 数据挖掘
常用统计方法: – 描述统计 – 假设检验 – 方差分析 – 回归分析
假设检验
涉及对总体参数数值有关的两个命题(假
第一季度 第二季度 第三季度 第四季度
饼图类型
利用EXCEL分析数据
--面积图
面积图:显示每一数值所占大小随时间 或类别而变化的趋势线
180 160 140 120 100 80 60 40 20 0 第一季度 北部 西部 东部
第二季度
第三季度
第四季度
面积图类型
利用EXCEL分析数据:
--柱状图
频数分析和直方图
频数分布表指,在不同的类别里发生了
多少次观测值
直方图通过图形的方式表达了同样信息。
直方图的应用举例
鞋的尺寸大小分布图
频数
40 20 0
5 5 5 5 .5 .5 .5 12 6. 7. 8. 9. 10 11 13
来自Shoes.xls
尺寸
.5
利用EXCEL分析数据
--散点图
Excel命令:VAR(supplied)
STDEV(supplied)
计算均值, 中位数, 众数, 方差举例
Range names Supplier1: A4:A14 Supplier2: B4:B14
来自Otis4. xls
相关分析
•用于反映分析变量间的密切程度
•相关系数度量的是两个间隔尺度变量之间线性关联关 系的程度。 •正的相关系数表示一个变量的较大值和另一个变量的 较大值是联系在一起的。而负的相关系数则表示一个 变量的较大值和另一个变量的较小值之间具有的关联 关系。
例5:
来自Actors.xls
时间序列制图
时间序列图的本质是散点图,时间序列变 量在纵轴,时间变量在横轴。同时为了分 布的趋势更加清晰,这些点通常是通过线 连接在一起。
例6:
来自Toys. xls
练习: 分析某某区近期得业务状况
分析指标: 总收件票数, 日均收件票数, 日
人均效能 要求:
讨论
设)作推断 步骤
– – – – – 提出待检验的假设 选择显著性水平 确定一个作结论的判断准则 收集数据并计算检验统计量 用决策法则检验统计量并得出结论
假设检验包括: t 检验和z 检验
方差分析 (ANOVA)
单因素方差分析 : 通过简单的方差分析,对两个以上
样本平均值进行相等性假设检验(样本取自具有相同 平均值的样本总体)。此方法是对双平均值检验(如 t-检验)的扩充。
相关分析举例
– 相关系数与协方差
来自Expenses. xls
数据分析的常用软件
MINITAB
SPSS EXCEL-XLSTAT
议程
利用EXCEL分析数据
常用统计软件 数据挖掘
常用统计方法: – 描述统计 – 假设检验 – 方差分析 – 回归分析
数据挖掘 (Data Mining)
利用EXCEL分析数据
--折线图
折线图:显示随时间或类别而变化的趋势线
100 90 80 70 60 50 40 30 20 10 0 第一季度 第二季度 第三季度 第四季度 东部 西部 北部
折线图类型
利用EXCEL分析数据
--饼图
饼图:显示每一数值相对于总数值的大小, 分离饼图强调单个数值的大小
– 各指标逐月变化情况 – 各指标的相关性 – 各分部的票数占该区总票数的比例变化
数据透视图
数据透视图报表是一种具有图表格式的交互式
数据汇总报表,是一个Excel功能很强大,而且易 于使用的工具。 这个工具提供了大量有用的信息,可以让我们 可以从不同角度切割,就是可以把数据分成一些 子集。 数据透视表的创建与常规的 Microsoft Excel 图 表不同。在创建数据透视图报表后,您还可以通 过拖动其字段和项目来查看不同层次的明细数据 或重新组织图表的版式。
学员使用EXCEL的熟练程度
使用EXCEL的熟练程度 没有用过 只做过简单的计算 使用过统计分析
14%
25%
61%
学员对数理统计的熟悉程度
对数理统计的熟悉程度
完全没有学过 学习过,有一般了解 熟悉数理统计的方法
16% 34%
50%
议程
利用EXCEL分析数据
常用统计软件 数据挖掘
常用统计方法: – 描述统计 – 假设检验 – 方差分析 – 回归分析
最小值、最大值
Excel命令: MAX (number1, number2…) :返回一组数 据的最大值, 忽略文本 MIN (number1, number2…) :返回一组数 据的最小值, 忽略文本
方差
描述样本数据的离散程度
公式: Σ
n
2  ̄ ( χ χ ) i =1 i n
σ2 =
利用EXCEL分析数据
常用图和表:
– 折线图, 饼图, 面积图, 频数表和柱状图, 散点图, 时 间序列 – 数据透视图
常用简单的统计命令: AVERAGE, VAR,
STDEV, MODE, MEDIAN, SUM, SUMIF, SUMPRODUCT, COUNT, COUNTIF, MAX, MIN , QUARTILE, PERCENTILE
相关分析举例
来自Expenses. xls
相关分析举例
– 用于运动的支出与用于文化的支出的关系
负相关散点图 $1,800 $1,600 $1,400 $1,200 $1,000 $800 $600 $400 $200 $0 $0 $500 $1,000 运动
文化
来自Expenses. xls $1,500 $2,000
散点图:比较成对的数值。
100 90 80 70 60 50 40 30 20 10 0 0 1 2 3 4 5
东部 西部 北部
散点图类型
利用散点图的关系分析
我们经常关心两个变量之间的关系。一个 非常有用的显示这个关系的方法是对每一 个观测值都在图上作一个点,这个点的坐 标代表了两个相关变量的值。结果产生的 图就是散点图。通过检查散点的分布,我 们可以查看两个变量之间有没有什么关系, 如果有,是什么样的关系。