数据仓库课程报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库与应用
课程报告
专业:空间信息与数字技术
班级:
学号:
姓名:
指导老师:
日期: 2015年1月23
目录
1. 数据仓库的定义? (3)
2. 实时数据仓库的技术基础和研究现状 (3)
3. 什么是OLTP、OLAP?它们的区别有哪些? (4)
4. OLAP有哪些操作? (4)
5. 什么是数据立方体? (5)
6. 按照目的分类,数据挖掘分为哪几种? (5)
7. 有哪些技术可以用于进行数据挖掘? (6)
8. 给出k means聚类算法的流程图,并指出它的最大局限所在 (7)
1.数据仓库的定义?
数据仓库是为支持决策管理建立的,是面向主题、集成的、稳定的、随时间变化的数据集合。
从数据仓库的定义可以看出数据仓库中数据的特点:(1)数据的存储是面向主题的:在操作型系统中,数据集合是以单独的应用程序为中心专门组织存放的,数据是面向应用程序事务的,而数据仓库中数据的是按商业主题存放的,商业主题会随着企业的不同而不同。(2)数据是集成的:数据仓库的数据是来源于不同的操作型系统,其中文件布局、编码表示方式、命名习惯和度量单位等都有可能不同,还有一些企业除了从操作系统获取内部数据,外部系统数据也是很重要的。所以,在将不同来源的数据存入数据仓库中之前,必须把这些不同的数据元素标准化,对数据进行清洗、转换等集成操作。(3)数据的时间特性:操作型系统存储的数据一般包含当前值,反映的是当前信息,而数据仓库中是供分析和决策使用的,决策者必须根据数据趋势进行决策,这不但需要当前数据,也需要历史数据。所以,数据仓库的目的决定了它包含当前数据之外,也必须包含历史数据。数据仓库中的数据结构都包含时间特性对于设计阶段和实现阶段都具有重要意义。(4)数据的稳定性:操作型系统的数据是实时更新的,数据仓库中的数据在载入之后几乎不会再更新,只要是查询分析使用。另外,数据仓库中数据粒度与操作型系统中的数据粒度也不一样,在操作型系统中数据存储通常数据非常详细,但是数据仓库中是按不同的粒度层次来存放数据的。
数据仓库-数据挖掘的有效平台。
2.实时数据仓库的技术基础和研究现状
数据仓库最基础的技术基础是数据库技术。
数据仓库系列技术,主要支撑技术有以下一些:
数据库技术、ETL技术、OLAP技术、元数据管理技术、前台展现技术、报表技术、挖掘技术、仿真优化技术。这些支撑技术结合各行业业务后,可以生产各式各样的应用。当然这些技术中,重点突出了在数据仓库方面的特征,而忽略了计算机技术的一些特征。比如:OLAP技术,那么就需要计算机存储技术、压缩技术、分区技术、加解密技术、图形化技术等等,这里就不再单独列示。
实时数据仓库的研究现状:数据仓库技术在我国的发展很快。很多不同的行业如电信、银行、金融、保险、制造、零售等都建立了自己的数据仓库,其中最具代表性的当属“中国移动”和“中国联通”两家最大的中国电信运营商所构建的“经营分析系统”。当然,数据仓库的风险很大,这主要是因为数据仓库是面向分析的,所以把握住业务需求是成功实施数据仓库项目的前提。如果不能满足业务需求,数据仓库的技术实现再完美也没有意义;其次,必须从技术上保证数据可以高效而准确地从业务系统中获取,能够有效地对数据仓库中庞大的数据进行管理,以及针对企业不同层次的人员提供对数据灵活而有效的访问。另外,数据仓库牵扯到多个部门,多个系统,如何有效获取高层领导的支持,协调各方资源,有效地进行项目管理也是影响数据仓库项目成败的关键。
只有处理好这些关键问题,才能保证数据仓库的成功实施,并在日后的扩展中不断完善发展。也只有这样,才能正真为企业带来可观的回报。
3.什么是OLTP、OLAP?它们的区别有哪些?
OLTP联机事务处理,就是我们通常所说的关系型数据库,记录了实时的增删改查数据。OLAP联机分析处理,是数据仓库的核心,是对OLTP的历史数据进行加工,分析处理,用于处理商业智能,决策支持等重要的决策信息。
区别:
1、用户和系统的面向性:
OLTP是面向顾客的,用于事务和查询处理。
OLAP是面向市场的,用于数据分析。
2、数据内容:
OLTP系统管理当前数据。
OLAP系统管理大量历史数据,提供汇总和聚集机制。
3、数据库设计:
OLTP采用实体-联系ER模型和面向应用的数据库设计。
OLAP采用星型或雪花模型和面向主题的数据库设计。
4、视图:
OLTP主要关注一个企业或部门内部的当前数据,不涉及历史数据或不同组织的数据OLAP则相反。
5、访问模式:
OLTP系统的访问主要由短的原子事务组成.这种系统需要并行和恢复机制。
OLAP系统的访问大部分是只读操作。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
6、任务单位
OLTP简短的事务OLAP复杂的查询。
7、访问数据量
OLTP数十个OLAP数百万个。
8、用户数
OLTP数千个OLAP数百个。
9、数据库规模
OLTP100M~数OLAP100GB~数TB。
10、设计优先性
OLTP高性能、高可用性OLAP高灵活性、端点用户自治。
11、度量
OLTP事务吞吐量OLAP查询吞吐量、响应时间。
4.OLAP有哪些操作?
OLAP的操作是以查询——也就是数据库的SELECT操作为主,但是查询可以很复杂,比如基于关系数据库的查询可以多表关联,可以使用COUNT、SUM、AVG等聚合函数。OLAP 正是基于多维模型定义了一些常见的面向分析的操作类型是这些操作显得更加直观。