2019年整理Teradata数据仓库简介资料
Teradata系统架构及特性
Teradata系统架构及特性Teradata基础知识和使用过程中应该注意的问题Teradata系统架构及特性DW项目组赵世辉2010年5月Teradata基础知识和使用过程中应该注意的问题Teradata系列培训基础培训1. 2. 3. Teradata软硬件体系架构原理Teradata数据库对象介绍Teradata工具集介绍中级培训1. Teradata数据库设计规范2. Teradata SQL规范3.数据仓库Teradata平台管理规范高级培训1. 2. 3. 4. 5.| 2Teradata工具使用方法和技巧Teradata程序设计与开发数据库高级管理数据库调优。
内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题目录Teradata软硬件体系结构Teradata数据库原理及特点Teradata 数据保护机制Teradata系统访问配置及连接方式Teradata使用中的一些问题及案例分析| 3内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题Teradata系统的硬件构成BynetBynet线光纤PLine/Sline以太网存储阵列MPP节点AWS| 4备份服务器内部资料请勿外传磁带库Teradata基础知识和使用过程中应该注意的问题Teradata主机结构MPP系统工作站集群模式批量处理优化底层并行线性扩展均衡负载高可用性热备组件RAID技术Clique技术| 5内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题AWS及备份设备收集显示主机、存储、Bynet所有模块运行信息设备管理的统一界面AWS通过TVI进行远程维护和故障通知基于LAN-BASE备份技术由备份服务器处理备份任务,减轻数据库压力备份服务器使用Netvault工具,可在AWS上的客户端操作备份恢复由机械手+磁带驱动器+磁带槽位+磁带组成根据磁带的条码自动实现磁带的拆卸和装填磁带库可远程控制,可多驱动器并行工作和交叉工作| 6内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题扩展知识:Teradata主机产品线55015502550企业入门级数据仓库或部门级的数据集市46节点140 TB5__企业级的数据仓库系统,应用于战略性和操作性的企业智能化的EDW/ADW 1024节点10 PB用途数据集市或开发测试机在极端大量数据环境中的分析扩展性(支持数据量)单节点6 TB1024节点50 PB| 7内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题建行数据仓库生产设备的演变硬件- 18(+1)个TD 5500H节点- *****双核- 144GB内存- 100TB数据库空间软件- OS: Suse Linux 9 - DB: TD V2R6.2硬件- 6个TD 5450H节点- ***** - 24GB内存- 16TB数据库空间硬件- 8个NCR 5251节点- 32C@733MHZ - 32GB内存- 4TB数据库空间软件- OS: MP-RAS 4 - DB: TD V2R5 软件- OS: MP-RAS 4 - DB: TD V2R52008年设备更新2007年设备更新2006年DW上线| 8内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题目录Teradata软硬件体系结构Teradata数据库原理及特点Teradata 数据保护机制Teradata系统访问配置及连接方式Teradata使用中的一些问题及案例分析| 9内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题Teradata数据库底层结构VPROC虚处理软件并行控制软件系统软件Applications/ Utilities (TPA)主机直连Channel Drivers Gateway Software局域网硬件| 10内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题Teradata数据库工作原理SQL请求结果返回基本读写过程解析器解析引擎PE将SQL请求拆分成各AMP的请求以便并行处理PE优化器解析器分解接收到的SQL交易请求,验证语法、权限等分发器优化器产生最优的查询方案信息传递层(MPL)分发所优化的方案到AMP数据通过表PI的HASH值均匀分布到各AMP管理的磁盘(写)AMPAMPAMPAMP信息传递层可汇总各AMP数据,将最终结果返回客户端(读)数据数据数据数据| 11内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题PE( Parsing Engine )一种VPROC,用于解释SQL请求、接收输入记录、审查数据、发送信息到AMP每个节点2个PE,每个PE能并发操作120条会话,每个会话能处理多个请求当多个用户同时访问系统时,Teradata能够通过PE在各节点间自动平衡负载,不需要人工干预可以由工具(TDQM、TDWM)控制查询的执行过程| 12内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题AMP( Access Module Processor )一种VPROC,拥有内存和CPU资源,与一个VDISK连接,管理数据库/表的部分数据每节点根据需求可划分多个AMP控制所有磁盘交互及部分数据库的操作,如读、写、转换、格式化等一个请求可以分发到所有AMP一起共同工作,每个AMP也可以同步工作于多个请求各个AMP并行处理,互不干扰,交易处理结果在信息传递层汇总后,直接返回给应用程序内部资料请勿外传| 13Teradata基础知识和使用过程中应该注意的问题Teradata数据库特点专为海量数据仓库等OLAP应用设计多节点的单一数据库系统跨多代设备线性扩展自动数据分配机制可实现多维并行内嵌分析决策功能采用SPOOL技术易于管理| 14内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题专为数据仓库等OLAP系统设计OLAP数据库VS OLTP数据库OLAP 数据库(Teradata) OLTP数据库(Oracle)数据来源典型业务数据量响应速度用户数量本身不产生数据,来源于生产系统数据在系统中产生中的操作数据基于查询的分析系统基于交易的处理系统复杂查询,经常使用多表连结、全每次交易涉及的数据量小表扫描等,涉及的数据量庞大响应时间与具体查询有很大关系对响应时间要求非常高操作特性用户数量相对较小,其用户主要是用户数量非常庞大,主要是操业务人员与管理人员作人员由于业务问题的不固定,数据库的数据库的各种操作主要基于索各种操作不能完全基于索引进行引进行内部资料请勿外传| 15Teradata基础知识和使用过程中应该注意的问题多节点的单一数据库系统可运行于单个或多个节点多个节点组成一个整体的数据库系统,每个结点有单独的IP地址,都连入系统网络各结点之间自动进行负载平衡并提供结点互为备份的高可靠性客户端可以从不同渠道以不同方式连接,连接时可自动实现负载均衡客户端访问的不是某个具体结点,而是整个数据库数据库资源无法从物理上实现完全的分割| 16内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题不同代设备的线性扩展设备型号5500H 30÷ AMP数量22 5555H 50÷30 42 5600H 80÷单节点TPerf性能每AMP性能1.41.61.9TPerf值是衡量Teradata设备性能的指标,以第一代型号设备5100性能为基准1,后续型号Tperf是与5100的性能比值AMP数量可以根据要求进行增减,但受到磁盘数、背板带宽、接口数量、CPU、内存等限制多代混存会产生资源浪费,一般最多4-5代共存| 17内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题自动数据分配机制通过对PI的哈希运算将数据记录均匀分布到各AMP; 记录RowID由行哈希值和一个32位的UV组成;AMP根据数据记录的RowID确定物理存储位置;最新TD R13提供了Non-PI表解决了传统数据库的“数据重组”问题| 18内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题Teradata的多维并行技术查询并行多个VPROC并行最终结果最终结果查询并行各AMP处理自己的数据步内并行每个VPROC中多进程求和求和多步并行SQL语句的并行任务分解JOIN JOINJOIN JOINjoin表C表C表D步内并行1. Select C 2. Select D 3. C join D表A表A多步并行| 19表B表B内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题内嵌的数据分析功能提供多种OLAP函数累计和CSUM、移动平均MAVG、移动和MSUM、移动差分MDIFF、采样SAMPLE、限定*****等所有函数在Teradata内部以并行方式来工作可以自定义函数UDF可嵌入外部厂商的产品功能SAS、MicroStrategy等BI功能SilkRoute、SAP等企业管理功能| 20内部资料请勿外传Teradata基础知识和使用过程中应该注意的问题SPOOL技术SPOOL是未使用的且连续的数据库空间(类似虚拟内存),与Perm、Temp空间一起以AMP为单位分配,且使用不同Cylinder适合大数据量、并行处理的特点(与传统数据库在内存中处理相比)在工作量适中、无Fallback的系统中,SPOOL最少占总数据库空间的25%―30%好的调优策略可减少对SPOOL空间的占用每个用户的SPOOL的在建立时设置SPOOL的类型Volatile。
Teradata基础教程(中文)
Teradata SQL基础教程第一章关系数据库基础1.1关系数据库模型关系数据库理论最早是由Codd博士提出的,一个关系的数学描述其实就是一个二维表,这些二维表按照业务运行的规律组合起来,就是关系数据库模型。
这种模型可以简洁地表达出企业或机构的业务运作规律,抓住事物本质,因此非常实用。
每个二维表被称为一个实体(Entity),它可以是人、地点或者某种事物等。
表中的每个列被称为属性(Attribute)或者字段(Field),表中的每一行代表了该实体的一个特定实例,称为记录(Record)。
表1-1、1-2和1-3分别给出了一个雇员表、部门表和工作表的实例。
表1-1 雇员表(Employee Table)EMPLOYEE NUMBER MANAGEREMPLOYEENUMBERDEPARTMENT NUMBERJOBCODELASTNAMEFIRSTNAMEHIREDATEBIRTHDATESALARYAMOUNTPK FK FK FK1018 1017 501 512101RatzlaffLarry1978-07-151954-05-3154000.00 1022 1003 401 412102MachadoAlbert1979-03-011957-07-1432300.00 1014 1011 402 422101CraneRobert1978-01-151960-07-0424500.00 1003 801 401 411100TraderJames1976-07-311947-06-1937850.00 1007 1005 403 432101VillegasArnando1977-01-021937-01-3149700.00 1010 1003 401 412101RogersFrank1977-03-011935-04-2346000.00 表1-2 部门表(Department Table). 1 .department_number department_name budget_amount manager_employee_number PK FK308000.001011support402 software982300.001003support401 customer1025293800.00201 technicaloperations801100 president 400000.001017308000.00501 marketingsales1005403 education 932000.00表1-3 工作表(Job Table)job_code description hourly_billing_rate hourly_cost_rate PK421100 Manager - Software Support 0.00 0.00Rep 0.00 0.00512101 Sales511100 Manager - Marketing Sales 0.00 0.00Engineer 0.00 0.00312101 Software411100 Manager - Customer Support 0.00 0.00431100 Manager - Education 0.00 0.00413201 Dispatcher 0.00 0.00432101 Instructor 0.00 0.00Analyst 0.00 0.00422101 Software321100 Manager - Product Planning 0.00 0.00在一个关系数据库模型中,表和表之间是有关联的,这种关联常用所谓的E-R 图(Entity-Relationship Diagram)来表示。
NCR Teradata数据仓库
灵活的,可扩展的
+
Teradata CLDM包括:7 个主题域, 328个主实体,905 个属性和460个业务关系
公司主要产品
基于CLDM建立集中的业务模型,使业务人员能够轻松分析:
谁是我们最有价值的客户… 按在网时间,消费金额,收入,年龄,地域,业务规模... 按产品使用情况 (国内,国际,接线员服务,呼叫卡,全部) 在我们最好的客户中,谁最有可能流失? 我们的基站有问题吗? 我们可以将流失模式与用户的家庭关系或一个呼叫频繁的基 站对应起来吗? 按欺诈类型划分的欺诈模式? 我们的网络使用峰值占总使用的百分比? 我们应该向谁推销新产品或服务? 那些客户我们应该让给我们的竞争对手? 针对一个选定的用户群体,最赢利的产品/服务组合是什么? 吸引某一类用户的最恰当的消息,媒体,和渠道是什么? ……
在移动信息化领域提供完整的数据仓库解决方案h增值应用和服务基本应用基础设施系统集成项目实施客户分析收入分析高级应用opensystemwindow2000mppsmpdwplatformteradatardbms客户流失模型commldm欺诈管理fraud50产品服务分析市场份额分析服务质量分析市场促销分析etl业务系统源系统cdrtapdecode客户价值模型营销计划预演rps20客户关系管理crm40客户信用模型价格敏感度模型产品亲和度模型绩效管理pmm30催收管理collection40olapmdsdiskarrayopensystemncrunixbardatamining数据仓库在移动行业的基本应用基本应用客户分析收入分析产品服务分析市场份额分析服务质量分析市场促销分析客户分析收入分析产品服务分析?客户分群?客户总量多维分析?新增流失客户多维分析?客户通话行为多维分析?客户缴费行为多维分析?高风险高额客户多维分析?客户转网多维分析?各网元客户数及通信情况多维分析?特定时段通信时长最大前100名客户报表?特定时段通信费用最高前100名客户报表?互转客户统计报表?大客户特征多维分析?大客户业务量多维分析?前100名集团大客户报表?前100名个人大客户报表?高额客户前100名客户报表?各网元客户数及通信情况同期比较报表?收入总量多维分析?arpu多维分析?收入结构多维分析?网络多维分析?预付费多维分析?客户缴费多维分析?客户欠费多维分析?新增客户缴费欠费多维分析?业务量多维分析?业务资源使用特征多维分析?网络流向和流量特征多维分析?热点小区多维分析?业务量报表依业务种类?各类卡资源统计报表?号码资源统计报表?各基站交换机负载统计报表?各网元通信情况同期比较比报表数据仓库在移动行业的基本应用客户分析收入分析产品服务分析市场份额分析服务质量分析市场促销分析市场份额分析服务质量分析市场促销分析?市场占有率多维分析?竞争对手发展情况多维分析?供应商市场行为特征多维分析?合作商市场行为特征多维分析?各竞争对手市场占有率报表?同类设备供应商对比报表?合作商代收费报表?客户服务质量多维分析?客户服务时限多维分析?客户咨询查询焦点多维分析?客户投诉焦点多维分析?客户满意度多维分析?客户投诉状况报表?营销渠道多维分析?代理商客户发展多维分析?代理商业务发展多维分析?宣传促销多维分析?营销人员素质多维分析?最佳促销活动报表基本
Teradata基础教程
Teradata基础教程1. 数据仓库(Data Warehouse):Teradata是一种专门用于构建和管理数据仓库的系统。
数据仓库是一个集成、主题导向、可变和持续的数据集,用于支持企业的决策制定过程。
2. 分布式架构:Teradata采用分布式架构,将数据存储在多个节点上,使得数据的访问和处理更加高效和可扩展。
3. AMP(Access Module Processor):AMP是Teradata的核心组件,负责存储和处理数据。
每个节点上都有多个AMP,它们负责将数据分片存储在磁盘上,并处理查询请求。
4. Vantage:Vantage是Teradata的最新版本,提供了集成分析引擎、存储、数据管理和高级分析功能。
1. 创建数据库:使用CREATE DATABASE语句可以创建数据库。
例如,CREATE DATABASE mydatabase;2. 创建表格:使用CREATE TABLE语句可以创建表格。
例如,CREATE TABLE mytable (column1 INT, column2 VARCHAR(100));3. 插入数据:使用INSERT INTO语句可以插入数据到表格中。
例如,INSERT INTO mytable VALUES (1, 'data1');4. 查询数据:使用SELECT语句可以查询数据。
例如,SELECT * FROM mytable;5. 更新数据:使用UPDATE语句可以更新表格中的数据。
例如,UPDATE mytable SET column1 = 2 WHERE column2 = 'data1';6. 删除数据:使用DELETE语句可以删除表格中的数据。
例如,DELETE FROM mytable WHERE column1 = 2;7. 删除表格:使用DROP TABLE语句可以删除表格。
例如,DROP TABLE mytable;1. 数据分区:可以根据特定的列将数据进行分区存储,以提高查询性能。
Teradata携手中国邮政动态数据仓库打造优质速递服务
I M 公 司 B , BM 公 司 日 前 I 推 出 了新 的储 存 平 台 和 增 强 储 存 产 品 ,I M 称 这 是 “ 司 储 存 B 公 产 品 一 次 最 大 的 全 面 扩 展 ” 。 I M 发 布 的 I M 系 统 储 存 B B
标 是 降 低 储 存 系 统 的 总 体 成
本 。
等 级 保 护 、信 息 安 全 风 险 评 估
等 领域 。
此 外 , 届 亚 洲 C B T的 通 本 eI
即 可 查 询 积 分 , 务 必 保 留 该 信 要
息、
信 展 区将 汇 聚 固 定 电话 、 动 通 移 信 、网 络 、车 载 与 导 航 等 领 域 的
电话 支 付 这 一 新 型 电子 支付 方
式 , 帮 助 银 行 拓 展 电 话 银 行 业
月 9 日上 市 销 售 , 品 起 价 分 别 产
为 2 . 4万 美 元 和 1 . 6万 美 13 02
兀 。
决 方 案 , 聚 焦 行 业 的 前 进 方 向
和 技 术 趋 势 。 针 对 越 来 越 受 重
都 基 于 I M 的 P w r 5+处 理 B o e 器 。 原 来 的 DS 0 0平 台 相 比 , 与 80 新 产 品处 理 负 荷 环 境 的性 能 改 善 了 1% 。 5
注 IT市 场 的 最 新 动 态 , 示 厂 C 展 商 的发展 方 向及技 术突 破 。 最 在 炙 手 可 热 的 数 字 家 庭 领 域 , 届 本 展 会 将 特 别 开 辟 数 字 家 庭 体 验 展 区 ,致 力 于 为 不 同 阶 层 、不 同 需 求 的 家 庭 提 供 相 应 的解 决 方
Teradata大数据一体化平台介绍
产品说明
动态数据仓库产品,支持SSD 动态数据仓库产品,不支持SSD 数据仓库一体机 数据集市一体机,SMP节点 海量数据分析一体机 Hadoop一体机 Aster一体机 Aster数据库软件(仅限部分客户) Hadoop软件 Teradata提供企业云部署环境 双/多系统管理解决方案 虚拟存储/多级存储解决方案 Teradata平台互联互通解决方案 基本功能已集成在Teradata一体机中,数据实验室等额外功能需付费 整合营销解决方案 Teradata-SAS高性能分析一体机 Teradata-SAP分析解决方案 TD提供免费的ABU备份软件,由客户提供网络备份环境 TD提供备份插件,由客户提供带机、带库等备份架构 TD提供完整备份解决方案,包括NBU备份软件,以及Quantum,Da ta Domain等备份设备 包含元数据、数据质量、数据标准等 ETL调度工具 门户产品 管理驾驶舱 前端工具,数据挖掘分析工具
teradatagca可销售产品一览表产品类型产品定位最新产品型号产品说明teradata6750h6750hx动态数据仓库产品支持ssdteradata6700c动态数据仓库产品丌支持ssdteradata2800数据仓库一体机teradata670h670c数据集市一体机smp节点teradata1700海量数据分析一体机haddopappliancehadoop一体机探索平台asterapplianceaster一体机astersoftwareonlyaster数据库软件仅限部分客户hadoopsoftwareonlyhadoop软件teradatadatalabteradata提供企业云部署环境unity双多系统管理解决方案tvs虚拟存储多级存储解决方案querygridteradata平台互联互通解决方案viewpoint基本功能已集成在teradata一体机中数据实验室等额外功能需付费applicationcim整合营销解决方案teradataappliancesasteradatasas高性能分析一体机teradataanalyticssapteradatasap分析解决方案abuappliancebackuputilitytd提供免费的abu备份软件由客户提供网络备份环境tdeteradataextensiontd提供备份插件由客户提供带机带库等备份架构advocatedbartd提供完整备份解决方案包括nbu备份软件以及quantumdatadomain等备份设备数据管控teradata数据管控平台包含元数据数据质量数据标准等etlautomationetl调度工具teradataportal门户产品tetadatadashboard管理驾驶舱合作伙伴产品qlikviewspotfiretableaumicrostrategycelebrus前端工具数据挖掘分析工具其它工具其它产品数据库系统管理软件产品硬件产品数据平台数据仓库数据备份合作产品datamartapplianceintegratedbigdataplatformdatawarehouseapplianceactiveenterprisedatawarehouseappliancehadoopasterbiganalyticsappliancesashighperformanceanalytics规模up8tbup234pbup54p
Teradata案例分析
话费流失预防系统 5.报表管理子系统(FraudSentry*Reporter) 提供一些预定义的统计和管理报表,提供欺 诈记录及客户信息。这些表报是用OLAP动态 报表工具实现的。如主叫号码通话报警统计、 最可疑的前100个通话、按通话类型分析报警 情况、可疑事件详细报表、可疑事件分析与 处理、欺诈事件统计表、反欺诈小组处理事 件统计等等。
话费流失预防系统 介绍
话费流失预防系统(FraudSENTRY)是通过对大 量的客户档案和通话历史数据的分析从而获 取客户的通话行为信息,采用传统的基于规 则的侦测方法和现代先进的神经网络智能技 术为综合分析手段,建立一个通话行为智能 库,可以侦测漫游、客户欺诈、代理商欺诈、 利用盗窃手机通话等几类欺诈行为,当通话 记录或交易出现在正常模式以外时,系统能 马上识别,实时地现场侦测、追踪潜在的恶 意盗打电话者,和预测可能会恶意盗打电话 的客户,防盗打小组在电信公司的经营政策 为指导的原则下,对违反规定的客户采取必 要的措施,以追回损失、降低电信公司经营 风险和防止资产流失的决策支持系统。
7.预测模型子系统(FraudSentry*Predictor)
8.客户分析子系统(CustomerBI)
话费流失预防系统
1.维护界面子系统(FraudSentry*Profiler)
结构
是客户端的交互窗口。Profiler主要用于设 置和修改报警和界限。报警设置将侦测识别 所有通话记录中的各类欺诈行为,知道侦测 什么和如何侦测。正常情况下,报警参数仅 在第一次安装时设置一次。
案例:远传电信(FarEasTone)
降低经营成本 相 互 矛 相 盾 互 矛 盾
提高客户满意度 案例 分析解决? 如何解决?
案例:远传电信(FarEasTone) 降低经营成本
Teradata数据库介绍
SMP 体系架构
Multi-Node MPP
NCR Rack-Based Cabinets
NCR MPP系统的一些特性
Teradata数据库软件:它允许多个SMP运行在Teradata数据库上,并扮演单个 实例角色.
可升级的BYNET连接:当增加节点时,相应的增加了带宽. 并行可升级性:通过安装/升级多个SMPs 实现软件的并行安装和升级. AWS(Administration Workstation) :单点操作控制及升级服务管理. SMP:SMP只需要负责管理各自资源 还有一些冗余的组件:两个BYNET,在一个磁盘组中有两个磁盘控制器,又模
Network-Attached client software Overview
CLI提供对Teradata最大限度的连接和访问性,ODBC作为业内标准是更多的应用程序 可以连接到Teradata
Micro Teradata Director Program (MTDP) 是Teradata 提供的网络连接环境下的TDP实现,它和渠道连接下的TDP功能基本一致,唯一的区别 是它不负责session在多个PEs之间的分配,此功能由运行在Teradata系统上的Connect and Assign Servers 实现
据集成的企业范围的数据库,保证数据的一致性 高可用性 并行装载及卸数处理
强大的并行装载,load与unload工具可升级性,这些工具如:Fastload、 Multiload、TPump、and FastExport
主题
What is Teradata? Teradata数据库竞争优势 Teradata RDBMS 架构 Teradata 系统架构 Teradata 数据库与数据库用户的比较 数据存储和访问
TeraData金融数据模型
TeraData⾦融数据模型Teradata天睿公司提出⼀种先进的FS-LDM模型(Financial Services Logcial Data Model) --企业级数据模型,包括⾦融机构业务数据,囊括了银⾏约80%的业务数据,并把预定义的业务模板连接到核⼼银⾏业务数据和数据仓库中。
Teradata FS-LDM是⼀个成熟产品,在⼀个集成的模型内⽀持保险、银⾏及证券,包含⼗⼤主题:当事⼈、产品、协议、事件、资产、财务、机构、地域、营销、渠道。
⼗⼤主题划分如下:BANK-LDM主题域模型设计采⽤分类设计的策略:1、重点设计主题(客户、协议、事件、资产、财务)特点:是模型中的重点主题,且在源系统中有丰富的数据来源和参照。
⽬标:尽量保持完整性、丰富性。
策略:按照FS-LDM的框架进⾏设计,同时补充银⾏的个性数据元素。
2、⾃主设计主题(申请、营销活动、渠道、机构、产品)特点:⾮核⼼主题,基本没有或者仅有⾮常少的数据来源和参照。
⽬标:保证模型架构的完整性和扩充性。
策略:按照FS-LDM进⾏设计,将来根据实际情况调整。
3、简化设计主题(地域)特点:模型的重要参考主题,⼀般情况下源系统有数据,但定义和使⽤⽅法与FS-LDM不匹配。
⽬标:暂不进⾏唯⼀地址识别,但要完整保留此类信息。
策略:暂作为客户等的属性信息进⾏设计。
逻辑数据模型LDM,以协议主题实例:数据仓库模型层次划分:TeraData数据仓库整体架构:IBM与Teradata仓库模型⽐较银⾏业:IBM有BDWM(Banking Data Warehouse Model) Teradata有FS-LDM(Financial Services Logical Data Model)电信业:IBM有TDWM(Telecom Data Warehouse Model) Teradata有TS-LDM(Telecom Services Logical Data Model)IBM模型主题划分如下:国内⼚商提供的解决⽅案:⼚商(⼀)⼚商(⼆)TeraData实施案例:(1)农业银⾏/p-187788246565.html(2)徽商银⾏/view/05e78cf17c1cfad6195fa713.html总结:结合两⼤⼚商提供的数据仓库解决⽅案,可以看出,其就数据仓库划分的主题基本类似,内容都差不多,只是叫法不同⽽已。
达梦数据库公司与产品介绍
2013年4月
大纲
1
公司介绍
2
达梦数据库产品介绍
3
达梦ETL产品介绍
4
典型案例
5
与国内外产品的对比
6
致谢
公司简介
达梦是国内最早从事数据库管理系统研发、生产、销售和服 务的专业公司。
公司连续五个“五年”计划得到了国家发改委、科技部、工 信部、总装备部等中央部委的支持与扶植,是中国电子信息产业 集团(CEC)的下属企业 。公司是国家规划布局内重点软件企业 和双软企业,中国数据库标准委员会组长单位,核高基重大专项 课题牵头承担单位。
Oracle 12
达梦7 研发成果
申请国内发 明专利18项
申请软件著 申请国家重 申请软件产 作权23项 点新产品3项 品登记10项
内核技术
cpu
➢ 虚拟机
• 提高空间利用率,充分利用CPU的2 级缓存
• 采用面向栈的表达式计算模式,减 少虚拟机代码体积、数据的移动
➢ 并行处理
• 多个处理器并行查询,多个线程来 处理查询作业
课题组
企业资质
公司取得各项资质 24 项,各种奖项 16项
涉密集成软件 开发资质
国家规划布局内 国家发改委高技术 中国数据库软件
重点软件企业
产业பைடு நூலகம்示范工程 采购推荐产品
ISO9001:2000证书
CMMI3级证书
武器装备质量体系认 证证书
高新企业证书
产品资质
产品取得资质 8 项,奖项24项,著作权 35 项
、LibSQLora8
工具
➢ 可视化管理工具、迁移工具、监控工具 ➢ ETL 工具
OPEN3000
Teradata数据库配置说明
1.Teradata Client安装说明1、安装程序地址:ftp://10.3.7.141/2、点击Setup.exe,开始运行安装程序3、出现如下安装启动画面:4、选择Custom安装方式(请不要选择Typical)5、选择安装组件请依次选择以下程序:6、点击Next直至完成2.Teradata数据库配置说明1)测试数据库说明2)配置ODBC1、打开odbc数据源管理器、选择系统dsn页点击【添加】按钮2、选择T eradata驱动程序,点击【Finish】按钮3、填DB Source、T eradata Info、Uername、Password等选项点击【ok】按钮完成。
说明:●Data Source:odbc的名称●Teradata Server Info Name(s):Teradata数据库的IP地址●Username:用户名●Password:密码●Default Database:默认数据库3)配置HOST文件1、打开系统目录-system32-Drivers-etc(如XP系统:C:\Windows\system32\drivers\etc)下的hosts文件2、填写T eradata数据库的CLI接口地址:如127.0.0.1 localhost10.3.7.9 cpcimtcop1说明:第一部分为Teradata的ip地址,后面为任意名字和cop1、cop2的组合3.Teradata客户端配置1) Teradata Administrator配置选择菜单T ools/Options修改General选项,选中用SQL Assistant代替查询窗口选项。
完成OK后可以选择查询按钮进入T eradata SQL Assistant2) Teradata SQL Assistant配置选择菜单T ools/Options修改查询选项卡,选中只提交选中的查询语句选项。
数据仓库(Data-Warehouse)简介
数据仓库的设计
• 数据仓库的第二步——Staging层
– Landing层到Staging层主要是对数据进行必要的 清洗工作。
– 数据从landing流入staging后数据要在landing层 清除。
数据仓库的设计
• 数据仓库第三层——Integration DW
– 报表技术的应用,比如Cube。
数据仓库的要素
• 维度、模型
– 主要模型:星型模型、雪花模型 – 维度变化的维护:直接覆盖、保留旧值 – 最底层数据要跟报表维度一致,以提高数据的提取性能 – 时间戳的应用
• 血缘关系、元数据
– 不同层次的数据之间的血缘关系要明了,要具备优良的任务调度机制 (Control-M),方便问题数据的追踪;元素据描素要清楚明了。
– 什么是主题? • 主题和技术无关,是从业务角度出发,定义你分析的某个专业 方向,例如产品营销、物流、财务、HR、CRM等,这些业务板 块就是主题。
数据仓库的设计
• 数据的原子性
数据的原子性(atomic):数据的原子性指数据的 细化水平和粒度。数据的细化水平是原子性数据 水平,粒度是数据采集水平。
数据仓库的设计
• 数据仓库的服务目标——用户业务层
– 数据仓库最底层的数据集市所形成的数据维度一般是 直接面向于业务需求的。比如某个报表的数据已经在 某个表中被统计好,可直接从表中获取,不必通过多 个表之间的关联而取得目标数据。这样就大大提升了 报表的性能。
– 数据集市的数据能具备良好的颗粒度,能极好的支持 商业决策、数据分析、数据挖掘等工作。
数据仓库的设计
• 零售业数据仓库样例
数据仓库的设计
• 数据仓库的第一层——Landing层
teradata数据仓库简介
案例二:某电商公司的数据仓库应用
总结词
智能的数据分析
详细描述
某电商公司利用Teradata数据仓库进行智能的数据分析。通过数据仓库,电商公司能够全面了解用户 行为、产品趋势和市场动态。基于数据分析结果,电商公司优化了产品推荐、库存管理和物流配送, 提升了用户体验和业务效益。
案例三:某政府机构的数据仓库实践
数据仓库优化
为了平衡大规模数据处理和查询性能,出现了新型数据仓库技术,如 列式存储、向量化计算等,以提高数据处理和查询效率。
03
CATALOGUE
Teradata数据仓库简介
Teradata公司简介
成立时间
Teradata成立于1979年,是全球领先的数据仓库和数据分析解决 方案提供商。
总部位置
Teradata总部位于美国,在全球范围内拥有广泛的客户和合作伙伴 。
产品与服务
Teradata提供数据仓库、大数据解决方案、云计算和人工智能等服 务,帮助企业实现数据驱动的决策。
Teradata数据仓库的特点
高效性能
Teradata数据仓库采用高性能的硬件和 软件架构,支持大规模数据的快速查询
和处理。
模块化架构
Teradata数据仓库采用模块化架构,将数据仓库划分为多个模块,包括数据集 成模块、数据存储模块、数据查询模块等。这种设计可以提高系统的可扩展性 和灵活性。
数据存储技术
列式存储
Teradata采用列式存储技术,将数据按照 列进行存储,而不是传统的行式存储。列 式存储可以提高数据压缩比和查询效率, 尤其适用于大量数据的分析查询。
阐述本报告的目的和主要内容,为后 续章节提供概述。
分析企业对于数据仓库的需求,以及 Teradata数据仓库如何满足这些需求 。
Teradata分析
1、 Teradata 优势 ,能否打数据并发 1)优势以下是部分Teradata 客户数据仓库管理的内容,可说明Teradata 系统的强大处理能力: •多达千亿行数据的数据库表格 •每天数据加载超过30亿条记录 •每天捕获3000万笔客户交易 •每天为消费者在线提供150万种个性化产品和服务 •每小时处理100万次数据库查询 •每天响应1万个并发数据仓库用户 • 业务查询响应时间仅为40-50毫秒2)并发问题:机制 :Teradata 巨表数据存放机制好像是每个节点均匀分布表中一部分数据,当查询的时候每个节点并行查询,结果汇总到某个节点反馈给查询者。
这个复杂查询的实例形象地说明了Teradata 的多维并行处理机制。
Multi-Step 并 行并 行 作2. 搜 索 Orders3. 联 接 Lineitem & Orders 并 行同 时与 各 自 相 关据图8-16 Teradata 内部并行处理机制说明这里假设系统配置有4个虚拟处理器(VPROC),某个复杂查询被优化器分解成了7个步骤,图中SUPPLIERS、PARTS、PARTSUPP等为数据库中表的名字。
在每个步骤执行时,4个VPROC 同时处理与各自相关的数据块,例如搜索SUPPLIERS表,该表的记录是通过HASH算法均匀分布在四个VPROC各自负责的磁盘中的,搜索时4个VPROC将同时进行,把相关的记录搜索出来,这就是所谓的查询并行。
例子:例如:使用NCR 5300服务器,2个节点,存储为2TB,RAID1,在业务高峰期,系统并发查询用户在300个以上,最高到1000个,此时系统响应速度有些缓慢大概业务查询响应时间30秒,峰值过后速度就加快了。
主要进行的操作就是表之间的关联查询,4张表,每张6-7千万条记录,ETL加载的数据量不算太大。
2、Teradata内外部集建立原则针对实际的应用,采用内外部集市可以有效的发挥起各自的优势:1)松耦合原则介于要将整个系统划分为数据和应用层,相互存在很多密切关联,在设计库表时要充分考虑数据和应用的相互影响,做到应用不影响到数据的处理,数据处理不直接针对应用的松耦合技术架构2)任务明确原则数据处理层和应用层在处理具体业务时,必然存在既可以在数据层处理有可以在应用层处理的问题,需要在设计时充分讨论业务需求,做到责任明确,任务单一,各负其责。
Teradata数据仓库资深官方教材(ppt文档)
increased workload without decreased throughput.
• Performance impact of adding
components is shown below.
USERS Same Double Same Same
AMPs Same Double Double Double
AMP
Disk
Parsing Engine
AMP
Disk
Notes:
• Teradata is a linearly
expandable RDBMS.
• Components may be added as
requirements grow.
• Linear scalability allows for
Teradata Retrieval Architecture
数据仓库(Teradata)
服务使用的财务信息 / 财务记录产品的成本和付款
OFFER (服务)
产品产生事件 / 事件包括产品类
定位网络/ 网络支持的位置
NETWORK (网络)
服务通过网络实现 / 网络支持服务
网络产生事件 / 事件包括网络类
广告针对特定产品 /
产品通过广告实现营销
cLDM – 核心主题
ETL服务器
AT&T
中央数据库
Fload Mload Fexport TPump Access Module
End Users
Teradata电信业cLDM的商业价值
使你能够轻松回答下列业务问题…
▪ 谁是我们最有价值的客户… ▪ 按在网时间、消费金额、收入、年龄、地域、业务规模... ▪ 按产品使用情况 (国内、国际、接线员服务、呼叫卡、全部)
▪ 在我们最好的客户中,谁最有可能流失? ▪ 我们的基站有问题吗? 我们可以将流失模式与用户的家庭关系或一个呼叫
Teradata数据仓库
Dr. Zhang Jian Senior Technical Consultant TD China, Apr., 2009
公司介绍
NCR公司介绍
▪ 创建于1884年,120年历史 ▪ 包括三大部门
– 数据仓库事业部 / Teradata – 金融服务 / ATM – 零售服务 / POS
•LDM逻辑数据模型 •详细交易数据 •面向主题 •3NF
•数据清洗/转换/加载 •文本文件
结算
•数据转换/压缩/传输 •文本文件 •标准数据接口
•面向业务流程 其他 •3NF
Teradata电信业cLDM
ADVERTISEMENT (广告)
数据仓库简介-PPT课件
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
niche players pleteness f vision
visionaries
completeness of vision
as of September 2007
niche players
visionaries as of December 2008
5
Teradata数据库原理
Teradata数据库架构 Teradata数据库工作原理 Teradata特性
> 最大化的利用每个节点的资源 > 可灵活配置
VPROCs VPROCs VPROCs VPROCs Amps Amps Amps Amps
VPROCs VPROCs VPROCs VPROCs Amps Amps Amps Amps
VPROCs VPROCs VPROCs VPROCs Amps Amps Amps Amps
Teradata数据库架构
TCP/IP
封闭主机 系统
分析引擎 PE
BYNET信息 存 取 模 块 通 信 界 面 传递网络 单 元 AMP
网关 通道
PE1 PE2
AMP1
信
息
AMP2
传
递
AMP3
层 AMP4
PDE (并 行 数 据 库 扩 展 环 境)
UNIX
单 结 点 SMP
磁盘阵列
TERADATA的MPP架构
VPROCs VPROCs VPROCs VPROCs Amps Amps Amps Amps
MPP小结
• Teradata MPP 架构
> 使用当前最快的CPU > 最好的扩展性 > 使用 shared-nothing MPP架构以达到线性扩展
Effective CPU Performance
Effective CPU Scaling Performance
Teradata
Oracle IBM
Sybase HP
Microsoft-DATAllegro Netezza
Greenplum
Vertica
Kognitio Sand Technology Sun Microsystems-MySQL Ingres Illuminate Solutions
1010data
Teradata数据库简介
Teradata数据仓库事业部 华南区
Teradata Confidential
Agenda
关于TERADATA Teradata数据库原理
Teradata数据库架构 Teradata数据库工作原理 Teradata特性
Teradata数据仓库构建
= 103 = 1000 bytes = 106 = 1,000,000 bytes = 109 = 1,000,000,000 bytes = 1012 = 1,000,000,000,000 bytes = 1015 = 1,000,000,000,000,000 bytes = 1018 = 1,000,000,000,000,000,000 bytes = 1021 = 1,000,000,000,000,000,000,000 bytes = 1024 = 1,000,000,000,000,000,000,000,000 bytes
challengers
2007
leaders
challengers
2008
leaders
ability to execute ability to execute
Teradata
Oracle IBM
MySQL
Microsoft Sybase
Netezza Greenplum
DATAllegro
Kognitio Sand 管理的一些约定
关于TERADATA
• Teradata最初产生于1976年,由加州理工学院和花旗银行的高科 技项目-创建一个能够分析10的12次方 bytes 数据的系统。
1 Kilobyte 1 Megabyte 1 Gigabyte 1 Terabyte 1 Petabyte 1 Exabyte 1 Zetabyte 1 Yottabyte
Teradata并行处理架构
V-PE
V-PE
BY-Net
• PARSING ENGINE (PE) •SQL Parser & Optimizer •Query Step Dispatcher
• Network Distribution
V-AMP V-AMP V-AMP V-AMP
• Access Module Processors (AMP)
CPU CPU CPU CPU Memory
CPU CPU CPU CPU Memory
MPP系统与Teradata
•多结点同时工作 •数据库由各结点共同拥有
•MPP (Massive Parallel Processing)
海量并行处理服务器:由多个SMP服务器通过一定 的结点互联网络进行连接,协同工作,完成相同的 任务。从用户的角度来看是一个系统!
10
8
Teradata WorldMark (CPU = 1.00,
88% 1-4 CPU SMP scaling, 98% per
的 Loading 数 据
AMP2的数据 AMP1的数据
Backup & Recovery
并行处理性能
其他关系数据库
“有条件的并行”
初始查询 查询优化 查询并行
扫描 链接 聚合 排序
收敛 最终结果集
Teradata
“无条件的并行”
时间
Shared Nothing Software
• 线性扩展能力
• Disk Partitions
Teradata并行的机制
每
个
并
AMP
行
单
AMP
元
AMP
只
AMP1
管
理
Reading Writing
Sorting
自
AAMgPgr4eg的at数ing据
己
Building Indexes
Row LockinAgMP3的数据TJroaunrsnaaclitziionng
关于TERADATA
•Teradata 是全球最大的专注于数据 仓库、咨询服务及企业分析方案的提 供商,凭借业界领先的数据库、数据 仓库解决方案、性能卓越的可扩展平 台以及全球2000多个大型数据仓库项 目的客户成功经验,成就了公司在数 据仓库领域的创新领导地位。
Gartner 评选Teradata为数据仓库领导厂商