informatic大数据手册
Informatica_PowerCenter 参数和变量使用指南
Informatica PowerCenter 参数和变量使用指南中国区唯一总代理神州数码(中国)有限公司2014年目录第一章参数和变量 (3)1、概述 (3)2、参数与变量存在的三种形式 (4)2.1系统级变量 (4)2.2 Mapping级参数与变量 (4)2.3 参数文件级参数与变量 (10)第二章参数文件格式 (12)1、标题格式和适用范围 (12)2、参数和变量类型 (13)3、实例 (13)第三章参数文件使用要点 (15)1、创建准则和使用注意事项 (15)2、PMCMD中使用参数文件 (17)第四章应用案例介绍 (18)1、定义M APPING的变量。
(18)2、在E XPRESSION组件中引用变量 (19)3、定义W ORKFLOW变量 (19)4、在E VENT W AIT组件中引用变量 (20)5、在S ESSION中引用变量 (21)6、在C OMMAND组件中引用变量 (22)7、参数文件定义 (22)8、S ESSION参数文件引用设置 (23)9、W ORKFLOW参数文件引用设置 (24)10、W ORKFLOW流程图 (24)第一章参数和变量1、概述参数和变量可以定义在工作流、工作集或会话中。
您可以使用WordPad 或Notepad 等文本编辑器来创建参数文件。
您在参数文件中列出参数或变量及其值。
参数文件可以包含以下类型的参数和变量:◆Integration Service变量◆Integration Service process变量◆Workflow变量◆Worklet变量◆Session参数◆Mapping参数和变量当您在工作流、工作集或会话中使用参数或变量时,PowerCenter Server将检查参数文件以确定参数或变量的开始值。
您可以使用参数文件来初始化工作流变量、工作集变量、映射参数和映射变量。
如果您不定义这些参数和变量的开始值,PowerCenter Server将在其它位置检查参数或变量的开始值。
INFORMIX数据库技术手册
目录数据库对象数据块——————————————————4 数据空间—————————————————4 数据库——————————————————4 数据表——————————————————4 索引———————————————————6 视图———————————————————7 查询———————————————————7 存储过程—————————————————8 触发器——————————————————10 组合———————————————————11性能调节语句分析Set Isolation ———————————————11Set Optimization —————————————11Set Pdqpriority ——————————————12Set Lock Mode ——————————————12Set Log —————————————————12Lock Table ————————————————12 Set Transaction ——————————————12常用命令Set Explain ———————————————12Unload to ————————————————12Load ——————————————————12常用实用程序onmonitor ————————————————13 dbaccess ————————————————13 dbschema ————————————————13 dbexport、dbimport ———————————13 onstat ————————————————13 oncheck ————————————————13 onmode ————————————————13其他—————————————————13Esql语法头文件的引用———————————————13 嵌入式语法————————————————13 执行动态语句———————————————14 游标使用分析———————————————15 ESQL数据类型——————————————19 UNIX编译命令——————————————20环境和配置文件sqlhosts ------------------------------- 20系统安全------------------------------------------ 21配置文件(onconfig) ---------------------------------- 211 ADTERR ---------------------------------------- 212 ADTMODE -------------------------------------- 213 ADTPATH ---------------------------------------- 214 ADTSIZE ----------------------------------------- 215 AFF_NPROCS ----------------------------------- 226 AFF_SPROC ------------------------------------- 227 MULTIPROCESSOR ---------------------------- 228 NUMCPUVPS ------------------------------------- 229 NUMAIOVPS ------------------------------------- 2210 SINGLE_CPU_VP --------------------------------- 2311 ALARMPROGRAM ------------------------------- 2312 CONSOLE ---------------------------------------- 2313 MSGPATH ---------------------------------------- 2314 BUFFERS ---------------------------------------- 2315 SHMADD ---------------------------------------- 2416 SHMBASE --------------------------------------- 2417 SHMVIRTSIZE ---------------------------------- 2418 SHMTOTAL -------------------------------------- 2419 STACKSIZE -------------------------------------- 2420 CHUNKS ----------------------------------------- 2521 DBSPACE ---------------------------------------- 2522 DBSPACETEMP --------------------------------- 2523 TBLSPACES -------------------------------------- 2524 ROOTNAME-------------------------------------- 2625 ROOTOFFSET ------------------------------------ 2626 ROOTPATH --------------------------------------- 2627 ROOTSIZE----------------------------------------- 2628 SERVERNUM ------------------------------------- 2629 DBSERVERNAME -------------------------------- 2730 DBSERVERALIASE ------------------------------ 2731 NETTYPE ---------------------------------------- 2732 MIRROR ----------------------------------------- 2733 MIRRORPA TH ----------------------------------- 2834 MIRROROFFSET -------------------------------- 2835 LOGFILES -------------------------------------- 2836 LOGBUFF ---------------------------------------- 2837 LOGSIZE ----------------------------------------- 2938 LOGMAX ---------------------------------------- 2939 DUMPDIR --------------------------------------- 2940 DUMPCNT -------------------------------------- 2941 DUMPCORE ------------------------------------- 2942 DUMPGCORE ------------------------------------ 2943 DUMPSHMEM ----------------------------------- 3044 TAPEDEV ---------------------------------------- 3045 TAPEBLK ---------------------------------------- 3046 TAPSIZE ---------------------------------------- 3147 LTAPEDEV -------------------------------------- 3148 LTAPEBLK -------------------------------------- 3149 LTAPESIZE -------------------------------------- 3150 CHPTINTV AL ------------------------------------ 3151 CLEARNERS ------------------------------------- 3152 DATASKIP ---------------------------------------- 3253 NOAGE -------------------------------------------- 3254 FILLFACTOR -------------------------------------- 3255 OPTCOMPIND ------------------------------------ 3256 RESIDENT ----------------------------------------- 3357 STAGEBLOB --------------------------------------- 3358 TXTIMEOUT -------------------------------------- 3359 USEOSTIME -------------------------------------- 3360 TRANSACTIONS ------------------------------ ----- 3361 LOCKS ------------------------------------------ 3462 DEADLOCK_TIMEOUT ------------------------- 3463 USERTHREADS ---------------------------------- 3464 PHYSDBS ---------------------------------------- 3565 PHYSFILE --------------------------------------- 3566 PHYSBUFF --------------------------------------- 3567 MAX_PDQPRIORITY ---------------------------- 3568 PDQPRIORITY ---------------------------------- 3669 DRAUTO ---------------------------------------- 3670 DRINTERV AL ----------------------------------- 3671 DRLOSTFOUND ----------------------------------- 3672 DRTIMEOUT ------------------------------------- 3773 DS_MAX_QUERIES ------------------------------- 3774 DS_MAX_SCANS --------------------------------- 3775 DS_TOTAL_MEMORY ---------------------------- 3976 LRUS ------------------------------------------- 3977 LRU_MAX_DIRTY ------------------------------- 3978 LRU_MIN_DIRTY --------------------------------- 4079 LTXEHWM --------------------------------------- 4080 LTXHWM ----------------------------------------- 4081 OFF_RECVRY_THREADS --------------------------4182 ON_RECVRY_THREADS ---------------------------- 4183 RA_PAGES ---------------------------------------- 4184 RA_THRESHOLD --------------------------------- 42一数据库对象分析:数据库对象的建立,修改与删除操作一般不应放在一个事务中,它的执行会自动导致提交动作,将破坏事务的完整性。
informatic大数据手册
informatic大数据手册informatic大数据手册1.介绍1.1 概述本文档是informatic大数据系统的手册,旨在提供有关该系统的详尽信息和操作指南。
1.2 目标读者本文档面向informatic大数据系统的管理员、开发人员和用户。
2.安装和配置2.1 系统要求详细列出informatic大数据系统的硬件和软件要求。
2.2 安装步骤提供安装informatic大数据系统的详细步骤,包括、解压、配置等。
2.3 配置指南说明如何配置informatic大数据系统的各项参数和选项。
3.数据管理3.1 数据导入介绍如何将数据导入informatic大数据系统,包括批量导入和实时导入两种方式。
3.2 数据存储详细介绍informatic大数据系统支持的数据存储方式,如HDFS、NoSQL数据库等。
3.3 数据处理指导用户如何使用informatic大数据系统进行数据处理,包括数据清洗、转换、合并等操作。
4.数据分析和挖掘4.1 数据查询介绍如何使用informatic大数据系统进行高效的数据查询,包括SQL查询和高级查询。
4.2 数据可视化介绍如何通过数据可视化工具将分析结果呈现出来,如图表、仪表盘等。
4.3 数据挖掘详细介绍informatic大数据系统支持的数据挖掘算法和工具,包括分类、聚类、关联规则挖掘等。
5.系统管理5.1 用户管理说明如何管理informatic大数据系统的用户,包括用户创建、权限管理等。
5.2 任务调度介绍如何配置和管理informatic大数据系统的任务调度,包括定时任务、依赖关系等。
5.3 日志和监控介绍如何查看和分析informatic大数据系统的日志,并对系统性能进行监控。
6.故障排除6.1 常见问题解答罗列并解答用户在使用informatic大数据系统过程中常遇到的问题。
6.2 故障排查指南提供一套详细的故障排查流程和方法,以帮助用户解决系统故障。
7.附件本文档附带以下附件供参考和使用:7.1 示例数据提供一些示例数据,供用户进行实验和练习。
Informatic_安装手册
Informatica 安装手册版本:V1.0All rights reserved版权所有侵权必究文档修订记录目录1简介 (4)1.1编写目的 (4)1.2范围 (4)2运行环境 (4)2.1硬件平台 (4)2.2软件平台 (4)3使用者 (4)4BUILD版本须知 (6)5数据库搭建 (6)5.1创建数据库实例 (6)5.2创建数据库表空间、用户和角色 (6)5.2.1创建表空间 (6)5.2.2创建用户 (6)6INFORMATICA POWERCENTER8.5.1 安装 (9)6.1准备工作 (9)6.2开始安装 (10)6.2.1上传Informatica安装介质和license.key到服务器上 (10)6.2.2Informatica安装过程 (10)6.3环境变量配置 (16)6.4启停服务 (17)7INFORMATICA配置 (18)7.1.1登陆PowerCenter Administrator Console (18)7.1.2创建Repository Service (19)7.1.3创建Integration Service (20)7.1.4客户端连接配置 (22)7.1.5建立Folder (24)7.1.6创建连接串 (26)7.1.7导入ETL开发程序 (28)7.1.8Assign Integration Service (33)7.2修改I NFORMA TICA知识库配置文件 (34)1 简介1.1 编写目的本文档详细说明了Informatica的安装步骤。
通过该文档,Informatica的最终使用者将能够顺利的搭建Informatica的运行环境。
1.2 范围该文档适用环境的相关部署人员,文档使用者需要对UNIX、Linux、Aix、Weblogic和ORACLE比较熟悉,如有必要请参考相关文档。
2 运行环境2.1 硬件平台无。
2.2 软件平台服务器⏹IBM AIX,Linux,Windows,HP-UX。
原创Informatica使用说明(图解)
Informatica使用说明(图解)唾沫星冲锋枪 2013-4-22目录前言 (3)第一篇环境搭建 (3)服务器 (3)准备 (3)安装 (3)配置 (17)客户端 (23)准备 (23)安装 (24)介绍 (28)第二篇开发应用 (28)Repository Manager (28)环境介绍 (28)配置目录 (31)Designer (33)环境介绍 (33)配数据源 (34)引入数据源 (36)引入数据目标表 (38)制作Mapping (40)WorkFlow Manager (43)制作session (43)配置服务器数据源 (44)配置session源 (46)配置session目标 (47)制作workflow (48)执行workflow (50)WorkFlow Monitor (50)第三篇监控维护 (51)基本信息查看 (51)运行时间查看 (51)Session日志查看 (52)Workflow日志查看 (52)结束语 (53)前言个人从事ETL方面工作多年,各种工具都有一定了解,POWERCENTER是较为优秀的产品之一。
POWERCENTER是C/S模式,客户端开发服务器运行,本文主要介绍POWERCENTER 基本使用部分,详细的各个组件使用可以查阅相关帮助文档。
第一篇环境搭建服务器准备因为INFORMATICA把配置信息和开发的ETL过程信息都保存在资料库里,所以要预先准备一个数据库资料库。
本文采用oracle做资料库,名称INFO用户INFO密码INFO,配置好数据库的监听。
安装找到软件SERVER目录下的install.bat运行。
POWERCENTER的授权文件是按数据库接口出售的,支持数据库越多价格越高。
这里请注意配置,之前准备好的数据库资料库。
安装完成后可以查看一下服务项里面是否正常。
安装补丁。
因机器不同选择相应的补丁版本,如64位server系统需要补丁。
Informatica数据隐私管理说明书
Key Benefits• Protection and monitoring of personal and sensitive data to fuel data-driven digital transformation and support for privacy and compliance efforts• Centralized visibility across data platforms and types, providing the support needed for today’s complex environments• Continuous risk analysis of personal and sensitive data,to prioritize resources and investments across functional, geographic, and line of business views• AI-driven detection to uncover high-risk, anomalous data usage • A single view of data subjects’ information to provide identity capabilities (rights and consents requests) required for GDPR, CCPA and other privacy legislation• Automated orchestration and protection with sensitive data intelligence remediates privacy and security risks Metadata-driven Intelligence and Automation to Operationalize PrivacyInformatica® Data Privacy Management helps you discover, classify, analyze, protect and monitor personal and sensitive data across your organization. It leverages artificial intelligence (AI) to deliver actionable data discovery and classification, risk scoring, data subject identity capabilities, behavioral analytics, and automated protection in a single solution. It supports structured, semi-structured and unstructured data in the cloud, on premises, in big data stores, and in relational and mainframe systems.Informatica Data Privacy Management helps you prioritize data protection and privacy investments, policies, processes, and programs:• Discover and classify your sensitive data: Gain global visibility into personal and sensitive data across the enterprise with data classification, discovery, proliferation and process analysis, user access, and activity correlation.• Map individual identities to sensitive data: Understand sensitive data by individual identities and quickly locate an individual’s sensitive data to support privacy requests.• Analyze and monitor privacy risk: Track data risk and remediation of misuse and privacy violations based on multiple factors, customize to your organization’s needs, and identify top risk areas based on privacy regulation requirements. Risk simulation helps you understand the impact of data controls before implementation.• Continuously monitor data movement, access, and user activity: Leverage analytics to detect suspicious or unauthorized data access by continuously correlating, baselining, analyzing, and alerting on high-risk conditions and potential anomalous behaviors that threaten sensitive data.• Protect personal and sensitive data and remediate risk: Automate the orchestration of data security controls to protect data at rest and in use, prevent unauthorized access, and de-identify/anonymize/pseudonymize sensitive data. Initiate remediation workflows with custom scripting, automated email notifications of security policy violations, ServiceNow integration, andout-of-the-box third-party protection integration.Data SheetKey FeaturesDiscover and Classify Sensitive Data• Discover, classify and analyze the risk of sensitive and personal data across the enterprise—in structured data across traditional relational databases, including mainframes; semi-structured and unstructured data in environments such as Hadoop repositories, Amazon S3; file mounts (e.g., CIFS); and SharePoint.• Attain complete sensitive data visibility with dashboards and drill-downs to identify functional and organizational information such as department, application, user, and data storage types.• Gain a complete understanding of data, its movement, and its usage in business processes with proliferation tracking and interactive visualizations—both inside and outside the enterprise and between partner and client organizations.Figure 1. Informatica Data Privacy Management provides 360-degree visibility of sensitive data through its dashboard.Support Regulatory Compliance• Accelerate and continuously measure regulated privacy data compliance with risk scoring based on customizable factors, including data sensitivity, volume, protection, proliferation, location, and user activity.• Apply a combination of data domains to define GDPR, CCPA, PII, PHI, and PCI risks relevantto policies, laws, and regulations.• Leverage subject registry for a single view of data subjects across structured and unstructured data. Provide automated matching and linking of data subjects’ records for privacy legislation compliance and to support the execution and management of subject rights and consent requests.• Enforce compliance with automated remediation, stakeholder notification, continuous monitoring of user behavior and sensitive data proliferation across data stores and geographic locations.About InformaticaDigital transformationchanges expectations: betterservice, faster delivery, withless cost. Businesses musttransform to stay relevantand data holds the answers.As the world’s leader inEnterprise Cloud DataManagement, we’re preparedto help you intelligently lead—in any sector, category, orniche. Informatica providesyou with the foresight tobecome more agile, realizenew growth opportunities, orcreate new inventions. With100% focus on everythingdata, we offer the versatilityneeded to succeed.We invite you to exploreall that Informatica hasto offer—and unleash thepower of data to drive your next intelligent disruption.Worldwide Headquarters 2100 Seaport Blvd., Redwood City, CA 94063, USA Phone: 650.385.5000, Toll-free in the US: 1.800.653.3871IN06_1120_03836© Copyright Informatica LLC 2020. Informatica and the Informatica logo are trademarks or registered trademarks of Informatica LLC in the United States and other countries. A current list of Informatica Protect Personal and Sensitive Data • Identify critical data protection priorities and create plans to support privacy by design objectives.• Protect sensitive data with automated remediation that leverages integrated Informatica Dynamic Data Masking, Persistent Data Masking, and third-party protection methods such as Hortonworks Ranger and Cloudera Sentry.• Integrate with custom scripts, email notifications, system log messages, or ServiceNow tickets. Configure these actions to run when triggered by security policy violations or run them manually when potential risks are detected.For more information, visit the Data Privacy Management Product Page。
Informatica 参数的使用
1、定义参数文件Mapping Parameters(参数) 和 Variables(变量)的使用如果你在一个mapping中多次用到同一个值,又或者mapping中要用到一个在session运行才能决定的值,这时候可以使用mapping parameters或variable。
Mapping参数变量的命名方式:$$NAME存放参数变量的.txt文件的格式:[folder_name.session_name]parameter_name=valuevariable_name=valuemapplet_name.parameter_name=value[folder_name.session2_name]parameter_name=valuevariable_name=valuemapplet_name.variable_name=value[folder2_name.session_name]parameter_name=valuevariable_name=valuemapplet_name.parameter_name=value例如:[Common_Dimension.s_M_Inventory]$$BeginDate=2007-07-01$$EndDate=2007-07-31$$IsCurrentDay=0$DBConnection_Source=EM$DBConnection_Target=DC$PMSessionLogDir=C:\para2、添加参数或变量的方法是:选择Mappings-Parameters and Variables,在窗口新增变量或者参数,并对它的数据类型,数据大小,初始值进行设置。
添加的参数和变量在本mapping 的transformation的表达式中就可以使用了。
这些参数和变量的值还可以设置在.txt文件中,建session或者batch的时候把这个文件的路径设置在Parameter输入框中就行了。
Informatica主数据管理解决方案
11
平台需要的能力
5
数据发布
为应用和数据仓库交付可信的数 据
4
数据管理
管理统一、可信、真实的主数据
3
数据清洗
数据清洗和标准化
2
数据探索
剖析、发现数据内容、一致性、数据结构
1
数据获取
从不同的应用和数据源访问、获取数据
Content Embargo Until June 4th, 2013 at 5:00pm PST
Du重pli复ca性tio: n: Fuz模zy糊m匹at配ching 完整合性法: 性: 丢失关非键法数格值式
一致性: 数据C是on格si式ste正n确cy并: 完整,
In但co不rre符ct合F业orm务a逻t 辑
值域划分: 界定数值范围
准关确联性性: : 须利识用别其记他录数关据系来 验证其准确程度
跨越多行业的客户解决方案 (25+ solutions)
部署情况
大量案例证明在多域主数据部署的 能力
快速部署 平均上线时间: 3-9 个月 最具伸缩性解决方案 最大 450M 主
记录数的成功案例
可验证的多域主数据 几乎一半的客 户都在统一平台上部署了客户和产品域
Content Embargo Until June 4th, 2013 at 5:00pm PST
完整的主数据视图
不同主数据是业务的 不同视角: • 客户角度
• 产品、服务 • 机构 • 资源 • 产品角度 • 客户 • 资源 • 机构 • 供应商角度 • 产品 • 机构角度 • 产品 • 客户 • 资源 • 资源角度 • 机构 • 产品 • 客户
金融客户
意外
储蓄
机票
积分
主数据管理和数据迁移-Informatica
主数据管理和数据迁移-Informatica白皮书主数据管理和数据迁移本文档含有Informatica Corporation 的保密、专有信息和商业秘密信息(“机密信息”),事先未经Informatica 的书面同意,不得进行拷贝、散发、复印或以任何其它方式复制。
尽管我们尽最大努力确保本文档中信息的准确性和完整性,但仍可能存在一些印刷错误或技术误差。
如因使用本文档所含信息而造成任何损失,Informatica 概不负责。
本文档中包含的信息随时可能更改,恕不另行通知。
Informatica 自行决定将这些材料中讨论的产品属性纳入其任何软件产品的发布或升级中,并自行决定任何此类发布或升级的时间安排。
受下列一项或多项美国专利保护:6,032,158;5,794,246;6,014,670;6,339,775;6,044,374;6,208,990;6,850,947;6,895,471;或受下列正在申请的美国专利保护:09/644,280;10/966,046;10/727,700。
此版本发布于 2014 年 11 月白皮书目录MDM 对数据迁移为何至关重要 (2)第 1 个问题:进行苹果与苹果的比较 (2)按时启动:中间步骤 (3)案例:若干产品 (4)第 2 个问题:质量至关重要 (4)案例:整合公司总部系统和本地系统 (5)数据迁移是提升 MDM 价值的途径 (5)主数据管理和数据迁移1本白皮书描述主数据管理对数据迁移项目日益增长的重要性、有用之处和最佳部署选项,其中包括相关案例研究。
MDM 对数据迁移为何至关重要每个新系统均需要数据来促进活动的启动。
大多数新系统需要若干数据。
如今,除了通过邮局地址文件等外部源丰富新系统以外,我们正在将大量遗留源中的数据迁移至新系统。
Informatica 数据迁移工具套件将部署一整套技术和最佳实践流程,旨在解决当今数据迁移场景中涌现的一系列挑战。
但首先,我们一起来看看市场背景。
Informatica 10.1 引用数据指南说明书
Informatica®10.1引用数据指南Informatica 引用数据指南10.12016年6 月© 版权所有 Informatica LLC 2013, 2018本软件和文档包含 Informatica LLC 的专有信息,基于一份包含使用及披露限制的许可协议而提供,并受版权法保护。
禁止对本软件进行反向工程处理。
未事先征得 Informatica LLC 同意,不得以任何形式、通过任何手段(电子、影印、录制或其他手段)复制或传送本文档的任何部分。
本软件受美国和/或国际专利以及其他正在申请的专利的保护。
美国政府使用、复制或披露本软件受适用的软件许可协议中规定的限制以及适用的 DFARS 227.7202-1(a) 和 227.7702-3(a) (1995)、DFARS 252.227-7013(C)(1)(ii) (OCT 1988)、FAR 12.212(a) (1995)、FAR 52.227-19 或 FAR 52.227-14 (AL T III) 中的限制之制约。
本产品或文档中的信息如有更改,恕不另行通知。
如发现本产品或文档中有什么问题,请以书面形式向我们报告。
Informatica、Informatica Platform、Informatica Data Services、PowerCenter、PowerCenterRT、PowerCenter Connect、PowerCenter Data Analyzer、PowerExchange、PowerMart、Metadata Manager、Informatica Data Quality、Informatica Data Explorer、Informatica B2B Data Transformation、Informatica B2B Data Exchange Informatica On Demand、Informatica Identity Resolution、Informatica Application Information Lifecycle Management、Informatica Complex Event Processing、Ultra Messaging、Informatica Master Data Management 和 Live Data Map 是 Informatica LLC 在美国和全球其他辖区的商标或注册商标。
InformaticaPowercenter使用手册_V1.0
InformaticaPowercenter使⽤⼿册_V1.0—Informatica Powercenter使⽤⼿册⽂档作者:BI项⽬组创建⽇期:2010-01-24更新⽇期:2010-01-24控制编码:当前版本: 1.0⽂档控制变更记录2审核分发未决与已结问题未决问题已结问题⽬录1概述 (7)1.1项⽬范围 (7)1.2读者对象 (7)1.3参考⽂档 (7)2软件简介 (8)2.1概念 (8)2.2作⽤ (8)3⼯具设置 (9)3.1R EPOSITORY M ANAGER (9) 3.1.1登陆Repository Manager (10) 3.1.2修改密码 (10)3.1.3添加外部⼯具 (10)3.2D ESIGNER (11)3.2.1登陆Desiger (12)3.2.2修改密码 (12)3.2.3添加外部⼯具 (12)3.2.4设置样式 (12)3.2.5其他选项 (14)3.3W ORKFLOW M ANAGER (14) 3.3.1登陆WorkFlow Manager (14) 3.3.2添加外部⼯具 (14)3.3.3设置样式 (15)3.3.4其他选项 (15)3.4W ORKFLOW M ONITOR (15) 3.4.1登陆WorkFlow Monitor (15) 4ETL开发 (17)4.1创建资料库 (17)4.2配置ODBC数据源 (18)4.3导⼊数据源表 (22)4.4导⼊⽬标源表 (26)4.6创建W ORK F LOW (31)4.7运⾏W ORKFLOW (34)4.8监视查看运⾏ (34)5转换组件 (36)5.1概览 (36)5.2S OURCE Q UALIFIER (38)5.3U PDATE S TRATEGY (39)5.4E XPRESSION (40)5.5L OOKUP (40)5.6A GGREGATOR (41)5.7F ILTER (42)5.8J OINER (42)5.9N ORMALIZER (43)5.10R OUTER (44)5.11S EQUENCE (44)5.12S ORTER (45)5.13U NION (45)5.14R ANK (46)5.15P ROCEDURE (46)5.16T RANSACTION C ONTROL (46)5.17SQL (48)5.18XML (49)5.19J AVA (56)5.20C USTOMER T RANSFORMATION (57)6特定实例 (60)6.1维度表 (60)6.1.1导⼊数据源和⽬标源 (60)6.1.2创建mapping (60)6.1.3创建WorkFlow (66)6.1.4运⾏WorkFLow (69)6.2事实表 (70)8附件 (75)1 概述本⽂档可作系统管理员安装PowerCenter时参考指南,安装⼈员最好具备⼀定操作系统、关系数据库、数据库引擎相关知识。
Informatica主数据管理建设方案
Informatica主数据管理建设方案一、引言主数据管理(MDM)是一种重要的信息管理方法,旨在通过集中管理和维护核心业务数据,提高数据质量、一致性和可信度。
在当今信息化的时代,企业对于数据的管理和利用变得日益重要和复杂。
本文将探讨使用Informatica主数据管理来建立一个有效的数据管理方案。
二、背景随着企业规模和业务的不断扩展,数据的新增和更新速度快,数据质量问题也日益显现。
在此背景下,建立一个可靠的主数据管理系统是企业提高数据质量、强化数据治理的关键一环。
Informatica主数据管理软件为企业提供了集成数据管理、数据质量和数据治理的平台,具备高度可扩展性和灵活性,为企业的主数据管理需求提供了综合的解决方案。
三、方案概述1. 系统架构基于Informatica主数据管理的建设方案主要分为以下几个关键组成部分:- 数据集成层:负责将主数据集成到各个业务系统中,确保数据的实时性和一致性。
- 数据存储层:用于存储和管理企业的主数据,包括客户、产品、供应商等核心数据。
- 数据质量层:通过数据质量规则和验证流程,提高数据质量和准确性。
- 数据治理层:确保数据的规范性和合规性,设立数据管理的流程和权限控制。
2. 数据模型设计与实施为了有效管理企业的主数据,建立一个合理的数据模型是至关重要的。
通过Informatica主数据管理软件,可以根据各个业务需求进行数据模型的设计和定制。
根据企业的需求,可以定义不同类型的主数据实体,如客户、产品、供应商等,并在层级结构中进行组织和管理。
3. 数据集成与同步通过Informatica主数据管理的数据集成层,将主数据与各个业务系统进行集成和同步,确保各个系统的数据一致性和准确性。
可以利用Informatica的强大的ETL工具,构建数据集成和同步的工作流程,实现数据的实时同步和更新。
4. 数据质量管理Informatica主数据管理软件提供了强大的数据质量管理功能。
Informatic_安装手册
Informatica 安装手册版本:V1.0All rights reserved版权所有侵权必究文档修订记录目录1简介 (4)1.1编写目的 (4)1.2范围 (4)2运行环境 (4)2.1硬件平台 (4)2.2软件平台 (4)3使用者 (4)4BUILD版本须知 (6)5数据库搭建 (6)5.1创建数据库实例 (6)5.2创建数据库表空间、用户和角色 (6)5.2.1创建表空间 (6)5.2.2创建用户 (6)6INFORMATICA POWERCENTER8.5.1 安装 (9)6.1准备工作 (9)6.2开始安装 (10)6.2.1上传Informatica安装介质和license.key到服务器上 (10)6.2.2Informatica安装过程 (10)6.3环境变量配置 (16)6.4启停服务 (17)7INFORMATICA配置 (18)7.1.1登陆PowerCenter Administrator Console (18)7.1.2创建Repository Service (19)7.1.3创建Integration Service (20)7.1.4客户端连接配置 (22)7.1.5建立Folder (24)7.1.6创建连接串 (26)7.1.7导入ETL开发程序 (28)7.1.8Assign Integration Service (33)7.2修改I NFORMA TICA知识库配置文件 (34)1 简介1.1 编写目的本文档详细说明了Informatica的安装步骤。
通过该文档,Informatica的最终使用者将能够顺利的搭建Informatica的运行环境。
1.2 范围该文档适用环境的相关部署人员,文档使用者需要对UNIX、Linux、Aix、Weblogic和ORACLE比较熟悉,如有必要请参考相关文档。
2 运行环境2.1 硬件平台无。
2.2 软件平台服务器⏹IBM AIX,Linux,Windows,HP-UX。
Informatica白皮书-提高业务用户的主数据采纳率
ⱑⲂк提高业务用户的主数据采纳率利用 Informatica MDM Data Controls 在业务应用程序内访问主数据,增强业务能力本文档含有 Informatica Corporation 的保密、专有信息和商业秘密信息(“机密信息”),事先未经 Informatica 的书面同意,不得进行拷贝、散发、复印或以任何其它方式复制。
尽管我们尽最大努力确保本文档中信息的准确性和完整性,但仍可能存在一些印刷错误或技术误差。
如因使用本文档所含信息而造成任何损失,Informatica 概不负责。
本文档中包含的信息随时可能更改,恕不另行通知。
Informatica 自行决定将这些材料中讨论的产品属性纳入其任何软件产品的发布或升级中,并自行决定任何此类发布或升级的时间安排。
受下列一项或多项美国专利的保护: 6,032,158;5,794,246;6,014,670;6,339,775;6,044,374;6,208,990;6,850,947;6,895,471;或受下列正在申请的美国专利的保护:09/644,280; 10/966,046; 10/727,700.此版本发布于 2010 年 11 月白皮书目录引言 . . . . . . . . . . . . . . . . . . . . . . . . . 2借助于在业务应用程序中访问主数据,增强业务能力 . . . . 2 Informatica MDM Data Controls:深入了解 . . . . . . . . . . 3层级控件: . . . . . . . . . . . . . . . . . . . . . . . . . . . 4历史控件: . . . . . . . . . . . . . . . . . . . . . . . . . . . 5集成架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6总结 . . . . . . . . . . . . . . . . . . . . . . . . . 8关于 Informatica MDM . . . . . . . . . . . . . . . . . 9关于 Informatica . . . . . . . . . . . . . . . . . . . . 9提高业务用户的主数据采纳率12引言主数据管理(MDM )能够让企业完成三项工作: 1) 凭借有关客户、产品、渠道合作伙伴、供应商和资产的及时而可信的关键业务信息,增强其业务用户的能力,这些信息亦被称为主数据;2) 管理主数据层级结构;及 3) 跟踪主数据的历史变更。
informix数据库手册
当指定给online系统一个chunk后,该chunk就会被划分为一些更小的称为页(page)的单位。页是online系统的基本I/O单位,所有存储在online系统中的数据实际都存储在页上。例如,如果你想为一个数据库表存储一行,该行的内容就会存储在一个页中;如果您想从数据库中读取一行,存储该行内容的整个页都会被读取到共享内存的缓冲区中。当某个特定的机器/操作系统确定后,online系统的页大小也就确定了。最常用的页大小为2K,也有的系统使用4K的页。Online系统中页的大小是不可改变的。
1.2.6存储过程
Create [dba] Procedure ProcedureName(ParameterList) [ReturningClause]
[OnExceptionProcess][MainStatementBlock]EndProcedure;
带有dba属性时,存储过程对象便具有dba(DatabaseAmphitryon)(dba_privilege)属性,否则,它为主人特权(owner_privilege)属性。OnExceptionProcess处理意外事件。Return VariableList[With Resume]将结果返回,WithResume标识使存储过程返回后再次跳到返回点执行后面的语句,所以Informix存储过程有返回多行结果的特性,它可以作为数据窗口的数据源,在各种数据库开发工具中,我们可以使用游标来取得它的多行返回结果。
(ColumnNameListWithAscOrDesc) FillFactor percent [In DBSpace|FragmentClause]
当在一个表上某列已建立UniqueConstraint时,便已在该表上建立对应该列的UniqueAscIndex,所以再次在该列上建立Asc索引将失败。我们可以在一个表上建立对应某些列的多个索引,单要求某列的索引顺序只有一种。Cluster指定索引的聚族属性,具有聚族索引属性表的物理存储顺序将重新安排与其索引一致。它将加速表的查询与修改,但对表的插入和删除将需要更大的开销。并且索引的聚族属性对应单位为DBSpace,而非整个表。一个表最多只能有一个聚族索引,但Alter Index IndexName To [Not] Cluster语句可以将聚族属性移到另外一个索引上。
Informatica 10.4.0 剖析入门指南说明书
Informatica®10.4.0剖析入门指南Informatica 剖析入门指南10.4.02019年12 月© 版权所有 Informatica LLC 2010, 2020本软件和文档仅根据包含使用与披露限制的单独许可协议提供。
未事先征得 Informatica LLC 同意,不得以任何形式、通过任何手段(电子、影印、录制或其他手段)复制或传播本文档的任何部分。
Informatica 和 Informatica 标志是 Informatica LLC 在美国和世界其他许多司法管辖区的商标或注册商标。
欲获得 Informatica 商标的最新列表,请访问 https:// /trademarks.html。
其他公司和产品名称可能是其各自所有者的商业名称或商标。
美国政府权利交付给美国政府客户的程序、软件、数据库及相关文档和技术数据是指适用的联邦采购条例和政府机构特定补充条例中定义的"商业计算机软件"或"商业技术数据"。
因此,使用、复制、披露、修改和改编应遵循适用的政府合同中规定的限制和许可条款、政府合同条款的适用范围以及 FAR 52.227-19 商用计算机软件许可中规定的额外权利。
本软件和/或文档中的若干部分受第三方版权约束。
所需的第三方声明随产品一起提供。
本文档中的信息如有更改,恕不另行通知。
如发现本文档中有什么问题,请通过以下电子邮件地址向我们报告:**********************************。
Informatica 产品根据对应协议的条款和条件进行担保。
INFORMATICA 按"原样"提供本文档中的信息,无任何明示或暗示的担保,包括但不限于任何适销性和特定用途适用性担保,也没有任何非侵权担保或条件。
发布日期: 2020-02-04目录前言 (6)Informatica 资源 (6)Informatica Network (6)Informatica 知识库 (6)Informatica 文档 (6)Informatica 产品可用性矩阵 (7)Informatica Velocity (7)Informatica Marketplace (7)Informatica 全球客户支持部门 (7)第 1章: 入门概览 (8)剖析概览 (8)介绍 Informatica Analyst (9)Informatica Analyst 用户界面 (9)Informatica Developer 用户界面 (11)Informatica Developer 欢迎页 (12)备忘单 (12)Informatica Developer 任务 (13)教程讲解 (13)教程结构 (13)教程先决条件 (14)Informatica Analyst 教程 (14)Informatica Developer 教程 (15)第 I部分: Informatica Analyst 入门 (16)第 2章: 课程 1。
Infomatica配置手册
Infomatica配置手册1. 配置域选择“存储库”-> “配置域”,点击“新增域”,填写相关信息,如图:网关主机‘p520-23’,在host中配置Informatica服务器的地址。
此处配置为:192.168.1.23 p520-23。
选择本案例用的RS_JSEPC库,点击确定后会在主界面出现。
双击RS_JSEPC,输入用户名,密码。
2. Informatica PowerCenter Designer配置2.1 源表的导入首先需要选择开发此场景的文件夹,然后右击打开。
点击图标进入源设计界面。
选择“源”->“从数据库导入”。
然后配置数据库信息,如图:然后输入用户名密码,进入选择需要做为源的表,点击确定,如图:2.2 目标表的导入点击图标,切换到目标设计页面,然后点击”目标”->”从数据库导入”。
配置数据库信息同源配置。
2.3 映射的配置点击图标,切换到映射的设计界面。
在工具栏中选择“映射“->”创建”,给映射按规范的格式命名。
如图:然后把源,目标都拖放到此映射设计界面中,并对源表字段和目标字段做Mapping。
3. Informatica ProCenter Workflow Manager配置3.1新建工作流首先需要选择开发此场景的文件夹,然后打开。
选择“工作流“->”向导”,第一步:输入工作流的名称。
下一步:选择Designer中相关的映射。
如图:下一步:计划工作流,设置工作流的触发时间。
例如:此处设置的是从现在起每15分钟运行一次。
点击完成。
如图:3.2 设计工作流3.2.1编辑任务按顺序编辑任务,双击打开,选择“映射”。
点击“源”,如图:然后配置源的数据库连接,点击。
选择源相对性的数据库连接名,此处JSEPC_D_ECCED为BI组服务器配置的SAP ECC连接的名称。
如需要配置新的连接需要新建一个连接。
此处服务器上面配置数据库连接信息需要提供给BI组。
Informatica安装手册
Informatica8.1安装与部署说明书2008年01月22日版本:Version 0.x修改历史审批签名(Signature) 日期(Date)签名(Signature) 日期(Date)文档说明参考文档Informatica8.1.1安装说明哪些人员需要参考本文综合业务平台项目组人员本说明书的相关文档列出与本说明书相关的文档列表缩略语和术语对英文大写联拼信息或专业术语进行解释说明Informatica8.1安装与部署说明书 (1)1 安装前准备工作 (5)1.1系统配置清单 (5)1.2安装JDK (6)1.3在数据库上的准备 (6)2 Informatica8.1.1Server的安装 (7)2.1Informatica8.1.1Server端安装 (7)2.2指定DA和MM的license key (11)2.3指定PowerCenter的安装根路径 (12)2.4指定DA和MM的Application Server(选择应用服务器) (13)2.5指定Application Server根路径 (13)2.6阅读安装信息后点击Install继续 (14)2.7安装进程中 (14)2.8选择创建新Domain (15)2.9设定Domain的Metadata库 (15)2.10配置新Domain的信息 (16)2.11Domain和第一个Node的创建中... (17)2.12配置启动PowerCenter Services的系统用户,本例中不选择直接点击next下一步182.13PowerCenter Services的配置中... . (19)2.14为Metadata Manager配置PowerCenter repository (19)2.15Metadata Manager的Repository Service创建中... . (20)2.16Metadata Manager的PowerCenter Service配置(不选择Create integration Service,character选Unicode) (21)2.17PowerCenter Service的创建中... . (22)2.18为Data Analyzer配置Repository (22)2.19Repository的创建中... .. (23)2.20PowerCenter Services安装成功 (23)3 PowerCenter Client的安装 (24)3.1选定“Client”安装选项 (24)3.2欢迎界面 (25)3.3选择自定义安装 (25)3.4选择要安装的组件 (26)3.5指定PowerCenter的安装根路径 (26)3.6指定Metadata Manger要管理的PowerCenter Repository (27)3.7阅读配置信息后点击Install (28)3.8安装进程中 (28)3.9安装成功 (29)3.10安装成功后可启动指定客户端程序 (29)4 PowerCenter Reports 的安装 (30)4.1选定“Reports”安装选项 (30)4.2欢迎界面 (31)4.3点击next继续 (31)4.4选择自定义安装 (32)4.5选择PowerCenter Reports的Server URL (32)4.6阅读配置信息后点击Install (33)4.7安装进程中 (33)4.8安装成功 (34)5 Informatica配置 (34)5.1client端资料库配置与连接(Informatica客户端的Repository Manager) (34)5.2创建一个文件夹并分配权限 (39)6备份PowerCenter资料库内容 (39)6.1选定资料库,执行Actions->Back Up Contents菜单命令 (39)6.2配置备份资料库的相关信息 (40)6.3资料库内容备份成功 (41)7 删除PowerCenter资料库内容 (43)7.1选定资料库,配置Properties->General Properties->OperatingMode为Exclusive (43)7.2选定资料库,执行Actions->Delete Contents菜单命令 (44)7.3配置有删除权限的用户名/密码 (45)7.4资料库内容删除成功 (46)8恢复PowerCenter资料库内容 (47)8.1选定资料库,执行Actions->Restore Contents菜单命令 (47)8.2选定要恢复的资料库备份文件 (48)8.3资料库内容恢复成功 (49)9 ETL目录结构部署 (49)10元数据目录结构: (51)11 ETL部署 (52)1、开发期 (52)2、运行期 (53)1安装前准备工作1.1 系统配置清单1.2 安装JDKInformatica PowerCenter 8.1的主安装界面是基于JA V A平台建立的,所以在安装前安装JDK(推荐)。
Informatica完全快速学习手册.
1Informatica概述 (3)2安装Informatica8.6.1 (3)2.1服务端安装 (3)2.2客户端安装 (7)3配置管理服务器 (9)3.1创建知识库和集成服务 (9)3.2客户端到集成服务端的连接 (12)4PowerCenter Designer学习 (13)4.1概念和基本定义 (13)4.2Mapping设计和组件的使用 (15)4.2.1实例一:聚合抽取 (15)4.2.2实例二:取TOP前三条记录 (16)4.2.3实例三:抽取XML源 (19)4.3WorkFlow的设计和使用 (20)4.3.1创建Session (20)4.3.2设计WorkFlow (22)4.4Repository Manager (23)1 Informatica概述Informatica一直致力于为客户提供具有强大的元数据管理、数据集成和个性化分析递送功能的世界通行标准的统一数据服务平台。
Informatica的基础设施产品以可伸缩的、可扩展的企业级数据集成平台为特点,并广泛支持来自Informatica和其他的领先商务智能提供商的数据仓库基础设施和分析型应用软件的开发和管理,提供元数据管理解决方案,帮助企业集成、优化、审核信息资产以提高运营效率,增加客户收益,取得竞争优势。
详见文档:2 安装Informatica8.6.1这里以Informatica8.6.1为例:2.1 服务端安装找到安装目录pc861_win32_x86.zip\Server\Windows\Disk1\InstData\VM下点击安装选择安装语言,这里以中文版为例点击下一步,并选择安装PowerCenter8.6.1必须选择事先准备好的安装密匙选择安装路径HTTPS配置,配置管理控制台与配置管理器的安全通信(如果没有使用该端口就采用默认)配置好Informatica域并进行下一步,取掉为特定用户启动Informatica Services,点击完成安装2.2 客户端安装选择安装设置安装路径安装完成后可以看到包含的所有工具3 配置管理服务器3.1 创建知识库和集成服务接下来我们主要是配置知识库管理服务器,PowerCenter数据整合引擎是基于元数据驱动的,提供了基于元数据驱动的元数据知识库(Repository),知识库是PowerCenter的核心。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3 | Informatica 大数据工作手册
A: 开始准备
本指南分为三部分。 在第一部分中,我们会尝试拓宽您的视野,∙ 帮您选择正确的项目。
返回目录
<
4 | Informatica 大数据工作手册
背景知识
在开始探讨您的项目之前,∙ 我们先分享一些经验教训,∙ 这些经验教训是众多大数据从业人∙ 员在开始项目之前都希望能了解的。
15 | Informatica 大数据工作手册
选择正确的项目
考虑产生的影响
2 产生收益和影响的时间 当考虑不同的启动项目时,您自 然而然会倾向于能够产生最大业 务影响和提升的项目。然而,对 业务影响性质的考虑也很重要。 项目的多数价值是在短期还是长 期内实现? 更重要的是,业务用户什么时候 才能感受到这种业务影响?∙ 例如,您可以向数据仓库引入主 数据管理并大幅提高您的商业智 能效率。 但是,只有您的业务分 析师意识到无需再清理财务数据 的时候,这种价值才能被感知。 3 资源和限制 鉴于您对前述两个因素的分析, 请考虑您能支配的资源。我们随 后会更详细地探讨这一点,但现 在,请记住一点,您当然是希望 您的项目能不枉您的投入。 实现这个目标涉及两个方面。一 方面,您希望实现最大限度的业 务影响。然而,同时您也必须战 略性地使用您的预算。尽管您可 能会有建立像 Google 那样的数 据科学家团队的冲动,但您真的 负担得起吗?在工具和人员之间 做出明智的选择,对您项目的成 功至关重要。
9 | Informatica 大数据工作手册
背景知识
如何让大数据∙ 项目成功运行
如果大多数大数据项目失败是因 为目标含糊不清,无法展示出这 项活动的可行性,您就应该自行 关注该项目并进行验证。下面介 绍三个有用的提示,可确保您的 项目顺利运行。 1 制定清晰的目标并对期望目标进 行管理 如果您不确定该项目的目标,∙ 请参考您为现有数据基础设施制 定的目标。 如果企业的某些业务流程(如欺 诈检测或市场分析)已经需要用 到数据,请想想大数据如何才能 改进这些流程或提升其价值。∙ 与其应对全新的问题,不如致力 于改进现有流程或项目。 如果没有明确的方向并向业务用 户展示出价值,您的项目将难逃 厄运。 2 确定能够证明项目∙ 价值的指标 明确定义贴合项目目标的指标可 以让您避免诸多麻烦。为自己制 定一些可以衡量的现实目标,∙ 其他人就能够看出您所取得的∙ 进展。 更重要的是,他们也可以看出您 的长期目标是什么。问问自己, 根据您的目标,您如何衡量项目 的影响。 这一点非常重要,因为您的业务 用户需要为短期失败找到合理的 原因,而可衡量的目标可以帮助 您证明您正在实现更高的价值。
11 | Informatica 大数据工作手册
选择正确的 项目
根据您要面对的挑战,我们现在来看一∙ 下您应如何为企业选择正确的项目。
选择正确的项目
何谓正确的项目
如果企业迫切需要变革,而且已 经知道需要一个全面的数据治理 框架来改进工作方式,您或许可 以跳过这一部分。 如果您正在考虑实施一个本地化 战术项目,准备以后在企业内部 推广,请继续阅读。 正确的项目具备以下四个要素。 1 明确的价值 所谓正确的项目,就是要使 IT 与 您尝试提供帮助的业务单位都能 分享到项目所带来的价值。也就 是说,需要为部门、业务单位或 小组提供明确的价值,让他们都 可以看得到。 2 赞助方 高管能够支持您的愿景是项目取 得成功的关键。大数据项目需要 得到高层的拥护和赞同,愿意为 您的工作提供支持。 所以,如果您可以为物流部门打 造超群的分析能力,而支持您这 种想法的高管只有 CMO,您就 应该三思而后行。如果营销部门 拥护您的工作,您就应该优先满 足营销部门的分析需求。您不能 强迫任何人做出改变。顺势而 为,尽力发挥最大价值。
大数据 工作手册
助您首个大数据项目破茧成蝶的 实践指南。
目录
引言 A:开始准备 背景知识 为什么大多数公司都实施大数据项目 大数据项目为什么会失败 如何让大数据项目成功运行 选择正确的项目 何谓正确的项目 考虑产生的影响 战术性大数据项目:示例 基础大数据之旅 B:战略 制定目标 业务目标 IT 目标 确定数据需求 您需要什么数据? 五个关键数据考虑事项 3 4 5 6 7 10 12 13 15 17 19 23 24 25 27 29 30 33 C:精益大数据供应链 您的团队 五个关键的团队建设经验 搭建数据治理框架 您需要的技能以及已具备的技能 您的工具 了解大数据工具 您的流程 大数据八步法 体系架构 第一步:沙盒 理想的大数据体系架构 项目计划 项目计划 立即行动 后续步骤 关于 Informatica 36 37 38 42 45 47 48 52 53 56 57 59 60 61 63 64 65
14 | Informatica 大数据工作手册
选择正确的项目
考虑产生的影响
选择下一个项目时,您还需要考 虑它会对企业产生什么影响。∙ 在确定您选择的大数据项目是否 正确的问题上,三个宏观因素应 起到重要作用。 1 成本和干扰 从根本上说,项目成本取决于顺 利开展项目所需要的时间和资 金。实际上,您还应考虑项目可 能会造成的干扰。 有时,由于业务单位习惯自行掌 控数据,而不希望将控制权转移 给一个中央数据治理框架,这样 就会在过程上造成干扰。 而如果您需要将新技术集成到现 有基础设施中并对技能进行重组 或升级,则会在技术和技能方面 造成干扰。 无论哪种情况,您都应该想到并 确保尽可能地避免干扰,或者说 明避免干扰的重要性。
1.
7 | Informatica 大数据工作手册
/software/information-management/ vague-goals-seed-big-data-failures/d/d-id/1108384
背景知识
大数据项目为什么会失败
2 预期目标不合理 在大数据纷纷扰扰的宣传之下, 您会对项目的成果做出一下假 设,而这些假设往往会产生不利 影响。在很短的时间内冒然做出 一些承诺虽然看起来会很诱人, 但同样非常重要的是,您需要客 观地估计项目可能会产生的成 果、项目周期以及实现这些成果 所需要付出的努力。 如果对影响和洞察力的期望过 高,则会像大海捞针一般茫然无 措。如果对交付成果的期望不切 实际,您就会发现您要遵从的截 止日期和预算根本就不可行。 3 项目超支和延误 由于对企业来说这方面仍然还是 全新事物,您就不难理解大多数 大数据项目都会成本超支或时间 延误。造成这种问题的原因往往 是期望目标不合理、加上对如何 构建可扩展体系架构不了解。 在少数成本高昂的 Hadoop-Java 开发人员从事着大规模手动编码 实施工作的同时,企业也很快认 识到脱离沙盒环境而不出现任何 错误是不可能的。于是,大数据 项目终归会沦落为一项科学实 验,备受折磨,永远走不出实∙ 验室。
6 | Informaticaቤተ መጻሕፍቲ ባይዱ大数据工作手册
背景知识
大数据项目为什么会失败
一项调查 发现,55% 的大数据 项目都会半途而废,而其他许多 项目缺少明确的目标。在一项技 术趋势早期阶段出现这样的失败 并非罕见,倘若不吸取这些项目 的经验教训,那显然不是明智∙ 之举。 让我们了解一下大数据项目失败 的四个主要原因。
10 | Informatica 大数据工作手册
背景知识
如何让大数据∙ 项目成功运行
3 从战略的角度使用工具和手动∙ 编码 避免直接在 Hadoop 中对所有内 容进行手动编码。请记住,我们 的目标并不是从零开始人工实施 一个有效的环境——而是为企业 提供大数据的价值。 您不应尝试对每一次集成和所有 分析进行手动编码并清理每一个 数据集,而是应借助工具和自动 化技术来加快这些流程的执行。 尤其是,不要让少数成本高昂的 Java 开发人才把时间浪费在无 法让其他员工接手的工作上。您 的职责是制定战略决策,将稀缺 资源部署到能够实现您的目标的 地方。 借助现有 ETL、数据质量和商业 智能专家的技能和知识,采用能 够提高开发团队工作效率的工 具,将 Java 高手解放出来,∙ 从事具体逻辑工作。 此外,由于像 Hadoop 这样的技 术日新月异,您就需要考虑采用 一个抽象层来应对不断变化的基 础技术规范。 总之,请记住,您需要的技能是 稀缺的——而工具随时可用。
提示:单击可跳至相应章节
2 | Informatica 大数据工作手册
大数据 之路
如此眼花缭乱的大数据并没有带来什 么技术趋势。
我们希望能为您的战略保驾护航并在 实践中加以落实。无论您要着手实施 本地化战术性活动,还是为整个企业 不过话又说回来,也很少有什么技术趋 制定基础战略,本指南都可以为您的 势能为企业创造如此众多的转型契机。 旅程铺设一条可行的道路。 自从本世纪初软件应用开始在整个业务 流程中盛行以来,一个不争的事实就 开始行动吧! 是:数据改变了我们的工作方式。 当然,纷纷攘攘之中必然掺杂着一些 误解。就大数据而言,自然也就褒贬 之声兼而有之。然而,这种全新的无 极限数据仍然是初露端倪,因此,∙ 各种杂音也难免让许多人感到困惑。 本工作手册的目的就是解除这种困惑。
14
12
10
8
6
4
2
背景知识
为什么大多数企业都 实施大数据项目
企业决定处理大数据, 往往是出于下面几种原 因之一。
望进行更有效的分析,他们认 希 识到由此需要分析的数据量也会 大幅增加。这些活动往往会由一 个业务单位(如营销部门)∙ 来承担。 企业意识到可以通过实时分析将 其产品打包在一个服务层中,∙ 帮助客户更高效地使用其产品。 企业希望通过大数据来传达某个 业务单位或流程的所有决策,∙ 从而提升操作速度,提高操作质 量并降低操作成本。 企业意识到大数据对于每个业务单 位都相当重要,它们尝试建立以数 据为中心纵观全局的基础环境。 业认识到必须在大数据方面有 企 所作为,不然就会落伍,但并未 切实规划出如何开展这项工作。 我们的目标就是了解并尝试开展 这项工作。 上述这几点是大数据引起人们关 注的主要原因。但是,如果您要 保证您的项目经得起时间的检验 以及多部门的审查,那么您就必 须十分清楚地知道您最关注的是 上述哪一项原因。