ibm公司面试题

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ibm公司面试题

1、 Data Stage 分为几个部分(组件),各部分的功能是什么? Administrator – add/delete projects, set defaults Manager – import meta data, backup projects Designer – assemble jobs, compile, and execute Di rector – execute jobs, examine job run logs

2、 Parallel job 和sequence job 的区别?

(What is difference between Parallel job and Sequence job)

Basic difference is server job runs on windows platform usually and paral lel job runs on UNIX platform.

server job runs on one node whereas parallel job runs on more than one 3、在stage中会有虚线分为哪两种,有什么作用?

在stage中有两种虚线

参考(reference link):以它所连接的文件作参考拒绝(rejects link):把不满足条件的输出到另一个文件

4、 Partition和pipeline的概念?

DataStage中有两种实现并行的方法,一种是分区(partitioning),另一种则是管道(pipeline)。所谓分区,是指将输入的数据按照某种规则,分成大小尽量相等的多块数据,每块数据都可以由一行节点并行读取,这样就实现了并行。

有以下几类:Round robin循环分区随机(Random) Same分区完全分区(Entire) Auto分区 hash分区 modulus分区 DB2分区

而所谓管道,则是指一条数据在被一个stage处理完成后,立即被输出到一条管道(pipeline)中,下一个stage也立即读取这条管道中的数据进行操作,再一个stage也是如此,一直到最后一个stage。这种情况下,大致上每个stage都同时处在运行状态。因此这也是一种并行。

5、 Combine 和transform都有什么?

combine:merge lookup join 等 transform : transformer Remove Duplica tes Stage 等

6、 DATA SET FILE 和SEQUENCE FILE的区别,SEQUENCE FILE 如和转换成DATA SET

data set分为两种,一种为.v后缀结束,是虚拟的临时性的数据文件,一种以.ds结束,是永久性的数据。由于data set是DataStage的底层数据文件格式,处理过程中不需要进行任何的处理。它是二进制格式。如果数据需要落地,尽量使用data set。用dataset保存数据,对数据的分区信息也会保存起来,因此效率非常高。

Sequential file: Read data from or write data one or more flat files. The stage can have a single input link or a single output link, and a single reje cts link. --用Compress转换

7、数据源都可以是以什么结尾的文件?

.txt .csv .ds等

8、可以用哪些方式导入数据?

sequential File ftp-plug in database table (db2 odbc Oracle Enterprise)

9、Constraint及Derivation的区别

Constraint通过限定条件使符合条件的数据输出到这个output link。 Derivation通过定义表达式来转换字段值。

10、辅助工具都有什么?

Peek sort compare difference

11、 Odbc 了解 open databases connectivity 设置用户名,密码,DB名,在服务器端

12 、hash文件

It have keys and values ,to find the value through the key

13、transformer stage的执行顺序:先执行变量处理部分,再执行约束,然后按从上往下顺序执行每一列。---

14、lookup stage和join stage的区别

LookUp Stage将数据读入到内存中,所以效率很高,但是占用了较多的物理内存。所以当reference data比较小的时候,我们推荐用LookUp Stage;当reference data比较大的时候,使用Join Stage比较合适

15、Merge stage怎么用?

将Merge Key值相同的记录合并。将其中的一个输入设定为Master,其余的为Update。把Update中Merge Key相同的记录合并入Master。

16、什么是schema file?

This is an optional property. By default the Sequential File

stage will use the column definitions defined on the Columns and Format tabs as a schema for writing to the file. You can, however, specify a file c ontaining a schema instead (note, however, that if you have defined colu mns on the Columns tab, you should ensure these match the schema file). Type in a pathname or browse for a schema file.

这是一个可选的属性。默认情况下,顺序文件阶段将使用列定义列和格式选项卡作为书面文件的架构。然而,您可以指定一个文件包含一个模式代替,(请注意,如果你已经定义列列“选项卡上,你应该确保这些匹配模式文件)。键入一个路径名或浏览模式文件

17、都有什么类型的JOB。

Parallel job,Sequence job,server job,mainframe job, job sequence , conta iner

18、对DATASTAGE的理解,应用领域(会问我们应用在该领域的理由)。ETL,抽取,转换,加载。银行,金融行业

19、做过什么项目,项目用到的STAGE及用法

培训的时候做过一个练习

Ftp-plug in stage,transformer stage,join stage,DB2 API stage 各stage 怎么用

Join的几种连接方式:inner join,left outer join,right outer join,full outer join inner join和left outer join的区别,inner join是取两个表的交集,将key值相同的全部输出,left outer join输出左表的全部信息,右表与左表key值匹配的记录输出,不匹配的返回空值,

相关文档
最新文档