ETL调度细节说明

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[schedmanager]
serverip=ip_addr serverport=port
调度管理程序主机的IP 通讯端口号(必须与schedmanager.ini中配置一致)
2016年10月26日
从兴BI研发部
第6页
调度表——关键参数说明


调度程序自身运行的参数都汇集在prog.ini和 schedmanager.ini中,而作业运行的各种参数 都体现在CTL模式的调度控制表中。 参数说明请参考文件:
2016年10月26日
从兴BI研发部
第8页
调度的依赖说明(二)

依赖类型主要体现在计数上,即依赖n个(n=计数 个数)前置作业完成才能触发本作业。


例如CTL.JOB_REF中:
11000130,11000120,1,0表示作业11000130对11000120为单线依赖,依 赖组为0(默认每个地市都要执行)。 13200129,12499009,6,0表示作业13200129对12499009为全省月计数 (计数等于地市*当月天数),依赖组为0(默认每个地市都要执行)。 18200009,13298110,1,2表示作业18200009对13298110是单线依赖,依 赖组为2,要参照prog.ini中组2的地市定义执行。
2016年10月26日
从兴BI研发部
第5页
INI参数说明(四)

[refgroup]
group1=AA1[,AA2,AA3…… ] group2=AA1[,AA2,AA3…… ] …… groupn=AA1[,AA2,AA3…… ] 依赖组1包含的机构(市公司) 依赖组2包含的机构(市公司) 依赖组n包含的机构(市公司)

[thread]
min_thread=3 max_thread=5 thread_timeout=600
2016年10月26日
从兴BI研发部
第3页
INI参数说明(二)


prog.ini(*INI文件中调度不使用的参数此处不列出)
[course]
maxpathcourse=n maxfilecourse=n maxonline=n maxeventsize=n filenumperdir=n minquescan=n(-1) minquefilter=n(-1) branchcnt=n 最大扫描路径数 最大扫描文件数 最大在线进程数(只限本机有效) 最大事件生成数 每路径最大扫描文件数 最大队列扫描数(-1表示不限) 最大队列生成数(-1表示不限) 机构数(市公司数) 要连接的调度数据库用户名 要连接的调度数据库密码 要连接的调度数据库名称
2016年10月26日
从兴BI研发部
第10页
CHECKPOINT说明


CHECKPOINT是调度程序记录实时内存信息的途径,也是断点恢复的基础。
CHECKPOINT的修改必须停调度,并且同步修改调度管理程序的备分CHECKPOINT。

CHECKPOINT包括: job_instonline.dat,记录了当前在线的作业信息,格式和ctl.job_inst_1非 常类似。 job_queue.dat,记录了作业的队列信息,按照:优先级大于10000的优 先级->数据日期->普通优先级来对作业排序。 job_queueparam.dat,记录了队列中作业的参数,通过inst_id与queue中 的作业形成多对一的关系。 job_childcourse.dat,开出作业进程的状态,当停机时候会记录停机前所 有在线作业的完成状态。 job_event.dat,记录了已经完成的作业所产生的事件,当事件满足依赖 约束后会形成队列记录,并删除生成该队列记录的所有事件记录。 trans.log,记录了调度程序的每一个操作,当程序被非法终止的时候可以 在下次启动时回滚操作。
prog.ini必须置于$BIPROG_ROOT/config/下。
从兴BI研发部 第2页

2016年10月26日
INI参数说明(一)


schedmanager.ini
[course]
layerN=n 配置为layerN的作业最大并行进程数 要连接的调度数据库用户名 要连接的调度数据库密码 要连接的调度数据库名称
BI系统调度运行细节说明
—BI培训
从兴BI研发部
调度程序参数概述



调度系统由schedmanager和schedserv共同组成, 两个程序都有各自的ini配置参数,通过修改相应的 参数,可以控制调度系统的运行方式和细节。 schedmanager启动的时候会首先读取 schedmanager.ini中的参数;同样,schedserv启动 的时候也会从prog.ini中读取所需的参数。 除了ini参数,调度系统在运行的时候需要的依据参 数表的参数和配置来执行作业。
file=path/schedserv.log

[load]
startnode=n endnode=n maxfilenum=n maxfilesize=n msgpath=path logpath=path dumppath=path tmpdumppath=path loadstarttime=hh:mm:ss loadendtime=hh:mm:ss loadperBaidu Nhomakorabeax(x<1) loadinterval=n(单位:秒) loadlocation=n(0,1) delafterload=n(0,1)

尝试修改不同的参数,配合不同的工作环境观察执行的效果又什么区别。
2016年10月26日
从兴BI研发部
第7页
调度的依赖说明(一)


调度系统最大的特点是 运用了丰富的作业依赖 关系来实现复杂的作业 处理流程,最优的使用 并行策略,达到尽可能 高的处理效率。 A)逻辑依赖类型:
1: 单线依赖 2: 普通计数 3: 某机构月汇总计数(该月的天数) 4: 季汇总计数 5: 年汇总计数 6: 全省月汇总计数(机构数×该月天数) 7: 全省日作业计数(机构数) 8: 全省月作业计数(机构数) 9: 周依赖(按地市) 10: 周依赖(全省) 11: 特殊计数,支持计数超出 12: 非月底依赖 13: 月底依赖


2016年10月26日
从兴BI研发部
第9页
调度的依赖说明(三)

1010 1020 1011 1021 1012 1022 1120 1111 1121 1112 1122 2010 2020 2011 2021 2012 2022 2120 2111 2121 2112 2122 3010 3020 3011 3021 3012 3022
B)时间依赖类型:
依赖上一天同一机构 依赖上一月同一机构 依赖上一天全省作业 依赖上一月全省作业 依赖上一天所有机构 依赖上一月所有机构 依赖本月同一机构 依赖本日全省作业 依赖本月全省作业 依赖本日所有机构 依赖本月所有机构 如果是月头,依赖上一天同一机构 如果是月头,依赖上一月同一机构 如果是月头,依赖上一天全省作业 如果是月头,依赖上一月全省作业 如果是月头,依赖上一天所有机构 如果是月头,依赖上一月所有机构 如果是月头,依赖本月同一机构 如果是月头,依赖本日全省作业 如果是月头,依赖本月全省作业 如果是月头,依赖本日所有机构 如果是月头,依赖本月所有机构 如果不是月头,依赖上一天同一机构 如果不是月头,依赖上一月同一机构 如果不是月头,依赖上一天全省作业 如果不是月头,依赖上一月全省作业 如果不是月头,依赖上一天所有机构 如果不是月头,依赖上一月所有机构 3120 3111 3121 3112 3122 4010 4020 4011 4021 4012 4022 4120 4111 4121 4112 4122 5010 5020 5011 5021 5012 5022 5120 5111 5121 5112 5122 如果不是月头,依赖本月同一机构 如果不是月头,依赖本日全省作业 如果不是月头,依赖本月全省作业 如果不是月头,依赖本日所有机构 如果不是月头,依赖本月所有机构 如果是月尾,依赖上一天同一机构 如果是月尾,依赖上一月同一机构 如果是月尾,依赖上一天全省作业 如果是月尾,依赖上一月全省作业 如果是月尾,依赖上一天所有机构 如果是月尾,依赖上一月所有机构 如果是月尾,依赖本月同一机构 如果是月尾,依赖本日全省作业 如果是月尾,依赖本月全省作业 如果是月尾,依赖本日所有机构 如果是月尾,依赖本月所有机构 如果不是月尾,依赖上一天同一机构 如果不是月尾,依赖上一月同一机构 如果不是月尾,依赖上一天全省作业 如果不是月尾,依赖上一月全省作业 如果不是月尾,依赖上一天所有机构 如果不是月尾,依赖上一月所有机构 如果不是月尾,依赖本月同一机构 如果不是月尾,依赖本日全省作业 如果不是月尾,依赖本月全省作业 如果不是月尾,依赖本日所有机构 如果不是月尾,依赖本月所有机构
从兴BI研发部 第4页

[db2]
ctlusername=usrnam ctlpassword=pwd ctldbname=dbnam
2016年10月26日
INI参数说明(三)

[proghost]
progip=ip_addr hostname=host_name

[errlogfile]
本机主机IP 本机主机名(此处配置等同于IP) 调度程序的日志文件 装载起始节点 装载终止节点 起装文件数 起装文件容量 装载的msg文件路径 装载的log文件路径 装载的dump文件路径 装载的临时dump文件路径 处理装载作业的开始时间 处理装载作业的结束时间 起装文件百分比 处理装载作业时间间隔 装载地(0:直接客户端装载;1:ftp到数据库主机装载) 装载完成删除文件标志(0:不删除;1:删除)

[db2]
ctlusername=usrname ctlpassword=password ctldbname=dbname

[tcp]
port=portnbr 调度管理程序和调度程序通信的端口(必须大 于1024,否则程序判断为无效端口号)
最小线程数(目前不用) 最大线程数(目前不用) 线程超时时间(目前不用)
2016年10月26日
从兴BI研发部
第11页
作业运行的条件


调度程序对作业的处理原则上都是文件触发的,即扫描为所有作业的开端。
文件是否扫描可能需要满足以下某些或全部条件: 1)数据源生效日期小于当前系统时间(即CTL.TA_ETL_DS_DEF中的ds_valid_date) 2)数据源有效标志置为有效(即CTL.TA_ETL_DS_DEF中的ds_valid_flag) 3)数据源主机关系定义条件(即CTL.TA_ETL_DS_HOST中的定义) 一个作业是否生成队列记录可能需要满足以下某些或全部条件: 1)逻辑依赖条件,即CTL.JOB_REF。 2)装载作业的起装条件中的至少一个条件(设待装文件数为file_cnt,最大文件数为max_cnt,已装文件 数为inst_cnt): a) file_cnt>=起装文件数(即prog.ini中的maxfilenum) b) 待装文件总容量达到起装文件容量(即prog.ini中的maxfilesize) c) file_cnt>=max_cnt-inst_cnt d) file_cnt>=(max_cnt-inst_cnt)*起装文件百分比+1(起装文件百分比为prog.ini中的loadper) e) 该周期该作业的max_cnt<机构数(即prog.ini中的branchcnt) 队列中的作业是否能运行可能需要满足以下某些或全部条件: 2)时间依赖条件,即CTL.JOB_TIME_REF。 3)运行时限条件,即CTL.JOB_LIMIT。 4)互斥条件,即CTL.JOB_OPR_OBJ。 5)作业有效条件,即CTL.JOB_DEF中的JOB_VALID_FLAG(1为有效,0为失效)。 6)进程数控制条件,即prog.ini中的maxonline值以及CTL.JOB_DEF中该作业的max_instance。 7)分类最大进程数控制条件,即schedmanager.ini中的layerN值。 8)无优先作业等待条件。

[datastage]
projectname=prj_nam

[workpath]
hashpath=path datapath=path tmppath=path dimpath=path progpath=path datastagepath=path essbasepath=path

BI系统程序所需各种路径参数
相关文档
最新文档