_数据抽取、转换、装载综述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

&" " %&’
数据 678 工具 是 数 据 仓 库 获 取 高 质 量 数 据 的 核心部分 ! 数据 678 最大的挑战来自待集成多数据 源的异构性 ! 为此实施数据 678 过程通常被划分为 模式集成与数据集成两个阶段 ! 这样有利于将数据 转化的逻辑规范和物理实现清晰分开 ! 方便管理 ! 降低系统实现的难度 ( 通用访问接口是解决系统级异构最成熟的方 法 ( B;<# 是 >CD 公司提供的更好的解决方案 !可很 好地解决 678 面临的系统级异构问题 ( 元数据用来 解决语法级异构 !678 利用数据转换组件来定制转 换 规 则 !以 调 和 不 同 元 数 据 的 差 异 !结 构 级 异 构 通 过模式集成来解决!首先针对不同的数据源!用 统 一的形式化方法将它们包装成输出模式 ! 然后利用 映射机构将输出模式改写为映射模式 ! 接着由模式 转换得到各个成员模式 ! 最后针对各成员模式来解 决各种模式冲突 ! 得到来自百度文库一的集成模式 ( 语义级异 构解决难度最大 ! 业界中至今还没有较好的通用解 决办法 ! 研究的重点是缺损数据处理和相似对象识 别两个问题 ! 这将是我们今后研究的重点 ( 参考文献 !
法承担的 ) &!$ 数据需求问题 (288 需要全面 % 正确的集成 数据 ! 这包括内部各部门的有关数据和企业外部的 % 甚至竞争对手的相关数据 ! 但是在传统数据库中只 存储了本部门的事务处理数据 " &&$ 决策问题有关的集成数据 ! 若每次用户决策 分析都需要进行一次数据的集成 ! 将极大地降低系 统运行的效率 " &#$ 操作问题 (传统数据库中的用户只能使用系 统所提供的有限参数进行数据操作 ! 访问受到很大 的限制 A 而决策分析人员希望以专业用户的身份 ! 用 各种工具对数据进行多种形式的操作 ! 结果以商业 智能 &E0 $的方式表达出来 " 因此 ! 决策分析需要一个能够不受传统事务处 理约束 ! 高效率处理决策分析数据的支持环境 ! 数据 仓库正是满足这一要求的数据存储和数据组织技 术 " 数据仓库不是数据的简单堆积A而是从大量的事 务型数据库中抽取数据 !并将其清理 % 转换为新的存
&中南大学 信息科学与工程学院 ! 湖南 长沙 #?""B%$
摘 要 % 文章综述了 %&’ 发展的背景 & 目前广泛研究的领域 $ 论述了 %&’ 在异构数据源集成和脏数据的检测与
解决两方面面临的挑战 $ 指出 %&’ 将呈现出通用化 & 高效化 & 智能化 ( 大发展趋势 ( 关键词 %%&’ ) 数据集成 )%&’ 研究及挑战 )%&’ 展望 中图分类号 ((4&??;?& 文献标识码 (1 文章编号 (?""F$’G&B &!""# $"’$"""&$"&
!"#"$%&’"() *(+ &,%-&".) %/ +0)0 123
!"#$% &’()*’(+!,-./% 0123’(
&4567738 79% :(97;<=>’7(8 45’?(5?8 @% A(+’(??;’(+! ,?(>;=3% 471>6% B(’C?;D’>*!,6=(+D6=!E1(=(% FGHHIJ!,6’(= $
C#D
! 个层次E 系统 (语法 (结构和语义 % 系统级异构指不
同 的 主 机 (操 作 系 统 和 网 络 )语 法 级 异 构 是 指 数 据 类型 ( 格式的差异 ) 结构级异构是指数据结构 ( 接口 和模式上的不同 ) 语义级异构则是指在一定领域内 专用的词汇意义的共享和交流 % 语义是信息的内在 涵义 " 其意义与上下文环境有关 % 语义的映射是底 层信息和数据转换的基础与依据 " 基于语义集成数 据可以提高数据转换的可能性和准确性 % 由于待处 理 的 数 据 是 海 量 的 "要 完 成 系 统 之 间 映 射 "实 现 集 成后的语义一致往往非常困难 % 脏数据的检测与解决 ’* 数据清洗 + 用来有效地 清除脏数据 ( 保证数据质量 ! 对于创建数据仓库及
可能带来操作费用昂贵 $ 决策制定失败甚至错误 $ 组 织 间 的 不 信 任 $分 散 管 理 的 注 意 力 等 问 题 !因 此 针对脏数据的有效处理是进行辅助决策的必要步 骤 ( 数据清洗研究中的丢失值填充与相似重复记录 处 理!是 实 例 层 次 上 基 于 语 义 的 数 据 集 成!也 是 当 前数据清洗领域研究最活跃的分支 ( 事实上 ! 数据 678 需要解决的这两个问题并不 存在十分清晰的划分边界 ! 一般认为 ) 数据集成 * 是 ) 目的 *! 而 ) 数 据 清 洗 * 则 是 实 现 集 成 的 主 要 手 段 ! 它们往往交织在一起 ! 相互渗透 (
45-),0.) (K(8 >6’D8 L=L?;8 >6?8 M=5N+;71(OP 798 .QR8 O?C?37L<?(>8 =(O8 >6?8 9’?3OD8 M?’(+8 S’O?3*8 ;?D?=;56?O8 =>8 L;?D?(>8 =;?8 D1<<=;’T?OU% >6?% 56=33?(+?D% 79% AQR% 9=5’(+% ’(% 6?>?;7+?(?71D% <1>’2O=>=% D71;5?D% ’(>?+;=>’7(V8 >?D>2 ’(+8 =(O8 ;?D73C’(+8 798 O’;>*8 O=>=8 =;?8 O’D51DD?OV8 AQR8 L;?D?(>D8 >6;??8 >;?(OD8 S6’568 =;?8 <7;?8 1(’C?;D=3V8 <7;?8 ?99’5’?(>8 =(O8 <7;?8 ’(>?33’+?(>W 6"78%,+-(.QR*O=>=8 ’(>?+;=>’7(*;?D?=;568 =(O8 56=33?(+?8 798 .QR *.QR8 L;7DL?5>
&.(4-/5$ 正是用来实现这种异构多数据源的数据集 成 " 其概念模型如图 6 所示 % $%& 软件 & 工具 $ 的功
能包括 ’ 数据的抽取 ’ 从不同的网络 ( 不同的操作平台 ( 不同的数据库及数据格式( 不同的应用中抽取数 据) 数 据 的 转 换 ’数 据 转 化 &数 据 的 合 并 (汇 总 (过 滤 ( 转 换 等 $( 数 据 的 重 新 格 式 化 和 计 算 ( 关 键 数 据 的重新构建和数据总结 ( 数据定位 ) 数据的加载 ’ 跨网络 ( 操作平台 " 将数据加载到 目标数据库中 %
图!
数据 "#$ 概念模型
!" " !" #$% #$
&6 $主要研究领域 数 据 $%& 主 要 在 数 据 仓 库 &’()( 7(+89.:1;
-/5$( 数据 库 中 的 知 识 发 现 &<’’ $ 和 总 体 数 据 质 量 管理 &).)(= 4()( >:(=-)? 3(/(5838/) "%’@A$ 这 B 个
!" " !" #$% #$%&’
知识经济时代的商业竞争日趋激烈 ! 信息化成 为提升企业竞争力的必要手段 " 如何有效地管理企 业在经营运作过程中所产生和收集的大量数据与信 息 ! 一直是信息管理人员所面临的一个重要问题>?@" 数据库作为企业信息的存储枢纽 ! 不仅为企业的日 常业务提供各种各样的数据服务 ! 而且也是企业经 营决策的基础 A 数据库管理系统因此衍生出以事务 型处理 #-.(4$ 为主 % 以决策支持 &288$ 及联机分析 处理 &-.14$ 为主的两种不同数据库系统 ’ !" 世纪
收稿日期 !!""#$"#$!%
作者简介 ! 王新英 !!"#$ "#$ 女 $ 甘肃天水人 $ 大学本科 $ 助理实验师 $ 研究方向 % 计算机网络 & 数据挖掘 & 智能机器人控制 ’
!
王新英 ! 等 " 数据抽取 # 转换 # 装载综述
第 "# 卷
储格式 ! 利用完整的信息及时作出正确的决策 " 这 就是数据仓库所要完成的根本任务 ! 数 据 $%& #’()( $*)+(,)-./0 %+(/12.+3()-./ (/4
DOI:10.14165/j.cnki.hunansci.2004.08.001
第 !& 卷第 ’ 期 !""# 年 ’ 月
企 业 技 术 开 发
()*+,-.-/0*1. 2)3).-45),( -6 ),()74708)
39:;!& ,9;’ 1<=; !""#
数据抽取!转换!装载综述
王新英 "陈语林
领域中应用 % 理论界通常称其为数据清洗 " 工程界 则青睐于数据集成的叫法 % 数据 $%& 是构建数据仓库的第一步 " 难点在于 多源数据清洗 (沉淀 % 对海量数据而言 " 人工处理不 现实 " 故自动化数据清洗受到工业界的广泛关注 % 为了保证数据质量 " 需要定义和判断错误类型 ) 查 找并标示错误实例 ) 修改没有发现的错误 % 由于这 些问题比较凌乱而显得难以采用通用的方法进行 处理 " 大多数研究工作都针对特定领域的数据集 " 或者是对不同性质的异常数据进行的通用处理 % 国内关于数据清洗领域的研究多以理论为主 " 很少涉及产品 % 国外的相关研究则开始较早 " 且非 常活跃 " 研究领域涉及以下几个方面 ’ 研究高效的
数据异常检测算法以避免扫描整个庞大的数据集 )
第!期
王新英 " 等 ! 数据抽取 # 转换 # 装载综述
"
其 后 续 工 作 !如 数 据 挖 掘 等 !需 要 保 证 数 据 的 正 确 性 "#$%%&’()&** #$ 一 致 性 "#$)*+*(&)’,%$ 完 整 性 "#$-./&(&)&** % 和 可 靠 性 "0&/+12+/+(,%! 而 目 前 的 现 存管理系统中的数据存在很多问题 ! 容易造成脏数 据 ! 其原 因 有 & 滥 用 缩 写 词 $ 滥 用 惯 用 语 $ 数 据 输 入 错误 $ 数据中的内嵌控制信息重复记录及丢失 $ 拼 写变化 $不同的计量单位和过时的编码等 ’ 脏数据
345
未来的 678 将具备高度的智能 ! 专家系统 $ 机 器学习 $ 神经网络 $?A 技术等领域的成果将在此处 得到广泛应用 ( 数据源管理 $678 规则定制 $ 数据质 量保证等工作都将由机器智能来完成 ( 因此 ! 当前 手工或半手工的许多单调而繁重数据集成任务将 不复存在 !678 工具的使用也会不断简化 ! 普通用户 能够运用智能工具轻松而高效地完成数据的集成 与清洗工作 (
B" 年代开始出现的关系数据库 & 传统数据库 $ 无法
承担将日常业务处理中所收集到的各种数据转变 为具有商业价值信息 " 其原因是传统数据库的处理 方式和 288 中数据需求不相称 C!D!主要体现在 ( &? $ 系统响应问题 ( 在传统数据库中 ! 用户对数 据的操作时间短暂 ! 能保证较高的系统响应时间 ! 但决策分析问题的解决则需要遍历数据库中大部 分的数据 ! 消耗大量的系统资源 ! 这是 -.(4 系统无
在自动化异常检测和清洗处理间增加人工判断处 理以提高处理精度 ) 数据清洗时对海量数据集进行 并行处理 ) 如何消除合并后数据集中的重复数据 ) 建立一个通用的与领域无关的数据清洗框架 % 关于模式集成问题E 已有的研究为数据 $%& 积 累了丰富的脏数据处理经验 " 提出了诸多数据清洗 算法’脏数据预处 理 (排 序 邻 居 方 法 (优 先 排 队 算 法 ( 多次遍历数据清理方法 ( 增量数据清理 ( 采用领 域知识进行清理 ( 采用数据库管理系统的集成数据 清理算法等 % 这些算法大多可应用于数据 $%& 的数 据清洗过程中 " 极大地简 化 了 数 据 $%& 软 件 的 实 现 " 提升了最终软件的服务质量 % 另一方面 " 数据仓库的发展则不断给数据 $%& 研究提供新课题 % 过去由于数据清洗与问题域的相 关性很强 " 通用的数据清洗可能受到很大的限制 " 因此数据清洗方面的研究大都是针对具体应用 ( 具 体领域开展的 " 数据清洗框架的通用性很少有人关 注 % 然而 " 数据仓库不断拓宽数据 $%& 应用领域 "通 用的清理方案必将受到越来越多的重视 % 在将多源 数据导入数据仓库的过程中 " 数据 $%& 需要处理的 是海量数据集 " 因此 " 增量式的数据抽取 " 清洗时增 量式的数据异常检测 ( 数据转换算法是必需的 " 而 且对于算法的效率提出了愈来愈高的要求 % &F $数据 $%& 面临的挑战 将数据从各种业务处理系统导入数据仓库是 一个复杂的系统工程 " 数据 $%& 面临两个主要的挑 战 "其 一 为 异 构 数 据 源 的 集 成 问 题 "其 二 为 脏 数 据 的检测与解决 % 数据 $%& 作为数据仓库的预处理部 分至今没有得到很好的解决 " 成为业界研究的持续 热点 % 异 构 数 据 源 集 成 问 题 ’即 数 据 集 成 "主 要 处 理 多数据源的异构问题 % 待集成数据源的异构性分为
相关文档
最新文档