大数据导论 7.3.5 大数据分析的生命周期——数据验证与清理阶段

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Big Data
感谢聆听!
《大数据导论》
数据验证与清理阶段
1.为来自百度文库么要进行数据验证与清理
无效数据会歪曲和伪造分析的结果。和 传统的企业数据那种数据结构被提前定义好、 数据也被提前校验的方式不同,大数据分析 的数据输入往往没有任何的参考和验证来进 行结构化操作,其复杂性会进一步使数据集 的验证约束变得困难。
Big Data
2.数据验证与清理阶段——主要工作
数据验证和清理阶段是为了整合验证规则并移除已知的无效数据。大数据 经常会从不同的数据集中接收到冗余的数据。这些冗余数据往往会为了整合验 证字段、填充无效数据而被用来探索有联系的数据集。数据验证会被用来检验 具有内在联系的数据集,填充遗失的有效数据。
Big Data
3.有哪些方式?
• 批处理分析:数据验证与抽取可以通过离线ETL(抽取转换加载)来执行。 • 实时分析:从在内存中运行的系统数据进行处理。
相关文档
最新文档