数据不一致性资料
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 没有高质量的数据,就没有高质量的挖掘 结果
背景
• 不一致数据普遍存在于多类现实应用中。 这些应用不单单包括各种各样数量巨大的 关系数据库应用系统,目前越来越频繁的 数据整合、传感网络等应用,还有XML网络 信息交换和集成等。
背景
• 一、现实世界里,数据应该遵从的语义约 束类型更多且更复杂,比如人口普查数据 表中,户主不能和同一个家庭中的两个人 具有婚姻关系,DBMS缺乏直接机制对这一 类约束进行定义和维护,以至于违反它们 的数据进入数据库。
背景
• 三、即便单个数据源一致,多个自治的数 据源合并时,数据冲突也时有发生,呈现 不一致性。
• 四、异构数据源之间进行转换时,在源数 据库中完整的数据,可能不符合目标数据 库的语义要求。这些都使得不一致关系数 据普遍存在。
背景
• 从语义层面重新思考不一致数据上的查询 结果的确定性、可信性及其价值,寻找适 合不一致数据描述的数据模型,并重新定 义其上的查询操作、处理规则及其语义。 并为不一致数据模型及其上的查询回答寻 找一个可以兼容一致数据模型及其查询处 理的实现方案,以便能在不影响传统数据 管理和查询的基础上,实现不一致数据的 管理和查询处理,使得用户仍然能从不一 致数据中获得比较有价值的查询结果。
• 异名同义:数据源A中的sales_dt和数据源B中的sales_date都是是描述 销售日期的,即A. sales_dt= B. sales_date。
• 单位不统一:描述同一个实体分别用的是国际单位和中国传统的计量单 位。
数据集成——冗余属性识别
数据集成往往导致数据冗余,如: • 同一属性多次出现 • 同一属性命名不一致导致重复 不同源数据的仔细整合能减少甚至避免数据冗余与不一致,以提高数据
待解决的应用(一)
web信息抽取 • web信息抽取技术将网页中的非结构化数据
或半结构化数据按照一定的需求抽取成结 构化数据。这些结构化数据往往存储在后 台数据库中,供用户查询以及进一步分析 利用。但众所周知,internet具有开放性, 不一致性,交互性,超时空性等特点。但 正是因为互联网的这些特性,网页中的数 据良莠不齐,存在着严重的不一致问题。
• 在数据交换应用中,由于不同的应用对同 一数据可能有着不同的要求,源数据的语 义模型和目标数据的语义模型可能不一样, 这就导致确定一致的源数据,可能因为违 反了目标数据上的语义约束而不一致。
挖掘的速度和质量。对于冗余属性要先分析检测到后再将其删除。 有些冗余属性可以用相关分析检测到。给定两个数值型的属性A和B,
根据其属性值,可以用相关系数度量一个属性在多大程度上蕴含另一个 属性。
数据集成和数据交换
• 数据集成系统中的不一致性数据主要来自 两个层次,即数据本身的不一致性和模式 匹配的不确定性。
背景
脏数据的来源: • 滥用缩写词 • 数据输入错误 • 不用的惯用语 • 重复记录 • 丢失值 • 拼写变化 • 不同的计量单位 • 过时的编码
背景
• 现实世界的数据: • 不完整:有些感兴趣的属性缺少属性值,
或者仅包含聚集数据。 • 含噪声:包含错误或者“鼓励点” • 不一致:在编码或者命名上存在差异
数据的不一致性
ቤተ መጻሕፍቲ ባይዱ
目录
• 一、不一致性的背景 • 二、不一致性的来源 • 三、不一致性的解决办法
背景
• 数据是对现实世界的描述,应该符合一定 的语义规则和逻辑常识,但实际应用中, 由于各种原因,有些数据违反了这样的语 义规则,表现为数据值异常、不完整或相 互矛盾,对于关系数据而言,还有实体异 常(多条记录对应同一实体)、包含异常(多 表之间记录不满足包含关系)等,所有这类 “脏”数据我们称之为不一致数据。
背景
• 二、数据库设计和日常维护不够严谨,比 如:定义表之间的关系时,没有规定级联删 除或级联更新,简单地使用sequeneeID作为 主码等,这些做法虽然不符合关系数据理 论,但在实际应用中普遍存在,也导致不 一致数据的存在,比如在sequenceID做主码 的数据库里就可能存在同一个身份证号对 应两个不同的人的情况。
具体表现在:
• 数据值缺失或不一致。作为一个完全开放 的网络,任何人任何机构都可以在互联网 上发布信息,哪怕信息不正确,不完整。
• 数据各版本相互冲突。由于各种原因,不 同的人不同的机构对同一信息的描述细节 可能不一样,甚至相互矛盾,由此导致数 据的可信度大大降低。
• 数据不实时。互联网上的信息可能更新不 及时,不能反映事物的最新状态。从这样 不确定的数据源中抽取到的信息是不一致 的,必须预处理它们,或者加以查询处理。 目前,研究界通常对不同的数据源人为地 定一个可信度,以便预处理或计算查询回 答时,利用算法来确定冲突数据的取舍。
在数据集成时,来自多个数据源的现实世界实体的表达形式 是不一样的,不一定是匹配的,要考虑实体识别问题和属性 冗余问题,从而把源数据在最低层上加以转换、提炼和集成。
数据集成——实体识别
实体识别的任务是检测和解决同名异义、异名同义、单位不统一的冲突。 如:
• 同名异义:数据源A中的属性ID和数据源B中的属性ID分别描述的是菜 品编号和订单编号,即描述的是不同的实体。
• 因此,在实际应用中,一般开展数据挖掘 前要进行数据清洗 (data cleaning)以梗填补 遗漏数据、消除异常数据、平滑噪声数据,
纠正不一致数据来提高数据质量。不一致
数据的查询处理可以为数据挖掘的脏数据 处理开拓新的解决思路。
数据集成
数据挖掘需要的数据往往分布在不同的数据源中,数据集成 就是将多个数据源合并存放在一个一致的数据存储(如数据 仓库)中的过程。
待解决的应用(二)
数据挖掘 • 数据挖掘的目的是从大量纷繁复杂的原始数据
中获取知识。原始数据的质量在很大程度上决 定了数据挖掘的成功与否。当原始数据信息丰 富、准确客观时,所获取的知识价值高;如果 原始数据的质量不理想,例如字段值有误差或 不一致,所获取的知识可能并无任何借鉴意义。 数据挖掘中的数据往往来自多个系统,这些数 据源本身可能存在一些缺失或错误等质量问题, 集成到一起更可能相互矛盾。
背景
• 不一致数据普遍存在于多类现实应用中。 这些应用不单单包括各种各样数量巨大的 关系数据库应用系统,目前越来越频繁的 数据整合、传感网络等应用,还有XML网络 信息交换和集成等。
背景
• 一、现实世界里,数据应该遵从的语义约 束类型更多且更复杂,比如人口普查数据 表中,户主不能和同一个家庭中的两个人 具有婚姻关系,DBMS缺乏直接机制对这一 类约束进行定义和维护,以至于违反它们 的数据进入数据库。
背景
• 三、即便单个数据源一致,多个自治的数 据源合并时,数据冲突也时有发生,呈现 不一致性。
• 四、异构数据源之间进行转换时,在源数 据库中完整的数据,可能不符合目标数据 库的语义要求。这些都使得不一致关系数 据普遍存在。
背景
• 从语义层面重新思考不一致数据上的查询 结果的确定性、可信性及其价值,寻找适 合不一致数据描述的数据模型,并重新定 义其上的查询操作、处理规则及其语义。 并为不一致数据模型及其上的查询回答寻 找一个可以兼容一致数据模型及其查询处 理的实现方案,以便能在不影响传统数据 管理和查询的基础上,实现不一致数据的 管理和查询处理,使得用户仍然能从不一 致数据中获得比较有价值的查询结果。
• 异名同义:数据源A中的sales_dt和数据源B中的sales_date都是是描述 销售日期的,即A. sales_dt= B. sales_date。
• 单位不统一:描述同一个实体分别用的是国际单位和中国传统的计量单 位。
数据集成——冗余属性识别
数据集成往往导致数据冗余,如: • 同一属性多次出现 • 同一属性命名不一致导致重复 不同源数据的仔细整合能减少甚至避免数据冗余与不一致,以提高数据
待解决的应用(一)
web信息抽取 • web信息抽取技术将网页中的非结构化数据
或半结构化数据按照一定的需求抽取成结 构化数据。这些结构化数据往往存储在后 台数据库中,供用户查询以及进一步分析 利用。但众所周知,internet具有开放性, 不一致性,交互性,超时空性等特点。但 正是因为互联网的这些特性,网页中的数 据良莠不齐,存在着严重的不一致问题。
• 在数据交换应用中,由于不同的应用对同 一数据可能有着不同的要求,源数据的语 义模型和目标数据的语义模型可能不一样, 这就导致确定一致的源数据,可能因为违 反了目标数据上的语义约束而不一致。
挖掘的速度和质量。对于冗余属性要先分析检测到后再将其删除。 有些冗余属性可以用相关分析检测到。给定两个数值型的属性A和B,
根据其属性值,可以用相关系数度量一个属性在多大程度上蕴含另一个 属性。
数据集成和数据交换
• 数据集成系统中的不一致性数据主要来自 两个层次,即数据本身的不一致性和模式 匹配的不确定性。
背景
脏数据的来源: • 滥用缩写词 • 数据输入错误 • 不用的惯用语 • 重复记录 • 丢失值 • 拼写变化 • 不同的计量单位 • 过时的编码
背景
• 现实世界的数据: • 不完整:有些感兴趣的属性缺少属性值,
或者仅包含聚集数据。 • 含噪声:包含错误或者“鼓励点” • 不一致:在编码或者命名上存在差异
数据的不一致性
ቤተ መጻሕፍቲ ባይዱ
目录
• 一、不一致性的背景 • 二、不一致性的来源 • 三、不一致性的解决办法
背景
• 数据是对现实世界的描述,应该符合一定 的语义规则和逻辑常识,但实际应用中, 由于各种原因,有些数据违反了这样的语 义规则,表现为数据值异常、不完整或相 互矛盾,对于关系数据而言,还有实体异 常(多条记录对应同一实体)、包含异常(多 表之间记录不满足包含关系)等,所有这类 “脏”数据我们称之为不一致数据。
背景
• 二、数据库设计和日常维护不够严谨,比 如:定义表之间的关系时,没有规定级联删 除或级联更新,简单地使用sequeneeID作为 主码等,这些做法虽然不符合关系数据理 论,但在实际应用中普遍存在,也导致不 一致数据的存在,比如在sequenceID做主码 的数据库里就可能存在同一个身份证号对 应两个不同的人的情况。
具体表现在:
• 数据值缺失或不一致。作为一个完全开放 的网络,任何人任何机构都可以在互联网 上发布信息,哪怕信息不正确,不完整。
• 数据各版本相互冲突。由于各种原因,不 同的人不同的机构对同一信息的描述细节 可能不一样,甚至相互矛盾,由此导致数 据的可信度大大降低。
• 数据不实时。互联网上的信息可能更新不 及时,不能反映事物的最新状态。从这样 不确定的数据源中抽取到的信息是不一致 的,必须预处理它们,或者加以查询处理。 目前,研究界通常对不同的数据源人为地 定一个可信度,以便预处理或计算查询回 答时,利用算法来确定冲突数据的取舍。
在数据集成时,来自多个数据源的现实世界实体的表达形式 是不一样的,不一定是匹配的,要考虑实体识别问题和属性 冗余问题,从而把源数据在最低层上加以转换、提炼和集成。
数据集成——实体识别
实体识别的任务是检测和解决同名异义、异名同义、单位不统一的冲突。 如:
• 同名异义:数据源A中的属性ID和数据源B中的属性ID分别描述的是菜 品编号和订单编号,即描述的是不同的实体。
• 因此,在实际应用中,一般开展数据挖掘 前要进行数据清洗 (data cleaning)以梗填补 遗漏数据、消除异常数据、平滑噪声数据,
纠正不一致数据来提高数据质量。不一致
数据的查询处理可以为数据挖掘的脏数据 处理开拓新的解决思路。
数据集成
数据挖掘需要的数据往往分布在不同的数据源中,数据集成 就是将多个数据源合并存放在一个一致的数据存储(如数据 仓库)中的过程。
待解决的应用(二)
数据挖掘 • 数据挖掘的目的是从大量纷繁复杂的原始数据
中获取知识。原始数据的质量在很大程度上决 定了数据挖掘的成功与否。当原始数据信息丰 富、准确客观时,所获取的知识价值高;如果 原始数据的质量不理想,例如字段值有误差或 不一致,所获取的知识可能并无任何借鉴意义。 数据挖掘中的数据往往来自多个系统,这些数 据源本身可能存在一些缺失或错误等质量问题, 集成到一起更可能相互矛盾。