数据不一致性资料

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 没有高质量的数据，就没有高质量的挖掘结果
背景
• 不一致数据普遍存在于多类现实应用中。这些应用不单单包括各种各样数量巨大的关系数据库应用系统，目前越来越频繁的数据整合、传感网络等应用，还有XML网络信息交换和集成等。
背景
• 一、现实世界里，数据应该遵从的语义约束类型更多且更复杂，比如人口普查数据表中，户主不能和同一个家庭中的两个人具有婚姻关系，DBMS缺乏直接机制对这一类约束进行定义和维护，以至于违反它们的数据进入数据库。
背景
• 三、即便单个数据源一致，多个自治的数据源合并时，数据冲突也时有发生，呈现不一致性。
• 四、异构数据源之间进行转换时，在源数据库中完整的数据，可能不符合目标数据库的语义要求。这些都使得不一致关系数据普遍存在。
背景
• 从语义层面重新思考不一致数据上的查询结果的确定性、可信性及其价值，寻找适合不一致数据描述的数据模型，并重新定义其上的查询操作、处理规则及其语义。并为不一致数据模型及其上的查询回答寻找一个可以兼容一致数据模型及其查询处理的实现方案，以便能在不影响传统数据管理和查询的基础上，实现不一致数据的管理和查询处理，使得用户仍然能从不一致数据中获得比较有价值的查询结果。
• 异名同义：数据源A中的sales_dt和数据源B中的sales_date都是是描述销售日期的，即A. sales_dt= B. sales_date。
• 单位不统一：描述同一个实体分别用的是国际单位和中国传统的计量单位。
数据集成——冗余属性识别
数据集成往往导致数据冗余，如： • 同一属性多次出现 • 同一属性命名不一致导致重复不同源数据的仔细整合能减少甚至避免数据冗余与不一致，以提高数据
待解决的应用（一）
web信息抽取 • web信息抽取技术将网页中的非结构化数据
或半结构化数据按照一定的需求抽取成结构化数据。这些结构化数据往往存储在后台数据库中，供用户查询以及进一步分析利用。但众所周知，internet具有开放性，不一致性，交互性，超时空性等特点。但正是因为互联网的这些特性，网页中的数据良莠不齐，存在着严重的不一致问题。
• 在数据交换应用中，由于不同的应用对同一数据可能有着不同的要求，源数据的语义模型和目标数据的语义模型可能不一样，这就导致确定一致的源数据，可能因为违反了目标数据上的语义约束而不一致。
挖掘的速度和质量。对于冗余属性要先分析检测到后再将其删除。有些冗余属性可以用相关分析检测到。给定两个数值型的属性A和B，
根据其属性值，可以用相关系数度量一个属性在多大程度上蕴含另一个属性。
数据集成和数据交换
• 数据集成系统中的不一致性数据主要来自两个层次，即数据本身的不一致性和模式匹配的不确定性。
背景
脏数据的来源： • 滥用缩写词 • 数据输入错误 • 不用的惯用语 • 重复记录 • 丢失值 • 拼写变化 • 不同的计量单位 • 过时的编码
背景
• 现实世界的数据： • 不完整：有些感兴趣的属性缺少属性值，
或者仅包含聚集数据。 • 含噪声：包含错误或者“鼓励点” • 不一致：在编码或者命名上存在差异
数据的不一致性
ቤተ መጻሕፍቲ ባይዱ
目录
• 一、不一致性的背景 • 二、不一致性的来源 • 三、不一致性的解决办法
背景
• 数据是对现实世界的描述，应该符合一定的语义规则和逻辑常识，但实际应用中，由于各种原因，有些数据违反了这样的语义规则，表现为数据值异常、不完整或相互矛盾，对于关系数据而言，还有实体异常(多条记录对应同一实体)、包含异常(多表之间记录不满足包含关系)等，所有这类 “脏”数据我们称之为不一致数据。
背景
• 二、数据库设计和日常维护不够严谨，比如:定义表之间的关系时，没有规定级联删除或级联更新，简单地使用sequeneeID作为主码等，这些做法虽然不符合关系数据理论，但在实际应用中普遍存在，也导致不一致数据的存在，比如在sequenceID做主码的数据库里就可能存在同一个身份证号对应两个不同的人的情况。
具体表现在:
• 数据值缺失或不一致。作为一个完全开放的网络，任何人任何机构都可以在互联网上发布信息，哪怕信息不正确，不完整。
• 数据各版本相互冲突。由于各种原因，不同的人不同的机构对同一信息的描述细节可能不一样，甚至相互矛盾，由此导致数据的可信度大大降低。
• 数据不实时。互联网上的信息可能更新不及时，不能反映事物的最新状态。从这样不确定的数据源中抽取到的信息是不一致的，必须预处理它们，或者加以查询处理。目前，研究界通常对不同的数据源人为地定一个可信度，以便预处理或计算查询回答时，利用算法来确定冲突数据的取舍。
在数据集成时，来自多个数据源的现实世界实体的表达形式是不一样的，不一定是匹配的，要考虑实体识别问题和属性冗余问题，从而把源数据在最低层上加以转换、提炼和集成。
数据集成——实体识别
实体识别的任务是检测和解决同名异义、异名同义、单位不统一的冲突。如：
• 同名异义：数据源A中的属性ID和数据源B中的属性ID分别描述的是菜品编号和订单编号，即描述的是不同的实体。
• 因此，在实际应用中，一般开展数据挖掘前要进行数据清洗 (data cleaning)以梗填补遗漏数据、消除异常数据、平滑噪声数据，
纠正不一致数据来提高数据质量。不一致
数据的查询处理可以为数据挖掘的脏数据处理开拓新的解决思路。
数据集成
数据挖掘需要的数据往往分布在不同的数据源中，数据集成就是将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的过程。
待解决的应用（二）
数据挖掘 • 数据挖掘的目的是从大量纷繁复杂的原始数据
中获取知识。原始数据的质量在很大程度上决定了数据挖掘的成功与否。当原始数据信息丰富、准确客观时，所获取的知识价值高;如果原始数据的质量不理想，例如字段值有误差或不一致，所获取的知识可能并无任何借鉴意义。数据挖掘中的数据往往来自多个系统，这些数据源本身可能存在一些缺失或错误等质量问题，集成到一起更可能相互矛盾。