数据异构
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DB2:TOTAL_COST,其中, TOTAL_COST= LABOR_COST+MATERIAL_COST。
新浪微博中company 腾讯微博中company-name,department-name,begin-year, end-year,company-id
⑦ 数据模型表示上的差异 数据模型异构情形下,数据库集成难度更大。
② 比较属性的模式信息的方法 方法主要利用属性的模式信息来判断两个属性是否相同, 避免了比较属性名的方法中出现的同名异义、异名同义等问题。 用属性的取值唯一性、域、静态语义完整性限制、动态语义完 整性限制、安全性限制、允许进行的操作及数据精度等模式信 息判断两个属性是否相同的方法。 该方法主要通过对属性的模式信息中的每一项赋予一定的权 值,然后按事先设计好的算法进行属性是否相同的判断。但该 方法仅使用属性的元数据信息,并未使用属性的数据内容信息, 则具有相同元数据信息描述的不同属性不能被区分开。 同时,该方法需要先验知识来确定描述属性的各项模式信息 的权重,但属性的模式信息的权重很难准确量化,也不能找到 一个通用的固定规则来解决属性的匹配问题。
解决异构数据库间语义异构问题 主要采用的方法
1.异构数据库间相同属性的识别方法
① 比较属性名的方法 该方法假定了同一概念都用同义的述语表示,并参考了同义词字 典。对于面向对象模型中的两个对象相同与否的判断中,主要比 较对象中的类名、成员名及属性名等是否相同,并对各项统一赋 予一定的权值,最后计算两个属性的相似性和不相似性,以决定 属性是否属于同一属性。 对于比较属性名的方法,尽管简单、高效,但是对于属性之 间存在着同名异义、异名同义及缩略词等问题,是影响该方法准 确率的主要因素。
③ 基于概率的实体匹配决策模型 针对实体异构问题,文献[57]给出了一个概率决策模型。由于来自不同数 据库中的实体的描述符不同,且存在数据收集、数据输入及数据表示 上的错误,要实现实体的精确匹配是不现实的。文献[57]用概率理论 对不确定数据的表示建模,并给出了最小化实体匹配代价的方法。在 具体数据库上的实验结果表明,该方法能有效地实现实体匹配,解决 实体异构问题。
目录
1.目前的信息资源利用现状 2. 研究意义 3. 主要涉及的问题 4. 数据组织方式 5. 典型体系结构 6. 数据异构的类型 7.异构数据库的步骤 8. 主要采用的方式
1
2
• 随着人们对信息综合利用 需求的进一步提高, Internet的局限性也凸现出 来,因为计算机互联网络 实现的是一种硬件的连通 ,所连接起来的信息大部 分是异构的,如何让这一 个个信息孤岛互通真正实 现数据的共享?如何找出 并消除异构数据库中数据 • 的冲突、异常,进行数据 集成?
40年代中-现在
数据库系统阶段
未来
云存储
异构数据库目前
· 信息集成无疑可以提高企业管理效率、降低企业运营 成本以及加强企业竞争能力。 · 目前的信息处理方式并未从根本上解决数据的冲突和 共享问题。 · 目前的信息资源利用方式正经历着从传统的仅依赖单 个站点数据进行信息管理的方式向多个站点资源共享 进行信息集成管理的方式转变。
④ 基于距离的实体匹配决策模型 文献[56]给出了一个基于距离的实体匹配决策模型来实现实体的匹配,该 模型利用待匹配实体的实例值之间的距离作为衡量两个实体是否相同 的标准。该模型中,涉及属性冲突的解决、共同属性的选取、参数的 估计等问题,并且需要由用户和领域专家对属性的重要性进行评价。 通过在具体数据库上的实验显示,该方法能够很好地预测两个实体是 否匹配,计算代价小且算法有较好的可伸缩性。
② 属性域和取值冲突 a. 属性域冲突,即属性值的类型、取值范围或取值集合不同。 b. 属性取值单位冲突。
③ 结构冲突 指同一个概念用不同的结构来描述。如同一个概念在一个模式中 被表示为属性值,而在另外一个模式中被表示为属性。
④ 键冲突 不同模式中同一实体型的键属性不同。 如在两个模式中,实体型EMPLOYEES的键属性分别为 SS#(职 工社会保险号)和 EMP_ID(职工号)。
2 联邦数据库系统
特点: ①各局部数据库间的耦合较松 一些,没有单一的全局策略。 ②每个局部数据库维护本地输 入输出策略。 ③局部输入输出策略构成了全 局策略的一部分。 ④局部系统有较好的自治性。
3 基源自文库数据仓库
特点: ①数据仓库层,该层对数据进行高度的集中,存储来自各个数据源的数 据。系统提供了对这个数据仓库的查询机制,能够方便的对这些数据进 行有效的处理。 ②当信息源的数据发生变化时,数据仓库中的数据也要做相应的修改。 因此,这种间接访问方式的最大缺点是数据更新不及时,数据重复存储。 ③这种方法通常需要一些新的技术,如有效的数据加载和增量更新维护 等
⑤ 部分数据丢失 指同一实体型在不同的模式中用不完全相同的属性来描述。例如, Source 1: EMP (SSN, NAME, AGE) Source 2: EMP (SSN, NAME, ADDRESS)
⑥ 抽象级别不同 抽象级别不同,可分为属性抽象级别不同和实体型抽象级别不同 。 DB1:LABOR_COST MATERIAL_COST
异构数据库语义集成的任务
· 数据清理 · 数据集成 · 数据选择 · 数据变换 · 数据挖掘 · 模式评估 · 知识表示
异构性表现
· 场地分布 · 数据分布 · 硬件平台多样化 · 操作系统多样化 · 应用平台多样化
异构数据库集成系统的数据组织方式
方式 虚拟方式 数据存储 不在本地 只建立与远程数据源的 逻辑映射 特点 基于查询分解模型 数据库查询被分解 成子查询,并送到远 程数据源,最后合并 返回的查询结果。 无需对数据源进行 访问 数据的维护方式采 用增量维护 具有更快的查询响 应时间 使用范围 数据源经常 变动的
4 基于中介器/包装器 特点: ①该方法不需要重复存 储大量数据,并能保证 查询到最新的数据,因 此比较适合于高度自治、 集成数量多且更新变化 快的异构信息源集成。 ②该方法中的技术涉及 到更多的查询上的代数 操作,因此查询功能的 实现较为复杂。
异构数据库的异构数据类型
1.数据异构
· 数据类型 · 格式 · 精度
关系模型中的模式表示:EMPLOYEE (name, address, salary) 面向对象模型中的模式表示:class EMPLOYEE{ /*变量*/ string name; string address; int salary; /*消息*/ int annual-salary(); string get-name(); string get-address(); }
③ 比较属性值及所来自的域的方法 Larson et. al.和 Sheth et. al.讨论了如何根据实体集的属性之间域 的关系来进行集成,他们把域的关系分为:EQUAL、 CONTAINS、OVERLAP、CONTAINED-IN 及 DISJOINT。指 出,判断域之间的关系是费时、乏味的。 直接比较属性的值是否相等及所来自的域是否相同来确定属性 是否为同一属性的方法是低效的。并且该方法容易受到噪声数 据的干扰,如输入错误、不同数据库中数据的更新不同步等, 少量数据的错误可能会导致得出错误的域关系,容错性较差。 Sheth 和 Gala也认为文献中给出的方法不能实现自动化,需要依 赖于启发式算法找出匹配的属性对,而不是进行所有属性之间 的连接操作。
2 异构数据库间相同实体的识别方法
① 基于规则的实体连接匹配模型 文献[60]给出了一个基于规则的实体连接匹配模型来解决实体异构问题。 该模型实际上是文献[61]中用于处理数据库语义问题的基于规则的表 示语言的扩展,主要是通过一些规则在属性值之间建立等价关系。该 方法存在的问题是,不同的规则可能适用于属性的不同实例,在属性 级上定义的规则,并不一定适用于属性的实例,并且该方法可能导致 基本信息的丢失。
物化视图方 式
存储在本地
数据源不经 常变化且要求 有快速查询响 应的
异构数据库集成采用的典型体系结构
1.全局概念视图
特点: ① 需要对异构数据库中的数据 完全集成以形成全局视图; ② 必须保持全局模式与所有局 部模式的映射关系; ③ 需要具备局部数据库的知识, 并且知道应如何解决数据异构 问题; ④ 所有局部模式的修改都将导 致全局模式的修改,这将增加 维护全局模式的负担。
3.解决异构数据库间语义异构的方法
① 基于 SSM(Summary Schema Model)的方法 在分布式环境下,多数据库系统能够提供对异构且自治的局部数据库进行 集成访问,目前,多数据库系统存在的主要问题是局部数据库中近似 的语义数据的匹配。Bright et al.提出并研究了基于 SSM 的语义异构 解决方案[8],SSM 是对多数据库系统的扩展,用来辅助对具有不同 对象名但语义相关的对象的判断提供语言上的支持(linguistic support) [64,65]。SSM 通过创建一个全局数据结构来实现对多数据库系统中的 可用信息进行抽象,利用模式元素(schema terms)之间的语言关系 建立一个层次型全局数据结构,通过该模型能够找出具有不同实体名 的近似语义实体。该模型允许用户用自己的语言描述查询(支持不精 确查询)请求,而不是强制用户使用系统特定的述语进行查找,系统 通过使用全局数据结构对用户提出请求的述语进行最相似的匹配。文 献[8]对 SSM 的模糊查询方案及相应的查询处理代价在一个标准的多 数据库系统下进行了仿真实验,结果表明该方案能给用户查询处理带 来更大的弹性和方便。关于 SSM 的代价和优势的详细讨论以及未来 的研究方向等详细内容,请参阅文献[8]。
异构数据库集成的步骤
① 把异构数据库中用不同数据模型表示的数据转换成统一的数据 模型表示,然后再进行集成。考虑到关系模型的描述能力,通 常局部数据库都转换成关系模型表示; ② 找出异构数据库间语义相关的对象(属性或实体),即语义集 成; ③ 在数据语义明确的情形下,解决异构数据库间数据的冲突问题, 进行数据集成。
② 基于 Ontology 的方法 基于 Ontology 的语义集成方法的研究主要从三个方面展开 [6]。第一个方面是创建 Ontology,这方面的工作主要是讨论如何构建分 类系统树,如何保证创建的Ontology 能够准确地对具体应用环境的数 据进行概念化,这方面的工作参见文献 [66~69]。另一个方面是考虑 Ontology 的表示和基于 Ontology 的推理, 主要讨论怎样表示 Ontology 的定义或用 Ontology 进行语义推理时哪 些因素是重要的。OBSERVER [70]系统通过使用 Ontology 允许用户进行异构数据源的查询,通过用 目标 Ontology 中合适的述语代替用户的查询来实现异构数据源的访问。 通过使用语义网框架的项目SHOE [71]及Ontobroker [66]也是使用Ontology提高网络环境下的 检索能力。第三方面的工作主要是考虑数据库模式的语义集成,讨论如保 证Ontology 能够有助于解决异构问题,Ontology 能够解决哪一类数 据异构问题,如何在模式和 Ontology 间建立起联系,如何保证目前 系统的体系结构和 Ontology的兼容性等问题。
② 基于记录链的匹配模型 记录链是与实体异构相近似的问题,记录链主要是利用统计的方 法来实现记录匹配。文献[62]描述了记录链问题,文献[63]给出了一个 关于记录链的规范化的统计框架,解决记录链问题的统计技术被成功 地应用到医学、犯罪取证、移民等领域。实际上,实体异构问题与记 录链问题还是有一定的差别,记录链的匹配是多对多的,而异构实体 的匹配是一对一的。所以有必要研究新的方法来实现异构实体的匹配。
数据管理技术的发展过程
时间 40年代中-50年代中 发展阶段 人工管理阶段 特点 数据不能长期保存 应用程序本身管理数据 数据不共享 数据不具有独立性
50年代中-60年代中
文件系统阶段
数据可以长期保存 由文件系统管理数据 数据冗余大,共享差 数据独立性差
数据结构化 数据共享性高,冗余低, 易扩充 数据独立性高,统一管理
解决数据异构问题是在数据语义明确的前提下具体采取消除冲突 的方法,相对来说比较容易。
• 2 语义异构
• 语义异构是指不同数据源数据的涵义相似或有差别。 消除语义异构就是要解决 · 确定属性是否为同一属性; · 实体(型)是否为同一实体(型); · 描述实体型的结构是否存在冲突等问题。 ① 属性命名冲突 a. 同名不同义 指相同的名字代表不同的涵义。如:属性 SALARY 在一个数据库 中代表周工资,而在另外一个数据库中代表月工资; b. 异名同义 指 不 同 的 名 字 代 表 相 同 的 涵 义 。 如 : 新浪微博中的 gender和腾讯微博中的sex
新浪微博中company 腾讯微博中company-name,department-name,begin-year, end-year,company-id
⑦ 数据模型表示上的差异 数据模型异构情形下,数据库集成难度更大。
② 比较属性的模式信息的方法 方法主要利用属性的模式信息来判断两个属性是否相同, 避免了比较属性名的方法中出现的同名异义、异名同义等问题。 用属性的取值唯一性、域、静态语义完整性限制、动态语义完 整性限制、安全性限制、允许进行的操作及数据精度等模式信 息判断两个属性是否相同的方法。 该方法主要通过对属性的模式信息中的每一项赋予一定的权 值,然后按事先设计好的算法进行属性是否相同的判断。但该 方法仅使用属性的元数据信息,并未使用属性的数据内容信息, 则具有相同元数据信息描述的不同属性不能被区分开。 同时,该方法需要先验知识来确定描述属性的各项模式信息 的权重,但属性的模式信息的权重很难准确量化,也不能找到 一个通用的固定规则来解决属性的匹配问题。
解决异构数据库间语义异构问题 主要采用的方法
1.异构数据库间相同属性的识别方法
① 比较属性名的方法 该方法假定了同一概念都用同义的述语表示,并参考了同义词字 典。对于面向对象模型中的两个对象相同与否的判断中,主要比 较对象中的类名、成员名及属性名等是否相同,并对各项统一赋 予一定的权值,最后计算两个属性的相似性和不相似性,以决定 属性是否属于同一属性。 对于比较属性名的方法,尽管简单、高效,但是对于属性之 间存在着同名异义、异名同义及缩略词等问题,是影响该方法准 确率的主要因素。
③ 基于概率的实体匹配决策模型 针对实体异构问题,文献[57]给出了一个概率决策模型。由于来自不同数 据库中的实体的描述符不同,且存在数据收集、数据输入及数据表示 上的错误,要实现实体的精确匹配是不现实的。文献[57]用概率理论 对不确定数据的表示建模,并给出了最小化实体匹配代价的方法。在 具体数据库上的实验结果表明,该方法能有效地实现实体匹配,解决 实体异构问题。
目录
1.目前的信息资源利用现状 2. 研究意义 3. 主要涉及的问题 4. 数据组织方式 5. 典型体系结构 6. 数据异构的类型 7.异构数据库的步骤 8. 主要采用的方式
1
2
• 随着人们对信息综合利用 需求的进一步提高, Internet的局限性也凸现出 来,因为计算机互联网络 实现的是一种硬件的连通 ,所连接起来的信息大部 分是异构的,如何让这一 个个信息孤岛互通真正实 现数据的共享?如何找出 并消除异构数据库中数据 • 的冲突、异常,进行数据 集成?
40年代中-现在
数据库系统阶段
未来
云存储
异构数据库目前
· 信息集成无疑可以提高企业管理效率、降低企业运营 成本以及加强企业竞争能力。 · 目前的信息处理方式并未从根本上解决数据的冲突和 共享问题。 · 目前的信息资源利用方式正经历着从传统的仅依赖单 个站点数据进行信息管理的方式向多个站点资源共享 进行信息集成管理的方式转变。
④ 基于距离的实体匹配决策模型 文献[56]给出了一个基于距离的实体匹配决策模型来实现实体的匹配,该 模型利用待匹配实体的实例值之间的距离作为衡量两个实体是否相同 的标准。该模型中,涉及属性冲突的解决、共同属性的选取、参数的 估计等问题,并且需要由用户和领域专家对属性的重要性进行评价。 通过在具体数据库上的实验显示,该方法能够很好地预测两个实体是 否匹配,计算代价小且算法有较好的可伸缩性。
② 属性域和取值冲突 a. 属性域冲突,即属性值的类型、取值范围或取值集合不同。 b. 属性取值单位冲突。
③ 结构冲突 指同一个概念用不同的结构来描述。如同一个概念在一个模式中 被表示为属性值,而在另外一个模式中被表示为属性。
④ 键冲突 不同模式中同一实体型的键属性不同。 如在两个模式中,实体型EMPLOYEES的键属性分别为 SS#(职 工社会保险号)和 EMP_ID(职工号)。
2 联邦数据库系统
特点: ①各局部数据库间的耦合较松 一些,没有单一的全局策略。 ②每个局部数据库维护本地输 入输出策略。 ③局部输入输出策略构成了全 局策略的一部分。 ④局部系统有较好的自治性。
3 基源自文库数据仓库
特点: ①数据仓库层,该层对数据进行高度的集中,存储来自各个数据源的数 据。系统提供了对这个数据仓库的查询机制,能够方便的对这些数据进 行有效的处理。 ②当信息源的数据发生变化时,数据仓库中的数据也要做相应的修改。 因此,这种间接访问方式的最大缺点是数据更新不及时,数据重复存储。 ③这种方法通常需要一些新的技术,如有效的数据加载和增量更新维护 等
⑤ 部分数据丢失 指同一实体型在不同的模式中用不完全相同的属性来描述。例如, Source 1: EMP (SSN, NAME, AGE) Source 2: EMP (SSN, NAME, ADDRESS)
⑥ 抽象级别不同 抽象级别不同,可分为属性抽象级别不同和实体型抽象级别不同 。 DB1:LABOR_COST MATERIAL_COST
异构数据库语义集成的任务
· 数据清理 · 数据集成 · 数据选择 · 数据变换 · 数据挖掘 · 模式评估 · 知识表示
异构性表现
· 场地分布 · 数据分布 · 硬件平台多样化 · 操作系统多样化 · 应用平台多样化
异构数据库集成系统的数据组织方式
方式 虚拟方式 数据存储 不在本地 只建立与远程数据源的 逻辑映射 特点 基于查询分解模型 数据库查询被分解 成子查询,并送到远 程数据源,最后合并 返回的查询结果。 无需对数据源进行 访问 数据的维护方式采 用增量维护 具有更快的查询响 应时间 使用范围 数据源经常 变动的
4 基于中介器/包装器 特点: ①该方法不需要重复存 储大量数据,并能保证 查询到最新的数据,因 此比较适合于高度自治、 集成数量多且更新变化 快的异构信息源集成。 ②该方法中的技术涉及 到更多的查询上的代数 操作,因此查询功能的 实现较为复杂。
异构数据库的异构数据类型
1.数据异构
· 数据类型 · 格式 · 精度
关系模型中的模式表示:EMPLOYEE (name, address, salary) 面向对象模型中的模式表示:class EMPLOYEE{ /*变量*/ string name; string address; int salary; /*消息*/ int annual-salary(); string get-name(); string get-address(); }
③ 比较属性值及所来自的域的方法 Larson et. al.和 Sheth et. al.讨论了如何根据实体集的属性之间域 的关系来进行集成,他们把域的关系分为:EQUAL、 CONTAINS、OVERLAP、CONTAINED-IN 及 DISJOINT。指 出,判断域之间的关系是费时、乏味的。 直接比较属性的值是否相等及所来自的域是否相同来确定属性 是否为同一属性的方法是低效的。并且该方法容易受到噪声数 据的干扰,如输入错误、不同数据库中数据的更新不同步等, 少量数据的错误可能会导致得出错误的域关系,容错性较差。 Sheth 和 Gala也认为文献中给出的方法不能实现自动化,需要依 赖于启发式算法找出匹配的属性对,而不是进行所有属性之间 的连接操作。
2 异构数据库间相同实体的识别方法
① 基于规则的实体连接匹配模型 文献[60]给出了一个基于规则的实体连接匹配模型来解决实体异构问题。 该模型实际上是文献[61]中用于处理数据库语义问题的基于规则的表 示语言的扩展,主要是通过一些规则在属性值之间建立等价关系。该 方法存在的问题是,不同的规则可能适用于属性的不同实例,在属性 级上定义的规则,并不一定适用于属性的实例,并且该方法可能导致 基本信息的丢失。
物化视图方 式
存储在本地
数据源不经 常变化且要求 有快速查询响 应的
异构数据库集成采用的典型体系结构
1.全局概念视图
特点: ① 需要对异构数据库中的数据 完全集成以形成全局视图; ② 必须保持全局模式与所有局 部模式的映射关系; ③ 需要具备局部数据库的知识, 并且知道应如何解决数据异构 问题; ④ 所有局部模式的修改都将导 致全局模式的修改,这将增加 维护全局模式的负担。
3.解决异构数据库间语义异构的方法
① 基于 SSM(Summary Schema Model)的方法 在分布式环境下,多数据库系统能够提供对异构且自治的局部数据库进行 集成访问,目前,多数据库系统存在的主要问题是局部数据库中近似 的语义数据的匹配。Bright et al.提出并研究了基于 SSM 的语义异构 解决方案[8],SSM 是对多数据库系统的扩展,用来辅助对具有不同 对象名但语义相关的对象的判断提供语言上的支持(linguistic support) [64,65]。SSM 通过创建一个全局数据结构来实现对多数据库系统中的 可用信息进行抽象,利用模式元素(schema terms)之间的语言关系 建立一个层次型全局数据结构,通过该模型能够找出具有不同实体名 的近似语义实体。该模型允许用户用自己的语言描述查询(支持不精 确查询)请求,而不是强制用户使用系统特定的述语进行查找,系统 通过使用全局数据结构对用户提出请求的述语进行最相似的匹配。文 献[8]对 SSM 的模糊查询方案及相应的查询处理代价在一个标准的多 数据库系统下进行了仿真实验,结果表明该方案能给用户查询处理带 来更大的弹性和方便。关于 SSM 的代价和优势的详细讨论以及未来 的研究方向等详细内容,请参阅文献[8]。
异构数据库集成的步骤
① 把异构数据库中用不同数据模型表示的数据转换成统一的数据 模型表示,然后再进行集成。考虑到关系模型的描述能力,通 常局部数据库都转换成关系模型表示; ② 找出异构数据库间语义相关的对象(属性或实体),即语义集 成; ③ 在数据语义明确的情形下,解决异构数据库间数据的冲突问题, 进行数据集成。
② 基于 Ontology 的方法 基于 Ontology 的语义集成方法的研究主要从三个方面展开 [6]。第一个方面是创建 Ontology,这方面的工作主要是讨论如何构建分 类系统树,如何保证创建的Ontology 能够准确地对具体应用环境的数 据进行概念化,这方面的工作参见文献 [66~69]。另一个方面是考虑 Ontology 的表示和基于 Ontology 的推理, 主要讨论怎样表示 Ontology 的定义或用 Ontology 进行语义推理时哪 些因素是重要的。OBSERVER [70]系统通过使用 Ontology 允许用户进行异构数据源的查询,通过用 目标 Ontology 中合适的述语代替用户的查询来实现异构数据源的访问。 通过使用语义网框架的项目SHOE [71]及Ontobroker [66]也是使用Ontology提高网络环境下的 检索能力。第三方面的工作主要是考虑数据库模式的语义集成,讨论如保 证Ontology 能够有助于解决异构问题,Ontology 能够解决哪一类数 据异构问题,如何在模式和 Ontology 间建立起联系,如何保证目前 系统的体系结构和 Ontology的兼容性等问题。
② 基于记录链的匹配模型 记录链是与实体异构相近似的问题,记录链主要是利用统计的方 法来实现记录匹配。文献[62]描述了记录链问题,文献[63]给出了一个 关于记录链的规范化的统计框架,解决记录链问题的统计技术被成功 地应用到医学、犯罪取证、移民等领域。实际上,实体异构问题与记 录链问题还是有一定的差别,记录链的匹配是多对多的,而异构实体 的匹配是一对一的。所以有必要研究新的方法来实现异构实体的匹配。
数据管理技术的发展过程
时间 40年代中-50年代中 发展阶段 人工管理阶段 特点 数据不能长期保存 应用程序本身管理数据 数据不共享 数据不具有独立性
50年代中-60年代中
文件系统阶段
数据可以长期保存 由文件系统管理数据 数据冗余大,共享差 数据独立性差
数据结构化 数据共享性高,冗余低, 易扩充 数据独立性高,统一管理
解决数据异构问题是在数据语义明确的前提下具体采取消除冲突 的方法,相对来说比较容易。
• 2 语义异构
• 语义异构是指不同数据源数据的涵义相似或有差别。 消除语义异构就是要解决 · 确定属性是否为同一属性; · 实体(型)是否为同一实体(型); · 描述实体型的结构是否存在冲突等问题。 ① 属性命名冲突 a. 同名不同义 指相同的名字代表不同的涵义。如:属性 SALARY 在一个数据库 中代表周工资,而在另外一个数据库中代表月工资; b. 异名同义 指 不 同 的 名 字 代 表 相 同 的 涵 义 。 如 : 新浪微博中的 gender和腾讯微博中的sex