数据库期末总结
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、数据库设计的三个主要步骤(three major steps of the database design) 1、概念设计 是整个数据库设计的关键,通过对用户需求进行综合、归纳与抽象,形成一个独立于具体 DBMS 的概念模型 2、逻辑设计 将概念结构转化为某个 DBMS 所支持的数据模型,对其进行优化
3、物理设计 为逻辑数据模型选取一个最适合应用环境的物理结构(包括存储结构和存取方法)
3、C/S 和 B/S c/s 客户端/服务器 b/s 浏览器/服务器 c/s 般适合于软件开发对客户端计算机配置要求比较高 客户端也需要安装软件典型事例:qq b/s 般适合于网站开发客户端只要安装浏览器完成操作 客户端基本上需要加载对于服务器端配置要求比较高 典型事例:网站 erp 系统
易失性存储(volatile storage):电源关闭时丢失内容。 持久性存储(non-volatile storage):关闭电源内容不丢失,包括二级存储和三级存储,
物理媒介: 1、缓存:最快和最昂贵的形式存储;易失性存储;被计算机系统的硬件管理 2、主存:快速存取;通常太小(或过于昂贵)来存储整个数据库;易失性存储,如果出现电 源故障或系统崩溃主存储器的内容会丢失。 3、闪存:停电数据不丢失;数据只可以在一个位置写一次,但位置可以抹去重新写入;读 取速度大致和主存的一样快;但是写入慢,消除慢;广泛应用于嵌入式设备,如数码相机、 手机和 USB 密钥。 4、磁盘:数据存储在磁盘;主要是用于数据的长期存储媒介,通常存储整个数据库;数据 必须从磁盘移到主存储器访问,在写回到存储;直接访问,可以在磁盘上按任何顺序读取数 据,不像磁带;能达到 1.5TB 存储;断点和系统崩溃不丢失数据。 5、光存储器:非易失性、从一个旋转的磁盘使用激光读取数据;CD-ROM (640 MB)和 DVD (4.7 to 17 GB)最广泛格式;蓝光光碟 27 GB 到 54 GB;WORM (Write-one, read-many)光碟用于档 案存储;读和写是慢于磁盘;自动点唱机(Tape juke-boxes)系统中,有大量的可移动磁盘, 几个驱动器,和自动加载/卸载机制可用的磁盘存储大量的数据。 6、磁带:非易失性,主要用于备份(从磁盘故障恢复),和归档数据;顺序访问,比磁盘慢得多, 非常高的性能(40 300 GB 磁带可用);磁带可以从驱动删除,比磁盘存储成本更便宜,但驱动 器是昂贵的;磁带自动点唱机(Tape juke-boxes)能存储大量数据。
等价项(Equivalent Terms): Table=Relation Column=Field=Attribute Row=Record=Tuple
实体关系:一对多,多对多 主键:一个主键唯一地标识表中的每条记录。唯一,最小限度,非空,不能更新。 外键:如果公共关键字在一个关系中是主关键字,那么这个公共关键字被称为另一个关系的 外键。
变长记录:
槽的标头包括:记录实体的数量;空闲空间的结尾;每条记录的位置和大小。
记录在文件中的组织方式: 1、堆存储(Heap):记录可以被存储在文件的任何空闲的位置。 2、连续存储(Sequentia):存储记录是顺序的,基于每条记录查找关键字的值。 3、哈希存储(Hashing):用哈希函数计算每条记录的一些属性,结果指定文件记录应该被 存放在哪。 4、每个关系的记录可能存储在一个单独的文件中。
(2)概念设计(Conceptual Design) 构建 ERD 的 5 个步骤: 1、实体表示为表 2、确定关系 3、列表字段 4、确定键(主键) 5、确定数据类型
(3)规范化(Normalization) 非规范化设计导致问题: 例:MEMBERVISIT(userID,password,fistName,LastName, phone,dateTimeIn,dateTimeOut) 1、更新:当某用户有多条租借记录时,个人基本信息(如 password)会被重复插入,当更 新该用户的 password 时,不是所有的 password 都会被更新。 2、插入:当某用户没有租借记录时,他的信息就不能插入到数据表中。 3、删除:若某用户只有一次租借记录,删除该记录时,用户基本信息也会被删除。
5、复杂关系(complex relationship) 符合度(Multiplicity)是在一个 n 元实体关系中其他 n-1 个值固定时,实体可能的值或范围。
聚集:聚集是一种抽象,通过它联系被作为高层实体集 实体集 A 与 B 以及它们的联系可被看成实体集,并与另一实体集 C 发生联系
6、ER 图中的问题(problems in an ER model) 连接陷阱:误认为不存在联系的两个实体间存在联系,从而通过这种“联系”获得错误的信 息。包括扇形陷阱(fan traps)和深坑陷阱(chasm traps)。 扇形陷阱(fan traps):当用模型来表示实体间的联系时,某些特殊实体的实例出现间的通 路(pathway)是不明确的。当一个实体与其他实体间存在俩个或更多的一对多联系时,可 能存在扇形陷阱。 深坑陷阱(chasm traps):一个模型显示实体间存在关系,但是在实体间通路并不存在。 7、超类型/子类型层次结构(Supertype/Subtype Hierarchies) 超类实体(Supertype Entity):一般实体的共同领域。 子类实体(Subtype Entites):专业实体的特殊领域。 局部特殊化(Partial Specialization): 超类型的实例不属于一个子类型。 全体特殊化(Total Specialization)超类型的实例必须属于一个子类型。 不相交的规则(Disjoint rule): 超类可能属于最多一个子类。 重叠规则(Overlap rule): 超类可能属于多个子类。 四 文件组织(File Organization) 1、列举计算机上通常使用的物理存储媒介(List the physical storage media available on the computers you use routinely.)
三级存储(tertiary storage):最低水平层次结构,非易失性,慢速时间,也叫脱机存储(off-line storage)。磁带,光存储(magnetic tape, optical storage)。
2、磁盘的总容量 记录盘面数*每记录盘面的磁道数*每磁道的扇区数*每扇区的字节数
扇区:扇区是磁盘寻址的最小单位,其大小通常是 512 字节
存储层次:
主存(primary storage):最快的媒介但是不稳定,缓存、主存(cache, main memory)。
二级存储(secondary storage):下一个水平层次结构,非易失性,适度快速访问时间,也叫联 机存储(on-line storage),闪存、磁盘(flash memory, magnetic disks)。
Two-Tier Client/Server Architecture(两层客户机/服务器体系结构): 客户机/服务器结构将应用一分为二,由服务器提供应用(数据)服务,多台客户机进行连接。 1)“Fat”客户端,需要大量的资源在客户端进行高效运行 2)重要的客户端管理开销。
Three-Tier Client/Server Architecture: 在三层客户机/服务器结构中,由于数据访问是通过功能层进行的,因此客户端不再与数据 库直接建立数据连接。也就是说,建立在数据库服务器上的连接数量将大大减少。 不需要昂贵的硬件,集中维护,修改不影响其他人,将业务逻辑与数据库函数使其容易实现 负载平衡。很自然地映射到 Web 环境。
3、磁盘的性能指标:磁盘的容量,存取时间,数据传输速度,可靠性 存取时间(Access time):从发出读或写请求到数据传输开始。 1、寻道时间(Seek time):将磁头移到柱面的时间:约 2~30ms。 2、旋转等待时间(Rotational latency):扇区到磁头下方的时间,约 10~20ms。 总时间:10~40ms
4、标识数据项(Identify the Data Items)
二 SQL 1、查询(Query)
2、安全(Security)
3、索引(Index)
4、视图(View)
三 高级 ER(Advanced ER) 1、 (1)关系理论(Relational Theory) 关系模型是最简单也是最直观的数据模型,模型基于表的行和列,表被称作关系,因此使用 属于关系模型。
一 基本概念(Basic Concepts) 1、数据库系统开发生命周期(database system development lifecycle)
1. Database planning 2. System definition 3. Requirements collection and analysis 4. Database design 5. DBMS selection (optional) 6. Application design 7. Prototyping (optional) 8. Implementation 9. Data conversion and loading 10. Testing 11. Operational maintenance.
数据传输速度(Data-transfer rate):从磁盘得到或存储数据的速度。 可靠性:
平均失效时间(Mean time to failure (MTTF)):磁盘运行平稳没有失败的平均时间。一般 3 到 5 年。随着磁盘使用年限的增加,MTTF 会减少。
4、定长记录和变长记录(Fixed-Length Records vs variable -Length Records) 定长记录: 存储记录 i 首地址:n*(i-1),n 是每条记录的大小 记录访问简单但是记录可能会穿过块。修正:不允许记录穿过块的边界。 删除记录:所有记录上移一个;最后一个记录移到删除记录位置;不删除记录,将空闲记录 加到空闲列表。
关联表:关联表是多对多关系中两个父表的一个子表。
3、派生属性(Derived attribute) 属性分为:简单或复合,单值或多值,派生属性。 派生属性:从一个或一系列相关属性派生出的值,在相同的实体中不是必要的。 例如:total_salary as (salary+bonus)
4、递归关系(recursive relationship) 递归联系是实体集内部实例之间的一种联系,通常形象地称为自反联系。 例如:在“职工”实体集中存在很多的职工,这些职工之间必须存在一种领导与被领导的关系。
第一范式:无重复的列。数据库表的每一列都是不可分割的原子数据项。实体中的某个属性 有多个值时,必须拆分为不同的属性。 第二范式:属性完全依赖于主键。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性, 如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与 原实体之间是一对多的关系。 第三范式:属性不依赖于其它非主属性Biblioteka Baidu一个表中没有非主键字段决定其他非主键字段。若 有则分成两个表。 BCNF:若关系模式 R 是第一范式,且每个属性都不传递依赖于 R 的候选键。 http://jacki6.iteye.com/blog/774866
根据存储模型划分,数据库类型主要可分为: 1、树状数据库(Hierarchical Database)、 2、网状数据库(Network Database)、 3、关系数据库(Relational Database)、 4、面向对象数据库(Object-oriented Database)等。
关系数据库的优点: 1、依赖于逻辑,而不是物理的、相关记录之间的联系 2、使用第四代语言 3、允许高度的数据独立性
规范化处理:
2、弱实体(Weak Entity) 弱实体:在现实世界中,有时某些实体对于另一些实体有很强的依赖关系,即一个实体的存 在必须以另一实体的存在为前提。前者就称为“弱实体”,后者称为“强实体”。比如在人事 管理系统中,职工子女的信息就是以职工的存在为前提的,子女实体是弱实体,子女与职工 的联系是一种依赖联系。
3、物理设计 为逻辑数据模型选取一个最适合应用环境的物理结构(包括存储结构和存取方法)
3、C/S 和 B/S c/s 客户端/服务器 b/s 浏览器/服务器 c/s 般适合于软件开发对客户端计算机配置要求比较高 客户端也需要安装软件典型事例:qq b/s 般适合于网站开发客户端只要安装浏览器完成操作 客户端基本上需要加载对于服务器端配置要求比较高 典型事例:网站 erp 系统
易失性存储(volatile storage):电源关闭时丢失内容。 持久性存储(non-volatile storage):关闭电源内容不丢失,包括二级存储和三级存储,
物理媒介: 1、缓存:最快和最昂贵的形式存储;易失性存储;被计算机系统的硬件管理 2、主存:快速存取;通常太小(或过于昂贵)来存储整个数据库;易失性存储,如果出现电 源故障或系统崩溃主存储器的内容会丢失。 3、闪存:停电数据不丢失;数据只可以在一个位置写一次,但位置可以抹去重新写入;读 取速度大致和主存的一样快;但是写入慢,消除慢;广泛应用于嵌入式设备,如数码相机、 手机和 USB 密钥。 4、磁盘:数据存储在磁盘;主要是用于数据的长期存储媒介,通常存储整个数据库;数据 必须从磁盘移到主存储器访问,在写回到存储;直接访问,可以在磁盘上按任何顺序读取数 据,不像磁带;能达到 1.5TB 存储;断点和系统崩溃不丢失数据。 5、光存储器:非易失性、从一个旋转的磁盘使用激光读取数据;CD-ROM (640 MB)和 DVD (4.7 to 17 GB)最广泛格式;蓝光光碟 27 GB 到 54 GB;WORM (Write-one, read-many)光碟用于档 案存储;读和写是慢于磁盘;自动点唱机(Tape juke-boxes)系统中,有大量的可移动磁盘, 几个驱动器,和自动加载/卸载机制可用的磁盘存储大量的数据。 6、磁带:非易失性,主要用于备份(从磁盘故障恢复),和归档数据;顺序访问,比磁盘慢得多, 非常高的性能(40 300 GB 磁带可用);磁带可以从驱动删除,比磁盘存储成本更便宜,但驱动 器是昂贵的;磁带自动点唱机(Tape juke-boxes)能存储大量数据。
等价项(Equivalent Terms): Table=Relation Column=Field=Attribute Row=Record=Tuple
实体关系:一对多,多对多 主键:一个主键唯一地标识表中的每条记录。唯一,最小限度,非空,不能更新。 外键:如果公共关键字在一个关系中是主关键字,那么这个公共关键字被称为另一个关系的 外键。
变长记录:
槽的标头包括:记录实体的数量;空闲空间的结尾;每条记录的位置和大小。
记录在文件中的组织方式: 1、堆存储(Heap):记录可以被存储在文件的任何空闲的位置。 2、连续存储(Sequentia):存储记录是顺序的,基于每条记录查找关键字的值。 3、哈希存储(Hashing):用哈希函数计算每条记录的一些属性,结果指定文件记录应该被 存放在哪。 4、每个关系的记录可能存储在一个单独的文件中。
(2)概念设计(Conceptual Design) 构建 ERD 的 5 个步骤: 1、实体表示为表 2、确定关系 3、列表字段 4、确定键(主键) 5、确定数据类型
(3)规范化(Normalization) 非规范化设计导致问题: 例:MEMBERVISIT(userID,password,fistName,LastName, phone,dateTimeIn,dateTimeOut) 1、更新:当某用户有多条租借记录时,个人基本信息(如 password)会被重复插入,当更 新该用户的 password 时,不是所有的 password 都会被更新。 2、插入:当某用户没有租借记录时,他的信息就不能插入到数据表中。 3、删除:若某用户只有一次租借记录,删除该记录时,用户基本信息也会被删除。
5、复杂关系(complex relationship) 符合度(Multiplicity)是在一个 n 元实体关系中其他 n-1 个值固定时,实体可能的值或范围。
聚集:聚集是一种抽象,通过它联系被作为高层实体集 实体集 A 与 B 以及它们的联系可被看成实体集,并与另一实体集 C 发生联系
6、ER 图中的问题(problems in an ER model) 连接陷阱:误认为不存在联系的两个实体间存在联系,从而通过这种“联系”获得错误的信 息。包括扇形陷阱(fan traps)和深坑陷阱(chasm traps)。 扇形陷阱(fan traps):当用模型来表示实体间的联系时,某些特殊实体的实例出现间的通 路(pathway)是不明确的。当一个实体与其他实体间存在俩个或更多的一对多联系时,可 能存在扇形陷阱。 深坑陷阱(chasm traps):一个模型显示实体间存在关系,但是在实体间通路并不存在。 7、超类型/子类型层次结构(Supertype/Subtype Hierarchies) 超类实体(Supertype Entity):一般实体的共同领域。 子类实体(Subtype Entites):专业实体的特殊领域。 局部特殊化(Partial Specialization): 超类型的实例不属于一个子类型。 全体特殊化(Total Specialization)超类型的实例必须属于一个子类型。 不相交的规则(Disjoint rule): 超类可能属于最多一个子类。 重叠规则(Overlap rule): 超类可能属于多个子类。 四 文件组织(File Organization) 1、列举计算机上通常使用的物理存储媒介(List the physical storage media available on the computers you use routinely.)
三级存储(tertiary storage):最低水平层次结构,非易失性,慢速时间,也叫脱机存储(off-line storage)。磁带,光存储(magnetic tape, optical storage)。
2、磁盘的总容量 记录盘面数*每记录盘面的磁道数*每磁道的扇区数*每扇区的字节数
扇区:扇区是磁盘寻址的最小单位,其大小通常是 512 字节
存储层次:
主存(primary storage):最快的媒介但是不稳定,缓存、主存(cache, main memory)。
二级存储(secondary storage):下一个水平层次结构,非易失性,适度快速访问时间,也叫联 机存储(on-line storage),闪存、磁盘(flash memory, magnetic disks)。
Two-Tier Client/Server Architecture(两层客户机/服务器体系结构): 客户机/服务器结构将应用一分为二,由服务器提供应用(数据)服务,多台客户机进行连接。 1)“Fat”客户端,需要大量的资源在客户端进行高效运行 2)重要的客户端管理开销。
Three-Tier Client/Server Architecture: 在三层客户机/服务器结构中,由于数据访问是通过功能层进行的,因此客户端不再与数据 库直接建立数据连接。也就是说,建立在数据库服务器上的连接数量将大大减少。 不需要昂贵的硬件,集中维护,修改不影响其他人,将业务逻辑与数据库函数使其容易实现 负载平衡。很自然地映射到 Web 环境。
3、磁盘的性能指标:磁盘的容量,存取时间,数据传输速度,可靠性 存取时间(Access time):从发出读或写请求到数据传输开始。 1、寻道时间(Seek time):将磁头移到柱面的时间:约 2~30ms。 2、旋转等待时间(Rotational latency):扇区到磁头下方的时间,约 10~20ms。 总时间:10~40ms
4、标识数据项(Identify the Data Items)
二 SQL 1、查询(Query)
2、安全(Security)
3、索引(Index)
4、视图(View)
三 高级 ER(Advanced ER) 1、 (1)关系理论(Relational Theory) 关系模型是最简单也是最直观的数据模型,模型基于表的行和列,表被称作关系,因此使用 属于关系模型。
一 基本概念(Basic Concepts) 1、数据库系统开发生命周期(database system development lifecycle)
1. Database planning 2. System definition 3. Requirements collection and analysis 4. Database design 5. DBMS selection (optional) 6. Application design 7. Prototyping (optional) 8. Implementation 9. Data conversion and loading 10. Testing 11. Operational maintenance.
数据传输速度(Data-transfer rate):从磁盘得到或存储数据的速度。 可靠性:
平均失效时间(Mean time to failure (MTTF)):磁盘运行平稳没有失败的平均时间。一般 3 到 5 年。随着磁盘使用年限的增加,MTTF 会减少。
4、定长记录和变长记录(Fixed-Length Records vs variable -Length Records) 定长记录: 存储记录 i 首地址:n*(i-1),n 是每条记录的大小 记录访问简单但是记录可能会穿过块。修正:不允许记录穿过块的边界。 删除记录:所有记录上移一个;最后一个记录移到删除记录位置;不删除记录,将空闲记录 加到空闲列表。
关联表:关联表是多对多关系中两个父表的一个子表。
3、派生属性(Derived attribute) 属性分为:简单或复合,单值或多值,派生属性。 派生属性:从一个或一系列相关属性派生出的值,在相同的实体中不是必要的。 例如:total_salary as (salary+bonus)
4、递归关系(recursive relationship) 递归联系是实体集内部实例之间的一种联系,通常形象地称为自反联系。 例如:在“职工”实体集中存在很多的职工,这些职工之间必须存在一种领导与被领导的关系。
第一范式:无重复的列。数据库表的每一列都是不可分割的原子数据项。实体中的某个属性 有多个值时,必须拆分为不同的属性。 第二范式:属性完全依赖于主键。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性, 如果存在,那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体,新实体与 原实体之间是一对多的关系。 第三范式:属性不依赖于其它非主属性Biblioteka Baidu一个表中没有非主键字段决定其他非主键字段。若 有则分成两个表。 BCNF:若关系模式 R 是第一范式,且每个属性都不传递依赖于 R 的候选键。 http://jacki6.iteye.com/blog/774866
根据存储模型划分,数据库类型主要可分为: 1、树状数据库(Hierarchical Database)、 2、网状数据库(Network Database)、 3、关系数据库(Relational Database)、 4、面向对象数据库(Object-oriented Database)等。
关系数据库的优点: 1、依赖于逻辑,而不是物理的、相关记录之间的联系 2、使用第四代语言 3、允许高度的数据独立性
规范化处理:
2、弱实体(Weak Entity) 弱实体:在现实世界中,有时某些实体对于另一些实体有很强的依赖关系,即一个实体的存 在必须以另一实体的存在为前提。前者就称为“弱实体”,后者称为“强实体”。比如在人事 管理系统中,职工子女的信息就是以职工的存在为前提的,子女实体是弱实体,子女与职工 的联系是一种依赖联系。