计算思维导论5
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关系模式:表的结构称为关系模式,由表名、列名构 成。定义“关系”指定义关系的模式,“操纵”关系 指操纵的关系的值即表中数据。 码(键):在表中各种属性中有一个属性或属性组很重要, 就是“码”(Key),也称为键或关键字。 它或它们的值能唯一地将该表中的每一行区分开。 若一个关系中有若干个码,可选择其中的一个作为 “主码”,也称“主键”。
5.2 数据管理与数据库
教师表 姓名 年龄 系别 39 计算机 唐飞 王小栋 52 化学 43 陆非 外语 42 蒋涛 数学 授课表 对教师表执行“投影”操作得到的新关 姓名 系年龄 唐飞 王小栋 陆非 蒋涛 39 52 43 42
对授课表执行“选择”操作得到的新关 系 总学时 学分 课名 开课教师 总学时 学分 课名 开课教师 80 4 程序设计 王成 80 4 程序设计 王成 80 4 汇编语言 王成 80 4 汇编语言 王成 60 3 应用化学 王小栋 选择条件:“开课教师”=“王成” 60 3 英文阅读 陆非 80 4 高等数学 蒋涛 40 2 线性代数 蒋涛
5.2 数据管理与数据库
②用户通过DML操纵数据进出库
①用户通过DDL定义数据表的格式 ③用户通过DCL定义数据安全性
谁能访问数据 更新数据有什么要求 ……
检查用户合法性 检查数据合法性 按用户要求的操 作执行并返回结果
用户
DBMS
(依据用户表达的各种“需求”,对数 据 库进行操作、管理和控制)
5.2 数据管理与数据库
“选择”、“投影”、“笛卡尔积”、“连接”操作, 假设关系A和关系B具有相同的属性数目,且相应的属 性取自同一数据类型。 “选择”操作:从某个给定的关系中筛选出满足一定 限制条件的元组。 “投影”操作:从给定的关系中保留指定的属性子集 而删去其余的属性。 “选择”操作是从某个关系中选取满足条件的“行” 的子集,“投影”操作是选择“列”的子集。只对一 个关系操作
5.1 数据与大数据
大数据 由于网络的出现,人类社会产生的数据量激增。
2008年全球产生的数据量为0.49ZB(250MB) 2009年的数据量为0.8ZB 2010年增长为1.2ZB 2011年的数量更是高达1.82ZB 2012年为止,人类所有印刷材料的数据量是200PB 预计到2020年,全世界的数据规模将达今天的44倍。
表中每个数据项必须是不可再分的数据项。
5.2 数据管理与数据库
非规范化的关系:家庭关系表 丈夫 妻子 孩子 第一个 第二个 李健 张睿 张峰
李基 张鹏
王芳 刘玉
√
5.2 数据管理与数据库
3、数据表的操作---关系操作
关系/表之间是可以相互操作的,对关系/表的操作结果 仍是关系/表。 关系操作是指关系模型能够提供哪些运算和操作,以 便用户可以构造新关系。 数据库管理系统必须支持5种基本操作,对数据表的任 何复杂操作都可以通过这5种基本操作的组合获得。
5.2 数据管理与数据库
表:也称为“关系”。 由表名、列名及若干行数据组成。 表中的一行反映的是某个对象的相关数据。 表中的一列反映的是所有对象的某种性质或属性数据。
在数据库领域,这种简单结构的二维表被称为“关 系”,以表这种形式反映数据组织结构的模型被称为 “关系模型”。
5.2 数据管理与数据库
如学生选课登记表(学号、姓名、专业…)
9003105 9003212 9003223 9003214 …
行/元组/记录: 由相互关联 的数据构成。
值域:列数据的取值范围 如10个汉字以内的文字串
列/字段/属性:列名,有若干值或称数据 如列名为“专业”,数据:计算机应用…
5.2 数据管理与数据库
行:也称为“元组”,或“记录”。 表的每一行由若干字段值组成,描述一个对象的信息。 表中行次序不重要,一般可以互换。 一张表中一般不能出现完全相同的两行。
R 与S 的“并”操 学号 作 姓名 年龄 981101 981102 981103 981201 981202 981203 李勇 王军 刘柳 张平 付强 何红 22 21 23 21 24 22
R 与T 的“差”操 学号 作 姓名 年龄 981101 李勇 981103 刘柳 22 23
5.2 数据管理与数据库
表/关系:由关系模式和元组构成 表名:学生选课登记表 学生选课登记表 学 号 姓 名 专 业 选修课程 计算机系统结构 数据结构 程序设计语言 形式语言 … 任课教师 唐 飞 王小栋 陆 非 蒋 涛 … 张 鹏 吴俊武 廖 凯 李 娜 … 计算机应用 计算机软件 计算机软件 计算机软件 … 关系模式:由表名和属性名构成
5.1 数据与大数据
大数据的价值发现 《大数据时代》一书的作者前瞻性地指出:大数据开 启了一次重大的转型,大数据时代最大的转变就是 “放弃对因果关系的追求,取而代之关注相关关系”。 即只要知道“是什么”,而不需要知道“为什么”。 颠覆了千百年来人类的思维习惯。 例子:机票价格预测工具Farecast
5.2 数据管理与数据库
数据库:表用于描述客观世界中的一件事,对不同事 情的描述使用不同结构的表,如此若干数据表的集合 便形成了一个数据库。 数据表的性质 列是同质的,即同一列中的数据的数据类型必须相同。 表名在数据库中唯一,列名在表中唯一。 行、列顺序可以任意交换。
表中任意两个元组不能完全相同。
“教师”和“授课”关系的“连接”操作结果 姓名 年龄 系别 课名 开课教师 总学时 学分 60 3 王小栋 52 化学 应用化学 王小栋 43 60 3 陆非 外语 英文阅读 陆非 42 80 4 蒋涛 数学 高等数学 蒋涛 42 40 2 蒋涛 数学 线性代数 蒋涛
连接条件:“教师”表的“姓名”等于“授课”表的“开 课教师”
5.2 数据管理与数据库
“笛卡尔积”操作:对两个关系的操作。两个关系的 “笛卡尔积”操作是将两个关系拼接起来,由一个关 系的元组和另一个关系的每一个元组拼接成一个新元 组,这些新元组构成一个新关系。 “连接”操作:对两个关系的操作。“连接”操作是 将两个关系中满足一定条件的元组拼接成一个新元组, 连接条件。
39 计算机 程序设计 王成 5.2唐飞 数据管理与数据库 39 唐飞 计算机 汇编语言 王成 唐飞 唐飞 唐飞 唐飞 王小栋 王小栋 王小栋 王小栋 王小栋 王小栋 陆非 陆非 陆非 陆非 陆非 陆非 蒋涛 蒋涛 蒋涛 蒋涛 蒋涛 蒋涛 39 39 39 39 52 52 52 52 52 52 43 43 43 43 43 43 42 42 42 42 42 42 计算机 计算机 计算机 计算机 化学 化学 化学 化学 化学 化学 外语 外语 外语 外语 外语 外语 数学 数学 数学 数学 数学 数学 应用化学 英文阅读 高等数学 线性代数 程序设计 汇编语言 应用化学 英文阅读 高等数学 线性代数 程序设计 汇编语言 应用化学 英文阅读 高等数学 线性代数 程序设计 汇编语言 应用化学 英文阅读 高等数学 线性代数
5.1 数据与大数据
大数据的价值发现
Farecast: 飞机票价格预测 购票时机与机票价格的关系? 怎样预测机票价格? 只求关系,不求因果
Hale Waihona Puke 不要相信经验,一切以数据说话
5.1 数据与大数据
数据管理与数据分析 数据被视为知识的来源,被认为是一种财富,数据收 集、数据管理、数据分析的能力已被视为核心竞争力。 数据聚集的核心手段是数据管理和数据库,数据分析 与利用的核心手段是数据仓库和数据挖掘。
“并”、“差”、“笛卡尔积”、“选择”、“投影”
5.2 数据管理与数据库
“并”、“差”、“交”操作,假设关系A和关系B具 有相同的属性数目,且相应的属性取自同一数据类型 “并”操作:关系A和关系B的“并”操作结果是由或 者属于A或者属于B的元组组成的新关系。 “差”操作:关系A和关系B的“差”操作结果是由属 于A而不属于B的元组组成的新关系。 “交”操作:关系A和关系B的交”操作结果是由既属 于A又属于B的元组组成的新关系。
2、数据库的基本结构形式--- 数据表
数据表的构成:数据表是由简单的行列关系约束的一 种二维表格结构。 列:也称为“字段”,或“属性”。
表的每一列都包含同一类型的信息。
列由列名和列值构成,或属性名和属性值。 表中列次序不重要,或是无序的。
5.2 数据管理与数据库
数据表的构成要素及概念示意图
5.2 数据管理与数据库
R (9811班学生) 学号 981101 981102 981103 姓名 年龄 李勇 22 王军 21 刘柳 23 S (9812班学生) 学号 981201 981202 981203 姓名 年龄 张平 21 付强 24 何红 22 T (校运动队学生) 学号 姓名 年龄 981101 王军 21 981202 何红 22 R与T的“交”操作 学号 姓名 年龄 981102 王军 21
5.2 数据管理与数据库
教师表 姓名 年龄 系别 39 计算机 唐飞 王小栋 52 化学 43 陆非 外语 42 蒋涛 数学 授课表 课名 开课教师 总学时 学分 程序设计 王成 汇编语言 王成 应用化学 王小栋 英文阅读 陆非 高等数学 蒋涛 线性代数 蒋涛 80 80 60 60 80 40 4 4 3 3 4 2
5.3 数据分析
数据库和数据库管理系统可以实现数据的有效聚集和 管理,其目的是更好地利用数据。 如何利用数据?如何挖掘蕴含在数据中的知识? 数据分析:二维数据分析、多维数据分析。
数据挖掘:从数据库中知识发现,它是一个从大量数 据中抽取挖掘出未知的、有价值的模式或规律等知识 的复杂过程。简单地讲就是从大量数据中挖掘或抽取 出知识。
大学计算机-计算思维导论
冯元
南京理工大学计算机学院
第五章 数据抽象、设计与挖掘
内容提要:
数据与大数据
数据管理与数据库
数据分析
5.1 数据与大数据
现代社会数据的重要性 用数据说话、用数据决策、用数据创新已形成社会的 一种常态和共识,数据已被视为知识的来源、被认为 是一种财富。 数据之所以成为重要的生产要素,是因为它可以精确 地描述事实,以量化的方式反应逻辑和理性。 决策将日益基于数据和分析做出,而非经验和直觉。
“教师”和“授课”关系的“笛卡尔积”操作 结果 开课教师 总学时 学分 姓名 年龄 系别 课名
王小栋 陆非 蒋涛 蒋涛 王成 王成 王小栋 陆非 蒋涛 蒋涛 王成 王成 王小栋 陆非 蒋涛 蒋涛 王成 王成 王小栋 陆非 蒋涛 蒋涛 80 80 60 60 80 40 80 80 60 60 80 40 80 80 60 60 80 40 80 80 60 60 80 40 4 4 3 3 4 2 4 4 3 3 4 2 4 4 3 3 4 2 4 4 3 3 4 2
5.2 数据管理与数据库
1、数据库及数据库管理
数据库(DataBase):以“表” 形式组织起来的相互有 关联关系的数据的集合。 数据库管理系统(DBMS):用来管理数据库的软件。
数据表的定义:用户可以自己定义数据表格式(DDL)
数据表的操纵:插入、删除、更新,查询与计算(DML) 数据库控制:数据安全性和正确性控制(DCL) 数据库存储、备份、恢复、并发控制及性能监视与分 析。
5.2 数据管理与数据库
教师表 姓名 年龄 系别 39 计算机 唐飞 王小栋 52 化学 43 陆非 外语 42 蒋涛 数学 授课表 对教师表执行“投影”操作得到的新关 姓名 系年龄 唐飞 王小栋 陆非 蒋涛 39 52 43 42
对授课表执行“选择”操作得到的新关 系 总学时 学分 课名 开课教师 总学时 学分 课名 开课教师 80 4 程序设计 王成 80 4 程序设计 王成 80 4 汇编语言 王成 80 4 汇编语言 王成 60 3 应用化学 王小栋 选择条件:“开课教师”=“王成” 60 3 英文阅读 陆非 80 4 高等数学 蒋涛 40 2 线性代数 蒋涛
5.2 数据管理与数据库
②用户通过DML操纵数据进出库
①用户通过DDL定义数据表的格式 ③用户通过DCL定义数据安全性
谁能访问数据 更新数据有什么要求 ……
检查用户合法性 检查数据合法性 按用户要求的操 作执行并返回结果
用户
DBMS
(依据用户表达的各种“需求”,对数 据 库进行操作、管理和控制)
5.2 数据管理与数据库
“选择”、“投影”、“笛卡尔积”、“连接”操作, 假设关系A和关系B具有相同的属性数目,且相应的属 性取自同一数据类型。 “选择”操作:从某个给定的关系中筛选出满足一定 限制条件的元组。 “投影”操作:从给定的关系中保留指定的属性子集 而删去其余的属性。 “选择”操作是从某个关系中选取满足条件的“行” 的子集,“投影”操作是选择“列”的子集。只对一 个关系操作
5.1 数据与大数据
大数据 由于网络的出现,人类社会产生的数据量激增。
2008年全球产生的数据量为0.49ZB(250MB) 2009年的数据量为0.8ZB 2010年增长为1.2ZB 2011年的数量更是高达1.82ZB 2012年为止,人类所有印刷材料的数据量是200PB 预计到2020年,全世界的数据规模将达今天的44倍。
表中每个数据项必须是不可再分的数据项。
5.2 数据管理与数据库
非规范化的关系:家庭关系表 丈夫 妻子 孩子 第一个 第二个 李健 张睿 张峰
李基 张鹏
王芳 刘玉
√
5.2 数据管理与数据库
3、数据表的操作---关系操作
关系/表之间是可以相互操作的,对关系/表的操作结果 仍是关系/表。 关系操作是指关系模型能够提供哪些运算和操作,以 便用户可以构造新关系。 数据库管理系统必须支持5种基本操作,对数据表的任 何复杂操作都可以通过这5种基本操作的组合获得。
5.2 数据管理与数据库
表:也称为“关系”。 由表名、列名及若干行数据组成。 表中的一行反映的是某个对象的相关数据。 表中的一列反映的是所有对象的某种性质或属性数据。
在数据库领域,这种简单结构的二维表被称为“关 系”,以表这种形式反映数据组织结构的模型被称为 “关系模型”。
5.2 数据管理与数据库
如学生选课登记表(学号、姓名、专业…)
9003105 9003212 9003223 9003214 …
行/元组/记录: 由相互关联 的数据构成。
值域:列数据的取值范围 如10个汉字以内的文字串
列/字段/属性:列名,有若干值或称数据 如列名为“专业”,数据:计算机应用…
5.2 数据管理与数据库
行:也称为“元组”,或“记录”。 表的每一行由若干字段值组成,描述一个对象的信息。 表中行次序不重要,一般可以互换。 一张表中一般不能出现完全相同的两行。
R 与S 的“并”操 学号 作 姓名 年龄 981101 981102 981103 981201 981202 981203 李勇 王军 刘柳 张平 付强 何红 22 21 23 21 24 22
R 与T 的“差”操 学号 作 姓名 年龄 981101 李勇 981103 刘柳 22 23
5.2 数据管理与数据库
表/关系:由关系模式和元组构成 表名:学生选课登记表 学生选课登记表 学 号 姓 名 专 业 选修课程 计算机系统结构 数据结构 程序设计语言 形式语言 … 任课教师 唐 飞 王小栋 陆 非 蒋 涛 … 张 鹏 吴俊武 廖 凯 李 娜 … 计算机应用 计算机软件 计算机软件 计算机软件 … 关系模式:由表名和属性名构成
5.1 数据与大数据
大数据的价值发现 《大数据时代》一书的作者前瞻性地指出:大数据开 启了一次重大的转型,大数据时代最大的转变就是 “放弃对因果关系的追求,取而代之关注相关关系”。 即只要知道“是什么”,而不需要知道“为什么”。 颠覆了千百年来人类的思维习惯。 例子:机票价格预测工具Farecast
5.2 数据管理与数据库
数据库:表用于描述客观世界中的一件事,对不同事 情的描述使用不同结构的表,如此若干数据表的集合 便形成了一个数据库。 数据表的性质 列是同质的,即同一列中的数据的数据类型必须相同。 表名在数据库中唯一,列名在表中唯一。 行、列顺序可以任意交换。
表中任意两个元组不能完全相同。
“教师”和“授课”关系的“连接”操作结果 姓名 年龄 系别 课名 开课教师 总学时 学分 60 3 王小栋 52 化学 应用化学 王小栋 43 60 3 陆非 外语 英文阅读 陆非 42 80 4 蒋涛 数学 高等数学 蒋涛 42 40 2 蒋涛 数学 线性代数 蒋涛
连接条件:“教师”表的“姓名”等于“授课”表的“开 课教师”
5.2 数据管理与数据库
“笛卡尔积”操作:对两个关系的操作。两个关系的 “笛卡尔积”操作是将两个关系拼接起来,由一个关 系的元组和另一个关系的每一个元组拼接成一个新元 组,这些新元组构成一个新关系。 “连接”操作:对两个关系的操作。“连接”操作是 将两个关系中满足一定条件的元组拼接成一个新元组, 连接条件。
39 计算机 程序设计 王成 5.2唐飞 数据管理与数据库 39 唐飞 计算机 汇编语言 王成 唐飞 唐飞 唐飞 唐飞 王小栋 王小栋 王小栋 王小栋 王小栋 王小栋 陆非 陆非 陆非 陆非 陆非 陆非 蒋涛 蒋涛 蒋涛 蒋涛 蒋涛 蒋涛 39 39 39 39 52 52 52 52 52 52 43 43 43 43 43 43 42 42 42 42 42 42 计算机 计算机 计算机 计算机 化学 化学 化学 化学 化学 化学 外语 外语 外语 外语 外语 外语 数学 数学 数学 数学 数学 数学 应用化学 英文阅读 高等数学 线性代数 程序设计 汇编语言 应用化学 英文阅读 高等数学 线性代数 程序设计 汇编语言 应用化学 英文阅读 高等数学 线性代数 程序设计 汇编语言 应用化学 英文阅读 高等数学 线性代数
5.1 数据与大数据
大数据的价值发现
Farecast: 飞机票价格预测 购票时机与机票价格的关系? 怎样预测机票价格? 只求关系,不求因果
Hale Waihona Puke 不要相信经验,一切以数据说话
5.1 数据与大数据
数据管理与数据分析 数据被视为知识的来源,被认为是一种财富,数据收 集、数据管理、数据分析的能力已被视为核心竞争力。 数据聚集的核心手段是数据管理和数据库,数据分析 与利用的核心手段是数据仓库和数据挖掘。
“并”、“差”、“笛卡尔积”、“选择”、“投影”
5.2 数据管理与数据库
“并”、“差”、“交”操作,假设关系A和关系B具 有相同的属性数目,且相应的属性取自同一数据类型 “并”操作:关系A和关系B的“并”操作结果是由或 者属于A或者属于B的元组组成的新关系。 “差”操作:关系A和关系B的“差”操作结果是由属 于A而不属于B的元组组成的新关系。 “交”操作:关系A和关系B的交”操作结果是由既属 于A又属于B的元组组成的新关系。
2、数据库的基本结构形式--- 数据表
数据表的构成:数据表是由简单的行列关系约束的一 种二维表格结构。 列:也称为“字段”,或“属性”。
表的每一列都包含同一类型的信息。
列由列名和列值构成,或属性名和属性值。 表中列次序不重要,或是无序的。
5.2 数据管理与数据库
数据表的构成要素及概念示意图
5.2 数据管理与数据库
R (9811班学生) 学号 981101 981102 981103 姓名 年龄 李勇 22 王军 21 刘柳 23 S (9812班学生) 学号 981201 981202 981203 姓名 年龄 张平 21 付强 24 何红 22 T (校运动队学生) 学号 姓名 年龄 981101 王军 21 981202 何红 22 R与T的“交”操作 学号 姓名 年龄 981102 王军 21
5.2 数据管理与数据库
教师表 姓名 年龄 系别 39 计算机 唐飞 王小栋 52 化学 43 陆非 外语 42 蒋涛 数学 授课表 课名 开课教师 总学时 学分 程序设计 王成 汇编语言 王成 应用化学 王小栋 英文阅读 陆非 高等数学 蒋涛 线性代数 蒋涛 80 80 60 60 80 40 4 4 3 3 4 2
5.3 数据分析
数据库和数据库管理系统可以实现数据的有效聚集和 管理,其目的是更好地利用数据。 如何利用数据?如何挖掘蕴含在数据中的知识? 数据分析:二维数据分析、多维数据分析。
数据挖掘:从数据库中知识发现,它是一个从大量数 据中抽取挖掘出未知的、有价值的模式或规律等知识 的复杂过程。简单地讲就是从大量数据中挖掘或抽取 出知识。
大学计算机-计算思维导论
冯元
南京理工大学计算机学院
第五章 数据抽象、设计与挖掘
内容提要:
数据与大数据
数据管理与数据库
数据分析
5.1 数据与大数据
现代社会数据的重要性 用数据说话、用数据决策、用数据创新已形成社会的 一种常态和共识,数据已被视为知识的来源、被认为 是一种财富。 数据之所以成为重要的生产要素,是因为它可以精确 地描述事实,以量化的方式反应逻辑和理性。 决策将日益基于数据和分析做出,而非经验和直觉。
“教师”和“授课”关系的“笛卡尔积”操作 结果 开课教师 总学时 学分 姓名 年龄 系别 课名
王小栋 陆非 蒋涛 蒋涛 王成 王成 王小栋 陆非 蒋涛 蒋涛 王成 王成 王小栋 陆非 蒋涛 蒋涛 王成 王成 王小栋 陆非 蒋涛 蒋涛 80 80 60 60 80 40 80 80 60 60 80 40 80 80 60 60 80 40 80 80 60 60 80 40 4 4 3 3 4 2 4 4 3 3 4 2 4 4 3 3 4 2 4 4 3 3 4 2
5.2 数据管理与数据库
1、数据库及数据库管理
数据库(DataBase):以“表” 形式组织起来的相互有 关联关系的数据的集合。 数据库管理系统(DBMS):用来管理数据库的软件。
数据表的定义:用户可以自己定义数据表格式(DDL)
数据表的操纵:插入、删除、更新,查询与计算(DML) 数据库控制:数据安全性和正确性控制(DCL) 数据库存储、备份、恢复、并发控制及性能监视与分 析。