数据与知识工程1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本课程的目的
了解人工智能领域关于知识表示、知识推理、知识发现 的研究历史;
掌握典型的知识表示方法(尤其是基于一阶谓词逻辑和 基于描述逻辑的知识表示方法);
掌握典型的知识推理方法(尤其是基于消解原理的推理 方法和基于Tableau的推理方法);
掌握典型的知识发现方法; 了解语义Web的基本思想、技术现状和发展趋势; 了解Web知识表示模型和语言(主要包括RDF、
参考书
1. Baader F, Calvanese D, McGuinness D, Nardi D, and PatelSchneider P. F.. The Description Logic Handbook: Theory, Implementation and Applications. Cambridge University Press, 2003.
On Computable Numbers, with an Application to the Entscheidungs problem (论可计算数及其在判定问题上的应用) 图灵机 (Turing Machine) 停机问题 vs. FOL的不可判定问题
1950年:
Computing Machinery and Intelligence (计算机器与智能) 图灵测试 (Turing Test) 人工智能之父
部门解答公众疑问,帮助医生评估药物疗效。
核心技术:自然语言处理、机器学习
Leslie Gabriel Valiant (1949-)
2010年图灵奖获得者 英国皇家学会会员/美国科学院院士 哈佛大学教授 主要贡献:
机器学习领域:提出PAC模型 使20世纪50年代诞生的机器学习领域第一次有了坚实的数 学基础,从而清除了学科发展的障碍,
Techinques. Second Edition. 机械工业出版社, 2007.
作者介绍
Ron Brachman
Ph.D, 1977 Harvard ACM Fellow President of AAAI (2003) 雅虎全球研究运营副总裁
Hector Levesque
Ph.D 1981, University of Toronto Conference Chair of IJCAI (2001)
人工智能的诞生
Dartmouth会议: 1956年,美国的Dartmouth College,一个长达2个月的暑 期研讨班。
与会者有包括C.Shannon在内的数学家、逻辑学家、认知学家、 心理学家、神经生理学家、计算机科学家等10人。
Marvin Minsky的神经网络模拟器、John McCarthy的搜索法、 以及Herbert Simon和Allen Newell的“逻辑理论家”成为会上 的3个亮点,分别讨论如何穿过迷宫、如何搜索推理、以及如何证 明数学定理。
但是要让计算机理解人类语言、像人类一样思考比下 棋难多了。
更高级别的挑战?
“沃森”参战“危险边缘(Jeopardy!)”
“危险边缘(Jeopardy!)”:美国家喻户晓的电视智力 竞赛节目。1964年创立,竞赛问题涉及地理、政治、历 史、体育、娱乐等。
2011年2月14~16日,IBM 沃森参加了“危险边缘” 电视节目的竞赛,战胜了该节目有史以来最优秀的两位 人类冠军Ken Jennings和Brad Rutter。
IBM“沃森”系统
使用了上百种的技术来分析自然语言、识别资源、寻找 并产生假设、寻找证据并评分、对假设进行聚集和分级 ,因此它是专门设计的、具有学习能力的机器。
能储存大量信息,相当于100万本书籍和2亿页资料。 还可以从经验中学习如何提高性能; 能使用自然语言回答问题。 世界各地的研究人员历时四年共同完成了这个系统。 应用前景广泛,可以高速分析大量数据,用来帮助政府
在 会 议 上 , John McCarthy 正 式 提 出 “ 人 工 智 能 ” (Artificial Intelligence)这一术语。
人工智能是相对人的自然智能而言,即用人工的方法和技术,模 仿、延伸和扩展人的智能,研制具有感知、推理、学习、联想、 决策等思维活动的计算系统,解决需要人类专家才能处理的复杂 问题。
机械社会 信息/知识社会:由信息化、网络化和智能化带 来的人类智力扩展的结果。
一个标志:万维网(Web)的普及
信息化和网络化带来的形形色色的海量信息和内容理解问 题,向计算机科学和人工智能提出了艰巨的挑战。
语义Web
Web技术 语义(本体/逻辑)
数据挖掘 & 知识发现 知识表示与知识推理
课程要求
按时到课,重视课堂学习; 对布置的思考题和讨论题进行认真准备; 按进度完成平时作业。
评分方式:
总评成绩 = 平时成绩×20% + 期末考试成绩×80% 平时成绩 =Fra Baidu bibliotek课堂主题报告 + 课堂讨论
重视课堂讨论
使自己的疑问得到及时解答 可以帮助有相似疑问的同学 可以使教师及时了解教学效果 在讨论中产生有价值的学术火花
每秒计算2亿次可能的“招数”, 在相同的时间内,卡斯帕罗夫只能粗略地计划两步。
在其后的10年里,计算能力猛增:到2007年,那 台1.4吨的巨型计算机的处理能力已经可以放进一个 大拇指盖大小的“细胞(Cell)”微处理器中。
在这十年内,晶体管数量已经从英特尔奔腾Ⅱ上的 750万个跳跃到“细胞”上的2.34亿个。
founder farthers of DL
Franz Baader
Chair for Automata Theory of the Institute for Theoretical Computer Science
Faculty of Computer Science at TU Dresden
在专家系统、机器人、自然语言处理、知识工程等领域取得了长 足的发展。 1981年,日本政府宣布日本五代机(first-generation computer)计划(即智能计算机)。 1992年,日本政府宣布五代机计划失败。人工智能进入一 个低谷。 随着信息/知识社会的到来,人工智能领域再次兴旺起来。
Gartner 技术成熟度曲线
“深蓝”与卡斯帕罗夫之战
1997年5月初,IBM公司研制的并行计算机“深蓝”与 国际象棋冠军卡斯帕罗夫交战,以两胜一负三平获胜。
“深蓝”:由256个专为国际象棋比赛设计的微处理器 组成,每秒可计算2亿步棋。
另一场人机大战
1997年,“深蓝”在棋盘上击败国际象棋大师卡斯 帕罗夫,本质是使用穷举战略:
2. Bell J. L., Machover M. A Course in Mathematical Logic. North-Holland Publishing Company, 1977.
3. Jiawei Han, Micheline Kamber. Data Mining: Concepts and
人工智能的发展
1958年,Newell和Simon的四个预测
– 十年内,计算机将成为世界象棋冠军 – 十年内,计算机将发现或证明有意义的数学定理 – 十年内,计算机将能谱写优美的乐曲 – 十年内,计算机将能实现大多数的心理学理论
1959年,MIT AI Lab正式成立(Minsky和McCarthy)
Web服务 软件配置/产品协同制造 信息系统 知识共享/协同工作 ……
语义Web背景下知识表示、知识推理和知识发现
教材及参考书
教材
Brachman R, Levesque H. Knowledge Representation and Reasoning. Morgan Kaufmann Press, 2004.
信息就是信息,不是物质,也不是能量 (Norbert Wiener)
数据的语义
数据:
信息的载体和表示 对于计算机而言,信息处理就是数据处理
本课程的开设背景
智能:
智能行为依赖于知识
知识:
把有关信息关联在一起形成的信息结构 由信息提炼出来的产物,反映了一些基本的规律 是构成智能的基础
符号主义(symbolism)
IBM“沃森”系统
以IBM创始人托马斯·J·沃森的名字命名。 2006年开始设计。 是由90台IBM 750服务器组成的群集系统,每台服务
器采用Power 7处理器(8核芯片,每核4个线程), 相当于有2880个核在运行。 内存是16TB的RAM。 采用的软件有SUSE Linux Enterprise Server 11 操作系统、IBM DeepQA软件、Apache UIMA( 非 结构化信息管理体系结构) 框架等。
信息:
数据的语义 收信人事先不知道的报道 (辞海)
信息就是信息,不是物质,也不是能量 (Norbert Wiener)
计算学科:对描述和变换信息的算法过程进行的系统研究。
数据:
信息的载体和表示 对于计算机而言,信息处理就是数据处理
本课程的开设背景
信息时代/知识时代
农业社会 工业/机械社会:由机械化、电气化和自动化带 来的人类体力扩展的结果。
多动笔;到证明的第一现场去
第1部分 概述
主要内容:
人工智能及其三个学派 符号主义 本领域的杰出人物 本领域的顶级国际会议 知识表示与知识推理 数据挖掘与知识发现
图灵和图灵测试
阿兰·麦席森·图灵(Alan Mathison Turing) 1912.6.23-1954.6.7 英国数学家、逻辑学家 1936年:
这不仅对人工智能学科领域产生了巨大影响,而且促使 IBM公司制造出沃森(Watson)这样智能而神奇的机器。
计算复杂性领域:表明即使可满足赋值数很小,SAT这个NP 完备问题仍然是很难的问题。
计算神经学领域:为大脑设计了一个数学模型,并将它与复 杂的认知功能建立了关联。
人工智能的不同学派
符号主义 连接主义 行为主义
Antoniou G, Harmelen F. A Semantic Web Primer. Second Edition. Cambridge, Mass.: MIT Press, 2008. (Antoniou G, Harmelen F.著, 陈小平等译. 语义网基础教程
(第1版). 机械工业出版社, 2008.) 胡运发. 数据与知识工程导论. 清华大学出版社, 2003.
欢迎参加
数据与知识工程
教师:常亮 E-mail: changl@guet.edu.cn 办公室电话: 2291071 手机:
本课程的开设背景
智能:
智能行为依赖于知识
知识:
是构成智能的基础 把有关信息关联在一起形成的信息结构 由信息提炼出来的产物,反映了一些基本的规律
信息:
计算学科:对描述和变换信息的算法过程进行的系统研究。 收信人事先不知道的报道 (辞海)
vs. 推理能力
产生式系统
基于描述逻辑(DL)的知识表示和推理
tradeoff
基于DL的知识表示
基于tableau算法的知识推理
非单调知识表示和推理
CWA;限制逻辑;默认逻辑;自认知逻辑
对动作的表示、推理以及规划
STRIPS系统;情景演算;流演算;PDL
本课程的内容 Ⅱ
数据挖掘与知识发现
OWL、RIF和SPARQL); 了解语义Web背景下关于知识表示、知识推理、和知
识发现的研究现状。
本课程的内容 Ⅰ
基于一阶谓词逻辑(FOL)的知识表示和推理
基于FOL的知识表示
基于消解法的知识推理
基于tableau算法的知识推理
Horn逻辑与产生式系统
Horn逻辑 逻辑程序设计
知识表示能力
基于证据理论的数据挖掘方法
基于神经网络的数据挖掘方法 基于遗传算法的数据挖掘方法 基于粗糙集的数据挖掘方法 其他数据挖掘方法
KDD的挖掘模式
关联模式 分类模式 聚类模式 回归模式 序列模式
本课程的内容 Ⅲ
语义Web的研究路线 资源描述框架RDF Web本体语言OWL Web规则标记语言RIF Web查询语言SPARQL 典型应用