大数据与数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.
➢ The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.
数据挖掘课程教学研讨
数据挖掘课程的目的
什么是数据挖掘
Wiki中的定义
➢ the analysis step of the "Knowledge Discovery in Databases" process, or KDD
➢ An interdisciplinary subfield of computer science, is the computational process of discovering patterns in large data sets
数据仓库与数据挖掘
数据库系统
2020/1/28
数据库研究所
8
数据仓库与数据挖掘
课程的教学目的
➢ 掌握数据仓库数据挖掘原理、技术和方法,掌握建立数据挖掘应用 系统的方法,了解相关前沿的研究。
教学内容
➢ 数据挖掘、数据仓库的基本概念
▪ 数据仓库设计和应用 ▪ 数据挖掘的基本技术
• 关联分析、分类分析、聚类分析、异常分析和演化分析等;联机分析处理OLAP技术;
复旦大学计算机科学技术学 院基本情况
➢ 主要研究方向
▪ 媒体计算 ▪ 数据库与数据科学 ▪ 网络与信息安全 ▪ 智能信息处理 ▪ 人机接口和服务计算 ▪ 理论计算机科学 ▪ 软件工程与系统软件
2020/1/28
数据库研究所
6
复旦大学数据挖掘课程的设置
总体目标
➢ 掌握大规模数据挖掘与分析的基本流程 ➢ 掌握数据挖掘的基本算法 ➢ 掌握对实际数据集进行挖掘的系统能力
processing of discovered structures, visualization, and online updating.
2020/1/28
数据库研究所
3
开设数据挖掘课程的目的
技术发展的趋势的需要
➢ 大数据和智能化是信息技术发展的新动力
➢ 技术发展路径
▪ 数据库->数据仓库->数据挖掘->大数据
▪ 算法设计 ▪ 挖掘算法的内涵 ▪ 参数设置 ▪ 结果评估 ▪…
➢ 了解数据挖掘的主要应用方向 ➢ 为后续的课程做准备
2020/1/28
数据库研究所
7
复旦大学数据挖掘课程的设置
数据库新技术 机器学习 生物信息学 多媒体数据处理
WEB数 文本 数据
… 据管理 数据 密集
和数据 挖掘 型计
挖掘
算
高级数据挖掘技术
➢ Aside from the raw analysis step, it involves database and data
management aspects, data pre-processing, model and inference
considerations, interestingness metrics, complexity considerations, post-
数据挖掘技术已经成为很多应用领域的基本支撑技
术
➢ WEB数据分析
➢ 电子商务
➢ 生物信息学
➢ 金融数据分析
… 2020/➢1/28
数据库研究所
4
开设数据挖掘课程的目的
数据分析类课程在计算机教学体系中的作用将逐渐 增加
➢ 数据挖掘、机器学习、…
培养学生理论与应用相结合能力
➢ 培养学生应用基本的方法,提高解决实际的系统能力
CURE, CHAMELEON, BIRCH等
➢ 关联分析,
▪ Apriori 算 法 、 DHP 、 FP-growth ,以及频繁序列挖掘、图挖掘等
教学内容
➢ 数据挖掘应用
▪ 异常检测、数据流挖掘、Web挖 掘 (PageRank, HITS 和 Spam, Opinion Mining)、社会网络分析 (Blog 、 Tag 分 析 等 ) 、 数 据 挖 掘 和 隐 私 保 护 、 文 本 挖 掘 (PLSA, 概率主题模型等)、降维技术 (SVD, FastMap, LSH等)和特征 选择(基于互信息量的方法、 Relief等)等主题
2020/1/28
数据库研究所
10
高级数据挖掘
教学内容
➢ 聚类分析
▪ 划分型聚类算法,如K-means等 ▪ 层次型聚类算法,如Single link,
complete link, Ward方法等 ▪ 及基于模型的聚类如EM算法; ▪ 基于密度的聚类算法如DBSCAN ▪ 其 他 高 级 聚 类 算 法 , 如 Clique,
➢ 数据挖掘应用系统开发 ➢ 数据挖掘技术的新应用 ➢ 数据挖掘软件发展
2020/1/28
数据库研究所
9
高级Байду номын сангаас据挖掘
课程的教学目的
➢ 让学生掌握数据挖掘的基本概念、算法和高级技术; ➢ 将这些概念、算法和技术应用于实际问题。
教学内容
➢ 分类算法,
▪ 包 括 决 策 树 (ID3, C4.5, SPRINT 等 ) 、 基 于 规 则 的 分 类 器 (C4.5rules, RIPPLE等)、Naïve Bayes分类器和贝叶斯网络、最近邻分类器(kNN, Condensed kNN, DANN 等 ) 、 支 持 向 量 机 (SVM) 、 Ensemble 方 法 ( 如 AdaBoost, Bagging, Rain Forest 等 ) , 以 及 模 型 选 择 ( 如 MDL , Regularization Network等)。
数据挖掘课程的特点
➢ 入门容易
➢ 有深度
➢ 应用实例多
▪ 易于设计实验
2020/1/28
数据库研究所
5
复旦大学数据挖掘课程的设置
复旦大学计算机科学技术学 院基本情况
➢ 学生情况
▪ 120名本科生/年 ▪ 150名研究生/年
➢ 教师情况
▪ 教学科研教师:100名左右
➢ 教学理念
▪ 强调数据基础 ▪ 强调学生综合能力的培养 ▪ 强调学生创新能力培养