【大学课件】数据挖掘研究的新进展
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研究内容
• 基因表达数据的聚类 • 基因表达数据的分类
ppt课件
6
流数据分析
应用领域
• 数据监控 • 超大规模数据处理
主要特点
• 数据只能扫描一遍 • 最多只有o(lgn)的空间可用来存储临时数据
主要难点
• 无法形成一个精确的整体状态 • 现有的挖掘算法需要重新研究
ppt课件
7
流数据分析
ppt课件
13
ຫໍສະໝຸດ Baidu
数据挖掘研究所面临的问题
数据挖掘研究已经开展了10年 今后的路:推进数据挖掘技术的广泛应用
• 企业界已经开始关注数据挖掘技术
研究部门应该做什么?
• 同现有应用领域相结合
金融业 生物信息学 信息检索
• 自身技术的研究
易用性 可用性
• 新的应用领域
…
ppt课件
14
谢谢!
研究内容
• 分类
构造一个分类器,不断修正 构造多个分类器,通过投票的方法进行预测
• 聚类
针对流过信息建立数据摘要的方法 动态调整现有分类
• 对新增类的判断方法和对老类的合并
ppt课件
8
流数据分析
研究内容
• 关联规则挖掘
频繁模式的更新 精确度分析
• 变化监测
变化发生时刻的确定 数据变化模式
ppt课件
15
此课件下载可自行编辑修改,供参考! 感谢您的支持,我们努力做得更好!
ppt课件
11
图数据挖掘
主要应用领域
• 生物信息学 • 社会网络 • 分子结构 • WEB网页分析
•…
主要困难
• 结构复杂 • 子图同构的匹配计算复杂性高
ppt课件
12
图数据挖掘
研究内容
• 频繁子图挖掘 • 图索引结构 • 具有某些特征的子图模式挖掘
直径要求 连通性
• 挖掘的应用
图数据的管理技术
• 高速流的处理方法
数据采样 并行处理
ppt课件
9
面向隐私保护的数据挖掘
主要背景
• 防止通过挖掘结果对原始细节数据进行反推理 • 主要应用于医疗数据的管理
主要研究内容
• 敏感数据的标示 • 挖掘结果的裁减
通过规则的推导预测生成的细节数据 对挖掘结果进行裁减
• 裁减的效率研究
ppt课件
10
面向隐私保护的数据挖掘
主要研究内容
• 数据的转换
挖掘前对数据进行转换
• 基于一定的模式对数据进行变化 • 添加一些错误数据
基于变化后的数据进行数据挖掘 将结果进行恢复
• 数据挖掘流程的再造
在多个结点之间进行数据的传递 每个结点只了解局部的信息和部分全局信息 单个结点无法推出其它节点的信息
基因序列的特征
• 序列长 • 每个单元不同的取值少
研究内容
• 基因序列中频繁模式的发现
重复序列的发现
• 基因序列的聚类 • 基因序列的高效组织方法
ppt课件
5
生物数据挖掘-基因芯片分析
主要问题
• 从大量的芯片数据中提取相关模式
芯片数据的特征
• 序列短、序列数量长 • 有时采用的是局部信息
数据挖掘研究的新进展
ppt课件
1
数据挖掘研究
数据挖掘研究的基础
• 机器学习 • 统计分析 • 数据库
数据挖掘技术的产生
• 大规模的数据 • 数据分析的需要
ppt课件
2
当前数据挖掘研究的主要方向
数据挖掘研究的发展方向
• 新的应用领域
WEB访问分析 入侵检测 生物信息学 …
• 新的工作形式
流数据分析 隐私保护 …
• 新的数据类型
文本数据 图数据 XML数据 …
• 数据挖掘的进一步深入
ppt课件
3
生物数据挖掘
应用领域
• 生物序列数据分析 • 基因芯片分析
主要难点
• 数据规模大 • 数据的模糊性
ppt课件
4
生物数据挖掘-序列分析
主要问题
• 从大规模的基因序列中提取相关模式
• 基因表达数据的聚类 • 基因表达数据的分类
ppt课件
6
流数据分析
应用领域
• 数据监控 • 超大规模数据处理
主要特点
• 数据只能扫描一遍 • 最多只有o(lgn)的空间可用来存储临时数据
主要难点
• 无法形成一个精确的整体状态 • 现有的挖掘算法需要重新研究
ppt课件
7
流数据分析
ppt课件
13
ຫໍສະໝຸດ Baidu
数据挖掘研究所面临的问题
数据挖掘研究已经开展了10年 今后的路:推进数据挖掘技术的广泛应用
• 企业界已经开始关注数据挖掘技术
研究部门应该做什么?
• 同现有应用领域相结合
金融业 生物信息学 信息检索
• 自身技术的研究
易用性 可用性
• 新的应用领域
…
ppt课件
14
谢谢!
研究内容
• 分类
构造一个分类器,不断修正 构造多个分类器,通过投票的方法进行预测
• 聚类
针对流过信息建立数据摘要的方法 动态调整现有分类
• 对新增类的判断方法和对老类的合并
ppt课件
8
流数据分析
研究内容
• 关联规则挖掘
频繁模式的更新 精确度分析
• 变化监测
变化发生时刻的确定 数据变化模式
ppt课件
15
此课件下载可自行编辑修改,供参考! 感谢您的支持,我们努力做得更好!
ppt课件
11
图数据挖掘
主要应用领域
• 生物信息学 • 社会网络 • 分子结构 • WEB网页分析
•…
主要困难
• 结构复杂 • 子图同构的匹配计算复杂性高
ppt课件
12
图数据挖掘
研究内容
• 频繁子图挖掘 • 图索引结构 • 具有某些特征的子图模式挖掘
直径要求 连通性
• 挖掘的应用
图数据的管理技术
• 高速流的处理方法
数据采样 并行处理
ppt课件
9
面向隐私保护的数据挖掘
主要背景
• 防止通过挖掘结果对原始细节数据进行反推理 • 主要应用于医疗数据的管理
主要研究内容
• 敏感数据的标示 • 挖掘结果的裁减
通过规则的推导预测生成的细节数据 对挖掘结果进行裁减
• 裁减的效率研究
ppt课件
10
面向隐私保护的数据挖掘
主要研究内容
• 数据的转换
挖掘前对数据进行转换
• 基于一定的模式对数据进行变化 • 添加一些错误数据
基于变化后的数据进行数据挖掘 将结果进行恢复
• 数据挖掘流程的再造
在多个结点之间进行数据的传递 每个结点只了解局部的信息和部分全局信息 单个结点无法推出其它节点的信息
基因序列的特征
• 序列长 • 每个单元不同的取值少
研究内容
• 基因序列中频繁模式的发现
重复序列的发现
• 基因序列的聚类 • 基因序列的高效组织方法
ppt课件
5
生物数据挖掘-基因芯片分析
主要问题
• 从大量的芯片数据中提取相关模式
芯片数据的特征
• 序列短、序列数量长 • 有时采用的是局部信息
数据挖掘研究的新进展
ppt课件
1
数据挖掘研究
数据挖掘研究的基础
• 机器学习 • 统计分析 • 数据库
数据挖掘技术的产生
• 大规模的数据 • 数据分析的需要
ppt课件
2
当前数据挖掘研究的主要方向
数据挖掘研究的发展方向
• 新的应用领域
WEB访问分析 入侵检测 生物信息学 …
• 新的工作形式
流数据分析 隐私保护 …
• 新的数据类型
文本数据 图数据 XML数据 …
• 数据挖掘的进一步深入
ppt课件
3
生物数据挖掘
应用领域
• 生物序列数据分析 • 基因芯片分析
主要难点
• 数据规模大 • 数据的模糊性
ppt课件
4
生物数据挖掘-序列分析
主要问题
• 从大规模的基因序列中提取相关模式