大数据分析、挖掘与应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Baidu Nhomakorabea
近年来主持承担的部分课题
[1] 海量高维天体光谱数据挖掘及其并行化研究(61272263),国家自 然科学基金,2013.1-2016.12,(在研) [2] 面向LAMOST 天文光谱特征线的数据挖掘方法研究(61073145), 国家自然科学基金,2011.1-2013.12,(在研) [3] 面向天文光谱的数据挖掘算法性能分析与并行化研究 (61111120317),国家自然科学基金委国际合作与交流项目, 2011.6-2011.12,(结题) [4] 基于加权和约束概念格的数据挖掘方法与天体光谱数据挖掘技术 (60773014),国家自然科学基金,2008.1-2010.12,(结题) [5] 基于数据网格的分布式数据挖掘方法研究(60911120478),国家 自然科学基金委国际合作与交流项目,2009.9-2010.3,(结题) [6] 基于背景知识的数据挖掘方法及其在LAMOST中的应用 (60573075),国家自然科学基金,2006.1-2008.12,(结题) [7] 海量天体光谱数据挖掘算法研究与实现(2003AA133060) ,国家 “863”高技术计划子课题,2003.8-2005.8(结题)
科学目标: “星系红移巡天”、“恒星和银河系的结构 特征”和“多波段认证” 。 天体光谱大数据分析处理主要内容:预处理(去噪、归一 化等)、分类与识别、测量(红移等参数)等。
一条SEYFERT 2 光谱数据图(红移为0)
天体光谱是天体电磁辐射按照波长的有序排列,蕴含着天体的重要 物理信息,例如:天体的化学成份、天体的表面温度、直径、质量、光 度以及天体的视向运动和自转。天文学家和天体物理学家通过分析天体 光谱的信息,不仅可以研究宇宙中物质的分布特征,还可以研究天体的 形成和随时间的演化等重大科学问题。
大数据分析、挖掘与应用
数据挖掘与智能信息系统实验室
一、大数据分析与挖掘
大数据的基本概念
比较有代表性: 1) 3V 定义,即认为大数据需满足3 个特点:规模性 (Volume)、多样性(Variety)和高速性(Velocity)。 2) 4V 定义,即尝试在3V 的基础上增加一个新的特性。关 于第四个V 的说法并不统一,IDC 认为大数据还应当具有价值 性(Value),大数据的价值往往呈现出稀疏性的特点。而IBM 认为大数据必然具有真实性(Veracity)。 3) 维基百科对大数据的定义则简单明了:大数据是指利用 常用软件工具捕获、管理和处理数据所耗时间超过可容忍时 间的数据集。
由于天文界对宇宙的认识还比较有限,LAMOST巡 天计划的一个重要任务是要发现一些新的、特殊类型 的天体,因此,如何利用数据挖掘技术从海量天体光 谱数据中发现未知的、特殊的天体及天体规律是数据 挖掘值得研究和探索的新应用领域。 面向特定任务的数据挖掘是当前数据挖掘领域发 展的趋势之一。以LAMOST项目为背景,对天体光谱数 据挖掘技术进行了研究,其研究成果不仅具有重要的 理论价值,而且可直接应用到LAMOST中,为国家重大 科学工程提供技术支撑。
MAPREDUCE执行流程图
MapReduce模型首先将用户的原始数据源进行分块 ,然后分别交给不同的Map任务区处理。Map任务从 输入中解析出Key/Value对集合,然后对这些集合执行 用户自行定义的Map函数得到中间结果,并将该结果 写入本地硬盘。Reduce任务从硬盘上读取数据之后, 会根据key 值进行排序,将具有相同key 值的组织在一 起。最后用户自定义的Reduce函数会作用于这些排好 序的结果并输出最终结果。
典型论文
[1] Jifu Zhang, Xujun Zhao, Sulan Zhang, Shu Yin, and Xiao Qin. Interrelation Analysis of Celestial Spectra Data using Constrained Frequent Pattern Trees,Knowledge-Based Systems 41 (2013): 7788. [2] Jianghui Cai, Xujun Zhao, Shiwei Sun, Jifu Zhang, Haifeng Yang.Stellar spectra association rule mining method based on weighted frequent pattern tree. Research in Astronomy and Astrophysics,2013,13(3):334-342 [3] 张继福;赵旭俊. 一种基于约束FP树的天体光谱数据相关性分析 方法,模式识别与人工智能,2009,22 (4):639-646 [4] 赵旭俊;张继福.基于约束FP树的天体光谱数据相关性分析系统 研究,光谱学与光谱分析,2008,28(12):2996-2999 [5] 张继福;赵旭俊. 基于关联规则的恒星光谱数据相关性分析,高 技术通讯,2006,16(6):575-579
其他成果:
天体光谱数据模糊聚类及其并行化系统 基于智能计算、剪枝技术和属性相关性的离群数据挖掘及其并行化方法 天体光谱数据分类与识别系统
………
四、正在开展的主要研究工作
基于MapReduce模型的天体光谱大数据并行挖 掘技术(聚类、离群、关联等)
集群环境下的数据密集型计算关键技术(数据 放置策略、I/O性能分析、负载均衡调度策略、 磁盘节能等)
MapReduce的核心设计思想: 1)将问题分而治之; 2)把计算推到数据而不是把数据推到计算,有效的避 免数据传输过程中产生的大量通讯开销。 MapReduce模型简单,且现实中很多问题都可用 MapReduce模型来表示。因此该模型公开后,立刻受 到极大的关注,并在生物信息学、文本挖掘等领域得 到广泛的应用。
主要成果之一: 基于概念格的天体光谱离群数据挖掘系统
将概念格中每个概念节点内涵描述为天体光谱数据 特征子空间,提出了一种天体光谱离群数据识别方法。 首先将概念节点的内涵缩减看作天体光谱特征子空间, 并依据稀疏度系数阈值确定稀疏子空间;其次对于稀 疏子空间,依据稠密度系数判定祖先概念节点内涵是 否为稠密子空间,进而判断出概念节点外延中包含的 数据对象是否为天体光谱离群数据;最后以离散化天 体光谱数据作为形式背景,实验验证了利用该方法识 别出的天体光谱离群数据是准确的、完备的和有效的。
主要成果之二: 天体光谱数据相关性分析系统
以国家重大科学工程LAMOST项目为背景, 利用一阶谓词逻辑作为天体光谱知识表示技术, 提出了一种约束FP树及其构造算法,从而有效 地提高了天体光谱数据相关性分析的针对性和 效率,并在此基础上,提出了一种基于约束FP 树的天体光谱数据相关性分析方法。实验结果 分析表明,利用该相关性分析方法挖掘天体光 谱数据特征和物理化学性质之间存在的相关性, 是可行的和有价值的。
典型论文
[1] Jifu Zhang, Sulan Zhang, Kai H. Chang, and Xiao Qin. An Outlier Mining Algorithm Based on Constrained Concept Lattice, International Journal of Systems Science(accept) [2] Sulan Zhang, Ping Guo, Jifu Zhang, Xinxin Wang, and Witold Pedrycz. A Completeness Analysis of Frequent Weighted Concept Lattices and Their Algebraic Properties,Data & Knowledge Engineering,81–82 (2012) : 104–117 [3] Jifu Zhang,Yiyong Jiang, Kai H. Chang et al. A Concept Lattice Based Outlier Mining Method in Low Dimensional Subspaces. Pattern Recognition Letters,2009,30 (15) : 1434-1439 [4] 张继福;张素兰;蒋义勇. 基于约束概念格的天体光谱局部离群数据 挖掘系统,光谱学与光谱分析,2009,29(2):551-555 [5] 张继福等. 基于概念格的天体光谱离群数据识别方法,自动化学报, 2008,34(9):1060-1066 [6] Jianghui Cai;Jifu Zhang;Zhao Xujun. A Star Spectrum Outlier Mining System Based on Simulated Annealing, International Journal of Innovative Computing, Information and Control,2008,4(9): 2263-2271
大数据处理的基本流程
1)数据抽取与集成
2)数据分析 面临着一些新的挑战:数据量大并不一定意味着数据 价值的增加,相反这往往意味着数据噪音的增多;大数据 时代的算法需要进行调整,准确率不再是大数据应用的 最主要指标;数据结果好坏的衡量。
3)数据解释(可视化技术)
三、天体光谱大数据分析与挖掘
我国已建造一台大天区面积多目标光纤光谱望远镜 (LAMOST),是国家重大科学工程项目,也是世界上光谱 获取率最高的望远镜。预计LAMOST所观测到的光谱数据容 量将有可能达到4TB;巡天所覆盖的波段为3700埃至9000 埃,即其观测属性可达数千维,是典型的高维数据;数据 类型:图像和FITS文件等。
海量高维数据挖掘算法与天体光谱数据挖掘技 术
二、大数据处理架构
大数据处理模式
1)流处理(Stream Processing),即直接处理 流处理的基本理念是数据的价值会随着时间的流逝而 不断减少。因此,尽可能快地对最新的数据做出分析并 给出结果是所有流数据处理模式的共同目标。 2)批处理(Batch Processing),即先存储后处理 Google 公司在2004 年提出的MapReduce编程模型是 最具代表性的批处理模式。
相关文档
最新文档