高维复杂数据的子空间挖掘方法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2017年度广东省科学技术奖项目公示
项目名称高维复杂数据的子空间挖掘方法研究
主要完成单位单位1: 哈尔滨工业大学深圳研究生院单位2: 无
单位3: 无
主要完成人(职称、完成单位、工作单位)1. 叶允明
职称:教授
工作单位:哈尔滨工业大学深圳研究生院
完成单位:哈尔滨工业大学深圳研究生院
主要贡献:提出本项目的关键学术思想和研究思路,全面规划组织并研究了本项目的研究内容,对项目四个主要创新点均做出了贡献:
(1)提出了属性加权的子空间聚类方法,有效解决了高维数据的聚类问题。
(2)提出了基于分层子空间抽样的随机森林方法,减小了泛化误差界,提升了高维数据的分类性能。
(3)揭示了聚类问题中多模态子空间的规律,为关系型高维数据的子空间分类奠定了基础。
(4)建立了多模态子空间数据分类的关键技术,为解决复杂关系型数据的分类奠定了基础。
应用贡献:将项目成果应用于深圳出入境检验检疫局“智慧口岸”建设中的信息自动获取与智能信息服务、深圳市地税局、中油瑞飞信息技术有限公司等单位的互联网信息获取与挖掘服务等。
2. 李旭涛
职称:副教授
工作单位:哈尔滨工业大学深圳研究生院
完成单位:哈尔滨工业大学深圳研究生院
主要贡献:对本项目的主要创新点(1)(2)和(3)做出了贡献:
(1)提出了层次子空间聚类算法,有效解决了高维数据的多粒度子空间聚类问题。
(2)揭示了分层抽样子空间的规律,分析了其基本特性,明确了分层抽样随机森林算法的适用范围。
(3)提出了基于张量积的马尔科夫链,并基于其建立了多模态聚类模型,有效解决了复杂关系型数据的聚类问题;提出了基于全变分约束张量分解的聚类算法,解决高维多模态数据的子空间聚类问题。
3. 张海军
职称:副教授
工作单位:哈尔滨工业大学深圳研究生院
完成单位:哈尔滨工业大学深圳研究生院
主要贡献:对本项目的主要创新点(1)和(4)做出了贡献:(1)揭示了判别信息在高维数据子空间聚类中的作用,提出了结合簇内紧致性和簇间分离性的聚类优化目标函数。
(4)提出了面向多模态文本数据的子空间分析算法,通过多维度浅层语义分析提升了子空间分类的性能;揭示了高维多类标数据的层次特性,为了其分类模型的建立奠定了基础。
4. 吴庆耀
职称:无
工作单位:哈尔滨工业大学深圳研究生院
完成单位:哈尔滨工业大学深圳研究生院
主要贡献:对本项目的主要创新点(2)和(4)做出了贡献:(2)建立并实现了基于分层抽样的随机森林算法,验证了其在文本、图像、基因等数据分类的有效性和优越性;提出了基于聚类树的多类标分类模型。
(4)提出了基于马尔科夫链的复杂关系型数据的分类模型,有效的提升了分类性能。
5. 陈小军
职称:无
工作单位:哈尔滨工业大学深圳研究生院
完成单位:哈尔滨工业大学深圳研究生院
主要贡献:对本项目的主要创新点(1)做出了主要贡献:提了两个属性加权的聚类算法,即两层加权的子空间聚类算法和分组加权的子空间聚类算法,提升了高维数据的聚类性能。
6. 张晓峰
职称:副教授
工作单位:哈尔滨工业大学深圳研究生院
完成单位:哈尔滨工业大学深圳研究生院
主要贡献:对本项目的主要创新点(1)做出了主要贡献:提出了基于分布式数据的子空间聚类算法。
7. 黄晓辉
职称:无
工作单位:哈尔滨工业大学深圳研究生院
完成单位:哈尔滨工业大学深圳研究生院
主要贡献:对本项目的主要创新点(1)做出了主要贡献:建立了基于簇内紧致性和簇间分离性的聚类算法。
项目简介
聚类和分类是目前各行各业大数据挖掘所面临的两个基本任务。然而目前大数据时代中数据独有的超高维特性和复杂性给它们带来了重要挑战。首先,超高维度为聚类和分类带来了维度灾难挑战——即当在数学空间上额外增加一个维度,其体积会呈指数级增长;随着维度提高,空间的体积迅速提高,可用数据变得非常稀疏。其次,数据样本间关联关系的复杂性也给聚类和分类带来了另一大挑战。此外,除了样本间关系的复杂性,很多领域数据的维度具有多模态特性。尽管目前已有一些子空间聚类和分类算法被提出,但这些算法的不足以克服高维复杂数据所带来的这三个挑战。针对上述问题,本项目提出了系统的研究了高维复杂数据的子空间挖掘方法,取得了四方面的创新性突破:
(1)针对高维数据的聚类问题,提出了一系列子空间加权的聚类方法,包括双层子空间加权、分组子空间加权、层次子
空间聚类、基于簇内紧致性和簇间分离性子空间方法等,
有效的解决了不同情况的高维数据的聚类问题,获得了国
际领先的聚类精度,且具有很高的运行效率,适合大规模
数据聚类。
(2)针对高维数据的分类问题,提出了各种子空间学习方法,包括基于分层抽样的随机森林算法和基于层次树的多粒度
子空间分类方法,可有效的解决各种领域如文本、基因、
图像等分类问题,尤其在基于SNP序列的帕金森病例分类
上,不但获得了较高的分类精度,还判别出一些与帕金森
疾病密切项目的基因,对于该疾病的病理分析、治愈和制
药具有很好的借鉴意义。
(3)针对高维多模态关系型数据的聚类问题,提出了基于张量积的马尔科夫链,并基于其建立了多模态聚类模型,有效
解决了复杂关系型数据的聚类问题;提出了基于全变分约
束张量分解的聚类算法,解决高维多模态数据的子空间聚
类问题,聚类水平处于同期的国际领先地位。
(4)针对高维多模态关系型数据的分类问题,提出了多个分类模型,包括基于马尔科夫链的多实例多类标模型以及面向
文本的多维度的浅语义分类模型,其性能优于同期的最好
算法。
本申报项目的主要成果是来自于两个已完成的科研项目:(1)国家自然科学基金项目,“特定主题社会化媒体内容的动态识别关键技
术研究”,项目编号:61073195,资助经费:30 万元,项目负责人:叶允明,项目起止时间:2011年1月至2013年12月;(2)深圳市互联网产业发展专项资金项目(重点实验室提升计划),“基于云计算的互联网社会化媒体内容挖掘关键技术及应用”,项目编号:
CXB201005250024A,资助经费:100 万元,项目负责人:叶允明,项目起止时间:2010年10月至2012年9月。
基于子空间挖掘的相关基础研究成果,本课题组还针对粤港区域对互联网疫情信息获取与挖掘服务、网络涉税信息挖掘服务等应用的需求,研发了可面向垂直领域快速定制、精准可靠、简单易用的万维网大数据智能挖掘与信息服务系统,并将相关技术及系统应用到多个企事业单位,服务超过2.39亿人次,具有重大社会效益。