一、国家高性能计算中心(合肥)—大数据挖掘与计算研究室二、研究方向
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
欢迎希望成为我的学生们阅读,包括本科生毕业设计、推免硕士研究生、统招硕士研究生和直博研究生。下面先介绍我们的情况,然后提出对新学生的要求和期望。本材料共4页,成稿于2018年8月14日。
一、国家高性能计算中心(合肥)—大数据挖掘与计算研究室
本实验室隶属于安徽省重点实验室—国家高性能计算中心(合肥),从事高性能计算与应用方向,是计算机学院的重点方向。实验室由陈国良院士创建并领衔负责,现有100多名博士后、博士生和硕士生。上图为实验室位于东区科研楼五楼一角。
现在本实验室共有1名博士后(与讯飞联合培养)、5名博士生、11名硕士生。
二、研究方向
1.文本序列异同分析:开源程序集,DNA和蛋白质序列,学术文献挖掘;
2.软件分析:代码克隆,代码推荐和生成,软件架构改良;
3.并行计算及性能优化:自适应并行编程框架,并行算法及系统性能优化;
4.区块链技术及应用。
三、研究成果
本研究室早期得到985工程“信息科技前沿理论与应用”创新平台、教育部“大规模科学工程计算”长江学者和创新团队、教育部和外专局“计算科学及其应用基础”111引智计划等重大项目支持,目前得到教育部“高性能计算协同创新”2011计划、科技部“大数据分析及应用创新团队”、“面向大规模序列同源问题的并行分布式算法及其关键技术研究”基金委面上项目等新近支持。
程序集和基因组中原版片段或祖先片段搜寻和分析称之为序列同源分析,是软件源码补全、代码自动生成和推荐等新一代软件开发技术中的理论基础和关键技术,也是文本异同分析共性技术和关键。我们发展的Large Gap克隆工具CCAligner 和序列比对算法BitMapper,分别在软件工程顶会ICSE2018和Bioinformatics2018上发表,其他研究成果有发表在数据挖掘顶刊TKDE和并行计算顶刊TPDS上。
四、研究意义
左图说明并行计算需要学习和训练,右图说明并行计算是大数据和人工智能的核心技术和支撑。我们开展的大数据挖掘与计算,主要是进行大规模序列数据的异同分析和挖掘,依靠的是并行算法和并行计算技术。
五、研究工作
1. 软件源码分析及应用
1)主要研究内容:
a)大差异的软件源码克隆算法研究
面向较小差异的源代码克隆算法SourcererCC取得了较好的进展,对于软件迭代开发中的大差异代码克隆一直是业界的挑战问题和应用,我们提出CCAligner1&2工具该需求问题的研究突破,其中CCAligner1发表在国际软件工程学术会议ICSE2018上。学生受同行研究者的邀请到加拿大访问,此项工作已有企业意向合作。
b)基于克隆的软件分析和代码补全推荐
软件代码的智能生成一直软件工程界的追求和期望,我们已在基于CCAligner工具上的API序列推荐和代码补全推荐上展开工作和研究,目前已取得好于同类工具的初步研究结果。
2)合作研究
a)国外:Roy教授(University of Saskatchewan, Canada)等;
b)国内:华为公司、浙江大学等多位国内同行;
3)毕业学生:张弘硕士(美国弗吉尼亚理工读博),张鑫鑫硕士(杭州阿里),汪
敏硕士(上海华为)等。
4)重要项目:
a)面向大规模序列同源问题的并行分布式算法及其关键技术研究,国家自然
基金面上项目;
b)大数据分析及应用创新团队,科技部项目;
5)重要论文:1篇软件工程顶会ICSE论文,及其他多篇论文。
2. 并行编程框架和并行算法设计
6)主要研究内容:
c)面向信号处理的跨平台并行编程框架研究
设计了一种渐进、非颠覆式的并行编程模型,并在华为项目、南京十四所项目中得到应用。面对复杂计算环境和资源调度,提出的自动性能寻优技术是我们的创新和贡献。
d)新一代并行机及其体系结构上的并行算法设计
在新一代CMP和GPU上的设计和开发重要并行算法和工具环境,一类动态规划矩阵的并行化和LCS与MLCS算法的高效实现,以及图论算法并行化(BFS),其中并行BFS取得性能两倍好于Graph 500中算法。
7)合作研究
a)研究者:尚奕教授(University of Missouri, Columbia)等;
b)单位:华为公司,中电集团十四所、三十八所;
8)毕业学生:张坤鹏硕士(美国西北大学读,美国高校任教),余林彬硕士(美
国读博,Facebook工作),胡自林硕士(上海HP)、邱鹏飞硕士(百度搜索研发部),吴彦钊学士(美国佐治亚理工读博)等。
9)重要项目:
a)并行计算模型和性能优化,国家863重大项目子课题;
b)BWDSP100 C编译器实现,“核高基”科技重大专项;
c)基于龙芯3号的通信与数学库的研制,“核高基”科技重大专项。
10)重要论文:国内科学通报、软件学报、计算机学报论文多篇,并行计算领域顶
级期刊TPDS上1篇,数据挖掘领域顶级期刊TKDE上1篇。
3. 生物信息学算法及文献挖掘应用
1)主要研究内容:
a)生物测序序列比对算法和索引技术
BLAST软件优化和并行化,BitMapper测序序列找全比对算法,BitMapperBS甲基化比对算法,BWT索引技术改造和优化等。
b)大规模的生物文献挖掘研究
实体命名识别,蛋白质相互作用关系提取,以及与疾病关系提取。
2)合作研究
a)国外:尚奕教授(University of Missouri, Columbia),姜涛教授(University
of California, Riverside Riverside)。
b)国内:张强峰研究员(清华大学),薛宇教授(华中科大生命学院)。
3)毕业的学生:张强峰博士(美国读博,青千,清华任教),宋彬硕士(美国Oracle),
张弘硕士(美国弗吉尼亚大学读博),刘娟学士(美国读博,google工作)等。
4)重要项目:2项国家自然基金面上项目和1项国家863项目。
5)重要论文:多篇Bioinformation(影响因子5.0以上),多篇BMC Bioinformatics
(影响因子3.49左右),数篇TCBB。
六、对未来学生的要求
1.具备
良好的专业和英语基础,进取的学习和研究精神,正直的人生和生活态度;
2.期望
成为德才兼备的社会和国家有用之才。
欢迎本科生、推免硕士研究生、硕士研究生和直博研究生的加入!