基于CUDA平台的机器学习算法GPU并行化的研究与实现——电子科技大学开题答辩
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
wenku.baidu.com
选题背景
下图cuDNN与Caffe性能比较,使用几个著名的网络。
CPU是16核Intel Haswell的E5-26982.3GHz的3.6 GHz Turbo. GPU是NVIDIA的GeForce GTX TITAN X.
选题背景 (续)
CUDA : 由NVIDIA推出的通用计算架构 CUDA C以C/C++语法为基础设计
存储器分配优化 撰写论文
主要研究内容
1. CUDA架构及GPU存储的研究
主要研究内容 (续)
2. 机器学习相关算法的研究
主要研究内容 (续)
3. 算法GPU并行化可行性的研究
拟解决的关键问题
❖ 研究通用的机器学习并行化方案 ❖ GPU存储分配优化 ❖ 研究迭代计算的并行化
创新点和最终目标
创新点 ➢ GPU存储器分配优化 ➢ 迭代算法并行化
最终目标 ➢ 实现一个典型的机器学习GPU并行化算法
工作进度安排
起始时间 2015.9—2015.12 2016.01—2016.03 2016.04—2015.07
2015.08—2015.11 2015.12—2016.03
完成内容 研究课题内容,查阅相关资料 研究CUDA的框架,熟悉CUDA的编程模式 熟悉主流机器学习算法及设计其并行化
基于CUDA平台的机器学习算法GPU 并行化的研究与实现
姓名: 导师: 专业: 计算机技术
目录
1. 选题背景及研究意义 2. 主要研究内容 3. 拟解决的关键问题 4. 创新点和最终目标 5. 工作进度安排
选题背景及研究意义
海量数据训练,传统cpu串行执行方式效率低,不能满足人们需求。 基于GPU的通用计算的研究成为当前热点
研究意义
➢ 软件加速,提高效率 ➢ 增加用户体验 ➢ 减少成本
"With GPUs, pre-recorded speech or multimedia content can be transcribed much more quickly. Compared to CPU implementation we are able to perform recognition up to 33x faster. "
选题背景
下图cuDNN与Caffe性能比较,使用几个著名的网络。
CPU是16核Intel Haswell的E5-26982.3GHz的3.6 GHz Turbo. GPU是NVIDIA的GeForce GTX TITAN X.
选题背景 (续)
CUDA : 由NVIDIA推出的通用计算架构 CUDA C以C/C++语法为基础设计
存储器分配优化 撰写论文
主要研究内容
1. CUDA架构及GPU存储的研究
主要研究内容 (续)
2. 机器学习相关算法的研究
主要研究内容 (续)
3. 算法GPU并行化可行性的研究
拟解决的关键问题
❖ 研究通用的机器学习并行化方案 ❖ GPU存储分配优化 ❖ 研究迭代计算的并行化
创新点和最终目标
创新点 ➢ GPU存储器分配优化 ➢ 迭代算法并行化
最终目标 ➢ 实现一个典型的机器学习GPU并行化算法
工作进度安排
起始时间 2015.9—2015.12 2016.01—2016.03 2016.04—2015.07
2015.08—2015.11 2015.12—2016.03
完成内容 研究课题内容,查阅相关资料 研究CUDA的框架,熟悉CUDA的编程模式 熟悉主流机器学习算法及设计其并行化
基于CUDA平台的机器学习算法GPU 并行化的研究与实现
姓名: 导师: 专业: 计算机技术
目录
1. 选题背景及研究意义 2. 主要研究内容 3. 拟解决的关键问题 4. 创新点和最终目标 5. 工作进度安排
选题背景及研究意义
海量数据训练,传统cpu串行执行方式效率低,不能满足人们需求。 基于GPU的通用计算的研究成为当前热点
研究意义
➢ 软件加速,提高效率 ➢ 增加用户体验 ➢ 减少成本
"With GPUs, pre-recorded speech or multimedia content can be transcribed much more quickly. Compared to CPU implementation we are able to perform recognition up to 33x faster. "