《大数据概论》教学大纲

合集下载

《大数据技术导论》课程教学大纲

《大数据技术导论》课程教学大纲

《大数据技术导论》课程教学大纲TechnoIogy of Cloud Computing and Big Data一、课程基本情况课程编号:课程类别:专业基础课课程学分:3学分课程总学时:48学时,其中讲课:32学时,实验(含上机):16学时课程性质:考试开课学期:第1学期先修课程:大学生计算机基础适用专业:大数据技术、计算机应用技术、人工智能技术应用相关专业教材:大数据技术导论(第2版),程显毅任越美主编,机械工业出版社,2022.8 开课单位:计算机科学与技术学院二、课程性质、教学目标和任务《大数据技术导论》课程是计算机应用技术专业、大数据技术专业、人工智能技术应用专业必修的一门基础课程,具有很强的实践性和应用性。

主要培养学生大数据平台运维、大数据分析和数据可视化基本思想和基本技能,为后续的数据挖掘应用性课程和数据产品开发课程的学习打好编程基础。

本课程设置的目的是通过对Hadoop, HDFS, MapReduce, HBase, Hive的学习,较好地训练学生大数据平台运维、数据分析和数据展现,使学生具有数据分析和数据展现的能力,为培养学生有较强数据开发能力打下良好基础。

本课程的思政目标1)理解全量思维源自量变到质变,大事业都是从点滴小事情积累起来的。

2)理解相关思维是善于抓机遇,良机只有一次,错过就不再来。

3)理解容错思维源理解和大度,学习别人的优点,完善自身。

4)理解数据分析源自发现人生价值,在有限生命中实现无限价值的人生。

5)理解数据敏感源自用数据讲故事,用数据展现祖国的发展,感受祖国的强大。

6)理解分布式处理源自协作,合作可以充实你的人生。

7)理解数据清洗源自质量第一,保证在激烈竞争中利于不败之地。

8)理解业务理解源自知己知彼,莫愁前路无知己,天下谁人不识君。

9)理解数据安全源自责任重于泰山,少年智则国智,少年强则国强。

10)理解大数据让世界变得透明源自自知者明,最难了解的自己。

三、教学内容和要求1.概论(8学时)(1)了解大数据技术产生的历史必然;(2)理解大数据的特征;(3)理解大数据生命周期;(4)理解大数据、云计算、物联网之间的相互关系;(5)了解大数据带来的变革;(6)理解大数据思维的基本原理;(7)理解数据的价值;(8)熟练安装部署虚拟机;(9)掌握LinUX常用操作;目的:通过上述知识的学习,使学生了解大数据基本概念、特征、思维、工具和技术。

《大数据》课程教学大纲(本科)

《大数据》课程教学大纲(本科)

《大数据》课程教学大纲课程编号:04224课程名称:大数据英文名称:Big Data课程类型:学科选修课课程要求:选修学时/学分:32/2 (讲课学时:28上机学时:4)适用专业:智能科学与技术一、课程性质与任务大数据分析是智能科学与技术、计算机科学技术等专业的一门学科选修课,该课程涉及各类常用的挖掘与分析方法,提供了从数据准备到统计分析、关联规则建立及集成学习等整个数据分析过程的内容。

本课程全面地介绍了大数据处理相关的基本概念和原理,着重讲述了介绍数据挖掘、分析相关的理论、方法及实现工具。

本课程在教学内容方面着重基本知识、基本理论和基本设计方法的讲解;在培养实践能力方面着重数据分析的基本训练,为学生今后从事大数据的研究与预测打下坚实的基础。

(本课程可支撑毕业要求中的3.3, 7.2, 10.1, 12.2)二、课程与其他课程的联系本课程的先修课程为人工智能基础、机器学习等专业基础课程。

通过对人工智能基础的学习能够掌握智能的算法和搜索技术,通过对机器学习能够了解数据的分类、过滤等方法。

这些先修课程为本课程的讲授打下了基础。

本课程的后续课程包括智能机器人、模式识别等。

通过本课程可为后续课程提供理论与方法实践基础。

三、课程教学目标1.考虑社会、健康、安全、法律、文化以及环境等因素,设计一个能实现预期功能的硬件或软件系统,进行仿真研究或开发出系统原型或实物(支撑毕业要求中的3.3);2.能够评价智能系统工程实践对环境、社会可持续发展的影响(支撑毕业要求中的7.2);3.将大数据技术作为重点,以应用为目的,全面介绍大数据的数据挖掘与预测方法。

使学生既能对大数据处理技术有一个全景的把握,又能深入理解和使用大数据进行决策。

4.有不断学习和适应智能科学与技术发展的能力(支撑毕业要求中的12.2)5.了解大数据挖掘与预测分析学科的前沿和最新发展动向,具有跟踪学科发展前沿的意识和文献检索基本技能。

(支撑毕业要求中的10.1)四、教学内容、基本要求与学时分配五、其他教学环节(课外教学环节、要求、目标)大作业:1.对数据挖掘的认识。

大数据概论教材

大数据概论教材

大数据分析价值:根据Andrew Pole的大数据模 型,Target连锁制订了全新的广告营销方案,结果 Target的孕期用品销售呈现了爆炸性的增长。 Andrew Pole的大数据分析技术从孕妇这个细分顾 客群开始向其他各种细分客户群推广,从Andrew Pole加入Target的2002年到2010年间,Target的 销售额从440亿期”的乱战, 以“更懂中国、更懂中国用户”迅速发展。 发展:即使在Google没有撤离之前p;未来:错过了移动互联网的入口。用户依旧 很多,通过大数据分析做精准广告投放,依旧在 走Google的路。
大数据的价值所在
美国政府推出了“大数据”战略,媲美与当年克林顿政府时代的信息高速公路计划。奥巴马 希望借助大数据来将美国经济带出泥潭。从基础建设、到IT硬件、软件、网络,最后到数据 。 2010年12月,总统行政办公室下属的科技技术顾问委员会 ,信息技术顾问委员会向奥巴马和国会提交了《规划数据未 来》的专门报告,该报告把数据收集和使用的工作,提到了 战略的高度。“如何收集、保存、维护、管理、分析、共享 正在呈指数级增长的数据是我们必须面对的一个重要挑战。 如何保证这些数据现在、将来的完整性和可用性,我们面临 着很多的问题和挑战。如何使用这些数据,则是另外一个挑 战。。。。应对好这些挑战,将引导我们在科研、医疗、商 业和国家安全方面开创新的成功。” 2012年3月29日,奥巴马政府又进一步推进了其“大数据战 略”。奥巴马的高级顾问、总统科学技术顾问委员会的主席 霍尔德伦代表国防部、能源部等6个联邦政府部门宣布,将 投入2亿多美元立即启动“大数据发展研究计划”Big Data Research and Development Initiative,以推动大数据 的提取、存储、分析、共享和可视化。

大数据教学大纲

大数据教学大纲

大数据教学大纲随着科技的快速发展和互联网的普及,大数据已经成为当今社会中一个重要的领域。

大数据的涌现对企业、政府和个人都带来了许多机遇和挑战。

为了适应这个时代变化的需求,大数据教育应该成为教育体系的一部分。

本文将就大数据教学大纲进行详细介绍,以期给相关教育机构提供一些建议和灵感。

第一部分:导论1.1 大数据的定义和概念- 介绍大数据的基本概念,包括数据类型、数据来源和数据特征等。

1.2 大数据的应用领域- 介绍大数据在商业、医疗、金融等领域的应用案例。

1.3 大数据的价值和意义- 探讨大数据对决策制定、资源规划和业务发展的重要性。

第二部分:技术基础2.1 数据采集和处理技术- 介绍数据采集的方法,如传感器、网络爬虫和人工采集等,并讨论数据清洗和预处理的技术。

2.2 大数据存储与管理- 探讨分布式文件系统、NoSQL数据库和云存储等技术,以及其在大数据存储与管理方面的应用。

2.3 大数据分析与挖掘- 介绍大数据分析的基本方法,如数据挖掘、机器学习和统计分析等,并重点讨论大数据分析的挑战和解决方案。

第三部分:应用案例3.1 商业智能- 分析大数据在市场营销、销售预测和客户关系管理等方面的应用案例。

3.2 医疗健康- 探讨大数据在疾病预测、个性化治疗和医疗资源分配等方面的应用案例。

3.3 城市规划- 介绍大数据在交通流量控制、垃圾处理和资源配置等方面的应用案例。

第四部分:教学方法与评估4.1 教学方法- 探讨大数据教学的教学方法,如案例研究、实践项目和小组合作等,以培养学生的实际应用能力。

4.2 评估方法- 提出大数据教学评估的准则和标准,包括理论考试、实验报告和项目评估等。

第五部分:资源支持5.1 教材和参考书籍- 推荐一些经典的大数据教材和参考书籍,以供教师和学生备用。

5.2 实验室和设备支持- 提供一些必要的实验室设备和软件工具,以支持学生的大数据实践操作。

结语通过本大纲,希望大数据教学能够引导学生了解大数据的基本概念、技术和应用。

国开大数据技术概论

国开大数据技术概论

国开大数据技术概论
国开大数据技术概论是一门介绍大数据技术的课程,旨在帮助学生了
解大数据的基本概念、发展历程和应用场景。

以下是该课程的详细内容:
一、大数据的基本概念
1. 大数据是什么?
大数据是指规模巨大、类型多样、处理复杂的数据集合,通常需要借
助计算机等技术手段进行存储、管理和分析。

2. 大数据的特点有哪些?
大数据具有四个特点:规模性、多样性、价值密度低和处理复杂性。

3. 大数据技术有哪些?
大数据技术包括分布式存储系统、分布式计算框架、机器学习算法等。

二、大数据的发展历程
1. 大数据的起源是什么?
大数据起源于20世纪90年代,当时互联网开始普及,人们开始产生
海量的数字信息。

2. 大数据发展到今天有哪些里程碑事件?
1999年,谷歌发布了PageRank算法;2004年,Hadoop项目启动;2006年,亚马逊推出弹性计算云服务(EC2);2008年,谷歌发布
了MapReduce论文等。

三、大数据的应用场景
1. 大数据在哪些领域有应用?
大数据在金融、医疗、电商、物流等领域都有广泛的应用。

2. 大数据在金融领域的应用有哪些?
大数据在金融领域的应用包括风险评估、反欺诈、投资分析等。

以上就是国开大数据技术概论的详细内容。

通过学习这门课程,学生
可以了解大数据的基本概念、发展历程和应用场景,从而更好地掌握大数据技术。

《云计算与大数据概论》课件第5章 Hadoop开发平台

《云计算与大数据概论》课件第5章 Hadoop开发平台
一个案例为Hadoop做了良好的宣传:《纽约时报》使用Amazon的EC2云计 算将4TB的报纸扫描文档压缩,转换成用于Web的PDF文件,整个过程使用 100台机器运行,历时不到24小时,如果不结合Amazon的按小时付费的模 式(即允许《纽约时报》在很短的一段时间内访问大量机器)和Hadoop易 于使用的并行程序设计模型,该项目很可能不会这么快就能完成。
ZooKeeper典型的应用场景: 统一命名服务 配置管理 集群管理 共享锁(Locks) 队列管理
HBase(分布式NoSQL数据库)
HBase位于结构化存储层,是一个分布式的列存储数据库。该技术来源于Google的论 文《BigTable:一个结构化数据的分布式存储系统》。HBase是Hadoop项目的子项目, 如同BigTable利用了Google文件系统(Google File System)提供的分布式数据存储方 式一样,HBase在Hadoop之上提供了类似于BigTable的功能。 HBase不同于一般的RDBMS:其一,HBase是一个适合于存储非结构化数据的数据库; 其二,HBase使用基于列而不是基于行的模式。HBase和BigTable使用相同的数据模型, 用户将数据存储在一个表里,一个数据行拥有一个可选择的键和任意数量的列,由 于HBase表是疏松的,用户可以给行定义各种不同的列。HBase主要用于需要随机访 问、实时读写的大数据(BigData)。
MapReduce很适合处理那些需要分析整个数据集的问题(以批处理的方式),而RDBMS则适用于点查询和更新 (其中,数据集已经被索引以提供低延迟的检索和短时间的少量数据更新)。MapReduce适合数据被一次写入和 多次读取的应用,而RDBMS更适合持续更新的数据集。
MapReduce是一种线性的可伸缩的编程模型,程序员编写两个函数——Map函数和Reduce函数——每一个都定义 一个键值对集映射到另一个。这些函数无视数据的大小或者它们正使用的集群的特性,可以原封不动地应用到 小规模数据集或者大的数据集上。

《大数据概论》教学大纲

《大数据概论》教学大纲

《大数据概论》教学大纲课程名称:大数据概论课程代码:XXXXX学时:XX学分:X课程介绍:本课程介绍大数据概念、基本原理、核心技术以及应用领域等内容。

通过本课程的学习,学生将了解大数据的特点、挑战和机遇,掌握大数据处理的基本技术与方法,培养大数据思维和解决问题的能力。

教学目标:1.了解大数据的基本概念、特点和发展趋势;2.熟悉大数据处理的基本原理和关键技术;3.掌握大数据挖掘和分析的方法和工具;4.了解大数据应用领域和现实案例;5.培养学生的大数据思维和解决问题的能力。

教学内容与安排:-第一讲:大数据概述(2学时)-大数据的定义、特点和挑战-大数据的应用场景和价值-第二讲:大数据处理技术(4学时)-大数据存储与管理-大数据处理架构-分布式计算与并行处理-第三讲:数据挖掘与分析(6学时)-数据预处理与清洗-数据挖掘与机器学习-数据可视化与分析工具-第四讲:大数据技术与工具(4学时)- Hadoop与MapReduce- Spark与Flink-NoSQL数据库-第五讲:大数据应用案例分析(4学时) -电商数据分析与推荐系统-社交媒体数据分析与用户画像-公共安全与城市治理-第六讲:大数据伦理与隐私保护(2学时) -大数据伦理与隐私保护意义-大数据隐私保护技术与方法-第七讲:大数据的发展趋势与挑战(2学时)-大数据技术的发展趋势-大数据带来的挑战与解决方案教学方法:本课程采用讲授理论知识、分组讨论案例分析和实践操作等多种教学方法相结合,注重培养学生的实际动手能力和解决实际问题的能力。

教材与参考书目:教材:-《大数据处理》著者:XXX出版社:XXX参考书目:-《大规模数据分析》著者:XXX出版社:XXX-《大数据时代》著者:XXX出版社:XXX考核方式:平时成绩占50%,期末考试占50%。

平时成绩包括课堂表现、实验报告和小组项目等。

备注:本课程内容为初步安排,根据实际教学需要可以适当进行调整和完善。

《大数据导论》-课程教学大纲

《大数据导论》-课程教学大纲

《大数据导论》课程教学大纲一、课程基本信息课程代码:20110073课程名称:大数据导论英文名称:Introduction to Big-data课程类别:专业课学时:48学分:3适用对象:针对大数据管理及应用专业本科生。

考核方式:考查先修课程:无二、课程简介“大数据导论”是大数据管理及应用专业本科生的一门专业课程,也是该专业的导入课程,以引导学生对数据科学与大数据技术与应用有一个全面和概括性的了解。

该导论课程不仅应介绍与数据科学与大数据技术相关的内容,也应介绍一些与计算机科学与技术相关的内容。

主要包括数据科学与大数据本科专业知识体系,数据科学与大数据技术应用概况,大数据硬件环境,数据通信与计算机网络,程序、软件与系统,数据采集与存储,数据统计与分析,图形学、图像处理与可视化,人工智能,数据安全,大数据平台、框架及工具。

对该专业相关课程的主要内容进行简单介绍,适度介绍数据科学研究现状、大数据产业的未来及其在各领域的应用。

内容包括数据科学和大数据技术应用两个方面的内容,引导学生分别向数据科学家和数据工程师方向发展。

Introduction to big data is a professional course for undergraduates majoring in big data management and application, as well as an introduction course for the major, so as to guide students to have a comprehensive and general understanding of data science and big data technology and application. The introduction course should not only introduce the contents related to data science and big data technology, but also some contents related to computer science and technology. It mainly includes data science and big data undergraduate professional knowledge system, data science and big data technology application overview, big data hardware environment, data communication and computer network, program, software and system, data acquisition and storage, data statistics and analysis, graphics, image processing and visualization, artificial intelligence, data security, big data platform, framework and tools. This paper briefly introduces the main contents of relevant courses of this major, and moderately introduces the current situation of datascience research, the future of big data industry and its application in various fields. The content includes data science and big data technology application, which guides students to develop towards data scientists and data engineers respectively.三、课程性质与教学目的本课程的重点是要求学生了解数据科学与大数据技术的学科体系,主要课程结构,大致了解主要课程的内容,掌握相关课程中的一些基本概念,为其下步的学习做好准备。

大数据技术概论(一)2024

大数据技术概论(一)2024

大数据技术概论(一)引言概述:随着信息技术的迅猛发展,大数据技术已经成为当今互联网时代的重要组成部分。

本文旨在介绍大数据技术的概念与基本原理,以及其在各个领域的应用。

通过对大数据技术的深入探讨,读者可以对这一领域有一个全面的了解,为今后的学习和实践积累基础。

一、数据的特点与挑战1.1 数据规模的快速增长1.2 数据的多样性与复杂性1.3 数据的时效性要求1.4 数据隐私与安全性1.5 数据获取与存储的有效性二、大数据技术的基本原理2.1 分布式存储与计算2.2 数据采集与清洗2.3 数据挖掘与分析2.4 机器学习与人工智能2.5 数据可视化与展示三、大数据在商业领域的应用3.1 市场营销与用户分析3.2 供应链管理与物流优化3.3 金融风控与欺诈检测3.4 客户关系管理与个性化推荐3.5 企业决策与战略规划四、大数据在科学研究领域的应用4.1 生物医药领域的基因组研究4.2 天文学中的宇宙模拟与探测4.3 环境科学中的气象与气候模拟4.4 材料科学中的模拟与优化设计4.5 社会科学中的文本挖掘与社交网络分析五、大数据的挑战与发展趋势5.1 数据隐私保护的技术与法律问题5.2 数据质量与数据集成的挑战5.3 数据分析与建模的方法与工具不足5.4 大数据人才缺口与培养5.5 人工智能与大数据的融合发展总结:本文从介绍大数据的特点与挑战开始,然后对大数据技术的基本原理进行了阐述,并结合商业领域和科学研究领域的应用案例进行了展示。

最后,针对大数据面临的挑战和未来发展趋势进行了总结。

通过本文的阅读,读者将更好地理解大数据技术的重要性,并为未来在大数据领域的学习和实践提供参考。

大数据概论

大数据概论

大数据的4V特征
大数据的4V特征
大数据的4V特征
大数据的4V特征
大数据的4V特征
体量Volume
非结构化数据的超大规模和增长 •占总数据量的80~90% •比结构化数据增长快10倍到50倍 •是传统数据仓库的10倍到50倍 大数据的异构和多样性 •很多不同形式(文本、图像、视频、机器数据) •无模式或者模式不明显 •不连贯的语法或句义 •大量的不相关信息 •对未来趋势与模式的可预测分析 •深度复杂分析(机器学习、人工智能Vs传统商务智 能(咨询、报告等) 实时分析而非批量式分析 •数据输入、处理与丢弃 •立竿见影而非事后见效
• ETL • 数据众包 (CrowdSouring)
• • •
结构化、非结构化 和半结构化数据 分布式文件系统 关系数据库 非关系数据库 (NoSQL) 数据仓库 云计算和云存储 实时流处理
大数据的相关技术
1.8大数据分析的四种典型工具简介
1.Hadoop Hadoop是一个能够对算平台。 2.Spark Spark是一个基于内存计算的开源集群计算系统, 目的是更快速的进行数据分析。
管理模式
利用数据进行决策
教育变革
大数据让教育真正面对每 一个独立的个体
哲学变革
数据挖掘与认识论挑战 数据资源与价值观转变 数据足迹与伦理观危机
大数据带来的思维变革
大数据时代的思维方式 大数据时代,人们对待数据的思维方式变化:
•从样本思维转向总体思维:带来更全面的认识,可以更清楚地 发现样本无法揭示的细节信息; •从精确思维转向容错思维:当拥有海量即时数据时,绝对的精 准不再是追求的主要目标,适当忽略微观层面上的精确度,容 许一定程度的错误与混杂,反而可以在宏观层面拥有更好的知 识和洞察力; •从因果思维转向相关思维:努力颠覆千百年来人类形成的传统 思维模式和固有偏见,才能更好地分享大数据带来的深刻洞见。 •从自然思维转向智能思维,不断提升机器或系统的社会计算能 力和智能化水平,从而获得具有洞察力和新价值的东西,甚至 类似于人类的“智慧”。

大数据概论

大数据概论

大数据概论大数据概论1、引言1.1 背景与意义1.2 定义与特点1.3 发展历程2、大数据基础2.1 数据类型与来源2.2 数据存储与处理2.2.1 数据存储技术2.2.2 数据处理技术2.3 数据采集与清洗2.4 数据分析与挖掘2.5 数据可视化3、大数据应用领域3.1 金融与商业3.2 健康与医疗3.3 教育与研究3.4 交通与城市管理3.5 社交网络与媒体3.6 其他领域应用4、大数据技术4.1 数据存储技术4.1.1 关系型数据库4.1.2 非关系型数据库4.1.3 分布式文件系统4.2 数据处理技术4.2.1 批处理4.2.2 流式处理4.2.3 图计算4.3 数据挖掘与机器学习4.4 与深度学习4.5 云计算与大数据5、大数据管理与风险5.1 数据隐私与安全5.2 数据治理与合规5.3 数据伦理与道德5.4 数据风险与应对策略5.5 数据监管与法律法规6、未来展望6.1 大数据发展趋势6.2 大数据的挑战与机遇6.3 大数据对社会的影响附件:1、大数据案例研究报告2、大数据应用实践指南3、大数据分析工具手册法律名词及注释:1、数据隐私:个人或组织的个人信息在被收集、存储、处理、使用和传输过程中的保护与控制权。

2、数据治理:在整个组织范围内对数据的规范管理,包括数据的审计、存储、传输、使用等方面。

3、数据伦理:基于对数据使用的价值观和原则,对数据使用过程中合理性、公正性等方面的考量。

4、数据风险:在大数据环境下,数据的泄露、误用等被非法获取、篡改或滥用的风险。

5、数据监管:针对大数据相关业务进行监管,确保数据的合规性和安全性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

附件1
广东财经大学华商学院课程教学大纲
一、课程简介
大数据概论是一门理论性和实践性都很强的课程,针对计算机、信息管理和其他各专业学生的发展需求,系统、全面地介绍了关于大数据技术与应用的基本知识和技能,详细介绍了大数据与大数据时代、大数据的可视化、大数据的商业规则、大数据时代的思维变革、大数据促进医疗与健康、大数据激发创造力、大数据预测分析、大数据促进学习、大数据在云端、支撑大数据的技术、数据科学与数据科学家、大数据的未来等内容,具有较强的系统性、可读性和实用性。

二、教学目标
(一)目的与要求
本课程是大数据系列课程的基础,系统地介绍大数据涵盖的内容,包括数据与大数据概述、大数据获取与感知、大数据存储与管理、大数据分析、大数据处理、大数据治理、大数据安全与隐私等。

除了介绍大数据的技术内容,课程还介绍了部分行业中大数据的典型应用案例,反映了大数据在社会经济生活中的重要价值。

从而达到四个方面的对于大数据的认识:认识数据与大数据、认识大数据带来信息化第三波浪潮、认识大数据对现有信息技术体系的挑战、认识亟待构建的大数据治理体系。

课程基本要求:
(1)了解本课程的教学设计;
(2)熟悉本课程的基本内容与学习要求;
(3)主动完成本章的导读案例、思考和阅读全部内容。

二、主要教学模式和教学手段
采用线下教学为主,线上教学为辅。

主要学习模式:课堂面授课程,通过常用的工具进行实践教学,线上教学为辅,选择合适的教学平台进行线上补充教学。

主要教学方法:1:问题导向法 2:对比教学法 3:讨论教学法 4:任务驱动法
主要教学手段:1:多媒体机房教学 2:在线课程教学 3:视频教学网站
四、教学内容(要求编写所有章节的主要内容)
第一章什么是大数据
内容:
1.1人类信息文明的发展
1.2 大数据时代的来临
1.2.1 信息技术的发展
1.2.2 数据产生方式的变革
1.3 大数据的主要特征
1.3.1 大数据的数据特征
1.3.2 大数据的技术特征
1.4 大数据的社会价值
熟练掌握:
了解人类信息文明的发展历程
熟悉大数据时代的来临和具体发展表现
掌握大数据的主要特征
掌握大数据的社会价值
第二章大数据技术基础
内容:
2.1 计算机操作系统
2.1.1 什么是操作系统
2.1.2 Linux操作系统
2.2 编程语言
2.2.1 编程语言的发展与种类2.2.2 Python语言
2.3 数据库
2.3.1 SQL数据库的发展与成熟2.3.2 NoSQL数据库及其特点
2.3.3 NoSQL数据库的分类
2.3.4 NewSQL数据库
2.4 算法
2.4.1 什么是算法
2.4.2 大数据时代的算法
2.5 大数据系统
2.5.1 Hadoop平台
2.5.2 Spark平台
2.6 大数据的数据类型
2.6.1 结构化数据
2.6.2 半结构化数据
2.6.3 非结构化数据
2.7 大数据应用的开发流程
2.8 数据科学算法的应用流程
熟练掌握:
掌握计算机操作系统的基础知识。

理解和掌握编程语言。

掌握数据库的主要数据类型。

理解算法的涵义。

掌握大数据系统。

熟悉大数据应用开发流程。

第三章数据采集与预处理
内容:
3.1 大数据的来源
3.1.1 传统商业数据
3.1.2 互联网数据
3.1.3 物联网数据
3.2 数据的采集方法
3.2.1 系统日志的采集方法
3.2.2 网页数据的采集方法
3.2.3 其他数据的采集方法
3.3 数据预处理
3.3.1 影响数据质量的因素
3.3.2 数据预处理的目的
3.3.3 数据预处理的流程
熟练掌握:
了解大数据的来源
掌握数据的采集方法
掌握数据预处理流程
了解大数据的来源
掌握数据的采集方法与数据预处理的主要流程
第4章数据存储与管理
内容:
4.1 数据存储概述
4.1.1 数据的存储介质
4.1.2 数据的存储模式
4.2 大数据时代的存储管理系统
4.2.1 文件系统
4.2.2 分布式文件系统
4.2.3 数据库
4.2.4 键-值数据库
4.2.5 分布式数据库
4.2.6 关系型数据库
4.2.7 数据仓库
4.2.8 文档数据库
4.2.9 图形数据库
4.2.10 云存储
熟练掌握:
☑掌握数据的存储模式
☑理解并掌握大数据时代的存储管理系统
☑理解数据存储的概念和种类
☑熟练掌握常用的3种数据存储模式
☑理解分布式平台存储大数据的意义和优势,掌握分布式文件系统基础架构第五章大数据计算框架
内容:
5.1 计算框架
5.1.1 批处理框架
5.1.2 流式处理框架
5.1.3 交互式处理框架
5.2 MapReduce
5.2.1 MapReduce编程的特点
5.2.2 MapReduce的计算模型
5.2.3 MapReduce的资源管理框架
5.3 Spark
5.3.1 Spark的基本知识
5.3.2 Spark的生态系统
5.3.3 Spark的架构与原理
5.3.4 Spark RDD的基本知识
熟练掌握:
☑理解并掌握MapReduce的计算模型、资源管理框架和编程特点
☑掌握Spark的基本知识、基本特点和架框原理。

☑理解处理框架按照所处理的数据状态分为批处理框架、流式处理框架及交互式处理框架3种计算框架
☑掌握MapReduce的计算模型、资源管理框架和编程特点
☑理解并掌握Spark的基本知识、生态系统、基本特点和架框原理
第六章数据挖掘
内容:
6.1 什么是数据挖掘
6.2 数据挖掘的对象与价值
6.2.1 数据挖掘的对象
6.2.2 数据挖掘的价值
6.3 数据挖掘常用的技术
6.3.1 关联分析
6.3.2 分类分析
6.3.3 聚类分析
6.4 数据挖掘常用的工具
6.4.1 RapidMiner
6.4.2 WEKA
6.4.3 Orange
6.4.4 R语言
6.4.5 Mining
6.5 数据挖掘的典型应用
6.5.1 社交媒体领域的应用
6.5.2 市场营销领域的应用
6.5.3 科学研究领域的应用
6.5.4 电信领域的应用
6.5.5 教育领域的应用
6.5.6 医学领域的应用
第7章数据可视化
内容:
7.1 什么是可视化
7.1.1 可视化的含义
7.1.2 可视化的发展历程
7.1.3 可视化的作用
7.2 数据可视化及其分类
7.2.1 科学可视化
7.2.2 信息可视化
7.2.3 可视化分析学
7.3 数据可视化工具
7.3.1 入门级工具
7.3.2 信息图表工具
7.3.3 地图工具
7.3.4 高级分析工具
7.4 数据可视化案例
7.4.1 数字美食
7.4.2 空中的间谍
五、教学重点难点
教学重点:关联规则、降维、特征选择、EM算法、概率图模型等内容,最后介绍自然语言处理与文本分析、图与网络分析、分布式计算和深度学习等知识。

教学重点:关联规则、降维、特征选择、EM算法、概率图模型等内容,最后介绍自然语言处理与文本分析、图与网络分析、分布式计算和深度学习等知识。

线性回归正则化,非线性回归方法,文本表示方法,主题模型和LDA。

1.先修课程:无
2.后续课程:大数据预处理技术,大数据技术与应用,数据挖掘与算法
九、推荐教材和教学参考书
教材:
《大数据导论》,杨尊琦主编,机械工业出版社.
参考书:
[1] 维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革.盛杨燕等译.杭州:浙江人民出版社,2013.
[2] 《大数据导论——数据思维、数据能力和数据伦理(通识课版)》林子雨编著,高等教育出版社,2019年11月。

[3] 《大数据概论》,陈明主编,科学出版社出版
[4] 《云计算与大数据概论》,青岛英谷教育科技股份有限公司,西安电子科技大学出版社.
[5] 《大数据导论》,周苏、王文主编,清华大学出版社.。

相关文档
最新文档