大数据第4章 大数据技术基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.1 技术进步与摩尔定律
比尔·盖茨对Basic语言进行精简,推出 了微软公司的奠基性产品 —— 微软版 Basic 语言,用于早期的个人电脑。几 年之后,盖茨回忆起这件事时仍然非常 自豪,他认为在20世纪70年代中期将精 简版Basic应用于早期的个人电脑是一个 创举。比尔·盖茨说:“在我的整个编程 生涯中,这是最令我自豪的作品。”
目录
1 技术进步与摩尔定律 2 大数据的技术架构 3 大数据的运用形式 4 大数据运用模式的分类 5 大数据的运用级别 6 大数据运用的真正价值 7 相关的大数据技术
第4章 大数据技术基础
大数据应用需求迫切需要新的工具与技术来存储、管理和实现商业价值。新的 工具、流程和方法支撑起了新的技术架构,使得企业能够建立、操作和管理这些 超大规模的数据集与贮藏数据的存储环境。
4.1
技术进步与摩尔定律
4.1 技术进步与摩尔定律
纵观历史,技术变革一直在挑战传统做法。1959年,在现代计算机时代即将 拉开帷幕之际,英国化学家、小说家查尔斯·珀西·斯诺在剑桥大学发表了题 为“两种文化”的演讲。斯诺在演讲中深入剖析了自然学科与人文学科这两 个阵营之间的不同点,并讨论了两者之间日益明显的鸿沟。他警告说,如果 人文学科继续对科学进步及其深远意义视而不见,那么科学学者与“人文学 者”之间的分裂必将对经济与社会进步构成威胁。
4.1 技术进步与摩尔定律
这次演讲在美国引起了强烈反响,影响了一大批人,其中包括达特茅斯学院 的两名教授——约翰·科姆尼与托马斯·科尔茨。科姆尼是一位数学家,曾经 是艾尔伯特·爱因斯坦的研究助手,后来担任达特茅斯学院院长。20世纪60年 代早期,年轻的数学老师科尔茨认为应该让绝大多数达特茅斯学生接触一些 电脑编程的知识,于是他找到了科姆尼。
要从大数据中高效地发现有用的信息,机器学习、数据挖掘、语义检索、统计 分析等技术是非常重要的。
大数据的运用模式,可分为个别优化的批处理型和实时型、整体优化的批处理 型和整体优化这4种类型。运用大数据,可分为对过去/现状的把握、发现模式、 预测和优化等方面。大数据运用的真正价值,是将具有3V特征的数据整合到日常 业务中去。尤其是对过去没有运用过的数据,或者是过去无法获得的新型数据的 运用,能够带来巨大的商机。
4.1 技术进步与摩尔定律
随着时间的推移,计算机性能已经取得了巨大的量变式进步,从而人们的行 为能力也发生了显著变化。接受过数据时代专业训练的物理学家常常把量变 到质变的变化比喻成“相变”, 或者比喻成由气态变成液态或者由液态变成固 态的物态变化。这种比喻形象地表现了这种变化的特点。同样,也不妨将这 里的“相变”比作摩尔定律。水在气温降到零摄氏度时会结冰,这是一个自 然过程和自然定律,而摩尔定律不是自然定律,它是通过对多年来所发生的 情况以及未来很有可能发生的情况进行研究之后得出的结论。多年以来,由 于人类的创造力、不懈努力与投入,摩尔定律经受住了考验。其中,科研人 员、企业与投资人功不可没。
Байду номын сангаас
4.1 技术进步与摩尔定律
教育与培训应当实现的更远大目标是改变思路,使对数据的思考成为学术活 动的第一原则,以及探索活动的起始点。我们可以用一个问题来概括这种理 念:这些数据到底要告诉我们什么?
从技术层面看,英特尔联合创始人戈登·摩尔提出的摩尔定律认为,计算机处 理器(CPU)芯片上的晶体管密度大约每两年就会增加一倍,计算能力也会 呈指数级增长。但是,从实践层面看,这条定律还告诉我们量变会带来质变, 为各种新的可能打开大门,为我们的探索与实践活动增添新的内容。1946年, ENIAC(电子数字积分)计算机需要完成的任务是计算炮弹的飞行轨迹,这 是计算机应用的开始。到2011年,国际商用机器公司(IBM)的超级计算机 沃森在美国电视智力节目《危险边缘》中击败了其最强劲的人类对手。
4.1 技术进步与摩尔定律
早在20世纪60年代,科姆尼与科尔茨并没有把达特茅斯学院变成职业编程人 员培训营的打算,他们的目的是引导学生体验与这些数字机器的交互和计算 机思维。他们要求学生通过特定方法分析并有逻辑性地整理数据,以便更好 地借助计算机解决问题。达特茅斯学院的老师们所从事的其实并不是编程教 学,他们的目标是改变学生们的思路,鼓励他们换一种角度看事物。如今, 在提及针对数据时代特点改革教育与培训工作时,人们所讨论的常常是一些 狭义概念,指的是一个个具体的技能。但是,就大局而言,重要的不是高手 们处理数据的高超能力,而是对数据产生根深蒂固的好奇心。
4.1 技术进步与摩尔定律
科姆尼与科尔茨认为,正在兴起的计算机应用是一股重要的科技力量,将影 响经济与社会的方方面面。但是,在达特茅斯学院,最有可能对计算机应用 感兴趣的理工科学生只占全校学生的1/4。科尔茨说,“企业与政府部门的大 多数决策者”通常都来自于另外75%的学生,这些学生在技术方面要逊色于 其他学生。因此,科尔茨与科姆尼设计了一种非常简单、便于非工程技术人 员使用的编程语言——Basic(初学者通用符号指令码)。1964年,他们开始 教达特茅斯学院的学生使用Basic语言编程。后来,成千上万的人在编写软件 程序时都会使用各种版本的达特茅斯Basic语言。
4.2
大数据的技术架构
4.2 大数据的技术架构
要容纳数据本身,IT基础架构必须能够以经济的方式存储比以往更大量、类 型更多的数据。此外,还必须能适应数据变化的速度。由于数量如此大的数 据难以在当今的网络连接条件下快速移动,因此,大数据基础架构必须分布 其计算能力,以便能在接近用户的位置进行数据分析,减少跨越网络所引起 的延迟。企业逐渐认识到必须在数据驻留的位置进行分析,分布这类计算能 力,以便为分析工具提供实时响应将带来的挑战。考虑到数据速度和数据量, 移动数据进行处理是不现实的,相反,计算和分析工具可能会移到数据附近。 而且,云计算模式对大数据的成功至关重要。云模型在从大数据中提取商业 价值的同时也能为企业提供一种灵活的选择,以实现大数据分析所需的效率、 可扩展性、数据便携性和经济性。