大数据技术基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢
——麦肯锡咨询公司
➢ 2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”
为什么现在要谈大数据?
➢ 大数据民主化 ➢ 硬件性价比的提高以及软件技术的进步
计算机性价比的提高 磁盘价格的下降 大规模分布式处理基础hadoop的诞生 ➢ 云计算的普及
大数据的特征
大数据的来源
在速度和规模上实现新产品创新 捕获所有来源的反馈,分析庞大的市场环境,研究大量的数据,从而推动创新。
即时的欺诈和风险意识 通过分析所有可用数据来打造更好的欺诈/风险模型,用流数据交易分析来实 时监测欺诈
利用仪表化资产 监控资产通过实时数据反馈来预测和预防维修问题,并且开发新产品和新服务。
大数据入门指引 大数据技术探索 大数据案例分享
大数据之前世今生
➢ 1980年,阿尔文·托夫勒在《第三次浪潮》中提出“数据就是财富”,“数据” 的价值首次被提出
➢ 1998年,SGI的首席科学家John R. Masey 在USENIX大会首次提出了“大数据”的 概念
➢ 2001年,Gartner提出,数据增长有三个方向的挑战和机遇:量大(Volume);速度快 (Velocity);多样性(Variety)。
量化舆情数据 库
量化舆情数据库是为了支持新闻传媒、品牌管理和量化 投资等研究,通过接收新闻站点、论坛、博客和微博等海 量舆情数据而建设的数据存储系统。
高频数据库是包含股票、基金、债券、权证、股指期货、
高频数据库 商品期货,港交所证券在内各类高频数据,及基于高频数
据传输、更新、应用软件在内的一套整体的系统解决方案。
大数据之数据存储现代篇
➢ NoSql ➢ mongoDB ➢ Cassandra ➢ HBASE ➢ Mysql ➢ HDFS
大数据之数据分析传统篇
软件名称
简介
➢R ➢ MATLAB ➢ SPSS ➢ SAS ➢ Python
R Matlab SPSS
R,一种自由软件编程语言与操作环境,具有统计分析功能。
大数据之重要言论
数据是与物质、能源一样重要的战略资源 中国工程院李国杰院士 Data is the new oil. “大数据、大影响” 大数据是资产,不是包袱 要拿数据说话 缺少数据资源就无以谈产业 缺少数据思维就无以谈未来
大数据之错误观点
大数据主要与大型数据集相关 在大数据的新世界中,我们必须更换所有陈旧系统 大数据就是 Hadoop 较为陈旧的事务数据已经不再重要 数据仓库已是昨日黄花 大数据适合熟知互联网的企业。传统业务与大数据毫无关系 我们不具备相应的需求、预算或者技能,因此我们不必为此担心
Matlab是matrix&laboratory两个词的组合,意为矩阵工厂(矩阵 实验室)。是由美国mathworks公司发布的主要面对科学计算、可 视化以及交互式程序设计的高科技计算环境。
SPSS是一系列用于统计学分析运算、数据挖掘、预测分析和决 策支持任务的软件产品及相关服务的总称。
SAS Python
大数据入门指引 大数据技术探索 大数据案例分享
大数据之趣味故事
谷歌 预测流感病毒爆发 让数据发声:跟林彪学习数据分析 二手车质量检测:橙色的车有质量问题的可能性只有其他颜色 车的一半!? 奥巴马靠大数据赢得总统连任 沃尔玛:请把蛋挞和飓风用品放在一起 亚马逊推荐系统:数据能自己讲话?亚马逊1/3的收入来自于它 的个性化推荐系统
➢ 2008年,美国自然杂志推出《大数据》专刊,全方面介绍大数据问题
➢ 2010年2月,《经济学家》(The Economist) The data deluge
➢ 2011年5月,Big Data: The Next Frontier for Innovation, Competition and Productivity 大数 据未来创新竞争生产力的指向标
大数据之数据采集与ETL
采集方法与工具 ➢ 人工采集——费时费力但是不可获取的手段 ➢ OCR——pdf解析 ➢ Excel——数据、自网站 ➢ 八爪鱼——八爪鱼数据采集系统 ➢ 网络爬虫——输入关键字,抓取全网与关键
字匹配的所有内容。
ETL工具 ➢ Kettle ➢ sqoop
大数据之数据采集与ETL——国泰安八爪鱼
SAS,一个功能强大的数据库整合平台,可进行数据库集成、序 列查询、序列处理等工作。
是一种面向对象、解释型计算机程序设计语言,在设计上坚持了 清晰划一的风格,这使得Python成为一门易读、易维护,并且被 大量用户所欢迎的、用途广泛的语言。
大数据之数据分析现代篇
➢ 社交网络 ➢ B2C和零售行业 ➢ 门户网站 ➢ 搜索引擎 ➢ 金融、电信行业 ➢ 军事、科学研究 ➢ 交通、物流运营数
据
大数据的冲击
了解关于您客户的一切 从渠道交互到社交媒体,通过分析所有数据来源帮助您了解您的每位客户
零延迟操作 分析所有可用的操作数据并且实时做出反应,从而优化流程。通过成本效益技 术降低IT成本。
大数据技术架构国泰安一站式大数据解决方案
大数据之数据源
没有软数据件! 名巧称妇难为无米之炊!
简介
CSMAR数据库是专门针对中国金融、经济领域的研究型
CSMAR数据库
精准数据库,包括股票市场、公司研究、基金市场、债券 市场、衍生市场、经济研究、行业研究、海外研究和专题
研究等14大系列,92个数据库。
源自文库大数据技术基础探讨
数据科学家定义与技能
所谓的数据科学家,是指运用统计分析、机器学习、分布式处理等技术,从大 量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出 新的数据运用服务的人才。
——《大数据的冲击》
所需技能: ✓ 计算机科学与技术 ✓ 数学、统计、数据挖掘等 ✓ 数据可视化
➢八爪鱼数据采集系统:以完全自主研发的分布式云计算平台为核心,可以在很 短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任 何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人 工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。
大数据之数据存储传统篇
➢ Sql ➢ Oracle ➢ Sybase ➢ DB2