数据基础知识及数据处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据处理
(从小数据到大数据)
一、小数据
1、信息的度量
在计算机中:
最小数据单位:位(bit)
Bit: 0 或1 (由电的状态产生:有电1,无电0)基本数据单位:字节(Byte, B)
1B=8bit
1KB=1024B
1MB=1024KB
1GB=1024MB
1TB=1024GB。
……
2、不同数制的表示方法
十进制(Decimal notation),如120, (120) 10,120D
二进制(Binary notation) ,如(1010)2 , 1010B
八进制(Octal notation) ,如(175)8 , 175O
十六进制数(Hexdecimal notation) ,如(2BF)16 , 2BF03H
3、不同数制之间的转换方法
(1)任意其他进制(二、八、十六)转换成十进制,可“利用按权展开式展开”。
例如:
10110.101B
=1×24+0×23+1×22+1×21+0×20+1×2-1+0×2-2+1×2-3 =22.625D
347.6O
=3×82+4×81+7×80+6×8-1
=231.75D
D5.6H
=D×161+5×160+6×16-1 =213.375D
(2)十进制转换成任意其他进制(二、八、十六),整数部分的转换可按“除基取余,倒序排列”的方法,小数部分的转换可按“乘基取整,顺序排列”的方法。(除倒取,乘正取)
例,十进制数59转换为二进制数111011B
例:十进制数0.8125转换为二进制数0.1101B
同理:317 D= 100111101B = 475O = 13DH
0.4375D = 0.0111B = 0.34O = 0.7H
(3)八进制数转换成二进制数,可按“逐位转换,一位拆三位”的方法。(8421法)
例如:3107.46O
= 3 1 0 7 . 4 6 O
=011 001 000 111 . 100 110 B
=11001000111.10011B
(4)十六进制数转换成二进制数,可按“逐位转换,一位拆四位”的方法。(8421法)
例如:4A7.1CH
= 4 A 7 . 1 C H
= 0100 1010 0111 . 0001 1100 B
=10010100111.000111B
(5)二进制数转换成八进制数,可按“三位合一位,分节转换”的方法。(8421法,三位时为421法)
例如:11010101.1101B
= 011 010 101 . 110 100 B
= 3 2 5 . 6 4 O
=325.64 O
(6)二进制数转换成十六进制数,可按“四位合一位,分节转换”的方法。
例如:1011010101.11101B
=0010 1101 0101. 1110 1000 B
= 2 D 5 . E 8 H
=2D5.E8H
二、大数据
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据特征:(Volume大量)、(Variety多样)(Velocity高速)、(Value(价值)核心特征)
(一)Volume(大量,>1PB)1PB= 1,024 TB = 1,048,576 GB 1EB= 1,024 PB = 1,048,576 TB 1ZB= 1,024 EB = 1,048,576 PB 1YB= 1,024 ZB = 1,048,576 EB 1BB= 1,024 YB = 1,048,576 ZB 1NB= 1,024 BB = 1,048,576 YB 1DB= 1,024 NB = 1,048,576 BB
(二)Variety(多样)
在大数据这个房间里,住着各种各样的“人”,它们分别叫做视频、聊天记录、人口普查结果、天气预报……
(三)Velocity(高速)
以一个存储1PB的数据为例,即使带宽(网速)能达到1G/s,且电脑的容量足够且24小时运行,要将1PB的数据存入电脑也需要12天。大数据通过云计算,可以实现将12天才能存储完毕的数据,在20分钟之内完成。
4、Value(价值)
这是大数据的核心特征,其最大价值在于从大量不相关的各类数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习(Machine Learning)、人工智能(Artificial Intelligence)或数据挖掘(Data Mining)等方法深度分析,发现新规律和新知识,并运用于社会各领域,从而达到改善社会治理、提高生产效率、推进科学研究的效果。
云计算
云计算,作为一个新兴的技术时尚名词,正受到计算机软件和互联网技能人员及商业模式研究人员的高度追捧,他们百折不回地认为云计算能把他们带出创新枯竭的互联网应用沙漠,并让他们跃升到同行中更高的岗位。
他们视其为救命稻草,他们计划抓住云计算这根看起来模模糊糊的稻草,正是如此,云计算文章铺天盖地,种种格局的研讨会此起彼伏,以致已经生长到以讹传讹、神乎其神、不能自拔的田地了。到底什么才是云计算呢?来看看下面这段对话吧!
最开始,人们使用算盘
后来,人们用电脑
再后来,人们有了网络