大数据常见术语解释(3)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据常见术语解释(3)
胡经国
49、游戏化(Gamification)
游戏化是指在其他非游戏领域中运用游戏的思维和机制。

这种方法可以以一种十分友好的方式进行数据的创建和侦测,非常有效。

50、图形数据库(Graph Databases)
图形数据库是指运用图形结构(例如,一组有限的有序对,或者某种实体)来存储数据。

这种图形存储结构包括边缘、属性和节点。

它提供了相邻节点间的自由索引功能。

也就是说,数据库中每个元素间都与其他相邻元素直接关联。

51、网格计算(Grid Computing)
网格计算是指将许多分布在不同地点的计算机连接在一起,用以处理某个特定问题;通常是通过云将计算机相连在一起的。

52、Hadoop
Hadoop是一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。

53、Hadoop数据库(HBase)
Hadoop数据库(HBase)是一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用。

54、HDFS
HDFS是Hadoop分布式文件系统(Hadoop Distributed File System);是一个被设计成适合运行在通用硬件(C ommodity Hardware)上的分布式文件系统。

55、高性能计算(HPC,High-Performance-Computing)
高性能计算是指使用超级计算机来解决极其复杂的计算问题。

56、内存数据库(IMDB,In-Memory Data Base)
内存数据库是指一种数据库管理系统;与普通数据库管理系统不同之处在于,它使用主存(内存)来存储数据,而不是使用硬盘来存储数据。

其特点在于能高速地进行数据的处理和存取。

57、物联网(Internet of Things)
物联网是指在普通的设备中安装上传感器,使这些设备能够在任何时间任何地点与网络相连。

物联网(Internet of Things,IoT)是新一代信息技术的重要组成部分,也是信息化时代的重要发展阶段。

顾名思义,物联网是指物物相连的互联网。

这有两层意思:其一,物联网的核心和基础仍然是互联网,是在互联网基础上延伸和扩展的网络;其二,其用户端延伸和扩展到了任何物品与物品之间进行信息交换和通信,也就是物物相息。

58、法律上的数据一致性(Juridical Data Compliance)
法律上的数据一致性是指当你使用的云计算解决方案将你的数据存储于不同的国家或不同的大陆时,就会与这个概念扯上关系。

你需要留意这些存储在不同国家或不同的大陆的数据是否符合当地的法律。

59、键值数据库(KeyValue Databases)
键值数据库是指数据的存储方式是使用一个特定的键指向一个特定的数据记录。

这种方式使得数据的查找更加方便快捷。

键值数据库中所存放的数据通常为编程语言中基本数据类型的数据。

60、延迟(Latency)
延迟是指系统时间的延迟。

61、遗留系统(Legacy System)
遗留系统是指一种旧的应用程序,或是旧的技术,或是旧的计算系统,现在已经不再支持了。

62、负载均衡(Load Balancing)
负载均衡是指将工作量均衡地分配到多台电脑或服务器上,以获得最优结果和最大的系统利用率。

63、位置信息(Location Data)
位置信息是指GPS信息,即地理位置信息。

64、日志文件(Log File)
日志文件是指由计算机系统自动生成的文件,它记录系统的运行过程。

65、M2M数据(Machine 2 Machine Data)
M2M数据是指两台或多台机器之间交流与传输的内容。

66、机器数据(Machine Data)
机器数据是指由传感器或算法在机器上产生的数据。

67、机器学习(Machine Learning)
机器学习是人工智能的一部分,是指机器能够从它们所完成的任务中进行自我学习,通过长期的累积实现自我改进。

68、MapReduce
MapReduce是一种处理大规模数据的软件框架(Map:映射;Reduce:归纳)。

69、大规模并行处理(MPP,Massively Parallel Processing)
大规模并行处理是指同时使用多个处理器(或多台计算机)处理同一个计算任务。

70、元数据(Metadata)
元数据是指描述数据的数据,即描述数据的数据属性(数据是什么)的信息。

71、MongoDB
MongoDB是一种开源的非关系型数据库(NoSQL DataBase)。

72、多维数据库(Multi-Dimensional Databases)
多维数据库是指用于优化数据联机分析处理(OLAP)程序,优化数据仓库的一种数据库。

73、多值数据库(MultiValue Databases)
多值数据库是指一种非关系型数据库(NoSQL), 一种能处理3个维度数据的特殊的多维数据库。

它主要针对非常长的字符串,能够完美地处理HTML 和XML中的字符串。

74、自然语言处理(Natural Language Processing)
自然语言处理是指计算机科学的一个分支领域。

它研究如何实现计算机与人类语言之间的交互。

75、网络分析(Network Analysis)
网络分析是指分析网络或图论中节点之间的关系,即分析网络中节点之间的连接和强度关系。

76、NewSQL
NewSQL是一个优雅的、定义良好的数据库系统,比SQL更容易学习和使用,是一个比NoSQL更晚提出的新型数据库。

77、NoSQL
顾名思义,NoSQL就是“不使用SQL”的数据库,即通常所说的非关系型数据库。

这类数据库泛指传统关系型数据库以外的其他类型的数据库。

这类数据库有更强的一致性,能处理超大规模和高并发的数据。

78、对象数据库(Object Databases)
对象数据库又称为面象对象数据库,以对象的形式存储数据,用于面向对象编程。

它不同于关系型数据库和图形数据库。

大部分对象数据库都提供一种查询语言,允许使用声明式编程(D eclarative Programming)访问对象。

79、基于对象图像分析(Object-based Image Analysis)
数字图像分析方法是对每一个像素的数据进行分析;而基于对象的图像分析方法则只分析相关像素的数据。

这些相关像素被称为对象或图像对象。

80、操作型数据库(Operational Databases)
操作型数据库可以完成一个组织机构的常规操作;对商业运营非常重要。

一般使用在线事务处理,允许用户访问、收集、检索公司内部的具体信息。

81、优化分析(Optimization Analysis)
优化分析是指在产品设计周期,依靠算法来实现的优化过程。

在这一过程中,公司可以设计各种各样的产品,并测试这些产品是否满足预设值。

82、本体论(Ontology)
本体论表示知识本体,是一种用于定义一个领域中的概念集及概念之间的关系的哲学思想。

(在这里,数据被提高到哲学的高度,被赋予了世界本体的意义,成为一个独立的客观数据世界。


83、异常值检测(Outlier Detection)
异常值是指严重偏离一个数据集或一个数据组合总平均值的对象。

该对象与数据集中的其它对象相去甚远(相差很大)。

因此,异常值的出现意味着系统发生问题,需要对此另加分析。

84、模式识别(Pattern Recognition)
模式识别是指通过算法来识别数据中的模式,并对同一数据源中的新数据作出预测。

85、P字节(PB,PetaBytes)
P字节(PB)大约等于1000TB(T eraBytes), 大约等于100万GB (GigaBytes)。

例如,欧洲核子研究中心(CERN)的大型强子对撞机每秒钟所产生的粒子个数就约为1PB。

86、平台即服务(PaaS,Platform-as-a-Service)
平台即服务是指云计算解决方案提供所有必需的基础平台的一种服务。

87、预测分析(Predictive Analysis)
预测分析是指大数据分析方法中最有价值的一种分析方法。

这种方法有助于预测个人未来(近期)的行为。

例如,某人很可能会买某些商品,可能会访
问某些网站,做某些事情或者产生某种行为。

它通过使用各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个人信息数据,来识别风险和机遇。

88、隐私(Privacy)
隐私是指把具有可识别出个人信息的数据与其他数据分离开,以确保用户隐私。

89、公共数据(Public Data)
公共数据是指由公共基金创建的公共信息或公共数据集。

90、数字化自我(Quantified Self)
数字化自我是指使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为。

2016年6月5日编写于重庆
2019年9月20日修改于重庆。

相关文档
最新文档