大数据技术专业词汇表汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据技术常用专业词汇表汇总
ARPU(Average revenue per user):每个用户的平均收入。
Artificial neural network:人工神经网络,通常简称神经网络。
Apache Software Foundation(ASF):专门为支持开源软件项目而办的一个非盈利性组
织。
Anomaly:见异常值词条。
Avro:一个在Hadoop上的数据序列化系统,设计用于支持大批量数据交换应用。
宝贝:淘宝和天猫网上商城对于网店商品的专门用语。
贝叶斯分析方法(Bayesian Analysis):提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。
bounce rate:见跳出率词条。
B2C:英文Business-to-Consumer的缩写,其中文含义为企业对消费者。
CBL(China Black List):中国垃圾邮件黑名单。
CART:Classification and Regression Trees的英文首字母缩写,或者称分类与回归树,是一种决策树分类算法。
CRM(用户关系管理,Customer Relationship Management)指的是公司对客户和潜在客户的管理模式。
Cluster(类或簇的英文):是一个数据对象的集合。
Cookie: 指的是指网站为了辨别用户身份而储存在用户本地终端浏览器上的一类数据。
Discriminant analysis:见判别分析词条。
Direct Marketing:见直效行销词条。
DSS(Decision Support System):决策支持系统的缩写,是辅助决策者通过数据、模型和知识,进行半结构化或非结构化决策的计算机应用系统。
独立访客:指在一天之内(00:00-24:00)访问网站的上网电脑数量(以cookie为依据)。
EB:计算机存储单位,1 EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes(字节),或是2的60次方字节。
Entropy:见熵。
EIS(Executive Information Systems的缩写,高级管理人员信息系统):为高级管理人员设计的系统,用于深层次管理数据分析和运营趋势分析等。
EDM(Email Direct Marketing):用电子邮件进行营销的方式。
二跳率:当网站页面展开后,用户在页面上产生的首次点击被称为“二跳”,二跳的次数即为“二跳量”,而二跳量与浏览量的比值称为页面的二跳率。
ETL:(Extract Transform Load)的缩写,是指数据的提取、转换、加载。
分布式数据库(Distributed Database):用计算机网络将物理上分散的多个数据库单元连接起来组成一个逻辑统一的数据库。
关联规则(Association rules):是形如X→Y的蕴涵式,其中X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。
根节点:决策树最上面的节点。
在它上面没有其他节点,其他所有的属性都是它的后续节点。
购物篮分析(market basket analysis):就是关联规则算法。
在市场上关联规则算法经常作为商品购物车的分析,所以在应用领域又被称为购物篮分析。
Granularity:见“粒度”。
HDFS:部署在廉价硬件上提供高吞吐量和高容错性的分布式文件系统,适合有超大数据集的应用程序。
HBase :一个在HDFS上搭建大规模结构化存储集群分布式存储系统,具有高可靠性、高性能、面向列,可伸缩特性。
Hive:基于Hadoop的数据仓库工具,可以将结构化的数据映射成数据表并提供类SQL数据库查询管理功能,适合于数据仓库的统计分析。
后验概率(Posterior Probability):当根据经验及有关材料推测出主观概率后,对其是否准确没有充分把握时,可采用概率论中的贝叶斯公式进行修正,修正前的概率称为先验概率,修正后的概率称为后验概率。
回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。
计量经济学(Econometrics)是以经济学和数理统计学为方法论作为基础,对于经济问题试图用数量和经验两者进行综合的经济学分支。
基于互联网的挖掘(Web挖掘)是利用数据挖掘技术从Web文档及Web服务中自动发现并提取人们感兴趣的信息。
交叉验证(Cross-validation):主要用于建模应用中,在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。
监督式学习(Supervised learning):机器学习中的一类,可以由训练资料中学到或建立一个模式(函数),并依此模式推测新的样本归类或者属性。
机器学习(Machine Learning):研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
聚类(Clustering):将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。
由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
决策树(Decision Tree):一般都是自上而下的来生成的。
每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,
故称决策树。
决策树剪枝(Decision tree pruning):由于在决策树生成过程中,会过度拟合训练数据,而且易受噪声数据的影响,所以剪枝操作是决策树生成过程中的一个重要步骤
决策支持系统(decision support system):辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。
k近邻(k nearest):一个理论上比较成熟的方法,也是最简单的机器学习算法之一。
该方法的思路是:如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近)
的样本中的大多数属于某一个类别,则该样本也属于这个类别。
KDD(Knowledge discovery in database):泛指所有从源数据中发掘模式或联系的方法
landing page:见着陆页词条。
LAMP:Linux,Apache,MySQL和PHP,四种web技术的缩写,是一些web2.0公司使用的主要技术组合。
Lift:使用分类器相对于不使用分类器产生的正类的比例。
LBS(Location-based service)是与位置相关的软件服务的英文缩写,指的是一类利用和控制与位置及时间相关的计算机软件服务。
联机事务处理系统(OLTP):实时采集处理与事务相连的数据以及共享数据库和其它文件的
地位的变化。
在联机事务处理中,事务是被立即执行的,这与批处理相反,一批事务被存
储一段时间,然后再被执行。
粒度(Granularity):指数据仓库的数据单位中保存数据的细化或综合程度的级别。
流量(traffic):是指网站的访问量,是用来描述访问一个网站或是网店的用户数量以及用户所浏览的网页数量等一系列指标,这些指标主要包括:独立访客数量(unique visitors)、 ·页面浏览数(page views)、每个访客的页面浏览数(Page Views per user)。
联机分析处理(OLAP):使分析人员,管理人员或执行人员能够从多角度对信息进行快速
一致,交互地存取,从而获得对数据的更深入了解的一类软件技术。
LNMP:Linux,Nginx,MySQL 和PHP,四种web技术的缩写,是一些web2.0公司使用的主要技术组合。
六度分隔理论(Six Degrees of Separation):是个假设,在人际关系脉络方面您可以通过不超出六位中间人直接与世上任意人认识
MapReduce:HDFS上处理大数据集的并行计算框架。
Metadata:见元数据。
MongoDB: 是一个基于分布式文件存储的数据库。
Nginx:开源的高性能HTTP服务器。
Outlier: 见异常点词条。
PAM:见围绕中心点的划分聚类算法
判别分析(Discriminant analysis):是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
PB:计算机存储单位,1 PB = 1,024 TB = 1,048,576 GB = 1,125,899,906,842,624 Bytes(字节),或是2的50次方字节。
PU学习:正例和无标记样本学习(Learning from Positive and Unlabeled examples)一般称为LPU或PU学习,是一种半监督学习方法。
Pig:在HDFS和MapReduce上处理大规模数据集的脚本语言,它提供更高层次的抽象并转化为优化处理的MapReduce运算。
频繁集(frequent itemset):是大于最小支持度的项目集。
强关联规则:如果某条规则同时满足最小支持度(min-support)和最小置信度(min-confidence),则称它为强关联规则。
R语言:R是属于GNU系统的一个自由、免费、源代码开放的软件,是一个用于统计计算和统计制图的工具。
REST(Representational State Transfer,表现状态转移):是Roy Fielding博士在2000年他的博士论文中提出来的一种软件架构风格,在此风格中,每个资源是由全球唯一的URI 来指定,资源本身和其表现方式是完全独立的;当一个用户拿到资源的表现方式时,他有足够的信息可以修改或者删除服务器上相应的资源而且每条消息都包含了足够的信息可以描述消息的处理。
热图(heat map):热图或热力图是数据的一种二维呈现,其中的数值都用颜色表示。
一个简单的热图提供信息的即时可见概况。
人工神经网络(Artificial Neural Networks):一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。
这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
人工智能(Artificial Intelligence):研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
3C产品:3C产品指的是通讯产品(Communication),消费类电子产品(Consumer Electronics)和电脑产品(Computer),三类产品的首字母都是C,所以称3C
SEMMA是数据挖掘过程(Sample, Explore, Modify, Model,and Assess)的英文缩写,意思是抽样,检查,修改,设立模型和评估。
熵(entropy):指的是体系的混乱的程度,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。
熵由鲁道夫·克劳修斯(Rudolf Clausius)提出,并应用在热力学中。
后来在,克劳德·艾尔伍德·香农(Claude Elwood Shannon)第一次将熵的概念引入到信息论中来。
商业智能(Business Intelligence):采用数据库或数据仓库技术进行商业信息的收集,集成,分析和报告以帮助做决策的应用与实践系统。
时间序列(Time Series):是指将某种现象某一个统计指标在不同时间上的各个数值,按时
间先后顺序排列而形成的序列。
时间序列法是一种定量预测方法,亦称简单外延方法。
事务数据库(Transaction Database):由文件构成,每条记录代表一个事务。
典型的事务包含唯一的事务标记,多个项目组成一个事务
数据结构(data structure):各种数据之间的逻辑关系,用来支持特定的数据处理功能,比如树、列表和链接表。
数据可视化(Data Visualization):关于数据的视觉表现形式的研究,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
数据挖掘(Data Mining):从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。
数据可视化(Data Visualization):多维度数据通过图形的方式来做的展现
数据仓库:是决策支持系统(DSS)和联机分析应用数据源的结构化数据环境。
数据仓库研究和解决从数据库中获取信息的问题。
数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据清洗(data cleaning):过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。
数据库(Database):是按照数据结构来组织、存储和管理数据的仓库。
属性(attribute):属性是实体的描述性性质或特征,具有数据类型、域、默认值三种性质。
属性也往往用于对控件特性的描述。
对于按钮控件的名称、显示的文字、背景色,背景图片等等。
SNS:是社会化服务网络,Social Services Networks的英文首字母缩写。
spatio-temporal data mining:时间和空间数据的挖掘
Sqoop:一个用来将Hadoop和关系型数据库中的数据相互转移的工具。
索引(Index):在数据库中,用来对记录提供有效访问的标记。
特征选择(Feature Selection ) :是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化
统计学(statistics):是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。
它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。
跳出率(bounce rate)是互联网上的一个常用指标,指的是进入某一个网站之后不再继续浏览,而直接离开网站的访客比例。
通常来说,跳出率越高,网站的粘性就越低。
Traffic:见流量词条。
UGC:User Generated Content的缩写,即用户生成内容
Web log项(日志项):网络上的服务器记录所有访问该Web服务器的数据流的信息。
Web挖掘(Web Mining): Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW 相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术。
围绕中心点的划分聚类算法(PAM):通过反复地用非代表对象来代替代表对象,提高聚类的质量的算法。
唯一浏览量:是指网站来源是搜索引擎下的广告主网站的唯一浏览量,即在浏览量的基础上,不被记作重复的浏览量,刷新的浏览量不被记作唯一浏览量。
无监督学习(unsupervised learning):机器学习的一种,指从无标记的数据中找出隐藏结构信息的方法。
先验概率:见后验概率词条。
线性模型(linear model) :是一种分析模型,它假定考虑的各变化因素是线性的关系。
协作推荐:是利用用户访问行为的相似性来相互推荐用户可能感兴趣的资源。
文本挖掘(text mining):指从文本数据中抽取有价值的信息和知识的计算机处理技术。
即从文本中进行数据挖掘。
从这个意义上讲,文本挖掘是数据挖掘的一个分支,由机器学习、数理统计、自然语言处理等多种学科交叉形成。
信息检索(Information Retrieval):指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
信息增益(Information Gain)是衡量一个属性区分数据样本的能力。
信息增益量越大,对信息分类的能力就越强。
而用来计算信息增益的公式就需要用到熵(Entropy)。
相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
序列算法:在数据挖掘中的序列算法是对于一个序列(sequence)中的数据找出统计规律的算法。
异常点(Outlier): 在大规模数据集中,通常存在着不遵循数据模型的普遍行为的样本。
这些样本和其他部分数据有很大不问或不一致,叫作异常点(Outlier),也有翻译成局外者的。
异常值(anomaly)的定义是基于某种度量而言,异常值是指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值。
遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。
元数据(Metadata):是指描述数据仓库内数据的结构和建立方法的数据,是关于数据的数据,是对数据的结构、内容、键码、索引等的一中描述。
ZB:计算机存储单位。
1 ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes(字节),或者是2的70次方字节。
召回率(Recall Rate,也叫查全率):是检索出的相关文档数和文档库中所有的相关文档数的比率。
直效行销(Direct Marketing):又名零阶通路,是指制造商或零售商,直接将产品出售给消费者,使通路阶层降至零阶或一阶,减少中间费用,为消费者取得较低价格的销售方式。
知识工程(Knowledge Engineering):人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供求解的手段。
知识发现(KDD:Knowledge Discovery in Databases):从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。
主成分分析(Principal Component Analysis,PCA): 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。
支持向量机(Support Vector Machine,SVM):Corinna Cortes和Vapnik8等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
支持度(support):描述关联规则的阈值,反映符合关联规则模式的任务相关的元组(或事务)所占的百分比。
着陆页(landing page),指的是网站中的一个市场营销专用页面,通常是搜索引擎或是其他广告所指向的页面。
转化率(Conversion Rate)指的是产生实际消费的用户和来到用户网页的总用户数量的比值,是将流量转化为实际的销售额的一种衡量方式。
置信度(Confidence):衡量关联规则的可信程度。
Zookeeper:一个针对大型分布式系统的可靠协调系统,提供功能包括:配置维护、名字服务、分布式同步、组服务等。
自助法(bootstrap):非参数统计中一种重要的估计统计量,采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本。
最大频繁项集(Maximal Frequent Itemsets,MFI):频繁地出现在数据集中的最大子集。
最大似然估计:是用来求一个样本集的相关概率函数的参数的一种统计方法。