大数据常见术语解释(全文)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据常见术语解释(全文)
胡经国
大数据(B ig Data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的出现产生了许多新术语,这些术语往往比较难以理解。为此,我们根据有关大数据文献编写了本文,供大家认识大数据参考。
1、聚合(Aggregation)
聚合是指搜索、合并、显示数据的过程。
2、算法(Algorithms)
算法是指可以完成某种数据分析的数学公式。
3、分析法(Analytics)
分析法用于发现数据的内在涵义。
4、异常检测(Anomaly Detection)
异常检测用于在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”以外,用来表示“异常”的英文单词还有以下几个:outliers,exceptions,surprises,contaminants。它们通常可提供关键的可执行信息。
5、匿名化(Anonymization)
匿名化使数据匿名,即移除所有与个人隐私相关的数据。
6、应用(Application)
在这里,应用是指实现某种特定功能的计算机软件。
7、人工智能(Artificial Intelligence)
人工智能是指研发智能机器和智能软件;这些智能设备能够感知周围的环境,并根据要求作出相应的反应,甚至能自我学习。
8、行为分析法(Behavioural Analytics)
行为分析法是指根据用户的行为如“怎么做”,“为什么这么做”以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科。它着眼于数据中的人性化模式。
9、大数据科学家(Big Data Scientist)
大数据科学家是指能够设计大数据算法使得大数据变得有用的人。
10、大数据创业公司(Big Data Startup)
大数据创业公司是指研发最新大数据技术的新兴公司。
11、生物测定术(Biometrics)
生物测定术是指根据个人的特征进行身份识别。
12、B字节(BB,BrontoBytes)
B字节(BB)约等于1000YB(YottaBytes),相当于未来数字化宇宙的大小。1BB包含了27个0。
13、商业智能(Business Intelligence)
商业智能是指一系列理论、方法学和过程,使得数据更容易被理解。
14、分类分析(Classification Analysis)
分类分析是指从数据中获得重要相关性信息的系统化过程;这类数据也被称为元数据(M eta Data),即是描述数据的数据。
15、云计算(Cloud Computing)
简而言之,云计算是指通过互联网提供智能化计算资源的服务模式或商业模式。提供资源(资源池上的计算能力、存储空间和信息服务)的网络被称为云(或云端),由云按需提供可动态伸缩(可以无限扩展、随时获取、按需使用、按使用付费)的廉价计算服务;计算能力是通过互联网进行传输的。
16、聚类分析(Clustering Analysis)
聚类分析是指将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据之间的差异和相似性。
17、冷数据存储(Cold Data Storage)
冷数据存储是指在低功耗服务器上存储那些几乎不被使用的旧数据;这些旧数据检索起来将会很耗时。
18、对比分析(Comparative Analysis)
对比分析是指在非常大的数据集中进行模式匹配时,进行一步步的对比和计算从而得到分析结果的过程。
19、复杂结构数据(Complex Structured Data)
复杂结构数据是指由两个或多个复杂而相互关联的部分组成的数据。这类数据不能简单地用结构化查询语言或工具(SQL)来解析。
20、计算机产生的数据(Computer Generated Data)
计算机产生的数据是指如日志文件这类由计算机生成的数据。
21、并发(Concurrency)
并发是指同时执行多个任务或运行多个进程。
22、相关性分析(Correlation Analysis)
相关性分析是指一种数据分析方法,用于分析变量之间是否存在正相关或者负相关。
23、客户关系管理(Customer Relationship Management)
客户关系管理(CRM)是指用于管理销售、业务过程的一种技术;大数据将影响公司的客户关系管理的策略。
24、仪表板(Dashboard)
仪表板是指使用算法分析数据,并将结果用图表方式显示于仪表板中。
25、数据聚合工具(Data Aggregation Tools)
数据聚合工具是指将分散于众多数据源的数据转化成一个全新数据源的过程。
26、数据分析师(Data Analyst)
数据分析师是指从事数据分析、建模、清理、处理的专业人员。
27、数据库(Database)
数据库是指一个以某种特定的技术来存储数据集合的仓库。
28、数据库即服务(Database-as-a-Service)
数据库即服务是指部署在云端的即用即付数据库服务,例如亚马逊云服务(直译:亚马逊网络服务)(AWS,Amazon Web Services)。
29、数据库管理系统(Database Management System)
数据库管理系统(DBMS)是指收集、存储数据,并提供数据访问的数据库系统。
30、数据中心(Data Centre)
通常,数据中心是指全球协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。
维基百科给出的数据中心定义是:“数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备(例如数据中心通信和存储系统),而且还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置”。