介绍几种用于机器学习探索性数据分析的数据类型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
介绍几种用于机器学习探索性数据分析的数据类型
数据类型是统计学中的重要概念,我们需要对它有正确的理解方能利用正确的数据类型来获得结论。这篇文章将介绍几种用于机器学习探索性数据分析的数据类型,以便正确的把握和利用数据。
对数据结构的良好理解对于机器学习中探索性分析十分重要,对于不同的数据类型我们需要不同的统计学度量手段来进行分析测试。同时也需要根据数据的类型选择合适的可视化方式来帮助我们更好的理解数据。最后数据类型也为变量的分类提供了一个有效的途径。分类数据
分类数据代表着对象的属性特点。诸如人群的性别、语言、国籍大都属于分类数据。分类数据通常也可以用数值表示(例如1表示女性而0表示男性),但需要注意的是这一数值并没有数学上的意义仅仅是分类的标记而已。
定类数据
定类变量用于标记不同变量的特征,而并不需要定量的数值,它们仅仅是标签而已。需要注意定类数据是无序的,对于变量顺序的更改不会改变数据的本质特征。
上图中表示的便是一个样本典型的分类数据,分别描述了个体的性别和语言属性。特别的作图中是一个只有两个属性的二叉分枝。
定序数据
定序数据代表了离散但是有序的变量单位。它于定类数据十分类型但确实有序的数据组织。下面教育背景的数据很好地的描述了定序数据的特点。
上图中的四个选项依次表示了不同的受教育程度,但却无法量化初级教育与高中的差别和高中与大学差别间的不同。定序数据缺乏对于特征间差别的量化使得它更多的只能用于评价利于情绪和用户满意度等一系列非数值特征。