特征衍生 方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特征衍生方法
特征衍生是指在已有的数据集中,通过对原始特征进行组合、转化、提取等操作,产生新的特征,以提高机器学习模型的预测性能。
特征衍生方法分为以下三种:
1. 数值型特征衍生
数值特征衍生常见的方法有:
(1)数值型特征离散化:将连续型特征转化成离散的类别特征,例如将年龄分为儿童、青少年、中年、老年等不同的年龄段。
(2)多项式特征生成:将两个或更多的数值型特征组合成高次项,以产生新的特征,例如将身高和体重组合成BMI指数。
2. 类别型特征衍生
类别型特征衍生常见的方法有:
(1)one-hot 编码:将类别型特征转化为多个二元特征,每个二元特征表示一个类别,例如将性别特征转换为男性、女性两个二元特征。
(2)交叉特征生成:将两个或更多的类别型特征组合成新的特征,例如将居住城市和工作城市组合成新的城市特征。
3. 时间型特征衍生
时间型特征衍生常见的方法有:
(1)时间差特征生成:将两个时间特征的时间差作为新的特征,例如将用户注册时间和当前时间的时间差作为新的特征。
(2)时段特征生成:将时间特征分段,例如将一天分为早上、上午、下午、晚上四个时段,以此生成新的特征。
特征衍生是机器学习模型中非常重要的步骤,通过提取更多的特征,可以提高模型的准确性和预测效果。