特征工程入门与实践—3特征增强
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特征⼯程⼊门与实践—3特征增强
第3章特征增强:清洗数据
主要内容:
识别数据中的缺失值;
删除有害数据;
输⼊(填充)缺失值;
对数据进⾏归⼀化/标准化;
构建新特征;
⼿动或⾃动选择(移除)特征;
使⽤数学矩阵计算将数据集转换到不同的维度。
3.1 识别数据中的缺失值
查看数据集中是否有数据点是空的,⽤pandas dataframe内置的isnull()⽅法:
dataname.isnull().sum() 统计缺失值的数量
3.2处理数据集中的缺失值
主要的两种处理⽅法:
删除缺少值的⾏ dataname.dropna()
填充缺失值 dataname['列名'].fillna(['列名'].mean(),inplace = True) 也可以⽤sklearn预处理类的Imputer模块(填充器)进⾏缺失值填充数据集的每列均值: dataname.mean() 某列的均值 datanamme['列名'].mean()。