Sklearn参数详解—GBDT
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Sklearn参数详解—GBDT
Sklearn参数详解—GBDT
前⾔
这篇介绍Boosting的第⾔个模型GBDT,GBDT和Adaboost都是Boosting模型的⾔种,但是略有不同,主要有以下两点不同:GBDT使⾔的基模型是CART决策树,且只能是CART决策树,⾔Adaboost的默认基模型是CART决策树,可以是其他模型。
GBDT通过计算每次模型的负梯度来进⾔模型迭代,⾔Adaboost 模型则根据错分率来进⾔模型迭代。
参数
class
sklearn.ensemble.GradientBoostingClassifier(loss='deviance', learning_rate=0.1, n_estimators=100, subsample=1.0, criterion='friedman_mse', min_
因基分类器是决策树,所以很多参数都是⾔来控制决策树⾔成的,这些参数与前⾔决策树参数基本⾔致,对于⾔致的就不进⾔赘述。
关于决策树参数看这⾔:
loss:损失函数度量,有对数似然损失deviance和指数损失函数exponential两种,默认是deviance,即对数似然损失,如果使⾔指数损失函数,则相当于Adaboost模型。
criterion: 样本集的切分策略,决策树中也有这个参数,但是两个参数值不⾔样,这⾔的参数值主要有friedman_mse、mse和mae3个,分
别对应friedman最⾔平⾔误差、最⾔平⾔误差和平均绝对值误差,friedman最⾔平⾔误差是最⾔平⾔误差的近似。
subsample:采样⾔例,这⾔的采样和bagging的采样不是⾔个概念,这⾔的采样是指选取多少⾔例的数据集利⾔决策树基模型去boosting,默认是1.0,即在全量数据集上利⾔决策树去boosting。
warm_start:“暖启动”,默认值是False,即关闭状态,如果打
开则表⾔,使⾔先前调试好的模型,在该模型的基础上继续boosting,如果关闭,则表⾔在样本集上从新训练⾔个新的基模型,且在该模型的基础上进⾔boosting。
属性/对象
feature_importance_:特征重要性。
oob_improvement_:每⾔次迭代对应的loss提升量。
oob_improvement_[0]表⾔第⾔次提升对应的loss提升量。
train_score_:表⾔在样本集上每次迭代以后的对应的损失函数值。
loss_:损失函数。
estimators_:基分类器个数。
⾔法
apply(X):将训练好的模型应⾔在数据集X上,并返回数据集X 对应的叶指数。
decision_function(X):返回决策函数值(⾔如svm中的决策距离)fit(X,Y):在数据集(X,Y)上训练模型。
get_parms():获取模型参数
predict(X):预测数据集X的结果。
predict_log_proba(X):预测数据集X的对数概率。
predict_proba(X):预测数据集X的概率值。
score(X,Y):输出数据集(X,Y)在模型上的准确率。
staged_decision_function(X):返回每个基分类器的决策函数值
staged_predict(X):返回每个基分类器的预测数据集X的结果。
staged_predict_proba(X):返回每个基分类器的预测数据集X的概率结果。