pythonlearning_curve函数

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

pythonlearning_curve函数
这个函数需要引⽤sklearn包
import sklearn
from sklearn.learning_curve import learning_curve
这个函数的调⽤格式是：
learning_curve(estimator, X, y, train_sizes=array([ 0.1 , 0.325, 0.55 , 0.775, 1. ]), cv=None, scoring=None, exploit_incremental_learning=False, n_jobs=1, pre_dispatch='all', verbose=0)
这个函数的作⽤为：对于不同⼤⼩的训练集，确定交叉验证训练和测试的分数。

⼀个交叉验证发⽣器将整个数据集分割k次，分割成训练集和测试集。

不同⼤⼩的训练集的⼦集将会被⽤来训练评估器并且对于每⼀个⼤⼩的训练⼦集都会产⽣⼀个分数，然后测试集的分数也会计算。

然后，对于每⼀个训练⼦集，运⾏k次之后的所有这些分数将会被平均。

estimator：所使⽤的分类器
X:array-like, shape (n_samples, n_features)
训练向量，n_samples是样本的数量，n_features是特征的数量
y:array-like, shape (n_samples) or (n_samples, n_features), optional
⽬标相对于X分类或者回归
train_sizes:array-like, shape (n_ticks,), dtype float or int
训练样本的相对的或绝对的数字，这些量的样本将会⽣成learning curve。

如果dtype是float，他将会被视为最⼤数量训练集的⼀部分（这个由所选择的验证⽅法所决定）。

否则，他将会被视为训练集的绝对尺⼨。

要注意的是，对于分类⽽⾔，样本的⼤⼩必须要充分⼤，达到对于每⼀个分类都⾄少包含⼀个样本的情况。

cv:int, cross-validation generator or an iterable, optional
确定交叉验证的分离策略
--None，使⽤默认的3-fold cross-validation,
--integer,确定是⼏折交叉验证
--⼀个作为交叉验证⽣成器的对象
--⼀个被应⽤于训练/测试分离的迭代器
verbose : integer, optional
控制冗余：越⾼，有越多的信息
返回值：
train_sizes_abs：array, shape = (n_unique_ticks,), dtype int
⽤于⽣成learning curve的训练集的样本数。

由于重复的输⼊将会被删除，所以ticks可能会少于n_ticks.
train_scores : array, shape (n_ticks, n_cv_folds)
在训练集上的分数
test_scores : array, shape (n_ticks, n_cv_folds)
在测试集上的分数。