libsvm简易说明
libsvm参数说明
libsvm参数说明简介libsvm是一个支持向量机(Support Vector Machine,SVM)的软件包,由台湾大学林智仁教授等人开发。
它提供了用于二分类和多分类的高效实现,并支持回归和异常检测。
libsvm的主要优势在于其高效的内存使用和计算速度,尤其适用于处理小到中等规模的数据集。
它支持多种核函数,包括线性核、多项式核、高斯核等,可以灵活地适应不同的数据特征。
在使用libsvm进行机器学习任务时,我们需要了解它的参数设置,以便根据具体情况进行调整,以获得更好的性能。
参数说明-s type这个参数用于设置SVM的类型,即用于解决什么类型的问题。
常用的取值有:•0:C-SVC(用于多分类问题)•1:nu-SVC(用于多分类问题)•2:one-class SVM(用于异常检测问题)•3:epsilon-SVR(用于回归问题)•4:nu-SVR(用于回归问题)-t kernel_type这个参数用于设置核函数的类型。
常用的取值有:•0:线性核函数•1:多项式核函数•2:高斯核函数•3:径向基核函数•4:sigmoid核函数-c cost这个参数用于设置惩罚因子(C)的值。
C越大,对误分类的惩罚越重,容错率越低;C越小,对误分类的惩罚越轻,容错率越高。
-g gamma这个参数用于设置高斯核函数和径向基核函数的gamma值。
gamma越大,决策边界越复杂,容易过拟合;gamma越小,决策边界越简单,容易欠拟合。
-p epsilon这个参数用于设置epsilon-SVR中的epsilon值,表示对于回归问题的容错范围。
epsilon越小,容错范围越小,模型越精确;epsilon越大,容错范围越大,模型越宽松。
-n nu这个参数用于设置nu-SVC、one-class SVM和nu-SVR中的nu值,表示支持向量的比例。
nu越大,支持向量的比例越高,模型越复杂;nu越小,支持向量的比例越低,模型越简单。
libsvm-guide
LIBSVM:a Library for Support Vector MachinesChih-Chung Chang and Chih-Jen LinDepartment of Computer ScienceNational Taiwan University,Taipei,TaiwanEmail:cjlin@.twInitial version:2001Last updated:February10,2011AbstractLIBSVM is a library for support vector machines(SVM).We have been ac-tively developing this package since the year2000.The goal is to help users toeasily apply SVM to their applications.LIBSVM has gained wide popularity inmachine learning and many other areas.In this paper,we present all implemen-tation details of LIBSVM.Issues such as solving SVM optimization problems,theoretical convergence,multi-class classification,probability estimates,andparameter selection are discussed in detail.Keywords:Classification,LIBSVM,optimization,regression,support vector ma-chines,SVM1IntroductionSupport vector machines(SVM)are a popular machine learning method for clas-sification,regression,and other learning tasks.Since the year2000,we have been developing the package LIBSVM as a library for support vector machines.The web ad-dress of the package is at .tw/~cjlin/libsvm.LIBSVM is currently one of the most widely used SVM software.In this paper,1we present all implementation details of LIBSVM.However,this paper does not intend to teach the practical use of LIBSVM.For instructions of using LIBSVM,see the READMEfile included in the package,the LIBSVM FAQ,2and the practical guide by Hsu et al. (2003).LIBSVM supports the following learning tasks:1This LIBSVM implementation document was created in2001and has been maintained at http: //.tw/~cjlin/papers/libsvm.pdf.2LIBSVM FAQ:.tw/~cjlin/libsvm/faq.html.Table1:Representative works in some domains that have successfully used LIBSVM.Domain Representative worksComputer vision LIBPMK(Grauman and Darrell,2005)Natural language processing Maltparser(Nivre et al.,2007)Neuroimaging PyMVPA(Hanke et al.,2009)Bioinformatics BDVal(Dorffet al.,2010)1.SVC:support vector classification(two-class and multi-class)2.SVR:support vector regression3.One-class SVMA typical use of LIBSVM involves two steps:first,training a data set to obtain a model and second,using the model to predict information of a testing data set.For SVC and SVR,LIBSVM can also output probability estimates.Many extensions of LIBSVM are available at libsvmtools.3The LIBSVM package is structured as follows:1.Main directory:core C/C++programs and sample data.In particular,thefilesvm.cpp implements training and testing algorithms,where details are described in this paper.2.The tool sub-directory:this sub-directory includes tools for checking dataformat and for selecting SVM parameters.3.Other sub-directories contain pre-built binaryfiles and interfaces to other lan-guages/software.LIBSVM has been widely used in many areas.From2000to2010,there were more than250,000downloads of the package.In this period,we answered more than 10,000e-mails from users.Table1lists representative works in some domains that have successfully used LIBSVM.This paper is organized as follows.In Section2,we describe SVM formulations supported in LIBSVM:C-support vector classification(C-SVC),ν-support vector classification(ν-SVC),distribution estimation(one-class SVM), -support vector re-gression( -SVR),andν-support vector regression(ν-SVR).Section3then discusses performance measures,basic usage,and code organization.All SVM formulations 3LIBSVM Tools:.tw/~cjlin/libsvmtools.supported in LIBSVM are quadratic minimization problems.We discuss the opti-mization algorithm in Section4.Section5describes two implementation techniques to reduce the running time for minimizing SVM quadratic problems:shrinking and caching.LIBSVM provides some special settings for unbalanced data;details are in Section6.Section7discusses our implementation for multi-class classification. Section8presents how to transform SVM decision values into probability values.Pa-rameter selection is important for obtaining good SVM models.Section9presents a simple and useful parameter selection tool in LIBSVM.Finally,Section10concludes this work.2SVM FormulationsLIBSVM supports various SVM formulations for classification,regression,and distri-bution estimation.In this section,we present these formulations and give correspond-ing references.We also show performance measures used in LIBSVM.2.1C-Support Vector ClassificationGiven training vectors x i∈R n,i=1,...,l,in two classes,and an indicator vector y∈R l such that y i∈{1,−1},C-SVC(Boser et al.,1992;Cortes and Vapnik,1995) solves the following primal optimization problem:min w,b,ξ12w T w+Cli=1ξi(1)subject to y i(w Tφ(x i)+b)≥1−ξi,ξi≥0,i=1,...,l,whereφ(x i)maps x i into a higher dimensional space and C>0is the regularization parameter.Due to the possible high dimensionality of the vector variable w,usually we solve the following dual problem:min α12αT Qα−e Tαsubject to y Tα=0,(2)0≤αi≤C,i=1,...,l,where e=[1,...,1]T is the vector of all ones,Q is an l by l positive semidefinite matrix,Q ij≡y i y j K(x i,x j),and K(x i,x j)≡φ(x i)Tφ(x j)is the kernel function.After problem(2)is solved,using the primal-dual relationship,the optimal wsatisfiesw=li=1y iαiφ(x i)(3)and the decision function issgnw Tφ(x)+b=sgnli=1y iαi K(x i,x)+b.We store y iαi∀i,b,label names,4support vectors,and other information such as kernel parameters in the model for prediction.2.2ν-Support Vector ClassificationTheν-support vector classification(Sch¨o lkopf et al.,2000)introduces a new parameter ν∈(0,1].It is proved thatνan upper bound on the fraction of training errors and a lower bound of the fraction of support vectors.Given training vectors x i∈R n,i=1,...,l,in two classes,and a vector y∈R l such that y i∈{1,−1},the primal optimization problem is:min w,b,ξ,ρ12w T w−νρ+1lli=1ξisubject to y i(w Tφ(x i)+b)≥ρ−ξi,(4)ξi≥0,i=1,...,l,ρ≥0.The dual problem is:min α12αT Qαsubject to0≤αi≤1/l,i=1,...,l,(5)e Tα≥ν,y Tα=0,where Q ij=y i y j K(x i,x j).Chang and Lin(2001)show that problem(5)is feasibleif and only ifν≤2min(#y i=+1,#y i=−1)l≤1,so the usable range ofνis smaller than(0,1].4In LIBSVM,any integer can be a label name,so we map label names to±1by assigning thefirst training instance to have y1=+1.The decision function is:sgn li=1y iαi K(x i,x)+b.It is shown that e Tα≥νcan be replaced by e Tα=ν(Crisp and Burges,2000; Chang and Lin,2001).In LIBSVM,we solve a scaled version of problem(5)because numericallyαi may be too small due to the constraintαi≤1/l:min ¯α12¯αT Q¯αsubject to0≤¯αi≤1,i=1,...,l,(6)e T¯α=νl,y T¯α=0.Ifαis optimal for the dual problem(5)andρis optimal for the primal problem (4),Chang and Lin(2001)show thatα/ρis an optimal solution of C-SVM with C=1/(ρl).Thus,in LIBSVM,we output(α/ρ,b/ρ)in the model.52.3Distribution Estimation(One-class SVM)One-class SVM was proposed by Sch¨o lkopf et al.(2001)for estimating the support of a high-dimensional distribution.Given training vectors x i∈R n,i=1,...,l without any class information,the primal problem of one-class SVM ismin w,ξ,ρ12w T w−ρ+1νlli=1ξisubject to w Tφ(x i)≥ρ−ξi,ξi≥0,i=1,...,l. The dual problem is:min α12αT Qαsubject to0≤αi≤1/(νl),i=1,...,l,(7)e Tα=1,where Q ij=K(x i,x j)=φ(x i)Tφ(x j).The decision function issgn li=1αi K(x i,x)−ρ.5More precisely,solving(6)obtains¯ρ=ρl.Because¯α=lα,we haveα/ρ=¯α/¯ρ.Hence,in LIBSVM,we calculate¯α/¯ρ.Similar to the case ofν-SVC,in LIBSVM,we solve a scaled version of(7):min α12αT Qαsubject to0≤αi≤1,i=1,...,l,(8)e Tα=νl.2.4 -Support Vector Regression( -SVR)Consider a set of training points,{(x1,z1),...,(x l,z l)},where x i∈R n is a feature vector and z i∈R1is the target output.Under given parameters C>0and >0, the standard form of support vector regression(Vapnik,1998)is:min w,b,ξ,ξ∗12w T w+Cli=1ξi+Cli=1ξ∗isubject to w Tφ(x i)+b−z i≤ +ξi,z i−w Tφ(x i)−b≤ +ξ∗i,ξi,ξ∗i≥0,i=1,...,l.The dual problem is:min α,α∗12(α−α∗)T Q(α−α∗)+li=1(αi+α∗i)+li=1z i(αi−α∗i)subject to e T(α−α∗)=0,(9) 0≤αi,α∗i≤C,i=1,...,l,where Q ij=K(x i,x j)≡φ(x i)Tφ(x j).After solving problem(9),the approximate function is:li=1(−αi+α∗i)K(x i,x)+b.In LIBSVM,we outputα∗−αin the model.2.5ν-Support Vector Regression(ν-SVR)Similar toν-SVC,for regression,Sch¨o lkopf et al.(2000)use a parameterν∈(0,1] to control the number of support vectors.The parameter in -SVR becomes aparameter here.With(C,ν)as parameters,ν-SVR solvesmin w,b,ξ,ξ∗, 12w T w+C(ν +1lli=1(ξi+ξ∗i))subject to(w Tφ(x i)+b)−z i≤ +ξi,z i−(w Tφ(x i)+b)≤ +ξ∗i,ξi,ξ∗i≥0,i=1,...,l, ≥0. The dual problem ismin α,α∗12(α−α∗)T Q(α−α∗)+z T(α−α∗)subject to e T(α−α∗)=0,e T(α+α∗)≤Cν,(10)0≤αi,α∗i≤C/l,i=1,...,l.The approximate function isli=1(−αi+α∗i)K(x i,x)+b.Similar toν-SVC,Chang and Lin(2002)show that the inequality e T(α+α∗)≤Cνcan be replaced by an equality.Moreover,C/l may be too small because users often choose C to be a small constant like one.Thus,in LIBSVM,we treat the user-specified regularization parameter as C/l.That is,¯C=C/l is what users specified and LIBSVM solves the following problem:min α,α∗12(α−α∗)T Q(α−α∗)+z T(α−α∗)subject to e T(α−α∗)=0,e T(α+α∗)=¯Clν,0≤αi,α∗i≤¯C,i=1,...,l.Chang and Lin(2002)prove that -SVR with parameters(¯C, )has the same solution asν-SVR with parameters(l¯C,ν).3Performance Measures,Basic Usage,and Code OrganizationThis section describes LIBSVM’s evaluation measures,shows some simple examples of running LIBSVM,and presents the code structure.3.1Performance MeasuresAfter solving optimization problems listed in previous sections,users can apply de-cision functions to predict labels(target values)of testing data.Let x1,...,x¯l be the testing data and f(x1),...,f(x¯l)be decision values(target values for regression) predicted by LIBSVM.If the true labels(true target values)of testing data are known and denoted as y i,...,y¯l,we evaluate the prediction results by the following measures:3.1.1ClassificationAccuracy=#correctly predicted data#total testing data×100%3.1.2RegressionLIBSVM outputs MSE(mean squared error)and r2(squared correlation coefficient):MSE=1¯l¯li=1(f(x i)−y i)2,r2=¯l ¯li=1f(x i)y i−¯li=1f(x i)¯li=1y i2¯l ¯li=1f(x i)2−¯li=1f(x i)2 ¯l¯li=1y2i−¯li=1y i2 .3.2A Simple Example of Running LIBSVMWhile detailed instructions of using LIBSVM are available in the READMEfile of the package and the practical guide by Hsu et al.(2003),here we give a simple example.LIBSVM includes a sample data set heart scale of270instances.We split the data to a training set heart scale.tr(170instances)and a testing set heart scale.te:$python tools/subset.py heart_scale170heart_scale.tr heart_scale.teThe command svm-train solves an SVM optimization problem to produce a model.6$./svm-train heart_scale.tr*optimization finished,#iter=87nu=0.4716456The default solver is C-SVC using the RBF kernel(48)with C=1andγ=1/n.obj=-67.299458,rho=0.203495nSV=88,nBSV=72Total nSV=88Next,the command svm-predict uses the obtained model to classify the testing set:$./svm-predict heart_scale.te heart_scale.tr.model outputAccuracy=83%(83/100)(classification)Thefile output contains predicted class labels.3.3Code OrganizationAll LIBSVM’s training and testing algorithms are implemented in thefile svm.cpp. The two main sub-routines are svm train and svm predict.The training procedure is more sophisticated,so we give the code organization in Figure1.From Figure1,for classification,svm train decouples a multi-class problem to two-class problems(see Section7)and calls svm train one several times.For re-gression and one-class SVM,it directly calls svm train one.The probability outputs for classification and regression are also handled in svm train.Then,according to the SVM formulation,svm train one calls a corresponding sub-routine such as solve c svc for C-SVC and solve nu svc forν-SVC.All solve*sub-routines call the solver Solve after preparing suitable input values.The sub-routine Solve min-imizes a general form of SVM optimization problems;see(11)and(22).Details of the sub-routine Solve are described in Sections4-6.4Solving the Quadratic ProblemsThis section discusses algorithms used in LIBSVM to solve dual quadratic problems listed in Section2.We split the discussion to two parts.Thefirst part considers optimization problems with one linear constraint,while the second part checks those with two linear constraints.svm train svm train onesolve c svc solve nu svcSolve ...Various SVM formulations Two-class SVC,SVR,one-class SVM Main training sub-routine Solving problems (11)and (22)Figure 1:LIBSVM ’s code organization for training.All subroutines are in svm.cpp .4.1Quadratic Problems with One Linear Constraint:C -SVC,-SVR,and One-class SVMWe consider the following general form of C -SVC, -SVR,and one-class SVM:min αf (α)subject toy T α=∆,(11)0≤αt ≤C,t =1,...,l,wheref (α)≡12αT Q α+p T αand y t =±1,t =1,...,l .The constraint y T α=0is called a linear constraint.It can be clearly seen that C -SVC and one-class SVM are already in the form of problem(11).For -SVR,we use the following reformulation of Eq.(9):min α,α∗12 (α∗)T ,αT Q −Q −Q Q α∗α + e T −z T , e T +z T α∗α subject to y T α∗α=0,0≤αt ,α∗t ≤C,t =1,...,l,wherey =[1,...,1 l ,−1,...,−1 l ]T .We do not assume that Q is positive semi-definite (PSD)because sometimes non-PSD kernel matrices are used.4.1.1Decomposition Method for Dual ProblemsThe main difficulty for solving problem(11)is that Q is a dense matrix and may be too large to be stored.In LIBSVM,we consider a decomposition method to conquer this difficulty.Some earlier works on decomposition methods for SVM include,for example,(Osuna et al.,1997a;Joachims,1998;Platt,1998;Keerthi et al.,2001;Hsu and Lin,2002b).Subsequent developments include,for example,(Fan et al.,2005; Palagi and Sciandrone,2005;Glasmachers and Igel,2006).A decomposition method modifies only a subset ofαper iteration,so only some columns of Q are needed.This subset of variables,denoted as the working set B,leads to a smaller optimization sub-problem.An extreme case of the decomposition methods is the Sequential Minimal Optimization(SMO)(Platt,1998),which restricts B to have only two elements. Then,at each iteration,we solve a simple two-variable problem without needing any optimization software.LIBSVM considers an SMO-type decomposition method proposed in Fan et al.(2005).Algorithm1(An SMO-type decomposition method in Fan et al.,2005)1.Findα1as the initial feasible solution.Set k=1.2.Ifαk is a stationary point of problem(2),stop.Otherwise,find a two-elementworking set B={i,j}by WSS1(described in Section4.1.2).Define N≡{1,...,l}\B.LetαkB andαkNbe sub-vectors ofαk corresponding to B and N,respectively.3.If a ij≡K ii+K jj−2K ij>0,7Solve the following sub-problem with the variableαB=[αiαj]T:min αi,αj 12αiαjQ ii Q ijQ ij Q jjαiαj+(p B+Q BNαkN)Tαiαjsubject to0≤αi,αj≤C,(12)y iαi+y jαj=∆−y TN αkN,else7We abbreviate K(x i,x j)to K ij.Letτbe a small positive constant and solvemin αi,αj 12αiαjQ ii Q ijQ ij Q jjαiαj+(p B+Q BNαkN)Tαiαj+τ−a ij4((αi−αki)2+(αj−αkj)2)(13)subject to constraints of problem(12).4.Setαk+1B to be the optimal solution of sub-problem(12)or(13),andαk+1N≡αkN.Set k←k+1and go to Step2.Note that B is updated at each iteration,but for simplicity,we use B instead of B k.If Q is PSD,then a ij>0.Thus sub-problem(13)is used only to handle the situation where Q is non-PSD.4.1.2Stopping Criteria and Working Set SelectionThe Karush-Kuhn-Tucker(KKT)optimality condition of problem(11)implies that a feasibleαis a stationary point of(11)if and only if there exists a number b and two nonnegative vectorsλandξsuch that∇f(α)+b y=λ−ξ,λiαi=0,ξi(C−αi)=0,λi≥0,ξi≥0,i=1,...,l,(14)where∇f(α)≡Qα+p is the gradient of f(α).Note that if Q is PSD,from the primal-dual relationship,ξ,b,and w generated by Eq.(3)form an optimal solution of the primal problem.The condition(14)can be rewritten as∇i f(α)+by i≥0ifαi<C,≤0ifαi>0.(15)Since y i=±1,condition(15)is equivalent to that there exists b such thatm(α)≤b≤M(α),wherem(α)≡maxi∈I up(α)−y i∇i f(α)and M(α)≡mini∈I low(α)−y i∇i f(α),andI up(α)≡{t|αt<C,y t=1orαt>0,y t=−1},andI low(α)≡{t|αt<C,y t=−1orαt>0,y t=1}.That is,a feasible αis a stationary point of problem (11)if and only if m (α)≤M (α).(16)From (16),a suitable stopping condition is:m (αk )−M (αk )≤ ,(17)where is the tolerance.For the selection of the working set B ,we use the following procedure from Section II of Fan et al.(2005).WSS 11.For all t,s ,definea ts ≡K tt +K ss −2K ts ,b ts ≡−y t ∇t f (αk )+y s ∇s f (αk )>0,(18)and¯a ts ≡a ts if a ts >0,τotherwise.Selecti ∈arg max t {−y t ∇t f (αk )|t ∈I up (αk )},j ∈arg min t −b 2it ¯a it|t ∈I low (αk ),−y t ∇t f (αk )<−y i ∇i f (αk ) .(19)2.Return B ={i,j }.The procedure selects a pair {i,j }approximately minimizing the function value;see the term −b 2it /¯ait in Eq.(19).4.1.3Solving the Two-variable Sub-problem Details of solving the two-variable sub-problem in Eqs.(12)and (13)are deferred to Section 6,where a more general sub-problem is discussed.4.1.4Maintaining the GradientFrom the discussion in Sections 4.1.1and 4.1.2,the main operations per iteration are on finding Q BN αk N +p B for constructing the sub-problem (12),and calculating∇f(αk)for the working set selection and the stopping condition.These two opera-tions can be considered together becauseQ BNαkN +p B=∇B f(αk)−Q BBαkB(20)and∇f(αk+1)=∇f(αk)+Q:,B(αk+1B −αkB),(21)where|B| |N|and Q:,B is the sub-matrix of Q including columns in B.If at the k th iteration we already have∇f(αk),then Eq.(20)can be used to construct the sub-problem.After the sub-problem is solved,Eq.(21)is employed to have the next ∇f(αk+1).Therefore,LIBSVM maintains the gradient throughout the decomposition method.4.1.5The Calculation of b orρAfter the solutionαof the dual optimization problem is obtained,the variables b or ρmust be calculated as they are used in the decision function.Note that b of C-SVC and -SVR plays the same role as−ρin one-class SVM,so we defineρ=−b and discuss how tofindρ.If there existsαi such that0<αi<C, then from the KKT condition(16),ρ=y i∇i f(α).In LIBSVM,for numerical stability,we average all these values:ρ=i:0<αi<Cy i∇i f(α) |{i|0<αi<C}|.For the situation that noαi satisfying0<αi<C,the KKT condition(16)becomes −M(α)=max{y i∇i f(α)|αi=0,y i=−1orαi=C,y i=1}≤ρ≤−m(α)=min{y i∇i f(α)|αi=0,y i=1orαi=C,y i=−1}.We takeρthe midpoint of the above range.4.1.6Initial ValuesAlgorithm1requires an initial feasibleα.For C-SVC and -SVR,because the zero vector is feasible,we select it as the initialα.For one-class SVM,the scaled form(8)requires that0≤αi≤1,andli=1αi=νl.We let thefirst νl elements haveαi=1and the( νl +1)st element haveαi=νl− νl .4.1.7Convergence of the Decomposition MethodFan et al.(2005,Section III)and Chen et al.(2006)discuss the convergence of Algo-rithm1in detail.For the rate of linear convergence,List and Simon(2009)prove a result without making the assumption used in Chen et al.(2006).4.2Quadratic Problems with Two Linear Constraints:ν-SVC andν-SVRFrom problems(6)and(10),bothν-SVC andν-SVR can be written as the following general form:min α12αT Qα+p Tαsubject to y Tα=∆1,(22)e Tα=∆2,0≤αt≤C,t=1,...,l.The main difference between problems(11)and(22)is that(22)has two linear constraints y Tα=∆1and e Tα=∆2.The optimization algorithm is very similar to that for(11),so we describe only differences.4.2.1Stopping Criteria and Working Set SelectionLet f(α)be the objective function of problem(22).By the same derivation in Sec-tion4.1.2,The KKT condition of problem(22)implies that there exist b andρsuchthat∇i f(α)−ρ+by i≥0ifαi<C,≤0ifαi>0.(23)Definer1≡ρ−b and r2≡ρ+b.(24) If y i=1,(23)becomes∇i f(α)−r1≥0ifαi<C,≤0ifαi>0.(25)if y i =−1,(23)becomes ∇i f (α)−r 2 ≥0if αi <C,≤0if αi >0.(26)Hence,given a tolerance >0,the stopping condition is:max (m p (α)−M p (α),m n (α)−M n (α))< ,(27)wherem p (α)≡max i ∈I up (α),y i =1−y i ∇i f (α),M p (α)≡min i ∈I low (α),y i =1−y i ∇i f (α),andm n (α)≡max i ∈I up (α),y i =−1−y i ∇i f (α),M n (α)≡mini ∈I low (α),y i =−1−y i ∇i f (α).The following working set selection is extended from WSS 1:WSS 2(Extension of WSS 1for ν-SVM)1.Findi p ∈arg m p (αk ),j p ∈arg min t−b 2i p t ¯a i p t |y t =1,αt ∈I low (αk ),−y t ∇t f (αk )<−y i p ∇i p f (αk ) .2.Findi n ∈arg m n (αk ),j n ∈arg min t −b 2i n t ¯a i n t|y t =−1,αt ∈I low (αk ),−y t ∇t f (αk )<−y i n ∇i n f (αk ) .3.Return {i p ,j p }or {i n ,j n }depending on which one gives smaller −b 2ij /¯aij .4.2.2The Calculation of b and ρWe have shown that the KKT condition of problem (22)implies Eqs.(25)and (26)according to y i =1and −1,respectively.Now we consider the case of y i =1.If there exists αi such that 0<αi <C ,then we obtain r 1=∇i f (α).In LIBSVM ,for numerical stability,we average these values:r 1= i :0<αi <C,y i =1∇i f (α)|{i |0<αi <C,y i =1}|.If there is no αi such that 0<αi <C ,then r 1satisfiesmax αi =C,y i =1∇i f (α)≤r 1≤min αi =0,y i =1∇i f (α).We take r1the midpoint of the above range.For the case of y i=−1,we can calculate r2in a similar way.After r1and r2are obtained,from Eq.(24),ρ=r1+r22and−b=r1−r22.4.2.3Initial ValuesForν-SVC,the scaled form(6)requires that0≤αi≤1,i:y i=1αi=νl2,andi:y i=−1αi=νl2.We let thefirstνl/2elements ofαi with y i=1to have the value one.8The situation for y i=−1is similar.The same setting is applied toν-SVR.5Shrinking and CachingThis section discusses two implementation tricks(shrinking and caching)for the de-composition method and investigates the computational complexity of Algorithm1.5.1ShrinkingAn optimal solutionαof the SVM dual problem may contain some bounded elements (i.e.,αi=0or C).These elements may have already been bounded in the middle of the decomposition iterations.To save the training time,the shrinking technique tries to identify and remove some bounded elements,so a smaller optimization problem is solved(Joachims,1998).The following theorem theoretically supports the shrinking technique by showing that at thefinal iterations of Algorithm1in Section4.1.2,only a small set of variables is still changed:Theorem5.1(Theorem IV in Fan et al.,2005)Consider problem(11)and as-sume Q is positive semi-definite.1.The following set is independent of any optimal solution¯α:I≡{i|−y i∇i f(¯α)>M(¯α)or−y i∇i f(¯α)<m(¯α)}.Further,for every i∈I,problem(11)has a unique and bounded optimal solution atαi.8Special care must be made asνl/2may not be an integer.See also Section4.1.6.2.Assume Algorithm1generates an infinite sequence{αk}.There exists¯k suchthat after k≥¯k,everyαki,i∈I has reached the unique and bounded optimalsolution.That is,αkiremains the same in all subsequent iterations.In addition,∀k≥¯k:i∈{t|M(αk)≤−y t∇t f(αk)≤m(αk)}.If we denote A as the set containing elements not shrunk at the k th iteration, then instead of solving problem(11),the decomposition method works on a smaller problem:min αA 12αTAQ AAαA+(p A+Q ANαkN)TαAsubject to0≤αi≤C,∀i∈A,(28)y T A αA=∆−y TNαkN,where N={1,...,l}\A is the set of shrunk variables.Note that in LIBSVM,we always rearrange elements ofα,y,and p to maintain that A={1,...,|A|}.Details of the index rearrangement are in Section5.4.After solving problem(28),we mayfind that some elements are wrongly shrunk. When that happens,the original problem(11)is reoptimized from a starting point α=[αAαN],whereαA is optimal for problem(28)andαN corresponds to shrunk bounded variables.In LIBSVM,we start the shrinking procedure in an early stage.The procedure is as follows:1.After every min(l,1000)iterations,we try to shrink some variables.Note thatthroughout the iterative process,we havem(αk)>M(αk)(29) because the condition(17)is not satisfied yet.Following Theorem5.1,we conjecture that variables in the following set can be shrunk:{t|−y t∇t f(αk)>m(αk),t∈I low(αk),αktis bounded}∪{t|−y t∇t f(αk)<M(αk),t∈I up(αk),αktis bounded}={t|−y t∇t f(αk)>m(αk),αkt =C,y t=1orαkt=0,y t=−1}∪{t|−y t∇t f(αk)<M(αk),αkt =0,y t=1orαkt=C,y t=−1}.(30)Thus,the size of the set A is gradually reduced in every min(l,1000)iterations. The problem(28),and the way of calculating m(αk)and M(αk)are adjusted accordingly.2.The above shrinking strategy is sometimes too aggressive.Hence,when thedecomposition method achieves the following condition for thefirst time:m(αk)≤M(αk)+10 ,(31)where is the specified stopping tolerance,we reconstruct the gradient(details in Section5.3).Then,the shrinking procedure can be performed based on more accurate information.3.Once the stopping conditionm(αk)≤M(αk)+ (32)of the smaller problem(28)is reached,we must check if the stopping condition of the original problem(11)has been satisfied.If not,then we reactivate all variables by setting A={1,...,l}and start the same shrinking procedure on the problem(28).Note that in solving the shrunk problem(28),we only maintain its gradient Q AAαA+Q ANαN+p A(see also Section4.1.4).Hence,when we reactivate all variables to reoptimize the problem(11),we must reconstruct the whole gradient∇f(α).Details are discussed in Section5.3.Forν-SVC andν-SVR,because the stopping condition(27)is different from(17), variables being shrunk are different from those in(30).For y t=1,we shrink elements in the following set{t|−y t∇t f(αk)>m p(αk),αt=C,y t=1}∪{t|−y t∇t f(αk)<M p(αk),αt=0,y t=1}.For y t=−1,we consider the following set:{t|−y t∇t f(αk)>m n(αk),αt=0,y t=−1}∪{t|−y t∇t f(αk)<M n(αk),αt=C,y t=−1}.5.2CachingCaching is an effective technique for reducing the computational time of the decompo-sition method.Because Q may be too large to be stored in the computer memory,Q ij elements are calculated as needed.We can use available memory(called kernel cache) to store some recently used Q ij(Joachims,1998).Then,some kernel elements may。
LibSvm 使用说明 学习心得
LibSvm 使用说明学习心得(本页内容来自互联网,如果对您的利益造成侵害,请通知我,我会立即删除!)View this tutorial in: English Only TraditionalChinese Only Both (Default) (req. JavaScript if you want to switch languages)Core StyleSheets: Chocolate Midnight Modernist Oldstyle Steely Swiss Traditional Ultramarine* This document is written in multilingual format. We strongly suggest that you choose your language first to get a better display.piaip's Using (lib)SVM Tutorial piaip 的 (lib)SVM 简易入门piaip at csie dot ntu dot edu dot tw,Hung-Te LinFri Apr 18 15:04:53 CST 2003$Id: svm_tutorial.html,v 1.12 2005/10/26 06:12:40 piaip Exp piaip $ 原作:林弘德,转载请保留原出处Why this tutorial is here我一直觉得 SVM 是个很有趣的东西,不过也一直没办法 (mostly 冲堂 ) 去听林智仁老师的 Data mining 跟 SVM 的课;后来看了一些网络上的文件跟听 kcwu 讲了一下libsvm 的用法后,就想整理一下,算是对于并不需要知道完整 SVM 理论的人提供使用libsvm 的入门。
原始 libsvm 的 README 跟 FAQ 也是很好的文件,不过你可能要先对 svm 跟流程有点了解才看得懂 ( 我在看时有这样的感觉 ) ;这篇入门就是为了从零开始的人而写的。
libsvm使用说明
Libsvm是一个简单,易于使用和高效的SVM软件分类和回归。
它解决了C-SVM分类,nu-SVM分类,一类SVM,ε-SVM回归和nu-SVM回归。
它还提供了一个自动模型选择工具C-SVM分类。
本文档介绍了libsvm的使用。
Libsvm可在.tw/~cjlin/libsvm在使用libsvm之前,请先阅读COPYRIGHT文件。
目录=================- 快速开始- 安装和数据格式- `svm-train'用法- `svm-predict'用法- `svm-scale'用法- 实用技巧- 例子- 预先计算的内核- 图书馆使用- Java版本- 构建Windows二进制文件- 附加工具:子采样,参数选择,格式检查等- MATLAB / OCTAVE接口- Python接口- 附加信息快速开始===========如果您是SVM的新手,如果数据不大,请转到`tools'目录,并在安装后使用easy.py。
它是一切都是自动的- 从数据缩放到参数选择。
用法:easy.py training_file [testing_file]有关参数选择的更多信息,请参见`工具/自述文件'。
安装和数据格式============================在Unix系统上,键入`make'来构建`svm-train'和`svm-predict'程式。
运行他们没有参数,以显示他们的用法。
在其他系统上,请参阅“Makefile”来构建它们(例如,在此文件中构建Windows二进制文件)或使用预构建的二进制文件(Windows二进制文件位于目录“windows”中)。
培训和测试数据文件的格式是:<label> <index1>:<value1> <index2>:<value2> ...。
libsvm参数说明
libsvm参数说明(实用版)目录1.引言2.LIBSVM 简介3.LIBSVM 参数说明4.使用 LIBSVM 需要注意的问题5.结束语正文1.引言支持向量机(Support Vector Machine, SVM)是一种非常强大和灵活的监督学习算法,它可以用于分类和回归任务。
在 SVM 的研究和应用中,LIBSVM 是一个非常重要的工具,它为 SVM 的实现和应用提供了强大的支持。
本文将对 LIBSVM 的参数进行详细的说明,以帮助读者更好地理解和使用这个工具。
2.LIBSVM 简介LIBSVM 是一个开源的 SVM 实现库,它提供了丰富的功能和接口,可以支持多种操作系统,包括 Windows、Linux 和 Mac OS 等。
LIBSVM 主要包括三个部分:svm-train、svm-predict 和 svm-plot。
svm-train 用于训练 SVM 模型,svm-predict 用于预测新数据,svm-plot 用于绘制各种图表,以便于观察和分析模型性能。
3.LIBSVM 参数说明LIBSVM 的参数设置对于模型的性能至关重要。
以下是一些常用的参数及其说明:- -train:用于指定训练数据的文件名。
- -test:用于指定测试数据的文件名。
- -model:用于指定模型文件的名称。
- -参数:用于设置 SVM 模型的参数,例如 C、核函数等。
- -cache-size:用于设置缓存大小,以加速训练过程。
- -tolerance:用于设置收敛阈值,控制训练过程的终止条件。
- -shrinking:用于设置是否使用启发式方法进行训练。
- -probability:用于设置是否计算预测概率。
4.使用 LIBSVM 需要注意的问题在使用 LIBSVM 时,需要注意以下问题:- 设置合适的参数:LIBSVM 的参数设置对模型性能有很大影响,需要根据具体问题和数据集进行调整。
- 特征选择:在实际应用中,特征选择对于模型性能至关重要。
LIBSVM使用方法
LIBSVM1 LIBSVM简介LIBSVM是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在Windows 系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件还有一个特点,就是对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数就可以解决很多问题;并且提供了交互检验(Cross -SVM回归等问题,包括基于一对一算法的多类模式识别问题。
SVM用于模式识别或回归时,SVM方法及其参数、核函数及其参数的选择,目前国际上还没有形成一个统一的模式,也就是说最优SVM算法参数选择还只能是凭借经验、实验对比、大范围的搜寻或者利用软件包提供的交互检验功能进行寻优。
ν-SVM回归和ε-SVM分类、νValidation)的功能。
该软件包可以在.tw/~cjlin/免费获得。
该软件可以解决C-SVM分类、-SVM回归等问题,包括基于一对一算法的多类模式识别问题。
SVM用于模式识别或回归时,SVM方法及其参数、核函数及其参数的选择,目前国际上还没有形成一个统一的模式,也就是说最优SVM算法参数选择还只能是凭借经验、实验对比、大范围的搜寻或者利用软件包提供的交互检验功能进行寻优。
2 LIBSVM使用方法LibSVM是以源代码和可执行文件两种方式给出的。
如果是Windows系列操作系统,可以直接使用软件包提供的程序,也可以进行修改编译;如果是Unix类系统,必须自己编译,软件包中提供了编译格式文件,我们在SGI工作站(操作系统IRIX6.5)上,使用免费编译器GNU C++3.3编译通过。
2.1 LIBSVM 使用的一般步骤:1) 按照LIBSVM软件包所要求的格式准备数据集;2) 对数据进行简单的缩放操作;3) 考虑选用RBF 核函数;4) 采用交叉验证选择最佳参数C与g;5) 采用最佳参数C与g 对整个训练集进行训练获取支持向量机模型;6) 利用获取的模型进行测试与预测。
libsvm参数说明
libsvm参数说明摘要:一、libsvm 简介- 什么是libsvm- libsvm 的作用二、libsvm 参数说明- 参数分类- 参数详细说明- 核函数参数- 松弛参数- 惩罚参数- 迭代次数参数- 其他参数三、libsvm 参数调整- 参数调整的重要性- 参数调整的方法正文:【libsvm 简介】libsvm 是一款广泛应用于机器学习领域的开源软件,全称是“LIBSVM”,它提供了支持向量机(SVM)的完整实现,可以用于分类和回归等多种任务。
libsvm 不仅支持常见的数据集格式,还提供了丰富的API 接口,方便用户进行二次开发和应用。
libsvm 的主要作用是帮助用户解决高维数据分类和回归问题。
在面对高维数据时,传统的分类算法可能会遇到“维数灾难”,导致分类效果不佳。
而libsvm 通过使用核函数技术,将高维数据映射到低维空间,从而有效地解决了这个问题。
【libsvm 参数说明】libsvm 提供了丰富的参数供用户调整,以达到最佳分类效果。
这些参数主要分为以下几类:1.核函数参数:包括核函数类型(如线性核、多项式核、径向基函数核等)和核函数参数(如径向基函数核的核径宽)。
2.松弛参数:用于控制分类间隔的大小,对最终分类结果有一定影响。
3.惩罚参数:控制模型对误分类的惩罚力度,对分类效果有重要影响。
4.迭代次数参数:控制支持向量机算法的迭代次数,影响模型的收敛速度。
5.其他参数:如学习率、最小化目标函数的迭代次数等。
【libsvm 参数调整】参数调整是libsvm 使用过程中非常重要的一环,合适的参数设置可以使模型达到更好的分类效果。
参数调整的方法主要有以下几种:1.网格搜索法:通过遍历参数空间的各个点,找到最佳参数组合。
这种方法适用于参数空间较小的情况。
2.随机搜索法:在参数空间中随机选取一定数量的点进行遍历,找到最佳参数组合。
这种方法适用于参数空间较大,且网格搜索法效果不佳的情况。
3.贝叶斯优化法:利用贝叶斯理论,对参数进行加权调整,以提高搜索效率。
libsvm使用说明_光环大数据培训机构
libsvm使用说明_光环大数据培训机构libsvm简介LIBSVM 是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的 SVM 模式识别与回归的软件包,他不但提供了编译好的可在 Windows 系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它操作系统上应用;该软件还有一个特点,就是对 SVM 所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数就可以解决很多问题;并且提供了交互检验(Cross-SVM回归等问题,包括基于一对一算法的多类模式识别问题。
SVM 用于模式识别或回归时, SVM方法及其参数、核函数及其参数的选择,目前国际上还没有形成一个统一的模式,也就是说最优 SVM 算法参数选择还只能是凭借经验、实验对比、大范围的搜寻或者利用软件包提供的交互检验功能进行寻优的功能。
该软件包可以在.tw/~cjlin/免费获得。
——简介摘录自《LIBSVM使用方法.pdf》libsvm编译安装以Java版为例,下载libsvm-3.20.zip后,从java目录中得到全部源码,其他不以.java结尾的都是无关的文件。
新建Maven项目,或者直接clone我的Maven repository,项目结构如图:数据集获取数据集libsvm-3.20.zip中附带了一个heart_scale数据集,其主页上也提供了很多数据集,我整理了三个作为例子:数据集格式libsvm每行使用的格式如下:<label> <index1>:<value1> <index2>:<value2> …label为类别标号,index为特征序号,value为特征的值value为0时该项可以省略(大规模数据时节省存储空间)比如dataset/iris.scale.txt:1 1:-0.555556 2:0.5 3:-0.694915 4:-0.753 1:-0.166667 2:-0.333333 3:0.38983 4:0.9166672 1:-0.333333 2:-0.75 3:0.0169491 4:-4.03573e-081 1:-0.833333 3:-0.864407 4:-0.9166671 1:-0.611111 2:0.0833333 3:-0.864407 4:-0.9166673 1:0.611111 2:0.333333 3:0.728813 4:13 1:0.222222 3:0.38983 4:0.5833332 1:0.222222 2:-0.333333 3:0.220339 4:0.1666672 1:-0.222222 2:-0.333333 3:0.186441 4:-4.03573e-08…这是(UCI / Iris Plant, 4 features, 3 classes)提供的数据集,一共4个特征,3种类:1. sepal length in cm2. sepal width in cm3. petal length in cm4. petal width in cm5. class:— Iris Setosa— Iris Versicolour— Iris Virginica分别描述了3种鸢尾花。
libsvm参数说明
libsvm参数说明【原创版】目录1.概述2.安装与配置3.参数说明4.应用实例5.总结正文1.概述LIBSVM 是一个开源的支持向量机(SVM)算法库,它可以在多种平台上运行,包括 Windows、Linux 和 Mac OS。
LIBSVM 提供了一系列用于解决分类和回归问题的工具和算法,它的核心是基于序列最小化算法的支持向量机。
2.安装与配置在使用 LIBSVM 之前,需要先安装它。
在 Windows 平台上,可以直接下载LIBSVM 的二进制文件,然后设置环境变量。
对于 Linux 和 Mac OS 平台,需要先安装相应的依赖库,然后编译并安装 LIBSVM。
在安装完成后,需要配置 LIBSVM 的参数,包括选择核函数、设置惩罚参数等。
这些参数对于支持向量机的性能至关重要,需要根据实际问题进行调整。
3.参数说明LIBSVM 的参数主要包括以下几个方面:- 核函数:LIBSVM 支持多种核函数,包括线性核、多项式核、径向基函数(RBF)核和 Sigmoid 核。
核函数的选择取决于问题的性质,需要根据实际问题进行选择。
- 惩罚参数:惩罚参数用于控制模型的复杂度,避免过拟合。
惩罚参数的取值范围是 0 到 1,取值越小,模型的复杂度越高,过拟合的风险也越高。
- 迭代次数:迭代次数用于控制算法的收敛速度,取值越大,收敛速度越快,但可能会影响模型的精度。
- 随机种子:随机种子用于生成随机数,影响模型的初始化和迭代过程。
在实际应用中,建议设置随机种子,以保证模型的可重复性。
4.应用实例LIBSVM 在实际应用中可以用于多种问题,包括分类、回归和排序等。
例如,在人脸检测、车牌识别和文本分类等问题中,可以使用 LIBSVM 来实现支持向量机算法。
5.总结LIBSVM 是一个功能强大的支持向量机库,它提供了多种核函数和参数设置,可以用于解决多种实际问题。
第1页共1页。
LibSVM_快速入门
"./testData/test.1.txt" "train.1_mode.txt" "test1.result.txt“
接口调用:
C, Python, java各有一套接口
Thanks
Q&A
Gnuplot:复制到本地,不需安装 \\192.168.0.135\public\DST\共享资源\工具 \gp426win32 Python: \\192.168.0.135\public\DST\共享资源\工具\pyhton-2.6.2.msi
SVM训练工具svm-train.exe
对所有数据使用同一组参数 量纲相同则不使用该归一化
示例:
>"./libsvm-2.91/windows/svm-scale.exe" -l -1 -u 1 -s "./scale_param.txt" "./trainData/train.1.txt" >"./train.1_scale.txt" >"./libsvm-2.91/windows/svm-scale.exe" -l -1 -u 1 -r "./scale_param.txt" "./testData/test.1.txt" >"./test.1_scale.txt“
LibSVM训练
参数选择:
c, g是SVM训练阶段需要指定的的参数.
这个选择不是人能做on 脚本),可以自动搜索最佳的c,g.
示例: "./libsvm-2.91/tools/grid.py" -svmtrain "E:/分类聚类实践/LibSVM/libsvm2.91/windows/svm-train.exe" -gnuplot "E:/Downloads/gp426win32/gnuplot/bin/pgnuplot.exe" -v 10 "E:/分类聚类实践 /LibSVM/Train.1_scale.txt" 支持:grid.py需要gnuplot 和python支持(available from )
libsvm使用说明
libSVM的使用文档11. 程序介绍和环境设置windows下的libsvm是在命令行运行的Console Program。
所以其运行都是在windows的命令行提示符窗口运行(运行,输入cmd)。
运行主要用到的程序,由如下内容组成:libsvm-2.9/windows/文件夹中的:svm-train.exesvm-predict.exesvm-scale.exelibsvm-2.9/windows/文件夹中的:checkdata.pysubset.pyeasy.pygrid.py另外有:svm-toy.exe,我暂时知道的是用于演示svm分类。
其中的load按钮的功能,是否能直接载入数据并进行分类还不清楚,尝试没有成功;python文件夹及其中的svmc.pyd,暂时不清楚功能。
因为程序运行要用到python脚本用来寻找参数,使用gnuplot来绘制图形。
所以,需要安装python和Gnuplot。
(Python v3.1 Final可从此下载:/detail/33/320958.shtml)(gnuplot可从其官网下载:)为了方便,将gnuplot的bin、libsvm-2.9/windows/加入到系统的path中,如下:gnuplot.JPGlibsvm.JPG这样,可以方便的从命令行的任何位置调用gnuplot和libsvm的可执行程序,如下调用svm-train.exe:pathtest.JPG出现svm-train程序中的帮助提示,说明path配置成功。
至此,libsvm运行的环境配置完成。
下面将通过实例讲解如何使用libsvm进行分类。
2. 使用libsvm进行分类预测我们所使用的数据为UCI的iris数据集,将其类别标识换为1、2、3。
然后,取3/5作为训练样本,2/5作为测试样本。
使用论坛中“将UCI数据转变为LIBSVM使用数据格式的程序”一文将其转换为libsvm所用格式,如下:训练文件tra_iris.txt1 1:5.4 2:3.4 3:1.7 4:0.21 1:5.1 2:3.7 3:1.5 4:0.41 1:4.6 2:3.6 3:1 4:0.21 1:5.1 2:3.3 3:1.7 4:0.51 1:4.8 2:3.4 3:1.9 4:0.2……2 1:5.9 2:3.2 3:4.8 4:1.82 1:6.1 2:2.8 3:4 4:1.32 1:6.3 2:2.5 3:4.9 4:1.52 1:6.1 2:2.8 3:4.7 4:1.22 1:6.4 2:2.9 3:4.3 4:1.3……3 1:6.9 2:3.2 3:5.7 4:2.33 1:5.6 2:2.8 3:4.9 4:23 1:7.7 2:2.8 3:6.7 4:23 1:6.3 2:2.7 3:4.9 4:1.83 1:6.7 2:3.3 3:5.7 4:2.13 1:7.2 2:3.2 3:6 4:1.8……测试文件tes_iris.txt1 1:5.1 2:3.5 3:1.4 4:0.21 1:4.9 2:3 3:1.4 4:0.21 1:4.7 2:3.2 3:1.3 4:0.21 1:4.6 2:3.1 3:1.5 4:0.21 1:5 2:3.6 3:1.4 4:0.21 1:5.4 2:3.9 3:1.7 4:0.4……2 1:7 2:3.2 3:4.7 4:1.42 1:6.4 2:3.2 3:4.5 4:1.52 1:6.9 2:3.1 3:4.9 4:1.52 1:5.5 2:2.3 3:4 4:1.32 1:6.5 2:2.8 3:4.6 4:1.5……3 1:6.3 2:3.3 3:6 4:2.53 1:5.8 2:2.7 3:5.1 4:1.93 1:7.1 2:3 3:5.9 4:2.13 1:6.3 2:2.9 3:5.6 4:1.83 1:6.5 2:3 3:5.8 4:2.2……libsvm的参数选择一直是令人头痛的问题。
svm简单明了的入门级使用教程(转载)
svm简单明了的⼊门级使⽤教程(转载)这帖⼦就是初步教教刚接触libsvm(svm)的同学如何利⽤libsvm进⾏分类预测,关于参数寻优的问题在这⾥姑且不谈,另有帖⼦详述。
其实使⽤libsvm进⾏分类很简单,只需要有属性矩阵和标签,然后就可以建⽴分类模型(model),然后利⽤得到的这个model进⾏分类预测了。
那神马是属性矩阵?神马⼜是标签呢?我举⼀个直⽩的不能在直⽩的例⼦:说⼀个班级⾥⾯有两个男⽣(男⽣1、男⽣2),两个⼥⽣(⼥⽣1、⼥⽣2),其中男⽣1 ⾝⾼:176cm 体重:70kg;男⽣2 ⾝⾼:180cm 体重:80kg;⼥⽣1 ⾝⾼:161cm 体重:45kg;⼥⽣2 ⾝⾼:163cm 体重:47kg;如果我们将男⽣定义为1,⼥⽣定义为-1,并将上⾯的数据放⼊矩阵data中,即1. data = [176 70;2. 180 80;3. 161 45;4. 163 47];复制代码在label中存⼊男⼥⽣类别标签(1、-1),即1. label = [1;1;-1;-1];复制代码这样上⾯的data矩阵就是⼀个属性矩阵,⾏数4代表有4个样本,列数2表⽰属性有两个,label就是标签(1、-1表⽰有两个类别:男⽣、⼥⽣)。
Remark:这⾥有⼀点废话⼀些(因为我看到不⽌⼀个朋友问我这个相关的问题):上⾯我们将男⽣定义为1,⼥⽣定义为-1,那定义成别的有影响吗?这个肯定没有影响啊!(⽤脚趾头都能想出来,我不知道为什么也会有⼈问),这⾥⾯的标签定义就是区分开男⽣和⼥⽣,怎么定义都可以的,只要定义成数值型的就可以。
⽐如我可将将男⽣定义为2,⼥⽣定义为5;后⾯的label相应为label=[2;2;5;5];⽐如我可将将男⽣定义为18,⼥⽣定义为22;后⾯的label相应为label=[18;18;22;22];为什么我说这个⽤脚趾头都能想怎么定义都可以呢?学过数学的应该都会明⽩,将男⽣定义为1,⼥⽣定义为-1和将男⽣定义为2,⼥⽣定义为5本质是⼀样的,应为可以找到⼀个映射将(2,5)转换成(1,-1),so所以本质都是⼀样的,后⾯的18、22本质也是⼀样的。
LibSVM使用的简单介绍
LIBSVM使用的详细说明一、基本介绍LIBSVM是台湾大学林智仁教授2001年开发的一套支持向量机的库,运算速度快,可以很方便的对数据做分类或回归。
由于LIBSVM程序小,运用灵活,输入参数少,并且是开源的,易于扩展,因此成为目前国内应用最多的SVM的库。
这套库目前已经发展到2.9版。
主要有5个文件夹和一些c++源码文件。
Java主要是应用于java平台;Python是用来参数优选的工具,稍后介绍;svm-toy是一个可视化的工具,用来展示训练数据和分类界面,里面是源码,其编译后的程序在windows文件夹下;tools—主要包含四个python文件,用来数据集抽样(subset),参数优选(grid),集成测试(easy), 数据检查(check data);windows包含libSVM四个exe程序包,我们所用的库就是他们。
其中svm-scale.exe是用来对原始样本进行缩放的;svm-train.exe主要实现对训练数据集的训练,并可以获得SVM模型;svmpredict 是根据训练获得的模型,对数据集合进行预测。
还有一个svm-toy.exe之前已经交待过,是一个可视化工具。
里面还有个heart_scale,是一个样本文件,可以用记事本打开,用来测试用的。
二、LIBSVM的使用规范1. libSVM的数据格式Label 1:value 2:value …Label是类别的标识,比如上节train.model中提到的1 -1,你可以自己随意定,比如-10,0,15。
如果是回归,这是目标值,就要实事求是了。
Value就是要训练的数据,从分类的角度来说就是特征值,数据之间用空格隔开,比如:-15 1:0.708 2:1056 3:-0.3333需要注意的是,如果特征值为0,特征冒号前面的(姑且称做序号)可以不连续。
如:-15 1:0.708 3:-0.3333表明第2个特征值为0,从编程的角度来说,这样做可以减少内存的使用,并提高做矩阵内积时的运算速度。
LIBSVM的简单介绍
LIBSVM的简单介绍2006-09-20 15:59:481. LIBSVM 软件包简介LIBSVM 是台湾大学林智仁(Chih-Jen Lin)博士等开发设计的一个操作简单、易于使用、快速有效的通用SVM 软件包,可以解决分类问题(包括C- SVC、n - SVC )、回归问题(包括e - SVR、n - SVR )以及分布估计(one-class-SVM )等问题,提供了线性、多项式、径向基和S形函数四种常用的核函数供选择,可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。
LIBSVM 是一个开源的软件包,需要者都可以免费的从作者的个人主页.tw/~cjlin/处获得。
他不仅提供了LIBSVM的C++语言的算法源代码,还提供了Python、Java、R、MATLAB、Perl、Ruby、LabVIEW以及C#.net 等各种语言的接口,可以方便的在Windows 或UNIX 平台下使用。
另外还提供了WINDOWS 平台下的可视化操作工具SVM-toy,并且在进行模型参数选择时可以绘制出交叉验证精度的等高线图。
2. LIBSVM 使用方法简介LibSVM是以源代码和可执行文件两种方式给出的。
如果是Windows系列操作系统,可以直接使用软件包提供的程序,也可以进行修改编译;如果是Unix类系统,必须自己编译。
LIBSVM 在给出源代码的同时还提供了Windows操作系统下的可执行文件,包括:进行支持向量机训练的svmtrain.exe;根据已获得的支持向量机模型对数据集进行预测的svmpredict.exe;以及对训练数据与测试数据进行简单缩放操作的svmscale.exe。
它们都可以直接在DOS 环境中使用。
如果下载的包中只有C++的源代码,则也可以自己在VC等软件上编译生成可执行文件。
3. LIBSVM 使用的一般步骤是:1)按照LIBSVM软件包所要求的格式准备数据集;2)对数据进行简单的缩放操作;3)考虑选用RBF 核函数;4)采用交叉验证选择最佳参数C与g ;5)采用最佳参数C与g 对整个训练集进行训练获取支持向量机模型;6)利用获取的模型进行测试与预测。
libsvm函数库使用说明
libsvm函数库使用说明本文大部分来自Felomeng的翻译,原文是《Felomeng翻译:libsvm2.88之函数库的使用》。
2.88版本的README文件和libsvm3.0的README文件差不多,3.0版本的README见这里:/4001-libsvm3.0_READMELibrary Usage=============这些函数和结构都在头文件“svm.h”中有声名。
你需要在你的C/C++源文件中添加#include “svm.h”语句,在连接时需要将你的程序与svm.cpp连接。
具体使用方法可以参考“svm-train.c”和“svm-predict.c”的使用示例。
在文件svm.h中使用LIBSVM_VERSION定义了版本号,以便读者查阅。
在对测试数据进行分类之前,需要先使用训练数据建立一个支持向量模型。
模型可以以文件的形式存储以备以后使用。
一旦建立好了支持向量机模型,就可以用它来对新的数据进行分类了。
-函数:struct svm_model *svm_train(const struct svm_problem *prob, const struct svm_parameter *param);这个函数根据给定的参数和训练数据构建并返回一个支持向量机模型。
结构体svm_problem将问题形式化:struct svm_problem{int l;double *y;struct svm_node **x;};其中“l”表示训练数据的实例数,而“y”是一个数组,用于存放它们的目标值。
(类型值用整型数据,回归值用实数)“x”是一个数组指针,每一个指针指向一个稀疏的训练向量(即一个svm_node数组)。
例如,如果我们有如下的训练数据:LABEL ATTR1 ATTR2 ATTR3 ATTR4 ATTR5----- ----- ----- ----- ----- -----1 0 0.1 0.2 0 02 0 0.1 0.3 -1.2 01 0.4 0 0 0 02 0 0.1 0 1.4 0.53 -0.1 -0.2 0.1 1.1 0.1于是svm_problem的构成如下:l = 5y -> 1 2 1 2 3x -> [ ] -> (2,0.1) (3,0.2) (-1,?)[ ] -> (2,0.1) (3,0.3) (4,-1.2) (-1,?)[ ] -> (1,0.4) (-1,?)[ ] -> (2,0.1) (4,1.4) (5,0.5) (-1,?)[ ] -> (1,-0.1) (2,-0.2) (3,0.1) (4,1.1) (5,0.1) (-1,?)其中(索引,值)存储在结构“svm_node”中:struct svm_node{int index;double value;};当索引为-1时表示已经到达向量的末端。
使用libsvm对MNIST数据集进行实验---浅显易懂!
使⽤libsvm对MNIST数据集进⾏实验---浅显易懂!在学SVM中的实验环节,⽼师介绍了libsvm的使⽤。
当时看完之后感觉简单的说不出话来。
1. libsvm介绍虽然原理要求很⾼的数学知识等,但是libsvm中,完全就是⼀个⼯具包,拿来就能⽤。
当时问了好⼏遍⽼师,公司⾥做svm就是这么简单的?敲⼏个命令⾏就可以了。
貌似是这样的。
当然,在⼤数据化的背景下,还会有⽐如:并⾏SVM、多核函数SVM等情况的研究和应⽤。
实验环节⽼师给的数据很简单,也就1000个数据点,使⽤svm进⾏分类。
没有太多好说的。
于是⾃⼰想要试试做⼿写字体分类检测,类似于⾏车违章拍照后的车牌识别。
从⽹上搜到了数据集为MNIST数据集,是⼀个⼊门的基本数据集。
关于libsvm的介绍和使⽤参考:。
不过,svm-toy是最多⽀持三分类的,⽽不是只是⼆分类。
使⽤windows⽂件夹下的svm-train.exe,svm-predict.exe命令可以来进⾏建模和预测,具体参数看⽂档。
svm-train的主要可选参数有:-s 选择SVM类型。
⼀般选的是C-SVM-c 选择松弛变量的权重系数。
C越⼤,对松弛变量的惩罚越⼤,两个⽀持向量直线之间的间隔就越⼩,模型就越精确苛刻,对噪声数据点容忍⼩,越容易过拟合;C越⼩,两个⽀持向量直线之间的距离越⼤,对噪声的容忍能⼒就越⼤,最终效果越好。
但是,模型分错的数据点就越多,容易⽋拟合。
-t 选择核函数。
⼀般是线性和RBF做对⽐,线性速度更快,但要求数据可分;RBF更通⽤,默认选择RBF。
-g garma系数。
是exp(-gamma*|u-v|^2),相当于gamma=1/(2τ^2)。
τ表⽰⾼斯函数中的宽度,g与τ成反⽐。
g越⼤,τ越⼩,则⾼斯函数越窄,覆盖⾯积⼩,这样需要的⽀持向量越多,模型越复杂,容易过拟合。
-wi 对样本分类的权重分配。
因为,在分类中,某些分类可能更加重要。
-v 交叉验证的参数。
libsvm参数说明
libsvm参数说明摘要:一、libsvm 简介1.libsvm 的作用2.libsvm 的安装和使用二、libsvm 参数说明1.核函数选择2.C 参数调整3.罚参数选择4.迭代次数选择5.其他参数三、libsvm 参数调整策略1.交叉验证2.网格搜索3.启发式方法四、libsvm 在实际应用中的案例分析1.情感分析2.文本分类3.图像分类正文:一、libsvm 简介libsvm 是一款常用的支持向量机(SVM)开源实现库,它提供了C、Python、Java 等语言的接口,方便用户在不同平台上进行使用。
libsvm 具有较高的效率和准确性,被广泛应用于数据挖掘、机器学习、模式识别等领域。
1.libsvm 的作用libsvm 主要作用是实现支持向量机算法,它可以解决分类和回归问题,包括线性分类和非线性分类。
此外,libsvm 还提供了核函数,使得它可以处理高维数据和复杂数据的分类问题。
2.libsvm 的安装和使用libsvm 的安装过程比较简单,只需要按照官方文档的指导进行操作即可。
安装完成后,可以通过调用libsvm 提供的API 进行模型的训练和预测。
二、libsvm 参数说明libsvm 提供了丰富的参数供用户调整,以达到最佳的效果。
1.核函数选择核函数是libsvm 的重要组成部分,它决定了libsvm 如何处理输入数据。
libsvm 提供了多种核函数,如线性核、多项式核、径向基函数核等。
用户可以根据问题的特点选择合适的核函数。
2.C 参数调整C 参数是libsvm 中的一个重要参数,它控制了模型的软约束程度。
较小的C 值会使得模型更加灵活,可能导致过拟合;较大的C 值会使得模型更加严格,可能导致欠拟合。
因此,合理调整C 参数对于模型的性能至关重要。
3.罚参数选择罚参数是libsvm 中的另一个重要参数,它控制了模型对训练数据的惩罚程度。
较小的罚参数会导致模型对训练数据的拟合程度过高,可能会导致过拟合;较大的罚参数会使得模型对训练数据的拟合程度降低,可能会导致欠拟合。
libsvm参数说明
libsvm参数说明(实用版)目录1.LIBSVM 简介2.LIBSVM 参数说明3.LIBSVM 的使用方法4.LIBSVM 的应用场景5.总结正文1.LIBSVM 简介LIBSVM 是一个开源的支持向量机(Support Vector Machine,简称SVM)算法库,它可以帮助我们解决分类和回归问题。
支持向量机是一种非常强大和有效的机器学习算法,它可以在各种领域中得到广泛的应用,如人脸检测、车牌识别等。
2.LIBSVM 参数说明在使用 LIBSVM 时,我们需要了解一些基本的参数,这些参数可以影响模型的性能。
以下是一些常用的 LIBSVM 参数及其说明:- -train:训练数据文件- -test:测试数据文件- -model:模型文件- -param:参数文件- -predict:预测数据文件此外,还有一些其他参数,如-v(显示详细信息)、-n(核函数的阶数)、-c(惩罚参数)等。
通过调整这些参数,我们可以优化模型的性能。
3.LIBSVM 的使用方法使用 LIBSVM 的过程可以分为以下几个步骤:(1)准备数据:将数据分为训练集和测试集,确保数据是线性可分的。
(2)训练模型:使用训练集和相应的参数训练 SVM 模型。
(3)预测结果:使用测试集和训练好的模型进行预测。
(4)评估性能:评估模型的性能,并根据需要调整参数以优化性能。
4.LIBSVM 的应用场景LIBSVM 可以广泛应用于各种分类和回归问题中,如人脸检测、车牌识别、文本分类、图像分类等。
在实际应用中,我们需要根据具体问题选择合适的核函数(如线性核、多项式核、径向基函数等)并调整相关参数,以获得最佳的模型性能。
5.总结总之,LIBSVM 是一个功能强大的支持向量机库,可以帮助我们解决各种分类和回归问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
LOGO教你认识SVM 和使用开源工具LibSVM夏睿rxia@v SVM能解决什么问题?§从机器学习谈起§分类与回归v为什么选择SVM?§从ANN到SVM§SVM的两个核心思想§SVM算法v怎么用SVM?§用LibSVM做分类§用LibSVM做回归§Python平台下的LibSVM 提纲从机器学习谈起v目的根据给定的训练样本,对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。
v机器学习的三个基本问题§模式识别——分类§函数拟合——回归§概率密度估计v数学表述§给定条件:n个独立同分布观测样本§目标:求一个最优函数§最理想的要求:最小化期望风险v机器学习方法的代表§人工神经网络(ANN)& 支持向量机(SVM)1122(,),(,),(,)n nx y x y x yL*(,)f x w()(,(,))(,)R w L y f x w dF x y=∫全局最优解容易陷入局部最小训练较快训练较慢这个黑匣子要透明一点,怎么个透明法?(过人之处2)完全的黑匣子,高度非线性,人工难以理解和干预推广能力的控制(过人之处1)过学习结构风险最小化(SRM)经验风险最小化(ERM)统计学习理论传统统计学SVM使分类间隔最大实际上就是对推广能力的控制这是一个不等式约束下的二次函数寻优问题:优化方法将原问题转化为其对偶问题。
非线性的解决v解决非线性问题通过合理的非线性变化,将非线性问题转化为某个高维空间的线性问题。
vSVM怎么实现低维到高维的变换§从广义最优分类面能得到什么启示?§关键问题:怎么计算需要知道变换的具体形式吗?灾难维数?NO!****1(),()()sgn{}sgn{(()())}ni i iih x g x f h w h b y x x bφαφφ====⋅+=⋅+∑()()ix xφφ⋅(x ϕ=⋅v为什么选择LibSVM(.tw/~cjlin/libsvm)§Different SVM formulations§Efficient multi-class classification§Cross validation for model selection§Probability estimates§Weighted SVM for unbalanced data§Both C++ and Java sources§GUI demonstrating SVM classification and regression§Python, R(also Splus), MATLAB, Perl, Ruby, Weka, Common LISP and LabVIEW interfaces. C# .NET code is available.§Automatic model selection which can generate contour of cross valiation accuracy. v使用LibSVM的一些准备工作§平台•Win32+python+pnuplot•Linux+python+pnuplot§数据•Training Set•Test Set§SVM基础知识SVM开源工具——LibSVMv文本编码ASCII/ANSIv数据存储格式§每行格式:label feature1:value1 index2:value2 ...•label为类别标号,feature为特征序号,value为特征的值•value为0时该项可以省略(大规模数据时节省存储空间)§示例:iris.tr(UCI / Iris Plant, 4 features, 3 classes)v格式检验脚本checkdata.pypython checkdata.py iris.tr.txt1 1:-0.555556 2:0.5 3:-0.694915 4:-0.753 1:-0.166667 2:-0.333333 3:0.38983 4:0.9166672 1:-0.333333 2:-0.75 3:0.0169491 4:-4.03573e-081 1:-0.833333 3:-0.864407 4:-0.9166671 1:-0.611111 2:0.0833333 3:-0.864407 4:-0.9166673 1:0.611111 2:0.333333 3:0.728813 4:13 1:0.222222 3:0.38983 4:0.5833332 1:0.222222 2:-0.333333 3:0.220339 4:0.1666672 1:-0.222222 2:-0.333333 3:0.186441 4:-4.03573e-08…样本文件格式LibSVM数据标准化v svm-scale命令(使用的是极值标准化)§格式:svm-scale [options] filenameoptions:•上下界(默认[-1,1]):-l lower -u upper•存储标准化尺度:-s scalefile•加载标准化尺度:-r scalefile•标签的标准化(用于回归):-y lower upper§使用提醒•训练集和测试集一起scale,将所有数据缩放到[lower, upper]•新来的测试样本,应该使用训练时候的标准化尺度进行标准化§示例svm-scale-s iris.scale iris.trainsvm-scale-l -0.8 -u 0.8 -s iris.scale iris.train> iris.train.scaledsvm-scale-r iris.scale iris.testv示例§最简单的训练,所有参数均默认§任务类型默认(C-SVC)、核函数默认(RBF),10-fold, c=100, g=0.01, 保存训练模型§任务类型默认(C-SVC),选用线性核函数,10-fold, c=100§采用概率模型,其余同上v一个重要问题,怎么选择参数?§自动:libSVM提供的寻优脚本§手动:用试的!!svm-train-v 10 iris.train iris.modelsvm-train-t 0 –v 10 –c 100 –g 0.01 iris.train iris.modelsvm-train iris.trainsvm-train–b 1 -t 0 –v 10 –c 100 –g 0.01 iris.train iris.modelLibSVM训练参数寻优v参数自动寻优的训练脚本grid.py(Cross-validation and Grid-search)§适用任务:分类问题& RBF核(或linear核)§格式:python [options] grid.py trainingfilename§options•-svmtrain pathname•-gnuplot pathname•-out pathname•-png pathname•-log2c begin,end,step•-log2g begin,end,step•additional same options for svm-train§示例§linear核怎么使用?——设置一个虚拟的gamma参数: -log2g 1,1,1 python grid.py iris.trainpython grid.py–svmtrain d:\libsvm\svm-train.exe–gnuplot d:\gnuplot\bin\pgnuplot.exe-png d:\iris.gird.png–log2c -8,8,2 –log2g 8,-8,-2 –v 10 iris.trainpython grid.py–log2c -8,8,2 –log2g 1,1,1 –t 0 –v 10 iris.train寻优结果v 参数寻优图示LibSVM测试v格式:svm-predict [options] testfile modelfile resultfile options§-b probability : -b 0只输出类别;-b 1输出各类概率v返回结果§各测试样本的类别(-b 1时为各类后验概率)§正确率v 示例v 值得注意的§部分任务不支持概率输出(比如SVR, one-class SVM)§-b参数需要svm-train的时候建立概率模型与之对应§新来的样本按照训练集标准化的尺度进行标准化svm-train–b 1 iris.train iris.modelsvm-predict iris.test iris.model iris.resultsvm-predict –b 1iris.test iris.model iris.resultsvm-scale-r iris.train.scale iris.test> iris.test.scaled怎么用LibSVM做回归?v数据标准化§对label 同时进行标准化(量纲较小的时候可以忽略该步)v参数寻优§脚本:grid.pyàgridregression.py§寻优的参数:-c -g à-c -g –pv训练建模§任务的选择:-s 3 (epsilon -SVR)§核函数的选择:通常选择-t 2 (RBF核,默认)或-t 0(linear核)§与分类任务相比,多了一个基本参数p,建模时就用寻优找到的参数v测试§评估指标:Rate àMSE§返回值需要经过反标准化,恢复原来的量纲:好像要你自己做了!svm-scale-y -1 1 regression.train.scaled regression.modelsvm-train–s 3 -c 100 –g 0.01 –p 0.1regression.train.scaled regression.modelpython gridregression.py–log2c -8,8,2 –log2g 8,-8,-2 –log2p -8,8,2 –v 10 regression.trainsvm-predict regression.test regression.model regression.resultv安装§将已经编译好的svmc.pyd文件(位于libsvm\windows\python\目录下)拷贝到系统环境变量目录(如python根目录)§将svm.py文件拷贝到当前文件夹§将cross_validation.py拷贝到当前文件夹v使用§导入模块§设置训练参数(包含svm_type, kernel_type, gamma, C…)§加载数据from svm import *param= svm_parameter(svm_type= C_SVC, kernel_type= LINEAR)param.kernel_type= RBFListLable= [1, -1]ListValue= [[1, 0, 1], [-1, 0 ,-1]]# ListValue= [{1:1, 3:1}, {1:-1, 3:-1}]prob= svm_problem(ListLabel, ListValue)§建模§模型保存与加载§测试mod = svm_model(prob, param)r = mod.predict([1, 1, 1])d = mod.predict_values([1, 1, 1])prd, prb= m.predict_probability([1, 1, 1]) mod.save(‘modelfile’)mod2 = svm_model(‘modelfile’)target = cross_validation(prob, param, n) LOGOQ? / AThank you!。