libsvm的原理及使用方法介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

LibSVM学习

目录

LibSVM学习 (1)

初识LibSVM (1)

第一次体验libSvm (3)

LibSVM使用规范 (5)

1. libSVM的数据格式 (5)

2. svmscale的用法 (5)

3. svmtrain的用法 (6)

4. svmpredict 的用法 (7)

逐步深入LibSVM (7)

分界线的输出 (11)

easy.py和grid.py的使用 (13)

1. grid.py使用方法 (13)

2. easy.py使用方法 (14)

参考 (16)

LibSVM学习

初识LibSVM

LibSVM是台湾林智仁(Chih-Jen Lin's) 教授2001年开发的一套支持向量机的库,这套库运算速度还是挺快的,可以很方便的对数据做分类或回归。

由于libSVM程序小,运用灵活,输入参数少,并且是开源的,易于扩展,因此成为目前国内应用最多的SVM的库。

这套库可以从林智仁的home page上免费获得,目前已经发展到3.0版。下载.zip格式的版本,解压后可以看到,主要有5个文件夹和一些c++源码文件。

Java ——主要是应用于java平台的源码和libsvm.jar包;

Python ——是用来参数优选的工具,稍后介绍;

svm-toy ——一个可视化的工具,用来展示训练数据和分类界面,里面是源码,其编译后的程序在windows文件夹下;

tools ——主要包含四个python文件,用来数据集抽样(subset.py),参数优选(grid.py),集成测试(easy.py), 数据检查(checkdata.py);

windows ——包含libSVM四个exe程序包,我们所用的库和程序就是它们。

其他.h和.cpp文件都是程序的源码,可以编译出相应的.exe文件。其中,最重要的是svm.h 和svm.cpp文件,svm-predict.c、svm-scale.c和svm-train.c(还有一个svm-toy.cpp在svm-toy\qt 文件夹中)都是调用的这个文件中的接口函数,编译后就是windows下相应的四个exe程序。另外,里面的README 跟FAQ 也是很好的文件,对于初学者如果E文过得去,可以看一下。

下面以svm-train为例,简单的介绍下,怎么编译:(这步很简单,也没必要,对于仅仅使用libsvm库的人来说,windows下的4个exe包已经足够了,之所以加这步,是为了那些做深入研究的人,可以按照自己的思路改变一下svm.cpp,然后编译验证)我用的是VC 6.0,新建一个控制台(win32 console application)程序,程序名叫svmtrain (这个可以随意),点击OK后,选择empty。

进入程序框架后,里面什么都没有,然后找到你的程序目录,把svm-train.c、svm.h和svm.cpp拷贝过去(.c文件是c语言的,要是你习惯了c++,你尽可以改成.cpp),然后把这3个文件添加到工程,编译。。。如果没错误,到debug下面看看,是不是有个svm-train.exe。其实windows下的svm-train.exe就是这样编译出来的。

哈哈,怎么样是不是很简单。但是,这样的程序直接运行没意义,他要在dos下运行,接收参数才行。下面开始我们的libsvm的体验之旅。

第一次体验libSvm

1. 把LibSVM包解压到相应的目录(因为我只需要里面windows文件夹中的东东,我们也可以只把windows文件夹拷到相应的目录),比如D:\libsvm。

2. 在电脑“开始”的“运行”中输入cmd,进入DOS环境。定位到D:\libsvm\windows目录下,具体命令如下:

(上面第一行是先定位到盘符d,第二行cd 是定位到相应盘符下的目录)

3. 进行libsvm训练,输入命令:(这里要注意文件的名字,2.89以前版本都是svmtrain.exe) svm-train heart_scale train.model

PS:heart_scale ——是目录下的已经存在的样本文件(此处将下载的压缩文件中的heart_scale放置入D:\libsvm\windows下即可),要换成自己的文件,只需改成自己的文件名就可以了。

PS:train.model ——是创建的结果文件,保存了训练后的结果。

#iter为迭代次数;

nu 是你选择的核函数类型的参数;

obj为SVM文件转换为的二次规划求解得到的最小值,rho为判决函数的偏置项b;

nSV 为标准支持向量个数(0

Total nSV为支持向量总个数(对于两类来说,因为只有一个分类模型Total nSV = nSV,但是对于多类,这个是各个分类模型的nSV之和)。

在目录下,还可以看到产生了一个train.model文件,可以用记事本打开,记录了训练后的结果。

svm_type c_svc //所选择的svm类型,默认为c_svc

kernel_type rbf //训练采用的核函数类型,此处为RBF核gamma 0.0769231 //RBF核的参数γ

nr_class 2 //类别数,此处为两分类问题

total_sv 132 //支持向量总个数

rho 0.424462 //判决函数的偏置项b

label 1 -1 //原始文件中的类别标识

nr_sv 64 68 //每个类的支持向量机的个数

SV //以下为各个类的权系数及相应的支持向量

到现在,第一次体验libsvm到这就基本结束了,其他的两个(svm-predict、svm-scale)的使用过程类似。怎么样,挺爽的吧。对于个别参数你还不理解,没关系,下面我们会具体讲到。

LibSVM使用规范

其实,这部分写也是多余,google一下“libsvm使用”,就会N多的资源,但是,为了让你少费点心,在这里就简单的介绍一下,有不清楚的只有动动你的mouse了。需要说明的是,2.89版本以前,都是svmscale、svmtrain和svmpredict,最新的是svm-scale、svm-train 和svm-predict,要是用不习惯,只需要把那四个exe文件名去掉中间的短横线,改成svmscale、svmtrain和svmpredict就可以了,我们还是按原来函数名的讲。

1. libSVM的数据格式

Label 1:value 2:value ….

Label:是类别的标识,比如上节train.model中提到的1 -1,你可以自己随意定,比如-10,0,15。当然,如果是回归,这是目标值,就要实事求是了。

Value:就是要训练的数据,从分类的角度来说就是特征值,数据之间用空格隔开;

比如: -15 1:0.708 2:1056 3:-0.3333

需要注意的是,如果特征值为0,特征冒号前面的(姑且称做序号)可以不连续。

如:-15 1:0.708 3:-0.3333

表明第2个特征值为0,从编程的角度来说,这样做可以减少内存的使用,并提高做矩阵内积时的运算速度。我们平时在matlab中产生的数据都是没有序号的常规矩阵,所以为了方便最好编一个程序进行转化。

2. svmscale的用法

svmscale是用来对原始样本进行缩放的,范围可以自己定,一般是[0,1]或[-1,1]。

缩放的目的主要是:

1)防止某个特征过大或过小,从而在训练中起的作用不平衡;

2)为了计算速度。因为在核计算中,会用到内积运算或exp运算,不平衡的数据可能造成计算困难。

用法:

svmscale [-l lower] [-u upper][-y y_lower y_upper] [-s save_filename] [-r restore_filename] filename

相关文档
最新文档