基于支持向量机的文本分类算法的研究与实现
基于机器学习的文本分类实验报告

基于机器学习的文本分类实验报告一、引言名言:“数据是未来的石油。
” - 克莱尔·劳斯机器学习作为一种人工智能的分支,已在各个领域展现出巨大的潜力。
文本分类作为机器学习的一个重要应用领域,能够将海量的文本数据自动分为不同的类别,对于信息检索、情感分析、垃圾邮件过滤等任务具有重要意义。
本报告旨在通过基于机器学习的文本分类实验,探讨不同算法在文本分类中的表现。
二、数据集介绍在本次实验中,我们选择了一个包含5000条电影评论的数据集。
该数据集由正面和负面的评论组成,每个评论都有对应的标签,其中正面评论为1,负面评论为0。
数据集中的文本经过预处理,包括去除停用词、标点符号以及数字等。
三、特征提取特征提取是文本分类中的一项重要任务,它将文本数据转化为机器学习算法能够处理的数值型数据。
在本次实验中,我们选择了两种常用的特征提取方法:词袋模型和TF-IDF模型。
1. 词袋模型词袋模型将文本表示为一个固定长度的向量,向量的每个维度表示一个词汇,并计算该词汇在文本中的出现次数。
通过计算每个文本的词袋表示,我们构建了特征矩阵用于后续的分类算法。
2. TF-IDF模型TF-IDF模型综合考虑了词语频率和文档频率,并计算出每个词语在文本中的重要性权重。
与词袋模型相比,TF-IDF模型能够更好地反映词语的重要性,从而提高分类的准确性。
四、分类算法比较为了评估不同分类算法在文本分类任务中的表现,我们选择了三种经典的机器学习算法:朴素贝叶斯、支持向量机(SVM)和随机森林。
1. 朴素贝叶斯朴素贝叶斯算法基于贝叶斯定理和特征条件独立假设,通过计算条件概率进行分类。
在文本分类中,朴素贝叶斯表现出良好的性能,并且具有较快的训练速度。
2. 支持向量机(SVM)支持向量机是一种二分类模型,它通过将文本映射到高维空间中,在其中寻找最优超平面来实现分类。
在文本分类中,SVM通过寻找最大间隔超平面,能够有效地解决多类别分类问题。
3. 随机森林随机森林是一种基于决策树的集成学习算法,它通过随机选择特征和样本,构建多棵决策树,并通过投票集成的方式进行分类。
SVM在文本分类中的应用实践

SVM在文本分类中的应用实践随着互联网的快速发展,大量的文本数据被生成和存储。
如何从这些海量的文本数据中提取有价值的信息并进行有效的分类成为了一个重要的问题。
支持向量机(Support Vector Machine,SVM)作为一种强大的机器学习算法,被广泛应用于文本分类领域。
一、SVM的基本原理SVM是一种监督学习算法,其基本原理是通过找到一个最优的超平面来将不同类别的样本分开。
在文本分类中,每个文本样本可以看作是一个特征向量,其中每个特征表示一个词或短语的出现频率。
SVM通过学习这些特征向量的线性组合,将不同类别的文本样本分开。
二、特征提取与向量化在将文本样本输入SVM之前,需要将文本转化为数值特征向量。
常用的方法有词袋模型(Bag of Words)和TF-IDF(Term Frequency-Inverse Document Frequency)。
词袋模型将文本视为一个无序的词集合,忽略了词序和语法结构。
通过统计每个词在文本中出现的频率,将文本转化为一个稀疏向量。
然而,词袋模型忽略了词之间的关系,可能导致信息的丢失。
TF-IDF考虑了词在文本集合中的重要性。
它通过计算一个词在文本中的频率和在整个文本集合中的逆文档频率的乘积,得到一个词的权重。
TF-IDF能够更好地反映词的重要性,提高了特征向量的质量。
三、核函数的选择SVM通过核函数来处理非线性分类问题。
常用的核函数有线性核函数、多项式核函数和径向基核函数。
线性核函数适用于线性可分的情况,对于简单的文本分类问题有较好的效果。
多项式核函数能够处理一些非线性问题,但容易产生过拟合。
径向基核函数是最常用的核函数之一,它能够处理复杂的非线性分类问题,并且具有较好的鲁棒性。
四、参数调优与模型评估SVM中的参数调优对于模型的性能至关重要。
常见的参数包括惩罚系数C、核函数参数和松弛变量参数。
通过交叉验证等方法,可以选择最优的参数组合。
模型评估是判断模型性能的重要指标。
利用SVM进行文本分类并研究特征选择对文本分类的影响

利用SVM进行文本分类并研究特征选择对文本分类的影响SVM(支持向量机)是一种常用于文本分类的机器学习算法。
它的主要思想是将文本数据映射到高维向量空间,并在此空间中构建一个超平面来实现分类。
特征选择是在特定的文本分类任务中选择最相关特征的过程。
本文将研究特征选择对SVM文本分类的影响。
一、SVM文本分类的基本步骤SVM文本分类的基本步骤包括数据预处理、特征提取、特征选择和模型训练四个主要阶段。
1.数据预处理:这一步骤包括去除文本中的停用词、标点符号等无用信息,同时进行词干化和词向量化处理,将文本转换为向量表示。
2.特征提取:常用的特征提取方法有词袋模型和TF-IDF模型。
词袋模型统计文档中每个词的出现频率,将其构成一个向量。
TF-IDF模型基于词袋模型,加入了对词频的权重调整,更准确地反映了词对文档的重要性。
3.特征选择:特征选择是从所有特征中选择最有用的特征,以提高分类器的性能。
常用的特征选择方法有信息增益、卡方检验和互信息等。
4.模型训练:最后,使用选择的特征和标注的训练集来训练SVM分类器,通过调整超参数,如正则化参数C和核函数类型等,来优化模型的性能。
特征选择在SVM文本分类中起着至关重要的作用,它能够减少特征维度,提高分类效果。
以下是特征选择对文本分类的影响:1.维度减少:文本数据往往具有高维度,而很多特征无关或冗余。
通过特征选择可以减少特征维度,消除冗余信息,提高计算效率。
2.加快训练速度:特征选择可以减少训练样本的数量,从而缩短SVM 模型的训练时间。
特征选择能够剔除一些对分类任务无关的特征,使得模型更快速地收敛。
3.提高分类性能:特征选择有助于找到与分类任务最相关的特征,去除冗余和噪声,从而提高分类器的泛化能力和分类性能。
4.解释性:选择最相关的特征可以增加对分类结果的可解释性。
通过特征选择,我们可以更好地理解哪些特征对分类有贡献,有助于进一步分析文本数据的规律和特点。
三、特征选择方法1.信息增益:信息增益是通过比较每个特征与分类结果之间的关联性来衡量特征的重要性。
支持向量机在文本分类中的应用

Cls m b TP3 1 a s Nu er 9
1 引言
文本 分类 Ⅲ是 信 息 处 理 领 域 的 一 个 研 究 热 点 , 是 以 它
2 文 本 的 预 处 理
在 给 出文 本 中每 个 属 性 ( 词 ) 值 之 前 , 要 对 文 本 单 的 需
集进行预处理 :
文本归档为 目标 , 把大 量的文献 集 映射到预 先定 义好 的文 本属性类 中, 而它 的任 务是将 超文本 文件根 据 内容 分为 预 先定义 的几个类别 。如今 很 多领域都 有这种 问题 , 括 邮 包
关键词
中图分类号
App i a in o VM n Te tCa e o i a in lc to fS i x t g rz to
DUAN NG YI
( h n z o n t u eo r n ui n usr a a e n ,Zh n z o 4 0 1 ) Z e g h u I si t fAe o a t I d tyM n g me t t c e gh u 5 0 5
总 第 2 3期 7 21 年第 7 Hale Waihona Puke 2 期 计算 机与数字工程
Co u e mp tr& Diia gn ei g gtl En ie rn
Vo . 0 No 7 14 .
8 7
支持 向量机 在 文本 分 类 中的应 用
段 莹
郑州 401) 5 0 5 ( 郑州航空工业管理学院计算 机科 学与应用 系
Abs r c Th sp p rp o o e h t a t xtc t g rz to e h d ba e n Na v y s la n n up or e t r ma h n .Fis h e ta t i a e r p s s t a e a e o ia in m t o s d o i e Ba e e r i g s p t v c o c i e r tt e t xt p e p o e sn s a o t d a d a c di O t h r c e i t so he t x e u e d me i n r - r c s i g i d p e n c or ng t he c a a t rs i f t e t r d c i nso .Th n Nav y s a g i c e i e Ba e l ort hm r p s d t r i i p o o e o ta n s t u p r e t rm a h n s An VM s u e o e t xtc t g rz to Ex e i e t h w h to rm e h d a h e e e t r p e ii n . he s p o t v c o c i e . d S i s d f rn w e a e o ia i n. p rm n s s o t a u t o c iv s b t e r c so K or N av ye ,S eY W ds i e Ba s VM ,t x a e o ia i n,p e ii n e t c t g rz to r cso
使用支持向量机进行文本分类任务

使用支持向量机进行文本分类任务支持向量机(Support Vector Machine,SVM)是一种常用的机器学习算法,广泛应用于文本分类任务。
本文将介绍SVM的基本原理,以及如何使用SVM进行文本分类。
一、支持向量机的基本原理支持向量机是一种二分类模型,其基本原理是找到一个超平面,将不同类别的样本分开。
在二维空间中,这个超平面就是一条直线;在多维空间中,这个超平面就是一个超平面。
支持向量机的目标是找到一个最优的超平面,使得离该超平面最近的样本点到该超平面的距离最大化。
具体来说,SVM通过将样本映射到高维特征空间,将低维线性不可分的问题转化为高维线性可分的问题。
然后,通过求解约束最优化问题,找到一个最优的超平面。
在这个过程中,只有一部分样本点被称为支持向量,它们离超平面最近。
二、文本分类任务文本分类是将文本按照一定的标准划分到不同的类别中。
在实际应用中,文本分类任务非常常见,如情感分析、垃圾邮件识别等。
文本分类任务的关键是将文本表示成机器学习算法可以处理的形式。
常用的文本表示方法有词袋模型(Bag-of-Words)和词向量(Word Embedding)。
词袋模型将文本看作是一个词的集合,忽略了词序和语法结构。
词向量则将每个词映射到一个实数向量,可以保留一定的语义信息。
三、使用支持向量机进行文本分类在使用支持向量机进行文本分类时,首先需要将文本表示成机器学习算法可以处理的形式。
常见的方法是使用词袋模型或词向量。
1. 词袋模型词袋模型将文本表示为一个固定长度的向量,向量中的每个维度表示一个词的出现频率或权重。
可以使用TF-IDF等方法对词的重要性进行加权。
2. 词向量词向量将每个词映射到一个实数向量。
常见的词向量模型有Word2Vec和GloVe等。
词向量可以保留一定的语义信息,更适合表示文本的语义特征。
在将文本表示成机器学习算法可以处理的形式后,可以使用支持向量机进行分类。
具体步骤如下:1. 划分训练集和测试集将标记好类别的文本数据集划分为训练集和测试集,通常采用交叉验证的方法。
基于LPP和Rocchio的文本分类方法

基于LPP和Rocchio的文本分类方法提要:支持向量机(SVM)是最常用的文本分类算法之一,但文本特征空间维数巨大的问题会影响分类的效果。
为此,提出了一种提高SVM分类性能的方法。
本文利用LPP算法对特征空间的维数进行降维,然后用SVM算法进行分类。
实验结果证明,该算法能够有效地提高分类的准确率。
关键词:Rocchio算法;LPP算法;文本分类引言随着互联网的快速增长,信息资源也飞速的增多,形式也多种多样,其中文本占大多数。
那么怎样从大量的文本信息中搜索到自己想要的信息[1],就成为了人们关注的焦点。
文本分类技术在信息检索中起着重要的作用,因此,文本分类技术的成为了研究的对象。
本文是对特征维数在利用互信息进行特征提取的基础上,然后采用LPP进行降维,从而提高了Rocchio分类器的分类性能。
1.Rocchio算法Rocchio算法[2]又称为类中心最近距离判别算法,是基于向量空间模型和最小距离的算法,最早是由Hull提出来的,它是通过信息检索中用来计算“询问”与文本间的关联程度Rocchio公式改造而来的。
由于Rocchio分类器非常的直观和简单,使得它广泛应用于文本分类领域中。
Rocchio算法的训练过程的目的是获得所有类别的中心向量,分类阶段是计算测试集文本与每一个类别中心向量的相似度,相似度最大的类别就是测试集文本所属的类别。
Rocchio算法对于类间距离较大而类内距离较小的类别分布情况能达到较好的分类效果。
这种算法计算简单、迅速,因此采用它有助于节省时间,提高效率。
其计算类中心向量Oj公式为:其中,Nj表示第Cj类中文本的总数,Yij表示类别Cj中的第i个文本向量。
向量相似度的度量方法有夹角余弦、向量内积、欧氏距离等,本文采用的是夹角余弦的方法,即总的来说,Rocchio算法分类原理简单,且在进行训练和分类时计算量也相对较小,分类速度较快。
2.LPP算法LPP算法具有保持数据集的局部非线性流行结构信息的能力,计算简单,处理速度快等特点,利用该算法可以大大减少参与比较的向量文本的数目,其基本思想是通过原始空间中离得近的点在降维后的低维空间中也保持较近,因此能保留原始数据的局部结构。
基于机器学习的文本分类算法研究

基于机器学习的文本分类算法研究一、引言随着互联网和大数据技术的不断发展,人们在网络上获取和产生的信息呈现爆炸式增长。
如何从大规模的文本数据中高效准确地提取有用信息,成为当前研究的热点之一。
文本分类作为自然语言处理和机器学习领域的一个重要任务,在信息检索、垃圾邮件过滤、情感分析等应用中都发挥着重要作用。
本文主要研究基于机器学习的文本分类算法,以提高文本分类的准确性和效率。
二、文本分类算法概述文本分类算法是指根据已知类别的文本样本,通过自动学习构建分类模型,对未知类别的文本进行分类的过程。
传统的文本分类算法包括朴素贝叶斯、支持向量机等,这些方法主要通过对文本进行特征提取和模型训练来实现分类。
然而,传统方法在面对大规模高维度的文本数据时存在一定的局限性,机器学习的发展为文本分类带来了新的思路和方法。
三、基于机器学习的文本分类算法基于机器学习的文本分类算法通过训练样本和特征的自动学习,构建分类模型从而实现文本分类。
常用的基于机器学习的文本分类算法有:朴素贝叶斯分类器、支持向量机、随机森林、深度学习等。
1. 朴素贝叶斯分类器朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立假设的分类方法。
该方法假设文本中的每个特征对于分类结果独立且具有相同的发生概率。
基于这一假设,该方法通过计算每个特征在不同类别下的条件概率来实现文本分类。
朴素贝叶斯分类器在文本分类中具有简单高效的特点,但是忽略了特征之间的相关性。
2. 支持向量机支持向量机是一种基于结构风险最小化原理的分类方法。
该方法通过将文本样本映射到高维空间中,学习一个最优的超平面来实现分类。
支持向量机在文本分类中具有较好的泛化性能和鲁棒性,但是在处理大规模文本数据时计算复杂度较高。
3. 随机森林随机森林是一种基于决策树集成的分类方法。
该方法通过构建多个决策树,使用投票或平均策略来进行分类。
随机森林在文本分类中具有较好的稳定性和可解释性,且能够处理高维度的文本数据。
基于机器学习的文本自动分类系统设计与实现

基于机器学习的文本自动分类系统设计与实现随着信息技术的快速发展,海量的文本数据产生并积累,如何从这些数据中获取有价值的信息成为一个重要的问题。
文本分类作为信息检索和文本挖掘的一个重要研究方向,能够帮助人们快速准确地对大量文本进行分类和理解,因此备受学术界和工业界的关注。
本文将介绍一种基于机器学习的文本自动分类系统的设计与实现。
一、系统的需求分析文本自动分类系统的主要任务是将一篇给定的文本自动分配到已定义的分类中。
根据需求分析,我们对系统进行以下的功能需求和性能需求的要求。
1. 功能需求- 自动对给定的文本进行分类,无需人工干预。
- 支持多类别的分类,可以将文本分配到多个分类中。
- 系统具有良好的扩展性,可以根据需要增加或修改分类。
2. 性能需求- 系统的分类准确率要高,可以达到业界领先水平。
- 系统的处理速度要快,能够处理大规模的文本数据。
基于上述需求,我们可以采用机器学习的方法来设计和实现文本自动分类系统。
二、系统的设计与实现1. 数据预处理在开始设计系统之前,我们需要对文本数据进行预处理。
预处理的主要任务包括去除文本中的停用词(如“the”、“and”、“is”等),进行词干提取,以及将文本转换成数值型特征。
这些预处理步骤可以帮助减少数据的噪声,提取有效的特征。
2. 特征提取特征提取是文本分类的重要步骤之一。
在本系统中,我们将采用词袋模型(Bag of Words)作为特征提取的方法。
首先,我们需要构建一个词库,包含了所有文本数据中出现的词。
然后,我们可以使用词频或者TF-IDF等方法将每篇文本转换成一个向量表示。
3. 模型选择与训练在特征提取完成后,我们需要选择一个合适的机器学习模型来进行分类任务。
常见的机器学习模型包括朴素贝叶斯、支持向量机(SVM)和深度学习模型等。
根据我们的需求,我们可以选择一个性能较好的分类模型进行训练。
在模型选择后,我们需要为系统进行模型训练。
我们可以使用已经标注好的文本数据进行有监督学习,或者使用无标注数据进行半监督学习。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学号:2009030114哈尔滨师范大学学士学位论文题目基于支持向量机的文本分类算法研究与实现学生李慧颖指导教师李红宇副教授年级2009级专业计算机科学与技术系别计算机科学与技术学院计算机科学与信息工程学士学位论文题目基于支持向量机的文本分类算法研究与实现学生李慧颖指导教师李红宇副教授年级2009级专业计算机科学与技术系别计算机科学与技术学院计算机科学与信息工程哈尔滨师范大学2013年5月摘要:随着计算机与通讯技术的飞速发展,互联网上的电子文档信息急剧增加。
这就使得文本的自动分类越来越受人们的重视,而支持向量机和文本分类问题有着良好的结合点,从而使得基于支持向量机的文本分类成为这个领域的研究热点。
支持向量机是一种基于结构风险最小化准则的分类学习机模型,它的应用十分广泛。
虽然支持向量机算法的性能在许多实际问题的应用中得到了验证,但是还存在着一些需要改进的地方,如:训练算法速度慢、测试阶段运算量大等。
关键词:支持向量机;文本分类;学习机模型目录第一章引言 (1)1.1研究背景及意义 (1)1.2 国内外研究现状 (1)1.2.1 文本分类研究现状 (1)1.2.2 SVM研究现状 (2)1.3 文本内容研究 (3)第二章文本分类 (4)2.1 文本自动分类概述 (4)2.2 文本分类所涉及的技术领域 (4)2.2.1 文本分类与自然语言处理 (4)2.2.2 文本分类与文本挖掘 (5)2.2.3 文本分类与机器学习 (5)2.2.4 文本分类与模式识别 (5)2.3 文本分类的关键技术 (6)2.3.1 文本表示 (6)2.3.2 特征选择 (7)2.3.3 权重计算 (9)2.3.4 常用的文本分类算法 (9)2.4 文本分类的应用 (11)第三章支持向量机 (13)3.1 支持向量机简介 (13)3.2 支持向量分类机 (14)3.2.1 线性可分问题 (14)3.2.2 近似线性可分问题 (15)3.2.3 线性不可分问题 (15)3.3 支持向量机的应用步骤 (16)3.4基于支持向量机文本分类方法的优势 (17)3.5基于支持向量机文本分类方法中存在的问题 (17)第四章小波变换在支持向量机分类中的应用 (19)4.1 问题的提出 (19)4.2降维相关的研究工作 (19)4.3 小波分析 (20)4.3.1 离散小波变换 (20)4.3.2 小波的定义 (21)4.4 一维哈尔小波变换 (21)4.4.1 哈尔基函数 (22)4.4.2 哈尔小波函数 (22)4.4.3 函数的规范化 (23)4.4.4 哈尔基的结构 (24)4.5 哈尔小波变换的应用 (24)4.5.1 哈尔小波变换的过程 (24)4.5.2 哈尔小波变换的应用 (24)4.6 哈尔小波变换在本文中的应用 (26)4.6.1 小波变换的应用 (27)4.7 实验及结果分析 (28)4.7.1 实验平台及环境 (28)4.7.2 实验步骤 (28)4.7.3 实验目的 (29)4.7.4 结果分析 (29)第五章总结 (33)5.1 文本总结 (33)5.2 工作展望 (33)参考文献: (34)Absatrct: . (35)第一章引言1.1研究背景及意义所谓的文本自动分类,最初是应信息检索(Information Retrieval,IR)系统的要求出现的。
信息检索系统要操纵许多的数据,而文本信息库可能是相当庞大的,并且,用来表示文本内容的词汇数量又是成千上万的。
因此,在这种情况下,如果能够提供文本集良好的组织与结构,就能一定程度上简化文本的操纵。
文本自动分类系统的目的就是对文本集进行有序组织,把相似的、文本组织在一起。
它作为知识的组织工具,为信息检索提供了更高效的搜索策略和更准确的查询结果。
其中,高效性来自于用户可以首先确定查询的可能类别,以减小需进一步匹配的文本数量。
有效性在于相似的文本很可能与相同的查询相关。
这样,检索的查全率和准确率都得到了提高。
随着全球计算机与通讯技术的飞速发展、互联网络的普及与应用,文本自动分类对于信息处理的意义变得更加重要。
在互联网中,电子文档信息每天都在急剧的增加,通过网络,人们可以很方便地共享巨大的信息资源。
但网络信息的快速膨胀使得给人们进行信息查找的信息资源无法很有效的加以利用。
面对网上的海量信息,传统的做法是对网上信息进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。
但是,这种人工分类的做法存在着许多弊端:一是耗费大量的时间和精力。
二是存在分类结果不精准。
即使分类人的语言素质较高,但其分类结果仍然不尽相同。
网络信息的激增不仅增加了对于快速、自动文本分类的迫切需求,而且又为基于机器学习的文本分类方法准备了充分的准备。
支持向量机是由Vapnik领导的AT&TBell实验室研究小组在1995年提出的一种新的非常有潜力的分类技术,SVM是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域。
由于当时这些研究尚不十分完善,在解决模式识别问题中往往趋于保守,且数学上比较艰涩,这些研究一直没有得到充分的重视。
直到90年代,统计学习理论 (Statistical Learning Theory,SLT)的实现和由于神经网络等较新兴的机器学习方法的研究遇到一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等,使得SVM迅速发展和完善,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
从此迅速的发展起来,现在已经在许多领域(生物信息学,文本和手写识别等)都取得了成功的应用。
SVM的主要思想可以概括为两点:⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。
⑵它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
对学习算法的研究和改进是目前SVM研究的主要内容,在过去的十多年里,出现了很多SVM算法的改进算法,从算法实现中优化理论的改进、核函数的构造到算法参数的选择等1.2 国内外研究现状1.2.1 文本分类研究现状文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。
美国IBM公司的H.P.Luhn在20世纪50年代末对文本分类进行研究,他提出了词频统计思想,后来被应用在文本分类领域。
60年代初,Maron在利用概率模型进行文本分类方面做出了开创性的研究工作。
Salton等人在70年代初提出了向量空间模型,由于该模型在良好的统计学方法基础上简明地实现了对文本特性的抽象描述,从而成为文本分类处理的一种经典模型。
其后许多学者在这一领域进行了卓有成效的研究。
国外文本自动分类主要经历了四个发展阶段:第一阶段(1958-1964):研究文本自动分类的可能性;第二阶段(1965-1974):进入文本自动分类的实验性阶段;第三阶段(1975-1998):文本自动分类的实用性阶段;第四阶段(1990-至今):因特网文本自动分类研究阶段。
国内文本自动分类研究起步较晚,始于20世纪80年代初期。
1981年侯汉清对计算机在文献分类工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。
此后,有越来越多的人借鉴国外的一些研究成果,结合中文的特点进行中文文本自动分类的研究。
中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类。
复旦大学的周水庚等人用了N-gram方法对中文文本进行分类尝试,从文档中提取N-gram属性,然后用ON方法判别文本类别,摆脱了对词典和切词处理的依赖,实现文本分类的领域无关性和时间无关性。
刁力力、石纯一等用Boosting 来组合决策树(Stumps)的方法进行文本分类。
卜东波从信息粒度的角度来剖析聚类和分类技术,试图使用信息粒度原理的框架来统一聚类和分类。
庞剑峰等应用向量空问模型进行了中文文本分类实验,并同时对文本分类所涉及的关键性技术,例如特征提取、不同机器学习方法等进行了研究和探讨,给出了评估方法和实验结果。
之后他又验证了在文本分类系统中应用反馈方法的可行性,给出了结合反馈方法的文本分类算法。
1.2.2 SVM研究现状SVM由于分类效果比较好成为近几年人们研究的热点。
SVM是建立在SLT的VC维理论和结构风险最小化原理基础上,根据有限样本信息在模型复杂性(对特定样本的学习精度)和学习能力(无错误地识别样本的能力)之间寻求一种折中,以期达到最佳的推广性能。
1995年,Vapnik在“The Nature of Statistical Learning Theory”一书中提出支持向量机的概念,并在“Support Vector Networks”一文中进行了详细的介绍。
从那以后,关于支持向量机方面的文章如雨后春笋,逐渐成为国际上机器学习领域的研究热点,吸引了国内外众多知名的专家Daniel和Gabriele提出了基于小波的核函数构造方法:Atari和Wu设计了一种算法,他们通过对核函数的黎曼几何分析,提出利用实验数据逐步修正己有的核函数,使之能更好地与实际问题相吻合;Cauwenberghs 和Poggio研究了基于SVM的增量和减量学习问题;Diehl 和Cauwenberghs提出了一个精确增量学习和自适应SVM分类器的框架;Opper和Urban-czik 对SVM学习带噪声的多项式规则进行了研究,在核函数阶数足够高或者为超越函数时,渐近线和学习曲线由目标规则决定而不是核函数,在这种情况下研究了训练误差核推广误差的收敛性;Bordes等提出一种在线SVM算法LASVM,通过对样本的主动选择提高了学习速度;Serifini等研究了基于梯度方法的SVM分解算法中起作用集的选择问题;此外,还有很多学者对SVM的算法进行了研究,这里就不一一列举了。
Joachims和Dumais例等人于1998年开创了SVM在文本分类中应用的先河。
他们各自在不同语料库中做了大量试验,结果表明SVM在文本分类的应用中特别有效,并有很好的泛化性,克服了高维表示中的困难。
此后,很多学者开始了这方面的研究,并取得了很多研究成果。
目前,SVM己被越来越多地应用到模式识别领域,如手写体文字识别、人脸识别等在图像压缩和数据分类的应用中,SVM也显示出了较好的性能。