基于支持向量机的文本分类技术
基于改进TF·IDF和支持向量机的多类别文本分类

科●0引言随着互联网的飞速发展,人们可以获取的电子文本信息的数量也呈指数级增长。
如何有效的搜索和管理这些文本数据成为人们面临的巨大挑战。
文本分类技术可以提高信息资源的可用性和利用率[1]。
目前,常用的文本分类方法多是基于统计学和机器学习理论的方法[2]。
其中,TF ·IDF 方法是公认比较有效的文本特征提取方法,但是在以往的研究中,TF ·IDF 方法只考虑了特征词的出现频度及包含它的文档频度,而没有在语义层面上考虑该特征词出现在文本中不同位置对该文本的重要程度,因此存在一定不足。
基于上述问题,本文提出一种基于改进TF ·IDF 和支持向量机(Support Vector Machine ,SVM )的多类别文本分类方法,有效加强了重点词汇的特征标引作用,并结合SVM 分类器进行多类别分类,达到了较满意的中文文本分类效果。
1基于改进TF ·IDF 的特征提取方法1.1向量空间模型针对文本的特征提取中,文本数据通常描述为向量空间模型(Vector Space Model,VSM )。
VSM 方法把非结构化的文本数据映射到一个特定的空间,将其表示成计算机可以识别的结构化的向量形式[3]。
针对M 个无序的特征词t i ,建立文本矩阵,每个文本d j 表示为特征向量a j =(a 1j ,a 2j ,…,a Mj )。
1.2改进的TF ·IDF 方法在TF ·IDF 计算过程中,只考虑了特征词频度和文档频度,而没有在语义层面上考虑特征词出现在文档中的位置因素。
结合中文文献的语义特点,出现在文献不同位置的特征词反映主题的重要程度不同,其对于文献分类的贡献程度也不同。
因此,本文为出现在文献不同位置的特征词赋予不同的权重λ。
中文文献大体可分为标题、摘要、关键字、正文和结论等五个部分。
其中,摘要部分是作者阐述文献主要论点和内容的重要区域,而标题和关键字给出了能够代表文献学科类别的核心词汇,因此,在这些区域出现的特征词最能代表该文献的主题,赋予最高的权重。
一种基于支持向量机和遗传算法的启发式多层文本分类算法

类别 树结构 上 的所有 叶节点 类别 看成平 等 的类 , 它不 能很好 地
应用 类别 间 的关 系 。后 者可 为不 同的级 别训 练不 同 的分 类器 , 枝节 点 的分类 器只关 心 当前 的不 同分枝 。
1 HMTC 算 法 的 框 架 . 3 A
遗传算 法 ( e ei Al r h G 起 源于 对生 物 系统所 进 G n t g i m, A) c ot
行 的计 算 机 模 拟 研 究 。 在 2 0世 纪 6 0年 代 , 国 密 西 根 大 学 的 美
类 别结 构 , 以更 好地 支 持浏 览 和查 询 , 使得 部分 规模 较 大 可 也 的分类 问题 通过 分治 的方法 得到 更好 的解决 。 目前 , 内外 学 国 者 对该领域 的研 究 已经取得 了许 多成果 。 本文在 支持 向量机 和 遗传 算 法 的基础 上 .提 出一 种新 的 启发 式 多层 文本分 类 算 法
中 图 分 类 号 :P 1 T 32 文献标识 码 : A 文 章 编 号 :6 2 7 0 (0 0 1— 0 2 0 17 — 80 2 1 )0 0 5 — 2
性 影射 把输 入 向量 X映 射到 一个 高维特 征 空 间 Z 在这 个 空问 ,
0 引言
文 本 分 类 是 基 于 文 本 内 容 将 待 定 文 本 划 分 到 一 个 或 多 个
类 。而 在类 别 较多 且关 系 比较 复杂 的情 况 下 , Itre 上 丰 如 nen t 富的 We b信息 资源管 理等 应用 ,就 需要 更好 的多 层信 息组 织 方 式 。多层 ( i acia) he rhc1文本分 类是 指多层 类别 关 系下 的分 类 r
问 题 , 对 的 类 别 间 存 在 类 似 于 树 或 有 向非 循 环 图 的多 层 分 级 面
利用SVM进行文本分类并研究特征选择对文本分类的影响

利用SVM进行文本分类并研究特征选择对文本分类的影响SVM(支持向量机)是一种常用于文本分类的机器学习算法。
它的主要思想是将文本数据映射到高维向量空间,并在此空间中构建一个超平面来实现分类。
特征选择是在特定的文本分类任务中选择最相关特征的过程。
本文将研究特征选择对SVM文本分类的影响。
一、SVM文本分类的基本步骤SVM文本分类的基本步骤包括数据预处理、特征提取、特征选择和模型训练四个主要阶段。
1.数据预处理:这一步骤包括去除文本中的停用词、标点符号等无用信息,同时进行词干化和词向量化处理,将文本转换为向量表示。
2.特征提取:常用的特征提取方法有词袋模型和TF-IDF模型。
词袋模型统计文档中每个词的出现频率,将其构成一个向量。
TF-IDF模型基于词袋模型,加入了对词频的权重调整,更准确地反映了词对文档的重要性。
3.特征选择:特征选择是从所有特征中选择最有用的特征,以提高分类器的性能。
常用的特征选择方法有信息增益、卡方检验和互信息等。
4.模型训练:最后,使用选择的特征和标注的训练集来训练SVM分类器,通过调整超参数,如正则化参数C和核函数类型等,来优化模型的性能。
特征选择在SVM文本分类中起着至关重要的作用,它能够减少特征维度,提高分类效果。
以下是特征选择对文本分类的影响:1.维度减少:文本数据往往具有高维度,而很多特征无关或冗余。
通过特征选择可以减少特征维度,消除冗余信息,提高计算效率。
2.加快训练速度:特征选择可以减少训练样本的数量,从而缩短SVM 模型的训练时间。
特征选择能够剔除一些对分类任务无关的特征,使得模型更快速地收敛。
3.提高分类性能:特征选择有助于找到与分类任务最相关的特征,去除冗余和噪声,从而提高分类器的泛化能力和分类性能。
4.解释性:选择最相关的特征可以增加对分类结果的可解释性。
通过特征选择,我们可以更好地理解哪些特征对分类有贡献,有助于进一步分析文本数据的规律和特点。
三、特征选择方法1.信息增益:信息增益是通过比较每个特征与分类结果之间的关联性来衡量特征的重要性。
文本分类聚类算法

文本分类聚类算法
文本分类聚类算法是一种将文本数据根据其内容或特征进行分类和聚类的方法。
常见的文本分类聚类算法有以下几种:
1. K-means聚类算法:K-means是一种基于距离的聚类算法,
可以用于将文本数据划分为k个不同的类别。
该算法通过迭代地更新类别的均值来找到最佳的聚类结果。
2. 层次聚类算法:层次聚类算法通过计算文本数据之间的相似度或距离来将其分层次地组织成一个层次结构。
这样可以通过设置层次结构中的切割点来得到不同的聚类结果。
3. 朴素贝叶斯分类算法:朴素贝叶斯分类算法是一种基于统计学原理的文本分类算法,它通过计算文本数据在不同类别下的条件概率来进行分类。
4. 支持向量机分类算法:支持向量机分类算法是一种基于机器学习的文本分类算法,它通过在特征空间中构建一个最优的超平面来实现分类。
5. 基于深度学习的分类算法:近年来,随着深度学习的发展,深度学习在文本分类聚类领域也得到了广泛应用。
常见的深度学习模型包括卷积神经网络(CNN)和循环神经网络(RNN)等。
这些算法在不同场景下有不同的适用性和性能表现,具体选择哪种算法需要根据具体问题和数据特点来决定。
使用支持向量机进行文本分类任务

使用支持向量机进行文本分类任务支持向量机(Support Vector Machine,SVM)是一种常用的机器学习算法,广泛应用于文本分类任务。
本文将介绍SVM的基本原理,以及如何使用SVM进行文本分类。
一、支持向量机的基本原理支持向量机是一种二分类模型,其基本原理是找到一个超平面,将不同类别的样本分开。
在二维空间中,这个超平面就是一条直线;在多维空间中,这个超平面就是一个超平面。
支持向量机的目标是找到一个最优的超平面,使得离该超平面最近的样本点到该超平面的距离最大化。
具体来说,SVM通过将样本映射到高维特征空间,将低维线性不可分的问题转化为高维线性可分的问题。
然后,通过求解约束最优化问题,找到一个最优的超平面。
在这个过程中,只有一部分样本点被称为支持向量,它们离超平面最近。
二、文本分类任务文本分类是将文本按照一定的标准划分到不同的类别中。
在实际应用中,文本分类任务非常常见,如情感分析、垃圾邮件识别等。
文本分类任务的关键是将文本表示成机器学习算法可以处理的形式。
常用的文本表示方法有词袋模型(Bag-of-Words)和词向量(Word Embedding)。
词袋模型将文本看作是一个词的集合,忽略了词序和语法结构。
词向量则将每个词映射到一个实数向量,可以保留一定的语义信息。
三、使用支持向量机进行文本分类在使用支持向量机进行文本分类时,首先需要将文本表示成机器学习算法可以处理的形式。
常见的方法是使用词袋模型或词向量。
1. 词袋模型词袋模型将文本表示为一个固定长度的向量,向量中的每个维度表示一个词的出现频率或权重。
可以使用TF-IDF等方法对词的重要性进行加权。
2. 词向量词向量将每个词映射到一个实数向量。
常见的词向量模型有Word2Vec和GloVe等。
词向量可以保留一定的语义信息,更适合表示文本的语义特征。
在将文本表示成机器学习算法可以处理的形式后,可以使用支持向量机进行分类。
具体步骤如下:1. 划分训练集和测试集将标记好类别的文本数据集划分为训练集和测试集,通常采用交叉验证的方法。
基于语义引导与支持向量机的中文文本分类

文本分类在人工分类时 ,主要通过语义进行判别 ,语义是
基金项目 :安徽省自然科学基金资助项目 (编号 :070416251) 。 作者简介 :毛雪岷 ,男 ,1974 年生 ,博士 ,副教授 ,研究方向为人工智能 、数据挖掘与知识管理 ;丁友明 ,男 ,1982 年生 ,硕士研究生 ,研究方向为数 据挖掘 。
文本的作者 ,机构 、标题等语义性特征) 并存储为结构化的形 式 ,以便计算机能够识别并进行处理 。
特征表示的过程就是特征化文本信息的过程 ,常用的目 标表示模型有布尔逻辑型 、向量空间型 、概率型等 ,近年来应 用较多且效果 较 好 的 特 征 表 示 法 是 向 量 空 间 模 型 ( Vector Space Model ,VSM) 法[1 ] 。在 VSM 中 ,将文本文档看成是一 组词条 ( T1 , T2 , …, Tn) 构成 ,对于每一词条 Ti 都根据其在 文档中的重要程度赋予一定的权值ωi , 因此每一篇文档都可 以映射为由一组词条矢量张成的向量空间中的一点 , 则文档 可以用词条特征矢量 ( T1 ,ωi , T2 ,ωi , …, Tn ,ωi) 表示 。词条 Tn 可以是文本中的所有的单词 , 也可以是所有的短语集合 , ωi 特征权值的计算方法通常用 tf i df i [2 ] 。设 tf i 是词条 Ti 在文 档 d 中出现的频数 , N 表示全部训练文档的总数 , df i 表示包 含词条 的 文 档 频 数 , 则 tf i df i 值 算 式 如 下 : tf i df i = tf i × log ( N / df i) 。在计算权值 tf i df i 时一般进行适当的规范化处 理[3 ] ,以降低高频特征对低频特征的过分抑制 。
基于支持向量机的文本分类研究

本文将 介绍基于支持向量机 (v ) s Ms 的文本分类基 本原 哩、 方法, 并给出 实现的例子。 2 文本 分类的基本原理 文本分类可以描述为这样一个 问题 :对于 每个新 到的 文本 .计算机 自动 判断它与 系统蜘 定的各 个文 本类别之 间
l( ct + (i=I( iop it o P ) P ) c t g ( i g( ) t ∑P i ) ( c ) /l /
其中 , 表示某特征词 , i 示第 i t c表 个类 , ≤i I p t 1 ≤f, () R
兄的统计量 ( 如频度 、 集中度 、 分布度等) 来选择该类别的局
3 支持 向■ 机 (V ) S MS
若 f )=1 ( z ,则 x 于用户定义的领域类 ,否则重复上 属 述过程 , x 使 加入该类。z () = x 可有 三种形式, 系统采用 本
径 向基 函数 ( B ) RF。
4 .系统 实 现 4 1训练 文档 集 的 采 集 .
支 持向量机 (V 是 一种建立在统计学习理论基础上 S M) 的机器学习方法, 它具有以下 4个理论要点 :1 非线性映射 () 是理论的基础;()对特征空间划分 的最优超平面 ( 眦 I 2 叩
特征。词集合 Wi Wi,… Wi , , ,l , =【 l m . wiI】其中 Wi 表 示条件概率。 i m 勾第 m个特征词 。 i L 表示该类 别的特征词 数。 所有类别的局 2 2特征词的权重
M a 2 02 v 0 Ge e lNo 9 nr . 5 a
l9 l
维普资讯
Kn t eg r oo d eWol l d
一
基于模糊支持向量机的文本分类

息将 以数 字化 的形式 存 在 ,这些 数据 具有很 强 的异 质性 、多变 性 、无 序性 。随着 信 息库积 累 的数据 和 主题 的海量 增 加 ,如何 高效 的检 索某 一主题 的所 有
信 息 至 关 重要 , 为有 效 地 管 理 和 利 用 这 些 海 量 信
第2 9卷第 5 期
V_ . 9 0 2 1 No. 5
辽宁工程技术 大学学报 ( 自然科学版 ) ! an g eh i l n esy( a rl c n e i i cnc i rt N t a S i c ) o In T aU v i u e
21 0 0年 1 0月
Oc . t 5 22 1 ) 50 7 —4 0 80 6 (0 0 0 .9 40
基 于模糊支持 向量机 的文本分类
包
摘
剑 ,冀
明,冯
军
( 宁工 程 技 术 大 学 职业 技术 学 院 ,辽 宁 阜 新 13 0 ) 辽 2 0 0 要 :为 了 有 效地 利用 信 息 技 术 发 展 而 产 生 的 海 量 信 息 , 息 检 索 与 数 据 挖 掘 得 到 了快速 的 发 展 ,通 过 对 传 统 信
( c t n l n e h ia olg , a n n c n c l ie st , x n1 3 0 , i a Vo ai a dt c n c l l e Lio igTe h ia v ri Fu i 2 0 0 Ch n ) o a c e Un y
Ab t a t I r rt fe tv l us nf r ai n t c no o y ge e ae ug mo nt f ma i n i o m ai n s r c : n o de e f ci ey ei o m to e h l g n r t sh e a u sofi or to , nf r to o n s a c n t ni g h s be n r pi v l p n ,of whih t x a e o i a i e h e r h a d daa mi n a e a d de e o me t c e t c t g rz ton t c nol g s t e d o o y i he f l f i
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( x i , y i ), i = 1,2, K , n, x ∈ R d , y ∈ {+1,−1} ,满足 y i (< x i , ω > +b ) − 1 ≥ 0
此 时 分 类 间 隔 γ = 2 ω ,为 使 间 隔 最 大 等 1)
ω
2
最小。满足条件
(3-2)
其中, α i > 0 ,称为拉格朗日乘子,将式(3-2)分别对 ω 和 b 求偏微分 并令其等于 0,可得到关系式 l l ∂L(ω, b, α ) = ω − ∑ y iα i x i = 0 ⇒ ω = ∑ y iα i x i ∂ω i =1 i =1
l ∂L(ω, b, α ) l = ∑ y iα i = 0 ⇒ 0 = ∑ y iα i ∂b i =1 i =1
maximize : W (α ) = ∑ α i −
i∈sv
1 ∑ ∑ α iα j y i y j < x i , x j > 2 i∈sv j∈sv
subject to
∑ α i yi = 0
i∈sv
(3-5)
该方法是在经验风险为零的前提下,保证了全体训练样本的正确率, 因此被称为硬间隔分类器。它通过最大化分类间隔获得最好的推广性能。 同时我们看到,通过把原问题转化为对偶问题,计算的复杂度不再取决于
二、 文本分类
文本分类的目的将文档归类到数目固定的且已预定义的类别中去。每个文档 可以被归为多类(multiple),归为单类(exactly one)和不属于任何类(no category at all)。我们的目标是通过机器学习从样本集学习出一个分类器,该 分类器能够自动地分类文本。这是一个监督学习问题。为了能进行快速有效的学 习,各类别的分类作为一个独立的二分类(binary classification)问题,这样 就解决了一个文档是否归类为特定类的类别。
(3-3)
将式(3-3)的等式关系代入到原始拉格朗日函数,最后得到 l 1 l (3-4) W (α ) = ∑ α i − ∑ α iα j yi y j < x i ⋅ x j > 2 i , j =1 i =1 因此,若 α * 为最优解,那么
ω ∗ = ∑ α i∗ yi x i
i =1
l
即最优超平面的权系数向量是训练样本向量的线性组合。 由于 W (α ) 的求解是不等式约束下的二次函数寻优问题, 存在全局最优解。 容易证明, 解中只有一部分(通常是少部分) α i 不为零,对应的样本就是支持向量。 支持向量包括了重构超平面的所有必要信息。即使移除所有其他点,仍然 可以为剩余的支持向量子集找到相同的最大间隔超平面。求解上述问题后 得到的最优分类函数是
的文档数目。
⎞ ⎛ n IDF ( wi ) = log⎜ ⎟ ⎜ DF ( w ) ⎟ i ⎠ ⎝
(2-1)
其中 n 表示训练文档的总数。直观上如果某个单词在许多文档中都出现过, 那么它的反向频率会较低,而如果只出现在一个文档上,那么它的方向频率是高 低的。为了从不同长度的文本进行抽象,每个文档特征矢量都将归一化成为单位 矢量。
2 最小的分类面就叫做最优分类面,H1,H2 上的训练样本
点就称作支持向量。 使分类间隔最大实际上就是对推广能力的控制,这是 SVM 的核心思想 之一。统计学习理论指出,在 N 为空间中,设样本分布在一个半径为 R 的 超球半径内,则满足条件 ω ≤ A 的正则超平面构成的指示函数集
f (x, w, b) = Sgn{< x, ω > +b}
三、 支持向量机
支持向量机(Support Vector Machine,SVM)是Vapnik等[1][2]提出 的 一 种 新 的 学 习 方 法 , 它 是 建 立 在 统 计 学 习 理 论 的 VC 维 ( Vapnik Chervonenkis Dimension)理论和结构风险原理基础上的,根据有限的样 本信息在模型的复杂性(即特定训练样本的学习精度)和学习能力(即无错 误地识别任意样本的能力) 之间寻求最佳折衷, 以期获得最好的推广能力。 支 持 向 量 机 的 最 大 特 点 是 根 据 结 构 风 险 最 小 化 (Structural Risk Minimization: SRM)准则,以最大化分类间隔构造最优分类超平面来提高 学习机的泛化能力,较好地解决了高维数、非线性、局部极小点等问题, 在训练样本数目相对较少的情况下也能取得很好的分类效果对于分类问 题,支持向量机算法根据区域中的样本计算该区域的决策曲面,由此确定 该区域中未知样本的类别。
的 VC 维,满足下面的界
h ≤ min([ R 2 A2 ], N ) + 1
因此使 ω 最小就是使 VC 维的上界最小, 从而实现 SRM 准则对函数复 杂性的选择。为了解决约束最优化问题,构造拉格朗日函数
2
l l 1 2 ( ) L = w − ∑ α i y i xi ⋅ w + b + ∑ α i 2 i =1 i =1
2.3 SVM 适合文本分类原因的讨论
为了指出基于 SVM 的文本分类是先进的,我们将发掘更多有关文本的属性 高维输入空间:为了学习文本分类器,我们需要处理高维特征(大于 10000 维) 。由于 SVM 是过拟合保护的,也即它不依赖与特征的维数,因此它有处理高 维特征空间的潜力。
图 2-2 使用非“最佳”特征学习
基于支持向量机的 文本分类技术
一、 引言
随着网络信息不断增长和丰富,文本分类(text categorization)已经成 为处理和组织文本数据的关键技术之一。文本分类用于(1)对新文本数据进行 分类, (2)在万维网(Wide World web:www)上发掘感兴趣的信息,以及(3) 通过超文本指导用户进行搜索。由于手工创建文本分类器复杂且耗时,通过样本 来学习分类器是有优势的。 本次实验,我们将探索和分析基于支持向量机(Support Vector Machine: SVM)文本分类技术的优点。SVM是由V. Vapnik等人[1][2]提出的一种新的学习 方法。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理 基础上的,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷, 以期获得最好的推广能力。 在对文本标准的特征向量表示进行简单的回顾之后(2.1),我们将详细讨论 文本以该形式表示的特殊属性(2.3)。我们将讨论支持向量机非常适合用于文本 分类的原因。第 3 部分将给出支持向量机的理论及具体实现算法。第四部分的实 验结果很好的支持了我们的观点。作为先进的方法,支持向量机表现出实质的性 能提升。进一步的,对比传统文本分类方法,SVM 被证明非常鲁棒,并且避免了 复杂的调参环节。
2.2 特征选择
文本分类通常都需要应对 10000 维甚至更高的特征空间,经常多于可用训练 样本的数目。许多工作都强调通过使用特征选择才能够让传统学习方法正常使 用,以及提高泛化正确率,以及避免过拟合[4]。 特征选择最常用的方法是选择一个特征子空间,例如 DF − Thresholding [4]、 χ 2 − test [5]等等。最普遍且通常最有效的特征选择方法是信息增益标准 (information gain criterion)[6]。它将被后面的实验部分使用。所有的单词 按照他们的信息增益进行排序。为了选择其中的 f 维特征,将选中互有信息最高 的 f 个单词,其它单词将被忽略。
2.1 文本表示
文本表示问题会对学习系统的泛化正确率产生较强影响。典型的文本多包含 字符串,需要转换成为适合分类任务的表示。IR 的研究表明单词频率统计表示 能够较好的工作,而字符顺序对许多任务影响相对较小。单词频率统计建立在去
除特定单词的时态和屈折信息基础上的。例如“computes”,“computing”和 “computer”都将被映射到相同的单词“compute”。 文本通过该方向将形成“属性-值”的表示方法。每一个不同的词 wi 对应一 个特征 TF ( wi , d ) ,作为单词 wi 在文档中出现的频率。图 2-1 表示一个样例文档 的特征向量。为了避免不必要的高维特征向量,某个单词被看为一维特征仅当它 在训练数据中至少出现了三次且非“停止单词” (例如“and”、 “or”等等) 。
图 2-1 将文本表示为一特征向量
基 于 这 种 基 本 表 示 , 已 经 被 证 明 将 某 个 单 词 的 反 向 文 档 频 率 (Inverse Document Frequency: IDF)[3]作为对应维的缩放因子能够提高性能。IDF ( wi ) 可 以通过文档频率(Document Frequency: DF)计算得到,其中 DF ( wi ) 表示存在 wi
少不相关特征:一种避免高维输入空间的方法是假设大多数特征是相互不相
关的。特征选择是基于上述假设的。不幸的是,文本分类中鲜见不相关的特征。 图 2-2 表示路透社“acq”类的实验结果。所有特征根据它们的互信息进行排列。 然后naïve贝叶斯分类器在训练阶段仅使用排序后索引值分别为 1 - 200,201 500,501-1000,1001-2000,2001-4000,4001-9947 的特征。图 2-2[16]表明即使 排序靠后的特征依然包含有效信息并且在一定程度上是相关的。仅使用那些“糟 糕”特征的分类器的性能比随机选择特征的好得多。正因为所有那些“糟糕”的 特征似乎并不是完全无用的,因此引发了以下两个猜测: (1)好的分类器应该能 够融合多特征, (2)特征选择由于信息损失似乎会降低分类器性能。 文档矢量是稀疏的:对于每一个文档,它对应的文档矢量只有少数分量是非 零的。已经有理论和实验的依据[7]证明基于“累加”算法的误差界模型更适合 处理多特征(dense concept)和稀疏样例(sparse instance)的情形。而“累加” 算法和SVM的感知阈值相似。 大多文本分类问题是线性可分的: 所有 Ohsumed 类别及许多路透任务都是线 性可分的。一些不可分的路透类别经常是由于不确定文档和标注者明显的误分 类。 SVM 的思想正是去寻找这样一个线性(或者多项式、 径向基函数等等)分界面。 以上讨论充分表明 SVM 能够很好地处理文本分类问题。