基于模糊软集合理论的文本分类方法
基于模糊聚类算法的文本自动分类技术研究
基于模糊聚类算法的文本自动分类技术研究随着信息技术的不断发展,文本数据在我们的日常生活中变得越来越重要。
随之而来的挑战之一是如何对大量的文本数据进行自动分类。
本文将讨论基于模糊聚类算法的文本自动分类技术,探讨其原理、应用和潜在优势。
## 1. 引言文本分类是将文本数据划分为不同的类别或标签的过程。
这一技术在信息检索、情感分析、垃圾邮件过滤和新闻分类等领域具有广泛的应用。
传统的文本分类方法通常依赖于精确的特征提取和监督学习算法。
然而,这些方法对于大规模、高维度的文本数据面临挑战,而模糊聚类算法则提供了一种新的解决方案。
## 2. 模糊聚类算法### 2.1 概述模糊聚类是一种聚类分析技术,它允许一个对象同时属于多个不同的类别,而不是严格划分为某个类别。
这种模糊性在文本分类中具有重要意义,因为一篇文本可能涉及多个主题或类别,而不容易划分到某一个类别中。
### 2.2 模糊c-均值(FCM)模糊c-均值是一种常用的模糊聚类算法,它将每个文本分配到不同类别的隶属度。
这种模糊性的隶属度可以更好地反映文本与不同类别的关系。
FCM的核心思想是最小化目标函数,以确定每个文本与每个类别的隶属度。
### 2.3 模糊聚类的优势与传统的硬聚类方法相比,模糊聚类在文本分类中具有以下优势:- 考虑文本的多主题性。
- 允许文本在不同类别中具有不同的隶属度。
- 对噪声数据有一定的容忍度。
## 3. 文本自动分类的应用文本自动分类技术在多个领域有着广泛的应用,以下是一些典型应用:### 3.1 情感分析情感分析是一种文本分类任务,旨在确定文本中的情感倾向,如正面、负面或中性。
模糊聚类可以更好地处理情感分析中的主题多样性,因为一篇文本可能包含多种情感信息。
### 3.2 新闻分类新闻分类是将新闻文章划分为不同主题或类别的任务。
模糊聚类可以更好地处理新闻文章可能涉及多个主题的情况,而不必强行将其分为一个类别。
### 3.3 信息检索信息检索涉及从大量文档中检索与用户查询相关的文档。
基于模糊相似度的科技文献软聚类算法
最大 支撑 树 聚类 过 程 中类 间 和类 内相似 度变 化 的规律 自动识 别最 佳 聚类 数 及硬 聚类簇 。以硬 聚类 簇 为核
心将 内聚相 似度减 小到下 相 似度进 行 扩展 ,从 而形成相 应软 聚类 。
2 基 于模 糊 相 似 度 文 档 软 聚 类 算 法
2 .1 文本 表示
文本 的表示 方式 , 目前 采用 的是 基 于特征 的多维 向量 空 间模 型 V M: S
T={ T , , 是待 聚类 的文本 ,其 中 T , … T }
是 否 查看 全文 。所 以本文 采用 的从题 名 、关键 字 、摘要 中抽取 特 征 向量 :
( )将所 有 的文档关 键字 组成 分词 库 1
w ={ W W ,… } u… u { W W ,… } u… ={W 。W , ,… , }Wi 文 档 i W i 是 的第 j 个关 键 字 ,词
度 减 小到 下相似 度进行 扩 展 ,从 而形 成 相 应 软 聚 类。 实验 表 明该 算 法 能 够 有效 地 降低 特 征 维
数 、提 高软 聚 类精度 和速度 。
关键 词 :科技 文献 ;特征提 取 ;相 似度 ;软 聚类
中图分 类号 :T 3 1 P 9 文献标 识码 :A
维普资讯
第2 4卷 第 2期 20 0 7年 3月
贵州大学学报 ( 自然科 学 版 )
Ju a o uzo n es y( aua S i c s o r l f i u U i ri N trl c n e ) n G h v t e
基于模糊分类规则树的文本分类
基于模糊分类规则树的文本分类郭玉琴;袁方;刘海博【期刊名称】《东南大学学报(英文版)》【年(卷),期】2008(024)003【摘要】针对传统的基于关联规则的文本分类方法在分类文本时需要遍历分类器中的所有规则,分类效率非常低的问题,提出一种基于模糊分类规则树(FCR-tree)的文本分类方法.分类器中的规则以树的形式存储,由于树型结构避免了重复结点的存储,节省了存储空间.模糊分类关联规则与一般分类规则相比,不仅包含了词条信息,还包含了词条出现频度对应的模糊集,所以FCR-tree的构建过程及树的结构不同于一般规则树CR-tree.为降低构建及遍历FCR-tree的难度,采用了构造多棵k-FCR-tree的方法.在搜索规则树时,如果结点中的词条没在待分类文本中出现,则不需要再搜索该结点引导的子树,大大减少了需要匹配的规则的数量.实验表明该方法是可行的,与遍历分类器的分类方法相比,分类效率有了明显提高.%To deal with the problem that arises when the conventional fuzzy class-association method applies repetitive scans of the classifier to classify new texts, which has low efficiency, a new approach based on the FCR-tree (fuzzy classification rules tree)for text categorization is proposed. The compactness of the FCR-tree saves significant space in storing a large set of rules when there are many repeated words in the rules. In comparison with classification rules, the fuzzy classification rules contain not only words, but also the fuzzy sets corresponding to the frequencies of words appearing in texts. Therefore, the construction of an FCR-tree and its structure are different from a CR-tree. To debase the difficulty of FCR-tree construction and rules retrieval, more k-FCR-trees are built. When classifying a new text, it is not necessary to search the paths of the sub-trees led by those words not appearing in this text, thus reducing the number of traveling rules. Experimental results show that the proposed approach obviously outperforms the conventional method in efficiency.【总页数】4页(P339-342)【作者】郭玉琴;袁方;刘海博【作者单位】河北大学数学与计算机学院,保定071002;中国人民银行天津分行,天津300040;河北大学数学与计算机学院,保定071002;河北大学数学与计算机学院,保定071002【正文语种】中文【中图分类】TP393因版权原因,仅展示原文概要,查看原文内容请购买。
基于模糊VSM和RBF网络的文本分类方法
rsl,tea tmai ae o z t np icpei co et ema u l ae o z t nmeh d Fn l ea albl f emo e da— e ut h uo t c tg r ai r il ls t n a tg r ai to . ial t v i it o d l l c i o n s oh c i o yh a i y h t n a
Ab t a t Ai da e r b e f o u n u o t l s i c t n l s i c t n meh d i p o o e a e nf z y v co p c sr c : me t h o l ms d c me t t mai c a sf ai ,ac a sf ai t o r p s d b s do z e t rs a e t p o a c i o i o s u mo e dR d l BF n t r .T en t o ki c n t u e f n u y r h d e y r do t u y r h p t a e e f r l s i c t n n a e wo k h e w r o si t do i p t a e , i d nl e up ta e  ̄T ei u y r ro ms a sf ai s t l a n a l n l p c i o
Do u n l si c t nmeh db s do z yv co p c d l c me t a sf ai t o a e n f z e t rs a emo e c i o u a d RBF n u a ewo k n e rl t r n
xu h o h a S a — u , L io h n , P I a —o g X AN u - u Jn h i
基于模糊聚类的文本分类器
仅 模 存储 糊相似 矩阵R的 元 某一 素‘而 整个 非 矩
3 分类规则的构造及优化 用于对未知类别 的文本分类的每一条规则采
阵 Ro
用如右形式: - i z , 其中。 代表文 某 c -, , w ,w ' 一 ! w c , 本的 一主题类别,i r (=,, , 是构成规则的 we d i 2 二 ) W s 1 o r 特征词。 文本分类的 一条规则意味着当 一篇文本同 时包含 特征词,, , , 时, 把该文本划分到 3 z. , 可以 w .w . 主题类别。中。 。 根据特征词模糊相似度设计聚类算法, 将经过
q 二 “ 喜 ) q(‘ k ‘ ,( + T二 。 () , )
设: 共有m 类文本主 别: {,, o 题类 C cC " , 如 = ,Z- I c
果使用W r 表示文本特征词 os d 集合, 那么, 文本试
类似地, 类文本中 c , 特征词w和翻 同 ; , 时在一
通过“ 打结” 而能互相连接起来的节点元素属于同 一类。
征 ‘ w在c 文 中 来 不同 在 个 词二与 ; * 本 从 都 时 一 句 一 类 子中出 则Crww=。 说 它 对文 现, o(,) 这 明, 们 本主 r i;0
编网法聚类的时间和空间复杂度至少为。n () 2 (为聚类 n 元素个数).当 K 聚类元素数目 较大时, 这 题的刻画是“ 独立” 或者说它们对刻画文本主 的, 题 一方法的时间和空间开销将变得很大。因 在设 此, 的作用 不存在“ 关联性” Crww 值越大说明 。 o(i; r ,) 它 计聚类算法时不直接构造模糊相似矩阵R 也不需 , 们在刻画文本主题类别方面所起作用大小越相似, 要从矩阵R中生成矩阵凡。编网的基础是一个“ 不 可以将它们聚集到一起构成分类规则。 完整” 的模糊相似矩阵, 任一时刻在计算机内存中
一种新的基于软集合理论的文本分类方法
第 1 期
广西 师范 大学 学报 : 自然科 学 版
Ju n l f a g i r l ies y Naua S i c dt n o ra o n x Noma Unv ri : trl c n eE io Gu t e i
V o .2 N o.1 1 9
表 l J 个 n项 式 实 验 的 m ×n列 联 表 , 1
Ta b.1 J × n ab e , l t l
1Oi 示 第 J个 试验 的 第 i 观 察 值 ; i 示 第 个 随 机 变 量 在 所 有 m 次 试 验 中 的 观察 值 之 和 ; 表 示 第 J 试 验 中 所 有 一个 观 察 值 之 .) 表 个 O表 D 次 和 ; . 示所有试验中的所有观察值之和 。 o 表
软 集合 理 论是 1 9 9 9年提 出的 处理 模糊 对 象 的数 学工 具 , 年 来许 多 学 者对 其 理 论 和应 用 进行 研 究 。 近
如 文献 [ ] 出一种 基 于软 集合 文本 分类 方 法 。 7提 本文 在 文本 特征 选 择 阶段 采 用一 种新 的基于 独 立度 和齐性 C i 假 设 检验 的特 征选 择 方法 , 所 获取 h2 将
零假设 H。 : 为 随机 变 量 t与试 验 无关 , 0 =D 。 . =Oi。它 的检验 统计 量 表示 为 : 有 = . = _ ・
收 稿 日期 :0 01 —0 2 1—22
基金项 目: 国家 自然科学基金重 大研究计划培育项 目( 0 1 00 ; 9 7 8 2 )澳大利亚 A RC项 目( 0 6 0 0 DP 6 7 6 )
第2 8卷
。
㈩
当 日。 真时 , 为 第 个 多项式 实验 的第 个 观察值 的期 望可 表示 为 :
一种基于模糊VSM和神经网络的文本分类方法
万 方 数 据 库 中部 分 文档 数 据 为 例 验 证 了该 方 法 的有 效 性 。
文本 的类 属特 征 与类 模 式 之 间 的 模糊 映射 关 系 , 根
据 生成 的 模 糊 映射 关 系 可 对 测 试 文 本 进 行 分 类 。
集 合 中每 个文 本确 定 类 别 , 过 自动文 本 系 统 把 文 通
本 进 行归类 , 以帮 助人 们更 好 地 寻 找 需 要 的信 息 可 和知识 。传 统 的 文 本 分 类 研 究 有 着 丰 富 的 研 究 成 果 和广 泛 的应 用 实 践 , 而在 现 实 中 , 一 部 分 文 然 有 本 并不 能 精 确 地 归 入 某 一 个 类 别 , 靠 人 工 的 判 依
关键 词
ቤተ መጻሕፍቲ ባይዱ
文本分类
模 糊 向量 空间
神经 网络 A
模 糊特征 向量
特征提取
隶属度
中 图法 分类 号
T 3 13 P9. ;
文献标志码
数 据 挖 掘 ( aaMiig , 从 存 放 在 数 据 库 、 D t nn ) 是
出一 种 基于模 糊 向量 空 间模 型 和 B P神 经 网络 的解 决方 案 。首 先 选 取 均 匀 覆 盖 某 一 领 域 知 识 的若 干 类模 式组 成训 练 样本 集 , 后按 模 糊 特 征 提 取 构 造 然 模 糊 特征 向量 , 交 给 神 经 网 络 进 行 训 练 , 提 以获 得
类别 , 该类 别 收集 所 有 无 法 归 类 的文 本 。而 如 何 处 理一个 文 本属 于多 类 的 问题 , 以考 虑一 个 文本 和 可 所 有类 别 之 间的隶 属 关 系 , 如果 可 以得 到一 个 文 本
一种基于模糊VSM和神经网络的文本分类方法
一种基于模糊VSM和神经网络的文本分类方法潘俊辉;王辉【摘要】针对文本自动分类时可能存在一个文本属于多类的问题,提出了一种基于模糊向量空间模型和神经网络的文本自动分类方法.该方法采用模糊集理论,把特征项在文档中出现的位置作为反映文档主题的重要程度(隶属度),并在特征提取时充分考虑该位置信息,从而构造出模糊特征向量,使文本分类更接近手工分类方法.建立的网络由输入层、隐含层和输出层组成,其中输入层完成分类样本的输入,隐含层提取输入样本所隐含的模式特征,输出层用于输出分类结果.实验部分以万方数据库中部分文档数据为例验证了该方法的有效性.%A kind of text classification method based on fuzzy vector space model and neural networks is proposed to counter the problems that a text can be belongs to many types during the text classification. Fuzzy theory is adopted in the method to look the occuring position of feature items in text on as the importantdegree(membership)reflecteing text subject, and fully considered the position information while the features are extracted , thus the fuzzy feature vectors are constructed, as a result, the text classification is close to the manual classification method.The established networks are constituted of input layer, hidden layer and output layer, the input layer completes the inputs of classification samples, hidden layer extracts the implicit pattern features of input samples, the output layer is used to output the classification results. Finally the effectiveness of this method is proved by some documents of Wanfang data in experimental section.【期刊名称】《科学技术与工程》【年(卷),期】2011(011)009【总页数】4页(P2121-2124)【关键词】文本分类;模糊向量空间;神经网络;模糊特征向量;特征提取;隶属度【作者】潘俊辉;王辉【作者单位】东北石油大学,大庆,163318;东北石油大学,大庆,163318【正文语种】中文【中图分类】TP391.3数据挖掘(Data Mining),是从存放在数据库、数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解模式的非平凡过程[1]。
一种基于模糊聚类的汉语文本自动分类方法
一种基于模糊聚类的汉语文本自动分类方法
卢忠良;王家云;荣融;朱劲松;孙即祥
【期刊名称】《计算机应用与软件》
【年(卷),期】2003(020)010
【摘要】如何快速地整理海量信息,对不同的文本进行有效分类,已成为获取有价值信息的瓶颈.本文提出的中文文本分类方法,较好地解决了信息的实时分类问题,在实践中收到了良好的效果.由于汉语文本的特殊性,在分类器训练前对训练文本进行自动分词和降维预处理.许多文本往往可能归到多个类,因此分类算法采用模糊c-原型算法.实验表明,该方法综合效果较好,可以实现文本的快速分类.
【总页数】3页(P49-50,61)
【作者】卢忠良;王家云;荣融;朱劲松;孙即祥
【作者单位】国防科技大学电子科学与工程学院,长沙,410073;解放军61587部队,上海,200336;解放军61587部队,上海,200336;解放军61587部队,上海,200336;解放军61587部队,上海,200336;国防科技大学电子科学与工程学院,长沙,410073【正文语种】中文
【中图分类】TP3
【相关文献】
1.一种基于粗糙-神经网络的文本自动分类方法 [J], 王效岳;白如江
2.一种基于模糊聚类级进模冲切刃口设计的改进方法 [J], 吴彬;张小萍;王国伟
3.一种基于模糊聚类模型的动量轮健康性排序方法 [J], 季业;崔振;王雪涛;严嵘;刘
一帆
4.一种基于词上下文向量的文本自动分类方法 [J], 郭少友
5.一种基于改进模糊聚类算法的自适应典型日选取方法 [J], 邬浩泽;朱晨烜;张贻山;龙艳花
因版权原因,仅展示原文概要,查看原文内容请购买。
基于模糊软集合理论的文本分类方法
定义 1设 是给定的论 域, 是一个参数集 , 一个集合
对 (,) F E 被称为域 【上的一个软集合( f st , s t e) o 当且仅 当 F是 E到所有的 u子集 中某集合的映射 , F: P U , 中, 如 E () 其
i ma p d o t u z o tst h ae oy oft en w e tc n b c iv d tr u h te rd cin o o e a l nd c n tu to fte s p e no a fz y s f e,te c tg r h e tx a e a h e e h o g h e u to fs f s ttbe a o srcin o t h
[ y r s e t l sf ain sfstfzysfstfa r e cin muu lnomain Ke d ]tx a ict ;o ;uz o e;et e l t ; ta ifr t wo csi o te t u se o o
基于模糊VSM和RBF网络的文本分类方法
基于模糊VSM和RBF网络的文本分类方法
许少华;李小红;潘俊辉
【期刊名称】《计算机工程与设计》
【年(卷),期】2007(028)001
【摘要】针对文本自动分类问题,提出了一种基于模糊向量空间模型和径向基函数网络的分类方法.网络由输入层、隐层和输出层组成.输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来.该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类更接近手工分类方法.以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性.
【总页数】4页(P145-148)
【作者】许少华;李小红;潘俊辉
【作者单位】大庆石油学院,计算机科学与工程学院,黑龙江,大庆,163318;大庆石油学院,计算机科学与工程学院,黑龙江,大庆,163318;大庆石油学院,计算机科学与工程学院,黑龙江,大庆,163318
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于改进VSM的Web文本分类方法 [J], 胡晓;王理;潘守慧
2.基于聚类的VSM模糊标引模式下文本检索问题研究 [J], 刘海峰;张学仁;王倩
3.基于FVSM和自组织映射网络的Web文本自动分类方法 [J], 许增福;梁静国;田晓宇
4.基于改进模糊语法增量式算法的文本分类方法 [J], 龚静;黄欣阳
5.一种基于模糊VSM和神经网络的文本分类方法 [J], 潘俊辉;王辉
因版权原因,仅展示原文概要,查看原文内容请购买。
基于模糊-粗糙集的文本分类方法
基于模糊-粗糙集的文本分类方法
付雪峰;王明文
【期刊名称】《华南理工大学学报(自然科学版)》
【年(卷),期】2004(032)0z1
【摘要】在文本分类过程中,类别之间的重叠以及标志类别属性的不足会导致类别的边界之间出现模糊不确定性和粗糙不确定性,而传统的k-近邻方法无法解决这一问题;同时,在传统的k-近邻方法以及其他一些改进的k-近邻方法中,最优k值的选取需要通过训练得到.文中借助模糊-粗糙集理论来改进传统的k-近邻方法,并使用基于距离的邻域空间,以不经训练地确定适宜每个待分类文本的k值,最后将所提方法和其他一些k-近邻方法进行了实验比较,结果表明模糊-粗糙集方法能够在一定程度上提高分类的精度和召回率.
【总页数】4页(P73-76)
【作者】付雪峰;王明文
【作者单位】江西师范大学,计算机信息工程学院,江西,南昌,330027;江西师范大学,计算机信息工程学院,江西,南昌,330027
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于粗糙集与改进KNN算法的文本分类方法的研究 [J], 邵莉
2.基于粗糙集的文本分类方法在网络科技资源应用集成环境中的应用 [J], 侯凡;周
明全;耿国华;李杰
3.一种基于粗糙集的Web文本分类方法 [J], 阚言东;倪茂树;刘国庆
4.基于粗糙集和最小二乘支持向量机的文本分类方法 [J], 张庙林;牛犇
5.基于粗糙集和最小二乘支持向量机的文本分类方法 [J], 张庙林;牛犇
因版权原因,仅展示原文概要,查看原文内容请购买。
基于模糊认知图的文本分类模型研究_张薇娟(1)
相互作用模拟系统的动态行为, 它自身相当于一个非线性
动力系统, 像神经网络一样, 它将输入映射为输出平衡态。
每 个 输 入都 在 虚 拟空 间 中 开辟 一 条 通路 。在 简 单模 糊 认 知
图中, 通路终止于一个不动点或极限环。在复杂的模糊认
知 图 中 , 通 路 可 能 终 止 于 一 个 非 周 期 的 或“ 混 沌 ”的 吸 引
Fuzzy Cognitive Maps( FCM) 是 在 认 知 图 的 基 础 上 , 将 模 糊 集 理 论 融 入 , 把 概 念 间 的 逻 辑 关 系 从{- 1, 0, 1}扩 展 为 区 间 [- 1, 1], FCM 把 知 识 存 储 在 概 念 与 概 念 间 的 关 系 中, 通过概念间的关系来表示模糊推理, 概念节点的输出 与两种类型水平有关, 即概念节点自身的状态水平与外部 因果联系的强度, 通过整个网络中各概念节点的相互作用 来 模 拟 系 统 行 为 , 是 一 种 无 监 督 模 型 (uns upe rvis e d
基于模糊集的文本分类技术研究
基于模糊集的文本分类技术研究随着互联网的发展,我们所面临的文本数据呈现出爆炸式的增长趋势,如何对这些海量的文本进行分类成为了一个非常重要和热门的研究方向。
目前,文本分类技术被广泛应用于安全监控、搜索推荐、电商推荐和情感分析等领域。
本文将基于模糊集理论,探讨其在文本分类中的应用以及其效果。
一、概述文本是信息的载体之一,它包含着大量的隐含信息和知识。
因此,文本分类成为信息处理和知识发现中最重要的组成部分之一。
文本分类从数据挖掘、机器学习、自然语言处理、信息检索等领域集成了多种技术手段,如朴素贝叶斯、KNN、SVM等经典算法。
但是,这些算法都只是在样本分类明确、对比明显的情况下,取得了较好的分类性能,而在样本少的情况下,它们往往不能很好的进行分类。
此时,模糊集理论可以为文本分类提供一个很好的解决方案。
二、模糊集理论模糊集理论是一种用来描述语言学和认知科学中的模糊概念的数学理论。
它在处理不精确或不确定问题方面具有广泛应用。
其核心是将“非绝对的事物”表示成若干个隶属程度不同的隶属函数,即“集合函数”,这样就可以将某个事物从全集中抽象出来形成它的“模糊集合”。
三、模糊集在文本分类中的应用在传统的文本分类方法中,每个样本只被划分到一个类别中,即存在绝对的类别划分。
但是,在现实中,有些文本存在比较模糊的归属关系,比如新闻稿件、文学作品等,这些文本常常具有多个主题。
因此,将文本的分类也转化为了一种模糊的划分。
而模糊集理论为这种模糊的文本分类提供了一种解决方案。
模糊集理论将每个样本划分到各个类别中的概率认为是一个隶属函数。
对于每个文本,模糊集理论可以用多个隶属函数表示它的多个语义。
在这个过程中,选取合适的隶属函数非常关键。
通常比较常见的隶属函数模型包括线性隶属函数、指数隶属函数和S型隶属函数。
四、模糊集文本分类的优势相比于传统的文本分类方法,基于模糊集的文本分类具有以下优势:1. 系统灵活性高传统的文本分类方法最大的弊端在于某个文本必须被赋予一个唯一的分类标签,然而这种分类方法在混淆的情况下往往无法精确分类,而基于模糊集的文本分类方法可以给出有关于文本在多个类别下的概率,因此可以使用一个模糊的弱分类系统来实现该任务。
基于模糊集和支持向量机的文本流派分类方法
基于模糊集和支持向量机的文本流派分类方法
朱艳辉;阳爱民;杨伟丰
【期刊名称】《计算机工程与应用》
【年(卷),期】2008(44)11
【摘要】针对目前流派分类技术分类性能不够好的问题,将支持向量机和模糊集理论的优点结合起来,提出了一种基于模糊集和支持向量机的文本流派分类方法.并以电影评论作为数据集,比较和分析了该方法在不同文本特征生成方法、不同特征数目下的分类效果,并与SVM方法进行了比较,实验结果表明其微平均查准率要优于SVM方法.理论和实验都证明了提出的方法可以取得较好的分类性能.
【总页数】4页(P145-147,157)
【作者】朱艳辉;阳爱民;杨伟丰
【作者单位】湖南工业大学,计算机与通信学院,湖南,株洲,412008;国防科学技术大学,计算机学院,长沙,410073;湖南工业大学,计算机与通信学院,湖南,株洲,412008【正文语种】中文
【中图分类】TP301
【相关文献】
1.基于支持向量机的不均衡文本分类方法 [J], 高超;许翰林
2.基于粗糙集和最小二乘支持向量机的文本分类方法 [J], 张庙林;牛犇
3.基于粗糙集和最小二乘支持向量机的文本分类方法 [J], 张庙林;牛犇
4.基于主题模型和支持向量机的文本情感分类方法 [J], 王华
5.基于主题模型和支持向量机的文本情感分类方法 [J], 王华
因版权原因,仅展示原文概要,查看原文内容请购买。
基于模糊粗糙集的Web文本分类
基于模糊粗糙集的Web文本分类
孙海虹;丁华福
【期刊名称】《计算机技术与发展》
【年(卷),期】2010(020)007
【摘要】网络信息的多样性和多变性给信息的管理和过滤带来极大困难,为加快网络信息的分类速度和分类精度,提出了一种基于模糊粗糙集的Wdb文本分类方法.采用机器学习的方法:在训练阶段,首先对Web文本信息预处理,用向量空间模型表示文本,生成初始特征属性空间,并进行权值计算;然后用模糊粗糙集算法来进行信息过滤,用基于模糊租糙集的属性约简算法生成分类规则:最后利用知识库进行文档分类.在测试阶段,对未经预处理的文本直接进行关键属性匹配,经模糊粗糙因子加权后,用空间距离法分类.通过试验比较,该方法具有较好的分类效果.
【总页数】4页(P21-24)
【作者】孙海虹;丁华福
【作者单位】哈尔滨理工大学计算机科学与技术系,黑龙江,哈尔滨,150080;哈尔滨理工大学计算机科学与技术系,黑龙江,哈尔滨,150080
【正文语种】中文
【中图分类】TP301
【相关文献】
1.一种基于人工免疫的Web文本分类方法研究——以Web信息分类为例 [J], 何晓庆;贾钊
2.基于朴素贝叶斯的Web文本分类及其应用 [J], 包小兵
3.基于稳健模糊粗糙集模型的多标记文本分类 [J], 张晶;李德玉;王素格;李华
4.一个基于朴素贝叶斯方法的web文本分类系统:WebCAT [J], 余芳
5.基于Web技术的航天文本分类系统研究与应用 [J], 徐建忠;朱俊;赵瑞;张亮;李娇娇
因版权原因,仅展示原文概要,查看原文内容请购买。
基于模糊综合评判的文本自动分类算法
基于模糊综合评判的文本自动分类算法
陈勤;张国煊;王小华
【期刊名称】《计算机应用与软件》
【年(卷),期】2001(018)009
【摘要】文本分类在文献检索、信息过滤、数据组织、信息管理等领域中应用十分广泛.本文给出了一种基于模糊综合评判的文本自动分类算法,该算法以文本分词技术作为基础,以类间词频方差作为评判因素的选择依据,通过预定义类中关键词的词频均值高低构造评判矩阵,以最大隶属度作为评判原则.文中详细描述了算法的理论依据、评判因数的选择、评判矩阵的构造及分类算法.实验结果表明本文提出的分类算法具有相当的应用价值.
【总页数】4页(P56-59)
【作者】陈勤;张国煊;王小华
【作者单位】杭州电子工业学院计算机科学与技术系,;杭州电子工业学院计算机科学与技术系,;杭州电子工业学院计算机科学与技术系,
【正文语种】中文
【中图分类】TP3
【相关文献】
1.LDA模型下文本自动分类算法比较研究——基于网页和图书期刊等数字文本资源的对比 [J], 李湘东;潘练
2.基于KNN的烟草企业档案文本自动分类算法研究 [J], 黄世反;沈勇;康洪炜;王道
红;郑见琳;郎波;王冬;贾丛丛;;;;;;;;
3.基于贝叶斯算法的蒙古语文本自动分类研究 [J], 都兰;金罡;
4.基于语料库文本自动分类算法及应用比较研究 [J], 许和旭;王兰成
5.基于语料库文本自动分类算法及应用比较研究 [J], 许和旭;王兰成
因版权原因,仅展示原文概要,查看原文内容请购买。
模糊聚类软分类问题的最佳分割
模糊聚类软分类问题的最佳分割
陈武凡
【期刊名称】《小型微型计算机系统》
【年(卷),期】1992(013)006
【摘要】本文就模糊聚类的软分类问题,证明了任意分类数下,与聚类目标函数最小值对应的分割不一定为最佳分割;另从模糊等价关系矩阵出发,通过对改进聚类目标函数的最小值分析,确定了软分类问题的最佳分类数与最佳分割方式.最后提供的仿真实例表明本文提出方法的正确.
【总页数】7页(P18-24)
【作者】陈武凡
【作者单位】无
【正文语种】中文
【中图分类】O235
【相关文献】
1.基于塔分割和多中心模糊聚类的医学图像分割 [J], 温智韡;吴效明;郭圣文;劳丽
2.基于最佳分割目标优化的医学图像分割方法 [J], 王晓磊
3.颅脑MRI图像模糊聚类分割算法中模糊聚类数的讨论 [J], 楚存坤;李月卿;王昌元;王世刚
4.用最佳智能梯形分割法分割文本 [J], 蒋光明
5.基于遗传算法最佳阈值分割的矿石图像分割 [J], 张建立;孙深深;秦书棋
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方法进行分类精度测试,其中,KNN方法选择K=35;SVM方法选择LIBSVM 包 作为分类器,具体分类结果如表 3 所示。
从表 3 实验数据可以得出以下结论: (1)基于软集合理论的文本分类与宏平均指标和微平均指标相比,KNN, SVM 算法都有所提高。
(2)当选择的特征数增多时,基于软集合理论的分类方法在查准率与 查全率上也会相应的提高,但当特征数达到一定数量时,相应指标变化甚 微,有时甚至出现略微下降情况。
(6)给定一个待分类的文本,计算出其特征向量 Vf 。 (7)由 Vf与步骤(5)中所得的表格构成新的表格,新表单元格 Vij计算公 式如下:
Vij 1
| Vij V fj | max(Vij )
(8)根据步骤(7)得到的软集合图表求出其对照表。 (9)由式(2)~式(4)求出步骤(8)中对照表的 Si,i =1,2,…,C。 (10)求出最优 Ci = maxi Si ,即待分类文本的所属类别。
1 概述
软集合理论是学者于 1999 年提出的一种新的处理不确定、模糊及未被 清楚定义的对象的数学工具。目前被广泛应用处理不确定性问题的数学理论 和工具有:概率论,模糊集理论,区间数学,粗糙集等,但是所有这些理论 和结果都有其不完善的方面,产生这些问题的主要原因在于参数化工具的不 足。而软集合理论就是处理不确定性且不存在上述问题的强有力数学工具。 当前,有越来越多的学者投入到软集理论及应用的研究,有文献对软集的基 本理论进行了研究,并给出软集在决策中的一些应用;Cheng 和 Tsang 给 出了基于软集理论的属性约简方法并和粗糙集中的属性约简作了相应的比较; 有文献在考虑增加属性及次优选择问题上给出了正则化属性约简原理并给出 相应的约简算法;Zhou 和 Xiao给出使用软集来分析不完备信息系统的方法。 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,数量 巨大的训练样本和过高的向量维数是文本分类的 2 大特点。这 2 个特点决 定了文本分类问题是一个运算时间和空间复杂度很高的问题。目前产生一些 可用的分类系统,并取得了一定的成果,但仍然存在很多尚未解决的问题,
(2)从F中选择满足式(1)的 fi 并设臵 S fi , F F \ fi 。
4按照第3节方法对训练集中文本进行特征选择得到文本的特征属性集, 对所有训练集中的文本提取得到文本的特征向量。在进行文本分类时,以 文本的特征属性作为参数集为训练集中的样本文本,按文献[2]中类似的 图表方式,文本知识系统表示见表 1(因为文本特征属性有几千维,样本 量很大,所以表中只给出部分样本及部分属性)。
5 实验结果分析
为了验证基于软集合理论的文本分类方法的性能采用复旦大学国际数 据库中心李荣陆提供的中文文本分类语料库作为训练集和测试集,从中提 取知识并对分类算法进行评价,1882 篇文本作为训练集,934 篇文本作 为测试集,其中的文本涉及 10 个主题:即交通、体育、军事、医药、政 治、教育、环境、经济、艺术、计算机。 评价分类性能[7]的 2 种常用指标是准确率 p 和召回率 r 。为了评 估算法在整个数据集上的性能,有 2 种平均的方法可供使用,分别称为 宏平均(macro_average)和微平均(micro_average)。宏平均是每一个类的 性能指标的算术平均值,而微平均是每一个实例(文档)的性能指标的算术 平均。分别从以下 2 个方面来对基于软集合理论的分类方法进行测试: (1)选不同数量的特征时分类器的性能; (2)与 KNN 和 SVM 分类器的性能比较。 在实验中选择特征数从 400~2 800 之间对 KNN, SVM 及基于软集合
算法1 基于 NMIFS 特征选择算法 输入 N个样本χ,目标类别c(每个样本含M个属性 F={fi,i=1,2,…,M}) 输出 特征子集 S Step1 初始化:给出特征集F={fi ,i=1,2,…,M},S = {φ}为空集。 Step2 对每个特征 fi ∈ F,计算I(fi, c)。 fi max I ( f , c ) F F \ fi 。 Step3 选出第1个特征 ,使得 S fi , i i 1,2,..., M Step4 进行贪心选择:重复以下(1)、(2)直到 |S| = k,其中,|S| 为候选集合S的维度。 (1)对所有的 (fi,fs)计算 I(fi,fs ),其中,fi ∈ F,fs∈ S且 (fi,fs) 这一对互信息没有被计算过;
ek A 1k ek A 2k ek A nk ek E B 1k ek E B 2k ek E B nk
3 基于 NMIFS 的特征选择算法
文本分类中的训练集的向量维数往往非常庞大,可以达到几万维,所 以,要对维数进行压缩是文本分类的主要任务之一,它一方面提高了程序 的效率和运行速度,另一方面也是关键的方面,由于各个类别都普遍存在 对分类没有多大影响的词,因此去掉那些词不仅能压缩维数,而且还能把 对分类起代表性的词体现出来,提高了分类精度。本文采用正则化互信息 特征选择方法(NMIFS),并且提出一种贪心选择算法对文本集进行特征选 择,该方法既考虑了特征与类别的互信息,也计算了特征与特征之间的互 信息,解决了文本中相近的特征同时被选择而导致的性能下降问题,并且 能够得到较优的特征子集,具体算法如下: 设给定输入数据χ含N个样本,每个样本有M个属性F={fi,i=1,2,…,M}, 目标类别变量为c,特征选择问题就是要找出最能刻化c的一个含有m个特征 {fi}的特征子集 S,NMIFS第m个特征选择公式如下:
文本分类算法的研究不完整、文本的特征选择和特征抽取方法有待进一步 改进,基于此,本文首先在文本特征选择阶段提出一种新的基于正则化互 信息的特征选择算法,然后结合软集合理论与文本分类的特点提出一种基 于软集合理论的文本分类新方法。
2 软集合相关理论
为了叙述方便,给出软集合相关理论: 定义1 设U是给定的论域,E 是一个参数集,一个集合对 (F,E)被称 为域U上的一个软集合(soft set)当且仅当F是E到所有的U子集中某集合的 映射,如 F:E → P(U),其中,P(U )是U的幂集。 软集合是U的子集的一个参数族。该参数族中每个集合F(ε)(ε∈ E) 可以看成软集合(F,E)的ε个元素的集合,或者是软集合的ε个相似元素 的集合。 定义2 若有一个二元运算符,记为*,(F,A) 与(G,B)为论域U上的 2 个软集,那么在软集上的运算*可以定义为:(F,A) * (G,B)= (H,A×B), 其中,H(α,β)= F(α)* G(β),a ∈ A, b ∈ B,A×B是集合A与集合B的 笛卡尔集。
基于软集合理论的文本分类算法首先要把文本特征向量表示为软集 合图表,再根据最优值不变原则进行约简,最后选择最佳分类,具体算 法如下: 算法2 基于软集合理论的分类算法 输入 训练样本的特征向量与待选择的文本特征向量 输出 所属类别 (1)由训练样本的特征向量,构造软集合图表。 (2)采用正则化参数约简法[3]进行约简。 (3)计算每个文本类别的聚类中心特征向量。 (4)重复步骤(3)直到求出所有类别的中心特征向量。 (5)由步骤(4)中c个类别中心向量构造一个C×M 软集合图表,其中, M为约简后的文本的特征属性个数;C为预先划分好的文本类别数,每个 单元格为 Vij(i=1,2,…,n,j=1,2,…,m),矩阵每一行Ci为一个文本类别 的中心特征向量。
基于模糊软集合理论的文本分类方法
摘 要:为提高文本分类精度,提出一种基于模糊软集合理论的文本分类方 法。该方法把文本训练集表示成模糊软集合表格形式,通过约简、构造软集 合对照表方法找出待分类文本所属类别,并针对文本特征提取过程中由于相 近特征而导致分类精度下降问题给出一种基于正则化互信息特征选择算法, 有效地解决了上述问题。与传统的 KNN 和 SVM 分类算法相比,模糊软集合 方法在文本分类的精度和准度上都有所提高。 关键词:文本分类;软集合;模糊软集合;特征选择;互信息
r i
c
j 1
n
n
ij
,i =1,2,…,n
(2)
第j列总和记为 tj ,其计算如式(3)所示:
tj
c , j =1,2,…,n
i 1 ij
(3)
给每个对象 oi 赋于一个重要性值Si ,其计算公式如下: Si = ri − ti i =1,2,…,n (4)
4.3 基于软集理论的分类算法
4.2 软集合(F,E)对照表的构造 一个含有n个对象的软集合(F,E)其对照表由n行n列构成,其中,n为 软集合中对象个数,表中单元格记为Cij ,其取值为:在软集合(F,E)中对 象Xi 的取值大于等于Xj 值所对应的参数个数。显然有 0≤Cij≤d 且 Cij = d, ∀i,j,d 为参数集E中参数个数,因此,Cij 为对象oi 在Cij 个属性上取 值上大于等于oj ,表1所对应的对比表如表2所示:
定义3 P(U)为U上所有模糊集,E 为一参数集,Ai ⊂ E,集合( Fi , Ai )被称为U上的一个模糊软集当且仅当 Fi 是Ai到P(U)的一个映射,如 : Fi: Ai → P(U) 。 定义4 一个信息系统可以形式化为 S=(U,A),其中,U为对象的非空 有限集合;A 为属性的非空有限集合,并且使得满足对于任意的 a ∈ A 有 :a:U → Va,V为属性 a 的值域。 定义5 对模糊软集(F,E), E ={e1,e2,…,em},若存在E的子集 A ={e`1,e`2,…,e`p}满足 h h h ,则A不是必要的,否则A是必要的。 若B是必要的且 h h h ,则B为E的一个正则化约简,即E-B是 满足fE-B( .)为一常数的E的最大子集。