关于文本分类的研究-资料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于模式聚合和改进 2 统计量的文本降维方法
• 采用凝聚的层次法聚类算法,根据对模式进行
聚类(的每行表示一个模式)。将欧氏距离小 于一定阈值的模式进行聚类;
• 重新计算每个特征项的CHI值,根据CHI值大小
选择前L′个特征项
➢仿真实验 1
无模式聚合仿真实验1、传统 2统计量和模式聚 合的仿真实验2、改进的 2 统计量和模式聚合 的仿真实验3
间,去掉其余的特征,形成新的样本库C。
• ⑹按照新的样本库C建立新的神经网络分类器,分类器 对样本库C中所有样本分类的误差之和为ce。
• ⑺如果ce≤e 则i←mid-1,R← mid;否则 j←mid+1。 • ⑻如果i<j,转向第⑷步执行。 • ⑼将队列中后面的特征从样本的特征向量空间中删除,
得到新的特征向量空间。
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢ 改进的 2统计量
一般特征的CHI值为该特征对所有类别的 2 统计 量的平均值或最大值。在改进的 2 统计量上, 规定词条的CHI值为:
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
关于文本分类的研究-资料
文本挖掘概述
文本数据的特点:
• 半结构化或者无结构化 • 高维数据 • 大数据量 • 时变数据 • 语义性 • 无标签 • 分布式
文本挖掘的功能主要包括:
• 文本总结 • 文本分类 • 文本聚类 • 关联分析 • 分布分析 • 趋势预测
文本挖掘概述
• 本挖掘面临的研究课题
• ①令REDUCT为空, i ←1; • ②REDUCT←REDUCT∪ t i • ③如果REDUCT为决策表的属性约简,约简结束;否
则,如果i<R,令i←i+1,转步骤②,如果i=R,属性约 简失败。
• ⑹若不能得到属性约简,则将正整数L适当增大,
转步骤⑵,否则特征抽取结束。
基于CHI值原理和粗集理论的特征抽取 • 仿真实验
对样本集的属性求隶属度函数的个数k和 中心点集C的算法步骤如下:
• 确定k的可能最小值kmin和最大值kmax; • for k= kmin to kmax do:
• 将属性a的值域根据基于类信息熵的离散化
方法划分成个不相交的区域,步骤如下:
• 初始化区间TE,TE为属性a的值域;j←1; • 寻找将区间TE划分成两部分TE1,TE2且划分后
确定距离公式
m
D(xi,y) wj(1Ah)j x(ijyj)2 j1
基于特征权重修正的改进KNN方 法一
• 仿真实验
基于特征权重修正的改进KNN方法一
谢谢大家!
文本特征的降维方法
➢ 基于模式聚合和改进 2 统计量的文 本降维方法
➢ 基于CHI值原理和粗糙集理论的属性 约减的文本降维方法
➢ 基于神经网络的文本特征抽取方法
基于模式聚合和改进 2 统计量的文本降维方法
➢ 改进的 2统计量
CHI的主要思想是认为词条与类别之间符合 2 分布,词条的 2统计量表示词条对某个类别的 贡献大小。 2 统计量越高,词条和类别之间的 独立性越小、相关性越强,即词条对此类别的 贡献越大。 2 统计量的计算公式
低进行排序,选取CHI值大的前M个特征词条,则由此 得到的特征矩阵具有M个模式。
• 为比较各个模式对各类分类贡献比例是否一致,首先将 每个模式的改进 2 统计量统一处理到[-1,1]之间,处理 方式如下: Aijχi2j/(mam x in)
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
测试属性可以选择,则该结点为叶子;
• II.若不为叶子结点,计算此结点祖先中未曾使用过的属性
的分割模糊熵,选择分割模糊熵最小的属性作为此结点测试 属性,根据此测试属性在此结点上产生分枝;每个分枝再分 别递归调用createtree过程构造各个分枝。
• 对模糊决策树进行分枝合并
• 条件一:每个分枝具有完全相同的树型结构; • 条件二:相同位置的内部结点的测试属性相同; • 条件三:相同位置的叶结点的代表的类别相同。
91
110
31
A ij
基于CHI值原理和粗集理论的特征抽取
特征抽取的具体步骤为:
• ⑴计算出每个特征词条和类别的 2统计量; • ⑵指定正整数L,选择对每个类别贡献最大的L个词
条,并按照 2 统计量由大到小设置成一列。J个类 别就有J列,最终得到一个L×J矩阵A,A ij 是对类别 j按 2统计量由大到小排列在第i位的词条。
• ⑶将矩阵A中的特征词条按行排成一列。
若有相同特征词条,则将后面的特征词条删除,得 到一个特征词条有序表S,假设S含有R个特征词条。
基于CHI值原理和粗集理论的特征抽取
• ⑷根据特征词条有序表S中的每个特征词条是否出现,
得到决策表。
• ⑸对决策表的属性进行约简,进一步抽取特征。
若共含有R个特征词条,约简步骤为:
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
测试样本数量 正确识别样本数量 错误识别样本数量
分类正确率 决策树建树时间 抽取规则数量 抽取最大规则长度
仿真实验1 仿真实验2 仿真实验3
300
300
300
216
252
271
84
48
29
72%
84%
90.33%
30分43秒 3分17秒 3 分2秒
187
52
51
107
24
25
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢仿真实验 1
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
的类信息熵E(TE1, TE2)最小的划分点;j←2 ;
基于模糊决策树的文本分类规则抽取方法
• ③用②的方式分别求出每个区间TE1, TE2, …, TEj的
最小化分点,并计算出其类信息熵,选择满足信息熵 最小的区域进行划分;j←j+1
• ④重复第③步直到满足j等于k
• 求出k个区间中心集合,方法为:求出密度分布函数
Si
1 n n h1
ph0 phi ph0
基于神经网络的特征选择
基于神经网络的特征选择算法的具体步骤为:
• ⑴设定允许误差为e;
Baidu Nhomakorabea
• ⑵将所有特征按照灵敏度由大到小进行排序,
形成队列,此时特征数量为m;
• ⑶i←1;j←m;R ← m;
基于神经网络的特征选择
• ⑷mid←[(i+j)/2] //[ ]表示取整数 • ⑸取队列前mid的特征作为训练样本的新的特征向量空
• 计算每个特征的灵敏度:
对每一个特征 ,训练样本中所有样本的第个特征的值均 改为0,其他特征值不变,形成新的样本库Bi,然后在 样本库Bi的基础上,按照重新训练神经网络分类器,此 时神经网络分类器对训练样本库的样本h分类的预测值
为 p h i。则可根据公式计算特征的灵敏度:
基于神经网络的特征选择
基于模糊决策树的文本分类规则抽取方法二 仿真实验
基于特征权重修正的改进KNN方法一
DKNN算法的距离公式 :
计算每个特征对第个类的 2统计量和每个特征的CHI值,
求出特征j对第i类的分类作用影响因子
Aij χij2 /CHjI
根据灵敏度方法求得各个特征的权重法
m
wi Si / Sj j 1
• 还有一些常见的文本降维算法,主要包括基于文档频率方法、基 于分类频率和文档频率方法、IDF×TF方法,模拟退火算法等,
文本分类方法概述
文本分类方法主要包括基于传统技术的决策树、K最近邻 (KNN)、关联规则、支持向量机(SVM)、基于数据库 的算法、贝叶斯等分类算法和基于软计算的神经网络、粗 糙集、模糊逻辑和遗传算法。其中,基于软计算的方法通 过协同工作提供一种灵活的数据处理能力,其目标是实现 对不精确、不确定、部分信息的处理能力和近似推理能力, 以求能方便、稳健、低代价地逼近人类的分析判断能力。 模糊逻辑提供处理由于模糊而不是随机产生的不精确、不 确定性的算法,粗糙集则处理由于不可分辨关系导致的不 确定性,神经网络用于模式分类与聚类,而遗传算法则用 于优化和搜索。
经济 教育 军事
测试样
本篇数
80
80
80
正确分类
篇数
74
71
72
分类精度 92.5% 88.75% 90%
体育
80 69 86.25%
娱乐
80 70 87.5%
基于神经网络的特征选择
灵敏度求解
• 将整个训练样本库中的样本作为前馈神经网络的训练样
本,得到了一个神经网络分类器。此分类器对训练样本
库的样本h分类的预测值为 p h 0 。
• 文本的表示特征
经典的文本表示模型是向量空间模型
• 空间降维问题
• 基于评估函数的方法 :通常是通过在训练数据集上的统计来计算 每一特征的某种指标值,根据指标值的高低决定是否保留相应的 字或词,或者对相应特征加权,从而实现特征选择。主要有互信 息、信息增益、词频法[、CHI概率统计、期望交叉熵、几率比和 文本证据权
C AijiH χim 2j/I(m χ ai2 1 ax ,χ m xi2 { 2,in..χ )i.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢ 基于模式聚合理论的特征降维
基于改进的 2统计量和模式聚合方法的特征降维步骤如下:
• 计算每个词条对每类的改进的 2统计量。 • 计算出各个词条的CHI值。然后把特征按CHI值由高到
• 潜在语义索引 :利用概念标引代替关键词标引,从语义相关的角 度为文本选择标引词,而不考虑标引词是否在文本中出现,其通 过奇异值分解将词频矩阵转化为维数极大减小的奇异矩阵,用转 换后的文本向量进行文本挖掘处理。
• 主成分分析法:通过搜索最能代表原数据的正交向量,创立一个替 换的、较小的变量集来组合属性的精华,原数据可以投影到这个 较小的集合。
基于模式聚合和改进 2 统计量的文本降维方法
➢仿真实验2
测试样本数量 正确识别样本数量 错误识别样本数量
分类准确率 抽取规则数量 抽取最大规则长度
2 统计量和分枝 采用改进的 统2 计
合并的模糊决策树 量和分枝合并的模
方法
糊决策树方法
320
320
229
289
91
31
71.56%
90.31%
129
最大的点作为区间的隶属度函数的中心点。
• 求出F-统计量
• 选择令F-统计量最大的k和C为属性隶属度函数
的k和C。
基于模糊决策树的文本分类规则抽取方法一
• 所有样本的集合作为根结点,给定叶子判定标准δ; • createtree过程主要分两步:
• I.计算结点所有类别的相对频率 ,若有超过给定标准δ或无
当 n11 n22 n12 n2>1 0,词条和类别正相关 当 n11 n22 n12 n2<1 0,词条和类别负相关
改进的 2统计量
χ i2 j s( i n 1 g 1 n 2 n 2 n 1 2 n 2 )( 1 n 1 1 n 1 ) 2 n ( n 2 ( n 1 1 n 2 1 n ) 2 2 ( 2 n n 1 1 1 n 2 n 2 2 ) ) 2 1 1 ( n 1 2 n 2 )2
• ⑽整理样本库,将样本库中样本按照新的特征向量空间 表示,形成新的样本库。
基于神经网络的特征选择
• 仿真实验
基于神经网络的特征选择
基于模糊决策树的文本分类规则抽取方法 度量连续属性离散化性能的类信息熵
基于模糊决策树的文本分类规则抽取方法 密度分布函数
基于模糊决策树的文本分类规则抽取方法
χ i2 j (n 1 1n 1)2 n ( n 2 (n 1 1n 1 2 n 2 )2 2 (n n 1 1 1 2 n n 2 2) )1 1 2(n 1 2n 2)2
n11 n22 n12 n21
基于模式聚合和改进 2 统计量的文本降维方法 ➢ 改进的 2统计量
词条和类别的相关性是有正反两种情况的 :
相关文档
最新文档