关于文本分类的研究-资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
χ i2 j (n 1 1n 1)2 n ( n 2 (n 1 1n 1 2 n 2 )2 2 (n n 1 1 1 2 n n 2 2) )1 1 2(n 1 2n 2)2
n11 n22 n12 n21
基于模式聚合和改进 2 统计量的文本降维方法 ➢ 改进的 2统计量
词条和类别的相关性是有正反两种情况的 :
• 文本的表示特征
经典的文本表示模型是向量空间模型
• 空间降维问题
• 基于评估函数的方法 :通常是通过在训练数据集上的统计来计算 每一特征的某种指标值,根据指标值的高低决定是否保留相应的 字或词,或者对相应特征加权,从而实现特征选择。主要有互信 息、信息增益、词频法[、CHI概率统计、期望交叉熵、几率比和 文本证据权
文本分类方法概述
文本分类方法主要包括基于传统技术的决策树、K最近邻 (KNN)、关联规则、支持向量机(SVM)、基于数据库 的算法、贝叶斯等分类算法和基于软计算的神经网络、粗 糙集、模糊逻辑和遗传算法。其中,基于软计算的方法通 过协同工作提供一种灵活的数据处理能力,其目标是实现 对不精确、不确定、部分信息的处理能力和近似推理能力, 以求能方便、稳健、低代价地逼近人类的分析判断能力。 模糊逻辑提供处理由于模糊而不是随机产生的不精确、不 确定性的算法,粗糙集则处理由于不可分辨关系导致的不 确定性,神经网络用于模式分类与聚类,而遗传算法则用 于优化和搜索。
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢ 改进的 2统计量
一般特征的CHI值为该特征对所有类别的 2 统计 量的平均值或最大值。在改进的 2 统计量上, 规定词条的CHI值为:
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
文本挖掘中最基本的两项工作就是分类和聚类,几乎在所 有文本挖掘的应用领域都离不开文本的分类和聚类。文本 分类是文本挖掘的一个重要内容,是指按照预先定义的主 题类别,为文档集合中的每个文档确定一个类别。通过自 动文本系统把文档进行归类,可以帮助人们更好地寻找需 要的信息和知识。在人们看来,分类是对信息的一种最基 本的认知形式。传统的文献分类研究有着丰富的研究成果 和相当的实用水平。但随着文本信息的快速增长,特别是 Internet上在线文本信息的激增,文本自动分类已经成为处 理和组织大量文档数据的关键技术。现在,文本分类正在 各个领域得到广泛的应用。但是,随着信息量日趋丰富, 人们对于内容搜索的准确率、查全率等方面的要求会越来 越高,因而对文本分类技术需求大为增加,如何构造一个 有效的文本分类系统仍然是文本挖掘的一个主要研究方向
基于模式聚合和改进 2 统计量的文本降维方法
• 采用凝聚的层次法聚类算法,根据对模式进行
聚类(的每行表示一个模式)。将欧氏距离小 于一定阈值的模式进行聚类;
• 重新计算每个特征项的CHI值,根据CHI值大小
选择前L′个特征项
C AijiH χim 2j/I(m χ ai2 1 ax ,χ m xi2 { 2,in..χ )i.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢ 基于模式聚合理论的特征降维
基于改进的 2统计量和模式聚合方法的特征降维步骤如下:
• 计算每个词条对每类的改进的 2统计量。 • 计算出各个词条的CHI值。然后把特征按CHI值由高到
关于文本分类的研究
王煜
文本挖掘概述
文本数据的特点:
• 半结构化或者无结构化 • 高维数据 • 大数据量 • 时变数据 • 语义性 • 无标签 • 分布式
文本挖掘的功能主要包括:
• 文本总结 • 文本分类 • 文本聚类 • 关联分析 • 分布分析 • 趋势预测
文本挖掘概述
• 本挖掘面临的研究课题
文本特征的降维方法
➢ 基于模式聚合和改进 2 统计量的文 本降维方法
➢ 基于CHI值原理和粗糙集理论的属性 约减的文本降维方法
➢ 基于神经网络的文本特征抽取方法
基于模式聚合和改进 2 统计量的文本降维方法
➢ 改进的 2统计量
CHI的主要思想是认为词条与类别之间符合 2 分布,词条的 2统计量表示词条对某个类别的 贡献大小。 2 统计量越高,词条和类别之间的 独立性越小、相关性越强,即词条对此类别的 贡献越大。 2 统计量的计算公式
• 潜在语义索引 :利用概念标引代替关键词标引,从语义相关的角 度为文本选择标引词,而不考虑标引词是否在文本中出现,其通 过奇异值分解将词频矩阵转化为维数极大减小的奇异矩阵,用转 换后的文本向量进行文本挖掘处理。
• 主成分分析法:通过搜索最能代表原数据的正交向量,创立一个替 换的、较小的变量集来组合属性的精华,原数据可以投影到这个 较小的集合。
• 还有一些常见的文本降维算法,主要包括基于文档频率方法、基 于分类频率和文档频率方法、IDF×TF方法,模拟退火算法等,
文本挖掘概述
• 文本相似性度量问题 • 模式的理解和可视化显示 • 一词多义和多词一义问题 • 跨语言问题 • 算法的选择 • 领域知识集成 • 中文文本分词技术
文本分ห้องสมุดไป่ตู้方法概述
当 n11 n22 n12 n2>1 0,词条和类别正相关 当 n11 n22 n12 n2<1 0,词条和类别负相关
改进的 2统计量
χ i2 j s( i n 1 g 1 n 2 n 2 n 1 2 n 2 )( 1 n 1 1 n 1 ) 2 n ( n 2 ( n 1 1 n 2 1 n ) 2 2 ( 2 n n 1 1 1 n 2 n 2 2 ) ) 2 1 1 ( n 1 2 n 2 )2
低进行排序,选取CHI值大的前M个特征词条,则由此 得到的特征矩阵具有M个模式。
• 为比较各个模式对各类分类贡献比例是否一致,首先将 每个模式的改进 2 统计量统一处理到[-1,1]之间,处理 方式如下: Aijχi2j/(mam x in)
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
n11 n22 n12 n21
基于模式聚合和改进 2 统计量的文本降维方法 ➢ 改进的 2统计量
词条和类别的相关性是有正反两种情况的 :
• 文本的表示特征
经典的文本表示模型是向量空间模型
• 空间降维问题
• 基于评估函数的方法 :通常是通过在训练数据集上的统计来计算 每一特征的某种指标值,根据指标值的高低决定是否保留相应的 字或词,或者对相应特征加权,从而实现特征选择。主要有互信 息、信息增益、词频法[、CHI概率统计、期望交叉熵、几率比和 文本证据权
文本分类方法概述
文本分类方法主要包括基于传统技术的决策树、K最近邻 (KNN)、关联规则、支持向量机(SVM)、基于数据库 的算法、贝叶斯等分类算法和基于软计算的神经网络、粗 糙集、模糊逻辑和遗传算法。其中,基于软计算的方法通 过协同工作提供一种灵活的数据处理能力,其目标是实现 对不精确、不确定、部分信息的处理能力和近似推理能力, 以求能方便、稳健、低代价地逼近人类的分析判断能力。 模糊逻辑提供处理由于模糊而不是随机产生的不精确、不 确定性的算法,粗糙集则处理由于不可分辨关系导致的不 确定性,神经网络用于模式分类与聚类,而遗传算法则用 于优化和搜索。
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢ 改进的 2统计量
一般特征的CHI值为该特征对所有类别的 2 统计 量的平均值或最大值。在改进的 2 统计量上, 规定词条的CHI值为:
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,
文本挖掘中最基本的两项工作就是分类和聚类,几乎在所 有文本挖掘的应用领域都离不开文本的分类和聚类。文本 分类是文本挖掘的一个重要内容,是指按照预先定义的主 题类别,为文档集合中的每个文档确定一个类别。通过自 动文本系统把文档进行归类,可以帮助人们更好地寻找需 要的信息和知识。在人们看来,分类是对信息的一种最基 本的认知形式。传统的文献分类研究有着丰富的研究成果 和相当的实用水平。但随着文本信息的快速增长,特别是 Internet上在线文本信息的激增,文本自动分类已经成为处 理和组织大量文档数据的关键技术。现在,文本分类正在 各个领域得到广泛的应用。但是,随着信息量日趋丰富, 人们对于内容搜索的准确率、查全率等方面的要求会越来 越高,因而对文本分类技术需求大为增加,如何构造一个 有效的文本分类系统仍然是文本挖掘的一个主要研究方向
基于模式聚合和改进 2 统计量的文本降维方法
• 采用凝聚的层次法聚类算法,根据对模式进行
聚类(的每行表示一个模式)。将欧氏距离小 于一定阈值的模式进行聚类;
• 重新计算每个特征项的CHI值,根据CHI值大小
选择前L′个特征项
C AijiH χim 2j/I(m χ ai2 1 ax ,χ m xi2 { 2,in..χ )i.2 s} ,
基于模式聚合和改进 2 统计量的文本降维方法
➢ 基于模式聚合理论的特征降维
基于改进的 2统计量和模式聚合方法的特征降维步骤如下:
• 计算每个词条对每类的改进的 2统计量。 • 计算出各个词条的CHI值。然后把特征按CHI值由高到
关于文本分类的研究
王煜
文本挖掘概述
文本数据的特点:
• 半结构化或者无结构化 • 高维数据 • 大数据量 • 时变数据 • 语义性 • 无标签 • 分布式
文本挖掘的功能主要包括:
• 文本总结 • 文本分类 • 文本聚类 • 关联分析 • 分布分析 • 趋势预测
文本挖掘概述
• 本挖掘面临的研究课题
文本特征的降维方法
➢ 基于模式聚合和改进 2 统计量的文 本降维方法
➢ 基于CHI值原理和粗糙集理论的属性 约减的文本降维方法
➢ 基于神经网络的文本特征抽取方法
基于模式聚合和改进 2 统计量的文本降维方法
➢ 改进的 2统计量
CHI的主要思想是认为词条与类别之间符合 2 分布,词条的 2统计量表示词条对某个类别的 贡献大小。 2 统计量越高,词条和类别之间的 独立性越小、相关性越强,即词条对此类别的 贡献越大。 2 统计量的计算公式
• 潜在语义索引 :利用概念标引代替关键词标引,从语义相关的角 度为文本选择标引词,而不考虑标引词是否在文本中出现,其通 过奇异值分解将词频矩阵转化为维数极大减小的奇异矩阵,用转 换后的文本向量进行文本挖掘处理。
• 主成分分析法:通过搜索最能代表原数据的正交向量,创立一个替 换的、较小的变量集来组合属性的精华,原数据可以投影到这个 较小的集合。
• 还有一些常见的文本降维算法,主要包括基于文档频率方法、基 于分类频率和文档频率方法、IDF×TF方法,模拟退火算法等,
文本挖掘概述
• 文本相似性度量问题 • 模式的理解和可视化显示 • 一词多义和多词一义问题 • 跨语言问题 • 算法的选择 • 领域知识集成 • 中文文本分词技术
文本分ห้องสมุดไป่ตู้方法概述
当 n11 n22 n12 n2>1 0,词条和类别正相关 当 n11 n22 n12 n2<1 0,词条和类别负相关
改进的 2统计量
χ i2 j s( i n 1 g 1 n 2 n 2 n 1 2 n 2 )( 1 n 1 1 n 1 ) 2 n ( n 2 ( n 1 1 n 2 1 n ) 2 2 ( 2 n n 1 1 1 n 2 n 2 2 ) ) 2 1 1 ( n 1 2 n 2 )2
低进行排序,选取CHI值大的前M个特征词条,则由此 得到的特征矩阵具有M个模式。
• 为比较各个模式对各类分类贡献比例是否一致,首先将 每个模式的改进 2 统计量统一处理到[-1,1]之间,处理 方式如下: Aijχi2j/(mam x in)
CiH m I χ ai2 1x ,χi2 { 2,..χi.2 s} ,