模式识别原理与应用(李弼程)9-14章 (3)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第11章 文本分类
(1) 应当选择包含文本信息多的, 对文本的表现能力较强 的语言单位作为特征项。 特征项可以是文本中基本的语言单 位, 例如单字、 词、 词组或者短语等多个层次, 也可以是更 高层次的单元, 例如概念等。 层次越高, 包含的文本信息也 越多, 能更好地描述文本内容, 同时存在的问题就是它可能需 要复杂的附加处理, 比如, 对汉语特征, 如果选择词作为特 征项, 则首先需要先进行中文分词处理, 而中文分词是一个比 较复杂的处理过程。
第11章 文本分类
(1) 文本。 本书泛指一般的文本或者文本中的段落、 句 群或者句子, 通常指的是一篇文章。 尽管文本可以是多媒体对 象, 但是在本书的讨论中, 只认为是文本对象。
(2) 特征项。 文本的内容由一些特征项来表达, 一般由文 本所含有的基本语言单位(字、 词、 词组或短语等)来表示, 即文本可以表示为D(t1, t2, …, tn), 其中, tk表示各个特征 项, 每个特征项表示文本的一个维度。
第11章 文本分类
(5) 相似度度量。 两个文本D1和D2之间的相关程度常常用 Sim(D1, D2)来度量。
在向量空间模型下, 可以借助向量之间的某种距离来表示 文本间的相似度。 常用的是采用向量之间的内积来计算相似度, 定义式如下:
n
Sim(D1, D2 ) w1k w2k k 1
(11-2)
第11章 文本分类
2. 文本表示模型主要研究选择计算机能够识别的模型, 用 其来完整的表示文本内容。 目前, 具有代表性的文本表示模 型有布尔模型(Boolean Model)、 向量空间模型(Vector Space Model, VSM)、 概率模型(Probabilistic Model)等。 向量空间模型目前已被成功地应用于著名的文本检索系 统SMART中。 一些研究表明向量空间模型在处理大规模文本 方面有很强的优势, 它逐渐成为最简便、 最高效的文本表示 模型之一。 向量空间模型的基本概念如下:
第11章 文本分类 或者采用夹角余弦计算, 定义式如下:
Sim(D1, D2 ) cos
n
w1k w2k
k 1
n
n
( w1k2 )( w2k2 )
k 1
k 1
(11-3)
夹角余弦公式忽略了各个向量的绝对长度, 着重从形状考虑它 们之间的关系, 当两个向量方向相近时, 夹角余弦值较大, 反 之则较小。本节所涉及的文本之间的相似度均采用向量之间的 夹角余弦来计算。向量空间模型如图11-2所示。
第11章 文本分类 图 11-1 文本分类流程
第11章 文本分类
11.1.2 1. 中文文本是由字连接在一起组成的。 在文本处理中, 中
文文本需要先分割成一个个有意义的词, 这就是中文分词。 对于英文, 就是识别出空格(多个空格可以看成是一个空格), 并把它作为词的分隔符。 现有的分词算法分为三大类: 基于 字符串匹配的分词方法、 基于理解的分词方法和基于统计的 分词方法。
第11章 文本分类
第11章 文 本 分 类
11.1 文本分类技术 11.2 垃圾邮件识别技术 11.3 网页分类技术 习题
第11章 文本分类
11.1 11.1.1
文本分类的流程图如图11-1所示, 它包含中文分词、 特征 提取、 向量表示、 分类器等四大部分。 首先, 收集大量的包 含各种信息的文本语料, 形成训练数据集, 并对其进行人工分类; 其次, 对训练数据进行中文分词(对英文文本不需要分词)、 特 征提取、 向量表示, 形成特征向量; 再次, 选择合适的分类器 模型, 对训练数据的特征向量进行训练, 得到有效的分类器; 最 后, 利用训练好的分类器对待分类的文本进行分类。
第11章 文本分类
(3) 特征项权重。 在一个文本中, 每个特征项都被赋 予一个权重wk, 以表示这个特征项在该文本中的重要程度。
D D(t1, w1;t2 , w2; ;tn , wn )
其中, 特征项tk的权重为wk, 1≤k≤n。
(11-1)
第11章 文本分类
(4) 向量空间模型。 给定一个文本D=D(t1, w1; t2, w2; …; tn, wn), 由于tk在文本中既可以重复出现又应该有先后次序的关 系, 分析起来有一定的难度, 为了简化分析, 可以暂不考虑tk在 文本中的先后次序, 但要求tk互异(即没有重复)。 这时可以把t1, t2, …, tn 看成一个n维的坐标系, 而w1, w2, …, wn为相 应的坐标值, 因此, 一个文本就表示为n维空间的一个向量, 称 D=D(w1, w2, …, wn)为文本D的向量表示或向量空间模型。
第11章 文本分类
(2) 基于理解的分词方法是利用汉语的语法知识和语义 知识及心理学知识进行分词, 需要建立分词数据库、 知识 库和推理机。 由于此方法需要使用大量的语言知识和信息, 目前这种系统还处在试验阶段。
第11章 文本分类
(3) 基于统计的分词方法是根据字与字相邻共现的频率 能够较好地反映成词的可信度这一点, 对语料中相邻共现的 各个字的组合的频度进行统计, 计算它们的互现信息。 这种 方法只需对语料中的字组频度进行统计, 不需要切分词典, 因而又叫做无词典分词法或统计取词方法。 这种方法增加了 空间复杂度。
第11章 文本分类
衡量自动分词技术的主要指标是切分精度和切分速度。 针对信息检索与分类/聚类系统来说, 分词技术的主要问题是 确定词的颗粒度大小、 对专用术语的识别、 判别词与词之 间的语义关联、 对未登录词的处理等。 可以先采用最大匹 配、 最短路径、 概率统计等方法, 得到一个词语粗分结果, 然后再对粗分结果进行歧义词排除、 未登录词识别等处理。
第11章 文本分类 图 11-2 向量空间模型
第11章 文本分类
向量空间模型的最大优点在于把文本内容简化为特征与 其权重的向量表示, 把对文本内容的处理简化成向量空间的 向量运算, 使得问题的难度大大降低பைடு நூலகம்。 向量空间模型表达 效果的优劣, 直接依赖于特征项的选择和特征加权方式。 选取特征项主要有以下两条原则:
第11章 文本分类
(1) 基于字符串匹配的分词方法又叫做机械分词方法, 它 是按照一定的策略将待分析的汉字串与一个“充分大的”机器 词典中的词条进行匹配, 若在词典中找到某个字符串, 则匹配 成功(识别出一个词)。 常用的几种机械分词方法有正向最大 匹配、 逆向最大匹配、 最少切分(使每一句中切出的词数最 小)等。