6.文本分类分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

主要内容
文本分类及文档的特征向量 余弦相似度 使用分类算法进行文本分类 逆文档频率 TF-IDF TF-IDF的信息论依据 浅谈中文分词
度量两篇新闻的相似度
设两篇新闻的特征向量为 x (x1, x2, ...) 和 y (y1, y2, ...), 它们的欧氏距离为 d(x, y):
余弦相似度练习
C(3, 3) B(2, 2) A(1, 1)
利用余弦相似度 similarity(A, B) = 1 similarity(A, C) = 1
利用欧氏距离
ቤተ መጻሕፍቲ ባይዱ
similarity(A, B) = similarity(A, C) =
1 0.414 2 1 1 0.261 8 1
应用:论文分组
编号 1 2 3 4 ... 789 ... 64000
汉字词 阿 啊 阿斗 阿姨 ... 服装 ... 做作
编号 1 2 3 4 ... 789 ... 64000
汉字词 0 5 0 3 ... 10 ... 2
新闻的特征向量
如果单词表中的某个词在新闻中没有出现,对应的值为零, 那这64000个数,组成一个64000维的特征向量,我们就用 这个特征向量来表示一篇新闻。这样,新闻就可以拿来 “计算”了 (0, 0, 0, 3, 0, ..., 28, 0, 0, 0, 3)
数据挖掘:文本分类专题
王成(副教授) 华侨大学计算机科学与技术学院
主要内容
文本分类及文档的特征向量 余弦相似度 使用分类算法进行文本分类 逆文档频率 TF-IDF TF-IDF的信息论依据 浅谈中文分词
本节内容来源于吴军博士《数学之美》
文本分类
文本分类
所谓新闻的分类,或者更广义的讲任何文本的分类,无非 是要把相似的新闻放到同一类中
(1, 0, 5, 0, 0, ..., 10, 0, 20, 0, 1)
(0, 0, 3, 5, 0, ..., 0, 8, 0, 12, 0)
新闻的特征向量
一篇新闻里有很多词,有些词表达的语义重要,有些相对 次要。
例如“的、地、得、了”这些助词,这些词对确定新闻主题 没有帮助,反而会影响分类结果,因此在计算时应忽略它 们。这些词称为停用词 (stop words)
主要内容
文本分类及文档的特征向量 余弦相似度 使用分类算法进行文本分类 逆文档频率 TF-IDF TF-IDF的信息论依据 浅谈中文分词
分类系统设计的基本步骤
模式
传感器
特征提取 特征选择 分类器设计
系统评估
应用:新闻分类
准备事先标记好类别的新闻训练数据 将新闻转化为特征向量,训练分类算法 使用分类算法对未知新闻进行自动分类
1998年,约翰∙霍普金斯大学的教授雅让斯基是某国际会议 的程序委员会主席,需要把提交上来的几百篇论文发给各 个专家去评审决定是否录用。为保证评审的权威性,需要 把每个研究方向的论文交给这个方向最有权威的专家。
虽然论文作者自己给定了论文方向,但范围太广,没有什 么指导意义。雅让斯基当然没有时间浏览这近千篇论文, 于是就让他的学生实现了一个算法,大致思想为:
则它们的相似度可以表示为
similarity(x, y) 1 d (x, y) 1
余弦相似度
向量实际上是多维空间中从原点出发的有向线段。 余弦相似度使用向量的夹角来衡量两个向量的相近程度,
两个向量的夹角越小表示越相似,夹角越大表示越不相似。
余弦相似度
根据向量的点积公式
a b | a || b | cos( )
如何用特征向量来表示一篇新闻?
幸福的家庭都是相似的,不幸的家庭各有各的不幸。
托尔斯泰《安娜∙卡列尼娜》
同一类新闻用词都是相似的,不同类的新闻用词各不相同。

新闻的特征向量
例如词汇表有64000个词,其编号分别为1, 2, ..., 64000
统计一篇新闻中各词的出现次数,按照对应词在词汇表中 的位置依次排列,就得到一个向量
1. 计算所有论文间两两的余弦相似性,把相似性大于一个阈值的论文 合并成一个小类。 2. 把每个小类中所有论文作为一个整体,计算小类的特征向量,再计 算小类之间两两的余弦相似性,然后合并成大一点的小类。 3. 不断重复上述过程,类别越来越少,而每个类越来越大。当子类的 数量比较少时,就会看清楚这些子类了。(聚类的思想)
词频的简单应用
关键字提取:对于一篇新闻,提取出词频最高的前N个词, 即可作为该篇新闻的关键字
度量新闻和查询的相关性:直接使用各个关键字在新闻中 出现的总词频。
例如,查询“原子能 应用”,“原子能”在新闻A中的词频 是0.035,“应用”在新闻A中的词频是0.020,则这个查 询和新闻A的相关性为 0.035 + 0.020 = 0.055
新闻长短不同,同一个词在长新闻中出现的次数一般要比 在短新闻中出现的次数多,因此需要根据新闻长度,对词 的出现次数进行归一化,即用词的出现次数除以总词数, 称为词频 (Term Frequency,简称TF),然后用词频来替代 特征向量中相对应的计数值
例如某新闻有1000个词,其中“原子能”和“应用”分别出 现了2次和5次,则它们的词频分别为0.002和0.005
如果让编辑来对新闻分类,他一定是先把新闻读懂,然后 找到它的主题,最后根据主题的不同对新闻进行分类
但计算机根本读不懂新闻,计算机本质上只能做快速计算, 为了让计算机能“算”新闻,就要求:
1)把文字的新闻变成可以计算的一组数字
特征向量
2)然后再设计一个算法来计算两篇新闻的相似度
相似性度量
新闻的特征向量
cos( ) a b
| a || b |
假设新闻X和新闻Y的特征向量为 (x1, x2, ...) 和 (y1, y2, ...), 则它们的夹角余弦为
cos( )
x1 y1 x2 y2 ...
x12 x22 ... y12 y22 ...
因向量中每一个变量都是正数,因此余弦的取值在0和1之间,即夹角在 0度到90度之间。当余弦等于1时,夹角为0,两新闻完全相同;当余弦 为0时,夹角为90度,两新闻毫不相关。当夹角余弦越接近1时,夹角越 小,说明两新闻越相似。
相关文档
最新文档