文本自动分类聚类技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
小结
自动分类的概念 分类效果的评价
特征选择
文档频率法(DF, document frequency ) 信息增益法(information gain) 互信息法(mutual information) The χ2 test(chi-square)
分类算法
KNN SVM
评价指标
所有类的总体评价
宏平均 Macro
微平均
分类算法
分类技术发展
分类算法
决策树(Decision Trees)
KNN算法(K-Nearest Neighbour) 支持向量机(SVM) 贝叶斯网络(Bayes Network) 神经网络(Neural Networks) Association rule-based Boosting
文本挖掘技术
文本自动分类技术
知识的组织
知识的结构问题和知识是孪生的
分类体系
结构本身也是知识
杜威十进制系统(图书分类), 国会图书馆的目录, AMS(美国数学会)的数学知识体系 , 美国专利内容的类别体系 Yahoo,搜狐 & Dmoz(Open Directory )
Web catalogs
看见标题
Senate Panel Studies Loan Rate, Set Aside Plans
得到分类:政府事务
Senate Panel Studies Loan Rate, Set Aside Plans
评价指标
评价指标
「准确率」(P, precision)
「召回率」(R, recall) F-Measure
Given: Collection of example news stories already labeled with a category (topic).
Task: Predict category for news stories not yet labeled.
For our example, we’ll only get to see the
自动分类算法分类
Rocchio方法
可以认为类中心向量法是它的特例
Rocchio公式
分类
决策树方法
构造决策树
CART C4.5 (由ID3发展而来) CHAID
决策树的剪枝(pruning)
决策树方法
Attribute Selection Measure: Information Gain(ID3/C4.5)
MEDLINE (National Library of Medicine)
$2 million/year for manual indexing of journal articles using MEdical Subject Headings (18,000 categories)
人工定义规则
基于机器学习的方法
最近邻分类方法 (Creecy ’92: 1-NN) Development time: 4 person-months Accuracy = 60%
统计学习取代知识工程
分类技术发展
A Text Categorization Example
新闻自动分类
headline(标题) of the news story. We’ll represent categories using colors.
(All examples with the same color belong
to the same category.)
人工标注的样例
政府事务 企业个人事务
Attribute Selection Measure: Information Gain(ID3/C4.5)
entropy of attribute A with values {a1,a2,…,av}
information gained by branching on
attribute A
文本分类基本步骤
1.用户定义分类树 2.用户为分类节点提供训练文档
3.特征选择 4.训练
5.自动分类
Fra Baidu bibliotek
文本分类基本步骤
文本分类的过程
自动分类技术的发展
专家系统(late 1980s)
人工定义规则
专家系统
专家系统(人工定义规则)
太花时间 太难(最初看起来容易) 一致性问题(as the rule set gets large)
专家系统
美国人口调查局(1990)
十年人口统计资料的分析(2200万项资料) 232 产业类别和504行业类别 $15 million if fully done by hand Expert System AIOCS Development time: 192 person-months (2 people, 8 years) Accuracy = 47%
其中,A为待分类的文本集合, B为分类体系中的类别集合
应用领域
门户网站(网页)
图书馆(电子资料) 情报/信息部门(情报处理) 政府、企业等(电子邮件)
自动分类的优点
减小人工分类的繁杂工作
提高信息处理的效率
减小人工分类的主观性
文本自动分类
基本步骤
将预先分类过的文档作为训练集 从训练集中得出分类模型(需要测试 过程,不断细化) 用训练获得出的分类模型对其它文档 加以分类
人工方法和自动方法
人工方法
结果容易理解
费时费力 难以保证一致性和准确性(40%左右的 准确率) 专家有时候凭空想象 知识工程的方法建立专家系统(80年代末期 )
自动的方法(学习)
•足球 and 联赛 体育类
结果可能不易理解 快速 准确率相对高(准确率可达60%或者更高) 来源于真实文本,可信度高
C1∪C2∪„∪Ck=X Ci∪Cj=ф ,i≠j。
相似样本在同一簇中,相异样本在不同簇中。
聚类:数据集的划分
无标记的样本集
空间划分
空间覆盖
应用聚类分析的例子
市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开 展一个目标明确的市场计划;
保险:对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户 ;
文本自动分类的定义
Text Categorization (TC) 在给定的分类体系下,根据文本的内容自动
地确定文本关联的类别。 从数学角度来看,文本分类是一个映射的过 程,它将未标明类别的文本映射到已有的 类别中,该映射可以是一一、一对多的映 射。 用数学公式表示如下:
f : A B
Gain(A) = I(s 1,s 2,...,sm)− E(A) 选择信息增益最大的属性作为判定的分支节 点
其他分类方法
Regression based on Least Squares Fit (1991) Nearest Neighbor Classification (1992) * Bayesian Probabilistic Models (1992) * Symbolic Rule Induction (1994) Decision Tree (1994) * Neural Networks (1995) Rocchio approach (traditional IR, 1996) * Support Vector Machines (1997) Boosting or Bagging (1997)* Hierarchical Language Modeling (1998) First-Order-Logic Rule Induction (1999) Maximum Entropy (1999) Hidden Markov Models (1999) Error-Correcting Output Coding (1999) ......
文本自动聚类技术
什么是聚类分析?
聚类(簇 Cluster): 数据对象的集合 在同一个类中,数据对象是相似的 不同类之间的对象是不相似的 聚类分析 一个数据集合分组成几个聚类
聚类是一种无监督分类:没有预定义的类 典型应用 作为一个独立的工具透视数据分布 可以作为其他算法的预处理步骤
Amatil Proposes Two-forFive Bonus Share Issue AnheuserBusch Joins Bid for San Miguel
Citibank Norway Unit Loses Six Mln Crowns in 1986 Italy’s La Fondiaria to Report Higher 1986 Profits
评价指标
每个类 Precision=a/(a+b) Recall=a/(a+c), miss rate=1-recall accuracy=(a+d)/(a+b+c+d), error=(b+c)/(a+b+c+d)=1-accuracy fallout=b/(b+d)=false alarm rate, F=(β2+1)p.r/(β2p+r) Break Even Point, BEP, p=r的点 interpolated 11 point average precision(pr曲线)
城市规划:根据类型、价格、地理位置等来划分不同类型的住宅;
地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类;
文本聚类
Document Clustering (DC) is partitioning a set of documents into groups or clusters Clusters should be computed to Contain similar documents Separate as much as possible different documents For instance, if similarity between documents is defined to capture semantic relatedness, documents in a clustershould deal with the same topics, and topics in each cluster should be different
Japan Ministry Says Open Farm Trade Would Hit U.S.
Unfavourable Replacing “B” Shares
Jardine Vieille Montagne Matheson Said It Sets Says 1986 Two-for-Five Conditions Bonus Issue
分类的概念
分类:给定一个对象,从一个事先定好的
分类体系中挑出一个(或者多个)最适合 该对象的类别。
对象:可以是任何东西 事先定好的分类体系:可能有结构 最适合:判断标准
便于今后查找:最直接、最普遍的应用
分类体系
人工分类的代价
Yahoo!
200 (?) people for manual labeling of Web pages using a hierarchy of 500,000 categories
Select the attribute with the highest information gain S contains si tuples of class Ci for i = {1, …, m} information measures info required to classify any arbitrary tuple
什么是聚类分析?
聚类分析就是按照一定的规律和要求对事物进行区分和分类的过程,在
这一过程中没有任何关于类分的先验知识,没有指导,仅靠事物间的相
似性作为类属划分的准则。
聚类分析的数学描述
定义聚类(簇 Cluster):给定一数据样本 集X{X1,X2,„,Xn},根据数据点间的相
似程度将数据集合分成k簇{C1,C2,„,Ck} 过程称为聚类。 簇记为Ci={Xj1i,Xj2i,„,Xjnii} Ci(i=1,„,k)是X的子集,且满足:
Senator Bowater Isuzu Plans Defends U.S. Industries No Interim Mandatory Profit Farm Control Dividend Exceed Bill Expectations
什么没看到之前
能给一个新闻赋予什么颜色?
分类预测: ? 取多数?