文本文献自动分类综述课件

合集下载

文献检索与文献综述PPT课件

昆明
昆明物理研究所
20
光通信技术
桂林
电子工业部第34研究所
21
固体电子学研究与进展南京
南京电子器件研究所
22
广播与电视技术
北京
国家广播电影电视总局科技信息研究所
23
发光学报
沈阳
中国物理学会发光分学会等
24
压电与声光
重庆
机械电子工业部第26研究所
25
光电子、激光
天津
国家自然科学基金委员会信息科学部
26
2021/3/9
CHENLI
外事不决问google，内事不决问Wife
……
2021/3/9
CHENLI
18
IT领域常用文献资源——电子文献数据库
/Xplore/DynWel.jsp
/dl.cfm
/publications/dlib/
2021/3/9
CHENLI
7
文献综述的意义——与研究/论文的关系
查找文献资料、撰写文献综述是研究选题与论文写作的第一步，是从事研究工作必备的基本素质
用于表明你已经充分掌握了本领域的研究现状，明确了别人已经做到了什么程度，你做的工作与别人的工作有什么不同——借此说明自己所做工作的意义
是开题报告的核心内容之一
第二，有助于研究者通过比较、分析，从众多可能选择的课题中确定更有价值、更有前途、更适合研究者兴趣和发展专长的研究课题
第三，在确定研究课题时，充分查阅已有研究文献的最大好处就是它有助于研究者避免选题上的重复，从而避免经济和时间上的损失
血的教训
2021/3/9
CHENLI
5
什么是文献综述
文献综述是文献综合评述的简称

文本分类过程PPT课件

支持向量机（Support Vector Machine，SVM），其分类思想是给定给一个包含正例和反例的样本集合，svm算法的目的是寻找一个超平面来对样本根据正例和反例进行分割。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。
2019/12/30
17
中文文本分类过程中涉及许多过程及参数，都会在不同程度上影响分类器的分类效率。
特征个数越多，分析特征、训练模型所需的时间就越长。
特征个数越多，容易引起“维度灾难”，模型也会越复杂，其推广能力会下降。
特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化了模型，使研究人员易于理解数据产生的过程。
文本可以是媒体新闻、科技、报告、电子邮件、网页、书籍或像微博一样的一段语料。由于类别时事先定义好的，因此分类是有监督的。
2019/12/30
5
01 文本分类应用领域
信息过滤
对获取的信息进行二分类的处理，即将用户需求的信息过滤出来，发送给用户；将用户不感兴趣、不需要的不良信息、反动信息等过滤掉。垃圾邮件过滤、新闻选择以及手机信息过滤等都是信息过滤的典型应用。
当前的知识信息主要以文本作为载体，大部分文本信息以非结构化或半结构化的形式存在，如电子邮件、电子文档以及电子档案等，它们不易被机器理解也不可能完全依靠人工进行管理。因此，采用信息化手段通过机器学习方法对这些文本信息进行处理显得尤为重要。
2019/12/30
4
01 文本分类概述
文本分类技术（Text Categorization，TC）作为组织和管理文本信息的有效手段，主要任务是自动分类无标签文档到预定的类别集合中。

文献综述PPT课件

第6页/共34页
6
2.3 常见数据库检索示例
Cnki—中国学术期刊全文数据库超星数字图书馆—中文电子图书数据库 EBSCO—ASP & BSP 英文期刊数据库
2021/8/19
第7页/共34页
7
三、文献的阅读与记录
阅读顺序方面阅读目的方面阅读选择方面阅读的记录方面
2021/8/19
2021/8/19
第2页/共34页
2
文献检索的原则
• 检索的文献内容应与研究的主题有关 • 应检索具有学术性的文献
不检索新闻报纸、商业杂志等满足“前人的可靠知识的考察和概括”要求
• 手工检索不可缺少
最新的期刊杂志等
2021/8/19
第3页/共34页
3
2.2 文献检索的方法
在一般的研究中，文献检索的主要方式就是通过查找法进行检索
例如，（段从清，2005），（陈晓，王琨，2005）
✓当作者超过两个人时，可以只列出第一位作者，然后，在其后加“等”字，再加上年份即可，其他作者的姓名在参考文献中列出
例如，（李增泉等，2005）
2021/8/19
第27页/共34页
27
二、标注方式
❖用括号标注作者和年份（中文著作）
✓当作者只有一人或者只有两人时，应该将作者的姓
一、文献综述的目的
➢避免无根据的研究和不必要的重复研究
➢有助于追踪研究的前沿领域，确定研究位置和自己的研究价值
➢指明以前研究中的成功和失败之处（优点与缺陷所在），深化对研究问题的理解
➢揭示研究问题的理论背景，为研究假设奠定基础
2021/8/19
第1页/共34页
1
二、文献的进一步检索

如何做文献综述PPT演示课件

24
第七步：整理参考文献
A. 核对引文和脚注，确保引文都有脚注； B. 核对脚注和“参考文献”，确保参考文献包
含所有脚注； C. 删除不相关的参考文献； D. 统一参考文献格式； E. 为参考文献编号；按照作者姓氏首字母排列。
25
第八步：修改与检查
A. 反复修改文章内容； B. 反复校对文字和格式。
26
五、注意事项
27
指导原则
A. 要有一条清晰的逻辑主线，避免自相矛盾和逻辑断环； B. 要选择和研究问题直接相关的文献； C. 要指出不同文献或研究成果之间的相对重要性； D. 要详略得当、重点突出； E. 要表明自己的理论立场或体现立场中立； F. 要注意概念的界定和统一； G. 要注意所述研究同下文（研究发现、研究结论）的联系； H. 当不同的文献之间出现矛盾时，要仔细分析差异，并尝试
文章总数：
2009+5750+6705-1495-1787-3814=7368篇
期刊：1880+5065+6008-1370-1662-3351=6570篇
博：1+41+29-1-1-21=48篇
硕：128+644+668-124-124-442=750篇
18
第三步：文献筛选
筛选的标准：
A. 新颖性
• 张黎著，《怎样写好文献综述——案例及述评》[M]，北京：科学出版社，2008年1月。
• Tarraco, R.G. (2005). Writing Integrative Literature Reviews: Guidelines and Examples, Human Resource Development Review 2005, 4, PP.356-367.

文本文献自动分类综述PPT课件

{ iM1P(ci)logP(ci)} [P(t){ iM1P(ci |t)logP(ci |t)} P(t){ iM1P(ci |t)logP(ci |t)}]
特征选择(2)
• term的某种熵：该值越大，说明分布越均匀，越有可能出现在较多的类别中(区分度差)；该值越小，说明分布越倾斜，词可能出现在较少的类别中(区分度好)
• 2类问题，属于或不属于(binary) • 多类问题，多个类别(multi-class)，可拆分成2类问题 • 一个文本可以属于多类(multi-label)
– 这里讲的分类主要基于内容 – 很多分类体系: Reuters分类体系、中图分类
应用
• 垃圾邮件的判定(spam or not spam)
• (a1j,a2j,…,aMj)
– 权重计算，N个训练文档
• AM*N= (aij)
– 相似度比较
• Cosine计算 • 内积计算
Term的粒度
• Character，字：中 • Word，词：中国 • Phrase，短语：中国人民银行 • Concept，概念
– 同义词：开心高兴兴奋 – 相关词cluster，word cluster：鸟巢/水立方/奥
En(t)t r o P (c p i|t)ly o P (c g i|t)
i
• 相对熵(not 交叉熵)：也称为KL距离(Kullback-Leibler divergence) ，反映了文本类别的概率分布和在出现了某个特定词汇条件下的文本类别的概率分布之间的距离，该值越大，词对文本类别分布的影响也大。
特征选择(1)
• 基于DF
– Term的DF小于某个阈值去掉(太少，没有代表性) – Term的DF大于某个阈值也去掉(太多，没有区分度)

文献综述怎样做ppt课件

隐含推理
二度论证
论证模式
推理保障
谬误论证
方案即一切
文献批评——对研究进行阐释
隐含推理：对论据进行逻辑阐释的过程，以便提炼论点，导出特定结论。文献批评以已有文献中的论证作为命题式的论据，从而支持文献综述的论题。文献检索与文献批评通常以“如果… …那么… …”的形式先后出现。
如果外面正在下雨，那么你去上班时就要带上雨伞。
一个结果可以直接归因于某种特定行为的执行
证据中所提到的特定行为将导致研究问题中所界定的某种结果
文献批评——对研究进行阐释
推理保障：
选取的部分或个体必须是研究总体中正当有效的个体。选取的部分或个体必须是研究总体的代表性个体。“代表性”意味着个体必须具备总体的全部特征。
文献批评——对研究进行阐释
指名道姓谩骂的诋毁式研究
谬诉诸感情的研究，立足于情感立场，而非论证立场的研究
诉诸无知的研究，运用该逻辑“由于一个论断未被证明错误，就一定正确”
误因果关系误置论用未经证明的假定为证据(beg the question)，如“上帝是存在的，因为上
帝是这么说的”
证
不相关结论(disconnected question)的研究
选择主题——从日常兴趣到研究课题
怎样选择一个研究兴趣怎样将研究兴趣具体化怎样确定研究课题
标准化考试的分数在多大程度上体现学生的学业表现？
？程度是指什么，如何衡量？？什么是标准考试评估，如何衡量？？如何解释考试的可信度和有效性？？ “体现”是指什么，如何体现？？学生的学业表现是指什么？
怎样做文献综述
汇报人：崔灿日期：2016-12-3
综述撰写文献批评文献研究展开论证文献搜索选择主题

关于文本分类的研究-PPT文档资料

2 n ( n n n n ) 1 12 21 22 1 χ ( n n ) ( n n ) ( n n ) ( n n ) 1 1 1 2 2 1 2 2 1 1 2 1 1 2 2 2 2 ij
n n n n 11 22 12 21
2 基于模式聚合和改进统计量的文本降维方法
体育
80 69 86.25%
娱乐
80 70 87.5%
基于神经网络的特征选择

灵敏度求解
• •
将整个训练样本库中的样本作为前馈神经网络的训练样本，得到了一个神经网络分类器。此分类器对训练样本 0 p 库的样本h分类的预测值为 h 。计算每个特征的灵敏度：对每一个特征，训练样本中所有样本的第个特征的值均改为0，其他特征值不变，形成新的样本库Bi，然后在样本库Bi的基础上，按照重新训练神经网络分类器，此时神经网络分类器对训练样本库的样本h分类的预测值 i 为 p h 。则可根据公式计算特征的灵敏度：
320 289 31 90.31% 91 31
A ij
基于CHI值原理和粗集理论的特征抽取
特征抽取的具体步骤为：
• ⑴计算出每个特征词条和类别的统计量； • ⑵指定正整数L，选择对每个类别贡献最大的L个词
2
条，并按照
•
统计量由大到小设置成一列。J个类别就有J列，最终得到一个L×J矩阵A，A ij 是对类别 2 j按统计量由大到小排列在第i位的词条。 ⑶将矩阵A中的特征词条按行排成一列。
文本挖掘概述
• 文本相似性度量问题 • 模式的理解和可视化显示 • 一词多义和多词一义问题 • 跨语言问题 • 算法的选择 • 领域知识集成 • 中文文本分词技术

《综述汇报》PPT课件

学术专著
著者.书名.地名:出版社,年.页码
[3]王维利.思维与沟通[M].安徽:中国科学技术大学出版社
,2007,201-218.
温哥华式;
国家标准GB7714-87关于《文后参考文献著录规则》的规定 23
23
参考文献著录规则
主要著作者:多个著作者之间以“，”分隔，著作者超过3人时，只著录前3个责任者，其后加 “等”字(英文用 et al )。
多次引用，但在几个引用处都要标注同一个序号. b)标注时文献序号连同方括号都要使用比正文字号小，并把它们放在右上方(作为上角标). c) 一处引用了多篇文献，标注时只用一个方括号，括号内列写这几篇文献的序号：若几个序号是连续的，只标注起、止序号，两序号之间加半字线“-”号；若几个序号不连续，各序号之间加逗号“，”号。
问题和尚存的问题，重点、详尽地阐述对当前的影响及发展趋势，这样不但可以使研究者确定研究方向，而且
便于他人了解该课题研究的起点和切入点，是在他人研究的基础上有所创新；文献综述的结论：文献研究的结论，概括指出自己对该课题的研究意见，存在的
不同意见和有待解决的问题等；文献综述的附录：列出参考文献，说明文献综述所依据的资料，增加综述的可信
采用A4纸张；页边距为上、下方各2.5厘米，左边距3厘米，右边距2.5厘米，页眉与页脚距1.5 厘米；居中标注页码，页眉只标论文题目，均采用小5号字体。
30
专科护士论文文献综述格式和要求
2.5 文献综述正文（文章中不用打出这几个字样
）；
一级标题：标题序号为1 2 3等；小3号字体，加粗，前后各空0.5行；
21
议题1:探讨A&B 议题2:探讨A&B 议题3:探讨A&B 结论提出一个比其他更好的理论与立场提出一个优于每一个理论与立场的部分

文献综述ppt课件

11
3. 文献综述的步骤
文献综述撰写一般有以下几个步骤： 1. 选题 2. 收集和阅读文献 3. 拟写提纲 4. 成文和修改
12
3. 文献综述的步骤--选题
选题：文献综述写作的关键环节，选题要突出一个 “新”——就是选题新、资料新。综述只有选题新、资料新
才具有参考价值，才能引起读者的阅读兴趣。
题录、简介、文摘等检索工具。三次文献: 是在一、二次文献的基础上，经过综合分析而编写出来的文
献，人们常把这类文献称为“情报研究”的成果，如综述、专
题述评、学科年度总结、进展报告、数据手册等。与此类似，也有把情报区分成一次情报、二次情报、三次情报的。
4
1. 文献
论文要参照零次文献。文献综述是在一、二次文献的基础上，经过综合分析而编写出来的论文。
近10年中外外语听力研究比较引言
1. 国外近年来听力研究 1.1 听力过程中涉及的认知因素 1.2 听力过程中涉及的语用和情感因素 1.3 听力教学的手段与技巧 1.4 多媒体环境下的听力教学 1.5 学术听力 1.6 听力评估 1.7 语用形式在听力理解过程中的作用 2. 国内近年来听力研究
2.1 。。。
3
1. 文献
根据文献内容、性质和加工情况可将文献区分为：零次文献、一次文献、二次文献、三次文献。
零次文献: 未经加工出版的手稿、数据原始记录等文件。一次文献: 以作者本人的研究成果为依据而创作的文献，如期刊论文、
研究报告、专利说明书、会议论文等。二次文献: 是对一次文献进行加工整理后产生的一类方面，如书目、
14
3. 文献综述的步骤—搜集和阅读文献
首先是一种追溯的能力：确定主题后，开始深入地追溯，纵向查清某主题的来龙去脉；其次是一种归纳能力：众多文献呈现在面前，必须发现互相间的关系。相对第一种纵向的考察，第二种归纳是横向的、空间的。

《文本分类综述》课件

文本分类的典型模型
多分类模型
单层感知机、多层神经网络、集成学习等模型常用于多分类任务。
二分类模型
逻辑回归、SVM分类器、Adaboost算法等模型常用于二分类任务。
文本分类的评价指标
准确率
分类模型预测正确的样本占总样本数的比例。
召回率
所有正确分类的样本中，被模型预测为正确的样本占比。
文本分类的应用
朴素贝叶斯、决策树、支持向量机等机器学习算法在文本分类中应用广泛。
深度学习算法
卷积神经网络、循环神经网络、注意力机制等深度学习算法在文本分类中取得了重要的突破。
文本分类的核心问题
1 特征提取
如何从文本中提取有代表性的特征，以便让模型更好地进行分类。
2 数据预处理
对文本数据进行清洗、分词、去停用词等处理，以保证模型的准确性。
《文本分类综述》PPT课件
欢迎来到《文本分类综述》的课程讲座！通过本次课程，我们将深入了解文本分类的定义、常见方法、核心问题以及其应用领域。
什么是文本分类？
文本分类是一种将文本自动归类到预定义类别的任务。它在信息检索、情感分析、垃圾邮件过滤等领域有着广泛的应用。
常见的文本分类方法
传统机器学习算法
• 情感分析 • 垃圾邮件过滤 • 新闻分类 • 文本搜索
总结
文本分类的发展历程
从传统机器学习到深度学习，文本分类在过去几十年中取得了巨大的进展。
当前研究热点
基于深度学习的模型优化、跨语言文本分类等是当前文本分类研究的热点方向。

第四讲文献综述PPT课件

六、文献综述存在的主要问题
（一）某些必要的相关文献综述缺失（二）文献综述与所研究的问题相关不大（三）与教科书写法雷同（四）内容都是叙述和罗列（五）引用的参考文献数太少，过时陈旧（六）许多内容未能加注和引用文献（七）文献引用不规范
文献综述的评价
21
参考文献与注释
22
一、参考文献的写法
一般来说，综述应有作者的观点，否则就不成为综述，而是手册或讲座了。
7
③先进性：综述不是写学科发展的历史，而是要搜集最新资料，获取最新内容，将最新的信息和科研动向及时传递给读者。
8
• 综述不应是材料的罗列，而是对亲自阅读和收集的材料，加以归纳、总结，做出评论和估价。并由提供的文献资料引出重要结论。
4
二、文献来源
• 理论文献：依托原始文献，阅读社会学理论的专著，英文水平高的，建议阅读英文文献。
• 实证文献：阅读社会学专著、社会学权威、核心报刊、学位论文、会议论文集、研究报告等。
• 其他文献：国家、省市的政策文件。
三、文献综述的特点
①综合性：
综述要"纵横交错"，既要以某一专题的发展为纵线，反映当前课题的进展；又要从本单位、省内、国内到国外，进行横的比较。
• 一篇好的综述，应当是既有观点，又有事实，有骨又有肉的好文章。
9
综述的内容和形式灵活多样，无严格的规定，篇幅大小不一。
大的可以是几十万字甚至上百万字的专著，参考文献可数百篇乃至数千篇；小的可仅有千余字，参考文献数篇。
一般的文献综述多为3000～8000字，引文15～20 篇，一般不超过20篇，外文参考文献不应少于1／3 。
及论据，阐明有关问题的历史背景、现状和发展

文献综述汇报ppt课件

04 通读相关文献
对文献研究内容进行把握，尤其是对摘要全面熟悉，筛选相关内容。
05 进行主体把握最快速的了解前人研究基础，进而在此基础上进行更为清晰透彻的文献梳理。
06 分类整合将已有的研究文献在分点归类，研读，把握基础上进行最后的综合。
6
烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植，但对于大面积烧伤病人来讲，健康皮肤很有限，请同学们想一想如何来治疗该病人
烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植，但对于大面积烧伤病人来讲，健康皮肤很有限，请同学们想一想如何来治疗该病人
目录
CONTENTS
对于题目的分析理解查找文献的过程综述内容
1
烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植，但对于大面积烧伤病人来讲，健康皮肤很有限，请同学们想一想如何来治疗该病人
12
烧伤病人的治疗通常是取烧伤病人的健康皮肤进行自体移植，但对于大面积烧伤病人来讲，健康皮肤很有限，请同学们想一想如何来治疗该病人
THANKS
谢谢观看
13
01
分析研究主题
重点围绕住房价格与就业结构关系进行理解，尤其是对就业结构进行剖析，就业结构具体可划分为哪几方面。
02
围绕主题搜索
在知网进行相关搜索，搜索主题为“住房价格对就业结构影响”，期刊、论文等为文献首选。但是搜索之后，发现此方面研究尚且匮乏，基本空白。
03 拓展搜索主题重点围绕就业结构分解点（劳动力流动、产业结构、地区结构、知识结构等），展开分别搜索，罗列相关文献。
4

文本分类综述课件.ppt

P(
ci
)
log
P(ci
)}

[P(t){
M i1
P(ci
|
t)
log
P(ci
|
t)}
P(t ){
M i1
P(精c品i |课t )件log
P(ci
|
t )}]
特征选择(2)
term的某种熵：该值越大，说明分布越均匀，越有可能出现在较多的类别中；该值越小，说明分布越倾斜，词可能出现在较少的类别中
Boosting方法
类似Bagging方法，但是训练是串行进行的，第k个分类器训练时关注对前k-1分类器中错分的文档，即不是随机取，而是加大取这些文档的概率
AdaBoost AdaBoost MH
精品课件
文本分类的评估指标
精品课件
分类方法的评估
邻接表
标YES 标NO
真正对的 a c
文本分类的过程
文本表示
训练过程
训练文本
统计统计量
新文本
特征表示
学习
分类器
문서特征表示
类别
分类过程
精品课件
特征抽取(feature extraction)
预处理
去掉html一些tag标记禁用词(stop words)去除、词根还原(stemming) (中文)分词、词性标注、短语识别、…
精品课件
特征重构
隐性语义索引(LSI)
奇异值分解(SVD)：A=(aij)=UΣVT
AM*N, UM*R, ΣR*R(对角阵), VN*R, R<=MIN(M,N)
取Σ对角上的前k个元素，得Σk
Ak= UkΣkVkT, Uk由U的前k列组成，Vk由V的前k列组成文档d在LSI对应的向量d’=dTUkΣ-1

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

log
P( t | c j ) P( t | c j )
TSV (t, c j ) r * log
, r为出现t的c j 类文档个数
• 其他
– Odds: log(1 P(t | c j )) log P(t | c j ) – Term Strength:
log P(t | c j ) log(1 P(t | c j ))
• 信息增益(Information Gain, IG)：该term为整个分类所能提供的信息量(不考虑任何特征的熵和考虑该特征后的熵的差值)
Gain(t ) Ent ropy ( S ) Expect edEnt ropy( St ) { i 1 P ( ci ) log P (ci )}
2
ij
Naï ve Bayes
Bayes公式
ቤተ መጻሕፍቲ ባይዱ
P( c j | d i )
r
P( d i | c j ) P( c j ) P( d i )
P( d i | c j ) P( c j )
P(di | c j ) P( wik | c j )，独立性假设
k 1
参数计算 c j的文档个数 N (c j ) 1 N (c j ) P( c j ) 总文档个数 N (ck ) | c | N (ck )
Rocchio方法
• 可以认为类中心向量法是它的特例
– Rocchio公式
w jc w jc
'

iC
xij
nC

iC
xij
n nC
文档向量的权重
类C中心向量的权重
训练样本中正例个数
– 分类
CSVc (di ) w c x i
w x w x
cj ij 2 cj
• Latent Dirichlet allocation(LDA)
– Topic Model – Bag-Of-Words表示 -> Topic表示
自动文本分类方法
• • • • • • • • • Rocchio方法 Naï ve Bayes kNN方法决策树方法decision tree Decision Rule Classifier The Widrow-Hoff Classifier 神经网络方法Neural Networks 支持向量机SVM 基于投票的方法(voting method)
The Widrow-Hoff Classifier
Online Learning
Learning Rate
wcj
( t 1)
w 2 (w c x i yi ) xij
(t ) cj
Target Value ( 0 or 1)
类c向量的第j个分量
xi的第j个分量
CSVc (di ) w c x i
文本文献自动分类综述
报告内容
• • • • • 文本分类的定义和应用文本分类的方法文本分类的评估指标文本分类的一些新方向参考文献和资源
文本分类的定义和应用
定义
• 给定分类体系，将文本分到某个或者某几个类别中。
– 分类体系一般人工构造
• 政治、体育、军事 • 中美关系、恐怖事件
– 分类系统可以是层次结构，如yahoo! – 分类模式
– 特征选择(Feature Selection) – 特征重构(Re-parameterisation，如LSI、LDA)
文本表示
• 向量空间模型(Vector Space Model)
– M个无序标引项ti (特征)，词根/词/短语/其他 – 假设所有特征独立 – 每个文档dj可以用标引项向量来表示
M
[ P (t ){ i 1 P ( ci | t ) log P (ci | t )}
M
P (t ){ i 1 P ( ci | t ) log P (ci | t )}]
M
特征选择(2)
• term的某种熵：该值越大，说明分布越均匀，越有可能出现在较多的类别中(区分度差)；该值越小，说明分布越倾斜，词可能出现在较少的类别中(区分度好)
Term粒度—中文
• ICTCLAS分词V.S. Bigram
– 低维度：词 > Bigram – 高维度：Bigram > 词 – 词的数目有限 – Bigram特征数目更多，可以提供更多的特征
• So, 实用性角度：分词研究角度：Bigram
权重计算方法
• 布尔权重(Boolean weighting)
• TFi,j: 特征i在文档j中出现次数，词频(Term Frequency) • DFi:所有文档集合中出现特征i的文档数目，文档频率(Document Frequency)
– 数据清洗：去掉不合适的噪声文档或文档内垃圾数据
• 文本表示
– 向量空间模型(Vector Space Model)
• 降维技术
I AVG (t ) P(ci ) I (t , ci )
I MAX (t ) maxim 1 P(ci ) I (t , ci )
特征选择(4)
• Robertson & Sparck Jones公式
RSJ(t, c j ) c j中出现t的概率非c j中出现t的概率
P(t | c j ) P(t | c j )
• (a1j,a2j,…,aMj) • AM*N= (aij)
– 权重计算，N个训练文档 – 相似度比较
• Cosine计算 • 内积计算
Term的粒度
• • • • Character，字：中 Word，词：中国 Phrase，短语：中国人民银行 Concept，概念
– 同义词：开心高兴兴奋 – 相关词cluster，word cluster：鸟巢/水立方/奥运
• 自动的方法(学习)
文本分类的过程
文本表示
训练过程
训练文本统计
特征表示
统计量
学习
分类器
新文本
特征表示类别
分类过程
特征抽取
• 预处理
– 去掉html一些tag标记 – (英文)禁用词(stop words)去除、词根还原(stemming) – (中文)分词、词性标注、短语识别、…
– 词频统计
– aij=1(TFij>0) or (TFij=0)0
• TFIDF型权重
– – – – TF: aij=TFij TF*IDF: aij=TFij*log(N/DFi) TFC: 对上面进行归一化 LTC: 降低TF的作用
aij
TFij * log( N / DFi )
[TF
k
kj
* log( N / DFk )] 2
– 类别 {spam, not-spam}
• 新闻出版按照栏目分类
– 类别 {政治,体育,军事,…}
• 词性标注
– 类别 {名词,动词,形容词,…}
• 词义排歧
– 类别 {词义1,词义2,…}
• 计算机论文的领域
– 类别 ACM system
• H: information systems • H.3: information retrieval and storage
w x w x
cj ij 2 cj
2
ij
Neural Network
文本分类的方法
人工方法和自动方法
• 人工方法
– 结果容易理解
• 足球 and 联赛体育类
– – – – – – – –
费时费力难以保证一致性和准确性(40%左右的准确率) 专家有时候凭空想象知识工程的方法建立专家系统(80年代末期) 结果可能不易理解快速准确率相对高(准确率可达60%或者更高) 来源于真实文本，可信度高
特征重构
• 隐性语义索引(Latent Semantic Index)
– 奇异值分解(SVD)：A=(aij)=UΣVT
• AM*N, UM*R, ΣR*R(对角阵), VN*R, R<=MIN(M,N)
– 取Σ对角上的前k个元素，得Σk
• Ak= UkΣkVkT, Uk由U的前k列组成，Vk由V的前k列组成 • 文档d在LSI对应的向量d’=dTUkΣ-1
P(ci | t ) CE (t ) P(ci | t ) log P(ci ) i
特征选择(3)
• χ2 统计量：度量两者(term和类别)独立性的缺乏程度， χ2 越大，独立性越小，相关性越大(若AD<BC,则类和词独立, N=A+B+C+D) c ~c 2 N ( AD CB) B t A 2 (t , c) ( A C )(B D)( A B)(C D) D ~t C
aij
log(TFij 1.0) * log( N / DFi )
[log( TF
k
kj
1.0) * log( N / DFk )] 2
• 基于熵概念的权重(Entropy weighting)
– 称为term i的某种熵 – 如果term分布极度均匀：熵等于-1 – 只在一个文档中出现：熵等于0
• 2类问题，属于或不属于(binary) • 多类问题，多个类别(multi-class)，可拆分成2类问题 • 一个文本可以属于多类(multi-label)
– 这里讲的分类主要基于内容 – 很多分类体系: Reuters分类体系、中图分类
应用
• 垃圾邮件的判定(spam or not spam)
2 AVG (t ) P(ci ) 2 (t , ci )
2 2MAX (t ) maxim { (t, ci )} 1