文本挖掘综述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Proceedings of the 1st Annual Conference on Knowledge Discovery and‘Data Mining,1995:1 12—117. [2]Maron,M,E.et a1..On relevance probabilistie indexing and information Retrieval 【J].J0umal of the ACM,1960(7):216—244.
文档集T=(dl'.一,d。,…,d,】的特征向量V(d。)与每个V(c;)之间的相
似度sim(d。,C.); (4)根据分类结果评估分类模型:选取相似度最大的一个类别
argmaxsim(dk,ci)作为dk的类别。 2.2文本聚类的处理过程 文本聚类是一种典型的无教师的机器学习问题。目前主要的文本
别标号e.,类别集合C=(olI.一,Ci,.一,C。)事先定义好; (2)选择分类方法并训练分类模型:文本分类方法有统计方法、机
器学习方法、神经网络方法等等。统计训练集S中所有文档的特征向 量V(s.),确定代表c中每个类别的特征向量V(c;);
分类阶段: (3)用训练好的分类模型对其他待分类文本进行分类:计算测试
பைடு நூலகம்DIV
AB
MOV
30H.A
MOV
3lH.B
MOV
A-30H
MOV
DPTR.冉SGTB
MOVC
A.@A+DPrR
MOV
P0.A
;显示温度十位值
CLR
P3.1
SETB
P3.O
SE7rB
P3.2
SETB
P3.3
LCALL YS4722U
MOV MOV
A.31H
DPm.霜lSGTB
MOVC
A.@A+DPIR
【关键词】数据挖掘;文本挖掘;文本分类;文本聚类 The Overview of Text Mining Technique YANG Xia HUANG Chen-ying
(Leshan Normal University,Sichuan Leshan 614004) 【Abstract]Text Mining is process of extracting interesting knowledge form large linguistic semantic text collections.First,it introduce the concept and developing of Data Mining.Then point out Text Mining and its status,Text classification and clustering are important in this.In the end,it shows the feature of Chinese text mining and highlighting the upcoming Challenges of text mining 【Key words]Data mining;Text mining;Text classification;Text clustering
面对因为网络的飞速发展而带来的“信息膨胀”,尤其是以半结构 化或非结构化的文本信息为主的信息,人们迫切需要研究出方便有效 的工具去从中提取符合需要的、简洁的、精炼的、可理解的知识,文本 挖掘TM(Text Mining)因此产生。
1.文本挖掘概述 1.1文本挖掘的定义 文本挖掘是近几年来数据挖掘领域的一个新兴分支,文本挖掘也 称为文本数据库中的知识发现,是从大量文本的集合或语料库中抽取 事先未知的、可理解的、有潜在实用价值的模式和知识【l】。对文本信息 的挖掘主要是发现某些文字出现的规律以及文字与语义、语法间的联 系,用于自然语言的处理,如机器翻译、信息检索、信息过滤等,通常采 用信息提取、文本分类、文本聚类、自动文摘和文本可视化等技术从非 结构化文本数据中发现知识。 1.2文本挖掘的国内外研究现状 国外对于文本挖掘的研究开展较早,50年代末.H.P.Luhn在这一 领域进行了开创性的研究,提出了词频统计思想用于自动分类。1960 年,Maron E≈发表了关于自动分类的第一篇论文,随后,以K.Spark,G. Sahon以及K.S.Jones等人为代表的众多学者也在这一领域进行了卓 有成效的研究工作。目前,国外的文本挖掘研究已经从实验性阶段进 入到实用化阶段.著名的文本挖掘工具有:IBM的文本智能挖掘机[31、 Autonomy公司的ConceptAgents、TelTech公司的TelTech等。 但是.国内正式引入文本挖掘的概念并开展针对中文的文本挖掘 研究是从近几年才开始的。目前看来。我国文本挖掘研究还处在消化 吸收国外相关的理论和技术与小规模实验阶段.瓶颈在于国内文本挖 掘处理的是汉语文本,在进行文本挖掘方法时必须适应汉语重“意合” 的特点,结合文本上下文来获取文本的完整“语义”。 2.文本挖掘一般处理过程 文本挖掘过程由文本预处理、特征提取、文本分类、文本聚类等步 骤组成。图1给出了文本挖掘的一般处理过程。
MOV
P0.A
:显示温度个位值
CLR
P3.2
SETB
P3.O
SETB
P3.1
SETB
P2.3
LCAIJIJ YS4722U
MOV
A.#01000l 10B
MOV CLR
P0.A P3.3
;显示温度符号
SETB
P3.O
SETB SETB
P3.1 P3.2
LCALL Y¥4722U
RET
;}¥}}#}}4 8位共阳数码管显示器字型码表¨¥¨{十}十}}¥}
作者简介:杨霞(1977~),女,硕士,主要研究方向为数据挖掘、中文信息处 理。
黄陈英(1975一),女,硕士,主要研究方向为数据处理、教育技术。
[责任编辑:张慧]
万方数据
文本挖掘综述
作者: 作者单位: 刊名:
英文刊名: 年,卷(期): 引用次数:
杨霞, 黄陈英, YANG Xia, HUANG Chen-ying 乐山师范学院,四川,乐山,614004
(3)重复上述步骤,直至剩下一个簇为止。
而划分式聚类算法运行速度较快,但是必须事先确定的取值,且
种子选取的好坏对聚类结果有较大影响。两种算法各有所长,其中划
分式具有较高的执行效率,而层次化在算法上比较符合数据的特性。
能否结合两种聚类思想更有效的对文本聚类,还有待于进一步研究。
3.结语
(下转第99页)
RE20:
DJNZ RRC
R3。RE20 A
DJNZ MOV
R2,RE01 @R1.A
DEC
R1
DJNZ
R4,RE00
DISP:
RET
显示子程序
MOV
A.2FH
MOV RRC
C.70H A
MOV RRC
C.7lH A
MOV RRC
C.72H A
MOV
C.73H
RRC
A
MOV
2FH.A
MOV MOV
A.2FH B.#10
聚类方法包括以BIRCH等算法为代表的层次化聚类算法[51和以k— means等算法为代表的划分式聚类算法【日。
这里以层次化聚类算法为例,说明文本聚类的处理过程。
对于给定的文档集合D={dl,.一,d,,…,d。)层次化聚类算法的具 体过程如下:
(1)将D中的每个文档d;看作是一个具有单个成员的簇C;=(di),
科技信息
0 IT论坛o
SCIENCE&TECHNOLOGY INFORMATION
2009年第33期
文本挖掘综述
杨霞黄陈英 (乐山师范学院 四川 乐山 614004)
【摘要】文本挖掘是对一个非结构化文本信息进行分析从而获取用户关心或感兴趣,有潜在实用价值知识的过程。本文首先介绍了文本 挖掘的定义和研究现状,之后文本挖掘一般处理过程,着力于文本分类和文本聚类的一般过程,最后展望了今后的研究目标。
SGTB:DB OCOH,OF9H,OA4H,OBOH,99H,92H,82H,OF8H,80H,90H
DB 88H,83H,0C6H,OAlH,86H,8EH,89H,OA3H,8CH,OC8H
YS4722U:MOV
R4'彝10;延时子程序
Y3:
MOV
R5,#216
DJNZ
R5,¥
DJNZ
R4.Y3
[3]蒋良孝,蔡之华.文本挖掘及其应用叨.现代计算机,2003(2),31. 4]Wmet P.Recent trends in hierarchical document clustering:A critical review [J1.Information Processing and Management,1988,24:577—597. [5]朱红灿,孟志青.一种基于SOM和层次凝聚的中文文本聚类方法叨.电子学 报,2005,27(3):36-38. [6]任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值 算法叨.计算机应用,2006,26(1):73—75.
万方数据
科技信息
O IT论坛o
SCIENCE&TECHNOLOGY INFORMATION
2009年第33期
WRl
CLR
P3.4
MOV
R3.#6
DJNZ RRC MOV MOV
R3.¥ A P3.4,C R3搿23
DJNZ SETB
R3,¥ P3.4
NOP DJNZ
R2.WRl
SETB
P3.4
RET
文本预处理
分词 特征提取
o《
挖掘分析
文本结构分析 文本摘要 文本分类 文本聚类
图1 文本挖掘过程图
常见的文本挖掘分析技术有:文本结构分析、文本摘要、文本分 类、文本聚类、文本关联分析、分布分析和趋势预测等。在这里主要介 绍文本分类与文本聚类:
2.1文本分类的处理过程 文本分类系统的任务是:在给定的分类体系下,根据文本的内容 自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射 的过程。它将未标明类别的文本映射到已有的类别中,该映射可以是 一一映射,也可以是一对多的映射。因为通常一篇文本可以同多个类 别相关联。 文本分类是一种典型的有教师的机器学习问题,一般分为训练和 分类两个阶段,具体过程如下: 训练阶段: (1)获取训练文本集S=(8lI.一,S∥一,S。}:iJil练文本集由一组经过 预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类
这些簇构成了D的一个聚类C=(ol,.一,Ci,’‘,C。);计算C中每对簇
(C。,C;)之间的相似度sim(d。,e,);
(2)选取具有最大相似度的簇对argmax(c,,Cj),其中c,,c;∈C,并 将C;和c.合并为一个新的簇C。=c.uC.,从而构成了D的一个新的聚类
C’={。1,。一,c.1);
:~一从DSl8820中读温度数据程序
REl8820:MOV
R4.拌2
RE00:
MOV MOV
R1岸2FH R2.样8
RE01:
CLR SETB
C P3.4
NOP NOP
CLR
P3.4
NOP NOP
NOP SETB
P3.4
REl0:
MOV DJNZ MOV MOV
R3.#09 R3.REl0 C.P3.4 R3搿23
【责任编辑:张艳芳]
(上接第82页)文本挖掘是一个崭新的人工智能研究方向。近年 来研究人员提出了许多的理论和具体的挖掘算法,但还没形成统一的 理论体系,大部分的算法还不成熟,存在一定的缺陷,需要进一步的 研究和完善。随着文本挖掘技术的不断完善,其应用领域也会不断
增长。口
【参考文献】 [1]Feldman R,Dagan I.KDT--Knowledge Discovery in Textual.Databases[C】//
RET
ENDe
【参考文献】 [1]陈文芗.单片机原理与应用【M】.北京:机械工业出版社,2001. [2]卢艳军.单片机基本原理及应用系统【M】.北京:机械工业出版社,2005. [3]王庆利,袁建敏.单片机设计案例实践教程(MJ.北京:北京邮电学院出版社,
2008.
作者简介:晏文靖(1981一),女,汉族,湖南新化人,讲师,2005年在南京邮 电学院计算机与科学技术系获硕士学位。主要研究方向为嵌入式系统软件开发 与网格计算。任职于无锡商业职业技术学院。
O.引言
数据挖掘(Data Mining)。就是从大量数据中获取有效的、新颖的、 潜在有用的、最终可理解的模式的非平凡过程。数据挖掘,又称为数据 库中知识发现KDD fKnowledge Discovery in Database),也有人把数据 挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘可以与用 户或知识库交互。
文档集T=(dl'.一,d。,…,d,】的特征向量V(d。)与每个V(c;)之间的相
似度sim(d。,C.); (4)根据分类结果评估分类模型:选取相似度最大的一个类别
argmaxsim(dk,ci)作为dk的类别。 2.2文本聚类的处理过程 文本聚类是一种典型的无教师的机器学习问题。目前主要的文本
别标号e.,类别集合C=(olI.一,Ci,.一,C。)事先定义好; (2)选择分类方法并训练分类模型:文本分类方法有统计方法、机
器学习方法、神经网络方法等等。统计训练集S中所有文档的特征向 量V(s.),确定代表c中每个类别的特征向量V(c;);
分类阶段: (3)用训练好的分类模型对其他待分类文本进行分类:计算测试
பைடு நூலகம்DIV
AB
MOV
30H.A
MOV
3lH.B
MOV
A-30H
MOV
DPTR.冉SGTB
MOVC
A.@A+DPrR
MOV
P0.A
;显示温度十位值
CLR
P3.1
SETB
P3.O
SE7rB
P3.2
SETB
P3.3
LCALL YS4722U
MOV MOV
A.31H
DPm.霜lSGTB
MOVC
A.@A+DPIR
【关键词】数据挖掘;文本挖掘;文本分类;文本聚类 The Overview of Text Mining Technique YANG Xia HUANG Chen-ying
(Leshan Normal University,Sichuan Leshan 614004) 【Abstract]Text Mining is process of extracting interesting knowledge form large linguistic semantic text collections.First,it introduce the concept and developing of Data Mining.Then point out Text Mining and its status,Text classification and clustering are important in this.In the end,it shows the feature of Chinese text mining and highlighting the upcoming Challenges of text mining 【Key words]Data mining;Text mining;Text classification;Text clustering
面对因为网络的飞速发展而带来的“信息膨胀”,尤其是以半结构 化或非结构化的文本信息为主的信息,人们迫切需要研究出方便有效 的工具去从中提取符合需要的、简洁的、精炼的、可理解的知识,文本 挖掘TM(Text Mining)因此产生。
1.文本挖掘概述 1.1文本挖掘的定义 文本挖掘是近几年来数据挖掘领域的一个新兴分支,文本挖掘也 称为文本数据库中的知识发现,是从大量文本的集合或语料库中抽取 事先未知的、可理解的、有潜在实用价值的模式和知识【l】。对文本信息 的挖掘主要是发现某些文字出现的规律以及文字与语义、语法间的联 系,用于自然语言的处理,如机器翻译、信息检索、信息过滤等,通常采 用信息提取、文本分类、文本聚类、自动文摘和文本可视化等技术从非 结构化文本数据中发现知识。 1.2文本挖掘的国内外研究现状 国外对于文本挖掘的研究开展较早,50年代末.H.P.Luhn在这一 领域进行了开创性的研究,提出了词频统计思想用于自动分类。1960 年,Maron E≈发表了关于自动分类的第一篇论文,随后,以K.Spark,G. Sahon以及K.S.Jones等人为代表的众多学者也在这一领域进行了卓 有成效的研究工作。目前,国外的文本挖掘研究已经从实验性阶段进 入到实用化阶段.著名的文本挖掘工具有:IBM的文本智能挖掘机[31、 Autonomy公司的ConceptAgents、TelTech公司的TelTech等。 但是.国内正式引入文本挖掘的概念并开展针对中文的文本挖掘 研究是从近几年才开始的。目前看来。我国文本挖掘研究还处在消化 吸收国外相关的理论和技术与小规模实验阶段.瓶颈在于国内文本挖 掘处理的是汉语文本,在进行文本挖掘方法时必须适应汉语重“意合” 的特点,结合文本上下文来获取文本的完整“语义”。 2.文本挖掘一般处理过程 文本挖掘过程由文本预处理、特征提取、文本分类、文本聚类等步 骤组成。图1给出了文本挖掘的一般处理过程。
MOV
P0.A
:显示温度个位值
CLR
P3.2
SETB
P3.O
SETB
P3.1
SETB
P2.3
LCAIJIJ YS4722U
MOV
A.#01000l 10B
MOV CLR
P0.A P3.3
;显示温度符号
SETB
P3.O
SETB SETB
P3.1 P3.2
LCALL Y¥4722U
RET
;}¥}}#}}4 8位共阳数码管显示器字型码表¨¥¨{十}十}}¥}
作者简介:杨霞(1977~),女,硕士,主要研究方向为数据挖掘、中文信息处 理。
黄陈英(1975一),女,硕士,主要研究方向为数据处理、教育技术。
[责任编辑:张慧]
万方数据
文本挖掘综述
作者: 作者单位: 刊名:
英文刊名: 年,卷(期): 引用次数:
杨霞, 黄陈英, YANG Xia, HUANG Chen-ying 乐山师范学院,四川,乐山,614004
(3)重复上述步骤,直至剩下一个簇为止。
而划分式聚类算法运行速度较快,但是必须事先确定的取值,且
种子选取的好坏对聚类结果有较大影响。两种算法各有所长,其中划
分式具有较高的执行效率,而层次化在算法上比较符合数据的特性。
能否结合两种聚类思想更有效的对文本聚类,还有待于进一步研究。
3.结语
(下转第99页)
RE20:
DJNZ RRC
R3。RE20 A
DJNZ MOV
R2,RE01 @R1.A
DEC
R1
DJNZ
R4,RE00
DISP:
RET
显示子程序
MOV
A.2FH
MOV RRC
C.70H A
MOV RRC
C.7lH A
MOV RRC
C.72H A
MOV
C.73H
RRC
A
MOV
2FH.A
MOV MOV
A.2FH B.#10
聚类方法包括以BIRCH等算法为代表的层次化聚类算法[51和以k— means等算法为代表的划分式聚类算法【日。
这里以层次化聚类算法为例,说明文本聚类的处理过程。
对于给定的文档集合D={dl,.一,d,,…,d。)层次化聚类算法的具 体过程如下:
(1)将D中的每个文档d;看作是一个具有单个成员的簇C;=(di),
科技信息
0 IT论坛o
SCIENCE&TECHNOLOGY INFORMATION
2009年第33期
文本挖掘综述
杨霞黄陈英 (乐山师范学院 四川 乐山 614004)
【摘要】文本挖掘是对一个非结构化文本信息进行分析从而获取用户关心或感兴趣,有潜在实用价值知识的过程。本文首先介绍了文本 挖掘的定义和研究现状,之后文本挖掘一般处理过程,着力于文本分类和文本聚类的一般过程,最后展望了今后的研究目标。
SGTB:DB OCOH,OF9H,OA4H,OBOH,99H,92H,82H,OF8H,80H,90H
DB 88H,83H,0C6H,OAlH,86H,8EH,89H,OA3H,8CH,OC8H
YS4722U:MOV
R4'彝10;延时子程序
Y3:
MOV
R5,#216
DJNZ
R5,¥
DJNZ
R4.Y3
[3]蒋良孝,蔡之华.文本挖掘及其应用叨.现代计算机,2003(2),31. 4]Wmet P.Recent trends in hierarchical document clustering:A critical review [J1.Information Processing and Management,1988,24:577—597. [5]朱红灿,孟志青.一种基于SOM和层次凝聚的中文文本聚类方法叨.电子学 报,2005,27(3):36-38. [6]任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值 算法叨.计算机应用,2006,26(1):73—75.
万方数据
科技信息
O IT论坛o
SCIENCE&TECHNOLOGY INFORMATION
2009年第33期
WRl
CLR
P3.4
MOV
R3.#6
DJNZ RRC MOV MOV
R3.¥ A P3.4,C R3搿23
DJNZ SETB
R3,¥ P3.4
NOP DJNZ
R2.WRl
SETB
P3.4
RET
文本预处理
分词 特征提取
o《
挖掘分析
文本结构分析 文本摘要 文本分类 文本聚类
图1 文本挖掘过程图
常见的文本挖掘分析技术有:文本结构分析、文本摘要、文本分 类、文本聚类、文本关联分析、分布分析和趋势预测等。在这里主要介 绍文本分类与文本聚类:
2.1文本分类的处理过程 文本分类系统的任务是:在给定的分类体系下,根据文本的内容 自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射 的过程。它将未标明类别的文本映射到已有的类别中,该映射可以是 一一映射,也可以是一对多的映射。因为通常一篇文本可以同多个类 别相关联。 文本分类是一种典型的有教师的机器学习问题,一般分为训练和 分类两个阶段,具体过程如下: 训练阶段: (1)获取训练文本集S=(8lI.一,S∥一,S。}:iJil练文本集由一组经过 预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类
这些簇构成了D的一个聚类C=(ol,.一,Ci,’‘,C。);计算C中每对簇
(C。,C;)之间的相似度sim(d。,e,);
(2)选取具有最大相似度的簇对argmax(c,,Cj),其中c,,c;∈C,并 将C;和c.合并为一个新的簇C。=c.uC.,从而构成了D的一个新的聚类
C’={。1,。一,c.1);
:~一从DSl8820中读温度数据程序
REl8820:MOV
R4.拌2
RE00:
MOV MOV
R1岸2FH R2.样8
RE01:
CLR SETB
C P3.4
NOP NOP
CLR
P3.4
NOP NOP
NOP SETB
P3.4
REl0:
MOV DJNZ MOV MOV
R3.#09 R3.REl0 C.P3.4 R3搿23
【责任编辑:张艳芳]
(上接第82页)文本挖掘是一个崭新的人工智能研究方向。近年 来研究人员提出了许多的理论和具体的挖掘算法,但还没形成统一的 理论体系,大部分的算法还不成熟,存在一定的缺陷,需要进一步的 研究和完善。随着文本挖掘技术的不断完善,其应用领域也会不断
增长。口
【参考文献】 [1]Feldman R,Dagan I.KDT--Knowledge Discovery in Textual.Databases[C】//
RET
ENDe
【参考文献】 [1]陈文芗.单片机原理与应用【M】.北京:机械工业出版社,2001. [2]卢艳军.单片机基本原理及应用系统【M】.北京:机械工业出版社,2005. [3]王庆利,袁建敏.单片机设计案例实践教程(MJ.北京:北京邮电学院出版社,
2008.
作者简介:晏文靖(1981一),女,汉族,湖南新化人,讲师,2005年在南京邮 电学院计算机与科学技术系获硕士学位。主要研究方向为嵌入式系统软件开发 与网格计算。任职于无锡商业职业技术学院。
O.引言
数据挖掘(Data Mining)。就是从大量数据中获取有效的、新颖的、 潜在有用的、最终可理解的模式的非平凡过程。数据挖掘,又称为数据 库中知识发现KDD fKnowledge Discovery in Database),也有人把数据 挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘可以与用 户或知识库交互。