《数据挖掘技术》第7章 复杂类型数据挖掘及其应用(课件)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ri p i2 q i2
第7章 复杂类型数据挖掘及其应用
机械式自动文摘
• 机械式自动文摘原理简单、易于实现。目前实用化的自动文 摘系统几乎都是机械式的。这些系统与文字处理系统、网络
信息搜索引擎相结合,在实际中发挥了作用。
• 尽管机械式自动文摘系统已经走向了实用,但是由于文摘不 是基于理解做出的,因此文摘的质量受到了限制。如在结构、
语音识别研究前沿
影响语音识别技术走向实用的主要问题有两个:
• 一是缺乏鲁棒性,即当系统应用场合的声学环境同训练语料 的声学环境差异较大时,误识率将显著增加;
• 二是缺乏灵活性,即当人讲话比较自由随意时,识别性能明 显下降。 因此,在语音识别研究的前沿领域中,自然口语语音识 别、人机口语对话系统、广播电视新闻自动记录系统等直接 解决鲁棒性和灵活性问题的研究项目吸引了人们的注意力。
基于XML的Web数据挖掘
XML给基于Web的应用软件赋予了强大的功能和灵活性, 因此它给开发者和用户带来了许多好处。
• XML补充了HTML,被广泛地用来描述使用者界面,解决了数据的 统一接口问题, • 在数据中附加TAG来表达数据的逻辑结构和含义,使XML成为一种 程序能自动理解的规范。 • XML应用于将大量运算负荷分布在客户端,即客户可根据自己的 需求选择和制作不同的应用程序以处理数据,而服务器只须发出 同一个XML文件。 • XML还被应用于网络代理,以便对所取得的信息进行编辑、增减 以适应个人用户的需要。
逻辑性、精炼度等方面明显低于专家的水平,文摘的可读性、
易懂性较低。
第7章 复杂类型数据挖掘及其应用
7.2.2.2理解式自动文摘
图7-1
选择生成法自动文摘模型
• 理解式自动文摘研究的目的就是要克服上述问题,提高自动文摘 的质量。理解式自动文摘运用自然语言理解的方法,在对句子和 篇章进行分析和理解的基础上,在知识的指导下建立自动文摘。
7.2.1.3智能搜索引擎
人工搜索引擎在网络信息检索中为检索者提供了很大的便利, 显著地加快了信息检索的速度和准确性。但是,它却存在一 个非常明显的问题:需要发布者主动地人工登记信息。 自动搜索引擎的最大特点就是能够自动获取网络上的信息, 它们依靠像“蜘 蛛”一样的程序在网络中不停地爬行和搜 索,一旦发现新的信息,便自动对其进行分类,或用关键词 对其进行索引,并将分类或索引结果加入到搜索引擎之中。 智能搜索引擎在获取信息时要采用自动分类及自动索引等技 术。这些技术均属于是自然语言处理和理解技术。
7.2.3语音数据挖掘
7.2.3.1语音识别技术
• • • • 1.线性预测编码(LPC)算法 2.动态时间伸缩(DTW)算法 3.协同发音及语音多变性问题 4.隐Markov模型(HMM)算法
7.2.3.2语音识别
1.语音识别系统的特征 :词汇表、输入方式和服务对象是一个 语音识别系统的重要特征。 2.语音识别系统:1)弧立词识别系统 2)连接词识别系统 3)连续语音识别系统 3.说话人自适应
第7章 复杂类型数据挖掘及其应用
7.2.2文本数据挖掘(Textualmining)
• 无论是在数据结构还是在分析处理方法方面,文本数据挖掘 和前面谈到的数据挖掘相差很大。 • 所谓自动文摘就是利用计算机自动提取出一篇文章的主旨和 要点,提高人们选择和获取信息速度的技术。
机械式文摘:仅根据词在文章的出现频度,以及句子在文章 中的位臵选取文摘句,而不对文章的内容进行理解。
理解式文摘:即文摘是在对文章进行了分析理解后提取出来 的。
第7章 复杂类型数据挖掘及其应用
7.2.2.1机械式自动文摘
• 机械式自动文摘系统的原理
1956年,美国的Luhn提出了世界上第一个自动文摘系
统 ,根据词的频度来计算文章中句子的重要性,按重要性 的高低抽取文章中的部分句子作为摘要。
功能词的频度不影响句子的重要性,因而只统计内容词的频 度。频度超过设定阈值的内容词被称为代表词。而一个句子 的重要性取决于它所包含的代表词的数量。 一个句子i的重要性用其代表值ri表示
第7章 复杂类型数据挖掘及其应用


人机口语对话系统
目前,实用中的人机对话技术主要是面向特定领域的人 机口语对话系统,主要有以下几个方面的应用: (1)信息查询。 (2)表格填写。 (3)有限范围的语音自动翻译。 (4)特定任务的语音界面。 (5)手眼都被占用(或不自由)场合的语音交互。 人机口语对话系统通常包括语音识别器、对话管理器、 任务反馈器、语音合成器4个主要部件。各部件分别有如下 功能: 语音识别器将输入语音转化为文本,输出给对话管理器。 语音合成器将对话管理器的语言反馈即文本合成为语音。
第7章 复杂类型数据挖掘及其应用
7.2.3.3语音识别研究前沿
语音识别技术正在向实用化迈进。以IBM的VIAVOCE 为代表的几个听写机系统,数字串的识别,面向特定领域的 对话系统出现。当输入语音符合系统要求、比较规范,并且 其声学环境同训练数据的声学环境相近时,识别性能甚至可 以接近100%。
第7章 复杂类型数据挖掘及其应用
第7章 复杂类型数据挖掘及其应用
7.1数据挖掘未来研究方向 7.2复杂类型数据挖掘 7.3数据挖掘应用 7.4数据挖掘的技术、经济及社会因素 7.5小结
7.1数据挖掘未来研究方向
当前,DM研究迫切需要类似于关系模式、DBMS系统和SQL查询 语言等理论和方法的指导,才能普遍推广。研究焦点可能会集中到以下 几个方面: • (1)发现语言的形式化描述。 • (2)寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用 户理解,也便于在知识发现的过程中进行人机交互。 • (3)研究在网络环境下的数据挖掘技术(Web Mining),特别是在因 特网上建立DM服务器,并且与数据库服务器配合,实现Web Mining。 • (4)加强对各种非结构化数据的开采(Data Mining for Audio& Video;处理的数据将会涉及到更多的数据类型。 • (5)交互式发现。 • (6)知识的维护更新。
XML作为一种标记语言,有许多特点:

• • •
(1)简单
(2)开放 (3)高效且可扩充 (4)国际化
第7章 复杂类型数据挖掘及其应用
基于XML的Web数据挖掘
3. XML在Web数据挖掘中的应用
使用可升级的三层模型,XML可以从存在的数据中产生出来, 使用XML结构化的数据可以从商业规范和表现形式中分离出来:数 据的集成,发送,处理,显示
第7章 复杂类型数据挖掘及其应用
7.2.1.1网络信息检索的智能化
• 网络智能化的另一个重要方面是网络信息检索的智 能化。
由于网络上信息站点的建立和信息的发布是大量的、自 由的和无序的,因此,如果没有一个有效的工具,在网络中 查找信息就会如同大海捞针。 网络搜索引擎的产生为解决这一问题提供了一个非常有 效的手段,因此已经成为网络信息检索的关键技术。 搜索引擎能够帮助检索者是因为它预先对网络的信息进 行了分类、索引和摘要。 自动搜索引擎通过专门设计的网络程序自动发现网络上 新出现的信息,并对其进行自动分类、自动索引和自动摘要。
第7章 复杂类型数据挖掘及其应用
7.2.1.4基于XML的Web数据挖掘
1.Web数据ቤተ መጻሕፍቲ ባይዱ点
Web上有海量的数据信息,最大特点就是半结构化。所 谓半结构化是相对于完全结构化的传统数据库的数据而言。 显然,面向Web的数据挖掘比面向单个数据仓库的数据挖掘 要复杂得多。 1)异构数据库环境 2)半结构化的数据结构 3)解决半结构化的数据源问题
第7章 复杂类型数据挖掘及其应用
自然口语语音识别

• 1)自然口语语音的特点 自然口语语音(spontaneous speech)就是指按照日常的自然口 语方式讲话所产生的语音信号。 经过分析人们发现,除正常语音外自然口语语音中包含的随机信 号大致可分为非流畅语音信号、背景噪声、讲话人的附带发音3类。 在基于连续朗读式语音的语音识别系统中(如听写机系统),Ngrams语音模型是非常有效的,而在自然口语语音的识别中这种模 型不再适用。 对自然口语语音进行识别,对声学模型、语言模型,以及识别和 训练算法都需要进行大的改进。 2)自然口语语音识别的研究概况 (1)大词汇量自然口语语音识别研究 (2)关键词检测技术 (3)语言模型的研究
第7章 复杂类型数据挖掘及其应用
理解式自动文摘

3.与机械式自动文摘的关系
理解式自动文摘与机械式自动文摘不是对立的,研究和 开发理解式自动文摘技术要充分吸收机械式自动文摘技术的 成果,尤其是对其中的简单的、普遍有效的方法要积极采纳, 使理解式自动文摘技术在一个较高的基础之上发展。
第7章 复杂类型数据挖掘及其应用
第7章 复杂类型数据挖掘及其应用
• • • • •
• •
人机口语对话系统
人机口语对话系统通常包括语音识别器、对话管理器、 任务反馈器、语音合成器4个主要部件。各部件分别有如下 功能: • 语音识别器将输入语音转化为文本,输出给对话管理器。
• 语音合成器将对话管理器的语言反馈即文本合成为语音。
第7章 复杂类型数据挖掘及其应用
7.2复杂类型数据挖掘
热点包括网站的数据挖掘(Web site data mining)、生 物信息或基因(Bioinformatics/genomics)的数据挖掘及其 文本的数据挖掘(Textual mining)。 7.2.1网站数据挖掘(Web site data mining) 建立起一个电子商务网站并让您的电子商务网站有效益。 必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务 的竞争比传统的业务竞争更加激烈一个原因是客户从一个电子 商务网站转换到竞争对手那边,只需点击几下鼠标即可。
促进XML应用:
• 需要Web客户端在两个或更多异质数据库之间进行通信的应用; • 试图将大部分处理负载从Web服务器转到Web客户端的应用; • 需要Web客户端将同样的数据以不同的浏览形式提供给不同的用 户的应用;
• 需要智能Web代理根据个人用户的需要裁减信息内容的应用。
第7章 复杂类型数据挖掘及其应用
第7章 复杂类型数据挖掘及其应用
7.2.1.2人工搜索引擎
1.分类式搜索引擎
搜索引擎将网络上的信息,包括网页、新闻组等按主题进行分类, 由用户选择不同的主题来对网络上的信息进行过滤。
2.关键词索引式搜索引擎
核心是一个关键词索引文件,该索引文件是一个倒排文件,每个关键 词在索引文件。
第7章 复杂类型数据挖掘及其应用
第7章 复杂类型数据挖掘及其应用
理解式自动文摘

2.理解式自动文摘系统的领域移植
提出了一个新的问题,那就是如何迅速地使理解式自动文摘 系统面向众多的领域? 主要的工作就是要设计新领域的文摘框架和知识库─全信息 词典。这个工作包括: (1)收集语料; (2)确定文摘框架和领域专业词; (3)研究语料句式; (4)构筑新知识库。 为此,北京邮电大学郭祥昊提出了基于机器学习的理解式自 动文摘系统领域移植方法。该方法的核心思想是通过人机交互的 方式让计算机自动获取专业领域词汇的语义和语用规则,并将其 组织在知识库之中。
第7章 复杂类型数据挖掘及其应用
基于XML的Web数据挖掘
2.XML与Web数据挖掘技术
以XML为基础的新一代WWW环境是直接面对Web数据的, 不仅可以很好地兼容原有的Web应用,而且可以更好地实现Web 中的信息共享与交换。XML可看作一种半结构化的数据模型,可 以很容易地将XML的文档描述与关系数据库中的属性一对应起来, 实施精确地查询与模型抽取。
第7章 复杂类型数据挖掘及其应用
理解式自动文摘
• 1.选择生成法自动文摘
北京邮电大学杨晓兰提出了用选择生成法建立自动文摘 系统的方案。 模型中包括选择分析器、文摘框架、全信息词典、文摘 生成器和文摘模板等要素。文摘框架与文章的领域有关,如 果是科技文献,一篇文章的文摘应由研究的对象、目的、方 法、实验结果和结论等部分构成。将这些部分按照人们习惯 的形式组织起来便形成了文摘框架。全信息词典将句子分析 时所需要的词汇的语法、语义和语用信息有机地组成一体, 用统一的文法描述。 选择分析器、文摘框架和全信息词典是关键的3要素。
相关文档
最新文档