922709-商务智能与数据挖掘教材-第5章 文本与WEb分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 其运行时间与符号类别的多少之间 是线性增长的关系,不便于获取某 个特殊应用领域的训练数据,容易 出现数据稀疏的问题。
基础研究
• 自然语言处理 的基础研究主要包括:词法分析,句法分析,语义分析, 语用、语境与篇章分析等。
✓ 词法分析 要先将构成句子的字符串 变成词串,然后再加上句法范畴标记 ,有时还要加上语义范畴标记。
1 文本分类和聚类
2Hale Waihona Puke Baidu信息抽取与文本挖掘
3 自动文摘
4 复述与文本生成
5 话题检测与跟踪
6 情感分析
7 语料库与词汇知识库
应用研究
1 机器翻译
2 主题分析
3 自然语言 理解
4 信息检索
5 社会计算
6 网络案情 分析
应用研究
1、机器翻译
机器翻译,又称为自动翻译,是指以计 算机为转化中介,将源语言文本直接转 为其他目标语言文本。机器翻译可以分 为原文分析、原文转化为译文以及生成 为译文这三个阶段。
03 TF-IDF方法
TF-IDF方法是一种常见的用于信息搜 索和信息挖掘的加权技术。
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的关键技术
2、特征提取
04 期望交叉熵方法
期望交叉熵公式如下:
词或短语的交叉熵越大,对文本类别分布的影响也越大,所以选交叉熵最大的 k个词或短语作为最终的特征项。
✓ 近年来,国务院等相关部门相继出台有关 “互联网+政务服务”“互联网+流 通”“互联网+制造业”等指导意见,推 动互联网与各个行业的融合。
✓ 人工已不足以对网上海量信息进行收集和 处理,所以迫切需要计算机来帮助用户快 速获得、整理这些评论信息由此,情感分 析技术应运而生。
商务智能与数据挖掘
高等教育出版社
文本挖掘的定义及特点
在现实生活中,大量的信息是以文本的形式,如新闻文档、研究论文、书籍 电子邮件和Web页面等存在的。随着电子形式的文本信息的爆发式增长,文 本挖掘已经成为信息领域的研究热点。在给出文本挖掘的定义前,首先给出 文本数据、文本信息、文本知识的定义。
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的关键技术
2、特征提取
06 互信息方法
互信息用于表征两个变量间的相关性。对于文档类c和特征f,其互信息记 为MI(c,f),计算公式如下:
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的关键技术
3、文本分类 1 朴素贝叶斯分类方法 2 支持向量机方法 3 k-最邻近方法 4 决策树方法 5 人工神经网络方法
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的关键技术
2、特征提取
05 信息增益方法
假定c为文档类变量,C为文档类的集合,d为文档,f为特征。对于特征f,其信息 增益记为IG(f),其计算公式如下:
上式中,H(C)为C的熵,H(C|f)为C的条件熵。
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的定义及特点
• 定义5.1 文本数据 是(大规模)自
然语言文本的集合,是面向人的,可以 被人部分理解,但不能为人所充分利用 。它具有自然语言固有的模糊性与歧义 性,有大量的噪声和不规则结构。
• 定义5.2 文本信息 是从文本数据中
抽取出来的,是机器可读的,具有一定 格式的关系。它是面向机器的、无歧义 的,是显性关系的集合。
2020/9/22
• Web文本 是以非结构化形式存在的,所以对文本进行情感分类是一
个非常复杂的过程。
• 主要包括主客观文本分类、情感极性判别、情感强度判别。
• 计算机的自然语言处理技术,是指按照技术特性和研究内容、结合语 言学和计算机科学来解决自然语言的处理问题。
• 自然语言处理先后经历了两个阶段:规则方法阶段和统计方法阶段。
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的定义及特点
定义5.3 文本知识 是对文本信息进行处理而得到的有意义的模式,是面向人
的,对人来说是可理解的和有用的。在文本数据、文本信息、文本知识定义的基 础上可以定义文本挖掘。
定义5.4 文本挖掘 是指为了发现知识,从文本数据中抽取隐含的、以前未知
(1)基于规则的机器翻译方法。该方 法主要是以词典和知识库作为基础。 (2)基于语料库的机器翻译方法。细 分为基于实例的方法和基于统计的方法 。
应用研究
2、主题分析
主题分析是指给定某一主题,利用计算机在 自然语言文本中搜索这一主题是否存在,其 主要目的是在特定的领域中对具有延续性的 语音或文字信号进行监控。
统计方法
优点
不足
1.该方法的成效主要依赖于训练语言数据 的规模,训练的语言数据越多,其效果就 越好。 2.该方法非常适合用来模拟有不精确的、 细微差别的概念,这些概念在传统语言学 中需要使用模糊逻辑才能处理。 3.该方法可以与规则方法结合起来,用来 处理语言中各种约束条件问题,使自然语 言处理系统的效果不断得到提高。
功能:
(1)文本分类和新闻聚类。 (2)中文分词、词性标注、实体名识 别、关键词抽取、依存句法分析和时间 短语识别。 (3)结构化学习、在线学习、层次分 类、聚类和精确推理。
处理工具
3、语言技术平台
语言技术平台 是哈尔滨工业大学社会计算与信息检索中心经过长期的摸索 开发出来的一种中文语言处理系统。
处理工具
1、OpenNLP
OpenNLP是一种处理自然语言文本的机器学习工具包,它以Java技术为基础。 该工具适用于多数常用的自然语言处理技术,如名词抽取、句子切分、解析、 标识化、部分词性标注以及组块等。
处理工具
2、FudanNLP
FudanNLP主要是为中文自然语言处理而 开发的工具包,它同时包含用于实现这 些任务的机器学习算法和数据集。
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的过程
1
文本获取
文本预处理
2
3
挖掘分析
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的过程
1、文本获取
获取网页文本需要使用网络爬虫技术,在具体操作时可以依据相关主题进 行主题爬虫,或者依据目标链接网址进行通用爬虫。
商务智能与数据挖掘
3、自然语言理解
自然语言理解,这种方式是通过模拟人的语 言交际过程,让计算机可以以人脑的理解方 式运用自然语言,从而使人机之间的通信自 然畅通。
应用研究
4、信息检索
信息检索是指数据库中所存储的信息是通过 一定的原则组织的,在用户提出需求指令后 进行筛选,并将筛选到的相关信息反馈给用 户的过程。
5、社会计算
✓ 因此,有些数据挖掘技术并不适用 于文本挖掘,即使可以使用,也需 要建立在对文本集预处理的基础之 上使用。
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的应用
1、安保应用
ECHELON监控系统能够识别电话、传真、邮件 和其他各类形式数据的内容,拦截通过卫星 、公用电话交换网和其他微波传送的信息。
对文本数据库的处理,如果其结构较好,则可以方便地利用关系数据库进行分析, 而如果遇到非结构化的文本,则需要利用特殊的处理方法对其进行转化。
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的关键技术
1、中文分词
(1)字符匹配法 字符匹配法又称为机械分词方法。 (2)理解法 理解法,就是人们通常所说的对某 一类事务的认知。 (3)统计法 从概率的角度出发,两个字出现在 词组中的联合概率非常大。
高等教育出版社
2020/9/22
文本挖掘的过程
2、文本预处理
• 对文本进行预处理时,首先需要去除文本中一些嘈杂的信息; • 其次进行分词,就是指把一句话分成由一个个单独的词组成的序列,每
个词都有其特定的意义; • 最后是通过特征提取,在海量的文本数据中选择最具有代表性的特征进
行挖掘分析。
3、挖掘分析
✓ 词法分析包括词性标注和词义标注两 大任务。
✓ 词法分析通常采用基于规则和基于统 计的两种方法。
✓ 句法分析 主要是确定句子的句法结构,识别组 成句子的各个成分,明确它们之间的相互关系。 判断输入的单词序列(一般为句子)是否合乎给 定的语法,分析出合乎语法句子的句法结构。
✓ 语义分析 是根据句子的句法结构和句子中每个 实词的词义推导出能反映该句子意义(即句义) 的某种形式化表示,即将人类能够理解的自然语 言转化为计算机能够理解的形式语言。
2、垃圾邮件过滤
文本挖掘技术通过对某些词汇的判断以及文 本分类方法估计每一封新邮件属于垃圾邮件 或正常邮件的可能性,实现垃圾邮件的过滤 。
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的应用
商务智能与数据挖掘
3、金融创新
金融领域的数据挖掘工作大多是利用以数字形 式存放在标准数据库中的结构化数据,该部分 数据在所有金融信息中所占的比例较小,在金 融信息中,三分之二以上的数据。
✓ 语用 是人对语言的具体运用,它与语言使 用者的知识状态、言语行为、语境、意图 和想法有关联。语用分析用于分析和研究 语言使用者的真正意图,是对自然语言的 深层理解。
✓ 语境分析 主要关注文化语境和情景语境。
✓ 篇章分析 将研究扩展到句子界限之外,对 文章段落和全篇进行理解和分析。
共性技术
共性技术 是一种自然语言处理过程中经常使用的技术
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的关键技术
2、特征提取
01 词频方法
词频方法利用词频进行特征提取,先设定 一个阈值,将该文档中词频低于这一阈值 的词都删除,以降低特征空间的维数。
02 文档频数方法
文档频数是最为简单的一类特征提取 算法,就是选定某个词,在训练文本 集中统计出现该词的文本数量。
规则方法
01 其规则主要是语言学规则,具有很强的形式描述能力、 形式生成能力,在自然语言处理中有非常好的应用价值。
规则方法一般通俗易懂,表达清晰,描述明确,很多事
02 实都能用语言模型的结构和组成成分直接而清晰地表示 出来。
规则方法主要依托计算机处理流程的思维,所以它能与
03 计算机科学中的一些高效算法进行融合。例如,计算机 算法分析中使用的Earley算法和Marcus算法都可以作为 基于规则的理性主义方法应用于自然语言处理。
第五章
文本与Web分析
主要内容 1 文本分析与web分析概述 2 自然语言处理 3 文本挖掘 4 情感分析 5 Web挖掘过程
6 社交分析
商务智能与数据挖掘
高等教育出版社
2020/9/22
✓ 据《第41次中国互联网络发展状况统计报 告》,截至2017年12月,我国网民规模达 到7.72亿,半年新增网民4074万人;互联 网普及率55.8%,较2016年底提高2.6个百 分点。
的、潜在有用的模式的过程。它是一个分析文本数据,抽取文本信息,进而发现 文本知识的过程,同时运用这些知识更好地组织信息以便将来参考。
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的定义及特点
特点:
✓ 文本本身没有某一具体确定的形式 并且很难被机器所理解,属于半结 构化或非结构化的;
✓ 而数据挖掘的对象是以数据库中的 结构化数据为主,并利用关系表等 存储结构来发现知识。
社会计算也称为计算社会学,是在互联网环 境下,以现代信息技术为手段,以社会科学 理论为指导,帮助人们分析社会关系、挖掘 社会知识、破解社会难题的学科。
应用研究
6、网络案情分析
互联网的普及与快速发展给犯罪分子进行犯罪活动提供了便利,同时也 给办案人员提供了新的快速破案的途径。电子取证技术是目前使用最广 泛的借助于计算机手段进行刑侦破案的技术,为公安机关侦破众多计算 机网络犯罪提供了重要帮助。
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的关键技术
4、文本聚类 常有的聚类同样适用于文本聚类
基于划分的 01
4、生物医学应用
文献资料在验证实验有效性和阐释实验方面意 义重大,因此研发自动文本挖掘工具以协助这 类阐释是当今生物信息学研究所面临的主要挑 战之一。
高等教育出版社
2020/9/22
文本挖掘的过程
文本挖掘过程 由文本获取、文本预处理、挖掘分析等步骤组成。
• 下图5-1展示了文本挖掘的一般处理过程。
把文本集转化成一个矩阵,然后利用各种算法对其进行挖掘。
商务智能与数据挖掘
高等教育出版社
2020/9/22
文本挖掘的关键技术
在文本数据库中,数据的存储形式分为三类:
✓ 第一类是高度非结构化,如万维网在(WWW)上的网页; ✓ 第二类是半结构化,如电子邮件消息和一些XML网页; ✓ 第三类则是良结构化。