《文本数据挖掘》教学大纲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文本数据挖掘教学大纲
课程名称:文本数据挖掘
学分:2
总学时:32 理论学时:24 实验学时:8
先修课程:数据库原理与应用、Python高级语言编程、数据结构
适用专业: 数据工程专业
开课学期:第六学期
01课程性质、定位和教学目标
课程性质:文本数据挖掘是数据工程专业的必修课程,本课程以文本数据挖掘为主要内容,讲述实现文本数据挖掘的各主要功能、挖掘算法和应用,并通过对实际数据的分析更加深入地理解常用的文本数据挖掘模型。
课程定位:“文本数据挖掘技术导论”是针对数据工程专业的专业技术课程,同时也是该专业的核心课程,也是本专业创业创新教育课程。在学生专业培养中起到至关重要的作用。
教学目标:通过“文本数据挖掘技术导论”课程的教学,使学生理解文本数据挖掘的基本概念和方法,学习和掌握中的文本数据挖掘的经典方法。使学生能够借助Python高级语言编程工具进行具体文本数据的挖掘分析。
02教学内容与要求
第一章绪论
【教学目的与要求】
了解文本挖掘研究背景、意义及国内外研究现状,掌握文本挖掘的概念,了解文本挖掘主要研究领域,了解文本挖掘在制药企业应用案例。
【教学内容】
1.1 文本挖掘研究背景及意义
1.2 文本挖掘的国内外研究现状
1.3 文本挖掘概述
1.4 文本挖掘的过程
1.5 文本挖掘在制药企业应用案例
【教学重点与难点】
重点:文本挖掘研究背景、意义国内外研究现状、文本挖掘概念
难点:文本挖掘的过程
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等
【课后作业】
1. 文本挖掘与数据挖掘有何联系和区别?
2. 目前文本挖掘的领域主要涉及到哪些?
第二章文本切分及特征词选择
【教学目的与要求】
掌握文本数据采集的常用方法、了解中文语料库与词典,熟练掌握文本切分和文本特征词选择的方法,熟练掌握Python Jieba分词模块及其用法。
【教学内容】
2.1 文本数据采集
2.2 语料库与词典简介
2.3 文本切分
2.4 文本特征词选择
2.5 Python Jieba分词模块及其用法
【教学重点与难点】
重点:文本切分、文本特征词选择、Python Jieba分词模块及其用法
难点:Python Jieba分词模块及其用法
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等
【课后作业】
1 利用现代汉语语料库进行一段中文文本的汉语分词、词性自动标注、字频统计和词频统计。
2 用Python实现双向最大匹配的算法。
3 利用jieba进行一段中文文本的三种模式的分词。
第三章文本表示模型
【教学目的与要求】
熟练掌握文本预处理的常用方法、掌握向量模型、概率模型和主题概率模型的概念及Python的实现。
【教学内容】
3.1 文本预处理
3.2 向量空间模型
3.3 概率模型
3.4 主题概率模型
【教学重点与难点】
重点:文本预处理、向量空间模型、概率模型、主题概率模型
难点:主题概率模型
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等
【课后作业】
1 给出一段中文文本,利用Python的re.split() 函数,分隔所有短句。
2 给出一段中文文本,去除停用词,完成操作后将结果读出来。
第四章文本分类
【教学目的与要求】
了解文本分类意义、国内外研究现状与发展趋势,掌握文本分类的定义,熟练掌握文本分类的流程和文本分类预处理。掌握典型的常用文本分类器,了解分类模型的性能评估。
【教学内容】
4.1 文本分类概述
4.2 常用文本分类器
4.3 分类模型的性能评估
【教学重点与难点】
重点:常用文本分类器
难点:常用文本分类器
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等
【课后作业】
1 给定有类别标注的文本向量集,参考例4.2,对于一组待分类的文本,判断分别属于哪一类。
2 利用Python编程,对给定相关数据验证SVM算法。
3 Python编程,利用朴素贝叶斯分类器实现垃圾邮件过滤。
4 给定相关数据,利用Python编程,验证ID3和C4.5算法。
第五章文本聚类
【教学目的与要求】
了解文本聚类意义、国内外研究现状与发展趋势,掌握文本聚类的定义,熟练掌握文本聚类的流程和文本聚类预处理。掌握典型的常用文本聚类器,了解聚类模型的性能评估。
【教学内容】
5.1 文本聚类概述
5.2 文本聚类原理与方法
5.3 文本聚类评估
【教学重点与难点】
重点:文本聚类原理与方法
难点:文本聚类原理与方法
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等
【课后作业】
1 描述基于划分的聚类方法,并分别验证例5.1和例5.2中的k-means、k-medoids聚类。
2 描述基于层次的聚类方法。验证例5.6中AGNES算法。
3 参照例5.9 ,给定一组文档集的向量,利用python实现DBSCAN算法。
第六章文本关联分析
【教学目的与要求】
了解文本关联规则基本概念和意义,掌握关联规则分类和关联规则挖掘算法,熟练掌握Apriori 算法,了解FP-Growth算法。
【教学内容】
6.1 引言
6.2 文本关联规则
6.3 关联规则挖掘算法
【教学重点与难点】
重点:文本关联规则、关联规则挖掘算法
难点:关联规则挖掘算法
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等
【课后作业】
1 简述研究文本关联规则的意义。
2 根据例6.1,理解 Apriori算法的步骤。