文本数据分析-教学大纲

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《文本数据分析》教学大纲

课程编号:071193B

课程类型:□通识教育必修课□通识教育选修课

□专业必修课 专业选修课

□学科基础课

总学时:48 讲课学时:32 实验(上机)学时:16

学分:3

适用对象:信息管理与信息系统专业(大数据应用)

先修课程:数据结构、数据库原理与应用、大数据分析算法

一、教学目标

文本数据分析是文本分析和挖掘数据的理论和方法,文本数据分析是信息管理与信息系统专业(大数据应用)重要的专业选修课。通过本课程的学习,将达到以下目标:

目标1:对文本数据分析的价值、意义和基本原理建立清晰和比较全面的认识;

目标2:掌握有关文本数据发掘、处理、建模和解释的基本原理和方法,了解和熟悉文本数据分析在社会科学研究、商业分析和公共管理等领域的实际案例;

目标3:熟悉文本数据挖掘的基本原理,提高分析文本数据的思维能力与计算能力,能够从事某社会和经济领域文本数据分析相关活动的组织、执行和实施。

二、教学内容及其与毕业要求的对应关系

(一)教学内容

本课程主要基于R语言讲授文本数据分析的原理、基本方法及常用软件。主要包括:常用文本挖掘技术及其基本流程;基于R软件详细讲授文本挖掘的主要方法,包括R软件的简介与安装,文本挖掘所需的基本R包,Facebook、微博、Twitter、网页等爬虫技术、数据预处理如断词、字词处理、语料库建立等,资料分析如关联分析、集群分析、主成份分析和聚类分析;基于MS SQLSever 讲授文本挖掘的实现技术,包括数据预处理技术,文本数据的导入、建立字词与词向量、建立训练集和测试集;基于MS SQL Sever讲授常用的文本数据挖掘方法,并进行图表分析;最后通过舆情分析、文献挖掘等案例进行实战练习。

(二)教学方法和手段

注重理论与实践相结合,采取实例教学法、小组教学法、模拟教学法等多种教学方法进行授课。重点强调案例教学锻炼学生解决实际问题的能力,并借助R 语言开发环境软件进行上机操作和实战练习。

(三)实践教学环节要求

要求学生在实验环节掌握文本数据分析的基本原理、思路及相关领域的实战应用。要求学生课后完成基于课堂和实验教学内容的扩展实践练习,进一步熟悉文本数据分析流程和技术方法,加强相关领域的实际应用场景练习。

(四)与毕业要求的关系

文本数据作为信息的重要载体在当今信息化社会扮演着重要的角色。作为信息管理与信息系统专业大数据应用方向的学生,学习和掌握文本数据分析相关知识、方法和技术,不仅是大数据时代下社会经济发展的需要,更是适应未来各个领域海量数据管理的必需技术和能力,符合该专业培养的基本要求。

三、各教学环节学时分配

教学课时分配

四、教学内容

第一章文本数据分析概述

教学内容:大数据、数据挖掘及文本挖掘的概念和特点;R语言的特点及安装方法。

重点和难点:文本挖掘特性、R语言包的安装。

考核要求:使学生了解文本挖掘相关技术,深入理解R语言特点、运行原理以及程序平台架构。

第二章R语言进行文本挖掘基本工具

教学内容:R语言包的安装,包括rJava、tm、tmcn、wordcloud、ggplot2、graphics包的安装等。

重点和难点:开发包的安装与配置;社群开放平台权限的申请;如何获得Facebook权限;如何获得Weibo权限。

考核要求:了解R语言开发平台相关工具,掌握常用包的安装、配置与使用;熟悉社群开放平台Facebook及Weibo权限的申请流程和注意事项。

实验一:R语言开发环境搭建与入门程序开发。

第三章文本挖掘之爬虫

教学内容:Facebook中使用者发文和分析者发文所需的R包;Weibo中主题和时间区间所需的R包;网页爬虫的爬去方法及所需R包;SpideR所需R包及爬取时的注意事项。

重点和难点:不同应用场景下爬虫爬取数据的流程和各自注意事项。

考核要求:了解爬虫的一般爬取流程;掌握爬虫抓取网页数据的标准作业程序;熟悉在各应用场景中所需R包的安装和使用方法。

实验二:各种适用场景R包的安装。

实验三:网页爬取实例。

第四章数据预处理

教学内容:学习应用R语言进行编码处理、语料库词库构建;段此方法、字词处理及正则表达式。

重点和难点:断词方法及字词处理,语料库的构建。

考核要求:熟悉运用R语言进行编码处理及其断词方法和字词处理方法;掌握语料库和词库的构建、以及正则表达式的应用。

实验四:编码、断词及字词处理方法的练习。

实验五:语料库及词库的构建。

第五章资料分析

教学内容:学习R语言中频率及DTM matrix的概念;如何在R语言中进行关联分析、集群分析、主成分分析和词云聚类分析。

重点和难点:对文本数据进行关联分析、集群分析、主成分分析以及词云聚类分析。

考核要求:了解R语言中频率及DTM matrix的概念;掌握R语言中关联分析、集群分析和主成分分析的流程、算法描述及分析处理方法。

实验六:基于前述实验对文本数据开展关联分析和集群分析及主成分分析。

第六章MS SQL Server中数据预处理

教学内容:学习如何汇入文档并建立NGArticle的辞库;如何构建字词和词向量,进而构建Train Sample和Test Sample。

重点和难点:建立NGArticle的辞库;构建Train Sample和Test Sample。

考核要求:了解SQL Server中汇入文档及建立NGArticles辞库的方法;熟悉并掌握建立字词和词向量的方法,并能构建Train Sample和Test Sample。

实验七:Train Sample和Test Sample的建立。

第七章MS SQL Server中的资料分析

教学内容:学习串联Train Sample、Test Sample和TermVectors的方法;建构datamining模型(判定树、类神经网络、罗吉斯回归);对各模型进行精确度图表分析。

重点和难点:基于不同的算法建构datamining模型(判定树、类神经网络、罗吉斯回归),并对其进行图表分析。

考核要求:熟悉datamining模型的构建流程、掌握各模型精确度图表分析方法。

实验八:构建判定树和类神经网络datamining模型并进行图表分析。

五、考核方式、成绩评定

本课程采用平时、课程设计相结合的考核方式,尤其注重实践环节的考核。各部分所占比重为平时成绩占40%,期末课程设计成绩占60%。

平时成绩包括考勤成绩(10%)和上机作业成绩(30)。

期末考核采用课程设计形式,根据具体业务场景的考核要求进行相应的文本数据分析,并能进行可视化描述,注重知识应用能力和解决问题能力的考核,需要学生提交特定应用场景的文本数据分析任务。

相关文档
最新文档