《中文信息处理技术》教学大纲

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《中文信息处理技术》教学大纲
一、基本信息
二、教学目标及任务
教学目标:本课程为高年级选修课,作用是使学生在学习完信息检索系统相关知识后进一步加深对中文信息处理技术的了解,提高信息处理技术的知识水平。

通过本课程的学习,学生应对作为大字符集自然语言的汉语在计算机处理过程中的方方面面有深入的认识,对相关系统的应用能熟练掌握,并有能力开发与之相关的应用系统。

教学任务:具体完成以下教学任务:1.中文信息处理技术中的一些基础理论和基础知识。

包括中文信息处理的相关概念、现代汉语的语言学特征、汉字信息在计算机内部的表示、汉字字符编码字符集。

2.中文信息处理技术中的基本I/O技术以及相关的字形技术。

包括汉字输入技术、汉字字形生成与输出技术。

3.中文信息处理技术中的自然语言处理技术。

包括汉语分词技术、中文信息检索、中文信息抽取、中文文本信息的分类与聚类。

三、学时分配
四、教学内容及教学要求
第一章汉字信息在计算机内部的表示
第一节字符信息在计算机内的处理
1.数值数据与非数值数据
2.非数值数据处理的主要内容
3.字符信息的代码体系
4.英文字符在计算机中的表示
第二节汉字代码体系
1.汉字交换码
2.汉字机内码
3.汉字输入码
4.汉字字形码
5.汉字区位码
第三节汉字字符编码标准集
1.GB2312-80
2.Big5
3.ISO/IEC 10646
4.Unicode
第四节汉字编码字符集的转换
1.简繁体的转换
2.汉字在网络上的传输与转换
第五节汉字字形和字形库
1.汉字字形概述
2.点阵字形描述技术
3.矢量轮廓字形描述技术
4.曲线轮廓字形描述技术
5.其它字形描述技术
第六节汉字输入技术
1.汉字键盘输入
2.汉字字形识别
3.汉字语音识别
第七节汉字排序
1.汉字字典序
2.机内码序列
3.汉字字典序的实现
上机习题:编写程序,实现不同编码集之间的转换。

本章重点、难点:汉字编码体系及相互之间的对应关系。

本章教学要求:了解各种汉字字符编码集及转换算法,理解字符编码体系的组成与作用及汉字输入输出技术,掌握汉字编码体系的各种功能、实现方法、生成过程。

第二章汉语分词
第一节自动分词概述
1.概念与定义
2.汉语分词算法的类型
3.分词词典
第二节机械分词法
1.正向最大匹配
2.逆向最大匹配
3.双向匹配
第三节无词典分词法
1.原理与步骤
2.无词典分词模型
3.无词典分词算法
第四节分词歧义的消解
1.概念
2.基于规则的分词消歧
3.基于统计方法的分词消歧
4.其它统计消歧法
第五节未登录词的识别
1.未登录词的概念
2.基于统计学的未登录词识别
3.自适应分词的未登录词识别法
上机习题:编写逆向最长匹配法的分词程序。

本章重点、难点:各汉语分词算法的实现过程与歧义处理。

本章教学要求:了解汉字分词的意义及各种分词算法,理解分词歧义的产生原因,掌握机械分词法的程序设计过
程。

第三章网页的链接分析
第一节链接分析的相关概念
1.超级链接与WEB网络
2.超链的价值与特点
3.内容分析与链接分析
第二节PangRank
1.起源
2.原理
3.公式与计算
4.改进
第三节HITS
1.起源
2.原理
3.算法
4.问题与改进
5.与PageRank的比较
上机习题:编写逆向最长匹配法的分词程序。

本章重点、难点:编写程度,用迭代法求网页的PangRank值。

本章教学要求:了解网络链接分析的概念与原理,理解各种网络链接分析算法公式,掌握网络链接分析的计算过程。

第四章多媒体信息检索
第一节多媒体技术概述
1.多媒体的概念
2.多媒体技术的特征与特性
3.多媒体技术的产生与发展
4.多媒体数据压缩技术
第二节多媒体信息检索原理
1.基于文本的检索(Text Based Retrieval,TBR)
2.基于内容的检索(Content Based Retrieval,CBR)
第三节多媒体信息检索的方法
1.图像信息检索
2.视频信息检索
3.音频信息检索
本章重点、难点:多媒体信息特征的表示与抽取。

本章教学要求:了解多媒体信息抽取的相关技术,理解基于内容的多媒体信息检索的技术路线,重点掌握基于内容的图像信息检索方法。

第五章信息自动摘要技术与方法
第一节文本信息摘要的生成与实现
1.概念与定义
2.基于统计的自动摘要
3.汉语文献自动摘要的技术难点
4.文本信息自动摘要的评估方法
5.文本信息摘要系统
第二节网页信息自动摘要
1.网页信息摘要的特点
2.搜索引擎中的自动摘要
3.Web页面的清洗
4.基于篇章结构的中文网页自动摘要
第三节数值信息摘要的生成与实现
1.数值信息自动摘要的特点与流程
2.医疗诊断系统中的数值摘要
3.石油开采系统中的数值摘要
4.天气预报系统中的数值摘要
5.股票行情系统中的数值摘要
第四节视频信息摘要的生成与实现
1.视频信息概述
2.视频结构分析
3.视频信息摘要的类别
4.静态视频信息摘要
5.动态视频摘要
6.全景拼接图
7.基于文字描述的视频信息摘要
8.多媒体视频摘要
本章重点、难点:基于统计的信息摘要与视频信息摘要。

本章教学要求:了解信息摘要的基本方法,理解视频信息摘要实现的基本方法,掌握基于统计的信息摘要具体算法。

五、考核方式及要求
根据课程的特点,将过程考核与终结考核相结合,按照百分制进行考核,学生的学期考核包括以下三个部分:平时考核:包括教学出勤、课堂提问与测试等,占总成绩20%
上机成绩:包括上机出勤、程序完成情况、实验报告,占总成绩的30%
期末考试:占总成绩的50%。

六、推荐教材及教学参考书
教材:
《中文信息处理技术教程》,朱巧明等编著,清华大学出版社,2005年,标准书号:ISBN 9787302117612。

参考书:
《统计自然语言处理》,宗成庆,清华大学出版社,2008,ISBN:9787302165989
大纲修订人:黄水清
大纲审定人:屈卫群。

相关文档
最新文档