自然语言处理大纲

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

课程编号:S0300010Q

课程名称:自然语言处理

开课院系:计算机科学与技术学院任课教师:关毅刘秉权

先修课程:概率论与数理统计适用学科范围:计算机科学与技术

学时:40 学分:2

开课学期:秋季开课形式:课堂讲授

课程目的和基本要求:

本课程属于计算机科学与技术学科硕士研究生学科专业课。计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工处理的科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉性学科。通过本课程的学习,使学生掌握自然语言(特别是中文语言)处理技术(特别是基于统计的语言处理技术)的基本概念、基本原理和主要方法,了解当前国际国内语言处理技术的发展概貌,接触语言处理技术的前沿课题,具备运用基本原理和主要方法解决科研工作中出现的实际问题的能力。为学生开展相关领域(如网络信息处理、机器翻译、语音识别)的研究奠定基础。

课程主要内容:

本课程全面阐述了自然语言处理技术的基本原理、实用方法和主要应用,在课程内容的安排上,既借鉴了国外学者在计算语言学领域里的最新成就,又阐明了中文语言处理技术的特殊规律,还包括了授课人的实践经验和体会。

1 自然语言处理技术概论(2学时)

自然语言处理技术理性主义和经验主义的技术路线;自然语言处理技术的发展概况及主要困难;本学科主要科目;本课程的重点与难点。

2 自然语言处理技术的数学基础(4学时)

基于统计的自然语言处理技术的数学基础:概率论和信息论的基本概念及其在语言处理技术中的应用。如何处理文本文件和二进制文件,包括如何对文本形式的语料文件进行属性标注;如何处理成批的文件等实践内容

3 自然语言处理技术的语言学基础(4学时)

汉语的基本特点;汉语的语法功能分类体系;汉语句法分析的特殊性;基于规则的语言处理方法。ASCII字符集、ASCII扩展集、汉字字符集、汉字编码等基础知识。

4 分词与频度统计(4学时)

中文分词技术的发展概貌;主要的分词算法;中文分词技术的主要难点:切分歧义的基本概念与处理方法和未登录词的处理方法;中外人名、地名、机构名的自

动识别方法;词汇的频度统计及统计分布规律。以及词频统计、排序输出;二元对频度统计,统计结果浏览等实践内容。

5 语料库的多级加工(6学时)

语料库的基本概念;国际国内主要语料库简介;语料库加工的主要步骤;词性标注的常用方法;主要句法分析算法简介;汉语语义标注的基本概念和常用方法;汉语语义词典Hownet介绍。以及如何组织语料库,如何对语料库进行字符串检索等实践内容。

6 基于统计的语言模型(4学时)

N-gram统计语言模型的基本概念;构造统计语言模型的方法;数据平滑的常用算法;N-gram统计语言模型的应用及评价;现有的其他主要的统计语言模型。以及构造Bigram语言模型及good-turing算法实现等实践内容。

7 马尔可夫模型(4学时)

马尔可夫模型的基本概念;马尔可夫模型几个基本问题及其解法;马尔可夫模型的几个常用算法;马尔可夫模型的应用(音字转换、词性标注)。以及隐马尔可夫词性标注器的实现等实践内容。

8 句法分析技术(4学时)

基于语言学规则的句法分析技术;基于统计的句法分析技术;依存文法;概率上下文无关文法(PCFG);级联式有限状态句法分析技术。

9 篇章理解技术(4学时)

计算机自动文摘的基本理论与常用方法:文本的机器内部表示;文本分析技术;摘要提取技术;摘要生成技术。

10 问答式信息检索(4学时)

问答式信息检索的基本概念;问答式信息检索的主要难点;问答式信息检索系统的系统构成;问答式信息检索的相关技术;文本分类技术简介;问答式信息检索的评测方法;TREC简介。以及VSM文本分类器设计等实践内容。

课程主要教材:

[1] Chris Manning & H. Schutze. Foundations of Statistical Natural Language Processing. MIT Press, 1999

[2] 王晓龙,关毅《计算机自然语言处理技术》清华大学出版社,预计2004年

[3] 姚天顺,《自然语言理解—一种让机器懂得人类语言的研究》,清华大学出版社,2002.10

主要参考文献:

[1] 边肇祺等. 模式识别. 清华大学出版社. 1998.

[2] 董振东,董强,知网,

[3] 冯志伟《计算语言学对理论语言学的挑战》,《语言文字应用》1992年第1期

[4] 黄昌宁,中文信息处理中的分词问题,《语言文字应用》, 1997, (1), 71-78

[5] 黄昌宁(1993)《关于处理大规模真实文本的谈话》,载《语言文字应用》1993年第2期。

[6] 刘开瑛,现代汉语自动分词系统中几个问题的讨论,计算机开发与应用,1998

[7] 刘源等,信息处理用现代汉语分词规范即自动分词方法,清华大学出版社,广西科学技术出版社,1994.

[8] 宋柔,关于分词规范的探讨,《语言文字应用》,1997年第3期

[9] 孙茂松、黄昌宁,邹嘉彦,陆方,沈达阳,利用汉字二元语法关系解决汉语自动分词中的交集型歧义, 《计算机研究与发展》Vol.34, No.5, pp.332-339, 1997.5 [10] 孙茂松,左正平,邹嘉彦. 高频最大交集型歧义切分字段在汉语自动分词中的作用. 中文信息学报. 1999, 13(1): 27-34

[11] 俞士汶,《现代汉语语法信息词典详解》,清华大学出版社,1996

[12] 詹卫东,《面向中文信息处理的现代汉语短语结构规则研究》,博士论文,1999

[3] 赵铁军等,机器翻译原理,哈尔滨工业出版社,2000.

[14] 朱德熙,《语法问答》,商务印书馆,1993

[15] A. B. Poritz. Hidden Markov Models: A Guided Tour. Proceedings of the International Conference on Acoustics, Speech, and Signal Processing, 1: 7-13, New York Hilton, New York City, April 1988.

[16] Adwait Ratnaparkhi. A maximum entropy model for part-of-speech tagging. In proceedings of conference on empirical method in natural language processing, university of Pennsylvania, 1996.

[17] E.T. Jaynes. Information Theory and Statistical Mechanics. Physics Reviews. 1957, vol.106: 620-630

[18] Frederick Jelinek. Statistical Methods for Speech Recognition.The MIT Press. London. 1997

[19] G. Salton , M. J. McGill. An Introduction to Modern Information Retrieval. McGraw-Hill, 1993.

[20] Lillian Lee.Similarity-Based Approaches to Natural Language Processing. Ph.D. thesis. Harvard University Technical Report TR-11-97.

[21] Ricardo Baeza-Yates & Berthier Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, New-York, 1999.

[22] Stanley F. Chen. Building Probabilistic Models for Natural Language, PhD thesis, the Subject of Computer Science, Harvard University Cambridge Massachusetts, May 1996.

相关文档
最新文档