算法的基本概念
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章概论
1.1 信息处理
中文信息处理技术作为计算机技术与中国语言文字相结合的一门交叉学科,随着信息处理技术的发展,近年来得到了快速的发展。语言文字信息处理作为计算机应用技术的一个重要分支,伴随着计算语言学、心理学、数学以及计算机科学的发展,已经成为新世纪信息技术中的一个重要研究领域。无论是中文信息处理还是语言文字信息处理,都离不开“信息”的概念。
信息(information)既是一种抽象的概念,又是一个无处不在的实际事件。控制论创始人维纳(Norbert Wiener)认为,信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总称。因此,可以认为,信息是人与外界的一种交互通信的信号量。
信息论奠基者Clause Shannon认为,信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值。该论述第一次阐明了信息的功能和用途,表明了信息是一个可以度量的概念,且指出了信息的度量方法可以依据相应的事件发生的概率进行确定大小。这样,不同概率实践就包含了不同的影响度(或称信息量)。
Robert M. Losee在1998年11月的《美国社会信息科学学报》上发表了“独立于学科的信息定义”论文,给出的信息定义是“Information may be defined as the characteristics of the output of a process,these being informative about the process and the input”。即信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息。换句话说,信息可以理解为由过程所生产的特征值或变量。该特征值或变量是代表了输入和过程的信息。
信息处理就是对信息的接收、存储、转化、传送和发布等。随着计算机科学的不断发展,计算机已经从初期的以“计算”为主的一种计算工具,发展成为以信息处理为主的、集计算和信息处理于一体的、与人们的工作、学习和生活密不可分的一个工具。
上述概念或许过于抽象。其实信息在日常生活中无处不在。例如,在计算机信息处理领域,从计算机能处理的信息形式看,信息可以分为文本信息、多媒体信息和超媒体信息;从信息的结构化程度看,信息可以分为结构化信息、半结构化信息和非结构化信息。在信息安全领域,信息有公开的信息、一般保密信息和绝密信息等。因此,信息与我们的日常工作密不可分。
进一步分析计算机信息处理的过程,可以看到,信息的接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储就是把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理;信息转化就是把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;信息的传送把信息通过计算机内部的指令或计算机之间构成的网络从一地传送到另外一地;信息的发布就是把信息通过各种表示形式展示出来。
计算机信息处理的过程实际上与人类信息处理的过程一致。人们对信息处理也是先通过感觉器官获得的,通过大脑和神经系统对信息进行传递与存储,最后通过言、行或其他形式发布信息。
1.2 中文信息处理
中文信息处理,从广义来说,由我们祖先创立中文开始,就一直在进行;从狭义来说,从第一部中文字典产生以来,就一直在进行中文信息的分析和综合处理(赵伯璋.计算机中文信息处理.北京:中国宇航出版社,1987)。按照《计算机科学技术百科全书》(清华大学出版社,1998)中对计算机中文信息处理的定义为:用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。它是在语言文字学、计算机应用技术、人工智能、认知心理学和数学等相关学科的基础上形成的一门边缘学科。汉字学和汉语语言学中的词法学、句法学、语义学和语用学给中文信息处理的各个层面提供了可靠的理论依据,而人工智能的知识工程、机器学习、模式识别和神经计算,数学中的模型理论、形式化理论和数理统计等构成了中文信息处理的方法论基础。简单地说,中文信息处理就是利用计算理论和计算技术处理中国语言文字信息的一门学科,是计算机科学与语言文字学的交叉学科。
汉字是目前世界上仅存的为数不多的几种象形文字之一,也是使用人口最多的一种文字之一。从文字的创建到文字的发展和演化,这一过程本身也是文字信息处理的过程。自从有了字典,人们开始对创建的汉字进行音、形、义和用等方面的描述和规范,并根据汉字本身的属性,提出了按字的笔画、部首和读音等多种分类与查找方法,这些分类本身也是中文信息处理的一个部分。
自从第一台电子计算机的诞生,人们一直不断地在尝试着如何利用计算机本身具有的计算速度快、计算精确度高、具有一定的逻辑推理能力等特点,把语言文字的自动识别、语言翻译、语言理解和语言的生成等工作让计算机进行分担。然而,由于计算机是由西方人发明的,而西文和中文在文字、语言和语用等多个方面存在着很大的差异。英文中的所有字(word)可以只用26个字母(character或称字符)组成,因此,英文是一种拼音文字。英文中的句子由一组字组成,字与字之间通过空格(space)进行分隔。而汉语中汉字是一种象形文字。汉语中用词(word或phrase)的概念与英文中的字相对应,一个词至少包含一个汉字字符(ideogram)。为了区分象形文字中的字符和拼音文字中的字符,在英文中分别用ideogram(或ideograph)和character表示。在拼音文字中,一个字符(或字母)称为一个character,一个单字成为word;但在象形文字中,一个单字或字母是很难区分的,因此当该字表示字母或字符时,通常用ideograph表示,当它作为一个有含义的字时,通常用character或word表示。例如,当“漢”作为一个象形文字的字母或字符时,就把它称为一个ideograph,因为在日语、韩语、越南语中都有该字符,它仅仅是一个符号,而一旦把它作为汉语中的一个字时,则就称为一个character。在汉语中,句子是由词构成,但在表面上看,也可以认为是直接由一串汉字字符组成,因为无论是汉字字符之间还是汉字字词之间都不存在空格。
从上述这些简单的中、英文的组织结构的比较中可以看出,语言本身的特点,加上语言
·2·