语言文字信息处理复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 、中文信息处理是以计算机为主要工具,以语言文字为处理对象的高新技术。
2 、在计算机汉字信息处理系统的不同部分中,存在着多种汉字编码,这些编码构成了一个完整的汉字代码体系,这个代码体系主要包括汉字内部码、汉字输入码、汉字字形码、汉字地址码、汉字传输码。
3 、汉字点阵字形通常分为两种:适用于显示器的横向点阵和适用于打印机的纵向点阵。
四、计算题
1 、要存放 10 个 24 × 24 点阵的汉字字模,需要多少存储空间?
一个字节可以存储 8 个点 ,24×24 点阵共有 576 个点 ,10 个 24×24 点阵有 5760 个点 , 需
要 5760/8=720 个字节的存储空间 .
三、名词解释
1 、语言文字信息处理
以语言文字学为基础,以计算机和远程通信为核心技术的一门多边缘交叉的新兴应用型学科
3 、字汇:字汇就是指汉字的集合
四、简答题(每题 10 分,共 40 分)
1 、什么是自然语言理解,什么是自然语言生成?请列举三个自然语言研究的应用领域。答:自然语言理解指计算机能理解自然语言文本的意义。
自然语言生成指计算机用自然语言来表达给定的意图、思想等。
自然语言研究的应用领域:机器翻译、全文检索、自动文摘、语音识别、会话系统等。
2 、什么是中文信息处理技术?它的主要研究领域有哪些?请列举出三个以上。
答:研究我国语言文字的信息处理问题的应用技术,是为了使汉语言文字适应信息社会的需要,在七十年代才发展起来的多学科交叉的综合性学科,它是一种以计算机为主要工具,以语言文字为处理对象的高新技术。如:语音识别、信息检索、自动摘要、自动翻译等。
3 、什么是汉语分词?其特点是什么?
答:汉语分词一直是中文信息处理技术中最基础,又是最重要的一个基础问题。分词 (text segmentation, word segmentation) 就是把一个句子按照其中词的含义进行切分。分词也就是将连续的字串或序列按照一定的规范重新组合成词序列的过程。
4 、信息处理方式的构成要素?
信息处理主体信息处理工具信息来源信息载体信息产品支配与共享
五、论述题)
1 .你认为信息技术的发展对语言文字工作提出了怎样的挑战?
计算机的出现及其应用,是人类科技文化建设的一次历史性飞跃。几千年来,语言文字面临的是人与人之间的交际,计算机的出现,使语言文字的服务对象从人际交际拓展到人机交际。计算机作为人类思维活动延伸的工具,其功能除了科学数值运算与控制外,非数值型的信息处理,特别是语言文字信息处理已经上升到十分重要的地位。钱学森同志指出:“电子计算机软件也是语言文字工作。”由于计算机最初是针对西文设计的,所以计算机在处理中文时,遇到了汉语汉字本身的特点所带来的独有的困难。我国在解决汉字进入计算机时花费了十几年的时间,付出了比西文昂贵得多的代价。在中文信息处理的高级阶段——汉语计算机处理阶段,我们还将遇到一系列“瓶颈”问题:汉语没有词的界限标记,计算机难于分析词与词之间的句法、语义关系;汉语词类划分和兼类情况复杂,词性自动判别和标注困难;汉语句子和语义层次的分析更是困难重重。这些难点如果解决不了或解决不好,都会影响我国信息产业的发展,进而影响国民经济信息化进程,削弱我国在国际上的竞争力。因此,语言文字规范化、标准化以及以此为核心的中文信息处理是当今高新技术发展的基础和重
点,直接关系到汉语的文献检索、机器翻译、人机对话等技术的发展。有鉴于此,《国家通用语言文字法》第十五条规定:“信息处理和信息技术产品中使用的国家通用语言文字应当符合国家的规范和标准。”这是极具远见的重要规定,对我国社会用语用字的规范化乃至信息技术和计算机网络的发展必将产生深远影响。