中文信息处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简述中文信息处理在国家安全领域的应用
摘要:中文信息处理自出现以来,技术不断提高,研究领域也不断扩大。发展的同时我们也看到中文信息处理在国家安全角度应要有的任务、责任和问题。分析中文信息处理在我国的发展背景、技术隐患、技术建设和创新展望,使得对中文信息处理在国家安全领域的应用有一个清楚的认识。
关键词:中文信息处理;国家安全;技术建设
在多元化的信息中,文字信息是一种最普遍的形式。例如:文件、信函、报表、记录、印刷品等基本上采用文字表达的形式。“中文信息处理”一词是从20世纪70年代流行起来的。自从有了中文(汉字),即相应地出现了中文信息处理的工作[1]。现代人们言及的“中文信息处理”包括了有关中文信息的采集、存储、传输和利用,是指利用电子计算机和现代通信、照明、排版、等自动化技术对汉字信息进行输入输出整理、加工、转换、传输、复制、等各种处理的一项新兴的科学技术。其交叉性使之成为“信息科学”的分支;其综合性应用使之成为“系统工程”的一个实例。它涉及到语言文字学、计算机科学、信息科学、工程心理学、数理统计学、声学、自动识别技术、人工智能、网络技术、文献检索学等等。故可以说它是一门新兴的多边缘科学[2]。
1. 信息时代的国家安全
1.1 信息时代的大背景
语言文字信息化对国家安全的作用日益明显,语言文字信息化中的不安全因素就是国家安全的隐患。国家安全的要素呈现综合化、跨国化的发展趋势,维护信息疆域安全成为维护国家主权完整的核心内容之一。信息时代国家之间相互依赖和相互影响程度越来越高,这种相互依赖使得每一个国家的行为和战略都受到了一定程度的约束。信息技术革命打破了时空的限制,国家安全主体多元化,安全空间得到了大大拓展,向上扩展到全世界,向下延伸到地区乃至个人。信息时代中国家必须综合运用经济、社会、文化、科技及环境等手段来维护国家安全。安全问题越来越呈现出国际化、全球化的发展趋势。国家安全包括了文化安全、经济安全、环境安全、资源安全、网络安全、信息化安全。信息化安全即语言文字信息化的安全,语言文字信息化对国家安全的作用完全凸显出来[3]。
1.2 中国互联网的安全隐患
由于中国缺少自己语言文字信息处理技术的自主权,就可能在未来的网络战中丧失制网权,因而危及国家的安全。语言文字信息化中的不安全因素就是国家安全的隐患。中国网络
用户数量迅猛发展,带宽不断增加,网络应用日益丰富,互联网承载着过重的压力。在多达3亿网民所使用的电脑中,芯片、操作系统、浏览器以及应用系统、数据库、防火墙、聊天工具、搜索引擎等软件目前基本上掌握在外国公司手中,因此中国互联网是经不住打击的。一旦发生紧急情况,由于没有中国语言文字信息处理的自主知识产权的软件系统,一旦维系这些重要政府部门、企业和民生等机构正常运行的网络系统崩溃,那么,就有可能给国家带来不可挽回的损失和可怕的后果。
1.3 我国语言文字信息化建设中的安全隐患
以下从三个方面分析安全隐患:中文信息处理标准的制高点没有完全占领;中文信息处理核心技术的自主知识产权没有掌握;语言资源匮乏,不能满足中文信息处理的需要。
中文信息处理用的规范标准没有完全掌握在中国人手中,造成国家利益流失及国家安全威胁。语言文字信息化标准是语言文字信息化的保障,语言文字信息化又是国家信息化的基础。在我国中文信息处理标准方面,其中《GB2312-1980信息交换用汉字编码字符集基本集》为我国的汉字信息处理奠定了基础[4]。但是远远不够,中文软件的规范化是最为薄弱的环节,至今还没有形成技术标准。
语言文字信息化的核心技术要有自己的知识产权,中文信息处理从起步阶段就受到国际跨国企业的威胁。目前一些国外厂商尤其看重中文信息处理技术和产业的价值,在其本土或在中国建立研究基地、或以低廉的价格购买中国学者的研究成果、或径直购买其劳动力,来进行中文信息处理的研究。外国的信息产业,凭借其财力充足的优势,吸引了大量华人参与其中文信息处理技术的研究开发,又因其集成能力强,所以形成逼人之势,不容小视。技术上来说,我国对国外技术的跟踪和改良居多,偏重应用,而原创的新理论、新方法比较少。我们拥有自主知识产权的品牌产品还很少,具有核心竞争力的技术还数不出几样。在基础研究中,对词法、句法、语义、语用等单项技术的研究较多,对各个层面之间交互作用的研究较少。跨学科、跨语言的研究还不够。国门大开,国内研发机构已无法再像上世纪80年代那样依靠中文屏障获得天然的领先优势。在当前的“云”时代,我们仍然落后。云计算的技术都不掌握在我们自己手中,安全问题又直接威胁着国家的安全。云计算可能对于IT产业链产生革命性的影响,云计算作为一个崭新名词,人们甚至还没有弄清楚它的确切定义,云安全问题就随之而来。自己的信息不会被泄露从而给自己造成不必要的损失,自己在需要时能够保证准确无误地获取这些信息等等,关于其数据安全性的质疑就一直不曾平息。
语言文字信息化的资源建设,中文信息资源匮乏,不能满足中文信息处理的需要。信息技术革命所带来的一个突出的变化是由语言文字承载的知识或信息变成了一种重要资源,是
信息产业的资源,而且是一种战略资源。对资源的占有以及如何利用资源的知识在很大程度上决定着一个国家实力的大小。语言资源也是一种生产力,是国家的软实力。信息资源的开发利用已成为一个国家信息化进程中最为核心的问题。
2.加强语言文字信息化建设
2.1中文信息处理的现状及与国际上语言信息处理的差距
进入21世纪,面对网络时代信息的爆炸式增长,中文信息处理作为一项基础性、普适特性的信息技术,面临着挑战和再次发展的机遇,在互联网时代则显示出其优势。它的开发利用关系到我国今后信息产业乃至社会经济的发展和国家安全,具有巨大的经济价值和社会价值。
中文信息处理技术自动化水平的提高,将大大促进我国科技、国民经济和社会发展,同时使中华民族的文化在信息时代得到新的发展。未来无疑应当加强中文信息处理技术的研发投入与政策倾斜。我国的中文信息处理技术还有自身一系列急需解决的基础研究和应用技术问题。这些问题如果从现在起还得不到切实的加强,我们在中文信息处理事业中仅有的一些优势,就要迅速失去,那将给我国造成极大的损失。
目前中文信息处理能力与国际上先进水平差距还很大。例如:自动分词和词性标注,至今还未开发出一个像日语分词系统那样被广为接受的分词标注系统。从采用的方法可以看出,随着研究的不断深入,基于统计的方法已逐渐暴露自身的缺陷,统计方法不可能解决所有的问题,还是需要结合基于规则的方法,才能在精度上得以突破;
中文信息处理句法分析和语义分析问题;中文信息处理应用研究的问题,比如信息输入中的键盘输入和汉字识别发展已经成熟,但语音识别却很实现,困难是要适应不同人之间的语音变化以及外界的噪音干扰;中文信息处理研究分散而且存在着低层次重复、缺乏统一规范和标准的问题;现代汉语研究领域和计算机领域的隔绝状态没有出现根本性改变;汉语文和少数民族语言文字的信息处理技术与国际水平相比,还有相当大的差距。特别是自主知识产权的成果还不多;语言资源和成果的共享还有很大局限,网络上对公众开放的中国语言文字资源还很少,远不能满足我国国民经济发展和信息化事业对中文信息处理技术的要求等等。
2.2 加快语言文字信息化进程
加快语言文字信息化进程是国家信息化发展的迫切需要。信息化是当代社会发展的标识。语言文字的研究以及语言文字信息处理的研究从基础理论到应用技术要快速适应国家安全需要,应从如下几个方面考虑:语言战略是国家发展战略的有机组成部分,