语料库的应用(最终)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库的应用
语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。
军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。
【一】、语料库成为语言学理论研究的基础资源
语料库是计算语言学的基础。语料库对应的英文是corpus,复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维•克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也
可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。
起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。
我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。
目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。
国内在语料库建设方面虽然较晚,但已体现出较强的后发优势,个别语料库在世界上也形成了一定的影响。趋于领先地位的有广东外语外贸大学的中国英语学习者语料库(Chinese Learner English Corpus(CLEC)、中国社科院语言所的汉语情景会话口语库(北京地区)(Spoken Chinese Corpus of Situated Discoursein Beijing Area)以及上海交大的科技英语语料库(JDESt)近期由文秋芳等编著的中国学生英语口笔语语料库无疑是对以上的语料库的有效补充。
【二】、语料库在军事领域的应用
<一>、信息化条件下的军事语料库的应用背景
从世纪之交的几场局部战争来看,信息化战争已成为当代和未来战争的主要形式。信息化战争的核心是对信息资源的争夺与占有,信息匮乏或信息弱势的一方注定会成为战争的输家。不对称的战争中很大的不对称就是信息掌握和信息利用的不对称。要想实现信息化的部队,避免在战争中成为信息弱势的一方,和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。对于后者,军事语料库的建设正是针对实现这一目标的有力依靠和手段,具有不可低估的价值。首先,可以借助语料库对海量信息进行情报处理和分析外,从中生成重要的情报,为相关部门和专家提供决策辅助;还可以借助语料库的后台支持,开发出战场针对交战
对方或所在地的语言自动翻译和语音处理的软硬件,更好地服务于战场信息控制与掌握,提高战斗人员的生存能力,确保对敌的信息优势。
以美国为首的西方发达国家已经意识到军事语料库对信息化条件下的军事斗争所具备的潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。比如,利用语料库的资源支持,借助自然语言的处理技术,美军为驻伊拉克的美军部队开发和配备了一种“多语言自动讲话翻译机”,它能迅速将英语翻译成阿拉伯语,以解决美军与伊拉克人交流的问题。美国防高级研究计划局(DARPA)也正在着手开发新一代双路语音翻译技术,并采用该技术为驻伊部队开发英语和阿拉伯语的翻译系统。
美国的GALE(全球独立语言开发)计划通过构建多国语料库,运用语料库技术来处理库中多国语言的大量语音和文字材料,这些工作
包括采集、翻译、分析和解释这些材料,旨在消除对语言学家和分析学家的依赖,以适当的方式自动地向军事指挥官或其他人员提供相关、简洁、可操作的信息。此外,美国军方DARPA计划中,有很多项目涉及语料库基础上的计算机语言处理技术,其中包括机器自动翻译、跨语言情报侦测、情报抽取、情报摘要、特定事件情报追踪等方面。在以上系统的研制过程中,美国建立了大量的军事语料库,大大提高了信息收集与处理的效率,并积累了丰富的军事语料库开发经验。日本、俄罗斯、欧盟等其他发达国家和国际组织也不甘落后,在军事语料库研究与开发等方面投入大量资金,并取得了显著的效果。
我军未来面临的战争形势更为复杂,需要做好打赢“多战场”战争的准备,而且在情报电子对抗等方面面临的竞争更为激烈。“多战场”战争即意味着战争的多地域性、多语言性。这就要求我们研究与开发多种语言的军事语料库,并且开发多种载体的军事语料库,譬如文本、音频、视频等。同时,情报电子对抗领域竞争的加剧也要求我们开发多种专业的军事语料库,譬如心理战语料库、核情报语料库、各种尖端武器语料库以及对方重要军政领导人物的语言语料库等。<二>、军事语料库独特的发展空间
作为一种专业语料库,军事语料库具备语料库的共有的功能。这些功能可以归纳为军事语料库的一般应用;同时,在信息化条件下,军事语料库也有自身独特的发展空间和应用前景。
军事语料库是指由服务于军事甚至内容涉及军事的单一语种或多语种的文本所组成的语料库,也可以是含图片、语音、视频等媒体形式的语料库。根据具体用途不同可以有军事通用语料库,指的是即覆盖军事思想、政策与规定、科学研究、教育训练、装备与技术、作战与指挥等各领域的语料,也可以是单一用途或对象的语料库,如军事术语语料库、军事科技文献语料库、军事装备与技术语料库(可以含军事装备本体的研究)、军事情报语料库、舆论战、心理战语言素材语料库、军事文学语料库、军事外语教学语料库等。部分内容不涉及军事,但明显具有服务军事功能的语料库包括:对象国语言文化百