语料库的应用(最终)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语料库的应用(最终)
语料库的应用
语料库方法广泛应用于语言学理论研究、军事等领域。
当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。
军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。
和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。
军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。
【一】、语料库成为语言学理论研究的基础资源
语料库是计算语言学的基础。
语料库对应的英文是corpus,复数形式为corpora。
这个词既可以指语料也可以表示语料库。
英国语言学专家戴维?克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也可作为验证语言假说的手段。
计算机语料库是一大批机器可读文本的结集。
各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。
起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。
随着研究的不断深入,各种专业领域语料库
也相继建立,语料库的应用研究逐渐扩大到其他学科。
我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。
目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。
国内在语料库建设方面虽然较晚,但已体现出较强的后发优势,个别语料库在世界上也形成了一定的影响。
趋于领先地位的有广东外语外贸大学的中国英语学习者语料库(Chinese Learner English Corpus(CLEC)、中国社科院语言所的汉语情景会话口语库(北京地区)(Spoken Chinese Corpus of Situated Discoursein Beijing Area)以及上海交大的科技英语语料库(JDESt)近期由文秋芳等编著的中国学生英语口笔语语料库无疑是对以上的语料库的有效补充。
【二】、语料库在军事领域的应用
<一>、信息化条件下的军事语料库的应用背景
从世纪之交的几场局部战争来看,信息化战争已成为当代和未来战争的主要形式。
信息化战争的核心是对信息资源的争夺与占有,信息匮乏或信息弱势的一方注定会成为战争的输家。
不对称的战争中很大的不对称就是信息掌握和信息利用的不对称。
要想实现信息化的部队,避免在战争中成为信息弱势的一方,和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。
对于后者,军事语料库的建设正是针对实现这一目标的有力依靠和手段,具有不可低估的价值。
首先,可以借助语料库对海量信
息进行情报处理和分析外,从中生成重要的情报,为相关部门和专家提供决策辅助;还可以借助语料库的后台支持,开发出战场针对交战对方或所在地的语言自动翻译和语音处理的软硬件,更好地服务于战场信息控制与掌握,提高战斗人员的生存能力,确保对敌的信息优势。
以美国为首的西方发达国家已经意识到军事语料库对信息化条件下的军事斗争所具备的潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。
比如,利用语料库的资源支持,借助自然语言的处理技术,美军为驻伊拉克的美军部队开发和配备了一种“多语言自动讲话翻译机”,它能迅速将英语翻译成阿拉伯语,以解决美军与伊拉克人交流的问题。
美国防高级研究计划局(DARPA)也正在着手开发新一代双路语音翻译技术,并采用该技术为驻伊部队开发英语和阿拉伯语的翻译系统。
美国的GALE(全球独立语言开发)计划通过构建多国语料库,运用语料库技术来处理库中多国语言的大量语音和文字材料,这些工作包括采集、翻译、分析和解释这些材料,旨在消除对语言学家和分析学家的依赖,以适当的方式自动地向军事指挥官或其他人员提供相关、简洁、可操作的信息。
此外,美国军方DARPA计划中,有很多项目涉及语料库基础上的计算机语言处理技术,其中包括机器自动翻译、跨语言情报侦测、情报抽取、情报摘要、特定事件情报追踪等方面。
在以上系统的研制过程中,美国建立了大量的军事语料库,大大提高了信息收集与处理的效率,并积累了丰富的军事语料库开发经验。
日本、俄罗斯、欧盟等其他发达国家和国际组织也不甘落后,在军事语料库研究与开发等方面投入大量资金,并取得了显著的效果。
我军未来面临的战争形势更为复杂,需要做好打赢“多战场”战争的准备,而且在情报电子对抗等方面面临的竞争更为激烈。
“多战场”战争即意味着战争的多地域性、多语言性。
这就要求我们研究与开发多种语言的军事语料库,并且开发多种载体的军事语料库,譬如文本、音频、视频等。
同时,情报电子对抗领域竞争的加剧也要求我们开发多种专业的军事语料库,譬如心理战语料库、核情报语料库、
各种尖端武器语料库以及对方重要军政领导人物的语言语料库等。
<二>、军事语料库独特的发展空间
作为一种专业语料库,军事语料库具备语料库的共有的功能。
这些功能可以归纳为军事语料库的一般应用;同时,在信息化条件下,军事语料库也有自身独特的发展空间和应用前景。
军事语料库是指由服务于军事甚至内容涉及军事的单一语种或多语种的文本所组成的语料库,也可以是含图片、语音、视频等媒体形式的语料库。
根据具体用途不同可以有军事通用语料库,指的是即覆盖军事思想、政策与规定、科学研究、教育训练、装备与技术、作战与指挥等各领域的语料,也可以是单一用途或对象的语料库,如军事术语语料库、军事科技文献语料库、军事装备与技术语料库(可以含军事装备本体的研究)、军事情报语料库、舆论战、心理战语言素材语料库、军事文学语料库、军事外语教学语料库等。
部分内容不涉及军事,但明显具有服务军事功能的语料库包括:对象国语言文化百科知识语料库,对象国政情语料库,对象国自然资源语料库,对象国科技情报语料库,对象国经济情报语料库,对象国新闻报道语料库等等。
总的说来,军事语料库的建设、开发与研究对大多数国家来说仍然是刚刚起步的新鲜事物,美军在此方面的研究较早,具体应用方面已经取得了明显的突破,因此我国也应该加紧军事语料库的建设步伐。
1、军事语料库的一般应用
(1)革新军事语言研究方法,提高军事语言研究效率
军事语言研究主要集中在五个方面,即军事术语研究、军事书面语研究、军事口语研究、军用主题词研究、军事现象与语言现象共变理论等研究。
这些方面的研究在局部已取得了令人振奋的成果,对军队建设发挥了积极的推动作用。
但目前,这样的研究许多仍基于以往的传统研究方法,即依靠人力进行语料的收集、分类、提取和分析,不仅效率低下,而且研究结论的可信度容易引起人们的疑问。
如果能借助于相关的军事语料库,军事语言的研究可以大大提高效率和准确度。
其中,可以为军事词汇的研究提供军事运用中的全貌,常用军事
用语也可以更符合语言应用的实际情况,对于语言结构的研究也可以更好地体现军事用语的分布、变化和来龙去脉。
由于军事语料库具有使用方便、查询科学、信息抽取准确的优点,因而还能够满足军事用语应用和研究的各类应急需要。
(2)加速各类军事辞典编纂,提高军事辞典应用价值
目前,国内已经有相当数量的针对我军和外军的军事词典,既有一般性的军语词典,也有专门性的术语词典,还有武器装备、科学技术词典和百科全书等。
但这些词典由于多是用传统人工收集语料的编纂而成,词典的覆盖面较窄,选词的代表性不高,也不易体现符合军事语言实际使用的全貌。
另外,由于选材的原因,军语和军事词汇的系统性较差,未能较好地体现当代语言使用的特点,也不能反映军语的历史变化和相互关系。
具体说来,就是对新词的收集未能全面覆盖,未能准确反映国内外军事发展的新动态,对旧词的采用没有有力的依据,例句的使用也不能保证是否是军语使用的实际情况,因而,其结果是容易造成随意性的编撰。
另一个突出的弱点是,几乎所有军语词典都没有考虑按照国际目前词典出版的新趋势去考虑,即配以语料库基础上生成的电子词典光盘版。
实际上,创建军事语料库,将词典的整个编撰和使用建立在军事语料库基础上,将能够有效弥补传统军事辞典的上述缺憾,能够保证军事辞典的理据性、系统性、全面性、准确度和时效性,从而提高军事辞典的实际应用价值。
(3)创新语言战法研究,大力促进新军事变革
在新的国际斗争环境下,语言已成为当今军事斗争中的主要武器和媒介,其表现形式为信息战、心理战、舆论战、法律战等,作用和地位不断凸现。
舆论宣传和心理攻击已经成为新的大规模杀伤武器。
西方军队纷纷组建起大批专门从事上述作战形式的部队和研究机构。
美军在各军种的指挥学院都开设了心理战的课程,专门的心理战部队更是花样繁多,不断加强心理战的作战样式和作战能力。
对语言的巧妙运用是心理战的重要基础。
传统的做法是,组织人员针对某一特殊情况临时编辑创作心理战和舆论战的文本和稿件,但由于工作量大,任务紧急,单一的人工做法很难满足信息时代快节奏行动的需要。
因
而,建立心理战、舆论战、法律战的语料库,利用语料库的快捷查询、数据准确、处理能力强、生成快捷的特点,可以定量和定性开展这方面的理论探索和应用研究,从而更好地发挥语言的实战作用,提高语言的杀伤力。
这样做,才能真正做到针对信息战的“未雨绸缪”,“即需即用”。
(4)推动军事语料库辅助教学研究,提高军事外语教学水平军事语料库不但为军事语言研究提供了丰富的语言素材,为编写军事词典提供大规模的词汇源头,还可以为各种军事教材提供重要的依托和依据,而且在军事外语教学理论、内容、方法等方面也可以发挥重要作用。
传统的军事外语教学主要是凭感觉进行主观设计,在经验下行事,往往在出现问题后再进行补救。
而建立在军事语料库基础
上的军事外语教学,将实现对传统外语教学的变革与创新。
总的说来,军事语料库可以在军事外语教学语言教学中从事以
下的主要活动:
(1)避免课堂授课内容与人们实际使用的军事语言之间的差距;
(2)发现过去被忽略的军事语言规律;
(3)理解军事词语在实际交际中的意义和用法;
(4)揭示和认清军事语域的特点;
(5)发现学习者使用军事语言时的问题;
(6)解决语言学习测试的有效性和合理性;
(7)实现语言学习错误的科学分析;
(8)提供军事语言学习的策略和辅助素材;
(9)帮助学生实现自主学习、自我检查和自我提高。
总之,军事语料库的建立,对传统的军事语言研究、词典编撰、舆论战和心理战的语言使用策略和战略以及语言教学会带来新的革命性的转变。
2、军事语料库在信息化条件下的创新应用
信息化条件下的战争对信息掌握、信息控制、信息处理和信息传递的能力提出了非同一般的要求,而各类军事语料库的建立,能更好地满足和适应这些能力的建设。
(1)推动军事情报检索发展,提高情报获取能力
我们处在一个信息大爆炸的时代,仅互联网上每秒传递的各类信息都很难以统计,无线电话的语音信息也是一个海量。
这其中蕴藏着大量的有价值的情报,如果能有选择性地收集其中的信息,建成语料库,再利用语料库对信息进行过滤和筛选,就会为军事情报提供重要的参考和判断依据。
如果直接收集敌方军事人员的各类电话和互联网信息,建立分门别类的语料库,其潜在军事价值就更为可想而知了。
比如,为了针对特殊对象的信息收集、情报侦听、方位跟踪等,可以建立该人物群体的军事语音语料库。
利用特定人物的语音样本,对相关人员的无线电话可以实现全球跟踪和定位。
据传,美国在打击基地组织的关键人物中就采用了这一技术,这也就是为什么拉登很少使用手机的原因。
值得指出的是,美国的GALE(全球独立语言开发)机构利用语料库的技术,结合计算机语言学的其他技术,已经开始研究并应用处理多国语言中的大量语音和文字材料,这些工作包括采集、翻译、分析和解释这些材料。
通过计算机对大量语料的快速处理,自动地向军事指挥官或其他人员提供相关、简洁.可操作的信息。
这样可以部分消除对语言学专家和信息分析专家的依赖。
军事人员只用掌握简单的操作命令,就可以对某一信息或某一问题在当前海量信息中的权重或分量得出结论,从而对下一步采取何种应对措施和行动提供参照。
当然,如果是情报分析专家来利用这套系统,对情报的掌握就更加全面和准确了。
(2)方便多国协同军事行动,实现战场实时军事翻译
当前国际多国多语种的联合演习、联合反恐、国际维和、军事谈判和军事交流日益扩大,范围也越来越广;另一方面,一国军队人员往往远程作战,对战斗地区和占领区的文化都缺乏了解,语言沟通就更加困难了,这对军事翻译提出了很强的需求。
然而,单纯的人工现场翻译显然已经无法满足要求,也无法实现。
在军事行动过程中,用人工进行实现翻译的代价也太高。
因此开发自动翻译系统迫在眉睫,而机器翻译实现的重要基础就是语料库技术和方法。
目前开发类似于人类智能的通用机器翻译系统比较困难,然而对
于特定领域的机器翻译,借助语料库的技术,还是可以实现的。
比如,在多国协同作战中,由于涉及的词汇和用语较为简单,语句变化性小,战场用语单一,因此,对它们实现军语自动翻译是完全可能的。
可以建立一定规模的语料库,然后通过计算机软硬件技术,尤其是自然语言的处理技术,对它们进行可信度较高的快速翻译,这也就是我们通常所说的机器翻译。
机器翻译的基础就是语料库,而且是双语或多语种的语料库。
美军已经开始了这方面的探索和研究。
由于美军在全球各地行动,并且经常在短时间内处于非英语的陌生环境。
出于对安全和行动有效性的考虑,他们必须了解相当广泛的快速变化的新信息。
然而,这些信息在第一时间经常只是以外语的形式出现。
它可能包括当地居民的话语交流、广播电视、不同领导人对行动地区人民的讲话以及当地居民的反应。
由于作战部队里具有能完全听懂当地语言的官兵相对较少,再加上临时培训的代价又较高,而且语种繁多,一时间很难做很好的语言提高。
这种情况下,收集并建立当地活的语言的语料库,在此基础上实现机器翻译,被美军认为是目前较好的可行方案。
实际上,美军已在最近的两场局部战争中采用了这种技术。
驻伊拉克的美军部队配备一种“多语言自动讲话翻译机”,它能迅速将英语翻译成阿拉伯语,以解决美军与伊拉克人交流的问题。
据路透社报道,开发这种翻译机的美国国际商用机器公司(IBM)已向驻伊美军交付了装有语音识别和翻译软件的笔记本电脑。
这些电脑将首先配备给美军医务人员、特种部队和海军陆战队,目的是在需要医疗救援时能及时与伊拉克安全部队和伊平民沟通。
其中一款就是下图所示的Babylon双语翻译机,涉及了阿拉伯语、汉语、英语、法语、德语、意大利语、日语、朝语等8种语言的相互对译,其内核中配有大量的实时言语交流的语料库数据,然后通过处理软件,对输入的话语信息进行数据比对和排错,最后输出认为最为合适的翻译结果。
报道说,尽管翻译机暂时还不会应用于冲突或作战环境中,因为这些紧急状况需要瞬间沟通和决策;但是,IBM的最终目标是让军队在翻译缺乏的真实战场环境下实现操不同语言者之间的有效交流。
IBM研究翻译技术的技术高管纳哈默(David Nahamoo)说,使用装备了Mas-tor的笔记本电脑或掌上电脑,交谈一方对着麦克风说话,经软件识别和翻译后,电脑就会自动把翻译好的话读给另一方听。
现在提供给美军的翻译机能翻译5万多英语单词和10万阿拉
伯语单词。
纳哈默指出,这种翻译机与现有翻译软件最大不同在于,它并不局限于程序事先存人的语句,还可以在机器学习的基础上,进一步识别人们不同的文法、词序和句子结构。
不过,由于任何翻译机都不可能达到准确无误,为了防止翻错,出现误会,Mastor先在屏幕上显示三种翻译方式,由使用者进行选择。
英国《防务系统日刊》2007年3月29日报道,美国防高级研究计划局(DARPA)授予Flu-ential公司一份价值120万美元的设计项目,开发新一代双路语音翻译技术,该技术将用于为驻伊部队开发英语和阿拉伯语的翻译系统。
为了能够实现英语和阿拉伯语的同步双向语音交流,DARPA开展了战术用话音通信和翻译系统(TRANSTAC)项目。
Fluential公司首席执行官俄萨尼(Farzad Ehsani)表示,DARPA要求开发一种能够进行快速、精确话音翻译的应用系统。
作为DARPA合同的一部分,Fluential公司将开发一种能够用于多种任务的灵活系统,该系统将可以适应野外的工作环境。
新系统将为队提供广泛的翻译能力,目前这些士兵缺乏与伊拉克平民、警察和士兵进行交流的能力。
从以上可以看出,建立在语料库技术至上的机器翻译已在美军中大行其道,颇受青睐。
随着技术的进步,不久的将来,以语料库技术为支撑的战场实时翻译肯定会取得突破,并出现在战场上。
<三>、结论
综上所述,建立大规模的军事语料库,可以提高我军的军事语言研究水平,加速军事辞典编纂,提升舆论战、心理战的作战和研究水平,提高情报检索效率,推动军事行动中机器翻译发展,也能促进军事外语教学改革。
尽管军事语料库研究在我国还处于初级阶段,但鉴于军事语料库的独特作用,加快各类军事语料库的建设已经刻不容缓。
它既可以革新军事领域中的许多理念,促进相关科研和教学的提高,也能大大加快军队信息化的步伐,从而最终将大大提高我军信息化作
战的战斗力和生存力。
因此,我们需要抓住机会,以语料库语言学理论和相关的军事理论为指导,加大军事语料库的开发力度,为促进我军新军事变革、提高打赢未来信息化战争的能力做贡献。