语料库简单dye 第二讲

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2008/7/31

语料库简单DIY 第二讲语料库软件初探--

语料库软件初探--MonoConcPro 2.2

本软件是Athelstan开发小组/ ,于1996年开发的语料库比较检索工具。目前,我的服务器上提供学术性下载,下载地址: http://vu.flare.hiroshima-u.ac.jp/whistle/corpus/MoconcPro2.

2.rar

(本软件为学术交流使用,所有权归本软件开发小组所有,一切商务性盈利目的的违法使用,所带来的连带责任关系与本人及本论坛无关。请慎重下载,小心使用!!!)

功能介绍:

软件主界

基本功能:

MonoConc Pro 2.2 的软件界面比较简单。适合语料库初学者和初级研究人员使用。

本软件据作者的研究,其内部主核使用UTF-8编码,基本支持欧洲几种主要语言。当然,其主要的应用领域还是针对英语。本软件主要处理的文本素材是以TXT结尾的记事本文件,当然,本软件还可以导入RTF文档和其他格式的操作系统默认文档格式。不过,从DIY的角度来说,我们自己收集到的语料,为了免除格式,字体,行距等等文本要求,最好全部使用TXT文档,方便,省

事!用了都说好!(谁用谁知道)

我们按照自己的研究目的,研究方向,收集我们所需要的语料素材,具体的收集方法因人而异。可以从报纸杂志的电子文文档上直接下载,也可以从网站上直接下载整理好的TXT版本的小说,资料素材等,还可以直接从各大语料库中检索需要的语用素材,然后拷贝粘贴到TXT文本中。由于MonoConc Pro

强大的跨文档处理系统,一次可以同时导入多个TXT文档进行比较处理,所以我们可以把文章或者资料按照自己喜好的分类标准进行分类,然后存成不同的TXT文件名。检索的时候,只需要同时导入这些文件就可以了。(异常强大~)下载好软件,解压缩,然后打开MP22.EXE文件,你就可以看到上图那个简单的主界面了。

之后,选择File→Lord Corpus File(s),找到你需要导入处理的TXT文档,一个或者多个都可以,然后选择[打开]。指定的TXT文件就被全部导入进MonoConc Pro中了。

如果导入了过多的TXT文档,比如您导入了莎士比亚全集+马克思选+恩格斯选+列宁选+毛泽东选+邓小平选.....(不能否认,真的有这样的朋友存在)。那么,为了方便您查询检索结果所出现的文章,你可以选择File→View Corpus File/URL,这样就能看到查询结果所在的文章,还可以删除不需要的文章,或者添加新的文章,非常简单。

*这里的URL,指的是在HTTP或者FTP上,可以直接打开的文字页面的链接。一般朋友们DIY的语料库都是存在本地硬盘上的,所以基本上可以无视这个选项。不过,将来我们的个人语料库要实现点对点,点对多的平台连接。连接后,我们就可以相互查询对方个人语料库中的资料,此时在导入对方语料库中的文档的时候,就要用这个了。(这个目前还很遥远,大家还是踏踏实实做自己的DIY语料库吧!)

当我们要删除所有的文章的时候,这个时候仅仅关闭文章的窗口,是不能实

现删除文章内容的。关闭了窗口,只是你看不见了而已,但是文章实际上已经写入了内存,你必须将它清除出内存,才能在搜索的结果中排出掉不需要使用的文章。这个时候,你就需要File→Unload Corpus功能了。这里Unload只是卸载掉内存中的TXT文档,不是删除你的文章,所以不要害怕,大胆卸。

以上就是MonoConc Pro操作的基本功能。这里需要说明一个问题,MonoConc Pro的File里面有一个Language的选项,里面你可以发现软件支持很多语言。这里所谓的支持,只是显示TXT文档时所支持的语言编码。也就是说,在MonoConc Pro里面是可以显示字母体系文字,和汉字体系文字的。但是,但是,但是!在内存中处理的时候,软件是使用UTF-8欧洲语言进行处理的(ANSI),所以无法直接处理汉字编码Unicode或者ASCII编码。不过,通过WORD或者其他的专码工具,也可以进行操作,但是本人研究了很多编,对于汉字编码的处理,系统总是出现很多错误,所以建议不要使用这个软件来处理汉字文本。当然,有钻研精神的人,还是很鼓励的。没有钻研精神也不要怕,MonoConc Pro介绍完了之后,我们会介绍专门处理汉字编码的软件Antconc3.2.0W,要好好支持我,我才讲哦!

*有的朋友在打开自己所整理的TXT文本文件时,在MonoConc Pro进行操作的时候,会出现软件报错,或者软件自动关闭等状况。这就是我在上面提到的编码问题。在我们进行MonoConc Pro操作之前,我们有必要将我们的TXT 文档,用写字板打开,然后选择另存为,编码选择ANSI ,然后用新保存的文件进行MonoConc Pro操作,就会避免这个问题;当然也可以使用Word等更加强大的软件进行编码转换。如果在这一点上有疑问,请联系我。

--------------------------------------------------课间休息

------------------------------------------课间休息

-------------------------------------------------

进阶功能介绍:

前半节的课程上,我们认识了MonoConc Pro软件的基本功能。现在我们来学习今天课程的精华中的精华中的精华部分。要好好听,不要走神哦! Word List 功能

这个功能看名字很简单,但是实际上这是一个很了不起的功能。首先我发上来两个图,大家可以参考一下。

第一副图是对于英文文章Word List---词汇频率出现的统计;第二幅图是对于汉语文章Word List 的统计结果。从第一幅图上我们就可以很清楚的看到(可能这里看得不是很清楚),软件能够把英文单词准确地提取出来,按照单个词来统计频率。而第二幅图就明显地看到,软件不能把汉字处理成为单个汉字来统计,

那么Word List

当你导入文件之后,你会发现,主页

相关文档
最新文档