用AntConc处理中文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

用AntConc处理中文concordance, wordlist, N-gram
不知道laohong用的什么宝贝!
我的方法是这样的:
我刚才是把Token Definition里面的letter token classes 下面的全部选中,再把Chinese Encoding 里面的第一项选中就行了,下面的我想就不用我来说了。

另外,我发现按照我的下午选项,其实没有进行分词的中文语料也是可以进行全文检索和显示的。

对不起各位,早上贴完帖子就搬家去了,累到现在才回家打开电脑。

这里是大家关心的我是如何用AntConc处理中文的:
1、文本格式:
大家有没有注意到上面贴的我试验AntConc的文本中既有中文简体、繁体也有英文?为了能
在同一个文本中显示好中文简体、繁体和英文,我把所有文本都转存成UTF-8了。

也就是说,我用AntConc 处理的语料文本是存成UTF-8格式的,不是GB或Big5。

另外,中文文本是
经过分词处理的。

请搜索本站找相关的自动分词和词性标注工具:SegT ag、ICTCLAS、NEUCSP、Hylanda、WinAT等。

2、设置AntConc:
在Global Settings 下的Language Encodings,我没有选Chinese Encodings下的选项,而是选择了Unicode Encodings 下的Unicode(UTF-8)。

其它设置可以用默认的。

3、功能:
这样设置后AntConc的功能就全部可以处理中文文本了,也就是说大家这样就可以用AntConc 来处理分词后的中文的Concordance,Wordlist,Cluster,N-Gram等等了。

Wordsmith 终于有了一个免费的竞争对手!
请问如何显示卡方检验和互信息的值
1.卡方检验是用做key words,需要一个参照语料库的wordlist和一个要分析语料库的
wordlis.
2.在Tool preference下选择Collocates preference 然后选择show statistics measure
下的MI值或者T值然后再选择show collocate即可.
3.2.1w 是最新版本,应该不是版本问题。

如果使用的是英文系统,查看你的语言和区域设置搞对了没有;如果设置没问题,或者本来就是中文系统,就检查是否做到了下面几点(都是本thread 前面讨论过的,看来你需要读第三遍啊):
1、设置AntConc的Global Settings:
Global Settings, Language Encodings, Edit, choose Unicode Encodings, Unicode (utf8), Apply.
2、对文本进行分词处理或汉字加空格:
要想得到wordlist或character list,就得先把汉语文本分词处理,具体关于分词工具及其使
用可在本坛查找。

也可以简单地给每两个汉字间加个空格,从而达到检索目的。

3、转存文本成utf-8格式:
用Notepad或其它纯文本编辑软件如EditPlus等打开要检索的文本,然后转存,选择编码
Encode为UTF-8。

4、使用AntConc得到Wordlist或Concordances。

Good luck!。

相关文档
最新文档