词与分词连写

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

・词与分词连写

・词与分词连写

汉字文本的词与分词连写问题中文具有不实行分词连写的传统。这说明,在通常情况下,中文具有不分词连写也不会妨碍书面交流的能力。但这并不是绝对的,中文中词的界线有时确实因为没有分词连写而显得有些模糊,甚至会造成误解。中文为什么可以不分词

连写呢?我认为,这是由于汉字的字符集很大,就算常用的国标一级汉字也有3008个。而日常常用的词也就是那么五、六千个,因此字

与字之间可能形成词的组合的可能性很小,因而词在汉字文本中比较容易被人筛选出来,从而一般不会影响人们对文本的理解。例如下面这个句子:为实现中国的语文现代化而奋斗!人们会毫不费力地把它理解为:为实现中国的语文现代化而奋斗!而不会把它理解为:为实现中国的语文现代化而奋斗!但是,让我们再来看一看PhilipZhang[1]常常举的一个例子:韩廷顿首先到台湾国中学作报告。你会怎样理解这个句子呢?如果没

有词连写和间隔的功能存在,这个句子可以有多种读法:韩廷

顿\首先到台湾国中学作报告。韩廷顿首先到台湾\国中学作报告。韩廷顿首先到台湾国中学\作报告。韩廷顿首先到\

台湾国中学作报告。从语法上来说,这些句子都是正确的!为

什么会这样呢?这里所发生的就是因中文不实行分词连写而造成的

词界线模糊和歧义现象。当然,这种现象在日常文字生活中并不十分常见。如果对于我们人类来说,中文是不是分词连写都关系不

大的话,然而对于计算机理解自然语言来说这种区别就非常大了。

我们的计算机专家费了九牛二虎之力,绞尽脑汁,都还是不能让计算机令人满意地为汉字文本做自动分词。他们动用了巨型的词库,想出了种种人工智能方法,结果还是令他们难堪。我不知道为什么中国人会如此“冷酷”地对待计算机,如此“滥用”我们的计算机专家,竟然拿我们人类之所长来“虐待”计算机。因为毕竟,分词对于我们来说简直是小事一桩,顺手加一个空格的事,而对于一般的计算机来说却会耗尽它的内存(巨型词库),让它左右为难(歧义现象)。如果计算机有灵,它会让我们算算这道题:23223432534534345。“还没有

算出来呀,你们真苯!”,计算机会说。冯志伟教授[2]在《绝妙的空格》一文中“举双手赞成”米阿仑关于在中文中用空格进行分词的建议。这就是针对中文的计算机处理而言的。综上所述,对于汉字文本是否需要进行分词连写的问题,是不是可以这样认为:如果我们不需要计算机处理汉字文本则我们没有太大的必要进行分

词连写,反之我们则需要进行分词连写。然而,应用计算机是大势所趋,所以我们还是分词连写明智一些。多敲一下键盘,多用一点纸张,所换来的是“解放”我们宝贵的计算机资源,“解放”我们更加宝贵的计算机专家,还可让人们养成分词的习惯,养成清楚地表达自己的思想的习惯,也可我们最终实现汉语拼音化做准备,真是何乐而不为呢?注: [1]PhilipZhang,“一不是一”,《语文与信息》第十期(1998年12月) [2]冯志伟,“绝妙的空格”,《语文与信息》第十五期(2000年5月)

优品课件,意犹未尽,知识共享,共创未来!!!

相关文档
最新文档