统计自然语言处理-语料库介绍--中国台湾中研院语料库--汉语平衡语料库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.1 属性特征的订定
我们制定出一套分类中文语料的属性特征。这些 属性用來說明文文件的來源出处、写作的方式、以及 谈论的内容。主题标示了文文件的内容,文类、文体 和语式說明了文文件呈现的型式,而出处则由媒体、 作者、出版三项属性來标示。媒体說明了文文件的出 处來源。姓名、性别、国籍、母语标示了和作者有关 的讯息,出版单位、出版地、出版日期、版次则记錄 了和出版有关的资料同时采用了阶层管理的方式在三 大属性下描述更多的属性,如图二所示。

3.1 分词原则
举一例:“撞期”依此原则必须视为一个词,但是「撞山」 仍可保持断开,视为动词加宾语动词组。此原则的适用面很广 即便是一个字串表面有明显的词组甚至句子的构造,但凡意义 失去组合性时亦应合为一个词。因此下列字串皆应视为一个分 词单位,例如:飞黄腾达(成语),撞期、吃醋(动词组), 或多或少(副词词组),十二万分(定量结构),五月(定名 结构,不是五个月)、三樓(定名结构,不是三层樓),谈谈 (重迭结构,表尝试)、「坐坐」就走(重迭结构,含短暂 貌)、辛辛苦苦(重迭结构,表程度加强)、片片、一片片 (重迭结构,具泛指意涵)、「好好」孝顺父母(重迭结构, 表尽力)…等。
3.1 分词原则
名词:父、母亲,高中、职,中山南、北路 定量:七、八月,1995、6年,三 到 四月 外來语:BBS 站、user 们、txt 档 數词及表时间、地点或编号之词虽含有标点符号, 但是我们认为这些符号不具标点符号功能,所以不算 是中插,故下列情形仍维持合并。 例如:2/28(二月二十八号),3:30(三点三十 分),二0~一号(门牌号码),AB-8888(車牌 号码)
1.2 中研院平衡语料库的源起
中央研究院词知识库小组,自1990年前后便开始致力于 中文语料库收集,截至1994年止已收集有近二千万字之现代汉 语语料及超过五百万字之古代汉语语料。平衡语料抽取以自中 央研究院词库小组现有之语料中取得为优先,但也同时透过不 同管道取得不同文体、内容之语料。以下依來源之不同种類大 致列举: (一) 交换取得之语料:此项包括经由合作计划交换取得的, 如中国时报。 (二) 直接向版权所有单位取得:慷慨提供我们版权语料做学 术研究用的有:杂志社以及许多中研院内的单位等。另多位 教授提供他们转写(transcribe)的口语资料。 (三) 由公共区域取得的公共资料:大部份由电子布告栏 (BBS)或蕃薯藤等万维网中取得。

3.1 分词原则
合并结构,像是「上下课、高中职、中山南北 路」,依此原则也应该合并为一个词。因为该字串的 意义并非「上」加「下课」、「高中」加「职」, 「中山南」加「北路」,而是「上课」加「下课」、 「高中」加「高职」、「中山南路」加「中山北 路」,可見合并结构的意义不等于组合意义,故应合 并。唯带专名之合并词,像是「台北市长」(「台北 市」加「市长」)、「新竹县政府」(「新竹县」加 「县政府」),因切分后前方的专名和后方的名词皆 可独用,意义可以组合成,故仍予以切分。
一、 前言

1.1 建立平衡语料库的动机 1.2 中研院平衡语料库的源起 1.3 中研院平衡语料库的设计理念 1.4 中研院平衡语料库的构建过程
一、前言

「中央研究院平衡语料库」简称「中研院平衡语料 库」(Sinica Corpus),是世界上第一个有完整词 类标记的汉语平衡语料库。由于加词类标记的汉语 语料库是史无前例的尝试,第一步先以较小规模 (但仍大于较早英语语料库的一百万词规模),于 1994年公开提供给国内外学术研究使用;以期在使 用过程中得到回馈,在完成目标规模前可以做必要 的修正。1997年开放的研究院语料库3.0版已达到 五百万目词的预计规模。搜集的文章为 1981年到 2007年之间的文章,完成4.0版本,约一千万目词。

3.1 分词原则
(2) 词類无法由组合成分直接得到,应该合为一分词单位。 此原则分兩部份: 一、该字串之语法功能不符合组合结果。 例如:动作及物动词 「喝、吃、听」前面加「好」构成「好 喝、好吃、好听」,不能再加宾语,成为不及物,且能被程度 副词「很、十分、非常」修饰,与原來的语法特性不同,故可 视为一个分词成分。 二、该字串之内部结构不符合语法规律。 例如:「那只狗不会游水」中「游水」指的是「在水裡游」, 但「游」是不及物动词,不可直接后接名词。因此,「游水」 不符合动词「游」的语法规律,故应合并之。
1.3 中研院平衡语料库的设计理念
(三) 语料库多重分类原则分类 把所有语料都给了五个不同特征的值:(1) 文类 (2) 文体 (3) 语式 (4) 主题 (5) 媒体。目前初步虽然仍以主题为主轴來进 行语料库的平衡。理想上是希望有了更多研究的结果之后,可 以同时利用一个以上的轴來定义更完善的平衡语料库。 具有五个轴的多重分類,另一个立即的好处是研究上的活 用性(versatility)增加了许多。研究者可任选其中特征的组 合,定义自己的次语料库(sub-corpora);也可以在次语料库 间作比较研究。 多重分類原则也有利于以后平衡语料库的更新。因此在有 监看语料库(monitor corpus)的前提下,我们可以随时抽换 平衡语料库中某个符合一组特征条件的次语料库,以保平衡语 料库仍忠实代表当代语言的真实现况。
3.1 分词原则
辅助原则: 除了基本的理論性原则外,也必须有操作性原则,视分词 的实际狀况设定分合的依据。相对于基本原则的不变性,辅助 原则富于弹性,可能依时代的演变或视情况的需要而有所增减 (1) 有明显分隔标记应该切分之。 切分原则 一个词可能中插别的成分,或是一个词、一个标点符号, 或是英文等外來语,在此情况下,不得不将之断开。例子有: 动宾中插:洗了一个澡 述补中插:打得破、打不破 交互中插:弯下腰去、喘不过气來 合并中插:动词:上、下课
二、平衡语料库的分类标准 与选取结果
属性特征的订定 2.2 语料的选取与分布比例
2.1
二、平衡语料库的分类标准 与选取结果
为了妥善管理以及选取平衡语料库的内容,
将收集來的语料做分类。在每篇文章前头标 示它们的文类、文体、媒体、语式、主题等, 如图一所示。这些属性的订定过程及其详细 内容将在2.1节說明。
1.4 中研院平衡语料库的构建过程
要建构一个平衡带词类标记的语料库,第一个起步工作是 收集语料。接下來是语料整理的工作,包括语料清洁、为语料 分类、加词类标记等等[陈克健 1994]。 以下就构建一个中文的带词类标记的平衡语料库需要考虑 的三个中心问题分三章依次说明: 第二章谈平衡语料的分类与选取,如何为语料做分类,分 类的标准以及各类的比例。 第三章是中文的断词问题,中文基本上以小句为单位,从 來源处得到的资料,并无标示词的讯息,但是切分词的结果也 直接或间接影响到词类标记的判定及句子的分析。 第四章讨论如何订出词类标记集,词类标记的原则以及每 一个标记所代表的涵义。
1.1 建立平衡语料库的动机
语料库为本(corpus-based)的研究是近年來语言学及计 算语言研究的一个重要发展,其影响更远及文学及社会学的计 算研究。语料库构建的第一个大问题是如何在有限的语料中代 表复杂的当代语言全貌。 平衡语料库中最重要的讯息,也是关键性的特色,便是每 个词上的词类标记。当然,每个词上有意义的标记(tag),并 不一定是词类,也可以是语义、语音、笔划等。可是只有词类 可以算是(所有语言)的基本架构单位,是语言学家公认建构 语法的基础,也是不论对语言从事何种研究都可能用得到的讯 息。
中国台湾中研院 语料库
中国台湾中研院 (Academia Sinica)
曾于20世纪90年代初期开始建立了
汉语平衡语料库(Sinica Corpus) 汉语树库(Sinica Treebank )
汉语平衡语料库 (Sinica Corpus)
一、前言
二、平衡语料库的分类标准
与选取结果 三、分词标准 四、词类标记 五、检索说明
2.1 属性特征的订定


Hale Waihona Puke 主题是依照文文件内容,讨论重点而定。大体上我们是参考 图书馆的分类方法來定主题的属性。 文类是说明文档的呈现方式,可分为报导、评论、广告图文、 信函、公告启事、小说故事寓言、散文、传记日记、诗歌、 语录、说明手册、剧本、会话、演讲、会议记录。 媒体是根据资料來源分类。大体上书面语和口语会有不同的 來源,书面语的來源大致可分期刊、图书、书信、视听媒体、 会议、其它;视听媒体包括电视节目的台词,还有一些电子 布告版里的文章 。 文体是文档的写作方式,分为记叙、论说、说明、描写。 语式标示文档的呈现方式,是以书面语或口语的方式表达就 大有不同。written即书面语,written-to-be-read指演讲稿之 类,written-to-be-spoken指剧本、台辞等,spoken指一般 的口语谈话,spoken-to-be written 指会议记录之类的文档。
3.1
三、 分词标准
语料选取完毕,接下來的工作是标记词类,但是在这之前, 还要先为语料做断词工作,唯有每个词区隔非常明确之后,才 能标记词类。目前机器自动断词正确性,在不统计专有名称与 复合词的前提下,可达99%左右[Chen & Liu 1992]。基本 上,自动断词的步骤是以中研院辞典中的八万目词为基础,切 分为一个一个独立的词。没列在辞典中的成分,则以字为单 位,一一切分开。然后佐以构词律对衍生性强的词缀及数字组 合成分进行结合词汇的工作。而目前分词的原则是采用中央标 准局委托中华民国计算语言学学会研拟的「中文信息处理分词 规范」国家标准草案的原则切分。
3.1 分词原则
基本原则 基本原则是从语意与语法兩方面來說明分词单位。 以基本原则作为指导原则,我们便可以在语言学理論 上找到分词依据,使分词标准有执行的归依。 (1) 语意无法由组合成分直接相加而得到之字串应该 合为一分词单位。 合并原则 这是一条很重要的分词细则,凡是组合后意义起变 化的字串皆应视为一个词。
1.3 中研院平衡语料库的设计理念
研究院语料库因为中文的特性,也因为我们观察语料的经 验及研究语料库语言学的结果,有以下几个重要的设计理念 : (一)遵循计算语言学学会的分词标准 分词(或称断词)是中文自然语言处理的先决条件,但因 中文词的分界在实际书写上不标明,在理論上亦有争议;故一 直很难标准化。目前国内有中华民国计算语言学学会受中央标 准局委办研拟「中文信息处理分词规范」,并已完成国家标准 草案。依此标准分词不但可以有助于资源共享,对语料库分词 结果之回馈也可成为尔后修定国家标准草案的依据。 (二) 裁文是以文章(text)的自然段落为准,而非以文章 长度为准 避免选取过短或过长的文章,便随其自然段落截取。我们 认为我们的设计理念可以取得更完整不偏颇的语言讯息内容。
2.2 语料的选取与分布比例

目前,我们以主题为准,订出平衡语料库的内容比例为:哲 学百分之十、科学百分之十、社会百分之三十五、艺术百分 之五、生活百分之二十、文学百分之二十,根据此參考值为 基准选取语料。结果在兩百万的语料中,各類主题实际分布 狀况,如表一所示。

三、 分词标准
分词原则 3.2 范例与说明

3.1 分词原则
订定分词标准的首要工作是定义切分字串的基本单位。因此我们定义 一个具有独立意义,且扮演特定语法功能的字串应视为一个词。根据定 义,动词、名词、副词、定词、量词、介词、方位词、連接词、语助词、 感叹词皆可依類一一断开。这些基本词類中,前五者,尤其是动词和名词 的判定较复杂。原因有三: 一、动词和名词皆另有词组形式,便有区分复合词和词组的问题。另 外副词、定词、和量词也有類似的困扰。 二、动词、名词是个开放性词集,随时都有新词产生。 三、一些结构复杂的字串,像是中插结构「洗了澡」或合并结构「中 小学」,也需要细则來规范其分合标准。 因此除了定义外,必须另有原则规范分词,我们提出兩条基本原则以 及六条辅助原则,以求在语料库的断词部份能达到一个符合语感、分析一 致、并具语言学专业要求的水准。
相关文档
最新文档