汉语组块计算的若干研究
语块研究简述
ta e g sbett gnrt n o nl i b h a gae hn bi ujc o e e i raa s y te l u g n ao ys n
ga r mm a ・ r
te te a d h hr n 则不 能变 为 o nte a d或者 o ieet o h nao r n h h nadf rn f
二语 学习者所使用的语块之所 以有别 于本族语者 , 根本
原因在于 : 首先 , 学习者 还没有 注意 和重视 从地 道 的 目的语
伙伴 ( ) 词 一经 出现 , 另一 个伙 伴 ( 现 的词 ) 共 极有 可能 也在
文本 的某个 地方 出现 。另一方面 , 它可 以区分 固定搭 配与 习
同样 , 这个多词单位 是否 以任何方 式发生 变化 , 是否 可能 因 它的组成 单词 变化 或者 词序变 化而发 生变化 。 比如 ao e nt r h
kteo s e l f h和 ad f etkteo fh是 可 替 换 形 式 , o t f i ie n e l fi fr t s 而 n
一
义 的、 不可分割的整体 。语 块是 词义 ( 和语 义) 石化和词汇形
成过程 的结果 , 而不是语法规则 实现的结果 。他 总结 出语块 三个重要特征 。( ) 俗化 (ntui ai t n 。习俗化 是 1习 i itn z i ) st ol a o 指一个 多词单位在 语言 中约定 俗成 的程度 : 它会 不会 复现 ,
( ) 二 语块 界定 标准 Mon 19 ) 为 , 块 是一个 由一 到 两个 或更 多词 构 o (9 2 认 语 成 的词汇单位 。这一 列词在 语义 上或句 法上构 成一 个有意
对外汉语口语语块研究述评
对外汉语口语语块研究述评随着中国的国际地位的提升,对外汉语教育也越来越受到关注。
对外汉语口语教学作为对外汉语教学的重要组成部分,逐渐成为研究的热点之一。
对外汉语口语语块的研究备受关注。
语块作为语言学习中的基本单位,对于提高学习者的口语表达能力具有重要意义。
本文将对对外汉语口语语块研究进行述评,并分析其在对外汉语口语教学中的应用和意义。
1.研究内容对外汉语口语语块的研究内容主要包括语块的定义、分类、认知加工过程、习得路径等方面。
在语块的定义上,学者们给出了不同的解释,有的认为语块是一种语言单位,有的则将其看作是一个语言习得的组织单位。
在语块的分类上,一般可以分为固定语块和自由语块两种,或者按照语义功能进行分类。
而在认知加工过程和习得路径研究中,主要围绕语块的获取、存储和使用等方面展开。
2.研究方法对外汉语口语语块的研究方法主要包括实验研究、调查研究和比较研究。
实验研究主要是通过实验手段来解释和验证语块的认知加工机制和习得路径。
调查研究则是通过问卷调查和访谈等方式来探究语块在学习者口语交际中的应用情况和问题。
比较研究则是将对外汉语口语语块与其他语言的语块进行比较,以找出其在语用和语法上的异同点。
3.研究成果在对外汉语口语语块研究方面,学者们提出了许多重要成果。
针对语块的习得路径,有学者提出了一些有效的教学策略和方法,能够更好地帮助学习者习得语块。
对一些固定语块如情感词语块的研究也取得了一些重要发现,能够为口语教学提供更加有针对性的教学内容和方法。
二、对外汉语口语语块在口语教学中的应用1.语块的教学对外汉语口语语块在口语教学中扮演着重要的角色。
通过教授语块可以帮助学习者更快地积累语言素材,提高口语表达的流利度和地道性。
语块教学主要包括语块的介绍、讲解、练习和应用等环节。
在介绍和讲解环节,教师可以通过举例、对比等方式向学生解释和展示语块的用法和语境。
在练习和应用环节,学生可以通过角色扮演、小组讨论等形式来运用所学语块进行口语表达。
汉语组块分析研究综述
际会议 C o NL L 一 2 0Байду номын сангаас0 0把 组块 分析作 为共 享任 务l 2 ] 提
1 引 言
句 法 分 析是 自然 语 言 处理 中的 重 点 和难 点 , 虽
出, 组 块分 析逐 步 受 到 重视 。人 们对 于基 本 名 词短 语、 介 词短 语 , 继 而 扩大 到所有 类型 短语 的识别 等 问 题 做 了大量 的研 究 。 目前 的组 块分 析技术 由于受 到 相关语 言 处理研 究及 信 息处理 技术 应用 两个方 面 的
汉 语 组 块 分 析 研 究 综 述
李 业 刚 。 , 黄 河 燕
( 1 .北 京 理 工 大 学 计 算 机 学 院 , 北京 1 0 0 0 8 1 ; 2 .山 东 理 工 大 学 计 算 机 科 学 与 技 术 学 院 , 山东 淄博 2 5 5 0 4 9 ) 摘 要: 组 块 分析 作 为 浅 层 句 法 分 析 的 代 表 , 既 可 以 满 足 很 多语 言 信 息 处 理 系统 对 于 句 法功 能的 需求 , 又可以作为
2 .De p a r t me n t o f Co mp u t e r S c i e n c e a n d Te c h n o l o g y,S h a n d o n g Un i v e r s i t y o f Te c h n o l o g y ,Z i b o ,S h a n d o n g 2 5 5 0 4 9, Ch i n a )
子任务 , 在 词 法 分 析 和 完全 句 法分 析 以及 语 义 分析 中间 架起 一 座 桥 梁 , 为 句 子 进 行 进 一 步 深 入 分 析 提 供 有 力 的 支
对外汉语口语语块研究述评
对外汉语口语语块研究述评引言语块是语言中的重要组成部分,它是一种固定的、连贯的语言单元,具有特定的语法和语义功能。
对外汉语口语语块研究作为中国对外汉语教学的一个重要领域,受到了广泛的关注和研究。
本文将对外汉语口语语块的研究进行述评并提出一些见解。
一、对外汉语口语语块的定义语块是指在交际中经常使用的具有语法功能和语义功能的固定的词语组合。
它是语言的基本组成部分,具有一定的稳定性和连贯性。
对外汉语口语语块是指在对外汉语交际中经常使用的固定词语组合,包括常用的问候语、感谢语、道歉语、表扬语、建议语等。
对外汉语口语语块的研究,旨在帮助学习者更好地理解和运用这些固定的词语组合,提高他们的口语表达能力和交际能力。
对外汉语口语语块可以根据其语法功能和语义功能进行分类。
按照语法功能的分类,可以分为主谓语块、宾补语块、时间状语块、地点状语块、方式状语块等。
按照语义功能的分类,可以分为问候语块、感谢语块、道歉语块、表扬语块、建议语块等。
这些分类有助于学习者更好地理解和掌握口语语块,并将其运用到实际的交际中去。
对外汉语口语语块的研究方法主要包括语料库研究、实验研究和调查研究。
语料库研究是通过收集大量口语语料,分析其中的语块使用情况,总结出常用的口语语块。
实验研究是通过设计实验,测试学习者对口语语块的掌握和运用情况。
调查研究是通过问卷调查和访谈调查,了解学习者对口语语块的认识和需求。
这些研究方法相互结合,可以全面地了解口语语块的使用情况和学习者的需求,为口语教学提供科学依据。
对外汉语口语语块的教学策略应该注重实践性和交际性。
教师应该引导学习者通过大量的口语交际实践,积累和掌握口语语块。
教师可以设计各种口语交际活动,让学习者在实际的交际中运用口语语块,提高他们的口语表达能力和交际能力。
教师还可以结合学习者的实际需求,设计个性化的口语语块教学方案,提高口语语块的学习效果和实际运用能力。
组块化的名词解释
组块化的名词解释在语言学和认知科学中,组块化是指将连续的语言单元组合成更大的单元,以便于理解和表达信息。
这种方式在日常交流中非常常见,它不仅用于语言的理解和表达,还存在于其他领域,如思维、记忆和学习等。
本文将详细解释组块化的概念、作用以及相关的研究和应用。
一、组块化的概念组块化是一种认知过程,通过将相关的信息组合在一起形成更大的单元,以便于理解和处理。
在语言学中,这些组合可以是词语、短语或句子等。
通过将相关的语言单元组块在一起,我们可以更有效地解读和表达复杂的概念和信息。
组块化的过程发生在大脑中,涉及到对语言和语义的认知加工。
二、组块化的作用1. 理解和记忆:组块化有助于我们理解和记忆大量的信息。
通过将相关的语言单元组合在一起,我们可以更容易地理解语言的含义,并将其存储在记忆中。
例如,当我们听到“红色的苹果”这个短语时,我们可以将“红色的”和“苹果”两个词语组合起来,形成一个更大的单元,并且更容易记忆。
2. 语言表达:组块化也对语言的表达起到重要的作用。
通过组块化,我们可以更自然地表达复杂的概念和意思。
例如,当我们要表达“自然环境遭受到破坏”的意思时,我们可以组合词语“自然环境”和“破坏”来表达这个含义。
这种表达方式更符合语言的习惯和规则,使得信息的传递更加准确和流畅。
三、组块化的研究和应用1. 语言学研究:在语言学领域,组块化被广泛研究。
一些语言学家认为,组块化是语言的基本特征之一,它在语言的产生和理解过程中起到了重要的作用。
通过研究组块化现象,我们可以进一步了解语言的结构和运作机制。
2. 认知科学研究:在认知科学领域,组块化也是一个重要的研究课题。
通过研究人类大脑在组块化过程中的活动,我们可以更深入地理解人类的认知机制和信息加工过程。
这对于认知科学的发展和应用具有重要意义。
3. 教育和学习应用:组块化的概念在教育和学习中也得到了广泛应用。
在语言教学中,教师可以通过组块化的方式帮助学生理解和记忆词汇和句子。
关于汉语组块(CHUNK)研究的几点观察和思考
关于汉语组块(CHUNK)研究的几点观察和思考颜伟北京语言大学语言信息处理研究所北京 100083E-mail: yanwei@一、汉语组块研究的进展国内现在进行汉语组块研究的团队主要有:微软亚洲研究院、清华大学、东北大学三家。
他们有自己的技术优势和各自有不同的应用目标,微软主要的应用目标是进行浅层句法分析(shallow parsing),但从两年来的工作看来,微软的这项工作并没有取得预期的成果,微软组块研究主要由黄昌宁教授主持;清华大学应该是国内最早进行组块研究的科研机构,周强博士从博士期间就把很多注意力集中在汉语组块的相关研究上,现阶段他们正考虑在组块提取中加入语义关系来提高提取的准确性;东北大学在英汉机器翻译中考虑到翻译颗粒度的要求,并开始组块研究,取得了比较好的成果。
我们主要就微软亚洲研究院的相关研究工作进行整理分析,并提出自己的一些看法和观点。
(一) 工作进展微软的汉语组块研究初步想实现100万词的手工语料标注,但因为规范的统一性,这项工作最终只从四个人半年标注的100万词的语料中选取了50万词形成最终的chunk语料库。
微软基于chunk的工作基本上是以这50万词的语料为基础的。
(二) 相关技术标注单位:微软以自然句(即以句号、问号、叹号分开的句子)作为基本的标注单位Chunk的定义:他们区分了chunk和短语并在实际工作中提出了一些修正方法例如:•Phrases (recursive)[NP [NP [NP青年] [NP志愿者] ] [NP [NP 科技] [NP 服务队]]]•Chunks (non-recursive, linear)–[NP 青年/n] [NP 志愿者/n] [NP 科技/n] [NP 服务队/n] -–[NP 青年/n 志愿者/n] [NP 科技/n] [NP 服务队/n] -–[NP 青年/n] [NP 志愿者/n] [NP 科技/n 服务队/n] -–[NP 青年/n 志愿者/n] [NP 科技/n 服务队/n] √ Ideal–[NP 青年/n 志愿者/n 科技/n 服务队/n] √–[NP 青年/n] [NP 志愿者/n 科技/n] [NP 服务队/n] X修正方法:•solution in chunk definition–[NP 青年志愿者科技服务队] [NP世界经济论坛年会]–[NP 现代企业制度] (Extending)–[ADJP 最低][NP 工资]和[NP 生活费] (Shortening)操作规范:区分inside和outside–verb-object, subject-verb are excluded of chunks–11 chunk types and its definition•NP, VP, ADJP, ADVP, PP, SP, MP, TP , CONJP, INDP, INTJP–Special annotation cases– Outside tokens: 的,得,和,与,punctuations[SP 市内/s] [NP 各/r 大/a 商场/n] 的/u [NP 冷食/n 柜台/n] [NP 生意/n][ADJP 都/d 红火/a] 得/u [ADVP 很/d] 。
对外汉语教学语块研究述评
2018年第1期No.12018华文教学与研究TCSOL Studies总第69期Sum No.69[收稿日期]2017-09-21[作者简介]孔令跃(1974-),男,河南南阳人,北京大学对外汉语教育学院副教授,博士,主要从事汉语词汇认知和汉语作为二语的教学研究。
电子邮箱:lingyue@ 。
①感谢匿名审稿专家和《华文教学与研究》编辑部提出的宝贵修改意见。
②在国外研究文献中有50多种名称来指代语言中的语块现象(如multiword chunks ,formulaic language 等等),目前formulaic languages 作为一个通称(cover term )被广为接受(Conklin &Schmitt 2012)。
在国内的众多研究文献中,语块现象也有多种名称,使用最广的是“语块”或“词块”。
后者容易使人把语块现象限定于连续的词汇组合这一范畴内,但研究者认为语块包括连续和非连续词语组合(Wray,2002),而且也有研究者认为语篇层次也有语块(钱旭菁,2008)。
此外,有些情况下用词块似乎也不符合汉语语感。
从词语的涵盖范围和使用接受度上考虑,我们认为“语块”一词更合适。
本文使用语块一词来对应指代formulaic language 一词。
对外汉语教学语块研究述评①孔令跃(北京大学对外汉语教育学院,北京100871)[关键词]汉语语块;理论研究;实证研究[摘要]近些年,语块已成为一个跨学科多领域的前沿研究热点。
本文从理论和实证两方面回顾梳理最近十五年的对外汉语教学语块研究。
分析发现汉语语块分类的理论探讨较多,但分类视角窄且分类标准存在较多问题。
实证研究数量增加较快,方法也更多样化。
其中,语块的心理语言学研究进展明显,但不同类型语块及其习得机制的教学与习得研究成果有限。
结合国内外语块研究发展趋势,本文分析目前相关研究所存在的问题和不足,探讨后续汉语语块教学研究可拓展的空间。
[中图分类号]H195.3[文献标识码]A[文章编号]1674-8174(2018)01-0049-091.引言语块②是在自然话语中普遍存在的一种形式固定的多词汇单元。
统计和规则相结合的汉语组块分析
Absr c To a q ie c un r ta t c u r h ks fom un n e t sus f lf r ma pp ia i s,s c s m a h ne r ni g t x s i e u o ny a lc ton u h a c i t a s a i n, i o ma i r t iv ng, ec . De c i d n t i p p r a e t c m e f r e b s d r n l to nf r ton e re i t. s rbe i h s a e r he s he s o ul a e
短 语 边 界 识 别 化 为 在 词 类 标 记 对 问插 入 左 右 边 界 的 问题 ;
组块 分析 (h n as g , 和完 全 句法 分析 相对 cu kpri ) 是 n
TP1 8
中 图 法分 类 号
CH I ES CH UNKI N E NG PARS NG I US NG I RULE~ BAS ED AND S TATI TI S CS— BAS ED ETH 0DS M
LIS in,LI Qu u Ja U n,a d BAIS u n ho
维普资讯
第3卷 第‘ 9 期
20 0 2年 月
计 算 机 研 究 与 发 展
J OURNA I OF COM P TER RES U EARCH AND DEVE M ENT 1OP
汉语组块计算的若干研究共64页
组块分析--统计方法
• 隐马尔科夫模型
W w1w 2 ... w n T t1t 2 ... t n C c1c 2 ... c n C ' arg max P (C | W , T )
c
ci {0 ,1,2 ,3,4}
0 ( [ ) 、 1 ( ] ) 、 2 ( ] [ ) 、 3 ( I ) 、 4 ( O )
F 1
2 * 召回率 * 精确率 召回率 精确率
标注准确率
正确组块标注的词语数
全部词语数目
•O • NOC • NC$ • VC$
组块类型
企业资料
21
组块库的获取
• 树库到组块库的转化 • 组块分析器加工 • 手工校对
企业资料
22
最大熵模型的组块分析技术
• 最大熵模型的介绍 • 相关的参数估计算法和特征选择算法 • 基于该模型的组块分析
企业资料
23
最大熵模型介绍
• 训练样本集合{(x,y)} • 概率分布:p(y|x) ? • 引入特征: fi∈{0,1}
42
有限自动机优点
• 描述简洁、易于构造
• 确定性强、速度快
• 操作方便
• 优化了空间
企业资料
43
错误驱动的基于转换的机器学习
未标注文本
初始状态 标注器
已标注文本
直接修正结果
正确标注文本
转换规则模板
学习器
转换规则集合
企业资料
44
混合方法的学习器
未标注文本
基于各种方法的 初始状态标注器
各标注器的标注结果
• CurWord • Word-1 • Word-2 • Word+1 • Word+2 • PrevWord • NextWord
现代汉语同位组构与研究
/内容提要本文通过对现代汉语同位结构全面的探讨,并结合对占代汉语以及英语、俄语的语言事实的考察,得出的基本结论有两点,归结如F:(1)同位结构是介T-定中结构和并列结构之间的一种结构,内部构成成分之间既有一定的修饰f生义有一定的并立性。
同位结构范畴成员既以共有属性相联系,又以家族相似方式j|ij}系。
(2)通过对同位结构,特别是名名式同位结构的共时、历时和对比的考察,并联系汉语中其它的研究成果,我“J认为汉语是—种语用敏感型语言。
这两个基本结论并不是各自孤立,而是互相联系的。
汉语是—种语用敏感型语言,这是找”J在对同他结构的考察中得到启示,并进—步论证的。
这个结论反过来,又帮助我们全面地认识现代汉语韵同位结构。
A陷TR^cTBasedOllthecomprehensivestLKIyofmodernchineseappositivestructureandinoorporatedwithinvestiEationtotheIinEaisticfactofancientchinese.modernEnglishandmodernRussian.twocoreIusiol3aredrawasthefo|Iowlng:(1)Appositiol3isastructure衲ichllesbe43精=ensubordinatiORandcoordinatioll.thereIatiORshiPbetweenitso∞p科1entsarenotORlysubordinate.butaIsocnordineteMembersofappositIoRcategoryareinter—reIatedwitheachotherduetoramilYresenbIariesaswe|lassimilarities.(2)ThrouehthesynchroRic.diachronicandcomparativestudiesofapposition.especiaIlythe”NP+NP”appositionstructure.referringtootherachievementinChineseresearchweconcIudethatChineseisapra唇netica||ysellsitivelanguage.TheabovetwoconcIusionareinter—reIatedtheinferencethetChil3eseisapragmaticaIIYsensitiveIanguageisareveIationexposedinourresearchofapposition.andistestifiedinfur廿耕studies.ThecolicIusiOR,converseIy.heIPuswithourovera|lcomprehensiORofChinaseappositiOR.o—U—k三刖吾同位组构是就动态而言的,其结果是生成同位结构。
对外汉语初级阶段语块构建研究共3篇
对外汉语初级阶段语块构建研究共3篇对外汉语初级阶段语块构建研究1对外汉语初级阶段语块构建研究随着全球化进程不断加速,汉语不再只是中华民族的语言,越来越多的外国人开始学习汉语。
而对于外语学习者来说,语块的掌握是有效地学习语言的重要手段之一,因为语块是一定意义上的语言最小单位,掌握了语块,外语学习者可以更快地识别和掌握语言规律,从而迅速提高语言表达能力。
因此,对于对外汉语初级阶段语块构建的研究,具有重要的意义。
一、语块的概念语块又称为词块(phrase),是一个汉语语言单元,是汉语语言表达中最常用、最自然的单位,它由几个字组成,构成了一个有语法意义的整体,具有固定的形式和语法功能。
语块是词汇和语法的综合体现,是形式上的固定词组,先于语法规则,而后者则是通过整合固定的词块形成的。
二、语块的特点1. 固定性汉语中的语块是固定的,它们不是通过单词拼接来组成的,而是具有固定的格式和结构。
例如:“早上好”、“下午好”、“晚上好”等,在汉语中是固定的问候语,不能随意替换其中的单词位置。
2. 具有特定意义语块不同于单个词语,它具有固定的短语和句型,能够传达特定的意义。
例如:“一点儿也不”、“不但……而且……”等语块,在传达语义的同时,也传达了特定的语言信息。
3. 具有语法功能语块不仅有固定的语法形式,而且还能遵循一些特定的语法规则,例如主谓宾语结构、定语从句等等。
因此,外语学习者在掌握语块的同时,也能够更好地理解和运用汉语语法规则。
三、对外汉语初级阶段语块的构建1. 基础语块的掌握在对外汉语初级阶段,外语学习者需要掌握一些最基础、最常用的语块,例如问候语、日常交流用语等等。
这些语块语法简单、常用频繁,掌握它们有助于外语学习者更快地进入汉语语境之中,从而更好地理解和运用汉语语言。
2. 语块的分类和归纳对外汉语初级阶段,外语学习者需要了解不同类型的语块,并对它们进行分类和归纳。
例如表示时间、表示数量、表示原因等等语块都有自己的特点和构成方法,通过对这些语块的分类和归纳,外语学习者可以更好地理解和记忆汉语语言规律。
汉语基本块规则的自动学习和扩展进化
汉语基本块规则的自动学习和扩展进化自动学习和扩展进化是现代科技发展的重要方向之一,对于人工智能技术的应用具有重要意义。
汉语基本块规则的自动学习和扩展进化,指的是利用技术手段实现对汉语基本块规则的自动学习,并通过不断迭代和拓展,使其能够适应语言演化的需求。
本文将从理论和应用两个方面,探讨汉语基本块规则的自动学习和扩展进化。
一、汉语基本块规则的自动学习汉语基本块规则是对汉语句子进行切分的基本依据,它与句法和语义密切相关。
传统的汉语基本块规则依赖于人工的编制和整理,但这种方式存在着效率低、适应性差等问题。
现在,借助人工智能技术,我们可以实现对汉语基本块规则的自动学习。
首先,我们可以利用机器学习算法对大规模的语料库进行分析和处理,提取其中的句法和语义信息,并进一步找出其中的块规则。
通过大量的实例学习,机器可以自动捕捉汉语句子的规律和潜在的块结构,从而形成基本块规则。
其次,我们可以将人工智能技术与语言学的专业知识相结合,通过人工标注的方式,构建起一个语言块标注库。
利用这个标注库,机器可以学习不同块规则之间的联系和转换关系,进一步提高块规则的准确性和智能化水平。
最后,我们可以通过机器学习算法的不断迭代和优化,使得汉语基本块规则的学习过程不断完善和进化。
机器可以通过不断尝试和调整,逐渐摸索出更加准确和合理的基本块规则,从而提高中文句子分析的准确性和可靠性。
二、汉语基本块规则的扩展进化随着社会发展和语言环境的变化,汉语的基本块规则也需要不断扩展和进化。
通过自动学习的方式,我们可以更好地实现汉语基本块规则的扩展和进化。
首先,我们可以从新的语料库中提取新的句法和语义信息,找出其中尚未被人工整理的块规则。
通过与已有块规则的对比和分析,机器可以自动学习新的块规则,并将其扩展到基本块规则中。
其次,我们可以利用深度学习的方法,通过神经网络等模型,模拟人类的语言学习和记忆过程,实现对汉语基本块规则的动态更新和进化。
机器可以通过学习和记忆,不断优化和更新基本块规则,以适应新的语言环境和语义需求。
汉语句子的组块分析体系
汉语句子的组块分析体系*周强孙茂松黄昌宁智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京100084摘要:本文介绍了一种介于线性词序列和完整句法树表示之间的浅层句法知识描述体系:组块分析体系,并详细讨论了其中两大部分:词界块和成分组的基本内容及其自动识别算法。
在此基础上进行的一系列句法分析和知识获取实验证明了这种知识描述体系的实用性和有效性。
关键词:词界块,成分组,部分分析,句法分析。
1 引言句法分析是自然语言处理研究中的重点和难点。
针对完整的句法分析方法在分析大规模真实文本中遇到的困难,许多研究人员开始尝试着把一个完整的句法分析问题分解为几个易于处理的子问题,以逐步降低完整句法分析的难度,提高分析效率。
这其中一个很成功的例子是将词性标注(Part-Of-Speech Tagging)从句法分析中分离出来。
通过利用局部语境信息进行基于规则或基于统计的词类排歧,目前的大部分词性标注工具对真实文本的标注正确率都达到了96%以上,为在此基础上进一步进行句法分析打下了很好的基础。
依据同样的研究思路,Steven Abney提出了块分析(chunk parsing)的策略[Abn91],通过引进句法块(chunk)概念,他将句法分析问题分为三个阶段:1) 块识别:利用基于有限状态分析机制的块识别器(chunker)快速识别出句子中所有的块。
2) 块内结构分析:对每个块内部的成分赋予合适的句法结构。
3) 块间关系分析:利用块连接器(attacker)将各个不同的块组合成完整的句法结构树。
这样,一方面由于对不同的子问题的准确功能定位,可以独立地选用不同的语言模型和搜索策略加以分析处理;另一方面,通过在块层次上进行自底向上的块间关系分析和自顶向下的块内结构分析,可以大大提高整体分析效率,达到降低句子分析难度的目的。
块分析策略的精髓在于寻找到合适的切入点,将完整的句法分析问题分解为句法拓朴结构分析和句法关系分析两个子问题。
汉语组块的定义和获取 - 首页-中国计算机学会信息网
1引言
当前I n t e r n e t 的发展促进了 信息的交流, 文本的获取和收集变得相对容易。 然而构建大 规模标注语料库的任务却依然严峻,这是因为标注标准的不一致性,同时需要耗费大量的 人力和物力。目 前经过词性标注加工的英文、中文语料库已 经具有一定规模,对于更高层
次 上的 语 言 加工, U p e n n 英 文树 库是 一 个 大 规 模的 句 法标 注 语 料 库, 汉 语方 面的 成 果 包 括:
虽然在汉语学习中我们对语句划分的标准经常是主语、 谓语、宾 语、 状语等, 然而这 种划分属于一种从全局考虑的划分方式,如果没有对语句深入的 理解,就不能正确标注出 这些成分,这就违背了组块分析的原则.组块分析又称浅层分析,意在不用通过深入的理 解就可以 得到确定的一个片段。同时从组块的大小来看, 组块粒度越大,组块概念的 确定 性就越强, 进一步的分析也就越容易, 而组块本身的 正确识别却比 较困难。因此组块粒度 的 选取是一个大问 题, 粒度过小时,组块分析的 任务就成了 词性标注的问 题; 粒度过大, 则成了 完全 句法分析问 题。 这样, 选取组块要粒度适当,同时保证组块简单性和概念确定 性的均衡问 题。因此我们确定建立类似A b n e y 组块的汉语组块体系。
清华大学的 汉语测试树库[ 0 ,美国宾州大学的中文树库M ,和东北大学的中文语义树库P I
随着部分分析技术的发展和应用范围的不断扩大,粒度处于词和句之间的组块标注语料的
开发 也 越 来 越受 到 重 视。 C O N L L - 2 0 0 0 1 0 ' 会 议 提 供 了 从U p e n n 英 文 树 库 中 抽 取出 来 的 英 文 组
22本文对组块的界定虽然在汉语学习中我们对语句划分的标准经常是主语谓语宾语状语等然而这种划分属于一种从全局考虑的划分方式如果没有对语句深入的理解就不能正确标注出这些成分这就违背了组块分析的原则
现代汉语预制语块研究
现代汉语预制语块研究一、引言在学习英语的过程中,我们会习惯性地去背单词、记句型。
而我们在学习汉语的时候,很少有意识地对这类固定或半固定模块进行系统地记忆,也就是说,我们对汉语词汇的积累还没有足够的重视。
是不是现代汉语中没有类似“Here you are”这种语言表达模块呢?其实不然,在现代汉语中,也有类似的结构,例如“这边请”“回头见/回见”“前些时候”“没~没~”等等。
但是目前不同学者对现代汉语中这类语言表达模块的内涵、分类标准等有争议,对于预制语块的说法也存在很多种,比如“预制语块”“词块”“固定或半固定表达式”“词汇短语”“多词单位”等等。
马广惠在其论文中指出,对于词块的研究首先要建立充分、系统的词块描述理论体系,然后从应用的角度,在语料库中提取和生成通用或专用的二语词块表,用于二语教学和研究(马广惠,2011)。
从我们目前的教材编排实际情况来看,现代汉语中的预制语块尚未形成通用或专用的词块表。
因此,研究现代汉语中预制语块的理论和应用问题有利于汉语学习者更好地了解和运用汉语预制语块。
任何一种语言形式的发展都经历了一个由少数人使用——多数人使用——全民使用——多数人使用——少数人使用的过程。
那么,现代汉语中的预制语块是怎样形成的呢?预制语块有哪些特点?二、汉语预制语块的特点一种语言的词汇是由词和固定结构组成,张斌先生在《汉语语法学》中指出,现代汉语的固定短语主要有专有“名词、惯用语、成语”三类(张斌,2003:23~24)。
自由短语是按照一定的结构规律能够自由组合的短语,其形式变化比较自由,具有很强的能产性,例如“看书、看电影、看戏、买书、借书”等。
在自由短语向固定短语演变的过程中,还存在一个模糊的阶段,这些模糊的结构就是我们所说的现代汉语中的预制语块,它们是介于自由短语和固定短语之间的一种固定或半固定结构,例如,“越来越好”“一左一右”“没大没小”“多了去了”“有的是”“说起来”“其实不然”等。
汉语语块研究初探
汉语语块研究初探8.汉语语块研究初探钱旭菁,中国北京大学对外汉语教育学院在对外汉语教学中,经常遇到这样一种现象:学生造出来的句子完全符合语法规则,可就是听着别扭、不自然。
老师可能就会告诉学生,“你的句子语法没问题,可是中国人不这样说或很少这样说。
”这是以研究语言生成规则为终极目标的传统生成句法理论所不能解释的。
乔姆斯基理论强调的语言的生成性、创造性,只要有组词造句的规则,再加上一个词库就可以生成无限的句子。
我们能够理解、生成我们以前从未听到过的句子,这当然没有错。
但也应该看到,在实际的语言使用中,并非所有合乎语法规则的结构都以相同的频率在语言中出现。
理论上无限的合法句子中,实际上只有一部分是本族人使用的。
本族人具备从众多合乎语法的形式中选出自然的、地道的形式的能力;而外语学习者则不具备这种能力。
例如,根据语法规则形容词可以和名词组合,因此可以说“红裙子、红太阳、红眼睛”,但是仅有语法规则还不够,因为根据形容词和名词组合的规则也可能会生成“红月亮、红熊猫”这样的组合。
这时就还需要加上语义限制规则:“‘红’只能和具有‘红’这种属性的词语组合”,因此“红月亮、红熊猫”之类的组合是不合法的。
不过有些事物即使有“红”这个属性,在实际语言使用中一般也不和“红”组合,如一般不说“*红桃花、*红田地、*红矿物”。
(符淮青,1996:287)再如,我们可以说“一年比一年、一天比一天”,可是不说“*一个月比一个月、*一个星期比一个星期”。
我们常常说“第二故乡”,但不说“*第二老家”,也不说“*第三故乡”。
因此,语言除了具有创造性一面以外,还有习用性。
一、已有的语块研究近年来,对语言习用性的研究越来越受到理论语言学和应用语言学的关注。
对语言习用性研究的一个重要方面就是对语块的研究。
各种语言中都存在着大量的语块,这是因为语块功能是语言能被成功地理解和输出的关键。
失语症研究和语言习得研究也都证明了语块存在心理现实性。
汉语语言学学界对语块有一定的研究,但是这一领域还有广阔的空间等待我们去开拓。
关于块字的研究报告
关于块字的研究报告摘要:“块”字具有丰富的语义和语用特征,是汉语中一个重要的基础字。
本文对“块”字进行研究,从语义特征、语用特征、文化、历史、演变、语法、用法等方面进行探讨。
通过对“块”字的研究,可以更好地理解汉语中的语言特点和文化内涵。
引言:“块”字是汉字中的一种最基本和常用的形式之一,其含义和用法都非常广泛。
在口语和书面语中,我们常常用到“块”字。
然而,“块”字的含义和用法非常复杂,不同的语境中,其含义和作用都会有所不同。
本文将从“块”字的语义特征、语用特征、文化、历史、演变、语法、用法等方面进行分析和探讨。
一、“块”字的语义特征“块”字在汉语中的含义非常广泛,包括以下几个方面:1.物体或物质的形状或体积“块”字可以用来表示物体或物质的形状或体积,如“石块”、“木块”、“冰块”、“土块”等。
2.空间或时间的划分“块”字可以用来表示空间或时间的划分,如“居民区块”、“时间块”等。
3.序列或数量的划分“块”字可以用来表示序列或数量的划分,如“一块巧克力”、“两块钱”等。
4.性质或特点的概括“块”字可以用来概括性质或特点,如“豆腐块”、“棉花块”等。
二、“块”字的语用特征“块”字在汉语中具有以下语用特征:1.用于名词的称呼“块”字可以用于名词的称呼,表示其形状或体积,如“山块”、“血块”等。
2.用于量词的搭配“块”字可以作为量词,表示数量或大小,如“两块钱”、“五块石头”等。
3.用于动词的状语“块”字可以用于动词的状语中,表示动作的连续性或集中度,如“一口气喝了两块蛋糕”、“一刀砍断了木块”。
4.用于形容词的修饰“块”字可以用于形容词的修饰,表示事物的大小或形状,如“硕大的石块”、“方方正正的木块”。
三、文化、历史、演变、语法、用法方面的研究1.文化与历史“块”字在古代汉字中的形状更加简单,如甲骨文和钟鼎文中的“块”字笔画更少。
在现代汉字中,“块”字的笔画相对较多,是由于汉字的演变和书写技巧的改进。
“组块”识字教学的探索-文档资料
“组块”识字教学的探索所谓“组块”识字,指的是从汉字自身的规律入手,尝试从汉字的结构、意义、读音等,寻找其“相似点”,把零散的、相互之间没有联系的汉字(或笔画、偏旁)有意识地整合成便于记忆的“块”状单位,进行教学。
由点及面,化繁为简,进而提高教学效益,具体做法简介如下。
一、以字为族,“组块”识字“字族”顾名思义就是由“字”衍生出“族”,以“母体字”带出由其派生繁衍的一系列“子体字”,把一个字的学习,演变成一串字的学习,举一反三,学以致用。
如教学以“青”为母体字的一族字:青、清、晴、睛、情、请,编出生动有趣、简洁易记的“字族文”:河水清,天气晴。
小青蛙,大眼睛。
吃害虫,事情多。
请保护,好朋友。
这样,边读儿歌边识记生字,学生兴趣盎然,有助于提高识记速度,增加识字量。
再如,教学“逃”字的时候,可以引导学生回忆包含有“兆”的其他字族,将其形成一个可以作对比、辨别的“块”,或是请学生组词,或是编个儿歌,比如“小猴上山摘桃子,看见桃树往上跳,挑了好多大红桃,见了主人赶快逃。
”如此一来,不仅可以使识字变得更加有趣生动,而且扩大了识字的面;不仅加深了学生对生字的印象,还能巩固熟字。
二、部首类联,“组块”识字在《新华字典》中,编者为方便读者检索,将同部首的字集中在一起,找到了一个部首,就可以找到包含这个部首的其他字。
在语文教科书中,也有类似的现象,比如,《要是你在野外迷了路》这一课的“我会写”中,就同时出现了三个禾字旁的字:积、稠、稀。
教学时,可以把这三个字当成一个“块”呈现出来,请学生找出它们共同的外形特点和共同的书写特点,然后同时教学,这样可以使写字教学的时间节省不少。
再如,我们还可以把相同种类的部首组合成“块”,设计教学:表示人的整体、外形、部位的字:单人旁――他、们、你、休、做表示植物种类的字:木――机、桥、树、棵、松、校表示手及有关手的动作的字:提手旁――把、报、打、排、捉、找……如此利用“组块”系统识字,可以达到教学过程简化、识字量扩大、识字能力和读写能力提高的目的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
李素建 北京大学计算语言学研究所
2003. 3. 11
企业资料
1
提纲
• 课题的提出、意义和现状 • 本文主要工作 • 总结
企业资料
2
课题的提出、意义和现状
• 提出:认知理论、AI(Soar)
• 内容:组块分析+组块相似度计算
• 意义
– 简化句子结构
– 信息检索
– 信息抽取
– 文本聚类/分类
企业资料
6
语言学中的研究方法
• 理性主义研究方法 – 基于规则的方法
• 经验主义研究方法 – 基于统计和实例的方法,语言建模
• 两种方式相结合
企业资料
7
两种方法的比较
研究 内容 理论 基础 处理 方法
规则方法
语言能力
统计方法
语言数据
基于乔姆斯基的
一般是基于
语言原则
shannon 的信息论
一些特殊的语句 实际使用的普通语
组块规则实例
• NC: NR • NC: JJ, NN • VCC: AD, VV • VCC: VV,AS • PC: P NN • QC: CD, M
1857 1339 1247 378 401 1708
(“中国”) ( “新 格局”) (“明显 增强”) (”确保 了") (“据 介绍”) (“数百 家”)
• 不重叠
• 覆盖
企业资料
18
NOC (而/CC) (是/VC) (借鉴/VV) (发达/JJ 国家/NN 的/DEG) (经验/NN 教训/NN)
VCC
VCC
DNC
NC
组块标注集合
• NC • VCC • PC • QC • LCC
• DVC • DNC • ADJC • ADVC • LST
• 有限状态机的成功应用
– 音律变换模型证明是有限状态模型
– 词内部语法是有限状态
• “组块分析”促进了有限状态机的应用
– 语言整体不是一个有限状态的语言,但是分
解后的一些子集,用有限状态描述不仅充分
而且比PSG容易构造
企业资料
37
有限状态机(2)
• 概率观点的兴起
– 很多概率方法可以用加权有限状态机描述。 这样的描述简洁、易理解、操作/优化/结合都 很有效。
• CurPOSTag_NT,POSTag-1_VC=NC
• CurPOSTag_P,POSTag+1_PN=PC
• ChunkTag-1_NC,CurPOSTag_VV=VCC
• ChunkTag-1_NC,CurPOSTag_NN=NC
• CurRhythm_2,CurPOSTag_NN,Rhythm-1_1=NC
~
H (y | x) p(x) p(y | x) log p(y | x)
x, y
满足了以下三个条件:
(1) p(y|x) 0 for all x, y
(2) y p(y|x) 1 for all x
~
~
(3) x,y p(x)p(y|x)f(x,y) x,y p(x,y)f(x,y) for i {1,2,...,n}
– 机器翻译
企业资料
3
语言学的研究内容
• 词法分析:
• 句法分析:一个语句的可能句法结构
• 语义分析:将语句的意义形式化表达出来
• 语用分析:上下文对语句理解的作用
企业资料
4
中文处理
生语料
分词
语法标注
语用,语义分析
句法分析
企业资料
5
组块分析--浅层分析,部分分析
• 不要求得到完整的句法树 • 标示出基本的组块 • 可以利用完全分析的各项技术
企业资料
24
引入拉格朗日函数:
~
( p, , ) p(x) p( y | x) log p( y | x)
x,y
~
~
i ( p(x, y) fi (x, y) p(x) p( y | x) fi (x, y))
i
x,y
( p( y | x) 1)
x
p*( y | x) Z (x) exp( i fi (x, y))
M个
1 1 3 NC
NN 边境
1 1 4 NC
NN 开放
1 1 5 NC
NN 城市
1 1 6 NC$
NN 经济
1 1 7 NC
NN 建设
1 1 8 NC
NN 成就
1 1 9 VCC 企业资V料V 显著
35
最大熵模型优点
• 特征选取灵活:使用最大熵可以准确为 变量间的细微依赖关系建模,这种关系 用传统的预测模型技术是不可能的。
c
ci {0,1,2,3,4}
0([)、1(])、2(][)、3(I)、4(O)
企业资料
11
组块分析--统计方法
[句法/n 分析/n ][ 是/v ][ 自然/n 语言/n 处理/v ] 中/f 的/u [重点/n] ./w
<Φ ,n> <n,n> <n,v> <v,n> <n,n> <n,v> <v,f> <f,u> <u,n> <n,w>
最大熵模型相关算法
• 参数估计算法: – G.I.S(Generalized iterative scaling) • 迭代时间O(NPA) N:训练集大小; P: 预 测数目;A:每个事件的平均特征数目
• 特征的选择:Field Induction Algorithm – 选择对模型具有最大增益值的特征(KL)
企业资料
41
有限自动机优点
• 描述简洁、易于构造
• 确定性强、速度快
• 操作方便
• 优化了空间
企业资料
42
错误驱动的基于转换的机器学习
未标注文本
初始状态 标注器
已标注文本
直接修正结果正确标注文本03223
3
140
1
企业资料
12
组块分析-- conll2000评测标准
Recall Number of correct proposed chunks Number of correct chunks
Precision Number of correct proposed chunks Number of proposed chunks
F
( 2 1) * Recall * Precision 2Recall Precision
F 1
2 * Recall * Precision Recall Precision
企业资料
13
组块分析--conll2000会议结果
[KM00] [Hal00] [TKS00] [ZST00] [Dej00] [Koe00] [Osb00] [PMP00] [Joh00] [VD00] Baseline(E)
• 概率分布:p(y|x) ?
• 引入特征: fi∈{0,1}
~
p( fi ) p( fi ) i {1,2,, n}
~
p( f ) p(x) p( y | x) f (x, y)
x,y
~
~
p( f ) p(x, y) f (x, y)
x, y
企业资料
23
特征限制条件下的模型分布
Fβ 1 93.48 93.32 92.50 92.12 92.09 91.97 91.94 90.14 87.23 85.76 77.07%
中文处理的组块分析研究
• baseNP的识别 • 汉语短语边界的界定 • 命名实体的识别
企业资料
15
提纲
• 课题的提出、现状和意义 • 本文主要工作 • 总结
Precision 93.45% 93.13% 94.04% 91.99% 91.87% 92.08% 91.65% 90.63% 86.24% 88.82% 72.58%
Recall 93.51% 93.51% 91.00% 92.25% 91.31% 91.86% 92.23% 89.65% 88.25% 82.91% 82.14%
或语言现象
句的统计表述
企业资料
8
组块分析--规则方法
• Finite State Cascade:有限状态叠
NP (D) A * N
T1 : VP Vtns
|
Aux Ving
NP Pron
T2 : PP P NP
T3 : S PP * NP PP * VP PP *
企业资料
16
本文主要工作
• 组块 • 组块分析技术 • 组块相似度的计算
最大熵模型 有限自动机技术 混合模型
企业资料
17
组块定义
• 组块:(汉语)
– 符合一定句法功能的非递归短语。每个组块都 有一个核心词,组块围绕核心词展开,以核心 词作为组块的开始或结束。
• 严格按照语法规则
• 所有组块是平等的,非递归
• PrevWord_被,CurPOSTag_VV=VCC
企业资料
28
ME模型的特征选取
• 粗选 – 出现频数
• 细选 – Kullback-Leibler(KL)距离
• 手工加入
企业资料
29
选用4个特征模板作 自动特征选取实验:
(1) CurPOSTag; (2) CurPOSTag,POSTag+1; (3) POSTag-1, CurPosTag; (4) POSTag-1,CurPOSTag, POSTag+1