语料库利用的两个问题

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 以北语开发的“HSK动态作文语料库”为 例 为海内外众多硕士生、博士生所使用, 为他们的研究及论文写作提供帮助。 学术期刊、学术会议及网上可以看到众 多利用该语料库的研究成果。 注册用户众多,一旦发生故障会引起全 球性反应。 • 但是,我们发现在利用语料库进行汉语习 得和教学的研究中,有两个问题值得我们 注意。
二、关于语料库利用的两个问题

研究案例二:关于汉语形容词的语法分布
在英语中,修饰名词作定语是形容词的 专利;但在汉语中,对形容词修饰名词作 定语的语法功能却有着截然相反的论述, 对形容词充当谓语也有不同的看法:
二、关于语料库利用的两个问题
“形容词能作谓语或谓语中心语和定语, 多数能够直接修饰名词。”(黄伯荣、廖 序东主编《现代汉语》,高等教育出版社, 2004年。已发行500多万册) “在不带‘的’的格式里,形容词和名 词的配合受到限制,比如可以说‘白纸’、 ‘白头发’,但是不说或不太说‘白手’、 ‘白家具’。”(朱德熙《语法讲义》, 商务印书馆,1982年。)
一、 语料库与语料库语言学
• 第四代语料库:
互联网作为语料库。 ……可以把不断发展的因特网作为虚拟语 料库。
一、语料库与语料库语言学
• 中国大陆的语料库建设: 始于80 年代初期,发展迅速。 例如:“汉语词频统计语料库”为200万 字次;“现代汉语语料库”为7000万字次; “中文五地区共时语料库”每年收入的语 料达6亿至8亿多字次;“面向语言教学研 究的汉语语料检索系统CCRL”为8亿多字次。
二、关于语料库利用的两个问题

研究案例三: “把”字句习得的“回避” 说与“不回避”说
• 量词的用法、形容词谓语句、无标记的被动句、 带各种补语的句子、“把”字句(多数学生难点 中的难点)、“了”“着”“过”的用法(“了” 也是难点中的难点)、比较句、方位词的用法、 长定语、三位数以上的大数目。 • 怎么知道什么是难点,什么不是难点呢?一是通 过语言对比研究来发现,二是靠教学经验。…… 到底什么是真正的难点,最终还要靠教学经验来 检验。(吕必松1992:110)
二、关于语料库利用的两个问题
• 如以英语为母语的学习者的语法难点有:形容词 谓语句、无标记被动句、带各种补语的句子、 “把”字句、“是……的”句、比较句以及 “了”“着”“过”的用法、量词用法、方位词 用法、长定语、大数目称数法以及话语连接等。 其中的大部分,对任何母语背景的学习者来说也 都是难点。
二、关于语料库利用的两个问题
„„语料库的使用,为语言学的研究 提供了一种新的思维角度,辅助人们 的语言“直觉”和“内省”判断,从 而克服研究者本人的主观性和片面性, 逐渐成为语言学研究的主流方 法。„„从某种意义上说,语料库的 使用,是语言学研究的一次革命性的 进步。(冯志伟2006:14)
二、关于语料库利用的两个问题
“得”字程度补语句的习得状况
形式
· ·+ 得 + 多 ·
· ·+ 得 + 很 · · ·+ 得 + 不得了 · · ·+ 得 + 厉害 · · ·+ 得 + 慌 · · ·+ 得 + 要命 · · ·+ 得 + 远 ·
词次
32
17 8 2 2 1 1
正误比
28/4
12/5 7/1 2/0 2/0 1/0 1/0


口语和书面语是不同质的研究对象,基本义 相同的口语词和书面语词经常不能替换: 如“帮”、“帮助”、“帮忙”基本意义 相同,“你帮我买张票”,不说“帮助” 和“帮忙”;“他欺骗我的感情”、“他骗我 的钱”,“欺骗”和“骗”也不能互换。 这和书面语与口语有关,也和汉语的节律 有关。 结论:对汉语形容词语法分布的论述应区 分口语体与书面语体。
二、关于语料库利用的两个问题
“性质形容词单独作谓语也有一定的限制, 一般只能用于对照、比较的情况。在没有 比较意味的句子里,一般要在前面加上程 度副词‘很’。” (刘月华等主编《实用现 代汉语语法》,商务印书馆,2002年。) 有学者利用语料库对汉语形容词在书面 语和口语中的分布进行了统计(张宝林 2011):
一、 语料库与语料库语言学
• 第二代计算机语料库(1980年代): 大规模(千万词级),词典编纂-应用导 向,句法级。 Bank of English、 Longman、 ICE(The International corpus of English)。
一、 语料库与语料库语言学
• 第三代计算机语料库(1990年代-): 超大规模(上亿词级),标准编码体系深 度标注/多语种NLP应用,语义和语用级。 BNC(The British National corpus)、 LDC(Linguistic data Consortium,语言学 资料共享计划)、法兰西语料库、 俄语国 家语料库、 NERC(Network of European Reference Corpora,欧洲参考资料语料库 网/欧洲语料库网(European Corpora Network) 。
一、语料库与语料库语言学
• 上海交通大学、厦门大学、北京大学、中 国人民大学、北京师范大学、鲁东大学、 苏州大学、四川外国语学院、华中师范大 学等,也都已经建成或正在建设自己的汉 语语料库。 • 但是,现有的语料库绝大多数都是书面语 语料库,口语语料库很少,多模态语料库 尚无建成者。
一、 语料库与语料库语言学
二、关于语料库利用的两个问题
形容词的主要语法功能:定语说+谓语说。
语料 口语 书面语 口+书 形容词 谓语 504 611 1115 298 107 405 频率 59.1% 17.5% 36.3% 定语 108 385 493 频率 21.4% 63.0% 44.2%
二、关于语料库利用的两个问题
1.5 作用与成果 通过对语料库中较大规模真实语料的 考察,研究者发现了前人未曾发现的一些 汉语中介语现象。语料库为定量分析奠定 了坚实的基础,研究者可以把定性研究与 定量研究相结合,从而使得出的研究结论 具有较强的客观性、普遍性和科学性,这 在一定程度上改变了汉语教学与习得研究 的模式,极大地提高了汉语作为第二语言 教学研究的水平。
“得”字情状补语句的习得状况
一级 二级 三级 四级 五级 六级 合计


41
6
31
14
40
7
31
6
19
4
22
2
184
39
(孙德金2002,赵金铭 2008)
一、 语料库与语料库语言学
• 这一研究结果促使研究者利用相同语料库 对不带“得”字补语句(如趋向补语)的 习得情况进行考察,结果发现学习者习得 不带“得”字补语句偏误率整体高于带 “得”补语句。通过进一步的深入考察, 研究者大体构拟出了英、日、韩(朝)等 母语学习者对汉语不同类型补语的习得顺 序。(杨德峰2003、2008)
关于汉语作为第二语言教学研究中 语料库利用的两个问题
福建师范大学 沙平
一、语料库与语料库语言学
1.1 语料库(corpus/corpora): 是存储语料的数据库,是以电子文本或其 它电子介质形式存贮在计算机中的、借助计 算机软件进行管理并可以通过计算机软件进 行查询、检索、统计的一定数量的语言材料 的集合,是进行语言研究的一种普遍资源。
二、关于语料库利用的两个问题
2.2 要注意研究对象的“同质”性 欧美现代语言学之父、瑞士语言学家 费尔迪南· 索绪尔(ferdinand de 德· saussure 1857-1913)十分重视语言研究 的“同质”问题。他提出了区分语言/言语、 历时/共时、能指/所指、组合关系/聚合关 系等一系列二分的语言学概念,就是为了 确保语言研究对象和语言研究的同质性。
二、关于语料库利用的两个问题
• 使用率:
• 外国学习者:3682 /4000000≈0.0921%。 • 汉语母语者: 张黎2007:46/210000≈0.0219% 李宁、王小珊2001:335万字,≈0.0894% • 人民日报: 俞士汶(98/1-6):9801/13000000≈0.0754% CCRL(2000):1498/1930000≈0.07762% CCRL(2012):18413/24000000≈0.0767% “比较大的样本可以减低样本统计量的变异” (戴维· 穆尔2003:162)。 S·
• 通过语言对比突出语法的重点和难点。对外汉语 语法教学的一大特点是学习者会受到其第一语言 迁移作用的影响。作为第二语言的汉语对所有学 习者都有共同的难点,对不同母语背景的学习者 又有特殊的难点。(刘珣2000:366)
二、关于语料库利用的两个问题
• 对欧美学生来说,受事主语句、存现句、 主谓谓语句,以及时间、地点状语的位置, 始终是学习的难点,同时也体现汉语语法 特点。而带有普遍性的语法难点,则是 “把”字句、各类补语以及时态助词 “了”“着”等。至于我们所认为的特殊 句式,其实并非学习的难点,比如连动句、 兼语句、“是”字句、“有”字句以及名 词谓语句、形容词谓语句。这也是从多年 教学中体味出的。(赵金铭 2006)
二、关于语料库利用的两个问题
• 学界共识: 1)最大难点:“多数学生难点中的难 点”。 2)回避:外国学习者对把字句采取了回 避的学习策略,尽量不用,用则必错。 • 证据: 1)外国人对把字句的使用率不足百分之 一。 2)谈话一小时,没用一个把字句。
二、关于语料库利用的两个问题
• 有学者利用语料库对把字句使用情况进行 了考察 • 偏误率: 在“HSK动态作文语料库”(1.0版) 中,共有把字句3682句,其中正确句3221 句,在把字句总数中所占比例约为87. 48%; 偏误句461句,在把字句总数中所占比例约 为12. 52%。
一、 语料库与语料库语言学
中国大陆近年来基于语料库的具有代表 性的研究成果:
• 赵金铭教授:“基于中介语语料库的汉语 句法研究”(2008) • 张博教授:“基于中介语语料库的汉语词 汇专题研究”(2008) • 肖奚强教授:“外国学生汉语句式学习难 度及分级排序研究”(2009) • ……
二、关于语料库利用的两个问题
一、语料库与语料库语言学
1.3 汉语中介语语料库建设 • 汉语中介语语料库的建设是在国内外语料库 语言学和母语语料库建设的影响下开始的。 • 国外第一代计算机语料库(1960-70年代): 小规模(百万词级),以语言研究为导向, 词法级。 Brown、 LOB、 London-Lund Corpus。
一、 语料库与语料库语言学
• 研究案例一:关于汉语补语的习得难度与 习得顺序 一般认为有复杂的补语系统是汉语语法 的一个特点,也是外国学习者习得汉语的 一个难点。但是,北京语言大学的课题组 利用“汉语中介语语料库”对带“得”字 补语句的习得状况进行了考察,发现学习 者习得“得”字补语句的偏误率没有人们 想象的那么高。(见下表)。
一、语料库与语料库语言学
1.2 语料库语言学(corpus linguistics) : 包含两个方面: (1)语料库建设,包括对自然语料进行加工、 标注; (2)语料库应用,用已经标注好的语料进行 语言研究和应用开发。 是以现实生活中人们运用语言的实例为 基础进行的语言研究,可以在研究中发现某 些语言规律,也可以对语言假说进行验证。
一、语料库与语料库语言学
• 在这种背景下,从上世纪90年代开始,中 国大陆开始建设外国人学习汉语的中介语 语料库。经过10多年的发展,汉语中介语 语料库建设已初具规模,并在汉语作为第 二语言教学与习得等研究领域发挥了重要 的作用。
一、语料库与语料库语言学
1.4 已建成的Βιβλιοθήκη Baidu要汉语中介语语料库
• 北京语言大学:汉语中介语语料库系统 (1995)、HSK动态作文语料库(2006)、 首都外国留学生汉语文本语料库(2010)、 汉语学习者口语语料库(2007) • 南京师范大学:外国学生汉语中介语偏误信息 语料库 • 中山大学:留学生中介语语料库 • 暨南大学华文学院:留学生汉语中介语语料库
• 2.1 利用语料库已经成为汉语作为第二语言 教学研究的主流方法 • 语料库以其语料的充分性、客观性、可验 证性、使用的便捷性,正在使语言学的研 究与应用产生量与质的飞跃。 • 语料库语言学将数据收集与理论论述有机 地结合在一起,使我们对语言的理解发生 了质的变化.(Halliday1991) • 基于语料库的研究方法,已经成为当代语 言学和应用语言学研究中的一种主流方法。 (王建新2005)
相关文档
最新文档