语料库资源与汉语教学
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉语进修教育研究系列讲座(十二) 2015.5.13
语料库资源与汉语教学
邢红兵wk.baidu.com
电话:86-10-82303761(O) 主页:http://www.dwhyyjzx.com/www/?id=23 邮件:xinghb@blcu.edu.cn xinghongbing@hotmail.com
四个方面内容
http://news.sina.com.cn/o/2014-12-22/094931312679.shtml
基于互联网的知识提取
李斌,陈家骏,陈小荷. 基于互联网的汉语认知属性获取及分析[J]. 语言文字应用,2012,03:134-143.
需要探讨的问题
• 如何利用大数据时代的语料库资源为教学 服务;
四、汉语搜索引擎
• • • • • • • 百度搜索 百度产品 百度百科 百度文库 百度翻译 百度词典 百度指数 http://www.baidu.com/ http://www.baidu.com/more/ http://baike.baidu.com/ http://wenku.baidu.com/ http://fanyi.baidu.com/ http://dict.baidu.com/ http://index.baidu.com/
70 60
50 40 30
20 10 0 汉语 日语初 日语中 日语高 有标 无标
词汇教学原则
系统性。形音义的连接及相互关系;
实用性。从常用的入手,符合汉语实际;
丰富性。语言的使用是要逐渐丰富的,不如程度 副词; 发展性。语言的习得是个逐渐发展的过程。
2015-5-13
教学建议
• 形、音、义的词典的建立及其关联的形成; • 结合使用频率,先教常用的词,先教常用的用法, 从常用到不常用逐步扩展; • 注重语素及其构词知识; • 注重词语用法,将词汇放在具体的句子环境中学 习用法 • 考虑词语关系(聚合、组合); • 着重功能词的教学; • 分阶段学习词汇; • 加强词汇的重复与复习,减少遗忘;
鸡肉
人肉 兔肉
1513
361 258
2,160,000
4,060,000 179,000
蛇肉 孔雀肉
鸵鸟肉
47 0
31
1050 735
399
学外语能变聪明,有科学依据
李平教授介绍说,学习第二语言时,大脑会自 然地对第一语言进行抑制,这需要激活更多的大脑 功能区,从而提高了学习者的专注力以及不同事物 间变换的能力。研究者发现,通过第二语言的学习 ,不仅大脑更多功能区被激活,而且与这些功能区 相关的记忆力测试、反应力测试中,学习者的测试 成绩会有所提高。
2015-5-13
母语与二语词汇习得的差异
• 母语词汇知识习得:从用法到意义的概括 二语词汇知识习得:从意义到用法的使用 • 我们以语素“电”为例,母语习得过程是先学 “电话、电视、电脑、电灯、电吹风”等慢慢建 立了“电”的概念,而二语习得过程更强调语素 的使用过程,比如语素构词。
• 二语学习是可能是想法的过程,因为“电”的语 义已经具备了,重要的是,“电”怎么用?
中介语和目标语对比示意图
和“愉快”搭配的动词(张金竹,2009)
汉语 106个
回忆 答应 说 回顾 工作
接受
中介语 6个
走 …… 服从 生活
想 度过 交流 玩 回
跑
2015-5-13
语料库分析的优势
“放”的句法结构分布
类型 数 比 量 例 例句
施事+把+受事+放+ 介词+处所
受事+放+在+处所
68 0.32 我的确不曾把这件事【放】在心上。
• 语料库及其概念的认识 • 语料库与语言研究 • 语料库与语言习得 • 基于语料库的教学思考
2015-5-13
大数据 计算
谷歌“知识图谱”(Knowledge Graph )
• Google搜索将发布“知识图谱”(Knowledge Graph)—— 可以将搜索结果进行知识系统化,任何一个关键词都能获 得完整的知识体系。 • Google知识图谱(英语:Google Knowledge Graph,也称 Google知识图)是Google的一个知识库,其使用语义检索 从多种来源收集信息,以提高Google搜索的质量。知识图 谱2012年加入Google搜索,2012年5月16日正式发布,首 先可在美国使用。知识图谱除了显示其他网站的链接列表 ,还提供结构化及详细的关于主题的信息。其目标是,用 户将能够使用此功能提供的信息来解决他们查询的问题, 而不必导航到其他网站并自己汇总信息。 • 在2013年5月的Google I/O大会上,Google的阿米特· 辛格尔 提出了未来搜索引擎的设想:搜索引擎的三个主要功能将 需要改进,搜索将需要:1.答案,2.对话,3.预测。
2015-5-13
三、语料库资源
• 现代汉语研究语料库系统
http://yuliaoku.hanyu123.cn/hanyu/Default.html
• 北京语言大学语料库(BCC) http://bcc.blcu.edu.cn/ • 北京大学中国语言学研究中心(CCL) http://ccl.pku.edu.cn:8080/ccl_corpus/ • 教育部语言文字应用研究所“语料库在线” http://www.cncorpus.org/index.aspx • HSK动态作文语料库 http://202.112.195.192:8060/hsk/index.asp • 北京口语语料库 http://yys.blcu.edu.cn/6_beijing/6_beijing_chaxun.asp
2015-5-13
研究方法与教学资源
• 对比分析 • 偏误分析 • 中介语理论 • 中介语对比分析(语料库研究和中介语理 论的结合)
CIA示意图(引自Granger,2002)
中介语与目的语、母语关系图(引自俞燕明,2004)
母语与目的语的对比研究
英汉动词带宾语情况对比(汪慧慧,2010)
2015-5-13
大数据时代的语料库
• 数据驱动的方法导致机器智能的出现
• 数据驱动方法改变了基于语言规则的语言 分析 • 大数据时代的语料库的属性
基于用法的取向 语言习得过程
客观世界:物质基础 语言环境:语言体系 生理条件:基因决定 认知机制:我们的能力 语言能力:物质世界、语言体系和认知能力 的综合体 语言学习:环境和认知相互作用的结果
形容词主要功能分布对比图 引自《汉语作为第二语言的词汇习得研究》
同类词语的区分
• 看到目的语中的特点:以“买”和“卖” 为例;
语料库分析与偏误分析
• 从对错扩展到使用情况; • 可以看到使用状态的差异;
• 教学及习得等方面的研究建议大家一定要 进行量化研究;
曾颖,2015
“现代汉语语料库”中,表示因果关系的复句分为 有标句和无标句两类,其中有标句只占因果关系复 句的15.15%,而“中介语语料库”中有标句却占全 部因果关系复句的71.18%,这表明留学生在书面表 达的时候更倾向于采用有标记的因果关系复句,而 且更倾向于使用“因为”、“所以”,分别使用9倍 和18倍。
30 0.14 仿佛全生命的力量都【放】在那巴掌之中。
施事+把+受事+放+ 补语+处所 处所+放+着+受事
22 0.10 他把散落的东西塞进提兜,手忙脚乱地【放】回 原处,从树丛中钻了出来。 13 0.06 办公室中间【放】着几个文件柜和一组沙发。
句法功能
“简单”的搭配知识体系示意图 (引自邢红兵,2012)
五、汉语教学网络资源和辅助软件
在线字典、工具类
•
• • • •
汉典 http://www.zdic.net/ 中文助手 http://www.chinesehelper.cn/ 在线新华字典 http://xh.5156edu.com/ 有道 http://www.youdao.com/
参考文献
Leveraging Wikidata To Gain A Google Knowledge Graph Result
新的语言学习理论
• 联结主义 • 浮现主义
• 特点:重视基于真实语言的特征提取,特 征的集合称为知识体系。
频度可以改变心理词典储存方式
词语 猪肉 牛肉 羊肉 CCL语料库次数 3489 4373 2147 百度新闻 7,210,000 6,810,000 3,910,000
李 平(2002)语言习得的联结主义模式,《当代语言学》第3期。 孙宏林、黄建平、孙德金、李德钧、邢红兵(1997)“现代汉语研究语料库系统”概述,胡明扬主编《第五 届国际汉语教学讨论会论文选》,北京:北京大学出版社。 汪慧慧(2010) 基于英汉动宾搭配对比的留学生词汇习得研究,北京语言大学硕士学位论文。 邢红兵(2009)基于联结主义理论的第二语言词汇习得研究框架,《语言教学与研究》,第5期。 邢红兵(2013). 词语搭配知识与二语词汇习得研究[J]. 语言文字应用,04:117-126. 俞燕明(2004)中介语对比分析法及其对词汇教学的启示,《国外外语教学》第2期。 曾颖(2015).汉语二语学习者复句习得的中介语对比分析,北京语言大学硕士学位论文。 Granger S. 1996 From CA to CIA and back: An integrated approach to omputerized bilingual and learner corpora. In Aijmer K., Altenberg B. and Johansson M. (eds) Languages in Contrast. Text-based cross-linguistic studies.Lund Studies in English 88. Lund: Lund University Press. pp. 37-51. Yang, J., Gates, K., Molenaar, P., & Li, P. (2015). Neural changes underlying successful second language word learning: An fMRI study. Journal of Neurolinguistics, 33, 29-49. doi: 10.1016/j.jneuroling.2014.09.004
语料库资源与汉语教学
邢红兵wk.baidu.com
电话:86-10-82303761(O) 主页:http://www.dwhyyjzx.com/www/?id=23 邮件:xinghb@blcu.edu.cn xinghongbing@hotmail.com
四个方面内容
http://news.sina.com.cn/o/2014-12-22/094931312679.shtml
基于互联网的知识提取
李斌,陈家骏,陈小荷. 基于互联网的汉语认知属性获取及分析[J]. 语言文字应用,2012,03:134-143.
需要探讨的问题
• 如何利用大数据时代的语料库资源为教学 服务;
四、汉语搜索引擎
• • • • • • • 百度搜索 百度产品 百度百科 百度文库 百度翻译 百度词典 百度指数 http://www.baidu.com/ http://www.baidu.com/more/ http://baike.baidu.com/ http://wenku.baidu.com/ http://fanyi.baidu.com/ http://dict.baidu.com/ http://index.baidu.com/
70 60
50 40 30
20 10 0 汉语 日语初 日语中 日语高 有标 无标
词汇教学原则
系统性。形音义的连接及相互关系;
实用性。从常用的入手,符合汉语实际;
丰富性。语言的使用是要逐渐丰富的,不如程度 副词; 发展性。语言的习得是个逐渐发展的过程。
2015-5-13
教学建议
• 形、音、义的词典的建立及其关联的形成; • 结合使用频率,先教常用的词,先教常用的用法, 从常用到不常用逐步扩展; • 注重语素及其构词知识; • 注重词语用法,将词汇放在具体的句子环境中学 习用法 • 考虑词语关系(聚合、组合); • 着重功能词的教学; • 分阶段学习词汇; • 加强词汇的重复与复习,减少遗忘;
鸡肉
人肉 兔肉
1513
361 258
2,160,000
4,060,000 179,000
蛇肉 孔雀肉
鸵鸟肉
47 0
31
1050 735
399
学外语能变聪明,有科学依据
李平教授介绍说,学习第二语言时,大脑会自 然地对第一语言进行抑制,这需要激活更多的大脑 功能区,从而提高了学习者的专注力以及不同事物 间变换的能力。研究者发现,通过第二语言的学习 ,不仅大脑更多功能区被激活,而且与这些功能区 相关的记忆力测试、反应力测试中,学习者的测试 成绩会有所提高。
2015-5-13
母语与二语词汇习得的差异
• 母语词汇知识习得:从用法到意义的概括 二语词汇知识习得:从意义到用法的使用 • 我们以语素“电”为例,母语习得过程是先学 “电话、电视、电脑、电灯、电吹风”等慢慢建 立了“电”的概念,而二语习得过程更强调语素 的使用过程,比如语素构词。
• 二语学习是可能是想法的过程,因为“电”的语 义已经具备了,重要的是,“电”怎么用?
中介语和目标语对比示意图
和“愉快”搭配的动词(张金竹,2009)
汉语 106个
回忆 答应 说 回顾 工作
接受
中介语 6个
走 …… 服从 生活
想 度过 交流 玩 回
跑
2015-5-13
语料库分析的优势
“放”的句法结构分布
类型 数 比 量 例 例句
施事+把+受事+放+ 介词+处所
受事+放+在+处所
68 0.32 我的确不曾把这件事【放】在心上。
• 语料库及其概念的认识 • 语料库与语言研究 • 语料库与语言习得 • 基于语料库的教学思考
2015-5-13
大数据 计算
谷歌“知识图谱”(Knowledge Graph )
• Google搜索将发布“知识图谱”(Knowledge Graph)—— 可以将搜索结果进行知识系统化,任何一个关键词都能获 得完整的知识体系。 • Google知识图谱(英语:Google Knowledge Graph,也称 Google知识图)是Google的一个知识库,其使用语义检索 从多种来源收集信息,以提高Google搜索的质量。知识图 谱2012年加入Google搜索,2012年5月16日正式发布,首 先可在美国使用。知识图谱除了显示其他网站的链接列表 ,还提供结构化及详细的关于主题的信息。其目标是,用 户将能够使用此功能提供的信息来解决他们查询的问题, 而不必导航到其他网站并自己汇总信息。 • 在2013年5月的Google I/O大会上,Google的阿米特· 辛格尔 提出了未来搜索引擎的设想:搜索引擎的三个主要功能将 需要改进,搜索将需要:1.答案,2.对话,3.预测。
2015-5-13
三、语料库资源
• 现代汉语研究语料库系统
http://yuliaoku.hanyu123.cn/hanyu/Default.html
• 北京语言大学语料库(BCC) http://bcc.blcu.edu.cn/ • 北京大学中国语言学研究中心(CCL) http://ccl.pku.edu.cn:8080/ccl_corpus/ • 教育部语言文字应用研究所“语料库在线” http://www.cncorpus.org/index.aspx • HSK动态作文语料库 http://202.112.195.192:8060/hsk/index.asp • 北京口语语料库 http://yys.blcu.edu.cn/6_beijing/6_beijing_chaxun.asp
2015-5-13
研究方法与教学资源
• 对比分析 • 偏误分析 • 中介语理论 • 中介语对比分析(语料库研究和中介语理 论的结合)
CIA示意图(引自Granger,2002)
中介语与目的语、母语关系图(引自俞燕明,2004)
母语与目的语的对比研究
英汉动词带宾语情况对比(汪慧慧,2010)
2015-5-13
大数据时代的语料库
• 数据驱动的方法导致机器智能的出现
• 数据驱动方法改变了基于语言规则的语言 分析 • 大数据时代的语料库的属性
基于用法的取向 语言习得过程
客观世界:物质基础 语言环境:语言体系 生理条件:基因决定 认知机制:我们的能力 语言能力:物质世界、语言体系和认知能力 的综合体 语言学习:环境和认知相互作用的结果
形容词主要功能分布对比图 引自《汉语作为第二语言的词汇习得研究》
同类词语的区分
• 看到目的语中的特点:以“买”和“卖” 为例;
语料库分析与偏误分析
• 从对错扩展到使用情况; • 可以看到使用状态的差异;
• 教学及习得等方面的研究建议大家一定要 进行量化研究;
曾颖,2015
“现代汉语语料库”中,表示因果关系的复句分为 有标句和无标句两类,其中有标句只占因果关系复 句的15.15%,而“中介语语料库”中有标句却占全 部因果关系复句的71.18%,这表明留学生在书面表 达的时候更倾向于采用有标记的因果关系复句,而 且更倾向于使用“因为”、“所以”,分别使用9倍 和18倍。
30 0.14 仿佛全生命的力量都【放】在那巴掌之中。
施事+把+受事+放+ 补语+处所 处所+放+着+受事
22 0.10 他把散落的东西塞进提兜,手忙脚乱地【放】回 原处,从树丛中钻了出来。 13 0.06 办公室中间【放】着几个文件柜和一组沙发。
句法功能
“简单”的搭配知识体系示意图 (引自邢红兵,2012)
五、汉语教学网络资源和辅助软件
在线字典、工具类
•
• • • •
汉典 http://www.zdic.net/ 中文助手 http://www.chinesehelper.cn/ 在线新华字典 http://xh.5156edu.com/ 有道 http://www.youdao.com/
参考文献
Leveraging Wikidata To Gain A Google Knowledge Graph Result
新的语言学习理论
• 联结主义 • 浮现主义
• 特点:重视基于真实语言的特征提取,特 征的集合称为知识体系。
频度可以改变心理词典储存方式
词语 猪肉 牛肉 羊肉 CCL语料库次数 3489 4373 2147 百度新闻 7,210,000 6,810,000 3,910,000
李 平(2002)语言习得的联结主义模式,《当代语言学》第3期。 孙宏林、黄建平、孙德金、李德钧、邢红兵(1997)“现代汉语研究语料库系统”概述,胡明扬主编《第五 届国际汉语教学讨论会论文选》,北京:北京大学出版社。 汪慧慧(2010) 基于英汉动宾搭配对比的留学生词汇习得研究,北京语言大学硕士学位论文。 邢红兵(2009)基于联结主义理论的第二语言词汇习得研究框架,《语言教学与研究》,第5期。 邢红兵(2013). 词语搭配知识与二语词汇习得研究[J]. 语言文字应用,04:117-126. 俞燕明(2004)中介语对比分析法及其对词汇教学的启示,《国外外语教学》第2期。 曾颖(2015).汉语二语学习者复句习得的中介语对比分析,北京语言大学硕士学位论文。 Granger S. 1996 From CA to CIA and back: An integrated approach to omputerized bilingual and learner corpora. In Aijmer K., Altenberg B. and Johansson M. (eds) Languages in Contrast. Text-based cross-linguistic studies.Lund Studies in English 88. Lund: Lund University Press. pp. 37-51. Yang, J., Gates, K., Molenaar, P., & Li, P. (2015). Neural changes underlying successful second language word learning: An fMRI study. Journal of Neurolinguistics, 33, 29-49. doi: 10.1016/j.jneuroling.2014.09.004