基于数据挖掘技术的汉语教学语料库建构
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2019年第1期
(总第102期)海外华文教育OVERSEAS CHINESE EDUCATION No.12019General Serial No.102
收稿日期:2017-06-12
作者简介:李代鹏,云南民族大学助教。Email :1032294493@qq.com
感谢《海外华文教育》匿名专家的宝贵审查意见,文中不妥之处概由本人负责。
基于数据挖掘技术的汉语教学语料库建构
李代鹏
(云南民族大学应用技术学院,中国昆明653102)
摘要:随着语料库语言学的兴起和发展,基于语料库进行的第二语言教学受到第二语言教
学界的高度重视。而在对外汉语教学界,
并没有建立一个适应于汉语教学与学习需求的汉语教学语料库。特别是随着数据驱动学习模式的产生,
加之语料大数据时代的到来,促使个性化、需求型的汉语教学与学习成为成大数据时代外语教学或第二语言教学的必然趋势。面对这一趋势,文章
提出建构
“汉语教学语料库”的基本设想。汉语教学语料库的建构以汉语本体语料库和汉语中介语语料库为基础,以数据挖掘技术和可视化技术为支撑。通过汉语教学语料库的建构,
对于实现真正意义上的需求型、个性化学习具有重要的实践意义。
关键词:汉语教学语料库;数据挖掘;可视化;对外汉语教学
中图分类号:H195文献标志码:A 文章编号:2221-9056(2019)01-0115-10
DOI 编码:10.14095/j.cnki.oce.2019.01.014
一、引言
随着大数据时代的到来,教育生态化,个性化,多模态化已成为当代二语教学的新常态,为了实现高度自适应的个性化学习,营造具备生态性质的教学内容,教学方法,教学环境,以多模态的教学
理念触发学习者的多元智能。许多具备上述特点的二语学习软件与平台不断得到开发,
其中最醒目的就是人工智能在第二语言教学中的应用。顺应这一趋势,
智能型计算机辅助第二语言教学的概念顺势而生,究其根本,其目的都是为了提升第二语言的教学效果。
在汉语作为第二语言的教学中,为提升汉语教学的效果,帮助学习者发展自主学习能力,趋向于生态化与个性化的教学模式,语料库在汉语教学中的运用,则成为大数据背景之下的一个重要手
段。语料库所提供的大量语言事实可激发汉语学习者的认知能力,
建构汉语学习者的知识图式。然而,大量的检索数据,增加了学习参与者的认识负荷,在数据-信息-知识这一链条中,“决定数据
最终出口的关键在于有效的信息抽取方法和知识发现手段”
(耿学华、傅德胜,2006)。为此,数据挖掘技术在汉语教学语料库中的应用具有重要价值,借助于数据挖掘技术,可对汉语教学语料库进
行量化分析,并使之实现可视化。使语料库在汉语教学与研究中的价值更为明显,
同时又为深入研究汉语学习者的汉语习得机制与规律,提供有效的实践依据。
·
511·
海外华文教育2019年
二、汉语语料库的研究情况
(一)研发状况
1.类型
汉语语料库的建设与研发主要趋于两个方向,一是汉语本体语料库,包括了现代汉语,古代汉语与网络社交语言等。目前的汉语本体语料库主要有:国家语委语料库,北京大学现代(古代)汉语语料库,中国台湾中央研究院语料库,兰卡斯特汉语语料库,北京语言大学语料库中心(BCC)。二是汉语中介语语料库。目前的汉语中介语语料库主要有:北京语言大学的汉语中介语语料库(不对外开放),北京语言大学HSK动态作文语料库(开放),南京师范大学的汉语中介语偏误信息语料库(不对外开放),暨南大学留学生中介语语料库(不对外开放),中山大学留学生汉字偏误语料库(开放)。然而,两种类型的语料库,其建立的目的并不是直接服务于实际的汉语教学,而是为了研究汉语的本体现象和学习者的中介语现象。因此,汉语本体语料库和汉语中介语语料库无法有效地服务于实际的汉语教学。此外,随着数据驱动学习模式在外语或二语教学界的兴起以及利用语料库进行汉语教学的重要性得到日益重视,基于汉语本体语料库和汉语中介语语料库建立专门的“汉语教学语料库”势在必行。
2.特点
(1)语料库规模不断扩大
随着数字化时代的到来,计算机科学与信息领域的快速发展,使得数据存储,数据传输的能力与速度不断增强,云计算与云存储的产生为大数据时代的语言大数据的及时存储与传输提供了可能性。这样的时代背景使得语料库的语料数据规模越来越大。然而,大规模的语料数据却增加了利用语料库进行汉语教学和学习的负担和困难。这是因为许多语料根本无法适应于实际的汉语教学与学习情形。因此,必须利用数据挖掘技术实现对规模语料的有效处理,选取合适的语料内容。
(2)语料形式多种多样
语料内容不仅包括了现代汉语和古代汉语两大领域,还涉及到了社交网络语言。多种语料的融入,使得对语料的加工不断深化,语料的细化工作也获得完善。语料形式的多样性,为汉语研究提供了有效的语言数据支撑,也为汉语教学内容的选择提供了个性化支持。但是,语料的多样化也增加了语料选取的复杂性,而且不同性质与不同类型的语料如何才能有效地服务于汉语教学与学习,则需要汉语中介语语料库的支持和数据挖掘技术的运用。
(3)应用的便捷性
以“北京语言大学语料库中心(BCC)”为例,其在语料库的设计和检索功能方面,实现了人性化的操作,检索方式变得更加简单灵活,使用者除了可以在线使用以外,还可以利用云端接口,这一技术扩展了语料库的可利用性。尽管如此,这样的语料库设计也很难满足学习者利用语料库进行汉语学习的需求。因为学习者所面对只是大量的琐碎语料,无法通过与他人的交流而加深自己的对汉语语料的理解。因此,利用可视化技术建立语料库附属子系统与虚拟学习空间具有重要价值。
3.局限性
(1)汉语本体语料库方面
汉语本体语料库的局限主要在于数据量太大,加重了教学参与者的认知负荷。以BCC为例,在检索栏中输入“v死r了”,检索结果为28101条。面对如此庞大的语料数据,汉语教师如何进行选择以制定符合教学需要的语料内容,学习者又如何从其中选择自己感兴趣的内容进行学习,这一情况加重了教师与学习者的认知负荷。在某种程度上,由于语料数据的庞大而无法选取,最终将会·
·
611