基于语料库方法的_Friends_脚本词块研究
基于影视语料库的英语口语词块研究及课堂应用
1引语语言教学的内容无穷无尽,英语教学的时间捉襟见肘,如何在有限的时间内提高教学质量是英语教学亟需解决的问题.本院学生在毕业回访问卷中提到:口语的水平有待提高,希望学院充实教学内容和创造实践机会.由于各方面的原因,目前我院的口语教学确实存在实践机会少;英语交际活动缺乏真实的交际环境;常用会话句型、交际策略,中西方在人际交往中的文化差异等方面涉及不多的问题,所以一些学生的英语口语较差,对日后的求职和发展不利.笔者在总结各位学者和前辈的研究成果基础上,打算从词块入手,系统地、循序渐进地、科学地向学生输入口语知识和技巧并加以训练,以期有效提高学生的口语水平.2词块及词块的使用问题我们将词块定义为:由多词组成,可以独立用于构成句子或者话语,实现一定语法、语篇或语用功能的最小的形式和意义的结合体.这个定义表明,词块是大于词、小于句子的语言单位,可以像词那样独立运用,而且词块应该是连续的,具有完整的意义或明确的功能.也就是说,词块不包括那些不连续的,或具有词汇与结构双重特征的,或语义与功能不明确的语言片段.(马广惠,2011:1)Biber,etal.(2004)按语篇和语用功能将词块分成四类,即立场词块、组篇词块、指示词块和会话专用词块.立场词块指那些用于表达诸如态度、肯定等人际意义的多词单位,如:Idon’tknowwhatthevoltageishere.Idon’twanttodeliverbadnewstoher.组篇词块指那些用于建立上下文关系的多词单位,如:WhatIwanttodoisquicklyrunthroughit等.指示词块指那些直接涉及实体或抽象体的多词单位,如:Studentsmustdefineandconstantlyrefinethenatureoftheproblem.会话专用词块指那些在会话中用于表示礼貌、询问和陈述的多词单位,如thankyouverymuch、Isaidtohim.等.目前学生在口语使用上主要会出现:口语词汇量较少,并且过度使用和使用不足某些常用词汇并存;没有完全掌握英语会话的常用词汇,其会话缺乏足够的交互性;不会使用模糊用语.根据甄凤超的调查(甄凤超,2005:41),中国学习者会话中最常用的词目同英语母语者存在显著差异.差异最明显的词目并非功能词(如代词、冠词、介词、助动词、连词等),而是一些意义宽泛的实词,如get,yeah,well,think,know,right,see,mean,come,really.Stenstrom(1990)把这些词定义为话语标记词(discoursemarkers),在会话中起到组织话语结构(如well、right、yeareally),以及表现人际关系(如youknow,Ithink,Isee,Imean,youmean)等功能.有数据显示,学习者在会话时不能灵活使用话语标记词,导致其会话缺乏交互性.另外,英语学习者高频率使用某些意义宽泛的实词,但其搭配形式却较为简单.3如何提取词块为了解决上述问题并给学生提供高质量的词块教学资料,笔者自建了影视脚本语料库.为了体现现代口语的特征,语料库收集90年代之后的电影和电视脚本,主要以语言质量和数量较高的以下类型构成:喜剧(Comedy)、动画片(An-imation)、纪录片(Documentary)、戏剧片(Drama)、家庭剧(Family)等,将所有的脚本储存为纯文本文件建立起约500万字的语料库.建库之后,笔者利用AntConc软件(该软件是日本早稻田大学LaurenceAnthony博士实验室研发的多平台的语料库分析工具)来研究口语高频词块.该软件可以生成单词表、索引呈现(Concordance)、检索词或词组在上下文中高亮显示、设定关键词左右语境、检索结果的打印和存储等.操作步骤如下:(1)调入语料;(2)选择Clusters窗口模式下SearchTerm右边的N-Grams选项;(3)选择N-Grams的大小,本文选择4词短语;(4)选择最小N词短语频数;(5)选择合适的排列选项;(6)按开始键;(7)点击词汇束会产生一组上下文关键词行.以下是自建的影视脚本语料库的前10个4词词块:Vol.28No.9Sep.2012赤峰学院学报(自然科学版)JournalofChifengUniversity(NaturalScienceEdition)第28卷第9期(上)2012年9月基于影视语料库的英语口语词块研究及课堂应用王颖(深圳信息职业技术学院,广东深圳518029)摘要:为了提高口语教学质量,本文利用自建的影视脚本语料库,运用AntConc软件提取高频词块,然后截取相关视频,建立高频词块训练网站,学生通过看、听、说和练全方面的提高口语水平.关键词:影视语料库;词块;口语教学中图分类号:G642文献标识码:A文章编号:1673-260X(2012)09-0263-02基金项目:深圳信息职业技术学院教学成果培育项目JXCG201019,深圳市教育学会“十一五”规划教育科研第二批立项课题(XH045)263--经过观察分析这些高频4词词块我们发现大部分都是表达自己立场的词块.根据何安平教授的研究:若按语义功能归类排行,英语2000个最常用词汇中,位居头三位的就有情态类和立标类(O’Keefe,McCarthy&Carter,2007:37—38).在多个大型英语本族语者口语语料库的机切四词语表中,均有50%以上的高频语块属于立标语类.这表明立标语其实是由最常用的基本词汇构成,但以往教学却很少关注这些基本词的常用范式和语用功能.(何安平,2011:30)接下来我们提取高频动词do,get,make,take,think等词的词块搭配,通过仔细观察含有“think”高频词块,我们发现除了有Ithink,doyouthink,soIthink,butIthink这样的常见搭配外,还有以下的常见词块:因此,通过自建影视脚本语料库和AntConc软件,我们可以提取符合学生实际情况和适合英语口语教学的词块.解决学生口语表达中选词错误、词语搭配不当、语体与语境不符、中国式英语等问题.高频词块习得有助于词汇的搜索、提取,使学生能够更加流利、准确和得体地使用语言.4词块的课堂教学经过两个学期的课堂应用,学生能够在平时学习的过程中注意记忆和积累高频词的搭配情况,这样就减少了说话时用汉语思维临时组织英语单词,造成词汇搭配不当和语义表达的偏差;提高了英语产出的效率,能够按自然语速表达思想.在今后的口语教学中,笔者继续着眼于影视脚本语料库的词块加工与提取,并截取相关的视频,学生可以通过跟读模仿、重复句子、补充对话、复述、配音、角色扮演等方式提高口语表达水平.视频要综合考虑本族语者的使用特点和学生词块常见的问题来进行选取.目前,影视脚本语料库的高频词块训练网站已初步建成.学习流程如下:整段熟悉→分句模仿→跟读和原声比较(不看字幕跟读)→复述剧情→听写测试.为了提高学习效果,网站支持听力测试模式.学生在听力过程中先隐藏画面,然后在写字板上听写,提交文本后屏幕会自动弹出正确答案.为了增强交互性,网站还提供搜索和评价功能.学生可以通过电影名字,关键词,场景等搜索到相关的视频片段;学生在注册后,可以评价视频,留言等.影视脚本语料库网站将过去静态的、二维的教材转变为由声音、文字、图像构成的动态的教材.学生通过创设情境、自主学习、协作学习、讨论学习掌握高频词块的使用方法.学生通过网站能掌握一定的英语基础知识,培养良好的语言学习方法,提高文化素养,在今后的对外日常活动和业务来往中进行得体的口头和书面交流.5结语笔者综合利用AntConc软件和自建的影视脚本语料库进行某些词块的定量分析,以期在口语教学中引入自然真实的语料并找到一些普遍用法促进英语词汇教学.影视脚本语料库大大地扩展了语言输入的范围,为教师提供最真实可靠的语言信息;影视脚本语料库可以弥补教科书单一的教学内容;影视脚本语料库是一个开放性系统,语料选取灵活、难度易控,可以不断更新和补充;影视语料库还是一个教育资源库,它可辅助教师工作,总结出口语的规律,同时吸引学生进行探索式学习.———————————————————参考文献:〔1〕Biber,D.,Conrad,S.&Cortes,V.2004.“If you look at…:Lexical bundles in university teaching and text-books“.Applied Linguistics,25(3),371–405.〔2〕马广惠.词块的界定、分类与识别[J].解放军外国语学院学报,2011,1(1).〔3〕甄凤超.中国学习者英语口语词汇量及常用词汇研究—基于英语口语语料库的词目研究[J].解放军外国语学院学报,2005,9(41)〔4〕何安平.语料库视角的英语口语“立标语块"探究[J].外语教学理论与实践,2011,1(30).排序频数例子11481I don't know 2513I don't think3457I don't want 4452I can't believe 5451don't want to 6435I'm going to 7405What are you doing 8398I m sorry I9300don't have to 10239I don't have 11231I want you to 12209Why don't you 13187I don't care 14180don't know I 15176I didn’t know 16175What's going on1I don't think2I think it s3What do you think4don't think so5I think I m6I think you're7don't think that8don't you think9I think you should10I think that's11know what I think12I think we should13I’ve been thinking14How do you think15I was just thinking 264--。
基于语料库的非英语专业学生词块使用特点研究
基于语料库的非英语专业学生词块使用特点研究作者:陈蕊来源:《校园英语·下旬》2017年第04期河南理工大学【摘要】本研究采用语料库语言学的研究方法,同时基于词块理论,从结构特点方面分析总结了大学英语学习者四级作文中词块使用的结构特点,并探讨了其对大学英语教学的启示与影响。
【关键词】语料库词块学术英语结构特征一、前言词块现象早在19世纪就被语言研究者关注,Ellis于1893年在研究中首次使用了“词块”这一概念。
随着互联网技术的进步和语言研究的发展,词块领域相关文献、成果层出不穷,很多语言研究者开始从不同角度对词块进行研究并提出了自己的定义,如:词束、词丛、程式序列、预制块等50多种。
与此同时,语言研究者们还在研究过程中对词块进行了不同层次和范畴的分类。
与给词块下定义一样,对词块进行合理分类也是一道极其复杂的难题。
不同语言学研究者从词块的频数、词块的亲疏程度、词块的结构及功能等角度进行了不同尝试。
在对词块的众多分类中,Biber(1999)的分类方法被认为是较为全面且被广大语言研究者们采用的一种。
Biber从结构层面将词块分为7种主要类型,各类型下又可进一步划分为12种子类型;功能层面上,词块可被分为:立场、组篇、指示和会话词块4大类。
Biber突破了仅从单一角度对词块进行分类的局限性,开创性的采用结构和功能相结合的分类方法,使研究者们对词块的认识和相关研究进入了一个全新的领域。
二、思路与讨论本研究将采用中国学习者英语语料库CLEC 中的大学英语4级ST3子语料库中的所有四词词块。
研究表明,四词词块在数量上较具代表性,更能体现学习者词块水平。
本研究先通过Antconc这一工具中的Cluster功能提取所需词块,然后,本研究从结构方面对四词词块进行数据分析及分类,最后找出深层次原因。
三、分布特点及原因探析本研究从结构上采取Biber(1999)口语会话和学术语篇中最常用词块的分类方法,得到了如下的分析结果:在这12种结构分类中,数量最多的前四位分别是:(动词/形容词)+ to短语片段、其他介词短语片段、系动词be+名词短语/形容词短语片段、先行词it+动词短语/形容词短语片段。
基于语料库的应用语言学学术英语词块研究及词块表的创建
[ 1 ] A l b e  ̄ ,H.Ma r c k wa r d t .E n g l i s h a s a S e c o n d L a n g u a g e a n d
圈 语 料 库 应 用 语 言 学 学 术 英 语 词 块 研 究 中 存 在 的 不 足
词块理 论 的重 要性开 始得到 广大研究 者和学 者 的
E n g l i s h a s a F o r e i g n L a n g u a g e [ J ] . P M L A , 1 9 6 3 ( 2 ) : 2 5 - 2 8 . N e w Y o r k : Wi l e y ,1 9 6 7 .
【 关键词】语料库 ;应用语言 学;学术英语词块研 究
的教学 方法 ,使外 语学 习向二语学 习方 式靠拢 ,以提高 语言教学 的效率 。 具体 而言 ,从 环境 因素来 说 ,尽量 把语言 和生活与
日常 文化联 系起来 ,创造尽 可能多 的丰富多彩 的 、贴近
【 中图分类号】H 0 — 0 【 文献标识码】A 【 文章编号】1 0 0 9 . 6 1 6 7 ( 2 0 1 7 ) 0 3 — 0 0 6 4 . 0 2
、
生 活的 语 言 环 境, 而 不是 一 开 始 就 要 求初 学 者大 量 背 诵
i l l引 言
国外对 于词块 的提 出最早 能追溯到 2 O 世纪 7 0 年代 牛 期 ,有研究 学者认 为 ,在英 语 中存 在着大量 的兼有 句法 和词 汇双重 特征 的固定语 言结构 ,这些模式 化 的结 构司 以作 为一个 整体 ,储 存到人 类 的大脑当 中。通过扩 大学 生 的词汇块 搭配 能力 以及 有效地 掌握基本 词汇语 言维
基于可比语料库的中外期刊ESP_论文摘要词块研究
2023年8月第40卷 第4期西南科技大学学报:哲学社会科学版Journal of Southwest University of Science and TechnologyAug. 2023Vol. 40 No. 4基于可比语料库的中外期刊ESP 论文摘要词块研究杨 成1,2 Fiona Henderson 1,2 朱战炜1 (1. 湖北汽车工业学院 湖北十堰 442002; 2. 澳大利亚维多利亚大学 澳大利亚墨尔本 3011)【摘要】基于可比语料库,借助词块结构、功能经典分类法考察了中外高水平期刊ESP 论文英文摘要中四词词块的结构、功能及关联性。
研究显示,在结构上中外期刊均以短语词块为主,句干词块为辅。
国内期刊显著多用名词和介词词块,少用其他词块。
两类期刊功能词块的类别、频数分布相似,结构——功能构式关联显著,但国内期刊关联性较弱。
研究表明多数中国作者已基本具备摘要语篇短语化输出意识,但句干词块名词化能力仍然欠缺。
同时,摘要写作依赖被动表达和固定句型,缺少人际互动。
【关键词】结构和功能;词块;英文摘要;可比语料库;学术写作【中图分类号】H030 【文献标识码】A 【文章编号】1672-4860(2023)04-0057-08收稿日期:2022-09-11 修返日期:2022-11-10作者简介:杨 成(1985-),男,汉族,湖北十堰人,副教授,硕士。
研究方向:ESP 教学、语料库语言学。
Fiona Henderson (1960-),女,澳大利亚人,副教授,博士,博士生导师。
研究方向:TESOL (外语教育学)。
朱战炜(1978-),男,汉族,湖北十堰人,教授,硕士,硕士生导师。
研究方向:外语教学。
基金项目:教育部产学合作协同育人项目:基于‚语料库+云平台‛的商务英语写作实践研究,项目编号:220506337253659;湖北省哲学社会科学项目:元话语名称在学术语篇中的人际互动研究,项目编号:21Q173;湖北省教育厅人文社会科学项目:语料库驱动的中国作者ESP 英文论文摘要中四元词块特征研究,项目编号:18Q113。
基于语料库的英语专业高年级学生口语词块结构特征研究_胡元江
*本文为教育部人文社科研究项目(编号:12YJC740033)、江苏省高校“青蓝工程”(编号:苏教师﹝2014﹞23号)、江苏省高等教育教改研究重点课题(编号:2015JSJG459)和国家社科基金项目(编号:13BYY079)的阶段性成果。
0.引言近三十年来,口语产出中的词块研究成为口语研究领域的重要内容,也是当前二语习得研究的热点之一。
研究显示,本族语者口语中至少三分之一的内容为词块(Biber et al.1999;Conklin &Schmitt 2008)。
词块有助于减少加工负荷(Alali et al.2012;李更春2014),可以预测口语产出能力(胡元江2011),甚至被视为二语水平高低的衡量标准之一(Cortes 2004)。
基于语料库的口语词块描述研究主要有两个路径:一是描述本族语者口语词块的特点;二是探讨学习者口语词块的使用情况,并常以本族语者语料为参照。
第一个路径的研究显示本族语者口语中大量使用各类型词块(如Biber et al.1999;Biber &Barbieri 2007;Biber 2009)。
第二个路径的探讨主要在外语教学环境下展开,国内的研究取得了一系列成果,有两个维度:学习者口语词块的局部特征和整体特征研究。
在第一个维度方面,卫乃兴(2004)发现学习者口语中能够熟练使用的词块数目较少、长度偏短、缺乏应有的变体。
许家金,许宗瑞(2007)的研究表明,中国大学生口语词块具有表达形式单一、受汉语影响的简单对译、自我中心、直率生硬等缺乏人际互动技巧的特点,且绝大部分互动词块不如英语本族语者。
在第二个维度方面,杨惠中,卫乃兴(2005:62)研究发现,中国非英语专业学生口语中普遍存在词块的多用、少用和误用现象。
王立非,钱娟(2009)研究发现我国学生英语独白中较少使用习俗语和多元词,词块使用频次与本族语者相比存在显著差异。
但是,以往研究中尚缺乏对英语学习者口语词块结构类型的研究,此类研究有利于我们全面而系统地了解学习者口语产出中总体词块情况和各结构类型的具体特点,从而为教材建设和口语教学提供有益的建议。
基于语料库的词块研究在教学中的应用
所示 :
表 一
词 且 包 括 词 汇 知 识 深 度 的延 伸 。 于 常用 词 来 说 , 对 掌握 词 汇 的形 、 、 只是 习 得 其 音 义 冰 山一 角 。 近些 年来 。 来 越 多 的 研究 者注 意到 词 汇 知 识 深 度 越 的重 要 性 。 言 的记 忆 和 存 储 、 出 和使 用 不 是 以单 个 词 为 单 语 输 位 ,那 些 固定 或 半 固定 模 式 化 的 版块 结 构 才 是 人 类 交 际 的最 小 单 位 ( ek r17 ) 即 词 块 是 人 们在 使 用 语 言 时 从 大 脑 当 B e,9 5 , 中提 取 的 预 置 在 人 类 大 脑 当 中 的 最小 的语 言 版 块 。 词 块 的 研 究 在 指 导 外 语 教 学 方 面 具 有 举 足 轻 重 的 地 位 ,那 么 如 何 通 过 利 用 语 料 库 索 引 开 展 词 块 教 学 ,从 而 加 强 学 习 者 的 语 言 输 出 呢 ? 文 利 用语 料 库 索 引分 析 手 段 对 词 块 进 行 实 证 分 析 , 本 为词 汇 教 学 提 供 一 个 新 的视 角 。
2 词块 的含 义 .
词 性
N.
模 式
Pe .+(h /d)ec (f rp te ajrah o)
r a h+N. ec
出现 次 数
1 3
7 9 8
V.
r a h+Pr p ec e .+N.
r a h+a v ec d.
5
语 料 库 语 言 学 的研 究 成 果 表 明 :形式 与 意 义 密 切 相 关 ” “ , “ 汇 与 句 法 共选 ” 基 于 词 汇 的这 种 特 性 , 块 这 个 概 念 被 提 词 . 词 出来 了 。Snli 19 ) ica (9 1 曾指 出 , 语 言 中 , r 在 同时 有 两 条 原 则 在 起 作 用 , 条 是 自 由选 择 原 则 . 条 是 熟语 原 则 。 自 由选 择 原 一 一 则 指 在 一 定 规 则 下 选 择 词 语 组 句 :熟 语 原 则 强 调 说 话 者 在 构 造 语 言 的 时 候 直 接 使 用 存 储 在 大 脑 中 的不 经 分 析 的 习 惯 性 结 构, 即词 块 。 词块 是语 言 学 习 及 输 出时 , 时 取 用 的 整 体 记 忆 随 的版 块 , 可 作 为组 句 的基 本 原 料 。 它 他 认 为 。 些 出 现 频 率 高 、 同程 度词 化 的 词 块 是 英 语 中 那 不 的基 本 语 言 单 位 。 h n eg 19 ) A eb r(9 8 的研 究 也 发 现 , 语 自然 话 英 语 中有 8 % 由各 类 板 块 结 构 组 成 ,也 就 是 说 大 部 分 话 语 是 通 0 过词块来实现 的。 3研 究 结 果 与 讨 论 . 语 料 库 索 引 是 语 料 库 最 基 本 的 分 析 手 段 。 濮 建 忠 (0 3 指 出 词 块 体 现 的 是 词 汇 语 法 的 基 本 精 神 和 观 点 . 20 ) 但 它 把 意 义 、 连 接 和 搭 配 有 机 地 结 合 成 一 体 。 下 面 以rah 类 ec 词 为 例 说 明 学 习 者 如 何 应 用 语 料 库 索 引 学 习 词 块 。由 于 ra h ec 的原 形 能 够 反 映 其 他 形 式 的 用 法 , 此 不 考 虑 其 他 屈 因
基于语料库的大学英语四级作文词块研究
基于语料库的大学英语四级作文词块研究一、研究背景语料库是指由自然、连续的语言运用文本或经过一定语言学信息标注组成的具有一定容量的电子文库。
通过研究特定语言或群体的语料库,可以分析、发现并总结出目标语言的一些重要特征。
进入70年代以来,随着一些大型和专业语料库的出现,语料库语言学的发展重新焕发了生机。
到目前,语料库语言学已经成为现代语言学的一个重要的分支。
对于语言学研究来说,语料库语言学以真实的语言数据为研究对象,通过对众多语言事实的概率分析,总结出语言运用的规律,从全新的角度揭示出自然语言的多样性和复杂性。
语料库最早也是最基础的应用是在语言数据的频率统计方面,如字频、词频、词类等的统计上。
随着计算机技术和互联网的发展,语料库在语言研究、语言教学和语言工程等方面得到了广泛的应用。
20世纪80年代,以计算机语料库为载体的语言数据研究使语言学家和教师对语言的实际使用情况有更为详细和客观的研究。
人们通过研究发现,语言是由被称之为“词块”的大量程式化表达所构成。
词块一词最早由美国语言学家Ellis 提出,随后众多语言学领域的学者对词块进行了多维度的研究,并提出各自不同的定义甚至名称:词束(lexical bundle)、词汇短语(lexical phrase)、预制块(prefabricated chunks)等共计50余种。
词块是学术论文中不可或缺的一部分,英语学习者过少使用或过多使用某些词块将会对语言产出的地道性产生了负面的影响,其被认为对于流畅会话和写作具有重要的作用。
虽然相关研究成果众多,但语言学界目前并未达成对词块定义的统一认识。
然而,国内外越来越多的研究者认识到词块对语言学习者的写作能力具有十分重要的意义。
学术英语是中国英语语料库的有机组成部分,反映了中国英语变体的一个较为规范的侧面。
基于大量可靠的数据,系统地描述学术英语文本在词语运用、词语搭配、词块分布特征和典型特点,不但能为学术英语文本的读者提供有用材料,而且能对他们进行的或者进行过的学术英语写作提供积极反馈。
基于语料库的英语专业学生英语议论文词块研究
研究 , 取 了两种 语料 库 中最 常 出现 的四词词 块 , 选 具体 描述 了两类 词 块 类 型 : 多词 词语 组 合 ( ut m l i
~
面表达 中 , 块 都 占有极 大 的 比例 。语 料 库 语 言 词 学 的研究 成果 也进 一步 验证 了词 块在 二语 习得 过 程 中 的作 用 。
词块 这个 概念首 次 出现 在 Bb r 1 9 ie 于 9 9年 出
版 的著作 Lnm nGa m r f pknadWrtn og a rm a oe n ie oS t E gs 。他 认 为词 块 是扩 展 化搭 配 , nlh中 i 它们 可 以
是两词组合 、 三词组合 、 四词组合或者四词以上的 组合。这些词的组合在结构和意义上可以是完整 的, 也可 以是 不完 整 的 。
万词 的美式 英语 口语 语料 库 和 5 0万词 的英 语 书 3
包含更多的信息 , 这就是预制语块 (r ar a d pe b ct fi e
cu k) hn s 。预制语 块普 遍存 在 于人 的记 忆 中 , 而且 随着 我们对 记 忆 内容 的熟 悉 程 度 而 增加 , 而 使 从 大脑 可 以存 储 和 回忆 更 多 的信 息 j 。
中的基 本结 构 单位 , 们 可 以在 语 言学 习过 程 中 它 获 取 , 多 词 块在 结 构上 都 比较 复 杂 。在 教 学 过 很 程 中 , 过 帮助 学生 掌握 各种 类 型 的词 块 , 以使 通 可 他 们不 断提 高语 言水 平 。 此 后 , ie j Bbr 2 比分 析 了规 模 分 别 为 40 跎对 5
词块差 异 。研 究 结果 显 示 : 词块 是 口语 及 书 面 语
基于语料库的《老友记》语块特征分析
取, 然后从 结构和功 能两个方 面来呈现语块 的特性 , 以期 望能够对英语 学习者有帮助 。
关键词: 语块;老友4) - 《 5 -料库;  ̄ 语言教学
中图分类号 : 0 H9 文献标识码 : A 文章编号 :6 434 2 1 )-0 20 17 - X(0 2 1 3 - 4 0 5 项 目基金 : 河南省社科联 、 省经团联 2 1 年度调研课题 ( K 2 1 1 5 ) 01 S L一 0 1— 24
表 4 独 立分句的主要 功能类 型
F nt nlye u c oa t i p Ea l x mpe Feuny rq e c
的词, Wht r yu(us o g( e ) ( h o 如 a a o gy)di hr , O )n e n e n n ) n ) n o o 。从短语学的角度看 , o( o (o o (o ) n nn 大部 分的独立分句都是可 以变化的, 语义相对透明 , 只有很
表 3语 块 的 结 构 类 数 据
频率。从功能上看 , 由于《 老友记》 是个每集都有特定 情节的特殊语料库 , 因此能够在不 同剧集里反复出现 ,
频 率 比较高 的独立 分 句 大 都都 充 当了应 答功 能 ( 括 包 感谢 , 慰 , 安 确认 , 同意 , 同意 , 不 肯定语 , 否定语 , 绝 , 拒
闫 锐
( 河南财经政法大学 成功学院, 河南 巩义 4 10 ) 520
摘一 个必不 可少的环节 。语料库驱动 的语 块研 究是近 年来语 言学上 关于词 汇学 习的 词 - 学 个热点。本文就 以具体特 殊的英语剧 本《 老友记》 为研 究对象 , 用语 料库驱 动的 方法 , 采 对其里 面典型 的数据进行提
基于语料库的词块输出数量与质量评测体系研究
针对这些问题,我们提出以下未来研究方向:
1、加强数据收集:选择更多类型和规模的语料库,以提高评测体系的普适性 和准确性。
2、优化评测算法:引入更先进的自然语言处理技术和机器学习模型,提高评 测体系的效度和信度。
3、语境分析:深入研究词块在具体语境中的运用,以提高定性评价的准确性。
4、应用研究:将该评测体系应用于实际场景,例如语言教育、机器翻译等领 域,以验证其实际价值。
三、研究结果与讨论
通过对比和分析中国英语学习者在各个阶段的词块使用情况,我们发现以下趋 势:
1、随着学习阶段的提高,中国英语学习者的词块使用数量和多样性明显增加。 这表明随着学习的深入,学生对于英语的掌握程度不断提高,能够更自如地使 用各种词块。
2、然而,与母语为英语的学生相比,中国英语学习者的词块使用频率和准确 性仍存在一定的差距。这表明在英语的输出能力上,中国学生还需要进一步提 高。
谢谢观看
2、信度:指评测结果的稳定性或一致性。我们将使用交叉验证方法来评估信 度。
六、结论与未来研究方向
本研究构建了一个基于语料库的词块输出数量与质量评测体系,通过将定性和 定量评价相结合,实现了对词块输出的全面评估。然而,该体系仍存在一些不 足之处,例如对语境的考虑仍不够完善,对不同领域和语言的适应性有待进一 步提高等。
2、词块提取:利用现有的词块提取算法,从语料库中提取出高频词块。
3、定量评价:通过计算每个词块在语料库中的出现频率、分布等统计信息, 对词块输出的数量和质量进行初步评估。
4、定性评价:利用自然语言处理技术,如句法分析、语义角色标注等,对词 块在具体语境中的运用进行深入分析,以评价其正确性和地道性。
五、建议与展望
根据以上研究结果,我们提出以下建议:
基于语料库的词块教学对大学生英语写作能力提升有效性研究
基于语料库的词块教学对大学生英语写作能力提升有效性研究作者:陈贺段惠琼来源:《成功密码》2022年第01期词汇是语言的重要组成部分,是语言交流的重要基石。
在语言发展的过程中,词汇起着举足轻重的作用。
但大学生在教学中习得的词汇并不能确保他们写出用词准确的地道作文。
核心问题在于词汇是单个的没有相互联系的单词,而要写出符合英语语言习惯的词句,必须掌握英语词汇中特有的固定或半固定性结构——词块。
词块既是一种词汇又是一种有语法结构的特殊语句,或长或短、或固定或松散的。
近年来大量研究证实,词块是一种高效的语言学习单位,是直接影响学生能否正确输出的重要因素之一。
语料库在当今的应用语言学界非常重要,学生所习得的来自英语国家的人们所使用的地道、真实的词块均可在相关语料库中查证。
近年来,国内外可提供海量真实语料的语料库有美国当代英语语料库、英国国家语料库、中国学习者语料库等。
英语写作是英语学习者四项基本技能的重要部分,也是体现英语表达能力的重要指标。
大学生尤其是非英语专业的学生英语写作能力普遍较为薄弱,主要体现在作文中的许多句子是单个词汇的堆积,很少在写作中主动使用词块。
因此,学生如何有效应用词块提高英语写作水平是教学中迫切需要解决的难题。
国内有关“词块教学与大学生英语写作方面的相关内容”近年来已有少量研究,如词块与口语和写作水平之间相关性、词块使用模式、翻转课堂模式与写作中词汇丰富性,语块理论对英语学习者写作能力发展的影响等。
从已有文献可以看出,目前大多集中在对词块应用与写作研究,而有效性研究较少;此外,基于语料库的词块能力和英语写作水平的相关研究实证数据缺乏;关于大学英语非英语专业不同水平的学生词块教学在写作中的效果实证研究未见报道。
综上,本研究通过实验对比研究、应用统计分析软件,结合翔实的实验数据,探究基于语料库的词块能力和大学生英语写作水平之间的教学效果,以期为推动基于语料库的词块教学提供一定的科学依据。
一、实验研究设计1.研究对象本研究对象为南昌航空大学2019级新入学不同英语水平层次的非英语专业大学本科生。
基于语料库的俄语学习者词块分类特征分析及教学反思
基于语料库的俄语学习者词块分类特征分析及教学反思在语言学习过程中,词汇的掌握是非常重要的部分。
对于俄语学习者来说,词块的学习和掌握对于有效地提高俄语水平至关重要。
本文将基于语料库的研究方法,对俄语学习者的词块进行分类特征分析,并结合教学实践提出相应的教学反思。
一、语料库分析方法概述语料库分析方法是一种以真实语言数据为基础的研究方法,通过收集和分析大规模的语言数据,可以更客观地了解语言的实际使用情况。
在俄语学习者的词块研究中,我们可以利用语料库分析方法,通过收集俄语学习者的实际语料数据,对其词块的分类特征进行分析和总结。
二、俄语学习者词块分类特征分析1. 词块的构成特征俄语词块的构成特征主要包括词性、词序和形态变化等方面。
在俄语学习者的词块中,我们可以观察到一些特点,比如较为频繁出现的名词短语、动词短语和形容词短语等。
这些词块更容易被俄语学习者记忆和掌握。
2. 词块的意义特征俄语学习者的词块在意义上也存在一定的特征。
有些词块具有固定的意义,可以被视为一个整体来理解和使用,比如“в то же время”(同时),“в большинстве случаев”(在大多数情况下)等。
这些固定意义的词块对于俄语学习者来说,需要进行有针对性的教学和训练。
3. 词块的频率特征根据语料库数据的分析,我们可以统计出俄语学习者常用的词块,这些词块具有较高的频率。
了解和掌握这些高频词块,可以帮助俄语学习者在语言表达上更加流利和自然。
三、教学反思基于语料库的词块分类特征分析为俄语教学提供了一定的指导思路和启示。
在俄语教学中,我们应该注重培养学习者对于词块的意识和认知,帮助他们更好地理解和掌握各种类型的词块。
同时,教师可以借助语料库等工具,为学习者提供更多的语言实例和语境,帮助他们感知和运用词块。
此外,教师还应根据学习者的实际情况,针对性地设计和提供与词块相关的练习和活动,帮助他们在运用中巩固和提高。
四、总结基于语料库的俄语学习者词块分类特征分析对于俄语教学具有重要意义。
中国大学生英语学术写作的口语化倾向——一项基于语料库的词块研究
表 1 语料库的构成
语料库 文本数 文本长度 语料库的规模
TECCL 5,081 197 words 1,000,957 words
三、分析与讨论 (一)语料分析结果 Biber[7][l8][19]认 为 虽 然 许 多 词 块 具 有 结 构 不 完 整 的 显 著 特 征 ,但它们可以根据语法特征被识别和 分 类 。在 表 达 个 人 意 见 的 口 语 会 话 中 ,更多地使用 动 词 、人称代词和疑问句。相比 之 下 ,学术文本则更
术文体和口语语体特征的词块结构类型在本研究 中不作讨论(见表2)。
表 2 三种语料库中主要词块结构类型的百分比(%)
( multi -wordexpressions) 、簇 (clusters) 、公 式 序 列 ( formulaic sequences)和 词 汇 短 语 (lexicalphrases) 等 。语料库分析方法为研究词块在流利的口语和书 面 语 篇 中 的 普 遍 使 用 提 供 了 可 能 性 。Biber[41在 《英 语口语和书面语的朗曼语法》(Байду номын сангаасGSWE)中把词块定 义 为 构 成 会 话 和 学 术 文 本 的 基 本 单 位 ,它 在 每 百 万 个单词中至少要发生10次 。此 外 ,词块是指“三个或 三 个 以 上 单 词 中 最 常 见 的 重 复 序 列 ”,它们需要符 合 频 率 和 分 布 的 文 本 数 量 标 准 。第 一 个 标 准 ,频率
综上所述,国内外学者很少对L2 学术写作中发 生 的 会 话 词 块 进 行 分 析 ,也 很 少 从 词 块 结 构 特 征 的 角 度 进 行 研 究 ,国 外 研 究 的重点则集中在L2 和 L1 学 术 写 作 这 同 一 语 体 的 词 块 上 。国内学者则主要集 中 在 书 面 语 的 口 语 化 倾 向 ,词 块 的 研 究 倾 向 于 与 本 族 语 的 书 面 语 语 料 库 进 行 对 比 ,口语化倾向的问题 并 没 有 基 于 对 比 本 族 语 的 口 语 语 料 库 而 提 出 。因 此 ,本研究基于本族语口语会话料库和学术写作语 料 库 ,对 比 学 习 者 语 料 库 ,从词块结构的角度进一 步分析我国大学生英语学术写作口语化倾向的 问题。
基于语料库的英语写作水平与词块运用关系研究
基于语料库的英语写作水平与词块运用关系研究作者:杜双艳常荣荣来源:《黑龙江教育学院学报》2018年第07期摘要:词块作为一种能将功能与形式融为一体的语言单位,能更好地体现出语用、语法及句法之间的关系。
首先收集某高校英语专业学生的54篇毕业论文,并自建平行语料库。
参照Altenberg词块分类法,将词块分为三类:完整分句、分句成分和不完全词组。
统计数据可知,学生写作中存在大量词块,且呈现词块长度越长使用数量越少的分布态势。
其中,分句成分所占的比例最多,不完全词组次之,完整分句最少。
研究分析表明,写作水平高的同学更能灵活地使用词块。
关键词:语料库;词块;写作;结构类型中图分类号:H319.36文献标志码:A文章编号:1001-7836(2018)07-0124-03词块指由多词组成,可以独立用于构成句子或者话语,实现一定语法、语篇或语用功能的最小的形式和意义的结合体[1]。
该结合体是语言语篇写作的重要组成部分,二语学习者若提高外语写作水平,还需掌握词块的使用状况并正确地运用词块。
在综合运用语言的基础上,学习者将自身的语法与思维通过写作呈现出来,而词块是写作过程中语言运用的关键。
本文拟基于安徽省某高校2016届英语专业本科毕业生的论文,自建小型语料库,研究不同的分层次的论文,考察英语学习者写作水平与词块运用之间是否存在关联。
通过使用Emediter,Antconc 等语料库分析软件辅之以人工筛选对词块数据进行分类统计,分析不同层次论文在词块数量和结构类型上的差别,总结出英语学习者写作水平与词块运用之间的关系,以期对英语教学与学习提供可行建议。
一、文献综述国外语言学家Becker1975年首次提出“预制语块”这一概念,指一种特殊的“多词词汇现象”,即多个词汇的组合[2]。
Lewis在“The Lexical Approach”中提出“多词预制词块”在语言学习中不可或缺[3]46。
Nattinger & DeCarrico提出语言的产出过程就是“对预制语块进行选择,然后将这些语块串联起来的过程。
基于语料库的英语写作水平与词块运用的关系探讨
2392019年21期总第461期语言文化研究ENGLISH ON CAMPUS基于语料库的英语写作水平与词块运用的关系探讨文/揣 琼是中国大学生和美国大学生,所选取的研究材料是同一主题的作文各10篇,研究工作使用的是语料库,考察两组学生作文产出性词汇、词块运用上的特征。
研究结果显示,在词块应用方面,虽然中国学生产出的3-5个单词组成的词块非常丰富,但是美国高校学生词块应用离散程度很高。
此外,中国高校学生选词较为广泛,模糊,表明中国高校学生对词汇了解缺乏足够的深度,缺少对汉语与外语的比较分析。
与此同时,中国高校学生应用较多的是模糊性语言,衔接性词块应用比较多。
因此,中国高校学生要在不同语境中科学的表达,以增强语言表达的准确性。
中国学者张华红对普通高校英语专业做了一次实证性研究,对英语作文成绩高低分组的各类词块使用情况及写作成绩做试验,研究结果显示:(1)高、低分组对四类词块应用频率依次是:搭配、半固定表达、固定表达,并且,词块的应用数量和写作水平呈正相关。
(2)高、低分组在词块应用数量、错误率及重复率等各方面都存在很大的差异,高低分组在词块应用水平上存在显著差异。
该项研究表明,学生词块应用水平、英语写作水平是正相关关系。
词块知识的学习和研究的中的作用不言自明,丁艳仁,等的研究显示,应用词块的能力和学生的写作成绩有着密切的联系,并且,高分者的词块知识更为丰富。
该项研究也表明了词块和语法学习相比,词块学习更为重要,应用语法只能保证词块的组合合乎语法要求及语境。
但若是在写作时过度应用词块同样会对写作质量造成影响。
在张华红的研究中表明中低水平的学生过度使用词块的现象比较严重,词块应用比较单一,且中低水平的学生极易受到写作提示语的影响;由3-5个单词构成的词块频数和作文分数呈负相关,这是由于过度应用词块大部分与提示语相同,让作文看起来非常单调、沉闷,写作质量不高。
相比较而言,高峰作文一般都是由5个单词构成的词块,应用频数不高,高水平学生更注重词汇表达的复杂性、多样性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
职 业 时 空 2010年7月
基于语料库方法的“Friends”脚本词块研究
王 颖
(深圳信息职业技术学院,广东 深圳 518029)
摘要:利用“Friends”脚本语料库,使用 AntConc 免费绿色软件和 C O C A 美国当代英语语料库作为研 究工具,从三个方面对词块进行研究:一是高频词 块的提取;二是提取语境共现(Concordance)发现单 词的普遍用法;三是提取搭配词表发现词块的搭配 信息。
对所说的话不肯定或者负责任的程度较低。模糊标 emphatically,indignation,emotional and emphatic)。
签语的功能主要是语用的,它给听话者提供了解读 它可以被认为是一个组织性词块,是一种完全预制
话语的方向和框架范围。由于实时话语的压力和对 或部分预制单位。预制词块就像单词一样作为不可
参考文献: [1] 杨惠中.语料库语言学导论[M].上海:上海外语教育出
客观世界知识的局限,许多信息不可能准确地表达, 分的组块储存在大脑词库中,很容易自动检索。所
而为了保险起见或出于礼貌的考虑,说话者会故意 以,这样的一些预制词块给学生提供在缺乏丰富的
不准确地表达信息。这些动因导致了模糊标签语在 语言资源时自我表达的可能性,学生无需知道其内
本族语话语中的大量使用。表面上话语似乎显得空 部结构就可以流利地表达,在交际时可以整体快速
表 9 “o d d s”在“Friends”脚本语料库中搭配词的 MI 值
综合分析频数和 MI 值,我们发现“be attracted to”是“attracted”的普遍用法,那么该数据是否只 是在“Friends”脚本中的个案体现呢?我们在 COCA 口语语料库中同样输入“attracted”并且把结果按照 相关度排列(Relevance),它能过滤掉高频搭配的噪 音词(e m p t y w o r d s ),并给出与所查询的词关系最 为紧密的搭配词,查询结果按所查询的词的互信息 (M I )值的高低排列。本文仅展示部分数据:
表 7 “[be]attracted to”在 COCA 口语语料库中的频数
表 11 “against*odds”在 COCA 口语语料库中出现次数
通过分析以上数据,我们对“odds”的词语搭配 情况有了全面的了解。词语搭配分析对研究词语行为 具有重要的意义,因为,“词语像人类一样喜欢聚集”, 一个词的出现往往预示或决定其他词的出现。所以, 研究词语与词语搭配在句法学、语义学以及语用学研 究中具有重要价值。在外语学习中,学习者并不是孤 立地学习单个的词汇,而是成组成块地学习和运用。[4]
本文以“kind of”为例:“kind of”在“Friends” 脚本语料库中总共出现 292 次,在 2 9 2 个索引行中
收稿日期:2010-05-30 基金项目:深圳市教育学会“十一五”规划教育科研第二批立项课题(X H 0 4 5 ) 作者简介:王颖(1 9 7 8 -),女,深圳信息职业技术学院应用英语系讲师,研究方向:英语教学。
表 3 “Friends”脚本语料库的四元词块
值(Mutual Information)是对随机的两个词相关性的
度量,也就是要查询的词和可能性搭配词在所有语料
库中的共现搭配比重(百分比),根据互信息 MI 值衡
量的是词语搭配的力度,观察 M I 值很容易发现语料
库中的专有名词、科技术语、特殊词组和固定搭配,并
· 129·
学术平台
CAREER HORIZON
职 业 时 空 2010年7月
表 5 “attracted”在“Friends”脚本语料库中搭配词的 MI 值
故此,本文把搭配跨度设置为 4:4,以下是”odds” 在“Friends”脚本语料库中的搭配信息:
一些普遍用法促进英语词汇教学。目前,在校生包括
很多英语教师都没有在英语国家口语交际的实战经
验,口语语料库的词块学习可以弥补这个缺憾。词块
的熟练掌握使学生节省编码时间、缓解交际的实时
压力、增加语言范例、提高口语流利性等。所以,我
总结表 7 和表 8 中的数据:“be attracted to”出 们应重视词块的研究和教学,培养学生理解和运用
COCA(corpus of contemporary American E n g l i s h )—美国当代英语语料库(h t t p :/ / w w w . americancorpus.org/)由美国杨伯翰大学 Mark Davies 教授开发,该语料库库容量目前为 4 亿多词 汇,涵盖美国 1990~2009 年的口语、小说、流行杂 志、报纸和学术期刊五大类型的语料,该语料库免费 在线供研究者和学习者使用。
表 2 “kind of”作为模糊用语的索引行
根据对索引行的分析,“I can’t believe”通常
后面都跟人称代词,表达对问题的看法,通常是一些
愤怒、惊讶和质疑的态度。(I c a n ’t b e l i e v e
我们发现模糊用语的发言者通常都语气含糊, (epistemic)+(you,it,they)personal involvement,
二、词块研究
1 . 提取高频词块(n - g r a m ) 词块的频数高低反映词块在真实语言材料中的 使用情况,词块的频数信息也可以使学生初步掌握 词块,并了解词块的难易程度,AntConc 软件中的 n- gram 功能可以提取高频词块。n-gram 是由 n 个连续 单词组成的序列,一个、两个、三个词组成的元组分 别叫 uni-gram,bi-gram,tri-gram 等。需要强调的 是,由于计算机只是机械地切分统计词块的频数,所 以对于计算机生成的词块表,一定要进行后期的意 义分析,把生成词块表中没有意义的词块或者与研 究主题不相关的词块去除。本文以二元词块和四元 词块为例。“Friends”脚本语料库的二元词块经过处 理后的检索结果如下:
2.提取语境共现(Concordance)发现单词的普遍用法 本文运用 AntConc 软件的语境共现(Concordance) 中的 K W I C 显示格式(关键词居中对齐显示)查看检 索结果,检索结果可以保存为 text 文件。 本文以 attracted 为例观察到“attracted”20 个例 子中有 18 个是“be attracted to”的用法。互信息 MI
且语料库的整体容量对 M I 值的影响并不是很大。一
本文以“I can’t believe”为例:“I can’t believe” 般认为当MI>=3.0时,搭配呈现出显著性。“attracted”
总共出现了 3 3 5 次,以下是部分索引行的展示:
在“Friends”脚本语料库中搭配词的 MI 值如下:
三、结束语
然后我们再输入“[be]* attracted to”
本文综合利用 A n t C o n c 软件和 C O C A 口语语料
表 8 “[be]* attracted to”在 COCA 口语语料库中的频数 库对“Friends”脚本语料库进行某些词块的定量分
析,以期在口语教学中引入自然真实的语料并找到
· 128·
第 6 卷·第 7 期 职 业 时 空
学术平台
CAREER HORIZON
去除表示类别(type)的意思后,剩下的 153 个索 引行经过观察分析是模糊用语(h e d g e ),部分索引 行如下:
表 4 “I can ’t believe”部分索引行
表 10 “odds”在 COCA 口语语料库中搭配词的 MI 值
表 10 显示 against 是与 odds 最常见的搭配,相关 的搭配词块行如下:
表头的英文说明如下:“C O N T E X T ”是上下文 限定,也就是“attracted”的搭配词;“TOT”表示 词块出现的总数;“ALL”表示所查到的与 attracted 搭配的词在整个语料库中出现的总数。检索出现的 495 个“attracted to”的组成部分又是那些呢?首先 我们输入“[be]attracted to ”
一、研究目的、方法
AntConc 是日本早稻田大学 Laurence Anthony 博士实验室研发的多平台的语料库分析工具。 AntConc 可以免费下载使用并具有良好的语言教学辅 助功能:生成单词表、索引呈现(Concordance)、检 索词或词组在上下文中高亮显示、设定关键词左右 语境、检索结果的打印和存储等。
表 1 “Friends”脚本语料库的二元词块
为了提高学生习得的词块个数和口语流利程 度,本文尝试运用 AntConc 免费绿色软件和 COCA 美国当代英语语料库作为研究工具,结合风靡美 国多年的长篇情景喜剧《老友记》(“Friends”)脚 本语料库中的词块从以下三个方面进行研究:高 频词块的提取、提取语境共现(Concordance)发 现单词的普遍用法、提取搭配词表发现词块的搭 配信息。
表 6 “attracted”在 COCA 口语语料库中搭配词的 MI 值
所以发现最常见的搭配词是:the,are,what 等, 这些搭配词构成了“what are the odds”词块,那 么 “what are the odds”是不是 odds 的惟一搭配 呢?参考美国 COCA 口语语料库的 o d d s 的搭配词及 其 M I 值数据如下:
词块称作“语块”、“程式化语言”、“词汇短语”、 它是指一个具有一定结构,表达一定意义的预制的 多词单位,它以整体形式被记忆储存,并在即时交 际时被整体提取,而不需要使用语法规则来加工分 析。我们可以认为词块为“在语料库中频繁出现的 不同长度的连续词语片段。”[2]根据文献[3]的结论“语 块个数、语块运用频度与二语口语流利性之间存在 着相关性,也就是说,语块个数越多、语块使用频 度越高,口语表达越流利。”所以要培养学生以词块 为基本单位记忆和使用词汇的习惯。语言尤其是口 语不应该只学习单词,而是学习预制结构,这样会 加快学习过程并且增强口语的流利性。[1 ]