基于语料库1
媒介话语研究的新视野_一种基于语料库的批判话语分析
第32卷 第3期V ol 32 N o 3广西大学学报(哲学社会科学版)Jo ur nal of G uang xi U niversit y(Philosophy and Socia l Science)2010年6月June,2010收稿日期:2010 02 26作者简介:钱毓芳(1965 ),女,浙江金华人。
浙江传媒学院国际文化传播学院副教授,语言学博士。
研究方向:媒介话语、语料库语言学。
媒介话语研究的新视野:一种基于语料库的批判话语分析钱毓芳(浙江传媒学院国际文化传播学院,浙江杭州310018)[摘 要] 语料库技术与话语分析方法相结合的方法是当今社会科学领域前沿的研究方法,被越来越多的西方学者运用于社会科学的各个领域。
媒介是文化、政治、社会生活的呈现者,报纸、电视、网络中的媒介话语都蕴含着文化、意识形态和价值观念,构成一种特殊的话语类型。
近年来在西方兴起的语料库和批判话语,给中国大众媒介的研究予新的视角和方法。
[关键词] 媒介话语;批判话语分析;语料库[中图分类号] G210 文献标识码:A 文章编号:1001 8182(2010)03 0080 05 自上世纪80年代后期,语言学家开始将媒介话语作为一种特殊的语言使用和语篇结构以及特殊的社会文化实践加以研究。
用于媒介语篇分析中的批判话语分析框架不仅在欧洲语言学与话语研究领域中得到应用,而且也被世界其它地方所采纳。
近年来西方尤其是英国许多学者开始将语料库技巧和批判话语研究有机结合起来运用到媒介话语研究中,两者相得益彰,成果层出不穷。
一、话语与媒介话语的内涵媒介的新闻报道具有社会性,它是一种社会实践,具有一些复杂的、人为的选择标准,而远非中立地反映社会现实或经验事实。
[1]2在过去的二三十年里,作为隐含文化、意识形态和价值观念的媒介话语越来越被社会科学领域所关注。
那么究竟什么是媒介话语?要回答这个问题我们首先讨论什么叫做话语。
按照Foucault 的话语概念,Stubbs 将之做了如下定义:话语是指自然出现在使用中的语言实情。
语料库课程(一)笔记解析
基本观点
词汇中心教学法坚持以词项(lexis)单词短 语结构为基本单位的语言观;重视频率在大缸 设计及教学中的作用;词汇中心教学法本质上 采取的是交际法,它强调将词项置于真实语言 素材中,并贯穿于真实任务中加以学习。同时 提倡学生自主的发现式学习。
Step1 打开Sub-corpus creator,导入seccel(只能导入 单个文件夹),显示文本文件,勾选case sensitive(区 分大小写),file contains “T1=”,获得男生/女生文本,保 存生成子库。
Step2 用PowerConc对两个子库进行比较。
2 趋势
small & specific
标记(mark-up)与标注
Sinclair和他的clean text policy (Sinclair认为语料库语言学应摒弃旧理论一切重来)
语料库语言学界对标注的态度(大部分研究者认为应该标 注),世界最大的语料库Bank of English可以进行词类检 索。
标注的主题
1. 人工标注 (Brown语料库) 2. 机器标注(准确率97-98%)
Step1:新建文件夹1:observeText 新建文件夹2:referenceCorpus
Step2:安装PowerGREP Step3: 设置PowerGREP (preferencegeneral,勾选1、2空格)
Step4: 格式转换(UTF-8转换成ANSI):
1) 找到04Academic,单击右键,出现search with PowerGREP(若有子文件,选第search subfolders)
语言学习观:行为主义 (行为主义)
基于语料库的tend和intend的对比研究 (1)
基于语料库的tend和intend的对比研究张艳妍(中国科学院研究生院外语系,北京,100049)摘要:通过在COCA语料库和CLEC语料库比较近义词tend和intend的用法,结果发现中国英语学习者有混用及语义韵含糊的现象。
本文以tend和intend为例,通过比较二词的类连接、搭配词及语义韵,对我国英语学习者的近义词习得提出探讨。
关键词:近义词;语料库;语义韵;词汇习得作者简介:张艳妍,1986年2月出生,女,汉族,籍贯江苏省海门市,中国科学院研究生院外国语言学及应用语言学学生,研究方向为词汇学,语料库语言学。
1.近义词辨析搭配能力是衡量语言使用者语言能力的重要指标。
Sinclair (2004)指出,语义韵的和谐是搭配地道性的先决条件。
Sinclair (1991)首先提出了语义韵的概念,认为一些节点词(node)总是与某一类具有相同或相似特点的搭配词(collocate)在文本中反复出现。
语义韵分为消极语义韵、积极语义韵和中性语义韵。
传统的课堂教学中,教师给出学生近义词语的汉语释义及例句,学生做大量的笔记,对近义词的辨析可以达到“言传”而不是“意会”的程度。
教师和学生更倾向于依赖工具书或者凭语感进行分析,从而比较近义词之间的差异。
词典中所提供的义项和例句对于英语学习者来说比较抽象,虽然这些义项是对近义词在语言使用中的大量用法的归纳总结。
以tend 和intend为例,《牛津高阶英汉双解词典(第四版增补本)》(2002)对这两个词作为动词的解释如下:中英文释义例句tend 1.take care of or look after sb./sth. 照料,照管(某人/某物)2.(US) serve customers in (a shop, bar, etc) 在(店铺、酒吧等)中接待顾客1. nurses tending the injured 照料受伤者的护士shepherds tending their sheep 照管羊的牧人2.tend the store 照看店铺3.[It] be likely to behave in a certain way or tohave a certain characteristic or influence 倾向;趋向;趋于4.tend to/ towards sth.: take a certain direction 朝某方向3.I tend to go to bed earlierduring the winter. 我在冬天常睡得较早。
基于语料库的研究范式
基于语料库的研究范式是一种以语料库为基础,通过对大量真实语言数据的分析和处理来研究语言现象、语言使用和语言变化的方法。
这种范式通常包括以下几个步骤:
1. 语料库建设:收集大量的语言数据,并建立语料库。
这些数据可以来自不同的来源,如文学作品、新闻媒体、社交媒体等。
2. 语料处理:对语料库中的数据进行预处理,包括文本清洗、分词、词性标注等。
3. 语料分析:使用各种统计和分析方法来处理语料库中的数据。
这可能包括频率分析、关键词提取、主题建模等。
4. 结论得出:根据语料分析的结果,得出关于语言现象、语言使用和语言变化的结论。
这些结论可以为语言学、文学、文化等领域的研究提供有益的启示和证据。
基于语料库的研究范式具有以下优点:
1. 大量的语言数据支持:语料库可以包含大量的真实语言数据,使得研究者可以对语言现象进行深入的研究和分析。
2. 定量与定性相结合:基于语料库的研究范式可以将定性和定量的方法相结合,从而更全面地了解语言现象的本质和规律。
3. 跨学科性:基于语料库的研究范式可以应用于多个学科领域,如语言学、文学、文化学等,使得不同学科之间的交流和合作更加便捷。
总之,基于语料库的研究范式是一种重要的语言研究方法,可以帮助我们更好地了解语言的本质和规律,进一步拓展和丰富世界
文化多样性。
基于语料库研究——rea1和really类连接、搭配和语义韵
的 作 用 及语 料库 驱 动 学 习对 中国 英 语 教 学 的 启 示 。
本 研 究选 择 了 ra 和 ral el el y为研 究 对象 。 O fr xod词 典 对 ra 和 al el el y的定 义是 :
Re l a t l x si g o a e i g a d n ti g n d o rt n e . a : cual e it rh pp n n n o ma i e r p e e d d y n Re ly u e o s y wh ti c u l h a to h r t b u t . a l : s d t a a s a t a l t e f c rt e tu h a o tsh y
GU0 Pe - e i f n
( h n qu No ma n v r i , h n q u He a , 7 0 0 S a g i r l ie s y S a g i n n 4 6 0 ) U t
【 src] hspprepoe h op s b sd me o n s digclgtn cl ct n ad sm ni poo yi aeo “R a”ad Abta tT i ae x lrstecru — ae t d i t yn ol ai , o oa o n e a t rsd n cs f h u i o l i c el n
科技信 息
0本刊重稿 O
S IN E&T C O OG N O MA I N CE C E HN L YIF R T O
21 0 1年
第1 7期
基于语料库研究
ra 和 ra y类 连 接 、 配 和 语 义 韵 el el l 搭
基于语料库的自然语言处理技术研究
基于语料库的自然语言处理技术研究随着人工智能技术的发展,自然语言处理逐渐成为人工智能领域的热门研究方向之一。
自然语言处理技术是一种能够让计算机读懂、理解人类语言的技术,涉及到语音识别、语音合成、文本分类、机器翻译等多项技术。
其中,基于语料库的自然语言处理技术是自然语言处理技术中一个非常重要的分支。
本文将从以下几个方面对基于语料库的自然语言处理技术进行研究,包括概念、方法以及应用等方面。
一、基于语料库的自然语言处理技术概述基于语料库的自然语言处理技术是指,根据文本语料库中的统计规律和概率模型等方法对文本进行处理、分析和计算,以达到文本理解的目的。
该技术涵盖了很多自然语言处理的子领域,例如词法分析、句法分析、语义分析等。
二、基于语料库的自然语言处理技术方法基于语料库的自然语言处理技术主要有以下三个基本方法:1. 文本预处理文本预处理是指对原始文本进行基本处理,以便进行下一步的分析。
包括去掉标点符号、停用词等,以及进行分词操作和词性标注等。
2. 构建模型构建模型是指利用文本分类、聚类等方法建立模型,以对大规模文本进行处理。
一些常用的模型包括朴素贝叶斯模型、词袋模型、主题模型等。
3. 应用技术应用技术是指依据特定领域需求,采用不同的技术对文本进行处理。
例如,在机器翻译领域,可以使用神经网络模型等技术进行翻译。
三、基于语料库的自然语言处理技术应用基于语料库的自然语言处理技术在各个领域都有广泛的应用。
1. 机器翻译机器翻译是指利用计算机技术将一种自然语言文本自动翻译成另一种自然语言文本的过程。
它可以通过对多语言语料库的分析,提高翻译的准确度和效率。
2. 智能客服智能客服是指利用人工智能技术,使机器人能够像人类一样进行对话,并较好地解决用户的问题。
其中,基于语料库的自然语言处理技术在智能客服系统中发挥重要作用,依据用户的常见问题和回答建立模型,提供自动化的解决方案。
3. 新闻自动摘要基于语料库的自然语言处理技术还可以用于提取新闻文本中的重要信息,生成一篇简明扼要的新闻摘要,使人们能够更快地浏览和理解新闻。
一种基于语料库的日语动词格框架自动构造技术
C r u — a e p o c o Au o t o sr cin f o p sb s d Ap r a h t tmai C n tu t so c o
Jp n s ra s rme a a e eVeb lCaeF a s
N u—u D I i— Y N C nyn H NJ - n I i , A ny R y X u, I u —a ,C E i j au
节” 的短语 结构文法 和格 语法进 行 , 采用 句法 、 语义 分析 一体
译 系统 主要包 括 日语分 析、 转换 和汉语 生成 。在 日语分 析 中, 根据 日语语法 的特点 ¨ , 』采用 基 于短 语结构 文法 和格 语法 的句法 、 义分析技术。分析过程 中对格短语深层格设置 的准 语 确与否 , 对最终 机器翻译 结果的准确生成有很重要的影响 。格 短语深层格设置的依据是 日语动词格框架词典 , 因此翻译系统 动词格框架词典的完备性越好 , 翻译 的效果就越 好。本文结 合
q a t y o a a e e r w c r o a u i fJ p s a op r . n t n
Ke r s ma hn rn lt n; a a ee;e s rmma ;vra aef e;c nt cin u l tt t s y wo d : c iet s i J p n s a ao aega r eb c s r l m a o s u t ;r e;s i i r o a sc
维普资讯
第2 4卷 第 6期
20 0 7年 6 月
计 算 机 应 用 研 究
Ap l ain R sac fCo ues pi t e e rh o mp tr c o
Vo
基于COCA语料库和CCL语料库的翻译教学探索
谢谢观看
四、CCL和COCA在线语料库的应用实例
1、CCL在线语料库在汉语研究中的应用。CCL为汉语研究者提供了大量的真实 语料数据,帮助研究者深入了解汉语的语法、语义及语用特点。例如,通过对比 不同年代、不同领域的语料数据,可以发现在用词、语法等方面的差异和变化。
四、CCL和COCA在线语料库的应用实例
二、CCL在线语料库使用方法
3、执行检索。在选定检索方式后,用户需要输入相应的关键词或句子,然后 执行检索操作。
二、CCL在线语料库使用方法
4、处理检索结果。CCL会返回与关键词或句子相关的语料数据,用户可以根 据自己的需求对数据进行下载、分析和利用。
三、COCA在线语料库使用方法
三、COCA在线语料库使用方法
2、量化统计分析
2、量化统计分析
语料库具备强大的量化统计和分析功能,可以提供词频、搭配、语法结构等 各种数据分析结果。这些数据有助于学生了解目标语言的常用词汇、短语和句型 结构,掌握目标语言的表达习惯和规律。在翻译教学中,教师可以引导学生利用 语料库进行数据挖掘和分析,发现语言的规律和特点,从而更好地进行翻译实践。
CCL在线语料库是一个基于互联网的汉语语料库,涵盖了多个领域和主题。为 了方便用户使用,CCL提供了多种检索方式。以下是使用CCL在线语料库的步骤:
二、CCL在线语料库使用方法
1、确定检索关键词。首先,用户需要明确自己的研究方向和需求,选择合适 的关键词。
2、选择检索方式。CCL提供了关键词检索、句子检索、文件检索等多种检索 方式,用户可以根据自己的需求选择合适的检索方式。
三、COCA在线语料库使用方法
3、执行检索。在选定检索方式后,用户需要输入相应的关键词或句子,然后 执行检索操作。
基于语料库的现代汉语“一VV”格式研究
“
,
,
,
。
} } }
}
、
关键词 现 代 汉语
:
;
“
一 v 丫 格式 ; 右 部 结 构
2
, ,
.
’
一 引言
“
一 表示 动作 行 为 的短 暂性 少 量 义
”
,
、
”
、
、
作 为现代 汉语 中重 要 的一 类实 词 近 年来 关 于 动词重 叠 的研 究 越来 越 多 查 找文 献发现 研 究动 词 重 叠 的文 章 按 内容基本可 分 为 三 大类 现代 汉 语 方 言 古代 汉语 本 文 主 要 分 析 了 现代 汉语 中有
二
、
V l
”
的语料 进 行检索 共 得 到 3 1 9 条语 料
, 。
。
以 下将对 这 4 3 6 条语 料
具体 动词
一V 了 (3 4 个) 站 旱 干 住 唱 堆 追 关 剪 跑 烧 走 抓 上 等 坐 推 睡 打 拖 病 钻 想 挂生 去 用 吃 笑 说 趴 转 来 选
胭 比 肤 际 发 堆 攀 熬 尿 搞 跑 套 来 买 跳 说 蹿 卖 坐 滚 要 翻 开 住 写 问 看 关 骑 举 等 吃 扭 背 窜 完 酷 飞 睦 滩 衍
, 。
”
,
格 式 中有 语 义 的虚 化 在 表示 动 量 成分 的基 础 上 它还 表示 这一 动 作一 开 始就 延续 从 而 达 到 某个 时 间或者某个 地 点 另 外 一 指 动 词 的短 暂性 少 量义 经 过短 暂 的
V V
, , , 。 ,
“
一 在 现代 汉语 一
“ ”
”
“
”
、
基于语料库的语言学研究
基于语料库的语言学研究一、引言语言作为人类最为重要也是最为复杂的交流工具之一,其背后的语言学研究不断地推进着人类文明的发展。
语言学研究可以追溯到古代,一直发展到现代,其中最为重要的发展之一就是基于语料库的语言学研究。
语料库是大量有意(corpus)或无意(text)地搜集了一定时期,一定范围内的语言素材,并且还可以通过计算机的技术手段对其进行快速存储、处理、分析的语言学工具,在语言学领域发挥着极为重要的作用。
二、背景基于语料库的语言学研究的兴起得益于现代计算机技术的进步。
在计算机技术的支持下,基于语料库的语言学方法可以更快速、更准确地获取数据和做语言学分析。
此外,基于语料库的语言学方法还能够涵盖更广泛的语言现象,而且也能够获取到更为真实的语言使用数据。
三、分类基于语料库的语言学研究主要可以分为三类,分别是词汇、语法和语效三类。
1. 词汇语料库中的词汇是基于语言学研究必不可少的组成部分。
通过语料库的数据,语言学家可以从词汇角度对语言做大规模研究。
通常采用的方式是计算出词频、词形变化和同义词等,并且研究不同词汇所组成的词组、短语以及它们的用法等。
通过这种方式,可以揭示语言的使用频率、句法结构和语言之间的相互作用。
2. 语法语料库还可以帮助人们做大量的语法研究。
在语料库中,语言学家可以对不同语言中的语法结构和语法现象做有机的分析。
更多的是,可以对语言中的句法结构、语法规则等进行实证研究,或者是研究不同语言之间的语法结构方面的差异。
研究语法现象的一个重要目的是为了帮助人们更好地理解话语的结构和语段之间的连贯性。
3. 语效语效也是另一个基于语料库的语言使用研究。
通过语料库,可以分析不同场合下、不同语用目的、不同语者的语言使用特征。
这在语言学习、文化研究和语言治疗等方面有着重要的应用。
四、应用基于语料库的语言学方法在许多领域得到了广泛应用,例如:1. 语言学教育:通过语料库收集并分析具体的语言数据,帮助学生更好地掌握语言。
基于语料库的话语标记语I think的语法化和元功能研究
基于语料库的话语标记语I think的语法化和元功能研究初爱霞
【期刊名称】《语文学刊》
【年(卷),期】2016(000)004
【摘要】I think作为高频使用标记语,最终演变为话语标记语是语法化的结果。
本文通过COHA(美国英语历史语料库),根据I think位于句中的不同位置的使用频率考察I think的语法化过程,历时地分析I think语法化的演变规律,并研究I think语法化过程中凸显的元功能及其规律。
研究发现,I think随其位于句首、句中、句尾位置的变化渐进式地完成语法化过程,I think位于句首、中、尾凸显的元功能依次为:概念功能>人际功能>语篇功能。
【总页数】4页(P8-10,19)
【作者】初爱霞
【作者单位】山东财经大学国际教育学院
【正文语种】中文
【中图分类】H314
【相关文献】
1.中国英语学习者书面语中推导性话语标记语使用情况调查——一项基于语料库的研究 [J], 唐丽玲
2.中国英语学习者话语标记语使用发展研究及教育启示——基于SECOPETS语料库语料的研究 [J], 林丽丽
3.语际话语标记语的语用调查分析及写作教学研究——基于CLEC和BROWN语
料库的语际话语标记语对比 [J], 苏红英
4.中国英语学习者书面语中话语标记语使用频率的研究--基于BNC和SWECCL语料库的对比分析 [J], 韩亚华
5.基于语料库的话语标记语I think的语法化和元功能研究 [J], 初爱霞
因版权原因,仅展示原文概要,查看原文内容请购买。
基于语料库的《一间自己的房间》的文体学分析
收稿日期:2020-12-26语、词组、语法结构和搭配;二是研究文体结构和主题;三是研究作家写作特点及风格(陈心怡 等,2016)。
伍尔夫的语言独树一帜,在篇章、句法和词汇方面均展现出她的与众不同。
用基于语料库的方法来研究其作品能更准确地分析其作品的主题思想。
文学语料库的建立及研究思路语料库文体学研究通过分析文本的词汇和语法特征,特别是主题词或词组,能有效揭示故事主题和情节发展走向(Toolan ,2009)。
本文主要研究伍尔夫的《一间自己的房间》的语言特点,包括检索文本主题词、考察高频词簇和主题词的方向与领域、分析作者使用语言的用意和心理及作品所蕴含的社会现象和女权主义思想。
笔者首先建立《一间自己的房间》语料库,然后运用语料库软件LancsBox v4.5的Words (主题词检索、和其他语料库比较)、GraphColl (寻找关联和交叉关联并将语料库里的词语搭配图像化)和Ngrams (检索词簇)检索功能,将新建语料库与LOB 语料库(由英国兰卡斯特大学、挪威奥斯陆大学与卑尔根大学联合建立的100万词次的英国英语语料库)进行对比分析,以找出此作品的语言的特殊性。
最后,笔者从文本的词汇层和句法层进行分析,测试以上两个语料库之间是否存在显著差异。
2 数据提取及分析本研究基于两个英文语料库展开:一是基于1993年企鹅出版社出版的英文原著《一间自己的房间》而建立的语料库,作者是弗吉尼亚·伍尔夫;二是LOB 语料库,该语料库包括一般小说、侦探小说、科幻小说、冒险小说和爱情小说,涵盖了20世纪小说的各种类型。
两个参照语料库中的作品均为同世纪小说,因此具有可比性。
笔者通过对比两个语料库中的主题词以及高频词簇进行分析。
2.1 词汇分析主题词即可以解释文学作品主题的词汇,研究者通过对语料库中主题词的检索与提取能够了解作品表达的思想。
也就是说,“分析语言特征的基础是对其关键性进行分析”(桂诗春,2009)。
基于语料库的《江格尔》词语汉译探究——以《布和蒙根希格西力格的婚礼》一部为例
基于语料库的《江格尔》词语汉译探究——以《布和蒙根希
格西力格的婚礼》一部为例
宝乐尔
【期刊名称】《今古文创》
【年(卷),期】2024()16
【摘要】《江格尔》是我国三大史诗之一,《江格尔》的汉译充分体现了中华文化的交流、交往、交融与中华民族共同体意识。
《江格尔》的词语翻译是翻译过程中最基本的环节之一,在对原文的理解和对译文的表达中词义的理解和译文词语选择至关重要。
基于语料库研究方法,对黑勒、丁师浩汉译的《布和蒙根希格西力格的婚礼》一部的词语翻译方法进行统计与分析后得知,译者灵活运用了各种翻译方法,用恰当的词语准确再现了原文词语含义。
【总页数】4页(P104-106)
【作者】宝乐尔
【作者单位】西北民族大学
【正文语种】中文
【中图分类】H315
【相关文献】
1.基于语料库的英汉开始类词语的语言差异性探究——以start,begin和开始为例
2.关于布和贺希格用文化扶持民族的思想及其实践(蒙文)
3.文化翻译视角下《江格尔》中文化特色词的英译探究——以色道尔吉的汉译本为例
4.基于语料库的译者
风格研究
——以《了不起的盖茨比》两译本四字格汉译为例
因版权原因,仅展示原文概要,查看原文内容请购买。
基于语料库的隐喻识别方法
基于语料库的隐喻识别方法隐喻是一种常见的语言现象,它在日常交流中经常被使用。
隐喻的语言表达方式是通过比喻的方式来传递信息,这种传递方式常常涉及到非字面意义的语言表达。
因此,隐喻的识别对于语言理解和自然语言处理具有重要的意义。
本文将介绍一种基于语料库的隐喻识别方法,以帮助读者更好地理解隐喻的本质和识别方法。
一、隐喻的概念和特点隐喻是指通过比喻的方式来传递信息的语言表达方式。
它的特点是在传递信息的过程中,使用了非字面意义的语言表达。
例如,我们常说“他是一只老狐狸”,这里的“老狐狸”并不是指字面意义上的老年狐狸,而是用来形容一个人的机智和狡猾。
这种比喻的方式虽然没有直接说明这个人的特点,但是通过比喻的方式,我们可以更加生动地描述这个人的特点,使得信息更加丰富和生动。
隐喻的另一个特点是它常常涉及到非常规的语言表达方式。
例如,我们常说“他的思维如同一张网”,这里的“思维”和“网”之间并没有直接的联系,但是通过比喻的方式,我们可以更好地理解这个人的思维方式和特点。
因此,隐喻的识别需要对非常规的语言表达方式有较强的理解和识别能力。
二、基于语料库的隐喻识别方法基于语料库的隐喻识别方法是一种常用的隐喻识别方法。
这种方法的基本思想是通过分析大量的语料库数据,发现隐喻的常见形式和特点,从而识别出隐喻的存在。
这种方法的优点是可以利用大量的语料库数据,发现隐喻的常见形式和特点,从而提高隐喻的识别准确率。
下面将介绍基于语料库的隐喻识别方法的具体步骤。
1. 建立语料库建立语料库是基于语料库的隐喻识别方法的第一步。
语料库是指大量的文本数据,包括书籍、新闻、科技文章等,这些文本数据可以被用来发现隐喻的存在。
建立语料库的过程中需要注意以下几点:(1)语料库的规模要足够大,以便能够涵盖各种类型的文本数据。
(2)语料库的来源要广泛,以便能够反映不同领域和文化背景的语言表达方式。
(3)语料库的质量要高,以便能够准确地反映语言表达的特点和隐喻的存在。
基于语料库的英汉语比较与翻译考察
• 语言比较研究: 语言比较研究:
应用的(教学、翻译、双语词典研编) 应用的(教学、翻译、双语词典研编)
• 比较:纵向的(历时) 比较:纵向的(历时) • 横向的(共时) 横向的(共时) • 理论视角: 理论视角: • 传统语言学的 • 形式语言学的 • 功能语言学的 • 认知语言学的
近年语言对比倾向实证和依据语料库
• 从2008年第五届对比语言学大会(The Fifth 年第五届对比语言学大会( 年第五届对比语言学大会 International Contrastive linguistics Conference)200多篇论文看: ) 多篇论文看: 多篇论文看 • 句法 语义的比较研究占据大多数,约占全部论文 句法-语义的比较研究占据大多数 语义的比较研究占据大多数, 的60%,其次有语用语篇的分析,词汇学方面的 ,其次有语用语篇的分析, 比较研究等。 比较研究等。 • 具体实证研究占86%以上,宏观的理论研究少。 具体实证研究占 以上,宏观的理论研究少。 以上 • 基于语料库的研究日渐增多,已达 基于语料库的研究日渐增多,已达60%。 。
1)a With my present level (of French), I can not read French newspaper easily. • 1 ) b 以我现在的 ( 法语 ) 水平 , 我还不能轻松 以我现在的( 法语) 水平, 地读法文报纸。 地读法文报纸。 • 1)c 我的法语,看报很吃力。 我的法语,看报很吃力。 • • 2)a If you take this medicine, your illness will surely be cured. 你要是服用这个药,你的病肯定能治好。 • 2)b 你要是服用这个药,你的病肯定能治好。 • 2)c 这药吃了准好。 这药吃了准好。
语料库概念与语料库语言学基础知识
语料库概念与语料库语言学基础知识语料库语言学是以语料库为基础的语言学研究方法。
语料库指的是大量真实语言使用情况的集合,可以包含各种类型的语言材料,例如口语、书面语和专业语言等。
语料库语言学主要涉及以下几个方面:1、语言描述和分析:通过对语料库中的语言数据进行收集、注释和分析,得到关于语言结构和功能的描述和分析。
2、语言学习和教育:通过语料库分析和应用,为语言学习者提供更真实、生动和有效的语言学习材料,同时也可以开发出更优质的语言教学软件。
3、自然语言处理:语料库作为自然语言处理技术的基础数据,能够为机器翻译、文本分类、信息检索等领域提供重要支持。
4、语言变化研究:通过比较不同时间段、地区和社会群体的语料库,可以研究语言变化的规律和特点。
在实际应用中,语料库语言学能够促进语言技术的发展,提高语言学研究的精度和可靠性,同时也给我们带来了更深入的语言理解和认知。
标题:语料库语言学研究的重要性一、语料库语言学的概念及发展历程语料库语言学,是指使用语料库进行研究的语言学分支,其研究对象是自然语言。
语料库是一个按照某种原则建立的、用于语言研究的庞大数据集合。
语料库语言学的理论基础是结构主义语言学、生成语法和实证语言学。
随着计算机技术的飞速发展,语料库规模越来越大,语料质量也越来越高,语料库语言学得以迅速发展。
二、语料库语言学的重要性1、提高语言教学效果语料库语言学可以通过收集大量语言数据来提高语音、词汇、语法和语用的教学效果。
比如,通过语料库分析来确定常见的语言错误类型,帮助学生避免这些错误;通过语料库调查来了解实际使用情况,让教学更接近实际使用。
2、推动语言研究发展语料库语言学以语料为基础,通过数据驱动的方法对语言进行分析,可以帮助我们更好地理解语言的本质和变化规律。
语料库语言学可以帮助我们更好地研究语音、词汇、句法和语用等多个方面,也能够关注不同社会群体间语言使用的差异,因此为语言研究提供了新的视角。
3、促进跨学科研究语料库语言学的方法论在不同领域都有应用。
基于语料库和语料库驱动的程式语系统、功能、结构研究程式语术语
程式语:术语多样性及界定复杂性的相关研究3.1 引言近些年来,程式语已经成为西方理论语言学和应用语言学的重要研究领域之一。
研究者们就程式语的名称、性质、范畴、研究方法及程式语的理论研究在实践中的应用等话题进行了深入而细致的探讨,成果显著,确立了程式语作为一个独立研究领域的理论地位。
目前,关于程式语的研究已经日趋成熟。
其重大标志有两个:第一,重要的国际会议,包括1994年和1996年分别在利兹(Leeds)和莫斯科(Moscow)召开的“国际程式语专题讨论会”(The·International·Symposia·on·Phraseology)以及1992年和1996年分别在萨尔布吕肯(Saarbrucken)和格拉茨(Graz)召开的“欧洲国际程式语会议”(The·International·EUROPHRAS·Congress);第二,以程式语为主要焦点的大规模的研究项目的开展(Cowie,1998:1)。
程式语受到广泛关注是话语研究在语言学研究史上占据重要地位的标志。
那么,程式语对应的英语翻译是什么?研究者对程式语是如何界定·的?界定程式语的组织原则是什么?程式语的本质特征又是什么?程式语到底该如何定义?下文将对这些问题进行一一论述。
3.2 程式语的名称问题程式语在汉语中还被称为“公式语”“语块”“多词单位”等。
它对应的英语翻译有很多,如·formulaic·utterance,·formulaic·speech等。
Formulaic(程式化的),以某些常用语的重复为特征的语言现象称为程式语(formulae)。
许多口头诗歌,尤其是史诗,都是程式化的,它们重复使用相同的表述形容词或修饰语及相同形式的引言。
从另一种意义上看,如果一个作品与一种体裁的固定模式可以与预期的相一致,那它就可以称为程式化的作品。
基于大数据的语料库设计
2023-11-09•引言•大数据语料库概述•基于大数据的语料库设计策略•大数据语料库的应用场景与案例•大数据语料库面临的挑战与未来发展目•结论录01引言研究背景与意义01随着大数据时代的到来,语料库作为一种重要的语言资源,在语言学、计算机科学、信息科学等领域的研究和应用中发挥着越来越重要的作用。
02传统的语料库建设方法已经无法满足现代语言处理领域对大规模、多样性、实时性等需求,因此基于大数据的语料库设计成为了研究的热点和难点。
03基于大数据的语料库设计能够提供更加全面、真实、多样的语言资源,有助于深入探究语言的本质和规律,为自然语言处理、语言教育、文化传承等领域提供更加精准、高效、智能的支持和服务。
研究目的与方法研究目的本研究旨在探索基于大数据的语料库设计方法和应用,构建一个大规模、多样性、实时性的语料库,以满足现代语言处理领域的需求,并探究其在实际应用中的效果和价值。
研究方法本研究采用文献综述、实证研究等方法,首先对基于大数据的语料库设计的相关研究进行综述和分析,然后设计并构建一个基于大数据的语料库,最后通过实际应用案例来验证该语料库的效果和价值。
02大数据语料库概述大数据语料库定义定义大数据语料库是一种基于大数据技术构建的,用于存储、管理和分析海量语言资源的数据库。
目的旨在提供一种高效、可扩展的语言处理解决方案,以满足不同领域的需求,如自然语言处理、机器翻译、舆情分析等。
海量数据大数据语料库具备海量的数据存储能力,能够涵盖多种语言资源,并支持实时数据更新。
深度分析通过对海量数据的深度分析,大数据语料库能够揭示语言现象和规律,为语言学研究提供有力支持。
高效查询借助大数据技术和分布式架构,大数据语料库具备高效的数据查询和处理能力,可快速响应大规模的数据请求。
灵活扩展大数据语料库具备灵活的可扩展性,可根据需求进行扩展和定制,满足不同领域的应用需求。
大数据语料库的特点大数据语料库的构建流程应用开发基于语料库的应用开发,如自然语言处理、机器翻译、舆情分析等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于语料库的《麦田的守望者》检索分析
20 世纪80 年代以来,随着计算机的广泛应用,语料库语言学得到了蓬勃的发展。
它为语言学研究提供了一套全新的研究思路和方法,广泛应用于语言研究的各个层面。
由于计算机技术和因特网络的普及和发展,人们开始使用各种各样的语料库索引软件来作词汇搭配、翻译以及中介语的描述和分析。
文本索引作为一种强有力的文本分析工具,不仅被广泛地应用在应用语言学的领域中,而且近年来在文学作品的研究中也开始发挥它们的独特作用。
由于不少索引软件开发的最初目的是用来进行文学作品分析的(如Wordsmith Tools、TACT、Concordance 等) ,因此,在文学作品研究中,我们可以对某个作家的一部或多部作品进行分析和对比研究,这种分析对研究作家某种语体风格的形成或主题的表达提供了可靠的量化依据[1 ]165 。
本文通过使用Wordsmith Tools 语料库索引软件对艾米莉·勃朗特的代表作《呼啸山庄》进行文本主旨、人物塑造与剧情发展等方面的分析
一、文本的总体统计特征及分析
基于语料库的语言研究一般采取定性与定量相结合的研究方法。
要进行定量研究就要涉及文把《麦田的守望者》的文本用Wordsmith Tools 软件的wordlist 功能进行统计。
它提供了有关这个文本的一些简略统计数字,如:字节数(bytes) 、形符数( tokens ,指文本一共有多少个词) 、类符数(types ,指文本一共有多少个不同的词形) 、类符形符比( type/ token ratio ,指形符与类符的比率, 即用词的变化性) 、标准化类符形符比( Standardised Type/ Token) 、平均词长、句子数等[1 ]153 。
如表1 所示在这个文本中,从其字节数、形符数和句子数可以推断出这是一个较长的文本。
因为单纯的形符数和类符数不能反映语篇的本质特征,如本文的类符形符比只有 3.39,但按一定的长度分批计算文本的类符形符比求平均值就可以得出标准类符形符比。
它在一定程度上反映了语篇的某种本质特征,即用词的变化性。
通过观察本文的标准类符形符比数35.18,可以推断此文本的词汇变化量为中低等程度。
整个文章的句长为11.68,与平均句长14. 44 相比,意味着它比一些简易文本的句子要短。
二、主题和情节的检索与分析
通过使用WordSmith Tools 语料库检索软件中的wordlist 和plotting 功能,对小说文本的情节进行统计分析。
首先用Wordsmith Tools 对文本进行统计,得到一个主题词表(省略) ,从而得到该文本中出现频率最高的实义词。
其中I出现4281 次排在6 位,He 和She排在4、位,出现频率也相对较高,由此可以确定作品是以第一人称张开叙述的,。
然而,对这些词的初步分析仅可以让我们对本文内容的大致信息有所了解,但是无法进一步确定哪些信息重要,哪些信息不重要。
因此,作者又选取了Brown 语料库作为参照语料库,按照关键值( Keyness Value) 生成关键词词表( keyword list) ,
从图中我们可以得出一些信息:
(1)作者是以一人称的口吻进行叙述的,以一个青少年的口吻叙述了自己的所思所想、所见所闻和行为举止。
(2)整个故事发生的地点在美国而且是在二战时期,二战后美国在社会异化、政治高压和保守文化三股力量的高压下,人们的心里与价值观都产生了变化(3)文章的风格也很新颖,在语言的运用上,本书也独创一格。
全书用青少年的口吻平铺直叙,不避琐碎,不讳隐私,使用了大量的口语和俚语,生动活泼,平易近人,达到了如闻其声、如见其人的效果,增加了作品的感染力,使读者更能激起共鸣和思索,激起联想和反响
笔者又利用Wordsmith Tools 的plotting 功能作出主题词图(图2) ,通过观察主题词在文本中的位置分布,全方位地分析小说情节,梳理情节进展的脉络
I
I
you
parent
thinik
goddamn
三、人物刻画的检索与分析
通过利用语料库软件的语境共现(concord)
键词即( KWIC[6 ] ) 检索,列出所有人物出现时的功能,输入关键词(如故事人物) 进行带语境的关上下文,能够检索出对于重要人物的描写,这对研究人物性格以及作者对人物的刻画,都有不可或缺的重要性。
下面,笔者将结合Wordsmith Tools语料库软件的统计结果,就小说主人公I 进行语料库分析
本书以主人公霍尔顿自叙的语气讲述自己被学校开除后在纽约城游荡将近两昼夜的经历和心灵感受。
它不仅生动细致地描绘了一个不安现状的中产阶级子弟的苦闷仿徨、孤独愤世的精神世界,一个青春期少年矛盾百出的心理特征,也批判了成人社会的虚伪和做作。
霍尔顿是个性格复杂而又矛盾的青少年的典型。
他有一颗纯洁善良、追求美好生活和崇高理想的童心。
他对那些热衷于谈女人和酒的人十分反感,对校长的虚伪势利非常厌恶,看到墙上的下流字眼便愤愤擦去,遇到修女为受难者募捐就慷慨解囊。
他对妹妹菲芯真诚爱护,百般照顾。
为了保护孩子,不让他们掉下悬崖,他还渴望终生做一个“麦田里的守望者”,发出“救救孩子”般的呼声。
可是,愤世嫉俗思想引起的消极反抗,还有那敏感、好奇、焦躁、不安,想发泄、易冲动的青春期心理,又使得他不肯读书,不求上进,追求刺激,玩世不恭;他抽烟、酗酒、打架、调情,甚至找妓女玩。
他觉得老师、父母要他读书上进,无非是要他“出人头地……以便将来可以买辆混帐凯迪拉克”。
他认为成人社会里没有一个人可信,全是“假仁假义的伪君子”,连他敬佩的唯一的一位老师,后来也发现可能是个同性恋者,而且还用“一个不成熟男子的标志是他愿意为某种事业英勇地死去,一个成熟男子的标志是他愿意为某种事业卑贱地活着”那一套来教导他。
他看不惯现实社会中的那种世态人情,他渴望的是朴实和真诚,但遇到的全是虚伪和欺骗,而他又无力改变这种现状,只好苦闷、彷徨、放纵,最后甚至想逃离这个现实世界,到穷乡僻壤去装成一个又聋又哑的人
四、结语
基于语料库的文学作品分析方法“虽然在语言特征判断方面无重大突破,但实施起来却快捷、准确,省时省力,而且证据充实, 令人信服。
”[从第二次世界大战结束到今天的当代美国文学中,有两部小说经过三十多年时间的考验,已被认为是“现代经典”:一部是黑人作家拉尔夫·艾里森(Ralph Elli。
, 1914一)的《无形人》(The Invisible Man,1952),一部就是本书。
本书篇幅不大,只十几万字。
作者除发表过一些短篇小说外,迄今只写过这一部长篇小说,却在美国社会和文学界产生了巨大的影响。
参考文献::
[ 1 ] 杨惠中. 语料库语言学导论[M] . 上海:上海外语教育出版
社, 2002.
[ 2 ] 肖普勤,黄凤枝. 基于语料库的文学作品分析方法初探[J ] .
美中外语, 2005 (8) :41 - 43.
[ 3 ]《three days to see>> 海伦.凯特中国城市出版社
[ 4]《麦田的守望者》杰罗姆·大卫·塞林格
[ 7 ] 何安平. 《用语料库研究语言》导读[ C] ∥Thomas J , Short
M. Using Corpora for Language Research. 北京:外语教学与
研究出版社, 2001 :28.。