基于语料库对文学作品检索分析
基于语料库的文学作品检索分析——以越南中篇小说《志飘》为例
其后的是氏娜(包括Thi和N6)和百户建(包括cu、 bfi、l夕和Kiln),这是《志飘》中的3个主角,可见 故事主要围绕志飘、氏娜和百户建三者展开。 其次,通过对《志飘》关键词表检索结果的分 析,可以看出作品发生的地点是一个“小村庄” (1hng),主人公的牛活充满了“饮洒”(u6ng nrqu)、 “宿醉”(say)与“詈骂”(chfri)等元素,而且经 历过一段“牢狱”(伯)生活。 2.2基于词图的故事情节分析 词图是根据主题词表计算出各个主题词在文本 中的位置分布,进而绘制的主题词分布图。主题词 在词图中出现的先后顺序和分布密度,直观地反映 了作品主题发展和情节推进的情况,因此相对于传 统的文学作品研究方法来说,词图对了解文本的情 节具有明显的优势。运用WordSmith Tools的词图 分析功能,可以生成《志飘》的情节展示图(如图 3所示)。借助它,读者可以对小说情节的发展脉络 产生直观而具体的认识。 图3.《志飘》的情节展示图(部分)固
N
fe)(1靠le
chipheo txt 115。668
tokens frunnlno WOrdsl
11"I
lext
12,660 1。722 38.90 1,000
iT'lean
word
lenoth(1it
characters
3.20 922 13.73 147 86.12
从文学批评与鉴赏的角度也能印证上述结论。 南高被誉为越南现代文学史上的鲁迅,志飘也被认 为是越南的“阿Q”。(丁氏芳好,2007)20世纪三四 十年代的越南沦为殖民地半封建国家,人民同时承 受着本国封建势力和外国殖民者的双熏压迫与剥 削,国家处在封建社会解体、民族危机深重、阶级 矛盾和斗争极其尖锐的时代。南高希望通过志飘这
基于语料库的《月亮与六便士》检索分析与研究
作者简介:宋晨曦,硕士研究生在读。
研究方向:应用语言学研究。
2基于语料库的《月亮与六便士》的检索结果及分析2.1语言特点本文主要采用定量与定性分析相结合的方法。
量化分析必定涉及文本的数据收集、整理与统计。
语料库软件AntConc的生成词表功能可以提供文本的统计数据,有助于分析文本的语言特点。
生成词表所具有的主要功能有类符数(word types)、形符数(word tokens)和频率表(frequency)。
类符数即是语料库中不同的词形,形符数则包括语料库出现的所有词语。
类符数或形符数本身并不能从本质上反映文本的语言特点。
但是二者的比率即类符形符比却能在一定程度反映用词的变化性。
类符形符比的计算方式是类符数/形符数×100%。
类符形符比值越大,也就说明用词变化性越大,用词越丰富,更具有多样性;反之则更少。
利用AntConc软件中的生成词表功能,笔者发现《月亮与六便士》共包括6840词类、76248词次,计算得出类符形符比为8.97,说明文章的用词变化量不大,整体难度不大,故事情节易于把握。
除此之外,生成词表中的频率表功能还可以迅速计算出语料库中的所有词类并按频率以降序排列。
我们利用生成词表功能对自建的小说《月亮与六便士》语料库进行检索后生成小说的高频词表信息,出现频率前50的词语分别是:the、I、to、and、a、of、he、was、that、in、it、you、his、had、she、with、him、her、for、not、but、me、at、on、Strickland’s、is、my、have、they、their、which、as、said、an、what、there、when、be、were、no、would、so、all、do、by、could、one、know、we和our。
这些高频率的词汇表明文中多次出现人称代词,词汇较为简单。
笔者发现去除语法虚词之后,词表中出现频率最高的实词是第一人称“I”,出现了2576次,且利用检索情节工具,笔者不难发现“I”贯穿全文始终,分布非常密集,如图1所示。
基于语料库的文学语篇分析——以《外婆的日用家当》为例
带来很 大 的启示 。《 婆 的 日用 家 当 》 外 是美 国著名 黑
人女作 家艾 莉斯 ・沃克 的 早 期 短篇 小 说 集 《 情 与 爱 困惑 : 黑人妇 女 的故 事 》 的一 篇 , 述 的 是 由家里 中 讲 的两床 被子 引发 的母 亲 、 女 儿 麦 琪 和 大 女儿 迪 伊 小 之 间的 冲突 。本 文 将 使 用 Wod mi rs t h及 AnC n to c
基 于语料 库 的语 言研究 一般 采取 定性 与定 量相 结 合 的研究 方法 , 进行 定 量 研 究 就 要 涉 及 文本 检 要
索 和数 据 统计 。Wod mi rs t h软 件 中 的 Wodi r l t工 s
具 可 以对 语篇 的基 本 信 息 进行 统 计 , 自动生 成 词 表
舶 s e 9' i 1 ,丌 z
住 仃7
tk n 细 n m od } tx 36 9 oe s n w rs m e t .1
协 k n s dfr e su e o 耐d妊 l 3 1 搴 9 6 tp s sm t o d J ’ 3 y e t c w rs , 6 0
的三 个 主 要 工 具 : o cr a c 、 r l t和 Ke — C n od n e Wo di s y
8a tr i d Tr b s s 100 l ̄ a dse R a i , 0
me f r e  ̄hr c m'tr ) a wo l dln : 椭 h a es c
3 1 、 9 5
36 9 ,1 106 3
 ̄ p/ k nrt 限 ) 2 3 et e i o ao 86
ar a 埔s l r edEr d R 4 1 3 7 sa d tn  ̄ s dT sdd e TR t . 4 9 28
结合语料库进行文学作品分析的思考
式 ,可 用转 化策 略 ,用汉 语中适 当的相应 隐喻进 行转 换 。 O n c e b i t t e n . t w i c e s h y . 它 的 意 思 是 ”Wh e n s o me t h i n g
o r s o me o n eha s h u r t yo u o nc e ,y o ut e n dt o a v oi dt h a tt h i n g o r
辞分 析方 面也有 用武 之地 。如可 以通 过关键 词词 表 了解 文 本 的关键信 息 ( 包 括 故事主题 、 主 要人 物、 时间地 点、 背景、 些 重要 的描述 性信 息 等 )和 主要 情节 ( 杨 建玫 2 0 0 2 有 例证 ) ,如 可 以通过 词 图理 清故 事情 节 的开 始 、发展 、高 潮 、结局等 各环 节 。如可 以借助 人物 关键词 来认 识包括 外 貌 、活动 、性格 、心 理在 内的人 物形 象 ,如 可 以通过确 定
一
适 当的检索 项辨识 作 品中修 辞方法 的使 用情况 。 上述 指标证 明了语料库 量化 分析 的这 一优 势,除此 之 外 ,李晋 郎建 国 ( 2 0 1 0 )认 为, 语料 库工 具 在发 现文 学 文本 的语 言特征 、验证 理论 模式 、支撑 以往 的文 学评 论、 挖掘 文本 的隐含 意义 方面为 研 究者提供 了更 便捷 的服务 。
p e r s o n . ” 经 过这样 的解 释 , 译 ‘ 一朝被 蛇 咬, 十年 怕井 绳 ” , 就 突 出 了本 民族 约 定俗成 的文 化特 点 。运用 转化 策略 时 , 要 考 虑到 民族 文化 的 因素 ,特 别 是一些 成语 或俗 语 ,要注
意结 构相对 严谨 ,意 义相对 深远 。
《基于汉语语料库的中文词句快速检索算法研究》
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,中文词句检索技术在众多领域得到了广泛应用。
在大数据时代背景下,如何实现基于汉语语料库的中文词句快速检索,成为了一个重要的研究课题。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的研究,分析其技术原理、实现方法和应用前景,为相关领域的研究和应用提供参考。
二、汉语语料库概述汉语语料库是中文词句检索的基础。
它包含了大量的中文文本数据,如新闻报道、文学作品、科技论文等。
通过对这些语料进行预处理和分词等操作,我们可以获取到用于检索的词句。
为了实现快速检索,需要构建高效的数据结构和算法。
三、快速检索算法研究(一)算法技术原理基于汉语语料库的中文词句快速检索算法主要采用倒排索引技术。
倒排索引是一种基于关键词的索引方式,它将每个词的所有出现位置进行记录和存储。
当用户输入查询词时,系统可以快速地找到所有包含该词的文本数据,从而实现快速检索。
(二)算法实现方法1. 预处理阶段:对语料库进行分词、去除停用词等操作,提取出用于检索的关键词。
2. 构建倒排索引:将关键词与对应的文本数据建立映射关系,形成倒排索引表。
3. 查询处理:当用户输入查询词时,系统根据倒排索引表快速找到所有包含该词的文本数据,并进行排序和展示。
(三)算法优化策略为了进一步提高检索速度和准确性,可以采取以下优化策略:1. 优化数据结构:采用更高效的数据结构存储倒排索引表,如压缩存储、稀疏矩阵等。
2. 引入机器学习技术:利用机器学习算法对语料库进行语义分析和理解,提高检索准确性。
3. 分布式计算:将检索任务分布式部署在多个计算节点上,实现并行计算和负载均衡。
四、应用前景展望基于汉语语料库的中文词句快速检索算法具有广泛的应用前景。
它可以应用于搜索引擎、信息推荐、自然语言处理等领域。
在搜索引擎中,用户可以通过输入关键词快速找到相关信息;在信息推荐中,系统可以根据用户的历史行为和兴趣偏好推荐相关内容;在自然语言处理中,该算法可以用于文本分类、情感分析等任务。
基于语料库的儿童文学的语篇分析
基于语料库的儿童文学的语篇分析本文将使用语料库检索软件,对美国作家弗兰克·鲍姆(Frank Baum)创作的儿童文学作品《绿野仙踪》的文本特征、主要内容等方面进行分析,以展示语料库检索软件在文学分析方面的强大功能,提高英语专业大学生对英语文学学习的兴趣,促进他们的英语学习。
标签:语料库;《绿野仙踪》;文本分析1简介随着近年来信息技术的发展以及计算机的普及和语料库研究的渐渐升温,国内外不少学者将语料库研究方法应用到文学领域,利用语料库检索软件(Concordance)对文学语篇进行分析,如Conrad、杨建枚、张厚振等。
他们的研究大胆创新,十分具有操作性,为后来的文学研究者带来很大的启示。
并且语料库研究方法也为英语专业的学习带来了非常大的便利,也节省了资源与时间,是一种高效的研究方法。
《绿野仙踪》又名《奇妙的奥兹男巫》,是美国作家弗兰克·鲍姆创作发表的奇幻冒险童话故事集,共十四本。
问世百年以来被翻译成多种语言出版,根据《绿野仙踪》故事改编的动画片和电影更是不计其数。
国内常见的《绿野仙踪》是这个系列的第一本。
《绿野仙踪》主要讲述了小女孩“Dorothy”和她的小狗“Toto”被龙卷风吹到了一个奇妙的“Oz”(奥兹国),小女孩为了能回到自己的家,经历了一系列有趣又惊现的事情,最后安全回家的故事。
2基于词表的语篇基本情况分析基于语料库的语言研究一般采取定性与定量相结合的研究方法,要进行定量研究就要涉及文本检索和数据统计。
Wordsmith软件中的Wordlist工具可以对语篇的基本信息进行统计,自动生成词表(图1),它可以提供文本中的简略统计数据,从而有助于分析文本的总体统计特征和基本情况。
词表的主要统计特征有:文件的字节数(bytes)、形符数(tokens)、类符数(types)、类符形符比(type/图1)The Wizard of OZ的文本统计信息截图(token ratio)、标准化类符形符比(standard type/tokenratio)、平均词长(meanword length)、句子数(sentences)等。
论马格维奇的自我救赎——基于语料库的《远大前程》文本检索分析
一
、
引 言
作 品 , 而对小 说 的 主题 和情 节 的发 展 等 要 素进 行 进 更 为理性 和客 观的研 究 。 … 笔者 通过使 用语 料库 检索 软件 , 1 纪英 国 对 9世 伟大 的批 判 现 实 主义 小 说 家 狄 更 斯 ( h r sD c. C al i e k es 久 负 盛 誉 的 巨著 《 大 前 程 》( r tE pc — n) 远 Ge xet a a
tn) i s 进行 分 析 , o 旨在 深入 发 掘 《 大 前 程 》中 的线 远 索性 人物 马格维 奇 的相关 信 息 和 出场频 率 , 合 语 结 料库 检索 软件提 供 的 相关 数 据 , 新 审视 马格 维 奇 重
从逃犯 到 富翁 、 挣 扎 于 社会 底 层 的 囚徒 到新 兴 有 从 产者 的心 路历程 , 一 步 揭示 这一 戏 剧 性 人 物 自我 进 救赎 及 自我价值 实 现 的全 过程 。
s n aie n v l fCh re c e . By a p yng c r u ig sis tol e ttv o e so a ls Dik ns p l i o p s ln uit o s,t e e n i t n prg e so g th i c h ma cpai o r s f Ma wic s o
线 索性 人 物 马格 维 奇 自我 救 赎 的心 路 历 程 , 一 步探 讨 维 多利 亚 时期 新 兴 有 产 者 个 体 意 识 的 觉 醒 , 进 以及 他 们
对 传 统 主 流 价值 和 男权 社 会 意识 形 态 的传 承 。
关键 词 :《 大前 程 》; 料 库 ;马格 维奇 ;自我 救 赎 远 语
纯 依靠设 计精 密 的语 料 库 辅助 工 具 将 其数 字 化 、 符
语料库视野中文学作品的多维分析
平均句 长
1.etrwo d . te r s 1 2 .etr r s .1te d wo 3 etrwo d -lt r s e
8
58 26 3 47 0
4 etrwo d 一lte r s
30 5
4 67 7 6 ,2
品文本 , 利用文本整 理器对语料进行整 理并适 当进 行人 工清理 , 自建参照语料库 ( C) R 用于对 比研 究 ,总 词数 24 2 4 。《 , , 0 白象似 的群 山 》英文原文 25 构 成观察语料库 ( C) O ,总词数 16 。 4 8
信息 , 帮助读者 了解作者 的写作 风格 。表一为 《白
象似 的群 山 》统计结果 :
表一 统计结果
OC RC
类符形符 比 标准化类符形 符 比
平
3 4. 42 6
4 1 4
9, 4 4 21 3 72 2 8 ,6 5 88 6 8 ,2
3 5
标准化 T R, T 小说文本 的数值远远小于参照语料库 中相应数字 , 明海 明威用词简约凝 练 , 说 惜字如金 , 小说句式简短 , 且词汇变化较小。进~步观 察小说 中包 含一个字母到 四个字母的单词共有 15 个单 0 1 词 ,占据 了小说文本 中所有单词 的 7 . 1 %,由此可 5 知作者大量使用 常用 的简短词 ,小说通俗易懂 。 2 叙述视角的分析 . 嘲 懒 I 酶嘲 ” ? ■ 豢 利用词表可 以对文 竺 l ! 堂 学 作品 中的叙述视 角和 : 人称代词等特征 进行 分 { 耘
眵
爹 茹
词表 中出现频率最高 的动词 是 si, a 小说 中可 d
能存在大量 的人物对话 。 了印证这一观点 , 用 为 利 正则 表达式对 所有包 含表示 直 接引语 的双引号 进
《活着》的语料库检索分析
《活着》的语料库检索分析作者:赵慧来源:《文教资料》2018年第35期摘; ; 要:本文利用语料库检索软件Antconc,对余华长篇小说《活着》从主题、故事情节和人物形象塑造等方面进行了较为深入的分析。
首先,利用Antconc的主题词功能提取出小说主题词并进行归类,结果发现主人公“福贵”的人生由四位重要人物填充。
然后,利用该软件的索引功能,对主要角色“我”(主人公“福贵”)进行检索,对检索内容进行统计分析后,得出了主人公“福贵”的人生经历和性格特点。
关键词: Antconc; ; 语料库; ; 《活着》1.引言《活着》是著名作家余华在1992年创作的一部长篇小说,讲述了福贵这一小人物在建国前至70年代末,这三十年的时代浪潮中命运的跌宕起伏,并通过主人公一生的生存状态告诉世人活着的自为性和终极性。
该作品同余华的另一部作品《许三观卖血记》同时入选百位批评家和文学编辑评选的“九十年代最有影响力的十部作品”,余华也凭借这部作品于2004年荣获法兰西文学和艺术骑士勋章。
《活着》在余华文学创作历程中具有重要的分水岭意义,是作者放弃先锋探索重返写实之路的乡土力作。
本文采用基于语料库的研究方法,以《活着》为研究对象,首先利用语料库检索软件Antconc的主题词功能提取出主题词并进行归类,分析小说的主题和作者的写作风格;然后利用软件的索引功能对主人公“我”进行检索,对节点词“我”的搭配词进行统计分析,深入探讨主人公的人生阅历和人物形象特点。
本研究的目的在于,通过语料库方法对余华作品《活着》进行量化分析和定性研究,挖掘前人在传统研究方法指导下尚未发现的文本意义,为语料库在揭示中国文学作品显性和隐性内容方面具有可能性和有效性提供强有力的支撑。
2.研究背景余华是当代杰出的文学创作家,相对于其他作家来说,他具有更加独特新颖的想法。
其作品以纯净细密的叙述,打破日常的语言秩序;其创作视角打破常规的固定思维,颠覆了人们对叙事类小说的印象,建构起一个又一个奇异、怪诞、隐秘和残忍的独立于外部世界的文本世界,实现了文本的真实。
基于语料库的赛珍珠小说作品《大地》的检索分析
l 嘲 曦
’ O 7 t S , i , 0 i 1 ● 2 乱 , h . o t ● d l , 2 O l 土 2 2
鼎媾 “
, O, 0 蓐 O e 与 S e 2 e h l ■ ■ 土 t h 3 7 3 ● 0 奢 4 0 t l ¨ i d m ■ 4 2 4 3 4 7 0 4 S ¥ 4 4 S l 。 2 4 2 9 t 2 霉 4 0 5
… 一 嘲 了 东 西 文 化 间 的鸿 沟 。 改 变 了西 方 读 者 眼 中 中 国那 种 “ 历 史
与其他参 照语 料库 相 比明显高频 的词汇 列表 。它可 以用来
揭 示语篇 的内容大 意 、 文 体风格 , 也 可 以 揭 示 主话 题 的情 节
发 展。[ 3 1
检索分 析。本研究拟 运用语 料库检 索工具An t c o n c 3 . 2 . 4 w 和 词汇 检索 软件 R a n g e , 结 合 检索 结果 数据 , 对赛 珍珠 的代 表
酬
基 于语 料 库 的语 言研 究 一般 采 取 定 性 与定 量 相结 合
的研 究 方法 , 而 要 进 行 定 量 研 究 就 要 涉 及 文 本 的 检 索 和 数
£ # 0
据 的统计 。用 词汇分析软件R a n g e 统 计r I 1 h e G o o d E a c h 的文 本①, 它提供 了一些简 略统计结果 , 如字 节数 ( b y t e s ) 、 形 符数 ( t o k e n s ) 、 类 符数 ( t y p e s ) 。如表 1 所示 :
文本 的0 - 3 1 %。文 本 的种 类符数 为5 8 0 0 个, 占文本 总字数 的 5 . 3 %, 表 明小 说 的词 形变 化幅度 不大 。综上所 述 , 这篇作 品 虽 然篇 幅较长 , 但 是 词汇 难度不 大 , 简单 易懂 的词 汇较 多 ,
莫言作品_蛙_的语料库检索分析_陈婵
第5期总第128期2014年9月浙江工商大学学报JOURNAL OF ZHEJIANG GONGSHANG UNIVERSITYNo.5Vol.128Sep.2014收稿日期:2014-04-11基金项目:国家社会科学基金项目“英语学术论文语篇的话语策略研究”(13BYY157)作者简介:陈婵,女,浙江工商大学外国语学院讲师,主要从事语料库文体学和话语分析研究;程乐,男,浙江大学外国语言文化与国际交流学院教授、博士生导师,法律话语与翻译中心主任,主要从事语料库、符号学以及专门传意等研究,系本文通讯作者。
莫言作品《蛙》的语料库检索分析陈婵1,程乐2(1.浙江工商大学外国语学院,杭州310018;2.浙江大学外国语言文化与国际交流学院,杭州310058)摘要:文章利用语料库检索软件Antconc ,对莫言的小说《蛙》从主题、故事情节和人物形象塑造等方面进行了较为深入的分析。
首先,利用Antconc 的主题词功能提取出主题词并进行归类,结果不仅印证了《蛙》的主题与计划生育密切相关,而且也反映出《蛙》与莫言其他作品之间的延续性以及作品中乡土立场和人文立场的统一。
然后,利用Antconc 的索引功能对主要角色“姑姑”进行检索,对每一条检索结果根据其描述内容和情感倾向做了人工标注并统计,分析结果显示,对“姑姑”的感情生活、容貌性情以及身世等方面看似与主题无关的描写实际上对小说人物塑造、情节发展都起到了至关重要的作用。
关键词:语料库;莫言;蛙;主题词;检索中图分类号:I06文献标志码:A 文章编号:1009-1505(2014)05-0026-09A Corpus-based Analysis of Mo Yan's Novel FrogCHEN Chan 1,CHENG Le 2(1.School of Foreign Languages ,Zhejiang Gongshang University ,Hangzhou 310018,China ;2.School of International Studies ,Zhejiang University ,Hangzhou 310058,China )Abstract :The present paper applies the corpus retrieval software ,Antconc ,to study Mo Yan's novel Frog from the per-spectives of theme ,plot ,and means of character shaping.The extracted keywords not only confirm the theme of Frog is closely related to family planning ,but also reflect the continuity between Frog and other works of Mo Yan as well as the unity of local standpoint and humanistic position in the novel.Furthermore ,by annotating manually all the retrieval results of the major role “Aunt ”according to their contents and emotional tendency ,the paper finds that the seemingly irrelative descriptions of aunt's love and family life ,appearance and temperament ,actually play a critical role in character shaping and plot development.Key words :corpus ;Mo Yan ;Frog ;key words ;retrieval一、引言2012年,莫言获得了瑞典诺贝尔委员会颁发的诺贝尔文学奖,成为第一位获得该奖项的中国籍作家。
《冷山》的语料库检索分析
。
【 尽管有人认 为《 山》 2 冷 仅仅算 是诞生于 消费时代与 速
食文化之 中的一本新 书而 已 , 但它 的成功 也充分证 明 了小
说本身 的内在价 值。本文 使用语 料库 检索 软件 Wodm t rs i h T l和大型对照语料 库 , 过对《 山》 os 通 冷 的语 言特 色、 题 主 和情节 以及人 物塑造等方 面进行分 析 , 不仅 探讨 了语料 库 检索软件在揭示文学作 品显 性和隐性 内容方 面的应用 , 同 时为证实《 冷山》 的美学意义和文学价值提供了量化依据 。
d i1 . 9 9 i i n 1 0 o : 0 3 6 / .s . 0 0—5 5 2 0 0 . 8 s 7 7. 01 . 5 0 3
中图分 类号 :16 4 H 1 I0 . : 3
文献标 志码 : A
文章 编号 :0 05 5 (0 0 0 -0 30 10 -7 7 2 1 )50 8 -3
一
、
小 说 的 语 言 特 色
M u t n Ap 等 。小说 还描写了 E i i G pi , n i o a , ls n i h p n, y s s Id— to a e
基于语料库 的语言研究一般采取定性与定量相结合 的
a t teC t oc ay等不 同种族 的人 们独特的风俗 习惯 n ,h a i l a hP r t 和生 活方式 , 以及 Oin e u 四季 轮 回等极具 ห้องสมุดไป่ตู้色 的 r ,V n s和 o
自然 知 识 。
研究方法 。要进行定量研究就要涉及文本的检索和数据统
计。
首先 , 利用 Wo s i r mt d h中的 Wo lt ri 功能 对 《 山》 ds 冷 的
《雨中的猫》语料库检索分析
• 通过对上述统计数据的分析,我们可以断 定,该小说篇幅较短、用词浅显且句子简 短,因而,海明威用词简单、句子简短的 独特的写作风格,就在这部短篇小说中得 析是 AntConc 独有的功能,其检 索分析是通过 Keyword List 工具实现的。通过 检索和分析文本中具有超常频率的词或词组,可 以确定文本的关键词和表达主题的词集。虽然对 这些词的初步分析可以了解有关文本内容的信息, 但无法确定哪些信息重要,哪些信息次要。因为 有些词语如the在任何文本中的频率都很高,因此, 可以选取某一参照语料库,按照关键值(keyness) 生成关键词词表 (keyword list)。通过观察关键 词词表中排在较前的关键词,便可以得到该文本 最关键的信息。本文选取的参照语料库是 The British National Corpus (BNC),该库全部由当 代口语及书面语组成,约有一亿个单词。经过检 索,该文本的关键词词表如Table 2所示
• 其次,said的词频也很高(17次),说明 该文本以对话为主,这是海明威重要写作 特点之一。他擅长写对话,经常用对话来 代替描写、叙述、议论和说明,而且对话 参与者通常是两个,一问一答,或是聊天, 或是争吵。“人物对话以最简短的语言表 达,所谓‘电报式’的短句,证明作者惜 墨如金,这些例子在海明威作品中俯拾皆 是” [6]。这一写作特点在他这部短篇小说 中表现得尤其突出。
• 而作为丈夫的George出现了8次(Table3), 从Table2中,我们可以看出,指代George 的he也出现了8次(hit1, hit7-13),所以 共出现16次的George 也是故事主要人物之 一。同时,人称代词出现频率较高的还有 She/maid(11次)和 He/hotel-keeper(8 次),根据其词频可以判断出其主要作用 是在故事中充当背景人物,对主要人物进 行衬托。
基于语料库的《夜莺与玫瑰》检索分析
一
2, 5 39 w r it od l s
1一lt rwod et r s e
9 2
tp s( i ic ye d t t sn
60 0
2
一
lte r S etrWO d
3 93
w rs od)
tpe o n r to y /tke ai 2 4 5. 3 3 一l te r s et rwo d 4 一 lte r s et rWO d 5 一 lte r s et rWO d 711 51 0 25 7
、
文本 总体 统计特 征
(T r I R)
sa da dz d I tn r ie TR m e n wo d l n t a r e gh 3. 3 9 3 7 3. 0
基 于语 料库 的语 言研究 一般采 取定 性与定 量相 结 合 的研究 方法 。首 先 , 要把 握文 本总 体统计 特征 。
21 0 2年 4月
第2 6卷 第 2期
新 乡学 院学 报 ( 社会 科 学 版 )
Junl f n i gUn esy Sc S i cs dt n ora o xa i ri( oi ce e E io) Xi n v t  ̄ n i
Apr 2 2 . 01 Vo . 6 No 2 12 .
收 稿 1期 :0 1—1 —2 5 2 t 1 8 作者简介 : 张小 宁 , , 南 焦 作 人 , 乡学 院讲 师 。 男 河 新
现代 语料 库语 言学兴起 于 2 纪 中后期 , 别 0世 特
(t d ri dt e tkn rt ) 平 均 词 长 , 子 数 , s n ad e p/o e ai , a z y o 句
对赛珍珠短篇小说作品的语料库检索分析——以《圣诞的早晨》为例
珠, 并 在研 究 方法 和观 念方 面有 新 的突 破¨ 8 ] 。但 在相 关研 究 中 , 大多数 是 主题研究 , 尚无对赛 珍珠
作 品进行 语料 库 的检 索分 析 。
本 文选取赛 珍珠 短篇 小说作 品《 圣诞 的早晨 》
( C h r i s t ma s D a y i n t h e Mo r n i n g ) ¨ g l 3 ¨ ", 在前人 研究 基 础 上 引 入 词 汇 分 析 软 件 R a n g e , 结 合 An t c o n c 检索 软件 , 对 作 品 的语 言 特 征 和 小 说 的
摘
要: 在 诸 多 文 学作 品 分 析 手 段 中 , 借 助语 料 库 检 索 工 具 分 析 作 品 的 写 作 特 色 是 一 种 较 为 新 颖 而客
观 的 分 析 手 段 。词 汇 分 析 工 具 R a n g e可 用 于分 析 文 学 作 品 的 词 汇 难 度 , 而 语 料 库 检 索 工 具 An t c o n c的
库 进行 文本分 析 , 能够“ 把 隐 含 的结 构 显 现 出来 ,
同时激 发人 的想 象 力 , 并 能检 验 文 本对 读 者 的感 染 力” l 1 ] 。近年 来 , 国 内已有研 究者对 运用语 料 库 的 方 法 和 手 段 来 分 析 文 学 作 品 进 行 了 理 论 研 究_ 2 ] , 对 运用 定量 分 析 法分 析 文 学 作 品进 行 了可 行性分 析 和方 法论 探 讨 _ 3 ] , 也 出现 了不 少 运 用 语 料库检 索工 具进 行文体 分析 的实证 研究 。吴 琦和 李文 中使用 Wo r d s mi t h t o o l s 索 引软 件 的 主题 词 功能 对王 尔德 的戏剧《 真诚 最重要 》 进 行 了剧 情 和
基于语料库的《一间自己的房间》的文体学分析
收稿日期:2020-12-26语、词组、语法结构和搭配;二是研究文体结构和主题;三是研究作家写作特点及风格(陈心怡 等,2016)。
伍尔夫的语言独树一帜,在篇章、句法和词汇方面均展现出她的与众不同。
用基于语料库的方法来研究其作品能更准确地分析其作品的主题思想。
文学语料库的建立及研究思路语料库文体学研究通过分析文本的词汇和语法特征,特别是主题词或词组,能有效揭示故事主题和情节发展走向(Toolan ,2009)。
本文主要研究伍尔夫的《一间自己的房间》的语言特点,包括检索文本主题词、考察高频词簇和主题词的方向与领域、分析作者使用语言的用意和心理及作品所蕴含的社会现象和女权主义思想。
笔者首先建立《一间自己的房间》语料库,然后运用语料库软件LancsBox v4.5的Words (主题词检索、和其他语料库比较)、GraphColl (寻找关联和交叉关联并将语料库里的词语搭配图像化)和Ngrams (检索词簇)检索功能,将新建语料库与LOB 语料库(由英国兰卡斯特大学、挪威奥斯陆大学与卑尔根大学联合建立的100万词次的英国英语语料库)进行对比分析,以找出此作品的语言的特殊性。
最后,笔者从文本的词汇层和句法层进行分析,测试以上两个语料库之间是否存在显著差异。
2 数据提取及分析本研究基于两个英文语料库展开:一是基于1993年企鹅出版社出版的英文原著《一间自己的房间》而建立的语料库,作者是弗吉尼亚·伍尔夫;二是LOB 语料库,该语料库包括一般小说、侦探小说、科幻小说、冒险小说和爱情小说,涵盖了20世纪小说的各种类型。
两个参照语料库中的作品均为同世纪小说,因此具有可比性。
笔者通过对比两个语料库中的主题词以及高频词簇进行分析。
2.1 词汇分析主题词即可以解释文学作品主题的词汇,研究者通过对语料库中主题词的检索与提取能够了解作品表达的思想。
也就是说,“分析语言特征的基础是对其关键性进行分析”(桂诗春,2009)。
基于语料库的文学语篇分析——以《屋顶丽人》为例
国著名作家多丽丝 ・ 莱辛的短篇小说——《 屋顶丽人》 以此揭示小说的情节和文中主要人物的性格特征。 , 关键词 : 语料库 ;屋 顶丽人 》 情节 ; 《 ; 主要人物
中图分类号 : 6 .7 1 104 5
文 献 标 识 码 : A
由于计算机 技术 的快速 发展 , 语料 库 (o u) cr s 在语 言 p 学 中的地位 日趋显著 , 已广 泛应用 于跟语 言 相关 的各 个领 域 。使用语 料库检索软件 ( n oc 对文 学文本 进行量 化 Atn) c 分析 ( uni t eaayi) 为文 学提供 了更 加科 学 的分 析 q ata v nl s , ti s 方法 , 能够帮助我们预测文学作 品的大意 , 证 已有 的作 家 验 作 品评论 , 更能增加思 考 的角度 , 拓展 新 的想象 空 间 , 掘 发
基于 语料库 的文学语篇分析
— —
以《 顶 丽人》 例 屋 为
李 绍兴
( 中国地质大学 外国语学院, 武汉 40 7 ) 湖北 304
摘 要: 语料库检 索软件检 索能力强 大, 可用在文 学文本 的分析上 , 用语料库 方 法分析 文学作 品能揭示 文本 的主
题是如何 通过故事情节 、 刻画 、 辞手法等来表达 的。本 文通过免 费绿 色语 料库检 索软件 A t n 分析 了英 人物 修 n oc c
作 品的深层 意义。
最高 的实义 词可以看 出 , 说作者采 用 的是第 三人称 的叙 小 事风格来对 小说 进 行一 种 较为 客 观 的叙 述。而人 称 代词 hr和 t y较多 , e h e 可以猜测 出小说讲述的是 一个女人 和 te hy 之 间的故事 。从 中也 可 以看出小 说 中的几 个主要 人物 , 如
基于语料库的《傲慢与偏见》检索分析
2 0 1 4
J o u r n a l o f Hu b e i Un i v e r  ̄t v o f S c i e n c e a n d Te c h n o l
Vo 1 . 3 4, No .1
、
文 本 的 总 体 统 计 特 征 及 分 析
基 于语料库 的语言研究一般采取定性 与定量相结合 的 研究方法 。要进行定量 研究就要涉及文本 的检索 和数据 的
添花 的同时 , 更输入 了新鲜 的血液。
角E l i z a b e L和 D a r c y 在 全篇 都得 到频 繁使 用 , 这表 明故 事
情节基本都是 围绕 这两个 主角展 开 的。从 小说 看 , 伊丽 莎
本 文通过 使用 W o Ms m i L T o o l s 语料库索 引软件对 简 ・
塑造 的理解 与阐述 。这种传统 的鉴赏方法秉 承了文学研 究
为7 1 4 3 , 根据统计 的有意 义的数 据分 析 , 形 符数 和句子 数 说 明这个文本属 于较长 的文学 作 品。类 符形 符 比 1 7明显 低于标准化类符 比 4 3 . 钾, 因而 可 以推断 出此 文本 的词 汇
变化不大 , 词语 的运用 保持一 种 比较稳定 的状 态。平 均词 长为5 , 基本属 于较简单词汇 , 说 明该语篇 的用 词多 为较常 见 的小词 。通过 计算 , 四个 字母 以 内的词数 有 8 0 4 9 9个 , 占形符数 5 6 . 7 9% 。因而可以推断这个文本属 中等难 度水 平、 句 子较长 、 篇 幅较 长的小说。 二、 文本主题的检索与分析 通 过 使 用 Wo Ms mi L T o o l s语 料 库 检 索 软 件 中 的 w o Ml  ̄ t 功能 , 对小说 文本 的情节进行统计分析 。 首先用 Wo Ms m k h T o o l s 对 文本 进行 统计 , 得 到一个 主 题词表 , 从 而得到该文本 中出现频 率最 高 的实 义词 。其 中 E 1 i z a b e L 出现 5 9 2次排 在 3 4位 , D a r c y排 在 5 5位 , 出现 了 3 7 8次 , 频率也相对较高 , 由此可 以确 定作 品的主角是 E l i z — a b e l和 D a r c y , 整本小 说是 围绕这 两 个主 人公展 开 的。主
《夜莺与玫瑰》的语料库检索分析
《夜莺与玫瑰》的语料库检索分析随着计算机的广泛应用,它与语言学结合,形成一门新兴的学科语料库语言学,并为语言学研究提供了一种全新的手段,语料库已成为语言实证研究的一个重要手段。
语料库检索软件以其强大的检索功能在研究与语言相关的各个领域也发挥了巨大的作用。
在文学批评领域也是发挥了巨大的魅力。
本文以唯美主义作家奥斯卡·王尔德的《夜莺与玫瑰》为文本,旨在通过使用WordsmithTools语料库索引软件来分析它在文学领域的应用。
一、文本特点首先使用Wordsmith软件对《夜莺与玫瑰》进行初步的文本统计分析,得到的统计结果如下:根据统计的有意义的数据分析,形符数和句子数说明这个文本属于较短的文学作品,类符形符比11.23明显低于标准化类符比33.65,因而可以推断出此文本的词汇变化不大,词语的运用保持一种比较稳定的状态,句长为18.49,与平均句长8.15相比,说明该文本的句子比一些简易文本的句子要长一些。
在61个段落中共有84个句子,我们可以知道文本中多以对话为主。
把一个字母词的词,两个字母词的词,三个字母词的词,四个字母词的词,五个字母词的词数相加,共有1963个,而本文的形符数是2359,我们可以计算出整个词汇的83%都是少于5个字母词的词,而这恰巧符合该文本的特点,即儿童文学作品要求语言简练易懂,以故事情节为主。
而文本的对话性特征,紧凑的段落可以持续地吸引儿童的注意力。
这与王尔德注重语言,童话讲述性很强的特点相符。
二、故事情节运用Wordsmith Tools,作者将《夜莺与玫瑰》提取的关键词(Keyword)和《汤姆·索亚历险记》的关键词(Keyword)进行对比,得到的检索结果如下:根据检索到的结果分析,该文本的主要人物是夜莺(Nightingale)和学生(Student),二者出现的频率分别为23和11,围绕玫瑰(rose)和爱情(love)展开故事情节。
“玫瑰”(rose),“红色的”(red),“荆棘”(thorn),“歌声”(song),“鲜血”(blood)是与“夜莺”相关的一组词组:“夜莺”将“荆棘”刺入心脏,用“歌声”和“鲜血”浇筑了一支“红色的”“玫瑰”。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于语料库对文学作品的检索分析摘要本文依据语料库语言学的研究方法,以美国作家欧·亨利的短篇小说《最后的常春藤叶》为自建英文语料库,借助wordsmith 和antconc功能,对这部小说的语言运用、情节发展、人物塑造、象征意义等方面进行分析,不仅得到对文本更加理性的诠释,而且更深入探讨了将语料库检索软件运用于揭示文学作品特征的新途径。
关键词:欧·亨利《最后的常春藤叶》语料库检索文学分析中图分类号:h05 文献标识码:a一引言人们建设大型语料库的最初目的主要是用于词典编纂和语法研究。
然而,近年来国内外不少学者将语料库研究方法应用于文学领域。
因为一部文学作品的文体风格是作者在文字交流中形成的独特魅力,是作者创作意图在字里行间的反映,所以研究文体风格必须源始于作品的文本,即语言的使用。
语料库正是从这一点切入了文学赏析和文艺评论的研究,即已经收入语料库的大量文学作品逐渐成了文学赏析和文学评论的有利资源,而利用语料库检索软件对文学语篇进行分析,以此“把隐含的结构显现出来同时激发人的想象力,并可检验文本对读者的感染力”。
与传统方法相比,这种方法对研究作家的某种语言特点或作品的主题表达提供了可靠的量化依据,避免了传统文学品评中只注重概念演绎或生搬各种文学以外的理论进行穿凿附会的弊端。
美国著名短篇小说家欧·亨利的代表作《最后的常春藤叶》不但受到广大中外读者的喜爱,也激发了众多语言文学研究者的研究兴趣。
国内对于欧·亨利作品的研究非常多,本文作者在查询中国期刊网时,以“欧·亨利”为关键词检索,发现有210篇论文;以“最后一片藤叶,最后的常春藤叶”为关键词查询,结果有47篇论文。
这47篇论文主要从主题意义、故事情节、角色剖析、人性美学、象征意义等各个侧面对此作品进行解析,方法上主要是描述性的分析。
本文研究则基于语料库,使用wordsmith及antconc软件检索,对文学文本进行量化分析,从新的角度分析这篇小说在语言运用、情节发展、人物刻画和象征意义等方面的特点,达到对短篇小说《最后的常春藤叶》更理性、更客观的分析,以此为研究文学作品寻找出一个更新、更深入的途径。
笔者将利用brown文学语料库作为参照语料库进行比较。
二文本检索分析本文主要使用的语料库是《最后的常春藤叶》英文原文构成的语料库tll,为了使检索结果更具有说服力,选取通用语料库brown 作为参照语料库。
一部作品词汇量的大小直接反映了作品中意象的丰富程度。
本文借助wordsmith软件中的wordlist工具对语篇的基本信息进行统计,自动生成词表,通过词表可以得出该作品的一些基本的文本信息,同时笔者将这组数据与brown文学语料库数据相比较,统计比较表明:该作品的形符数为1,024,远远低于brown 语料库的标准形符数1,200,490,属于较短的文学作品,符合短篇小说短小精悍之特点。
该文本的类符形符比为47.3,超过brown语料库标准的39.04,说明该作品虽为短篇小说,但词汇变化量却并不小。
平均词长为5,与brown语料库的4.48基本持平,说明作品中的词汇基本属于较简单词,有较多常用词汇。
我们可以初步判定:该作品用词贴近生活,词汇难度相对小,句子及篇幅不长,较容易理解,这都大大增加了其可读性。
以上是通过wordsmith语料库软件对作品的文本分析得出的量化数据,这些数据对于我们对文学作品有了更加理性的诠释。
三主题情节检索我们知道,通过观察关键词词表中排在较前的关键词,可以得到该文本的最关键信息(关键值越高,说明该信息越重要),如故事中的主题、主要人物、时间、地点、背景、关键线索等描述信息。
用antconc软件对《最后的常春藤叶》的文本进行统计,可以得到一个主题词。
透过主题词表可以看出:这个文本中出现频率最高的实意词依次是her(26次)、sue(24次)、said (22次)、johnsy (21次)、behrman(12次)。
从这几个出现频率最高的人称代词、人名和动词看,这部小说中的主人公就是sue、johnsy和behrman,由此我们可以猜出,小说的主要故事情节是围绕着这三个人物展开的。
作者在描写这些人物时,必定要花费一番功夫。
尤其是检索发现,behrman在作品的中后部分出现频繁,即可推测出中间后面部分是作品的高潮部分。
这正符合欧·亨利小说往往有着不同寻常的结尾这一特点。
“说”(said)是这部作品中出现频率最高的动词,说明文本主要由对话组成,故事情节和人物形象可以从其对话方式中得到。
再从人名上下文搭配的检索结果,我们可以大概了解到这篇小说的主要故事情节描写的是华盛顿贫民窟的三位贫穷画家如何相濡以沫、彼此帮助的故事,是一曲美好心灵的颂歌。
检索sue可知,苏和琼茜是志同道合的朋友(sue and johnsy had their studio);在琼茜不幸染上严重的肺炎,并且其病情越来越重的时候,苏为琼茜悲痛,同时也在尽最大力量帮助琼茜,在生活上照顾琼茜。
检索johnsy可发现,琼茜染病后失去了活下去的勇气和信念,并将生命的希望寄托在窗外最后一片藤叶上,她以为藤叶落下之时,就是她生命结束之时(you needn’t get any more wine,”said johnsy,……then i’ll go,too)。
作为她的朋友的苏很伤心,也很烦恼,便将琼茜的想法告诉了老画家贝尔曼。
于是,作品中便出现了另一个主要人物贝尔曼。
检索behrman可以得知,贝尔曼是个老画家,脾气火爆,终日与酒为伴。
他画了近四十年的画,仍一事无成,虽然每天都说要创作出一篇惊世之作,却始终只是空谈而已(behrman was a failure in art)。
然而,令人惊奇的事发生了:尽管屋外的风刮得那样厉害,而且那片锯齿形的叶子边缘已经枯萎发黄,但它仍然长在高高的藤枝上。
当琼茜看到那片经历了凛冽的寒风和细雨的叶子仍然挂在树上时,便想一片经过凛冽的寒风的树叶都可以存留下来,自己为什么不能?于是,她又重拾生的信念,顽强地活了下来。
可是故事并不是到此就结束了,真相才刚刚打开:原来,为了帮助琼茜重拾活下去的勇气,老画家贝尔曼在一个风雨交加的夜晚,在墙上画了一片藤叶。
为此,年过六旬的贝尔曼染上了肺炎(mr.behrman died of pneumonia)。
在生命的最后时刻,贝尔曼终于完成了已等待多年的杰作。
这片叶子堪称是贝尔曼的生命杰作(it’s behrman’s masterpiece)。
以上分析十分符合欧·亨利的小说创作特点,即:善于描写百姓的大众生活,情节生动,布局精妙,结局出人意料。
四人物塑造检索分析语料库检索最常见的形式叫做kwic(keywords in context),即“语境中的关键词”。
文本中的主要人物一般会出现在主题词表(或关键词表)较前的位置。
如果输入人物关键词(如表示姓名的名词和其人称代词等),利用检索软件检索全文,定能把该词及其共现的语境按照字母顺序罗列出来。
搜索到的相关词和短语就构成了搜索词的共现语篇(co-text)。
这种微型语境可以为我们进行搜索词的搭配分析和文章的主题分析提供可靠的依据。
将所收集到的词和短语进行分类、归纳和分析,就能够描述人物的外貌、活动、性格、心理活动等方面。
利用antconc的concordance plot功能,可以得出作品对三位主人公的描述。
从情节分析图中可以看出,sue和johnsy在作品中开篇到结尾的分布比较均衡,这与作者在通篇作品中对苏和琼茜的描述是符合的。
而behrman的分布不均衡,在开始几乎没有behrman的分布,作品后部behrman的分布则密集起来,这表明behrman是在作品中间出来的人物,符合作者在结尾对他的渲染。
欧·亨利在文章末尾突出地刻画了一个舍己为人,以自己生命为代价的老画家形象。
贝尔曼伟大形象跃入我们眼前,让我们对老画家肃然起敬。
通过检索发现,小说对琼茜的描述,重点放在了对她眼睛进行了描写。
在小说中,作者对eyes的描写有6处,而且这些描写正好与故事情节发展一致,从琼茜空洞无望地瞪着双眼,等待死亡(johnsy’s eyes were open wide);到她毫无生机地凝视窗外,数着一片片正凋零的落叶(keeping her eryes fixed out the window);直到她闭上眼睛,煎熬过风雨交加的黑夜(closing her eyes),再次睁开眼睛,惊异地发现那片正由绿变黄的叶子依然顽强地挺立于风雨中,致使琼茜开始重新审视生活,恢复生活的勇气。
这些正好是琼茜对生活失去信心到重新恢复希望的一个心理过程。
同时,读者可以体会到这片顽强的叶子给予琼茜多么强大的力量。
通过检索还发现,作品中还有一个线索式的重要人物,他就是医生。
doctor在全文出现9次。
观察doctor左右的词汇内容可以发现,作品通过医生场景来描述琼茜的病情发展。
医生第一次出现时候,是在走廊上向苏宣布琼茜的病情几乎无药可救,(doctor invited sue into the hallways,”she has one chance”);医生第二次出现是在隔天下午,他告诉苏,琼茜的病情有了好转,生还的希望是百分之五十(doctor came in the afternoon”even chances,”);医生第三次出现是在隔天早上,他告诉苏,琼茜完全康复了。
同时,医生告诉了苏另外一个可怕的消息,楼下有个老艺术家突然染上了严重的肺炎,并且必死无疑(the next day the doctor said to sue:“she’s out of danger.”)。
这些描写,不仅是在通过医生告诉苏以及读者,琼茜的病情发展;更是作者借助医生这条线索来演绎故事情节的发展。
这些内容通过软件检索更加鲜明地映入读者眼前,而作者这样巧妙地勾勒故事情节的发展,让读者佩服他的构思同时,更有惊叹。
五象征意义检索短篇小说《最后的常春藤叶》正如作品名称一样,其中最具有象征意义的词汇就是叶子(leaf,leaves)。
通过检索叶子,发现leaf 出现8次,leaves出现6次,加起来共有14次,是文章中出现频率最高的实意名词。
文章先从琼茜软弱无力地躺在床上一片片地数着落叶入手,烘托出凄凉、悲观的氛围。
恶劣的天气,纷纷的落叶带给主人公(尤其是个病人)悲凉的心情,导致病人就像一片随时会凋零的落叶。
按照通常思路,那片孤零零的叶子会掉下来,特别是经过雨雪交加的黑夜之后,肯定会掉落,而病人在医生看来已经无生还的希望。
谁知叶子却毅然地挂在树上,而且作者对其形状和颜色进行了详细地描述:深绿色的根,枯黄的叶边,将整片叶子像水彩画一样呈现在读者眼前。