语料库语言学--第四次作业 PPT

合集下载

语料库研究基本方法PPT课件

语料库研究基本方法PPT课件
第15页/共26页
几个常用术语 2
☺ Semantic prosody is instantiated when a word such as CAUSE co-occurs regularly with words that share a given meaning or meanings, and then acquires some of the meaning(s) of those words as a result. This acquired meaning is known as semantic prosody. (Stewart 2010)
第17页/共26页
语料库研究的基本方法 3
☺ Both approaches almost always involve a comparion of some kind.
第18页/共26页
语料库研究的基本方法 3
☺ Sizes of corpora in comparison (Rayson 2003)
is believing.
第2页/共26页
语料库语言学的性质 1
☺the Wax Argument: He considers a piece of wax; his senses inform him that it has certain characteristics, such as shape, texture, size, color, smell, and so forth. When he brings the wax towards a flame, these characteristics change completely.
第3页/共26页
语料库语言学的性质 1

语言学第四章课件

语言学第四章课件
• Head: The word around which a phrase is formed is termed head.
• Complement:The words on the right side of the heads are complements.
• Modifiers, which specifies optionally expressible properties of head.
• A phrase can contain specifiers, head, complements and Modifiers.
• Specifiers :The words on the left side of the heads are said to function as specifiers.
transformations is called surface structure(or Sstructure).
学习交流PPT
7
7.Indicatte the category of each word in the following sentences.
a)The old lady got off the bus carefully.
Mod
Mod
学习交流PPT
17
S
NP
Infl
PP Pst
NP
NP
VP PP NP
Det Adj N P Det N V
P Det N
A wooden hut near the lake callapsed in the storm
Mod
学习交流PPT
18
10.The following sentences all contain conjined categories. Draw a tree structure for each of the sentences.

语言学chapter4PPT课件

语言学chapter4PPT课件
Language is linear and hierarchical. We can analyze language from its largest level to the smallest level, that is from its construction to its constituents by means of substitutability and expansion. The first divisions or cuts of a construction are called immediate constituents and the final cuts as the ultimate constituents. The approach to divide the sentence up into its immediate constituents by using binary cutting until obtaining its ultimate constituents is called immediate constituent analysis(IC).
Conclusion: structure of the sentence such as word order can change the meaning. Every sentence is a sequence of words but not vice versa. Sentence formation has rules, so that we have well/ill formed or (un)grammatical sentences.
.
10
4.5: A grammar which analyzes

语料库语言学

语料库语言学

我们认为较为准确全面定义:
语料库(corpus 或corpora [复数]) :是指按 照一定的语言学原则, 运用随机抽样方,收 集自然出现的连续语言运用文本或话语片 段而建成的具有一定容量的大型电子文本 库。
语料库语言学:在文本语料的基础上进行 语言研究的一门学科。
语料库语言学的研究对象
语料库语言学是以语料库中收集储存的真实语言材 料做为唯一的研究对象,以语言现象出现的概率为 依据。因此,语料库语言学为语言学研究提供了一 种全新的研究思路。一个合格的语料库必须以电子 计算机为载体来存放语言材料,这些存放在电子计 算机中的语言材料是在语言的实际使用中真实出现 过的。因此,它们可以如实地反映语言现象,克服 语言学家观察语言现象时的主观性。
(7)语料库语言学与语用学和语篇分析。语料库 常常是把话语从上下文或语篇中分离出来,因此
其所收语料在很大程度上脱离了上下文或社会背
景,而语用学和语篇分析对于场景和上下文又具
有一定的依赖性。故以语料库为基础的语用或语
篇研究相对较少,但语料库为这些领域所作的贡
献是不可否认的。语用学及相关领域的研究通常 是以会话为基础的,如伦敦—伦特语料库 (London - Lund Corpus) 和柯林斯出版公司与伯 明翰大学联合开发的“英语库”( The Bank of Eng2lish ,简称BOE) ,前者收集的是日常会话, 后者的口语部分包括日常会话会议、讨论、采访、 电台广播等。
3、语料库语言学与辞典编纂
语料库不仅能够提供更完备和详尽的关于词义和 词汇搭配的信息,而且利用语料库中的频率统计 可以直观的反映词汇用法的使用情况。如英国考 林斯出版社和伯明翰大学编辑出版的《国际通用 词典》在很大程度上打破了词典编撰的传统,从 词条的选定及解释、用法到释义的先后顺序等都 依据了由2亿词次的COBUILD语料库中统计出的 频率。由于语料库的素材来自实际使用的语言, 利用其素材作为词典的例句更具真实性和准确性。 利用语料库编撰词典不仅能反映语言的真实变化, 而且编撰周期也会大大缩短。

英语语言学chapter4.ppt

英语语言学chapter4.ppt


Deep structure & surface structure
Consider one more sentence: Flying planes can be dangerous.
Modifiers(修饰语)

Modifiers specify optionally expressible properties of heads.(用于描述tences (the S rule)
S
NP VP
S
NP Det A N boy V found VP NP Det the N evidence
Infl realized by a tense label
InflP(=S) VP
NP
NP
N Infl boy Pst V found Det the N evidence
Det A
Infl realized by an auxiliary
InflP ( =S ) NP VP
NP
Det A N Infl boy will V find Det the N evidence

Word-level categories
Major lexical categories: N, V, Adj, Prep. Minor Lexical categories: Det, Deg, Qual, Auxi, Conj.

The criteria on which categories are determined
Sentences (the S rule)

S NP infl VP InflP(=S) NP VP
Infl

英语语言学实用教程完整Unit4-6ppt课件

英语语言学实用教程完整Unit4-6ppt课件
Lecture 4 The units of English
.
1
Review
Describe the following sounds:
➢ /f/
➢ /i/
➢ / :/
.
2
➢ [f]: voiceless, labia-dental, (oral), fricative
➢ /i/: high, front, lax, short, unrounded
➢ / :/: mid, central, tense, long, unrounded
.
3
Major contents
4.1 English morphemes 4.2 English words 4.3 English clauses and sentences 4.4 Collocations, idioms, and constructions in English
.
18
Syntactic units
➢ Hierarchical system: ➢ (morpheme-)word-phrase--clause—
sentence
➢ e.g. I met Tom. ➢ a (handsome American young) man ➢ a (handsome American young) man who
(lexical meaning) (grammatical meaning) e.g. weak/ness-es ➢ root/affix morpheme e.g. weak/ness
.
9
Task
➢ What are the inflectional morphemes in the following phrases?

语料库

语料库


语料库语言学
• 语料库语言学是一门新型科学,它指的是在文本语料的基 础上进行语言研究的一门学科。
• 基于语料库分析的主要特点: 1.具有实验性,分析自然语言文本中语言使用的实际模式。 2.搜集大量的真实文本(语料库),以语料库作为分析基础。 3.使用计算机的自动与交互技术进行分析。 4.使用定量与定性分析的技术。

• 词汇联结:一个单词与其他单词之间存在强的联结模式, 比如词的搭配。
• 语法联结:一个语法结构与相关语境中的语法特征之间存 在强的联结模式,比如名词化在学术语域和对 话语料中的分布。
• 词汇-语法联结:单词与语法结构之间存在的联结。这种 关系的研究主要有两方面:单词与语法 环境之间的关系;语法结构和单词环境 之间的关系。

语篇结构特征
• 语篇结构特征的研究: 1.语篇连贯和衔接的语言的分析 2.不同类型的语篇的描述和比较 3.语篇中从句间修辞关系的描述和比较 …
书面语篇与口语语篇 医学论文和生态学论文 …

语言变异
• 语料库与语言变异研究指通过使用语料库来观察单词的频 度、单词的意义和用法等变异参数,来研究语言的地域差 异、性别差异、社会群体差异、语域差异等。
L/O/G/O
语料库语言学

Contents
1 语料库和语料库语言学
2
语料库的发展
3
语料库的应用
4
结语

语料库
• 语料库:大规模自然语言文本的集合。 • 现代的语料库是指存放在计算机里的原始语料文本或经过加
工后带有语言学信息标注的语料文本。
双语语料库
北大计算语言学 研究所的双语语 料库
哈尔滨工业大学 的英汉双语语料 库

英语语言学四(4.6-7).ppt

英语语言学四(4.6-7).ppt

• Embedding refers to the means by which one clause is included in the sentence(main clause) in syntactic subordination. • 嵌入指的是在句法从属中将一个分句包 含于一个句子的手段。
The three basic types of subordinate clause are complement , adjunct (or adverbial) and relative clause.
从属分句的三种基本类型是补足分句,
附加分句(或状语分句)和关系分句。
例:
• A : I saw the man who had visited you last year. (relative clause 关系分句) • B: I don’t know whether Professor Li needs this book. ( complement clause 补足分句) • C: If you listened to me , you wouldn’t make mistakes. ( adverbial clause 状语分句)
and , but ,and or.
例:
John bought a hat and his wife bought a handbag.
Give me liberty or give me death. Art is long , but life is short.
4.6.2 Embedding
• Paratactic 并列分句 (coordinate clause) A: In Guangzhou it is hot and humid during the summer. In Beijing it is hot and dry. B: He dictated the letter. She wrote it. C: The door was open . He walked in.

语言学第四章ppt课件.ppt

语言学第四章ppt课件.ppt

The arrow can be read as “consist of ” or
“branches into”. The parentheses mean that the
element in them can be omitted and the three
dots in each rule indicate that other complement
Syntactic category can be divided into two groups:
Lexical category and phrase category
Lexical category is most central to the study of syntax.
Lexical categories are divided into two kinds: major lexical categories and minor lexical categories.
rule. The phrase structural rule for NP, VP, AP,
and PP can be written as follows:
NP →
(Det) N
(PP) …
VP → (Qual) V
(NP) …
AP →
(Deg) A
(PP) …
PP →
(Deg) P
(NP) …
options are available.
Phrase structure rule
Examples: a phrase consisting of a specifier, a head, and a complement

语料库语言学PPT

语料库语言学PPT

用途
第一个大型计算机语料库
以计算机自动化处理方式获取SEU语 料库的英语口语原始语料
SEU
LLC BROWN LOB COBUILD LONGMAN
1959年起
1975-1981 1960s 1970s 1980s 1988-1990
100万
50万 100万 100万 3.2亿 2800万
口语 书面语 书面语
语料库语言学的发展史
一般以乔姆斯基(N.Chomsky)转换生成 语法的兴衰史为参照点,将语料库语言学 的发展史大致分为三个时期: • 早期的语料库语言学 • 乔姆斯基的转换生成语法时期 • 语料库语言学的复苏时期
早期的语料库语言学
早期的语料库语言学是指20世纪50年代中期以前, 即以乔姆斯基提出转换生成语法理论之前的所有 基于语言材料的语言研究。在50年代,语料库语 言学曾被广泛使用,主要集中体现在以下几个方 面: 1)语言习得 2)方言学 3)语言教学 4)句法和语义 5)音系研究
基于语料库的方法 corpus-based approach
• 由研究者根据以往的语言研究成果或对语言的认 识,首先提出假设,然后到语料库中去验证假设。 假设是否成立取决于语料库中的语言实例。基于 语料库的研究方法以概率为基础,是统计学和实 证研究方法在语料库语言学领域的具体应用。 17
语料库驱动的方法 corpus-driven approach
语料库研究方法的局限性
• • • • (1)语料库语言学理论尚需要体系化和简约化。 (2)其研究思路和方法存在一定的分歧。 (3)分析方法和技术需要进一步突破 (4)语料库研究的应用尚需要更深入的探讨。
国内语料库研究的局限性
(1)缺乏应有的精密分析过程,显示不出应有的分析力 量(analytical power)。 (2)一些研究将事实与译论混在一起,将语料库数据与 直觉数据杂合,宏观概述多而语境分析少。 (3)数据与观察与结论之间,不同理论之间跳跃大,缺 失环节多,没有语料库语言学所熟悉的范式特征。

语言学概论chpt 4 syntax

语言学概论chpt 4 syntax
第五页,共101页。
Traditional Approach
• Traditionally, a sentence is seen as a sequence of words. The study of sentence formation, therefore , involves a great deal of the study of …of words. 1.number, gender, case 2. tense, aspect, voice 3. concord and government
第六页,共101页。
Number
• a grammatical category of nouns, pronouns, and adjective and verb agreement that expresses count distinctions
• For example: Singular & Plural in English dog vs. dogs She cries vs. they cry this man vs. these men
第八页,共101页。
Lexical words indicating gender difference
• male • man • prince • actor • host
female woman princess actress hostess
However, this is more about sociolinguistics rather than theoretical linguistics
Pre-reading questions: Study the following sentences and pick out those incorrect ones.

汉语中介语语料库介绍幻灯片PPT

汉语中介语语料库介绍幻灯片PPT

四 常用中介语语料库
〔一〕北语HSK动态作文语料库 〔二〕中山大学中介语语料库 〔三〕暨南大学中介语语料库
〔一〕北语HSK动态作文语料库
北语HSK作文语料库是在北京语言大学崔希亮教授的主持下开发建 成的。它以母语为非汉语的外国人参加高等汉语水平考试 ( HSK高等 ) 作文考试的答卷内容为语料,并从字、词、句、篇、标点符号等角度进展 全面标注,语料收集的时间范围是 1992 -2005年。语料总数到达11569 篇 ,共计 424万字,是目前汉语中介语语料库中规模最大的语料库。北 语HSK作文语料库是最早在网上公布偏误标注标准的中介语语料库,因 此之后的许多语料库在进展偏误分类标注时,都以它为根底,做适当的 修改。
“汉字偏误标注版〞是只有错别字标注的语料,但也可供用户进展一般的 词汇语言搜索,同时可以供大家对汉字偏误进展分析研究。 “错字数据库〞是该库一大重要特色。错字数据库中收集了语料库中的所 有错字使用情 况,可供大家查询、分析。“汉字标注版〞截止 2021 年 8 月 共有大约 310 万字,目前还在不 断增加更新改善。本语料库收集的主要 是中山大学国际汉语学院留学生日常作文和综合课的写话,语料涵盖初、 中、高级阶段,但因为初级阶段的学生本身输出就少,收集困难度高,所 以初级水平的 语料偏少,中级较多,高级最多。
其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使 用的大规模语料库及其在线检索系统。目前该语料库收集了大约4.77亿 字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库主要收 录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国 时期,22580字的查询。该语料库主要特色包括: 可以查询不连续的词语,可以指定词语之间的距离〔比方“帮… 忙〞〕;可以查询汉语特有的重叠模式;支持对标点符号的查询等等。

语料库

语料库

小结
• 主要语料库检索工具:
• 道格拉斯· 比伯----《语料库语言学》 清华大学出版社 1)AntConc:由日本学者Laurence Anthony开发,具有词 语检索、生成词表和主题词三大功能。
• 2 何安平 ----《语料库语言学与英语教学》 . )Concapp :是香港理工大学Chris Greaves 研制的语料库 检索工具。主要功能包括:制作语境共现、句内语境共现( sentence 《语料库辅助英语教学入门》 concordance)、检索词搭配、词频表。 . 3)Wordsmith Tools:由英国利物浦大学Mike Scott设计的 一个功能强大的综合软件包。包含Concord(语境共现检索 工具),Wordlist(词频列表检索工具),Keywords(关键词 检索工具),Splitter(文本分割工具),Text Converter(文 本替换工具),Viewer(文本浏览工具)等6个程序。

L/O/G/O
Thank You!

国外语料库的发展
1960-1970
1970-1980
1980-1990
1990-至今

国内语料库的发展
• 从理论研究方面看,2000外语教学与研究出版社引进了 Biber等人的《语料库语言学》和Kennedy的《语料库语 言学入门》。 2002 杨惠中教授编写的《语料库语言学导 论》,是我国第一本该学科的专著。 2008卫乃兴的《语 料库语言学的弗斯学说基础》,探讨语料库语言学的学科 本质。 • 同时,因其较高的应用价值,学习者语料库和双语平行语 料库的建设及研究成为我国语料库语言学的重心。

词汇语法
• 词汇层面研究: 一词多义、同义词或近义词 词的惯用搭配 不同语域的词义分布 … • 语法层面研究: 单词的语法类别-----词法 单词组合成句的方法、规则 各种语言结构的频率分布 语法结构与其他语言或非语言因素之间的关系 (That we mustn’t worry too much is clear. It is clear that we mustn’t worry too much.) …

语料库语言学(共13张PPT)

语料库语言学(共13张PPT)
以语料库设计分:均衡结构语料库、无结构的随机开放式语 二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。
除此以外,语料库语言学的实用性也有很多问题。
料库和由若干子语料库叠加而成语料库网 以语料的时效分:共时语料与历时语料
现代语料语言学已经得到越来越多人的承认,其应用也越来越广泛,从语言分析、语言教学、词典编撰到人工智能等领域都开始应用语料库。 以语料的处理方式分:未经标注的文本语料与经过标注的文本语料
即使语言是一以个有语限的言构造的,语来料源库方分法论:也不单一定语是研种究语与言多最好语的方种式。之分,原语料与翻译之分,操母 以词语汇料 研的究媒:体编语形篡式工的分具:参人书考面书的文籍字。言材语料的资电脑料文本与、转外写的语口语学语习料、者视频的语料语、几言种形资式料的混之合语分料 。
除此以外,语料库语言学的实用性也有很多问题。
叙述一种语言的语法的唯一途径是描述它的规则而不是列举它的句 子。
即使语言是一个有限的构造,语料库方法论也不一定是研究语 言最好的方式。
除此以外,语料库语言学的实用性也有很多问题。
第10页,共13页。
语料库语言学需要解决的问题
1. 语料库的设计目的。
2. 收集语料时的文本形式、文本所有权和版权的问题。
现在人们越来越开始重视对语料库作不同层次的标注, 如:语音、构词、句法、语义以及语用等层次的标注 现代语料语言学已经得到越来越多人的承认,其应用也越 来越广泛,从语言分析、语言教学、词典编撰到人工智能 等领域都开始应用语料库。
第8页,共13页。
语料库语言学的应用
1. 言语研究: (1)语言学理论。(2)语言史研究。 (3)
以语料的时效分:共时语料与历时语料 以语言的来源分:单语种与多语种之分,原语料与翻译之分,操母语的人的言语资料与外语学习者的语言资料之分。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Which?(研究什么方面?作者文 风 or 作品)
How?(用什么方法?语料库研究 有什么方法?)
困惑点:前辈研究太少,可供借鉴
的经验和方法稀缺。
(8)语料库语言学与文体学。文体学研究 的主要对象是作家的写作风格以及比较一 个作家在某一特定历史时期的作品与其同 时代其他人的作品。语料库为文体学研究 提供了量化的实际语料,避免了主观因素。
大家学习辛苦了,还是要坚持
继续保持安静
(9)语料库语言学与心理语言学。语料库 是心理语言学家进行测试研究的有力工具。 尤其在语言病理分析方面能帮助研究人员 准确确定问题到底发生在语言发展的哪一 阶段。
语料库语言学--第四次作业
❖语料库和语料库语言学的 定义
❖语料库语言学的研究对象 ❖语料库语言学的应用 ❖我感兴趣的点 ❖问题和困惑
语料库和语料库语言学的定义
较为准确全面定义: 语料库(corpus 或corpora,
corpuses[复]) :是指按照一定的语言学原则, 运用随机抽样方,收集自然出现的连续语言 运用文本或话语片段而建成的具有一定容量 的大型电子文本库。
(6)语料库语言学与社会语言学。如介尔 默(Kjellmer ,1986 )曾经调查了man/ men ,woman/ women 及其它相应的代词, 结果表明男性代词出现的频率要比女性代 词出现的频率高。
(7)语料库语言学与语用学和语篇分析。 如:收集的是日常会话,后者的口语部分 包括日常会话会议、讨论、采访、电台广 播等。
语料库语言学:在文本语料的基础上进行 语言研究的一门学科。
语料库语言学的研究对象
语料库语言学是以语料库中收集储存 的真实语言材料做为唯一的研究对象,以语 言现象出现的概率为依据。因此,语料库语 言学为语言学研究提供了一种全新的研究思 路。
一个合格的语料库必须以电子计算机为载体来存 放语言材料,这些存放在电子计算机中的语言材料是在语言 的实际使用中真实出现过的。因此,它们可以如实地反映语 言现象,克服语言学家观察语言现象时的主观性。
(10) 此外, 语料库语言学还为话语及会话 分析、言语变体(口笔语,语言与性别,方 言)、语音科学、儿童语言习得研究等方面 提供了非常丰富的实例, 充分体现了语料库 语言学在语言研究方面的作用。
2、语料库语言学与语言测试
从语料库语言学和语言测试的内涵以及两者 的关系出发,探析基于计算机的语料库应用于语 言测试的必要性、可能性、可行性和局限性等问 题。
语料库语言学的应用
1、语料库语言学与语言研究 2、语料库语言学与语言测试 3、语料库语言学与辞典编纂 4、语料库语言学与语言教学 5、语料库语言学与机器翻译及文本校对
1、语料库语言学与语言研究
(1)语料库与语言学理论。 (2)语料库语言学与语言史研究。 (3)语料库语言学与句法、词法及自动语法
分析。 (4)语料库语言学与口语研究。 (5)语料库语言学与语义研究。
4、语料库语言学与语言教学
语料库及语料库语言学的应用已经在英语教 学的各个方面发挥了重要的作用。 (1)教学大纲的制定或修订。 (2) 教材的选择。 (3)提供例句的来源。 (4)编写练习或测试题。 (5) 学生作文分析。
我感兴趣的点
原因:1 对文学感兴趣会价值
建立文体学语料库的几个用途:
1.了解该作家的写作风格。 2.了解一个作家在某一特定历史时期的作 品。 3 . 比较该作家及其作品与其同时代其他人 的作品。 4.该作家及其作品的计算机风格分析。 5.该作家及其作品的计算机情感标注分析。 6.该作家的作品的机器翻译。
……
问题:
What?(中国文学作品 or 外国文 学作品)
相关文档
最新文档