计量特征在语言风格比较及作家判定中的应用__省略_寒_三重门_与郭敬明_梦里花落
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2012,48(3)
1引言
作家在语言表达中所形成的不同言语特征表现在数量上就是统计特征上的差异。换言之,语言风格是由于语言单位使用频率的差异而产生的。语言单位的分布频率是分析作家语言的物质基础。通过对不同作家语言中语言结构特征的统计可以得出语言风格的一致性或区别性特征,语言结构的分布数据就变成体现作家语言风格的计量特征。反之,如果能够获得陌生文本关于语言结构方面的数据,就有可能以此为基础来判定文本的作者。
通过各种特征对文本进行统计分析的思想最早见于数学家Morgan在1851年的猜想和建议。到了20世纪末,统计方法在比较多种文本的风格特征、判定文本的年代、判定文章的作者、识别同意作者的不同写作风格、判断某一作者的作品先后顺序、推测文章的来源、判定匿名文章作者、辨别文章真伪和判断语言亲属关系等诸多领域内都得到了很广泛和深入的运用[1]。
而在汉语本体研究领域,统计方法的运用主要集中在汉字、词汇的计量研究和风格统计研究中,如常宝儒[2]、刘源、梁南元[3]、陈原[4]、李兆麟[5]、王德春、陈瑞瑞[6]、曹聪孙[7]、吴礼权[8-9]、曾毅平、朱晓文[10]。但这些研究没能全面地揭示出不同语言风格中在语言结构上的差异,在语料规模、语言结构的选择和统计方法等方面都有待加强[11]。
基于语料库和统计方法,获取现代汉语语言结构的计量特征,而后考察这些语言结构计量特征在作家语言风格描写、对比研究及作家判定方面的实际应用。
2语料与方法
寻求体现作家风格不同的计量特征的具体过程是:选取两个作家的语料样本,对其进行分词并以文本为单位计算特定语言结构在文本中的频率和百分比,基于样本的均值比较这些语言结构在两个样本中的分布是否具有差异。选用作家的其他语料样本,计算其与统计所用语料样本的相关性,测试计量特征在辨别不同作家语言时的有效性。
在选取语料时,考虑到时代等外部因素对语言的影响很难做定性定量分析,趋向于选择具有相似语言环境的语料。
郭敬明(/view/4386.htm?fr=ala0)出生于1983年,韩寒(/view/5972.htm)出生于1982年。两人均成名于新概念作文大赛,被视为80后作家的代表。郭敬明的代表作《梦里花落知多少》发表于2003年,全文155820字(如无提示,文中所列字数之数据均为基于word的字数统计结果);韩寒的代表作《三重门》发表于2000年,全文158702字。两位作家的年龄相仿,成长及写作环境相似,各自代表作的发表时间也相近且篇幅相当。因此,认为《梦
计量特征在语言风格比较及作家判定中的应用
——以韩寒《三重门》与郭敬明《梦里花落知多少》为例
陈芯莹,李雯雯,王燕
CHEN Xinying,LI Wenwen,WANG Yan
中国传媒大学应用语言学系,北京100024
Department of Applied Linguistics,Communication University of China,Beijing100024,China
CHEN Xinying,LI Wenwen,WANG Yan.Application of quantitative characteristics in comparison of language style and author judgment—Triple Gates of Han Han and Never Flowers in Never Dreams of Guo Jingming as puter Engineering and Applications,2012,48(3):137-139.
Abstract:The paper proposes the method that applies the results of quantitative language research in comparison of language style and author judgment.The paper discovers7language structure characteristics possessing obvious distribution differences through the statisti-cal comparison of12language structure characteristics distribution of two corpuses with75thousand words.The paper also analyzes two texts with75thousand words which are not denoted with authors by regarding the7language structure characteristics as text expression characteristics,and accurately judges the authors of the two texts.The method adopting quantitative characteristics of language to denote text can better explain the research of language style and author judgment.The quantitative research of language structure characteristics based on corpus and statistical method is an important method for the research of Chinese language style and author judgment.
Key words:language style;language structure;Triple Gates;Never Flowers in Never Dreams
摘要:提出了将语言计量研究成果应用于语言风格对比及作家判定中的方法。通过对两个75000字的语料中12个语言结构特征分布的统计对比,发现了7个具有显著分布差异的语言结构特征。并以这7个语言结构特征作为文本表示特征对两个75000字的未知作家文本做了相关性分析,并准确判定了未知作家文本的作者。以语言结果的计量特征表示文本的方法加强了语言风格对比及作家判定研究的可解释性,具有较高的理论和应用价值。以语料库和统计方法进行语言结构特征计量研究是汉语语言风格描写研究及作家判定研究的重要方法。
关键词:语言风格;语言结构特征;三重门;梦里花落知多少
DOI:10.3778/j.issn.1002-8331.2012.03.040文章编号:1002-8331(2012)03-0137-03文献标识码:A中图分类号:TP391.1
作者简介:陈芯莹,女,博士,研究方向:依存语法、复杂网络,计量语言学;李雯雯,女,博士;王燕,女,博士。E-mail:cici13306@
收稿日期:2010-07-15;修回日期:2010-11-12
Computer Engineering and Applications计算机工程与应用137