李越 硕士论文开题报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学位论文开题报告
论文题目:《左传》与《史记》同事异文的自动发现与分析学号:110102031
姓名:李越
申请学位:硕士学位
所在学院:文学院
学科专业:语言学及应用语言学
指导教师:陈小荷教授
报告时间:2012年11月17日
南京师范大学研究生部制表
一、论文选题的理由或意义
(一)选题理由
1.人工查找异文存在困难
由于客观历史条件的限制,人们使用的现代汉语同古籍中使用的古代汉语相比,存在着显著的差异,这给非专业人士阅读和利用古代汉语造成了严重的障碍。
古籍异文的研究一直是汉语史研究的重要内容,历来为学者所重视,但是通过人工查找古籍中的异文本身是一项工作周期较长、工作量极大、质量要求极高的工作,仅靠少数专家学者的努力难以很好的完成。
因此到目前为止,都没有人对古籍之间存在的异文进行过系统全面的研究。
而且,专家学者建立的理论知识体系,一般是从大量古籍中古汉语的使用现象归纳得来,由于人的生理条件的限制,很难穷尽所有的语言现象,进而导致这些结论难免会存在偏差。
2.古汉语句子相似度研究的要求
当前,计算机已经与人们的生活紧密相关,汉语信息处理也在不断地发展,现代汉语的语句相似度匹配已经有了比较深入的研究,但是专门针对古文的相应工作还很少。
随着越来越多的有关中华古文化的站点出现在网上,国内各大图书馆、研究机构等收藏的古籍,也有了数字化处理的需求,以便更好地保存、传播和研究。
大量的实验和研究表明, 古文和现代文具有不同的特点,古文是一种已经不再广泛应用于社会日常生活的语言有必要从分析古文本身的特点入手,研究更有效的检索方法。
如果不考虑考古方面的发现的话,虽然古文的句法文法结构比较复杂,但古文中所使用的字词句以及文法却相对来说是静止的,而且其文献数量也是比较固定的。
从这个方面来考虑,
我们认为将句子相似度的算法运用到《左传》《史记》两本文献的数字化处理上,并从中提取出对古籍异文识别有指导性作用的关键点是可行的,同时也是亟待解决的。
3.《左传》和《史记》的异文研究较少
《左传》和《史记》是我国汉语史研究的重要研究资料。
《左传》是一部断代史,起自鲁隐公元年(前722年),迄于鲁悼公十四年(前453年);而《史记》是我国第一部纪传体通史,记载了上自上古传说中的黄帝时代,下至汉武帝元狩元年间共3000多年的历史。
因此,它们在记载从公元前722年到公元前468年之间的这段历史时,有很多重合的地方。
在《史记》成书过程中,作者司马迁采用了大量的历史资料,但他并不是简单地抄袭《左传》,而是通常用自己的语言来叙述这段历史,因此二书之间存在着大量的异文。
但是到目前为止,却没有人对它们之间存在的异文进行过穷尽式的系统全面的研究。
(二)选题的意义
1.对语言学研究的意义
左传》与《史记》的异文是一份十分宝贵的研究资料,历来研究者多将《史记》与《汉书》相比,至于《左传》与《史记》,很少有人将其联系起来考察。
异文的根本特点就是差异,这是异文对立的一面;但是差异之中又存在着各种各样的关系,这是异文统一的一面。
异文双方既有差异又有联系,既对立又统一的特点,使得我们有可能根据正确校订讹误,根据已知推求未知,甚至根据改易论证史实,根据差异比较优劣,根据变化来看发展。
这也是我们研究《左传》和《史记》异文的目的所在。
在对这些异文研究的过程
中,我们会发现某个字、词、句有不同的写法,可以为语言学及相关学科的研究提供丰富的论证依据,具有广泛的学术价值,这对我们研究语言的流变有极大的价值。
2.对自然语言处理研究的意义
句子相似度计算是自然语言处理领域中比较重要的研究课题,有着非常广泛的应用,直接决定某些领域的发展。
例如, 在基于实例的机器翻译、信息检索、信息过滤、自动问答等方面, 相似度计算都是一个非常关键的问题。
随着计算机在各个研究领域的广泛使用,以及古籍文献异文的研究需要,句子相似度计算的应用对古籍的处理起到很重要的作用。
对于古文句子相似度的计算来说,如何利用古汉语句子自身的特点来综合考虑并研究是关键。
本文首次使用句子相似度计算的方法查找《左传》和《史记》中的异文,并针对古文的特点进行查找规则调整,其成果亦可稍作修改用于其他古籍异文的处理研究,对专业研究人员及非专业人员研究古籍提供了一个方便实用的工具和方法,对古文的数字化处理研究具有重要意义。
二、国内外关于该课题的研究现状及趋势
(一)典籍异文的研究
古文献中保存着极为丰富的异文材料,中国的典籍异文的校订有着悠久的历史。
西汉时,刘向奉汉成帝之命进行大规模的古籍校勘工作。
东汉郑玄诠释诸经,也多参照各版本异文。
唐陆德明的《经典释文》,采辑汉魏南北朝以来诸家读音、训诂及文字异同,是考释古文字的宝贵资料。
到了宋代,学者对典籍异文进行了考辨,如朱熹的《昌黎先生集考异》是这方面的代表之作。
不过清代以前,学者们对于异文的利用很少超出校勘的范围。
清代时,
文字、音韵、训诂诸学都得到了很大的发展,学者们也开始使用异文来从事校勘以外其他各门学科的研究了。
比如,钱大昕在论证其著名的“古无轻唇音”“古无舌上音”的音韵学命题时,就列举了大量的古书异文材料才佐证。
总之,清代学者已经开始积极自觉的应用异文进行语言学的研究了。
近年来,异文的研究越来越受到重视,异文的概念进一步扩大,不再仅限于传统“小学”的范畴,而是将围绕同一个主题的不同叙述、描写文本也叫异文。
研究比较多的是史汉异文,如徐朔方的《史汉论稿》(1984)和朴宰雨《<史记><汉书>比较研究》(1994)。
除此之外,大量的出土文献为异文研究提供了新材料,陆锡兴《<诗经>异文研究)(2001)等顺应了这一新潮流。
与此同时,出现了对于古籍异文进行理论总结的专著。
王彦坤在《古籍异文研究》(1993)中分析了古籍异文现象,是对异文进行全面总结的第一部专著。
朱承平《异文类语料的鉴别与应用》(2005)详细讨论了异文的分类以及不同异文的鉴别和应用,系统研究了异文考据学。
总而言之,前人对于古代典籍异文所作出的贡献丰富了汉语史的研究,并提供了宝贵的经验,为我们研究《左传》和《史记》异文提供了有利的条件。
(二)句子相似度的研究
整体来说,目前研究句子相似度的方法有基于关键词的、基于语义词典的、基于语义依存的、基于语境框架的、基于统计的方法,还有计算编辑距离的方法等等。
这些方法分别体现了句子在词形、语义以及句法结构三个重要层面的相似度情况。
其中,编辑距离法应用广泛,计算方法相对成熟。
编辑距离(Edit Distance)是首先由Levenshtein在1965年提出的,故又叫
Leven shtein距离,是一种常用的距离函数度量方法,在相似性匹配领域得到了广泛的应用。
两序列之间的编辑距离是指只用插入、删除和替换三种基本操作把一个字符串(S)转换成另一个字符串(T)所需要的最少基本操作次数。
编辑距离值越大,则相似度越小。
求两个字符串之间的编辑距离实际上转化为一个求最优解的问题,可以利用动态规划的思想(Lowrance .1975)来计算,其中传统的编辑距离算法将每一种基本操作的代价值都简单设定为1。
Monge(1997)等使用一种可调节的编辑距离计算方法来识别重复记录,Cohen(2003)提出一种应用子串进行相似度计量的编辑距离方法。
清华大学冯建华(2008)等提出一种基于NFA( Nondeterministic Finitestate Automation)(非确定性的有限状态自动机)的编辑距离方法。
将匹配字符串看作是一个查找树,通过建立一个查找树索引,从而有效地提高了识别准确率。
以发现100 万条记录中的1 000 条相似重复记录为例,识别所需时间仅是普通编辑距离算法的0.2%。
国内对于利用编辑距离算法计算汉语句子的相似度计算研究方面也取得了一定的成果。
车万翔等人的《基于改进编辑距离的中文相似句子检索》(2004)采用改进编辑距离的方法,吸取了基于语义词典的方法和编辑距离方法的优点,同时克服了它们的一些不足。
与普通编辑距离不同之处在于,改进编辑距离的方法,同时使用了HowNet和《同义词词林》两种语义辞典,计算词汇之间的语义距离,同时赋予不同编辑操作不同的权重,在不用经过词义消歧和句法分析的前提下,兼顾了结构和词汇等信息,使得对中文识别的准确性更高。
该方法获得了81.33% 的查准率和95.31%的查全率。
但在这篇文章中将句子分成了较长的子结构,使得查询结果不容易匹配,这需要使
用较复杂的句法分析技术。
北京理工大学的夏天等人发表《改进编辑距离算法与汉语句子相似度计算》(2004.12),通过对编辑距离进行有效扩展,提出了一种衡量句子相似度的定量计算方法和对应的多项式时间算法。
该方法以词取代字符作为基本的编辑单元,基于词汇语义计算替换代价,引入块交换操作计算语义编辑距离,并对距离进行归一化以计算句子的相似度。
改进之后的编辑距离算法与之前比较,得到的结果更为合理。
刘宝艳等在《基于改进编辑距离和依存文法的汉语句子相似度计算》(2008)中了一种基于改进编辑距离和《同义词词林》的汉语句子相似度计算方法,该方法把语法结构信息同依存文法分析结合起来,在计算依存树之间的相似度时仅计算有效搭配对之间的相似程度,使计算的时间复杂度大大降低。
将方法与只用改进编辑距离方法进行对比,实验结果证明该方法要优于单单用改进编辑距离的方法。
但由于同义词词林收录的词是有限的,例如一些专有名词就没有收录到其中,使得该方法在用于某些特殊领域时需要增加一些专业领域的词典来提高正确率。
由于交换操作与编辑距离值结果的准确性具有重要的关系,赵作鹏等的《一种改进的编辑距离算法及其在数据处理中的应用》(2009)在Lowrance 的基础上提出了非相邻位置字符的交换操作动态规划方法,通过扩展计算点前后非相邻字符间的交换操作, 改进了编辑距离算法, 实现了编辑操作的最小化,平均执行时间可以缩小10%~20%,同时对交换操作的识别准确性大大提高。
刁兴春等在《一种融合多种编辑距离的字符串相似度计算方法》(2010)
中针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。
该方法在提高相似重复检测算法查全率的同时也能够获得较高的查准率,从而获得了更好的综合检测效果。
(三)《左传》《史记》的对比研究
《左传》《史记》是我国古代汉语史研究的重要资料,有着极其重要的地位。
对《左传》《史记》的研究由来己久,其中对单书进行的研究占绝大多数,两书对比的研究过去也有一些,主要是论文,就所发表的文章而言,其研究内容多是从文学和史学方面进行论述,如书中所涉及的人物形象、叙事手法、取材、史学价值等,朱志纯《从<史记>对<左传>的取材透视司马迁的一家之前》分析了《史记》对《左传》在政治和文学思想方面材料改造的进步;车颖的硕士论文《<左传>、<史记>叙事艺术比较研究》分析了二者的叙事角度以及人物塑造;廖颖的《<左传>与<史记>》对《左传》、《史记》材料进行了详细的考察。
对《左传》《史记》在语言学领域的对比研究也已有一些论文涉及到,如词汇方面唐子恒的《论汉语词汇发展中的更替现象——以<左传><史记>用词差异为例》(2012)、词法方面何乐士《<左传><史记>名词作状语的比较》(1997)以及句法方面解植永《<左传>、<史记>判断句比较研究》(2006)等等。
但这些论文直接从作者要研究的某种既定的语言现象出发,无法对当时社会语言如何流变做到概览。
目前研究《左传》及《史记》异文的专著和论文尚不多见。
张云涛的硕
士论文《<左传><史记>异文研究》(2007)对异文的表现和产生原因进行分类,同时也通过对比分析了汉语的发展。
可是,对古籍进行人工查找异文毕竟数量有限,至今还没有人对《左传》《史记》中出现的异文通过计算机进行自动识别,甚至在整个古籍处理的领域,这项工作都鲜少有人涉及。
三、研究目标、研究内容和拟解决的关键问题
(一)研究目标
本文拟在利用编辑距离的方法对《左传》《史记》进行文本相似度查找,同时加入人名、地名词表,用计算机查找到两种文献中尽可能多的记述同一件事的异文。
(二)研究内容
《汉语大词典》把“异文”解释为:凡同一书的不同版本,或不同的书记载同一事物而字句互异,包括通假字和异体字,都称为异文。
朱承平在《异文类语料的鉴别与应用》将异文从宏观分为版本异文、引用异文、两书异文和名称异文四大类。
王彦坤先生认为“异文”一词有广狭二义,狭义的“异文”属于文字学的名词,它是通假字和异体字的统称;广义的“异文”则属于校勘学范围,“凡同一书的不同版本,或不同的书记载同一事物,字句互异,包括通假字和异体字都叫异文”。
并且认为异文存在于下面三种情况之中:第一是同一部书的不同传本、版本。
第二是记载同一事物的各种资料。
第三是具有引用与被引用关系的文献之间。
本课题研究的《左传》《史记》异文,主要属于后面两种情况。
《左传》和《史记》两书异文存在字、词、句等方面的差异。
本文的主要研究内容就是利用计算机查找到这些语言形式的不同。
主要包括以下几种
情况:
第一,字的异文主要包括本借字、异体字、古今字、正讳字等,用字不同但意义相同,在这里不一一列举。
i)公喻墙,又射之,中股,反队,遂弑之。
(《左传·襄公二十五年》
1097)
公喻墙,射中公股,公反坠,遂弑之。
(《史记·齐太公世家》1501)《段注》:“‘队、坠’,正俗字。
古书多作‘队’。
今则‘坠’行而‘队’废矣。
”此例《左传》用古字,《史记》用今字。
第二,从词的角度来说,主要包括两种情况,即词语的有无、同义词语或短语的替换:
ii)遂东大子光。
使高厚傅牙,以为大予,夙沙卫为少傅。
(《左传·襄公十九年》1048)
遂东太子光,使高厚傅牙为太子。
(《史记·齐太公世家》1499) iii)孔文子之将攻大叔也,访於仲尼。
(《左传·哀公十一年》1667)而卫孔文子将攻太叔,问策於仲尼。
(《史记·孔子世家》1934)第三,二书的句子异文也可分为三种,即句子的详略不同、结构不同、句意不同。
其中由于句子详略的不同使得字面差异太大,对语言的发展变化研究没有太大价值,因此不计入我们的研究范围:
iv)昔高阳氏有才子八人,苍舒、陨皑、祷敲、大临、龙降、庭坚、仲容、叔达,齐、圣、广、渊、明、允、笃、诚,天下之民谓之八恺。
高辛氏有才子八人,伯奋、仲堪、叔献、季仲、伯虎、仲熊、叔豹、
季狸,忠、肃、共、懿、宣、慈、惠、和,天下之民谓之八元。
(《左
传·文公十八年》)
昔高阳氏有才子八人,世得其利,谓之“八恺”。
高辛氏有才子八人,
世谓之“八元”。
(《史记·五帝本纪》35)
其余两种情况分别是:
v)季、郧之鸡斗,季氏介其鸡,邱氏为之金距。
(《左传·昭公二十五年》1461)--- 定语+主语+谓语
季氏与邱氏斗鸡,季氏芥鸡羽,郧氏金距。
(《史记·鲁周公世家》
1540)---主语+谓语+宾语
vi)有使者出。
乃入,曰:“大子焉用孔悝?虽杀之,或妊继之。
”(《左传·哀公十五年》1696)
有使者入城,城门开,子路随而入。
连蒉聩,蒉聩与孔悝登台。
子
路曰:“君焉用孔悝?请得而杀之。
”(《史记·仲尼弟子列传》2193)以往的本体语言学家是只对各种异文现象作定性的分析研究。
为了对异文更深入的了解,我们的主要工作是利用编辑距离的方法来查找到《左传》和《史记》全书的异文,定量与定性相结合,更好的分析古汉语的发展变化,并为以后采用这种方式进行古籍异文的识别研究提供支持。
(三)拟解决的关键问题
1.建立《左传》《史记》的人名、地名词表,要做到同一人物的不同字、
号、官名相对应;同一地点的不同名称也相对应。
2.编写并使用字符串相似度匹配程序,加入人名、地名表以提高正确率,
要能较好地实现《左传》《史记》中异文的查找。
四、拟采取的研究方法、研究手段、技术路线、实验方案及可行性
分析
(一)拟采取的研究方法、研究手段
1.统计和规则相结合的方法。
自然语言处理的研究方法一般有基于统计的方法和基于规则的方法两种。
规则的方法简单、直观、针对性强,但覆盖程度低,难于进一步优化,适合于处理自然语言确定的一面;相反,统计的经验主义方法则适合于处理自然语言中不确定的一面,是从训练数据中自动地或半自动地获取语言知识,建立有效的统计语言模型。
因此本文在对异文的识别和分析的研究中,要将统计和规则相结合,利用两者的优点,既要利用基于编辑距离的方法来计算句子相似度,同时引入两本文献的人名地名表,针对不同的异文形式制定并修改有效可行的识别规则;又要在抽取《左传》《史记》中所存异文的过程时统计出不同的情况以及异文的数量,分析实际得到的数据,针对不同情况不断修改规则的制定,最终使研究结果尽可能从理论和实际数据中得到帮助,达到较好的异文识别效果。
2.定性与定量相结合的方法。
所谓定量就是指的确定一种成分(某种物质)的确切的数值量,这种测定一般不用特别的鉴定物质是什么;定性是指确定某种东西的确切的组成有什么或者某种物质是什么,这种测定一般不用特别的测定这种物质的各种确切的数值量。
定性是个模糊界限,定量则是有清晰的数据分析问题。
如果只有量,没有界,则无法定性;如果只有定性,而无定量,则难以断定发展趋势。
由于《左传》和《史记》篇幅较长,根据现有电子版本统计,《左传》中共有字,而《史记》中与《左传》史实重合的章节共有字。
因此在对异文定性时我们应先采取抽样的办法,选取《史记》中的部分章节与《左传》进行字符串相似度计算,将抽取结果进行分类分析,总结各种语言现象;同时,也要对异文采取定量的办法,要对《左传》《史记》全文进行相似句的查找,统计出各种异文形式出现的数据,以此来分析语言发展的趋势,以便能更真实深入地反映和揭示语言现象的本质。
(二)拟采取的技术路线、实验方案
1.首先,对《左传》和《史记》两本文献以小句为单位做断句处理,进行全文匹配,找到并抽取出文字相同的部分。
2.对剩下的句子用编辑距离的算法计算相似度,将相似值设定到合适的数值,由于异文情况复杂,一般来说相似值应设置较低。
将识别出的异文进行抽取。
3.根据已有资料抽取两本古籍的人名、地名,建立词表。
要注意名称相异但所指相同的情况,使其对应。
4.对前两步仍未识别出的部分,再次调整相似值设置,并加入所建立的人名地名表再次进行抽取。
5.针对具体情况不断调整规则提高正确率和召回率。
6.统计正确率和召回率,分析问题及总结
(三)可行性分析
1.司马迁写春秋及其以前史事, 基本采录《左传》。
班固说:“司马迁据《左传》……接其后事, 迄于天汉。
”由于二者在历史的交叉重合以及后者有
意识对前者的借鉴, 使得两本文献中存在着大量的异文。
2.对基于编辑距离的句子相似度研究,前人已有一定的成果,在现代
汉语中已广泛应用,为本文对这方面的进一步研究提供了不少可以参考或借鉴的思路和材料。
3.同时前人的研究并未运用到古籍文献中,为本文的进一步研究预留
了空间。
由于古籍文献封闭语料的特点,降低了研究的困难,大大提高了可行性。
4.文献资料的阅读和语料的收集为论文写作做了充分的准备。
五、本题目的创新之处和可预期的创造性成果
(一)本题目的创新之处
1.本文第一次对《左传》《史记》中的异文进行定量和定性的系统研究,
在通过实验对异文查找统计的基础上对数据进行分析。
2.从中文信息处理的角度制定了针对古籍异文识别的方法。
(二)可预期的创造成果
1.设计一个针对《左传》《史记》异文识别的工具,并通过使用这个工
具建立起异文对应表。
2.对统计结果进行语言学分析,给以后的理论研究提供数据上的参考。
六、论文工作量、年度研究计划、可能遇到的困难和问题及相应的
解决办法
(一)论文工作量
《左传》与《史记》同事异文的自动发现与分析
摘要
关键字
目录
第一章引言
第一节选题理由
第二节本课题的研究内容
第三节本课题的研究意义
第四节本文的内容结构
第二章词表建立
第一节词表建立原则
第二节人名表的构建
第三节地名表的构建
第四节本章总结
第三章编辑距离
第一节编辑距离介绍
第二节实验语料与方法
第三节实验结果及数据分析
第四节加入词表的实验方法
第五节实验结果及数据分析
第六节本章总结
第四章从异文分析语言流变
第一节异文产生的主要原因
第二节从二书异文看语音的发展
第三节从二书异文看词汇的发展
第四节从二书异文看语法的发展
第五节本章总结
第五章结语
第一节研究总结
第二节未来工作展望
附注
参考文献
附录1 春秋年表
附录2 人名表
附录3 地名表
附录4 生成异文样例
致谢
(二)年度研究计划
2012年09月—2012年11月收集资料,阅读大量相关文献,理清思路,形成论文结构框架
2012年12月—2013年01月撰写论文第一章
2012年02月—2013年05月构建并校对完善人名地名表,并撰写论文第二章
2013年06月—2013年09月完成字符串相似度程序设计并实验,撰写论文第三章
2013年10月—2013年12月观察并分析实验结果,撰写论文第四章,。