古籍信息系统开发:复习提纲
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
先秦传世文献目录
分类 战国策 穆天子传 竹书纪年 世本 论语 曾子 子思子 孝经 孟子 荀子 墨子 老子 庄子 文子 列子 文献 分类 史书 史书 史书 史书 子书 子书 子书 子书 子书 子书 子书 子书 子书 子书 子书 鹖冠子 慎子 中子 商君书 韩非子 邓析子 尹文子 公孙龙子 鬼谷子 尸子 吕氏春秋 燕丹子 鬻子 管子 晏子春秋 文献 分类 子书 子书 子书 子书 子书 子书 子书 子书 子书 子书 子书 子书 子书 子书 子书 楚辞 司马法 六韬 孙子 吴子 尉缭子 甘石星经 连山 归藏 山海经 黄帝内经太素 黄帝内经素问 黄帝内经灵枢 黄帝八十一难经 黄帝甲乙经 文献 分类 诗赋 兵书 兵书 兵书 兵书 兵书 数术 数术 数术 数术 方技 方技 方技 方技 方技
• 语料封闭、同质性低,这两个特点决定了现代汉语信息处
理的一般模式不适合于先秦文献信息处理。
• 由此看来,处理大多数篇幅较小的先秦文献时,必须另辟
蹊径,找到适合于先秦文献信息处理特点的新方法。 • 几乎每种传世文献都有非常丰富的相关文献,这些相关文 献是历代学者对传世文献的人工分析的积累,可以转化为 结构化的形式以利应用。 • 相关文献中数量最大也最重要的是注疏文献。注疏文献之 所以重要,是因为其中包含了对字、词、句、篇多层次的 注释,这些注释绝大部分是上下文敏感的知识,与利用计 算模型来消除歧义相比,这些知识更为可靠,可以直接利 用。
• 第一,先秦文献基本上是封闭的。 • 第二,各种先秦文献之间同质性不高。
• 第三,先秦文献信息处理的基础资源比较缺乏。
•
先秦传世文献的总体规模估计在三百万字以内,表1-1中60种有 相当一部分难以确定为先秦文献。先秦出土文献是很有限的, 新出土的先秦佚籍就更少。表1-2列出了25种先秦文献的篇幅, 其中篇幅最大的《左传》大约18万字,篇幅小的则只有几万字 甚至几千字。从语料处理角度看,文献之间差异比较大,语料 的同质性很低。文献间的差异主要体现在:时代差异、学派差 异、题材差异和体裁差异。 根据我们的统计,这25种先秦文献共出现44407个词型(word types),1188183个词例(word tokens)。其中,在全部25 种文献中均出现的词型只有89个,而仅仅在一种文献中出现过 的词型则高达28780个。这些数据从一个侧面表明先秦文献的同 质性的确是比较低的。
•
• 第二,古典文献学对文献内容的关注,主要体现在对文献
真实性的关注,包括文献产生的时间、作者或编者、整篇 或某一部分是否后人伪托而成、各个版本之间的关系等等。 古典文献信息处理对文献内容的关注,除了上述方面之外, 还可体现为基于内容的计算。拿先秦文献信息处理来说, 可以做《左传》和《国语》的事件抽取、人物关系抽取, 先秦诸子思想比较等等。我们的检索系统不仅可以做字词 检索,还可以检索《左传》中的人物、地理实体和事件, 并以可视化界面展示社会网络分析的结果。(见第10章 ‚词汇与历史知识的智能检索‛。)
第一章
绪论
先秦文献信息处理
徐润华
本章内容简介:
一、先秦文献
先秦传世文献 先秦出土文献
二、先秦文献信息处理
先秦文献信息处理的研究目标 先秦文献信息处理的任务
三、先秦文献信息处理的特点
四、基于注疏文献的处理方法
相关文献 人名地名知识的获取 词语切分知识的获取 词性标注知识的获取
+ 先秦是指秦朝统一中国之前的历史阶段,
•
• 语料封闭、同质性低,这两个特点决定了现代汉语
信息处理的一般模式不适合于先秦文献信息处理。
• 现代汉语信息处理的一般模式是三部曲:人工标注
→机器学习→机器标注。
• 人工标注工作量取决于具体任务和模型参数的规模。
一般来说,训练语料规模越大,模型性能越好。接 着是计算机从训练语料中学习模型参数。最后,计 算机用它所学到的模型参数来标注其他语料,标注 效果主要取决于标注语料与训练语料的相似程度。
– 旧时称解释古书意义、即对经书字句注 解的为‚注‛,又称‚传‛、‚笺‛、 ‚解‛、‚章句‛等; – 疏通注文意义、即对‚注‛进行注解的 为‚疏‛,又称‚义疏‛、‚正义‛、 ‚疏义‛等。
• 随着儒家之学在中国传统社会中定于一尊,历代学
者纷纷为诸经作注解。其中,汉朝及稍后的学者们 做了大量的注释工作,人们称之为注或笺。唐宋时 期,由于时间久远,人们对汉代的注释也难于理解 了。于是一些学者不仅注解经传的正文,而且对前 人的旧注也进行解释和阐发,习惯上就称之为‚疏‛ 或‚正义‛。 • 宋人把古人关于经书的注本、疏本合为一编,因此 有‚注疏‛这一合称。注、疏内容关乎经籍中文字 正假、语词意义、音读正讹、语法修辞,以及名物、 典制、史实等诸多方面。宋人将十三经及宋以前之 注疏合刊,‚注疏‛之称始流行。
• 出土文献的可贵之处在于: • 第一,出土文献未经流传,因此而避免了流传过程
中的改写,能保留原貌;
• 第二,可以用现代科技手段鉴定其成书年代;
• 第三,出土文献常常伴有其他出土文物,可以相互
印证其共生关系。出土文献中,有的是先秦佚籍, 其文献价值自不待言,有的是可与传世文献对照的 更可靠的版本。有学者称可藉出土文献重写先秦文 学史、重新建构先秦哲学的脉络。
可以上溯至三皇五帝乃至更远。不过,就 先秦文献的产生年代而言,则基本上是商 周两代,且以东周(春秋战国)时期为主。
+ 现在所能见到的先秦文献可分为两类:先
秦传世文献与先秦出土文献。前者经历过 较长历史时期的流传,后者则是现当代发 掘出土、尚未广泛流传的文献。
+ 据李零介绍,先秦传世文献共60种,其中
•
本章论述了先秦文献信息处理的研究目标和任务,并重点探讨 了先秦文献信息处理的特点和对策。
•
先秦文献信息处理与现代汉语信息处理的主要差别是:
• 第一,先秦文献是封闭性的,规模小、同质性不高; • 第二,先秦文献拥有丰富的相关文献,而先秦文献信息处理所需 知识就蕴藏在其中,既有系统的、静态的知识,也有大量的上下 文敏感的具体知识。因此,我们主张以追求语言信息处理的实效 为第一要务,从相关文献(特别是注疏文献)中获取目标文献处 理所需的各种知识。
经传类11种,小学类2种,史书类6种,子 书类26种,诗赋类1种,兵书类5种,数术 类4种,方技类5种:
+ 表1-1
文献 诗经 尚书 仪礼 礼记 大戴礼记 周礼 周易 春秋 左传 公羊传 谷梁传 尔雅 史籀篇 逸周书 国语 经传 经传 经传 经传 经传 经传 经传 经传 经传 经传 经传 小学 小学 史书 史书
• 在宋朝,理学家们把《孟子》也提高到了经书的地
位,北宋哲宗元佑年间的科举考试中就包括了《孟 子》。从此儒家的经典便成了‚十三经‛,‚十三 经‛的名称也稳定了下来,直到今天再无变化。
• ‚十三经‛是中国传统文化的基本资料库,在悠久
的中华文明进程中,‚十三经‛对我国的传统文化 产生了巨大影响,在中国思想文化史上有着不言而 喻的重要价值。它是研究中国古代思想文化的重要 史料,是中国古代文化的百科全书。经学作为中国 思想文化的主干,对于民族凝聚和文化认同始终发 挥着不可取代的主导作用。
•
如果仅仅是为古典文献处理提供现代化的技术手段,古典文献信息处理还不 足以成为一门学科。作为一门学科,它必须有自己的理论、方法和研究目标。 作为语言信息处理(具体到中文信息处理)的一个分支,古典文献信息处理 的理论基础是信息论和概率论,基本的研究方法是语料库统计,基本的工具 是语言计算模型。它的研究目标也与古典文献学有所区别: 第一,古典文献学主要关注文献内容,古典文献信息处理除了关注文献内容 之外,还应该特别关注文献的语言形式。先秦汉语是汉语发展的源头,先秦 文献信息处理的一个重要的研究目标就是要从先秦文献中探寻这个源头的基 本面貌,包括先秦汉语的语音、词汇和语法面貌,为汉语史的研究提供可靠 的统计数据。鉴于课题的性质,我们主要是做了先秦汉语的词汇处理:对25 种先秦文献全面地进行了词语切分和词性标注,在此基础上自动生成了先秦 汉语词表,以先秦文献为参照考察了成语来源以及古今字和通假字的分布。 (见第5章‚古今字、通假字标注‛,第6章‚词汇概貌‛。)
‚言而有信‛,这些多字组合在现代汉语中一般认为是
词或成语,但在先秦文献中都能算是词或成语吗?判定 的依据是什么呢?
• 前面说过,三十多年以来中文信息处理的研究对象
实际上主要是现代汉语普通话(以下简称现代汉 语)。自不待言,现代汉语信息处理用过的许多方 法可以移植到先秦文献的信息处理中来。但是,在 移植或借鉴过程中,必须考虑先秦文献信息处理的 特点。那么,先秦文献信息处理有哪些特点呢?我 们认为,以下几点是比较突出的:
•
• 词处理是先秦文献信息处理的核心任务,也是几个颇为
困难的任务:词语切分、专名标注、词性标注和词义标 注。我们首先遇到的是词的认定这一理论问题,这个问
题在现代汉语中也没有得到很好的解决。先秦文献中常
常会遇到一些多字组合,例如《论语学而》中的‚君 子‛、‚远方‛、‚犯上‛、‚作乱‛、‚巧言令色‛、
• ‚十三经‛是13部儒家经典的总称,包括《周
易》、《尚书》、《毛诗》、《周礼》、《仪 礼》、《礼记》、《春秋三传》(《左氏传》、 《公羊传》、《穀梁传》)、《论语》、《孝 经》、《尔雅》、《孟子》十三种,历代尊Leabharlann Baidu 儒家经典,故称为‚经‛。
• 其成书年代各不相同,包含内容极其广泛,包
括哲学、文学、历史、政治、经济、语言文字、 伦理、民俗、地理、科技、典章制度等,是研 究中国古代社会不可缺少的最重要的历史文献。
•
古典文献信息处理并不是要取代古典文献学。它的首要任务是要为古 典文献学提供数字化处理的技术手段。中国古典文献有几千年的历史 积累,卷轶浩繁,熟悉文献而又能融会贯通的专家不多,仅凭人力实 在难以完成对古典文献的分析、整理和研究工作。电子计算机的问世 以及汉字在计算机上的输入输出的实现,给古典文献处理带来了福音。 例如,以现在的眼光来看,给文献编制逐字索引是一件很简单的事情, 一部电子版的《左传》几秒钟即可完成索引。如果用以前抄卡片的方 法编制逐字索引,需要好几个人年,还容易出错。
• 先秦文献信息处理应该是中文信息处理的一个分支。
三十多年以来,中文信息处理的研究对象实际上主 要是现代汉语普通话,对中国境内的各少数民族的 语言文字也颇为重视,但古典文献信息处理和汉语 方言信息处理水平则远远落后于现代汉语普通话。
• 目前,现代汉语普通话已经完成了字处理任务,词
处理、句处理乃至篇章处理都有相当可观的研究成 果。然而,古典文献信息处理基本上还处于字处理 阶段,还缺乏一些基础资源和实用技术,例如用于 超大汉字字符集的输入法,古籍汉字识别等等。
第二章
注疏文献处理
先秦文献信息处理
徐润华
本章内容简介:
一、注疏文献的选取
先秦注疏文献概况 “十三经”及其注疏文献简介 注疏文献的获取和格式调整
二、注疏文献的内容分析
注疏文献的内容构成 注疏文献的内容分类
(1)注疏文献的格式范式 (2)注疏文献的分类算法 (3)注疏文献的分类结果示例
+ 注疏是注文和解释注文及文字的合称。
• 先秦文献信息处理的首要任务是文献数字化,数字化的基
本含义是把文献变成机器可读的文本。方正超大字符集有 6万多汉字,Unicode5.0及其以上版本有7万多汉字,已经 基本够用。
•
跟校对相关的工作是校勘。在古典文献信息处理中,校对的目 标是做到电子文本与纸质文本一致,校勘是发现同一种文献的 各个电子版本之间的差异,即‚校异‛,至于‚订讹‛工作则 应由古典文献学专家来完成。 在校勘学中,‚校异‛是只列出其他版本的异文,不判断是非, 也不擅改原文,‚订讹‛是将底本中的衍、脱、误、倒之处全 部改正。我们曾经以《左传》、《公羊传》、《谷梁传》中所 载的三个版本的《春秋》为对象,研究一种古籍版本异文的自 动发现方法,得到了非常理想的效果。(见第9章‚版本异文发 现‛。)
• 汉语方言信息处理方面,已有一些可贵的
探索,例如,通过相关系数计算和聚类分 析来确定方言之间的亲属关系,通过同源 词统计确定语言或方言的形成年代、亲属 关系,但总的来说还不成体系。汉语方言 差异在很大程度上反映汉语的历时变化, 因此汉语方言信息处理与中国古典文献信 息处理是密切相关的。
• 古典文献信息处理与古典文献学的关系。