红楼梦文本分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

承诺书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。

我们参赛选择的题号是(从A/B/C/D中选择一项填写):

我们的参赛报名号为(如果赛区设置报名号的话):

所属学校(请填写完整的全名):

参赛队员(打印并签名) :1.

2.

3.

指导教师或指导教师组负责人(打印并签名):

日期:年月日

赛区评阅编号(由赛区组委会评阅前进行编号):

队员信息表(必须如实填写)

编号专用页

赛区评阅编号(由赛区组委会评阅前进行编号):

全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):

对《红楼梦》文本的计算机识别方法的研究与设计

摘要

本文通过对文本人物关系、文本结构分层、作者行文风格的分析来分析中文文本。

针对问题一,我们运用聚类分析和层次分析建立模型从物理结构与逻辑结构两方面来分析文本,我们提取文本中和文本标题中的人名作为特征项,用matlab编程分别统计每个人名在各个段落中的频数。通过运用主成分分析法对文本进行的分析我们得出自变量与常数项几乎不相关,因此不需要采取主成分回归分析。通过系统聚类分析,我们得到了聚类图,从中得出了主演人物之间的关系。通过层次划分,我们将样本一划分为两层,样本二划分为两层,样本三划分为两层。最后通过matlab编程统计样本中虚词的频数,并且分别对样本中虚词总体和各个虚词进行统计,运用计算风格学理论,我们得出前八十回与后四十回作者的行文风格存在差异。

针对问题二,我们对聚类分析、层次划分、行文风格进行了检验。对于聚类分析的结果,我们与从对文本概述的文学概括分析得到的人物关系进行比较检验,验证了聚类分析结果是可靠性。对于层次分析,我们通过用Excel对数据做出折线图,对图形进行分析,得出与用层次分析算法得出的相同的人物关系结论。

针对问题三,我们计算了各个样本中主要人物的比重,做出了折线图,从图中我们得出了文本结构一致性的结论,体现了三个样本的相同性。通过计算同一个人物在不同样本中的频数(以黛玉为例),我们得出各个样本由于主题思想的不同主要人物也有差异。

最后说明模型的优缺点及需要改进的地方。

关键字:系统聚类计算风格学文本层次分析

一、问题重述

文本(text),与讯息(message)的意义大致相同,是有一定的符号或符码组成的信息结构体,这种结构体可采用不同的表现形态,如语言的、文字的、影像的等等。文本是由特定的人制作的,文本的语义不可避免地会反映人的特定立场、观点、价值和利益。因此,由文本内容分析,可以推断文本提供者的表述方式,意图和目的。

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。

在分析问题是我们了解到目前有关文本表示的研究主要集中于文本表示模型的选

择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:(1)特征项要能够确实标识文本内容;(2)特征项具有将目标文本与其他文本相区分的能力;(3)特征项的个数不能太多;(4)特征项分离要比较容易实现。在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。因此,在处理问题时角度和特征项的选择是关键。我们要解决的问题是:

(1)从第一回--第四十回,第四十一回--第八十回,第八十一回--第一百二十回分别选取3段文字(每段不少于2000字,指出开始,结束的页码和行数)作为3个样本,对这3个样本提出文本分析的角度,特征项的选取及数量表征,并建立数学模型。

(2)分别估计3个模型的参数,并对模型进行检验。

(3)基于你们的模型,对3个文本进行比较分析(包括相同点和它们之间的差异性分析)。将上述研究结果写成综合性的研究报告。

二、问题分析

本问题主要是通过不同的文本分析角度,建立数学模型,实现对文本的识别,来推断文本提供者的表述方式,意图和目的。

对于问题一,根据物理结构和逻辑结构两个角度确立我们文本分析角度,物理结构方面,通过计算文本虚词使用频率确定作者的行文风格;逻辑结构方面,以红楼梦主要

人物名字为特征值对人物关系进行分析,和以标题词汇为特征值的文本层次分析。使用聚类和层次分析法建模。

对于问题二,运用所建立的模型对选择样本进行运算,得到文本总字数,虚词的使用情况,人物关系情况由聚类法得到,再将文本由标题词汇判定段落分层。在模型检验方面,我们由人为读出的结论与模型得到的人物关系进行大致方向上的比较,由分段后主要人物在各层次所占比重判断层次分析的精确性,作者行文风格通过所得结论与专家推断比较检验。

对于问题三,分别选取三个样本中的虚词频率和人物分析进行比较。通过虚词频率的比较我们可以大致分析出各四十回中作者的行文风格从而判断红楼梦作者是否为一人;而对人物分析方面,对人物与人物之间关联度的比较,能大致确立出在整篇文章中的主要人物和与其关联密切的人物的关系进展,通过关联度相同性与差异性的比较,确立主要人物的日常交际圈和主要人物之间的关系变化。

三、模型假设

[1]每个样本拥有独立性(不受其他样本影响也不影响其他样本);

[2]样本选取是随机的,具有普遍性;

[3]虚词的使用频率的异同可以充分区分作者的行文风格;

[4]标题中词汇在整个文本中具有代表性(标题是整个文本中心思想的概括);

[5]3个样本在整个文本各四十回中的人物关系具有代表性。

[6]可忽略同名不同义的词对研究结果的影响

[7]样本中出现频率很低的人物名可忽略,对结果无影响。

四、符号系统

x——人物i在第j段中的频数T——特征值组成的向量

ij

ij t——表示人物i的第j个特征值的频数i p——第i自然段

五、建立文本识别模型

1)人物关系:由主要人物每段出现频数向量确定人物相关性;

2)文本结构分析:由标题词汇每段出现频数比较分层,使层内差异达到最小值;

3)行文风格:统计虚词使用情况。

5.1人物关系模型研究与确立

目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本矢量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,必须对文本向量做进一步净化处理,在保证原文含义的基础上,找出对文本特征类别最具代表性的文本特征。为了解决这个问题,最有效的办法就是通过特征选择来降维。红楼梦通篇是文言文,在进行文本分析时,由于虚词在文本内容角度的无用性我们将虚词统计次数后用批处理技术删除,同时去除的还有停用词(常用词如‘了’等和生僻词)。

从人物关系的分析角度看,由于文本中形容词的多样化与词义分析方面的复杂性,不从该角度分析。为使操作简单化,我们根据研究的角度,将红楼梦中主要人物名字设

相关文档
最新文档