聚类分析在红楼梦作者问题上的应用

合集下载

统编教材六年级上册 [六年级上册数学教案-第九章3 统 计(1课时)(人教版)]

统编教材六年级上册 [六年级上册数学教案-第九章3 统 计(1课时)(人教版)]

《统编教材六年级上册 [六年级上册数学教案-第九章3 统计(1课时)(人教版)]》摘要:折线统计图,第17题:(1)2000年学龄儿童最多,2010年学龄儿童最少,于是李教授用每个回目中47个虚词(之,其,或,呀,吗,咧,罢,可,便,就……)出现的次数,作为《红楼梦》各个回目的数字标志3 统计课时目标导航复习内容折线统计图。

(教材第117页“总复习”第4题以及教材第120~121页“练习二十八”第17、18题) 复习目标 1.进一步理解复式折线统计图,感受复式折线统计图产生的意义,了解其特点并能正确地绘制简单的复式折线统计图。

2.根据数据的变化进行数据分析和合理的推测,正确运用这些知识解决一些简单的问题。

3.体验数学与生活的密切相关,提高学生的应用意识。

重点难点重点:掌握复式折线统计图的特点。

难点:会分析发展趋势,通过分析能进行简单预测。

复习过程一、知识回顾【回顾】折线统计图 1.折线统计图的意义。

用一个单位长度表示一定的数量,根据数量的多少描出各点,然后把各点用线段顺次连结起来的统计图叫做折线统计图。

用多条不同的折线表示多组不同数据的统计图叫做复式折线统计图。

2.绘制折线统计图。

绘制折线统计图时,先根据数据的大小描出各点,再用线段顺次连结各点,并在各点的旁边标出数量的多少。

3.复式折线统计图的优点。

复式折线统计图既可以看出每组数据变化的整体趋势,还能对每组数据的差异进行分析、比较,并通过所获得的信息对事物的发展进行推测。

4.练习巩固。

(出示教材117页第4题) 2004~2012年某大学理工科在河北省招生分数线统计图某家电商场A、B两种品牌彩电2010年月销售统计图 (1)观察这两个折线统计图所表示的数据,说一说折线统计图适合表示数据的什么情况。

(2)说一说绘制复式折线统计图时应该注意什么。

(3)如果你是高考生或者商场经理,你能从统计图中得到哪些信息?这些信息对你有什么帮助?二、巩固反馈完成教材第120~121页“练习二十八”第17、18题。

统计与红学研究

统计与红学研究

统计与红学研究计算机、统计学与“红学”研究综论作者:贾洪卫董坚徐锐摘⾃:《红楼博客站》⾃清朝传世⼆百多年以来,《红楼梦》的艺术魅⼒长久地吸引着许许多多国内外研究者和普通的读者。

在这部不朽的名著中,作者塑造了众多的栩栩如⽣的⼈物形象,使⽤了优美、⽣动的⽂学语⾔。

书中还涉及到哲学、经济、教育、诗词、对联、谜语、酒令、成语、修辞、园林、建筑、服装、医药、烹调、戏曲、⾳乐、舞蹈、绘画、爱情、⼼理、外貌描写等领域以及⼈物空间、时间的主体结构和错综复杂的关系,引起了⼈们⼴泛的探索和研究。

⽬前已经形成了⼀门国际性的学问──红学。

近年来关于红学研究现代化,如何运⽤计算机分析⽂学作品的问题,已经引起了社会科学和计算机科学界的普遍关注。

国际上关于建⽴以计算机为代表的现代化“国际红学资料中⼼”的呼声也引起红学界的注意。

在这种形势下,综论计算机与红学研究的历史和现状,介绍其研究内容和存在的问题不仅可以加深⼈们对《红楼梦》这部辉煌巨著的认识和理解,⽽且对于古典⽂学研究的现代化探索也是有借鉴意义的。

计算机应⽤于⽂学作品的研究是近⼗多年的事情。

七⼗年代中期,英国剑桥⼤学的两位师⽣因运⽤计算机侦破伪造莎⼠⽐亚的奇案⽽震动了西⽅⽂学界。

他们对⼀家出版商出版的莎⼠⽐亚新作品,⽤计算机对它的修辞和结构进⾏分析和⽐较。

把新作品中的句型与公认的莎⼠⽐亚作品作⽐较,发现莎⼠⽐亚⼀向不采⽤的修辞和⽤语出现了,句型和结构也同惯⽤的⽅法不⼀样。

他们将⽤计算机分析出来的⼤量证据向法院起诉,使伪造莎⼠⽐亚作品的出版商哑⼝⽆⾔,只得承认作伪。

这项研究成果引起了国内外学者的重视,纷纷利⽤计算机来分析研究别的古典⽂学作品,导致计算机闯进“红学”研究园地。

1980年6⽉。

在美国梦⽃湖畔的威斯康星⼤学召开的⾸届国际《红楼梦》研讨会上,威斯康星华裔学者陈炳藻先⽣宣读了⼀篇《从词汇上的统计论〈红楼梦〉的作者问题》的⽂章,引起了国际红学界的注意和兴趣。

1986年,陈炳藻教授公开发表了《电脑在⽂学上的应⽤:〈红楼梦〉与〈⼉⼥英雄传〉两书作者⽤词的⽐较》⼀⽂;之后⼜出版了《电脑红学:论〈红楼梦〉作者》的专著。

基于数理统计方法的红楼梦研究

基于数理统计方法的红楼梦研究

统计方法在《红楼梦》前80回与后40回分析的运用高健(南京师范大学统计(金融)系,南京)摘要本文在数据的基础上通过统计方法对《红楼梦》前80回与后40回作了比较分析。

在写作风格方面,运用两个独立样本的假设检验得出前80回与后40回在写作风格上有着较大的差异。

在人物方面,通过K-S检验方法,这几个主要人物人在前后的出场规律有着巨大差异。

在情景分析方面,运用聚类分析,得出在前80回中主要情感色彩是“欢快”的,都大多数情感色彩“沉重”的回合集中在后40回。

关键字两个独立样本的假设检验 K-S检验方法聚类分析(一)引言《红楼梦》是我国四大名著之首,而且有很多悬而未决的问题,把统计学的定量分析方法引入红学研究是很自然的。

华裔学者陈炳藻教授(见[1],[2])在美国威斯康星大学召开的“首届国际《红楼梦》研讨会”上曾发表了通过统计学方法算出相关用词的相关程度,发现前80回与后40回均为曹雪芹一人所作.我国华东师范大学陈大康教授得出了迥异的结论(1987,[3]),它将红楼梦分成3组,通过分析各组之间用词句式,作出推论:后40回非曹雪芹所作(但含有少量残稿).复旦大学李贤平教授的也通过对于虚词运用多元统分析(主成份分析、典型相关分析、聚类分析等),提出了新观点(1987,[4]):《红楼梦》前80回是曹雪芹根据《石头记》增删而成;而后40回则是曹家亲友搜集整理原稿加工补写而成。

东南大学韦博成通过运用各回合对于情景的关注程度(2009,[5]),分析前80回和后40回合的不同。

以上几位学者对于前80回和后40回的不同之处分析主要集中在写作之人写作手法的不同,没有考虑到《红楼梦》这部巨作本身的故事也决定了其前后两部分的不同。

本文基于前面几位学者,不仅从写作风格方面做了简要分析,同时从故事的本身进行的不同异同分析。

在分析写作风格方面,通过多元分析中的两个独立样本的建设检验对于使用虚词的规律进行分析,从霍特林2T统计量的值我们看出,写作风格有着较大的不同。

聚类分析方法在文学作品风格比较中的应用

聚类分析方法在文学作品风格比较中的应用

聚类分析方法在文学作品风格比较中的应用作者:时季来源:《文教资料》2017年第33期摘要:本文从毕飞宇和苏童两人的作品中分别选取了四本影响力比较大的小说组建成语料库来作为本次实验的语料来源,选取出50多个可量化统计且具有稳定性的语言特征,进行聚类分析,发现,若以语气词(啊、吗、呀等)、标点符号(逗号、句号、分号、问号、感叹号等)和实词词类(名词、动词、形容词、副词等)这些语言特征为基础的话得到的结果比较好,说明这些语言特征在区别毕飞宇和苏童的小说时具有区别性作用。

关键词:计算风格学文本风格聚类分析 SPSS1.引言计算风格学是使用统计、计算的方法来对特定文学作品风格进行精密的比较研究是一门学科,是一门交叉型学科,是数理语言学的一个分支,涉及到语言学、计算机、数理学等多个学科。

其理论基础为认为文本的语言特征表现了作者个人在写作活动中的言语特征,是作者个人风格不自觉的深刻反映[1],并且这些特征又可以在一定程度上通过数量特征来进行刻画,关于这一点,有学者进行了实验验证[2]。

因此,相较于传统的内省式的研究文学作品风格的方法,计算风格学的方法具有独特的优势,比如对已得出的定性结论的正确性进行验证,为已有的定性结论提供数据支撑,这样,不仅能够弥补传统的文学作品风格研究方法客观性不足的问题,而且能够使研究结论从模糊的定性判断走向了准确的数量展示,增加研究结论的科学性。

因此,目前国内外已经有很多学者开始使用这样新的研究方法对文学作品的风格进行研究。

因为计算风格学的方法是通过量化文本中的语言结构单位来刻画、研究语体、作品或作家的风格,所以,最重要的地方在于提取出能代表或区分不同风格的语言特征,并且这些特征一定是可被量化统计且能够稳定出现的。

目前,已经提出、证实能够代表作家作品风格的、能够稳定出现的可量化统计语言特征主要是从词汇、句子、段落、语法、语义等五个方面来进行提取的,其中从词汇和句子两个层面来提取语言特征的情况最多,这主要是因为现在中文自动分词、词性标注、命名实体标注等技术相对来说比较成熟。

基于聚类分析的《红楼梦》前后作者差异检验

基于聚类分析的《红楼梦》前后作者差异检验

基于聚类分析的《红楼梦》前后作者差异检验作者:陈恩宏刘陈帅贾学勇来源:《西部论丛》2017年第10期摘要:《红楼梦》成为文学中“红学”的代表,被越来越多的人进行研究,其中前后作者写作风格的差异成为人们首要研究的问题。

本文从数学建模的角度出发,利用前后章节字、词、句定性定量的差异来证明前后作者不同。

首先将前后章节分为两个样本,选取实词“红”、“玉”以及8个虚词,统计得出各个词在前80回和后40回的使用频率,作为样本元素,接着选取显著性水平a=0.05,提出原假设,即两个样本之间不存在差异;最后将样本集元素进行排序,分别平均计算得到秩和统计量,代入数据结合曼—惠特尼检验统计量使用SPSS软件,得出检验值Z=11.7075,因为,拒绝原假设,可得出前后作者不同的结论。

再从计算前后章回中独有词的出现比例,直观体现出前后章回中词量的差异,接着统计每十章出现二元文法前200序列的次数,进行数据的归一化处理,形成单独样本,并利用欧式距离公式计算数据间的距离,利用MATLAB软件进行依次聚类,从聚类图可得出前80回中作者对相邻两词的使用习惯相似,但与后40回表达习惯差异较大。

接着将高频的实词和虚词同样进行频数统计与归一化,选取前后两部分样本均值作为聚类中心,得出前80回和后40回的样本点分别聚集在不同的区域内。

综上,从词量和词频的角度都可证明前80回与后40回作者不同。

关键词:曼—惠特尼U检验 N元文法聚类 k-means聚类1. 引言《红楼梦》流传至今,是一部以四大家族的发展兴衰为时代背景,以故事主人公的感情为主线,随着剧情发展不断揭示当代社会危机以及人性的善恶,已经成为我国小说的经典。

本书作者曹雪芹的写作风格新颖别致、摆脱俗套、备受后世读者赞叹。

但是在后续的保留和传播过程中,红楼梦遭到损坏,只保留下完整的80章,后续作者高鹗续写后40章,以此完善《红楼梦》。

《红楼梦》已经形成了独有的文学——“红学”,虽然《红楼梦》故事情节大致完整,但是作者不同,写作风格自然不同。

层次聚类方法 红楼梦

层次聚类方法 红楼梦

层次聚类方法红楼梦《红楼梦》是一部中国古代经典文学作品,被誉为中国古代小说的巅峰之作。

它以贾宝玉、林黛玉、薛宝钗等一系列形象的塑造为主线,展现了封建社会下人性的善恶、爱恨、欲望与矛盾。

本文将以层次聚类方法为题,从不同角度对《红楼梦》进行创作。

第一部分:贾府的兴衰起落在这个部分,我们将聚焦于贾府作为故事的背景。

贾府作为一个封建世家,拥有庞大的家族和财富。

然而,由于家族内部的争斗、权力的腐败以及外界的变故,贾府的兴衰起落成为整个故事的核心。

我们将描绘贾府昌盛时的繁华景象,以及家族面临的种种困境,展现出封建社会的冷酷和无情。

第二部分:爱恨情仇的纠葛在这个部分,我们将聚焦于人物关系的复杂性。

贾宝玉、林黛玉、薛宝钗等一系列形象的塑造让读者深刻感受到爱恨情仇的纠葛。

他们之间的情感纠葛、争斗和妒忌,展现了人性的复杂性和社会的残酷。

我们将通过描写他们之间的相互作用,展现出爱情的美好与痛苦,友情的真挚与背叛,以及家族利益与个人情感之间的冲突。

第三部分:封建礼教与女性命运在这个部分,我们将聚焦于封建礼教对女性命运的影响。

《红楼梦》中的女性角色生活在一个充满束缚和压抑的封建社会中。

她们被迫遵循封建礼教的规范,无法自由选择自己的命运。

我们将通过描绘她们的悲惨命运,展现出封建礼教对女性的压迫和剥削,以及她们对这种命运的反抗和追求自由的渴望。

第四部分:人性的善恶与道德观念的碰撞在这个部分,我们将聚焦于人性的善恶与道德观念的碰撞。

《红楼梦》中的人物形象各具特色,他们有的善良和忠诚,有的邪恶和狡诈。

他们的行为和选择展现了人性的复杂性和矛盾性。

我们将通过描绘他们的内心世界和行为,探讨人性的善恶、道德观念的碰撞以及对人性的深刻思考。

第五部分:现实与梦幻的交织在这个部分,我们将聚焦于现实与梦幻的交织。

《红楼梦》中,贾宝玉的梦境和现实世界交织在一起,给整个故事增添了神秘感和幻想色彩。

我们将通过描绘梦境和现实的转换,展现出现实世界的残酷和无奈,以及梦境中的遐想和追求,引发读者对现实与梦幻的思考和反思。

基于数理统计方法的红楼梦研究

基于数理统计方法的红楼梦研究

里约奥运“鲜”科技作者:暂无来源:《科学之友》 2016年第9期历届奥运会不仅是体育健儿们展示的舞台,也是科技装备的竞技场。

一场奥运观看下来,基本上也就了解了时代最前沿、最先进的科技。

这个夏天,体育运动正受到四年一度最密集的关注。

下面,我们就来回顾一下在2016年的里约奥运会上,都有哪些高新科技登台亮相。

VR转播虽然已经被媒体定义为12年来最节约的奥运会开幕式,不过,它幸运地赶上了视频技术的好时候。

没错,近两年来如日中天的VR将第一次出现在奥运会上。

奥运转播服务机构OBS将采用VR转播开闭幕式,除此之外,每天还会选择一个赛事进行VR画面转播,用户也可以在非比赛时间点播下载这些内容。

当然,限于目前VR技术的局限,VR转播并非实时进行,而是必须有所延迟。

VR是综合利用计算机图形系统和各种现实及控制等接口设备,在计算机上生成的、可交互的三维环境中提供沉浸感觉的技术,也叫作虚拟现实。

2015—2016赛季的美国职业篮球联赛(NBA)揭幕战是世界上第一场使用VR技术转播的比赛。

至此,VR与体育的结合越来越深入。

极限运动、高尔夫等比赛现场都进行过VR直播测试。

可以说,这一技术融入体育有着先天的优势。

众所周知,竞技体育非常注重观赏性,而面对年轻的观众,也越来越需要通过娱乐来提升他们的观感。

虚拟现实最直观的功能就是给人带来360°的沉浸式体验。

当前电视直播的观看体验根本无法与沉浸式的VR体验相提并论,那将是真正“身临其境”感受比赛过程的激烈刺激。

此外,日本NHK与OBS合作,将在日本国内采用8K超清转播技术及22路环绕立体声技术,转播内容涉及开闭幕式、游泳、篮球、足球、体操等。

据悉,此次里约奥运会采用的VR、8K超清转播服务,事实上还只能算是一场预演。

到了2020年东京奥运会,也许观众们将真正看到一届由这些技术进行实时转播的奥运会。

机器人拍摄技术体育运动的视觉展示不仅仅是视频转播的天下,传统的新闻图片一直占有一席之地,那是动与静的完美结合。

基于R软件和KNN算法的《红楼梦》作者分析

基于R软件和KNN算法的《红楼梦》作者分析

摘要:本文研究的是基于R 软件和KNN 算法的《红楼梦》作者分析,通过运用R 软件将《红楼梦》前80回预定为第一类,后40回预定为第二类,进行KNN 分类分析。

最后得到的结论为:不拒绝《红楼梦》为两个作者所写。

关键词:文本分析;《红楼梦》;KNN 分类一、引言现《红楼梦》全书120回,相传前80回是曹雪芹所作,后40回据说由高鹗续写。

因此其作者颇具争议。

在历史和文学方面有很多学着通过各类论证和文献考据进行《红楼梦》的作者的相关研究。

而采用统计方法进行研究的主要有:李国强[1]等的根据《红楼梦》的词频然后结合词频的相关性进行研究。

他将《红楼梦》的前中后各40回分为A、B、C 三部分,得到A、B、C 的相关度很高,但两两相关度很低的结论。

而施建军[2-3]则通过k-means 聚类和支持向量机两种方法进行研究,其支持向量机的方法得到了前80回和后40回在写作风格上存在明显差别的结论,但其聚类方法不能为判断作者提供可靠的依据。

叶雷[4]则通过基于计量文体特征的k-means 聚类对《红楼梦》的作者进行研究,得到了后40回和67回不是前80回作者所著等结论。

本文则通过运用R 软件将《红楼梦》前80回预定为第一类,后40回预定为第二类,进行KNN 分类分析。

二、KNN 分类分析基本思想及前期准备KNN 算法的核心思想是如果一个样本在特征空间中的k 个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

根据《红楼梦》作者的假设,认为前80回为一个作者,后40回为另一个作者,因此可以认为当把《红楼梦》全部的120回当成样本时,如果前80回是属于同一类,则此时,该文本样本符合KNN 分类思想。

因为KNN 分类属于监督学习,所以KNN 分类需要训练集,有训练、测试、预测这个过程。

在此我们需要先整理出一个训练集、测试集、预测集,为方便起见本文令前80回为1类,后40回为2类,且训练集为前80回。

运用基于统计学建立的数学模型解决《红楼梦》作者之谜

运用基于统计学建立的数学模型解决《红楼梦》作者之谜

y2 ,…,yn ,并在直角坐标系上制得散点图,并用最小二乘法 拟合出词频 ——— 虚词序次直线. 其中,b 为该直线在 y 轴上
的斜率,a 为该直线在 x 轴上的截距,且满足方程如下:
n
{ ∑( xi - x) ( yi - y) b = i=1 n ∑( xi - x) 2 i =1
n
∑xiyi - nx y
准. 求解过程中 21 ~ 30 回和 101 ~ 110 回被随机选中. 剩余
10 节分别以这两节的顺序为基准,构建一元线性回归方程,
通过对线性相关系数及斜率的比较,将剩余 10 节归入到误
差较小即在标准数据内的那组,由此确认 120 回中哪几回
属于同一个作者.
使用盲眼测试法,即将章回数当作未知数据,通过将该
= i=1 n

∑x2i - nx2
i =1
a = y - bx.
线性相关系数( R2 ) : 由于之后的线性回归模型需要以
一个同类随机样本虚词的顺序为基准,因此,两个变量之间
的关系强度无法得到保证. 此时需要计算每条拟合直线的
线性相关系数,即 R2 来判断两个变量之间的线性关系密切
程度,在该问题中 表 现 为 虚 词 的 位 次 与 频 率 是 否 大 致 与 随
现频 率 较 高 的 虚 词: 吗、仍、越、让、其、比、但、可; 使 用
MATLAB 语言对这 8 个虚词的出现次数及频率进行统计;
数学学习与研究 2019. 7
高教视野
16
GAOJIAO SHIYE
以前 50 回中 8 个虚词的频率升序为基准,将前后两部分的
数据制作成散点图,并绘制出各自的线性回归方程. 两方程
小节以两个数据基准数据得出的散点图及线性回归方程与

朴素贝叶斯文本分类-在《红楼梦》作者鉴别的应用上(python实现)

朴素贝叶斯文本分类-在《红楼梦》作者鉴别的应用上(python实现)

朴素贝叶斯⽂本分类-在《红楼梦》作者鉴别的应⽤上(python实现)朴素贝叶斯算法简单、⾼效。

接下来我们来介绍其如何应⽤在《红楼梦》作者的鉴别上。

第⼀步,当然是先得有⽂本数据,我在⽹上随便下载了⼀个txt(当时急着交初稿。

)。

分类肯定是要⼀个回合⼀个回合的分,所以我们拿到⽂本数据后,先进⾏回合划分。

然后就是去标点符号、分词,做词频统计。

1 # -*- coding: utf-8 -*-2 import re3 import jieba4 import string5 import collections as coll6 jieba.load_userdict('E:\\forpython\\红楼梦词汇⼤全.txt') # 导⼊搜狗的红楼梦词库789class textprocesser:10 def __init__(self):11 pass1213 # 将⼩说分成120个章节并单独保存到txt⽂件中14 def divide_into_chapter(self):15 red=open('E:\\forpython\\红楼梦.txt',encoding='utf-8')16 each_line = red.readline()17 chapter_count = 018 chapter_text = ''19 complied_rule = pile('第[⼀⼆三四五六七⼋九⼗百]+回 ')2021while each_line:22if re.findall(complied_rule,each_line):23 file_name = 'chap'+str(chapter_count)24 file_out = open('E:\\forpython\\chapters\\'+file_name+'.txt','a',encoding = 'utf-8')25 file_out.write(chapter_text)26 chapter_count += 127 file_out.close()28 chapter_text = each_line29else:30 chapter_text += each_line3132 each_line = red.readline()3334 red.close()353637 # 对单个章节的分词38 def segmentation(self,text,text_count):39 file_name = 'chap'+str(text_count)+'-words.txt'40 file_out = open('E:\\forpython\\chapter2words\\'+file_name,'a',encoding='utf-8')41 delset = string.punctuation4243 line=text.readline()4445while line:46 seg_list = jieba.cut(line,cut_all = False)47 words = "".join(seg_list)48 words = words.translate(delset) # 去除英⽂标点49 words = "".join(words.split('\n')) # 去除回车符50 words = self.delCNf(words) # 去除中⽂标点51 words = re.sub('[ \u3000]+','',words) # 去除多余的空格52 file_out.write(words)53 line = text.readline()5455 file_out.close()56 text.close()575859 # 对所有章节分词60 def do_segmentation(self):61for loop in range(1,121):62 file_name = 'chap'+str(loop)+'.txt'63 file_in = open('E:\\forpython\\chapters\\'+file_name,'r',encoding = 'utf-8')6465 self.segmentation(file_in,loop)6667 file_in.close()6869 # 去除中⽂字符函数70 def delCNf(self,line):71 regex = pile('[^\u4e00-\u9fa5a-zA-Z0-9\s]')72return regex.sub('', line)7475 # 去除标点后进⾏词频统计76 def count_words(self,text,textID):77 line = str(text)78 words = line.split()79 words_dict = coll.Counter(words) # ⽣成词频字典8081 file_name = 'chap'+str(textID)+'-wordcount.txt'82 file_out = open('E:\\forpython\\chapter-wordcount\\'+file_name,'a',encoding = 'utf-8')8384 # 排序后写⼊⽂本85 sorted_result = sorted(words_dict.items(),key = lambda d:d[1],reverse = True)86for one in sorted_result:87 line = "".join(one[0] + '\t' + str(one[1]) + '\n')88 file_out.write(line)8990 file_out.close()91929394 def do_wordcount(self):95for loop in range(1,121):96 file_name = 'chap'+str(loop)+'-words.txt'97 file_in = open('E:\\forpython\\chapter2words\\'+file_name,'r',encoding = 'utf-8')98 line = file_in.readline()99100 text = ''101while line:102 text += line103 line = file_in.readline()104 self.count_words(text,loop)105 file_in.close()106107108if __name__ == '__main__':109 processer = textprocesser()110 processer.divide_into_chapter()111 processer.do_segmentation()112 processer.do_wordcount()⽂本分类我个⼈感觉最重要的是选取特征向量,我查阅了相关⽂献,决定选取五⼗多个⽂⾔虚词和⼆⼗多个在120个回合中均出现过的词汇(⽂⾔虚词的使⽤不受情节影响,只与作者写作习惯有关)。

两则趣味贝叶斯统计案例

两则趣味贝叶斯统计案例
两则趣味贝叶斯统计案例
趣味案例一 在1787到1788年,也就是纽约州带头鼓动通过 新的美国宪法期间,美国第四任总统詹姆士·麦迪 逊和开国政治家亚历山大·汉密尔顿都写了许多文
章支持通过宪法。但这些文章都是以署名“联 邦 主义者”匿名发表的。19世纪初,麦迪逊和汉密 尔顿两人开始确认各自的著作,但其中有12篇 一直颇具争议,就像笼罩着一层面纱,无法以真 面目示人。那么如何用统计方法进行分析和识别 呢?
统计学特别是贝叶斯统计学是信息经济学的数学基础。 贝叶斯统计中对先验信息与后验信息的联系作了深刻 的理论分析,而决策依赖后验信息的获得而使用,这 些都体现在贝叶斯统计与决策的知识中。 信息经济学中的实证模型分析用到计量经济的知识, 都需要统计学的深厚功底。 总之,研究信息经济学及其应用应具备深厚的贝叶斯 统计与决策的数学功底
趣味案例二
1981年3月30日,一个大学退学学生Hinckley企图对里 根总统行刺。他打伤了里根、里根的新闻秘书以及两 个保安人员。在1982年审判他时,Hinckley以精神病 为理由作为其无罪的辩护。在18个医师中作证的医师 是Daniel R.Weinberger,他告诉法院当给被诊断为精 神分裂症的人以CAT扫描(计算机辅助层析扫描)时, 扫描显示30%的案例为脑萎缩,而给正常人以CAT扫描 时,只有2%的扫描显示脑萎缩。Hinckley的辩护律师 试图拿Hinckley的CAT扫描结果为证据,争辩说因为 Hinckley的扫描展示了脑萎缩,他极有可能患有精神 病,从而免予受到法院的起诉。
类似于《红楼梦》某些章节作者考证中的曹雪芹和高 鹗之争,我们当然可以用多元统计分析中的聚类分析 进行论证,但在当时,聚类方法还没有得到很好的发 展。而且麦迪逊和汉密尔顿在已有著作中的平均句长 几乎完全相同,这使得这一能反映写作风格特征的数 据失效了。直到1964年,美国统计学家莫斯特勒和华 莱士转而从用词习惯上来找出这两位作者的有区别性 的风格特征,运用贝叶斯定理判定了《联邦主义论文 集》中这些署名有争议的文章的作者。

基于Python技术的《红楼梦》文本分析研究

基于Python技术的《红楼梦》文本分析研究

基于Python技术的《红楼梦》文本分析研究目录一、内容概括 (2)1. 研究背景与意义 (2)2. 国内外研究现状 (3)3. 研究内容与方法 (4)二、理论基础 (5)1. 文本分析理论概述 (7)2. Python技术在文本分析中的应用 (9)三、《红楼梦》文本概述 (10)1. 《红楼梦》作者及版本介绍 (10)2. 《红楼梦》主要内容梗概 (11)3. 《红楼梦》文学价值及影响 (12)四、基于Python技术的《红楼梦》文本分析 (13)1. 文本预处理 (14)1.1 数据采集与清洗 (15)1.2 分词与词性标注 (16)1.3 句法分析 (17)2. 语义分析 (18)2.1 语义角色标注 (19)2.2 语义依存分析 (20)2.3 语义相似度计算 (21)3. 信息抽取 (22)3.1 人物关系抽取 (23)3.2 情感倾向分析 (24)3.3 主题提取 (25)4. 机器学习在文本分析中的应用 (26)4.1 文本分类 (27)4.2 情感分析 (29)4.3 文本聚类 (29)五、实验设计与结果分析 (30)1. 实验环境与工具介绍 (31)2. 实验设计与方法 (33)3. 实验结果与分析 (34)4. 结果讨论与评价 (35)六、结论与展望 (36)1. 研究成果总结 (37)2. 研究不足与局限 (37)3. 后续研究方向与展望 (39)一、内容概括文本预处理:利用Python的文本处理库,对《红楼梦》的原始文本进行清洗、分词、去除停用词等预处理工作,为后续的分析工作提供基础数据。

文学风格分析:通过分析文本的词汇、句式、修辞等语言特征,探究《红楼梦》的文学风格及其演变过程。

人物性格分析:通过文本挖掘技术,提取《红楼梦》中主要人物的性格特征,探究人物性格与情节发展的关系。

情节发展分析:利用Python技术,对《红楼梦》的情节进行结构化处理,分析其情节发展脉络、高潮与转折,揭示其内在的逻辑关系和故事结构。

数据挖掘分析《红楼梦》

数据挖掘分析《红楼梦》

数据挖掘分析《红楼梦》背景介绍:生活的真谛是什么?是从每个人自己不同爱好、不同擅长、不同的品味中,感受对于生活的独特理解和个性化发现。

所谓赌徒的生活的真谛就是下注时的快感;作家的生活的真谛就是用文学作品解剖生活;数学家生活的真谛就是探索和欣赏数学里的奥秘;舞女的生活真谛就是在灯红酒绿中体会人性的另一面;万法归宗呀,芸芸众生只有看问题的角度不同,没有绝对的对错和高低。

就象本文即将分享的一个用数据分析方法部分解密《红楼梦》的前后作者一样,《红楼梦》后40回作者到底是曹雪芹还是另有其人?这个论题作为红学研究最热烈的话题当然并不是完全可以用纯粹的数学推理来解决的,但是这里分享的数学分析方法和思路,却是实实在在可以让有缘之人当作休闲的小食,不求充饥,但求有趣,从不同的角度和不同的视线观察生活,就是人生的好享受。

2007年10月10日南京“现代快报”报道,南京林业大学汤庚国教授另辟鼷径,从海棠文化出发,分析《红楼梦》前80回与后40回的差异。

汤教授主要从人文花卉方面进行分析,发现《红楼梦》前80回有16回涉及海棠,而后40回只有4回涉及海棠,以此说明前后差距明显。

受汤教授的启发,东南大学数学系的韦博成先生(博导)从数学统计的专业角度对汤先生的发现进行数学证明,通过两个独立二项总体等价性检验,经过渐近正态公式计算,有92%的把握认为“前80回对于海棠花的关注程度大于后40回对于海棠花的关注程度”。

根据该统计方法,韦博成先生再接再厉,对于《红楼梦》中的若干重要的情景描述进行量化,得到相应的数据集。

有了数据集就可以进行数理统计分析,比较前80回与后40回在文风上的差异,结果表明,《红楼梦》前80回与后40回在某些重要的情景描述上确实有非常显著的差异。

研究者韦博成先生再三再四强调,他只是从数据分析的角度指出两者的差异,尚不能说明《红楼梦》前80回与后40回作者的不同,因为“这涉及到许多人文与社会方面的问题,这是数理统计方法所无能为力的。

红楼梦前80章与后40章的作者分析

红楼梦前80章与后40章的作者分析

红楼梦前80章与后40章的作者分析《红楼梦》的作者问题成功地吸引了国内外读者的注意。

基于此,本文以数理统计为基础,应用支持向量机的理论和方法,建立相应模型,证实了《红楼梦》前80章回和后40章回在某些字、词、句上确实存在显著性差异。

首先采用引用大胆假设,小心验证的思路,使用机器学习-支持向量机进行分类,通过高斯径向基函数,寻找到最优分类超平面,由于数据样本不足,导致分类结果正确率仅为85%;然后,使用matlab软件绘制类别分界图。

最终效果:0-80章回在1的水平上,81-120章回在-1的水平上,并且分界点明显在80-81章回之间,佐证了《红楼梦》前80章回和后40章回作者不同。

标签:红楼梦;格拉布斯检验;方差分析;支持向量机0.引言《红楼梦》,中国古典四大名著之一,清代作家曹雪芹创作的章回体长篇小说。

《红楼梦》开篇以神话形式介绍作品的由来,说女娲炼三万六千五百零一块石补天,只用了三万六千五百块,剩余一块未用[5],弃在青埂峰下。

剩一石自怨自愧,日夜悲哀。

一僧一道见它形体可爱,便给它镌上数字,携带下凡。

不知过了几世几劫,空空道人路过,见石上刻录了一段故事,便受石之托,抄寫下来传世。

辗转传到曹雪芹手中,经他批阅十载、增删五次而成书。

以贾、史、王、薛四大家族的兴衰为背景,以贾府的家庭琐事、闺阁闲情为脉络,以贾宝玉、林黛玉、薛宝钗的爱情婚姻故事为主线,刻画了以贾宝玉和金陵十二钗为中心的正邪两赋有情人的人性美和悲剧美。

通过家族悲剧、女儿悲剧及主人公的人生悲剧,揭示出封建末世危机。

同时也是一部具有世界影响力的人情小说作品[1],是中国古典小说巅峰之作,中国封建社会的百科全书,传统文化的集大成者。

小说以“大旨谈情,实录其事”自勉,只按自己的事体情理,按迹循踪,摆脱旧套,新鲜别致,取得了非凡的艺术成就。

“真事隐去,假语村言”的特殊笔法更是令后世读者脑洞大开,揣测之说久而遂多[3]。

围绕《红楼梦》的品读研究形成了一门显学——红学。

《2024年灵光与深度——鲁迅的《红楼梦》研究及其影响》范文

《2024年灵光与深度——鲁迅的《红楼梦》研究及其影响》范文

《灵光与深度——鲁迅的《红楼梦》研究及其影响》篇一鲁迅,一个用笔触鞭挞旧世界,探索新时代光辉的文学巨匠。

他以深邃的思想、锐利的洞察力和犀利的文字著称,尤其对于中国古典文学的独到见解与评价令人折服。

在这篇论文中,我们将聚焦于鲁迅对《红楼梦》的研究,分析其独到的观点与视角,并探讨其产生的影响。

一、鲁迅的《红楼梦》研究概览鲁迅对于《红楼梦》的独特解读可谓自成一派,从对作者生平的挖掘,到对故事背景的理解,再到对文学手法与艺术成就的分析,他都用深入浅出的文字阐述了自己对《红楼梦》的看法。

他的研究涵盖了文学、哲学、历史等多个领域,使《红楼梦》这一作品得以更全面地展现在读者面前。

二、鲁迅对《红楼梦》研究的独到见解鲁迅在研究《红楼梦》时,始终关注作品的现实主义倾向和人文关怀。

他认为,《红楼梦》不仅仅是一部反映封建社会末期的社会现实和家族兴衰的巨著,更是一部深刻揭示人性、命运和生命的作品。

他特别强调了曹雪芹在创作过程中所体现出的深刻的人文关怀和批判精神。

三、鲁迅研究的影响鲁迅对《红楼梦》的研究不仅在当时产生了深远的影响,至今仍具有重要的现实意义。

首先,鲁迅的研究深化了人们对《红楼梦》的理解。

他以独特的视角和深刻的洞察力,使人们能够更加全面地理解这部作品的文学价值和社会意义。

其次,鲁迅的研究促进了中国现代文学的发展。

他的研究方法、思想观念和文学观点为后来的研究者提供了宝贵的借鉴和启示。

他的研究使得《红楼梦》这一古典文学作品在现代文学中得以传承和发展。

最后,鲁迅的研究对于推动中国文化的传承和弘扬具有重要意义。

通过对《红楼梦》等古典文学作品的研究,鲁迅弘扬了中华优秀传统文化,使得更多人了解和认同中国文化的价值。

同时,他的研究也为世界各国人民了解中国文化提供了宝贵的资源。

四、结论鲁迅对《红楼梦》的研究充分体现了他深厚的学术造诣和敏锐的洞察力。

他的研究不仅为后人提供了宝贵的学术资源,也为中国现代文学的发展和文化传承做出了重要贡献。

差序格局红楼梦为例

差序格局红楼梦为例

差序格局红楼梦为例
1红楼梦折差序
红楼梦是中国古代的一部著名的文学巨著,作者曹雪芹著,张爱玲改编。

全书以折差序排列,折差序指的是把一个任务分割成多个子任务进行分步完成。

这种结构能够帮助作者把重点置于最重要的部分,使故事情节及内容更加紧凑。

《红楼梦》以折差序营造出独特的叙事,把百家争鸣、家族坎坷聚焦在几个主要角色身上,从乔、贾宝玉父女的家族悲剧出发,把曹雪芹七十多种性格故事尽情展示出来,充分体现出成为明清时代的精神风采,堪称中国古典小说的典范。

2折差序的细节
折差序在《红楼梦》中运用的很充分,故事易读,细节特别,构思交织。

从乔家发展到贾家,到贾家宝玉父女的情感纠葛,再到金陵十二钗快乐结局,以及叔家二儿张三死、孙家赖翁祭坟等等,都是把每一个事情都作了叙述,以最恰当的画面展示。

作者常用反复对比、外内兼扬、上下穿插,以达到最大的冲击力和引起读者最深刻的思考。

《红楼梦》不光以突出的折差序结构渲染叙述,而是基于折差序结构设计内容,而且不断突破情节,使读者充分了解到作者的思想。

3启示
折差序的运用,让《红楼梦》成为中国文学史上的一个奇迹。

在当今时代,《红楼梦》仍然是有超凡魅力的,成为大家根植中华文化土壤中的榜样。

折差序不仅只是文学行文手法,也可以武装现实生
活,让复杂的事情也一一分类清晰,从而有效的推进计划的进度,达到最佳的结果。

红楼梦的文本分析探索人物之间的关系

红楼梦的文本分析探索人物之间的关系

《红楼梦》的文本分析摘要《红楼梦》作为中国古代优秀的章回体文言文小说,其中的人物关系错综复杂,所以研究《红楼梦》中的人物关系疏密度具有重要意义。

本文以所选《红楼梦》文段中的人物作为特征项,通过分析人物出现的频率和出现位置的分布,来分析所选文段中人物的主次以及他们之间的关系疏密度。

首先通过Matlab等软件进行编程获取所取的文段样本中的人物以及人物出现的频数和位置分布,再根据人物之间出现位置的绝对值距离与人物之间关系密切性近似成反比的关系来建立能够刻画人物之间关系疏密度的数学模型。

通过我们所建立的数学模型计算出的人物之间关系疏密度的结果能够较好地符合所选文段中人物之间关系疏密度的实际情况,我们所得到的人物之间关系疏密度近似服从幂律分布,与现有的一些研究结论相符合。

关键词人物关系疏密度数理统计方法绝对值距离幂律分布一、问题重述文本分析是对文本信息进行挖掘,信息检索的一个基本问题,由于文本中一般含有大量的信息,如何从大量的文本中挖掘有用的信息,就需要选取合适的分析角度对文本进行分析。

基于数理统计的方法对文本进行分析一直以来是一个热点。

对于《红楼梦》的文本分析,目前已有很多人从不同的角度提出了分析方法。

如运用聚类分析对虚词分析(1987,[1]),运用独立样本检验动词和名词的搭配(2009,[2])以及运用K-S检验法检验动词,连词的分布等,但现有的分析主要集中在对写作之人写作手法和写作风格上的分析,或是对于情景的关注程度的分析,却没有人对小说三要素之一的人物进行过深入的分析。

本文采用数理统计的方法主要对《红楼梦》里的人物主次和主要人物之间关系疏密度进行分析。

二、问题分析每个文本里包含了多个人物,每个人名出现的频率存在差异,每个人名可能多次出现,在整个文本里出现的位置也存在差异。

要对人物进行分析就要统计每个人物在文本里出现的频率和出现的位置分布。

可认为人物出现的频率与人物的重要程度是正相关,对于每个人物出现的位置分布,可认为两人物多次出现的位置邻近的越多,则两人物间关系越密切,反之,两人物的名字出现的位置邻近的越少,则两人物间的关系越疏远。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

聚类分析在红楼梦作者问题上的应用
2009-08-25 20:27:06| 分类:数学教育收藏|字号订阅
众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹊所续.然而长期以来这种看法一直都饱受争议.能否从统计上做出论证从1985年开始,复旦大学的李贤平教授带领他的学生作了这项很有意义的工作,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔.一般认为,每个人使用某些词的习惯是特有的.于是李教授用每个回目中47个虚词(之,其,或,亦…,;呀,吗,咧,罢……;可,便,就……等)出现的次数(频率),作为《红楼梦》各个回目的数字标志.之所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的.利用多元分析中的聚类分析法进行聚类,果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔.之后又进一步分析前80回是否为曹雪芹所写这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人手笔,是他根据《石头记》写成,中间插入《风月宝鉴》,还有一些别的增加成分.而后40回是否为高鹤写的呢论证结果推翻了后40回是高鹦一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写等等.这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了红学界的观点,使红学界大为赞叹.
所谓聚类分析,顾名思义,就是按照某种标准,将样本物以类聚。

即使续作者刻意模仿作者的写法,但是文风是不能模仿的,而对虚词的使用是难以做到一致的,这就是标准(也就是统计量)所在。

李教授的工作便是证明了前八十回和后四十回在虚词的使用上截然不同。

而石头记与风月宝鉴的对比使用的则是因子分析的方法。

每一回四十七个虚词出现不同次数,而一共有120回,这样就构成一个47*120的矩阵,李教授在统计软件SPSS上分析这个大型矩阵得到以上结果,可信度甚高,因为它是完全客观不带有主观色彩的方法,仅从文本入手。

就凭这一点,比某些胡说八道的红学家强之百倍。

相关文档
最新文档