运用基于统计学建立的数学模型解决《红楼梦》作者之谜

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

y2 ,…,yn ,并在直角坐标系上制得散点图,并用最小二乘法 拟合出词频 ——— 虚词序次直线. 其中,b 为该直线在 y 轴上
的斜率,a 为该直线在 x 轴上的截距,且满足方程如下:
n
{ ∑( xi - x) ( yi - y) b = i=1 n ∑( xi - x) 2 i =1
n
∑xiyi - nx y
准. 求解过程中 21 ~ 30 回和 101 ~ 110 回被随机选中. 剩余
10 节分别以这两节的顺序为基准,构建一元线性回归方程,
通过对线性相关系数及斜率的比较,将剩余 10 节归入到误
差较小即在标准数据内的那组,由此确认 120 回中哪几回
属于同一个作者.
使用盲眼测试法,即将章回数当作未知数据,通过将该
= i=1 n

∑x2i - nx2
i =1
a = y - bx.
线性相关系数( R2 ) : 由于之后的线性回归模型需要以
一个同类随机样本虚词的顺序为基准,因此,两个变量之间
的关系强度无法得到保证. 此时需要计算每条拟合直线的
线性相关系数,即 R2 来判断两个变量之间的线性关系密切
程度,在该问题中 表 现 为 虚 词 的 位 次 与 频 率 是 否 大 致 与 随
现频 率 较 高 的 虚 词: 吗、仍、越、让、其、比、但、可; 使 用
MATLAB 语言对这 8 个虚词的出现次数及频率进行统计;
数学学习与研究 2019. 7
高教视野
16
GAOJIAO SHIYE
以前 50 回中 8 个虚词的频率升序为基准,将前后两部分的
数据制作成散点图,并绘制出各自的线性回归方程. 两方程
小节以两个数据基准数据得出的散点图及线性回归方程与
其基准进行比较,得 出 更 接 近 基 准 的 该 组 即 为 该 小 节 所 属
部分.
以 31 ~ 40 回小节为例进行归类,将两组数据的相对差
距进行比较:
以 21 ~ 30 回为基准时,线性相关系数为 0. 765 223 92,
拟合效果出色,适合进行方程截距比较; 截距与基准之比为
机样本一致.
观测数据( xi ,yi ) ,i = 1,2,…,n 的样本相关系数
n
∑( xi - x) ( yi - y)
R=
i =1
n
n
槡∑ 槡∑ ( xi - x) 2 i =1
( yi - y) 2
i =1
n
∑xiyi - nx y
=
i =1

槡( ) 槡( ) n ∑x2i - nx2 i =1
x→0
x→0
limf(
x→0
x) x2

x为“
0 0
”未 定 式 (
满足洛必达法则的第一个条
件) ,综上分析可知洛必达法则的前两个条件满足,所以可
先用洛必达法则.
第二个等号用的也是洛必达法则,但是错误的. 因为函
数 f( x) 在点 x = 0 处二阶可导,即 f' ( x) 在点 0 处可导,但
f'( x) 在点 0 的某个邻域内不一定可导( 由命题 3 可知) ,这
( 上接 14 页)
命题 3 函数在一点处可导的话,函数在这点的某个邻
域内不一定可导.
下举一个应用 上 述 三 个 结 论 的 例 子,而 学 生 常 常 因 为
对上述三个结论不清楚而产生错误的解法. 例 2[2] 设函数 f( x) 在点 x = 0 处二阶可导,且 f( 0) =
0,f'( 0)
数学学习与研究 2019. 7
n
∑y2i - ny2
i =1
根据统计 学 知 识,在 本 数 学 模 型 中 规 定: 当 0. 75 <
R2 < 1 时,拟合效果出色; 当 0. 25 < R2 < 0. 75 时,拟合效果
良好; 当 0 < R2 < 0. 25 时,拟合效果较差.
由假设可知,同一作者作品中虚词词频是一致的. 因
比为00..
392 855
719 150
34 40
= 0.
459
240
082.
再将比值与标准数据
1 ± 0. 1 进行绝对差距比较,发现远超出可承受范围.
由于第 31 ~ 40 回与 21 ~ 30 回拟合效果出色,比值在合
理范围内; 与 101 ~ 110 回拟合效果较差,比值超出范围. 因
而,可以得出 31 ~ 40 回小节属于前 80 回.
斜率的差即为该 问 题 中 可 接 受 的 误 差,即 在 该 范 围 内 可 认
为两篇文本出自同一作者.
进行多组数据比对,作者认为以 1 ± 0. 1 为标准数据具
有适用性.
六、模型的求解
为使数据尽量可控、精细,将《红楼梦》以每 10 回划分
为 1 节,分别从前 8 节和后 4 节中各抽出 1 节作为顺序基
0. 0.
765 810
223 458
92 30
= 0.
944
186
666,将该比值与标准数据
1
±
0.
1Hale Waihona Puke 进行绝对差距比较,发现在可承受范围内.
以 101 ~ 110 回 为 基 准 时,该 小 节 线 性 相 关 系 数 为
0. 392 719 34,拟合效果偏差,不宜进行方程截距比较; 为使
得结果更合理、有力,进一步进行截距比较: 截距与基准之
此,如果各章节作者相同,那么相同的一组虚词按照不变的
排序后,所拟合出的直线近似一致. 并且,由于相同虚词在
不同作者作品中词 频 不 同,所 以 一 组 虚 词 按 照 不 变 的 顺 序
排序后,拟合出的词频 - 虚词直线一般不同,且拟合效果一
般较差. 同时,相关系数也与拟合直线的斜率一同作为判断
依据: 当斜率相差小且拟合效果好时,认为匹配成功; 否则,
f( x) 在点 0 某个邻域内是一阶可导( 满足洛必达法则的第
二个条件) ,又由命题 2 可知,函数 f( x) 在点 x = 0 处二阶可
导,则 f( x) 在点 0 处是连续的,所以 limf( x) = f( 0) = 0,从 x→0
而 lim[f( x) - x] = 0,而分 母 的 极 限 lim x2 = 0,所 以 极 限
= 1,f″( 0)
= 2,求
limf(
x→0
x) x2

x.
在该例中,学生常出现的错误解法为
limf(
x→0
x) x2

x
=
limf'(
x→0
x) 2x

1
=
limf″( x) x→0 2
=
1 2
f″(
0)
= 1.
在这个解法中,第一个等号用的是洛必达法则,是正确
的. 因为由命题 1 可知,函数 f( x) 在点 x = 0 处二阶可导,则
高教视野
GAOJIAO SHIYE
15
运用基于统计学建立的数学模型解决《红楼梦》作者之谜
◎陈城钰 于欣雨 苏世杰 ( 西北工业大学,陕西 西安 710000)
【摘要】本文借助数学知识建立一元线性回归模型,利 用最小二乘法来 拟 合 出 虚 词 频 率 直 线,通 过 分 析 虚 词 频 率 的差异,来推断《红楼梦》作者的问题. 根据建模分析,得出 前 80 回与后 40 回不是同一个作者的结论.
认为匹配失败.
五、标准数据设立
为了论证虚词 词 频 的 异 同 能 够 体 现 作 者 的 异 同 ,首 要
任务是建立各线性回归方程斜率之间的可承受误差区间,
即标准数据. 本文选用已确认由唯一作者书写的《西游记》
为参数来源.
数据获得步骤: 将 100 回的《西游记》平均分为前后各
50 回两个部分; 通过 Python 语言及 Jieba 分词插件得出总出
结论.
【参考文献】 [1]李贤平.《红楼梦》成书新说[J]. 复旦大学学报社 科版,1987( 5) : 3 - 16. [2]韦博成. 红楼梦前 80 回与后 40 回某些文风差异的 统计分析[J]. 应用概率统计,2009( 4) : 441 - 448. [3]吴军. 数学之美: 第 2 版[M]. 北京: 人民邮电出版 社,2014. [4]韦博成. 漫谈统计学的应用与发展[J]. 数理统计与 管理,2011( 1) : 85 - 97.
【关键词】红楼梦; 线性回归; 词向量
《红楼梦》是具有高度思想性和艺术性的伟大作品,因 某些历史原因,在传播过程中出现了增补、修订的现象. 本 文借助数学模型,对《红楼梦》前 80 回与后 40 回作者是否 为同一人进行了研究.
一、问题的分析 本文作者在前期研究中发现,《红楼梦》主要人物出现 的频率受小说情 节 的 影 响 较 大,虽 能 在 一 定 程 度 上 体 现 出 作者的差异,但并不明显. 现代汉语言文 学 研 究 认 为,虚 词 的 使 用 更 能 够 体 现 出 作者的写作习惯与语言风格. 因此,通过大规模的统计与合 理地建模,对不同章回中相同的虚词进行频率分析,得出每 章回作者的语言习惯,在误差范围内进行比较和判断,可判 断不同章回之间作者的异同. 二、模型假设 1. 同一个作者,认为他对词、句法的使用习惯基本保持 不变,作品中的虚词出现频率几乎没有差别; 2. 不同的作者之间,词汇的使用习惯、词与词的相关性 处理、长短句的偏好有较大的差别; 3. 本次所用《红楼梦》版本为作者成书时原貌,成书后, 除去遗失的原稿外,在传播过程中无其他人的修订. 三、数据概览 在使用模型对虚词词频进行分析之前,使用 MATLAB 语言对虚词在前 后 章 节 中 出 现 的 次 数 差 异 进 行 了 统 计 ,为 模型的建立及其结果提供有力论据. 采用 Python 语言及 Jieba 分词插件进行词频统计,挑选 了“再、可、别、为、之、啊、咧、吗、呀、仍、要、也、尚、偏、很、 比、越、往、向、让、故、皆”22 个在一般古汉语中高频出现的 虚词进行统计比 对,发 现 对 虚 词 的 使 用 偏 好 在 前 后 两 部 分 出现了巨大差异,如“吗”在前半部分出现频率 0. 0375 次 / 回,而在后半部分出现频率 1. 875 次 / 回,验证了前后部分 是由语言习惯相差明显的两位作者分别完成的推论. 之后 的模型求解均基于该理念完成. 四、模型的建立 本文通过建立一 元 回 归 方 程,对 虚 词 频 率 位 次 的 分 析 来估计不同文本之间虚词的频率异同. 作者取样同一部小 说中的大量虚词,根据虚词的频率从小到大排列,视其位次 为自变量 x1 ,x2 ,…,xn . 以虚词对应的频率为因变量,记 y1 ,
样就不满足洛必 达 法 则 的 第 二 个 条 件,所 以 第 二 个 等 号 用
洛必达法则是错误的.
第三个等号也是错误的. 由命题 2 可知,函数 f( x) 在点
x = 0 处二阶可导,推不出 f″( x) 在点 x = 0 处连续,从而推不
出 limf″( x) = f″( 0) . x→0 该题的正确解法为
limf(
x→0
x) x2

x
=
limf'(
x→0
x) - 1 2x
=
1 2
limf'(
x→
x) - f'( 0) x -0
=
1 2
f″( 0)
= 1.
即用一次洛必达法则,再用一次 f″( 0) 的定义式即可.
【参考文献】 [1]同济大学数学系. 微积分: 第 3 版[M]. 北京: 高等 教育出版社,2010. [2]于新凯,金少华,郭献洲. 微积分典型问题分析与习 题精选[M]. 天津: 天津大学出版社,2009.
将剩余 9 小节按照如上方法进行比对,结果显示前 80
回在以 21 ~ 30 回 为 基 准 的 可 接 受 范 围 内; 后 40 回 在 以
101 ~ 110 回为基准的可接受范围内.
七、结 论
综上所述,通过虚词词频的一元线性回归模型,可以得
出《红楼 梦》前 80 回 与 后 40 回 分 别 由 两 位 作 者 撰 写 的
相关文档
最新文档