《数学之美》读书笔记

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《数学之美》读书笔记
《数学之美》读书笔记
《数学之美》是一本领域相关的数学概念书，生动形
象地讲解了关于数据挖掘、文本检索等方面的基础知识，可
以作为数据挖掘、文本检索的入门普及书。另外，就像作者
吴军老师提到的，关键是要从中学到道----解决问题的方
法，而不仅仅是术。书中也启发式的引导读者形成自己解决
问题的道。
下面记录一下自己读这本书的一些感想：
第一章《文字和语言vs数字和信息》：文字和语言中
天然蕴藏着一些数学思想，数学可能不仅仅的是一门非常
理科的知识，也是一种艺术。另外，遇到一个复杂的问题时，
可能生活中的一些常识，一些简单的思想会给你带来解决
问题的灵感。
第二章《自然语言处理----从规则到统计》：试图模
拟人脑处理语言的模式，基于语法规则，词性等进行语法分
析、语义分析的自然语言处理有着很大的复杂度，而基于统
计的语言模型很好的解决了自然语言处理的诸多难题。人们
认识这个过程，找到统计的方法经历了20多年，非常庆幸
我们的前辈已经帮我们找到了正确的方法，不用我们再去苦
苦摸索。另外，这也说明在发现真理的过程中是充满坎坷的，
感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不
能轻易放弃，真正的成长是在解决问题的过程中。事情不可
能一帆风顺的，这是自然界的普遍真理吧！
第三章《统计语言模型》：自然语言的处理找到了一
种合适的方法---基于统计的模型，概率论的知识开始发挥
作用。二元模型、三元模型、多元模型，模型元数越多，计
算量越大，简单实用就是最好的。对于某些不出现或出现次
数很少的词，会有零概率问题，这是就要找到一数学方法给
它一个很小的概率。以前学概率论的时候觉的没什么用，现
在开始发现这些知识可能就是你以后解决问题的利器。最后
引用作者本章的最后一句话：数学的魅力就在于将复杂的问
题简单化。
第四章《谈谈中文分词》：中文分词是将一句话分成
一些词，这是以后进一步处理的基础。从开始的查字典到后
来基于统计语言模型的分词，如今的中文分词算是一个已经
解决的问题。然而，针对不同的系统、不同的要求，分词的
粒度和方法也不尽相同，还是针对具体的问题，提出针对该
问题最好的方法。没有什么是绝对的，掌握其中的道才是核
心。
第五章《隐马尔科夫模型》：隐马尔科夫模型和概率
论里面的马尔科夫链相似，就是该时刻的状态仅与前面某几
个时刻的状态有关。基于大量数据训练出相应的隐马尔科夫
模型，就可以解决好多机器学习的问题，训练中会涉及到一
些经典的算法(维特比算法等)。关于这个模型，没有实际实
现过，所以感觉好陌生，只是知道了些概率论讲过的原理而
已。
第六章《信息的度量和作用》：信息论给出了信息的
度量，它是基于概率的，概率越小，其不确定性越大，信息
量就越大。引入信息量就可以消除系统的不确定性，同理自
然语言处理的大量问题就是找相关的信息。信息熵的物理含
义是对一个信息系统不确定性的度量，这一点与热力学中的
熵概念相同，看似不同的学科之间也会有着很强的相似性。
事务之间是存在联系的，要学会借鉴其他知识。
第七章《贾里尼克和现代语言处理》：贾里尼克是为
世界级的大师，不仅在于他的学术成就，更在于他的风范。
贾里尼克教授少年坎坷，也并非开始就投身到自然语言方面
的研究，关键是他的思想和他的道。贾里克尼教授治学严谨、
用心对待自己的学生，对于学生的教导，教授告诉你最多的
是“什么方法不好”，这很像听到的一句话“我不赞同你，
但我支持你”。贾里克尼教授一生专注学习，最后在办公桌
前过世了。读了这章我总结出的一句话是“思想决定一个人
的高度”。在这章中对于少年时的教育，以下几点值得借鉴：
1、少年时期其实没有必要花那么多时间读书，他们的社会
经验、生活能力以及在那时树立起的志向将帮助他们一生。
2、中学时花大量时间学会的内容，在大学用非常短的时间
就可以读完，因为在大学阶段，人的理解力要强很多。3、
学习（和教育）是一个人一辈子的过程。4、书本的内容可
以早学，也可以晚学，但是错过了成长阶段却是无法补回来
的。
第八章《简单之美----布尔代数和搜索引擎的索引》：
布尔是19世纪英国的一位中学教师，但他的公开身份是啤
酒商，提出好的思想的人不一定是大师。简单的建立索引可
以根据一个词是否在一个网页中出现而设置为0和1，为了
适应索引访问的速度、附加的信息、更新要快速，改进了索
引的建立，但原理上依然简单，等价于布尔运算。牛顿的一
句话“（人们）发觉真理在形式上从来是简单的，而不是复
杂和含混的”。做好搜索，最基本的要求是每天分析10-20
个不好的搜索结果，积累一段时间才有感觉。有时候，学习、
处理问题，可以从不好的方面入手，效果可能更好。
第九章《图论和网络爬虫》：图的遍历分为“广度优
先搜索（Breadth-First Search，简称BFS）”和“深度优
先搜索（Depth-First Search，简称DFS）。互联网上有几百
亿的网页，需要大量的服务器用来下载网页，需要协调这些
服务器的任务，这就是网络设计和程序设计的艺术了。另外
对于简单的网页，没必要下载。还需要存储一张哈希表来记
录哪些网页已经存储过（如果记录每个网页的url，数量太
多，这里可以用后面提到的信息指纹，只需要一个很多位的
数字即可），避免重复下载。另外，在图论出现的很长一段
时间里，实际需求的图只有几千个节点，那时图的遍历很简
单，人们都没有怎么专门研究这个问题，随着互联网的出现，
图的遍历一下子有了用武之地，很多数学方法就是这样，看
上去没有什么用途，等到具体的应用出来了一下子开始派上
大用场了，这可能就是世界上很多人毕生研究数学的原因
吧。一个系统看似整体简单，但里面的每个东西都可能是一
个复杂的东西，需要很好的设计。
第十章《PageRank----Google的民主表决式网页排名
技术》：搜索返回了成千上万条结果，如何为搜索结果排名？
这取决与两组信息：关于网页的质量信息以及这个查询和每
个网页的相关性信息。PageRank算法来衡量一个网页的质
量，该算法的思想是如果一个网页被很多其他网页所链接，
说明它收到普遍的承认和信赖，那么它的排名就高。谷歌的
创始人佩奇和布林提出了该算法并用迭代的方法解决了这
个问题。PageRank在Google所有的算法中依然是至关重要
的。该算法并不难，可是当时只有佩奇和布林想到了，为什
么呢？
第十一章《如何确定网页和查询的相关性》：构建一
个搜索引擎的四个方面：如何自动下载网页、如何建立索引、
如何衡量网页的质量以及确定一个网页和某个查询的相关
性。搜索关键词权重的科学度量TF—IDF，TF衡量一个词在
一个网页中的权重，即词频。IDF衡量一个词本身的权重，
对主题的预测能力。一个查询和该网页的相关性公式由词频
的简单求和变成了加权求和，即TF1*IDF1 + TF2*IDF2 + ...
+ TFN*IDFN。看似复杂的搜索引擎，里面的原理竟是这么简
单！
第十二章《地图和本地搜索的最基本技术——有限状
态机和动态规划》：地址的解析依靠有限状态机，当用户输
入的地址不太标准或有错别字时，希望进行模糊匹配，提出
了一种基于概率的有限状态机。通用的有限状态机的程序不
是很好写，要求很高，建议直接采用开源的代码。图论中的
动态规划问题可以用来解决两点间的最短路径问题，可以将
一个“寻找全程最短路线”的问题，分解成一个个寻找局部
最短路线的小问题。有限状态机和动态规划问题需要看相关
的算法讲解，才能深入理解，目前对其并未完全理解。
第十三章《Google AK-47 的设计者——阿米特·辛
格博士》：辛格坚持选择简单方案的一个原因是容易解释每
一个步骤和方法背后的道理，这样不仅便于出了问题时查
错，而且容易找到今后改进的目标。辛格要求对于搜索质量
的改进方法都要能说清楚理由，说不清楚理由的改进即使看
上去有效也不会采用，因为这样将来可能是个隐患。辛格非
常鼓励年轻人要不怕失败，大胆尝试。遵循简单的哲学。
第十四章《余弦定理和新闻的分类》：将新闻根据词
的TF-IDF值组成新闻的特征向量，然后根据向量之间的余
弦距离衡量两个特征之间的相似度，将新闻自动聚类。另外
根据词的不同位置，权重应该不同，比如标题的词权重明显
应该大点。大数据量的余弦计算也要考虑很多简化算法。
第十五章《矩阵运算和文本处理中的两个分类问题》：
将大量的文本表示成文本和词汇的矩阵，然后对该矩阵进行
奇异值SVD分解，可以得到隐含在其中的一些信息。计算余
弦相似度的一次迭代时间和奇异值分解的时间复杂度在一
个数量级，但计算余弦相似度需要多次迭代。另外，奇异值
分解的一个问题是存储量大，而余弦定理的聚类则不需要。
奇异值分解得到的结果略显粗糙，实际工作中一般先进行奇
异值分解得到粗分类结果，在利用余弦计算得到比较精确地
结果。我觉得这章讲的SVD有些地方不是很清楚，已向吴军
老师请教了，等待回信。
第十六章《信息指纹及其应用》：信息指纹可以作为
信息的唯一标识。有很多信息指纹的产生方法，互联网加密
要使用基于加密的伪随机数产生器，常用的算法有MD5或者
SHA-1等标准。信息指纹可以用来判定集合相同或基本相同。
YouTobe就用信息指纹来反盗版。128位的指纹，1.8*10
次才可能重复一次，所以重复的可能性几乎为0。判定集合
是否相同，从简单的逐个比对到利用信息指纹，复杂度降低
了很多很多。启发我们有时候要用变通的思想来解决问题。
第十七章《由电视剧《暗算》所想到的——谈谈密码
学的数学原理》：RSA加密算法，有两个完全不同的钥匙，一
个用于加密，一个用于解密。该算法里面蕴含着简单但不好
理解的数学思想。信息论在密码设计中的应用：当密码之间
分布均匀并且统计独立时，提供的信息最少。均匀分布使得
敌人无从统计，而统计独立能保证敌人即使知道了加密算
法，也不能破译另一段密码。
第十八章《闪光的不一定是金子——谈谈搜索引擎反
作弊问题》：把搜索反作弊看成是通信模型，作弊当做是加
入的噪声，解决噪声的方法：从信息源出发，增强排序算法
的抗干扰能力；过滤掉噪声，还原信息。只要噪声不是完全
随机并且前后有相关性，就可以检测到并消除。作弊者的方
法不可能是随机的，且不可能一天换一种方法，及作弊是时