印象笔记源码分享

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

举例说明
http://mil.sohu.com/20120903/n352165349.shtml
对于广告过滤
保留的视频
Q&A
印象笔记-悦读源码分享
时间：2012.09.03
Damon
ຫໍສະໝຸດ Baidu
数据处理的大概流程
获取body标签的NODE 递归解析body的node下的DOM,解析成DOM对象，生成相应的属性
对DOM解析来的属性进行相应的判断、筛选格式化输出提取的内容根据正文的DOM 找出文章的标题得出正文的DOM 对象
按照得分进行排序
根据正文查找文章标题
查找正文上面的 DOM H标签内容是文章标题
是判断正文 <h1|h2 h3|h4 …>内容是否和 title内容相同否
是
从正文平级的DOM开始，依次向上查找<h1|h2 h3|h4 …>标签内容。如果有作为标题
获取正文当前页面的title
按照计分进行排序
得出符合条件的正文DOM
对符合正文条件的 DOM进行计分
解析BODY标签下的DOM
函数 $R.getContent__exploreNodeAndGetStuff(_pageWindow.document.body) 解析当前页面的标签Body的内容函数_recursive(_child)为递归函数，对子节点进行递归遍历和解析其他作用：对标签按照一定的规则生成DOM对象。也就是解析生成DOM文档。
解析后的 DOM文档格式
筛选候选DOM
参加筛选的DOM标签
关于计分
根据第一次DOM递归解析生成相应的更加详细的属性
计分函数
然后依次根据text above、 text above、links outer、links inner、和“candidates, containers, pieces” 等进行计算points
如果都没有查找，则没有标题
如果没有查找到，利用title的标签值作为标题
关于_count__plain_words
介绍关于带下一页的内容抓取
levenshtein 一个快速、高效的Levenshtein算法实现
levenshtein算法解释
步骤3-6，当 i = 1 步骤1、2
步骤3-6， i = 5 步骤3-6， i = 2

印象笔记 源码分享