Wiki中数学公式识别提取

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Wiki中数学公式识别提取
内容
1. 提取Wiki网页 2. 识别和提取Wiki网页中数学公式 3. 实验结果及分析
1.提取Wiki网页
爬虫结构图
2.识别和提取Wiki网页中数学公式
① 采用页面提取特征提取公式 ② 采用LaTex数学符号筛选公式 ③ 采用过滤规则过滤提取内容
③ 采用过滤规则过滤提取内容
对Wiki中Latex数学公式的查准率方面，通过公式两次提取和一次过滤，比率明显上升，最终基本维持在97%以上，影响查准率的主要是人名（如 Annegret Kramp-Karrenbauer）、未登录词（如 Emaila）、编号或日期（如 N60-90）、隐式代码（如网页中显示的 \sin）等。
（注：对第5种噪音而言，由于存在不确定性，无法采用确定的规则去过滤）
3.实验结果及分析
查全率/召回率
3.实验结果及分析
查准率/精度
从实验数据所知：
MathCrawler在对Wiki中Latex数学公式的查全率方面，通过公式两次提取和一次过滤，比率略微下降，最终基本维持在92%以上，经过实验分析，被遗漏的公式基本为应变量（如 f(x)）、坐标（如 (x,x)）、隐含乘（如 xy）等；
规则2：对于第3种噪音，由于LaTex数学公式中不包含ASCII码大于 126的字符，因此可通过字符ASCII码值来判断是否为LaTex数学公式
规则3：对于第4种噪音，主要为英文、中文、其他语言的说明文字。其中的中文和其他语言的说明可通过规则2过滤掉，余下的英文说明文字，绝大多数包含空格或连字符（即“-”）出现。因此过滤英文说明文字，则需要对其进行简单分词，对分出的词匹配建立的单词库的单词。编号 1 2 3 4 5
噪音类型图片后缀网址链接非LaTex数学符号ASCII码说明文字
其他
示例 .jpg、.png、.jpeg、.gif等
http://、link =等 Chhìm-cháu、纳戈尔诺-卡拉巴赫等
Page move-protected等人名、词典未登录词等
过滤规则
规则1：对于第1~2种噪音，它们都有明显的特征，图片均包含固定后缀，而链接包含固定字段，直接通过其包含特征达到过滤目的；