Wiki中数学公式识别提取
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Wiki中数学公式识别提取
内容
1. 提取Wiki网页 2. 识别和提取Wiki网页中数学公式 3. 实验结果及分析
1.提取Wiki网页
爬虫结构图
2.识别和提取Wiki网页中数学公式
① 采用页面提取特征提取公式 ② 采用LaTex数学符号筛选公式 ③ 采用过滤规则过滤提取内容
③ 采用过滤规则过滤提取内容
对Wiki中Latex数学公式的查准率方面,通过公式两次提取和一次过 滤,比率明显上升,最终基本维持在97%以上,影响查准率的主要是 人名(如 Annegret Kramp-Karrenbauer)、未登录词(如 Emaila)、编号或日期(如 N60-90)、隐式代码(如 网页中显示的 \sin)等。
(注:对第5种噪音而言,由于存在不确定性,无法采用确定的规则 去过滤)
3.实验结果及分析
查全率/召回率
3.实验结果及分析
查准率/精度
从实验数据所知:
MathCrawler在对Wiki中Latex数学公式的查全率方面,通过公式两次 提取和一次过滤,比率略微下降,最终基本维持在92%以上,经过实 验分析,被遗漏的公式基本为应变量(如 f(x))、坐标(如 (x,x))、隐含乘(如 xy)等;
规则2:对于第3种噪音,由于LaTex数学公式中不包含ASCII码大于 126的字符,因此可通过字符ASCII码值来判断是否为LaTex数学公式
规则3:对于第4种噪音,主要为英文、中文、其他语言的说明文字。 其中的中文和其他语言的说明可通过规则2过滤掉,余下的英文说明 文字,绝大多数包含空格或连字符(即“-”)出现。因此过滤英文 说明文字,则需要对其进行简单分词,对分出的词匹配建立的单词库 的单词。编号 1 2 3 4 5
噪音类型 图片后缀 网址链接 非LaTex数学符号ASCII码 说明文字
其他
示例 .jpg、.png、.jpeg、.gif等
http://、link =等 Chhìm-cháu、纳戈尔诺-卡拉巴赫等
Page move-protected等 人名、词典未登录词等
过滤规则
规则1:对于第1~2种噪音,它们都有明显的特征,图片均包含固定后 缀,而链接包含固定字段,直接通过其包含特征达到过滤目的;
内容
1. 提取Wiki网页 2. 识别和提取Wiki网页中数学公式 3. 实验结果及分析
1.提取Wiki网页
爬虫结构图
2.识别和提取Wiki网页中数学公式
① 采用页面提取特征提取公式 ② 采用LaTex数学符号筛选公式 ③ 采用过滤规则过滤提取内容
③ 采用过滤规则过滤提取内容
对Wiki中Latex数学公式的查准率方面,通过公式两次提取和一次过 滤,比率明显上升,最终基本维持在97%以上,影响查准率的主要是 人名(如 Annegret Kramp-Karrenbauer)、未登录词(如 Emaila)、编号或日期(如 N60-90)、隐式代码(如 网页中显示的 \sin)等。
(注:对第5种噪音而言,由于存在不确定性,无法采用确定的规则 去过滤)
3.实验结果及分析
查全率/召回率
3.实验结果及分析
查准率/精度
从实验数据所知:
MathCrawler在对Wiki中Latex数学公式的查全率方面,通过公式两次 提取和一次过滤,比率略微下降,最终基本维持在92%以上,经过实 验分析,被遗漏的公式基本为应变量(如 f(x))、坐标(如 (x,x))、隐含乘(如 xy)等;
规则2:对于第3种噪音,由于LaTex数学公式中不包含ASCII码大于 126的字符,因此可通过字符ASCII码值来判断是否为LaTex数学公式
规则3:对于第4种噪音,主要为英文、中文、其他语言的说明文字。 其中的中文和其他语言的说明可通过规则2过滤掉,余下的英文说明 文字,绝大多数包含空格或连字符(即“-”)出现。因此过滤英文 说明文字,则需要对其进行简单分词,对分出的词匹配建立的单词库 的单词。编号 1 2 3 4 5
噪音类型 图片后缀 网址链接 非LaTex数学符号ASCII码 说明文字
其他
示例 .jpg、.png、.jpeg、.gif等
http://、link =等 Chhìm-cháu、纳戈尔诺-卡拉巴赫等
Page move-protected等 人名、词典未登录词等
过滤规则
规则1:对于第1~2种噪音,它们都有明显的特征,图片均包含固定后 缀,而链接包含固定字段,直接通过其包含特征达到过滤目的;