一种基于正文特征的新闻网页抽取方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一种基于正文特征的新闻网页抽取方法
孔胜;王宇
【期刊名称】《情报杂志》
【年(卷),期】2010(029)008
【摘要】在统计分析了中文新闻网页的结构和内容特征的基础上,提出一种比较简单实用的基于正文特征的新闻网页抽取方法.该方法首先将HTML网页表示成基于XML的DOM树形式,利用统计的正文特征和节点信息从树中过滤掉噪音数据节点,最后再选取正文节点.该方法相比传统的基于包装器的抽取方法具有简单、实用的特点.实验结果表明,该抽取方法准确率达到94%以上,具有很好的实用价值.
【总页数】4页(P122-124,54)
【作者】孔胜;王宇
【作者单位】大连理工大学管理学院,大连,116024;大连理工大学管理学院,大连,116024
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种基于统计的中文网页正文抽取方法 [J], 钱爱兵
2.一种基于特征符号的网页主题信息抽取方法 [J], 王舒;朱敏;张明;牛颢;赵瑜
3.基于文本行特征的网页正文信息抽取方法研究 [J], 刘志杰;潘洋
4.基于文本行特征的网页正文信息抽取方法研究 [J], 刘志杰;潘洋
5.基于正文特征和网页结构的网页正文抽取方法 [J], 胡露露;刘小勤;孙凯
因版权原因，仅展示原文概要，查看原文内容请购买。