改进的中文静态网页新闻正文自动抽取算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

改进的中文静态网页新闻正文自动抽取算法
何春辉;王孟然
【期刊名称】《东莞理工学院学报》
【年(卷),期】2018(25)5
【摘要】网页新闻正文自动抽取属于信息抽取领域中的重要研究问题,现有基于行块分布进行新闻正文自动抽取的方法对短文本段落的新闻正文抽取效果较差。

为了改善这种现状,提出了一种改进的中文静态网页新闻正文自动抽取算法。

该方法给
出了较好的行块分割策略来构建行块分布函数,并提出使用最长公共子序列作为新
闻正文内容起始行块和结束行块的快速定位方法的判别准则。

最后在1 000个新
闻网页上对算法的性能进行了实验验证,得出新算法的平均抽取准确率为95. 0%,平均召回率为96. 54%,正文平均遗失率为1. 6%,抽取单个网页的平均耗时为0. 13 s。

实验结果充分说明了新算法能适应大规模的网页新闻正文自动抽取任务。

【总页数】5页(P46-50)
【关键词】行块分布;自动抽取;快速定位;最长公共子序列
【作者】何春辉;王孟然
【作者单位】湘潭大学工程训练中心
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例 [J], 钱爱兵;江岚
2.基于统计的自动化Web新闻正文抽取 [J], 林子熠;沈备军
3.无词典中文特征词自动抽取的桥接模式滤除算法 [J], 宣照国;党延忠
4.一种基于文本相似度的网页新闻标题自动抽取算法 [J], 何春辉
5.中文事件新闻的中国地名抽取算法研究 [J], 刘佳琪; 罗永莲
因版权原因,仅展示原文概要,查看原文内容请购买。

相关文档
最新文档