HTML文件的文本信息预处理技术

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

HTML文件的文本信息预处理技术
王志琪;王永成
【期刊名称】《计算机工程》
【年(卷),期】2006(032)005
【摘要】介绍了一种常用的文件类型HTML文件的文本信息预处理技术.该方法能够解析HTML文件的组成结构,并从中提取出主体文本以供处理.测试表明该方法能有效地得到大部分HTML网页的主体部分.文中对HTML文件的解析不仅可以用于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容,具有推广应用价值.
【总页数】4页(P46-48,67)
【作者】王志琪;王永成
【作者单位】上海交通大学计算机科学与工程系,上海,200030;上海交通大学计算机科学与工程系,上海,200030
【正文语种】中文
【中图分类】TP391
【相关文献】
1.普通文件和HTML文件及XML文件信息检索过程探析 [J], 陈桂鸿
2.对“文本信息加工”的几点想法——《信息技术基础》第四章“文本信息加工” [J], 沈小芳
3.MHTML文件编码及其应用 [J], 庄国强
4.HTML文件转换为文本文件的转化器设计 [J], 徐蕾
5.从网络页面中提取信息：帮助你从一个HTML文件中获取所需数据的三个函数[J], Alex; K．Angelopoulos; 杨岩（译）
因版权原因，仅展示原文概要，查看原文内容请购买。