移动互联网搜索中的信息过滤技术研究及实现方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
移动互联网搜索中的信息过滤技术研究及实现方案
李明凯,薛伟冬,孟仁兴
北京邮电大学PCN&CAD中心,北京(100876)
E-mail:onlylmkyou@
摘要:目前,继传统互联网搜索的快速发展和广为接受之后,移动互联网搜索以其更大的便捷性成了人们关注的一个新热点。然而,由于移动终端的能力限制等因素,移动互联网搜索在实际应用中上还存在着一些问题,特别是繁冗复杂的普通互联网内容在移动终端屏幕上的呈现问题。本文作者通过分析移动终端的特点,参考传统搜索引擎的原理,对页面主体内容提取,智能用户兴趣代理和标记语言转换等相关技术进行了研究和比较,提出了一种基于信息过滤技术的移动互联网搜索内容呈现的解决方案,并对方案进行了初步的试验验证。关键词:移动互联网搜索,信息过滤,主体内容提取,智能用户兴趣代理,标记语言转换
1.引言
互联网信息的迅速膨胀催生了搜索技术的快速发展,而移动终端的普及使用和终端功能的不断增强使移动搜索成为新的研究和应用热点。现在一般把移动搜索分为两大类:垂直搜索和综合搜索。垂直搜索一般是分类搜索,针对性强,准确度高。综合搜索沿袭了以往互联网搜索的模式,通过移动通信网络或无线互联网络对WAP或WEB页面进行全面搜索,且主要为基于关键字的查找方式。用户在体验到互联网搜索的好处后,也对能通过移动终端进行类似的内容搜索表现了极大的兴趣和期望。而考虑移动终端的显示局限等特点,为了给移动终端用户提供更有针对性和个性化的搜索结果,需要对搜索到的互联网信息进行过滤和筛选。本文针对这一问题进行了一系列的研究和阐述,并提出了一套信息过滤解决方案。2.移动互联网搜索概述
2.1 移动搜索与移动互联网搜索
搜索引擎提供的服务已经成为互联网非常重要的网络服务,搜索引擎站点也被美誉为“网络门户”。而时至今日,人们的信息需求正在变得无处不在,无时不有,这就要求搜索服务拥有较强的移动性和便携性,同时又能充分保证搜索内容的有效呈现。基于PC的搜索在移动性和便携性都已满足不了新形势的要求,搜索引擎已经延伸向了移动互联网,移动搜索应运而生。
移动搜索是基于移动通信网络的搜索技术总称。一般的,依据搜索内容可将移动搜索分为综合搜索和垂直搜索两类。
表1 移动搜索分类
搜索分类搜索内容搜索特点
综合搜索搜索WAP以及WEB站点内容信息量大,针对性差,(类似有线互联网搜索在移动设备上的延伸)
垂直搜索分类型内容服务,如媒体类型(音频、
视频、图片等)、领域内容(科技、
体育、娱乐等)及本地信息搜索等
准确度高、针对性强、可实现
个性化结果定制,更符合移动
终端技术特点
对于垂直搜索,如本地信息搜索(酒店,学校等)等业务已经有不少的业务开展,其数据内容多是通过数据库搜索等方式得到,和普通互联网的网页内容搜索有所不同。而对于综合搜索,类似互联网搜索,搜索引擎进入WAP网络或通过网关转换由WAP接入WEB网络,对WAP或WEB网络上的站点内容进行搜索,根据一定规则将链接和内容做索引存储。用户通过编辑短信或键入关键词提交搜索请求,搜索引擎通过移动通信网络将结果反馈给用户终端。以Google、Baidu为代表的搜索引擎门户已相继推出了这种服务,让用户可以通过手机进入WAP或WEB进行网页搜索。本文所讲的移动互联网搜索即指这种综合搜索。
2.2移动互联网搜索的信息过滤问题
从以下几个角度考虑,由移动终端的特点决定,必须对移动互联网搜索的结果进行信息过滤:
z移动终端屏幕较小,无法像PC终端屏幕那样显示过于冗余复杂的页面。
z用户使用移动终端习惯于较少的操作次数,因此数量过多的结果分页显示会大大降低用户操作的便利性,不易被用户接受。
z移动终端处理器能力和内存量一般较低,不宜承受过于复杂的数据内容的下载和显示。z移动终端电量有限,过大的数据传输和显示会急剧加速电量消耗,影响正常使用。
3.移动互联网搜索信息过滤方案
3.1 信息过滤技术方案概述
参考比较成熟的互联网搜索引擎的体系结构[2],作者提出了基于移动互联网的搜索引擎的简单体系结构,其基本原理示意如下。
图1 移动互联网搜索的基本原理示意图
信息收集和预处理主要包括网络爬虫,索引排序,数据存储等搜索处理的前期过程。鉴于篇幅有限,在此不赘述信息收集和预处理的详细内容。本文重点阐述的信息过滤显示部分属于信息查询过程。在用户提交搜索查询请求后,服务端将已经进行主要内容提取后的精简页面,再根据用户个性化要求进行筛选,并经过WEB页面到WAP页面的标记语言转换,
将内容返回用户[1]。
整个信息过滤过程分为三个阶段:
1.网页主体内容提取。由于大部分WEB页面内容冗余复杂,在移动互联网搜索引擎将WEB页面内容进行快照下载后,为了满足移动终端的要求,要对网页内容进行主体过滤提取。提取出网页内容的正文部分,并区分出链接部分,过滤掉冗余的图片和广告等。
2.基于用户兴趣代理的信息过滤。移动用户进行移动互联网搜索的主要目的是得到适合自身个性化需求的信息。对于通过关键词进行查询得到的大量搜索结果,系统会根据表征用户兴趣的用户模版信息进行过滤,将已经经过前一阶段主体内容提取的页面内容根据用户兴趣进行结果显示的优先级排序。
3.标记语言转换。在经过主体内容提取和用户个性化信息过滤后,该页面内容已经基本符合用户的期望。此时将以HTML等标记语言显示的WEB页面转换成以WML等语言显示的
WAP 页面,以便通过移动通信网络传输和移动终端接收显示,将查询结果最终送达用户。
图2 移动互联网搜索的信息过滤解决方案
3.2页面主体内容提取
3.2.1 HTML 解析
HTML 文档属于半结构化数据[3],半结构化数据就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据。给定一篇HTML 网页,顺序整理出容器标签就得到了对应的标签树的框架。而后,整理每个内容块(对应标签树的一个结点)中的超链标签、图片标签和重要信息标签,并在标签树中对应的结点记录下来。这样就构造了一棵基本的标签树。对上述基本标签树信息作适当的分析、整理就可以得到内容分析过程中需要的一些描述信息。
图3 标签树示例
3.2.2 HTML 页面主体内容提取
要想进行对HTML 文档内某一部分或某一种内容的提取,首先需要对整篇文档进行解析,根据一般性的规律,将任何可能包含该种内容的容器标签进行全文扫描。经过技术调研分析,作者考虑采用Java 开源项目htmlparser 进行Web 页面内容的解析和提取。在作者的试验程序中,主要针对新浪网的新闻类和科技类网页进行了实验,实验效果良好。以下两张图片显示了网页内容提取前后的网页对比情况。
提取前的网页: