基于语义Web页面多媒体资源库设计与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于语义Web页面多媒体资源库的设计与实现
摘要:互联网的推出和发展带动了网络经济的快速增长,用户通过网络平台即可获得丰富的信息资源,实现不同地理位置和用户平台的网络互通,伴随着网络信息量的暴增,用户从资源库中寻找所需信息的准确率越来越低,开发出一种快速、有效提取相关度信息的资源库迫在眉睫。

本文提出了一类基于语义web页面的多媒体资源库设计方案,充分利用数据库、面向对象、人工智能等高新技术来构建数据库的软件体系,通过搜索和分析多媒体资源网页来获得相应的多媒体区域,提取多媒体资源相关文本信息,将最终确认的文本信息存储在数据库,当用户使用检索服务时资源库会呈现出准确度最高的信息,实现庞大资源和有效信息的快速对接。

关键词:多媒体资源库;web页面;信息提取
中图分类号:tp311.52
搜索引擎工具为互联网用户提供了获得有效信息的良好途径,负责从庞大的数据资源中检索出最符合用户要求的信息。

在未来的互联网发展趋势中,不断壮大的信息资源库虽然值得欣喜,可却为用户准确检索信息工作设置了许多困难,极具代表性的baidu、google 等搜索工具将承担更多的分布式数据源和异构数据,在很大程度上会降低用户检索的质量。

本文针对大型数据库表的搜索问题提出了一类多媒体数据库设计方案,利用web本身的优势来凸显信息相关度,实现信息分析和提取的高准确度。

1多媒休资源库相关技术
1.1数据库技术
数据库技术的推出是为了建立起计算机和应用程序之间的桥梁,主要负责分类、存储和检索数据的任务,同时还会组织和维护好应用数据,从应用上来说它很符合标准式接口的要求,且面对所有用户开放。

1.2面向对象技术
面对对象技术侧重整和所有信息处理模块,能有效的调节复杂知识单元的结构,且在接触构件化集成问题时能快速的获取多媒体资源库的信息。

1.3网络技术
网络技术是为了解决不同地理位置用户网络需求应运而生的,它首先需要一定功能的通信设备,借助线路的联通来实现网络共享,网络软件的嵌入帮助实现用户最佳网络体验。

1.4人工智能技术
人工智能技术是多媒体资源库相关技术的必然发展趋势之一,它承担着分析学习者特征和要求的责任,当有效筛选出学习者信息后就会和知识库形成匹配,将最大价值的学习资料回馈给用户操作界面,解决了人工查询带来的困难和误差。

2基于web页面多媒体资源库的设计
我们提出一类基于web页面多媒体资源库的设计方案,首要任务是挑选出本身web里面实际存在的多媒体资源页面,然后操作预处理行为,通过对结构的分析来获得关于多媒体资源的所有文本,对
文本进行组织后采取拼音转换、中英文翻译、提取关键词等操作,使其符合信息库要求。

2.1搜集多媒体资源网页
选择极具代表性的网络资源搜索器google或baidu,通过搜索来获得和多媒体有关联性的所有web页面,点击标签后计算机会按照内容相似度对web页面进行排序。

html代码会统一保存在一个区域内,形成可用的资源库,同时发挥布尔模型的作用,确定资源库爬向方向和主题,从技术层面来说这也是提高搜索引擎准确率的途径之一。

2.2分析多媒体资源网页和定位多媒体区域
charset的属性值会直接影响到多媒体资源网页的编码语言和类型,极具代表性的代码,可从里面提取出gb2312的编码代码,另一代码中编码型号应为utf-8。

各式各样的编码类型都可以转换成统一的gb2312编码。

常用的vc函数multibytetowidechar()或widechartomultibyte()都具有编码转换的功能,能快速将utf-8变成gb2312编码。

解决了编码问题就可以通过网页结构图来划分多媒体资源所处的区域,定位一切和资源相关的文本,提高导航准确性,同时运行相关算法,在保持有效文本的基础上剔除干扰性文本。

2.3提取多媒体资源相关文本信息
提取多媒体资源的相关文本信息,首先要对网页重要标签进行汇总和分析,比如说“……之间的内容”,description和keywords
都是网页头部的两大关键词,网页的关键词则表示为,而网页的描述则用表示,通过高度和集中的概括来得出不同网页的特征词,对用户而言很容易区分出网页内容。

通常来说借助关键字来辨析网页结构和内容也是将其他干扰性信息排除在外的方式之一,改变以往文本鱼龙混杂的局面。

现阶段多数网站都设置了多媒体资源导航的模块,以英语学习网站为代表,第一模块是英语之声,然后细分到听力训练,下面还有动画听力内容,到达最终的字母训练模块,而导航文本已经明确的指出了“字母听力训练”是关键字。

2.4入库文本信息
入库文本信息最重要的一步就是将上个步骤中提取的文本信息存储到数据库,包括不同文本的关键字,这一步完成了对web页面多媒体资源库的初步构建,从理论上来说已经满足了结构要求。

3基于web页面多媒体资源库的测试
我们通过多媒体资源搜集器来测试web页面多媒体资源库的实际功能,首先选取网站排行榜里面知名度位于前20位的主流网站,搜索出数量高达300个的页面,对页面关键字进行统计,计算web 页面多媒体资源库的提取率和准确率,并以此来作为判断测试结果的硬性指标,如表1所示:
表1测试结果
页面数目包含关键词的数目提取正确的网页数提取率
准确率
300 292 288 97.3% 96.0%
基于语义web页面设计出来的多媒体资源库提取率高达97.3%,准确率也达到了96.0%,最终获得相关文本信息量大、准确度高。

该系统在应用范围上还存在一定缺陷,因为是特别针对表格定位标签所设计的,所以最终分析和存取的结果误差很大,而一旦存在未使用表格定位的网页,就会出现多媒体资源信息尚未提取的现象。

4结语
解决多媒体资源搜索和文本提取问题对提高网络信息的利用度
有重要作用,为用户提供最高效、准确的资源服务。

我们在利用传统语义web的基础上提出了一类围绕关键词相关度的搜索模型,它能快速、有效的将媒体资源中具有相关度的关键词分析和提取出来,提升用户使用检索服务的舒适度。

我们在设置媒体信息文档模块时嵌入了传统稳定的语言模块,以“词语—关键词”为评判标准,充分融合内容分析和文本提取两种方法的优势,发挥多媒体丰富资源的特点,保证高提取率和查准率,和不同网站的页面形成良好的契合。

参考文献:
[1]徐丽玲,王琴.基于web多媒体资源库设计与研究[j].中国现代教育装备,2008(5):74-76.
[2]韩旭,曹永存,王辉,林旺.构建基于web的非物质文化遗产多媒体资源库[j].情报杂志,2009,28(6).
[3]李沛.多媒体资源库图像数据压缩和存储技术研究[j].煤炭
技术,2012,31(6):178-179.
[4]王成槃.浅谈城乡一体化背景下的多媒体资源库建设[j].兰台世界,2012(14):64-65.。

相关文档
最新文档