搜索引擎的排名与设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2013高教社杯全国大学生数学建模竞赛
承诺书
我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学
生数学建模竞赛参赛规则》(以下简称为“竞赛章程和参赛规则”,
可从全国大学生数学建模竞赛网站下载)。
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电
话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、
讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果
引用别人的成果或其他公开的资料(包括网上查到的资料),必须按
照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公
正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃
处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任
何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体
进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): B 我们的参赛报名号为(如果赛区设置报名号的话):
所属学校(请填写完整的全名):
参赛队员 (打印并签名) :1.
2.
3.
指导教师或指导教师组负责人 (打印并签名):
(论文纸质版与电子版中的以上信息必须一致,只是电子版中无
需签名。以上内容请仔细核对,提交后将不再允许做任何修改。如填
写错误,论文可能被取消评奖资格。)
日期: 2014 年 8
月 21 日
2013高教社杯全国大学生数学建模竞赛
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
互联网搜索引擎的排名与设计
摘要
针对问题一,互联网搜索引擎的优劣评价标准包括多个方面,包
括检索可靠度、信息可信度、查询速度和界面功能方面等,我们用不同的搜索引擎来搜索生活类、娱乐类、工作类、学习类共4类类型的关键字,从生成网页上的信息抽取出准确度,可信度。另外用页面生成时间和查询返回时间来表示查询速度这一指标,用搜索引擎的界面设计与功能以及广告来表示界面功能这一指标。最后再利用多元回归来求的各指标的权重系数,其次用曲线估计来预测模型,通过方差检验发现拟合度良好,从而得出搜索引擎的排名。
针对问题二,根据题目我们在设计具有个性化特色的互联网搜索引擎的时候设计出了学生信息管理系统。具体内容是:首先了解搜索引擎的原理及其他相关知识,建立数据库,以便搜索出相关信息,然后利用E-R实体分析数据库中各个数据库表的相互关系,并提取关键字,最后利用Visual c++来设计代码,并运行。该系统可以储存数据、读取数据、查找数据才,与搜索引擎的原理类似。
另外,针对问题三,我们设想了一种“云端”来推广。我们认为这样可以使搜索者获得更大便利。
关键词:多元回归,权重系数,曲线估计,拟合度,Visual c++ ,数据库,,E-R实体,学生信息管理系统
一、问题重述
随着互联网的高速发展和普及,人们越来越依赖于互联网共享信息和获取信息。同时,网络上的海量信息是我们巨大而宝贵的资源,但是,这些信息格式和内容纷杂多变,又充斥着大量虚假和垃圾信息,搜索引擎技术是高效且方便地利用这些资源的有效手段。在搜索页面中,只要输入你想搜索的内容,比如,mp3、游戏、电影、软件、图
片、音乐、新闻、视频等等,或者输入作者名、文章标题、书名或期刊名、出版年月或发表年月、关键词等,搜索引擎会立刻给出符合条件的链接。常见的搜索引擎有百度、谷歌、雅虎等:
参考下面的资料和其它资料,解决如下问题:
1 建立数学模型,对现有互联网搜索引擎的优劣进行评价,给出排名
前5名的搜索引擎,并将排名结果与[1]的排序结果进行比较。
2 建立数学模型,设计出具有个性化特色的互联网搜索引擎,并举例
对搜索引擎进行验证。例如,如果是汉字成语搜索引擎,那么输入“张”时,可搜索出“张冠李戴”等成语;如果是中文人名搜索引擎,那么输入“张”时,可搜索出“张三丰”等人名;当然,也可以对某类图片、某类音乐等进行搜索。
3 将你设计的个性化搜索引擎进行一般性推广。
二、问题分析
2.1 问题一:
针对问题一的分析,关于对现有互联网搜索引擎的优劣进行评价,搜索引擎的检索效果可以从检索可靠度、信息可信度、查询速度和界面功能方面来衡量。
检索准确度:输入关键字搜索后检索到的内容与用户需要的内容的贴近度;
安全可信度:检索到的内容是否安全可信;
查询速度:查询信息时的快慢;
界面功能:即一个搜索引擎应该具备的一些功能除外,其界面是否还有其他辅助功能等。
用不同的搜索引擎来搜索生活类、娱乐类、工作类、学习类,从生成网页上的信息抽取出准确度,可信度。另外用页面生成时间和查询返回时间来表示查询速度这一指标,用搜索引擎的界面设计与功能以及广告来表示界面功能这一指标。最后再利用多元回归来求的各指标的权重系数,其次用曲线估计来预测模型,通过方差检验发现拟合度良好,从而得出搜索引擎的排名。
2.2 问题二:
针对问题二的分析,随着我国高等教育的迅速发展,高等规模的不断扩大,学校信息管理的网络化、信息化、智能化成为发展的趋势。学生信息管理系统是为了适应现代化学校管理的需要、加快推进高效数字化校园建设、充分利用校园网,利用网络、多媒体等计算机应用技术和手段,提高办公效率的信息管理系统。
正因为学生信息管理系统是如此的重要,而对于学生而言也是最需要的。所以我们设计了一个简化的学生信息管理系统的搜索引擎。搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索