计算机专业发展前沿学习总结

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

专业发展前沿

学习总结

学院：计算机信息工程学院班级：＿计科一班＿＿＿＿姓名：＿＿杨梅＿＿＿＿＿学号：＿20080854126＿＿＿发展方向：□位置服务、云计算

□电子商务、电子政务

□信息检索、网页排序技术

□图像处理及模式识别

□Web2.0、开源软件

要求：不少于2000字，打印

信息检索概述

进入20世纪90年代以后,互联网的发展风起云涌,人类社会的信息化、网络化进程大大加快。与之相适应的信息检索的交流平台也迅速转移到以WWW为核心的网络应用环境中,信息检索步入网络化时代,网络信息检索已基本取代了手工检索。

信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的信息需求查找所需信息的过程和技术。人们获取信息源的方式主要有：①传统的信息检索方法，通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动；②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点；③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。

网络信息检索简介

随着信息技术的飞速发展，信息已成为全社会的重要资源，对信息的占有程度及信息处理水平的先进程度已成为衡量一个国家或地区现代化程度的重要标志，而网络上丰富的信息在更大程度上改变了人们的工作和生活的方式。Internet是当今世界上规模最大、覆盖面最广、信息资源最丰富、发展最为迅速的信息网络，基于Internet的网络信息检索的研究，无论对研究人员还是一般用户来说，都有着很强的现实性和实用性。

网络信息检索定义

网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。

网络信息检索的原理

网络信息检索工具是网络信息检索技术的实物体现。目前，常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。

①布尔逻辑模型——这是一种简单而常用的严格匹配模型。用户可以根据检索项在文档中的布尔逻辑关系提交查询，搜索工具根据事先建立的倒排文档结构确定查询结果。标准的布尔逻辑模型为二元逻辑，所搜索的文档要么与查询相关，要么与查询无关。利用这种模型进行查询，其查询结果一般没有按照内容的相关特性排序。

②模糊逻辑模型——它在查询结果处理中引进了模糊逻辑比较，并且按照相关的优先次序排列查询结果，这样就可以克服布尔逻辑模型信息查询结果的无序性。

③概率模型——它是基于贝叶斯概率原理而提出的，根据词条、文档间的内在联系，利用词条间和词条与文档间的概率相依性来进行信息检索。

网络信息检索方式

其检索方式有:浏览器方式和搜索引擎方式。

(l) 浏览器方式

只要能够进入html就能够通过浏览器，利用HTTP协议提供的万维网服务，浏览接触页面和通过Web页面提供的检索方式访问数据库。

(2) 搜索引擎方式

搜索引擎是internet提供公共信息检索服务的Web站点，它是以一定的技术和策略在internet中搜集和发现网络信息，并对网络信息进行理解、提取和处理，建立数据库，同时以web形式提供一个检索界面，供用户输入检索关键词、词组或短语等检索项，代替用户在数据库中查找出与提问相匹配的记录，同时返回结果且按相关度排序输出，从而起到快速查找信息的目的。搜索引擎所处理的信息资源主要包括万维网服务器上的信息，另外还包括电子邮件和新闻组信息。搜索引擎服务的宗旨是为满足用户的信息需要，所以它是面向用户的，采用的方式是交互式的。

网络信息检索技巧

目前常用的信息检索方法有两种：一种是利用搜索引擎进行关键词、主题词或自然语言检索。最著名的搜索引擎有AltaVista、Excite、HotBot、Info seek等；另一种是按主题分类指南进行检索，如Yahoo ! 就是按主题组织资源、逐次分类,供读者按需查词的；

网页排序技术

如何快速的根据信息找到自己需要的搜索结果呢？这就用到了搜索引擎的排序技术，众所周知，Google是最成功的搜索引擎品牌，而它成功的最主要因素在于它有优于别人的排序技术：PageRank，即网页级别。。国内也有一家很成功的搜索引擎公司，叫百度（）。百度的创始人李彦宏说，早在1996年他就申请了名为超链分析的专利，PageRank的原理和超链分析的原理是一样的。这里以PageRank为代表，详细介绍链接分析的原理。

PageRank 揭密

PageRank 的原理类似于科技论文中的引用机制：谁的论文被引用次数多，谁就是权威。在互联网上，链接就相当于“引用”，在B网页中链接了A，相当于B在谈话时提到了 A，如果在C、D、E、F中都链接了A，那么说明A网页是最重要的，A网页的PageRank值也就最高。

如何计算PageRank值有一个简单的公式:

其中：系数为一个大于0，小于1的数。一般设置为0.85。网页1、网页2至网页N表示所有链接指向A的网页。

由以上公式可以看出三点：

1.、链接指向A的网页越多，A的级别越高。即A的级别和指向A的网页个数成正比，在公式中表示，N越大， A的级别越高；

2.、链接指向A的网页，其网页级别越高， A的级别也越高。即A的级别和指向A的网页自己的网页级别成正比，在公式中表示，网页N级别越高， A的级别也越高；

3.、链接指向A的网页，其链出的个数越多，A的级别越低。即A的级别和指向A的网页自己的网页链出个数成反比，在公式中现实，网页N链出个数越多，A

的级别越低。

每个网页有一个PageRank值，这样形成一个巨大的方程组，对这个方程组求解，就能得到每个网页的PageRank值。互联网上有上百亿个网页，那么这个方程组就有上百亿个未知数，这个方程虽然是有解，但计算毕竟太复杂了，不可能把这所有的页面放在一起去求解的。

总之，PageRank有效地利用了互联网所拥有的庞大链接构造的特性。从网页A 导向网页B的链接，用Google创始人的话讲，是页面A对页面B的支持投票，Google 根据这个投票数来判断页面的重要性，但Google除了看投票数（链接数）以外，对投票者（链接的页面）也进行分析。「重要性」高的页面所投的票的评价会更高，