中文信息处理论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎
摘要:Internet 上日新月异的大量信息资源充斥,人们对信息的需求越来越多,各式各样的搜索引擎应世而生,然而随着大数据的到来,这对搜索引擎提出更高要求。但是面对这么大量的数据,一般的搜索引擎有些吃不消,不能满足人们的需求,然而基于自然语言处理技术的智能搜索引擎出现了,本文将介绍搜索引擎用到自然语言处理技术去。
关键字:搜索引擎,自然语言处理,概念控制
Search engine
(*********************)
Abstract: Changing a lot of information on the Internet is full of resources, people d emand more and more information, a variety of search engines shoul d the world was born, but with the arrival of big data, which is the search engine, higher demands. But the face of such a large amount of data, general search engines too much for some, can not meet people's needs, however, based on natural language processing technol ogy, smart search engines appeared, this article describes the search engine to use natural language processing technol ogy.
Keyword: search engine,Natural Language Processing, Control Concepts
1 搜索引擎
1.1搜索引的擎定义
搜索引擎,是指在Internet中主动搜索信息并能自动查询、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人Web Robots)或网站登录等方式,将Internet上大量网站的页面收集到本地,经过加工处理而建成数据库,当用户输入关键字(Keyword)查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。
1.2搜索引擎的分类
在搜索引擎的发展过程中,出现了各式各样类型的搜索引擎。根据索引方法来划分,可以分为基于概念(Concept Based)的搜索引擎:和基于关键字匹配(Keyword Based)的搜索引擎等。根据搜索引擎索引、检索信息的方式来分,可以分为:基于目录的搜索引擎、基于机器人的搜索引擎、分布式搜索引擎、基于客户的搜索引擎、元搜索引擎和代理搜索引擎;根据搜索引擎索引信息的范围来划分,可以分为:综合式搜索引擎、专题式搜索引擎和特殊型搜索引擎;
1.3搜索引擎的评价标准
从功能上讲,搜索引擎实质上是一种网络信息检索工具,不同的搜索引擎所提供的服务在性能上差异很大,为了帮助用户有效的选择,也为了对搜索引擎的改进提供参考,非常有必要对各种搜索引擎进行比较和评价,传统的检索工具发展已经有百年历史,其评价标准已相当成熟,搜索引擎虽然与传统的检索工具有着很大的区别,其相应的评价标准也不尽相同,但仍可以借鉴传统检索工具的评价标准对网络检索工具进行评价。这些评价标准包括:
(1)搜索引擎收录信息的范围
(2)反馈的信息量及内容的准确性
(3)反馈的查询结果错误率
(4)报道与内容更新速度
(5)搜索引擎的检索性能
(6)搜索引擎的响应时间
(7)检索界面友好性
(8)精品推荐
(9)与其它搜索引擎的友情链接
(10)搜索引擎的系统性能。
搜索引擎的功能在于将分散的网址集中起来,分类提供给用户,以便快速查找到所需的信息.常规搜索引擎一般都带有数据库资源,因此对搜索引擎的比较主要集中在数据库资源和搜索引擎的性能两个方面。数据库资源方面的比较研究主要包括:数据库规模、索引方式、以及资源内容(如声音、图像、Usenet、FTP、Newsgroup、Gopher、Email等资源)。
检索性能的比较,主要有布尔检索、复杂布尔检索、相邻和相邻and/or检索(NEAR、ADJ、FAR、BEFORE、FOLLOWEDBY、
2 自然语言技术
2.1自然语言处理引入
现代科技的发展使人类进入了信息时代。对于人类而言,最自然、最重要、效率最高的信息载体之一就是自然语言。人类能够利用自然语言进行信息的传递和交流,这是人类与动物的本质区别之一。语言是思维的载体,是人际交流的重要的工具。在人类历史上以语言文字形式记载和流传的知识。!知识总量的80%以上。在信息化社会里,语言信息处理的技术水平和每年所处理的信息总量已成为衡最一个国家现代化水平的重要的标志之一。
语言是人类最重要的交际工具。语言交际的模式主要是表达和理解,一方表达,另一方理
解。语言交际就是在一定的场合、依据一定的规则、表达和理解一定的意思,句法、谙义和语用在实际中是二位一体的。
从第一台电子计算机诞生到现在半个多世纪过去了,人类已经由发明工具延伸自己的四肢进化到延
伸人脑。计算机一开始只是科学家、l:程师的计算工具,现在已经逐步进入人众的日常生活。因特网将世界各地的电脑连成一片,人们可以在网上查询或发布信息,可以在网上聊大、漫游、购物甚至在网上生存。“电脑+网络”止在从延伸人的大脑发展为延伸人的生存空间,网络社会使人类的交际行为和方式发生重人变化,