全文检索系统

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国家某部委
随着互联网的迅猛发展,信息呈爆炸式增长,有用信息不断增加的同时,各种不良的互联网信息也逐渐增多,加之有些不良信息带有一定的隐蔽性,监管部门很难实现对网络内容全面、及时、有效的监管。国家某部委通过清华同方的网络蜘蛛群集,实现了对海量互联网内容的并发定向采集。采集下来的海量信息存储在KBase文档数据库系统中,并进行自动识别、分析过滤,自动分类和自动摘要等处理。系统实施以后通过很少的人力投入就实现了对大范围网站,海量网页的实时监控和管理,及时发现不良信息并做出处理,让互联网不良信息无处藏身,取得了良好的社会效益。
KBase文档数据库系统是以管理海量非结构化信息为主,具备高性能中文智能信息处理能力的国产文档数据库管理系统。KBase具有业界领先的全文检索技术,可以存储管理海量的文本、网页、电子邮件、办公文档等非结构化数据,并具备自动分类、自动摘要、自动分词、自动链接、信息过滤、相似检索等智能信息处理功能。
KBase 解决了非结构化信息处理的基本问题,可用于任何需要处理非结构化数据的行业应用,如企业搜索、知识管理、内容管理、情报分析、互联网不良信息监控、信息资源开发利用、网站内容发布等。
KBase提供了丰富完善的交互式管理工具,包括服务器控制器、企业管理器、各种监视器、任务调度、数据迁移工具等。
KBase支持中文、英文、俄文、德文、阿拉伯文等多语种的存储、索引和检索,内核直接支持GB2312、BIG5、GBK、GK18030、UTF8等多种编码。
运行环境:
KBase Server
硬件:内存512M以上
其他应用
网站内容发布管理
KBase支持各种相关业界标准,如ODBC、JDBC、SQL、Z39.50、OAI、XML等,支持传统关系数据库的常见字段类型,如数值型、日期类型、字符串类型等。KBase为照顾用户使用习惯,使全文检索更好的被用户所掌握使用,对SQL进行了扩展,提供类SQL的全文检索的结构化查询语言KSQL。
KBase支持二次开发,提供.Net组件、COM组件、Java组件等多种开发接口,允许用户通过ODBC、ADO等访问KBase数据库,支持标准SQL,同时配备了丰富的应用开发示例,可满足各层次的应用开发需求。
KBase 是在实施CNKI(中国国家知识基础设施)这一国家级超大规模中文知识信息资源开发利用工程中,依托清华大学雄厚的科技和人才优势,完全自主研发而成的。基于KBase的CNKI 数字图书馆,拥有全文记录3千多万,数据总量达4TB,每日新增全文数据1GB,日用户访问量2000万人次,是目前世界上规模最大的中文信息资源库。随着CNKI 工程的成功应用,KBase 在世界各地已拥有5000多家企业级用户,包括美国白宫、美国国防部、法国国家图书馆、中共中央办公厅、中国国家图书馆等。KBase产品成熟可靠,其优异性能和稳定性经受了实践的考验,受到广大用户的一致好评,是各种组织机构信息资源建设和管理的首选。
中国电子科技集团
中国电子科技集团下设多个研究所,分布在不同的地点,内部存在大量的电子文档、邮件、文献数据库和关系型数据库等资源,给资源的检索和利用带来了很大障碍。通过KBase文档数据库实现各种非结构化文档和异构数据源的统一检索。通过项目实施,很好的解决了集团内部各种特色资源共建共享的问题,实现了各种分布式资源统一、安全、准确的检索,为企业建立了一个快速的信息获取通道。
KBase中文智能信息处理平台由Smart Text Miner文本挖掘引擎,NLP自然语言处理引擎和概念关系词典三个相对独立的部分组成。
Baidu Nhomakorabea
KBase通过网格技术实现分布式虚拟计算,可成倍地增强系统计算能力和大规模并发处理能力,轻松扩展系统规模,满足用户随需应变的需要。
KBase通过先进的联合表技术实现数据虚拟统一,轻松解决由于单表数据容量限制而带来的数据规模限制问题,同时数据动态更新与实时索引和发布服务的矛盾也迎刃而解。
KBase是基于C、C++的基础上开发出来的。
KBase具有强大的全文检索能力,检索速度高达500GB/S,这一指标在业界遥遥领先,是真正实用的面向海量信息的全文检索服务器。
KBase拥有400万数量级概念关系词典,内置国际领先的全切分中文切词技术,切词准确率达98%以上,使KBase系统的查准率、查全率在同类产品中均处于领先地位。
体系结构
性能指标
KBase系统是目前管理数据量最大,检索速度最快的全文检索系统,基本性能指标如下:
全文检索速度:1秒/500GB
相似检索速度:20毫秒/100万文献量
单表记录个数:40亿
单表支持最大容量:8 TB (分区表最大容量2PB)
可同时跨库检索最大数:255个
拥有400万数量级的概念关系词典
KBase中文智能信息处理平台有效集成了先进的自然语言处理、文本挖掘、机器学习技术和海量的语料知识库,实现了功能完备和高效稳定的智能信息处理相关算法,并为上层应用提供了易用的二次开发接口。
KBase中文智能信息处理平台广泛适用于信息资源开发利用、知识管理、智能搜索引擎、情报分析和服务、互联网不良信息监控、垃圾邮件智能过滤、信息增值服务等领域。目前,KBase中文智能信息处理平台已成功应用于新闻出版总署、卫生部、水利部、大百科出版社、中电集团、宝钢等单位,经受了海量信息和复杂环境的考验,实践证明具有很高成熟度、实用性和可用性。
同方知网简介
清华同方知网(北京)技术有限公司是中文信息资源开发利用的领军厂商,依靠自主创新这一利器,一直致力于大规模信息资源开发利用技术的研发与应用。
公司的全文检索、内容管理、海量非结构化数据管理、智能信息处理、自然语言处理等技术均达到国际先进水平。公司开发出KBase文档数据库系统、文档数字化系统、网络信息采集系统、企业竞争情报系统、知识管理系统、跨库检索系统等系列产品,为各行各业的信息资源开发利用提供基础技术平台和相关服务,已在数字图书馆、内容管理、企业信息资源管理、网络信息监控、情报分析、电子政务等行业得到了成功应用,在全国拥有3000多家用户。
采用全切分分词引擎,切词准确率高达98%,速度达1M/S
KBase
传统关系型数据库主要面向事务处理和数值分析类型的应用,不适合非结构化数据内容的管理。而以电子邮件、办公文档、网页、音视频文件等形式存在的非结构化信息大约占据信息总量的85%,传统关系数据库无法处理这些多样、复杂的非结构化信息。
KBase专为非结构化信息管理而设计,可有效解决海量非结构化信息的管理问题。KBase能存储管理以各种形式存在的非结构化信息数据,具备高性能的存储、检索和分发功能。KBase集成了先进的智能信息处理技术,可对非结构化信息的实际内容进行基本的理解和分析处理。
KBase全文检索服务器不仅提供基于关键词的检索,还提供类似自然语言的相似检索。可接收一段内容或一篇文章的用户输入,并根据相关性或概念差异程度对概念上相关的文档进行高效的相关匹配。KBase有效解决了高维索引问题,相似检索速度可达到每毫秒内相似匹配百万数量级文档,是业界唯一真正做到实用化水平的相似检索(或称概念匹配)产品。
操作系统:Microsoft Windows NT/2000/2003
Linux、Unix
配套管理工具
操作系统:Microsoft Windows XP/NT/98/2000/2003
KBase
KBase
CNKI
CNKI数字图书馆是全球最大的中文文献数字图书馆,在全球拥有5000多个基于KBase的CNKI镜像站点及(分)中心站点。设在北京的CNKI中心网站,管理着3000万篇文献,累计4T的数据量,每天向全国提供千万次的全文检索服务。KBase的数据管理能力、全文检索速度、数据更新能力、系统稳定性都得到了实践的证明。
相关文档
最新文档