TRS全文检索参数
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
项目
数量
具体参数
全文检索数据库
1
★要求与地方志目前使用的网站内容管理系统同品牌,或能够进行无缝衔接;
★要求原厂服务,且必须原厂家在南宁当地有常驻技术人员,;投标时必须提供加盖公章的原厂服务承诺书;
16个并发Licenses版本
全文检索数据库系统用以搭建站内全文检索应用,及实现统一入口跨全站搜索的网站全文检索应用,具体要求如下:
千万记录的全文数据单机查询速度为0.x秒;十亿记录的元数据单机查询速度在3秒内。
全文检索网关
1
支持主流关系数据库:支持Oracle, DB2, SQL Server, Sybase、MySQL和人大金仓(KingbaseES)等关系数据库。
支持RDBMS中格式化文档的全文检索:能够自动对关系数据库大对象字段中存储的格式化文档,支持主流文档如Word、Powerpoint、Excel、PDF、WPS等文件进行全文检索。
全文检索信息发布应用服务器系统
多语种的支持
通过对UTF8编码方式的支持,实现了对多语种内容的发布及检索。
多种内容格式的支持
对TRS全文检索数据库、文档文件、图文混排内容、流媒体文件等各种格式内容,提供了完备的发布支持。
灵活的内容表现
通过频道(Channel)及模板(Templet)技术,实现内容与表现的真正分离,无论是更换内容还是改变显示,都将变成一件非常轻松的事情。而频道与模板在多应用间的高度重用,更加降低了维护的成本。
G级数据全文检索响应在毫秒之内。
全文检索数据库的“零”空间膨胀率(-10%~20%)。
数据索引更新时间平均小于0.02s/记录(每条记录4kb)。
T级文本数据库,一个任意词的检索都在1秒钟之内。
检索智能词典能按需扩展
汉语切分正确率达到99.1%以上。
全文数据加载和索引单机速度为10GB/小时;元数据加载和索引单机速度为16GB/小时。
★支持检索结果排序:支持多字段加权的相关性排序,并且可以设置文档的不同字段以不同的权重,提升关键字段的权重;Date/Number类型字段按大小排序,Char类型提供按内码、拼音、笔画等三种排序方式。
相似文档检索:
–百度新闻搜索的相同新闻
– Google的类似网页
–文章消重
–相关文章推荐
系统性能要求
允许使用文中的任意字、词、短语、句和片段进行检索
★汉语分词准确率及字词混合索引机制:切分正确率达到99.1%以上;由于汉语分词不能达到100%准确,所以中文检索系统需要提供一种索引方式(字词混合索引),保证一定查准率的同时提供100%查全率。
支持对检索结果的各种排序:检索结果与检索词的相关度排序;基于字段的排序;后进先出的快速排序。同时对多库检索结果可以进行混排。LIFO(后进先出的快速排序)对实际运行系统的性能提高有很大作用。TOPn排序可通过结果记录数的裁减以减少检索历史的存储来提高检索速度。
系统技术要求
实现结构化和非结构化数据的统一检索,并全部字段都能建立索引,实现基于元数据(meta-data)和全文(full-text)的联合查询。
支持多种数据源数据的全文索引。可自动将关系型数据库(如Oracle、SQL Server、MySQL、Sybase)中的数据导入全文数据库,并自动保持同步更新,使用户在享有关系型数据库卓越的数据处理功能的同时,拥有实时全文检索功能。
★为了专题检索的需要,必须提供布尔算符、关系算符、邻近算符、同在算符、频率算符、截词符(通配符),以及长检索表达式的支持(>1MB字节)。
★检索结果的分类统计等分析功能:统计检索结果在各库表中的分布情况;检索结果的分类统计,支持用正则表达式来筛选分类统计的目标字段值,并支持抽取部分子串组成新的类别。
强大的检索功能
基于TRS在全文检索中的领先技术及其对主流关系数据库的良好支持,借助精确检索、全文检索、关联检索等技术,TRS WAS提供了强大的内容检索功能,帮助客户更快更准确地找到正确的内容。
内容维护
可以通过Web方式对数据库中的内容进行增加、删除、修改等维护操作,提供了方便的内容维护途径。
缓存功能
数据同步和一致:可以保证索引和数据的同步,从而保证查询的结果是完全正确的。
支持完全更新和增量更新:完全更新是把关系型数据库中数据一次性全部导入到全文数据库中,不重复执行;增量更新是只对发生变化的数据进行数据同步,并以一定的时间周期循环执行。
支持多种类型的任务配置:支持从关系型数据库到全文数据库的多种任务配置
支持Text、HTML、XML、RTF、MS OFFICE文档(Word/Execl/Powerpoint)和PDF文件自动建立索引。
支持GB18030和UTF8大字符集,便于对中文偏僻字和各国文字的支持。
词典管理:检索时能够让用户自行维护词典,包括同义词典、近义词典、反义词典、主题词典进行扩展检索。
支持扩展检索:包括主题词典自动扩展检索, 同义词/反义词自动扩展检索, 全半角自动扩展检索, 简繁体自动扩展检索等。
支持语义检索:支持长句检索,系统可自动分词,按句子语义进行检索。并可选择关键词再次检索。
支持检索结果的分类统计与分析:统计检索结果在各库表中的分布情况;检索结果的分类统计,支持用正则表达式来筛选分类统计的目标字段值,并支持抽取部分子串组成新的类别。
支持有多个文本字段和非文本字段参与的相关排序。
自动分库(Partitioning):充分利用多库并行检索技术,进一步提高了检索速度;使得数据加载速度保持稳定,进一步提高了数据更新速度。
自然语言检索:输入一个检索串或一句话,分词后进行高频词过滤、词语个数限定、词语之间的位置关系等处理,根据词语在文章中的位置和频度,以及词语的倒文档频度,计算相关度,按相关度高低排序后输出结果。
★支持分布式检索和负载均衡集群功能:实现海量数据的无限扩展;实现高并发用户的高性能访问。
系ຫໍສະໝຸດ Baidu功能要求
全方位检索手段:提供多种检索运算符。包括外部特征与正文内容的各种逻辑组合检索(与、或、非、异或)、位置检索(同段、同句、相差几个字以及前后次序有关等)、二次检索、渐进检索、模糊检索、历史检索、词根检索、大小写敏感检索、概念检索、对检索结果按与检索表达式的相关性程度排序等。
支持表和视图:关系数据库中的表和视图均可以作为同步操作的数据源。
自动化程度高:用户只需要按步跟随“任务创建向导”的提示就可以创建更新任务。
可设置的定时执行任务:对创建好的任务,用户可以设置其自动定时执行。如:用户可以设置一个增量更新任务每隔5分钟执行一次,即每隔5分钟将关系数据库表中数据的修改向全文数据库中进行一次索引的更新。
★西文大小写无关检索、全半角无关检索、中文简繁体扩展检索。
具有系统级、数据库级、记录级和字段级四级安全控制机制。
支持数据的加密与压缩传输。
支持主流的操作系统平台Windows/Linux/Solaris/AIX/HPUX; 支持主流开发平台,提供CAPI,Java API,.Net API二次开发接口。
TRS WAS产品提供了内容展现的缓存功能,在内容实时发布的基础上,可以兼顾系统性能的开销,作到动静结合,达到性能开销与展现效果的最优结合。
阅读次数
可以对内容的访问次数进行记录,进而在这些访问次数数据的基础上,对内容展现的顺序进行相应的调整,从而达到更完善的内容展现策略。
相关新闻
通过相关新闻功能,可以实现内容之间的关联展现,借助于这些关联展现,可以协助最终用户实现对内容的深度阅读。
数量
具体参数
全文检索数据库
1
★要求与地方志目前使用的网站内容管理系统同品牌,或能够进行无缝衔接;
★要求原厂服务,且必须原厂家在南宁当地有常驻技术人员,;投标时必须提供加盖公章的原厂服务承诺书;
16个并发Licenses版本
全文检索数据库系统用以搭建站内全文检索应用,及实现统一入口跨全站搜索的网站全文检索应用,具体要求如下:
千万记录的全文数据单机查询速度为0.x秒;十亿记录的元数据单机查询速度在3秒内。
全文检索网关
1
支持主流关系数据库:支持Oracle, DB2, SQL Server, Sybase、MySQL和人大金仓(KingbaseES)等关系数据库。
支持RDBMS中格式化文档的全文检索:能够自动对关系数据库大对象字段中存储的格式化文档,支持主流文档如Word、Powerpoint、Excel、PDF、WPS等文件进行全文检索。
全文检索信息发布应用服务器系统
多语种的支持
通过对UTF8编码方式的支持,实现了对多语种内容的发布及检索。
多种内容格式的支持
对TRS全文检索数据库、文档文件、图文混排内容、流媒体文件等各种格式内容,提供了完备的发布支持。
灵活的内容表现
通过频道(Channel)及模板(Templet)技术,实现内容与表现的真正分离,无论是更换内容还是改变显示,都将变成一件非常轻松的事情。而频道与模板在多应用间的高度重用,更加降低了维护的成本。
G级数据全文检索响应在毫秒之内。
全文检索数据库的“零”空间膨胀率(-10%~20%)。
数据索引更新时间平均小于0.02s/记录(每条记录4kb)。
T级文本数据库,一个任意词的检索都在1秒钟之内。
检索智能词典能按需扩展
汉语切分正确率达到99.1%以上。
全文数据加载和索引单机速度为10GB/小时;元数据加载和索引单机速度为16GB/小时。
★支持检索结果排序:支持多字段加权的相关性排序,并且可以设置文档的不同字段以不同的权重,提升关键字段的权重;Date/Number类型字段按大小排序,Char类型提供按内码、拼音、笔画等三种排序方式。
相似文档检索:
–百度新闻搜索的相同新闻
– Google的类似网页
–文章消重
–相关文章推荐
系统性能要求
允许使用文中的任意字、词、短语、句和片段进行检索
★汉语分词准确率及字词混合索引机制:切分正确率达到99.1%以上;由于汉语分词不能达到100%准确,所以中文检索系统需要提供一种索引方式(字词混合索引),保证一定查准率的同时提供100%查全率。
支持对检索结果的各种排序:检索结果与检索词的相关度排序;基于字段的排序;后进先出的快速排序。同时对多库检索结果可以进行混排。LIFO(后进先出的快速排序)对实际运行系统的性能提高有很大作用。TOPn排序可通过结果记录数的裁减以减少检索历史的存储来提高检索速度。
系统技术要求
实现结构化和非结构化数据的统一检索,并全部字段都能建立索引,实现基于元数据(meta-data)和全文(full-text)的联合查询。
支持多种数据源数据的全文索引。可自动将关系型数据库(如Oracle、SQL Server、MySQL、Sybase)中的数据导入全文数据库,并自动保持同步更新,使用户在享有关系型数据库卓越的数据处理功能的同时,拥有实时全文检索功能。
★为了专题检索的需要,必须提供布尔算符、关系算符、邻近算符、同在算符、频率算符、截词符(通配符),以及长检索表达式的支持(>1MB字节)。
★检索结果的分类统计等分析功能:统计检索结果在各库表中的分布情况;检索结果的分类统计,支持用正则表达式来筛选分类统计的目标字段值,并支持抽取部分子串组成新的类别。
强大的检索功能
基于TRS在全文检索中的领先技术及其对主流关系数据库的良好支持,借助精确检索、全文检索、关联检索等技术,TRS WAS提供了强大的内容检索功能,帮助客户更快更准确地找到正确的内容。
内容维护
可以通过Web方式对数据库中的内容进行增加、删除、修改等维护操作,提供了方便的内容维护途径。
缓存功能
数据同步和一致:可以保证索引和数据的同步,从而保证查询的结果是完全正确的。
支持完全更新和增量更新:完全更新是把关系型数据库中数据一次性全部导入到全文数据库中,不重复执行;增量更新是只对发生变化的数据进行数据同步,并以一定的时间周期循环执行。
支持多种类型的任务配置:支持从关系型数据库到全文数据库的多种任务配置
支持Text、HTML、XML、RTF、MS OFFICE文档(Word/Execl/Powerpoint)和PDF文件自动建立索引。
支持GB18030和UTF8大字符集,便于对中文偏僻字和各国文字的支持。
词典管理:检索时能够让用户自行维护词典,包括同义词典、近义词典、反义词典、主题词典进行扩展检索。
支持扩展检索:包括主题词典自动扩展检索, 同义词/反义词自动扩展检索, 全半角自动扩展检索, 简繁体自动扩展检索等。
支持语义检索:支持长句检索,系统可自动分词,按句子语义进行检索。并可选择关键词再次检索。
支持检索结果的分类统计与分析:统计检索结果在各库表中的分布情况;检索结果的分类统计,支持用正则表达式来筛选分类统计的目标字段值,并支持抽取部分子串组成新的类别。
支持有多个文本字段和非文本字段参与的相关排序。
自动分库(Partitioning):充分利用多库并行检索技术,进一步提高了检索速度;使得数据加载速度保持稳定,进一步提高了数据更新速度。
自然语言检索:输入一个检索串或一句话,分词后进行高频词过滤、词语个数限定、词语之间的位置关系等处理,根据词语在文章中的位置和频度,以及词语的倒文档频度,计算相关度,按相关度高低排序后输出结果。
★支持分布式检索和负载均衡集群功能:实现海量数据的无限扩展;实现高并发用户的高性能访问。
系ຫໍສະໝຸດ Baidu功能要求
全方位检索手段:提供多种检索运算符。包括外部特征与正文内容的各种逻辑组合检索(与、或、非、异或)、位置检索(同段、同句、相差几个字以及前后次序有关等)、二次检索、渐进检索、模糊检索、历史检索、词根检索、大小写敏感检索、概念检索、对检索结果按与检索表达式的相关性程度排序等。
支持表和视图:关系数据库中的表和视图均可以作为同步操作的数据源。
自动化程度高:用户只需要按步跟随“任务创建向导”的提示就可以创建更新任务。
可设置的定时执行任务:对创建好的任务,用户可以设置其自动定时执行。如:用户可以设置一个增量更新任务每隔5分钟执行一次,即每隔5分钟将关系数据库表中数据的修改向全文数据库中进行一次索引的更新。
★西文大小写无关检索、全半角无关检索、中文简繁体扩展检索。
具有系统级、数据库级、记录级和字段级四级安全控制机制。
支持数据的加密与压缩传输。
支持主流的操作系统平台Windows/Linux/Solaris/AIX/HPUX; 支持主流开发平台,提供CAPI,Java API,.Net API二次开发接口。
TRS WAS产品提供了内容展现的缓存功能,在内容实时发布的基础上,可以兼顾系统性能的开销,作到动静结合,达到性能开销与展现效果的最优结合。
阅读次数
可以对内容的访问次数进行记录,进而在这些访问次数数据的基础上,对内容展现的顺序进行相应的调整,从而达到更完善的内容展现策略。
相关新闻
通过相关新闻功能,可以实现内容之间的关联展现,借助于这些关联展现,可以协助最终用户实现对内容的深度阅读。