TRS全文检索参数
TRS公司简介
TRS公司介绍编制单位:北京拓尔思信息技术股份有限公司编制时间:2015年一.公司简介北京拓尔思信息技术股份有限公司是国家规划布局内重点软件企业,公司注册资本2.04亿元,2011年6月在创业板上市,股票代码300229。
公司秉承“搜索信息、整合内容、发现知识”的技术理念,专注于海量非结构化信息处理为核心的软件研发、销售和技术服务,目标是成为大数据时代中国软件和专业互联网服务领域的领导厂商。
公司现有员工600名,总部设在北京,并已在全国主要中心城市设立了分公司或办事处。
公司自主研发的TRS系列产品和服务已被国内外4000多家企业级机构客户广泛使用,在中国非结构化中文信息智能应用软件市场的占有率位居第一。
二.理念战略愿景让信息创造价值。
使命聚焦大数据时代客户的需求和挑战,提供自主研发的一流软件和服务,持续为客户创造最大价值。
核心价值观公司的核心价值观是我们的信念,是我们前进的内在动力,也是对用户及员工的承诺。
专注:是建立核心竞争力的关键,在公司发展的每个阶段必须专注于既定的目标创新:IT产业一日千里,不创新就被淘汰,拓尔思认为创新是做百年企业的必备基因坚持:是一种品质、一种精神,在困难和挑战面前,只有坚持才能取得最后的胜利诚信:是公司最重要的无形资产,是我们赢得客户信任的基础共赢:实现用户、合作伙伴、员工和公司的多赢,多赢才能持久研发战略和方向拓尔思把研发作为公司的立身之本,公司每年投入的研发费用占当年营业收入的10%以上三.核心技术技术理念搜索信息整合内容发现知识四.基础研究和政府项目TRS把技术创新作为公司核心竞争力,以自主创新和自主知识产权的软件产品为国民经济信息化服务。
在中文信息处理、信息检索、内容管理和数据挖掘等方面具有世界级的先进技术,多年来承担了国家863计划项目、国家自然科学基金项目等众多国家级项目。
公司的研究队伍和北京信息科技大学中文信息处理研究中心、TRS软件开放实验室密切合作。
TRS代码示例
1.检索例子1package com.trs.client.tests;import com.trs.client.*;public class SearchTest1{public static void main(String[] args) throws Exception{String sHost = "127.0.0.1";String sPort = "8888";String sUserName = "system";String sPassWord = "manager";TRSConnection trscon = null;TRSResultSet trsrs = null;try{// 建立连接trscon = new TRSConnection();trscon.connect(sHost, sPort, sUserName, sPassWord);// 从demo3中检索标题中含有"中国"的记录trsrs = trscon.executeSelect("demo3", "标题=中国", "", "", "正文", 0, TRSConstant.TCE_OFFSET, false);// 输出记录数System.out.println("记录数:" +trsrs.getRecordCount());// 设置概览/细览字段, 提高记录的读取效率trsrs.setReadOptions("日期;版次;作者;标题", "正文", ";", TRSConstant.TCE_OFFSET, 0);// 输出前20条记录for (int i = 0; i < 20 && i <trsrs.getRecordCount(); i++){trsrs.moveTo(0, i);System.out.println("第" + i + "条记录");System.out.println(trsrs.getString("日期"));System.out.println(trsrs.getString("版次"));System.out.println(trsrs.getString("作者"));System.out.println(trsrs.getString("标题", "red"));}}catch (TRSException ex){// 输出错误信息System.out.println(ex.getErrorCode() + ":" + ex.getErrorString());ex.printStackTrace();}finally{// 关闭结果集if (trsrs != null) trsrs.close();trsrs = null;// 关闭连接if (trscon != null) trscon.close();trscon = null;}}}2.检索例子2package com.trs.client.tests;import com.trs.client.*;public class SearchTest2{public static void main(String[] args) throws Exception{String sHost = "127.0.0.1";String sPort = "8888";String sUserName = "system";String sPassWord = "manager";String sLicenseCode = null;TRSConnection trscon = null;TRSResultSet trsrs = null;try{// 建立连接trscon = new TRSConnection();trscon.connect(sHost, sPort, sUserName, sPassWord);// 从demo3中检索正文中含有"中国"的记录trsrs = trscon.executeSelect("demo3", "正文=中国", "", "", "正文", 0, TRSConstant.TCE_OFFSET, false);// 输出记录数System.out.println("记录数:" +trsrs.getRecordCount());// 获取许可证sLicenseCode = trscon.getLicenceCode();//关闭结果集,断开连接trsrs.close();trscon.clean();// 重新连接(可能抛出异常)trscon.reconnect(sHost, sPort, sLicenseCode);// 引用上次结果集(可能抛出异常)trsrs = trscon.executeSelect("@0", "", "", "", "正文", 0, TRSConstant.TCE_OFFSET, false);// 设置概览/细览字段, 提高记录的读取效率trsrs.setReadOptions("日期;版次;作者;标题;正文", "", ";", TRSConstant.TCE_OFFSET, 0);// 输出最后20条记录int iNewNo = (int)(trsrs.getRecordCount() - 20);if (iNewNo < 0) iNewNo = 0;for (int i = iNewNo; i < trsrs.getRecordCount(); i++){trsrs.moveTo(0, i);System.out.println("第" + i + "条记录");System.out.println(trsrs.getString("日期"));System.out.println(trsrs.getString("版次"));System.out.println(trsrs.getString("作者"));System.out.println(trsrs.getString("标题", "red"));System.out.println(trsrs.getStringWithCutsize("正文", 256, "red"));System.out.println(trsrs.getString("正文", "red"));}}catch (TRSException ex){// 输出错误信息System.out.println(ex.getErrorCode() + ":" + ex.getErrorString());ex.printStackTrace();}finally{// 关闭结果集if (trsrs != null) trsrs.close();trsrs = null;// 断开连接if (trscon != null) trscon.clean();trscon = null;}}}3.视图例子package com.trs.client.tests;import com.trs.client.*;public class ViewTest1{public static void main(String[] args){TRSConnection conn = null;try{conn = new TRSConnection();conn.connect("127.0.0.1", "8888", "system", "manager");// 检查数据库是否存在TRSDataBase[] dbs = conn.getDataBases("demo4");if (dbs == null || dbs.length == 0){// 创建数据库,字段类型分别为NUMBER, CHAR, PHRASE, DOCUMENTTRSDataBase base = new TRSDataBase(conn, "Demo4");TRSDataBaseColumn cols[] = new TRSDataBaseColumn[4];cols[0] = new TRSDataBaseColumn("Demo4", "col0");cols[0].setIntProperty("TYPE", TRSConstant.TCE_NUMBER);cols[1] = new TRSDataBaseColumn("Demo4", "col1");cols[1].setIntProperty("TYPE", TRSConstant.TCE_CHAR);cols[2] = new TRSDataBaseColumn("Demo4", "col2");cols[2].setIntProperty("TYPE", TRSConstant.TCE_PHRASE);cols[3] = new TRSDataBaseColumn("Demo4", "col3");cols[3].setIntProperty("TYPE", TRSConstant.TCE_DOCUMENT);base.addColumn(cols);base.create();// 将新数据库添加到视图TRSView views[] = conn.getViews("View4");if (views != null && views.length != 0){// 修改视图字段,添加新数据库的对应字段TRSViewColumn[] vcols =views[0].getColumns();for (int j = 0; j < vcols.length; j++){String srccols =vcols[j].getProperty("BASECOLS");vcols[j].setProperty("BASECOLS", srccols + ";" + "Demo4.col" + j);}// 修改视图,添加新数据库String srcbases =views[0].getProperty("DATABASES");views[0].setProperty("DATABASES", srcbases + ";Demo4");views[0].alterColumn(vcols);views[0].updateAlter();}}}catch(TRSException e){System.out.println("ErrorCode: " + e.getErrorCode()); System.out.println("ErrorString: " +e.getErrorString());}finally{if (conn != null) conn.close();conn = null;}}}。
TRS全文检索网关SPD
软件产品说明(Software Product Description)产品名称(中文)TRS全文检索网关产品名称(英文)TRS Gateway for RDBMS产品编号参见相关文件版本Version 4.6发布日期2010年8月27日一、产品描述关系数据库(RDBMS)对于存储在“大对象”中的数据的内容进行检索和分析的效率低下,而在实际应用中往往需要对这些数据进行高效的检索和分析。
TRS全文检索数据库是一种完备的文本型数据库系统,适合对各种结构化和非结构化的信息进行管理和查询,特别是在海量文本集合上实现了高效的全文检索功能。
关系数据库中的大对象字段中的内容,使用TRS全文检索数据库可以实现高效检索和分析。
TRS全文检索网关(TRS Gateway for RDBMS)是由拓尔思信息技术有限公司为实现关系型数据库的全文检索而推出的软件产品,该产品实现了关系型数据库与TRS全文数据库之间的数据自动迁移和同步更新,利用TRS全文检索数据库解决了关系数据库大对象的检索和分析效率问题,而上层应用则可以构架在由关系数据库和TRS全文数据库共同组成的数据库平台之上。
一直以来,虽然关系数据库厂商也宣称或推出了具有全文检索的产品,但内容检索是和本地语言密切相关的,TRS领先的全文检索功能融合了中文自然语言处理的最新成果,包括中文按词索引、字索引的BI-GRAM、基于语义辞典等语言学知识的智能检索,以及中文自动分类和自动摘要等领先技术,是中文全文检索的最佳选择,因此主流数据库厂商都选择TRS作为中文全文检索解决方案。
利用TRS全文检索网关软件,用户可以经过简单的配置操作,在关系数据库与TRS全文检索数据库之间建立映射关系,系统就可自动将关系型数据库中的数据导入TRS全文检索数据库,并自动保持同步更新,使用户在享有关系型数据库卓越的数据处理功能的同时,拥有TRS全文检索功能。
TRS 全文检索网关软件经过了千万量级文本数据的实际应用检验,具有良好的可靠性和稳定性。
TRS全文检索网关用户安装手册
Beijing TRS Information Technology Co., Ltd.
版版 权权 说说 明明
本手册由北京拓尔思信息技术股份有限公司(以下简称 TRS 公司)出版,版权属 TRS 公 司所有。未经出版者正式书面许可,不得以任何方式复制本文档的部分或全部内容。
©北京拓尔思信息技术股份有限公司 版权所有。保留所有权利。
是北京拓尔思信息技术股份有限公司的注册商标。
关于本手册
本手册面向 TRS 全文检索网关系统维护人员,全面介绍 TRS Gateway4.0 系统的安装方法和注意事 项。
读者对象
本手册的使用对象是需要使用全文检索网关系统服务的系统维护人员。
相关手册
《TRS 全文检索网关用户手册》 《全文数据库安装》 《数据库加载格式规范》
用户反馈
TRS 公司感谢您使用 TRS 产品。如果您发现本手册中有错误或者产品运行不正确,或者您对本手 册有任何意见和建议,请及时与 TRS 公司联系。您的意见将是我们做版本修订时的重要依据。
目录
第一章 TRS全文检索网关系统介绍 ................................................................................................................ 1 1.1 概述 ........................................................................................................................................................... 1 1.2 主要特点 ................................................................................................................................................... 1 1.3 系统需求 ................................................................................................................................................... 1 1.4 产品变化 ................................................................................................................................................... 2
TRSD全文数据库系统
元数据(meta-data)和全文(full-text)的联合查询。 实时动态索引:数据增删改时快速同步更新索引,无需重建整个索引,也无需局部重建
索引。即数据增删改后立即能够被检索。 自动分库(Partitioning):充分利用多库并行检索技术,进一步提高了检索速度;使得
支持精确检索,准确报告检索记录数;支持估算检索,快速返回部分结果,并
对结果集进行估算;同时支持对结果进行补充检索与重新估算。
支持短语级别(INCLUDE 函数)和词级别(LIKE 函数)的“相似性”检索,
INCLUDE 函数支持 CHAR 字段的运算。
TOP N 剪裁排序时,LIKE 和 INCLUDE 函数具有“匹配度自适应调节”功能,
请求的独立的“超时”设置,允许检索被“中断”后返回已经得到的结果。
支持基于 BIT 字段的虚拟逻辑字段的检索,并支持其实体字段之间的逻辑关系
与排序加权。
实现 “同字段”的限定运算,支持复杂条件下的检索需求。
4
TRS 全文数据库系统 软件产品说明书(SPD)
安 系统提供多种权限级别的用户管理。具有系统级、数据库级、记录级和字段级
处
客户端支持以下三种字符集:GB18030 编码,BIG5 编码,UTF8 编码;开发接 口支持 UCS2/UTF16。方便了多语言检索应用程序的开发。
理 内嵌汉语分词:统计建立了大量歧义排除规则,有效提高了分词准确性,同时
与
在不确定情况下采取冗余切分,极大地提高了查全率和查准率。
智 除汉语外,还支持藏文(含扩展集 A 和 B)、蒙文、维文、彝文等少数民族语
TRSServer检索配置手册
内容协作平台TRS WCM 6.5TRSServer检索配置手册北京拓尔思信息技术股份有限公司Beijing TRS Information Technology Co. Ltd.版版权权说说明明本手册由北京拓尔思信息技术股份有限公司(以下简称TRS 公司)出版,版权属TRS 公司所有。
未经出版者正式书面许可,不得以任何方式复制本文档的部分或全部内容。
©北京拓尔思信息技术股份有限公司 版权所有。
保留所有权利。
是北京拓尔思信息技术股份有限公司的注册商标。
TRSServer检索配置手册1概述本文档讲述WCM实现TRSServer检索所需的相关配置工作,包括如何将wcmdocument 表数据导入到GateWay,如何修改WCM自身配置项,如何安装TRSBean等。
由于目前文档查询列表也用到了相关wcmchnldoc表的字段,所以需要在导入数据到GateWay时执行必要的函数和视图以同步相关wcmchnldoc的字段到文档表,目前是同步了recid,modal,docorderpri,docstatus如有需要可按照类似方法添加。
2SQLServer配置说明2.1 建立源数据库视图注:执行完脚本,需注意检查并确保函数、视图已创建成功。
2.2 创建GateWay导表数据任务2.2.1新建RDBMS到TRS任务2.2.2设置任务名设置任务名(任务名可以随便设置,唯一即可),填写源数据库(需要检索的库)用户名密码,选择字符集GB18030。
2.2.3设置源数据库选择相应库,操作对象选择视图,源视图选择刚刚建立的V_WCMDocument,源表选择wcmdocument。
2.2.4指定主键视图主键和表列名均选择DOCID。
2.2.5设置目标数据库点击手工配置,左侧栏上配置目标数据库的相关信息,连接成功后,在右侧的数据库列表可创建目标表(要选择表,如果已创建可直接选择)。
2.2.6创建目标表设置数据库名,数据库属性选择表,在字段对应时注意要将可能会存在重复的字段调整下命名,如将DOCID的对应字段调整为DOCID2。
某信息技术有限公司TRS学位论文服务系统
OAI协议
Data Provider
…
Data Provider
TRS OAI
审核通过的论文记录系统自动生成相应的论文DC元数据, TRS提供OAI Server支持OAI协议以支持论文的OAI服务,实 现和CALIS论文提交管理服务体系无缝集成。 ➢本地格式和DC格式的转换:
发布库是TRS数据库情况下,通过视图产生虚拟论文DC元 数据库 通过TRS RDBMS Gateway进行映射产生物理DC库;
➢OAI Data Provider 通过OAI Server实现
支持CALIS论文提交管理服务体系
TRS DPaper符合CALIS给出的基本数据规范(如标引 基本字段等)和服务规范,并提供统一规范的OAI服务 器以支持OAI服务。CALIS学位论文元数据服务中心将通 过OAI客户端工具OAI CLIENT主动将各院校的论文元数 据信息自动采集(Harvest)过来,建立CALIS学位论文 元数据中心库,提供元数据服务,元数据服务的细览可 以链接到原始论文产生学校服务系统的全文URL连接, 某用户是否可以访问全文以及是否收费等都由每个院校 的TRS DPaper系统设置决定。
踏 实 肯 干 , 努力奋 斗。2020年 10月 16日 上午11时 41分 20.10.1620.10.16
追 求 至 善 凭 技术开 拓市场 ,凭管 理增创 效益, 凭服务 树立形 象。2020年 10月 16日 星期五 上午11时 41分 28秒11:41:2820.10.16
严 格 把 控 质 量关, 让生产 更加有 保障。 2020年 10月上 午11时 41分20.10.1611:41October 16, 2020
➢提供基于用户/用户组和基于IP的完善的安全管理机制, 可以灵活设置对论文数据的访问许可;
TRS全文数据库介绍
• • •
结构化数据:SQL查询 非结构化数据:全文检索和搜索引擎 但用户的数据在很多情况下是结构化数据+非结 构化数据+半结构化数据
SEARCH
Search Application Services
Core Indexing Server
Content Capture & Index
DATABASE
26获得国家科技进步二等奖,电子工业部科技进步一等 奖 • 2001年国家推荐的12个优秀软件产品之一 • 拥有UNDP援建的中文信息处理研究中心
– 和国内外多所大学、研究机构建立了长期合作研 究关系
• 清华大学(中文智能语言处理) • 香港中文大学(信息检索)
“TRS has the best technology in Chinese Text Retrieval area in China. It is one of the strongest software development firms in China.” -Dr. Kaifu Li, VP of Microsoft, and formerly Managing Director of Microsoft Research Institute.
– 企业搜索软件第一名 – 主要竞争对手均为国 际知名厂商
Autonomy 8.5% IBM 8.8% 微软 10.4%
Oracle 7.6%
其他 30.8%
2007年中国企业搜索产品 市场主力厂商份额结构
TRS 33.9%
深厚的科研基础和积累
• 拥有自主核心技术和知识产权,研发力量强大
– 在信息检索、知识挖掘和中文信息处理方面具有 国内外领先的研究能力和研究成果
trs和autonomy比较 (1)
TRS公司与AUTONOMY公司及两公司全文检索产品的比较一、从公司的规模、产品线等方面进行总体的比较:TRS Autonomy公司简介中文全文检索的创始者,在企业和互联网搜索、内容管理和信息挖掘等领域具有领先的技术和产品,是国内最大的搜索和内容管理技术提供者,是非结构化信息处理技术领域的创新者和领导者。
Autonomy是世界上技术领先,产品优秀的不规整信息智能处理软件公司,在美国和欧洲纳斯达克高科技股票市场,伦敦股票市场都已上市数年。
作为一家国际软件公司,提供全面完整的智能软件结构,自动化地处理,操作和应用不规整的信息。
公司规模公司总部在北京,现有员工200多人,已在全国主要城市建立了分公司、办事处或合作伙伴网络,为当地客户提供高水平的本地化服务。
Autonomy总部设于英国剑桥和美国旧金山,作为一家国际性软件公司,拥有遍布世界各地的分公司。
包括伦敦,罗马,慕尼黑,纽约,芝加哥,悉尼,新加坡,北京等20多个分公司和办事处。
产品体系结构TRS不但提供企业搜索服务,还提供完善的内容管理服务,且拥有大量的应用产品。
Autonomy由动态推理引擎、用户服务器和分类服务器组成的核心架构。
外围缺少可直接应用的企业级产品市场占有率在大中华地区有2000家企业级用户全球有1600家客户,在大中华地区客户不超过20家公司发展公司成立十余年来,销售收入和利润始终保持持续的增长,自1996年以来连续10年盈利,是中国从事自主核心技术和软件产品研发的典范企业之一。
在国际上发展比较快,保持增长。
在中国,由于已知的原因,发展刚刚起步,可持续发展有待验证。
小结1、两家公司都提供全文检索的解决方案,Autonomy公司更擅长多语言,TRS公司更擅长中文处理。
2、两家公司技术能力都非常强,都是该领域的领头羊。
3、TRS公司是自主研发的中文处理技术,Autonomy公司外购中文分词等技术,对于中文处理没有基础性技术的储备和经验。
TRS内容分发服务器(TRSCDS)解决方案_基础信息化_终端和服务器_6157
TRS 内容分发服务器(TRS CDS)解决方案_基础信息化_终端和服务器需求场景信息服务模式的变化互连网和IT技术的发展,使得信息服务模式发生了根本性的变化,传统以纸质和电子介质服务的模式,逐步被网络环境下集成服务、虚拟门户和搜索引擎等服务模式所代替。
信息资源内容的变化•全文内容的迅速增长网络环境下,信息资源的内容也发生了很大的变化,全文数据库所占比例已经由八十年代的4%发展到现在的60%;同时我也看到电子期刊迅速增长,电子图书迅速蔓延;网络资源成为信息资源的重要组成部分。
•资源整合的迫切性在当前海量信息的环境下,各种资源的孤立性被打破,不同资源之间的关联性增强。
由于信息资源的来源、载体和格式各不相同,各种不同类型、形式的信息资源整合服务已经成为信息服务中面临的一大问题。
信息服务方式的变化•用户需求的趋向海量信息环境下,信息需求向纵深发展,用户使用信息资源的行为更注重信息的效用;用户更加关注内容定位、内容特色和内容深度。
•需求决定服务用户需求决定信息服务方式,个性化、增值服务等以人为本的服务方式成为信息服务中不可缺少的一部分。
TRS CDS给您带来的价值TRS CDS 是当今网络环境下,构建新型信息服务模式、整合信息资源内容、提供以人为本信息服务方式的支持平台。
TRS CDS 可以广泛的应用于组织内外部信息资源服务平台的建设,特别适用于媒体单位、信息咨询机构、图书馆和科研机构等对外网络信息服务门户的建设。
产品概述TRS Content Delivery Server (简称TRS CDS )产品,是北京拓尔思信息技术有限公司内容管理平台中的一个重要组成部分。
TRS CDS 定位于实现内容的分发及后续阶段的评估反馈,主要包括:内容发布、检索、推送、评估、再利用和增值等。
产品功能整合异构信息资源,实现信息内容服务的工程化管理内容范围不断的扩展,内容存储的方式涉及关系数据库(RDBMS)、非关系数据库(如TRS数据库等文档数据库)到文件系统(XML、多媒体等),如何将如此多样的内容有效的整合在一起?TRS CDS通过统一数据源访问技术——UDSA(Unified Data Source Access),对多种数据源中的内容进行统一定义,并通过频道对内容进行统一组织,屏蔽了内容来源之间的差异性,实现了不同格式信息资源的整合。
TRS全文数据库系统集群及案例介绍
TRS全文数据库系统集群及案例目录TRS全文数据库系统集群 (2)案例类型一:TRS Database+Oracle (4)案例类型二:TRS Database+Oracle+TRS Radar (8)案例类型三:TRS Database+TRS CKM (11)TRS全文数据库系统集群简称TRS Database Cluster,是架构在多个物理TRS全文数据库服务器之上的分布式管理系统,它支持数据分布以及负载均衡两种基本分布方式,并支持两种方式的组合运用。
TRS全文数据库集群系统结构示意图中,“TRS全文数据库服务器组”内的数据库服务器之间属于负载均衡模式,由集群服务器统一调度,一个服务请求只发往其中的一个数据库服务器。
当然,在每个“TRS 全文数据库服务器组”中也可以只包含(也至少有)一个数据库服务器。
“TRS全文数据库服务器组”之间则属于分布式检索模式,一个检索请求需要根据其所包含的目标对象的分布情况,发往其中部分或全部的数据库服务器组。
采用TRS全文数据库集群服务器可以实现以下目标:●实现海量数据的无限扩展。
●实现高并发用户的高性能访问。
●实现高可靠性的检索服务(无单点故障)。
●实现本地管理(Manage Locally)和联邦检索(FederatedSearch)。
数据量估算一般方法:对于TB级的数据量,系统要提供秒级的检索速度,就必须构建分布式检索系统搜索这么庞大数据;为了几百上千人同时使用这个系统查询信息,这个系统就必须构建负载均衡集群系统。
根据实践经验,搜索引擎界认可的单机检索数据量为400~600万网页,我们的经验最高可以达到1000万网页,每网页HTML大小为10K+(天网统计13K),即单机索引检索数据量为130G(HTML,折合成Text不大于30G)。
那么1TB的HTML需要8台PC Server构建分布式检索集群系统, 1TB的Text以此类推需要更多的机器。
根据实践经验,搜索引擎界认可的单机并发检索请求数为10~20个, 如果考虑到瞬间高峰的大量重复检索,单机能够支持的并发检索请求数为50个以上。
TRS档案信息全文检索系统
TRS档案信息全文检索系统1、产品型号2、技术指标1、TRS全文数据库(TRS Database Server)1)支持在Unix、Linux、Windows等不同操作系统环境下的部署和应用;2)具有高性能的中文分词技术。
支持中文自然语言的处理和智能检索;支持字/词和关键词等多种索引方式;提供多种扩展检索功能;有效保证查全率和查准率。
3)用户可自由建库,自定义字段,支持多种数据类型(日期,数字,字符串,文本和二进制类型)。
4)除了支持各种格式网页的检索外,还支持对主流的文件格式的检索,如office文件、PDF文件、多媒体文件、图表、电子邮件等;5)支持分布式检索和负载均衡集群服务器,提供TB级海量数据的索引下的秒级检索速度和G级数据量的亚秒计检索速度;6)全文检索引擎必须支持对XML文件的全息索引,即支持Native-XML;7)支持全方位检索手段:除了基于文本内容的全文检索外,还具备关系数据库一样的字段概念,支持文档的外部特征与正文内容的各种逻辑组合检索。
包括二次检索、渐进检索、历史检索、词根检索、大小写敏感检索、概念检索、位置检索、扩展检索,对检索结果按与检索表达式的相关性程度排序等。
其中,扩展检索包括主题词典自动扩展检索,同义词/反义词自动扩展检索,全半角自动扩展检索,简繁体自动扩展检索等。
8)支持按词检索、按字检索、字词混合检索,适应不同应用环境的需求。
具有分词词典、主题词表、同义词、反义词典、禁用词典的维护。
9)支持多库并行检索;10)全文检索引擎必须提供多种开发接口,包括API、JAVABEAN、ADO以及.NET接口,以便用户做必要的扩展开发应用。
必须提供详细的开发使用说明文档。
11)提供全文检索网关,能检索其他关系数据库的内容,如Oracle,MS SQL Server等。
并能把其他关系数据库的内容,通过网关自动导入到全文数据库中。
12)提供管理员工具。
其浏览和维护界面可以在不离开集成环境的情况下,直接浏览各种格式的文档,并可快速地在文本和源文件之间进行切换。
TRS内容管理介绍
内容的存储(与关系数据库的共存)
内容的特点 结构:元数据+对象数据 大规模,要求低成本 综合成本,包括数据库的硬件运行环境、 管理成本等等 数据库功能特点: 关系数据库 淡化关系运算 强调索引和查询 Sybase 加强语言处理 Oracle 分布式 MS SQL Server 和组织结构适应
内容管理的概念
内容管理的概念
内容生命周期
内容管理的应用环境
网络环境 互联网、内网 行业 政府、媒体、企业、教育科研 应用 网站管理、资源整合、发布搜索、知识管理
内容管理的几个方面
采集、创建:资源整合 存储 服务 标准化
内容的来源、采集和创建
采集,整合各种现有资源 网络 历史数据库 分散文件 其他业务系统 人的参与 人工的采集、标引加工
内容管理 深化电力行业信息化
北京拓尔思信息技术有限公司 陈明
主要内容
内容管理与电力行业 资源整合与搜索服务 网站和门户建设
第一部分:内容管理
从数据管理到内容管理
曾把信息管理定义为数据管理(DM)和内容管理 (CM)两部分的集成 “对计算机应用来讲,计算机系统从数据管理 发展到内容管理是一大进步,因为它体现了更 好的人文精神和更好、更高的一种工作效率。”
内容编审
个人内容桌面
内容协作平台
TRS内容管理主流产品
内容挖掘与知识管理服务
自动分类 TRS INFORADAR 网络信息采集 查重与相似性分析 信息采集网关 TRS GATEWAY 自动摘要 TRS CKM 过滤与知识提取 自动聚类
内容服务平台 内 容 采 集 创 建
多媒体采集
TRS API 数据交oven 等
高端用户市场
银汉传播新闻信息数据库系统
银汉传布新闻信息数据库系统目录一、需求阐发●需求阐发:银汉业务简介⏹公司⏹业务流程⏹资讯部●信息系统的重要性●同类新闻信息系统的情况⏹使用数据库类型⏹先行几个数据库情况●未来的趋势二、一期工程情况〔单机系统〕●数据库逻辑设计⏹功能划分◆输入◆查询◆存储◆打印⏹模块划分◆联系人信息◆新闻信息◆录像带信息◆日志系统●数据库物理设计⏹表设计◆人员表◆信息表◆录像带表◆日志表⏹查询设计⏹窗体设计●系统阐发⏹系统功能实现情况⏹系统缺乏三、二期工程情况〔intranet〕●设计目标●设计原那么●系统功能●设计的特点内容撮要:此设计是完成银汉传布公司的信息办理系统而做。
为完成此项任务,我先对了解公司业务,与其交流,明确他们对系统的需求;接着对此行业的整个情况作了一个调研,了解此行业所使用的尺度及系统;然后提出我的解决方案,在方案中我按照其实际情况提出了两阶段的方案,并对这两个阶段别离进行阐述。
在实际操作中,我已实现了第一阶段,此刻正在实施第二阶段。
需求阐发银汉公司节目制作简介银汉公司是以制作电视节目为主的公司。
在中国正在进行的电视新闻鼎新中,“电视节目工厂化出产〞,已经成为一个公认的开展标的目的。
银汉公司也正以这种新的理念来进行电视制作。
目前,该公司与北京电视台生活频道合作进行电视节目的制作。
业务流程:银汉公司的电视节目,尤其是资讯档的电视节目,将遵循以下〔图1〕的工作模式:(图1)资讯部从众多的新闻中挑选出可作为选题的新闻,记者来选择所需的新闻;记者对这些选题进行编纂,提出摄制设想与要求,然后按照提纲进行拍摄;摄像与记者按单拍摄回母带,交于编导,然后由编导进行后期制作,制作完成后将成品交出备播。
资讯部的工作是从众多的信息中按照需要挑选出需要的信息;联系各个新闻来源点,从这些处所得到第一手信息;安排每天新闻,包管节目的安然播出;提供信息来源及相关布景材料,协助编纂联系采访对象。
这些要求在采访前一周至两天完成。
TRS政府信息公开服务系统 TRS GovInfo v2.0 说明书
TRS政府信息公开服务系统 TRS GovInfo v2.0用户手册北京拓尔思信息技术股份有限公司Beijing TRS Information Technology Co., Ltd.版权说明本手册由北京拓尔思信息技术股份有限公司(以下简称TRS公司)出版,版权属TRS公司所有。
未经出版者正式书面许可,不得以任何方式复制本文档的部分或全部内容。
©北京拓尔思信息技术股份有限公司版权所有。
保留所有权利。
是北京拓尔思信息技术股份有限公司的注册商标。
关于本手册TRS政府信息公开目录服务系统的设计充分分析了政府现有资源和信息系统状况,综合考虑了《政府信息公开条例》的具体规定、政府信息资源目录体系和交换体系建设标准、以及快速实现政府门户网站信息公开体系的建设等各个因素,有效解决目前各级政府信息公开目录建设中面临的棘手问题。
该产品综合应用了业内领先的基于元数据、分类体系等的通用资源管理机制、异构数据采集技术、文本智能处理技术、多渠道发布技术、工作流技术、全文检索技术、数据交换技术等,全面覆盖了政府公开信息资源在采集、编目、上报、注册、审核、管理、发布、检索、交换、监督、依申请公开等各个阶段的功能需求,为各级政府机构快速建立政府信息资源公开目录提供了技术保障。
本手册详细地介绍了有关政府信息公开服务系统的使用方法,是用户熟悉掌握政府信息公开服务系统不可或缺的参考资料。
读者对象本手册读者对象为使用政府信息公开服务系统的使用者。
手册组织第1章 概述介绍和系统相关的基本概念、术语,以及系统特点第2章 系统功能描述政府信息公开服务系统提供了那些基本功能第3章 使用系统的角色从使用者的角度,介绍系统对每一类使用者提供了那些功能,以及如何使用这些功能用户反馈TRS公司感谢您使用TRS 产品。
如果您发现本手册中有错误或者产品运行不正确,或者您对本手册有任何意见和建议,请及时与TRS公司联系。
您的意见将是我们做版本修订时的重要依据。
TRS公司简介
TRS公司介绍编制单位:北京拓尔思信息技术股份有限公司编制时间: 2015 年一.公司简介北京拓尔思信息技术股份有限公司是国家规划布局内重点软件公司,公司注册资本 2.04 亿元, 2011 年 6 月在创业板上市,股票代码300229。
公司秉着“搜寻信息、整合内容、发现知识”的技术理念,专注于海量非结构化信息办理为核心的软件研发、销售和技术服务,目标是成为大数据时代中国软件和专业互联网服务领域的领导厂商。
公司现有职工 600 名,总部设在北京,并已在全国主要中心城市建立了分公司或做事处。
公司自主研发的 TRS系列产品和服务已被国内外 4000 多家公司级机构客户宽泛使用,在中国非构造化中文信息智能应用软件市场的据有率位居第一。
二.理念战略愿景让信息创立价值。
使命聚焦大数据时代客户的需乞降挑战,供给自主研发的一流软件和服务,连续为客户创立最大价值。
核心价值观公司的核心价值观是我们的信念,是我们行进的内在动力,也是对用户及员工的承诺。
专注:是成立核心竞争力的重点,在公司发展的每个阶段一定专注于既定的目标创新: IT 家产与日俱增,不创新就被裁减,拓尔思以为创新是做百年公司的必备基因坚持:是一种质量、一种精神,在困难和挑战眼前,只有坚持才能获得最后的成功诚信:是公司最重要的无形财产,是我们博得客户相信的基础双赢:实现用户、合作伙伴、职工和公司的多赢,多赢才能长久研发战略和方向拓尔思把研发生为公司的立身之本,公司每年投入的研发花费占当年营业收入的 10%以上三.核心技术技术理念搜寻信息整合内容发现知识四.基础研究和政府项目TRS把技术创新作为公司核心竞争力,以自主创新和自主知识产权的软件产品为公民经济信息化服务。
在中文信息办理、信息检索、内容管理和数据发掘等方面拥有世界级的先进技术,多年来肩负了国家863 计划项目、国家自然科学基金项目等众多国家级项目。
公司的研究队伍和北京信息科技大学中文信息办理研究中心、TRS软件开放实验室亲密合作。
人物数据库研究概述
人物数据库研究概述作者:金佳丽来源:《科技创新与应用》2019年第15期摘 ;要:随着特色数据库的建立,人物数据库相关研究成果越来越多,研究范围越来越广。
除了对人物数据库的整体性研究,还有对数据库系统、数据库内容、版权问题等方面的专题性研究。
整体来看,人物数据库研究起步晚,成果少,对海外图书馆人物数据库的关注不足,未来还有很大的研究空间。
关键词:人物数据库;特色数据库;公共图书馆中图分类号:G250.74 ; ; ; 文献标志码:A ; ; ; ; 文章编号:2095-2945(2019)15-0051-02Abstract: With the establishment of characteristic database, there are more and more research results related to character database, and the research scope is more and more extensive. In additionto the overall study of the character database, there are also the database system, database content, copyright issues and other aspects of the thematic research. On the whole, the research of character database started late, the results are few, the attention to overseas library character database is insufficient, there is still a lot of research space in the future.Keywords: character database; characteristic database; public library近年来,随着科技的进步、数字图书馆的兴起以及图书馆对特藏资源的重视,自建特色数据库逐渐发展起来。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
具有系统级、数据库级、记录级和字段级四级安全控制机制。
支持数据的加密与压缩传输。
支持主流的操作系统平台Windows/Linux/Solaris/AIX/HPUX; 支持主流开发平台,提供CAPI,Java API,.Net API二次开发接口。
★支持分布式检索和负载均衡集群功能:实现海量数据的无限扩展;实现高并发用户的高性能访问。
系统功能要求
全方位检索手段:提供多种检索运算符。包括外部特征与正文内容的各种逻辑组合检索(与、或、非、异或)、位置检索(同段、同句、相差几个字以及前后次序有关等)、二次检索、渐进检索、模糊检索、历史检索、词根检索、大小写敏感检索、概念检索、对检索结果按与检索表达式的相关性程度排序等。
支持有多个文本字段和非文本字段参与的相关排序。
自动分库(Partitioning):充分利用多库并行检索技术,进一步提高了检索速度;使得数据加载速度保持稳定,进一步提高了数据更新速度。
自然语言检索:输入一个检索串或一句话,分词后进行高频词过滤、词语个数限定、词语之间的位置关系等处理,根据词语在文章中的位置和频度,以及词语的倒文档频度,计算相关度,按相关度高低排序后输出结果。
允许使用文中的任意字、词、短语、句和片段进行检索
★汉语分词准确率及字词混合索引机制:切分正确率达到99.1%以上;由于汉语分词不能达到100%准确,所以中文检索系统需要提供一种索引方式(字词混合索引),保证一定查准率的同时提供100%查全率。
支持对检索结果的各种排序:检索结果与检索词的相关度排序;基于字段的排序;后进先出的快速排序。同时对多库检索结果可以进行混排。LIFO(后进先出的快速排序)对实际运行系统的性能提高有很大作用。TOPn排序可通过结果记录数的裁减以减少检索历史的存储来提高检索速度。
数据同步和一致:可以保证索引和数据的同步,从而保证查询的结果是完全正确的。
支持完全更新和增量更新:完全更新是把关系型数据库中数据一次性全部导入到全文数据库中,不重复执行;增量更新是只对发生变化的数据进行数据同步,并以一定的时间周期循环执行。
支持多种类型的任务配置:支持从关系型数据库到全文数据库的多种任务配置
★为了专题检索的需要,必须提供布尔算符、关系算符、邻近算符、同在算符、频率算符、截词符(通配符),以及长检索表达式的支持(>1MB字节)。
★检索结果的分类统计等分析功能:统计检索结果在各库表中的分布情况;检索结果的分类统计,支持用正则表达式来筛选分类统计的目标字段值,并支持抽取部分子串组成新的类别。
G级数据全文检索响应在毫秒之内。
全文检索数据库的“零”空间膨胀率(-10%~20%)。
数据索引更新时间平均小于0.02s/记录(每条记录4kb)。
T级文本数据库,一个任意词的检索都在1秒钟之内。
检索智能词典能按需扩展
汉语切分正确率达到99.1%以上。
全文数据加载和索引单机速度为10GB/小时;元数据加载和索引单机速度为16GB/小时。
全文检索信息发布应用服务器系统
多语种的支持
通过对UTF8编码方式的支持,实现了对多语种内容的发布及检索。
多种内容格式的支持
对TRS全文检索数据库、文档文件、图文混排内容、流媒体文件等各种格式内容,提供了完备的发布支持。
灵活的内容表现
通过频道(Channel)及模板(Templet)技术,实现内容与表现的真正分离,无论是更换内容还是改变显示,都将变成一件非常轻松的事情。而频道与模板在多应用间的高度重用,更加降低了维护的成本。
TRS WAS产品提供了内容展现的缓存功能,在内容实时发布的基础上,可以兼顾系统性能的开销,作到动静结合,达到性能开销与展现效果的最优结合。
阅读次数
可以对内容的访问次数进行记录,进而在这些访问次数数据的基础上,对内容展现的顺序进行相应的调整,从而达到更完善的内容展现策略。
相关新闻
通过相关新闻功能,可以实现内容之间的关联展现,借助于这些关联展现,可以协助最终用户实现对内容的深度阅读。
系统技术要求
实现结构化和非结构化数据的统一检索,并全部字段都能建立索引,实现基于元数据(meta-data)和全文(full-text)的联合查询。
支持多种数据源数据的全文索引。可自动将关系型数据库(如Oracle、SQL Server、MySQL、Sybase)中的数据导入全文数据库,并自动保持同步更新,使用户在享有关系型数据库卓越的数据处理功能的同时,拥有实时全文检索功能。
项目
数量
具体参数
全文检索数据库
1
★要求与地方志目前使用的网站内容管理系统同品牌,或能够进行无缝衔接;
★要求原厂服务,且必须原厂家在南宁当地有常驻技术人员,;投标时必须提供加盖公章的原厂服务承诺书;
16个并发Licenses版本
全文检索数据库系统用以搭建站内全文检索应用,及实现统一入口跨全站搜索的网站全文检索应用,具体要求如下:
支持表和视图:关系数据库中的表和视图均可以作为同步操作的数据源。
自动化程度高:用户只需要按步跟随“任务创建向导”的提示就可以创建更新任务。
可设置的定时执行任务:对创建好的任务,用户可以设置其自动定时执行。如:用户可以设置一个增量更新任务每隔5分钟执行一次,即每隔5分钟将关系数据库表中数据的修改向全文数据库中进行一次索引的更新。
强大的检索功能
基于TRS在全文检索中的领先技术及其对主流关系数据库的良好支持,借助精确检索、全文检索、关联检索等技术,TRS WAS提供了强大的内容检索功能,帮助客户更快更准确地找到正确的内容。
内容维护
可以通Web方式对数据库中的内容进行增加、删除、修改等维护操作,提供了方便的内容维护途径。
缓存功能
★支持检索结果排序:支持多字段加权的相关性排序,并且可以设置文档的不同字段以不同的权重,提升关键字段的权重;Date/Number类型字段按大小排序,Char类型提供按内码、拼音、笔画等三种排e的类似网页
–文章消重
–相关文章推荐
系统性能要求
支持扩展检索:包括主题词典自动扩展检索, 同义词/反义词自动扩展检索, 全半角自动扩展检索, 简繁体自动扩展检索等。
支持语义检索:支持长句检索,系统可自动分词,按句子语义进行检索。并可选择关键词再次检索。
支持检索结果的分类统计与分析:统计检索结果在各库表中的分布情况;检索结果的分类统计,支持用正则表达式来筛选分类统计的目标字段值,并支持抽取部分子串组成新的类别。
千万记录的全文数据单机查询速度为0.x秒;十亿记录的元数据单机查询速度在3秒内。
全文检索网关
1
支持主流关系数据库:支持Oracle, DB2, SQL Server, Sybase、MySQL和人大金仓(KingbaseES)等关系数据库。
支持RDBMS中格式化文档的全文检索:能够自动对关系数据库大对象字段中存储的格式化文档,支持主流文档如Word、Powerpoint、Excel、PDF、WPS等文件进行全文检索。
支持Text、HTML、XML、RTF、MS OFFICE文档(Word/Execl/Powerpoint)和PDF文件自动建立索引。
支持GB18030和UTF8大字符集,便于对中文偏僻字和各国文字的支持。
词典管理:检索时能够让用户自行维护词典,包括同义词典、近义词典、反义词典、主题词典进行扩展检索。