检索工具使用介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
使用介绍:
结构说明:
框架分为5个部分:
1.search package:TRS检索功能类包。
a)connection:TRS服务器数据库连接关闭管理器。
(1)可通过调用者传递参数来进行服务器的连接,也可通过默认读取配置文件
的方式连接服务器。
(2)可支持新集群配置模式。
b)domain:TRS检索服务对象域。
(1)Page:翻页对象实体。
(2)SearchRequest:检索请求对象实体。
(3)SearchResponse:检索结果对象实体。
(4)KeywordMark:标红摘要对象实体。
c)search:TRS检索服务管理包
(1)BuildResultPage:结果集信息构建器。
(2)SearchCore:核心检索类。
(3)SearchManager:检索接口。
(4)SearchManagerImpl:检索请求接入类。
2.ckmUtils:CKM服务功能类包。
a)connection:CKM服务器连接管理器。
(1)可通过调用者传递参数来进行服务器的连接,也可通过默认读取配置文件
的方式连接服务器。
b)ckmManager:CKM针对检索功能相关的常用工具。
(1)CkmManager:CKM涉及检索周边功能,纠错词,拼音提示,相关词/主题
词/关键词的抽取以及PLO自然语句分词处理功能。
(2)CkmPloSeg:PLO自然语句分词处理器。
3.condition:检索表达式整合与生成管理器。
a)ConditionGenerator:检索表达式管理器。
(1)包含对检索表达式的生成与集成。针对文本形式、时间日期形式和数据类
型进行标准检索表达式的生成功能。
(2)可支持时间日期表达式的优化处理。
(3)可支持模糊检索表达式生成优化处理。
(4)集成PLO自然语句分词功能。
4.tools:管理工具包:
a)Config:配置文件读取,加载配置项功能工具类。
b)ReDateUtil:时间信息处理工具类。
c)SearchUtils:检索相关工具类。
d)StringHtmlFilter:字符串Html字符过滤器。
e)SubInfoGetter:摘要标红的生成与优化处理器。
5.配置文件properties:
a)searchTools.properties:配置TRS检索基本配置项。
(1)配置TRS服务器连接的相关参数。
(2)database:TRS服务器检索使用的表名或视图名称。
(3)subInfoColumn:检索中所需的细览字段。
(4)subInfoLength:检索中细缆内容需要获取摘要长度信息。默认120.
(5)summaryColumn:检索中所需的概览字段。
(6)redflagColumn:检索中需要额外标红的概览字段。
(7)lEstimateUnit:快速估算检索中所使用的检索逻辑段记录数和至少返回的
条目数。
(8)lEstimateStops:快速估算检索中至少返回的条目数
(9)iMaxCount:分类统计检索稿件最大数阀值。
b)ckmConfig.properties:
(1)CKM服务器连接所需参数。
(2)ckmPloSegFlag:CKM PLO分词处理开关。默认false。
(3)ckmPloSegCfg:CKM PLO分词词性配置。默认为CKM所需配置。
(4)ckmPloSegLength:CKM PLO分词生成最大词数。默认为8个。
重要类说明(具体含义可见API):
1.SearchRequest:检索服务请求对象域。
检索请求必需的参数信息集合。其中参数可通过用户进行set赋值,如未进行赋值则通过读取配置文件的配置项进行赋值操作。
a)pageNo:当前页。默认1.
b)pageSize:单页最大条目。默认30.
c)iOptionMask:检索连接设置掩码。包含同义词、反义词、上位词、全/半角扩
展。默认为自动进行全/半角字符扩展检索(TRSConstant.TCM_KAXECX)。该掩码
用于快速估算搜索、普通检索、分类统计。
d)iSearchOption:检索选项辅助掩码。包含按字、同一排序、LIFO备选排序、缺
省正文字段的与、或、非、异或关系。默认为备选排序为后进先出
(TCM_LIFOSPARE)。该掩码用于快速估算搜索、普通检索、分类统计。
e)database:数据库表名/视图名。默认读取配置文件项。
f)whereClause:检索条件表达式。
g)sortClause:排序方式。
h)dateColumnList:需要特殊进行时间格式转换的时间字段。List
string[0]时间字段,string[1]时间格式。
i)subInfoColumn:摘要字段。检索后对该字段进行摘要截取,过滤html特殊字
符,检索词标红操作。默认读取配置文件项。
j)subInfoLength:摘要长度。默认120.
k)summaryColumn:概览字段。默认读取配置文件项。
系统会将三个字段信息进行处理,做为readOption结果集读取设置。
l)redflagColumn:需要标红的概览字段。
m)lEstimateUnit:快速估算检索的单个逻辑段记录数。默认读取配置文件项,如为空,则赋值100000。
n)lEstimateStops:快速估算检索中至少返回的记录数。默认读取配置文件项,如为空,则赋值200.
o)classResultColumnName:分类统计中待统计的列名。