solr使用和原理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。




Solr安装


1、下载solr包 官方下载地址: http://www.apache.org/dyn/closer.cgi/lucene/ solr/ 解压apache-solr-1.4.1.zip文件:将solr包解压, 复制dist/apache-solr-1.4.1.war到指定目录, 名字修改为solr.war
Solr主要配置文件


solrconfig.xml:该文件是solr的主配置文件, 配置高亮,数据源,索引大小,索引合并等所 有的索引策略配置; schema.xml:该文件是配置查询字段信息, 定义了所有的数据类型和各索引字段的信息 (如类型,是否建立索引,是否存储原始信 息);
Solr主要配置文件
Solr配置

1、SOLR home设置


复制solr解压目录下的E:\apache-solr1.4.1\apache-solr-1.4.1\example\solr目录到 {$SOLR_HOME}。 测试:http://localhost:8080/solr/admin
Solr配置


词典介绍

当使用solr自带的词典时,如果要增加中文词 语,则要将该词典的格式转为UTF-8无BOM格 式。
词典介绍
IK分词词典 IK分词词典在目录为org\wltea\analyzer\dic (请大家参考IKAnalyzer中文分词器V3.2.8使用 手册.pdf)

solrJ与solr

Solrj 是访问 Solr 的 Java 客户端,它提供添 加、更新和查询Solr 索引的接口
solrJ与solr



Solrj:如果采用http直接访问的方法,我们必然会用到httpclient请 求Solr服务器。其中所有的搜索条件都必须通过拼接一个负责冗 长的url,例如:q=tags:t5 AND t7&fl=auction_id&start=0&rows=4&sort=auction_id desc&…&...&… ,通过GET的方式,请求服务器。 Solrj :面对对象的思想,所有搜索条件均以setter属性的方式设置 到其封装的对象当中。但是,实际上还是通过拼接url的方式,走 http请求的方式再请求Solr服务器。 Result: 本质完全相同,有了Solrj,开发会省很多事,将很多开 发中的体力活交给Solrj。但是直接拼接url的方式肯定比对象的方 式灵活很多。因为其中不复杂,有兴趣的同学,可以给Solrj加个 方法,直接在Solrj最终生成的url上加上任何字符串。
tomcat配置
1、{$TOMCAT}/conf/Catalina/localhost/下新增 solr.xml,其内容如下: <Context docBase="D:/Program Files/apache-tomcat6.0.24/webapps/solr.war" debug="0" crossContext="true" > <Environment name="solr/home" type="java.lang.String" value="D:/Program Files/apache-tomcat-6.0.24/solr" override="true" /> </Context>
solr的WEB应用服务
solr的WEB应用服务
对应的solr配置
solr的WEB应用服务
solr的WEB应用服务
对应的solr配置
solr的WEB应用服务
对应的பைடு நூலகம்olr配置
solr的延伸

tika---文本分析 nutch---爬虫 hadoop
参考资料


tomcat配置



docBase:solr.war包所在目录,一般放在 webapps下面,这样tomcat可以自动加载; solr/home:solr配置文件所在目录,一般放到 与webapps同级的目录 override:每次创建索引是否覆盖
tomcat配置

2、把solr.war包放到docBase下面,即 D:/Program Files/apache-tomcat6.0.24/webapps/solr.war








<fieldType name="text" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false" /> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" /> <filter class="solr.LowerCaseFilterFactory" /> <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" /> <filter class="solr.RemoveDuplicatesTokenFilterFactory" /> </analyzer> <analyzer type="query"> <tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true" /> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" /> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" /> <filter class="solr.LowerCaseFilterFactory" /> <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" /> <filter class="solr.RemoveDuplicatesTokenFilterFactory" /> </analyzer> </fieldType>
官网:http://lucene.apache.org/solr/ wiki:http://wiki.apache.org/solr/FrontPage apache solr 4 cookbook solr in action solr wiki
Solr使用和原理
谢晓静 2014年11月4日
Solr简介

说起Apache Lucene,可以说无人不知,无人不晓,但 是说道Apache Solr,恐怕知道的不多。看看Apache Solr的说明:
Solr是一个基于Lucene java库的企业级搜索服务器,包含XML/HTTP, JSON API, 高亮查询结果,缓存,复制还有一个WEB管理界面。Solr运 行在Servlet容器中。 所以Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。 Lucene本质上是搜索库,不是独立的应用程序,而Solr是。Lucene专注 于搜索底层的建设,而Solr专注于企业应用。Lucene不负责支撑搜索服 务所必须的管理,而Solr负责。 一句话概括Solr: Solr是Lucene面向企业搜索应用的扩展。

data-config.xml:数据库配置信息文件,配置 了数据源信息,全量索引,增量索引的数据库 查询……
词典介绍


Solr自带词典 Solr自带的词典有: protwords.txt:主题词,不会被拆分 stopwords.txt:停用词词典,在建立索引时被 忽略 synonyms.txt:同义词词典 spellings.txt:错误提醒
2、中文分词配置 我们目前使用的是IK分,其配置如下: 把IKAnalyzer.jar放到solr.war包的lib下 用下面的一段代码覆盖掉schema.xml中的text 备份 测试分词效果: http://localhost:8080/solr/admin/analysis.jsp
Solr配置
相关文档
最新文档