SOLR总结一、介绍A.Zookeeper介绍Zookeeper分布式服务框架是ApacheHadoop的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。本文将从使用者角度详细介绍Zookeeper的安装和配置文件中各个配置项的意义,以及分析Zookeeper的典型的应用场景(配置文件的管理、集群管理、同步锁、Leader选举、队列管理等),用Java实现它们并给出示例代码。B.SOLR介绍Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过HttpGet操作提出查找请求,并得到XML格式的返回结果。Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大DataSchema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。SOLR逻辑运行图如下图一图二基本可以用图二这幅图来概述,这是一个拥有4个Solr节点的集群,索引分布在两个Shard里面,每个Shard包含两个Solr节点,一个是Leader节点,一个是Replica节点,此外集群中有一个负责维护集群状态信息的Overseer节点,它是一个总控制器。集群的所有状态信息都放在Zookeeper集群中统一维护。从图中还可以看到,任何一个节点都可以接收索引更新的请求,然后再将这个请求转发到文档所应该属于的那个Shard的Leader节点,Leader节点更新结束完成,最后将版本号和文档转发给同属于一个Shard的replicas节点。二、Zookeeper的安装A.软件1.下载单机安装单机安装非常简单,只要获取到Zookeeper的压缩包并解压到某个目录如:/home/zookeeper-3.2.2下,Zookeeper的启动脚本在bin目录下,Linux下的启动脚本是zkServer.sh,在3.2.2这个版本Zookeeper没有提供windows下的启动脚本,所以要想在windows下启动Zookeeper要自己手工写一个,如清单1所示:清单1.Windows下Zookeeper启动脚本setlocalsetZOOCFGDIR=%~dp0%..\confsetZOO_LOG_DIR=%~dp0%..setZOO_LOG4J_PROP=INFO,CONSOLEsetCLASSPATH=%ZOOCFGDIR%setCLASSPATH=%~dp0..\*;%~dp0..\lib\*;%CLASSPATH%setCLASSPATH=%~dp0..\build\classes;%~dp0..\build\lib\*;%CLASSPATH%setZOOCFG=%ZOOCFGDIR%\zoo.cfgsetZOOMAIN=org.apache.zookeeper.server.ZooKeeperServerMainjava-Dzookeeper.log.dir=%ZOO_LOG_DIR%-Dzookeeper.root.logger=%ZOO_LOG4J_PROP%-cp%CLASSPATH%%ZOOMAIN%%ZOOCFG%%*endlocal在你执行启动脚本之前,还有几个基本的配置项需要配置一下,Zookeeper的配置文件在conf目录下,这个目录下有zoo_sample.cfg和log4j.properties,你需要做的就是将zoo_sample.cfg改名为zoo.cfg,因为Zookeeper在启动时会找这个文件作为默认配置文件。下面详细介绍一下,这个配置文件中各个配置项的意义。tickTime=2000dataDir=D:/devtools/zookeeper-3.2.2/buildclientPort=2181tickTime:这个时间是作为Zookeeper服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个tickTime时间就会发送一个心跳。dataDir:顾名思义就是Zookeeper保存数据的目录,默认情况下,Zookeeper将写数据的日志文件也保存在这个目录里。clientPort:这个端口就是客户端连接Zookeeper服务器的端口,Zookeeper会监听这个端口,接受客户端的访问请求。当这些配置项配置好后,你现在就可以启动Zookeeper了,启动后要检查Zookeeper是否已经在服务,可以通过netstat–ano命令查看是否有你配置的clientPort端口号在监听服务。C.集群安装Zookeeper不仅可以单机提供服务,同时也支持多机组成集群来提供服务。实际上Zookeeper还支持另外一种伪集群的方式,也就是可以在一台物理机上运行多个Zookeeper实例,下面将介绍集群模式的安装和配置。Zookeeper的集群模式的安装和配置也不是很复杂,所要做的就是增加几个配置项。集群模式除了上面的三个配置项还要增加下面几个配置项:initLimit=5syncLimit=2server.1=192.168.211.1:2888:3888server.2=192.168.211.2:2888:3888initLimit:这个配置项是用来配置Zookeeper接受客户端(这里所说的客户端不是用户连接Zookeeper服务器的客户端,而是Zookeeper服务器集群中连接到Leader的Follower服务器)初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过10个心跳的时间(也就是tickTime)长度后Zookeeper服务器还没有收到客户端的返回信息,那么表明这个客户端连接失败。总的时间长度就是5*2000=10秒syncLimit:这个配置项标识Leader与Follower之间发送消息,请求和应答时间长度,最长不能超过多少个tickTime的时间长度,总的时间长度就是2*2000=4秒server.A=B:C:D:其中A是一个数字,表示这个是第几号服务器;B是这个服务器的ip地址;C表示的是这个服务器与集群中的Leader服务器交换信息的端口;D表示的是万一集群中的Leader服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。如果是伪集群的配置方式,由于B都是一样,所以不同的Zookeeper实例通信端口号不能一样,所以要给它们分配不同的端口号。除了修改zoo.cfg配置文件,集群模式下还要配置一个文件myid,这个文件在dataDir目录下,这个文件里面就有一个数据就是A的值,Zookeeper启动时会读取这个文件,拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是那个server。数据模型Zookeeper会维护一个具有层次关系的数据结构,它非常类似于一个标准的文件系统,如图1所示:图1Zookeeper数据结构Zookeeper这种数据结构有如下这些特点:1.每个子目录项如NameService都被称作为znode,这个znode是被它所在的路径唯一标识,如Server1这个znode的标识为/NameService/Server12.znode可以有子节点目录,并且每个znode可以存储数据,注意EPHEMERAL类型的目录节点不能有子节点目录3.znode是有版本的,每个znode中存储的数据可以有多个版本,也就是一个访问路径中可以存储多份数据4.znode可以是临时节点,一旦创建这个znode的客户端与服务器失去联系,这个znode也将自动删除,Zookeeper的客户端和服务器通信采用长连接方式,每个客户端和服务器通过心跳来保持连接,这个连接状态称为session,如果znode是临时节点,这个session失效,znode也就删除了5.znode的目录名可以自动编号,如App1已经存在,再创建的话,将会自动命名为App26.znode可以被监控,包括这个目录节点中存储的数据的修改,子节点目录的变化等,一旦变化可以通知设置监控的客户端,这个是Zookeeper的核心特性,Zookeeper的很多功能都是基于这个特性实现的,后面在典型的应用场景中会有实例介绍如何使用Zookeeper作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储,但是Zookeeper并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管理,后面将会详细介绍Zookeeper能够解决的一些典型问题,这里先介绍一下,Zookeeper的操作接口和简单使用示例。常用接口列表客户端要连接Zookeeper服务器可以通过创建org.apache.zookeeper.ZooKeeper的一个实例对象,然后调用这个类提供的接口来和服务器交互。前面说了ZooKeeper主要是用来维护和监控一个目录节点树中存储的数据的状态,所有我们能够操作ZooKeeper的也和操作目录节点树大体一样,如创建一个目录节点,给某个目录节点设置数据,获取某个目录节点的所有子目录节点,给某个目录节点设置权限和监控这个目录节点的状态变化。这些接口如下表所示:表1org.apache.zookeeper.ZooKeeper方法列表方法名方法功能描述Stringcreate(Stringpath,byte[]data,ListACLacl,CreateModecreateMode)创建一个给定的目录节点path,并给它设置数据,CreateMode标识有四种形式的目录节点,分别是PERSISTENT:持久化目录节点,这个目录节点存储的数据不会丢失;PERSISTENT_SEQUENTIAL:顺序自动编号的目录节点,这种目录节点会根据当前已近存在的节点数自动加1,然后返回给客户端已经成功创建的目录节点名;EPHEMERAL:临时目录节点,一旦创建这个节点的客户端与服务器端口也就是session超时,这种节点会被自动删除;EPHEMERAL_SEQUENTIAL:临时自动编号节点Statexists(Stringpath,booleanwatch)判断某个path是否存在,并设置是否监控这个目录节点,这里的watcher是在创建ZooKeeper实例时指定的watcher,exists方法还有一个重载方法,可以指定特定的watcherStatexists(Stringpath,Watcherwatcher)重载方法,这里给某个目录节点设置特定的watcher,Watcher在ZooKeeper是一个核心功能,Watcher可以监控目录节点的数据变化以及子目录的变化,一旦这些状态发生变化,服务器就会通知所有设置在这个目录节点上的Watcher,从而每个客户端都很快知道它所关注的目录节点的状态发生变化,而做出相应的反应voiddelete(Stringpath,intversion)删除path对应的目录节点,version为-1可以匹配任何版本,也就删除了这个目录节点所有数据ListStringgetChildren(Stringpath,booleanwatch)获取指定path下的所有子目录节点,同样getChildren方法也有一