坚信科学,分享技术

2018全新版本,未来在blog.54chen.com更新博客!

>>>尝试更加利于阅读的2014版科学院,以后都在新版上写。

Tag Archives: senseidb

senseidb使用手记

下载 https://github.com/downloads/linkedin/sensei/sensei-1.0.0-release.tar.gz 这个版本是2012年1月份发布的,如果您看到此文时时间太久,请到他们的官方网站去寻找:http://senseidb.com 下载kafka kafka:由linkedin开源的高吞吐量的消息系统。 http://people.apache.org/~nehanarkhede/kafka-0.7.0-incubating/kafka-0.7.0-incubating-src.tar.gz 下载中文分词包IKAnalyzer http://code.google.com/p/ik-analyzer/downloads/list 编译sensei tar zxvf sensei-1.0.0-release.tar.gz cd sensei-trunk ./bin/build.sh 或者 mvn package 要是没有maven客户端,需要自行安装(ubuntu下直接apt-get install maven) 编译kafka tar zxvf kafka-0.7.0-incubating-src.tar.gz cd kafka-0.7.0-incubating-src/ ./sbt update pacakge 编译IKA 新建一个jar包,里面只有一个类,内容如下: public class IKAnalyzerFactory implements SenseiPluginFac

Continue reading

Posted in 架构研究 | Tagged | Leave a comment

分布式实时搜索方案介绍-senseidb

名词解释 zoie:由linkedin开源的建立在lucene之上提供实时索引的系统。它利用两 个内存索引一个硬盘索引来实现实时搜索。 bobo-browse:由linkedin开源的基于lucene的分类浏览搜索系统。 zookeeper:一个分布式的,开放源码的分布式应用程序协调服务,常用来做配置服务。 senseidb:开源,分布式,实时,半结构化的数据库(官方网站上如是说)。实际上是一个将zoie、bobo-browse、zookeeper整合起来,提供各种方便的使用办法的一个项目。项目目标是达到简单易用的分布式实时搜索系统。 kafka:由linkedin开源的高吞吐量的消息系统。 norbert:norbert是一个提供分布式集群服务的开发框架,具备集群管理功能,对开发简单的通信架构,易扩展能承受高吞吐量的框架。scala实现,java无缝使用。其原理是:netty+zookeeper+pb。 IKAnalyzer:中文分词较好用的一个。 lucene:这个不用说了。 使用senseidb 1.解决中文分词问题 senseidb支持在配置上进行自定义analyzer。 要做的事情就是,建立一个jar包,里面只要一个类即可,依赖IKA的包。代码如下: public class IKAnalyzerFactory implements SenseiPluginFactory<IKAnalyzer> {       @Override&nb

Continue reading

Posted in 架构研究 | Tagged , | 2 Comments