Monthly Archives: 07月 2009
校内UGC技术讲座:postgreSQL Search slide共享
PostgreSQL Search 提前放出这次Tech Talk的slide,show给所有人。讲述的主题是postgreSQL的基础和利用bamboo做全文检索的方法。
类似google big table的tokyo cabinet研究记录
Tokyo Cabinet是日本人开发的一款数据库,它的功能比较简单,只能键值保存,没有检索功能,以hash table、b+tree、fixed-length array保存。功能类似google的Bigtable的东东。 这套Tokyo系列有三个产品,Cabinet是数据库,Tyrant提供管理Cabinet的接口,Dystopia提供全文索引。我把Cabinet理解为存储引擎,Tyrant类似mysql的管理器,Dystopia则是插件。 Tokyo Cabinet有如下特点: 键值保存数据库 数据文件小 高性能,插入1百万记录只需0.4秒(250万 rps),查询1百万记录只需0.3秒(300万 rps) 高并发,支持多线程,读写支持锁记录 使用简单,通过memcached客户端直接使用(需Tyrant) 支持64位架构,容量大 支持事务 Tokyo Tyrant提供管理Cabinet的接口,支持memcached协议,所以,可以通过memcached客户端连接Cabinet。 Tokyo Tyrant有如下特点: 提供使用Cabinet的接口 支持通过memcached和http协议连接 高并发,查询100万记录17.2秒(5.8万 rps) 支持热备份,复制功能,主持主主(可读写)和主从(分写和读)方式 Tokyo Dystopia是一个全文检索系统,你可以搜索包含某短语的一系列记录,它的特性如下: 搜索的高性能。 目标文标的高可靠性 N-gram模型的高召回率 短语匹配,前缀匹配,后缀匹配搜索.
Posted in 架构研究
Leave a comment
发布一个日志,看完二十年前的故事
RT 血雨腥风的历史,不明真相的围观群众,受人控制的组织者,矫情的演说。
[原创]mediawiki安装改进手记-使用mediawikit和postgresql搭建有强大搜索功能的wiki
[ 文章作者:陈臻 本文版本:v1.1 最后修改:2009.7.28 转载请注明原文链接:http://www.54chen.com/c/640 ] 在yahoo工程技术部,最有趣的事情当属打开工程技术部的wiki,慢慢阅读来自前辈们的大作。 yahoo以前使用的是twiki,后来更换了mediawiki,扩展了postgresql的搜索,使mediawiki的搜索功能得到了加强,这里,记录下我在校内搭建一整套的手记: 第一步.准备php和postgresql环境 大环境:因为是内部系统,所以图省事,WEB使用的是一个ubuntu的机器,安装这些丝毫不用费力了。就是先用apt安装php、nginx,源码包安装lighttpd取spawn-cgi一枚备用。源码包安装postgresql8.3.3。 #apt-get install php5 php5-pgsql php5-mbstring php5-cgi #apt-get install nginx #wget http://www.lighttpd.net/download/lighttpd-1.4.19.tar.gz #tar -xvf lighttpd-1.4.19.tar.gz #cd lighttpd-1.4.19/ #./configure #make #cp src/spawn-fcgi /usr/local/bin/spawn-fcgi (这里图快,没使用php-fpm) #adduser www #spawn-fcgi -a 127.0.0.1 -p 9000 -C …
[原创]使用postgreSQL+bamboo搭建比lucene方便N倍的全文搜索 第二部分
[文章作者:陈臻 本文版本:v1.0 最后修改:2009.7.17 转载请注明原文链接:http://www.54chen.com/_linux_/postgresql-bamboo-lucene-part2.html ] 书接上回。上回说到建立好一整套的中文分词和pgsql的环境,这回来说如何搜。 一、基础篇 本回从一条sql开始: select * from dbname where field_name @@ 'aa|bb' order by rank(field_name, 'aa|bb'); 从这个sql字面意思讲解:从 dbname这个表中查field_name匹配aa或者是bb的词,并且按照他们的匹配的RANK排序。 基本上明白上面这段话后,来学习四个概念:tsvector、tsquery、@@ 、gin。 1.tsvector: 在postgreSQL 8.3自带支持全文检索功能,在之前的版本中需要安装配置tsearch2才能使用。它提供两个数据类型(tsvector,tsquery),并且通过 动态检索自然语言文档的集合,定位到最匹配的查询结果,tsvector正是其中之一。 一个tsvector的值是唯一分词的分类列表,把一话一句词格式化为不同的词条,在进行分词处理的时候,tsvector会自动去掉分词中重复的词条,按照一定的顺序装入。例如 SELECT 'a fat cat sat on a mat and ate a …
一个把TortoiseSVN转成命令行的svn的bat脚本
TortoiseSVN是windows里常用的svn客户端了,有些IDE(比如说Zend Studio)要设置svn.exe的地址才能绑上svn来用,一般情况下,他附带的都是很古老的版本。 把下面的脚本保存为svn.bat,再在ide里设置svn客户端为这个bat文件,很好用 @ECHO OFF rem This is a svn for IDE rem from http://www.54chen.com start "TortoiseSVN" "C:\Program Files\TortoiseSVN\bin\TortoiseProc.exe" /notempfile /command:%1 /path:%2
一周废话汇总【54chen Twitter 2009-07-28】
大家围观miibeian网站出问题了 登录啥都是用户名密码不正确 # 一大早全是怪事 刚发的一推在网站上显示 3 weeks ago # 换了一个高级一点支持GPRS的手机,推一下,感受一下未来无线互联网 # 在马桶上发表言论,不出十年,无数无线互联网的工作者将为我今天的作为表示不屑 # 上海卫视,一谈话节目嘉宾:一等男人-有本事,没脾气;二等男人-有本事,有脾气;三等男人-没本事,没脾气;四等男人-没本事,大脾气。 # 一个互联网公司,分赚钱的团队和不赚钱的团队,赚钱的团队N人担一项目;不赚钱的团队一人担N个项目。结果是啥呢? # RT: @d_yang: @54chen 短期内,不赚钱的团队越来越少;长期,赚钱的团队也会越来越少。//精P # @Fenng 用wp的插件,每周备份要博客 in reply to Fenng # 一封来自webmaster@mail.miibeian.gov.cn的邮件被gmail放在了垃圾邮件里,真英雄! # @Fenng 跟风注册一个,遗憾的事,fanfou.com/54chen是不允许注册的,因为是数字开头 in reply to Fenng # RT: @keso: …
一周废话汇总【54chen Twitter 2009-07-28】
大家围观miibeian网站出问题了 登录啥都是用户名密码不正确 # 一大早全是怪事 刚发的一推在网站上显示 3 weeks ago # 换了一个高级一点支持GPRS的手机,推一下,感受一下未来无线互联网 # 在马桶上发表言论,不出十年,无数无线互联网的工作者将为我今天的作为表示不屑 # 上海卫视,一谈话节目嘉宾:一等男人-有本事,没脾气;二等男人-有本事,有脾气;三等男人-没本事,没脾气;四等男人-没本事,大脾气。 # 一个互联网公司,分赚钱的团队和不赚钱的团队,赚钱的团队N人担一项目;不赚钱的团队一人担N个项目。结果是啥呢? # RT: @d_yang: @54chen 短期内,不赚钱的团队越来越少;长期,赚钱的团队也会越来越少。//精P # @Fenng 用wp的插件,每周备份要博客 in reply to Fenng # 一封来自webmaster@mail.miibeian.gov.cn的邮件被gmail放在了垃圾邮件里,真英雄! # @Fenng 跟风注册一个,遗憾的事,fanfou.com/54chen是不允许注册的,因为是数字开头 in reply to Fenng # RT: @keso: …
Twitter Weekly Updates for 2009-07-05
伟大的主啊 不要再在邮件列表里发“帖”了 # RT: @huairen: RT @chouyu: 什么跟什么啊,1号是huairen去杭州一周年,也是我成立31周年。【同庆,庆祝老臭31大瘦,庆祝小坏幸福健康】哦也//呀 有同月同日的 # @kejunz 牛X人,我转了你的页面 http://www.54chen.com/3/ 欢迎大家围观,看美女啦 in reply to kejunz # 兄弟们的蛋糕 很有爱~~ # [原创]使用postgreSQL搭建比lucene方便N倍的全文搜索 第一部分 生日献文一篇 http://www.54chen.com/c/601 # 就因为看美女,昨天公司的twitter被re坏了 # @xiaoshuanli 冰川时代?是冰河世纪那个系列的? in reply to xiaoshuanli # @xiaoshuanli 我错了 我一直都看的翻译成冰河世纪的D版 in …
[原创]使用postgreSQL+bamboo搭建比lucene方便N倍的全文搜索 第一部分
[文章作者:陈臻 本文版本:v1.2 最后修改:2009.7.7 转载请注明原文链接:http://www.54chen.com/_linux_/postgresql-bamboo-lucene-fulltextindex.html ] 修正:一些“--”(连续的两个杠)被转成了全角的“-”(一个杠)了,运行不过的试试-变成-- 所有用到到包有: cmake-2.6.4.tar.gz (编nlpbamboo用) CRF++-0.53.tar.gz(同上) nlpbamboo-1.1.1.tar.bz2(分词用) postgreSQL-8.3.3.tar.gz(索引用) 安装pgsql tar -zxvf postgreSQL-8.3.3.tar.gz cd postgre-8.3.3 ./configure --prefix=/opt/pgsql make make install useradd postgre chown -R postgre.postgre /opt/pgsql su - postgre vi ~postgre/.bash_profile 添加 export PATH PGLIB=/opt/pgsql/lib PGDATA=/data/PGSearch PATH=$PATH:/opt/pgsql/bin …
SEARCH
Update
- go语言安装手记
- 54chen Twitter memo 2012-02-05
- Riak Core说明
- maven库nexus拖不到jar包小记
- 服务接入层小结
- 54chen Twitter memo 2012-01-15
- nginx防hashdos模块使用帮助
- 54chen Twitter memo 2012-01-08
- nginx防hashdos模块释出
- 54chen Twitter memo 2012-01-01
- 水煮鱼杯2011年度不得不总结的十件事
- 年终攻击hashDos-哈希表多碰撞实现拒绝服务-破解办法
- 54chen Twitter memo 2011-12-25
- riak 1.0.2安装手记
- 54chen Twitter memo 2011-12-18
