坚信科学,分享技术

Monthly Archives: 07月 2010

sphinx安装配置手记(中文分词54chen支持版)

介绍 Sphinx[英] [sfɪŋks] [美] [sfɪŋks] 出自俄罗斯的开源全文搜索引擎软件Sphinx,单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级)。Coreseek是一款基于Sphinx的开源检索引擎,支持Tb级的全文数据索引,专门为中文用户提供免费开源的中文全文检索系统。 下载 wget http://www.coreseek.cn/uploads/csft/3.2/csft-3.2.12.tar.gz wget http://www.coreseek.cn/uploads/csft/3.2/mmseg-3.2.12.tar.gz 解压 tar -zxvf mmseg-3.2.12.tar.gz tar -zxvf csft-3.2.12.tar.gz 中文依赖下载和安装 wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.13.tar.gz tar zxvf libiconv-1.13.tar.gz cd libiconv-1.13/ ./configure --with-libiconv-prefix make make install 建立系统动态链接 在/etc/ld.so.conf中加一行/usr/local/lib,运行ldconfig。 ld.so.conf和ldconfig是维护系统动态链接库的。真不明白为什么iconv库安装时不把这一步也做了 安装mmseg分词 cd mmseg-3.2.12 yum -y in

Continue reading

Posted in 架构研究 | Tagged , | 4 Comments

54chen Twitter memo 2010-07-25

54chen Twitter memo 2010-07-18 http://goo.gl/fb/UQbwr # 由php的call_user_func传reference引发的思考 http://goo.gl/fb/2YN7U # 中国的互联网是人为割裂的。它既存在于精英的Think笔记本上,也存在于草根的MTK山寨机中。from 北风 # 长焦拍不认识的,定焦拍认识的 # http://house.baidu.com/ # 今天的糯米网10000张电影票,一开始上班就over了,北京看电影的人这么多。。。 # @162cm 哥看到凤姐了? in reply to 162cm # 在eclipse下老是用不了fcitx,原来是eclipse的contrl+space和fcitx冲突了,还以为是老早以前的jdk的中文bug。。。干掉eclipse的热键后,灰常好用 # 明天下班出发去山东济宁,看房、交钱。顺便离开京城逛一圈。 # 老大讲座,气场灰场足,主题是,网聚人的智慧,SNS发展及互联网人口。这里现场不完全间断直播。#renren# # 直播开始:人人网技术产品总监黄晶从SNS历史开始介绍#renren # facebook每月活跃用户5亿#renren # sns将成为互联网下一代入口#renren # 传说google内部有一秘密sns产品#renren # @Missiu …

Continue reading

Posted in 生活备份 | Tagged | Leave a comment

由php的call_user_func传reference引发的思考

问题的提出 网友bercmisir在院内留言,针对php手册中的call_user_func函数的文档一事,大致如下: http://php.net/manual/en/function.call-user-func.php 其中parameter下有这样一句话: Note: Note that the parameters for call_user_func() are not passed by reference. 简单地翻译一下,是说这个函数的参数是不能依靠引用来传递的。 还有一个例子: 输出是: 0 1 而网友bercmisir的问题在于: call_user_func('increment', $a);输出是0,而call_user_func('increment', &$a);却输出是1,明明说不能依靠引用来传递。 寻根溯源 然后再进一步寻根溯源,这个Note的信息其实是http://bugs.php.net/bug.php?id=24931这个bug中最后处理的结果。 并且在call_user_func('increment', &$a);虽然输出了1的结果,但一般情况下,会有一个警告信息:Deprecated: Call-time pass-by-reference has been deprecated。 这是什么原因呢? 先看一个例子: 结果为2,并且没有类似expected to be a …

Continue reading

Posted in php | Tagged , | 7 Comments

54chen Twitter memo 2010-07-18

54chen Twitter memo 2010-07-11 http://goo.gl/fb/mUvUc # 西班牙的年轻人活得很轻松,一般年轻人用自己三至四年的收入就可以买一套房子,没有什么供房压力,而且,房价持续下跌,现在已经跌至2005年的水平。所有省会城市的房价都有所下降,其中19个城市房价下跌幅度超过5%,跌幅最大的是首都马德里,每平方米房价为3375欧元。 # @Fenng 看上去是从wiki里拷出来的? in reply to Fenng # http://fmn.xnimg.cn/fmn044/20100704/2325/p_large_PxmC_5b3900016b3f2d0c.jpg 长颈鹿是寂寞专家,很有爱的图 # 工信部网站升级这事,技术难度和折腾系数,都堪比校内网到人人网的转变 # RT刘启荣 : 唐僧一觉醒来 发现悟空跪在自己床前痛哭流涕 问道:“空儿你怎么了?”悟空抹了一把泪 说:“师傅 咱下次睡觉说梦话 不念紧箍咒 好么?” # 开个会回来,看到QQ弹出的新闻,京沪杭房价突破2万每平,很奇怪,不是很久就突破了吗? # hadron海量搜索平台,两条主线,一条以sphinx为代表的c路线,一条以kata为代表的java路线 # QQ微博的logo被一兄弟形象比喻为受精卵,很形象,很生动 # 7月9日晚11时开始,搜狐微博服务暂停。12日凌晨1时许恢复,但其微博禁外链转发.此后,新浪、网易、搜狐、凤凰等各门户网站的微博,甚至包括人民网微博LOGO边上都醒目地标出了“测试版”或“Beta”字样。13 日网易微博也开始维护,目前无法访问,

Continue reading

Posted in 生活备份 | Tagged | 1 Comment

用sphinx轻松搞定方便管理的多节点过亿级数据搜索

概述 来自俄罗斯的开源全文搜索引擎软件Sphinx,单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级),实测千万级数据在0.0X秒和0.00X秒占大多数。 Sphinx创建索引的速度为:创建100万条记录的索引只需3~4分钟,实测30W线上复杂的blog数据需要5分钟,创建1000万条记录的索引可以在50分钟内完成,实测时间比这个更长得多,而只包含最新10万条记录的增量索引,重建一次只需几十秒,实测十万条在一分钟不到的时间。 Sphinx 是一个基于 GPL 2 协议颁发的免费开源的全文搜索引擎.它是专门为更好的整合脚本语言和SQL数据库而设计的.当前内置的数据源支持直接从连接到的 MySQL 或 PostgreSQL 获取数据, 或者你可以使用 XML 通道结构(XML pipe mechanism , 一种基于 Sphinx 可识别的特殊xml格式的索引通道) 。 sphinx安装 安装见 用Sphinx快速搭建站内搜索功能 配置多节点协同工作 第一点,原理 在sphinx.conf中可以配置index段落里的local和agent两个参数,local = blog_1表示使用本地索引名为blog_1的索引,agent = 10.1.1.1:3312:blog_2表示使用10.1.1.1这个机器的3312端口上服务的blog_2索引。这两个参数均可在此段落中重复出现。 利用这两个参数,可进行节点与节点间的配置。如图1所示,一个searchd服务在接到请求时两种使用索引的示意图。 图1 一个searchd服务在接到请求时两种使用索引的示意图

Continue reading

Posted in linux, 架构研究 | Tagged , | 7 Comments

54chen Twitter memo 2010-07-11

54chen Twitter memo 2010-07-04 http://goo.gl/fb/uMffE # 真想不起来去年是不是也是这么热。。。热爆了 # 当前外面的温度是40.1度 # 哥很有娱乐精神 RT@Fenng: 我要是记者就过去看 RT: @robbinfan: 唐骏:“我没有理由来回应一个和我不相干的人的质问。”昨日,唐骏通过短信回复《每日经济新闻》记者问询时说。同时称,“不过我这里有所有的证书,所以欢迎你随时过来看看……要是回应了就上他的套了。” # 7月3日 infoQ Qclub分享演示文稿下载 http://goo.gl/fb/sKBfl # 一条SQL引发的对order by的思考 http://goo.gl/fb/hjvsp # 工薪族玩单反流程图:http://fmn.xnimg.cn/fmn039/20100707/1050/p_large_29hR_1cf8000059da2d0b.jpg # 这样的制度如何长期坚持,而不担心项目进度? RT @xmpp: 可以分享一下你们的经验 RT @lichuang: @xmpp 是的,我们组的leader是google出来的,现在也是这样要求的.严格的codereview制度不仅可以保证项目质量,也能帮助组内成员迅速成长. # picasa的设置有中一项“是否自动将评论翻译成您的语言偏好”,真不错 # 呆在SNS公司看习惯了用户相册的飘过 …

Continue reading

Posted in 生活备份 | Tagged | Leave a comment

一条SQL引发的对order by的思考

==========尽职的安静的分隔线=========== 在实际工作中遇到下面一个问题: 有一个表,存有2000万数据。 主键为ID bigint(20) NOT NULL auto_increment 另有一字段time timestamp NOT NULL default CURRENT_TIMESTAMP 故事从这两个字段说起: sql1需要从这个表中检索出来时间为2010-05-26 11:55:00之前并且id号大于20000的前10条数据 sql2需要从这个表中检索出来时间为2010-05-26 11:55:00之后并且id号大于20000的前10条数据 两条sql写出来大概是这样子的: sql1:select * from table where time 20000 order by id limit 10; sql2:select * from table where time >'2010-05-26 11:55:00' …

Continue reading

Posted in 架构研究 | Tagged , | 19 Comments

7月3日 infoQ Qclub分享演示文稿下载

本次活动以RIA为主题,参会者多为关心RIA及后端数据服务的开发者和管理者。 我的主题是:"Ria的强力后盾:rest+海量存储 主要内容是给参会者分享了淘宝在nginx上作的关于rest的事情,和一些人人网nuclear的原理。 下面是此次会上我所使用的slide。(国外 有点慢 需忍) Ria的强力后盾:rest+海量存储 View more presentations from zhen chen.

Continue reading

Posted in 架构研究 | Tagged , , , | 4 Comments

54chen Twitter memo 2010-07-04

54chen Twitter memo 2010-06-27 http://goo.gl/fb/COMLl # @hongqn 这小子走穴去了 还是业务交流去了? in reply to hongqn # 谁TM这么抠门 不开空调的 诅咒他。。。 就因为没开空调 一个makefile让我写了一天 # http://www.infoq.com/cn/vendorcontent/show.action?vcr=1014 Qclub本周六在知春路京仪大酒店举行,我给沙龙参会者分享来自人人网nuclear的开发经验以及如何运用在RIA上 # @lixiaoshuan 哈哈,这次是去哪里了 in reply to lixiaoshuan # 有图有真相 http://url.cn/4aEKWk # 近期分布式相关文章汇总 http://goo.gl/fb/43yRz # 这个叫kanrss的网站十分讨厌,机器人发广告不说,又是垃圾邮件又是gtalk的,让人厌恶 # 热烈庆祝中国共产党成立89周年和香港回归13周年和我24周年! # …

Continue reading

Posted in 生活备份 | Tagged | Leave a comment

近期分布式相关文章汇总

号外:http://url.cn/0ThU83 infoQ的线下技术活动Qclub本周六在知春路京仪大酒店举行,我给沙龙参会者分享来自人人网nuclear的开发经验以及如何运用在RIA上. 1.54chen解读NoSQL代表Dynamo 这篇文章颇费了心思从构思到成文,把dynamo原理描述得还算是清楚。 2.4月24日QCon现场直播流水帖 这篇是在QCon大会上现场记录的一些不算是太完整的笔记 4.java线程控制器代码分享-根据cpu情况决定线程运行数量和情况 一个根据cpu来执行的线程控制器实现,评论中有高人改进方案。 5.jdbc socketRead0 locked 记一个Mysql的不明bug 在开发nuclear过程中遇到的一个jdbc的bug 6.LinkIn基于Dynamo设计的系统:伏地魔(voldemort)设计中文文档[我是陈科学院译]-完稿 54chen翻译的一个来自国外SNS网站的分布式存储系统文档

Continue reading

Posted in linux, 架构研究 | Tagged , , | Leave a comment