坚信科学,分享技术

sphinx安装配置手记(中文分词54chen支持版)

介绍 Sphinx[英] [sfɪŋks] [美] [sfɪŋks] 出自俄罗斯的开源全文搜索引擎软件Sphinx,单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级)。Coreseek是一款基于Sphinx的开源检索引擎,支持Tb级的全文数据索引,专门为中文用户提供免费开源的中文全文检索系统。 下载 wget http://www.coreseek.cn/uploads/csft/3.2/csft-3.2.12.tar.gz wget http://www.coreseek.cn/uploads/csft/3.2/mmseg-3.2.12.tar.gz 解压 tar -zxvf mmseg-3.2.12.tar.gz tar -zxvf csft-3.2.12.tar.gz 中文依赖下载和安装 wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.13.tar.gz tar zxvf libiconv-1.13.tar.gz cd libiconv-1.13/ ./configure --with-libiconv-prefix make make install 建立系统动态链接 在/etc/ld.so.conf中加一行/usr/local/lib,运行ldconfig。 ld.so.conf和ldconfig是维护系统动态链接库的。真不明白为什么iconv库安装时不把这一步也做了 安装mmseg分词 cd mmseg-3.2.12 yum -y in

Continue reading

Posted in 架构研究 | Tagged , | 5 Comments

54chen Twitter memo 2010-07-25

54chen Twitter memo 2010-07-18 http://goo.gl/fb/UQbwr # 由php的call_user_func传reference引发的思考 http://goo.gl/fb/2YN7U # 中国的互联网是人为割裂的。它既存在于精英的Think笔记本上,也存在于草根的MTK山寨机中。from 北风 # 长焦拍不认识的,定焦拍认识的 # http://house.baidu.com/ # 今天的糯米网10000张电影票,一开始上班就over了,北京看电影的人这么多。。。 # @162cm 哥看到凤姐了? in reply to 162cm # 在eclipse下老是用不了fcitx,原来是eclipse的contrl+space和fcitx冲突了,还以为是老早以前的jdk的中文bug。。。干掉eclipse的热键后,灰常好用 # 明天下班出发去山东济宁,看房、交钱。顺便离开京城逛一圈。 # 老大讲座,气场灰场足,主题是,网聚人的智慧,SNS发展及互联网人口。这里现场不完全间断直播。#renren# # 直播开始:人人网技术产品总监黄晶从SNS历史开始介绍#renren # facebook每月活跃用户5亿#renren # sns将成为互联网下一代入口#renren # 传说google内部有一秘密sns产品#renren # @Missiu 设置ip 直接https 我一直用 in reply to Missiu # facebook在全球各处战胜其他sns的一张表#renren # 在美国,facebook和在阿根廷的年龄分布#re

Continue reading

Posted in 生活备份 | Tagged | Leave a comment

由php的call_user_func传reference引发的思考

问题的提出 网友bercmisir在院内留言,针对php手册中的call_user_func函数的文档一事,大致如下: http://php.net/manual/en/function.call-user-func.php 其中parameter下有这样一句话: Note: Note that the parameters for call_user_func() are not passed by reference. 简单地翻译一下,是说这个函数的参数是不能依靠引用来传递的。 还有一个例子: 输出是: 0 1 而网友bercmisir的问题在于: call_user_func('increment', $a);输出是0,而call_user_func('increment', &$a);却输出是1,明明说不能依靠引用来传递。 寻根溯源 然后再进一步寻根溯源,这个Note的信息其实是http://bugs.php.net/bug.php?id=24931这个bug中最后处理的结果。 并且在call_user_func('increment', &$a);虽然输出了1的结果,但一般情况下,会有一个警告信息:Deprecated: Call-time pass-by-reference has been deprecated。 这是什么原因呢? 先看一个例子: 结果为2,并且没有类似expected to be a reference, value given的警告信息,相反地,如果将第8行代码修改为&$x,将得到一个废除警告。从而得以验证

Continue reading

Posted in php | Tagged , | 7 Comments

54chen Twitter memo 2010-07-18

54chen Twitter memo 2010-07-11 http://goo.gl/fb/mUvUc # 西班牙的年轻人活得很轻松,一般年轻人用自己三至四年的收入就可以买一套房子,没有什么供房压力,而且,房价持续下跌,现在已经跌至2005年的水平。所有省会城市的房价都有所下降,其中19个城市房价下跌幅度超过5%,跌幅最大的是首都马德里,每平方米房价为3375欧元。 # @Fenng 看上去是从wiki里拷出来的? in reply to Fenng # http://fmn.xnimg.cn/fmn044/20100704/2325/p_large_PxmC_5b3900016b3f2d0c.jpg 长颈鹿是寂寞专家,很有爱的图 # 工信部网站升级这事,技术难度和折腾系数,都堪比校内网到人人网的转变 # RT刘启荣 : 唐僧一觉醒来 发现悟空跪在自己床前痛哭流涕 问道:“空儿你怎么了?”悟空抹了一把泪 说:“师傅 咱下次睡觉说梦话 不念紧箍咒 好么?” # 开个会回来,看到QQ弹出的新闻,京沪杭房价突破2万每平,很奇怪,不是很久就突破了吗? # hadron海量搜索平台,两条主线,一条以sphinx为代表的c路线,一条以kata为代表的java路线 # QQ微博的logo被一兄弟形象比喻为受精卵,很形象,很生动 # 7月9日晚11时开始,搜狐微博服务暂停。12日凌晨1时许恢复,但其微博禁外链转发.此后,新浪、网易、搜狐、凤凰等各门户网站的微博,甚至包括人民网微博LOGO边上都醒目地标出了“测试版”或“Beta”字样。13 日网易微博也开始维护,目前无法访问,

Continue reading

Posted in 生活备份 | Tagged | 1 Comment

用sphinx轻松搞定方便管理的多节点过亿级数据搜索

概述 来自俄罗斯的开源全文搜索引擎软件Sphinx,单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级),实测千万级数据在0.0X秒和0.00X秒占大多数。 Sphinx创建索引的速度为:创建100万条记录的索引只需3~4分钟,实测30W线上复杂的blog数据需要5分钟,创建1000万条记录的索引可以在50分钟内完成,实测时间比这个更长得多,而只包含最新10万条记录的增量索引,重建一次只需几十秒,实测十万条在一分钟不到的时间。 Sphinx 是一个基于 GPL 2 协议颁发的免费开源的全文搜索引擎.它是专门为更好的整合脚本语言和SQL数据库而设计的.当前内置的数据源支持直接从连接到的 MySQL 或 PostgreSQL 获取数据, 或者你可以使用 XML 通道结构(XML pipe mechanism , 一种基于 Sphinx 可识别的特殊xml格式的索引通道) 。 sphinx安装 安装见 用Sphinx快速搭建站内搜索功能 配置多节点协同工作 第一点,原理 在sphinx.conf中可以配置index段落里的local和agent两个参数,local = blog_1表示使用本地索引名为blog_1的索引,agent = 10.1.1.1:3312:blog_2表示使用10.1.1.1这个机器的3312端口上服务的blog_2索引。这两个参数均可在此段落中重复出现。 利用这两个参数,可进行节点与节点间的配置。如图1所示,一个searchd服务在接到请求时两种使用索引的示意图。 图1 一个searchd服务在接到请求时两种使用索引的示意图

Continue reading

Posted in linux, 架构研究 | Tagged , | 7 Comments

54chen Twitter memo 2010-07-11

54chen Twitter memo 2010-07-04 http://goo.gl/fb/uMffE # 真想不起来去年是不是也是这么热。。。热爆了 # 当前外面的温度是40.1度 # 哥很有娱乐精神 RT@Fenng: 我要是记者就过去看 RT: @robbinfan: 唐骏:“我没有理由来回应一个和我不相干的人的质问。”昨日,唐骏通过短信回复《每日经济新闻》记者问询时说。同时称,“不过我这里有所有的证书,所以欢迎你随时过来看看……要是回应了就上他的套了。” # 7月3日 infoQ Qclub分享演示文稿下载 http://goo.gl/fb/sKBfl # 一条SQL引发的对order by的思考 http://goo.gl/fb/hjvsp # 工薪族玩单反流程图:http://fmn.xnimg.cn/fmn039/20100707/1050/p_large_29hR_1cf8000059da2d0b.jpg # 这样的制度如何长期坚持,而不担心项目进度? RT @xmpp: 可以分享一下你们的经验 RT @lichuang: @xmpp 是的,我们组的leader是google出来的,现在也是这样要求的.严格的codereview制度不仅可以保证项目质量,也能帮助组内成员迅速成长. # picasa的设置有中一项“是否自动将评论翻译成您的语言偏好”,真不错 # 呆在SNS公司看习惯了用户相册的飘过 RT @162cm: 惊了,业务部门的压力很大呀,不过这个肯定马上被批评 RT @glemir: Yahoo画报尺度够大啊http://bit.ly/cpD9U

Continue reading

Posted in 生活备份 | Tagged | Leave a comment

一条SQL引发的对order by的思考

==========尽职的安静的分隔线=========== 在实际工作中遇到下面一个问题: 有一个表,存有2000万数据。 主键为ID bigint(20) NOT NULL auto_increment 另有一字段time timestamp NOT NULL default CURRENT_TIMESTAMP 故事从这两个字段说起: sql1需要从这个表中检索出来时间为2010-05-26 11:55:00之前并且id号大于20000的前10条数据 sql2需要从这个表中检索出来时间为2010-05-26 11:55:00之后并且id号大于20000的前10条数据 两条sql写出来大概是这样子的: sql1:select * from table where time 20000 order by id limit 10; sql2:select * from table where time >'2010-05-26 11:55:00' and id>20000 order by id limit 10; 并且已经知道表中的数据,在上面所示时间之前的数据要远远多于所示时间之后的数据。如图1所示: 图1 数据在时间线上的示意图 实测发现,sql1执行时间0.03s,sql2执行时间33s。 为何大于小于运行的速度相比如何巨大?下面来解答。 第一,用explain来观察两条sql的区别 结论:没什么区别 第二,研究order by 将sql2的order by id修改为order by id desc(排序方向颠倒)后,发现速度马上提到了0.03s的水平。 同样修改

Continue reading

Posted in 架构研究 | Tagged , | 19 Comments

7月3日 infoQ Qclub分享演示文稿下载

本次活动以RIA为主题,参会者多为关心RIA及后端数据服务的开发者和管理者。 我的主题是:"Ria的强力后盾:rest+海量存储 主要内容是给参会者分享了淘宝在nginx上作的关于rest的事情,和一些人人网nuclear的原理。 下面是此次会上我所使用的slide。(国外 有点慢 需忍) Ria的强力后盾:rest+海量存储 View more presentations from zhen chen.

Continue reading

Posted in 架构研究 | Tagged , , , | 4 Comments

54chen Twitter memo 2010-07-04

54chen Twitter memo 2010-06-27 http://goo.gl/fb/COMLl # @hongqn 这小子走穴去了 还是业务交流去了? in reply to hongqn # 谁TM这么抠门 不开空调的 诅咒他。。。 就因为没开空调 一个makefile让我写了一天 # http://www.infoq.com/cn/vendorcontent/show.action?vcr=1014 Qclub本周六在知春路京仪大酒店举行,我给沙龙参会者分享来自人人网nuclear的开发经验以及如何运用在RIA上 # @lixiaoshuan 哈哈,这次是去哪里了 in reply to lixiaoshuan # 有图有真相 http://url.cn/4aEKWk # 近期分布式相关文章汇总 http://goo.gl/fb/43yRz # 这个叫kanrss的网站十分讨厌,机器人发广告不说,又是垃圾邮件又是gtalk的,让人厌恶 # 热烈庆祝中国共产党成立89周年和香港回归13周年和我24周年! # @wolfdeng taobao不是有tair项目吗,为啥来测这个? in reply to wolfdeng # 事实证明,在谷歌这样的公司写程序写久了,很容易成为同性恋 700 # @xmpp 还不知图老师@turingbook真身什么样子呢 in reply to xmpp # 长角的动物都不是食肉动物。一群人中最安静的人往往最有实力。“动如火掠,不动如山。” # @LeyonCN 舔 这个词用得何其精妙 in reply to LeyonC

Continue reading

Posted in 生活备份 | Tagged | Leave a comment

近期分布式相关文章汇总

号外:http://url.cn/0ThU83 infoQ的线下技术活动Qclub本周六在知春路京仪大酒店举行,我给沙龙参会者分享来自人人网nuclear的开发经验以及如何运用在RIA上. 1.54chen解读NoSQL代表Dynamo 这篇文章颇费了心思从构思到成文,把dynamo原理描述得还算是清楚。 2.4月24日QCon现场直播流水帖 这篇是在QCon大会上现场记录的一些不算是太完整的笔记 4.java线程控制器代码分享-根据cpu情况决定线程运行数量和情况 一个根据cpu来执行的线程控制器实现,评论中有高人改进方案。 5.jdbc socketRead0 locked 记一个Mysql的不明bug 在开发nuclear过程中遇到的一个jdbc的bug 6.LinkIn基于Dynamo设计的系统:伏地魔(voldemort)设计中文文档[我是陈科学院译]-完稿 54chen翻译的一个来自国外SNS网站的分布式存储系统文档

Continue reading

Posted in linux, 架构研究 | Tagged , , | Leave a comment
Page 19 of 45« First...1017181920213040...Last »
54chen on Twitter
Connect with 54chen on
Twitter sina微博V GMAIL Profile
54chen,真名:陈臻。
2010年加入小米科技。
关键词:
rose,riak,rabbitmq,zookeeper,thrift,nuclear,
senseidb,hadoop,hive,dynamo,
php extension,nginx module

天下风云出我辈,一入江湖岁月催.
鸿图霸业谈笑中,不胜人生一场醉.
提剑跨骑挥鬼域,白骨如山鸟惊飞.
尘世如潮人如水,只叹江湖几人回.

过去的经历:
人人网分布式研究人员(nuclear系统开发者)
雅虎、淘宝搜索开发工程师
金山词霸开发工程师
曾用代号有:cc0cc、零蛋。

SEARCH

Comments

  • tank: 请教哈表单验证是如何做的?不采用a...
  • nodexy: 开启系统最大句柄数是前提,但就算...
  • 54chen: 最好用hive的load file去hdfs,scribe的hdfs...
  • 剑舞: 利用scribe写入hdfs的时候,是否有遇到...
  • 54chen: 代码公开在 https://github.com/54chen/MyNe...
  • 未来之风: 您好,不知道您这个是否支持神州数...
  • 54chen: 是的...
  • heroqt: 哦,是不是可以加上@Path("/")指定作为...
  • heroqt: 那么处理http://github.com/topic的函数必...
  • afei: 陈老师威武!哈...