Archive for the 'linux' Category

zt:Craigslist 的数据库架构

星期一, 十一月 6th, 2006

Craigslist 的数据库架构

(插播一则新闻:竞拍这本《Don’t Make Me Think》,我出价 RMB 85,留言的不算–不会有恶意竞拍的吧? 要 Ping 过去才可以,失败一次,再来)

Craigslist 绝对是互联网的一个传奇公司。根据以前的一则报道:

每月超过 1000 万人使用该站服务,月浏览量超过 30 亿次,(Craigslist每月新增的帖子近 10 亿条??)网站的网页数量在以每年近百倍的速度增长。Craigslist 至今却只有 18 名员工(现在可能会多一些了)。

Tim O’reilly 采访了 Craigslist 的 Eric Scheide ,于是通过这篇 Database War Stories #5: craigslist 我们能了解一下 Craigslist 的数据库架构以及数据量信息。

数据库软件使用 MySQL 。为充分发挥 MySQL 的能力,数据库都使用 64 位 Linux 服务器, 14 块 本地磁盘(72*14=1T ?), 16G 内存。

不同的服务使用不同方式的数据库集群。

论坛

1 主(master) 1 从(slave)。Slave 大多用于备份. myIsam 表. 索引达到 17G。最大的表接近 4200 万行。

分类信息

1 主 12 从。 Slave 各有个的用途. 当前数据包括索引有 114 G , 最大表有 5600 万行(该表数据会定期归档)。 使用 myIsam。分类信息量有多大? “Craigslist每月新增的帖子近 10 亿条”,这句话似乎似乎有些夸张,Eric Scheide 说昨日就超过 330000 条数据,如果这样估计的话,每个月的新帖子信息大约在 1 亿多一些。

归档数据库

1 主 1 从. 放置所有超过 3 个月的帖子。与分类信息库结构相似但是更大, 数据有 238G, 最大表有 9600 万行。大量使用 Merge 表,便于管理。

搜索数据库

4 个 集群用了 16 台服务器。活动的帖子根据 地区/种类划分,并使用 myIsam 全文索引,每个只包含一个子集数据。该索引方案目前还能撑住,未来几年恐怕就不成了。

Authdb

1 主 1 从,很小。目前 Craigslist 在 Alexa 上的排名是 30,上面的数据只是反映采访当时(April 28, 2006)的情况,毕竟,Craigslist 数据量还在每年 200% 的速度增长。

Craigslist 采用的数据解决方案从软硬件上来看还是低成本的。优秀的 MySQL 数据库管理员对于 Web 2.0 项目是一个关键因素。

–EOF–

一些开源协议的简介

星期四, 八月 24th, 2006

一些开源协议的简介

首先需要申明的是,目前的开源协议都是英文的, 以下贴的都是我从其他地方转载的中文翻译, 给兄弟们一个参考作用。 想要了解准确的协议,建议看英文原版或者请教国外律师。

目前国外见到比较多的是开源协议就是GPL, LGPL, BSD, CPL 和 Apache Licence  ; 个人理解,除了GPL之外,其他license 都还对商业应用比较友好, 我们自己写的软件的时候不需要开源,只是在文档里面说明我们用了人家的代码就可以了。

欢迎大家补充 。

GPL(Gnu  General  Public  License)  vesion  2.0    1991

最常见的开源协议,使用它作为授权协议的有大名鼎鼎的  Linux  。GPL最显著的两个特点就是网上称为的“病毒性传播”和“不允许闭源的商业发布”。
所谓的“病毒性传播”,指的是,GPL规定,所有从GPL协议授权的源码衍生出来的(即上面提到的DerivativeModule),或者要跟GPL授 权的源码混着用的Project,都要遵循GPL协议,就像病毒一样,粘上了关系,就“中毒”了。GPL这样规定的目的是,保证在GPL协议保护下的产 品,不会再受到其他协议或者授权的约束。即让跟GPL有关系的源码都能免费获取。举个例子,如果你的改进的Linux中使用了GPL授权下的开源模块(也 必须使用,你不可能自己重新去做个内核吧,如果做出来了,你也没必要叫Linux了。),那么你整个Linux产品也必须遵循  GPL协议去开源,不能 以其他方式去开源发布,更不允许闭源发布。这样一来,就不会出现这样一个Linux--这个功能是GPL协议授权的,可以免费获取源码,而另外一个功能是 其他协议下的,拿不到源码。这点规定对使用或者研究该产品的人来说,是一个极大的便利。
而“不允许闭源商业发布”指的是,在  GPL授权下,你的软件产品可以商业发布,拿去卖钱,但是在这同时,你也必须将该产品的源码以GPL协议方式开源 发布出去,供他人免费获取。也许有人会迷惑,拿去卖,又同时开源,那谁来买阿?这个产品怎么赚钱呢??这就涉及到开源产品的商业模式的问题了,想了解相关 一些信息的话,可以看看以上我给出链接的一些文章。至于后面,可能会写一篇关于开源项目的商业模式的随笔。
GPL协议下的商业发布的一个关键点就像  Java  视线论坛的  Robbin所说的,GPL是针对软件源代码的版权,而不是针对软件编译后二进 制版本的版权。你有权免费获得软件的源代码,但是你没有权力免费获得软件的二进制发行版本。GPL对软件发行版本唯一的限制就是:你的发行版本必须把完整 的源代码一同提供。

     LGPL  (Lesser GPL)

LGPL  是GPL的一个为主要为类库使用设计的开源协议。和GPL要求任何使用/修改/衍生之GPL类库的的软件必须采用GPL协议不同。 LGPL允许商业软件通过类库引用(link)方式使用LGPL类库而不需要开源商业软件的代码。这使得采用LGPL协议的开源代码可以被商业软件作为类 库引用并发布和销售。

但是如果修改LGPL协议的代码或者衍生,则所有修改的代码,涉及修改部分的额外代码和衍生的代码都必须采用LGPL协议。因此LGPL协议的开源 代码很适合作为第三方类库被商业软件引用,但不适合希望以LGPL协议代码为基础,通过修改和衍生的方式做二次开发的商业软件采用。

BSD(Berkeley  Software  Distribution)

跟GPL有很大的不同,BSD协议是给予人很大的自由的一种开源协议。其最大的特点是,Recipients  几乎可以对源码“为所欲为”,可以自由 地修改,自由地使用,修改后再以其他方式再发布(商业或者开源)。但,你做这些事情的时候,还是得遵循以下规则:
1.  如果再发布的产品中包含原“源代码”,则在原“源代码”中必须带有原来代码中的BSD协议。
2.  如果再发布的只是二进制类库/软件(Object  Code  /   Product),则需要在类库/软件的文档和版权声明中包含原来代码中的BSD协议。
3.  不可以用开源代码的作者/机构名字和原来产品的名字做市场推广。
其实这几个规则约定的目的也只是达到一个目的:是他人的东西,别人以BSD开源了,你就不能不做任何声明而占为己有,更不能用他人的名义来做商业推广。你只对你自己的东西拥有绝对控制权。
举个例子,你用开源代码(A)修改或做其他增添之后,产生了产品B,这时候,你对B的控制由你自己决定,你可以用任何协议再开源,也可以闭源商业发布。 但,因为如果B中包含了A或A的一部分(一点都不包含就不叫修改了),那你在B产品的版权声明中,必须有提到你有使用到A  ,并且附带上  A  的开 源协议。而且不能做商业推广的时候  将  B  冠以  原开源作者的名义以促进商业推广。
BSD代码鼓励代码共享,但需要尊重代码作者的著作权。BSD由于允许使用者修改和重新发布代码,也允许使用或在BSD代码上开发商业软件发布和销售, 因此是对商业集成很友好的协议。而很多的公司企业在选用开源产品的时候都首选BSD协议,因为可以完全控制这些第三方的代码,在必要的时候可以修改或者二 次开发。

Apache  Licence    vesion  2.0  

Apache  Licence  是著名的非盈利开源组织  Apache  采用的协议。该协议和BSD类似,同样鼓励代码共享和尊重原作者的著作 权,同样允许代码修改,再发布(作为开源或商业软件)。需要满足的条件也和BSD类似:(配备英文原文,方便更准确理解)
1.  需要给  Recipients  一份Apache  Licence
(You  must  give   any  other  recipients  of  the   Work  or  DerivativeWorks  a   copy  of  this  License)
2.  如果你修改了代码,需要在被修改的文件中进行说明。
(You  must  cause  any  modified   files  to  carry  prominent   noticesstating  that  You  changed   the  files)
3.  在Derivative  Module中(修改和包含源代码而衍生的代码)需要带有原来代码中的协议,商标,专利声明和其他原来作者规定需要包含的说明。
(You  must  retain,  in  the  Source  form  of  any  DerivativeWorks  that  You  distribute,    all  copyright,  patent,  trademark,  and  attribution  noticesfrom  the  Source  form  of  the  Work,    excluding  those  notices  that   do  not  pertain  to  anypart   of  the  Derivative  Works)
4.  如果再发布的产品中包含一个Notice文件,则在Notice文件中需要带有Apache  Licence。你可以在Notice中增加自己的许可,但不可以表现为对ApacheLicence构成更改。
Apache  Licence也是对商业应用友好的许可。使用者也可以在需要的时候修改代码来满足需要并作为开源或商业产品发布/销售。

CPL(Common  Public  Liecense)  vesion  1.0

CPL    是  IBM  提出的并通过了OSI(Open  Source   Initiative)批准的开源协议。主要用于一些IBM  或跟  IBM    相关的开源软件  /项目中。如  很著名的Java开发环境   Eclipse  、RIA开发平台Open  Laszlo等。
CPL也是一项对商业应用友好的协议。它允许  Recipients   对源码进行任意的使用、复制、分发、传播、展示、修改以及改后做闭源的二次商业发布,这点跟BSD  很类似,也属于自 由度比较高的开源协议。但是,需要遵循:
1.当一个Contributors    将源码的整体或部分再次开源发布的时候,必须继续遵循CPL  开源协议来发布,而不能改用其他协议发布。除非你得到了原“源码” Owner    的  授权。
2.CPL协议下,你可以将源码不做任何修改来商业发布。但如果你要将修改后的源码其开源,而且当你再发布的是 ObjectCode  的时候,你必须声明  它的Source   Code  是可以获取的,而且要告知获取方法
3.当你需要将  CPL  下的源码作为一部分跟其他私有的源码混和着 成为一个  Project发布的时候,你可以将整个Project/Product  以私人的协议发布,但 要声明哪一部分代码是CPL下的,而且声明那部分代码继续遵循CPL。

4.独立的模块(Separate  Module),不需要开源

linux 下的C/C++内存泄露、越界检查工具-valgrind

星期五, 七月 7th, 2006

     valgrind可以检查无效的内存分配,访问未初始化的内存,内存泄露等,最重要的是它基于GPL的开源协议的。对比以前用过的Rational Purify,我认为功能丝毫不差。下载地址是http://valgrind.org/

在ACE中使用epoll

星期四, 六月 8th, 2006

        很显然,文章的标题决定了我们是在linux下使用ACE。我们知道ACE在linux下缺省是用select来实现Reactor的,epoll相对于select的好处这里就不再啰嗦了,我们直接讲操作步骤:
    第一:重新编译ACE库
     ACE库中通过ACE_Dev_Poll_Reactor类来支持epoll,但是ACE库缺省的安装是没有编译这个类的,我们要做的就是将ACE_Dev_Poll_Reactor编译连接到ACE库中(faint,又要重新编译ACE,在我那台破服务器上编译一次需要一个多小时).我的操作系统是Redhat linux AS4.0,ACE的版本是5.4.10。根据ACE压缩包中的ACE-INSTALL.html,我是用”Building ACE with GNU Autoconf“这种方式来安装的,安装步骤如下(很简单,就不翻译了):
       1 cd to the top-level ACE_wrappers directory.

       2.Create a subdirectory to hold your build’s configuration and built ACE version,     and   then change to the new directory:

       mkdir build

       cd build

     

       3.Note that you do not run the create_ace_build.pl utility mentioned in the Cloning the Source Tree section. The configure script takes care of creating all files and links that are needed.

Configure ACE for your platform by issuing the following command: c

       ../configure [options]

     
      4.Build ACE by typing make.

      5. Install ACE by typing make install.
      好,现在终于可以讲如何将ACE_Dev_Poll_Reactor编译到ACE库中去了。在上述的第一步和第二步之间修改ACE_wrappers/ace/config-linux.h,增加一行:#define ACE_HAS_EVENT_POLL,然后执行第2、3步,第3步../configure执行完之后,build目录下会生成一些文件和目录,打开ACE_wrappers/build/ace/config.h,增加一行:#define ACE_HAS_EVENT_POLL。然后执行第4步make和第5步make install.OK,在漫长的编译以后,支持epoll的ACE库总算完成了。

     第二:修改应用程序
        应用程序修改很简单,两行代码搞掂,在应用程序初始化时(必须是在第一次使用ACE_Reactor::instance()之间)加入:
       
        m_pDevPollReactor=new ACE_Dev_Poll_Reactor;
       ACE_Reactor::instance(new ACE_Reactor(m_pDevPollReactor));
      
       那么在后续的对ACE_Reactor::instance()的调用就是使用ACE_Dev_Poll_Reactor的实现了。
  
   第三:重新编译应用程序
  
        在应用程序的makefile中加入 -DACE_HAS_EVENT_POLL,重新make应用程序。OK,打完收工。
       

ACE中的Thread Mutex在linux下的使用

星期三, 五月 31st, 2006

ACE库中专门对线程同步提供了两个类,一个是ACE_Thread_Mutex另一个是ACE_REcursive_Thread_Mutex。 在我看 来,在linux下进行线程同步,不要使用ACE_Thread_Mutex,用ACE_REcursive_Thread_Mutex就可以了。原因很 简单,因为ACE_Thread_Mutex不支持线程重入。一旦重入(同一个线程调用两次ACE_Thread_Mutex::acquire)这个线 程就死锁了。

要搞清楚这个问题,我们需要搞清楚操作系统是如何实现线程锁的。Windows下很简单,用CRITICAL_SECTION实现。 CRITICAL_SECTION支持重入,所以Windows下的线程同步用ACE_Thread_Mutex或者 ACE_REcursive_Thread_Mutex都是一样的。而linux下不同,是用posix thread 库实现的。pthread 的mutex分为三种类型,fast,recursive,error checking,当线程调用pthread_mutex_lock时,如果是线程重入这把锁,则:

“fast” 挂起当前线程.
“resursive” 成功并立刻返回当前被锁定的次数
“error checking” 立刻返回EDEADLK

显然ACE_Thread_Mutex是用fast方式实现的。

我有多个平台 (Window,AIX ,Solaris,hp-ux,Linux)的C++多线程程序的开发经验,但是一直都没有想到一个不可重入的线程锁有什么用,用这样的锁需要太小心了, 一不小心就会死锁。所以一般情况下都需要手工写代码将它封装成一个可以重入的锁。ACE中也提供了这样一个封装,用mutex和cond实现的,代码如 下:

ACE_OS::recursive_mutex_lock (ACE_recursive_thread_mutex_t *m)
{
#if defined (ACE_HAS_THREADS)
#if defined (ACE_HAS_RECURSIVE_MUTEXES)
return ACE_OS::thread_mutex_lock (m);
#else
ACE_thread_t t_id = ACE_OS::thr_self ();
int result = 0;

// Acquire the guard.
if (ACE_OS::thread_mutex_lock (&m->nesting_mutex_) == -1)
result = -1;
else
{
// If there’s no contention, just grab the lock immediately
// (since this is the common case we’ll optimize for it).
if (m->nesting_level_ == 0)
m->owner_id_ = t_id;
// If we already own the lock, then increment the nesting level
// and return.
else if (ACE_OS::thr_equal (t_id, m->owner_id_) == 0)
{
// Wait until the nesting level has dropped to zero, at
// which point we can acquire the lock.
while (m->nesting_level_ > 0)
ACE_OS::cond_wait (&m->lock_available_,
&m->nesting_mutex_);

// At this point the nesting_mutex_ is held…
m->owner_id_ = t_id;
}

// At this point, we can safely increment the nesting_level_ no
// matter how we got here!
m->nesting_level_++;
}

{
// Save/restore errno.
ACE_Errno_Guard error (errno);
ACE_OS::thread_mutex_unlock (&m->nesting_mutex_);
}
return result;
#endif /* ACE_HAS_RECURSIVE_MUTEXES */
#else
ACE_UNUSED_ARG (m);
ACE_NOTSUP_RETURN (-1);
#endif /* ACE_HAS_THREADS */
}

这个封装是用在那些posix thread库不支持recursive mutex的平台上的。如果posix thread支持recursive ,那么直接用pthread_mutex_lock就可以了。而在ACE环境下,直接使用ACE_REcursive_Thread_Mutex,忘记 ACE_Thread_Mutex的存在。