zt:Craigslist 的数据库架构

十一月 6th, 2006

Craigslist 的数据库架构

(插播一则新闻:竞拍这本《Don’t Make Me Think》,我出价 RMB 85,留言的不算–不会有恶意竞拍的吧? 要 Ping 过去才可以,失败一次,再来)

Craigslist 绝对是互联网的一个传奇公司。根据以前的一则报道:

每月超过 1000 万人使用该站服务,月浏览量超过 30 亿次,(Craigslist每月新增的帖子近 10 亿条??)网站的网页数量在以每年近百倍的速度增长。Craigslist 至今却只有 18 名员工(现在可能会多一些了)。

Tim O’reilly 采访了 Craigslist 的 Eric Scheide ,于是通过这篇 Database War Stories #5: craigslist 我们能了解一下 Craigslist 的数据库架构以及数据量信息。

数据库软件使用 MySQL 。为充分发挥 MySQL 的能力,数据库都使用 64 位 Linux 服务器, 14 块 本地磁盘(72*14=1T ?), 16G 内存。

不同的服务使用不同方式的数据库集群。

论坛

1 主(master) 1 从(slave)。Slave 大多用于备份. myIsam 表. 索引达到 17G。最大的表接近 4200 万行。

分类信息

1 主 12 从。 Slave 各有个的用途. 当前数据包括索引有 114 G , 最大表有 5600 万行(该表数据会定期归档)。 使用 myIsam。分类信息量有多大? “Craigslist每月新增的帖子近 10 亿条”,这句话似乎似乎有些夸张,Eric Scheide 说昨日就超过 330000 条数据,如果这样估计的话,每个月的新帖子信息大约在 1 亿多一些。

归档数据库

1 主 1 从. 放置所有超过 3 个月的帖子。与分类信息库结构相似但是更大, 数据有 238G, 最大表有 9600 万行。大量使用 Merge 表,便于管理。

搜索数据库

4 个 集群用了 16 台服务器。活动的帖子根据 地区/种类划分,并使用 myIsam 全文索引,每个只包含一个子集数据。该索引方案目前还能撑住,未来几年恐怕就不成了。

Authdb

1 主 1 从,很小。目前 Craigslist 在 Alexa 上的排名是 30,上面的数据只是反映采访当时(April 28, 2006)的情况,毕竟,Craigslist 数据量还在每年 200% 的速度增长。

Craigslist 采用的数据解决方案从软硬件上来看还是低成本的。优秀的 MySQL 数据库管理员对于 Web 2.0 项目是一个关键因素。

–EOF–

zt: 自动加载IE Addin toolbar

九月 15th, 2006
自动加载IE Addin toolbar

一些开源协议的简介

八月 24th, 2006

一些开源协议的简介

首先需要申明的是,目前的开源协议都是英文的, 以下贴的都是我从其他地方转载的中文翻译, 给兄弟们一个参考作用。 想要了解准确的协议,建议看英文原版或者请教国外律师。

目前国外见到比较多的是开源协议就是GPL, LGPL, BSD, CPL 和 Apache Licence  ; 个人理解,除了GPL之外,其他license 都还对商业应用比较友好, 我们自己写的软件的时候不需要开源,只是在文档里面说明我们用了人家的代码就可以了。

欢迎大家补充 。

GPL(Gnu  General  Public  License)  vesion  2.0    1991

最常见的开源协议,使用它作为授权协议的有大名鼎鼎的  Linux  。GPL最显著的两个特点就是网上称为的“病毒性传播”和“不允许闭源的商业发布”。
所谓的“病毒性传播”,指的是,GPL规定,所有从GPL协议授权的源码衍生出来的(即上面提到的DerivativeModule),或者要跟GPL授 权的源码混着用的Project,都要遵循GPL协议,就像病毒一样,粘上了关系,就“中毒”了。GPL这样规定的目的是,保证在GPL协议保护下的产 品,不会再受到其他协议或者授权的约束。即让跟GPL有关系的源码都能免费获取。举个例子,如果你的改进的Linux中使用了GPL授权下的开源模块(也 必须使用,你不可能自己重新去做个内核吧,如果做出来了,你也没必要叫Linux了。),那么你整个Linux产品也必须遵循  GPL协议去开源,不能 以其他方式去开源发布,更不允许闭源发布。这样一来,就不会出现这样一个Linux--这个功能是GPL协议授权的,可以免费获取源码,而另外一个功能是 其他协议下的,拿不到源码。这点规定对使用或者研究该产品的人来说,是一个极大的便利。
而“不允许闭源商业发布”指的是,在  GPL授权下,你的软件产品可以商业发布,拿去卖钱,但是在这同时,你也必须将该产品的源码以GPL协议方式开源 发布出去,供他人免费获取。也许有人会迷惑,拿去卖,又同时开源,那谁来买阿?这个产品怎么赚钱呢??这就涉及到开源产品的商业模式的问题了,想了解相关 一些信息的话,可以看看以上我给出链接的一些文章。至于后面,可能会写一篇关于开源项目的商业模式的随笔。
GPL协议下的商业发布的一个关键点就像  Java  视线论坛的  Robbin所说的,GPL是针对软件源代码的版权,而不是针对软件编译后二进 制版本的版权。你有权免费获得软件的源代码,但是你没有权力免费获得软件的二进制发行版本。GPL对软件发行版本唯一的限制就是:你的发行版本必须把完整 的源代码一同提供。

     LGPL  (Lesser GPL)

LGPL  是GPL的一个为主要为类库使用设计的开源协议。和GPL要求任何使用/修改/衍生之GPL类库的的软件必须采用GPL协议不同。 LGPL允许商业软件通过类库引用(link)方式使用LGPL类库而不需要开源商业软件的代码。这使得采用LGPL协议的开源代码可以被商业软件作为类 库引用并发布和销售。

但是如果修改LGPL协议的代码或者衍生,则所有修改的代码,涉及修改部分的额外代码和衍生的代码都必须采用LGPL协议。因此LGPL协议的开源 代码很适合作为第三方类库被商业软件引用,但不适合希望以LGPL协议代码为基础,通过修改和衍生的方式做二次开发的商业软件采用。

BSD(Berkeley  Software  Distribution)

跟GPL有很大的不同,BSD协议是给予人很大的自由的一种开源协议。其最大的特点是,Recipients  几乎可以对源码“为所欲为”,可以自由 地修改,自由地使用,修改后再以其他方式再发布(商业或者开源)。但,你做这些事情的时候,还是得遵循以下规则:
1.  如果再发布的产品中包含原“源代码”,则在原“源代码”中必须带有原来代码中的BSD协议。
2.  如果再发布的只是二进制类库/软件(Object  Code  /   Product),则需要在类库/软件的文档和版权声明中包含原来代码中的BSD协议。
3.  不可以用开源代码的作者/机构名字和原来产品的名字做市场推广。
其实这几个规则约定的目的也只是达到一个目的:是他人的东西,别人以BSD开源了,你就不能不做任何声明而占为己有,更不能用他人的名义来做商业推广。你只对你自己的东西拥有绝对控制权。
举个例子,你用开源代码(A)修改或做其他增添之后,产生了产品B,这时候,你对B的控制由你自己决定,你可以用任何协议再开源,也可以闭源商业发布。 但,因为如果B中包含了A或A的一部分(一点都不包含就不叫修改了),那你在B产品的版权声明中,必须有提到你有使用到A  ,并且附带上  A  的开 源协议。而且不能做商业推广的时候  将  B  冠以  原开源作者的名义以促进商业推广。
BSD代码鼓励代码共享,但需要尊重代码作者的著作权。BSD由于允许使用者修改和重新发布代码,也允许使用或在BSD代码上开发商业软件发布和销售, 因此是对商业集成很友好的协议。而很多的公司企业在选用开源产品的时候都首选BSD协议,因为可以完全控制这些第三方的代码,在必要的时候可以修改或者二 次开发。

Apache  Licence    vesion  2.0  

Apache  Licence  是著名的非盈利开源组织  Apache  采用的协议。该协议和BSD类似,同样鼓励代码共享和尊重原作者的著作 权,同样允许代码修改,再发布(作为开源或商业软件)。需要满足的条件也和BSD类似:(配备英文原文,方便更准确理解)
1.  需要给  Recipients  一份Apache  Licence
(You  must  give   any  other  recipients  of  the   Work  or  DerivativeWorks  a   copy  of  this  License)
2.  如果你修改了代码,需要在被修改的文件中进行说明。
(You  must  cause  any  modified   files  to  carry  prominent   noticesstating  that  You  changed   the  files)
3.  在Derivative  Module中(修改和包含源代码而衍生的代码)需要带有原来代码中的协议,商标,专利声明和其他原来作者规定需要包含的说明。
(You  must  retain,  in  the  Source  form  of  any  DerivativeWorks  that  You  distribute,    all  copyright,  patent,  trademark,  and  attribution  noticesfrom  the  Source  form  of  the  Work,    excluding  those  notices  that   do  not  pertain  to  anypart   of  the  Derivative  Works)
4.  如果再发布的产品中包含一个Notice文件,则在Notice文件中需要带有Apache  Licence。你可以在Notice中增加自己的许可,但不可以表现为对ApacheLicence构成更改。
Apache  Licence也是对商业应用友好的许可。使用者也可以在需要的时候修改代码来满足需要并作为开源或商业产品发布/销售。

CPL(Common  Public  Liecense)  vesion  1.0

CPL    是  IBM  提出的并通过了OSI(Open  Source   Initiative)批准的开源协议。主要用于一些IBM  或跟  IBM    相关的开源软件  /项目中。如  很著名的Java开发环境   Eclipse  、RIA开发平台Open  Laszlo等。
CPL也是一项对商业应用友好的协议。它允许  Recipients   对源码进行任意的使用、复制、分发、传播、展示、修改以及改后做闭源的二次商业发布,这点跟BSD  很类似,也属于自 由度比较高的开源协议。但是,需要遵循:
1.当一个Contributors    将源码的整体或部分再次开源发布的时候,必须继续遵循CPL  开源协议来发布,而不能改用其他协议发布。除非你得到了原“源码” Owner    的  授权。
2.CPL协议下,你可以将源码不做任何修改来商业发布。但如果你要将修改后的源码其开源,而且当你再发布的是 ObjectCode  的时候,你必须声明  它的Source   Code  是可以获取的,而且要告知获取方法
3.当你需要将  CPL  下的源码作为一部分跟其他私有的源码混和着 成为一个  Project发布的时候,你可以将整个Project/Product  以私人的协议发布,但 要声明哪一部分代码是CPL下的,而且声明那部分代码继续遵循CPL。

4.独立的模块(Separate  Module),不需要开源

zt:防止表格被撑破

七月 8th, 2006

这个问题曾经有很多人提及的,后来在早期的版本里我也解决过,可是导致了英文词语被拆散换行,所以在做新的模板时没有加上控制此项的一些css码。今天试验了一下,发现解决的方法很简单。

按照网上大多数文章的说法,只要在CSS中加入:

table {
table-layout:fixed;
word-break:break-all;
word-wrap:break-word;
}
div {
word-break:break-all;
word-wrap:break-word;
}

就可以解决表格和层被撑破,最初我也是这样做的。不过这样的代码会造成一个问题,你会发现英文词全部被截断了,这不符合英语的书写习惯也不利于阅读。

后来我发现上述代码改写一下就可以做到既防止表格/层撑破又防止单词断裂了。
如下:

table {
table-layout: fixed;
word-wrap:break-word;
}
div {
word-wrap:break-word;
}

BOM

七月 7th, 2006

BOM

From Bo-Blog

Jump to: navigation, search

如果您在修改任何PHP文件后发生:

* 不能登入或者不能登出;    * 页顶出现一条空白;    * 页顶出现错误警告;    * 其它不正常的情况。

则多半是编辑器的问题。

本程序采用UTF-8编码。现在几乎所有的文本编辑软件都可以显示并编辑UTF-8编码的文件。但是很遗憾,其中很多软件的表现并不理想。

类似WINDOWS自带的记事本等软件,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM)。它是一串隐藏的字符,用于让记事本等编辑器识别这个文件是否以UTF-8编码。对于一般的文件,这样并不会产生什么麻烦。但对于 PHP来说,BOM是个大麻烦。

PHP并不会忽略BOM,所以在读取、包含或者引用这些文件时,会把BOM作为该文件开头正文的一部分。根据嵌入式语言的特点,这串字符将被直接执行(显示)出来。由此造成即使页面的 top padding 设置为0,也无法让整个网页紧贴浏览器顶部,因为在html一开头有这3个字符呢!

最大的麻烦还不是这个。受COOKIE送出机制的限制,在这些文件开头已经有BOM的文件中,COOKIE无法送出(因为在COOKIE送出前PHP已经送出了文件头),所以登入和登出功能失效。一切依赖COOKIE、SESSION实现的功能全部无效。

因此,在编辑、更改任何文本文件时,请务必使用不会乱加BOM的编辑器。Linux下的编辑器应该都没有这个问题。WINDOWS下,请勿使用记事本等编辑器。推荐的编辑器是: Editplus 2.12版本以上; EmEditor; UltraEdit(需要取消‘添加BOM’的相关选项); Dreamweaver(需要取消‘添加BOM’的相关选项)等。

对于已经添加了BOM的文件,要取消的话,可以用以上编辑器另存一次。(Editplus需要先另存为gb,再另存为UTF-8。)