中国互联网网站统计史——野路子里踏出的春天

2014-05-27 17:38:45来源:zhihu作者:曹政

很早就有朋友建议我写关于网站统计的东西,我总推脱来日方长,最近闲暇,想想还是整理一下,给大家当个故事看看也好——中国互联网网站统计史...

很早就有朋友建议我写关于网站统计的东西,我总推脱来日方长,最近闲暇,想想还是整理一下,给大家当个故事看看也好。

初识统计网站

从 1998 年开始说吧,那时候互联网上还看不到太好的统计系统,只有一些所谓的计数器程序,很多都是 perl 的,贴在网站底部,显示当前网站的访问次数。

这又分三种,一种是需要你装到自己服务器上,用 cgi 方式执行的;另一种是在线注册后给你一段 js 代码,让你自己嵌入到网页里显示的。此外还有一种,是在服务器上通过跑 web server 日志去统计的,然后每天给一个报告的,第三种也非常非常早,在 97 年我一边读书一边兼职给虚拟主机公司打工的时候,就知道有这么个东西,但是那时候对所有互联网的产品感觉上都傻傻的,没有认真去分析过,只是知道老板有在用,当作服务卖给客户,并没具体去研究过技术和需求。

有一家最大的一家嵌入统计的,也就是上面的第二种,美国的,名字我都不记得了,好像是 fastcounter 类似的,当时被微软收购了,微软那时候搞了一个 bCentral 的平台(好像是这个名字,商业中心的意思),把一些基础服务合并在里面,提供给网站使用,我当时还很推崇来着。但是这玩意后来也没有后来了。

让人眼前一亮的是网易的易数统计,我一直觉得,在 2000 年以前以及 2000 年左右,网易绝对是中国互联网最具有创造力和探索精神的公司,除了大家熟知的中国最早的免费邮局之外,网易还做了免费虚拟域名服务(弹窗广告,日点击至少万次,在那个年代,是惊人的数字),虚拟社区(中国最早的大型论坛,在我印象里比新浪前身四通利方的规模大多了,看上去版式也舒服多了)服务,以及最早的免费网站统计服务。

易数统计是我非常热衷使用的产品,除了我自己的网站在使用外(1999 年-2001 年我有创业做个人站),我每天必看的是易数排行榜,当时为了推广我的交换广告服务,我给排行榜从第一名到第一百名挨个手写发邮件,那是互联网的萌芽期,也是电子邮件的黄金期,那时候,人家的回复率和应答率还是很高的,和现在不能比。

然后,为了提高影响力,我通过我的广告交换平台刷排行榜(同行也在刷),当时争不过杭州的太极链(太极链的创始人有两个,其中一个是傅政军,人家后来搞了超级赚钱 9158,除此之外,把 kaixin.com 卖给陈一舟的也是他。),他们排在商业网站榜单第一,于是我抢了个人网站榜单第一,这也给我的服务带来了不少会员用户。(很多优质站长都在看排行榜)

易数统计已经比传统的计数器先进了很多,增加了诸如地区分析等功能,在那个时候让人觉得不可思议。(惭愧,虽然现在我经常说把高并发下的 Ip 地址反查当作经典面试题来出,但是当年我把这个东西搞明白足足好几年。。。)

感谢朋友提醒,当时还有一个热讯统计,热讯当时也是个有趣的公司,推出了一堆小工具,在早期互联网,我还是蛮喜欢那个公司的,然后,也没有然后了。

重新发现价值

2000 年前后我短暂加入了当时处于竞争关系的天图科技(后来经过合并成了现在的互动通,当时是太极链的创始公司),当时互联网一片混乱,谁也不知道未来究竟怎样,天图科技那时候也在寻找方向,想把会员网站联盟化,于是搞出来了太极榜,此时网易似乎对易数统计已经放弃,太极榜无论性能还是功能都有了新的超越,很快就成为新的市场第一,并牢牢把持了好几年。

直到 2004 年,互动通在视频广告上尝到了甜头,太极榜似乎也被沦落放弃,那时各种 js 嵌入的东西非常不规范,又是插件流行的时代,各种弹插件的统计大行其道。

2004 年下半年的时候,吴京川(百度联盟的创始人)跟我说,知道么,zhao123 这样的统计系统,一个月收入不少呢。我听了很震惊,重新思考统计系统的价值。另外有人跟我说,50bang 被某巨头投资了,价值极大。当时我蹉跎了好几年,还在安全行业干了两年程序员,我的广告交换服务虽然没有停止,但已经江河日下,市场地位岌岌可危。我想着用统计服务做增值服务来救活我的广告交换,其实思路完全是错的。(根本原因是,搜索引擎起来后,站长交换链接的目的是权重,而不是流量,搜索引擎的兴起彻底扼杀了广告交换网络的空间,除了色情网站外,几乎没有什么大网站会上广告交换。而我胆子最小,色情网站会员我是完全不会去发展的)。

但这个东西我却去尝试了,尝试后发现广告交换无可挽回,不过统计服务是可以独立出来的。

在与一些 QQ 好友的交流合作下,我先后推出了 tong123 和「不错统计『两个版本,第一个版本非常烂,bug 极多,第二个稍好,但也很烂。然后遇到了一个重要的买主,庞升东。

庞升东 2000 年左右就是我广告交换的会员,还给我打电话劝我去宁波和他创业,那时候心高气傲的我哪里知道他是谁,当然一口回绝,04 年他找我合作统计,说实话,我真不觉得这代码多值钱,狠狠心,咬咬牙,报价 2 万多人民币就卖给他了。

然后 1tong.com 出来了,并且很快成为市场第一。(通过统计,庞挖掘了一个活跃度非常高的社交社区,并收购了下来,重新包装,推出了 51.com,这个域名的交易在北京,我有见证,并荣幸的和买家庞升东,卖家陈鹏,吃了一顿高档面条,陈鹏凭借 51.com 域名所得 98 万,再次创业成功,成就很大的事业,也是一段佳话)。

这里补充几个细节,第一,做统计的时候,我去一个站长群里了解情况,是杜雪骞 杜和尚的 QQ 群,我去问,站长们觉得哪个统计好用,我列了好几个,但是最后答案让我意外,是不在我列表中的 hitsun.com(好吧,这个网站已经不存在了)。itsun 有同时在线功能是站长们非常强调的,这个意义我后来才搞明白,到今天谷歌统计都没有,百度统计推出来很长时间才想到去做。但是为什么 ITSun 没有成?因为他们技术没跟上,对并发的支撑完全不行。

第二,关于代码的价值,我当时还停留在软件工程的角度思考问题,这玩意用我一个人能多少时间?一个月了不起了。(断断续续做的,当时还在做其他的东西,自己弄一个不成器的 OA 系统在卖,非常烂,不好意思提了)按照人月评估,我估计最多 1 个程序员 2 个月就可以搞定,当时月薪过万的程序员已经很出色了。所以我觉得报了 2 万多已经很过份了,而且网上,真有免费的开源代码到处下载(就是撑不住并发)。

CNZZ的推出

1tong 超越了 50bang 成为新的市场第一,但是 1tong 的运营负责人不断跟我抱怨,系统太不稳定,问题很多,这事我真的承认,确实写的代码不好,有很多 bug,我老老实实的总结了一些问题,列出了升级优化方案若干,然后,他们的每一任技术负责人,都是抱怨代码太烂,后来我听说他们有人还打算改写 awstats(一个著名的基于服务端日志的统计系统,实话说,的确功能很强大,但是真的撑不住并发,而且和网页嵌入式的很多技术原理不同)再建一套统计,但此事最后也不了了之,总之,我就一直要听着他们的抱怨,看着他们对我系统的无动于衷。

1tong 成为市场第一,从技术上说,完全不是 50bang 的对手,(后面提到的 cnzz 也一样),从产品上说,学习的 itsun,也不是自己多创新;但是恰恰是因为 50bang 的设计者对需求把握不到位,而 ITsun 的技术能力不足,让这个产品有了脱颖而出的空间,当然,运营者的魄力也很重要,在那个时候,玩统计是纯花钱的东西,庞升东算是很决断的投入了。

这里多说一句,在 2004 年还是弹插件盛行,但是 50bang 不弹,后来新出来的都不敢弹了,因为站长肯定选择不弹的。所以不弹插件后,统计怎么赚钱,真是个伤脑筋的大问题。

其实 2004 年底,我的职场有了重大的改变,简单说,结束第二次失败的创业(搞一个不成器的 OA 系统,也是全自己开发的),加入百度了。

2004 年底我向上司俞军请示,我入职之前有和庞升东完成统计系统的交易,但是一直还没完成搭建,那么现在入职了,我怎么处理此事,俞军说自己私下处理完就好。所以 1tong 实际上是 2005 年初完成发布上线的。而 2004 年底,我将机房里的服务器拿了出来扔在家里,彻底结束了我的广告交换服务。

八卦一下文本广告交换,第一个做的是太极链,两个创始人,一个是韩啸,现在还在互动通,在一家公司做了 15 年,很了不起吧。他对中国互联网的贡献是,除了最早定义文本广告交换之外,还最早引入了网站视频广告技术。当时这个东西挽救了新浪,也挽救了互动通。

另一个是傅政军,后来离职后创建了 9158,也是互联网的传奇人物; 做文本广告交换我是第二家,声势一度追平太极链,当时连 hao123 都是我的会员,但是由于胆子小,策略保守,不思进取,就慢慢停止了增长,后来领先的是 51link,也就是无忧链,创始人周浩,然后转型做广告联盟,在 2008 年最早推网页游戏的广告联盟。

我在百度做数据分析,看到了他们的投放流量,流量大的让我震惊,又转型做游戏开发,前一年他的公司要玩科技卖给了上市公司,凭这笔交易个人身价已经超过 6 个亿。此外还有凤凰链,也做的不错,后来也成功转型,然后似乎就出国定居了,消息不多了。反正我自己是最懒最笨的,这个必须承认的。

到了 2005 年下半年,庞升东已经开始将重心放在 51,1tong 的价值已经极大降低。而此时百度的大客户部门,提出需要一套商业统计为客户服务,当时我已经换岗到商业产品部门,他们在选型时征询我的意见和建议,我毛遂自荐,这事我来做就好了,结果遭到上司的反对,让我专注本职工作,那么不甘心的我私下还是把之前的统计代码改了一下(其实更深层的目的是,我对 1tong 的抱怨非常不爽,想证明给他们看,我提出的优化改进方案是有用的,是他们自己不弄而已。)然后给领导去看,我已经做好了,能不能试试?领导给了我一个测试的机会,但是评测结果是不行。(具体原因似乎是这样的,第一,是没有一个他们认为客户可能需要的功能,其实那个功能很简单,但是我 js 不太灵,需要前端处理的有点扎手,又觉得那个功能意义不大;第二是展示报告太简单了,这个,我不是设计师,不是前端工程师,我只是罗列统计数据,来证明系统的可行性。)

\

此事在百度不了了之,知情人都仅限于几个人。但是说实话,心理还是很不服气的,人总是想证明自己,那时候我记得百度上市了,一下子 100 多美金一股非常超心理预期,我也算有些期权,算算自己是有点钱的人了;后来代码很廉价(百度上市后,真的不是贪那点钱)的给了姚剑军(阿飞这个名字是不是更有名?),然后阿飞很快就推出了 cnzz.com。

崛起之路

cnzz.com 一样有 bug,有问题,有很多不足;但是比起 1tong 而言,稳定性有了很大提高,功能性也有了一定的提高。而更重要的是阿飞的参与度;我一直说自己不是什么牛逼的技术,这话不是自谦,是实事求是,1tong 的各任技术负责人(人员流动好快的说)都说我代码不行,我承认他们有道理,但是阿飞觉得行,行在哪里呢?

第一,他需要的东西,我都解决了,从功能到性能;第二,代码我大概说说他就看得懂,自己能改。阿飞本身也不是科班技术出身,他一直想做统计,还专门找人开发,但是总是卡在关键问题上处理不过来,拿过我的代码,界面不行,展示太粗陋,他找个美工设计一下,自己从代码里咔嚓就改了。有什么需要升级更新的,我跟他大概说说,他自己咔嚓就改了。所以 cnzz 成为市场第一,他是贡献最大的。

而且,从一开始没多久,cnzz 就有一个综合搜索分析后台,类似现在的 data.cnzz.com,但功能更强悍,这个后台并不针对个站,而是综合分析所有搜索来路的数据,并给出每个搜索引擎的流量分布,地区分布;每个地区的搜索引擎流量分布(当时发现,上海的 google 使用率是东北、湖南的 5 倍以上;所以当时一些调研机构集中在北上广做搜索引擎市场使用率调研的数据,基本没法看。);每个客户端的搜索引擎流量分布;更重要的功能是,每个搜索引擎的渠道分布!完整掌握百度,google, soso,sogou 的流量渠道构成,以及彼此的对比(比如 hao123 给百度的贡献以及 265 给 google 的贡献,以此类推)。这个数据现在 cnzz 也不敢开放出来。

我最近才明白我的优势在哪里,我技术肯定不是最好的,但是遇到问题时候我还是有很多野路子使的(这就是被人正规技术一直鄙视的原因,他们只看到了不合理的代码,却没体会到具体解决问题的诉求在哪里);我产品观还可以,不算特别好,但是总算能找到一些要点。

所以在 2005 年之前,在统计领域,我自己的跨界优势没有对手,而另一项优势是,看到数据在那里,我能知道价值在哪里,怎么弄出来,我在百度商业分析部的时候,搞的很多东西,都是没有领导吩咐,自己鼓捣出来的。cnzz 对我而言,是一个赌气的产品,因为 1tong 说我的代码很烂,百度的领导说我的东西不行。我当然有怨气,我想证明自己,也很感谢阿飞帮我证明了自己,靠我个人是搞不定后面很多东西的,光前端就要我命了。

好玩的是,在百度也一直没人知道,cnzz 就是我写的系统。所以他们 09 年以合作的名义找 cnzz 去讲课(那时候操盘手已经从阿飞换成了强姐),然后底下认真的记笔记,然后推出了百度统计,我都觉得好笑,你们直接找我讲就好了,我不要钱,每个细节我都告诉你,源代码都给你。干嘛这么纠结呢?

各路对手狭路相逢

05 年把统计给阿飞,而自己完全不参与(没要一点股份),另一个原因是,当时 Google Analytics 免费了。实话说,我对 google 统计免费的第一感觉是,绝望,我认为免费统计终结了,大家不用再做了,阿飞反而坚持还有机会,事实证明他是对的。

\

从技术实现角度,我试用过 google 统计后就体会到,和我的产品,完全不是一个技术水准的东西。人家的实现复杂度和技术要求,是我当时的能力完全达不到的。(好吧,我坦白,现在也达不到。)但是后来我发现,google 统计两个问题导致在中国市场无法获得领头地位。

第一,翻译质量极遭,用我的话说,看中文不如看英文更清楚,侧面了解的信息是,google 统计中国的负责人对这个统计的认识远不如一些牛逼的个人站长。第二,没有实时统计和同时在线(现在似乎实时了?好久不关注了)。再解释一下同时在线,我经常问一个运维题目,如果有用户反应网站卡,慢,打不开,处理步骤和分析思路是什么。一般运维人员在这里都会落入纯技术应答,只有站长和意识极佳的技术人员才会说,第一步先看在线数据!这是优秀站长最关心的东西,如果用户反应卡,先看同时在线,如果和平时相仿,说明是个例,就算要处理,也不急迫;如果同时在线比平时有较大下降,说明是严重问题,当然要紧急处理!技术分析思路是后续的事情。

所以很多站长是同时放 cnzz 和 google 统计,因为 cnzz 提供了 google 统计不能提供的功能;而且,一个站长,一周看一次 google 统计就够了,但是,同时在线数据和实时统计,他可能一天会看很多次 cnzz,从站长的到达率和使用频度,cnzz 远超 Google Analytics。这就是我一直说,ITsun 才是当时理念最好的统计。

好吧,必须说一下 51la,这是个非常不错的统计,可惜和 cnzz 顶在了一个时代,他们最初也是在技术上有所欠缺,并发支撑能力比 cnzz 有缺陷,所以只在 1tong 衰落和 cnzz 崛起之间的一段时间保持了领先,然后就被 cnzz 超越,到 07 年左右的时候,51la 的技术能力已经接近或追平 cnzz,但是市场格局也大势已去。顺便再说一下,50bang 也黯然关闭,而 07-08 年,为了适应更大规模的统计需求以及更复杂的功能需求,cnzz 进行了代码重构,核心技术人员,来自于 50bang,所以今天的 cnzz,已经没有我的代码了。

另外,cnzz 崛起后,庞升东直接把 1tong 卖给了互动通,也就是太极榜的公司,互动通派来一个技术和我交流,他一直强调他们太极榜的技术多牛,数据仓库多先进,嗯,我老老实实的把 1tong 的问题和 cnzz 的升级方案给他们了,然后,也没有然后了。

网友提醒,51yes 也是一款优秀的统计,此外还有量子统计必须提一下,实话说,我一度很想通过淘宝开放平台搞一套店铺统计,后来发现淘宝不允许嵌入 js,而很多重要的统计项目只有内部接口,也就是完全无法和量子统计平等竞争,虽然仍有很多切入点值得深挖,但是懒散的我已经没有动力去弄了。。。嗯,还有雅虎统计,这个,呵呵。

百度统计在 10 年后基本成型,到今天,这么讲,我给人推荐都是百度统计多,原因无他,第一是功能上各家基本雷同,没什么太大差异; 第二是百度统计有个加分项,可以统计百度真实收录数,这可是站长极为关心的;而第三则是,第二隐藏了一个潜台词,有理由怀疑,使用百度统计可以给百度蜘蛛提交新页面,可以增加百度收录数!所以,还有什么理由拒绝百度统计呢?

关于网站统计的未来

那么,现在的网站统计,是否还有提升空间呢?有,极大有。

07 年还是 08 年,有一个号称中科院参与合作的一个特别牛的统计系统---纬度统计,号称各种数学模型和人群分析的统计,拿了一些投资,当时我就非常不看好,很简单,第一,这种技术非常不成熟,所有的模型都是基于一些想象的分类基准,很难落实成为可信的东西;第二,让这些高大上的人群去理解草根站长,实在太难了。很快那个产品也没了。

但是有个强需求,我从 07 年开始提,一直没有人实现,哦,我努力尝试去实现过,但是正值 cnzz 大改版,我也无法介入新系统,只好建议几下,然后似乎也不了了之。

具体来说就是,传统的网站统计,都是基于页面的统计,每个目标页面的访问情况,每个来路页面的转化情况;稍微有一点变化的,可以基于子域名和目录统计,但是这些都不够!远远不够!!

真正需要的,是行为统计和行为间转化;举例而言,比如说百度空间,你要看的不是哪个文章有多少访问量(运营人员或许要看),你要看的是什么行为有多少访问量(多少次文章阅读,多少次个人主页浏览。多少次评论发布,等等),以及行为到行为的转化和漏斗模型,从什么行为到什么行为,而不是从什么页面到什么页面。

将每个 page 的数据通过某种规则聚合行为,才是统计价值所在;google 统计本身有这个功能,但是配置起来很复杂,而实际上,对于大部分使用通用 cms, 论坛系统,商城系统的网站来说,预置行为定义是很简单的事情(以商城为例,要看的统计是多少人次浏览商品,多少人次搜索商品,多少人次浏览目录,多少人次下单,多少人次加入购物车,等等行为以及行为之间的转化)。

而对于其他类型的网站,配置可以作为增值服务提供,并不十分复杂,所以,要我说,现在的各种网站统计,基本停留在不思进取的境界。

App 兴起,移动统计开始崛起,友盟占了先筹,而现在 TalkingData 似乎后劲更足。具体产品我了解不多,就不敢妄言了。

但是说一个要点,统计需求,说白了,两大目标

第一,是对市场运营行为的指导和分析,提醒运营者,不同流量渠道的价值和转化情况,来优化运营,优化市场投放,提升运营效率。

第二,是对产品的指导和分析,提醒产品设计者,不同类型用户的行为特征和转化分析,来优化产品设计,优化产品本身的指标。

不客气的说,很多做统计的人连这个都没搞明白。

嗯,自夸的成分很大,您凑活看吧。

赞助商链接: