语言
<< 返回文章列表

一文读懂数据库发展70年史(下)

2019年7月9日
冯斯基
1573


附:一文读懂数据库发展70年史(上)



1999-2009



凡是种的因,就一定会结出果子。

80年代以研究所和大学为主的国家投入,那么在90年代产出这样几家国产数据库公司。


1562654343198007298.png

这些产品和背景主要源自于国家的“863”研究计划,“核高基”重大科研专项,以及“973”研究计划等等。

本质上,这些经费和项目都是通过大学去申请并且实施的,因此,从研究数据库的产品研究开始就是缺乏行业、产业端的接入,产品在商业市场的拓展也比较弱。

这也是为什么,在2000初期成立的数据库产品公司都有大学背景的原因。


中美比较图

 中国的经济高速发展


十几年过去了,目前中国市场数据库应该在80亿-100亿元每年左右,而国产数据库的占比应该在5亿人民币,还不到整个市场的10%。

究其背后的原因,数据库的核心使用大户:金融、电信、航空等重要的关键体统并没有广泛批量采用这些国产产品。

这里主要有两个原因:

 第一,在产业行业需求上。

自2001年中国加入WTO之后,这台发动机开始出现了井喷的态势。

中国出口金额从2001年的2661亿美元,猛增到2007年的12200.6亿美元,六年时间增长了4.585倍。

那时没有自主可控的背景,主要是一切向经济发展看齐,快速上马,能用好用就行。不用说,让市场选择一定选择成熟的国际产品。

 先说电信,2001年数字电话大幅出现以后,河南移动的数据量从十几万一下子增加到90多万,并且以每年500万的数量增长。

“2003年数字电话普及以后,河南的移动用户很快就增加到了3000万,原本数据库也就需要三五台,后来增加到了几百台。这还是15年前的事。历史当时的情况就是,娃还没长大,但是战场上需要要有战士了。就这样,Oracle在电信行业横扫市场。

 第二,在产品和公司背景设置之上。

在中国数据库公司刚刚成立想开发产品追赶Oracle的时候,市场的需求已经迸发出来,国产产品接不住,所以市场就是Oracle的天下了。

再说银行,钱就是数据库中的一个数,根本不能错,系统不能停。银行业监管又十分苛刻,不是没有钱去买,而是钱可以花,价格高低不是原因,但是绝对不能出问题,这个有政治要求。


平均科技支出


中国银行业科技每年支出

就这样出现了一个死循环:

产品初期需要不断的试错和验证的机会;

客户没有时间和办法陪着试错和成长;

没有客户,生态就更差,更没有办法进行产品的投入和迭代。

这也是在第一批国产数据库厂商出现数据库上的主要问题。

 说实话总会让人不高兴,不管你同不同意,如果一个高科技企业20年都没能发展起来,一定有一些关键的内在因素制约,其实已经说明他们不可能发展起来了。
 成熟产品收购,吸收再创新这个国内企业也考虑过。但出现了一房多卖。在informix上也发生了多方引进代码的故事。如果高铁是我们引进生产技术,吸收再创新的过程。

那么,数据库产品代码的引进就有点像汽车产业,引进的人很多,但是自主升级开发却很难。

Informix原来是IBM的一款数据库,2015年以来,IBM把代码授权了多家中国的公司:华胜天成、南大通用(Gbase 8t)和星瑞格。

这套代码搁置了十多年了,虽然可靠但是创新其实不足。另外一个问题有点像数字币,分叉严重。授权了的代码,大家都是可以升级开发。就连IBM自己也会开发升级。

这就会造成一个产品的碎片化和混乱。同时买下这些代码容易,消化不容易啊。

informix的主要模块的源代码就有2000多万行,Informix当年在美国的核心研发队伍就有超过200人,加上测试和周边团队,不下500人。

要快速追赶世界先进水平,研发的规模不能小于这个(读别人的代码其实比自己写代码还要累!)。

但是,目前的市场容量又不支持这样的投入。这是一个现实的困境,是不容易突破的。

无论是华胜天成、南大通用,还是星瑞格,都没有像样的、有规模的研发队伍投入到Informix的源代码掌握中。

他们对Informix的研发投入,有没有100人都是个未知数。

这次代码买断,不像高铁技术引进有铁总这样的强权统一管理,资源调度;数据库引进、消化、都是很难再复制高铁的成功案例。

 2017年5月,IBM把整个Informix业务卖给了三哥(印度公司HCL)。这次不是转卖代码了,是把整个人员、办公室、客户都卖了。

(为什么没有整体卖给中国厂商,我想可能不是因为价格原因,而是美国政府背后的捣鬼。就不是卖给你全套,知道你光有代码是肯定消化不了的)。

这样,未来如果我们开发Informix有问题,就要向三哥公司求助了。

 不过不能否认,我们第一代国产数据库公司还是帮助中国做到了从无到有的过程。不少涉密、政府、军队的应用,对可用度要求不高但是对保密要求不低的客户还是适用的。

不过历史看来,追赶复制,是很难超越的。

 唯一弯道超车的机会,就是当环境和产业发生拐点和变化。
 就像汽车行业,汽油柴油我们肯定拼不过了。但我们的机会就是互联网电动车;而数据库领域,这个机会可能发生在云计算的普及。



2009-2019



阿里云

2009年阿里云成立。

2008年,当全球金融危机出现失控的9月,王坚被马云从微软亚洲研究院副院长的位置上挖了过来。

其实当时目的很明确:解决阿里爸爸吃饭的问题,整个算力快撑不住了。

2007年开始阿里巴巴的IT开销史无前例,一度成为IBM、Oracle中国的标杆客户,淘宝、阿里巴巴B2B和支付宝等公司,98%以上的软件系统和业务都是采用Oracle数据库提供数据服务。

2009年淘宝更是上了全球排名前几位的大RAC集群,据说当年有16个节点。每天早上CPU还是跑到98%。

换句话来说,三年几千万买Oracle产品+服务也没办法支撑阿里成长的速度,只能开启自研模式。

王坚推行的是全面去商业数据库,因此后面就有了Oracle全面转向MySQL的进程。拆分Oracle数据库+Hadoop其实也可以撑一撑,但是这样的话,还要向Oracle购买更多的License(再花几千万,不是没钱,是即便花钱也不能彻底解决问题)。

因此,阿里巴巴B2B将中文站压力和数据容量最大的Offer数据库,成功从Oracle数据库+IBM小型机+EMC2存储设备,迁移到MySQL数据库+PC Server的模式;

以及大淘宝核心系统部门招聘到 淘宝褚霸、淘宝丁奇等能修改MySQL源码和Hbase源码的人才,让其他产品线使用MySQL数据库提供服务,也使大淘宝的MySQL DBA的经验和技术大幅提高,大淘宝也就有能力把所有产品线的Oracle数据库迁移到MySQL数据库提供服务。
淘宝2013年下线了最后一个Oracle,2014年支付宝交易替换了Oracle。2016年支付宝总账全面用OceanBase替换Oracle。

说明:如果有超强的研发团队、运维能力的情况下。在云时代还是有机会替换Oracle的。

在这次阿里去IOE的运动和历程中也出现了两个儿子,Polar DB 和OceanBase。

一个来自于阿里云体系,一个来自于蚂蚁金服。

那么让我们扒一扒,在云时代还有哪些数据库厂商:


 数据库厂商


哎呦,这次的玩家好像都有点实力啊。

多数还是互联网公司背景,要不就是硬核的科技大玩家。

PingCAP和巨杉作为创业型公司也是得到多轮次的融资,估值一个劲的往上涨。

 Google Spanner是Google自己研发的数据库,并把原理写成Paper公布于众。这样也生出了两个儿子:PingCAP的TiDB和美国的CockroachDB。目前百度在和CockroachDB合作推出数据库产品。
 其实基于开源产品二次开发的还有好几家。具体这种模式到底行还是不行,还真不好下结论!!!
 中国目前企业级关键应用90%应该都跑在了Oracle上。这些刚需型大客户其实并不介意到底产品是纯自研,还是基于开源产品的二次开发。

自研不代表性能好,二次开发不代表安全可靠(开源核心代码都是公开的)。核心的需求还是到底能不能用?!保证我功能正常的使用,性能可靠。

 目前大型客户新的外围系统,进行了一轮上面产品的尝试。每家数据库公司都在攻城占地的找客户实践POC。

单凭网上公开的资料以及舆论导向来评判到底哪一款产品会成为中国的“Oracle”,这个真的很难预测。不过其实也不用预测,最终客户的选择会做出答案。

 现实是这样,如果企业客户有公有云计算厂商的系统开发和维护能力,关键系统是可以跑在国产数据库的(参考支付宝)。但是这些客户,由于很多原因又很难上公有云。
 一种可能是这些厂商可以不断开发迭代产品,直到出一款产品像Oracle可以让普通企业客户也能舒适使用;

另外一个种可能就是由政府或者监管部门牵头,建造一个行业云,让这些国内一流厂商产品+服务团队一同进入,建立一个小型的行业内部公有云进行对行业提供服务。

这个行业云,找到最优秀的开发和运维供应商,统一向外服务。这样实现两个优点:

从中央可以进一步对行业国有大企业单位进行集中管控,保障数据安全。

集中之后可以让最好的技术供应商来协助支持和运维。屏蔽运维复杂度,降低使用门槛,提高稳定性,达到国产替代的目的。

当然风险不是没有,就是如果大集中后,集中的中心出现了问题,上了行业云所有的公司系统可能会瘫痪,所以,未来越来越多的公司企业、组织会选择混合部署。

我们也看到伴随着人口红利,在软件开发领域的我国实力已今非昔比,大部分企业的 “去IOE”的进程更多的是自发的因系统架构优化而进行,同时各种数据库技术与产品也蓬勃发展,所以,在技术上看Oracle并非不能取代,更多的是出于综合成本(改造与建设成本、分享)的考量,需要的是时间和意志。



2019-2029



有些路都是要走一遍的,国产产品的成熟,都是需要历史特定的背景和机遇。

中国产业升级,互联网流量红利下产生的流量红利大怪兽,能不能在未来成为我们中国信息科技的中坚力量,这个我们拭目以待。

凡是一个产品的成功,一个企业的成功都有它历史的环境属性和红利属性。

没有中国互联网崛起这十年,也很难有像现在数据库2.0版本的公司出现。

 注意!!!以下才是干货:

让我历数一下过去每个十年宏观红利: 

1992~1999:外资在中国的投资,衍生的产品代理、渠道、服务,一系列生意;

1999~2009:中国加入WTO,对外出口和贸易一路攀升;

2009-2019:天量的“铁工基”固投,房地产,以及移动互联网流量红利;

不搭上这些时代的红利,不一定不成,但大成的肯定多多少少都搭上了时代的红利高铁。那么,2019~2029,我们的超级时代红利是什么呢?

成熟市场的新技术or 新市场的成熟技术?

也许是中华Di国的新科技、新经济模式,在降维广阔市场的复制…….


1562655303940018151.jpg


附录参考文献:
1. 高屹:邓小平与1989~1993年的中美关系
2. 大风号:回首数据库发展往事。
3. 刘韧  :冯星君自主:Oracle中国往事。
4. 陈书悦:外企的江湖水也深。
5. 《中国经济周刊》2016年第17期:不使用IBM、Oracle、EMC,国产数据库能弯道超车吗?
6. 晓军dataondemand0514:国产数据库发展现状分析