数据库一体机简史:从德维特的Gamma系统到开放集成的zData实践
在上一篇《从Britton-Lee到zData,专用硬件和通用硬件之抉择》中,我们提到了数据库领域的先驱之一保拉·霍索恩(Paula Hawthorn)。有朋友对这对伉俪的携手经历很感兴趣,我在迈克尔·斯通布雷克(Michael Stonebraker)的书中找到了一张照片,这张照片是Illustra团队的合影(如图1所示)。图中,前排中间的是保拉·霍索恩,中排左一为迈克·乌贝尔(Michael Ubell)。这个团队中每个人都有一个绰号,霍索恩的外号是“老妈(Mom)”、乌贝尔的外号是“小个子(Short One)”。她们妇夫二人在Britton-Lee之后,追随斯通布雷克的第二次创业历程,共同发起了Illustra,致力于将Postgres商业化。当然,照片前排左一正是大家所熟知的Ingres传奇的缔造者迈克尔·斯通布雷克,他也是数据库领域第四位图灵奖得主。

图1 Illustra团队核心成员
2 王佑曾(Eugene Wong)分别于1955年、1958年和1959年在普林斯顿大学获得电子工程学士、硕士和博士学位。在加入加州大学伯克利分校之前,他是剑桥大学的国家科学基金会博士后研究员(1959-1960),并在纽约的IBM研究中心担任研究员(1960-1962)。他于1962年加入EECS(电气工程与计算机科学)系,从事数据库管理系统、优化算法、随机过程和神经网络方面的研究工作。1985-1989年,他担任系主任,在此期间领导该系经历了发展最快的时期,使其成为伯克利校园最大的学术部门,也是该领域排名最高的部门之一。王教授于1994年从该系退休,成为名誉教授。1980年,他与Michael Stonebraker和Lawrence A. Rowe共同创建了Relational Technology公司,后更名为INGRES公司,该公司是数据库软件产品的领先供应商。他于1988年因其在Ingres方面的工作获得ACM软件系统奖,并于2005年被授予IEEE创始人奖章。
3 埃德加·科德(Edgar F. Codd,1923 - 2003)是英国计算机科学家、关系数据库模型的提出者。他于牛津大学获得数学与化学学位,二战期间曾在英国皇家空军服役。战后移居美国,加入IBM从事计算机系统研究。1970年,他在Communications of the ACM发表论文A Relational Model of Data for Large Shared Data Banks,首次系统性地提出关系模型,主张以数学中的关系代数为基础组织和查询数据,奠定了现代关系数据库系统的理论基础。尽管其思想最初在IBM内部未被立即采纳,但随后对整个数据库产业产生了深远影响,催生了包括System R在内的一系列关系数据库系统原型。科德因其开创性贡献于1981年获得图灵奖。他晚年继续从事数据库理论研究,并提出了著名的“科德十二定律(Codd’s 12 Rules)”,用于定义关系数据库管理系统的标准。
德维特毕业后一度想到加利福尼亚大学伯克利分校工作,未果。但他与斯通布雷克保持了非常密切的合作关系。斯通布雷克为德维特提供了早期的Ingres版本,供其在课堂上使用,并邀请他参加了1977年5月在伯克利举行的第二届“分布式数据管理和计算机网络研讨会”。斯通布雷克在这里发表了他的第一篇关于分布式Ingres的论文。在这次会议上,德维特受到斯通布雷克的启发,将自己的博士论文研究方向调整为构建并行数据库系统,并于1978年初启动了DIRECT项目。在DIRECT项目的实施过程中,德维特决定尽可能复用Ingres的代码。斯通布雷克更加调动了Ingres团队帮助德维特解决有关Ingres工作原理的问题,其中就包括鲍勃·爱泼斯坦和保拉·霍索恩。
云和恩墨zData数据库一体机的缘起正是Engineered Systems理念的一个典型实践。2013年6月,EMC以2~3亿美元收购了以色列的一家初创软件定义存储公司ScaleIO;2014年5月,希捷以4.5亿美元现金购入了Avago旗下LSI的加速解决方案事业部及存储器组件事业部。云和恩墨创立于2011年,是中国市场上数据库解决方案的领导厂商。当时EMC与希捷找到云和恩墨,希望通过三方合作来整合一套工程系统——将LSI的闪存、EMC的ScaleIO,通过云和恩墨的解决方案能力集成为数据库一体机,这便是zData的由来。时至今日,云和恩墨初代的zData仍运行在部分用户的生产环境中,稳定运行已逾十载。
面对不同场景,zData在满足可靠性与性能需求的前提下,推出了不同架构的产品以满足不同用户的成本控制需求。目前,zData以存算分离架构满足电信、金融、能源等行业的大型核心应用需求;以存算融合架构(如图7所示)满足制造业、医疗、教育等行业的中等规模核心场景需求,在可靠性、性能和成本之间求解最佳模型。

图7 zData的存算融合部署架构
2023年,云和恩墨zData上线某省电力营销2.0系统,高效支撑了该省3000万户的供电服务,是zData服务核心客户的里程碑事件之一。该系统全面采用国产化设备,1000用户并发下的TPS(每秒事务处理量)稳定达到62843,较传统架构提升近3倍;随机写IOPS高达2172K,顺序读吞吐量达到23.7GB/s;1.98秒即可完成上亿条记录的检索运算,将复杂查询响应时间压缩至原架构的1/10。zData的上线为该省电力营销系统的实时服务提供了坚实支撑(如图8所示)。

图8 zData在某省电力营销2.0系统的应用实践
在数据库一体机的历史上,从Exadata到zData,这些系统都受到了Gamma数据库机项目开创性研究的影响。在新的时代里,通用硬件和软件优化成为行业不断努力的目标。戴维·德维特的Gamma系统还深刻影响了一系列数据库产品的构建,这其中包括IBM DB2 Parallel Edition、Informix Version 8、Tandem Non-stop SQL、Vertica、Netezza、DATAAllegro、Greenplum、Aster Data和ParAccel等。因在Gamma系统中的贡献,德维特于1995年当选ACM会士,“Gamma并行数据库系统”亦于2008年荣获ACM软件系统奖。
话说戴维·德维特可能是拉里·埃里森最痛恨的人之一。1983年,德维特发布了首个科学的数据库评测基准——威斯康星基准。该基准不再只看单一任务,而是通过复杂的SQL组合来测试系统的性能瓶颈。德维特用该基准测试发现Oracle性能不佳并公开了结果,这激怒了拉里·埃里森。埃里森甚至试图施压威斯康星大学解雇德维特。Oracle后来在其软件许可协议中加入了一条:禁止用户在未经允许的情况下发布性能评测结果。这一条款被业界戏称为“德维特条款”,至今仍出现在许多数据库巨头的合同中。
图灵奖得主、数据库领域的另一位传奇人物吉姆·格雷(Jim Gray)曾多次在公开场合和论文中引用德维特的工作作为并行计算的黄金标准。
1992年,吉姆·格雷和戴维·德维特联合发表了并行数据库领域的里程碑论文:Parallel Database Systems: The Future of High Performance Database Systems。在这篇论文中,他们系统性地提出了并行数据库的定义。由于德维特主导了Gamma系统的绝大部分工程实现,格雷在后来的访谈中多次将并行数据库的实用化归功于德维特,德维特也被很多人称为“并行数据库之父”。
2008年,微软聘请德维特成立麦迪逊实验室,称其为“数据库领域的传奇”,并强调他将把“并行数据库的基因”带入微软产品线。当时微软斥巨资收购了并行数据库公司DATAllegro,德维特的任务是带领团队将DATAllegro的MPP(大规模并行处理)架构与微软的SQL Server核心进行深度融合,这便是后来PDW(SQL Server Parallel Data Warehouse)的雏形。在PDW的演进过程中,德维特意识到结构化数据(SQL)与非结构化数据(Hadoop/HDFS)不应是两个孤岛,因而主导开发了PolyBase。这项技术允许用户使用标准的T-SQL语句直接查询存储在Hadoop或Azure Blob Storage中的数据,而无需了解MapReduce或复杂的编程。同时,他将并行数据库的“谓词下推(Predicate Pushdown)”和“并行数据移动”算法应用到了异构数据源之间,极大地提升了混合数据环境下的查询效率。PDW后来演变为SQL Server APS(Analytics Platform System),并最终发展为目前微软云业务的核心——Azure Synapse Analytics。
又及,INGRES公司于1988年上市。IPO前,三位联合创始人的持股比例分别为:Lawrence Rowe 5.3%、斯通布雷克5.3%、王佑曾5.1%。INGRES公司IPO前后的主要股东持股情况如图10所示。王佑曾退休后参与了中国的很多科技建设。1994年至1996年间,他曾经担任香港科技大学副校长,并于2001年出任董建华任期内的香港创新科技顾问委员会主席。

图10 INGRES公司IPO前后的主要股东持股情况
参考文献:
Making Databases Work
https://academicians.sinica.edu.tw/index.php?r=academician-n%2Fshow&id=185
关注云和恩墨公众号,回复关键词“简史1”“简史2”下载精编版PDF~





