数据库一体机更早期的名字是“数据库计算机(Data Base Computer)”,其诞生的目标就是高效处理超大规模的数据集。从Teradata、Exadata到zData,这一领域的产品命名就体现了这一愿景(如图1所示)。
图1 数据库一体机的演进
Teradata的命名源自TB(Tera Byte),该公司创立于1979年,并于1984年发布了其DBC/1012数据库机。“DBC”是指Data Base Computer,这一时期,Data和Base两个名词尚未完成公认的合体,人们熟知的Database一词也未正式诞生。“1012”代表的是他们当时的野心——10的12次方(Tera)字节,也即TB。Teradata创立的时期,硬盘容量最常见的单位是MB,关于TB的畅想已经属于大胆。
Exadata的命名明显直指Teradata,EB代表10的18次方(Exa)字节,EB是TB存储容量的100万倍。事实上,Oracle数据库在数仓方面一直缺乏竞争力,Teradata、DB2、Informix在当时的数仓能力都远超Oracle。在2000年代初期,Oracle开始向数据仓库领域进军,并于2008年推出其与HP合作的第一代数据库一体机(Hp Oracle Database Machine)产品。
zData的命名遵循了TB、EB的存储容量序列。云和恩墨自2014年开始探索数据库一体机产品,在软件定义存储领域率先创新,所以选择以ZB为愿景。1ZB(Zetta Byte)等于1000 EB,是更大规模的存储容量。大约在2020年左右,zData上实现了首个PB级别的数据库存储,是产品跃迁的第一个里程碑。
图2 杰克·谢默(1940.8.22—2020.1.2)
一个产品的灵魂往往藏在它的起源中。1970年代,杰克·谢默1(Jack E. Shemer,如图2)在花旗银行工作时敏锐地察觉到传统单机系统在处理海量数据时的瓶颈。他联合加州理工学院针对大规模数据处理需求展开讨论,并提出大规模并行处理(MPP)的商业化构想,这就是Teradata的设计源头。1979年7月13日,谢默联合几位来自施乐和花旗银行的资深技术专家,在加州布伦特伍德(Brentwood)他的家中正式创立Teradata公司,他担任首席执行官。加州理工学院的菲利普·尼奇斯2(Philip Neches)出任公司的首席技术官。
尼奇斯于1983年完成其博士论文《Hardware Support for Advanced Data Management Systems》。他在论文中提出了一个系统性的框架,用于分析数据库工作负载的特征,并据此设计专门的硬件支持机制。尼奇斯在论文中的关键洞见包括:数据库工作负载具有内在的并行性,关系代数操作可以在数据分区的基础上并行执行;网络通信开销是并行数据库系统的主要瓶颈,因此架构设计应最大化本地磁盘I/O、最小化节点间数据移动;商用微处理器的性能提升速度将超过专用硬件,因此基于通用处理器的软件并行化策略具有更好的长期演进性。
1 杰克·谢默(Jack E. Shemer,1940.8.22—2020.1.2),1940年出生于美国亚利桑那州凤凰城。19岁时(1960年),还在读大学的他加入通用电气计算机公司(General Electric Computing Company)。在通用电气,他致力于将分时技术商业化,即让一台大型主机同时被多个终端访问,为用户提供各自拥有独立计算机的假象。1976年,在花旗集团子公司Transaction Technology, Inc.工作时,他协助领导团队开发了自动化银行系统,推动了ATM(自动取款机)在美国的广泛使用。谢默于1979年联合创立Teradata并担任首席执行官。该公司专注于开发基于并行处理技术的数据管理机器,能够比当时世界上最先进的大型机更快、更高效地查询数量级更大的数据库。他被许多人昵称为“仙人掌杰克”(Cactus Jack),逝世于2020年1月2日。
2 菲利普·尼奇斯(Philip Neches,1952.2.7—2022.9.25)在加州理工学院完成学业,先后于1973年获学士学位、1977年获硕士学位、1983年获博士学位。1979年,尼奇斯基于其论文研究和杰克·谢默(Jack E. Shemer)等人联合创立Teradata公司,并担任首席技术官。Teradata于1992年被AT&T和NCR公司收购。1989年至1994年,尼奇斯担任NCR公司高级副总裁兼首席科学家;1994年至1996年,担任AT&T多媒体产品与服务集团副总裁兼集团首席技术官。
图3 Teradata 发布的第一款数据库机DBC/1012
1984年,Teradata发布DBC/1012数据库机(如图3所示)。花旗银行自然成为了Teradata的第一个客户。最终在1992年,他们为沃尔玛(Wal-Mart)构建了首个存储容量超过1TB的系统。
DBC/1012配有多个英特尔微处理器,每个微处理器都配备独立的磁盘驱动器,并通过Ynet交换网络互连,构成了一个Shared-Nothing(无共享)架构的大规模并行处理系统。在这个系统中,Ynet是并行处理架构的核心,Teradata将Ynet定义为智能互联(intelligent interconnect)技术。“智能”代表了硬件系统对于软件系统的贡献与优化。
Teradata的数据库机是软硬一体的,各硬件层面都针对数据库运算进行了增强,也可以作为大型机的后端系统实现并行数据处理。
图4展示了Teradata的架构原理。图中AMP (Access Module Processor)是其核心工作单元,每个AMP拥有独立的CPU、内存和磁盘空间,互不干扰。数据表被分散存储到各个AMP节点。这种“分而治之”的思想,至今仍是高性能数据库的黄金法则。

图4 Teradata架构原理图
值得一提的是,谢默于1970年至1976年在施乐公司工作期间,还联合创立了高级开发实验室(ADL),该实验室隶属于帕洛阿尔托研究中心(Palo Alto Research Center),被认为是全美最具声望的同类实验室。高中时期的史蒂夫·乔布斯(Steve Jobs)、史蒂夫·沃兹尼亚克(Steve Wozniak)和艾伦·凯(Alan Kay)等人都曾在谢默的指导下参与ADL的工作。而在施乐公司之后,谢默在花旗集团工作时,还协助领导团队开发了自动化银行系统,推动了ATM(自动取款机)在美国的广泛使用。ATM本质上也是一种机器,它负责“存储”和“取出”现金,这和数据库机具有异曲同工之妙,数据库机负责“存储”和“取出”数据。
图5 Teradata在2017年Gartner数据仓库魔力象限中的表现
Teradata凭借其敏锐的市场洞察,率先探索大规模数据处理需求,实现了商业成功。在Gartner早期的数据仓库魔力象限中,Teradata一直位列领导者象限。图5所示是Gartner发布的2017年数据仓库魔力象限,Teradata不仅处在领导者象限,而且是最具远见的厂商。Teradata于1997年进入中国市场,先后服务于中国航信、上海证券交易所、中国邮政、中国移动、中国电信等大型集团企业客户。后来,从2001年开始,Teradata又先后赢得建设银行、民生银行、工商银行等多家国有大行和股份制银行的数据仓库建设项目,巅峰时期80%以上的中国头部金融机构都采用了Teradata数据仓库。上海证券交易所是Teradata在中国的首个TB级用户,该系统3历时16个月的建设期,于2001年底交付使用。
图6 Teradata在2025年Gartner云数据库管理系统魔力象限中的表现
Gartner后来取消了数据仓库魔力象限,将其归入现在的云数据库管理系统魔力象限中。直到2022年,Teradata也一直位列领导者象限。直至最近几年,Teradata才滑入远见者象限。图6所示为Gartner发布的2025年Cloud Database Management Systems魔力象限。Teradata利用数据库机在数据仓库领域取得了相当好的成绩,其2014年的巅峰收入达到27亿美元,并且其巅峰市值于2012年达到120亿美元。
3 上海证券中央登记结算公司构建的数据仓库系统,经过业务发掘、需求分析、系统设计、开发和实现、系统测试和试运行,于2001年11月完成所有的项目开发任务,正式交付使用。整个数据仓库项目历时16个月。当时,上海证交所有3300万股民、700多种上市证券品种、450个结算会员、3200多个席位、每年220多个交易日、每天200万至700万的成交交易笔数,所有交易最后都必须在上海证交所进行股票的清算和资金划拨。
Oracle是在OLTP领域取得成功之后,开始向数据仓库领域进军。Oracle的加入让数据库机领域迎来彻底的变革。2000年左右,Oracle公司在内部启动了一个名为SAGE(Storage Appliance for Grid Environments,网格环境存储一体机)的项目。这是一个开放硬件栈的解决方案,也就是说,不包含任何专有硬件,其直接对手就是Teradata和Netezza。Teradata和Netezza的产品是更多依赖于定制化或专有硬件的解决方案。
2008年,Oracle首次推出Exadata数据库一体机。在发布前一个星期,这个产品被拉里·埃里森(Larry Ellison)命名为Exadata。Exadata的命名是直接针对Teradata的。埃里森在发布数据库一体机时曾经提到,他受到iPhone的启发——乔布斯通过一台iPhone,提供了高度集成的系统以及极简的操作界面,从而“重新发明了手机”。而Oracle通过Exadata,让“数据库一体机”这个名字替代了“数据库机”。数据库一体机理念被普遍接受。
云和恩墨进入数据库一体机市场则是在“软件定义”时代。当软件定义存储(Software-defined storage,SDS)技术开始兴起时,EMC收购了一家以色列公司,该公司研发了一款软件定义存储产品——ScaleIO。2014年,云和恩墨与EMC合作,推出了基于ScaleIO的第一代数据库一体机产品zData。这一版本的产品白皮书上(如图7所示)明确标明,zData是基于ScaleIO和LSI闪存的超融合存储解决方案。这一方案在推出后,大受用户欢迎,第一年就在保险、电信、交通等领域获得10多个核心种子用户。但是第二年,EMC因为软件定义存储与传统硬件销售存在冲突,转而雪藏了ScaleIO。
由此,云和恩墨开始自主研发软件定义存储产品zStorage。基于zStorage,zData开始了自我发展之路。云和恩墨早期的zData产品只能支持Oracle数据库,后期通过自研的分布式存储软件,新版本的zData X产品已经可以支持通用的数据库产品,包括Oracle、崖山、达梦、MySQL、PostgreSQL、GaussDB等(如图8所示)。有了自主的内核级能力,zData的技术创新不断加速,真正实现了用一套统一的软件架构,支持全系列的数据库运行,极大地降低了用户的技术学习与运维管理成本。现在,zData数据库一体机通过极速的I/O存储池化底座、云化的智能运维管理,真正帮助用户降低成本并演进到未来架构,zData的用户群体也迅速壮大。
图8 zData X数据库一体机架构图
从技术架构看,Teradata是基于Shared-Nothing的MPP数据仓库产品;Exadata是基于Oracle RAC的共享存储集群产品;zData则是基于软件定义存储技术的通用数据库基础运行平台。
三个时代,三种技术推动了数据库存储的不断演变。Teradata是数据仓库产品,Exadata则将一体机拓展到OLTP场景,而基于软件定义存储技术的zData则将数据库支持扩展到通用产品时代。用户选择的自由度在不断提升。
值得说明的是,关于存储容量的单位还有很多,后续的产品命名空间依然充裕。此外,还有很多颇值得留意的单位(如图9所示),如BB、NB、DB和XB等,这些容量单位所能描绘的数据规模大到超出想象。
又及,2023年2月15日,Teradata官方宣布退出中国市场(如图10所示)。
图10 Teradata中国公司业务调整公告