语言
<< 返回文章列表

数据库一体机简史:从华人领袖的先知呼声到软件定义的新纪元

2026年4月1日
,
E
x
a
d
a
t
a
,
z
D
a
t
a
X
,
,
盖国强
6
 

图1 《高级数据库机架构》

2024年12月,在一篇关于中国人工智能先驱史忠植研究员的访谈1中,我看到了一本久违的书:《高级数据库机架构》Advanced Database Machine Architecture,如图1所示)。这本封面厚重的学术专著,在我心中拨动了一根记忆的弦,也打开了一段跨越近半个世纪的技术史诗。

从1970年代学院派的概念探索,到1979年商业公司的争相涌入;从1983年悲观主义者的“死亡宣判”,到1992年并行数据库系统的绝地反击;从2008年拉里·埃里森(Larry Ellison)在旧金山发布会上的惊天一击,再到今天云和恩墨以软件定义存储重新定义一体机……这是一部充满争议与反转的数据库硬件进化史。

这段历史中,有一位华人科学家的名字贯穿始终,却鲜为国内读者所知——他就是萧开美(David K. Hsiao)2。正是他点燃了数据库机的学术火炬,也正是他的论文激励了Teradata的创始人走上商业化之路;正是他的研究引领了一批中国访问学者的方向,也间接催生了中国数据库产业的第一批种子。

在前面的篇章中,我们讨论了数据库机从Britton-Lee到Teradata的创业历程。在这篇文章中,我将以史学的严谨态度,重新梳理数据库一体机从学术概念到商业产品、从封闭专用到开放通用的完整历程,并以人物故事为经、技术演进为纬,为读者呈现这段波澜壮阔的科技往事。

专访史忠植研究员:二十多年前就开始做Agent研究的中国学者,InfoQ,2024-12-30,https://www.infoq.cn/news/vAy1biQtrhdHHWJqz97z

2 萧开美在很多文献中被写作“肖开美”。本文依史忠植访谈之例,记为“萧开美”;《中国数据库40年》一书中,周龙骧先生的文章记为“肖开美”。“萧”与“肖”二姓之争在中国历史上是一段公案。中国于1977年12月正式发布《第二次汉字简化方案(草案)》(简称“二简字”),强制将“萧”简化为“肖”,导致大量“萧”姓人士被改姓为“肖”,对“萧”“肖”两个氏族造成的影响延续至今。“二简字”方案于1986年被废除,但在1979-1980年萧开美回国时,正值“二简字”推行的高峰期,所有新闻和学术期刊均严格执行“肖”字写法。据文献记载,被强制改姓的“萧”姓族人后来纷纷更改户口本,恢复本姓。

00.

序章:华人先知点燃的火炬

图2 萧开美

数据库机领域真正的先驱人物是一位华人科学家——萧开美(见图2)。萧开美出生于1933年,于1956年从台湾赴美,在迈阿密大学俄亥俄州分校取得数学学士和硕士学位。1968年,他成为宾夕法尼亚大学计算机与信息科学系的首批博士生,并以数据库保护和访问控制为题完成博士论文——那是该领域的第一篇博士论文。

萧开美的学术地位在数据库界举足轻重。他不仅是VLDB3(超大型数据库)国际会议的创始人和发起者——这一创办于1975年,现为数据库领域三大顶级会议之一的学术盛会——而且是第一位在计算机科学领域获得博士学位的华人。这在当时是具有里程碑意义的历史事件。

 博士毕业后,萧开美留在宾夕法尼亚大学任教,此后还先后在俄亥俄州立大学和马里兰大学担任教职,最终在美国海军研究生院(Naval Postgraduate School)结束了他的学术生涯。他的研究重心始终牢牢锁定在一个问题上:如何让数据库运行得更快?到了1970年代末,他给出了自己的答案——数据库机(Database Machine)

VLDB官方会议历史,https://www.vldb.org/conference.html,1975年第一届会议于美国马萨诸塞州弗雷明汉举行。

01.

檄文:数据库机来了

图3 《数据库机来了》论文印刷稿

1979年3月,萧开美发表了一篇足以改变数据库机历史的著名论文《数据库机来了》Data Base Machines are Coming, Data Base Machines are Coming!4。如图3所示,仅凭这个充满感叹的标题,我们便能感受到作者当时的激情与笃定。

萧开美在论文中回顾了数据库机技术的发展,并满怀热情地呼吁数据库机的时代已经到来。这篇论文被视为数据库机领域的“动员令”和“战斗檄文”。

值得玩味的是,这篇论文的标题中,"Data"和"Base"是两个独立的单词,而非我们今天熟知的合体词"Database"。这个小细节,折射出那个时代技术词汇尚未定型的历史语境——Database作为单一词汇的通用化,本身就是1980年代以后的事情。

萧开美论文的核心论点可概括为:新兴研究的持续发力与硬件技术的最新进展,将很快使商用数据库机成为现实。这一论断包含三层内涵:

第一,技术就绪性判断。萧开美指出,大规模集成电路、半导体存储器、微处理器等硬件技术的进步,已使构建成本可控的数据库专用硬件成为可能。

第二,研究生态成熟度判断。论文强调数据库机并非孤立的硬件创新,而是需要数据库理论、体系结构、算法优化等多领域研究的协同推进。

第三,商业化前景预期。论文明确指向商业数据库机,而非纯粹的学术研究原型,体现了作者对技术转化路径的清晰认知。

从技术架构角度,萧开美论文虽未展开详细设计,但指明了数据库机的核心特征:将数据库操作从通用CPU卸载(offload)至专用处理单元,实现存储与计算的协同优化。这一思想成为后续所有数据库机/一体机设计的根本遵循。

同年6月,萧开美又发表了配套论文《DBC——一台为超大型数据库设计的数据库计算机》(DBC—A Database Computer for Very Large Databases5,进一步探讨了数据库机的架构与设计方案。

在20世纪70年代末到80年代初,数据库机之所以成为热点,是因为随着数据量的指数级增长,通用计算机的CPU逐渐成为处理大规模数据库任务的瓶颈。萧开美通过研究提议:“既然通用计算机慢,那我们就为数据处理量身定制一套硬件。

1983年,萧开美主编出版了《高级数据库机架构》一书,系统总结了该领域的各种技术路线,指明了数据库机前进的方向,成为那个时代数据库机研究者的重要参考。正是这本书,在数十年后出现在史忠植访谈画面里,再度唤起了我们对这段历史的记忆。

David K. Hsiao, "Data Base Machines are Coming, Data Base Machines are Coming!", ACM SIGMOD Record, Vol. 9, No. 4, March 1979.

5 David K. Hsiao, "DBC—A Database Computer for Very Large Databases", VLDB Conference Proceedings, June 1979.

02.

行动:数据库机的商业化如火如荼

萧开美关于数据库机的研究论文影响了很多人,杰克·谢默(Jack E. Shemer,1940-2020)是其中之一。谢默曾在施乐工作,在看到萧开美的文章后,他相信数据库机的时代即将到来。1979年7月,谢默联合几位来自施乐和花旗银行的资深技术专家创立了Teradata。Teradata在大规模并行数据处理领域做出了革命性的开创工作。后来,Teradata成为了VLDB的长期赞助商。

萧开美还曾为另外一家数据库机公司——布里顿-李(Britton-Lee)——提供咨询。关于Teradata和Britton-Lee的故事,读者可以参考前面的文章——

《从Teradata到Exadata和zData的容量愿景》

《从Britton-Lee的陨落到Exadata和zData的智能复兴》

《从Britton-Lee到zData,专用硬件和通用硬件之抉择》

《从德维特的Gamma系统到开放集成的zData实践》

03.

批判:一篇让数据库领域颤抖的论文

1983年,一篇措辞犀利的学术论文在数据库机领域引发了轩然大波。这篇论文的作者,是来自威斯康星大学麦迪逊分校的戴维·德维特(David J. DeWitt)——日后的并行数据库系统权威、数据库学界最具影响力的学者之一。

论文的标题极为直白,充满挑衅意味:《数据库机:一个已经过时的构想?——对数据库机未来发展的批判性分析》(Database Machines: An Idea Whose Time has Passed? A Critique of the Future of Database Machines6。要知道在几年以前,德维特还是数据库机的坚定支持者,他和保拉·霍索恩(Paula Hawthorn)的合作直接影响了Britton-Lee的创立和发展。然而短短几年之后,德维特对数据库机的看法就发生了转变。

文章开头,德维特写道:“萧开美撰写《数据库机来了》一文时,数据库机的前景似乎一片光明,许多研究项目正在进行,几款商业产品也即将面世。然而现在我们的观点完全不同,我们曾一度想将本文标题定为‘数据库机死了Database Machines are Dead, Database Machines are Dead)’”。

这种呼应萧开美论文标题的刻意反转,颇具文学色彩,也让这篇批判性论文获得了更广泛的传播。

Haran Boral, David J. DeWitt, "Database Machines: An Idea Whose Time has Passed? A Critique of the Future of Database Machines", IWDM 1983: 166-187

德维特的核心观点是:磁盘容量的增加对高度并行数据库机产生了非常不利的影响,除非找到提高大规模存储设备带宽的方法,否则高度并行的数据库机架构注定要消亡。

这个论断在当时颇有说服力。专用数据库机的硬件成本高昂,而通用计算机的性价比则在摩尔定律的驱动下快速提升。专用硬件的优势,正在被通用硬件的迅猛进化所侵蚀。

然而,德维特本人并未就此放弃。批评者往往也是探索者——在发表那篇批判性论文的同一年,他在威斯康星大学悄悄启动了一个全新的研究项目:Gamma数据库机项目7

Gamma项目从1984年1月正式启动,持续运行到1992年底。其核心目标,恰恰是去验证德维特在1983年论文中所质疑的东西:使用非专用的通用(“廉价”)硬件,能否实现高性能的并行数据库系统?

Gamma运行在一个由普通工作站通过高速网络互联而成的集群上,采用无共享(Shared-Nothing)架构,通过数据分区(Partitioning)和并行查询处理实现高性能。它证明了一个关键命题:并行数据库不一定需要专用的昂贵硬件,通用硬件的集群同样可以实现出色的性能。这一发现,深刻影响了此后整个并行数据库系统的发展方向。

时间来到1992年,德维特与吉姆·格雷(Jim Gray)联合撰文发表了《并行数据库系统:高性能数据库系统的未来》(Parallel Database Systems: The Future of High Performance Database Systems)。在这篇论文中,他们共同反驳了德维特1983年的判断:

高度并行的数据库系统正开始取代传统的大型机,用于超大规模的数据库和事务处理任务。这些系统的成功驳斥了1983年一篇预测数据库机消亡的论文。十年前,高度并行数据库机的未来看起来黯淡无光,即使在其最坚定的支持者看来也是如此。批评者预测,除非找到解决I/O瓶颈的方案,否则多处理器系统将很快受到I/O限制。虽然这些关于硬件未来的预测相当准确,但批评者关于并行数据库系统的整体未来的判断肯定错了。在过去十年中,Teradata、Tandem和许多初创公司成功地开发并销售了高度并行的数据库系统。

德维特作为一位学者公开承认自己十年前的判断“肯定错了”,这在学术界并不多见。德维特和格雷的这篇论文成为并行数据库系统领域的经典文献,也标志着这一方向完成了从“被质疑”到“被认可”的历史性转折。

D.J. DeWitt, S. Ghandeharizadeh et al., "The Gamma Database Machine Project", IEEE Transactions on Knowledge and Data Engineering, Vol.2, No.1, March 1990. DOI: 10.1109/69.50905.

04.

复兴:Exadata的谋定而后动

德维特在1983年指出的那个死结——磁盘I/O带宽的增长速度跟不上数据量的增长——并没有消失,它只是被推迟了。时间进入21世纪,这个问题再度以新的形式出现在数据库设计者的面前。

然而,技术的进步也带来了新的解法。到2000年代中期,InfiniBand高速互联技术的成熟,为打破带宽瓶颈提供了一把“钥匙”。InfiniBand是一种高性能、低延迟的网络互联标准,其带宽远高于同期的以太网,延迟则低至微秒级。正是这把“钥匙”,让Oracle等待已久的数据库一体机蓝图成为可能。

当Oracle开始谋划推出数据库一体机时,德维特当年所指出的约束条件都已经有了解决方案。Oracle数据库一体机的目标是通过开放硬件打造高性能的数据库基础设施。

图4 HP Oracle Database Machine

2008年9月24日,旧金山Moscone中心,约4.3万人齐聚Oracle OpenWorld(OOW)年度大会。Oracle CEO拉里·埃里森走上舞台,发表了他在硬件领域的历史性宣言:Oracle与惠普合作,正式推出Oracle历史上的首款硬件产品——HP Oracle Database Machine(即Exadata V1,如图4所示)。

Exadata V1的核心硬件采用的是HP的x86服务器,其核心技术创新是Smart Scan(智能扫描)技术。该技术的原理是将SQL查询的基础操作(如过滤、投影)直接下推到存储服务器层执行,而非将所有数据传输到数据库服务器后再处理。这种“存储层计算”的设计大幅减少了计算节点与存储节点之间的数据传输量,从根本上缓解了带宽瓶颈8

与Smart Scan配合的,是连接计算节点和存储节点的InfiniBand高速内部网络。InfiniBand在Exadata内部同时承担两个角色:其一,作为Oracle RAC(Real Application Clusters)节点间的私有互联网络;其二,作为计算节点与Exadata存储服务器之间的数据传输通道。两个角色都要求极低的延迟和极高的带宽,InfiniBand完美胜任。

这一架构,正是对德维特所预言的“提高大规模存储设备带宽”的工程实现——只不过,解法不是传统意义上的磁盘带宽提升,而是通过高速网络与存储计算下推的组合,在系统层面上规避了带宽瓶颈。

Oracle的第一代一体机产品面向数据仓库场景。很快,在2009年推出的第二代产品,将Exadata的应用场景扩展至OLTP。同时,闪存技术被用来加速I/O,Smart Scan技术则被用来缩减网络流量。一体机开始解除束缚,Exadata进入高速发展期(如图5所示)。

图5 Oracle Exadata的早期创新

Oracle Exadata的成功带动了数据库一体机市场的复兴,很多厂商开始提供第三方的同类产品。但本质上,所谓第三方的“Oracle数据库一体机”是不存在的。因为Oracle并不授权任何第三方一体机预装Oracle数据库。而且第三方一体机需要依赖Oracle ASM才能实现数据冗余和条带化,导致产品竞争力不足。

Oracle官方Exadata十年历程信息图,https://www.oracle.com/webfolder/s/assets/infographics/10-years-of-exadata/index.html

05.

革命:软件定义一切带来真正的解放

“数据库机”的真正进化在于软件定义时代的到来。2010年代初,“软件定义”浪潮席卷整个IT产业:软件定义网络(SDN)、软件定义数据中心(SDDC)、软件定义存储(SDS)……这场浪潮的核心逻辑,是将原本固化在专用硬件中的功能,以软件的形式在通用硬件上实现,从而获得更高的灵活性、可扩展性和成本效益。

软件定义存储领域涌现出多个具有代表性的项目和产品:Ceph——由加州大学圣克鲁兹分校博士生Sage Weil于2004年发起的开源分布式存储系统,2012年以LGPL协议开源,2014年被Red Hat收购,被誉为“存储领域的Linux”9ScaleIO(现更名为Dell PowerFlex)——EMC收购自以色列公司ScaleIO,提供基于服务器的软件定义块存储。

Sage Weil,Ceph项目历史,"Ceph: 20 Years of Cutting-Edge Storage at the Edge", The New Stack,InfoQ翻译,2024-10-16,https://www.infoq.cn/article/dfjRxSKdNJtNbqiddwmu

通用的软件定义存储可以支持对象、块存储等,而云和恩墨基于自身的数据库基因,走上了一条与Ceph等通用SDS方案不同的专业化道路:不做通用的SDS,而是聚焦专为数据库场景深度优化的软件定义块存储。这就是zStorage的由来。

zStorage是云和恩墨自主研发的数据库分布式存储软件,针对数据库I/O特征——高IOPS、低延迟、大量随机读写——进行了深度优化,并充分利用现代NVMe闪存和高速网络(InfiniBand和RoCE)的性能潜力。以zStorage为内核灵魂的zData数据库一体机,因而将Exadata的愿景再度向前推进一步:以开放的通用硬件,实现通用数据库的性能加速。

在软件定义存储的数据库部署模式中,传统的“数据库服务器+专用存储阵列”架构被彻底重构:

  • 存储资源池化:基于x86标准服务器的分布式存储资源池取代专用存储阵列,存储节点可以独立横向扩展。

  • 性能与容量协同扩展:通过节点级横向扩展,使性能与容量同步增长,消除传统集中式架构的性能瓶颈。

  • 在线弹性扩容:数据库的扩容完全可以在线进行,无需停机,业务连续性得到根本保障。

  • 高速网络加持:25Gb至200Gb带宽的高速RoCE InfiniBand网络,确保存储I/O路径的极低延迟和超高吞吐。

这是技术进步为数据库基础设施带来的根本性革命:数据库摆脱了存储层的束缚,获得了极致性能与极致弹性的双重自由。传统存储架构与软件定义存储架构的对比如图6所示。

图6 传统存储架构与软件定义存储架构的比较

2025年10月,具备多元数据库承载能力的新一代zData X在金杯电工正式上线,帮助这家传统制造业巨头将其生产制造(MES)、供应链(SRM)、销售(CRM)、财务(ERP)等核心系统整合到新平台之上。系统完成重构迁移之后,数据库I/O性能较原架构提升了10倍,并且从超融合平台回收了148核CPU、17.7TB存储,让用户的资源得以充分利用,整体IT运行成本得到大幅优化。zData X提供的可视化智能运维平台更让数据库管理实现了现代化(如图7所示)。

图7 zData X在金杯电工的应用实践

06.

眺望:AI时代数据库机的新轮回

写完这段历史,不能不向前眺望。

当下,人工智能的浪潮正在深刻改写数据库与存储的版图。GPU加速数据库、向量数据库、AI原生数据库……一批专为AI工作负载设计的“新型数据库机”正在悄然涌现。有趣的是,这些新物种的核心思路,与1970年代数据库机研究者们的初衷惊人地相似:为特定的计算特征设计专用的硬件与软件协同方案。

倘若萧开美与德维特能够并肩站在今天,面对这一幕,或许会会心一笑:这场关于专用硬件与通用硬件的辩论,从未真正结束,也永远不会结束——因为它的本质,是人类永不停息地追逐计算极限的冲动。

历史的螺旋,还在转动。

 

 

参考文献:

专访史忠植研究员:二十多年前就开始做 Agent 研究的中国学者,InfoQ,2024-12-30,https://www.infoq.cn/news/vAy1biQtrhdHHWJqz97z

《中国数据库40年》,2017.10,清华大学出版社