数据库一体机简史：从华人领袖的先知呼声到软件定义的新纪元

2026年4月1日

数

据

库

一

体

机

发

展

史

软

件

定

义

存

储

盖国强

143

图1 《高级数据库机架构》

2024年12月，在一篇关于中国人工智能先驱史忠植研究员的访谈¹中，我看到了一本久违的书：《高级数据库机架构》（Advanced Database Machine Architecture，如图1所示）。这本封面厚重的学术专著，在我心中拨动了一根记忆的弦，也打开了一段跨越近半个世纪的技术史诗。

从1970年代学院派的概念探索，到1979年商业公司的争相涌入；从1983年悲观主义者的“死亡宣判”，到1992年并行数据库系统的绝地反击；从2008年拉里·埃里森（Larry Ellison）在旧金山发布会上的惊天一击，再到今天云和恩墨以软件定义存储重新定义一体机……这是一部充满争议与反转的数据库硬件进化史。

这段历史中，有一位华人科学家的名字贯穿始终，却鲜为国内读者所知——他就是萧开美（David K. Hsiao）²。正是他点燃了数据库机的学术火炬，也正是他的论文激励了Teradata的创始人走上商业化之路；正是他的研究引领了一批中国访问学者的方向，也间接催生了中国数据库产业的第一批种子。

在前面的篇章中，我们讨论了数据库机从Britton-Lee到Teradata的创业历程。在这篇文章中，我将以史学的严谨态度，重新梳理数据库一体机从学术概念到商业产品、从封闭专用到开放通用的完整历程，并以人物故事为经、技术演进为纬，为读者呈现这段波澜壮阔的科技往事。

¹专访史忠植研究员：二十多年前就开始做Agent研究的中国学者，InfoQ，2024-12-30，https://www.infoq.cn/news/vAy1biQtrhdHHWJqz97z

² 萧开美在很多文献中被写作“肖开美”。本文依史忠植访谈之例，记为“萧开美”；《中国数据库40年》一书中，周龙骧先生的文章记为“肖开美”。“萧”与“肖”二姓之争在中国历史上是一段公案。中国于1977年12月正式发布《第二次汉字简化方案（草案）》（简称“二简字”），强制将“萧”简化为“肖”，导致大量“萧”姓人士被改姓为“肖”，对“萧”“肖”两个氏族造成的影响延续至今。“二简字”方案于1986年被废除，但在1979-1980年萧开美回国时，正值“二简字”推行的高峰期，所有新闻和学术期刊均严格执行“肖”字写法。据文献记载，被强制改姓的“萧”姓族人后来纷纷更改户口本，恢复本姓。

00.

序章：华人先知点燃的火炬

图2 萧开美

数据库机领域真正的先驱人物是一位华人科学家——萧开美（见图2）。萧开美出生于1933年，于1956年从台湾赴美，在迈阿密大学俄亥俄州分校取得数学学士和硕士学位。1968年，他成为宾夕法尼亚大学计算机与信息科学系的首批博士生，并以数据库保护和访问控制为题完成博士论文——那是该领域的第一篇博士论文。

萧开美的学术地位在数据库界举足轻重。他不仅是VLDB³（超大型数据库）国际会议的创始人和发起者——这一创办于1975年，现为数据库领域三大顶级会议之一的学术盛会——而且是第一位在计算机科学领域获得博士学位的华人。这在当时是具有里程碑意义的历史事件。

博士毕业后，萧开美留在宾夕法尼亚大学任教，此后还先后在俄亥俄州立大学和马里兰大学担任教职，最终在美国海军研究生院（Naval Postgraduate School）结束了他的学术生涯。他的研究重心始终牢牢锁定在一个问题上：如何让数据库运行得更快？到了1970年代末，他给出了自己的答案——数据库机（Database Machine）。

³VLDB官方会议历史，https://www.vldb.org/conference.html，1975年第一届会议于美国马萨诸塞州弗雷明汉举行。

01.

檄文：数据库机来了

图3 《数据库机来了》论文印刷稿

1979年3月，萧开美发表了一篇足以改变数据库机历史的著名论文《数据库机来了》（Data Base Machines are Coming, Data Base Machines are Coming!）⁴。如图3所示，仅凭这个充满感叹的标题，我们便能感受到作者当时的激情与笃定。

萧开美在论文中回顾了数据库机技术的发展，并满怀热情地呼吁数据库机的时代已经到来。这篇论文被视为数据库机领域的“动员令”和“战斗檄文”。

值得玩味的是，这篇论文的标题中，"Data"和"Base"是两个独立的单词，而非我们今天熟知的合体词"Database"。这个小细节，折射出那个时代技术词汇尚未定型的历史语境——Database作为单一词汇的通用化，本身就是1980年代以后的事情。

萧开美论文的核心论点可概括为：新兴研究的持续发力与硬件技术的最新进展，将很快使商用数据库机成为现实。这一论断包含三层内涵：

第一，技术就绪性判断。萧开美指出，大规模集成电路、半导体存储器、微处理器等硬件技术的进步，已使构建成本可控的数据库专用硬件成为可能。

第二，研究生态成熟度判断。论文强调数据库机并非孤立的硬件创新，而是需要数据库理论、体系结构、算法优化等多领域研究的协同推进。

第三，商业化前景预期。论文明确指向商业数据库机，而非纯粹的学术研究原型，体现了作者对技术转化路径的清晰认知。

从技术架构角度，萧开美论文虽未展开详细设计，但指明了数据库机的核心特征：将数据库操作从通用CPU卸载（offload）至专用处理单元，实现存储与计算的协同优化。这一思想成为后续所有数据库机/一体机设计的根本遵循。

同年6月，萧开美又发表了配套论文《DBC——一台为超大型数据库设计的数据库计算机》（DBC—A Database Computer for Very Large Databases）⁵，进一步探讨了数据库机的架构与设计方案。

在20世纪70年代末到80年代初，数据库机之所以成为热点，是因为随着数据量的指数级增长，通用计算机的CPU逐渐成为处理大规模数据库任务的瓶颈。萧开美通过研究提议：“既然通用计算机慢，那我们就为数据处理量身定制一套硬件。”

1983年，萧开美主编出版了《高级数据库机架构》一书，系统总结了该领域的各种技术路线，指明了数据库机前进的方向，成为那个时代数据库机研究者的重要参考。正是这本书，在数十年后出现在史忠植访谈画面里，再度唤起了我们对这段历史的记忆。

⁴David K. Hsiao, "Data Base Machines are Coming, Data Base Machines are Coming!", ACM SIGMOD Record, Vol. 9, No. 4, March 1979.

⁵David K. Hsiao, "DBC—A Database Computer for Very Large Databases", VLDB Conference Proceedings, June 1979.

02.

行动：数据库机的商业化如火如荼

萧开美关于数据库机的研究论文影响了很多人，杰克·谢默（Jack E. Shemer，1940-2020）是其中之一。谢默曾在施乐工作，在看到萧开美的文章后，他相信数据库机的时代即将到来。1979年7月，谢默联合几位来自施乐和花旗银行的资深技术专家创立了Teradata。Teradata在大规模并行数据处理领域做出了革命性的开创工作。后来，Teradata成为了VLDB的长期赞助商。

萧开美还曾为另外一家数据库机公司——布里顿-李（Britton-Lee）——提供咨询。关于Teradata和Britton-Lee的故事，读者可以参考前面的文章——

《从Teradata到Exadata和zData的容量愿景》

《从Britton-Lee的陨落到Exadata和zData的智能复兴》

《从Britton-Lee到zData，专用硬件和通用硬件之抉择》

《从德维特的Gamma系统到开放集成的zData实践》

03.

批判：一篇让数据库领域颤抖的论文

1983年，一篇措辞犀利的学术论文在数据库机领域引发了轩然大波。这篇论文的作者，是来自威斯康星大学麦迪逊分校的戴维·德维特（David J. DeWitt）——日后的并行数据库系统权威、数据库学界最具影响力的学者之一。

论文的标题极为直白，充满挑衅意味：《数据库机：一个已经过时的构想？——对数据库机未来发展的批判性分析》（Database Machines: An Idea Whose Time has Passed? A Critique of the Future of Database Machines）⁶。要知道在几年以前，德维特还是数据库机的坚定支持者，他和保拉·霍索恩（Paula Hawthorn）的合作直接影响了Britton-Lee的创立和发展。然而短短几年之后，德维特对数据库机的看法就发生了转变。

文章开头，德维特写道：“萧开美撰写《数据库机来了》一文时，数据库机的前景似乎一片光明，许多研究项目正在进行，几款商业产品也即将面世。然而现在我们的观点完全不同，我们曾一度想将本文标题定为‘数据库机死了（Database Machines are Dead, Database Machines are Dead）’”。

这种呼应萧开美论文标题的刻意反转，颇具文学色彩，也让这篇批判性论文获得了更广泛的传播。

⁶Haran Boral, David J. DeWitt, "Database Machines: An Idea Whose Time has Passed? A Critique of the Future of Database Machines", IWDM 1983: 166-187

德维特的核心观点是：磁盘容量的增加对高度并行数据库机产生了非常不利的影响，除非找到提高大规模存储设备带宽的方法，否则高度并行的数据库机架构注定要消亡。

这个论断在当时颇有说服力。专用数据库机的硬件成本高昂，而通用计算机的性价比则在摩尔定律的驱动下快速提升。专用硬件的优势，正在被通用硬件的迅猛进化所侵蚀。

然而，德维特本人并未就此放弃。批评者往往也是探索者——在发表那篇批判性论文的同一年，他在威斯康星大学悄悄启动了一个全新的研究项目：Gamma数据库机项目⁷。

Gamma项目从1984年1月正式启动，持续运行到1992年底。其核心目标，恰恰是去验证德维特在1983年论文中所质疑的东西：使用非专用的通用（“廉价”）硬件，能否实现高性能的并行数据库系统？

Gamma运行在一个由普通工作站通过高速网络互联而成的集群上，采用无共享（Shared-Nothing）架构，通过数据分区（Partitioning）和并行查询处理实现高性能。它证明了一个关键命题：并行数据库不一定需要专用的昂贵硬件，通用硬件的集群同样可以实现出色的性能。这一发现，深刻影响了此后整个并行数据库系统的发展方向。

时间来到1992年，德维特与吉姆·格雷（Jim Gray）联合撰文发表了《并行数据库系统：高性能数据库系统的未来》（Parallel Database Systems: The Future of High Performance Database Systems）。在这篇论文中，他们共同反驳了德维特1983年的判断：

高度并行的数据库系统正开始取代传统的大型机，用于超大规模的数据库和事务处理任务。这些系统的成功驳斥了1983年一篇预测数据库机消亡的论文。十年前，高度并行数据库机的未来看起来黯淡无光，即使在其最坚定的支持者看来也是如此。批评者预测，除非找到解决I/O瓶颈的方案，否则多处理器系统将很快受到I/O限制。虽然这些关于硬件未来的预测相当准确，但批评者关于并行数据库系统的整体未来的判断肯定错了。在过去十年中，Teradata、Tandem和许多初创公司成功地开发并销售了高度并行的数据库系统。

德维特作为一位学者公开承认自己十年前的判断“肯定错了”，这在学术界并不多见。德维特和格雷的这篇论文成为并行数据库系统领域的经典文献，也标志着这一方向完成了从“被质疑”到“被认可”的历史性转折。

⁷D.J. DeWitt, S. Ghandeharizadeh et al., "The Gamma Database Machine Project", IEEE Transactions on Knowledge and Data Engineering, Vol.2, No.1, March 1990. DOI: 10.1109/69.50905.

04.

复兴：Exadata的谋定而后动

德维特在1983年指出的那个死结——磁盘I/O带宽的增长速度跟不上数据量的增长——并没有消失，它只是被推迟了。时间进入21世纪，这个问题再度以新的形式出现在数据库设计者的面前。

然而，技术的进步也带来了新的解法。到2000年代中期，InfiniBand高速互联技术的成熟，为打破带宽瓶颈提供了一把“钥匙”。InfiniBand是一种高性能、低延迟的网络互联标准，其带宽远高于同期的以太网，延迟则低至微秒级。正是这把“钥匙”，让Oracle等待已久的数据库一体机蓝图成为可能。

当Oracle开始谋划推出数据库一体机时，德维特当年所指出的约束条件都已经有了解决方案。Oracle数据库一体机的目标是通过开放硬件打造高性能的数据库基础设施。

图4 HP Oracle Database Machine

2008年9月24日，旧金山Moscone中心，约4.3万人齐聚Oracle OpenWorld（OOW）年度大会。Oracle CEO拉里·埃里森走上舞台，发表了他在硬件领域的历史性宣言：Oracle与惠普合作，正式推出Oracle历史上的首款硬件产品——HP Oracle Database Machine（即Exadata V1，如图4所示）。

Exadata V1的核心硬件采用的是HP的x86服务器，其核心技术创新是Smart Scan（智能扫描）技术。该技术的原理是将SQL查询的基础操作（如过滤、投影）直接下推到存储服务器层执行，而非将所有数据传输到数据库服务器后再处理。这种“存储层计算”的设计大幅减少了计算节点与存储节点之间的数据传输量，从根本上缓解了带宽瓶颈⁸。

与Smart Scan配合的，是连接计算节点和存储节点的InfiniBand高速内部网络。InfiniBand在Exadata内部同时承担两个角色：其一，作为Oracle RAC（Real Application Clusters）节点间的私有互联网络；其二，作为计算节点与Exadata存储服务器之间的数据传输通道。两个角色都要求极低的延迟和极高的带宽，InfiniBand完美胜任。

这一架构，正是对德维特所预言的“提高大规模存储设备带宽”的工程实现——只不过，解法不是传统意义上的磁盘带宽提升，而是通过高速网络与存储计算下推的组合，在系统层面上规避了带宽瓶颈。

Oracle的第一代一体机产品面向数据仓库场景。很快，在2009年推出的第二代产品，将Exadata的应用场景扩展至OLTP。同时，闪存技术被用来加速I/O，Smart Scan技术则被用来缩减网络流量。一体机开始解除束缚，Exadata进入高速发展期（如图5所示）。

图5 Oracle Exadata的早期创新

Oracle Exadata的成功带动了数据库一体机市场的复兴，很多厂商开始提供第三方的同类产品。但本质上，所谓第三方的“Oracle数据库一体机”是不存在的。因为Oracle并不授权任何第三方一体机预装Oracle数据库。而且第三方一体机需要依赖Oracle ASM才能实现数据冗余和条带化，导致产品竞争力不足。

⁸Oracle官方Exadata十年历程信息图，https://www.oracle.com/webfolder/s/assets/infographics/10-years-of-exadata/index.html

05.

革命：软件定义一切带来真正的解放

“数据库机”的真正进化在于软件定义时代的到来。2010年代初，“软件定义”浪潮席卷整个IT产业：软件定义网络（SDN）、软件定义数据中心（SDDC）、软件定义存储（SDS）……这场浪潮的核心逻辑，是将原本固化在专用硬件中的功能，以软件的形式在通用硬件上实现，从而获得更高的灵活性、可扩展性和成本效益。

软件定义存储领域涌现出多个具有代表性的项目和产品：Ceph——由加州大学圣克鲁兹分校博士生Sage Weil于2004年发起的开源分布式存储系统，2012年以LGPL协议开源，2014年被Red Hat收购，被誉为“存储领域的Linux”⁹；ScaleIO（现更名为Dell PowerFlex）——EMC收购自以色列公司ScaleIO，提供基于服务器的软件定义块存储。

⁹Sage Weil，Ceph项目历史，"Ceph: 20 Years of Cutting-Edge Storage at the Edge", The New Stack，InfoQ翻译，2024-10-16，https://www.infoq.cn/article/dfjRxSKdNJtNbqiddwmu

通用的软件定义存储可以支持对象、块存储等，而云和恩墨基于自身的数据库基因，走上了一条与Ceph等通用SDS方案不同的专业化道路：不做通用的SDS，而是聚焦专为数据库场景深度优化的软件定义块存储。这就是zStorage的由来。

zStorage是云和恩墨自主研发的数据库分布式存储软件，针对数据库I/O特征——高IOPS、低延迟、大量随机读写——进行了深度优化，并充分利用现代NVMe闪存和高速网络（InfiniBand和RoCE）的性能潜力。以zStorage为内核灵魂的zData数据库一体机，因而将Exadata的愿景再度向前推进一步：以开放的通用硬件，实现通用数据库的性能加速。

在软件定义存储的数据库部署模式中，传统的“数据库服务器+专用存储阵列”架构被彻底重构：

存储资源池化：基于x86标准服务器的分布式存储资源池取代专用存储阵列，存储节点可以独立横向扩展。
性能与容量协同扩展：通过节点级横向扩展，使性能与容量同步增长，消除传统集中式架构的性能瓶颈。
在线弹性扩容：数据库的扩容完全可以在线进行，无需停机，业务连续性得到根本保障。
高速网络加持：25Gb至200Gb带宽的高速RoCE InfiniBand网络，确保存储I/O路径的极低延迟和超高吞吐。

这是技术进步为数据库基础设施带来的根本性革命：数据库摆脱了存储层的束缚，获得了极致性能与极致弹性的双重自由。传统存储架构与软件定义存储架构的对比如图6所示。

图6 传统存储架构与软件定义存储架构的比较

2025年10月，具备多元数据库承载能力的新一代zData X在金杯电工正式上线，帮助这家传统制造业巨头将其生产制造（MES）、供应链（SRM）、销售（CRM）、财务（ERP）等核心系统整合到新平台之上。系统完成重构迁移之后，数据库I/O性能较原架构提升了10倍，并且从超融合平台回收了148核CPU、17.7TB存储，让用户的资源得以充分利用，整体IT运行成本得到大幅优化。zData X提供的可视化智能运维平台更让数据库管理实现了现代化（如图7所示）。

图7 zData X在金杯电工的应用实践

06.

眺望：AI时代数据库机的新轮回

写完这段历史，不能不向前眺望。

当下，人工智能的浪潮正在深刻改写数据库与存储的版图。GPU加速数据库、向量数据库、AI原生数据库……一批专为AI工作负载设计的“新型数据库机”正在悄然涌现。有趣的是，这些新物种的核心思路，与1970年代数据库机研究者们的初衷惊人地相似：为特定的计算特征设计专用的硬件与软件协同方案。

倘若萧开美与德维特能够并肩站在今天，面对这一幕，或许会会心一笑：这场关于专用硬件与通用硬件的辩论，从未真正结束，也永远不会结束——因为它的本质，是人类永不停息地追逐计算极限的冲动。

历史的螺旋，还在转动。

参考文献：

专访史忠植研究员：二十多年前就开始做 Agent 研究的中国学者，InfoQ，2024-12-30，https://www.infoq.cn/news/vAy1biQtrhdHHWJqz97z

《中国数据库40年》，2017.10，清华大学出版社