数据库一体机简史:德维特与微软的“复仇者联盟”
历史从不缺乏巧合,但有时候,巧合背后藏着深意。
01
原点:那一场让Oracle暴跳如雷的测试
故事要从1983年说起。
彼时,关系型数据库刚刚在商业市场崭露头角。Oracle、Ingres、DB2在各自的宣传材料上相互攻讦,性能数字满天飞,却没有人能搞清楚谁说的是真话。威斯康星大学麦迪逊分校的年轻教授德维特对此深感不满。在他看来,数据库领域急需一把客观的尺子。
于是,德维特和同事Dina Bitton、Carolyn Turbyfill共同设计了《威斯康星基准测试》1(Wisconsin Benchmark)——这是数据库历史上第一个系统性的标准化性能测试框架,涵盖连接查询、选择投影、聚合运算等核心场景。

图2 威斯康星基准测试结果
测试结果(参考https://danluu.com/anon-benchmark/,如图2所示)一出来,立刻炸了锅。
在无索引的连接查询中,大多数数据库的耗时在2到3秒之间,而Oracle——这家彼时已经号称“世界最强数据库”的公司——耗时均超过300秒。换算一下:Oracle比竞争对手慢了整整100倍以上。
拉里·埃里森(Larry Ellison)看到报告后,直接打电话给威斯康星大学计算机系系主任,声称:“你必须开除这个人!”
这在美国学术界几乎是不可能发生的——解雇一位因合法学术研究而得罪商业公司的终身教职教授,没有任何一所大学会这么做。埃里森的这一举动,不仅没有让德维特噤声,反而让自己在学术圈留下了一段奇耻大辱,被永远记录在案。
恼羞成怒的Oracle随即做了一件影响深远的事:在用户许可协议(EULA)中加入了一条条款,明令禁止任何人在未经Oracle书面授权的情况下发布针对其产品的基准测试结果。
这一条款随后被IBM、微软等主流数据库厂商效仿,并蔓延至整个软件行业,形成了长达数十年的“基准测试寒冬”。而业界给这类反评测条款起了一个响亮的名字——DeWitt Clause(德维特条款)。
没错——一个为了压制某人而设立的条款,最终被冠以此人的名字,在历史上永久流传。这大概是埃里森最不希望看到的结果。
据报道,Oracle事后还封禁了对威斯康星大学毕业生的招聘——尽管这一禁令后来悄悄解除。而德维特则继续在威斯康星大学任教三十余年,在并行数据库领域建立了无可撼动的学术地位,成为这一领域全球公认的奠基人之一。
这段梁子,就此结下。
1 威斯康星基准测试(Wisconsin Benchmark)是数据库历史上第一个系统化的性能评测标准,由David DeWitt、Dina Bitton与Carolyn Turbyfill于1983年在威斯康星大学麦迪逊分校设计,并以学术论文形式公开发表("A Measure of Transaction Processing Power"等系列论文)。测试覆盖选择(Selection)、投影(Projection)、连接(Join)、聚合(Aggregation)、排序(Sort)等关系数据库核心操作,使用随机生成的标准测试数据集,每个测试场景均有精确的行数、列数和数据分布定义,以使不同系统在相同工况下可被客观比较。威斯康星基准测试的方法论深刻影响了后续的TPC(事务处理性能委员会)基准测试体系的建立——TPC-A、TPC-B、TPC-C等标准均继承了其“公开、可复现、独立”的核心精神。该测试被认为是数据库学术界迄今最具影响力的方法论贡献之一,也是德维特学术声誉的奠基性工作。
02
乱局:数据仓库一体机的群雄争霸
时间来到2008年。
互联网数据量的爆炸式增长,把整个数据库行业逼上了一个难以回头的转折点。传统的对称多处理(SMP)架构,在处理百TB级别数据时显得力不从心。以Teradata、Netezza为代表的“数据库一体机”(Database Appliance)凭借“软硬结合”与“无共享(Shared-nothing)”的大规模并行处理(MPP)技术,在高端市场形成了对传统数据库产品的降维打击。
微软的处境最为尴尬。SQL Server在中低端市场表现不俗,但在高端数据仓库领域几乎缺席。Forrester Research分析师James Kobielus毫不客气地指出:“微软在并行数据仓库方面有点姗姗来迟,他们自己也知道这一点。”
“在IT市场,任何真正的颠覆性创新,先行者一开始都是专有技术。但当他们遭遇商品化平台的挑战时,商品化玩家总会获胜。总是如此。”
正是因为有了这样的商业判断,弗罗斯特在Netezza的创业历程中看到了创新缝隙。他认为Netezza的创新在于三点:一是利用开源数据库管理系统(Postgres)来降低工程成本、缩短上市时间;二是采用一体机模式,为数据库管理员(DBA)和系统管理员消除了一大复杂性来源;三是将传统的随机I/O转变为顺序I/O,这样可以使用容量更大、价格更低的SATA硬盘驱动器,从而实现了极具竞争力的性价比。但是,Netezza的战略存在一个重大缺陷——为了实现上述第三点,他们打造了一个高度专有的硬件平台,实际上也形成了一个专有软件平台(Postgres的成分所剩无几)。
研究Netezza的架构后,弗罗斯特意识到有机会在采用完全非专有平台的前提下,创造类似的价值主张。DATAllegro选择了开源的Ingres数据库作为核心引擎(早期曾用PostgreSQL,约18个月后成功迁移至Ingres),操作系统采用64位Linux,硬件平台完全基于Dell服务器、EMC存储和Cisco网络交换机等商用标准设备。Ingres曾是Oracle的有力竞争者,具有成熟的事务处理能力和范围分区(Range Partitioning)功能,这些特性对于数据仓库应用至关重要。DATAllegro方案的核心竞争力是Shared-Nothing MPP架构——这一架构模式最早由迈克尔·斯通布雷克(Michael Stonebraker)在1980年代提出,Teradata于1983年首次商业化实现。
DATAllegro的产品具有令人印象深刻的性能数据:数据加载速度可达1TB/小时,查询处理速度超过1.5TB/分钟。DATAllegro的性能不负其名——这一名字是由两个部分组合而成的复合词,Data是指数据,Allegro意为“快板”(源于意大利语,在音乐中表示快速、活泼的节奏)。Data和Allegro合并起来暗喻公司的数据仓库技术具有高性能、高速度的特点。图5是DATAllegro的产品架构图。

图5 DATAllegro产品架构
除了数据仓库产品,DATAllegro还于2007年推出了DR200在线归档设备。该产品单机架可存储200TB数据,每TB成本低于8,000美元——这个价格几乎把Teradata和Oracle逼得无处遁形。
微软在数据库领域向来善用“拿来主义”。早年通过与Sybase合作,获取了SQL Server的源代码起家;而在数据库一体机领域,这一次,微软盯上了DATAllegro。
2008年7月24日,微软宣布收购DATAllegro,收购价格为2.75亿美元。这笔交易于2008年9月16日正式完成。
DATAllegro的成功与斯图尔特·弗罗斯特的个人意志息息相关。他成长于一个创业家庭——父亲从事建筑行业——弗罗斯特最早的童年记忆之一,就是跟着父亲外出跑销售、催收账款。正因如此,他从小就从未想过要给别人打工。弗罗斯特于1984年开始为自己工作,并于1988年创办了第一家企业。在此后的32年里,他创办、管理或运营过31家不同的初创公司。他依靠一种独特的能力:识别市场需求、“串联线索”(connect the dots),并判断某项特定技术的应用如何才能创造出可行的解决方案。正是因为弗罗斯特强大的“串联线索”能力,他选择了采用通用技术去实现一体机的技术路线。
弗罗斯特出售公司被认为是技术圈的一个神级“逃顶”案例:他在雷曼兄弟破产(2008年9月)前的两个月,在全球经济彻底停滞前夕,成功套现2.75亿美元。如果再晚两个月,这场交易几乎不可能完成。
从财务角度看,这笔交易颇为昂贵——收购时DATAllegro的公开客户数量极少,2.75亿美元相当于其营收的约26倍,为种子轮投资者带来了36倍回报。但对微软而言,买的不只是产品,更是时间和技术路线。
微软数据与存储平台部门副总裁Ted Kummert表示:“DATAllegro是一家极具创新性的公司,已经开始重新定义数据仓库市场。微软SQL Server 2008在业务智能和数据仓库方面提供了企业级能力,而DATAllegro团队及其技术的加入将把我们的数据平台推向最高规模的数据仓库。”
但真正让这场收购在业界引发震动的,是另一件几乎同时发生的事情。
03
归来:德维特的“二次入局”与最完美的复仇
2008年4月22日——距离微软宣布收购DATAllegro整整三个月前——微软官方宣布:威斯康星大学麦迪逊分校数据库系系主任、荣誉教授、并行数据库领域全球顶级学者,戴维·德维特,正式加入微软,担任技术院士(Technical Fellow)。
德维特在威斯康星执教整整32年。他是Gamma数据库系统2的发明者——这个诞生于1980年代的原型系统,奠定了现代并行数据库的技术基础,其核心思想至今仍活跃在每一款MPP产品中。他获得过ACM SIGMOD Edgar F. Codd创新奖3,入选美国国家工程院院士,在数据库领域的学术地位无出其右。
更重要的是,他是那个25年前被拉里·埃里森试图“开除”的人。
现在,他选择加入微软——Oracle最强劲的竞争对手——亲自下场,参与设计足以与Oracle正面对抗的产品。历史的幽默感,莫过于此。
德维特加入微软后,主导了两件事:一是在威斯康星州麦迪逊市设立吉姆·格雷系统实验室(Jim Gray Systems Lab),以纪念早年失踪的数据库传奇人物吉姆·格雷;二是领导代号为「Project Madison(麦迪逊项目)」的技术攻坚工程。
"Madison"同时代表了一座城市(威斯康星州麦迪逊市,德维特深耕数十年的学术根据地)和一个人(德维特本人,麦迪逊项目的核心)。整个代号,既是对一座城市的致敬,也是对这位并行数据库奠基人的庄严礼遇。
麦迪逊项目的目标清晰而艰巨:把DATAllegro在Linux+Ingres技术栈上跑出的MPP能力,移植到Windows+SQL Server的生态体系中,同时保持与现有SQL Server工具链的完全兼容。
这相当于在保留赛车底盘和变速箱的前提下,把发动机、控制系统和燃料体系全部换掉。
2 Gamma数据库系统是由David DeWitt领导的威斯康星大学研究团队于1980年代中期至1990年代初期开发的并行关系数据库原型系统,被普遍视为现代MPP数据库架构的直接技术前身。Gamma首次在学术环境中系统验证了Shared-Nothing MPP架构在关系数据库场景下的可行性与高效性,涵盖并行查询执行、并行数据加载、哈希分区(Hash Partitioning)与范围分区(Range Partitioning)、并行连接算法等核心技术。Gamma项目最初运行在由50台工作站构成的自研互联网络之上,后迁移至商用网络硬件。其研究成果通过系列论文广泛传播,直接影响了Teradata、Tandem NonStop SQL等商业系统的设计,并通过培养出的大批研究生在业界产生了持续的代际影响。DATAllegro、SQL Server PDW,乃至现代云数据仓库中的分布式执行引擎,都可以在技术谱系上追溯到Gamma的思想遗产。
3 ACM SIGMOD Edgar F. Codd创新奖(ACM SIGMOD Edgar F. Codd Innovations Award)是数据库研究领域最高荣誉之一,由美国计算机协会(ACM)下属的数据管理特别兴趣小组(SIGMOD)设立,以关系数据库理论奠基人Edgar F. Codd的名字命名。该奖项每年颁发一次,授予在数据库领域做出持续性、深远技术创新贡献的研究者。历届获奖者包括Michael Stonebraker、Jim Gray等数据库领域的传奇人物。David DeWitt因其在并行数据库领域的奠基性贡献荣获此奖。
04
攻坚:让SQL Server“感知”到集群
SQL Server是一个典型的单机数据库,它对自身所在的节点视野之外的世界一无所知。在MPP集群中,每个节点上运行着一个SQL Server实例,但这些实例彼此之间并不直接通信——它们需要一个中间层来统一调度。
德维特领导的团队主持设计了两个核心组件:
-
分布式查询优化器(Distributed Query Optimizer):负责把用户提交的SQL查询拆解成可在多个节点并行执行的子任务,并在执行计划阶段考虑数据分布和网络代价。
-
数据移动服务(Data Movement Service, DMS):在节点间高效传输中间结果,确保分布式连接、聚合等操作能够正确完成。
这两个组件后来成为SQL Server Parallel Data Warehouse(PDW)最核心的竞争力,也是微软在MPP数据仓库领域区别于Oracle Exadata的技术差异化所在。Exadata通过智能存储卸载计算压力;而PDW则通过精密的分布式调度,让廉价商用硬件集群迸发出与专有硬件相当的性能。
05
交锋:麦迪逊 vs Exadata,德维特正面迎战
就在微软进军数据仓库领域的同时,Oracle也行动了起来。这让战局愈加激烈。
2008年9月24日,就在Oracle OpenWorld大会上,拉里·埃里森面对约43,000名与会者,亲自发布了一款震撼业界的产品——HP Oracle Database Machine(即后来的Oracle Exadata第一代)。Exadata是Oracle面向数据仓库领域推出的产品,直接与Teradata和Netezza竞争,而彼时,微软还不在这一赛道上。埃里森亲自站台,宣称Exadata是“世界上最快的数据仓库机器”,称其查询速度比竞品快数十倍。这是Oracle进军硬件市场的标志性一步,也是其软硬件一体化战略的首次亮相。
Exadata的技术理念与DATAllegro不谋而合,那就是:采用通用硬件,而不是定制硬件。在软件上,Exadata采用了Oracle独有的智能存储技术,将部分SQL处理下推到存储层执行,大幅降低了数据移动量。这一架构与Netezza的FPGA加速方案在技术路线上截然不同,但殊途同归——都在挑战传统SMP数据库在大规模分析场景下的局限性。
Oracle进军硬件,意味着这场竞争已经不再只是软件之战。
而微软——那个在高端数据仓库领域一直缺席的玩家——此时正悄悄地布下一盘棋局。棋局的中心,是一个它的老对手Oracle最不愿意看到的名字。
德维特看着这一幕,大概想起了25年前自己发布的那份测试报告。
2009年8月,微软发布了麦迪逊项目的首个技术预览版,相较于DATAllegro的原始Linux+Ingres方案,在Windows+SQL Server平台上实现了5倍的性能提升。
有一件颇为讽刺的事:当SQL Server PDW与Oracle Exadata展开市场竞争时,两家公司的产品合同里都白纸黑字写着——禁止发布针对本产品的基准测试结果。
这条当年Oracle为了压制德维特而发明的条款,现在连微软自己的产品也遵循着。而德维特——那个因为让Oracle无处遁形的测试报告而被埃里森试图解雇的人——如今成了微软的技术院士,在一家必须遵守“德维特条款”的公司里,主持设计与Oracle竞争的产品。
历史有时候真的很难不让人苦笑。
06
传承:从PDW到Azure Synapse,技术基因的延续
DATAllegro虽然只独立运营了短短5年(2003—2008),但其技术基因在微软体系内延续了将近二十年。
DATAllegro技术演进时间线:
| 年份 | 重要事件 |
| 2003 | DATAllegro成立,采用开放式MPP架构挑战Teradata、Netezza等专有系统。 |
| 2007 | DATAllegro V3发布;推出DR200在线归档设备,每TB低于8,000美元。 |
| 2008.4.22 | 德维特加入微软,担任技术院士,创立吉姆·格雷系统实验室(麦迪逊)。 |
| 2008.7 | 微软宣布以2.75亿美元收购DATAllegro。 |
| 2008.9 | Oracle发布Exadata第一代(HP Oracle Database Machine);微软完成DATAllegro收购。 |
| 2008.9 | 微软启动Project Madison(麦迪逊项目),德维特主导技术攻坚。 |
| 2009.8 | 麦迪逊项目发布首个技术预览版,性能较DATAllegro原版提升5倍。 |
| 2010.12 | SQL Server 2008 R2 PDW正式发布,与Oracle Exadata展开正面竞争。 |
| 2015 | PDW演进为Microsoft Analytics Platform System(APS)。 |
| 2015.12 | Azure SQL Data Warehouse发布,PDW技术迁移上云。 |
| 2019 | Azure Synapse Analytics发布,数据仓库与大数据分析融合为统一平台。 |
| 2023 | Microsoft Fabric发布,全面进入SaaS模式分析平台时代。 |
DATAllegro确立的“开放式MPP”设计哲学,对整个行业产生了深远影响:
-
验证了商用硬件的可行性:用标准x86服务器、标准网络和存储构建高性能数据仓库,为Hadoop、云数据仓库的兴起铺平了道路。
-
开创分层架构先河:“开源数据库+专有并行层”的模式,后被Greenplum(PostgreSQL)、Aster Data(Ingres)等厂商效仿。
-
推动行业降本:每TB低于8,000美元的定价(2007年),迫使Teradata、Oracle等传统厂商重新审视定价策略。
DATAllegro的创始人斯图尔特·弗罗斯特随收购加入了微软公司,他在微软工作了两年,期间领导的数据仓库团队创造了约10亿美元的年收入。他最初为产品确定的开放集成理念最终让微软获得了巨大的成功,他曾经预言两者的整合将非常容易:
“不会像博客圈一些人预测的那样需要数年。从我们已完成的整合工作来看,实际上会发现这将非常直接。所有接口都已经存在,比如API。我们不需要修改SQL Server中的一行代码。”
这一预言,随后被麦迪逊项目团队在实践中验证。
2016年,在微软任职8年之后,戴维·德维特也离开了微软。
07
回响:zData在中国的通用之路
太平洋彼岸的故事并未就此终结。DATAllegro确立的“开放式MPP”设计哲学穿越重洋,在太平洋另一侧的中国市场找到了遥远的回响。
2014年,云和恩墨在国内率先推出第一代Oracle数据库一体机zData,开创性地采用分布式存储承载Oracle数据库,以经济、稳定、高效的方式成倍提升了Oracle数据库的性能表现,迅速在保险、证券、运营商等行业得到广泛应用。这一时间节点比DATAllegro被收购晚了约六年,但方向上与斯图尔特·弗罗斯特所倡导的“通用硬件+开放集成”理念一脉相承——用标准x86服务器取代专有硬件,用软件定义存储取代传统SAN,以更低的总拥有成本(TCO)实现可与Oracle Exadata正面竞争的性能。zData的诞生,本身就是DATAllegro的哲学思想穿越时空的中国回响。
zData的演进,本身也是中国数据库生态变迁的缩影。2014年至2022年间,国内企业数据库架构以Oracle为单一核心,zData精准对接了那个时代的主流需求;但随着信创政策的推进和国产数据库的崛起,企业数据库架构从“单一商业数据库”快速向“商业+开源+国产多元混合架构”迁移。2023年,云和恩墨推出全新一代zData X,将技术路线从Oracle专属一体机升级为真正的多元通用平台。
zData X的核心技术内核与Exadata、PDW一脉相承:基于自研的分布式块存储软件zStorage,融合NVMe全闪存架构与InfiniBand高速网络(100Gb/s),实测可达2000万tpmC的极致性能,支持快照、克隆、多副本等企业级可靠性保障,实现“业务不中断、数据不丢失”的承诺。但zData X真正突破之处,在于它打破了Oracle Exadata的生态封闭性——通过开放存储接口,实现了Oracle、MySQL、PostgreSQL、达梦、OceanBase、openGauss等数十种商业、开源与国产数据库的统一承载,真正践行了DATAllegro所预言的“商品化玩家总会获胜”这一历史逻辑。
从技术谱系上看,zData X继承了两条清晰的脉络(如图7所示):其一,是DATAllegro所开创、PDW所延续的“通用硬件+开放并行层”架构哲学;其二,则是德维特在威斯康星基准测试中所秉持的“开放评测、让数据说话”的精神——zData X不绑定特定数据库厂商,以客观的性能指标服务各行各业,让用户在充分透明的信息下自主选择。这种精神,与四十多年前那位在Oracle EULA(最终用户许可协议)面前拒绝沉默的年轻教授,在本质上并无二致。

图7 zData X在技术谱系上继承的两条脉络
云和恩墨副总经理熊军曾言:“云和恩墨的zData X要做的,是打破这种封闭性。”这与斯图尔特·弗罗斯特在2003年创立DATAllegro时的商业判断高度共鸣——“任何真正的颠覆性创新,先行者一开始都是专有技术。但当他们遭遇商品化平台的挑战时,商品化玩家总会获胜。总是如此。”从弗罗斯特到熊军,从DATAllegro到zData X,这条跨越太平洋的开放之路,已经在越来越多的中国企业中得到验证。
从美国的DATAllegro到中国的zData,从Exadata到Azure Synapse再到zData X,这场关于“通用与专用”“开放与封闭”的争论,已经走过了四十余年。而它的核心,从未改变——正是一位威斯康星的年轻教授在1983年所坚持的那句话:“用一把客观的尺子,让事实说话。”
08
尾声:历史的注脚
2021年,云数据仓库新贵Databricks宣布废除产品合同中的“德维特条款”,并公开呼吁整个行业效仿。Snowflake随即跟进。这一动作,被许多人视为数据库行业对那段压制历史迟来的告别——一场从1983年延续至21世纪、关于数据库评测权的漫长解冻。
而Oracle——截至本文写作时——仍然保留着“德维特条款”,现行合同中依然规定:未经Oracle事先书面同意,不得披露任何基准测试结果(You may not disclose results of any Program benchmark tests without Oracle's prior written consent)。
今天,当我们使用Azure Synapse Analytics处理PB级数据时,其底层依然可以看到DATAllegro最初设计的影子——Shared-Nothing MPP架构、商用硬件理念、将复杂并行处理对应用开发者透明的核心思想。而这一切,经由德维特之手,被注入了微软产品线的血液之中。
一位教授,因为说了真话,被一家公司试图毁掉职业生涯;二十五年后,他加入了那家公司最强劲的竞争对手,亲手打造了足以撼动前者市场地位的产品。
这不是复仇,这是历史。



