语言
<< 返回文章列表

数据库一体机简史:从血脉相连到星火燎原的数据库革命

2026年4月20日
,
,
,
,
盖国强
8

如果说数据库机(DBC)是萧开美(David K. Hsiao)在技术上最重要的贡献,那么VLDB(International Conference on Very Large Databases,超大型数据库国际会议)则是他在学术组织上留给后世最重要的遗产。

01.

VLDB:萧开美开创的中美链接



20世纪70年代,萧开美在为兰德公司担任顾问期间,国防高级研究计划局(DARPA)的克雷格·菲尔兹(Craig Fields)提出了超大型数据库(Very Large Data Bases,即VLDB)的课题。为了探讨这一主题,萧开美提议组织一次关于超大型数据库的研讨会。萧开美的提议受到支持,并由他和兰德公司的斯托克顿·盖恩斯(Stockton Gaines)负责执行。

图1 VLDB图标

1975年,第一届VLDB国际会议(如图1)在美国马萨诸塞州弗雷明汉(Framingham)召开,萧开美成为发起者和奠基人之一。VLDB一经创立便广受欢迎。它的独特定位——专注于超大规模数据管理的工程与理论挑战——恰好填补了当时学术界的空白。随后几年间,VLDB迅速发展成为数据库领域全球最重要的学术盛会之一,与SIGMOD(ACM数据管理国际会议)、ICDE(IEEE数据工程国际会议)并称为数据库领域的三大顶级会议,延续至今已逾五十年。

萧开美开创了VLDB大会,也因此与中国产生了链接。

02.

西柏林的邂逅:铁幕裂缝中的学术春风



1978年,第四届VLDB国际会议在当时的西德西柏林(West Berlin)召开。此时,东西方之间依然隔着那道著名的柏林墙——这道于1961年8月13日在一夜之间拔地而起的隔离边界,将德意志民族一分为二。

西柏林,这块孤悬于东德腹地的西方飞地,以其独特的地缘政治地位成为冷战的象征。在这里,肯尼迪总统于1963年6月26日发表了那句著名的演讲:我是一个柏林人(Ich bin ein Berliner)。在铁幕依然高悬的1978年,选择在西柏林举办一场国际科学会议,本身就是一种宣示——学术交流可以超越政治边界,知识的自由流动不应受地缘政治的阻隔

图2 姚诗斌

这届大会的程序委员会主席是姚诗斌(S. Bing Yao,见图2)。彼时的姚诗斌,已是普渡大学(后转至马里兰大学)计算机系的知名学者,拥有密歇根大学博士学位,在数据库设计与查询优化1领域颇具建树。他是那种在学术与现实之间保持平衡的学者:既有严谨的理论功底,又有强烈的产业关怀;既懂得科学研究的纯粹,也理解技术推广的社会价值。正是这一气质,使他在担任大会程序委员会主席时做了一个在当时颇为大胆的决定。

1978年,中美关系正常化之前,两国之间的学术交流几乎是一片空白。然而,姚诗斌选择向中国学者发出邀请,并批准豁免其会议注册费——这在那个年代是一种非正式但极为重要的外交姿态。一封来自VLDB程序委员会的邀请函,意味着一扇窗口的悄然开启,而窗口那边站着一代如饥似渴的中国学者。

中国科学院随即响应,派出代表团参会。团长是中国科学院的陆汝钤2,成员包括中国科学院数学所的周龙骧、中国科学院计算所的崔蕴中两位教授。这是中华人民共和国历史上第一个正式参加国际数据库会议的代表团,具有里程碑式的历史意义。

在这次会议上,陆汝钤和周龙骧一行结识了萧开美、姚诗斌、苏岳威(Stanley Y. W. Su)、孔祥重(H. T. Kung)、叶祖尧(Raymond T. Yeh)、陈天机(Tien Chi Chen)等一批国际著名的华人数据库学者。这次在施普雷河畔的相遇,日后演变成了连接中美数据库学术界数十年的纽带,其深远影响远超与会者想象。

查询优化(Query Optimization)是数据库管理系统中最核心、最复杂的模块之一,负责为用户提交的声明式查询语句(如SQL)找到执行效率最高的物理执行计划。由于一条逻辑等价的SQL查询可以有数十乃至数千种不同的执行路径,而不同路径之间的性能差异可能达到数个数量级,查询优化器的质量直接决定了数据库系统的整体性能表现。现代查询优化器通常采用基于代价的优化(Cost-Based Optimization, CBO)策略,利用统计信息估算每种候选执行计划的I/O代价、CPU代价和网络代价,从而选择最优方案。

陆汝钤,1935年2月15日出生于上海,计算机科学家,中国科学院院士,中国科学院数学与系统科学研究院研究员,复旦大学教授、博士生导师。1959年,陆汝钤毕业于德国耶拿大学数学系,获得学士学位,同年进入中国科学院数学研究所工作,师从华罗庚院士,并在陆启铿院士指导下从事多元复变函数论研究。2003年获得华罗庚数学奖;2018年获得吴文俊人工智能最高成就奖。

03.

科学的春天:旋风九日与改革开放的序曲



图3 时代杂志封面

随后的1979年,是翻天覆地的一年。1月1日,中美两国正式建立外交关系;仅仅28天后的1月29日,邓小平副总理应卡特总统的邀请,踏上了美国的土地。这是中华人民共和国成立以来,中国最高领导人第一次访问美国,也是一个时代转折的象征性时刻。美国《时代》周刊的封面(如图3所示),在这一年的元旦刊印上了邓小平的面孔,配上了意味深长的题词:邓小平,中国新时代的形象(Visions of a New China)。

访美的九天后来被形容为“旋风九日”。邓小平与卡特总统的深入会谈,最终签署了《中美科学技术合作协议》和多项双边合作文件,向世界宣告了中国改革开放的决心与诚意。事实上,早在1978年3月,邓小平就在全国科学大会上发表了著名讲话,重申“科学技术是生产力”,并宣告中国迎来科学的春天。这两大历史事件前后呼应,构成了此后十年中国学者赴美访学热潮的历史底色。

这次历史性的访问,在计算机科学领域同样产生了直接的涟漪效应。中国政府随后邀请了多位旅美华人学者回国讲学,其中就包括在国际数据库界颇具声望的萧开美夫妇、IBM院士应鹤鸣夫妇,以及叶祖尧等人。当这些学者带着满箱的论文和讲义抵达北京时,等待他们的是如饥似渴的中国同行——那是一代人在“科学的春天”里迸发出的巨大求知热情,也是一个民族在深渊之后重新仰望星空的历史时刻。那些装在皮箱里的论文复印件,成为了连接东西方数据库学界最早的物质纽带。

04.

授人以渔:讲义、论文与数据库启蒙的漫漫长路



1979年,周龙骧会同上海中船总公司夏道衷、上海科技大学施振夏邀请苏岳威和埃里希(Erich J. Neuhold,德国国家信息技术研究中心主任)到上海和北京讲学一个月,并出版了讲义。这是来自大洋彼岸的顶级学者第一次将最新的数据库研究成果直接带到中国的课堂,其意义不亚于一次学术的登陆行动——在那个互联网还不存在、学术论文只能靠邮寄的年代,这批讲义的价值难以用今天的标准来衡量。

1980年,崔蕴中邀请姚诗斌来北京讲学一个月。这次讲学由中国科学院计算所主办,包括萨师煊在内的50多名中方数据库学者参与听课。萨师煊,这位被后世誉为中国数据库学科奠基人的学者,此前已于1978年在中国人民大学率先将“数据库”三个字写上黑板——那是数据库技术在中国学术界的第一个春天。而姚诗斌的来访,则将这个春天推进到了实质性的学术对话阶段。这次讲学的讲义出版后,成为了我国数据库领域最早的中文参考资料之一,对推动中国数据库技术的发展起到了启蒙作用。

从1979年开始,在邀请海外学者访华的同时,中国政府启动了大规模的海外访学计划。第一批公派留学生和访问学者陆续踏上赴美、赴欧的旅途,他们怀着改变国家命运的使命感,携带着国家的嘱托,走进了世界顶级大学的实验室。这其中,有一批人的目的地是数据库研究的重镇,而那里早已有几位同根同源的学长在等待着他们。

图4 史忠植

1980年,中国科学院计算技术研究所的史忠植3(见图4)前往俄亥俄州立大学,进入萧开美教授的实验室进行访问研究。与此同时,北京大学的何新贵4(见图5)也在萧开美的指导下开展数据库机的研究,并发表了一系列相关论文。后来,何新贵还曾担任中国计算机学会数据库专委会主任。

图5 何新贵

这批中国访问学者,用求知若渴的眼神,见证了数据库机研究的最鼎盛时期。他们带回国内的不仅是知识,更是一种面向前沿的研究方向与科学精神。

然而,历史总是充满戏剧性的转折。当萧开美因所在学校(美国海军研究生院)的军方背景而不再适合接待中国访问学者时,一场新的学术缘分悄然开启。

史忠植(1941—),江苏宜兴人,中国科学院计算技术研究所研究员、博士生导师,中国人工智能领域先驱。他1959年考入中国科学技术大学,毕业后成为中国科学院计算技术研究所范新弼教授的研究生,1968年留所工作。史忠植长期从事人工智能研究,涵盖专家系统、知识工程、机器学习、神经计算和智能体等领域,2013年获“吴文俊人工智能科学成就奖”。

何新贵(1938—),浙江浦江人,中国工程院院士(2001年),1960年北京大学数学力学系本科毕业,1967年研究生毕业,是我国计算机软件领域的第一代学术从业者,对中国的航天工业发展做出了突出贡献。何新贵还是北京大学信息科学技术学院首任院长,2019年被中国计算机学会授予终身成就奖。

05.

血脉:海外华人与中国数据库产业






在数据库机的历史中,有两位华人教授对中国数据库产业的发展产生了根本性的影响,他们是萧开美和姚诗斌。如果说萧开美是通过“让中国学者亲历数据库机时代”来播下种子,那么姚诗斌则是通过更直接的学术与人脉纽带,深度介入了中国数据库学者的成长。

姚诗斌是数据库系统研究领域的先驱学者之一。他在1977年发表了开创性论文"Approximating Block Accesses in Database Organizations",提出数据库查询优化和物理设计中的一个经典数学模型——姚氏公式(Yao's Formula)5。1981年,他与菲利普·莱曼(Philip L. Lehman)合作发表B-树并发操作的经典论文"Efficient Locking for Concurrent Operations on B-Trees",在其中提出了“Lehman-Yao算法”6

姚氏公式(Yao's Formula)是数据库领域中用于估算查询时需要访问的数据块(block/page)数量的经典公式。该公式基于概率论中的urn模型(urn models),用于在已知记录选择率的情况下估算需要读取的磁盘块数。"Approximating Block Accesses in Database Organizations"是数据库领域引用率极高的经典论文之一。

Lehman-Yao算法(B树并发控制)在B树节点中引入“右链接指针”(right-link pointer),使并发读操作(查询)无需加锁即可安全执行,同时写操作(插入/删除)仅需对极少数节点加锁,从而大幅提升B树索引在高并发场景下的吞吐量。Lehman-Yao算法已成为现代数据库系统(如PostgreSQL的nbtree模块)实现B树索引并发控制的基础算法之一,具有重要的工业应用价值。

1980年姚诗斌教授到北京讲学,冯裕才(后来的达梦数据创始人)就在课堂里认真听讲。后来姚诗斌教授还将他收集的数据库论文等材料寄给冯裕才,这些珍贵的文献资料,对达梦数据库的萌生和发展产生了关键影响。冯裕才将姚诗斌列为对他影响最大的三位美籍华人之一。姚诗斌主张实干,他在讲学时就提出,希望中国的老师、教授们不要只做理论研究,更应该“动手做一个数据库管理系统”

1982年,姚诗斌亲身践行了自己的学术主张,创立了XDB系统(XDB Systems)公司,开始动手做一个数据库管理系统。XDB公司研发的XDB-SQL产品是市场上最早能在PC(DOS和Windows环境)上实现与IBM大型机DB2高度兼容的数据库系统之一。XDB系统公司的企业级数据库产品——XDB Enterprise Server也在市场上获得了较广泛的应用。

1980年至1982年,何新贵、史忠植在萧开美处访问,主要研究当时的热点前沿课题——数据库机7,后来萧开美到美国海军研究生院任职后,限于该校的军方背景,国内访问学者无法继续跟随萧开美。于是,史忠植、罗大卫、夏道衷、刘玉梅等于1982年至1983年转到马里兰大学,在姚诗斌的实验室继续做数据库方面的研究。在姚诗斌的指导下,罗大卫和夏道衷也发表了关于数据库机的相关论文,如"Data language requirements of database machines"。此后,史忠植与罗大卫一起,参与开发了XDB数据库表格查询系统8

1984年,姚诗斌还邀请了刘云生、王珊等到美国研究访问。王珊到美国访问时,就在姚诗斌的团队参加了XDB Systems的开发,这段经历深深激励了她。1997年12月,XDB系统公司以约1650万美元的价格被微福思(Micro Focus)收购。2019年,姚诗斌宣布退休。

D. K. Hsiao, D. S. Kerr, A. Orroji, Zhongzhi Shi, P. R. Strawser, "The Implementation of a Multi-backend Database System (MDBS): Part I--An Exercise in Database Software Engineering", OSU, Proceedings of the International Workshop on Database Machines, Aug. 1982.

S. Bing Yao, A. Hevner, Zhongzhi Shi, Dawei Luo, "FORMANAGER: An Office Forms Management System", ACM Tans. on Office Information Systems, Vol.2, No.3, July 1984.

当姚诗斌在美国践行数据库理想的同时,他的中国门徒们也在高歌猛进,改写着中国数据库的历史。

图6 王珊

1999年,王珊(见图6)主持创建了北京人大金仓信息技术股份有限公司,这是中国第一家以数据库系统为核心业务的商业公司,开创了中国数据库产业化的先河。人大金仓(现电科金仓)以“十年磨一剑”的精神,成为国内金融、能源、电信等关键行业数据库的核心供应商,在国产数据库崛起的历史中写下了浓墨重彩的一笔。

图7 冯裕才

2000年,冯裕才(见图7)领导的武汉华工达梦数据库有限公司正式成立,并于2024年6月12日以“达梦数据”之名成功在上海证券交易所科创板上市,成为“国产数据库第一股”。从一摞异国邮来的论文,到上交所的敲钟时刻,这段历史本身就是一部关于坚持的史诗。

笔者是数据库领域的晚辈和后来者,但是也很荣幸从Oracle时代到国产数据库时代,与云和恩墨一起参与到这些前辈的探索过程中。图8左图是我与王珊老师在中国人民大学2011年联合组织中韩数据库交流会的现场;图8右图是我2010年到武汉达梦公司访问,与冯裕才老师在一起的合影。时光荏苒,岁月如梭,转眼十五六年已过,王珊老师已经退休,冯裕才老师仍然执掌达梦数据拼搏不息。

图8 盖国强与王珊(左图)、冯裕才(右图)在一起

2025年9月,我再次到访达梦公司,与冯裕才老师对话(如图9所示)并发布了相关视频。云和恩墨也与达梦数据签订了战略合作协议,在数据库一体机、数据库服务等领域展开深入合作。从2010年初访达梦到2025年再访达梦,转眼15年,中国数据库产业已经真正站立起来!

图9 冯裕才(左)与盖国强(右)在达梦会客厅座谈对话

06.

善举:姚诗斌的另一种回馈






技术与学术,是姚诗斌带给世界的公开贡献。数据库设计的论文、VLDB的学术舞台、XDB Systems的创业故事——这些成就,已经足以让他在信息技术的历史上占有一席之地。但还有一份馈赠,藏在中国西部一片片校园的砖墙里,藏在那些因为有了新教室而得以继续读书的农村孩子的眼神里。

2002年至2011年间,姚诗斌和他的妻子金联珠(Lien Yao)选择了一种最朴素的方式来表达对于中华文化的归属与责任:修建学校,让更多中国农村的孩子能够坐进明亮的教室里读书。他们通过美国中华基金会在中国捐建和资助超过20所小学(如图10所示),覆盖甘肃、宁夏、青海、内蒙古、陕西、河南等偏远省份,以另一种方式回馈他所挚爱的中国文化与教育事业。

姚诗斌认为:“中国现在不是没有钱,现在因为中国经济开发很快,民间和政府渐渐都有一些资金累积。这个资金应当放到最合适的地方去。我认为教育是为将来投资,出了人才就会在社会上起作用,尤其是偏远的地方。这种大规模的事情是需要政府行为才能做到。我们从个人角度出发也只希望能尽一点绵薄之力。政府行为更加重要。”

姚诗斌在家族基金出资声明中这样写道:

我们基金会的宗旨是为造福子孙后代,特别是弱势群体,做出慈善贡献。我们认为教育对改变人们的未来至关重要。因此,我们最初的项目重点是在中国农村地区建设小学。

这些项目是通过我参与的美国非营利组织——中华基金会实施的。我们的代表石晓林先生曾在中国教育系统工作多年。他投入了大量时间和精力走访农村学校,建立联系,并负责规划和监督项目进展。正是由于这种直接高效的运作,我们才能确保超过95%的捐款直接用于项目本身。


图10 姚诗斌先生捐赠的部分学校目录

所有善举都会被铭记。我在《会宁校史》一书中找到了关于姚诗斌捐赠的记录:

2007年4月,由石晓林老师搭桥,美国中华基金会姚诗斌、金联珠夫妇向学校(袁咀小学)捐赠12550美元,政府同比陪同,共投资人民币20万元,新建砖木结构校舍461平方米,使校容校貌、学校设施硬化建设大为改善。

会宁,一个甘肃省的山区小县,曾是中国工农红军三大主力长征胜利会师的历史之地,这里一次次制造“高考神话”,成为“状元县”。在这里,贫困家庭的孩子以惊人的勤奋刻苦,把大学录取率推向全国领先水平。会宁的孩子们知道,读书是改变命运的唯一出路,而在这片贫瘠的黄土高坡上,许多学校的教室还是危房,屋顶在雨天漏水,操场在冬天结冰。姚诗斌的捐助,让其中一所学校的孩子,有了一排新的砖木结构校舍。

血脉相连、赤子之心,萧开美、姚诗斌等前辈的贡献与回馈,让人想起周恩来总理那句振聋发聩的呐喊:为中华之崛起而读书!这句话,在他们身上,有了更深沉的技术注脚。

07.

从火种到星光:萧开美的家国情怀






2020年7月21日,萧开美先生辞世。

从俄亥俄州立大学的数据库机实验室,到蒙特雷海军研究生院的多数据库研究中心,萧开美的职业生涯是一段坚持不懈的探索与创新历程。在海军研究生院任职期间,萧开美主持创办了数据库系统研究实验室,将研究方向从数据库机扩展到多数据库系统9(Multi-database Systems)、异构数据库互操作(Heterogeneous Database Interoperability)等更广泛的领域。

多数据库系统(Multi-database Systems MDBS)指将多个独立的、异构的数据库系统整合成一个统一的逻辑整体,允许用户以透明方式跨越多个底层数据库进行查询和事务处理的系统架构。萧开美在美国海军研究生院主持的多后端数据库系统(MDBS)是早期代表性成果之一。MDBS的核心挑战包括:数据模型异构性(如关系型与层次型的互操作)、分布式事务的原子性保障、全局模式与局部模式的映射等。这一研究领域是现代联邦数据库(Federated Database)、数据虚拟化(Data Virtualization)和数据湖(Data Lake)架构的先驱思想来源。

纵观萧开美的学术生涯,有一条线索贯穿始终:对硬件与软件协同设计的执着,以及对数据库性能极限的永不满足。在数据库机时代,他相信专用硬件可以从根本上突破软件层面的性能瓶颈,用架构革命替代补丁式的调优;在多数据库时代,他关注如何让分布于不同系统的数据相互理解、协作工作,让信息的价值跨越孤岛。这两个方向,在今天的数据库领域都找到了各自的传承——前者化作了各种数据库加速器、智能存储和存算分离架构的理论基础,后者则演变成了联邦数据库、数据湖、数据网格等现代数据架构理念。

他的名字,将永远与数据库机这一伟大技术构想连在一起。在那个算力匮乏、I/O昂贵的年代,萧开美用工程师的直觉和理论家的眼光,提出了数据库机这一超越时代的解决方案。他提出的核心问题——如何让数据的存储与处理之间的鸿沟不再成为性能的天花板——在半个世纪后的今天,依然是数据库工程师每天都在面对的挑战。

他留下的那条连接中美数据库学界的纽带——从1978年西柏林会议上的握手,到中国访问学者在大洋彼岸汲取的知识养分,再到回国后在这片土地上燃起的一个个技术火种——已经深深编织进中国数据库产业的历史基因之中。

历史的星火不会熄灭,它会在一代又一代人的传递中,燃成越来越明亮的光。

参考文献:

http://www.intsci.ac.cn/gywm/