数据库一体机简史:奠基一体机技术的华人双子星
数据库机设想的最早提出者是丹尼尔·斯洛特尼克(Daniel Slotnick)1。而真正将数据库机推进到完整设计阶段的是两位华人学者——苏岳威(Stanley Y. W. Su)和萧开美(David K. Hsiao)。
01.
最初构想:来自并行计算的畅想
1965年,斯洛特尼克重返学术界,在伊利诺伊大学香槟分校启动了震撼业界的ILLIAC IV项目并担任其主任。ILLIAC IV是世界上第一台大规模并行计算机,但其运行速度在1981年关闭之前的约八年间依然位居全球最快。正是在主导ILLIAC IV的研究过程中,斯洛特尼克敏锐地意识到:并行处理的思想同样可以被移植到数据库领域——如果能让存储器的每个磁道2都配备一个“小脑”,就可以在数据流动到主机之前,在本地完成大量的过滤和搜索。
斯洛特尼克于1970年在论文《逻辑处理与每磁道设备》(Logic per Track Devices)中正式提出了将逻辑处理与存储设备的读/写磁头相关联的想法。他设计的基本动机是能够在大规模存储单元上直接搜索数据库,从而限制需要传输到主机进行进一步处理的数据量——这一“近数据计算”(Near-Data Processing)的理念,在半个世纪后依然是现代数据库一体机的技术基石。斯洛特尼克的想法由詹姆斯·帕克(James Parker)、纳夫塔利·明斯基(Naftaly Minsky)和贝赫鲁兹·帕哈米(Behrooz Parhami)等科学家进一步发展。尽管这些努力均未产生数据库机实现的全面提案,但为后续工作提供了思想源泉。
1 丹尼尔·斯洛特尼克(Daniel Slotnick)于1931年11月12日出生于纽约市,在哥伦比亚大学学习数学,1951年获得学士学位,1952年获得硕士学位。1952年毕业后,他加入了位于新泽西州普林斯顿高等研究院的冯·诺伊曼领导的电子计算机项目组。正是在这个开创性的项目中,他学习了逻辑和硬件设计的基础知识,并与计算机领域建立了持久的联系。也正是在这里,他产生了关于集中控制并行计算机的最初构想。1954年,斯洛特尼克离开普林斯顿继续深造,于1956年在纽约大学库朗研究所获得应用数学博士学位。在普林斯顿大学担任一年研究助理后,他加入了位于纽约州波基普西的IBM开发实验室。1965年,他重返学术界,启动了ILLIAC IV项目并担任其主任。ILLIAC IV在伊利诺伊大学设计、商业化制造并安装在NASA,其运行速度达到每秒约三亿条指令。斯洛特尼克于1962年获得AFIPS奖,1965年担任卡内基梅隆大学的年度梅隆讲师,并于1976年当选为IEEE会士。斯洛特尼克于1985年10月25日去世。
2 磁道是盘片上的一个同心圆环数据轨迹。斯洛特尼克的概念是在每个这样的圆环(磁道)上配备独立的处理逻辑,使得数据可以在存储层直接进行筛选和处理,而不需要全部传输到主CPU。这种细粒度的并行处理架构,是数据库机(Database Machines)和近数据处理(Near-Data Processing)的早期先驱。由于一个柱面包含多个磁道(每个盘面一个),如果所有磁头对齐,可以同时读取一个柱面的所有磁道,实现并行处理。
02.
细胞系统:苏岳威与CASSM数据库机
1973年,苏岳威与合作者乔治·科普兰(George P. Copeland)和利波夫斯基(G. Jack Lipovski)联合发表了数据库机历史上的里程碑式论文——《CASSM的体系结构:一种用于非数值处理的细胞系统》(The Architecture of CASSM: A Cellular System for Non-numeric Processing)。这篇论文发表于第一届国际计算机体系结构研讨会(ISCA 1973),是当时学术界最顶级的硬件研究舞台。
CASSM是第一个完整的数据库机设计。它的全名是"Context Addressed Segment Sequential Memory"(上下文寻址段顺序存储器),提出了一种“面向非数值信息处理的存储与计算体系结构”,专门用于解决传统计算机在处理非数值数据(如大规模文本检索、数据库查询)时的效率瓶颈。
CASSM的设计理念令人耳目一新:采用固定磁头磁盘作为存储介质,每个读/写磁头关联一个简单的处理单元,形成“存储-计算”深度耦合的细胞阵列。所有处理单元由单个主控处理器统一协调,负责与主机计算机通信、向各处理单元分发指令,并整理和处理中间关系和结果关系。系统可以支持网络模型、层次模型和关系模型三种数据模型,体现了极高的前瞻性。CASSM的精妙之处在于:数据不再需要“跋山涉水”赶到CPU面前才能被处理,而是在存储介质旁就能完成大部分过滤和运算,大幅削减了主机与存储之间的数据搬运量。
苏岳威在1975年的VLDB大会上再次发表了针对超大型数据库的CASSM改进方案3,进一步巩固了其在数据库机领域的学术地位。1977年至2005年间,苏岳威在佛罗里达大学创立并长期担任数据库系统研究与发展中心(Database Systems Research and Development Center)主任,将CASSM的思想不断深化与推广。
CASSM系统是第一代数据库机的雏形,对后来的RAP(Relational Associative Processor,关系联想处理器)和RARES系统设计产生了深远影响,被学界公认为数据库机领域“架构思想期”的奠基之作。RAP由加拿大多伦多大学的埃尔汗·奥兹卡拉汉(Erhan Ozkarahan)等人于1975年提出。RAP也是一种背端数据库机,采用与磁道关联的“细胞处理器”结构,直接在磁盘旁处理关系运算。CASSM、RAP与DBC(Database Computer,数据库计算机)共同构成了1970年代数据库机研究的“铁三角”,它们的思想奠定了此后数十年商业数据库一体机的理论基础。
3 Stanley Y. W. Su and G. Jack Lipovski, "CASSM: A Cellular System for Very Large Data Bases", Proceedings of VLDB 1975, Framingham, Massachusetts, 1975. Semantic Scholar
03.
数据库机:萧开美的超大规模数据处理探索
1970年代初,萧开美加入俄亥俄州立大学(Ohio State University),开始专注于计算机系统架构与数据库技术的交叉研究。彼时,摩尔定律的“红利”已经开始显现,但数据量的增长速度更快。面对这一矛盾,萧开美敏锐地意识到:仅靠软件优化已难以为继,必须从硬件体系结构上重新思考数据库的处理方式。
当时数据库领域的前沿是如何处理超大规模的数据量。1975年,萧开美在美国国防高级研究计划局(DARPA)的支持下,创立和发起了VLDB会议,开始研究超大型数据库(Very Large Databases)的数据处理问题。处理超大型数据库,事实上就要研究如何在软件和硬件之间进行平衡。
在美国海军研究办公室(Office of Naval Research)的资助下,萧开美于1975年左右开始系统性地研究数据库机。随后,他在1976年以惊人的速度和深度完成了一系列奠基性研究报告。
萧开美是DBC概念的早期提出者之一,他的DBC设计雄心勃勃,所构想的数据库机挑战的存储容量是10GB。今天的读者看到这个数字或许会莞尔,但要知道,在1976年,硬盘的容量是以MB来量度的,10GB在当时已经是超大规模的数据库,足以令当时所有的数据库软件都“望洋兴叹”。更重要的是,这仅仅是一个开端——正如我在前面文章中所介绍的,此后的一体机是以TB、PB、EB乃至ZB为愿景的,存储容量的量级提升了数百亿倍,而“让计算靠近数据”的核心哲学从未改变。
4 David K. Hsiao, "The Architecture of a Database Computer" (three-volume technical report), The Ohio State University, OSU-CISRC-TR-76-1, OSU-CISRC-TR-76-2, OSU-CISRC-TR-76-3, September-December 1976. 收录于Hsiao (ed.), "Collected Readings on a Database Computer (DBC)," 1979.
在1977年的VLDB大会上,萧开美发表了"Database Machine Architecture in the Context of Information Technology Evolution",进一步阐述了从数据库机到数据库计算机的历史必然性。与此同时,《俄亥俄州立大学校报》也在1977年5月报道了萧开美的工作,标题为《教授发明数据库计算机》(Prof invents database computer),称这一发明“将有一天让传统计算机走向过时”。这种夸张的预言虽然并未完全成真,但确实折射出彼时学术界对数据库专用硬件的强烈期待。图5是《俄亥俄州立大学校报》的报道全文,其主要内容如下:
俄亥俄州立大学的一位教授和他的一名前学生发明了一种计算机,这种计算机有朝一日可能会使传统计算机走向淘汰。这台新计算机被称为“数据库计算机”,由计算机与信息科学系教授萧开美和其前学生、现任职于IBM公司的Richard I. Baum共同设计。
萧教授表示,这台新计算机专门为存储和处理大量信息而设计,而非用于数值运算。他说:“过去,人们将计算机作为一种计算工具使用,也就是说,通过数字运算得出同样是数字的结果。做那类工作,你需要一台运算速度非常快的计算机,但它并不需要很大的‘在线’存储容量。”
近年来人们逐渐转向一种新型的计算方式——这种方式要求计算机不仅能够存储信息,还能在用户需要时随时调取。保险公司用这类系统来保存被保险人的档案,航空公司用它来管理订座名单。这类计算需要一台拥有非常大的“在线”存储容量、同时响应速度与传统计算机相当的计算机。
萧教授表示,通过将成熟技术与新兴技术相结合,他的计算机不仅能满足上述两项要求,还能提供一套更为完善的机制,用于保护计算机中存储的敏感信息。他指出,传统计算机无法将同一计算机文件的不同部分分配给不同用户使用。

图5 俄亥俄州立大学校报报道
与美国海军的合作带来了丰厚的科研成果。在这一时期,萧开美成为了数据库机领域的绝对权威。学术上的进展也悄然改变了萧开美的人生轨迹:1982年,他加入了美国海军研究生院(Naval Postgraduate School),在那里工作直至退休。这一学校的军方背景,在后来深刻影响了中国学者赴美访学的去向——这是后话,我将在后面的篇章中详述。
04.
产学研用:推动Teradata创立融资的专刊
1975年,萧开美还作为创始主席,发起成立了IEEE计算机学会数据库工程技术委员会(Technical Committee on Database Engineering, TC/DBE)。这个委员会的创始成员阵容堪称豪华,包括查尔斯·巴赫曼(Charles Bachman,网状数据库模型之父、1973年图灵奖得主)、埃德加·科德(E. F. Codd,关系数据库之父、1981年图灵奖得主)、王佑曾(Eugene Wong,加州大学伯克利分校教授,Ingres数据库共同发明人)、姚诗斌(S. B. Yao,马里兰大学教授)等数据库领域的顶尖学者。
一、为了可靠性
数据库管理软件的复杂度和规模与日俱增。规模庞大、结构复杂的软件系统容易出现故障,而硬件的功能验证、设计验证和生产验证方法早已成熟。将基本数据库管理功能集成到硬件中,不仅能提供更可靠的基础功能,还能降低软件复杂度、缩小系统软件规模,从而提升整体软件可靠性。
二、为了性能
传统计算机系统并非为数据库管理而设计。将数据库管理功能移交给专用硬件处理,可显著改善响应时间。冯·诺伊曼型计算机也可因此回归其本职——程序编制与执行——并有效利用释放出的CPU时钟周期。通用计算机与专用数据库计算机均可由此实现高性能运行。
在20世纪60年代,当时制约数据库计算机实现的主要障碍是数据库研究的不成熟和硬件技术的不足。而随着技术的进步,这些制约条件逐渐消除,使得数据库计算机的实现成为可能。
萧开美为数据库计算机的设计列下了基本原则,包括:
大存储容量
01
数据库存储的在线容量应在10⁹~10¹⁰字节范围内;结构信息设备的在线存储容量应在10⁷~10⁸字节范围内。
智能检索与更新
02
访问频繁的结构信息,需要一套速度更快的内容可寻址存储体系。为此,新兴的电子存储器与微处理器是可能的解决方案。
创新的体系结构方案
03
由于数据库计算机是专用机器,其设计与配置需要非传统方法。设计与配置须考虑三个因素:(a)功能专用化;(b)利用新技术;(c)兼容新功能。
支持多数据模型
04
当前领域内至少存在三种主流数据库管理系统(分别为层次型、网络型和关系型),新型计算机必须支持这三类数据库管理功能。
无需依赖遥远的技术
05
对高性能、低成本数据库计算机解决方案的需求是当下迫切的。因此,任何数据库计算机设计都不应依赖尚在遥远未来的技术。
萧开美在1977年写下的这些文字,直至今天仍然是数据库一体机设计的重要参考。例如,他对多数据模型支持的提案就激励了云和恩墨zData产品不断向通用数据库支持进行创新,并且在业内率先实现了“多元数据库一体机”架构。
萧开美曾多次在出差途中与谢默相遇。谢默的公司(即Teradata)就在洛杉矶机场附近,萧开美几乎每次途经都会碰到他。按照萧开美后来的回忆,谢默当时“正在和一名空姐约会”,谈笑风生,意气风发。谢默对萧开美说,他把那本《数据库机专刊》买了一批,分发给他的投资人,告诉他们:
“有一种东西叫做数据库机。它来了,它来了!是萧开美说的。我想创办一家公司,向大型公司销售这种机器,因为他们有非常大的数据库,比如纽约的花旗银行。”
这段话成了Teradata融资路演的关键推销词。一位数据库机领域权威学者的学术背书,让那些商界投资人看到了数据库专用硬件的巨大市场潜力。Teradata由此完成了早期融资,并于1984年推出了标志性产品DBC/1012(Database Computer/1012)——一台基于大规模并行处理架构的关系型数据库机。DBC/1012的第一台测试系统交付给了富国银行(Wells Fargo Bank),而花旗银行则成为这款机器的重要早期客户。1986年,DBC/1012被《财富》杂志评选为“年度产品”,在数据仓库时代正式到来之前,它早已悄然驻扎在美国最大金融机构的机房之中。
作为回报,Teradata后来每年都向VLDB基金会捐赠500至1000美元的赞助经费,支持这一国际学术会议的持续发展。一本学术专刊,一次机场偶遇,改变了整个行业的走向,这大概是萧开美当初策划组织那本IEEE专刊时始料未及的。
05.
创新意志:是开始还是停止
萧开美的工作极大地推动了数据库机领域的发展,他也成为这个领域当之无愧的先驱人物。然而产学研的结合就在于此,学术界的研究成果最终要在工业界变成现实,驱动社会应用进步,成为真正的生产力。
萧开美看到Britton-Lee和Teradata已经开始投入数据库机的生产实践,就结束了数据库机的研究。他甚至还劝阻了一家公司进入相同的领域,在回忆中他谈到:
“我还去洛杉矶访问了另一家数据库公司,他们试图使用与Britton-Lee相同的主意在一台独立的小型计算机上重新实现SQL。我对负责人说,‘你不应该这样做。首先,你已经有一个Britton-Lee这样的既定竞争对手。他们已经有一个系统,正如你想要做的那样运行。等到你的系统完成时,还不清楚你的系统是否会比Britton-Lee的系统表现得更好。从功能和逻辑上讲,你正在做完全相同的事情——SQL事务,仅此而已。所以为什么你想在不同的小型计算机上做同样的事情呢?此外,开发成本至少需要一百万或两百万美元。你需要至少六个月到一年的时间来完成软件。’我想他们下周就关闭了公司,解雇了所有人。”
萧开美的观点非常明确而且充满真知灼见,那就是:如果你的产品毫无创新之处,只是在重复先行者的路线,并且失去了先发优势,你要想好是不是还要开始。这一警句,在半个世纪后的今天,对于众多正在进入某个赛道的创业者仍然有振聋发聩的警示意义。
云和恩墨作为这些华人先驱创新意志的继承者,也一直在思考如何通过创新让数据库一体机的道路可以更持久地为用户创造价值。
从自研zStorage开始,云和恩墨就一直坚持软硬解耦,从而让用户可以透明地获得成本优势。其次,云和恩墨将zData打造成了通用数据库一体机,以平台化方式支持通用数据库产品,大幅简化用户IT基础设施的管理复杂度。
但是这些还不是最关键的,关键在于性能密度,也就是说,以同样的成本能够为用户带来多少的价值输出。萧开美认为数据库机的两大价值在于:可靠性和性能。云和恩墨遵循萧开美的先驱洞察,持续在可靠性和性能上进行研发投入。
2025年9月,云和恩墨发布了zData X 3.5版本。这一版本在3个存储节点的配置下,4KB随机读IOPS已达1100万,实现了行业引领性的性能指标,相较传统存储方案实现了数量级的性能跃升,彻底将数据库的I/O瓶颈豁然解开(如图8所示)。此外,通过分布式块存储软件的数据压缩技术,zData X可实现2至10倍的数据压缩比,且几乎不影响I/O性能,这切切实实地为用户削减了存储成本。

图8 zData X的I/O性能优势
数据库机要解决的核心挑战,正是I/O能力的不足——当CPU按照摩尔定律高速进化时,计算机系统的瓶颈转移到了存储上;而zData,正是要通过持续优化与集成创新,重新将计算的瓶颈推回到CPU端——这,正是先驱们50多年前就构想的那条披荆斩棘的探索之路。
06.
永无止境:从数据库机到数据库一体机
从1970年斯洛特尼克的“每磁道逻辑处理”构想,到1973年苏岳威的CASSM细胞系统,到1976年萧开美的DBC三卷本架构研究,到1981年Britton-Lee推出的第一台商用数据库机IDM 500,再到1984年Teradata的DBC/1012,数据库机经历了从理论到实践的第一次“大航海”。
进入2000年代,随着互联网数据量的爆炸式增长,Oracle Exadata于2008年横空出世,以软硬件深度集成的方式重新定义了数据库一体机。而在中国,云和恩墨沿着先驱者的足迹,以zData走出了一条软硬解耦、通用平台、高性能密度的自主创新之路。
历史证明,每一代数据库机的革命,都是在上一代技术的局限与下一代技术的可能性之间,由那些敢于想象、敢于坚持的人,一点一点凿出来的。这条路,还远没有走到终点。





