2019数据技术嘉年华丨中国人民大学教授杜小勇:One Size Does not Fit All?
本文是小编依据杜小勇博士在“2019数据技术嘉年华”大会现场演讲速记稿整理而来。
关注公众号“数据和云”,回复:2019dtc ,更多精彩ppt等你下载!(PPT还在不断更新当中,请持续关注)
中国人民大学教授,博士生导师,工学博士杜小勇老师
非常高兴有机会来到“2019数据技术嘉年华”的会场。我在四年前就有一个设想:想要加强学术界和应用界、企业界的交流。所以每年在数据库的学术会议上,都会有一个来自企业界的报告,每年大会上我都听了,我个人觉得还是很有收获的。比如有一年报告特别谈到在互联网企业运维,包括数据库在内的众多的开源数据库存在巨大的压力。但是我们很多学生不敢尝试实践,他觉得和写一篇论文差得很远,这样的问题他解决不了。
最近遇到盖先生是在华为的一次活动上,我发现很奇怪,Oracle工程师怎么跑到华为会议上?我发现盖先生在改变他的思路,他今天的主题是自主、创新,而且他也主动去拥抱了华为的数据库,也是华为第一家合作商,也就是说他愿意为国产数据库服务。所以当时盖先生邀请我来做报告,我非常高兴,我希望去做这样的努力,加强学术界和企业界的合作。所以这是我今天来做这个报告的一个最主要的初衷。
讲什么呢?学术界如果讲报告最喜欢讲的是论文,我想那样讲的话,那肯定就把会场一半的听众都要讲跑了。所以我今天也是跟之前盖先生交流过,讲宏观一点,讲我们在学术界怎么去看待数据库的发展,希望可以给听众一些启示。因为我觉得中国的企业到了要改变的时候了,他不再仅仅是拿来就要用,用好就行了。特别是我们的大企业,必须要创新。今天的题目用了“One Size Does not Fit All?”,他是个肯定句,我加了个“问号”。这个话是图灵奖获得者说的。
我们在讨论关系数据库到底是什么?有两股力量,在数据库、学术界比较主流。一个是新型的数据库,新的模型,比如:对象数据库,XML数据库。所以那时很多探索,觉得下一代数据库到底是什么?但是主流数据库应该是关系数据库。第二个是,专用系统。现在需求太多,主要是做专用型的。
我们来看看这两个趋势,第一个方向,在2017年VLDB题目上叫“Failed Aspirations in Database Systems”。这说明学术研究和产业不太一样,但是不能说探索没有意义,实际面向对象很多特性在我们关系数据库里也有体现。
第二个方向,Stonebraker研制的专用系统。Stonebraker为代表的开放了一系列的数据库系:c-store(后改名Vertica)column store系统,适用于OLAP,后被HP收购;h-store(后改名VoltDB)行存储数据库,适用于事务OLTP;StreamBase,流数据库,被TIBCO收购;SciDB,科学数据库,支持数组(array),呈现出一个很混乱的状况。
谷歌的三件套彻底改变了非结构化数据管理的生态。
确实这样做完以后,数据库界的批评声音是很大的,认为是严重的倒退。Stonebraker对Hadoop的批评之声特别大:丢失了大多数DBMS的特性;不支持事务或者只支持简单的事务;较低级的程序设计范型;缺乏应用开发工具和环境;没有索引等等。
出路何在?我们要去思考。这也是我今天讲的一个主题。我们还应保持初心,就像“数据库从哪儿来的?”这个问题,简单回顾一下数据历史可以得到这样的结论:数据库是应用驱动的创新。我画了一个图,可能跟教科书的分态不太一样,教科书按模型分态,我是按应用角度分态的。从Store&Access到后来OLTP要解决一次性的问题,到OLAP要解决复杂分析的问题,到了第四代Hadoop的时代要解决非结构化数据的存储和管理的问题,今天要面对什么样的应用是它的主流应用。
OLML,这个词是我构建的词,我希望它能成为未来的流行词。OLML是什么东西?是Online Machine Learning,现在主流应用就应该是机器学习应用,海量数据上怎么获取数据,怎么训练模型,怎么去部署模型,怎么去更新模型,这些东西是我们未来的主流应用。所以我期待,有一个像SQL语言去获得或者是去描述一个数据子集,去描述学习任务,能够很快的、实时的更新模型,看到效果。
OLML和OLTP、OLAP对应起来,有可能模型不一样,任务不一样。这里有一个证据,我把ICSE 2019最佳论文跟大家分享一下,这是微软很多人一块完成的 Case Study,他是从软工具角度上来说的。一个是pipeline支持,在微软内部机器学习是这样的过程,花了很多时间是在数据准备上。
我想让大家看到的是,一个是红字的部分,他说的是数据管理和模型管理应该结合起来,不要把这两个子集分离开来。最好是在数据库平台上结合,因为数据库是一个平台。我建议大家可以把文章拿来读一读,我觉得还是有很多启发的。
支撑OLML的新型数据库长啥样?支持多数据模型、支持存算分离、支持自优化自适应自管理、支持混合架构。
多数据模型。这个需求很自然,因为你可能有各种各样的数据,对于用户来说,他不需要知道这个数据是怎么组织的,这个数据是怎么存的,可以使用,怎么在一个系统里支持不同数据类型.。
存算分离。存储与计算分离,这已经是大家公认的方向了。对于数据库来说,有更深刻的挑战。
自适应优化。现在这个话题谈得比较多,实际查询优化这件事情是支撑关系数据库成功的重要的支柱之一。以前我们做的比较简单,Rule-based、Cost-based...现在我们横向扩展问题解决了,因此ML-based驱动的方法在未来数据库管理里面会有很大的用法。
混合架构。我们都知道,现在高速网络比IO都快。计算芯片也一样,不再仅仅是CPU了,GPU、FPGA各种各样人工智能芯片都在出现,在这样的数据管理过程中,模型训练的负载下,这是学术界或者产业界都很清楚的,你对于不同类型的负载用不同的计算器需要模式差异很大,比如规则的数据放在GPU处理比较好,如果说很杂乱无章的说不定CPU更好。所以这种差异,存在有优化的空间。所以我觉得这方面还是有很大的空间可以去扩展。
最后展示一张照片,这是潘院士在我们科学大讲堂做报告时,他给我们人工智能学院院长赠了一幅字。现在确实到了一个时代的变化,不管是别人有我们没有,还是说别人没有我们也没有,我们都面临着一个“无人区”状态,在这样的情况下,高校天生的拥有创新的基因,要敢于“秀”出来,接受全世界“品头论足”。而企业在踏入无人区的时候,我觉得有一条很重要的路就是创新。
在计算机大会上我们邀请了阿里、华为、腾讯数据库老总一块坐下来探讨 中国国产数据库发展道路探索 的时候。其中有一点让我印象很深刻,不管走什么样的道路,创新是最重要的,如果没有创新,也就没有未来。所以我也借着今天的主题,我代表中国数据库学术界表达这样一个愿望,愿意和我们在座的企业界进行全方位的合作,当然我们也在成长中,我们也知道我们的力量还很薄弱,我们希望我们的数据库企业帮助我们一块去招揽人才。我们也和其他领域面临人才的竞争,只要我们一块努力,提供更多的机会,我相信我们有更多的老师、更多的学生会活跃在数据库的研究平台上。
谢谢大家,这是我的报告!