数据库技术停滞了吗?我去了济南找答案


                                                                                                                                                <div> 

“这几年,数据库能宣传的新东西不多,主要还是蹭大模型热度。”

在我不理解为什么每个行业会议都在聊向量数据库时,数据库专家胡津铭给了我这个回答。

带着“数据库技术是否停滞”的疑问,6月27日,我跑去济南参加了一场两天的大会—— IvorySQL 生态大会暨 PostgreSQL 高峰论坛。

IvorySQL 是瀚高基于 PostgreSQL (下文简称 PG )发展而来的国产开源数据库。该数据库一个很大的特性就是语法兼容 Oracle ,因此成为很多企业去“O”的首选。

PG 在架构层面很接近 Oracle ,以及本身具备成熟的事务一致性(ACID)、多版本并发控制(MVCC) 等企业级特性,很适合发展为大型企业级数据库。

尽管 PG 内核复杂, 但接口设计简洁,而且用的又是商业化极其友好的 PostgreSQL开源协议 ,因此,大部分国产数据库(如华为的OpenGauss、瀚高的IvorySQL)基于 PG 内核发展而来,尤其是在信创政策的推波助澜下,PG 整个生态的发展速度非常之快。

因此,这场关于PG 生态的大会,两天时间几乎汇聚了我国数据库人才的半壁江山。

我也借此机会,看到了 PG 生态中的各方态度:瀚高股份副总裁吕新杰对于数据库落地行业的冷静与务实,中国 PG 分会秘书长白国华对于国产数据库替代 Oracle 的十足信心,数据库专家白鳝对国产数据库过度沉浸于信创导致整体产品能力倒退的担忧,以及 Pigsty 作者冯若航对于 PG 插件吞噬一切的激进……

此外,在一场圆桌论坛上,我既听到了 DBA 对于诸多国产数据库的怒其不争,也听到了用户对 PolarDB 仅用15 天就解决其需求的满意称赞……总而言之,这是一场很有活人感的大会。

大会期间,我采访了瀚高股份副总裁吕新杰、中国PG 分会秘书长白国华,我们聊到了技术停滞论与实际创新、国产数据库崛起与服务短板、PG 分支繁荣与生态割裂等话题,希望能从行业视角和企业视角,看看数据库技术有什么进展和趋势,以及以 IvorySQL 为代表的国产数据库发展如何。

停滞还是前进?数据库的主要技术趋势

问:有专家提到,除了向量数据库,数据库行业这两年能宣传的新东西不多,是这样吗?

吕新杰:这两年数据库技术没有特别大的演进。前几年大家都在提分布式,但这技术已经有十几年的历史了,架构层面已经没什么吸引人的新变化。

非要找几个关键词的话,AI 和云原生肯定少不了,AI 本身就能带动相关技术演进。云原生也是重点。云原生最初是与分布式紧密绑定的概念,但现在二者已经解耦。

还有一个要提到的是非结构化处理,PG 17 对 JSON 的处理比原来好很多,增加了许多内置函数和特性,效率提升很大。但是它跟前两个(AI、云原生)不能算在一个层面上。

问:您怎么看当前数据库的主要技术趋势?

吕新杰:今年乃至未来一段时间内,大家会比较关注、并且愿意花大力气投入的重点领域,主要是 AI 驱动,云原生与分布式解耦,一体化深度调优,多模这四个方向。

AI 是最大的变数,给数据库市场和行业带来很大的影响。至于它能发酵到什么程度,拭目以待。现在大家都在探索前行。

云原生伴随着分布式数据库出现,有大概十年的发展过程。但现在来看,云原生和分布式完全是两条线,分布式并非必须绑定云原生。很多云原生场景对扩展能力其实没那么高要求。

同时,硬件在不停迭代,使得集中式数据库在很多应用里又显现出优势。越来越多人认识到,分布式不一定就比集中式好,它有特定场景。一线头部行业客户对分布式不再像以前那么热衷。至于业务层面选分布式还是集中式,最终还要根据具体场景来定。

第三个方向是一体化。数据库单体能调优的程度有限,如果能和操作系统联合调优,甚至利用CPU指令集(比如海光新出的加密指令集)进行优化,打通这些层级,性能会提升很多。原来在数据库层面做这些底层操作非常繁琐耗时。这种软硬协同的系统级优化,现在是一个明显的趋势。瀚高推出一体机也是基于这个原因。浪潮(注:瀚高母公司)本身有整机制造、操作系统和数据库,有天然的优势。我们的第一台一体机已经在客户现场进入试运行和适配调试阶段了。

此外,对 PostgreSQL 来说,多模是它非常优秀且会持续加强的特性。多模意味着能处理多种多样的数据。AI 里有个概念叫 MOE (Mixture of Experts),每个 “Expert” 都是某个领域的专家,需要针对该领域做数据、计算或场景加速的深度定制。这促使数据库功能针对各类实际业务场景进一步拓展/延伸。

问: AI+ 云原生会成为下一代数据库的核心形态吗?

白国华:AI+云原生肯定是一个很重要的方向,甚至可以把它排到第一位,但不可能是唯一的形式。未来数据库的形态肯定还是五花八门的。

从数据库发展的历史就能看出来,它一定是朝着多样化发展的,各个方向都在探索。但AI+云原生最终能占多大比例,这个现在还不好说,毕竟 AI 的发展才刚刚开始。

问:IvorySQL 在 AI 方向有什么动作?

吕新杰:我们在 AI 方向上决心和投入很大。

DB for AI 方面: 核心是向量数据的存储与检索。我们集成了 pg_vector 插件,增强了对机器学习模型的支持,已经在客户侧应用。

AI for DB 方面,我们用的比较多。

  1. 我们建了自己的知识库。以前查资料全靠关键字,现在员工用自然语言就能跟它对话。这背后的核心是我们对大模型的理解和应用。

  2. 自动调优: 数据库调优原来要依赖人看日志、设参数,才能让它跑更快。现在我们把日志丢给 AI,这样哪怕一个初级(Junior)工程师,也能调出不错的参数。

  3. SQL 优化:以前,执行计划要由经验丰富的专家才能看出哪儿好哪儿不好——例如未使用索引、存在多余的数据类型转换等。现在 AI 能帮我们定位和诊断,效果很明显。

  4. 问题诊断与 Debug: 遇到报错或日志问题,以前只能依靠错误编码,上网查帖子,答案往往还不准确。现在用 AI 分析,能更快追溯原因,大幅提升了排查效率。

国产替代加速,怎么降低迁移的难度和成本?

问:前两年大家都在讨论“我要不要用国产数据库”,现在就变成了“我要用哪一款国产数据库”。为什么会出现这种变化?

吕新杰 :一方面,政府对国产替代的驱动,是非常坚决而且有力的。

另一方面,客户用了以后发现,国产数据库其实并没有想象得那么繁琐。很多人以为,完全由中国人自己从头开始写代码的数据库,短期内很难成型。但是实际上,我们并非凭空造轮子,而是基于开源的、国外已经比较流行的成熟数据库 PG 上去做开发。这给了用户极大的信心。 随着使用深入,用户心里自然越来越有底。

再加上现在行业里的案例也越来越多,磨合也越来越多,成熟度也高了。因此,当前大家关注的焦点,已经从能不能用,转向了哪一款国产数据库更适合自己的具体需求。

问:对于那些大量业务运行在 Oracle 上的企业来说,迁移的难度和成本是一个重要因素。 IvorySQL 选择兼容 Oracle,是为了解决这个问题吗?用户在这方面最常见的诉求到底是什么?

吕新杰:我们做 Oracle 兼容,核心目标不是要成为另一个 Oracle,而是最大程度降低用户的替换成本。

用户最根本的诉求就是:应用一字不改,就能平滑迁移到 IvorySQL。他们不管你用 PG、Oracle 还是自研,只关心语法、语义、功能是否完全支持。

所以,所谓“做 Oracle 兼容”,只是业内一个不太确切的简单说法。因为 Oracle 本身不是国际标准,只是一款用户量很大的产品,影响了客户使用习惯。让客户最容易接受我们的途径,就是把产品做得尽量像它——这就是为什么我们要实现 Oracle 特性。

但深入看,随着数据库技术的发展,有些场景 Oracle 并不支持。比如,从 12c 到现在 23ai,它的原生数据库内核(DBMS)其实没什么革命性进展。

从我们的视角看,如果未来中国的场景足够丰富,经验积累足够深厚,国产数据库完全有可能发展出以 PG 为主导的路线。我们完全有可能在 PG 基础上发展出超越 Oracle 现有能力的功能特性。到那时,我们至少在话语权上能和 Oracle 相抗衡。

问:兼容 Oracle 的开源数据库,IvorySQL 是为数不多的一个。前不久也有一个开源的数据库,但它选择的路线是协议兼容。你们为什么选的是语法兼容这个方向?

吕新杰:Oracle 是私有协议,第三方很难模仿到细节。我们做语法兼容,是因为 Oracle 的语法是公开、可观测的。我们通过测试它的输入输出,就能验证是否兼容。

更重要的是,PG 本身在核心架构上就最像 Oracle —— 无论是整体架构、数据类型、内置函数,还是数据处理方式。这为我们实现兼容提供了天然的、高性价比的基础。

别看最后呈现的是“Oracle兼容”,背后是极其庞大的基础工程。为了做到这一点,我们在底层做了大量工作:兼容数据类型,重写/适配内置函数,实现各种包(Packages) 和特性,还要建字典,甚至要使底层的存储结构与 Oracle 对齐。

“国产数据库挺好,但是服务跟不上”

问: 我听到业内有一种声音:国产数据库挺好,但是服务跟不上。为什么出现这种情况?

吕新杰:出现这种情况,可能有两种原因。

一是产品跟客户的业务场景没完全对上。刚开始选型可能比较盲目,没有把自己的实际业务需求梳理清楚。测个TPC-C,能满足要求,加上压力测试一过,就替换了。现在越来越多的客户做 POC(概念验证)测试,都是拿自己实际业务里的大 SQL、核心业务场景出来跑。真的能跑通,那说明替换上去就没问题。

二是客户替代节奏太快了,厂商服务跟不上。国内数据库的替代节奏,按年度推进是非常典型的模式: 年底(通常是10-12月)做预算,次年年初进行采购,然后在年中(约7、8月份)集中部署上线。波峰、波谷非常明显。在需求高峰期,装库、调试、适配等工作集中爆发,任何一家数据库公司的人员都是不够用的。那这时候势必要区分优先级,有些客户的进度就会稍微慢一点。

问: 是否可能与生态发展不足有关?毕竟传统数据库如 Oracle 发展得早,出现了很多第三方服务商。IvorySQL 起步很晚,还没能形成那样庞大的第三方生态。

吕新杰:目前没有第二个厂商能跟 Oracle 比。下一个能跟 Oracle 比的,就是 PG 。所以我们从 PG 的生态着手,只要懂 PG 的人,学 IvorySQL 就会很容易上手。而且 PG 是纯开源,所有资料都公开,大家遇到的问题、解决的方式也都会分享出来。未来会有很多这方面的专家来帮我们共同建设生态。

白国华:

数据库运维服务这块为什么跟不上,一方面可能是跟产品差距有关系。Oracle 产品的稳定性、通用性,已经打磨得非常极致了。

另外很重要的一点,不一定是产品本身的问题,而是和人才相关——服务都是由人提供的。

基于西方 IT 技术人才培养体系(涵盖了我们常说的 Oracle、Windows、英特尔等主流技术体系)在国内发展很成熟,沉淀了大量掌握相关技能的人才,提供了有力支撑。由于人才供应充足,经验积累丰富,三方服务商生态成熟,服务更趋于标准化,从而降低了提供这类服务的整体成本。

而国产数据库呢?我们不仅是缺乏运维人员,还缺乏架构、产品、咨询、培训很多层面的人才。招了人之后,还要培养。培养过程中还伴随着大量人才流失。 所以目前它的综合成本,会高于传统数据库的运维成本。因此,在服务成本和服务体验上,国产数据库存在劣势。

这也导致,很多企业他不是不想把服务搞上去,而是受困于人才匮乏和成本考量。

原来企业买 Oracle 的服务,可能一年 10 万块钱,能获得很好的服务体验。现在换成国产之后发现,同样的 10 万块钱,提供同等维护服务,体验却可能不如之前。若想达到原来的服务体验,所需成本还会更高。这肯定是一个需要去提升的问题。业内需要解决产业换代中人才供给侧支持的问题。所以基于PG的数据库人才培养体系非常重要,这也是分会现在的核心工作之一。

PG 的衍生品,还没有“头部”一说

问: 就 PG 衍生品来说,我们国产数据库跟国际头部产品相比,存在这种代差吗?

白国华:代差不明显。PG 的衍生品,还不太有“头部”一说,至少在国际上是这样。

当前基于 PG 衍生的数据库,主要是基于特定用途的增强化产品,很多做得非常好,但主要限于那个特定场景。并没有出现一个和 PG 很像,但又是巨头的数据库。

如果和 PG 社区版本比,那也不能叫“代差”,是存在实力与积累上的差距。但也有开源里不需要重复造轮子的因素。

问:您说的这个“实力”具体指哪一方面?

白国华 :PG 国际社区核心组运行了二十多年,而且是全球化的,代码贡献者特别多。他们的水平和数量都非常庞大,运行很成熟,强于国内任何一家数据库公司的研发实力。这也是我们为什么说要避免重复造轮子,基于PG的开源国产化是适合我们现状的发展道路。

问:我也粗略统计了一下,国内 PG 的衍生品已经超过 15 款。但很多主流产品在协议、语法、工具链上都不一样。中国 PG 分会是否会考虑将他们联合起来,尽量统一一个标准?

白国华 :我们很想做,也肯定会去做。但这是一个很漫长的过程。因为这些企业,有的是公开走 OSCAR 协议(开放原子开源基金会协议)路线,有的没有公开源码,有的走 PG 原生路线。而且,就像我刚才说的,它们的用途、企业的产品战略也是不一致的。所以想让大家合力来做统一、做标准,还是有一定难度的。

问: 目前行业已经在面临洗牌了,那中小厂商势必会被淘汰,市场向头部集中。先问吕总,您是否会有危机感?

吕新杰: 我们不担心,我们属于头部。我下半年还有个重要任务,就是去找标的,把他们收购过来。

问: 目前有什么端倪显现出来吗?

白国华:数据库产业洗牌现象一直持续发生着,这不足为奇,与持续洗牌相对的,国内目前还有一百家以上的数据库厂商。应该说,国内数据库行业还处于群雄并起的阶段,行业集中度并不高。

但是我们关注洗牌现象的话,应该留意到一个趋势,就是数据库产业中开源生态对于商业数据库的影响,正在快速地变大。未来会继续持续。数据库开源大潮流已经很明显,这个趋势是由多方因素叠加而产生的,不以人为意志而转移。它既体现在原有存量开源生态,继续快速发展和扩张,也体现在传统商业数据库生态也在发展新的开源版本或开源形态。

如果要给产业提建议的话,我认为相关的企业需要快速锚定自己的生态链,尽可能提升自己的生态效能,占据有利位置。加快资源整合,包括对技术和人才的整合。而对于广大从业者,应尽快选择具备更高势能的路线和生态。

三年前的PCC大会上,我分享过,2050年前,中国每年都将以4倍于美国的人口,培养出7倍于美国的理工科毕业生。这是中国人口红利的下半场,持续性的吐故纳新,高素质劳动者对低素质劳动者的迭代。

中国劳动人口中大学生比例峰值,将到2050年后才会出现,劳动人口中大学生总量将从2010年的5000万人,上升至2050年的3亿人。人才供给侧将给予基础软件行业巨大支持。大量(远高于现有数量级的)开源开发者群体将会在中国产生。国内基础软件领域的开源厂商借助这一势能一定可以大有作为。

论综合产品力,国产数据库和 Oracle 差距还很大

问:国产开源数据库现在到底处于一个什么阶段?有哪些方面是可以跟国际主流数据库掰手腕的地方?又有哪些地方需要补课?

吕新杰:从结果看,IvorySQL 在客户 PoC 测试出来的性能表现经常超过Oracle。这得益于我们定向调优、客户配合以及数据治理工作。

功能上,单说一点:PG 处理矢量、栅格等地理信息的能力,天生就比 Oracle 强。同样硬件下,它有特定的处理和索引机制,表现更优,这很明确。还有时序数据的处理能力,PG 加插件后通常也比 Oracle 更擅长。当然,具体场景还得调优。但论综合产品力,我们和 Oracle 差距还很大,我们仍然需要抓紧追赶。

问:国产数据库要发展的话,会还面临哪些挑战?

吕新杰 :最大的挑战是对行业的理解。国产数据库还停留在通用层面,但是因为行业特性,不同应用场景其实是五花八门的。对数据管理的某个要求,很可能在行业里是必备特性,但在另一个行业里,可能一个都用不到。

所以,国产数据库要突破既往的成功模式——原来在党政、能源、军工领域做得好,不代表在其他行业也能做好。

第二大挑战就是人才储备。这块非常难。全国所有内核研发人员加起来,可能还不如 Oracle 一个公司多。

我们正处在一个“战国”阶段。大家各有各的想法,没办法单纯靠技术手段去统一,最终只能通过市场来检验。人才储备、人才的聚集,其实现在已经在洗牌了。这从人员流动都能反映出来。

第三个挑战,就是跟硬件以及上下游生态的配合。 以前我们评估数据库,主要看它跟应用软件的适配性。但现在,硬件和操作系统对数据库的影响越来越大,与硬件和上下游生态的深度协作成为数据库厂商必须面对的、至关重要的任务。这就好比中国数据库领域必然会出现自己的操作系统巨头(类似Red Hat), 这是大势所趋,关键在于谁能更快地抢占先机。


维权提醒:如果你或身边的朋友近五年内因投顾公司虚假宣传、诱导交费导致亏损,别放弃!立即联系小羊维权(158 2783 9931,微信同号),专业团队帮你讨回公道! 📞立即免费咨询退费


Source link

未经允许不得转载:紫竹林-程序员中文网 » 数据库技术停滞了吗?我去了济南找答案

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的