
SK海力士近日公布了一种以 高带宽闪存 (High Bandwidth Flash, HBF)为核心的全新半导体架构概念。HBF是一种将多层NAND闪存芯片堆叠而成的存储技术。据《韩国经济新闻》(Hankyung)报道,该公司近期在 电气与电子工程师协会 (IEEE)上发表论文,首次详细阐述了这一名为“ H3 ”的架构理念。
所谓“H3”,即 混合架构 (Hybrid HBM+HBF Architecture),将 高带宽内存 (HBM)整合于同一设计中。
报道称,在当前主流AI 芯片(包括英伟达计划于今年下半年发布的Rubin平台)中, 仅有HBM被紧邻部署在GPU计算单元旁 ;而在H3架构中, HBM与HBF均被并列置于GPU周围 ,形成双存储层级协同工作模式。
为验证H3架构的可行性,SK海力士进行了仿真测试:在模拟环境中,将 8组第五代HBM (HBM3E)与 8组HBF堆栈 共同配置于英伟达最新GPU Blackwell (B200)两侧。结果显示,相比仅使用HBM的方案, 每瓦性能 (performance per watt)。
值得注意的是,该报告指出,H3架构尤其适用于 AI推理 (inference)——这一领域的重要性正迅速上升。推理是指AI模型根据已有知识进行推理并生成响应的过程,其核心环节之一是 KV缓存 (Key-Value Cache),用于在用户交互过程中临时存储对话上下文。
随着AI模型日益复杂, KV缓存的数据量急剧膨胀 ,已开始对HBM容量和GPU内存带宽构成压力,可能制约整体计算效率。而通过引入 HBF作为高容量、低成本的二级存储层来承载KV缓存 ,可有效 减轻GPU与HBM的存储负担 ,使其专注于高速计算与新内容生成。
SK海力士还模拟了HBF处理高达 1000万token规模KV缓存 的场景。结果显示,系统可同时处理的查询数量(即批处理大小,batch size) 最高提升18.8倍 。原本需要 32颗GPU 才能完成的工作负载,现在仅需 2颗GPU 即可实现, 能效大幅提升 。
尽管前景广阔,SK海力士在论文中也坦承,HBF要实现商业化仍需克服若干关键障碍。虽然NAND闪存具备 高存储密度 优势,但其 写入速度相对较慢 ——尤其是在频繁添加或修改数据的场景下——仍是主要瓶颈。
即便在H3混合架构中HBF主要用于 读密集型负载 ,但随着KV缓存应用场景对动态更新需求的增加, 写入性能正变得愈发重要 。报告指出,要突破这一限制,需在设计层面进行重大优化,特别是 大幅提升HBF堆栈底部基础芯片 (base die)。
随着HBF在AI内存领域的关注度持续升温, 标准化进程也在加快 。据《Sisa Journal》报道, 三星电子与SK海力士已分别与闪迪 (SanDisk),并正通过一个 联合产业联盟 积极推进相关标准制定。
目前,两家公司均在积极开发HBF产品, 目标是在2027年实现商业化落地 。此举不仅将重塑AI硬件的内存架构,也可能为下一代高效能、高能效AI数据中心提供关键支撑。
<!-- 非定向300*250按钮 17/09 wenjing begin -->
<!-- 非定向300*250按钮 end -->
</div>