SK海力士发布基于HBF的AI芯片架构,能效比提升最高达2.69倍


SK海力士近日公布了一种以 高带宽闪存 (High Bandwidth Flash, HBF)为核心的全新半导体架构概念。HBF是一种将多层NAND闪存芯片堆叠而成的存储技术。据《韩国经济新闻》(Hankyung)报道,该公司近期在 电气与电子工程师协会 (IEEE)上发表论文,首次详细阐述了这一名为“ H3 ”的架构理念。

所谓“H3”,即 混合架构 (Hybrid HBM+HBF Architecture),将 高带宽内存 (HBM)整合于同一设计中。

报道称,在当前主流AI 芯片(包括英伟达计划于今年下半年发布的Rubin平台)中, 仅有HBM被紧邻部署在GPU计算单元旁 ;而在H3架构中, HBM与HBF均被并列置于GPU周围 ,形成双存储层级协同工作模式。

为验证H3架构的可行性,SK海力士进行了仿真测试:在模拟环境中,将 8组第五代HBM (HBM3E)与 8组HBF堆栈 共同配置于英伟达最新GPU  Blackwell (B200)两侧。结果显示,相比仅使用HBM的方案, 每瓦性能 (performance per watt)。

值得注意的是,该报告指出,H3架构尤其适用于 AI推理 (inference)——这一领域的重要性正迅速上升。推理是指AI模型根据已有知识进行推理并生成响应的过程,其核心环节之一是 KV缓存 (Key-Value Cache),用于在用户交互过程中临时存储对话上下文。

随着AI模型日益复杂, KV缓存的数据量急剧膨胀 ,已开始对HBM容量和GPU内存带宽构成压力,可能制约整体计算效率。而通过引入 HBF作为高容量、低成本的二级存储层来承载KV缓存 ,可有效 减轻GPU与HBM的存储负担 ,使其专注于高速计算与新内容生成。

SK海力士还模拟了HBF处理高达 1000万token规模KV缓存 的场景。结果显示,系统可同时处理的查询数量(即批处理大小,batch size) 最高提升18.8倍 。原本需要 32颗GPU 才能完成的工作负载,现在仅需 2颗GPU 即可实现, 能效大幅提升

尽管前景广阔,SK海力士在论文中也坦承,HBF要实现商业化仍需克服若干关键障碍。虽然NAND闪存具备 高存储密度 优势,但其 写入速度相对较慢 ——尤其是在频繁添加或修改数据的场景下——仍是主要瓶颈。

即便在H3混合架构中HBF主要用于 读密集型负载 ,但随着KV缓存应用场景对动态更新需求的增加, 写入性能正变得愈发重要 。报告指出,要突破这一限制,需在设计层面进行重大优化,特别是 大幅提升HBF堆栈底部基础芯片 (base die)。

随着HBF在AI内存领域的关注度持续升温, 标准化进程也在加快 。据《Sisa Journal》报道, 三星电子与SK海力士已分别与闪迪 (SanDisk),并正通过一个 联合产业联盟 积极推进相关标准制定。

目前,两家公司均在积极开发HBF产品, 目标是在2027年实现商业化落地 。此举不仅将重塑AI硬件的内存架构,也可能为下一代高效能、高能效AI数据中心提供关键支撑。

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->
            <!-- 非定向300*250按钮  end -->
        </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » SK海力士发布基于HBF的AI芯片架构,能效比提升最高达2.69倍

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的