密瓜智能 × 清程极智:为企业级大模型应用提供 “调度 + 基建” 一体化解决方案


作为一个活跃的开源项目,HAMi 由来自 15+ 国家、350+ 贡献者共同维护,已被 200+ 企业与机构在实际生产环境中采纳,具备良好的可扩展性与支持保障。

近日,密瓜智能(Dynamia AI)与清程极智在北京宣布达成战略合作,并发布首期联合成果。

双方的深度协同,直指当前 AI 产业棘手的异构算力调度效率困境,为企业级大模型应用提供了 “调度 + 基建” 一体化解决方案。其中,密瓜智能 发起并主导的 CNCF HAMi 项目作为调度层核心组件,承担异构 GPU 虚拟化与资源治理能力。

双方在北京进行战略合作签约仪式

直击行业痛点:算力资源的浪费

在后摩尔时代与 AI 爆发的双重驱动下,GPU、NPU 等异构算力已成为 AI 发展的核心燃料,但在具体使用场景中,算力问题往往并不体现在”是否具备算力”,而更多集中在使用阶段:推理负载波动明显、GPU 资源利用不均、碎片化严重、分配不均、服务稳定性和运维可控性难以兼顾。这类问题直接影响了算力的使用效率,也提高了大模型应用的综合成本。

“算力问题已不是’有没有’,而是’用得好不好’。” 清程极智技术生态 VP 何万青指出,”当企业面临 k 种业务 × m 种模型 × n 种 AI 加速卡的复杂部署场景时,单一的端到端优化不足以破解效率困局。”

首期成果落地:算力效能倍增

基于对行业痛点的深刻洞察,双方已完成首轮技术融合,**清程八卦炉(Bagualu) 智能软件栈已集成密瓜智能 HAMi 的 vGPU 虚拟化调度系统,**双方协同效应显著:

资源利用率跃升(HAMi 核心能力):通过 HAMi 的显存硬性隔离与算力比例分配技术,可将单张物理 GPU 灵活切分为多块虚拟资源,配合八卦炉的多业务管理能力,实现精细化配置,解决以往资源分配不均问题。

全链路运维可视化:用户通过统一平台即可完成训练、推理、量化等全流程管理,同时实时监控业务负载、kernel 调度、显存占用等细节数据。

国产算力适配突破:依托清程极智对昇腾、海光等国产芯片的深度适配能力,结合 HAMi 的跨硬件调度特性,实现多架构算力池的统一管理,打破 “硬件割裂导致的调度壁垒”。

八卦炉智能软件栈中

密瓜智能 HAMi 的vGPU 虚拟化调度部分展示

在已开展的 GPU 虚拟化与大模型训练、推理基础设施的协同合作外,未来双方将围绕产品协同、平台集成与场景拓展三个维度深化合作,构建 “bagualu 应用层 + 调度层 + 基建层” 的紧密协同体系:

密瓜智能将面向其用户体系,联合清程极智旗下的八卦炉智能计算软件栈的大模型并行训练系统、赤兔推理引擎和 AI Ping,帮助用户在统一调度平台下,更高效地使用大模型算力。清程极智将通过八卦炉平台服务,与密瓜智能的算力调度与 GPU 虚拟化能力进行集成,为其提供 AI 基础设施层面的能力支持,拓展其在大模型训练场景中的服务边界。在 GPU 监控与管理层面,密瓜智能提供的细粒度监控数据将与清程极智的平台能力形成互补,为后续算力集群运维与规模化运营提供更清晰的数据基础。

双方认为,随着算力规模持续扩大,单一层面的技术能力已难以独立支撑复杂的 AI 应用场景。通过在算力调度层与 AI 基础设施层之间形成更紧密的协同,有助于构建更具可持续性的算力使用模式,为大模型应用的长期发展提供坚实的算力支撑。清程极智与密瓜智能共同致力于在不显著增加用户使用复杂度的前提下,推动算力资源从”静态分配”向”动态调度”演进,使大模型相关能力能够更稳定、更灵活地服务于实际业务需求。未来,密瓜智能也将推动 HAMi ,与更多 AI 平台、基础设施厂商和算力生态伙伴展开协作,推动异构算力调度能力在更多真实生产场景中的落地。

关于密瓜智能

密瓜智能专注提供异构算力调度、统一管理的全球化解决方案,助力 AI 智能时代的算力效率提升。发起并主导的 CNCF 项目 HAMi,这是目前行业内唯一专注于异构 GPU 资源共享的开源项目,通过灵活、可靠、按需、弹性的 GPU 虚拟化来提升资源利用率,可以插拔式、轻量化、无侵入地部署在任意公有云、私有云、混合云环境中,可支持 NVIDIA、昇腾、沐曦、寒武纪、海光、摩尔线程,天数智芯、燧原、昆仑芯、AWS 等异构芯片。截至目前,HAMi 拥有来自全球 16个国家 350名贡献者参与,已经被超过 200+ 操作系统厂商、算力云厂商以及垂直行业客户所采纳,成功地在金融、物流、智驾、机器人、生物科技等行业中实现了从 0 到 1 的落地。

关于清程极智

清程极智是清华系 AI Infra 明星企业,专注智能算力系统软件研发,打造了覆盖大模型训练、推理与服务评测的产品体系: “八卦炉” 训练系统面向大模型并行训练,提升异构集群训练效率,赤兔推理引擎通过 FP8/FP4 等优化实现高性能、低成本推理,降低部署成本,助力国产算力生态完善。AI Ping 提供大模型 API 评测与一站式调用能力,帮助用户高效选型与接入。


上海密瓜智能科技有限公司专注于异构算力调度与统一管理,致力于为全球客户提供高效、灵活的算力解决方案。公司以”让异构算力因开源而好用”为使命,愿景是”构建全球领先的算力调度生态,赋能AI产业高效落地”。发起的CNCF 开源项目 HAMi,是唯一专注异构算力虚拟化的开源项目,通过灵活、可靠、按需、弹性的 GPU 虚拟化提升资源利用率,助力AI 时代算力效率提升。

官网:https://dynamia.ai

邮箱:info@dynamia.ai

                                                                                </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » 密瓜智能 × 清程极智:为企业级大模型应用提供 “调度 + 基建” 一体化解决方案

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的