9月10日,Arm Unlocked 2025 AI 技术峰会召开。在本次峰会上,Arm正式推出Arm Lumex计算子系统 (Compute Subsystem, CSS) 平台,同时公布了C1 CPU IP 和 Mali G1 GPU IP的完整阵容。


当日下午,Arm 终端事业部产品管理副总裁 James McNiven与Arm 终端事业部产品管理总监 Ronan Naughton与媒体进行了更深度的交流,从CPU到GPU,从硬件到软件,清晰地勾勒出 Arm 以“异构计算”为核心、“效率优先”为原则、“广泛赋能”为目标的终端AI全景图,是一场诚意十足的技术分享。
以下文章为iMobile爱科技总编王祎然对技术分享日内容进行精简、提炼
笔者前言——
Arm在AI时代的战略并非追求极致的峰值算力,而是构建一个高效、普惠、开放的异构计算生态系统。通过SME2强化CPU的实时AI能力,通过GPU推进图形与AI的融合,再通过KleidiAI软件库将所有这些能力便捷地交付给整个开发者生态。
无论如何,未来愿景即任何基于Arm架构的设备,无论其是否配备顶级专用NPU,都能具备基础且高效的AI能力,从而推动AI从云端真正走向终端,融入每一台设备、每一个体验的细微之处。
SME2技术让CPU“角色”转换
Arm为其CPU内核推出了第二代可伸缩矩阵扩展(SME2)技术,可提供额外2到6 TOPS的算力,这一数值看似不起眼,却恰恰体现了Arm对终端AI工作负载的深刻理解。

Arm 终端事业部产品管理副总裁 James McNiven 多次强调了它的重要性:“很多 AI 任务的瓶颈不在算力,而在内存带宽。SME2 的优势是直接在 CPU 内核执行,能即时访问缓存和系统内存。”

1、精准的场景定位:Arm明确指出,SME2并非为运行数百亿参数的大语言模型(LLM)而生,而是专攻低延迟、小模型、持续在线的任务。例如设备的语音唤醒、图像实时预处理、情境感知建议等。这些任务频繁触发,要求毫秒级响应,且对能效极其敏感。
2、突破“内存”瓶颈:Arm揭示了当前AI性能的一个关键瓶颈——内存带宽。许多NPU的峰值算力受限于无法高速获取数据,导致性能无法完全释放。SME2的核心优势在于其直接集成于CPU核心,能够以极低延迟访问高速缓存和系统内存,从而在实际应用中,其效率远超纸面算力。
3、可编程性与通用性:与固定功能的NPU不同,搭载SME2的CPU具备完全的可编程性。这意味着开发者可以灵活适配快速演进的AI模型和算法,无需等待硬件更新。更重要的是,CPU是Arm生态中唯一100%存在的硬件,这为开发者提供了一个一致且免于碎片化的AI加速基础,确保AI功能能在所有设备上无缝运行。
正如Arm所介绍的,CPU永远是通用核心。AI会在 CPU、GPU、NPU 和云端之间异构运行,但CPU在系统层面始终是中心组件。C1系列因此不仅是一次性能升级,Arm的策略并非用CPU取代NPU,而是通过SME2强化CPU在异构计算系统中的地位,让其守住对延迟和灵活性要求。
GPU与AI的结合 下一代移动体验提升
GPU在Arm的AI版图中扮演着另一个关键角色——处理与图形、视觉高度融合的AI任务。

Arm 终端事业部产品管理副总裁 James McNiven 认为,这是 GPU 角色演进的关键一步,AI 正在重塑图形领域。未来 GPU 不仅是画质渲染器,更是智能视觉平台。这正呼应了 Arm 推出的神经图形(Neural Graphics) 概念:通过 AI 实现超分辨率、帧生成和降噪,让 GPU 成为连接感知与视觉体验的枢纽。
Mali G1-Ultra通过在架构中增加专用指令和优化微架构,在典型的int8和FP16 AI工作负载上实现了近乎翻倍的性能提升,有力支撑了AI超分、游戏内AI增强等应用。
另外,Arm Neural Technology通过AI驱动帧优化、超级采样和降噪的全新技术。它以Vulkan扩展的形式提供,具备可编程性,标志着Arm开始将AI深度融入图形管线,为未来的移动光追、AI超分(类似DLSS/FSR)和帧生成技术奠定了软件和硬件基础。
Arm虽不制造设备,但其技术正成为移动高性能游戏的基石。
专注核心IP,赋能差异化
Arm坚持只做最具价值的核心计算IP(CPU/GPU),而将NPU、ISP等系统级组件的创新空间完全开放给合作伙伴。这种策略既保证了基础计算的持续演进,又让三星、联发科等合作伙伴能够打造出各具特色的SoC。
目前,KleidiAI已集成到PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN、微软 ONNX Runtime 等框架中。开发者几乎无需额外修改代码,就能直接获得 SME2 的加速能力。这种“开箱即用”的方式,大幅降低了开发门槛,也为生态伙伴的快速验证提供了基础。
Arm 预计,到 2030 年,SME与 SME2技术将覆盖超过 30 亿台设备,新增超过100亿TOPS的算力。
<!-- 非定向300*250按钮 17/09 wenjing begin -->
<!-- 非定向300*250按钮 end -->
</div>