Arm技术分享日——AI时代狂奔 Lumex是未来基石

9月10日，Arm Unlocked 2025 AI 技术峰会召开。在本次峰会上，Arm正式推出Arm Lumex计算子系统 (Compute Subsystem, CSS) 平台，同时公布了C1 CPU IP 和 Mali G1 GPU IP的完整阵容。

当日下午，Arm 终端事业部产品管理副总裁 James McNiven与Arm 终端事业部产品管理总监 Ronan Naughton与媒体进行了更深度的交流，从CPU到GPU，从硬件到软件，清晰地勾勒出 Arm 以“异构计算”为核心、“效率优先”为原则、“广泛赋能”为目标的终端AI全景图，是一场诚意十足的技术分享。

以下文章为iMobile爱科技总编王祎然对技术分享日内容进行精简、提炼

笔者前言——

Arm在AI时代的战略并非追求极致的峰值算力，而是构建一个高效、普惠、开放的异构计算生态系统。通过SME2强化CPU的实时AI能力，通过GPU推进图形与AI的融合，再通过KleidiAI软件库将所有这些能力便捷地交付给整个开发者生态。

无论如何，未来愿景即任何基于Arm架构的设备，无论其是否配备顶级专用NPU，都能具备基础且高效的AI能力，从而推动AI从云端真正走向终端，融入每一台设备、每一个体验的细微之处。

SME2技术让CPU“角色”转换

Arm为其CPU内核推出了第二代可伸缩矩阵扩展（SME2）技术，可提供额外2到6 TOPS的算力，这一数值看似不起眼，却恰恰体现了Arm对终端AI工作负载的深刻理解。

Arm 终端事业部产品管理副总裁 James McNiven 多次强调了它的重要性：“很多 AI 任务的瓶颈不在算力，而在内存带宽。SME2 的优势是直接在 CPU 内核执行，能即时访问缓存和系统内存。”

1、精准的场景定位：Arm明确指出，SME2并非为运行数百亿参数的大语言模型（LLM）而生，而是专攻低延迟、小模型、持续在线的任务。例如设备的语音唤醒、图像实时预处理、情境感知建议等。这些任务频繁触发，要求毫秒级响应，且对能效极其敏感。

2、突破“内存”瓶颈：Arm揭示了当前AI性能的一个关键瓶颈——内存带宽。许多NPU的峰值算力受限于无法高速获取数据，导致性能无法完全释放。SME2的核心优势在于其直接集成于CPU核心，能够以极低延迟访问高速缓存和系统内存，从而在实际应用中，其效率远超纸面算力。

3、可编程性与通用性：与固定功能的NPU不同，搭载SME2的CPU具备完全的可编程性。这意味着开发者可以灵活适配快速演进的AI模型和算法，无需等待硬件更新。更重要的是，CPU是Arm生态中唯一100%存在的硬件，这为开发者提供了一个一致且免于碎片化的AI加速基础，确保AI功能能在所有设备上无缝运行。

正如Arm所介绍的，CPU永远是通用核心。AI会在 CPU、GPU、NPU 和云端之间异构运行，但CPU在系统层面始终是中心组件。C1系列因此不仅是一次性能升级，Arm的策略并非用CPU取代NPU，而是通过SME2强化CPU在异构计算系统中的地位，让其守住对延迟和灵活性要求。

GPU与AI的结合下一代移动体验提升

GPU在Arm的AI版图中扮演着另一个关键角色——处理与图形、视觉高度融合的AI任务。

Arm 终端事业部产品管理副总裁 James McNiven 认为，这是 GPU 角色演进的关键一步，AI 正在重塑图形领域。未来 GPU 不仅是画质渲染器，更是智能视觉平台。这正呼应了 Arm 推出的神经图形（Neural Graphics）概念：通过 AI 实现超分辨率、帧生成和降噪，让 GPU 成为连接感知与视觉体验的枢纽。

Mali G1-Ultra通过在架构中增加专用指令和优化微架构，在典型的int8和FP16 AI工作负载上实现了近乎翻倍的性能提升，有力支撑了AI超分、游戏内AI增强等应用。

另外，Arm Neural Technology通过AI驱动帧优化、超级采样和降噪的全新技术。它以Vulkan扩展的形式提供，具备可编程性，标志着Arm开始将AI深度融入图形管线，为未来的移动光追、AI超分（类似DLSS/FSR）和帧生成技术奠定了软件和硬件基础。

Arm虽不制造设备，但其技术正成为移动高性能游戏的基石。

专注核心IP，赋能差异化

Arm坚持只做最具价值的核心计算IP（CPU/GPU），而将NPU、ISP等系统级组件的创新空间完全开放给合作伙伴。这种策略既保证了基础计算的持续演进，又让三星、联发科等合作伙伴能够打造出各具特色的SoC。

目前，KleidiAI已集成到PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN、微软 ONNX Runtime 等框架中。开发者几乎无需额外修改代码，就能直接获得 SME2 的加速能力。这种“开箱即用”的方式，大幅降低了开发门槛，也为生态伙伴的快速验证提供了基础。

Arm 预计，到 2030 年，SME与 SME2技术将覆盖超过 30 亿台设备，新增超过100亿TOPS的算力。

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->

            <!-- 非定向300*250按钮  end -->
        </div>

Source link

相关推荐

评论抢沙发

近期文章

相关推荐

评论 抢沙发

近期文章

评论抢沙发