英特尔AMD联手！ACE技术打造x86标准矩阵加速架构，大幅提升AI性能

　　英特尔与AMD两大x86架构巨头在市场上可以说是水火不容，不过面对大环境的变化，两级厂商正通过ACE技术合作开启x86生态的AI新时代。近日双方联合发布了全新的人工智能计算扩展（AI Compute Extensions，简称ACE）技术白皮书，将ACE定义为“x86芯片的标准矩阵加速架构”，通过大幅提升矩阵乘法性能，为x86架构带来AI算力的跨越式升级，这也是双方推动x86架构统一发展的核心举措。

　　早在去年，英特尔与AMD就联合启动了“x86生态系统顾问小组”（x86 Ecosystem Advisory Group，简称EAG）计划，核心目标是为x86架构打造一套标准化的功能特性，提升架构的通用性、可扩展性与未来兼容性，巩固x86生态在AI时代的竞争力。当时双方就公布了四大核心技术特性：FRED、AVX10、ChkTag与ACE，而此次ACE白皮书的正式发布，标志着这一联合技术路线迈出了关键落地的一步。

　　在EAG的参与支持下，英特尔与AMD协同完成了ACE指令集架构（ISA）的对齐与优化，最终实现了覆盖整个x86生态的标准化矩阵加速功能。这套架构方案融合了两家厂商的技术理念与研发成果，同时吸纳了EAG社区广泛的市场洞察。目前，英特尔与AMD仍在就ACE与AVX10的未来技术路线图展开深度合作，旨在进一步挖掘AI及更多工作负载领域的技术机遇。双方表示，x86架构本身已具备广泛的应用基础与高性能表现，而ACE指令集的加入，将进一步夯实x86生态的未来发展根基。

　　白皮书内容显示，ACE专为x86指令集架构设计，核心价值在于实现矩阵乘法性能、可扩展性与能效的大幅提升。众所周知，矩阵乘法是AI工作负载中神经网络与大语言模型（LLM）的核心运算单元，现有的AVX10等单指令多数据流（SIMD）扩展虽可完成矩阵乘法运算，但其可扩展性与计算密度存在明显瓶颈，而传统的加速矩阵乘法技术方案，也无法实现高效能的运算优化。针对这一行业痛点，EAG通过ACE技术给出了全新解决方案：在加速矩阵乘法运算的同时，实现更强的灵活性与可扩展性。ACE可复用现有的AVX10优化方案，打造出一套能覆盖笔记本电脑到超级计算机全场景的可扩展矩阵加速框架。与将AI计算卸载到专用硬件的方案相比，这种跨平台的统一架构能力，能大幅降低开发者的适配与开发门槛。

　　英特尔与AMD在白皮书中，将ACE称作“x86架构的标准矩阵加速架构”。技术细节方面，ACE原生支持INT8、OCP FP8、OCP MXFP8、OCP MXINT8、BF16等当前AI领域主流的数据格式，同时引入了基于外积运算的矩阵加速机制，该机制专为适配AVX10设计。核心性能上，在消耗相同数量输入向量的前提下，ACE外积运算的计算密度，相比等效的AVX10乘累加操作提升了16倍，实现了算力效率的量级跃升。

　　作为AVX10指令集的扩展，ACE的软件生态适配工作已全面推进。目前，多个主流开发工具与框架已启动集成工作，具体包括：深度学习与高性能计算库（如低精度通用矩阵乘法、大语言模型基础算子）、NumPy、SciPy等主流Python科学计算库，以及PyTorch、TensorFlow等行业主流机器学习框架。ACE的落地，也被行业视作x86架构在AI时代延续生命力的关键一步。英伟达首席执行官曾公开表示，英特尔与AMD的x86联盟，是延续这一架构生命力的必要举措。而随着ACE技术的落地与生态完善，x86架构在AI时代的发展，也迎来了全新的发展机遇。

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->

            <!-- 非定向300*250按钮  end -->
        </div>

Source link

相关推荐

近期文章