相关证件: 
会员类型:
会员年限:4年
发布时间: 2025/5/6 10:30:40 | 5 次阅读
然而,在巨大的市场机遇背后,挑战亦不容忽视。典型挑战之一是:随着 AI 大模型部署在向更广泛、更深度、更高效方向演进,推理任务也正从集中化的云端向端侧延伸,这使得产业对高性能、低延迟、强本地处理能力的需求愈发迫切。
从云到端:AI 大模型驱动计算需求升级
生成式 AI 的爆发式发展,推动大模型从云端集中式推理向 “云 - 边 - 端” 全栈部署演进。这一趋势对计算资源提出多维度严苛要求:云端需突破算力密度天花板,端侧则需追求ji致能效比。
云端层面,大模型训练与推理的算力需求呈指数级增长,参数量从千亿级向万亿级跃进,训练阶段依赖万卡甚至十万卡 GPU 集群的分布式计算能力。云端推理成本随用户访问量也同步上升,实时响应需求加剧服务器负载。传统 x86 架构的数据中心面临严峻挑战,单服务器功耗、机架密度和推理成本均接近极限。
端侧层面,端侧 AI 通过模型剪枝、知识蒸馏等技术压缩大模型体积,以减少对云端算力的依赖,但这也使边缘端部署面临更严苛的约束,算力与能效的平衡成为he心挑战。端侧设备需适配高性能 CPU、大显存显卡及高速存储模组以支持低延迟推理。当前,智能手机、车载终端等消费电子领域对计算资源的争夺已趋白热化,工业、医疗、教育等领域亦迸发出大量需求。
未来,AI 大模型在端侧的增长潜力更强,其he心驱动力来自技术突破、场景需求及政策支持的三重叠加效应。与此同时,端云协同正逐渐成为行业发展的主流趋势 —— 云端负责复杂训练与全局推理,端侧聚焦实时响应与隐私保护。企业需相应构建 “云 - 边 - 端” 一体化架构,通过模型压缩、硬件加速等技术突破,在智能制造、智能驾驶、智慧医疗等关键领域实现规模化应用。在这个过程中,Arm ling先的计算平台凭借其高能效、高性能及灵活性优势正脱颖而出,为释放 AI 大模型的潜能提供强大支撑,助力大模型从云到端的高效部署与运行。
Arm技术全栈赋能 AI 大模型发展
面对 AI 大模型在云端、端侧及端云协同场景下的计算需求,Arm 提供了从架构到平台、从硬件到软件的全栈解决方案。
在云端领域,早在 AI 时代全面到来之前,Arm Neoverse 平台就凭借其卓越的高能效特性,在基础设施领域获得了广泛认可,特别是在 AI 推理这一对算力与能效有着严苛要求的场景中,展现出了不可比拟的独特优势。凭借出色的云端通用计算性能与能效表现,Arm Neoverse 已成为云数据中心领域的事实标准。如今,Neoverse 技术的部署更是达到了新的高度:2025 年出货到头部超大规模云服务提供商的算力中,将有近 50% 是基于 Arm 架构。亚马逊云科技(AWS)、Google Cloud 和 Microsoft Azure 等超大规模云服务提供商,均采用 Arm Neoverse 计算平台打造通用定制芯片,以优化数据中心和云计算的能源利用效率。
以 AWS Graviton4 CPU 为例,该处理器基于 64 位 Arm 指令集架构的 Arm Neoverse V2 he心设计,为各类云应用提供高效且高性能的解决方案。通过在 Graviton3(C7g.16xlarge)和 Graviton4(C8g.16xlarge)实例上部署 Llama 3 8B 模型进行性能评估,结果显示:在提示词编码环节,Graviton4 性能相较 Graviton3 提升 14%-26%;词元生成性能方面,在不同用户批次大小测试中,Graviton4 在较小批次下效率提升更为显著,达 5%-50%。
在端侧领域,Arm 终端 CSS 集成zui新的 Armv9.2 Cortex CPU 集群、Arm Immortalis 与 Arm Mali GPU、CoreLink 互连系统 IP,以及zhi名代工厂基于三纳米工艺生产就绪的 CPU 和 GPU 物理实现。作为 AI 体验的计算基础,Arm 终端 CSS在消费电子设备中实现了性能、效率与可扩展性的跨越式提升。例如,Arm Cortex-X925 的 AI 性能提升了 41%,可显著增强设备端生成式 AI(如 LLM)的响应能力。
这里展开介绍一下 Armv9 架构,该架构集成了加速和保护 LLM 等先进生成式 AI 工作负载的关键特性,如可伸缩矩阵扩展(SME)和可伸缩矢量扩展(SVE2)。SME 作为 Armv9-A 架构的指令集扩展,可加速 AI/ML 工作负载,为 Arm CPU 上运行的相关应用提供更高性能、能效与灵活性;SVE2 则提升 DSP 任务性能,使复杂算法处理更快速高效,尤其适用于高算力需求的 AI/ML 场景。
在边缘 AI 领域,Arm 今年还发布了全新边缘 AI 计算平台,以全新基于 Armv9 架构的超高能效 CPU——Arm Cortex-A320 及原生支持 Transformer 网络的 Ethos-U85 AI 加速器为he心,进一步助力 AI 大模型在端侧的落地。
在软件生态层面,Arm 在 2024 年推出 KleidiAI 软件库,助力 AI 框架开发者在各类设备上充分发挥 Arm CPU 性能,支持 Neon、SVE2 和 SME2 等关键 Arm 架构功能。作为一套面向 AI 框架开发者的计算内核,KleidiAI 可与 PyTorch、TensorFlow、MediaPipe、Angel 等热门 AI 框架集成,旨在加速 Meta Llama 3、Phi-3、混元大模型等关键模型的性能表现,为生成式 AI 工作负载带来显著优化。此外,KleidiAI 还具备前后兼容性,确保 Arm 在引入新技术的同时持续满足市场需求。目前,其支持范围已覆盖从基础设施、智能终端到物联网及汽车的全部 Arm 业务领域。
结语
从云端算力密度突破到端侧能效平衡,AI 大模型的全面部署正重塑计算产业格局。Arm 架构凭借 “云 - 边 - 端” 全链条技术协同优势,成为激活新质生产力的关键引擎 —— 无论是 Neoverse 计算平台在数据中心打破 x86 架构的能效瓶颈,还是终端 CSS 以及边缘 AI 计算平台在端侧加速 AI 部署及应用,亦或是 KleidiAI 在软件生态中搭建框架与硬件的高效桥梁,Arm 正以全栈式创新构建助推 AI 大模型发展的完整技术版图。