云计算百科
云计算领域专业知识百科平台

2025版 AI服务器产业链全景梳理 AI大模型领域从业人员必看

当前国内外厂商加速布局大模型,同步带动算力需求爆发式增长,驱动AI服务器行业高景气。

根据TrendForce数据,2023年AI服务器出货量近120万台,占据服务器总出货量的近9%,年增长达38.4%;预计2026年AI服务器出货量为237万台,占比达15%,2024-2026年复合年增长率约25.50%。

价格方面,通用服务器价格一般为几千美金/台,而主流AI服务器价格多在10-15万美金/台,单价也呈现指数型提升。

01 AI服务器行业概览

传统服务器主要以CPU为算力提供者,在运作的过程中需要引入大量分支跳转中断处理,不能满足AI时代的需求。

AI服务器由传统服务器演变发展而来,是专门设计用于执行人工智能、机器学习、深度学习等计算密集型任务的高性能服务器。

AI服务器可以通过收集数据、分析数据和模拟数据来学习如何有效地运行服务器,也可以根据不同的应用程序和用户请求来调整服务器的性能,从而提供更好的服务器性能。

相较于通用服务器具备更强的计算能力,AI服务器主要采用加速卡为主导的异构形式,更擅长大吞吐量的并行计算。

从服务器的硬件架构来看,AI服务器通常配备有高效能的中央处理器(CPU)、图形处理器(GPU)、张量处理器(TPU)或专用的AI加速器,以及大量的内存和存储空间。

AI服务器可以多种组合方式,搭载多个GPU、CPU以及大算力AI芯片。

在异构方式上,AI服务器可以为CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或CPU+多种加速卡。

AI服务器分类方式:

随着服务器集成需求增量从 CPU 向 GPU 切换, AI 服务器系统集成市场迎来整体增量及格局变迁。

服务器行业演进历程:

资料来源:行行查

02 AI服务器产业链

AI服务器产业链上游主要是算力及零部件厂商,中游是服务器厂商,下游客户包括数据中心、政府、各类企业等。

AI服务器产业链:

资料来源:东海证券

AI服务器上游核心组件包含算力芯片GPU(图形处理器)、DRAM(动态随机存取存储器)、SSD(固态硬盘)和RAID卡、CPU(中央处理器)、网卡、PCB、高速互联芯片(板内)和散热模组等。

AI算力芯片

AI芯片是AI服务器算力的核心,也被称为AI加速器或计算卡。

是专门用于处理人工智能应用中的大量计算任务,针对AI算法(如深度学习等)进行特殊加速设计的芯片,占AI服务器成本约70-75%。

AI芯片在云端兼顾执行人工智能的“训练”与“推理”任务,而在终端主要负责执行“推理”操作。

训练芯片大多部署于云端,要求训练芯片应具有强大的单芯片计算能力;推理芯片大多会部署于云端和边缘侧,对算力的要求较低。

根据技术架构和应用需求,AI芯片可分为GPU、FPGA、ASIC芯片三大类。

资料来源:浪潮信息官网、宽泛科技、CSDN、51CTO、浙商证券、行行查

GPU

GPU是AI服务器的核心,约占近90%AI芯片市场份额,其价值量占AI服务器高达约70%。

GPU是专为处理大量的并行任务而设计的处理器,通常用于图形渲染、数据并行计算以及深度学习等领域,其通用程度高、软件生态丰富、制造工艺相对成熟。

英伟达是全球人工智能计算领域的领导者及全球GPU市场的绝对龙头。

JPR统计数据显示,从出货量角度来看,2023年在全球独立显卡市场,英伟达以80%的市占率处于绝对领先地位。

在2024年GTC大会上,英伟达推出全新Blackwell架构GPU芯片,基于台积电4nm工艺制造,并采用了双芯片设计,芯片间的互联速度高达10TB/s,总晶体管数量达2080亿个,同时搭配8颗HBM3e内存,内存容量达192GB,带宽达到8TB/s,相比Hopper架构平台提升明显。

英伟达芯片发布节奏:

资料来源:Semianalysis 援引英伟达

国产算力GPU的主要厂商包括华为昇腾、海光信息、寒武纪、平头哥、天数智芯、燧原科技、摩尔线程、壁仞科技、沐曦等公司。目前国产算力GPU芯片在推理场景应用较多且具备一定竞争力,部分产品的单卡指标和参数已经与英伟达产品接近或持平。

FPGA

FPGA芯片是可编程的芯片,允许开发者按需定制硬件,在需要特定算法优化时非常有用,可根据算法迭代调整硬件配置。

FPGA提供了一种介于GPU和ASIC之间的灵活解决方案,它的可编程性使硬件能够在算法迭代时进行有效优化,同时在开发周期上比ASIC更为短暂。

FPGA市场供给主要被美国赛灵思(AMD收购)、阿尔特拉(英特尔收购)两家企业垄断,市占率分别为49%和34%,此外美国的Lattice、Microsemi也占据一定市场份额。

国内主要布局厂商包括复旦微电(率先推出亿门级FPGA和PSoC芯片)和紫光国微(国内特种集成电路行业领先者,产品覆盖500多个品种)、安路科技(国内民用FPGA头部厂商)。

ASIC

ASIC是为特定AI应用定制的芯片,能在性能和能效上提供最佳的表现,该类芯片是固定设计,针对一种特定任务或算法进行了优化。

一般来说,ASIC的专业性强,性能高于FPGA。但是可编程性和灵活性较弱,且开发周期较长,且需达到一定生产规模才能实现成本优势。

主要AI芯片对比:

资料来源:智能计算芯世界、行行查

服务器通常具有大量的存储空间和内存,以便存储和处理大量的数据网络能力,附带高速和低延迟的网络连接,以便快速传输大量的数据。

当前AI服务器需求核心在于更大带宽的存储,因此带来存储技术路线变革。

HBM

AI服务器主要使用的存储器除了内存条和固态硬盘外,新增HBM搭配GPU使用,当前主流 GPU芯片的 HBM 用量提升。

HBM,即高带宽内存,是一种新兴的DRAM解决方案,解决了AI发展的存储墙问题。

可以理解为与CPU或SoC对应的内存层级,将原本在PCB板上的DDR和GPU芯片同时集成到SiP封装中,使内存更加靠近GPU。使用HBM可以将DRAM和处理器之间的通信带宽大大提升,从而缓解这些处理器的内存墙问题。

GPU中HBM提供存储:

资料来源:Applied Materials analysis

由于先进制程GPU、GDDR颗粒、2.5D/3D封装技术与产能局限,全球高端HBM呈现寡头垄断格局,三大供应链厂商为SK海力士、三星、美光。

2024年三家国际大厂都将主要量产HBM3与HBM3E,HBM3产品占有率将达到60%以上。

目前,SK海力士仍然是主要供应商,与美光一起,都使用1betanm制程,并且都已开始向英伟达供货。三星使用1alphanm制程,预计于年中开始交付。

此外,据TrendForce,HBM4预计规划于2026年推出,在堆栈的层数上HBM4除了现有的12层外,也将再往16层发展。

HBM主要生产商技术路线图(2022-2026):

资料来源:trendforce

HDD/SSD

AI服务器带来本地存储容量大幅提升,本地存储的选择方案包括HDD和SSD。

硬盘HDD满足大容量的长时存储需求,在服务器中用于数据缓存驱动和操作系统驱动,服务器硬盘一般与RAID(独立磁盘冗余阵列)卡搭配使用。

SSD采用闪存技术来存储数据,相比HDD具有更快的读写速度和更短的访问时间,适用于需要快速随机访问的应用中,如虚拟化、数据库和Web服务器。

数据中心级SSD已不再是一个硬盘,而是一个具备处理、缓存、计算、安全保护的小型系统。

SSD的主要硬件组件包括NANDFlash、主控芯片和DRAM,核心软件为企业级SSD的固件。

存储IC&存储模组供应链:

资料来源:华金证券、行行查

内存接口芯片

内存接口芯片是服务器内存模组的核心逻辑器件。

其主要作用是提升内存数据访问的速度及稳定性,满足服务器CPU对内存模组日益增长的高性能及大容量需求。

内存接口芯片处于服务器产业链上游,在DDR4及之前仅用于服务器,DDR5及之后也可供应PC、笔电,厂商出货与下游服务器采购周期密切相关。

内存接口芯片行业相对封闭,前期需要与内存厂商、服务器厂商进行广泛的互操作测试,认证壁垒高且周期较长,新进入难度较大。

自DDR4时代开始,行业集中度进一步提升,TI、Inphi等厂商相继退出市场,自此内存接口芯片市场参与者仅剩澜起科技(中国),瑞萨和Rambus三家。

03 AI服务器竞争格局

服务器制造商主要分为ODM厂商和品牌厂商。

服务器相关组件准备完成后,将由ODM厂商进行组装代工,再送至品牌服务器厂商处销售,或者是ODM厂商不通过品牌服务器厂商直接与下游(通常是CSP)客户合作,根据客户的需求进行定制化生产。

ODM代表厂商包括广达、超微、工业富联、英业达、纬创、Supermicro等,这些厂商与云端业者、上游芯片厂商深度绑定,有稳定的供应链、快速交付能力以及较低售价等优势。

基于低成本和快速部署服务器以建设大规模数据中心的考量,近年云端业者与ODM厂商合作日益频繁。

国内服务器品牌厂商在AI服务器市场占据优势。据IDC数据,2023年浪潮、新华三、宁畅销售额位居前三,占据70%以上的市场份额。

从2017年开始,浪潮AI服务器一直保持超过50%的市场份额,稳居市场第一。2022年浪潮AI服务器在AI性能评测竞赛MLPerf中获得49个冠军;2023年浪潮推出最新一代融合架构的AI训练服务器NF5688G7,较上代平台大模型实测性能提升近7倍。

新华三AI服务器覆盖各训练负载要求,主要产品型号包括R4900G5、R5300G5、R5500G5等,在MLPerf训练及推理测试中共斩获86项世界第一。

宁畅AI服务器如X640系列,支持新一代Ampere架构A100GPU,具备超强算力,性能可达每秒4亿亿次。

处理器方面,浪潮信息及宁畅产品主要通过搭建四代英特尔CPU+英伟达H800GPU超高算力组合,华为的昇腾系列和鲲鹏系列服务器主要搭载自研鲲鹏处理器及昇腾处理器,中科曙光搭载龙芯处理器满足大算力需求。

中科曙光是亚洲第一大高性能计算机厂商,AI服务器主要采用海光/寒武纪芯片,已和百度“文心一言”展开合作,为其产业化应用提供算力支持。

04 AI服务器应用端

AI服务器的下游应领域用包括云服务提供商(CSP)、运营商、政府、教育、金融等,其中全球几大CSP是AI服务器最主要的采购方,中美科技巨头是主要买家。

从采购份额来看,2023年北美四大云端供应商Microsoft、Google、Meta、AWS合计AI服务器采购量占比约66%。其中,又以搭载英伟达GPU的AI服务器机种占大头,其GPU服务器占整体AI市场比重高达6-7成。

全球 CSP 对高阶 AI 服务器需求占比:

资料来源:集邦咨询

中国AI采购量逐年增长,字节跳动、腾讯、阿里巴巴、百度等科技巨头占比靠前。

此外,三大运营商AI服务器招标进程加速,有望带动AI服务器需求持续释放。

中国移动2024年至2025年新型智算中心采购招标,计划采购人工智能服务器7994台及配套产品、白盒交换机60台。此外,中国电信于2023年10月采购了4175台AI服务器,并于2024年7月公告启动2024-2025年服务器集采,预估采购量为15.6万台,其中G系列,即国产化系列数量达到10.53万台,占比达到67.5%;2024年3月,中国联通发标采购2503台AI服务器。

整体而言,在国内数字基础建设及需求量不断上升的大背景下,我国AI服务器市场有望持续稳定发展。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

赞(0)
未经允许不得转载:网硕互联帮助中心 » 2025版 AI服务器产业链全景梳理 AI大模型领域从业人员必看
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!