GPU 维修,一个百亿市场是如何形成的?


                                                                                                                                                <div> 

2020 年,全球人工智能(AI)迎来热潮,大模型技术席卷全球。 作为全球最大的互联网和科技应用市场之一,中国对 AI 算力的需求早已快速增长,阿里、腾讯、字节跳动等科技巨头和众多 AI 初创公司,争相购入英伟达(NVIDIA)的高端 GPU,组建庞大算力集群,投入大模型研发竞赛。

凭借专为 AI 计算设计的 GPU,尤其是数据中心级的 A100 芯片,英伟达在中国市场赚得盆满钵满,其高端 GPU 供不应求,价格水涨船高。

本来,这是一个双赢的局面:英伟达提供铲子,中国公司挖掘 AI 金矿。然而,中美科技竞争的暗流早已涌动,尤其是在人工智能和半导体等攸关国家安全和科技主导权的领域更是斗争激烈。美国接连挥下的芯片禁售令,不仅斩断了获取新铲子的渠道,反而倒逼出一个规模或达百亿的 GPU 维修产业填补着官方退场后的空白。

三次禁售令与囤货抢购

2022 年 8 月,美国政府向英伟达等公司发出通知,限制其高端 AI 芯片对中国的出口。10月,美国商务部工业和安全局(BIS)正式更新《出口管理条例》。

美国的目标明确:通过限制中国获取顶级 AI 算力 ,减缓其在尖端 AI 领域(尤其军事应用)的进展。这些新规,像一道无形的铁幕,开始落下。

新规的核心条款之一,就是对英伟达的旗舰产品——A100 和 H100 芯片及其相关技术(如组成大型服务器的 HGX模组)实施严格的出口管制。任何公司——包括英伟达及其合作伙伴如戴尔、惠普、超微,向中国大陆及中国香港、澳门出口这些芯片前,都必须获得美国政府颁发的特别许可证。因为这种许可证极难获得或根本不会发放,实质上就是禁止销往中国。

英伟达瞬间陷入两难。为了保住部分中国市场,2022 年底,英伟达迅速行动,开发了针对中国市场的特供版芯片——A800 和 H800。也可以叫阉割版芯片:这些芯片在关键性能指标,即芯片间数据传输速率上进行了人为限制,使其性能刚好低于美国出口管制的“红线”。

A800/H800虽然性能打折,但仍是当时中国公司能合法获得的最强算力选项之一。尤其是在 ChatGPT 引发的 大模型 热潮下, 中国 AI 市场进一步大爆发。A800/H800被大量采购,暂时缓解了部分算力紧迫的局面。

然而,美国很快掐断了这一后路,在 2023 年 10 月进一步升级了管制规则,直接将英伟达的“特供版” A800 和 H800 也纳入了禁售范围!中国公司通过合法渠道获取先进 AI 芯片的最后一条主要路径也被切断。

但市场对 算力 的强劲需求并未缓解,反而在断供威胁下愈发焦灼。因为国内 AI 巨头们的大模型竞赛此刻正如火如荼,对顶尖算力的需求是刚性且刻不容缓的。

在国产替代尚无法完全扛起大梁、产能爬坡仍需时间的现实下,即使是性能被阉割的英伟达芯片,也是支撑研发与商业化的硬通货。禁令阴影下,恐慌性囤货潮瞬间引爆——客户争相抢购最后的库存,只为在窗口期彻底关闭前,囤积尽可能多的算力弹药。

既要挽救中国市场,又要遵守美国出口限制,英伟达无法向中国出售高端 AI 芯片(如H100、A100),因此针对中国市场推出符合管制规则的特供版芯片(如 H20、L20 PCIe、L2 PCIe),通过大幅削弱互联带宽和算力以满足美方要求。

其中,H20 是旗舰计算卡 H100 的替代品,虽然都是基于英伟达的 Hopper 架构,但 H20 的 GPU 核心数量减少 41%,性能降低 28%。但通过优化互联带宽与软件性能,H20 仍成为国内大模型训练的重要选择。

L20 和 L2 是基于 RTX 4090 级消费卡(Ada Lovelace架构)的“降级版”,主要面向 AI 推理场景。H20 芯片上市后,由于国内客户担忧后续断供,集中抢购囤货。

研究机构 Omdia 根据英伟达财报预估,2024年,国内仅字节跳动和腾讯就分别订购了约 23 万片英伟达的芯片,仅次于微软。

而国内市场对断供的担忧再一次得到了验证:2025 年 4 月 16 日,美政府已经禁止英伟达向中国出口 H20 芯片。

英伟达 CEO 黄仁勋说得很直白,对华限制“非常痛苦”,“我们将失去一个规模巨大的增长市场”。

英伟达2025 财年报告显示,它在中国大陆(含中国香港地区)收入 171 亿美元,同比增长66%,相当于每天入账 3.3 亿人民币。

禁售之后,官方售后也失效

屡次禁售带来两个直接后果: 第一,中国公司再也买不到新的英伟达高端AI芯片(A100/H100/H800/H20等)。第二,更重要的是,连那些已经在中国数据中心里运行的、价值数百万一台的A100/H100服务器,也失去了官方的售后保障。

“原厂”或 OEM 官方维修路径理论上存在,但实际上极其困难,原路返回就是最大的障碍。这些设备很多是通过非官方渠道(例如转口贸易、灰色市场)进入中国的。将它们运回原厂(通常在美国或中国台湾等地区)进行维修,需要面临极其复杂的出口管制合规审查,几乎不可能获得许可。

就算设备有正规来源并能完成极其繁琐的合规手续进行返修,整个流程(物流、合规审查、排队、维修、再进口)耗时很长,短则3月,长则半年。

所以,对于受限的英伟达高端数据中心 GPU/HGX模组,在中国获得有效、及时、可靠的“官方”售后服务基本不存在,即使有,需付出代价也会高昂到无法接受。

在禁售令生效前,大量的 A100/H100 及其系统已被采购并部署在各种数据中心(尤其是大模型训练集群)。这对于租赁或自用的算力服务商来说,设备宕机意味着巨大的收入损失,半年收益可能为0。

GPU  维修,一笔百亿元的产业

巨大的需求和官方服务的真空,催生了一个庞大的第三方 GPU 维修产业。

捷智算是一家位于深圳的 GPU 维修企业,其销售总监李玉侠表示,从客户下单到维修完成,通常只需要 7 至 15 天。维修一张高端数据中心 GPU 的费用通常在数千到数万元人民币不等,这取决于损坏程度、是否需要更换核心等高价值部件。

有人根据 保有量 以及故障率预测,认为这可能是一笔百亿元的产业。

尽管国内 A100/H100 的保有量是核心机密,但普遍认为在数百万张级别。

据业内人士预估,从 2023 年到至今,H100、H800、H200、H20 等 GPU 是智算中心建设的主力采购型号,NVLink 整机形态(机头+HGX模组)产品的出货量巨大,保守估计国内存量约为 400 万片。其中仅 H20 在最近一年多时间内,出货量就高达 200 万片。考虑其他 OEM 整机和更早型号,如 V100 等仍有价值,总量庞大。

据公开报告显示,GPU 服务器的年故障率因使用强度、散热条件和维护水平而异,一般在 1%-5%。

而英伟达的 H 系列因其高性能设计,在 AI 训练等密集计算任务中故障率还会更高。据 Meta 公开的数据显示,H100 GPU集群在训练 Llama 3 模型的极端负载下,单块 GPU 在高强度使用下的年度故障率约为 9%,三年累计故障率可能达到 27%。有业内人士预估,如果维修一块 H100 GPU 收费 2 万,每年 10 万卡的维修需求,就有约 20 亿的市场空间。

这么算下来,几百万张卡的维修市场,说是百亿元的产业并不为过。

不过,这百亿元产业,很大一部分都要落到深圳的兜里了。深圳是国内乃至全球重要的高端 GPU 第三方维修中心。

这都要归功于深圳华强北打下的基础。华强北是全球闻名的电子元器件集散地和电子产品维修/翻新中心,拥有极其完备的电子产业链。海量的技术工人——特别是芯片级维修工程师,以及强大的元器件供应链,包括拆机件、翻新件、兼容件,虽然部分来源可能存疑。

长期维修手机、主板、显卡等精密电子设备,积累了丰富的BGA焊接、芯片植球、电路板飞线、故障诊断等高难度维修技术。这些技术可以直接迁移到 GPU 维修上。

当然了,第三方维修并非没有后顾之忧。由于维修所需的高端GPU核心(裸Die)等关键部件,官方渠道不可能提供。维修点主要依赖拆解报废卡、从其他故障卡回收、或者通过非正规渠道(可能涉及走私或侵犯知识产权)获取。这是产业最大的灰色地带和法律风险。

即使是顶尖技术团队操刀,经过维修的GPU 的稳定性、寿命、性能可能与原厂有差距。维修本身也可能导致设备失去官方保修(尽管在禁售后这已无意义)。

美国层层加码的芯片禁售令,不仅卡住了中国获取新 AI 芯片的脖子,还让中国公司之前买到的数百万张高端 GPU 失去了官方维修。不过,正是这个‘修不了’的大麻烦,直接催生了一个年规模可能达百亿人民币的第三方 GPU 维修产业,而深圳成了这个产业的核心。

据悉,英伟达又获准向中国出口 H20 芯片。这来来回回的禁售与放开之间,GPU 维修间的压测机在昼夜不停地工作,很多维修点的订单已经排到了半个月后。


参考链接:

1、GPU Lifetimes on Titan Supercomputer:Survival Analysis and Reliability

https://christian-engelmann.de/publications/ostrouchov20gpu.pdf

2、Datacenter GPU service life can be surprisingly short — only one to three years is expected according to unnamed Google architect

https://www.tomshardware.com/pc-components/gpus/datacenter-gpu-service-life-can-be-surprisingly-short-only-one-to-three-years-is-expected-according-to-unnamed-google-architect

3、Compared to the H100, how does the performance of NVIDIA’s AI chips specially designed for China, fare?

https://longportapp.com/en/news/102150690

4、一文了解H系列机型质保、故障、维修哪些事

https://mp.weixin.qq.com/s/jq6B-HZHEKW3hcopO3YQEQ

5、H系列GPU维修的生意火了!

https://mp.weixin.qq.com/s/jLpwOrDv5SDzFnzQFYOu2Q

6、黄仁勋回应争议,英伟达在中美博弈中找到微妙平衡

https://finance.sina.com.cn/stock/relnews/us/2025-07-16/doc-inffsnhq2777954.shtml

7、Chinese Firms Including ByteDance, Alibaba Place $16 Bn NVIDIA GPU Orders: Reports

https://analyticsindiamag.com/ai-news-updates/chinese-firms-including-bytedance-alibaba-place-16-bn-nvidia-gpu-orders-reports/

8、H20芯片重返中国市场

https://finance.sina.cn/tech/2025-07-18/detail-inffvhce4759535.d.html?fromtech=1&vt=4


维权提醒:如果你或身边的朋友近五年内因投顾公司虚假宣传、诱导交费导致亏损,别放弃!立即联系小羊维权(158 2783 9931,微信同号),专业团队帮你讨回公道! 📞立即免费咨询退费


Source link

未经允许不得转载:紫竹林-程序员中文网 » GPU 维修,一个百亿市场是如何形成的?

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的