当前位置:首页 > IT大事件 > 正文

中国AI芯片维修暗战:深圳商家月修500块英伟达GPU背后的灰色产业

中国AI芯片维修暗战:深圳商家月修500块英伟达GPU背后的灰色产业 AI芯片维修 英伟达GPU H100维修 深圳芯片维修 B200服务器 GPU寿命 芯片维修价格 数据中心运维 第1张

   在深圳华强北一个不起眼的维修车间里,老王摘下防静电手环,指着桌面上密密麻麻的绿色电路板摇了摇头:“今天又收了37块H100,全是训练过程中烧坏的显存。”作为拥有15年显卡维修经验的老手,他在去年底转向AI芯片维修后,订单量如火箭般蹿升。如今,他带领的20人团队每月经手约500块英伟达高端GPU,维修架上堆满了从全国各地数据中心运来的H100和A100芯片。

   这些每块售价曾高达25万元的高端计算卡,本不该出现在中国市场上。2022年9月,美国政府一纸禁令将英伟达旗舰产品H100和A100列入对华禁售清单。但禁令催生了一个地下产业链——通过特殊渠道流入的芯片在昼夜不停地运行两年后,正迎来故障爆发期。老王的工作台见证了这个隐秘行业的繁荣:2024年初他每月仅接收几十块故障芯片,如今这个数字翻了十倍。

   “最要命的是风扇故障,”老王指着显微镜下一块烧焦的电源模块解释,“数据中心为压缩空间,把GPU的间距设计得太窄。八块卡挤在密闭机箱里连续运转数月,散热一旦出问题就会引发连锁反应。”他的维修中心甚至搭建了模拟客户环境的256台服务器测试机房,因为修复后的芯片必须经受住每秒万亿次计算的考验。

   维修账单令人咋舌。基础检测费5000元起步,更换显存或电路板的维修报价在1-2万元间,相当于原芯片价格的10%。某互联网公司运维主管透露,他们去年采购的20块H100已有6块出现故障,但相比百万元级的新设备投入,维修仍是性价比之选。

   这种地下维修生意的繁荣,折射出中国AI行业的算力焦虑。尽管英伟达获准销售中国特供版H20芯片,但内置八块H20的服务器售价超百万元,其推理性能虽优,却难以支撑大语言模型训练。而最新流入的“性能怪兽”B200芯片更将价格推至新高——搭载八块B200的服务器在黑市叫价突破300万元。

   维修技师们面对的不仅是技术挑战。某维修商透露,部分送修芯片的PCB板上残留着海运集装箱特有的盐渍,暗示着非常规运输路径。对此,美国政府正推动在高端AI芯片中内置地理位置追踪技术,试图堵住灰色流通的漏洞。

   在老王的工作台上,一块标签模糊的H100芯片刚刚完成重生。维修记录显示,它已在某人工智能实验室连续服役32个月——接近这类芯片5年设计寿命的临界点。当被问及行业前景时,老王将热风枪温度调到420℃:“只要算力饥渴症还在,我们就有饭吃。”

发表评论