引言:你天天跟AI打交道,但你知道它背后站着谁吗

如果你是一个做AI应用开发的程序员,日常大概率是这样的:打开Cursor写代码,调一下OpenAI的API,遇到问题去Hugging Face、ModelScope找个模型,部署的时候租几块GPU。这些动作你做得很熟练,但如果有人突然问你”现在大模型厂商都有哪些,各自什么特点””训练大模型用什么显卡””HBM是什么,为什么这么重要”——你可能能说上几个名字,但串不成一条线。

这不是你的问题,是AI这个领域变化太快、链条太长。从最底层的芯片制造到最上层的应用开发,中间隔着七八个环节,每个环节都有自己的玩家和逻辑。而且这些环节之间的关联,远比表面上看起来紧密——显卡的显存带宽决定了模型能跑多快,内存厂商的产能决定了显卡能产多少,云平台的算力价格决定了你调API要花多少钱。

这篇文章就想把这些环节串起来,像唠嗑一样,从底往上走一遍AI的全生态链。不求面面俱到,但求你看完之后,再听到这些名字时脑子里有画面,能说出个所以然来。


一、算力底座:没有这些芯片,大模型就是纸上谈兵

GPU:AI的发动机,Nvidia一家独大

训练一个大模型需要什么?数据、算法、算力。其中算力的物理载体就是GPU。你可能听过一个说法:”Nvidia卖的不是芯片,是AI时代的铲子。”这话一点不夸张。

目前AI训练和推理的主力GPU,几乎都来自Nvidia。按代际来看:

A100(2020年)是上一代的主力,80GB显存,虽然已经不算最新,但在推理场景依然大量使用。很多云平台的GPU实例默认就是A100。

H100(2022年)是当前训练的绝对主力,同样80GB显存,但架构从Ampere升级到了Hopper,引入了FP8精度支持,训练速度比A100快好几倍。2023到2024年,几乎所有大模型厂商的训练集群都是H100堆出来的。

H200(2024年)是H100的升级版,显存从80GB提升到141GB,带宽也大幅增加。它更像是一个”推理优化版”,更大的显存意味着能装下更大的模型或更长的上下文。

B200(2024年底开始出货)基于Blackwell架构,192GB显存,首次引入FP4精度加速。这是Nvidia当前最新的旗舰产品,2025到2026年正在逐步替代H100/H200成为新的训练主力。一个B200的FP4推理算力达到18 PFLOPS,是H100的数十倍。

Rubin(预计2026下半年量产)是Nvidia的下一代平台,单GPU推理算力达到50 PFLOPS,配288GB HBM4显存,带宽22TB/s。它不再只是一块GPU,而是一套包含GPU、CPU、NVLink交换机、网卡、DPU、以太网交换机在内的六芯片协同平台。Nvidia官方说Rubin的推理token成本可以降到Blackwell的十分之一——如果真能兑现,这意味着调用大模型的成本还会再降一个数量级。

打个比方来理解这几代GPU的关系:A100是燃油车,H100是涡轮增压,B200是混合动力,Rubin是全电动——每一代不只是”更快”,而是换了驱动方式。

当然,Nvidia不是没有对手。AMD的MI300X(192GB HBM3)和MI325X(288GB HBM3e)在显存容量上有优势,性价比也不错,但软件生态(ROCm)和Nvidia的CUDA差距还很大。Intel的Gaudi 3也在尝试切入,但市场份额很小。中国的华为昇腾910B/910C和寒武纪思元系列,受出口管制影响反而成了国内训练的”国产替代主力”,但在软件适配和整体性能上还在追赶。

还有一个值得关注的趋势:推理专用芯片正在崛起。Groq的LPU(语言处理单元)主打极低延迟,token生成速度惊人;Cerebras的晶圆级芯片用一整片晶圆做成一个超大芯片,推理速度极快。这些芯片不做训练,只做推理,但在延迟敏感的场景(比如实时对话)有独特优势。

消费级显卡:被AI”抢”走的产能

上面聊的都是数据中心级GPU,但如果你是一个想在自己电脑上跑模型的开发者,你更关心的是消费级显卡——比如RTX 4090(24GB显存)、RTX 5090(32GB显存)、RTX 5070(12GB显存)这些。

这里有一个很多人感受到但说不清楚的现象:消费级显卡和内存这几年又贵又难买,和AI抢产能有很大关系。

怎么回事呢?Nvidia和AMD的先进制程产能主要在TSMC,而TSMC的先进制程产线就那么多。当AI数据中心对H100、B200的需求爆表时,Nvidia自然会把产能优先分配给利润更高的数据中心GPU——一块H100卖3万美元,一块RTX 4090卖1500美元,谁优先不用多说。同样的情况也发生在HBM上——HBM的产能被AI GPU大量吞噬,导致普通DDR5内存的产能也被挤压(因为同一条产线可以切换生产不同类型的内存芯片,HBM利润更高自然优先排产)。

这就是为什么你在2023到2025年经常看到RTX 4090缺货、加价,DDR5内存价格居高不下——不是Nvidia不想卖消费级显卡,而是产能就那么多,AI那边的订单太大了。到了2026年,随着B200和Rubin的产能逐步释放,H100的产线开始腾出来,消费级显卡的供应才有所缓解。但只要AI需求继续增长,这种”AI挤占消费级产能”的张力就会一直存在。

对个人开发者来说,如果想本地跑模型,RTX 4090(24GB)和RTX 5090(32GB)是目前最实用的选择——24GB显存勉强能跑7B到14B的模型做推理,32GB更宽裕一些。但如果要跑70B以上的模型,消费级显卡的显存就捉襟见肘了,还是得上云。

HBM:GPU的”油箱”,比GPU还紧缺

聊GPU不能不聊HBM(High Bandwidth Memory,高带宽内存)。如果说GPU是发动机,那HBM就是油箱——发动机再强,油供不上也白搭。

为什么普通内存不行?因为大模型推理时,每生成一个token都要把模型权重从内存读一遍。一个700亿参数的模型,8-bit精度下大约70GB,每秒生成几十个token就要读几TB的数据。普通DDR内存的带宽远远不够,只有HBM这种把内存芯片垂直堆叠、通过硅通孔(TSV)密集互联的方案才能满足需求。

HBM的代际演进很快:HBM2e → HBM3 → HBM3e → HBM4(2026年初量产)→ HBM4E(2026年中开始送样)。每一代的核心变化都是带宽翻倍、容量增加。HBM4最关键的变化是接口从1024位翻倍到2048位,单堆栈带宽超过2TB/s,而且首次允许客户定制底部的逻辑层——这意味着Nvidia和AMD可以在HBM里嵌入自己的控制器甚至计算单元,内存从”被动存储”变成了”主动协处理器”。

HBM的供应商只有三家:SK海力士三星美光。SK海力士目前占据约50%的市场份额,是Nvidia Rubin平台的独家首选供应商,2026年6月刚和Nvidia签了多年联合开发协议。三星在HBM3E时代因为良率和认证进度落后,但在HBM4上率先实现了量产(2026年2月),试图抢回话语权。美光排第三,但在美国”供应链安全”的背景下,是很多美国本土部署的首选。

一个残酷的现实是:HBM的产能比GPU还紧缺。2026年全年的HBM4产能已经被微软、Google、Meta这些超大规模客户预定了90%以上。换句话说,不是你买不到GPU,而是GPU上那块HBM可能买不到。这也是为什么SK海力士和三星的股价这两年涨得比Nvidia还猛——它们卡的是整条产业链的脖子。

中国也在积极布局HBM。长鑫存储(CXMT)是国内最大的DRAM厂商,2026年计划量产HBM3(8层堆叠),已向华为昇腾910C等国产AI芯片交付样品,HBM月产能目标至少5万片。长江存储(YMTC)原本是NAND闪存厂商(232层3D NAND已量产),但也在进军DRAM和HBM领域,与本土封装企业合作研发HBM。不过受美国出口管制影响,HBM制造所需的关键设备(如先进光刻机和TSV设备)采购困难,国产HBM在制程和产能上与SK海力士/三星还有明显差距。目前国产设备应用率约45%,主要服务国内市场,缓解对进口HBM的依赖。

代工厂:TSMC,所有AI芯片的”厨房”

设计芯片是一回事,把设计变成实物是另一回事。全球能制造最先进AI芯片的晶圆代工厂,基本上只有台积电(TSMC)一家。Nvidia的所有GPU、Apple的M系列芯片、AMD的GPU和CPU、甚至HBM4的定制逻辑层——都是在TSMC的产线上制造出来的。

TSMC的3nm和4nm工艺是目前AI芯片的主力制程,2nm正在爬坡。它的地位有多不可替代?可以这样理解:如果TSMC停工一个月,全球AI算力的增长就会停摆。这不是夸张,是因为先进制程的产能就那么多,替代方案几乎不存在。

台积电是什么来头? 它1987年由张忠谋在台湾创立,是全球最大的专业晶圆代工企业,市值超过1万亿美元。台积电自己不设计芯片,只帮别人制造——这种”纯代工”模式让它能同时服务Nvidia、Apple、AMD、Qualcomm等互相竞争的客户,而不用担心利益冲突。台积电的技术领先来自两方面:一是每年将营收的30%以上投入研发(2025年资本支出超过400亿美元),二是和ASML的深度合作——它是全球第一个拿到最新EUV光刻机的厂商。

光刻机是什么? 光刻机是芯片制造中最核心的设备,相当于”在硅片上画电路图的超精密投影仪”。它把设计好的电路图案,通过光学系统投影到涂了光刻胶的硅片上,然后通过化学蚀刻把图案刻到硅片里。电路越细(制程越先进),需要的光刻机精度越高。目前最先进的是EUV(极紫外光)光刻机,波长13.5nm,只有荷兰ASML一家能造。一台最新型High-NA EUV光刻机售价超过3.5亿美元,全球产能每年只有几十台,而且受出口管制限制,中国大陆买不到。光刻机是芯片制造的”画笔”,没有它,再好的芯片设计也变不成实物。

光模块又是什么? 光模块和光刻机虽然名字里都有”光”,但完全是两码事。光模块是数据中心里用于光纤通信的器件,负责把电信号转成光信号发出去、再把收到的光信号转回电信号。AI训练集群里成千上万块GPU之间需要高速互联,数据在GPU之间来回传输就靠光模块。随着GPU算力飙升,光模块的速率也在跟着升级——从400G到800G再到1.6T,速度每翻一倍,单价也跟着涨。光模块不是芯片制造的环节,而是数据中心网络基础设施的环节,但它的需求同样被AI训练集群的扩张直接拉动。国内的光模块厂商(如中际旭创、新易盛)在这波AI浪潮中业绩暴涨,因为全球数据中心的GPU互联都离不开它们的产品。

TSMC所在的芯片制造环节,影响的远不止AI一个行业。汽车电子、手机芯片、军工航天——所有需要先进芯片的领域都依赖TSMC的产能。这也是为什么台海局势一直是全球科技产业的敏感话题:TSMC的地理位置决定了它是一个地缘政治的焦点。


二、模型厂商:造”大脑”的人

有了算力,接下来就是造模型。这个领域的格局在2026年已经非常清晰了:美国三巨头领跑,中国军团紧追,欧洲和日本各有一席之地。

美国三巨头

OpenAI是这个行业的开创者和风向标。GPT系列几乎定义了”大模型”这个品类。2026年中的最新旗舰是GPT-5.5(支持100万token上下文),而代号”Spud”的GPT-6已经在内部测试。OpenAI的特点是”全能”——推理、编码、多模态、Agent能力都很强,ChatGPT全球用户接近10亿,年化收入超过140亿美元。但它的短板也很明显:闭源、价格贵、API调用成本高。打个比方,OpenAI就像AI界的苹果——生态最完整、体验最顺滑,但你得接受它的定价和封闭。

Anthropic是OpenAI最强的挑战者,由OpenAI前员工创立,主打”安全优先”。Claude系列在2026年迎来了高光时刻:Claude Opus 4.8在多项基准测试中登顶,Claude Fable 5更是拿下了综合智能指数第一。Claude最大的优势是编码能力和长上下文处理——SWE-bench(真实GitHub问题修复测试)上的表现断层领先,100万token的上下文窗口让它在处理大型代码库和长文档时游刃有余。Anthropic在2026年的估值达到了9650亿美元,首次超过OpenAI。Claude Code(终端AI编程Agent)的年化收入接近63亿美元,拿下了AI编程Agent赛道54%的市场份额。如果打个比方,Anthropic像AI界的特斯拉——技术激进、理念鲜明、有一群死忠粉。

Google的Gemini系列走的是”原生多模态”路线——不是把文本、图像、音频分开处理再拼起来,而是从一开始就在多模态上统一训练。Gemini 3.5 Pro的上下文窗口开到了100万到200万token,推理能力大幅提升。Google的优势在于它有全球最强的基础设施(TPU芯片+Google Cloud+搜索+YouTube数据),而且Gemini的API定价是三家里最便宜的。但Google的问题一直是”产品化”——技术很强,但用户体验经常不如OpenAI和Anthropic丝滑。打个比方,Google像AI界的微软——底层实力无人质疑,但总让人觉得”明明可以做得更好”。

中国军团

中国大模型厂商在2025到2026年的进步速度让很多人意外,从”跟随”变成了”并跑”,甚至在某些维度实现了”领跑”。

DeepSeek(深度求索)是最大的黑马。DeepSeek-V3用671亿总参数、37亿活跃参数的MoE架构,以约550万美元的训练成本做出了媲美GPT-4级别的模型,直接把”训练大模型要多贵”这个问题重新定义了一遍。DeepSeek-R1更是以开源推理模型的身份,在推理能力上对标OpenAI的o1,引发了全球关注。到了V4,DeepSeek把API价格打到了GPT-5的1/30到1/36,成了全球开发者”性价比首选”,用极致性价比颠覆市场。

阿里(通义千问Qwen)走的是”开源+全尺寸”路线。Qwen3系列覆盖了从0.6B到235B的全尺寸,还支持”思考/非思考”模式切换——简单问题快速回答,复杂问题自动进入深度推理。2026年4月发布的Qwen3.6-Plus更进一步:原生支持多模态(图文理解、视觉编程、视频推理),默认100万token上下文窗口,编程能力跃居国产模型首位,接近Claude系列水平。Qwen3.6-35B-A3B(总参数35B、激活参数仅3B的MoE小模型)也以开源形式发布,在多模态基准上甚至超越了参数量大得多的稠密模型。Qwen在Hugging Face上的下载量长期位居前列,是中国开源模型中国际化最成功的。阿里的打法——产品线全、开源生态强、国际化做得好。

智谱AI是清华系公司,GLM系列模型在中文场景表现突出。2026年6月最新发布的GLM-5.2是一个重要里程碑:744B总参数、40B激活参数的MoE架构,以MIT协议开源,支持1M上下文窗口,专为长程任务设计——能连续工作数小时,自主完成从开发、联调、测试到打包上线的完整软件交付流程。在FrontierSWE、Terminal-Bench等编码基准上,GLM-5.2与Claude Opus 4.8仅差1%到4%,是排名最高的开源模型。更值得关注的是,GLM-5.2的训练和推理完全在国产算力上完成,发布当天即适配华为昇腾、寒武纪等9家国产芯片平台——在海外最强模型转向封闭的背景下,”开源国模+国产算力”的组合备受关注。

月之暗面(Moonshot)的Kimi系列以长上下文著称,Kimi K2是万亿参数级MoE模型,开源发布后引发了广泛关注。Kimi在C端用户中的口碑很好,很多人拿它做长文档阅读和论文分析。

百度(文心ERNIE)是国内最早做大模型的大厂之一,文心系列在中文场景深耕多年,企业客户基础扎实。百度智能云也是国内重要的AI推理服务平台。

字节跳动(豆包)凭借抖音和飞书的用户基础,在C端AI助手的日活上表现突出。豆包模型的API通过火山引擎对外提供,价格也很有竞争力,同时支持多模态输入(文本、图像、音频)和多模态输出(文本、图像、音频)。

MiniMax的M3模型在编程能力上表现亮眼,百万级上下文的原生多模态能力也是一大卖点。

其他玩家

Meta的Llama系列是开源模型的标杆。Llama 4于2025年发布,Maverick是400B级MoE模型,Scout是轻量版,全部开源权重。Meta的策略很明确:不开源模型本身赚钱,但通过开源建立生态,让开发者在Meta的平台上构建应用。Llama之于AI,就像Android之于手机——不是最强的,但覆盖面最广。

Mistral是法国的AI公司,走”开源+商业”双线。Mistral Small适合轻量部署,Codestral专注代码生成。它的特点是模型小而精,适合欧洲市场对数据主权有要求的场景。

xAI(Elon Musk创办)的Grok系列走的是”实时信息+少审查”路线,在X(原Twitter)平台上深度集成。


三、AI编程工具:你的新同事

如果你是一个程序员,AI编程工具已经不是”要不要用”的问题,而是”用哪个”的问题。2026年,这个赛道已经从”代码补全”进化到了”Agent自主编程”。

Cursor是目前市场占有率最高的AI编程IDE,基于VS Code分支开发。它的核心模式是”智能体集群”——你可以同时启动多个Agent,一个改前端、一个写后端、一个跑测试,并行工作。Cursor 3还引入了Cloud Agent,可以在云端虚拟机里跑长任务,不占你本地资源。2026年3月,Cursor的年化收入达到了20亿美元,估值约600亿美元。打个比方,Cursor是AI编程界的iPhone——不是最早的,但体验最完整、生态最成熟。

Claude Code是Anthropic出品的终端AI编程Agent,不走IDE路线,直接在命令行里工作。它的长项是”长程任务自主性”——你给它一个目标,它能自己规划、自己执行、自己纠错,连续工作很长时间。Anthropic内部超过80%合入生产代码库的代码是由Claude生成的。Claude Code在Agent深度上目前是最强的,特别适合重构整个代码库、跨文件修改这类”大活”。打个比方,Claude Code像是一个资深架构师——不爱用IDE,就爱在终端里敲命令,但活干得又快又稳。

OpenAI Codex走的是”三端统一”路线:终端(Codex CLI)、IDE(VS Code插件)、Web(ChatGPT内)三个入口共享同一套能力。2026年6月,OpenAI把Codex核心能力整合进了ChatGPT,意味着非开发者也能用AI写代码了。

Trae是字节跳动出品的AI编程产品线,面向中文开发者,国内版完全免费。它的生态包含三个产品:Trae IDE是基于VS Code的AI编程编辑器,支持Chat(对话补全)、Builder(自然语言生成项目)和SOLO(AI自主开发)三种模式,原生支持接入国内API(比如DeepSeek、豆包),在国内网络环境下体验最顺畅;Trae Solo是独立端(PC+Web+移动端),脱离IDE的束缚,提出了”More Than Coding”的概念——不光能写代码,还能处理PDF、PPT、Excel、会议纪要等业务文件,面向产品经理、运营等非技术角色;Trae Work是2026年从Solo升级而来的全员AI办公平台,新增Work模式(面向非技术人员的AI办公能力)和Code模式(面向开发者的AI编程能力)双核驱动,支持内容创作、数据分析、方案撰写、应用生成、定时任务、会议纪要等场景。Trae三端(App+Web+PC)共享同一个Agent,你在手机上发起的任务,Agent在电脑端执行,进度实时同步——手机成了随身AI调度中心。

Windsurf原本是Codeium出品的AI IDE,2025年底被Cognition AI(Devin的团队)收购后,整合了Devin的架构。它的特点是推理速度极快(在Cerebras硬件上达到950 token/s),而且支持40多种IDE插件,不限于VS Code。

GitHub Copilot是最早大规模商用的AI编码助手,2026年依然在企业市场占有率最高(约29%)。它的优势是和GitHub生态深度集成,从Issue到PR的全流程都能覆盖。Copilot Agent模式也已经上线,可以自主完成代码修改和PR提交。

怎么选?如果你主要写代码且预算充足,Cursor Pro(20美元/月)是目前综合体验最好的;如果你做大型项目重构,Claude Code的Agent能力最强;如果你在国内、不想折腾网络问题,Trae免费且够用;如果你是学生或个人开发者,GitHub Copilot对学生免费。


四、云平台与推理服务:模型的”发电厂”

模型训练好了,得部署上线才能用。但不是每个公司都有条件自己买GPU搭集群,所以就有了AI云平台和推理服务——你可以理解为”模型的发电厂”,你不需要自己建电厂,按用电量付费就行。

三大云厂商各有所长:

Microsoft Azure是OpenAI模型的独家云合作伙伴,Azure OpenAI Service是企业使用GPT系列最正规的方式。微软还在2026年Build大会上发布了7款自研MAI系列模型,开始减少对OpenAI的依赖。

AWS Bedrock走的是”多模型超市”路线,Claude、Llama、Mistral等模型都能在Bedrock上调用,还支持自研的Trainium/Inferentia芯片来降低推理成本。

Google Cloud Vertex AI深度集成Gemini模型和TPU实例,在多模态场景有优势。

除了三大云,还有一批专业推理平台值得关注:

Together AIFireworks AI专注开源模型推理,价格比大云便宜很多,适合预算有限的开发者。Groq用自研LPU芯片做推理,延迟极低,适合实时对话场景。Cerebras用晶圆级芯片做推理,速度同样惊人。Replicate主打”一键部署”,把开源模型跑起来就像Docker pull一样简单。

国内方面,硅基流动(SiliconFlow)是目前最活跃的开源模型推理平台,阿里云PAI百度智能云分别服务Qwen和文心模型的部署,火山引擎提供豆包模型推理。如果你主要用国产模型,这些平台的网络延迟和合规性都更有保障。


五、社区与开源生态:AI的”集市”

AI领域的开源社区,重要性怎么强调都不过分。大模型时代的一个重要特征是:最好的模型不一定来自最大的公司,开源社区的力量正在重塑竞争格局。

Hugging Face是AI领域当之无愧的”GitHub”。截至2026年初,平台上托管了超过200万个AI模型和50万个数据集。Meta的Llama、阿里的Qwen、DeepSeek的R1——这些模型发布后的第一站都是Hugging Face。它不仅存模型,还提供Transformers库(统一了所有主流模型的调用接口)、Spaces(一键部署模型Demo)、Inference API(按量付费调用模型)等一整套工具链。Hugging Face的估值已超过40亿美元,2025年底Nvidia曾试图以70亿美元估值追加投资但被婉拒——它想保持独立性。对于开发者来说,Hugging Face就像AI时代的npm——你不需要从零造轮子,搜一下大概率有人已经做过了。很可惜的是国内被墙了,正常手段访问不到。

GitHub在AI时代依然是代码托管的绝对主力,但它的角色正在变化。2018年微软以75亿美元收购了GitHub,此后GitHub就深度融入了微软的AI战略。GitHub可以说是分享项目创意点子的最大平台,在这里能找到AI相关的各种项目、工具、Skill、MCP、提示词等等资源。GitHub Copilot让它从”存代码的地方”变成了”写代码的地方”,GitHub Models又让它变成了”调模型的地方”。微软正在把GitHub打造成AI开发的全流程平台。

ModelScope(魔搭)是阿里巴巴做的”中国版Hugging Face”,对国产模型的支持更深入,而且经常提供免费的GPU算力——这对没有显卡的个人开发者来说非常友好。魔搭还推出了MCP广场,把各种工具节点标准化,像堆乐高一样组装AI应用。

Kaggle是Google旗下的数据科学竞赛平台,适合学AI的入门者——上面有大量竞赛、数据集和Notebook,边赛边学。

Papers with Code把论文、代码和基准排行榜关联在一起,是学术AI社区的重要枢纽。如果你想知道某个任务的SOTA(当前最优)是什么、代码在哪,去这里找就对了。

Civitai是Stable Diffusion模型社区,专注图像生成领域,上面有海量的LoRA、Checkpoint和生成样例。


六、AI头部企业:谁在定义这个时代

聊完具体环节,退后一步看全貌。2026年,AI领域真正有话语权的企业可以分成几层:

基础设施层的王者是Nvidia(GPU)、TSMC(代工)、SK海力士/三星/美光(HBM)。它们卡的是物理世界的脖子——没有芯片和内存,一切AI都是空谈。Nvidia市值超过3万亿美元,是这轮AI浪潮中赚钱最多的公司。

平台层由Microsoft、Google、Amazon主导。它们提供云算力、模型服务和开发工具,是AI应用的”水电煤”。Microsoft通过投资OpenAI和自研MAI模型双线布局;Google有TPU+Gemini+Cloud的垂直整合;Amazon用AWS Bedrock做模型超市。

模型层的竞争最激烈。OpenAI、Anthropic、Google三强争霸,DeepSeek、Meta(Llama)从开源侧冲击。这个层的特点是”赢者通吃”的效应没那么强——不同的模型适合不同的场景,市场足够大,容得下多个玩家。

应用层还在快速演化。Cursor、Claude Code这些AI编程工具是当前最成熟的AI应用形态;Perplexity在做AI搜索;Harvey在做AI法律助手;各个行业都在出现垂直AI应用。这一层的机会最多,但竞争也最分散。

一个值得注意的趋势是大厂自研芯片。Google的TPU已经迭代到第六代,只服务自家模型;Amazon的Trainium/Inferentia在降低推理成本;Microsoft的MAI芯片也在路上;Meta在和Broadcom合作定制AI芯片。这些大厂不想永远给Nvidia交”GPU税”,自研芯片是长期战略。但在可预见的未来,Nvidia的CUDA生态壁垒太高,自研芯片更多是补充而非替代。


七、你可能会问的几个问题

“训练一个模型到底要花多少钱”

这取决于模型大小。DeepSeek-V3用约550万美元训练了一个671B的MoE模型,这被认为是”极致性价比”。而OpenAI训练GPT-5级别的模型,据估计花费超过20亿美元——因为它用了约10万张H100,跑了18个月。差距主要来自模型规模(参数量)、训练数据量和实验次数。

“为什么中国公司训练成本这么低”

几个原因:一是MoE架构天然节省算力(只有部分参数被激活);二是中国的工程师成本和电力成本相对较低;三是DeepSeek团队在算法优化上做了大量工程创新,比如混合注意力机制。但也要注意,低成本训练的模型在极端场景下的鲁棒性是否和”烧钱”训练的模型一样好,这还没有定论。

“HBM为什么这么重要,普通内存不行吗”

不行。大模型推理的瓶颈不是计算,而是”喂数据”的速度。想象一下,你有一个超级快的厨师(GPU),但食材(模型权重)要从很远的仓库(内存)运过来,厨师大部分时间都在等食材。HBM就是那个把仓库搬到厨师隔壁的方案——带宽是普通DDR内存的几十倍。2026年,几乎所有前沿模型都卡在内存带宽上,而不是计算力上。这就是为什么有人说”AI的瓶颈不是GPU,是HBM”。

“开源模型和闭源模型差距大吗”

在2026年,差距已经明显缩小。DeepSeek-R1的推理能力对标OpenAI o1,Llama 4的性能逼近GPT-4.5级别,Qwen3在多语言和编码上表现优异。开源模型的优势是可自部署、数据不出域、成本可控;闭源模型的优势是综合能力依然领先、API服务更稳定、多模态和Agent能力更成熟。对于大多数企业场景,开源模型已经”够用”;对于追求极致能力的场景,闭源模型仍有优势。


八、几个实用的知识点

前面聊的都是”谁在做什么”,接下来聊几个你在实际开发中一定会遇到但可能没仔细想过的技术概念。

Token估算:你的AI账单怎么算

调用大模型API时,计费单位是token,不是字符。那token到底是什么?

简单说,token是模型处理文本的最小单位。英文中,一个常见单词大约是1个token,一个不常见的词可能被拆成2到3个token。中文不太一样,一个汉字通常是1到2个token(取决于分词器)。一个粗略的估算经验:1个token约等于0.75个英文单词,或约0.5到0.7个中文字

几个常见的估算参考:

  • 1000个token大约是750个英文单词,或500到700个中文字
  • 一篇3000字的中文文章大约是4000到6000个token
  • 一本30万字的书大约是40万到60万个token
  • 100万token大约相当于5本《三体》的文本量

为什么这个估算重要?因为你在调API时,输入和输出的token数直接决定费用。比如GPT-5.5的定价是每百万输入token 5美元、每百万输出token 15美元,如果你每次请求输入5000 token、输出1000 token,那一次请求大约花费0.04美元。看似不多,但如果你的Agent每天跑1000次请求,一个月就是1200美元。所以优化Prompt长度、控制输出长度,不只是技术问题,也是成本问题。

模型名称里的参数都是什么意思

你在Hugging Face上看到的模型名称通常长这样:Qwen3.6-35B-A3BDeepSeek-R1-Distill-Qwen-32BLlama-4-Maverick-17B-16EQwen2.5-7B-Instruct-A8W8。这些数字和字母是什么意思?

B = Billion(十亿)参数。32B就是320亿参数,7B就是70亿参数。参数量大致反映了模型的”脑容量”——参数越多,模型能学到的模式越复杂,但需要的显存和算力也越多。目前主流开源模型的参数范围从0.5B(极轻量)到400B+(超大),7B到14B是个人开发者本地部署的”甜点区间”。

AxxB = 激活参数xxB。这是MoE(混合专家)模型特有的标注。MoE模型的总参数量很大,但每次推理只激活其中一部分。比如Qwen3.6-35B-A3B表示总参数35B,但每次推理只激活3B——这意味着它用3B的计算成本就能获得接近35B的效果,性价比极高。

xxE = 专家数量Llama-4-Maverick-17B-16E表示16个专家,每个专家17B参数。MoE模型在推理时,输入会经过一个路由机制,选择最相关的2到4个专家来处理。

Instruct = 指令微调版。基础模型(Base Model)只会”续写文本”,你输入”今天天气”它可能接着写”很好,适合出门”。Instruct版本经过指令微调和对齐训练,能理解并执行你的指令——你让它”写一封邮件”,它就会写一封邮件,而不是续写成”写一封邮件是一件很困难的事”。日常使用几乎总是选Instruct版本,Base版本主要用于继续微调。

A8W8 / GPTQ / AWQ = 量化格式。这些后缀表示模型被压缩了。A8W8表示激活值用8-bit、权重用8-bit存储(原始是16-bit或32-bit),显存占用减半,精度损失很小。GPTQ和AWQ是两种常见的4-bit量化方法,能把7B模型的显存需求从14GB压到4GB左右,让消费级显卡也能跑。量化的代价是精度略有下降,但对大多数应用场景来说,4-bit量化的效果已经足够好了。

训练和部署一个大模型需要多少显存

这是做AI应用开发时最常被问到的问题之一。答案取决于你是”训练”还是”推理”,以及模型参数量。

推理(部署)的显存估算比较简单。一个经验公式:推理所需显存(GB) 约等于 参数量(B) x 精度字节数 x 1.2(1.2是KV Cache和运行时开销的余量)。

  • 16-bit精度(FP16/BF16):每个参数2字节。7B模型约需 7 x 2 x 1.2 = 16.8GB,所以7B模型FP16推理需要约17GB显存
  • 8-bit精度(INT8):每个参数1字节。7B模型约需 7 x 1 x 1.2 = 8.4GB
  • 4-bit精度(INT4/GPTQ):每个参数0.5字节。7B模型约需 7 x 0.5 x 1.2 = 4.2GB

所以一个7B模型,4-bit量化后只要4到5GB显存,RTX 4090(24GB)绰绰有余;70B模型4-bit量化后约需42GB,单卡4090装不下,需要2到3张或用更大显存的A100。

训练的显存估算要复杂得多,因为训练需要存储模型权重、梯度、优化器状态(Adam优化器需要存两份状态)和激活值。一个粗略的经验:全参数训练所需显存约是推理的4到5倍。7B模型全参数训练(16-bit)约需80到100GB显存,这就是为什么训练需要多卡并行。

实际中很少做全参数训练,更常见的是LoRA微调——只训练模型中很少一部分参数(通常不到1%),显存需求大幅降低。7B模型LoRA微调在16-bit下约需20到30GB,4-bit量化+LoRA(QLoRA)只需6到10GB,单张RTX 4090就能搞定。

BGE、BERT和主流大模型有什么区别

如果你做过RAG,一定用过BGE或BERT这类模型。它们和GPT、Claude这些”大模型”是什么关系?

BERT(2018年,Google)是Transformer架构的先驱之一,但它不是生成式模型,而是编码器模型——它只做”理解”,不做”生成”。你给它一段文本,它输出一个向量表示(Embedding),可以用来做分类、匹配、相似度计算等任务。BERT的参数量通常在110M到340M,和动辄几十B的大模型比起来非常小,但它在特定任务上效率极高。

BGE(BAAI General Embedding,北京智源研究院)是BERT的”继任者”,专门为生成高质量文本向量而训练。它和BERT一样是编码器模型,但训练目标和数据更现代,生成的向量在语义检索任务上效果更好。你在RAG中用的Embedding模型,大概率就是BGE系列。

打个比方来理解它们和GPT/Claude的区别:**GPT/Claude是”全能型选手”,能读能写能推理能对话,但每次调用成本高、速度慢;BERT/BGE是”专科型选手”**,只会一件事——把文本变成向量,但这件事做得又快又便宜又准确。

在RAG流程中,它们分工明确:BGE负责把文档和问题变成向量(快、便宜),GPT/Claude负责基于检索到的内容生成答案(慢、贵但智能)。两者配合,才是完整的RAG。如果你只用GPT做所有事,成本会很高;如果你只用BGE,又得不到自然语言回答。

一个常见的误解是”BGE和GPT是竞争关系”。其实不是,它们是协作关系——BGE是RAG的”检索器”,GPT是RAG的”生成器”。理解了这个分工,你就能在工程中做出正确的选型。


回望这条链路

从最底层的TSMC晶圆厂,到HBM内存堆叠,到Nvidia GPU设计,到云平台算力调度,到模型训练和推理,再到你手边的Cursor和Claude——这条链路上的每一个环节,都在为同一件事服务:让AI更聪明、更便宜、更易用。

理解这条链路有什么用?至少有三个好处:

第一,选型时有依据。你知道DeepSeek的API为什么便宜(MoE架构+极致工程优化),知道Claude为什么编码强(Anthropic在Agent能力上的深耕),知道什么时候该用开源模型(数据敏感场景)、什么时候该用闭源模型(追求极致效果)。

第二,判断趋势时有方向。HBM产能紧缺意味着短期内GPU价格不会降;Rubin平台量产后推理成本可能再降一个数量级;开源模型和闭源模型的差距在缩小,但短期内闭源在多模态和Agent上仍有优势。

第三,跟人聊天时有底气。下次有人问”SK海力士是干嘛的””HBM4和HBM3e有什么区别””Cursor和Claude Code谁更强”,你不用再支支吾吾说”我好像听过”——你能讲出它们在整条链路上的位置,以及为什么这个位置重要。

AI的生态链还在快速演化,今天的格局明年可能就会变。但底层的逻辑不会变:算力是基础,模型是核心,工具是桥梁,社区是土壤。理解了这个结构,不管未来怎么变,你都能快速定位新事物在哪个环节、扮演什么角色。


参考资料