SMIC N+3 的金属间距
真的比 Intel 18A 更小吗?
约四年前,SemiAnalysis 曾披露 SMIC 已开始量产 7nm(N+1)芯片。如今,SMIC 第三代 7nm(N+3)制程已搭载于华为 麒麟 9030,最小金属间距(metal pitch)达 32.5nm,比 Intel 最新 Panther Lake(基于 18A)量产的 36nm 紧约 10%。
这个标题为真,却是一个被精挑细选的片面指标。N+3 靠激进的 DUV 多重曝光与 DTCO(设计-工艺协同优化)达到了 台积电 N6 级别的密度,但代价是更高的复杂度、更差的能效与更难的工艺控制。本文涵盖 SMIC 的 N+3 工艺、华为的封装、内存、架构等多个维度的拆解发现。
一句话结论:标题为真,但被精挑细选
N+3 达到 N6 级密度,却在能效、成本、工艺成熟度上全面落后于前沿节点
M0 只是单元内的局部布线层,它的有用程度取决于整个互连栈:M1/M2 间距、走线轨道数、过孔与线电阻、设计规则、掩膜数、套刻控制与布线灵活性。SMIC 用最紧的一层数字,掩盖了它在能效、工艺成熟度与成本上与 Intel 18A / 台积电 N3P 的真实差距——这正是"片面指标"的含义。
从这次拆解中我们同时看到了中国的进步与约束。SMIC N+3 达到了 N6 级逻辑密度,但需要远更激进的 DUV 多重曝光,因此在工艺成熟度和成本上都比不上 N6。麒麟 9030 Pro 的表现与三年前的安卓旗舰相当,远落后于苹果、高通、联发科、三星的当前旗舰 SoC,能效差距更大。出口管制没有阻止华为和 SMIC 出货先进硅片,但确实迫使它们走上了一条不同的路。
麒麟 9030 裸片与平面布局
STEEL 实验室首份公开拆解:与 9020 对比,同样面积,更激进的使用
这是 SemiAnalysis 位于俄勒冈的 STEEL 拆解实验室的首份公开报告。海思(HiSilicon)是华为的芯片设计部门,负责麒麟手机 SoC、鲲鹏服务器 CPU、昇腾 AI 加速器与网络芯片。出口管制前华为曾是台积电最大客户之一——是 N7+ EUV 节点的唯一客户,也与苹果同为 N5 首批客户。2020 年底这一切终止。
2023 年底华为以麒麟 9000s 重返自研,改用 SMIC N+2 而非台积电 N5;随后的 9010、9020 沿用同一 N+2 制程,搭载自研 泰山(TaiShan)CPU 核与 Maleoon GPU。麒麟 9030 的总裸片面积与 9020 几乎相同(约 140mm²),但用得更激进:更密的制程让华为在同等面积内塞进多一个中核、更多 GPU/NPU 核与更大的缓存。
📐 麒麟 9030(SMIC N+3)
📐 麒麟 9020(SMIC N+2)
SemiAnalysis 用一年半时间在俄勒冈建设了一座能分析全球最先进、最重要芯片的拆解实验室——STEEL(SemiAnalysis Teardown Engineering & Evaluation Lab)。它已通过数据中心芯片拆解产生收入(包括对某 TSMC 大客户 COUPE 光引擎 + EIC 3D 堆叠的逆向工程),目标是像在 AI、数据中心与半导体市场数据领域一样做到行业第一,正面对标长期缺乏竞争的 TechInsights。
架构与 PPA:面积亮眼,能效落后
设计撑得比节点更好,但核心仍落后前沿几代——能效差距尤其触目
麒麟 9030 是渐进式改款,而非全新设计。CPU、GPU、NPU 沿用 9020 家族,收益来自三个杠杆:N+2→N+3 制程步进、DTCO 与平面布局优化、以及增量微架构改进。PPA(性能-功耗-面积)中面积最易从裸片照片看出,9030 在此缩放良好;但性能与能效才是更难的考验。
① 各核面积与缓存变化(9030 相对 9020)
② 核心性能 / 能效对比(最刺眼的对照)
最刺眼的对照不是 9020 与 9030 之间,而是苹果的能效核完爆华为的 Prime 核:苹果低功耗核整数性能高 20%,却只耗 1W,而华为 Prime 核要 4.5W。N+3 虽追平 N6,但 N6 已是数代前的老节点;苹果、高通用更密、电压-频率曲线更优的 N4 与 N3P,晶体管预算更大、每瓦性能更高。
9030 自身的核也确有改进:中核与小核每时钟整数性能较 9020 提升 17% 与 14%;小核改进最干净(性能升、功耗降、整数能效 +45%、浮点能效 +24%),中核则较混杂(整数性能升但功耗升更快,整数能效反降 7%;浮点能效因功耗下降而 +16%)。能在相同或更低频率下提升每时钟性能,说明是微架构调优而非单纯缩放。
- GPU(Maleoon 935):华为收益最大的一块。在 3DMark 中 WLE 比 920 快 70%、SNL 快 79%;CU 缩约 28% 却由 4→6 个抵消,GPU 簇整体大约 +10%。这是华为首个带硬件光线追踪的 GPU,光追略胜 Exynos 2200、与 Apple A16 持平,但当前旗舰仍快达 3.7×。
- NPU:结构变化最大,由 9020 的 1 Lite + 1 Tiny 改为 9030 的 1 Lite + 2 Tiny,重新回到更大的多核 NPU 簇,新增面积给了 Tiny 核而非 Lite 核。
内存与封装:全有机 iPoP 堆叠
三星 1a 与长鑫 G4 内存,整包无硅 interposer,CTE 贴近 PCB
Pro 版搭载 12GB 三星 DRAM,识别为 K4L2E165YD,12Gb LPDDR5X-9600,制造于三星 1a 工艺(10nm 级第四代,2022 年起量产,是当代内存)。16GB Pro Max 版同时出现 长鑫(CXMT)与三星两种封装:长鑫封装标记 CXDD7JEDM,X 射线 CT 推断的裸片尺寸符合 CXMT G4 工艺约 0.3 Gib/mm² 的已知密度,大致等同于他厂的 1z 工艺。
麒麟 9030 采用典型的 iPoP(集成式封装上封装)堆叠:内存封装位于有机 RDL interposer 之上,后者又位于 SoC 与封装基板之上,整包再经 BGA 焊球贴装到 PCB。整个堆叠全为有机材料,唯一的硅是 SoC 与 LPDDR5X 裸片,没有硅 interposer。
保持全有机让封装的热膨胀系数(CTE)贴近 PCB,减少板级翘曲;同时省去了一块 SoC 带宽本就不需要的硅 interposer,降低成本。这是一种针对手机 SoC 带宽需求所做的务实工程取舍。
制程深度对比:N+3 vs N6(核心)
从鳍剖面到标准单元、金属栈与 SRAM——用 TEM 横截面逐层拆解
裸片照片告诉我们华为如何分配硅预算,工艺则告诉我们 SMIC 能制造什么。我们以 Helio G99 作为台积电 N6 的工艺参照,对逻辑与存储区做了定向 TEM 横截面,分别在鳍切(fin-cut)与栅切(gate-cut)两个方向成像。结论先行:SMIC 没有超越 Intel 或台积电,它用激进 DUV 缩放与 DTCO 达到 N6 级密度,但密度并未转化为可比的性能与能效——原因有二:与前沿节点的代差,以及华为的核心设计本身。
FinFET 工艺最重要的旋钮之一是鳍剖面:理想的鳍应当又高、又窄、近乎垂直。更高的鳍增大有效沟道宽度,更窄的鳍通过减薄栅极所控制的体来改善静电控制。两个处理器都属同一类节点:N+3 的 fin pitch 为 30–32nm,我们采样的 N6 为 34nm。N7 的 HD 库通常标 33nm fin pitch,N6 并未直接缩小间距——其密度增益来自 DTCO 而非更紧的间距。
SMIC N+3 鳍剖面
TSMC N6 鳍剖面
结合 CPU 核与 8T SRAM 的鳍序列逆推,逻辑与 SRAM 共享同一基础栅格:一次 128nm 间距的 mandrel 光刻经 SAQP(128nm ÷ 4)产生一张全裸片 ~32nm 栅格,支撑了逻辑(N-P 鳍对间距在 78/88nm 交替)与 SRAM 中观察到的间距序列。
标准单元是芯片版图的基本积木:固定行高、一对共享栅极的 NMOS/PMOS。关键尺寸是接触栅极间距(CGP)、单元高度(cell height)、鳍数与下层金属布线栅格。我们用 Bohr 指标(NAND2 门面积 60% + 扫描触发器面积 40% 的加权平均)来衡量密度。
麒麟 9030 三个 CPU 核的单元高度均为 228nm,比 N6 小 5%、比 N+2 的 252nm 缩 9.5%;CGP 与 N6 同为 57nm(较 N+2 缩 9.5%)。N+3 在 9030 中只发现一种库(2 NMOS + 2 PMOS 鳍),库策略比 N6(HD/HP 双库广泛混用)更窄,这可能反映更小的客户基础与更受限的本土 EDA 生态。SMIC 的密度增益不来自 EUV,而来自把每个可用的 DTCO 增益器用到极致:
Fin Depopulation
减少每单元的鳍数。早期 FinFET 每晶体管 3–4 鳍,N+3 与 N6 HD 都降到 2 鳍,以驱动强度换密度。
COAG
栅极接触直接落在有源栅上而非隔离区,降低单元高度。N+3 集成了 COAG,N6 没有——栅切横截面显示 N+3 接触在有源区上方。
SDB
单扩散隔离取代旧的双扩散隔离(省下两个 CGP 的空间),但增加 局部版图效应(LLE)敏感性,须在工艺与 PDK 中精确建模。
SMIC N+3 的晶体管密度为 113.4 MTr/mm²,略高于台积电 N6 的 107.7。即便没有 EUV,SMIC 也达到了超越使用 EUV 的成熟 N6 节点的密度——这是真本事,但它靠的是把所有 DTCO 杠杆推到极限,而非更先进的光刻。
整次拆解里最小的关键尺寸是 M0:SMIC N+3 用 32.5nm 局部金属间距,小于 Intel 18A 在 Panther Lake 上的 36nm M0。但这不意味着 SMIC 的工艺优于 18A 或台积电 N3P。M0 是单元内局部布线层,32.5nm 与 SAQP 一致(四群线宽在 21.5–24nm 间交替);M1(38nm)、M2(40nm)则与 SADP(单次 A/B 拆分)一致。
SADP vs SAQP 间距示意
🟦 SADP(自对准双重曝光)
一次 mandrel + 一次间隔层 → 间距减半。M1/M2 即用此方案,N6 全部金属层亦止于此。
🟧 SAQP(自对准四重曝光)
心轴 + 两次级联间隔层 → 间距四分。M0(32.5nm)必须用它,因低于单次 DUV 间隔层(SADP)可分辨极限。
金属层间距汇总(可点击表头排序)
| 金属层 | 角色 | N+3 间距 | N6 间距 | 图案化 | 备注 |
|---|---|---|---|---|---|
| M0 | 单元内局部布线 | 32.5nm | ~40nm | SAQP | 较 N+2/N6 缩 19%;最小关键尺寸 |
| M1 | 垂直局部布线 | 38nm | ~57nm | SADP | M1:gate = 3:2,较 N6 紧 33% |
| M2 | 首个真正跨单元层 | 40nm | ~43nm | SADP | 5.7-track 单元;双重曝光极限 |
| M3 | 局部互连末层 | 44nm | ~40nm | SADP | 与 N+2 同;比 N6 大 10% |
| M4–M6 | 半全局信号 | 80–82nm | — | DUV 单次 | 承载多数块级布线 |
| M7–M10 | 半全局信号 | 128nm | — | DUV 单次 | 采样有限,密区或再细分 |
| M11 | 半全局 | 148nm | — | DUV 单次 | 麒麟保细间距至此 |
| M12 | 巨型全局层 | 1920nm | — | — | 与 N+2 同 |
| M13 | 巨型全局层 | 4600nm | — | — | 与 N+2 同 |
Intel 18A 支持 32nm M0,但 Panther Lake 实际只量产了更松的 36nm——因为大量使用 HP 库,而且 18A 靠 PowerVia(背面供电)把电源布线移到背面,正面金属栈全部用于信号布线、拥塞减小,所以在前沿节点中拥有最松的 M0 间距。换言之,松不等于落后,紧也不等于领先——口径不同。
关于 M1:gate = 3:2 比:N+2/N+3 用 3:2、N6 用 1:1,这解释了 M1 间距的巨大差异。更多 M1 线相对栅极意味着单元内电源/信号交叉的更大灵活性,能做出更复杂更好的单元;但也增加版图与图案化复杂度。这是 SMIC 在无 EUV 下用工艺复杂度换密度与可布线性的 DTCO 选择。该比例在前沿并不流行——台积电仅在 N7+/N5 家族/短命的 N3(B) 用过,N3E 已回到 1:1;Intel 仅 10nm/Intel 7 用过;三星是唯一仍在 SF4/SF3 用 3:2 的。
在前沿节点,SRAM 比逻辑难缩得多。我们在 GPU 计算单元旁意外发现了一处 SRAM,且是少见的 8T(8 晶体管)位元而非常见的 6T。8T SRAM 增加两个晶体管构成专用读端口,消除读扰动、改善读稳定性,可把单元推得更激进以追求性能。EDS(能量色散 X 射线谱)帮我们确认这处剖面落在了 GPU 旁的 SRAM 宏上,而非 GPU 逻辑。
8T HCC(实测)
6T HCC(估算)
6T HDC(估算)
各级缓存实测密度(9020 → 9030)
未来路线:N+4、N+5 与华为 3D 堆叠
DUV 杠杆越用越少;华为另辟蹊径走 τ scaling 与 LogicFolding
同一批横截面也揭示了 SMIC 的下一步。N+3 在数层上已逼近 DUV 多重曝光的实际极限,但仍有几个缩放杠杆。理论上的 N+4 会先从单元高度入手:把 M0 轨从 5 条降到 4 条(如 N+2/N6),单元高度约降 15%;FEOL 侧可把 P-N 隔离从两个扩散栅格单位减到一个(Intel 4 与台积电 N3 用过)。综合估算 N+4 可达单元高 198nm、CGP 54nm、Bohr 密度 137.8 MTr/mm²,与 TSMC N5 / 三星 SF4 相当。
理论上的 N+5 需要更大的集成转变——背面接触(BSCon)背面供电,把电源布线与源漏接触移到背面,进一步降低单元高度(可至 170nm、CGP 53nm、163.6 MTr/mm²,与 Intel 18A 的 HP 库相当)。但这绝不会让 N+5 在成本上与前沿竞争,而是用更昂贵的路线达到相似密度,集成难度(背面对准、晶圆减薄、接触显露、背面金属化)陡增。
密度路线图(归一化 Bohr 密度)
| 节点 | Cell Height | CGP | Bohr 密度 (MTr/mm²) | 对标 |
|---|---|---|---|---|
| SMIC N+2 | 252nm | 63nm | ~95(基线) | 前代 |
| SMIC N+3(实测) | 228nm | 57nm | 113.4 | ≈ TSMC N6 |
| SMIC N+4(理论) | 198nm | 54nm | 137.8 | ≈ N5 / SF4 |
| SMIC N+5(理论) | 170nm | 53nm | 163.6 | ≈ 18A HP(背面供电) |
| Intel 18A HD(参照) | — | — | ~184 | SMIC N+3 比其低 38% |
过了 N+5 这个点,常规的密度与互连缩放越来越不划算——华为的路线图于是从"代工厂路线图"变成了"封装路线图"。在 ISCAS 2026 上,华为提出了 τ scaling(时间域缩放):把工艺缩放重构到时间域,τ 即数据搬运与处理的时间成本(晶体管开关延迟、RC 信号传播、计算/内存/网络延迟)——在华为术语之外,这就是 STCO(系统-技术协同优化)。
LogicFolding 是华为对这一思想的实现,本质是激进的 3D 堆叠:不像 AMD V-Cache 只把 SRAM 叠在 CPU 上,LogicFolding 把同一逻辑块的各部分拆分到多个有源裸片,以超细间距面对面键合,使键合界面像额外一层金属,从而缩短关键路径、降低 buffer(中继器)开销。缩短走线正是更高频率的来源。
华为的密度宣称不能与代工厂密度直接比较。堆叠设计可以靠增加有源层,按"每封装占位面积"报出更多晶体管——即便每张图案化裸片仍远落后台积电/Intel 的前端密度。这就是华为如何号称 2031 年达到代工厂"14A 等效"密度(按 3D 堆叠、每封装占位面积计,2030 年 215、2031 年 295 MTr/mm²)。但归一化 Bohr 口径下,SMIC N+3 约 114 MTr/mm²,比 Intel 18A HD 库低 38%。同样的口径套到 AMD MI450X(N2 顶片 + N3P 底片)会得出 2026 年 460.2 MTr/mm²——远高于华为 2031 的 295。
出口管制与生态扩散
管制改变了中国的优化问题,而非终结它;瓶颈正从单一晶圆厂转向生态
出口管制改变了中国的优化问题,而非终结它。EUV 限制抬高了前沿制造的成本与复杂度,却没有冻结它:SMIC 经 DUV 浸没、SAQP 与 DTCO 达到 N6 级逻辑密度,华为则把更多负担转移到架构、封装与系统级集成。但未来节点会更难:N+3 还有局部金属、单元高度、CGP 可压;再往下没有 EUV,杠杆更少,更激进的多重曝光会增加掩膜与套刻误差,每一步都更贵、更不宽容。
制程授权扩散
SMIC 被政府要求(而非自愿)把 N+2/N+3 授权给 华力微(HLMC)/ 华虹。一旦同样的工艺学识喂进昇腾 AI 加速器,瓶颈就从一座具名晶圆厂转向整个生态。
本土 EDA 工具
北京大学近期公布了用于华为 LogicFolding 架构的原型 EDA 工具,需要新流程处理多层版图与平面布局。这虽不能替代完整的 Synopsys/Cadence 栈,但指明了本土 EDA 走向架构-工艺-封装紧耦合协同的方向。
受益的设计公司
同样的制造学识若扩散到其他晶圆厂与设计公司,针对 SMIC 单点的制裁就会失效。阿里 平头哥(T-Head)与预计供货字节跳动的 寒武纪都可能成为主要受益者。
工艺流程分析(横截面 + EDS)还揭示了若干细节:M0 用 TaN 阻挡层 + 钴(Co)衬里/盖帽,介电栈顶底均见 AlOₓ(用于全对准过孔的导孔盖/部分蚀刻停止层,以可靠性与更低过孔电阻换取电容代价);PMOS 源漏用 eSiGe 应变工程(自 45nm 起的行业标准,SMIC 自 2008 年起就跑 IBM 授权的 40/45nm);源漏接触上仍是钨柱 + 钴接触(钨本身不代表落后,接触金属化在各厂间来回切换)。EUV 是明显的工具/工艺缺口,横截面也指向线边缘粗糙度控制、选择性盖帽与掺杂模块的挑战。
中国没有在追平 Intel、三星、台积电——拆解在多处显示相反的事实:没有 EUV、没有背面供电、工艺更复杂、取舍清晰可见。但中国仍在前进:只要本土芯片对于手机、推理、网络与安全敏感工作负载"够用",它们就能在不追平前沿台积电的情况下,具备战略意义。