📖 术语表 (Glossary)
按章节顺序整理;首次出现于第几章在最后列出。
GPU 硬件
| 中文 | 英文 | 含义 | 首现 |
|---|---|---|---|
| 流式多处理器 | Streaming Multiprocessor (SM) | GPU 上独立调度执行的硬件单元,每个 SM 内含若干 CUDA core / Tensor Core / 共享内存。A100 有 108 个 SM。 | Ch4 |
| 线程束 | warp | 32 个 thread 一组,作为 SM 的最小调度单位,同一 warp 在同一时钟周期执行同一条指令。 | Ch3 |
| 单指令多线程 | SIMT | Single Instruction, Multiple Threads — warp 内 32 个线程同步执行同一指令但操作不同数据。 | Ch4 |
| 线程束分歧 | warp divergence | 同一 warp 内不同线程走了 if/else 两个分支,会被串行执行,性能下降。 | Ch4 |
| 占用率 | occupancy | 实际活跃 warp 数 / SM 最大支持 warp 数。高 occupancy 利于隐藏内存延迟。 | Ch4 |
| 张量核心 | Tensor Core | 专门做矩阵乘累加 (MMA) 的硬件单元,从 Volta 开始引入,吞吐远高于 CUDA core。 | Ch9 |
编程模型
| 中文 | 英文 | 含义 | 首现 |
|---|---|---|---|
| 核函数 | kernel | 用 __global__ 修饰的函数,由 host 调用、在 device 上由大量线程并行执行。 | Ch2 |
| 网格 | grid | kernel 启动时的所有线程块的集合。 | Ch3 |
| 线程块 | block / CTA | 共享 shared memory 的一组 thread,最大 1024,分配到同一 SM。 | Ch3 |
| 合作组 | cooperative groups | CUDA 9+ 提供的灵活同步原语,可以细粒度同步 warp 内/block 内/grid 内线程。 | Ch7 |
| 流 | stream | 异步命令队列,同一 stream 内严格顺序,不同 stream 间并行。 | Ch8 |
内存
| 中文 | 英文 | 含义 | 首现 |
|---|---|---|---|
| 全局内存 | global memory | GPU 显存,所有线程可访问,延迟最高(几百周期),容量最大。 | Ch5 |
| 共享内存 | shared memory | SM 上的片上 SRAM,block 内所有线程共享,延迟接近 L1。 | Ch5 |
| 寄存器 | register | 线程私有的最快存储,每个 SM 有 64K~256K 寄存器。 | Ch5 |
| 合并访问 | memory coalescing | 一个 warp 的 32 个线程访问连续 128B 内存,硬件合并为一次内存事务。 | Ch5 |
| 存储体冲突 | bank conflict | 同一 warp 多线程访问 shared memory 的同一 bank,会被串行化。 | Ch6 |
LLM 推理
| 中文 | 英文 | 含义 | 首现 |
|---|---|---|---|
| 通用矩阵乘 | GEMM | General Matrix Multiplication, C = αAB + βC,LLM 80% 的计算来自 GEMM。 | Ch9 |
| 缩放点积注意力 | Scaled Dot-Product Attention | Attention(Q,K,V) = softmax(QKᵀ/√d) V,Transformer 核心算子。 | Ch11 |
| 在线 softmax | online softmax | 分块计算 softmax 时维护当前最大值与归一化项的算法,是 FlashAttention 的基石。 | Ch10 |
| 键值缓存 | KV Cache | 推理时缓存历史 token 的 K/V 投影,避免每步重算。 | Ch13 |
| 旋转位置编码 | Rotary Position Embedding (RoPE) | 用复数旋转方式注入位置信息,被 Llama 等主流模型采用。 | Ch13 |
| 分页注意力 | PagedAttention | vLLM 提出的 KV cache 分页管理,让显存利用率接近 OS 分页。 | Ch14 |
工具链
| 中文 | 英文 | 含义 | 首现 |
|---|---|---|---|
| 编译器 | nvcc | NVIDIA CUDA 编译器,把 .cu 编译为 host C++ + device PTX/SASS。 | Ch1 |
| 中间表示 | PTX | Parallel Thread eXecution,CUDA 的虚拟 ISA,类似 LLVM IR。 | Ch8 |
| 架构机器码 | SASS | 实际硬件执行的机器码,与 SM 架构强绑定。 | Ch8 |
| 性能分析器 | Nsight Compute | NVIDIA 的 kernel 级性能分析工具,输出 roofline、stall reason 等。 | Ch8 |
| 时间线分析器 | Nsight Systems | 系统级 timeline 分析,看 H2D/D2H/kernel/stream overlap。 | Ch8 |