📖 术语表 (Glossary)

按章节顺序整理;首次出现于第几章在最后列出。

GPU 硬件

中文英文含义首现
流式多处理器Streaming Multiprocessor (SM)GPU 上独立调度执行的硬件单元,每个 SM 内含若干 CUDA core / Tensor Core / 共享内存。A100 有 108 个 SM。Ch4
线程束warp32 个 thread 一组,作为 SM 的最小调度单位,同一 warp 在同一时钟周期执行同一条指令。Ch3
单指令多线程SIMTSingle Instruction, Multiple Threads — warp 内 32 个线程同步执行同一指令但操作不同数据。Ch4
线程束分歧warp divergence同一 warp 内不同线程走了 if/else 两个分支,会被串行执行,性能下降。Ch4
占用率occupancy实际活跃 warp 数 / SM 最大支持 warp 数。高 occupancy 利于隐藏内存延迟。Ch4
张量核心Tensor Core专门做矩阵乘累加 (MMA) 的硬件单元,从 Volta 开始引入,吞吐远高于 CUDA core。Ch9

编程模型

中文英文含义首现
核函数kernel__global__ 修饰的函数,由 host 调用、在 device 上由大量线程并行执行。Ch2
网格gridkernel 启动时的所有线程块的集合。Ch3
线程块block / CTA共享 shared memory 的一组 thread,最大 1024,分配到同一 SM。Ch3
合作组cooperative groupsCUDA 9+ 提供的灵活同步原语,可以细粒度同步 warp 内/block 内/grid 内线程。Ch7
stream异步命令队列,同一 stream 内严格顺序,不同 stream 间并行。Ch8

内存

中文英文含义首现
全局内存global memoryGPU 显存,所有线程可访问,延迟最高(几百周期),容量最大。Ch5
共享内存shared memorySM 上的片上 SRAM,block 内所有线程共享,延迟接近 L1。Ch5
寄存器register线程私有的最快存储,每个 SM 有 64K~256K 寄存器。Ch5
合并访问memory coalescing一个 warp 的 32 个线程访问连续 128B 内存,硬件合并为一次内存事务。Ch5
存储体冲突bank conflict同一 warp 多线程访问 shared memory 的同一 bank,会被串行化。Ch6

LLM 推理

中文英文含义首现
通用矩阵乘GEMMGeneral Matrix Multiplication, C = αAB + βC,LLM 80% 的计算来自 GEMM。Ch9
缩放点积注意力Scaled Dot-Product AttentionAttention(Q,K,V) = softmax(QKᵀ/√d) V,Transformer 核心算子。Ch11
在线 softmaxonline softmax分块计算 softmax 时维护当前最大值与归一化项的算法,是 FlashAttention 的基石。Ch10
键值缓存KV Cache推理时缓存历史 token 的 K/V 投影,避免每步重算。Ch13
旋转位置编码Rotary Position Embedding (RoPE)用复数旋转方式注入位置信息,被 Llama 等主流模型采用。Ch13
分页注意力PagedAttentionvLLM 提出的 KV cache 分页管理,让显存利用率接近 OS 分页。Ch14

工具链

中文英文含义首现
编译器nvccNVIDIA CUDA 编译器,把 .cu 编译为 host C++ + device PTX/SASS。Ch1
中间表示PTXParallel Thread eXecution,CUDA 的虚拟 ISA,类似 LLVM IR。Ch8
架构机器码SASS实际硬件执行的机器码,与 SM 架构强绑定。Ch8
性能分析器Nsight ComputeNVIDIA 的 kernel 级性能分析工具,输出 roofline、stall reason 等。Ch8
时间线分析器Nsight Systems系统级 timeline 分析,看 H2D/D2H/kernel/stream overlap。Ch8