📚 核心文章
🎯 核心技术点
vLLM
PagedAttention 技术,连续批处理,高吞吐推理引擎。
SGLang
结构化生成优化,RadixAttention,并行解码。
TensorRT-LLM
NVIDIA 推理优化库,INT8/FP8 量化,In-flight Batching。
投机解码
Speculative Decoding,草稿模型加速,并行解码。
模型量化
GPTQ、AWQ、GGUF、SmoothQuant 量化方案。
KV Cache 优化
缓存压缩、Prefix Caching、动态分配策略。