🎯 核心技术点

vLLM

PagedAttention 技术,连续批处理,高吞吐推理引擎。

SGLang

结构化生成优化,RadixAttention,并行解码。

TensorRT-LLM

NVIDIA 推理优化库,INT8/FP8 量化,In-flight Batching。

投机解码

Speculative Decoding,草稿模型加速,并行解码。

模型量化

GPTQ、AWQ、GGUF、SmoothQuant 量化方案。

KV Cache 优化

缓存压缩、Prefix Caching、动态分配策略。