Inference Cookbook

面向深度学习初学者的 LLM 推理框架技术文档
涵盖 vLLM、SGLang 等框架的核心算法解析

理解核心原理

深入讲解 PagedAttention、Radix Attention、KV Cache 等核心技术

源码级分析

跟踪 vLLM、SGLang、Dynamo 等框架的代码执行路径

循序渐进

从基础概念到分布式部署,提供完整的学习路径

适用读者

深度学习初学者

了解基本的 Python 编程,对机器学习有初步认识

LLM 应用开发者

希望了解推理框架底层原理

系统工程师

负责部署和优化 LLM 服务

研究人员

研究 LLM 推理优化技术