Inference Cookbook

面向深度学习初学者的 LLM 推理框架技术文档
涵盖 vLLM、SGLang 等框架的核心算法解析

vLLM SGLang UCM Dynamo CacheBlend

GitHub

深入讲解 PagedAttention、Radix Attention、KV Cache 等核心技术

跟踪 vLLM、SGLang、Dynamo 等框架的代码执行路径

从基础概念到分布式部署，提供完整的学习路径

推理框架深度解析

从入门到精通，掌握主流 LLM 推理技术

深入讲解 PagedAttention、连续批处理、调度器等核心模块，33 篇文章带你从原理到源码

高性能 LLM 推理框架，支持 Radix Attention、CUDA Graph 优化和结构化输出

统一缓存管理框架，通过持久化 KV Cache 和稀疏注意力算法，实现 3-10 倍推理延迟降低

分布式推理框架，专为多节点环境设计，支持 KV 感知路由和多引擎抽象

基于 KV Cache 融合的 RAG 推理加速技术，解决检索增强生成的性能瓶颈

深度学习初学者

了解基本的 Python 编程，对机器学习有初步认识

LLM 应用开发者

希望了解推理框架底层原理

系统工程师

负责部署和优化 LLM 服务

研究人员

研究 LLM 推理优化技术