Title here
Summary here
深度学习与 LLM 推理框架技术文档
从 PyTorch 源码到 vLLM、SGLang、Mooncake 等推理框架的完整解析
深入讲解 PagedAttention、Radix Attention、KV Cache 等核心技术
跟踪 vLLM、SGLang、Dynamo 等框架的代码执行路径
从基础概念到分布式部署,提供完整的学习路径
从入门到精通,掌握主流 LLM 推理技术
深度学习框架源码解析,涵盖 Tensor、Autograd、NN Module、编译器栈等 11 个核心模块
入门推荐深入讲解 PagedAttention、连续批处理、调度器等核心模块,33 篇文章带你从原理到源码
高性能高性能 LLM 推理框架,支持 Radix Attention、CUDA Graph 优化和结构化输出
缓存管理统一缓存管理框架,通过持久化 KV Cache 和稀疏注意力算法,实现 3-10 倍推理延迟降低
分布式分布式推理框架,专为多节点环境设计,支持 KV 感知路由和多引擎抽象
RAG 优化基于 KV Cache 融合的 RAG 推理加速技术,解决检索增强生成的性能瓶颈
FAST'25 最佳论文KVCache-centric 分离式 LLM 推理系统,生产环境实现 +498% 请求容量提升
底层加速IO 感知的精确注意力算法,通过 Tiling 和 Online Softmax 实现 2-4 倍训练加速,大幅降低显存占用
了解基本的 Python 编程,对机器学习有初步认识
希望了解推理框架底层原理
负责部署和优化 LLM 服务
研究 LLM 推理优化技术