🤗 Hugging Face模型KV Cache分析器

输入模型ID来分析其KV cache大小和注意力机制优化情况

💡 热门模型示例

Examples
模型ID 序列长度 批量大小

📖 说明

  • GQA: Grouped Query Attention,通过减少KV头数来节省内存
  • MLA: Multi-head Latent Attention,通过低秩分解压缩KV cache
  • 滑动窗口: 限制注意力范围来减少计算和内存使用
  • KV Cache大小计算基于FP16精度 (每个元素2字节)
  • 使用 transformers.AutoConfig 获取配置,支持自定义模型

🛠️ 安装依赖

pip install gradio transformers torch