🤗 Hugging Face模型KV Cache分析器

输入模型ID来分析其KV cache大小和注意力机制优化情况

模型ID

序列长度

批量大小

💡 热门模型示例

Examples

模型ID	序列长度	批量大小

📖 说明

GQA: Grouped Query Attention，通过减少KV头数来节省内存
MLA: Multi-head Latent Attention，通过低秩分解压缩KV cache
滑动窗口: 限制注意力范围来减少计算和内存使用
KV Cache大小计算基于FP16精度 (每个元素2字节)
使用 transformers.AutoConfig 获取配置，支持自定义模型

🛠️ 安装依赖

pip install gradio transformers torch