🤗 Hugging Face模型KV Cache分析器
输入模型ID来分析其KV cache大小和注意力机制优化情况
模型ID
microsoft/DialoGPT-medium
序列长度
批量大小
🔍 分析模型
💡 热门模型示例
Examples
模型ID
序列长度
批量大小
📖 说明
GQA
: Grouped Query Attention,通过减少KV头数来节省内存
MLA
: Multi-head Latent Attention,通过低秩分解压缩KV cache
滑动窗口
: 限制注意力范围来减少计算和内存使用
KV Cache大小计算基于FP16精度 (每个元素2字节)
使用
transformers.AutoConfig
获取配置,支持自定义模型
🛠️ 安装依赖
pip
install
gradio transformers torch