Claude Skill
WeianMao/triattention
TriAttention 通过三角键值缓存压缩,在内存受限的 GPU 上实现高效长推理与 OpenClaw 本地部署。
概览
仓库信息
🚀 安装这个 Skill
openclaw install WeianMao/triattention项目简介
TriAttention 是一种高效的长推理技术,通过三角键值缓存压缩降低内存占用,支持在内存受限的 GPU 上本地部署 OpenClaw 等大型模型。
TriAttention — Efficient long reasoning with trigonometric KV cache compression. Enables OpenClaw local deployment on memory-constrained GPUs.
要点
- 三角键值缓存压缩,降低内存占用
- 在内存受限的 GPU 上实现长上下文推理
- 支持 OpenClaw 模型的本地部署
- 针对有限硬件资源优化高效推理
使用场景
- 在消费级 GPU 上本地运行大型语言模型
- 长文档分析与摘要
- 面向边缘设备的内存高效 AI 推理
话题
暂无话题