Como comprimir o KV cache do seu LLM em 33x sem treino
Como comprimir o KV cache do seu LLM em 33x sem treino Se alguma vez tentaste correr um LLM com contextos longos, provavelmente te deparaste com o mesmo problema: a memória acaba. O culpado é o KV ...

Source: DEV Community
Como comprimir o KV cache do seu LLM em 33x sem treino Se alguma vez tentaste correr um LLM com contextos longos, provavelmente te deparaste com o mesmo problema: a memória acaba. O culpado é o KV cache — a tabela de chaves e valores que o modelo mantém para cada token. Num modelo moderno com 128K de contexto, esse cache pode facilmente ocupar 80 GB. Um A100 inteiro, apenas para guardar atenção intermédia. NexusQuant elimina esse bottleneck. Sem treino. Sem calibração. Uma linha de código. Instalação pip install nexusquant-kv pip install "nexusquant-kv[hf]" # com HuggingFace transformers Quickstart from nexusquant import nexusquant_evict with nexusquant_evict(model, quality="balanced"): output = model.generate(input_ids, max_new_tokens=512) É literalmente isto. O modelo não é modificado — os hooks são instalados e removidos automaticamente pelo context manager. Os números Medidos no Mistral-7B, A100, FP16. Todos os rácios incluem overhead (escalas, índices, metadados). Preset Compressã