Google lança Gemma 4 com QAT para rodar IA em celulares e notebooks com mais eficiência

08 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O Gemma 4 não é só mais um modelo leve: é uma família projetada do zero para o dispositivo, com arquitetura unificada que dispensa codificadores separados, imagens, áudio e texto são mapeados diretamente no backbone LLM. Isso reduz latência e complexidade, mas exigia otimizações profundas para rodar em hardware limitado. A novidade dos checkpoints QAT (Quantization-Aware Training), lançados em 5 de junho, é técnica e estratégica: diferentemente da quantização pós-treinamento (PTQ), a QAT simula a compressão durante o treino, preservando precisão mesmo em formatos de 4 bits. O resultado prático? O Gemma 4 E2B agora ocupa só 1 GB de RAM em celulares, e o 26B A4B roda em laptops com 15 GB, algo impensável há três meses, quando o modelo exigia GPU dedicada.

Essa eficiência não vem à custa de capacidade: os modelos maiores (12B, 26B A4B, 31B) mantêm janela de contexto de 256K tokens, suportam predição multi-token (MTP) desde abril e lideram rankings de código e raciocínio entre modelos abertos. O 31B, por exemplo, está em 3º lugar no Arena AI, e faz isso com inferência nativa em Apple Silicon via MLX ou em Android via LiteRT-LM, sem depender de servidores.

O que mudou

Em 4 de junho, o CEVIU noticiou o lançamento do Gemma 4 12B como um modelo multimodal 'sem encoder', capaz de rodar em laptops com 16 GB de RAM. Dois dias depois, em 6 de junho, destacamos sua adoção em agentes locais. Agora, em 8 de junho, o Google entrega a peça faltante: os checkpoints QAT, liberados oficialmente em 5 de junho. Antes, rodar o Gemma 4 localmente exigia ajustes manuais ou perda de desempenho com PTQ. Com QAT, há ganho real de eficiência, redução de 72% na memória com qualidade preservada, e compatibilidade nativa com ferramentas como Ollama, LM Studio e Transformers.js. Não é só mais fácil: é viável em escala, até em smartphones.

Por que isso importa

A IA deixou de ser só um serviço na nuvem. Com Gemma 4 + QAT, qualquer desenvolvedor pode integrar modelos avançados diretamente em apps móveis ou desktops, sem enviar dados para servidores, sem pagar por API e sem depender de conexão. Isso muda a economia de aplicativos: assistentes de programação offline, tradutores com reconhecimento de fala em tempo real, editores de vídeo com IA embutida. Também pressiona concorrentes: Meta ainda depende de PTQ para Llama 4, e a Microsoft só anunciou suporte local para Phi-4 em testes fechados. O Google acelerou a corrida por IA no dispositivo, e definiu o novo padrão de eficiência para modelos multimodais abertos.

Linha do tempo

20/05/2026
Google lança Gemini 3.5 Flash para workflows agentic e execução de tarefas longas
04/06/2026
Google lança Gemma 4 12B, modelo multimodal unificado sem encoder
06/06/2026
Google leva agentes de IA local para laptops com Gemma 4 12B
08/06/2026
Google lança Gemma 4 com QAT para rodar IA em celulares e notebooks com mais eficiência

Perguntas frequentes

Qual é a diferença entre QAT e a quantização comum?

A quantização comum (PTQ) comprime o modelo *depois* de treinado, o que muitas vezes degrada a precisão. A QAT simula essa compressão *durante* o treino, ajustando os pesos para manter a qualidade mesmo em formatos de 4 bits. É mais custosa computacionalmente, mas resulta em modelos muito mais estáveis em dispositivos leves.

Posso rodar o Gemma 4 12B no meu notebook com 16 GB de RAM?

Sim, com os checkpoints QAT em formato Q4_0, o Gemma 4 12B roda com menos de 12 GB de RAM. Em laptops com Apple Silicon, o suporte nativo via MLX permite uso contínuo sem aquecimento excessivo ou travamentos, mesmo com entradas multimodais.

O Gemma 4 E2B é só para celulares ou também serve para tarefas profissionais?

O E2B (2 bilhões de parâmetros) é focado em dispositivos móveis, mas sua janela de contexto de 128K tokens e suporte nativo a áudio/vídeo o torna útil para tarefas como resumo de reuniões gravadas, transcrição em tempo real ou análise rápida de documentos PDF, tudo offline e sem envio de dados.

Como isso se compara ao Gemini 3.1 Flash-Lite?

O Gemini 3.1 Flash-Lite é um modelo de nuvem, otimizado para alta vazão em servidores do Google Cloud. Já o Gemma 4 com QAT é aberto, executável localmente e focado em privacidade e baixa latência. São complementares: um para infraestrutura escalável, outro para aplicativos embarcados.

Links relacionados

Fontes

blog.googlefonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 08 de junho de 2026
Editoria: CEVIU IA