A Inevitabilidade dos Híbridos de IA

Enquanto você lê isso, podemos estar testemunhando a primeira grande transição de arquitetura em 7 anos: o Transformer, a arquitetura de IA quintessencial, está sendo desafiado.

Bem, meio que.

Mais especificamente, os ChatGPTs do mundo estão sendo modificados, e finalmente estamos vendo poderosas arquiteturas híbridas surgindo tanto dos EUA quanto da China, já que ambos parecem concordar que nossa direção atual é economicamente insustentável.

Felizmente, essa mudança, que sempre pareceu inevitável, finalmente está ocorrendo.

ChatGPT é Poderoso… Mas Ineficiente.

Quando tanto a China quanto os EUA concordam em algo, isso deve ser realmente convincente. E esse algo é que precisamos de uma inferência mais barata (quando os modelos são oferecidos aos usuários).

Isso levou ambos os países a avançar em direção a arquiteturas de modelos alternativas, conhecidas como híbridas, que, em alguns casos, reduzem os custos em 90% enquanto ainda são muito competitivas em termos de desempenho.

Para servir de exemplos:

A Tencent da China lançou modelos Hunyuan-Turbo, que estão na fronteira do estado-da-arte (SOTA) (número 14 no LMArena) e são uma combinação de blocos Mamba e Transformer.
E mais recentemente, a NVIDIA lançou modelos Nemotron-h, que oferecem uma aceleração de 3x e podem ser executados em um único RTX 4090 (apenas 32 GB). Em termos simples, esse modelo quase SOTA pode ser executado em uma única GPU de jogos da NVIDIA (nem mesmo uma GPU focada em IA). E também é um híbrido Mamba-Transformer.

A principal questão a ser reconhecida é que esses modelos estão liderando a fronteira de Pareto, (quando o desempenho é medido como uma fração dos custos unitários e velocidade), levando a acelerações que podem alcançar 20x quando comparadas a modelos maiores como Llama 3.1–405B:

Mas por que as melhorias de eficiência são tão massivas?

Bem, é simples: confie em mim quando digo que a forma como os modelos da fronteira atual funcionam é absurdamente ineficiente e insustentável, e que os modelos híbridos são o futuro.

Mas para entender por que isso é o caso, precisamos primeiro explicar brevemente o significado da palavra ‘Transformer’ ou, para ser mais específico, como o ChatGPT funciona nos bastidores em uma linguagem que qualquer um pode entender.

A Essência da IA Moderna.

A maioria dos modelos de IA Generativa que você vê todos os dias, ChatGPT, Gemini, Claude, DeepSeek, e a lista continua, são Transformers, ou seja, sua arquitetura subjacente é quase idêntica, apesar de algumas mudanças cosméticas e da distribuição de dados de treinamento (esta última é o que realmente explica a diferença de desempenho entre eles, pois explica em grande parte o que eles sabem ou não sabem).

Enquanto os dados em que foram treinados determinam o que eles sabem, as diferenças no estilo e na forma como interagem com você se devem principalmente a métodos pós-treinamento, que são fortemente tendenciosos humanos. Se ajudar, visualize ChatGPT ou Gemini como extensões da cultura e dos vieses estilísticos de seus treinadores humanos.

Mas o que significa ser um Transformer?

Antes de mergulharmos nas minúcias de seus assistentes favoritos, caso você ainda não saiba, modelos de linguagem de grandes transformadores autoregressivos (LLMs autoregressivos, que são basicamente todos conhecidos modelos generativos) funcionam prevendo o próximo token em uma sequência.
Um token é uma palavra, um grupo de palavras ou, às vezes, sílabas ou até mesmo letras únicas. Assim, quando recebem uma entrada de texto, sua função é prever o que vem a seguir. Para facilitar a leitura, me referirei a tokens diretamente como ‘palavras’ a partir de agora.

Não quero entediá-lo com os detalhes, mas modelos como ChatGPT são uma concatenação de duas operações:

1. Operação de Mistura de Tokens:

Palavras em uma sequência obtêm seu significado a partir de duas perspectivas: seu significado intrínseco (o que significam por padrão, sem outros detalhes) e significado contextual (o que significam com base no contexto ao seu redor).

Por exemplo, o primeiro determina quais possíveis significados a palavra ‘banco’ poderia ter, e o segundo determina qual dos significados potenciais está sendo aplicado dependendo do contexto (banco de rio ou instituição financeira).

Isso é feito usando um mecanismo chamado atenção. O modelo faz com que cada palavra na sequência de entrada capture seu significado contextual ao interagir (pense nisso como ‘conversar’) com outras palavras na sequência, “prestando atenção” no que importa mais para ela.

Por exemplo, um adjetivo prestará atenção aos substantivos em busca do que está afetando.

1. Operação de Mistura de Canal:

Na maioria dos casos, a sequência de texto não possui todo o conhecimento necessário para prever a próxima palavra. Para a sequência “Michael Jordan jogou o jogo de…” prever basquete, o modelo deve “saber quem Michael Jordan é” porque essa informação está ausente.

Como mencionamos anteriormente, os modelos aprenderam muito conhecimento derivado de seus dados de treinamento. Portanto, para lidar com isso, os Transformers possuem outra operação na qual podem adicionar seu conhecimento às palavras em uma sequência. Isso pode parecer complicado de visualizar, mas imagine que, aos olhos do modelo, as palavras são sequências de atributos que ele pode modificar se julgar necessário.

Por exemplo, imagine a palavra “Michael Jordan” como uma lista de atributos como ‘altura’, ‘peso’, ‘país de nascimento’ e ‘ocupação’. Considerando que a palavra ‘jogo’ faz parte da sequência, usando o mecanismo de atenção, o modelo pode deduzir que ‘Michael Jordan’ representa um esportista.
Portanto, ele reforçará o atributo ‘ocupação’ para ‘esportista’ para diferenciar ‘Michael Jordan’, o jogador de basquete, de ‘Michael B. Jordan’, o ator.

Em resumo, usando ambas as operações, o modelo identifica claramente a que ‘Michael Jordan’ estamos nos referindo e pode, assim, prever que a próxima palavra na sequência “Michael Jordan jogou o jogo de…” é ‘basquete.’

Não quero complicar demais as coisas, mas tenha em mente que essa é uma simplificação. Essencialmente, é isso que o modelo está fazendo, mas o faz no reino dos números (os atributos são numéricos). Para entender isso em maior detalhe, sinta-se à vontade para conferir meu blog.

Então, podemos responder como o ChatGPT se parece por baixo? Sim, podemos.

Esse procedimento de captura de informações contextuais e adição de conhecimento externo é repetido várias vezes, construindo uma compreensão do que a sequência representa. E após várias rodadas, o modelo pode prever com confiança qual palavra virá a seguir. Isso é literalmente como ChatGPT, Gemini, DeepSeek v3 ou Claude funcionam por trás dos panos.

Em suma, é assim que os LLMs modernos funcionam, pelo menos em teoria. Agora, vamos ver como eles funcionam na prática.

Eles Têm Memória… Meia que

Refletindo sobre como o ChatGPT funciona quando você interage com ele, produzindo uma palavra após a outra, você pode ter percebido algo.

É meio que… redundante?

Na prática, o ChatGPT prevê várias palavras por previsão, um termo conhecido como decodificação especulativa.

E se você pensou isso, você estaria muito certo, já que as operações de mistura de tokens que descrevemos anteriormente são indubitavelmente redundantes.

Mas por quê? Bem, sem otimizações, o mecanismo de atenção que explicamos precisa ser repetido sobre as mesmas palavras para cada nova palavra que prevemos.

Ao prever a próxima palavra, a maioria das palavras na sequência, exceto a que acabamos de prever, já compartilharam informações, e esse processo é idêntico não importa quantas palavras venham a seguir.

Consequentemente, armazenamos (cache) alguns desses cálculos e os recuperamos quando necessário para evitar recomputações desnecessárias. Isso é chamado de Cache KV e foi mencionado por Jensen Huang em sua última palestra no GTC várias vezes, então você pode imaginar sua importância.

Durante a inferência de IA, quando os modelos são servidos aos usuários, o mecanismo de atenção é dividido em duas partes, prefill e decode.
No prefill, quando enviamos primeiro a sequência de entrada ao modelo, o modelo constrói o cache realizando o mecanismo de atenção entre todas as palavras na sequência. Esse processo termina com a primeira palavra prevista que sai do modelo.
Isso inicia a fase de decodificação, onde o mecanismo de atenção é realizado apenas a partir da última palavra prevista, que ainda não compartilhou nenhuma informação com as outras palavras. Isso torna todo o processo muito mais rápido e barato.

No entanto, o problema com esse cache (que atua como a memória do modelo) é que ele não é comprimido. Mas o que queremos dizer com isso?

Máquina vs Memória Humana

Nossa memória é comprimida, ou seja, não lembramos de cada experiência que tivemos, apenas das que nosso cérebro considera dignas de serem lembradas.

Os Transformers não fazem isso.

Em vez disso, se queremos que algo seja “recuperável” pelo modelo, devemos dar todo o contexto. Isso significa que quanto mais contexto queremos dar ao modelo, maior essa memória se torna –às vezes maior do que o próprio modelo, até mesmo para apenas uma sequência!

Isso por si só incentivou muitos a buscar arquiteturas alternativas a esta. E de todas elas, a mais interessante é a Mamba.

Sem entrar em muitos detalhes, a principal intuição da Mamba é que ela possui memória comprimida e de tamanho fixo. Isso significa que, ao se deparar com novos dados, o modelo avalia se esses dados valem a pena serem lembrados à custa de esquecer outras coisas (porque há um limite para quantas coisas pode lembrar).

Isso pode ser subótimo em comparação com Transformers (que lembram cada detalhe desde que esteja em seu contexto), mas tem o enorme benefício de inferência em tempo constante; para prever a próxima palavra (ou palavras), o modelo possui uma memória de tamanho fixo e a última palavra de entrada como referência, significando que o esforço de previsão é sempre o mesmo.

No entanto, como mencionado, modelos Mamba raramente superam Transformers porque seu desempenho diminui devido à perda de memória.

Mas… não podemos ter o melhor dos dois mundos?

Arquiteturas Híbridas

Considerando os benefícios e limitações de cada um, por que não podemos combiná-los? E é exatamente isso que estamos fazendo.

Mamba Transformers

A ideia é bem simples. Queremos:

Maximizar a quantidade de memória que seja de tamanho fixo (comprimida), resultando em inferência mais rápida e barata,
enquanto também queremos manter alta precisão de recuperação (reduzir perda de memória tanto quanto possível).

A solução combina tanto camadas de atenção Transformer (as camadas que realizam a coleta de informações contextuais, ou operação de mistura de tokens) quanto camadas Mamba.

A camada de operação de mistura de canais que descrevemos anteriormente, também conhecida como MLP (Perceptron de Múltiplas Camadas), não é substituída de forma alguma.

Para fazer isso, geralmente superdimensionamos as camadas Mamba (que são mais rápidas e baratas) e adicionamos as camadas de atenção necessárias (SWA) para que o modelo não esqueça completamente algumas partes do contexto.

Em outras palavras, combinamos tipos de memória comprimidos e não comprimidos, mas a chave é que o tamanho global da memória não comprimida (o Cache KV) cai proporcionalmente ao número de camadas SWA (camadas Transformer), principalmente: tamanho total do Cache KV = tamanho por camada * número de camadas SWA.

Consequentemente, se diminuirmos o número de camadas SWA em favor das camadas Mamba, diminuímos tremendamente o tamanho total do cache de memória, o que pode, em alguns casos, levar a uma queda de 90% nos custos da inferência.

É Inevital

Se a IA realmente vai mudar o mundo, ela deve tornar seu impacto economicamente viável. Caso contrário, isso não vai acontecer, não importa quão legal seja.

Com a lei de Moore estagnada, significando que o hardware está atingindo seus limites de quanto computação podemos extrair como uma unidade de área de chip, fornecedores de chips como a NVIDIA estão investindo muito mais esforço em melhorar as capacidades de rede (ou seja, conectar mais chips juntos).

Ainda assim, isso é um compromisso e um caminho que certamente será cheio de complexidades.

Além das GPUs, temos outras alternativas como o WSE da Cerebras ou os LPUs da Groq, que nos permitem aumentar a eficiência, mas ainda são limitados pela lei de Moore.

Isso implica que também devemos melhorar maciçamente nossos algoritmos se algum dia quisermos ver uma IA verdadeiramente ubíqua em cada computador, smartphone ou até mesmo na sua torradeira.

A IA Pode Mudar o Mundo. Ela Vai?

O impacto prometido da IA não vai acontecer a menos que melhoremos a eficiência da inteligência, a quantidade de inteligência por energia consumida.

E arquiteturas híbridas, IAs que comprimem memória como nós, são um claro passo nessa direção.

Felizmente, pela primeira vez, China e os EUA parecem concordar em algo.

Se você gostou do artigo, compartilho pensamentos semelhantes de forma mais abrangente e simplificada no meu LinkedIn (não se preocupe, nada de hipérbole lá também).

Compartilhe

Guia da Internet

A Inevitabilidade dos Híbridos de IA