O futuro da NVIDIA e da IA em 5 minutos
Os detalhes da apresentação de Jensen Huang
Se você tem interesse moderado em IA ou investimentos, deveria ler isso.
Jensen Huang, CEO da NVIDIA, fez uma apresentação de duas horas ontem cobrindo o futuro da NVIDIA na conferência GTC, o ‘Woodstock da IA.’ Foram apresentados três anos de informações, mas usando terminologias e jargões que escapavam ao conhecimento da maioria das pessoas.
Mas quais são os principais pontos que importam, aqueles que moldarão essa indústria por anos?
Se a NVIDIA espirra, a indústria de IA pega um resfriado. Aqui está tudo o que você precisa saber sobre o futuro do hardware, software, robótica e investimentos em IA.
Grandes decisões foram tomadas
Os anúncios podem ser divididos em quatro segmentos de receita:
- Negócio de hardware para data centers de IA
- Negócio de data centers HPC (computação de alta performance)
- Negócio de hardware no consumo final
- Fluxos de receita alternativos, principalmente robótica e direção autônoma.
Vamos do fundo para o topo.
Robótica e Veículos Autônomos
A NVIDIA vem comentando sobre IA na robótica, ou IA Física, como eles chamam, há bastante tempo. Aqui, o objetivo deles é triplo:
- Treinar os modelos de IA que governam os robôs
- Criar os ambientes onde os robôs são treinados
- Criar os dados para treinamento
Outra forma de dizer, eles querem estar presentes em cada faceta do mercado de robótica em IA. Para o primeiro ponto, eles anunciaram Gr00t N1, um modelo base para robôs, uma arquitetura de modelo duplo que serve como o cérebro desses robôs.
Similar à arquitetura proposta pela FigureAI, que cobre recentemente no Medium, esses são essencialmente modelos de IA visão-linguagem-ação que recebem uma série de quadros de imagens e estados do robô (a posição que o robô ocupa no ambiente) e escolhem que decisão tomar a seguir.
Além disso, também estão planejando alimentar os ambientes de treinamento por meio de suas ofertas Omniverse/Isaac Gym. Como expliquei no link anterior, os robôs não são treinados no mundo físico por dois motivos:
- É caro
- Não pode ser acelerado (não é possível treinar vários robôs em paralelo)
Em vez disso, criamos simulações que se aproximam do ambiente real, treinamos as políticas dos robôs (o modelo de IA que orienta as ações do robô) e, em seguida, transferimos isso para sua existência física em um único passo (sem treinamento físico).
Em terceiro lugar, eles introduziram uma ideia muito interessante: Eles podem gerar novos dados sintéticos (dados criados por outras IAs) para treinar os robôs. Usando seu modelo de mundo Cosmos, esta IA gera cenários alternativos em relação ao que o robô experienciou (novamente, em simulação) para expor os robôs a mais situações (mais dados) e aprender mais com isso.
Notavelmente, tanto o modelo de mundo Cosmos quanto esta ideia de gerar dados sintéticos para treinamento adicional são fundamentais para o treinamento de veículos de condução autônoma, então a NVIDIA aproveitou isso para anunciar sua parceria com a General Motors, que abandonou seu negócio de robotaxi Cruise para que a NVIDIA impulsione sua frota de veículos autônomos.
Ponto principal nº1: A robótica pode ser, de longe, o maior mercado da IA. A NVIDIA está desenvolvendo uma posição realmente forte (primeiro em ambientes de simulação, agora também em modelos de IA e geração de dados sintéticos).
Dito isso, as receitas deste segmento são inexistentes por enquanto, portanto, é claramente um investimento de alto risco/alta recompensa neste momento.
Notebooks e Estações de Trabalho da NVIDIA
Embora a NVIDIA esteja apostando fortemente na computação distribuída (mais sobre isso depois), também está entrando de forma agressiva no negócio de hardware no consumo final.
Eles anunciaram dois novos hardwares:
- A NVIDIA DGX Workstation, um computador de mesa com impressionantes 789 GB de RAM (dos quais 288 GB são HBMe, a largura de banda de memória mais rápida do mercado), 20 Petaflops (vinte mil trilhões de operações por segundo) de desempenho em FP4, e 8 Terabytes/segundo de largura de banda de memória.
- NVIDIA DGX Spark é um computador portátil que pode ser conectado a um laptop. Ele oferece 1.000 TOPS e 128 GB de RAM unificada, mas tem apenas 276 GB/s de largura de banda de memória.
Em termos livres de jargão, estes são computadores pessoais projetados para cargas de trabalho de IA, a resposta da NVIDIA aos computadores pessoais Mac Studio M4 Max e M3 Ultra da Apple lançados na semana passada.
E o que todos eles têm em comum?
Bem, eles têm muito poder de computação, muita memória e velocidades de transferência de memória rápidas, tudo muito importante para cargas de trabalho de IA (e, para ser honesto, quase exclusivamente para cargas de trabalho de IA, portanto, não são para você a menos que você seja um grande treinador/usuário de modelos locais de IA).
Ponto principal nº2: A NVIDIA está mais uma vez abrindo um novo segmento de receita, um que pode crescer consideravelmente à medida que modelos de fundação menores se tornam melhores e mais praticantes de IA optam por executar modelos locais de código aberto.
Juntamente com a Apple, provavelmente compartilharão todo o mercado com eles (ainda não está claro quão grande esse mercado será, pois são produtos extremamente caros para a média do consumidor).
Negócio de Data Center HPC
Aqui é onde alguns experienciam uma das primeiras decepções. A NVIDIA está inabalavelmente entregando o mercado de HPC à AMD em uma bandeja de prata. Como veremos mais adiante, seus próximos produtos de GPU estão lentamente reduzindo o número de unidades FP64 ALU em favor de unidades de menor precisão.
Uma ALU, ou Unidade Lógica Aritmética, é uma parte de um die de computação que realiza cálculos.
No entanto, enquanto cargas de trabalho HPC e de IA são semelhantes em um nível teórico, elas têm uma diferença crucial: precisão.
- Cargas de trabalho de IA tendem a usar precisões menores (cada peso, parâmetro ou elemento ocupa menos memória).
- Cargas de trabalho de computação de alta performance (como a execução de uma simulação física realmente complexa) requerem alta precisão, como FP64 (oito bytes por parâmetro).
Mas espere, o que tudo isso de jargão significa?
Em configurações de computação, você deve decidir quanto de precisão por parâmetro deseja. Por exemplo, você pode armazenar cada número com 10 casas decimais (3.1234567891) ou arredondar os números para duas casas decimais (3.12) (os números são ilustrativos).
A nomenclatura é expressa em bits; FP64 significa que cada valor ocupa 64 bits ou 8 bytes na memória. FP8, a precisão usada para treinar o DeepSeek v3, significa um byte por valor.
Claro, isso é um compromisso. Quanto mais casas decimais você permitir, mais precisão têm seus cálculos usando esses números. Por outro lado, esses cálculos são mais lentos.
A razão pela qual o roadmap da NVIDIA está se afastando de cargas de trabalho HPC é que eles estão reduzindo a área do chip dedicada a cargas de trabalho FP64, que são ideais para HPC, em favor de mais área para cargas de trabalho de IA (FP16/FP8/INT4).
Isso ocorre porque a área do chip está “presa” em 800-850 mm² devido a rendimentos de fabricação (se o chip crescer demais, a taxa de chips defeituosos aumenta muito), então cada mm² conta.
Os melhores GPUs da AMD já tinham mais área para FP64 na geração anterior, portanto, a NVIDIA está basicamente dizendo à AMD para manter todo o mercado HPC porque IA é mais lucrativa (difícil de argumentar).
Consequentemente, a AMD deve decidir se vai seguir o curso da NVIDIA e permanecer competitiva com eles no nível de IA ou manter o mercado HPC em troca de GPUs menos atraentes para AI.
Acho que a AMD deveria aceitar essa oferta e usar seu preço médio de venda de GPU (ASP – Average Selling Price) mais competitivo para atrair algumas empresas de IA cansadas de pagar o prêmio da NVIDIA. Além disso, HPC também não é um mercado pequeno, cerca de 50 bilhões de dólares por ano e crescendo 7,5% anualmente.
Ponto principal nº3: A NVIDIA está tratando o mercado HPC com um ‘não sou bom o suficiente para você’… momentos antes de seguir em frente com seu amor recém-encontrado, IA, só porque isso é o que é legal hoje em dia.
Negócio de Data Center de IA
Aqui é onde as coisas ficam interessantes. A estratégia da NVIDIA revela duas coisas:
- A lei de Moore não está se sustentando mais
- Estamos entrando em um mundo de inferência
Testando os limites da natureza
Enquanto arriscamos soar excessivamente dramáticos, A NVIDIA está batendo na parede da natureza. Como mencionado anteriormente, estamos alcançando os limites da densidade de energia, ou quanta potência de computação podemos implantar por unidade de área de superfície.
À medida que a fabricação de chips se torna inviável se você exceder determinados tamanhos de chip, as principais empresas de chips como a NVIDIA estão se movendo para arquiteturas de ‘chiplets’, empacotando vários die de computação juntos para crescer.
No entanto, Blackwell tem dois chiplets de tamanho máximo, ou duas GPUs, em um único superchip Blackwell (o que a maioria das pessoas chamaria de GPU). Isso pode ser confuso, mas não se preocupe, não é que você seja burro, é porque é confuso pra caramba.
Para a NVIDIA, o que a maioria das pessoas chamam de chip, o die de computação, é a GPU e o pacote todo (GPU + memória + CPU), que a maioria das pessoas chama de GPU, é o chip, que eles chamam de ‘superchip.’
Portanto, com novas gerações de GPUs, a NVIDIA tem duas opções para aumentar o poder computacional:
- Diminuir o tamanho dos transistores. As computações são executadas através de circuitos lógicos baseados em transistores. Quanto menor cada transistor, mais circuitos lógicos você pode acomodar no die de computação.
- Empacotar mais chiplets juntos. Cada chiplet é limitado em tamanho, mas não há limite para quantos chiplets você pode “costurar” juntos (exceto pelo fato de que este é um dos problemas de engenharia mais desafiadores que uma empresa já enfrentou).
Sabendo disso, podemos agora explicar o roadmap de IA da NVIDIA.
Quando a computação não é mais a estrela.
A NVIDIA está apostando na inferência como o novo vencedor no equilíbrio da computação. Em termos leigos, A NVIDIA acredita que a inferência (execução de modelos de IA), representará a maior parte do consumo total de computação.
Para provar por que eles pensam assim (além do fato de que Jensen abertamente disse isso na apresentação), suas novas gerações de GPU focam muito nisso.
Primeiro, eles anunciaram o rack Blackwell Ultra NVL72, um rack vertical (chassis) com 72 GPUs para oferecer:
- 1.1 Exaflops de FP4 (meio byte por parâmetro de precisão) de inferência. Um Exaflop é um milhão de trilhões de operações por segundo de poder computacional.
- Novas instruções de atenção, partes do die de computação que são mais ajustadas para executar o mecanismo de atenção que é a base dos modelos de IA mais poderosos hoje (mais sobre isso depois)
- 20 Terabytes de HBM e 40 TB de memória rápida, 1,5 vezes mais do que a geração anterior do Blackwell (a que está sendo entregue no momento)
- 14.4 Terabytes de largura de banda de memória.
A razão pela qual este lançamento é tão ‘focado em inferência de IA’ é por duas coisas:
- Eles alcançam maior poder computacional (50% mais do que os servidores Blackwell atuais) eliminando a área de computação FP64 em favor de FP8/FP4 (como mencionado, eles estão apostando em IA em detrimento de HPC).
- Aumentaram a capacidade de HBM por GPU de 192 GB para 288 GB para acomodar modelos maiores e, provavelmente mais importante, caches KV maiores (um cache de memória que os modelos mantêm durante a inferência para evitar cálculos redundantes).
Mas se olharmos para a próxima geração, o foco na inferência é ainda mais claro. Como pode ser visto abaixo, eles anunciaram sua nova plataforma, Vera Rubin (nomeada em homenagem à astrofísica Vera Rubin, a descobridora da matéria escura).
Ela oferece:
- 3,3 vezes mais computação do que um chip Blackwell Ultra, o que é absolutamente insano, parcialmente explicado pelo fato de que Rubin diminuirá o tamanho do transistor de 4nm para 3nm, permitindo colocar mais transistores e, assim, aumentando a densidade de potência (existem outras razões explicadas pela SemiAnalysis aqui).
- As pilhas de memória HBM por GPU são as mesmas, mas usando HBM4, aumentando a largura de banda de memória em duas vezes em comparação ao Blackwell Ultra
Mas a liberação mais impressionante foi a próxima, um único rack com—prepare-se—576 GPUs, quatorze vezes mais poder computacional do que a linha Blackwell Ultra (novamente, essa GPU ainda nem entrou em produção).
Aqui, a NVIDIA está aumentando o número de GPUs por superchip para quatro, com 1 TB de memória, mais de seis vezes o número de Blackwells que estão atualmente sendo entregues.
Perceba o padrão?
Ponto principal nº4: Enquanto aumenta a computação (tanto aumentando o número de GPUs conectados quanto diminuindo o tamanho do transistor para aumentar a densidade de potência), as melhorias mais significativas vêm da memória, que é o principal gargalo nas computações de inferência.
Com isso, a NVIDIA reconhece que a inferência de IA será a força predominante da computação nos próximos anos.
Mas por que a memória é tão crucial para a inferência?
Sem entrar em muitos detalhes, as cargas de trabalho de inferência diminuem a intensidade aritmética da GPU (a fração da energia consumida dedicada à computação em comparação ao movimento de dados).
Em termos leigos, quanto menor sua intensidade aritmética, mais energia é consumida movendo dados (o que não gera receita), como fração do consumo total de energia, em detrimento da computação real.
Consequentemente, a NVIDIA está colocando muito esforço em memória de duas maneiras:
- Aumentando o tamanho da memória (permitindo modelos maiores e caches maiores, ou seja, sequências processáveis maiores)
- Melhorando a intensidade aritmética aumentando a velocidade das transferências de memória para minimizar o tempo ocioso de computação.
Agora, além dos pontos principais específicos do segmento, quais são os principais pontos de tudo isso?
Bem, sabemos agora muito melhor o que a NVIDIA pensa e as apostas que estão fazendo, o que em grande parte define se você acredita em seu futuro ou não.
Inferência, Atenção e Tamanhos
Há cinco coisas para se levar em consideração:
- Eles acreditam que os modelos ficarão maiores. Isso é algo com o qual não tenho certeza se concordo totalmente. Os modelos estão, sim, ficando maiores, mas apenas para serem usados para destilar para treinar modelos menores que são então servidos. Se a NVIDIA pode tornar modelos maiores custo-efetivos para servir é outra história.
- Estamos inequivocamente atingindo uma parede de densidade de potência, e será cada vez mais difícil para a NVIDIA avançar para a próxima fronteira.
- Eles estão apostando tudo em modelos de raciocínio, que melhoram os modelos da geração anterior pensando mais longamente sobre os problemas (cálculos de inferência maiores). Se os modelos de raciocínio falharem, o roadmap da NVIDIA está condenado. (Não acho que eles irão fracassar, no entanto.)
- Atenção. O fato de a NVIDIA, provavelmente influenciada por startups como a Etched.AI, estar implantando ALUs específicas de atenção em seus dies de computação é tudo que você precisa saber para entender que a NVIDIA acredita que os modelos serão algoritmicamente estáveis (permanecerão inalterados) por muito tempo.
- O que a AMD deve fazer? A AMD, que também possui hardware excelente, deve decidir se encontrará a NVIDIA no meio do caminho e manterá alguma área de chip para HPC ou mergulhará de cabeça com eles em IA. A AMD é muito competitiva em um base por GPU, mas pior em hardware de rede, por isso acredito que eles manterão o mercado HPC enquanto ajustam sua oferta de IA para cargas de trabalho de inferência de menor porte (que eu acredito que também se tornarão muito comuns).
No geral, pessoalmente eu compartilho as opiniões da NVIDIA sobre o futuro. E você?
Obrigado pela leitura. Por favor, me avise nos comentários se houver algo que você precise que eu detalhe mais. Tive que deixar várias coisas de fora por conta da extensão.
Compartilhe
Publicar comentário