Eu testei os melhores modelos de linguagem para geração de consultas SQL. Google ganha com folga.

Imagine um modelo rápido e barato que é mais preciso que os caros. Esse é o Gemini Flash 2.

Hoje, a Meta lançou o Llama 4, mas isso não é o foco deste artigo.

Porque, para a minha tarefa, esse modelo foi péssimo.

Entretanto, ao avaliar esse modelo, eu descobri acidentalmente algo sobre o Google Gemini Flash 2. Enquanto eu subjetivamente achava que era um dos melhores modelos para geração de consultas SQL, minha avaliação prova isso de forma definitiva. Aqui está uma comparação do Google Gemini Flash 2.0 e todos os outros principais modelos de linguagem. Especificamente, estou testando contra:

DeepSeek V3 (versão 03/24)
Llama 4 Maverick
E Claude 3.7 Sonnet

Analisando a consulta SQL

Para analisar cada modelo para essa tarefa, usei EvaluateGPT.

GitHub – austin-starks/EvaluateGPT: Avalie a eficácia de um prompt de sistema em segundos!

EvaluateGPT é uma estrutura de avaliação de modelo de código aberto. Ele usa LLMs para ajudar a analisar a precisão e eficácia de diferentes modelos de linguagem. Avaliamos prompts com base em precisão, taxa de sucesso e latência.

O Segredo por trás dos Testes

Como eu realmente testei esses modelos? Eu construí uma estrutura de avaliação personalizada que bombardeia cada modelo com 40 perguntas financeiras cuidadosamente selecionadas. Estamos falando de tudo, desde questões básicas como “Quais ações de IA têm a maior capitalização de mercado?” até consultas complexas como “Encontre ações de grande capitalização com altos fluxos de caixa livres, razão PEG abaixo de 1 e P/E atual abaixo da faixa típica.”

Cada modelo teve que gerar consultas SQL que realmente rodaram contra um enorme banco de dados financeiro contendo tudo, desde fundamentos de ações até classificações de indústrias. Eu não apenas verifiquei se funcionaram – eu queria resultados perfeitos. A avaliação foi brutal: erros de execução significaram pontuação zero, valores nulos inesperados anularam a classificação, e apenas respostas impecáveis que atingiram exatamente o que foi solicitado ganharam pontuação perfeita.

O ambiente de teste foi completamente consistente entre os modelos. Mesmas perguntas, mesmo banco de dados, mesmos critérios de avaliação. Eu até monitorei o tempo de execução para medir o desempenho no mundo real. Este não é um benchmark teórico – é SQL real que funciona ou não quando você tenta responder a perguntas financeiras reais.

Usando o EvaluateGPT, temos uma medida objetiva de como cada modelo se sai na geração de consultas SQL. Mais especificamente, o processo é o seguinte:

Use o LLM para gerar uma frase em inglês simples, como “Qual foi a capitalização total de mercado do S&P 500 no final do último trimestre?” em uma consulta SQL
Execute essa consulta SQL contra o banco de dados
Avalie os resultados. Se a consulta não executar ou for imprecisa (como julgado por outro LLM), damos uma baixa pontuação. Se for precisa, damos uma pontuação alta

Usando esta ferramenta, posso rapidamente avaliar qual modelo é o melhor em um conjunto de 40 questões de análise financeira. Para ler quais perguntas estavam no conjunto ou para aprender mais sobre o script, verifique o repositório de código aberto.

Aqui estão meus resultados.

Qual modelo é o melhor para geração de consultas SQL?

1*ieHOuVcOQM37CChQfpnXbQ Eu testei os melhores modelos de linguagem para geração de consultas SQL. Google ganha com folga.

A Figura 1 (acima) mostra qual modelo entrega o melhor desempenho geral na faixa.

Os dados contam uma história clara aqui. O Gemini 2.0 Flash domina com uma taxa de sucesso de 92,5%. Isso é melhor do que modelos que custam muito mais.

Claude 3.7 Sonnet realmente teve a maior pontuação em pontuações perfeitas, com 57,5%, o que significa que quando funciona, tende a produzir consultas de alta qualidade. Mas falha com mais frequência que o Gemini.

Llama 4 e DeepSeek? Eles tiveram dificuldades. Desculpe, Meta, mas seu novo lançamento não está ganhando este concurso.

Análise de Custo e Desempenho

1*kP_out7B2gh94jCvZzAgNA Eu testei os melhores modelos de linguagem para geração de consultas SQL. Google ganha com folga.

Agora vamos falar sobre dinheiro, porque as diferenças de custo são incríveis.

Claude 3.7 Sonnet custa 31,3x mais que o Gemini 2.0 Flash. Isso não é um erro de digitação. Trinta e um vezes mais caro.

O Gemini 2.0 Flash é barato. Tipo, realmente barato. E ele se sai melhor do que as opções caras para essa tarefa.

Se você está executando milhares de consultas SQL através desses modelos, a diferença de custo se torna massiva. Estamos falando de uma economia potencial de milhares de dólares.

1*P1_PsRK9OjteUK-o3_OJVQ Eu testei os melhores modelos de linguagem para geração de consultas SQL. Google ganha com folga.

A Figura 3 conta a história verdadeira. Quando você combina desempenho e custo:

O Gemini 2.0 Flash oferece uma proporção de custo-desempenho 40x melhor que o Claude 3.7 Sonnet. Isso é insano.

O DeepSeek é lento, o que destrói sua vantagem de custo.

Modelos Llama são razoáveis para seu preço, mas não podem tocar na eficiência do Gemini.

Por que isso realmente importa

Olhe, a geração de SQL não é uma capacidade de nicho. É central para praticamente qualquer aplicativo que precise se comunicar com um banco de dados. A maioria dos aplicativos de IA empresarial precisa disso.

O fato de que o modelo mais barato é, na verdade, o melhor desempenho vira a sabedoria convencional de cabeça para baixo. Todos nós fomos treinados para pensar “mais caro = melhor”. Não neste caso.

Gemini Flash ganha com folga, e é melhor do que todos os novos modelos brilhantes que dominaram as manchetes recentemente.

Algumas Limitações

Devo mencionar algumas ressalvas:

Meus testes focaram em consultas de dados financeiros.
Usei 40 perguntas de teste – um conjunto maior pode mostrar padrões diferentes.
Esta foi uma geração única, não um refinamento sucessivo.
Os modelos são atualizados constantemente, então esses resultados são de abril de 2025.

Mas a diferença de desempenho é grande o suficiente para eu manter essas descobertas.

Experimente você mesmo

Quer fazer perguntas a um LLM sobre suas questões financeiras usando o Gemini Flash 2? Confira NexusTrade!

NexusTrade – Negociação Automatizada sem Código e Pesquisa

O NexusTrade faz muito mais do que apenas responder perguntas financeiras de maneira única. Sob o capô, há um pipeline de avaliação iterativa para garantir que os resultados sejam o mais precisos possível.

1*xdS02e9mVRjcNISym2q6Vw Eu testei os melhores modelos de linguagem para geração de consultas SQL. Google ganha com folga.

Assim, você pode perguntar ao NexusTrade até mesmo questões financeiras difíceis, como:

“Quais ações com capitalização de mercado acima de $100 bilhões têm o maior CAGR de lucro líquido de 5 anos?”
“Quais ações de IA são as mais distantes do preço médio de 100 dias?”
“Avalie minha lista de observação de ações fundamentalmente”

O NexusTrade é completamente gratuito para começar e até tem tutoriais dentro do aplicativo para guiá-lo no aprendizado de negociação algorítmica!

Confira e me diga o que você acha!

Conclusão: Pare de Gastar Dinheiro com os Modelos Errados

Aqui está o resumo: para geração de consultas SQL, o Gemini Flash 2 do Google é melhor e dramaticamente mais barato do que a concorrência.

Isso tem implicações reais:

Pare de optar pelo modelo mais caro para cada tarefa.
Considere a proporção custo-desempenho, não apenas o desempenho bruto.
Teste vários modelos regularmente, pois todos continuam melhorando.

Se você está construindo aplicativos que precisam gerar SQL em grande escala, está provavelmente desperdiçando dinheiro se não estiver usando o Gemini Flash 2. É simples assim.

Estou curioso para ver se esse padrão se mantém para outras tarefas especializadas, ou se a geração de SQL é apenas o ponto forte do Google. De qualquer forma, os dias de escolher automaticamente a opção mais cara acabaram.

Compartilhe

Guia da Internet

Eu testei os melhores modelos de linguagem para geração de consultas SQL. Google ganha com folga.

Imagine um modelo rápido e barato que é mais preciso que os caros. Esse é o Gemini Flash 2.

Analisando a consulta SQL

O Segredo por trás dos Testes

Qual modelo é o melhor para geração de consultas SQL?

Análise de Custo e Desempenho

Por que isso realmente importa

Algumas Limitações

Experimente você mesmo

Conclusão: Pare de Gastar Dinheiro com os Modelos Errados

Publicar comentário Cancelar resposta

Imagine um modelo rápido e barato que é mais preciso que os caros. Esse é o Gemini Flash 2.

Analisando a consulta SQL

O Segredo por trás dos Testes

Qual modelo é o melhor para geração de consultas SQL?

Análise de Custo e Desempenho

Por que isso realmente importa

Algumas Limitações

Experimente você mesmo

Conclusão: Pare de Gastar Dinheiro com os Modelos Errados

Eu avaliei o Grok 3 como o melhor modelo de IA para traders e investidores

Você pode ganhar dinheiro com IA sem sair do seu trabalho

Postagens relacionadas

Publicar comentário Cancelar resposta