China diz não ao hype da IA

A nova fronteira, pior do que a anterior?

Um grupo de pesquisadores da Universidade Tsinghua (se isso não soa familiar, é como se fosse o MIT da China) apresentou pesquisas sobre modelos de raciocínio que assustaram muitos: eles não são tão inteligentes quanto alguns afirmam, mostrando provas fascinantes que muitos acharão chocante.

Essa indústria está tão empolgada com a febre da IA que perdeu completamente a noção, com afirmações como ‘superinteligência está próxima’, quando a verdade é na verdade muito menos atraente, e este artigo está chegando à indústria como uma bola de demolição.

Deixe-me tentar forçar você a repensar suas intuições sobre os modelos de IA de ponta.

Os limites da IA

Eu sou geralmente muito otimista sobre IA. Assim, posso me deixar levar às vezes.

Portanto, preciso me ancorar na realidade de vez em quando para evitar me perder no meio do hype sustentado por capital. Embora eu saiba que eles estão na sua maioria repletos de exageros, às vezes você não consegue resistir.

A sorte é que este artigo serve como um contrapeso perfeito. Mas primeiro, um pouco de contexto.

A necessidade de velocidade

Assim como Tom Cruise no clássico “Top Gun” de 1986, a indústria de IA estava muito em “necessidade de sentir a velocidade” há apenas alguns meses.

Até a chegada dos modelos de raciocínio, estávamos presos no mesmo nível de “inteligência” com modelos não-raciocínio (Modelos de Linguagem de Grande Escala tradicionais) por dois anos desde que o GPT-4 foi treinado pela primeira vez no verão de 2022.

Todos temiam que a festa estava chegando ao fim.

Então, em setembro, a OpenAI apresentou a família de modelos ‘o’, cópias básicas de modelos não-raciocínio que, no comportamento, funcionaram de maneira diferente, gerando uma ‘cadeia de pensamento’ para maximizar a probabilidade de acerto.

Ao mimetizar padrões comuns de raciocínio usados por humanos (planejamento, desmembrar problemas em outros mais simples, ou retroceder ao cometer erros), esses modelos se tornaram melhores em tarefas complexas.

Pense nisso. Assim como você melhora seu desempenho em um teste de matemática quanto mais tempo é dado, os modelos apresentam desempenho aumentado em aqueles tipos de problemas que se beneficiam de “pensar mais sobre eles”.

E assim, enquanto as luzes da festa estavam quase apagadas, ela recomeçou como se nada tivesse acontecido, e o hype se renovou.


A nova forma de alcançar a ‘AGI’, ou até mesmo superinteligência como alguns sugeriram.

Mas se treinar modelos para pensar mais tempo nas tarefas é realmente a panaceia, como conseguimos que um modelo faça isso?

Simples, use RL.

O método usado é chamado Aprendizado por Reforço (RL).

Temendo soar como um disco quebrado, pois toquei no assunto várias vezes, RL é uma forma de treinar modelos na qual recompensamos ações específicas que queremos e punimos o restante, reforçando assim os comportamentos desejados.

Portanto, para criar um ‘raciocinador de IA’ melhor, usamos RL para ensinar certas habilidades de raciocínio como as que mencionamos anteriormente (fazer um plano, refletir sobre respostas anteriores, retroceder em erros), e mais.

No fundo, os chamados modelos de raciocínio não são diferentes de LLMs tradicionais; eles apenas abordam problemas de maneira diferente em uma abordagem de múltiplas etapas.

E a verdade é que eles realmente oferecem um desempenho incrível em tarefas como matemática ou codificação além do que você esperaria de seus equivalentes não-raciocínio.

Por exemplo, se olharmos o gráfico abaixo, mostrando resultados de modelos de IA na benchmark ARC-AGI (um teste tipo IQ especificamente projetado para ser difícil para IAs), você pode ver que os melhores modelos são todos modelos de raciocínio (principalmente o modelo o3 da OpenAI), enquanto os modelos não-raciocínio apresentam desempenho mal arranhando a marca de 10% (GPT-4.5).


Nova Razão… ou Razão Mais Rápida?

Os pesquisadores da Tsinghua, céticos em relação a algumas das alegações que estão sendo feitas, levantaram a questão:

Enquanto nos tornamos obcecados em medir as capacidades de raciocínio desses modelos avaliando quantas tentativas eles precisam para resolver corretamente um problema, esta é a maneira correta de avaliar se eles são realmente mais inteligentes?

Claro, com base nos resultados incríveis, sua intuição tem que ser sim, certo?

Bem, espere um segundo.

Entendendo como os Laboratórios de IA ‘embelezam’ resultados

Em geral, para medir o desempenho em IA, mas especialmente ao olhar para modelos de raciocínio, usamos métricas como ‘pass@k’. Isso se traduz em: Se o modelo tenta resolver um problema ‘k’ vezes, quais são as chances de que pelo menos uma esteja correta?

Naturalmente, a melhor indicação de desempenho é ‘pass@1’, significando que eu dou apenas uma chance ao modelo para acerta-la. Se medimos ‘pass@10’, estamos medindo a precisão média esperada que o modelo terá pelo menos uma correta entre as 10 tentativas – o que não é um grande desempenho, como você pode adivinhar.

Infelizmente, os laboratórios também tomam algumas liberdades em como apresentam seus modelos, e coisas como pass@64 ou mesmo pass@1024 são surpreendentemente comuns, mesmo que tal modelo não tenha utilidade no mundo real.

Da próxima vez que você ver um benchmark de modelo, olhe as notas de rodapé e perceberá que ‘pass@1’ é, de fato, uma raridade, e as métricas usadas são, bem, debatíveis.

Isso é por que a IA está tendo tantos problemas em implementar implantações reais; como geralmente apenas olhamos o número de precisão e não a métrica de avaliação, temos uma má concepção do desempenho que não é verdadeira em áreas onde a robustez importa (ou seja, em todo lugar).

De qualquer forma, o ponto aqui é que o valor de ‘k’ é importante, porque indica quantas tentativas o modelo precisa, tornando-se a forma ‘de facto’ de avaliar a inteligência do modelo.

Faz sentido, certo? Se um humano leva menos tentativas para resolver uma tarefa do que outro humano, podemos concordar que essa pessoa é mais inteligente.

Mas será?

Essa obsessão em reduzir k, ou o número de tentativas, está nos enganando para acreditar em coisas sobre modelos de raciocínio que não são verdadeiras?

E aqui é onde as coisas ficam, bem… estranhas.

Não é o progresso que você pensa que é

Para testar se seu instinto estava certo, eles decidiram deixar modelos de raciocínio e não-raciocínio realizarem um maior número de tentativas por problema.

E aqui é onde as surpresas surgiram.

Para valores grandes de tentativas (quando o modelo é dado muitas mais chances para resolver um problema), não só os modelos não-raciocínio foram capazes de obter o mesmo desempenho nominal que seus aparentemente superiores correspondentes de raciocínio…

Maseles realmente obtiveram resultados melhores!

Analisando os gráficos abaixo, eles comparam um modelo não-raciocínio (verde) e aquele mesmo modelo treinado para raciocínio (vermelho) para duas tarefas: codificação (duas à esquerda) e matemática (direita).

O modelo de raciocínio é claramente melhor para valores baixos de k (quando o modelo recebe um pequeno número de tentativas para acerta-la). Mas à medida que o número de tentativas permitidas aumenta, o desempenho converge e, eventualmente, o modelo não-raciocínio obtém melhores resultados!


Vimos isso chegar

Os resultados são muito claros: modelos de raciocínio não representam, neste momento, um caminho para raciocínios além do que as IAs já sabem por experiência (de seu próprio treinamento).

Isso é algo que foi proclamado amplamente, e é flagrantemente falso.

Eles aumentam a eficiência de amostragem, mas à custa de perder capacidades mais amplas, a mesma história de sempre, mas com trilhões de dólares em dívida e uma promessa, AGI, que está tão longe quanto estava há dois anos.

A IA parece estar esbarrando nos mesmos limites que sempre teve: ir além de seus dados de treinamento, ou em linguagem de IA, generalização fora da distribuição.

Em outras palavras, as IAs podem raciocinar sobre ‘conhecidos conhecidos’ e generalizar para novos dados… contanto que esses dados sejam altamente semelhantes aos que viram durante o treinamento; elas são limitadas por sua própria experiência, ponto final.

A conclusão é que o raciocínio da IA não é uma representação fiel do raciocínio humano real. Humanos raciocinam com dados que conhecem, mas também podemos raciocinar em situações que nunca experimentamos antes.

Mas o que eles estão perdendo? Simples: capacidades de adaptação.

Essa é a peça-chave que os humanos têm e as IAs claramente não têm. Essa é a palavra que você precisa lembrar sempre que alguém tentar lhe dizer que as IAs são “tão inteligentes quanto doutores.”

Não, elas não são porque não conseguem se adaptar a novos dados rapidamente, uma característica central da inteligência humana porque permite que você ganhe nova experiência para construir nova intuição e raciocínio. Inteligência é uma roda giratória de aquisição de conhecimento, compressão e busca.

Mas isso significa que a IA é uma grande mentira?

Quase, porque aqui está a questão: Não precisamos de uma verdadeira inteligência de máquinas para mudar o mundo com IA, e a maioria do trabalho economicamente valioso não precisa de uma verdadeira inteligência humana para ser automatizado; só precisamos que a IA seja robusta, uma imitadora razoavelmente boa da inteligência humana e, crucialmente, mais barata que o contraponto humano.

Acredito que os três serão alcançados nos próximos anos. Criar uma verdadeira inteligência de máquina não está chegando tão cedo, no entanto. E, francamente, eu não sei se queremos isso.

Compartilhe

No Guia da Internet, simplificamos o que parece complicado! Compartilhamos conteúdos sobre tecnologia, finanças, criptomoedas e as tendências do momento de forma clara e objetiva. Seja para aprender sobre investimentos, explorar novas tecnologias ou descobrir curiosidades incríveis, aqui você sempre encontra informação confiável e acessível!

Publicar comentário