Imaginação Mental em Modelos de IA, Finalmente Real?
Pesquisadores do MIT e Amherst publicaram um artigo que parece “diferente”. E isso se deve ao fato de ser diferente.
Eles apresentaram o Mirage, o primeiro modelo de IA que realmente “pensa visualmente,” permitindo que ele crie “imagens mentais” como as que você forma quando é solicitado a pensar na sua mãe.
Isso sugere que estamos à beira de uma IA “consciente do espaço”?
Vamos descobrir.
IA em palavras que você pode entender. Para aqueles alérgicos ao hype, mas famintos por conhecimento. Inscreva-se hoje.
Comportamento de Máquina Contraintuitivo
Se pegarmos o que eu acredito ser o modelo mais poderoso do planeta, o o3 (‘mais poderoso’ não implica melhor), o modelo é capaz de realizar – ou, ouso dizer, imitar – o raciocínio humano tanto em texto quanto em imagens, o que a OpenAI denomina ‘Pensando com imagens,’ um recurso atraente.
Em termos simples, o modelo pode criar sequências de texto e imagens entrelaçadas para discutir o texto e as imagens que o usuário lhe envia.
No entanto, a realidade é que o mecanismo subjacente é contraintuitivo, no mínimo.
Escrever e Desenhar para Pensar
Uma das características desconcertantes dos modelos modernos de IA Generativa é que eles precisam falar e desenhar para pensar. De maneira diferente, os modelos de IA Generativa não apenas geram respostas para responder ao usuário, eles também precisam gerar o ‘processo de pensamento,’ como se os humanos tivessem que falar para pensar sobre a linguagem e desenhar para visualizar cenas.
Embora tenha havido considerável exploração sobre como impedir que os modelos tenham que falar para pensar, conhecidos como ‘modelos de raciocínio latente‘, não houve esforços para permitir que as máquinas imaginassem imagens em vez de desenhá-las para pensar sobre elas.
Até agora.
Mas por que deveríamos querer isso?
O Poder das Imagens Mentais
Sabemos há várias décadas que os humanos criam imagens descritivas, quase pictóricas em nossas mentes.
Literalmente, Stephen Kosslyn provou em 1994 que os humanos constroem ‘imagens mentais’ em nossas mentes com base em vinte anos de estudos amplamente influenciados por Roger Shepard e Jacquline Metzler, que, em 1971, provaram que os humanos realizam rotações de nossas imagens mentais e que o tempo que essas rotações exigem é proporcional ao ângulo de rotação.
Em termos simples, o esforço mental necessário durante a rotação imaginada era proporcional ao ângulo de rotação, fornecendo evidências de que essas representações possuíam propriedades espaciais, enquanto o humano estava ativamente reconstruindo a imagem de um novo ângulo.
Não estamos pensando em cenas simbolicamente; estamos, literalmente, gerando-as em nossos cérebros.
Na realidade, como apontado por um assinante da minha newsletter, nem todos os humanos podem ver imagens mentais, uma condição conhecida como afantasia (ele sofre dessa condição). Apesar disso, eles ainda têm consciência espacial como qualquer outra pessoa, mas seu cérebro funciona de maneira um pouco diferente.
Diferente da IA, estou zero confortável tentando explicar os detalhes dessa estranha condição por conta própria, mas ele me direcionou a este artigo, caso você queira se aprofundar.
Assim, se – a maioria – dos humanos constroem imagens mentais, sugerindo fortemente que essas nos dão capacidades de raciocínio espacial, por que os AIs não deveriam fazer o mesmo?
Mirage, A IA Encontra a Imaginação Mental
Falar sobre AIs e imaginação mental imediatamente levanta a pergunta: As AIs têm mentes?
Bem, não da maneira que você as descreveria.
Espaço Latente
Na IA moderna, tudo gira em torno da ideia de ‘representações’ internas. Essas são vetores numéricos (as máquinas só trabalham com números) que representam a compreensão da IA sobre conceitos da vida real.
Esses vetores são governados pelo princípio da similaridade: uma IA constrói uma compreensão do mundo com base na relativa similaridade de cada conceito em relação ao restante.
Em termos leigos, um ‘gato’ é compreendido não pelo seu significado platônico, mas pela forma como ele difere de outros conceitos no índice de conceitos conhecidos do modelo.
Em termos simples, o modelo descobre o que é ‘gato’ com base na sua semelhança a conceitos como ‘cachorro’ ou ‘tigre’, e igualmente importante, como eles são muito mais dissimilares em relação a conceitos como ‘cubo de tungstênio’.
Dessa forma, o modelo constrói um ‘espaço de representação,’ mais formalmente conhecido como ‘espaço latente.’
Como esse espaço é vetorial, a distância entre conceitos é computável. Assim, o significado de ‘gato’ é medido pela sua distância relativa a todos os outros conceitos nesse espaço latente que definem em conjunto “o que um modelo sabe.”
Por exemplo, ‘gato’ está muito próximo de outros conceitos como ‘cachorro’ ou ‘tigre’, é então considerado pelo modelo como um ‘animal’, e mais especificamente, em um subgrupo de ‘mamíferos’ – como ‘gato’ está muito próximo de outros animais que também são ‘mamíferos’, o modelo infere que ‘gatos’ são ‘animais mamíferos’.
Como esse espaço é vetorial, cada direção nesse espaço representa um atributo, que permite ao modelo distribuir conceitos, como mostrado na imagem acima, com base na similaridade.
Assim, quando o modelo encontra uma nova entrada – seja texto, imagens ou ambos – ele usa esse espaço latente para determinar o que a entrada está dizendo e o que deve vir a seguir.
No entanto, esses modelos, apesar de serem alegadamente ‘multimodais,’ ainda dependem fortemente do ‘pensar em texto’ para responder. E isso é um problema.
Mas o que queremos dizer com isso?
De ‘Apenas texto’ para Verdadeira Multimodalidade
Se examinarmos a imagem abaixo, como você abordaria esses problemas? Se olharmos para o primeiro à esquerda, você imagina o caminho, ou está definindo o algoritmo em seu cérebro usando símbolos de texto (cima → direita → cima…)?
Claro, em todos os três casos, você está imaginando a solução porque todos os três requerem pistas visuais para serem resolvidos.
No entanto, nossas IAs modernas, apesar de serem capazes de ver imagens, tentariam resolver esse problema via texto, desconsiderando todas as pistas espaciais vitais que os problemas fornecem, e resolvendo as tarefas como se fossem problemas de matemática escritos.
As razões técnicas para isso são duplas:
- Como mencionamos, os modelos de IA precisam falar, desenhar, ou ambos, para pensar. Não existe um passo intermediário em que o modelo possa divagar sobre o problema sem gerar algo. Ele precisa gerar para resolver.
- Como pensar com imagens, ou gerar imagens para raciocinar, é uma experiência dolorosa para o usuário (é muito lenta), os modelos de vanguarda recorrem amplamente ao texto. Assim, mesmo que a tarefa exija pensamento visual, o modelo ainda contará em sua maioria com texto – e código – para encontrar a solução.
No caso do ChatGPT, ele utilizará ferramentas de codificação para recortar, ampliar ou girar imagens para restringir e resolver perguntas de forma mais eficiente. No entanto, ele ainda é fundamentalmente obrigado a falar para ‘raciocinar’.
Então, como podemos dotar as AIs dessa capacidade de realizar a imaginação mental? Aqui é onde a pesquisa de hoje entra em cena.
A ideia é treinar o modelo para reconhecer quando ele precisa “pensar visualmente,” gerando um token especial que coloca o modelo em pensamento espacial, raciocinando sobre o espaço latente (impedindo-o de ir para o espaço textual), e depois voltando a escrever texto quando terminar a fase de pensamento visual.
Isso pode parecer bastante esotérico, mas vamos deixar isso claro com um exemplo:
- Para qualquer um dos problemas de exemplo acima, o modelo começa gerando texto como ‘Estou vendo uma cena de jogo semelhante a Pokémon… o que eu deveria fazer é…’ e então introduz o token especial que sugere que está prestes a começar a pensar internamente.
- Esse token especial isenta o modelo de falar mais e permite que ele “pense introspectivamente” no ‘espaço latente’ que descrevemos anteriormente.
- Depois que ele termina de pensar visualmente, ou seja, imaginar a resposta visualmente, ele então responde com a solução via texto novamente, como mostrado abaixo:
Isso imita o que um humano faria nesse caso, não usando a linguagem para pensar sobre como resolver o problema, mas imaginando-o.
Mas espere, já discutimos isso. Não é esse o mesmo método que empresas como Meta, com o COCONUT, que cobrimos anteriormente, utilizam?
Sim, mas não exatamente.
Fazendo Modelos Realmente Pensarem Visualmente
Como expliquei no artigo do link acima, a ideia de permitir que os modelos pensem internamente antes de falar é uma área de pesquisa quente, porque é mais barato (gera menos tokens para responder) e parece semelhante ao comportamento humano.
No entanto, essa introspecção ainda é baseada principalmente em dados textuais, então, naturalmente, o modelo, apesar de não ‘falar’, ainda está pensando introspectivamente dependendo da linguagem, não da imaginação mental.
Para corrigir isso, os pesquisadores do MIRAGE prepararam um ‘conjunto de dados visual’ exclusivo que incluía imagens auxiliares, anotadas por humanos, que o modelo deveria usar para responder. Em termos simples, esse método de treinamento força o modelo a resolver problemas utilizando as pistas visuais que a imagem auxiliar propõe.
Além disso, para provar que o modelo está realmente aprendendo e aproveitando as pistas visuais, a equipe executou uma análise PCA (Análise de Componentes Principais) que mostra como os novos pensamentos latentes do modelo (a que ele gera ao trabalhar com cenas visuais) estão agrupados muito próximos das latentes de imagem (as que o modelo aprende durante o treinamento de processamento de imagem) e estão uniformemente distribuídos, ao contrário das latentes textuais, que geralmente são distribuídas uniformemente pelo espaço latente dominado por texto que o modelo possui.
Resultados
Como esperado, Mirage demonstra melhorias significativas em benchmarks de raciocínio espacial e planejamento em geral, mostrando como essa técnica não apenas faz sentido lógico; ela também funciona:
Considerações Finais
Como eu sempre digo, a pesquisa que mais gosto é a intuitiva, aquela em que você diz: “Isso faz sentido”.
E para ser claro, não acho que isso se trata de fazer modelos de IA parecerem cada vez mais com humanos; acho que isso é um efeito colateral da aplicação do bom senso na pesquisa.
Algumas pessoas no Vale do Silício argumentam que construir modelos de IA que se assemelhem à inteligência humana não é necessariamente o caminho a seguir, referindo-se a aqueles que detidamente mantêm essa visão com o termo ‘especistas,’, que naturalmente carrega conotações negativas.
Mas ambos os grupos podem concordar que fingir criar ‘inteligência de máquina’ com uma máquina que raciocina imagens usando texto é, no mínimo, sem sentido, e esta é a primeira pesquisa que pode oferecer uma solução para um problema óbvio.
Compartilhe
Publicar comentário