Início Tecnologia Os modelos de IA “visuais” são realmente cegos?

Os modelos de IA “visuais” são realmente cegos?

24
0

A última rodada de modelos de linguagem, como GPT-4o e Gemini 1.5 Professional, são anunciados como “multimodais”, capazes de entender imagens e áudio, bem como texto — mas um novo estudo deixa claro que eles não são realmente ver do jeito que você pode esperar. Na verdade, eles podem nem ver.

Para ser claro desde o início, ninguém fez alegações como “Esta IA pode ver como as pessoas!” (Bem… talvez alguns tenham feito.) Mas o advertising e os benchmarks usados ​​para promover esses modelos usam frases como “capacidades de visão”, “compreensão visible” e assim por diante. Eles falam sobre como o modelo vê e analisa imagens e vídeos, então ele pode fazer qualquer coisa, desde problemas de dever de casa até assistir ao jogo para você.

Então, embora as alegações dessas empresas sejam artisticamente formuladas, está claro que elas querem expressar que o modelo enxerga em algum sentido da palavra. E ele enxerga — mas mais ou menos da mesma forma que ele faz matemática ou escreve histórias: combinando padrões nos dados de entrada com padrões em seus dados de treinamento. Isso faz com que os modelos falhem da mesma forma que falham em certas outras tarefas que parecem triviais, como escolher um número aleatório.

Um estudo — casual em alguns aspectos, mas sistemático — de compreensão visual dos modelos atuais de IA foi realizado por pesquisadores da Universidade de Auburn e da Universidade de Alberta. Eles propuseram aos maiores modelos multimodais uma série de tarefas visuais muito simples, como perguntar se duas formas se sobrepõem, ou quantos pentágonos há em uma imagem, ou qual letra em uma palavra está circulada. (Uma micropágina resumida pode ser lida aqui.)

Elas são o tipo de coisa que até uma criança da primeira série acertaria, mas que davam grande dificuldade aos modelos de IA.

“Nossas 7 tarefas são extremamente simples, onde humanos executariam com 100% de precisão. Esperamos que as IAs façam o mesmo, mas elas NÃO estão fazendo atualmente”, escreveu o coautor Anh Nguyen em um e-mail para o TechCrunch. “Nossa mensagem é ‘olha, esses melhores modelos AINDA estão falhando.’ “

Créditos da imagem: Rahmanzadehgervi e outros

Faça o teste de formas sobrepostas: uma das tarefas de raciocínio visible mais simples concebíveis. Apresentados com dois círculos ligeiramente sobrepostos, apenas se tocando ou com alguma distância entre eles, os modelos não conseguiam acertar consistentemente. Claro, o GPT-4o acertou mais de 95% das vezes quando estavam distantes, mas em distâncias zero ou pequenas, ele acertou apenas 18% das vezes! O Gemini Professional 1.5 tem o melhor desempenho, mas ainda obtém apenas 7/10 em distâncias curtas.

(As ilustrações não mostram o desempenho exato dos modelos, mas pretendem mostrar a inconsistência dos modelos em todas as condições. As estatísticas para cada modelo estão no artigo.)

Ou que tal contar o número de círculos interligados em uma imagem? Aposto que um cavalo acima da média conseguiria fazer isso.

Créditos da imagem: Rahmanzadehgervi e outros

Todos eles acertam 100% das vezes quando há 5 anéis — ótimo trabalho de IA visible! Mas então adicionar um anel devasta completamente os resultados. Gemini está perdido, incapaz de acertar uma única vez. Sonnet-3.5 responde 6… um terço das vezes, e GPT-4o um pouco menos da metade das vezes. Adicionar outro anel torna ainda mais difícil, mas adicionar outro torna mais fácil para alguns.

O objetivo deste experimento é simplesmente mostrar que, o que quer que esses modelos estejam fazendo, não corresponde realmente ao que pensamos como visão. Afinal, mesmo que eles vissem mal, não esperaríamos que imagens de 6, 7, 8 e 9 anéis variassem tanto em sucesso.

As outras tarefas testadas mostraram padrões semelhantes: não period que eles estivessem enxergando ou raciocinando bem ou mal, mas parecia haver alguma outra razão pela qual eles eram capazes de contar em um caso, mas não em outro.

Uma possível resposta, é claro, está bem na nossa cara: por que eles são tão bons em obter uma imagem correta de 5 círculos, mas falham tão miseravelmente no resto, ou quando são 5 pentágonos? (Para ser justo, o Sonnet-3.5 se saiu muito bem nisso.) Porque todos eles têm uma imagem de 5 círculos em destaque em seus dados de treinamento: os anéis olímpicos.

Créditos da imagem: COI

Este logotipo não é apenas repetido várias vezes nos dados de treinamento, mas provavelmente descrito em detalhes no texto alternativo, diretrizes de uso e artigos sobre ele. Mas onde nos dados de treinamento você encontrará 6 anéis interligados, ou 7? Se as respostas deles são alguma indicação… em lugar nenhum! Eles não têm ideia do que estão “olhando” e nenhuma compreensão visible actual do que são anéis, sobreposições ou qualquer um desses conceitos.

Perguntei o que os pesquisadores pensam dessa “cegueira” que eles acusam os modelos de ter. Como outros termos que usamos, ela tem uma qualidade antropomórfica que não é muito precisa, mas difícil de prescindir.

“Eu concordo, “cego” tem muitas definições até mesmo para humanos e ainda não há uma palavra para esse tipo de cegueira/insensibilidade de IAs às imagens que estamos mostrando”, escreveu Nguyen. “Atualmente, não há tecnologia para visualizar exatamente o que um modelo está vendo. E seu comportamento é uma função complexa do immediate de texto de entrada, imagem de entrada e muitos bilhões de pesos.”

Ele especulou que os modelos não são exatamente cegos, mas que a informação visible que eles extraem de uma imagem é aproximada e abstrata, algo como “há um círculo no lado esquerdo”. Mas os modelos não têm meios de fazer julgamentos visuais, tornando suas respostas como as de alguém que é informado sobre uma imagem, mas não consegue realmente vê-la.

Como último exemplo, Nguyen enviou isto, que apoia a hipótese acima:

Créditos da imagem: Anh Nguyen

Quando um círculo azul e um círculo verde se sobrepõem (conforme a questão solicita que o modelo tome como fato), geralmente há uma área resultante sombreada em ciano, como em um diagrama de Venn. Se alguém lhe fizesse essa pergunta, você ou qualquer pessoa inteligente poderia muito bem dar a mesma resposta, porque é totalmente plausível… se seus olhos estiverem fechados! Mas ninguém com os olhos abrir responderia dessa maneira.

Isso tudo significa que esses modelos de IA “visuais” são inúteis? Longe disso. Não ser capaz de fazer raciocínio elementar sobre certas imagens fala de suas capacidades fundamentais, mas não de suas capacidades específicas. Cada um desses modelos provavelmente será altamente preciso em coisas como ações e expressões humanas, fotos de objetos e situações cotidianas e coisas do tipo. E, de fato, é isso que eles pretendem interpretar.

Se confiássemos no advertising das empresas de IA para nos dizer tudo o que esses modelos podem fazer, pensaríamos que eles tinham uma visão 20/20. Pesquisas como essa são necessárias para mostrar que, não importa quão preciso o modelo possa ser em dizer se uma pessoa está sentada, andando ou correndo, eles fazem isso sem “ver” no sentido (se você preferir) que tendemos a querer dizer.

Fonte