Uma das coisas mais estranhas e enervantes sobre os principais sistemas de inteligência artificial da atualidade é que ninguém – nem mesmo as pessoas que os constroem – sabe realmente como os sistemas funcionam.

Isso ocorre porque grandes modelos de linguagem, o tipo de sistema de IA que alimenta o ChatGPT e outros chatbots populares, não são programados linha por linha por engenheiros humanos, como são os programas de computador convencionais.

Em vez disso, estes sistemas aprendem essencialmente por si próprios, ingerindo enormes quantidades de dados e identificando padrões e relações na linguagem, utilizando depois esse conhecimento para prever as próximas palavras numa sequência.

Uma consequência da construção de sistemas de IA dessa maneira é que é difícil fazer engenharia reversa ou corrigir problemas identificando bugs específicos no código. Neste momento, se um usuário digitar “Qual cidade americana tem a melhor comida?” e um chatbot responde com “Tóquio”, não há nenhuma maneira real de entender por que o modelo cometeu esse erro ou por que a próxima pessoa que perguntar poderá receber uma resposta diferente.

E quando grandes modelos de linguagem se comportam mal ou saem dos trilhos, ninguém consegue realmente explicar por quê. (Encontrei esse problema no ano passado, quando um chatbot do Bing agiu de uma forma desequilibrada durante uma interação comigo, e nem mesmo os principais executivos da Microsoft puderam me dizer com certeza o que havia de errado.)

A inescrutabilidade de grandes modelos linguísticos não é apenas um aborrecimento, mas uma das principais razões pelas quais alguns investigadores temem que poderosos sistemas de IA possam eventualmente tornar-se uma ameaça para a humanidade.

Afinal, se não conseguimos compreender o que está a acontecer dentro destes modelos, como saberemos se podem ser usados ​​para criar novas armas biológicas, espalhar propaganda política ou escrever códigos informáticos maliciosos para ataques cibernéticos? Se sistemas poderosos de IA começarem a nos desobedecer ou a nos enganar, como poderemos detê-los se, em primeiro lugar, não conseguimos entender o que está causando esse comportamento?

Para resolver estes problemas, um pequeno subcampo de investigação em IA conhecido como “interpretabilidade mecanicista” passou anos a tentar perscrutar o interior dos modelos de linguagem de IA. O trabalho tem sido lento e o progresso tem sido incremental.

Também tem havido uma resistência crescente à ideia de que os sistemas de IA representam muitos riscos. Na semana passada, dois pesquisadores seniores de segurança da OpenAI, criadora do ChatGPT, Deixou a empresa em meio a conflitos com executivos sobre se a empresa estava fazendo o suficiente para tornar seus produtos seguros.

Mas esta semana, uma equipa de investigadores da empresa de IA Anthropic anunciou o que chamaram de um grande avanço – que esperam que nos dê a capacidade de compreender mais sobre como os modelos de linguagem de IA realmente funcionam, e possivelmente evitar que se tornem prejudiciais.

A equipe resumiu suas descobertas esta semana em uma postagem de blog chamada “Mapeando a mente de um grande modelo de linguagem.”

Os pesquisadores examinaram um dos modelos de IA da Anthropic – Claude 3 Sonnet, uma versão do modelo de linguagem Claude 3 da empresa – e usaram uma técnica conhecida como “aprendizado de dicionário” para descobrir padrões em como as combinações de neurônios, as unidades matemáticas dentro do modelo de IA , foram ativados quando Claude foi solicitado a falar sobre determinados assuntos. Eles identificaram cerca de 10 milhões desses padrões, que chamam de “características”.

Eles descobriram que um recurso, por exemplo, ficava ativo sempre que Claude era solicitado a falar sobre São Francisco. Outros recursos ficavam ativos sempre que eram mencionados temas como imunologia ou termos científicos específicos, como o elemento químico lítio. E algumas características estavam ligadas a conceitos mais abstratos, como engano ou preconceito de género.

Eles também descobriram que ativar ou desativar manualmente certos recursos pode mudar o comportamento do sistema de IA ou até mesmo fazer com que o sistema quebre suas próprias regras.

Por exemplo, eles descobriram que se forçassem um recurso ligado ao conceito de bajulação a ser ativado com mais força, Claude responderia com elogios floridos e exagerados ao usuário, inclusive em situações em que a bajulação fosse inadequada.

Chris Olah, que liderou a equipe de pesquisa de interpretabilidade antrópica, disse em uma entrevista que essas descobertas poderiam permitir que as empresas de IA controlassem seus modelos de forma mais eficaz.

“Estamos descobrindo recursos que podem esclarecer preocupações sobre preconceitos, riscos de segurança e autonomia”, disse ele. “Estou muito animado por podermos transformar essas questões controversas sobre as quais as pessoas discutem em coisas sobre as quais podemos realmente ter um discurso mais produtivo.”

Outros pesquisadores encontraram fenômenos semelhantes em modelos de linguagem de pequeno e médio porte. Mas a equipe da Anthropic está entre as primeiras a aplicar essas técnicas a um modelo em tamanho real.

Jacob Andreas, professor associado de ciência da computação no MIT, que revisou um resumo da pesquisa da Anthropic, caracterizou-o como um sinal de esperança de que a interpretabilidade em larga escala poderia ser possível.

“Da mesma forma que compreender coisas básicas sobre como as pessoas trabalham nos ajudou a curar doenças, compreender como funcionam estes modelos permitir-nos-á reconhecer quando as coisas estão prestes a correr mal e construir melhores ferramentas para as controlar”, disse ele.

Olah, líder da pesquisa antrópica, alertou que, embora as novas descobertas representem um progresso importante, a interpretabilidade da IA ​​ainda está longe de ser um problema resolvido.

Para começar, disse ele, os maiores modelos de IA provavelmente contêm bilhões de recursos que representam conceitos distintos – muito mais do que os cerca de 10 milhões de recursos que a equipe da Anthropic afirma ter descoberto. Encontrá-los todos exigiria enormes quantidades de poder de computação e seria muito caro para todos, exceto para as empresas de IA mais ricas.

Mesmo que os investigadores identificassem todas as características num grande modelo de IA, ainda precisariam de mais informações para compreender todo o funcionamento interno do modelo. Também não há garantia de que as empresas de IA agiriam para tornar os seus sistemas mais seguros.

Ainda assim, disse Olah, mesmo abrir um pouco essas caixas pretas de IA poderia permitir que empresas, reguladores e o público em geral se sentissem mais confiantes de que esses sistemas podem ser controlados.

“Há muitos outros desafios pela frente, mas o que parecia mais assustador não parece mais um obstáculo”, disse ele.