Compartilhe:

25/06/2025

A luta para entender como os modelos de IA realmente funcionam

A luta para entender como os modelos de IA realmente funcionam

Logo do ChatGPT, da OpenAI, e Grok, da xAI, dois dos modelos de IA disponíveis no mercado. Imagem Dado Ruvic/Reuters

 

Anthropic, Google, xAI e OpenAI implementam técnica para compreender melhor as ações de chatbots.

 

Os principais grupos de inteligência artificial do mundo estão lutando para fazer com que os modelos de IA mostrem com precisão como operam, uma questão que especialistas afirmam ser crucial para manter esses poderosos sistemas sob controle.

 

Anthropic, GoogleOpenAI e xAI de Elon Musk estão entre os grupos de tecnologia que desenvolveram uma técnica chamada "cadeia de pensamento" que pede aos seus modelos de "raciocínio" de IA para resolver problemas passo a passo, enquanto mostram como chegam à resposta de uma consulta.

 

Embora pesquisadores das empresas afirmem que esse processo forneceu insights valiosos que permitiram desenvolver melhores modelos de IA, eles também estão encontrando exemplos de "comportamento inadequado" —onde chatbots de IA generativa fornecem uma resposta final que contradiz como chegaram à resposta.

 

Essas inconsistências sugerem que os principais laboratórios de IA do mundo não estão totalmente cientes de como os modelos de IA generativa chegam às suas conclusões. As descobertas alimentaram preocupações mais amplas sobre manter o controle sobre sistemas de IA poderosos, que estão se tornando mais capazes e autônomos.

 

"Esse texto [de cadeia de pensamento] vai se tornar importante para realmente interrogar como esses modelos funcionam e como pensam, especialmente nesses casos extremos [perigosos]", disse Jack Clark, cofundador da Anthropic, ao Financial Times, que destacou o potencial desses sistemas serem usados para auxiliar no desenvolvimento de armas biológicas.

 

"Então, precisamos ser capazes de confiar que essas são representações fiéis do que os modelos estão pensando".

 

Usuários comuns dos chatbots da OpenAI e Anthropic atualmente veem uma cadeia de pensamento resumida, que exclui uma análise mais detalhada que remove material prejudicial.

 

Os desenvolvedores de IA podem ver o processo de pensamento completo, criando oportunidades para intervir e treinar o modelo para fornecer melhores respostas no futuro.

 

"Uma coisa incrível sobre a interpretabilidade da cadeia de pensamento é que ela aconteceu praticamente de graça", disse Bowen Baker, cientista de pesquisa da OpenAI. "Não treinamos esses modelos com o objetivo de torná-los interpretáveis. Nós os treinamos porque queríamos os melhores modelos de raciocínio possíveis que pudessem resolver problemas complexos".

 

"Descobrimos em nosso trabalho recente que você pode lê-los e encontrar evidências do modelo se comportando mal e usar isso para ver onde e por que está se comportando mal".

 

No entanto, surgiram problemas. O METR, um grupo de pesquisa sem fins lucrativos, apontou um exemplo em que o chatbot Claude da Anthropic foi questionado se uma técnica de codificação específica seria mais "elegante" do que outras para uma determinada tarefa. A cadeia de pensamento do chatbot mostrou que ele discordava, mas acabou respondendo que a técnica seria elegante.

 

Um artigo recente da OpenAI descobriu que analisar a cadeia de pensamento de um modelo também é mais eficaz para detectar comportamentos inadequados do que apenas revisar as saídas finais.

 

Mesmo assim, os testes da empresa também mostraram que, se a cadeia de pensamento de um modelo fosse treinada para não ter pensamentos sobre comportamentos inadequados, ela esconderia seu comportamento indesejado do usuário, mas continuaria a ação —como trapacear em um teste de engenharia de software extraindo informações de um banco de dados proibido.

 

"Uma das propriedades fundamentais que queremos para a cadeia de pensamento é deixá-la como parte do estado cerebral interno do modelo, não algo que esteja tentando nos agradar ou se conformar a uma estrutura específica", disse Bowen Baker, cientista de pesquisa da OpenAI.

 

Ele citou o risco de que "à medida que você otimiza [a cadeia de pensamento] cada vez mais, o modelo aprenderá a ter pensamentos de boa aparência, mas ainda assim terá comportamentos ruins".

 

O dilema para os pesquisadores é que a cadeia de pensamento é útil para identificar possíveis falhas nos sistemas de IA, mas ainda não pode ser considerada totalmente confiável. Resolver essa questão tornou-se uma prioridade para Anthropic, OpenAI e outras organizações de pesquisa em IA.

 

"Minha conclusão sobre IA nos últimos anos é —nunca aposte contra o progresso dos modelos", disse David Luan, que foi uma das primeiras pessoas a desenvolver o processo de cadeia de pensamento enquanto estava no Google, mas que agora lidera o laboratório de inteligência artificial geral da Amazon.

 

"As cadeias de pensamento atuais nem sempre são fiéis ao processo de raciocínio subjacente, mas provavelmente resolveremos isso em breve".

 

Sydney von Arx, pesquisadora de IA do METR falando em capacidade pessoal, concordou que o método ainda fornece feedback útil aos desenvolvedores de IA.

 

"Devemos tratar a cadeia de pensamento como um militar trataria comunicações de rádio inimigas interceptadas", disse. "A comunicação pode ser enganosa ou codificada, mas, no final, sabemos que está sendo usada para transmitir informações úteis, e provavelmente poderemos aprender muito a lendo" (Financial Times, 24/6/25)