Início Tecnologia A IA agora está sendo treinada pela IA para se tornar uma...

A IA agora está sendo treinada pela IA para se tornar uma IA melhor

18
0

OpenAI

OpenAI tem desenvolveu um assistente de IAapelidado CríticoGPTpara ajudar seus treinadores de crowdsourcing a refinar ainda mais o modelo GPT-4. Ele detecta erros sutis de codificação que humanos poderiam não perceber.

Depois que um grande modelo de linguagem como o GPT-4 é inicialmente treinado, ele passa posteriormente por um processo contínuo de refinamento, conhecido como Aprendizagem por reforço com suggestions humano (RLF). Os treinadores humanos interagem com o sistema e anotam as respostas a várias perguntas, bem como avaliam várias respostas entre si, para que o sistema aprenda a retornar a resposta preferida e aumente a precisão da resposta do modelo.

O problema é que, à medida que o desempenho do sistema melhora, ele pode ultrapassar o nível de especialização do seu treinador, e o processo de identificação de erros e enganos se torna cada vez mais difícil.

Esses instrutores de IA nem sempre são especialistas no assunto, veja bem. No ano passado, a OpenAI foi pega fazendo crowdsourcing do esforço para trabalhadores quenianos — e pagando-lhes menos de US$ 2 por hora — para melhorar o desempenho dos seus modelos.

uma captura de tela crítica do GPT
IA aberta

Esse problema é especialmente difícil ao refinar os recursos de geração de código do sistema, e é aí que entra o CriticGPT.

“Treinamos um modelo, baseado no GPT-4, chamado CriticGPT, para detectar erros na saída do código do ChatGPT”, explicou a empresa em um postagem no weblog quinta-feira. “Descobrimos que quando as pessoas recebem ajuda do CriticGPT para revisar o código do ChatGPT, elas superam aquelas sem ajuda em 60 por cento das vezes.”

Além do mais, a empresa divulgou um white paper sobre o assunto, intitulado “Os críticos do LLM ajudam a detectar bugs do LLM,” que descobriu que “os LLMs detectam substancialmente mais bugs inseridos do que humanos qualificados pagos pela revisão de código e, além disso, que as críticas de modelo são preferidas às críticas humanas em mais de 80% das vezes”.

Curiosamente, o estudo também descobriu que quando os humanos colaboravam com o CriticGPT, a taxa de respostas alucinantes da IA ​​period menor do que quando o CriticGPT fazia o trabalho sozinho, mas essa taxa de alucinação ainda period maior do que se um humano fizesse o trabalho sozinho.






Fonte