tecnologia

OpenAI quer usar IA para ajudar humanos que treinam IA

Creditos: TecnoBlog

A
OpenAI apresentou um novo modelo de inteligência artificial chamado CriticGPT, que é baseado no GPT-4 e tem a capacidade de revisar e identificar erros em códigos gerados pelo ChatGPT. Este novo modelo usa uma técnica de aprendizado por reforço com feedback humano (RLHF) para aperfeiçoar os modelos de IA. Os humanos avaliam as respostas dadas pelos modelos de IA e usam essas avaliações para melhorar os modelos.

    O CriticGPT ajuda os treinadores humanos a encontrar e explicar erros nos códigos gerados pelo ChatGPT. Quando o ChatGPT gera um código, os treinadores humanos revisam a resposta e apontam os erros para que o modelo "apenda" o que fazer. No entanto, os humanos também podem errar e não perceber o que está incorreto em uma resposta.

    O CriticGPT ajuda neste aspecto, encontrando erros nos códigos gerados pelo ChatGPT e escrevendo uma crítica explicando o problema. Segundo a OpenAI, os treinadores de IA preferiram as críticas feitas pelo CriticGPT em 60% dos casos em comparação com críticas feitas apenas por humanos. A empresa afirma que a "parceria" resulta em avaliações mais compreensivas dos que as feitas apenas por humanos e em menos alucinações que as feitas apenas pela IA.

    O próprio CriticGPT foi desenvolvido usando RLHF. Os treinadores de IA colocaram manualmente erros em códigos criados pelo ChatGPT e escreveram avaliações explicando os problemas, como se tivessem sido descobertos por eles. Eles então verificavam várias avaliações feitas pelo CriticGPT e escolhiam a melhor como forma de reforçar para o modelo o que ele deveria fazer.

    O CriticGPT ajuda a identificar erros em códigos gerados pelo ChatGPT, mas também pode cometer erros e alucinar, levando os treinadores a cometer erros. Além disso, o modelo foi treinado com respostas curtas e códigos com apenas um erro — para tarefas mais complexas, novos métodos serão necessários.

    Apesar das vantagens, o CriticGPT não é perfeito e pode cometer erros e alucinações. A OpenAI admite que ele também pode alucinar, levando os treinadores a cometer erros. Além disso, o modelo foi treinado com respostas curtas e códigos com apenas um erro — para tarefas mais complexas, novos métodos serão necessários.

Ver notícia completa...