13 de abril de 2025

Compreendendo Modelos de Fundamento – Parte 2

Seguimos compreendendo os modelos de fundamento, retomando esse assunto a partir da etapa de pós-treinamento.

Pós-Treinamento

O pós-treinamento começa com um modelo pré-treinado. Digamos que você pré-treinou um modelo base usando auto-supervisão. Devido ao funcionamento atual do pré-treinamento, um modelo pré-treinado normalmente apresenta dois problemas. Primeiro, a auto-supervisão otimiza o modelo para a conclusão de texto, não para conversas. Segundo, se o modelo for pré-treinado com dados coletados indiscriminadamente da internet, seus resultados podem ser racistas, sexistas, grosseiros ou simplesmente incorretos. O objetivo do pós-treinamento é abordar ambos os problemas.

O pós-treinamento de cada modelo é diferente. No entanto, em geral, o pós-treinamento consiste em duas etapas:

Ajuste Fino Supervisionado (SFT): Ajuste fino do modelo pré-treinado com dados de instruções de alta qualidade para otimizar modelos para conversas em vez de conclusão.
Ajuste fino de preferência: Ajusta ainda mais o modelo para gerar respostas alinhadas à preferência humana. O ajuste fino de preferência normalmente é feito com aprendizado por reforço (RL).

Para modelos de base baseados em linguagem, o pré-treinamento otimiza a qualidade em nível de token, onde o modelo é treinado para prever o próximo token com precisão. No entanto, os usuários não se importam com a qualidade em nível de token; eles se importam com a qualidade de toda a resposta. O pós-treinamento, em geral, otimiza o modelo para gerar as respostas que os usuários preferem. Algumas pessoas comparam o pré-treinamento à leitura para adquirir conhecimento, enquanto o pós-treinamento é como aprender a usar esse conhecimento.

Ajuste fino supervisionado

O modelo pré-treinado provavelmente é otimizado para conclusão em vez de conversação. Se você inserir “Como fazer pizza” no modelo, ele continuará completando esta frase, pois o modelo não tem a noção de que isso deve ser uma conversação (ele não sabe que deveria lhe dar uma resposta).

Sabemos que um modelo imita seus dados de treinamento. Para incentivar um modelo a gerar as respostas apropriadas, você pode mostrar exemplos de respostas apropriadas.

Como diferentes tipos de solicitações exigem diferentes tipos de respostas, seus dados de demonstração devem conter a gama de solicitações que você deseja que seu modelo lide, como respostas a perguntas, resumos e traduções.

Bons rotuladores são importantes para que as IAs aprendam a conduzir conversas inteligentes. Dados de demonstração podem conter prompts complexos cujas respostas exigem pensamento crítico, coleta de informações e julgamento sobre a adequação das solicitações do usuário.

As empresas frequentemente utilizam rotuladores altamente qualificados para gerar dados de demonstração. Para reduzir sua dependência de dados anotados por humanos de alta qualidade, muitas equipes estão recorrendo a dados gerados por IA.

Ajuste Fino de Preferências

O medo de que modelos de IA gerem respostas inadequadas pode impedir as empresas de lançar seus aplicativos para os usuários. O objetivo do ajuste fino de preferências é fazer com que os modelos de IA se comportem de acordo com a preferência humana.

O algoritmo de ajuste fino de preferências mais antigo e bem-sucedido, que ainda é popular hoje, é o RLHF. O RLHF consiste em duas partes:

Treinar um modelo de recompensa que pontua as saídas do modelo base.
Otimizar o modelo de base para gerar respostas para as quais o modelo de recompensa dará as pontuações máximas.

Embora o RLHF ainda seja utilizado atualmente, abordagens mais recentes, como o DPO, estão ganhando força.

Modelo de Recompensa

A RLHF baseia-se em um modelo de recompensa. Dado um par de (prompt, resposta), o modelo de recompensa emite uma pontuação que define a qualidade da resposta. Treinar um modelo para pontuar uma determinada entrada é uma tarefa comum de ML. O desafio, semelhante ao da SFT (ajuste fino supervisionado), é obter dados confiáveis. Se pedirmos aos rotuladores que pontuem cada resposta diretamente, as pontuações variam. Para a mesma amostra, em uma escala de 10 pontos, um rotulador pode dar 5 e outro 7. Mesmo o mesmo rotulador, dado o mesmo par de (prompt, resposta) duas vezes, pode dar pontuações diferentes. Avaliar cada amostra independentemente também é chamado de avaliação pontual. Uma tarefa mais fácil é pedir aos rotuladores que comparem duas respostas e decidam qual é a melhor. Para cada prompt, múltiplas respostas são geradas por humanos ou IA.

Tendo apenas dados de comparação, como treinamos o modelo para fornecer pontuações concretas? Semelhante a como você pode fazer humanos fazerem basicamente qualquer coisa com o incentivo certo, você pode fazer um modelo fazer isso com a função objetivo correta. Uma função comumente usada representa a diferença nas pontuações de saída para as respostas vencedora e perdedora. O objetivo é maximizar essa diferença.

Em nosso próximo artigo, abordaremos o aspecto de amostragem (sampling) dos modelos de fundamento. Até lá!

Compreendendo Modelos de Fundamento – Parte 2

Pós-Treinamento

Ajuste fino supervisionado

Ajuste Fino de Preferências

Modelo de Recompensa

Referências

Comments

Comments (0)

Deixe um comentário Cancelar resposta