11 de abril de 2025

Large Language Models

Large Language Models (LLMs), ou Modelos de Linguagem de Grande Escala, são modelos de inteligência artificial treinados com enormes quantidades de texto para entender, gerar e manipular linguagem humana de forma sofisticada. Eles são um tipo específico de modelo de aprendizado profundo, geralmente baseados em arquiteturas como o Transformers.

Esses modelos conseguem realizar tarefas como:

Responder perguntas
Traduzir textos
Resumir conteúdos
Escrever textos criativos ou técnicos
Corrigir gramática
Fazer análises semânticas ou sentimentais
Ajudar em programação, como o GitHub Copilot

Exemplos de LLMs incluem (em abril de 2025):

GPT-3, GPT-4 (OpenAI)
Claude (Anthropic)
Gemini (Google)
LLaMA (Meta)

Esses modelos são chamados “large”, porque possuem:

Bilhões de parâmetros (as “configurações internas” do modelo que ajustam como ele interpreta linguagem);
Dados massivos de treinamento;
Grande capacidade de generalização para diferentes tarefas de linguagem.

Os (LLMs) aceitam como entrada um prompt de texto fornecido por um usuário. Em seguida, geram o texto de saída, palavra por palavra (token por token), usando o prompt e todas as palavras geradas anteriormente como guia. O objetivo original de design dos LLMs era ser excelentemente bom em predizer a próxima palavra em uma sequência de palavras, iniciada pelo prompt de entrada. Contudo, enquanto aprendiam a expertise de gerar textos, os LLMs também aprenderam a responder perguntas, raciocínio matemático, programação de computadores de alta qualidade e raciocínio lógico.

Os large language models usam uma classe nova de rede neural, a transformer. A arquitetura da transformer apareceu nas publicações acadêmicas especializadas em 2017, no artigo “Attention Is All You Need, dos pesquisadores da Google Ashish Vaswani et al.

Tradicionalmente, os modelos que processam sequências (sentenças) usavam redes neurais recorrentes, que retornam sua saída como entrada com a próxima entrada da sequência. Trata-se do modelo lógico para processamento de texto, já que a rede pode incorporar a noção de memória por meio da saída realimentada com o próximo token. Mas as redes recorrentes têm memórias pequenas e são difíceis de treinar, limitando sua aplicabilidade. As redes transformers utilizam uma abordagem diferente: aceitam toda a entrada de uma só vez e a processam em paralelo.

As redes transformers incluem um encoder e um decoder. O encoder aprende representações e associações entre as partes da entrada (sentenças), enquanto o decoder usa as associações aprendidas a fim de gerar a saída (mais sentenças).

Os large language models como GPT eliminam a necessidade do encoder e, em vez disso, aprendem a representação necessária de modo não supervisionado, usando um conjunto gigantesco de dados de texto. Após o pré-treinamento, a parte decoder do modelo da transformer gera texto em resposta ao prompt de entrada.

A entrada para um modelo como o GPT-4 é uma sequência de texto composta de palavras. O modelo divide essa sequência em unidades chamadas de tokens. Um token pode ser uma palavra, parte de uma palavra ou até mesmo um caractere. O pré-treinamento tem como intuito mapear tokens para um espaço multidimensional de embedding, o que é feito associando cada token a um vetor que pode ser considerado um ponto nesse espaço.

O mapeamento aprendido de tokens para vetores captura relacionamentos complexos entre os tokens, de forma que tokens com significados parecidos estejam mais próximos uns dos outros do que aqueles com significados distintos.

A codificação de contexto é aprendida durante o pré-treinamento, obrigando o modelo a predizer o próximo token, considerando todos os tokens anteriores em uma entrada. Se a entrada for “as rosas são vermelhas”, durante o processo de pré-treinamento, o modelo será solicitado a predizer o próximo token após “as rosas são”. Se este token não for “vermelhas”, o modelo usará a função de perda e a retropropagação a fim de atualizar seus pesos, fornecendo, assim, um passo do gradiente descendente após a média adequada do erro em um minilote. Apesar de todas as capacidades, os large language models são treinados da mesma forma que outras redes neurais.

O pré-treinamento possibilita que o modelo aprenda a linguagem, incluindo gramática e sintaxe, e, ao que parece, adquira conhecimento suficiente sobre o mundo a fim de viabilizar as capacidades emergentes que observamos atualmente.

A etapa do decoder recebe o prompt de entrada e gera o token de saída após cada token de saída até que um token de parada (stop token) único seja gerado. Visto que grande parte da linguagem e de como o mundo funciona foi aprendida durante o pré-treinamento, o efeito colateral da etapa de decoder gera saídas extraordinárias, mesmo que, no final das contas, o decoder esteja somente predizendo o token mais provável após o token mais provável.

Durante o processo de predição, os modelos do tipo GPT utilizam a atenção para atribuir importância aos diferentes tokens na sequência de entrada, capturando, assim, os relacionamentos entre eles. É a principal diferença entre um modelo de transformer e as redes neurais recorrentes mais antigas. A transformer consegue prestar atenção a diferentes partes da sequência de entrada, e isso possibilita que identifique e use os relacionamentos entre os tokens, mesmo que, na entrada, estejam distantes uns dos outros.

Quando usados no modo chat, os LLMs criam a ilusão de uma discussão interativa, quando, na realidade, cada prompt novo do usuário é passado para o modelo com todo o texto anterior. Os modelos de transformers têm uma largura de entrada fixa (janela de contexto). A janela grande de entrada possibilita que a parte da atenção do modelo retome elementos que surgiram no início da entrada, algo que modelos recorrentes não conseguem fazer.

Large language models podem ser usados imediatamente após pré-treinamento, mas diversas aplicações os ajustam com dados específicos de domínio. Para modelos genéricos como o GPT-4, o ajuste fino provavelmente é em uma etapa conhecida como aprendizado por reforço a partir de feedback humano (RLHF). No RLHF, o modelo é treinado ainda mais com feedback de seres humanos para alinhar suas respostas aos valores humanos e às expectativas da sociedade.

Uma das propriedades dos LLMs é sua capacidade de aprendizado de contexto. O aprendizado de contexto diz respeito ao modelo que aprende dinamicamente a partir das informações que lhe são fornecidas, sem modificar seus pesos. O aprendizado de contexto é diferente do ajuste fino de um modelo. No ajuste fino, um modelo previamente treinado é adaptado a uma tarefa, atualizando os pesos com dados novos de treinamento. O aprendizado de contexto adiciona informações novas ao LLM como parte do prompt, enquanto mantém fixos os pesos do modelo.

Estudar LLMs nos apresenta a conceitos como “zero-shot”, “one-shot” e “few-shot”, e cada uma delas se refere ao aprendizado de contexto pelo número de exemplos fornecidos ao modelo. Os conjuntos de treinamento tradicionais têm de centenas a milhões de exemplos. O aprendizado de contexto está mais próximo do que os humanos fazem: aprender a partir do contexto com, no máximo, alguns exemplos.

O aprendizado zero-shot é usar o LLM sem fornecer exemplos. O aprendizado one-shot usa um único exemplo e o aprendizado few-shot usa alguns (como, de três a cinco).

O mecanismo de atenção incorporado à arquitetura de rede da transformer é a fonte provável da capacidade do aprendizado de contexto de um LLM. Além disso, o mecanismo de atenção possibilita que a rede foque diferentes tokens de entrada ao decidir qual será o próximo token de saída. Isso é provável, porque não temos total clareza de como os LLMs executam o aprendizado de contexto.

Aprender o melhor próximo token possível a fim de amostrar e de gerar exigiu evolução de habilidades vinculadas ao mecanismo de atenção do modelo e às redes neurais feedforward incorporadas. Foi um feliz acaso que a arquitetura das transformers tenha desenvolvido essas habilidades. E isso sugere que podemos esperar coisas maiores à medida que surgem arquitetura de transformers mais avançadas: arquiteturas desenvolvidas para aumentar o pode das capacidades emergentes dos LLMs.

Referências

Kneusel, Ronald T.. Como a Inteligência Artificial Funciona: Da Magia à Ciência

Large Language Models

Referências

Comments

Comments (0)

Deixe um comentário Cancelar resposta