25 de junho de 2025

Engenharia de Dados – Parte 3

Processamento de dados

Inspecionar dados

Digamos que, depois de vasculhar dados públicos e internos, você reuniu um conjunto de dados bruto. A primeira coisa a fazer é inspecionar os dados para obter uma sensação de sua qualidade. Obtenha as informações e estatísticas dos dados.

Plote a distribuição dos tokens (para ver quais tokens são comuns), comprimentos de entrada, comprimentos de resposta etc. Os dados usam algum tokens especial?

Você pode obter uma distribuição dos tópicos e idiomas nos dados? Quão relevantes são esses tópicos e idiomas para sua tarefa?

Plote essas distribuições por fonte de dados, tempo, anotador, etc. Você percebe quaisquer padrões de perguntas que tendem a obter respostas mais longas / mais curtas ou pontuações mais altas / mais baixas? Existem outliers? Qual pode ser a causa desses outliers? O que fazer com eles?

Existem muitas ferramentas de exploração de dados que você deve usar, mas não serão substituições para inspeção de dados manuais.

Analise seus dados para ver se os exemplos fazem sentido. Se forem dados anotados, escolha algumas consultas e tente anotá-las para ver se suas anotações correspondem às anotações fornecidas. Isso lhe dará uma noção de quão confiáveis são as anotações. Verifique as respostas. Quão únicos são os exemplos? Existem exemplos com a mesma consulta, mas com respostas diferentes? Existem exemplos com as mesmas respostas, mas com consultas diferentes?

Dados deduplicados

Dados duplicados podem distorcer a distribuição de dados e introduzir vieses em seu modelo.

Vários estudos mostraram o impacto negativo das duplicações de dados de treinamento no desempenho do modelo.

Dependendo dos dados, existem muitas formas de duplicação, algumas das quais mais difíceis de detectar. Por exemplo, aqui estão alguns tipos de duplicações em um conjunto de dados de documentos:

Duplicações de documentos inteiros: o mesmo documento aparece mais de uma vez.
Duplicações intradocumento: por exemplo, o mesmo parágrafo aparece duas vezes em um documento.
Duplicações entre documentos: por exemplo, a mesma citação popular aparece em vários documentos.

A tarefa de deduplicação pode aproveitar as mesmas técnicas usadas para medições de similaridade já discutidas. A deduplicação de dados é também usada para resolução de identidade, determinando se duas identidades (por exemplo, dois perfis de mídia social) são os mesmos. Aqui estão algumas maneira concretas pelas quais você pode deduplicar os dados:

Comparação em pares: calcule a pontuação de similaridade de cada exemplo a todos os outros exemplos do conjunto de dados, usando correspondência exata, n-grama match, fuzzy match ou pontuação semântica de similaridade.
Hashing: Coloque os exemplos em grupos diferentes e verifique apenas entre os exemplos que estão no mesmo grupo.
Redução de dimensionalidade: use uma técnica de redução de dimensionalidade para primeiro reduzir as dimensões dos seus dados e depois fazer uma comparação em pares.

Limpar e filtrar dados

Os dados precisam ser limpos para garantir desempenho e segurança ao modelo. Primeiro, você pode querer remover tokens de formatação estranha.

Você precisa limpar seus dados de qualquer coisa que não seja compatível com suas políticas, como dados sensíveis, dados protegidos por direitos autorais ou dados que são considerados tóxicos.

Você também pode querer remover dados de baixa qualidade.

A inspeção manual dos dados é especialmente importante nesta etapa. Olhar para dados pode ajudá-lo a perceber padrões que você pode usar como heurística para
detectar dados de baixa qualidade.

Se houver mais dados do que você precisa ou pode usar (por exemplo, devido ao seu orçamento de computação), você poderá filtrar ainda mais seus dados. Por exemplo, você pode usar técnicas de aprendizado ativo para selecionar exemplos mais úteis para o seu modelo aprender.

Dados de formato

Depois de deduplicar e limpar seus dados, você precisa colocá-los no formato certo esperado pelo modelo que você está realizando o finetuning.

Se você estiver fazendo o finetuning supervisionado, seus dados provavelmente estarão no formato (instrução, resposta). As instruções podem ser mais decompostas em (prompt do sistema, prompt do usuário).

Diferentes formatos de dados do finetuning podem afetar o desempenho do seu modelo ajustado. Experimentos para determinar o melhor formato para você podem ser úteis.

Engenharia de Dados – Parte 3

Processamento de dados

Inspecionar dados

Dados deduplicados

Limpar e filtrar dados

Dados de formato

Referências

Comments

Comments (0)

Deixe um comentário Cancelar resposta