Derrotando toda a família da alpaca, o novo método de auto-alinhamento Meta AI requer muito poucos dados de rotulagem manual

Fonte original: Qubit

É urgente rotular dados manualmente?

O novo método de Mata cria um modelo de linguagem instruction following (seguimento de instrução) de alta qualidade com apenas uma pequena quantidade de dados iniciais.

Em outras palavras, grandes modelos de linguagem requerem uma grande quantidade de dados de instrução rotulados por humanos para ajuste fino, mas agora o modelo pode inferir automaticamente instruções de texto não rotulado em corpora da web.

Em seguida, use os dados de instrução gerados por você para treinamento, que são comparáveis aos autoproduzidos e vendidos.

E o modelo treinado por este método supera a alpaca de código aberto e sua série de modelos derivados no teste de benchmark Alpaca.

LeCun twittou que o estudo foi sensacional em termos de auto-alinhamento do modelo:

Resumindo em uma frase de um internauta:

A alpaca começou a treinar sozinha.

As duas frases resumem assim:

Instrução originalmente necessária>conjunto de dados de resposta (requer rotulagem manual), agora é necessário apenas treinar um "modelo reverso" para resposta>instrução. Qualquer texto pode ser convertido livremente em um conjunto de dados de instrução.

Outro internauta emitiu uma tortura para a alma:

Sou o único que acha que esse parece ser o caminho para a superinteligência? Se você pode obter LLMs cada vez mais inteligentes sem dados externos adicionais de alta qualidade, esse é um sistema fechado de autoaperfeiçoamento. Talvez seja necessário apenas um sistema de aprendizado por reforço para fornecer o sinal e, em seguida, as próprias iterações do LLM podem fazer o resto.

Alpaca: usei dados para treinar uma baleia

Este novo método escalável é chamado Instruction Back Translation, e Mata nomeou o modelo treinado por este método de Humpback (baleia jubarte, também conhecida como baleia jubarte).

(Os pesquisadores disseram que o nome foi dado por causa de sua relação com o dorso do camelo, e o tamanho maior da baleia corresponde a uma escala maior do modelo)

A etapa de treinamento de um Humpback é simplesmente começar com uma pequena quantidade de dados rotulados e usar o modelo de linguagem para gerar instruções correspondentes ao texto não rotulado para formar dados de treinamento candidatos. Em seguida, use o modelo para avaliar a qualidade dos dados e selecionar dados de alta qualidade para retreinamento. O processo é então repetido para melhorar ainda mais o modelo.

Como mostra a figura acima, os "materiais" que precisam ser preparados são:

  • Um modelo básico - LLaMa
  • Um dado semente (Seed Data) composto de 3200 exemplos do conjunto de dados Open Assistant, cada exemplo inclui uma instrução e a saída correspondente.
  • Do corpus ClueWeb, 502K de textos não rotulados (dados não rotulados) que foram desduplicados, filtrados e parágrafos potencialmente de baixa qualidade foram excluídos.

Os exemplos rotulados e as fontes do corpus estão disponíveis, e a próxima etapa é o estágio de auto-aumento.

Os pesquisadores ajustaram o modelo básico LLaMa com os dados iniciais para obter o modelo de previsão de instrução. Esse modelo de previsão de instrução é então usado para inferir uma instrução candidata para o texto não rotulado. Em seguida, combine a instrução candidata e o texto (par instrução-saída) como um candidato dados de treinamento aprimorados, que são os dados aumentados A na figura acima.

No entanto, não é possível usar os dados de A para treinamento direto, porque a qualidade do próprio texto não rotulado é desigual e as instruções candidatas geradas também apresentam ruído.

Portanto, são necessárias as principais etapas de Autocura, usando o modelo para prever a qualidade dos dados e selecionar amostras de alta qualidade para treinamento.

Especificamente, os pesquisadores pontuaram os dados dos candidatos usando um modelo de instrução ajustado apenas nos dados iniciais. A pontuação total é de cinco pontos, e os que obtiverem maior pontuação serão selecionados como dados de candidatos para a próxima fase.

Para melhorar a qualidade da previsão da instrução do modelo, os pesquisadores treinaram o modelo com dados candidatos iterativos e, no treinamento iterativo, a qualidade dos dados ficará cada vez melhor.

Além disso, ao combinar dados de semente e dados de aumento para ajustar o modelo, eles também usam diferentes tags de dica do sistema para distinguir entre essas duas fontes de dados:

  • Dicas de uso de dados iniciais "Responda no estilo de um assistente de IA."
  • Filtre os dados usando o prompt "Responda com conhecimento da pesquisa na web".

Após duas iterações, o modelo final acaba de sair do forno.

Mescle dois tipos de dados de treinamento: 1+1>2

Vamos dar uma olhada nos resultados da análise dos pesquisadores:

** **###### Diversidade de instruções para dados iniciais e dados aprimorados. O círculo interno é o verbo raiz comum e o círculo externo é o substantivo comum que corresponde a ele.

A figura acima mostra a diversidade de instruções com 8% de dados iniciais e 13% de estatísticas de dados aprimoradas.

Pode ser visto intuitivamente que a diversidade de dados aprimorada é mais forte na parte da cauda longa, e os dados aprimorados complementam os dados de sementes rotulados artificialmente existentes, complementando os tipos que não aparecem nos dados de sementes.

Em segundo lugar, os pesquisadores compararam três conjuntos de dados aumentados: dados aumentados, todos (sem autogerenciamento),

, menos dados, mas maior qualidade

Experimentos observaram que, embora o conjunto de dados fique menor, o desempenho do modelo também foi melhorado com a melhoria da qualidade dos dados de treinamento.

** **###### Use a autofiltragem para avaliar os dados de autoaumento de diferentes tamanhos e qualidades de dados. O eixo y representa a taxa de ganho com text-davinci-003 ao ajustar o LLaMa 7B com um determinado tamanho e qualidade de dados.

(text-davinci-003, uma instrução baseada em GPT-3 seguindo o modelo ajustado em dados de instruções escritas por humanos, saídas, respostas de modelo e preferências humanas usando aprendizado por reforço)

Finalmente, vamos dar uma olhada nos resultados da tabela de classificação da Alpaca. O Humpback supera significativamente outros métodos sem depender de dados destilados e fecha a lacuna com modelos proprietários.

Non-distilled (Não destilado), refere-se a um modelo de treinamento que não depende de nenhum modelo externo como forma de supervisão; Destilled (Destilado), refere-se à introdução de um modelo externo mais poderoso durante o processo de treinamento, como usando dados destilados de um modelo externo; Proprietário refere-se a modelos treinados usando dados e técnicas proprietárias.

** **###### Comparado com a taxa de vitórias de text-davinci-003

Em comparação com os modelos de código aberto LIMA 65B, Guanaco 65B, Falcon-Instruct 40B e modelos proprietários davinci-003, Claude, o desempenho do Humpback também está mais de acordo com as preferências humanas.

Além disso, os pesquisadores observaram limitações do método:

Como os dados de texto usados para treinamento vêm de corpora da web, o modelo ajustado pode amplificar o viés dos dados da web. Embora comparado ao modelo base, o modelo ajustado melhora a precisão da detecção de viés. No entanto, isso não significa que o problema será completamente resolvido.

Portal: link em papel)

Link de referência: [1] [2] [3]

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)