Est-il urgent d'étiqueter manuellement les données ?
La nouvelle méthode de Mata construit un modèle de langage de ** suivi d'instructions ** (suivi d'instructions) de haute qualité avec seulement une petite quantité de données de départ.
En d'autres termes, les grands modèles de langage nécessitent une grande quantité de données d'instructions étiquetées par l'homme pour un réglage fin, mais maintenant le modèle peut déduire automatiquement des instructions à partir de texte non étiqueté dans des corpus Web.
Utilisez ensuite les données d'instruction générées par vous-même pour la formation, ce qui est comparable à l'auto-production et à la vente.
Et le modèle formé par cette méthode surpasse l'alpaca open source et sa série de modèles dérivés sur le test de référence Alpaca.
LeCun a tweeté que l'étude était sensationnelle en termes d'auto-alignement du modèle :
Pour résumer en une phrase d'un internaute :
L'alpaga a commencé à s'entraîner.
Les deux phrases résument ainsi :
Instruction requise à l'origine> jeu de données de réponse (nécessite un étiquetage manuel), il suffit maintenant de former simplement un "modèle inverse" pour la réponse> instruction. Tout texte peut être librement converti en un jeu de données d'instructions.
Un autre internaute a publié une torture de l'âme :
Suis-je le seul à penser que cela ressemble à la voie vers la superintelligence ? Si vous pouvez obtenir des LLM qui deviennent de plus en plus intelligents sans données externes supplémentaires de haute qualité, il s'agit alors d'un système fermé auto-améliorant.
Peut-être qu'un système d'apprentissage par renforcement est nécessaire pour fournir le signal, puis les propres itérations du LLM peuvent faire le reste.
Alpaca : j'ai utilisé des données pour entraîner une baleine
Cette nouvelle méthode évolutive s'appelle Instruction Back Translation, et Mata a nommé le modèle formé par cette méthode-Humpback (baleine à bosse, également connue sous le nom de baleine à bosse).
(Les chercheurs ont dit que le nom a été donné en raison de sa relation avec le dos du chameau, et la plus grande taille de la baleine correspond à une plus grande échelle du modèle)
L'étape de formation d'un Humpback consiste simplement à commencer avec une petite quantité de données étiquetées, à utiliser le modèle de langage pour générer des instructions correspondant à du texte non étiqueté et à former des données de formation candidates. Utilisez ensuite le modèle pour évaluer la qualité des données et sélectionner des données de haute qualité pour le recyclage. Le processus est ensuite répété pour améliorer encore le modèle.
Comme le montre la figure ci-dessus, les "matériels" qui doivent être préparés sont :
Un modèle de base - LLaMa
Une donnée de départ (Seed Data) composée de 3200 exemples de l'ensemble de données Open Assistant, chaque exemple comprend une instruction et la sortie correspondante.
Du corpus ClueWeb, 502 000 textes non étiquetés (données non étiquetées) qui ont été dédupliqués, filtrés et les paragraphes potentiellement de mauvaise qualité ont été supprimés.
Les exemples étiquetés et les sources de corpus sont disponibles, et la prochaine étape est l'étape Auto-augmentation.
Les chercheurs ont affiné le modèle de base LLaMa avec les données de base pour obtenir le modèle de prédiction d'instruction. Ce modèle de prédiction d'instruction est ensuite utilisé pour déduire une instruction candidate pour le texte non étiqueté. Combinez ensuite l'instruction candidate et le texte (paire instruction-sortie) en tant que données d'entraînement améliorées candidates, qui sont les données augmentées A dans la figure ci-dessus.
Cependant, il n'est pas possible d'utiliser les données de A pour un apprentissage direct, car la qualité du texte non étiqueté lui-même est inégale et les instructions candidates générées ont également du bruit.
Les étapes clés d'Auto-conservation sont donc nécessaires, en utilisant le modèle pour prédire la qualité des données et en sélectionnant des échantillons de haute qualité pour la formation.
Plus précisément, les chercheurs ont noté les données candidates à l'aide d'un modèle d'instruction affiné uniquement sur les données de départ. Le score total est de cinq points, et ceux qui obtiennent des scores plus élevés seront sélectionnés comme données candidates pour le tour suivant.
Afin d'améliorer la qualité de la prédiction des instructions du modèle, les chercheurs ont formé le modèle avec des données candidates ** itératives **, et dans la formation itérative, la qualité des données s'améliorera de plus en plus.
De plus, lorsqu'ils combinent des données de départ et des données d'augmentation pour affiner le modèle, ils utilisent également différentes balises système pour faire la distinction entre ces deux sources de données :
Conseils d'utilisation des données de départ "Répondez à la manière d'un assistant IA."
Filtrez les données à l'aide de l'invite "Répondez avec les connaissances de la recherche sur le Web".
Après deux itérations, le modèle final sort du four.
Fusionnez deux types de données d'entraînement : 1+1>2
Jetons un coup d'œil aux résultats de l'analyse des chercheurs :
** **###### △ Diversité d'instructions pour les données de départ et les données améliorées. Le cercle intérieur est le verbe racine commun et le cercle extérieur est le nom commun qui lui correspond.
La figure ci-dessus montre la diversité des instructions avec 8 % de données de départ et 13 % de statistiques de données améliorées.
On peut voir intuitivement que la diversité des données améliorées est plus forte dans la partie longue queue, et les données améliorées complètent les données de semences étiquetées artificiellement existantes, complétant les types qui n'apparaissent pas dans les données de semences.
Deuxièmement, les chercheurs ont comparé trois ensembles de données augmentées : données augmentées, toutes (pas d'autogestion),
, moins de données mais une meilleure qualité
Des expériences ont observé que bien que l'ensemble de données devienne plus petit, les performances du modèle ont également été améliorées avec l'amélioration de la qualité des données d'apprentissage.
** **###### △ Utilisez l'auto-filtrage pour évaluer les données d'auto-augmentation de différentes tailles et qualités de données. L'axe des ordonnées représente le taux de réussite avec text-davinci-003 lors du réglage fin de LLaMa 7B avec une taille et une qualité de données données.
(text-davinci-003, un modèle de suivi d'instruction basé sur GPT-3 affiné sur les données d'instruction écrites par l'homme, les sorties, les réponses du modèle et les préférences humaines à l'aide de l'apprentissage par renforcement)
Enfin, jetons un coup d'œil aux résultats du classement Alpaca. Humpback surpasse de manière significative les autres méthodes sans s'appuyer sur des données distillées et comble l'écart avec les modèles propriétaires.
Non distillé (non distillé), fait référence à un modèle de formation qui ne s'appuie sur aucun modèle externe comme toute forme de supervision ; distillé (distillé), fait référence à l'introduction d'un modèle externe plus puissant pendant le processus de formation, tel que utilisant des données distillées à partir d'un modèle externe ; Propriétaire fait référence à des modèles formés à l'aide de données et de techniques propriétaires.
** **###### △ Comparé au taux de réussite de text-davinci-003
En comparaison avec les modèles open source LIMA 65B, Guanaco 65B, Falcon-Instruct 40B et les modèles propriétaires davinci-003, Claude, les performances de Humpback sont également plus conformes aux préférences humaines.
De plus, les chercheurs ont noté les limites de la méthode :
Étant donné que les données textuelles utilisées pour la formation proviennent de corpus Web, le modèle affiné peut amplifier le biais des données Web. Bien que comparé au modèle de base, le modèle affiné améliore la précision de la détection des biais. Cependant, cela ne signifie pas que le problème sera complètement résolu.
Portail : lien papier)
Lien de référence :
[1]
[2]
[3]
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
Vaincre toute la famille des alpagas, la nouvelle méthode d'auto-alignement Meta AI nécessite très peu de données d'étiquetage manuelles
Source originale : Qubit
Est-il urgent d'étiqueter manuellement les données ?
La nouvelle méthode de Mata construit un modèle de langage de ** suivi d'instructions ** (suivi d'instructions) de haute qualité avec seulement une petite quantité de données de départ.
En d'autres termes, les grands modèles de langage nécessitent une grande quantité de données d'instructions étiquetées par l'homme pour un réglage fin, mais maintenant le modèle peut déduire automatiquement des instructions à partir de texte non étiqueté dans des corpus Web.
Utilisez ensuite les données d'instruction générées par vous-même pour la formation, ce qui est comparable à l'auto-production et à la vente.
Et le modèle formé par cette méthode surpasse l'alpaca open source et sa série de modèles dérivés sur le test de référence Alpaca.
LeCun a tweeté que l'étude était sensationnelle en termes d'auto-alignement du modèle :
Alpaca : j'ai utilisé des données pour entraîner une baleine
Cette nouvelle méthode évolutive s'appelle Instruction Back Translation, et Mata a nommé le modèle formé par cette méthode-Humpback (baleine à bosse, également connue sous le nom de baleine à bosse).
(Les chercheurs ont dit que le nom a été donné en raison de sa relation avec le dos du chameau, et la plus grande taille de la baleine correspond à une plus grande échelle du modèle)
Les exemples étiquetés et les sources de corpus sont disponibles, et la prochaine étape est l'étape Auto-augmentation.
Les chercheurs ont affiné le modèle de base LLaMa avec les données de base pour obtenir le modèle de prédiction d'instruction. Ce modèle de prédiction d'instruction est ensuite utilisé pour déduire une instruction candidate pour le texte non étiqueté. Combinez ensuite l'instruction candidate et le texte (paire instruction-sortie) en tant que données d'entraînement améliorées candidates, qui sont les données augmentées A dans la figure ci-dessus.
Cependant, il n'est pas possible d'utiliser les données de A pour un apprentissage direct, car la qualité du texte non étiqueté lui-même est inégale et les instructions candidates générées ont également du bruit.
Les étapes clés d'Auto-conservation sont donc nécessaires, en utilisant le modèle pour prédire la qualité des données et en sélectionnant des échantillons de haute qualité pour la formation.
Afin d'améliorer la qualité de la prédiction des instructions du modèle, les chercheurs ont formé le modèle avec des données candidates ** itératives **, et dans la formation itérative, la qualité des données s'améliorera de plus en plus.
De plus, lorsqu'ils combinent des données de départ et des données d'augmentation pour affiner le modèle, ils utilisent également différentes balises système pour faire la distinction entre ces deux sources de données :
Après deux itérations, le modèle final sort du four.
Fusionnez deux types de données d'entraînement : 1+1>2
Jetons un coup d'œil aux résultats de l'analyse des chercheurs :
**
**###### △ Diversité d'instructions pour les données de départ et les données améliorées. Le cercle intérieur est le verbe racine commun et le cercle extérieur est le nom commun qui lui correspond.
La figure ci-dessus montre la diversité des instructions avec 8 % de données de départ et 13 % de statistiques de données améliorées.
On peut voir intuitivement que la diversité des données améliorées est plus forte dans la partie longue queue, et les données améliorées complètent les données de semences étiquetées artificiellement existantes, complétant les types qui n'apparaissent pas dans les données de semences.
Deuxièmement, les chercheurs ont comparé trois ensembles de données augmentées : données augmentées, toutes (pas d'autogestion),
**
**###### △ Utilisez l'auto-filtrage pour évaluer les données d'auto-augmentation de différentes tailles et qualités de données. L'axe des ordonnées représente le taux de réussite avec text-davinci-003 lors du réglage fin de LLaMa 7B avec une taille et une qualité de données données.
(text-davinci-003, un modèle de suivi d'instruction basé sur GPT-3 affiné sur les données d'instruction écrites par l'homme, les sorties, les réponses du modèle et les préférences humaines à l'aide de l'apprentissage par renforcement)
Enfin, jetons un coup d'œil aux résultats du classement Alpaca. Humpback surpasse de manière significative les autres méthodes sans s'appuyer sur des données distillées et comble l'écart avec les modèles propriétaires.
Non distillé (non distillé), fait référence à un modèle de formation qui ne s'appuie sur aucun modèle externe comme toute forme de supervision ; distillé (distillé), fait référence à l'introduction d'un modèle externe plus puissant pendant le processus de formation, tel que utilisant des données distillées à partir d'un modèle externe ; Propriétaire fait référence à des modèles formés à l'aide de données et de techniques propriétaires.
**
**###### △ Comparé au taux de réussite de text-davinci-003
En comparaison avec les modèles open source LIMA 65B, Guanaco 65B, Falcon-Instruct 40B et les modèles propriétaires davinci-003, Claude, les performances de Humpback sont également plus conformes aux préférences humaines.
Étant donné que les données textuelles utilisées pour la formation proviennent de corpus Web, le modèle affiné peut amplifier le biais des données Web. Bien que comparé au modèle de base, le modèle affiné améliore la précision de la détection des biais. Cependant, cela ne signifie pas que le problème sera complètement résolu.
Portail : lien papier)
Lien de référence : [1] [2] [3]