Des chercheurs de Stanford et de Google proposent DoReMi : un algorithme d'IA repondérant les domaines de données pour la formation de modèles de langage
Les ensembles de données sont souvent tirés de divers domaines lors de la formation de modèles de langage (LM). Par exemple, un important ensemble de données accessible au public appelé The Pile contient 24 % de données en ligne, 9 % Wikipedia, 4 % GitHub, etc. La composition des données de pré-formation a un impact significatif sur les performances d'un LM. Il doit être clair quelle quantité de chaque domaine doit être incluse pour créer un modèle qui excelle dans une gamme de tâches en aval. Les études existantes utilisent l'intuition ou une série de tâches en aval pour établir des pondérations de domaine ou des probabilités d'échantillonnage pour chaque domaine. Par exemple, The Pile utilise des pondérations de domaine sélectionnées de manière heuristique, ce qui peut ne pas être le meilleur choix.
Dans cette étude, des chercheurs de Google et de l'Université de Stanford tentent d'identifier les pondérations de domaine qui fournissent des modèles qui fonctionnent bien sur tous les domaines en minimisant la perte la plus défavorable sur les domaines plutôt qu'en optimisant les pondérations de domaine en fonction d'un ensemble de tâches en aval. Étant donné que chaque domaine a une perte optimale unique (également connue sous le nom d'entropie), une stratégie naïve du pire des cas donnerait plus de poids aux domaines avec les données les plus bruyantes. Cependant, la formation de milliers de LM sur divers poids de domaine et la possibilité de surajustement à un ensemble spécifique de tâches en aval sont impliquées avec les LM existants comme PaLM et GLaM, qui ajustent les poids de domaine en fonction d'un ensemble d'activités en aval.
Cela sert de moteur à leur technique, la repondération de domaine avec optimisation Minimax (DoReMi), qui utilise une optimisation distributionnellement robuste (DRO) pour ajuster les pondérations de domaine sans être conscient des tâches qui seront effectuées plus tard (Figure 1). DoReMi commence par former de manière conventionnelle un petit modèle de référence avec 280 millions de paramètres. Pour réduire la perte excédentaire dans le pire des cas (par rapport à la perte du modèle de référence), ils introduisent également un minuscule modèle de langage résistant à la distribution (DRO-LM). Notamment, ils utilisent les poids de domaine générés par la formation DRO plutôt que le LM robuste. Au lieu de créer un modèle robuste, leur stratégie utilise le cadre DRO-LM pour optimiser les pondérations de domaine. Un grand LM (8B) est ensuite formé sur un nouvel ensemble de données spécifié par ces pondérations de domaine.
Au lieu de sous-sélectionner des instances à partir d'un mini-lot, ils utilisent l'optimiseur basé sur l'apprentissage en ligne de Group DRO, qui modifie dynamiquement les pondérations de domaine en fonction de la perte sur chaque domaine pour redimensionner l'objectif de formation. DoReMi utilise ensuite les pondérations de domaine moyennées tout au long des étapes de formation DRO. Pour optimiser les pondérations de domaine sur The Pile et l'ensemble de données GLaM, ils exécutent DoReMi sur des modèles proxy et de référence 280M. Un LM de paramètre 8B qui est plus de 30 fois plus grand est formé en utilisant les poids de domaine DoReMi. Même lorsqu'un domaine est sous-pondéré, DoReMi réduit la perplexité sur The Pile dans tous les domaines par rapport aux poids de domaine de base.
Sur les tâches productives à quelques coups, DoReMi atteint la précision de référence en aval 2,6 fois plus rapidement qu'un modèle de référence formé sur les poids de domaine par défaut de The Pile, améliorant la précision moyenne en aval de 6,5 %. Ils libèrent les pondérations de domaine ajustées pour améliorer les futurs LM appris à l'aide de The Pile. Ils découvrent que DoReMi améliore constamment la formation LM lorsque les tailles du modèle principal formé avec des poids de domaine optimisés et le modèle proxy sont modifiés. DoReMi surpasse même le réglage du poids de domaine sur les performances des tâches en aval sur l'ensemble de données GLaM, où il est possible d'obtenir des poids de domaine réglés sur les tâches en aval.
VérifiezPapier.N'oubliez pas de rejoindrenotre sous-reddit 22k+ ML,Chaîne discorde, etCourriel , où nous partageons les dernières nouvelles sur la recherche en IA, des projets d'IA sympas, et plus encore. Si vous avez des questions concernant l'article ci-dessus ou si nous avons manqué quelque chose, n'hésitez pas à nous envoyer un courriel à[email protected]
🚀 Découvrez les outils d'intelligence artificielle de 100 dans AI Tools Club
Aneesh Tickoo est consultante stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l'Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l'apprentissage automatique. Son intérêt de recherche est le traitement d'images et est passionné par la construction de solutions autour de celui-ci. Il aime se connecter avec les gens et collaborer sur des projets intéressants.
Figure 1 : Papier. notre 22k+ ML SubReddit Discord Channel Email Newsletter [email protected] 🚀 Découvrez 100's AI Tools dans AI Tools Club