Révolutionner la reconstruction de scène avec pause

Les humains possèdent naturellement la capacité de décomposer des scènes complexes en éléments composants et de les imaginer dans divers scénarios. On pourrait facilement imaginer la même créature dans plusieurs attitudes et lieux ou imaginer le même bol dans un nouvel environnement, étant donné un instantané d'une œuvre d'art en céramique montrant une créature allongée sur un bol. Les modèles génératifs d'aujourd'hui, cependant, ont besoin d'aide pour des tâches de cette nature. Des recherches récentes suggèrent de personnaliser des modèles texte-image à grande échelle en optimisant les intégrations de texte spécialisées fraîchement ajoutées ou en affinant les poids du modèle, étant donné de nombreuses images d'une seule idée, pour permettre la synthèse d'instances de ce concept dans des situations uniques.

Dans cette étude, des chercheurs de l'Université hébraïque de Jérusalem, de Google Research, de l'Université Reichman et de l'Université de Tel-Aviv présentent un nouveau scénario de décomposition de scènes textuelles : étant donné une seule image d'une scène pouvant inclure plusieurs concepts de différents types, leur objectif est de séparez un jeton de texte spécifique pour chaque idée. Cela permet la création d'images innovantes à partir d'invites verbales qui mettent en évidence certains concepts ou combinaisons de nombreux thèmes. Les idées qu'ils veulent apprendre ou extraire de l'activité de personnalisation ne sont que parfois apparentes, ce qui les rend potentiellement peu claires. Les travaux antérieurs ont traité cette ambiguïté en se concentrant sur un seul sujet à la fois et en utilisant une variété de photographies pour montrer la notion dans divers contextes. Cependant, des méthodes alternatives sont nécessaires pour résoudre le problème lors de la transition vers une situation d'image unique.

Ils suggèrent spécifiquement d'ajouter une série de masques à l'image d'entrée pour ajouter des informations supplémentaires sur les concepts qu'ils souhaitent extraire. Ces masques peuvent être de forme libre fournis par l'utilisateur ou produits par une approche de segmentation automatisée (telle que). L'adaptation des deux techniques principales, TI et DB, à cet environnement indique un compromis reconstruction-modifiable. Alors que TI ne parvient pas à reconstruire correctement les idées dans un nouveau contexte, DB a besoin de plus de contrôle de contexte en raison d'un surajustement. Dans cette étude, les auteurs suggèrent un pipeline de personnalisation unique qui réussit à trouver un compromis entre le maintien de l'identité du concept appris et la prévention du surajustement.

Figure 1 donne un aperçu de notre méthodologie, qui comporte quatre parties principales : (1) Nous utilisons une approche d'échantillonnage par union, dans laquelle un nouveau sous-ensemble de jetons est échantillonné à chaque fois, pour entraîner le modèle à gérer diverses combinaisons d'idées créées. De plus, (2) afin d'éviter le surajustement, nous utilisons un régime d'entraînement en deux phases, en commençant par l'optimisation des jetons récemment insérés avec un taux d'apprentissage élevé et en continuant avec les poids du modèle dans la deuxième phase avec un taux d'apprentissage réduit. . Les idées souhaitées sont reconstruites en utilisant une (3) perte de diffusion déguisée. Quatrièmement, nous employons une perte d'attention croisée unique pour favoriser le démêlage entre les idées apprises.

Leur pipeline contient deux étapes, illustrées à la figure 1. Pour reconstruire l'image d'entrée, ils identifient d'abord un groupe de caractères de texte spéciaux (appelés poignées), gèlent les poids du modèle, puis optimisent les poignées. Ils continuent à affiner les poignées tout en passant au réglage fin des poids du modèle dans la deuxième phase. Leur méthode met fortement l'accent sur le désenchevêtrement de l'extraction de concepts ou sur la garantie que chaque poignée est connectée à un seul concept cible. Ils comprennent également que la procédure de personnalisation ne peut pas être effectuée indépendamment pour chaque idée afin de développer des graphiques mettant en valeur des combinaisons de notions. En réponse à cette découverte, nous proposons l'échantillonnage syndical, une approche de formation qui répond à ce besoin et améliore la création de combinaisons d'idées.

Pour ce faire, ils utilisent la perte de diffusion masquée, une variation modifiée de la perte de diffusion standard. Le modèle n'est pas pénalisé si une poignée est liée à plus d'un concept en raison de cette perte, ce qui garantit que chaque poignée personnalisée peut livrer son idée prévue. Leur principale découverte est qu'ils peuvent punir un tel enchevêtrement en imposant en outre une perte sur les cartes d'attention croisée, qui sont connues pour être en corrélation avec la disposition de la scène. En raison de la perte supplémentaire, chaque poignée se concentrera uniquement sur les zones couvertes par son concept cible. Ils proposent plusieurs mesures automatiques pour la tâche afin de comparer leur méthodologie aux benchmarks.

Ils ont apporté les contributions suivantes, dans l'ordre : (1) ils introduisent la nouvelle tâche de décomposition de scènes textuelles ; (2) ils proposent une nouvelle méthode pour cette situation qui établit un équilibre entre la fidélité du concept et l'éditabilité de la scène en apprenant un ensemble de poignées de concept désenchevêtrées ; et (3) ils suggèrent plusieurs mesures d'évaluation automatique et les utilisent, avec une étude d'utilisateurs, pour démontrer l'efficacité de leur approche. Ils mènent également des recherches sur les utilisateurs, ce qui montre que les évaluateurs humains aiment aussi leur méthodologie. Dans leur dernière partie, ils suggèrent plusieurs applications de leur technique.

VérifiezPapieretPage du projet.N'oubliez pas de rejoindrenotre sous-reddit 23k+ ML,Chaîne discorde, etCourriel , où nous partageons les dernières nouvelles sur la recherche en IA, des projets d'IA sympas, et plus encore. Si vous avez des questions concernant l'article ci-dessus ou si nous avons manqué quelque chose, n'hésitez pas à nous envoyer un courriel à[email protected]

🚀 Découvrez les outils d'intelligence artificielle de 100 dans AI Tools Club

Aneesh Tickoo est consultante stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l'Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l'apprentissage automatique. Son intérêt de recherche est le traitement d'images et est passionné par la construction de solutions autour de celui-ci. Il aime se connecter avec les gens et collaborer sur des projets intéressants.

Figure 1 Page de projet papier. notre 23k+ ML SubReddit Discord Channel Email Newsletter [email protected] 🚀 Découvrez les outils d'IA de 100 dans AI Tools Club