Google ha introdotto la rete neurale Imagen
Miscellanea / / May 24, 2022
E lo fa almeno bene come DALL-E 2.
Google annunciato Imagen è una rete neurale che converte una query di testo in immagini. È un concorrente diretto DALL-MI2 da OpenAI - che funziona ancora meglio in alcuni scenari.
Per riconoscere una query di testo, la rete neurale utilizza modelli linguistici di grandi dimensioni: su di essi si basano anche algoritmi di elaborazione del parlato naturale come GPT-3.
Il sistema funziona in tre fasi. Il primo disegna una piccola immagine di 64 x 64 pixel, che viene perfezionata fino a quando la rete neurale non può cambiarla per soddisfare meglio la richiesta originale. L'immagine viene quindi ridimensionata fino a 256 x 256 pixel e Imagen perfeziona i dettagli. Nella terza fase, la stessa cosa si ripete già con la tela della dimensione finale - 1024 x 1024 pixel.
Il testo dello studio rileva che Imagen affronta la comprensione di query complesse meglio di DALL-E 2. Ad esempio, per la query “Panda fa latte art”, DALL-E 2 ha restituito esclusivamente latte art con panda, mentre la rete neurale di Google è riuscita a produrre risultati per lo più corretti:
Ma Google ammette anche che nessuna di queste reti neurali è in grado di gestire la query "astronauta a cavallo": entrambi mettono ostinatamente l'astronauta sul cavallo e non viceversa. Entrambi ovviamente hanno spazio per crescere.
I risultati della valutazione del visualizzatore indipendente mostrano che Imagen supera DALL-E 2 in termini di accuratezza e pertinenza. E sebbene questo confronto possa essere considerato soggettivo, tali risultati sono comunque impressionanti, dato che DALL-E 2 è stato finora un ideale irraggiungibile che altre reti neurali di natura simile non potevano eguagliare. destinazione.
In ogni caso, Imagen resta per ora un progetto sperimentale, a cui gli utenti ordinari non possono accedere. Non è chiaro quanto tempo passerà prima che Google crei un servizio di accesso aperto basato su di esso.
Leggi anche🧐
- La nuova rete neurale Paint Transformer trasforma una foto in un oggetto di pittura
- Polaroid del futuro: la nuova rete neurale di NVIDIA trasforma le immagini 2D in modelli 3D
- Sber ha lanciato la rete neurale ruDALL-E, che genera immagini secondo la descrizione
Miglior offerta della settimana: sconti da AliExpress, Lamoda, Mixit e altri negozi