Gen-1 від Runway — новий стандарт генерації відео
Виходячи з досліджень користувачів, результати з GEN-1 є кращими перед існуючими методами для перекладу зображення на зображення та відео на відео.
Нейромережі від Runway
Компанія Runway, відома своєю моделлю Stable Diffusion для перетворення тексту в зображення, щойно випустила Gen-1 , систему штучного інтелекту для створення відео. Подібно до технології компанії Stable Diffusion, користувачі можуть використовувати введення тексту для трансформації відео за допомогою моделі AI.
Коротке демонстраційне відео, опубліковане на офіційному YouTube-каналі компанії, показує, як Gen1 може перетворити відеоролик людей, що йдуть вулицею, на глиняних ляльок. Проста команда, стиль Claymation, — це все, що потрібно для здійснення трансформації.
Ви можете переглянути повне відео нижче:
Пізніше, у тому ж відео, Runway показує, що його система штучного інтелекту для створення відео приймає введення тексту та зображень для створення нового відеоконтенту з використанням наявних відеокліпів. Крім прямого перетворення відеокліпів, Gen1 підтримує те, що Runway називає Storyboard.
Storyboard перетворює макети на анімовані візуалізації. На відео показано, як вночі стос книг перетворюється на горизонт. Потім є режим маски, який дозволяє відеоредакторам ізолювати об’єкти у відео та змінювати їх. Цього разу приклад показує, як Gen1 використовувався для додавання плям на собаку. Короткий ролик підкреслює проблему, оскільки штучний інтелект помістив дві плями прямо на очі собаки.
Режим візуалізації може перетворювати нетекстуровані рендери на реалістичні результати за допомогою текстових підказок або надання зображення.
Нарешті, режим налаштування дозволяє користувачам налаштовувати модель для «ще більш високої точності».
Gen-1: наступний крок уперед для Generative AI
Gen-1 бере наявний відеоконтент і перетворює його на новий відеовміст за допомогою текстових інструкцій або зображень. Технологія відкриває нові можливості не лише в комерційному середовищі, а й для хобі та домашнього використання. Ймовірно, це лише питання часу, коли подібні інструменти будуть запущені на популярних веб-хостингах і потокових відео.
Режим 1 - Стилізація: Перенесіть стиль будь-якого зображення або підказки на кожен кадр вашого відео.
Режим 2 - Розкадрування: Перетворіть макети на повністю стилізовані та анімовані візуалізації.
Режим 3 - Маска: ізолюйте об'єкти у вашому відео та змінюйте їх за допомогою простих текстових підказок.
Режим 4 - Візуалізація: Перетворіть нетекстові рендери на реалістичні результати, застосувавши вхідне зображення або підказку.
Режим 5 - Налаштування: Розкрийте всю потужність Gen-1, налаштувавши модель для отримання ще більш точних результатів.
Gen-1 від Runway
У 2022 році кілька компаній випустили моделі тексту у відео. Meta оприлюднила Make-a-Video та Google Phenaki та Muse . Обидва рішення підтримують створення коротких відеокліпів за допомогою введення тексту користувачем. Минулого тижня Google запустив Dreamix, яка виглядає найбільш схожою з технологій у порівнянні з Gen-1. Подібно до рішення Runway, Dreamix використовує наявний відеовміст і застосовує до нього нові стилі.
Судячи з демонстраційного відео Runway, схоже, що модель компанії Gen-1 відкриває нові можливості, яких не вистачає в конкуруючих продуктів. По-перше, Runway дозволяє користувачам змінювати наявний вміст і приймає для цього введення тексту та зображень. Runway стверджує, що його відеовміст GEN-1 отримав «перевагу перед існуючими методами для переходів із зображення на зображення та відео на відео» на понад 73% (Stable Diffusion 1.5) і 88% (text2Live).
Найближчими днями компанія хоче розкрити технічні подробиці на своєму веб-сайті. Наразі лише кілька користувачів отримали запрошення спробувати Gen-1. Існує список очікування, але незрозуміло, коли технологія стане доступною для користувачів режиму.
Для чого б ви використовували Gen-1, якби мали доступ?