Нейросеть в семейных фильмах: на что способны технологические новинки
Нейронные технологии заходят во все области нашей жизни, и семейные фильмы не исключение. Благодаря новым фишкам искусственного интеллекта мы можем делать их необычнее и интереснее. Как именно? Дополняя реальность, моделируя визуальные образы событий, или озвучивая голосами известных актёров или других людей. Благодаря этому, именно о вас в своём интервью может сказать Брэд Питт, Том Круз или Чаплин да, впрочем, любая звезда, неважно из какой страны и даже из какого времени.
Всё это очень увлекательное занятие, но есть в работе с ИИ свои подводные камни. Обо всём этом честно без прикрас рассказываем в статье.
Хочу озвучку Адама Сэндлера или как озвучить видео с помощью нейросети
Порой в ТвоёКино поступают крайне интересные запросы. Например, наши клиенты хотят получить поздравление от любимых стендап-комиков, или увидеть в фильме в качестве рассказчика Адама Сэндлера. Если ещё пять лет назад это была задача за гранью реальности, то теперь, подключив все имеющиеся навыки, смекалку и пару-тройку нейронных сетей, мы, закатив рукава, берёмся за дело.
Неважно, кто выбран объектом для создания видео, работа по генерации подобных фрагментов строится по одному плану и начинается она задолго до запуска нейронки. Для начала очень тщательно отыскиваются видеофрагменты с героем, выбранным для переозвучки. Затем для него пишется текст, с учётом движения губ и продолжительности фраз. После мы подбираем реального подходящего диктора для чтения текста. Он даёт основу: адекватные интонации, эмоции, расставляет паузы в речи. Иногда диктор настолько классно имитирует голос, что необходимость в нейронке полностью отпадает, но это скорее исключение из правил.
Далее мы ищем нужную модель голоса, чтобы «скормить» её нейросети вместе с записанной ранее дикторской озвучкой видео. Нейросеть берёт текст и интонации из реальной записи, и тембральные особенности звёзды из голосовой модели.
В одном из недавно созданных нами семейном фильме рассказчиком был выбран Адам Сэндлер. Тот самый, что снимался в «Сапожнике», «Космонавте» и озвучивал кучу мультфильмов. Готовой модели его голоса мы не нашли, и чтобы подготовить такую модель, нашей команде озвучания пришлось разыскивать реальные интервью актёра, делать из них нарезки, соединять воедино, очищать от посторонних фраз, и даже шумов. Титаническая работа, которая дала возможность подготовить для загрузки в нейросеть примеры голоса длиной по 1-1,5 минуты. Казалось бы – работа выполнена, но есть нюанс.
А что, без человека никак?
ИИ берёт интонации в первую очередь из примера. Тон Сэндлера в интервью спокойный и ровный, а нам нужны были эмоциональные фразы типа: «Hey, what’s up, motherf**ker!». Здесь, — пришёл на выручку диктор. Он прочитал текст ярко, а мы совместили его речь и голос актёра в нейронке. В итоге получилось очень похоже.
А можно ли обойтись без диктора? Мы пробовали, но предсказать результат невозможно. Зачастую нужно сделать более 50 генераций, прежде чем получишь абзац более или менее нормального звучания. Нейронка создаёт речь монотонной, без эмоций, не по-человечески.
Также важно, чтобы модель, которую «кормишь» нейросети, была максимально чистой от посторонних шумов, эха и других артефактов. Избавиться от них сложно, приходится чистить и вырезать лишнее вручную, а затем собирать аудио заново. Это долго и энергозатратно.
Не забываем правовые вопросы
Один из главных вопросов, когда речь заходит про использование нейронки в фильмах — защита авторских прав. Нужно понимать, кому они принадлежат при создании контента, и эти правила отличаются у каждой конкретной нейросети. Даже если вы не планируете использовать ролик в коммерческих целях, просто выложив его в интернет, вы открываете к нему доступ различным пользователям. Поэтому этот вопрос важно учитывать на старте.
Не всемогущая… Пока
Важный момент — нейросеть может не всё. Например, однажды клиент попросила, чтобы люди, проживающие в других городах, танцевали вместе на видео. Вот есть несколько фоток, вроде бы закинул в нейронку и готово. Но это не так. Для создания такого эффекта, необходимы качественные фотографии участников, причём с разных ракурсов, чтобы нейросети было из чего составлять модель человека. И даже если материала достаточно, фото всех участников с разных ракурсов получены, над проектом всё равно будет работать целая команда специалистов: от CGI специалистов, видеографов, монтажёров и сценаристов до звукорежиссёров. Нужно почистить картинки от шумов, правильно выбрать ракурс и задать движение, чтобы была синхронность.
Мы всегда стараемся выполнить пожелания клиентов. Но если это невозможно, предлагаем альтернативные, не менее классные решения, например, заменить лицо актёра в известном фильме на фотку героя семейного фильма. Получается мультяшный эффект, который смотрится очень забавно.
Какие программы нужны
Есть несколько сервисов, которые показали неплохой результат. Один из них play.ht. Он генерирует реалистичную речь на основе заданного текста. Приложение может воспроизводить 130 языков, можно настроить тембр, высоту, скорость и интонацию. Но так как нейронки создавались преимущественно для музыки, текстов и изображения, то сделать голос один в один в программе невозможно. Хотя выходит очень похоже, по сути то, чего хочет клиент. Универсальных скриптов здесь нет, в каждом отдельном случае мы индивидуально подбираем их, чтобы добиться нужного результата.
После нейросети обязательно проверяем аудио на наличие шумов. Порой приходится генерировать какую-то часть заново.
Чистить первоначальные файлы от «мусора» позволят онлайн-приложение Replay. Убирает шумы, лишние звуки. Если этого не сделать, качественный результат не получится.
Ещё один сервис Vocoflex используем для редакции музыки и вокала. Плагин обрабатывает голос с помощью динамических нейронных движков, позволяя свободно экспериментировать.
Но тут важно понимать и ещё одну тонкость, речь идёт в основном об английском языке, с русским пока ни одна нейросеть не научилась нормально работать. Единственным по-настоящему классным результатом за последние годы можно назвать, пожалуй, мем, когда Metallica перепели «Царицу». Здесь нейронке удалось действительно круто зазвучать на русском. Тогда многие подумали, что Джеймс Хэтфилд сделал коллаборацию с Анной Асти. Хотя «приложил руку» ко всему этому Vocoflex.
Что ещё умеет нейросеть
Но не голосом единым разнообразим мы наши отношения с нейросетями. Классно использовать ИИ для перевода. Написав речь Адама Сэндлера, мы закинули её в чат GPT. Предварительно сформулировали промт: перевести на английский, используя подачу и стиль актёра, а также с фишками и сленгом американского варианта языка. Получилось реально круто. У клиентов из США не возникло никаких вопросов.
С помощью онлайн-чата GPT можно создать настоящий комикс. Например, взять прикольную ситуацию из жизни главного героя, нарисовать картинки в едином стиле, дополнить бабблами и вуаля. Недавно делали фильм для нашего клиента из Швейцарии, где показали её как в модном сейчас тренде — куклой Барби в коробке. Получилось очень здорово.
Всё чаще приходят запросы на замену лиц на фотографиях и видео. С этим нам помогает приложение FaceSwap, в основе которого тоже лежит нейросеть. Можно вставить лица друзей, знаменитостей или вымышленных персонажей.
Создаём различные изображения в Midjourney. Для этого пишем краткий промт или закидываем референс. Картинки порой получаются будто созданные художниками или фотографами.
Какие перспективы
Использовать ИИ в создании семейных фильмов невероятно интересно. Регулярно появляются новинки, которые мы тестируем для того, чтобы озвучивать видео.
Сейчас пробуем Krea AI. Это настоящий креативный «комбайн», который не только умеет генерировать картинки и видео, но и редактировать их и повышать качество.
Недавно вышла новая версия ИИ-генератора от Google — Veo 3. Создаёт видеофайлы, автоматически накладывает закадровые голоса, музыку, звуковые эффекты. Тоже взяли в работу.
Так что продолжаем искать вау-идеи, чтобы создавать для вас самые классные семейные фильмы.