Новая ИИ-модель ByteDance оживляет и озвучивает статичные изображения

Китайская компания ByteDance разработала новую ИИ-модель под названием INFP. Она умеет оживлять любые 2D-картинки, наделяя их возможностью не только двигаться, но и выполнять роль реалистичного аватара при видеозвонках.

В отличие от других подобных решений, INFP способна создавать реалистичную анимацию разговора без необходимости вручную назначать роли говорящего и слушающего. Разработчики утверждают, что нейросеть особенно хороша в сопоставлении движений губ с речью и сохранении уникальных черт лица человека на картинке.

Работа нейросети осуществляется в два этапа. На первом, который ByteDance называет Motion-Based Head Imitation, ИИ учится улавливать мелкие детали процесса общения, такие как мимика и движение головы. Затем эти данные накладываются на статичное изображение, приводя его в движение.

ByteDance INFP

На втором этапе (Audio-guided motion generation) система выясняет, как сопоставить звуки с естественными движениями, анализируя звук с обеих сторон диалога. Затем специальный компонент ИИ, называемый диффузионным трансформером, постепенно превращает полученные шаблоны в плавные и реалистичные анимации. Для этого ИИ-модель обучалась на наборе разговоров людей общей длительностью более 200 часов. .

ByteDance INFP

Следующая цель разработчиков — создание реалистичной анимации всего тела человека на основе статичного изображения. Но запускать модель в свободный доступ они пока не спешат из-за возможностей злоупотребления дипфейками.

Источник

Поделиться ссылкой:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *