Китайская компания ByteDance разработала новую ИИ-модель под названием INFP. Она умеет оживлять любые 2D-картинки, наделяя их возможностью не только двигаться, но и выполнять роль реалистичного аватара при видеозвонках.
В отличие от других подобных решений, INFP способна создавать реалистичную анимацию разговора без необходимости вручную назначать роли говорящего и слушающего. Разработчики утверждают, что нейросеть особенно хороша в сопоставлении движений губ с речью и сохранении уникальных черт лица человека на картинке.
Работа нейросети осуществляется в два этапа. На первом, который ByteDance называет Motion-Based Head Imitation, ИИ учится улавливать мелкие детали процесса общения, такие как мимика и движение головы. Затем эти данные накладываются на статичное изображение, приводя его в движение.
На втором этапе (Audio-guided motion generation) система выясняет, как сопоставить звуки с естественными движениями, анализируя звук с обеих сторон диалога. Затем специальный компонент ИИ, называемый диффузионным трансформером, постепенно превращает полученные шаблоны в плавные и реалистичные анимации. Для этого ИИ-модель обучалась на наборе разговоров людей общей длительностью более 200 часов. .
Следующая цель разработчиков — создание реалистичной анимации всего тела человека на основе статичного изображения. Но запускать модель в свободный доступ они пока не спешат из-за возможностей злоупотребления дипфейками.