Информационный сайт ГК "Tangara"     

 

 

Адрес:
https://t.me/TheTangaraNews
___________________________________________

2024 год Май (May;Puede;可能;مايو)

 

Главная \ Наука, технологии, бизнес \ Microsoft представила VASA-1, которая быстро превращает обычные изображения в видео с говорящими лицами

Microsoft представила VASA-1, которая быстро превращает обычные изображения в видео с говорящими лицами

Microsoft представила VASA-1, которая быстро превращает обычные изображения в видео с говорящими лицами
Шесть месяцев назад на Филиппинах появились первые в истории спортивные телеведущие, созданные искусственным интеллектом, - Майя и Марко. Некоторые были впечатлены, но многие чувствовали себя некомфортно, наблюдая за ними из-за отсутствия у них мимики и непривычных движений губ.
Однако последние достижения в области технологий ИИ позволяют устранить эти недостатки.
Компания Microsoft представила новый ИИ-инструмент Vasa-1, который преобразует двухмерное портретное изображение в гораздо более красивое говорящее или поющее видео на основе аудиоклипа.
И, надо сказать, результаты весьма впечатляют.!
VASA1-01
 
Что такое VASA-1?
 
VASA (что расшифровывается как Visual Affective Skills Animation) - это основа для создания реалистичных аудиороликов с разговаривающими людьми на основе одного изображения.
Вот ключевые особенности:
 - Она способна генерировать движения губ, точно синхронизированные со звуком.
- Она захватывает широкий спектр реалистичных выражений лица и нюансов, которые способствуют восприятию подлинности и живости говорящего лица.
-  Он может генерировать естественные движения головы, согласованные с речью.
- Визуальное качество создаваемых видеороликов высокое, с разрешением 512x512 пикселей.
- Генерация видео происходит в режиме реального времени со скоростью до 40 кадров в секунду.
- Цель - создать реалистичные аватары для взаимодействия человека и ИИ в реальном времени.
VASA 01-2
Как она работает?
 
Вместо того чтобы генерировать видеокадры напрямую, VASA генерирует целостную динамику лица и движения головы в скрытом пространстве, обусловленном аудио- и другими сигналами
 
Целостная динамика лица и генерация положения головы
 
Получив аудиоролик, VASA генерирует связные последовательности поз головы и целостную динамику лица (включая движение губ, выражение лица, взгляд, моргание и т. д.) в изученном латентном пространстве лица. Модель диффузионного преобразования обучается на основе аудиофункций, а также других дополнительных управляющих сигналов, таких как направление взгляда, расстояние до головы и эмоциональное смещение.
Модель диффузии обучается на последовательностях движений, извлеченных из массивных видеороликов с говорящими людьми.
 
Генерация видео с говорящим лицом
 
В момент вывода, когда на вход поступает изображение лица и аудиоролик, VASA сначала извлекает латентные коды внешности и идентичности с помощью кодировщика лица. Затем с помощью обученной диффузионной модели генерируются латентные последовательности движения, обусловленные аудиозаписью. Наконец, эти латентные переменные декодируются в видео с говорящим лицом с помощью декодера лица.
В таблицах 1 и 2 ниже представлены результаты бенчмарков VoxCeleb2 и OneMin-32. В обоих бенчмарках VASA-1 достигает лучших результатов среди всех методов по всем оцениваемым метрикам.
 

По показателям синхронизации звука и губ (SC и SD) VASA-1 превосходит все остальные с большим отрывом. Интересно, что она даже показывает лучшие результаты, чем реальные видео, вероятно, благодаря эффекту аудио CFG (руководство без классификатора).

Сгенерированные позы также лучше согласованы со звуком по сравнению с другими методами, особенно в бенчмарке OneMin-32, что отражается в оценках CAPP. Движения головы демонстрируют самую высокую интенсивность согласно ∆P, хотя по сравнению с интенсивностью реальных видео все еще наблюдается отставание.
Наконец, оценка FVD (показатель качества и реалистичности видео) у VASA-1 значительно ниже, чем у других методов, демонстрируя превосходное качество сгенерированного видео.
Если вы хотите узнать больше подробностей о том, как это работает, ознакомьтесь с техническим описанием здесь.
 

Примеры

 
Их метод способен не только обеспечить синхронизацию губ и звука, но и захватить большой спектр эмоций, выразительных нюансов лица и естественных движений головы, которые способствуют восприятию реалистичности и живости.
Результаты также можно менять в зависимости от различных эмоций и направления взгляда. Хотите, чтобы ваш аватар выглядел счастливым, грустным или совершенно растерянным? Нет проблем.
Приведенные примеры представлены в формате GIF, поэтому вы не услышите звук. Посмотрите примеры видео со звуком в официальном блоге Microsoft.
 
Давайте поговорим о качестве.
 
Без сомнения, результаты получились очень реалистичными. Плавность выражения и реалистичное качество действительно впечатляют. Это жутковато, насколько реальными они выглядят.
Однако при внимательном рассмотрении сгенерированных говорящих лиц все же остается ощущение неестественности. Да, в них все еще чувствуется что-то "не совсем человеческое".
Но дело в том, что в наши дни ИИ развивается с молниеносной скоростью. Кажется, что каждый раз, когда вы оборачиваетесь, происходит какой-то новый прорыв или разработка, расширяющая границы возможного. Несмотря на то, что VASA-1 может показаться немного странной, не совсем человечной, мне не терпится увидеть, что получится в версии 2.0.
Работает в режиме реального времени
Преобразование портретного изображения в говорящее видео - не новость. Несколько недель назад Google анонсировал VLOGGER, который превращает изображение в говорящий аватар. Однако значительные вычислительные требования существующих методов ограничивают их возможности для работы в реальном времени.
Чтобы решить эту проблему, VASA-1 представляет эффективную и мощную генеративную модель, обусловленную звуком, которая работает в латентном пространстве движений головы и лица. Работая с компактными латентными представлениями вместо прямого генерирования необработанных пикселей, VASA-1 значительно снижает вычислительные нагрузки, сохраняя при этом богатую детализацию и динамику лица.
Проще говоря, это умный короткий путь, позволяющий ускорить процесс.В приведенном выше примере видео сгенерировано на настольном ПК с одним графическим процессором NVIDIA RTX 4090. Видео генерируется размером 512x512 со скоростью 45 кадров в секунду в автономном режиме пакетной обработки и может поддерживать до 40 кадров в секунду в режиме онлайн-потока с предшествующей задержкой всего 170 мс.
 
Практическое применение
 
Возможности VASA-1 в режиме реального времени открывают широкий спектр практических применений и случаев использования, где важна низкая задержка и интерактивность. Вот несколько примеров, которые я могу привести:
Подобно тому, как работает Vision Pro от Apple, VASA-1 можно использовать для видеоконференций и телеприсутствия.
Генерация говорящих лиц в реальном времени может использоваться в виртуальных средах обучения и симуляции, например, в медицинской или военной подготовке. Представьте, что вы предварительно записываете сценарий, а затем подаете его на свою фотографию, чтобы сгенерировать говорящее лицо в реальном времени.
Например, в сценариях поддержки клиентов виртуальный агент с реалистичным говорящим лицом может обеспечить более персонализированный и эмпатичный разговор, повышая удовлетворенность и доверие клиентов.
В целом, я впечатлен как качеством, так и скоростью работы VASA-1. Качество есть куда улучшать, но, учитывая, как быстро развиваются технологии ИИ, я ожидаю, что реалистичность и естественность значительно улучшатся в следующей версии.
Кто знает? Возможно, через год или два мы вообще не сможем отличить сгенерированные лица от реальных.Несмотря на возможность злоупотребления, Microsoft хочет подчеркнуть существенные преимущества этой технологии.
Признавая возможность злоупотребления, необходимо признать значительный положительный потенциал нашей технологии. Все эти преимущества - от повышения образовательного уровня, улучшения доступности для людей с проблемами в общении до предоставления компаньонов или терапевтической поддержки нуждающимся - подчеркивают важность нашего исследования и других подобных изысканий.
Кроме того, компания заявила, что не намерена выпускать модель ИИ в открытый доступ. Но я не могу не задаться вопросом, какие безумные приложения придумают люди, если получат к ней доступ
Теги VASA-1
Белоусов и попытка ревизии Путинизма на фоне СВО и саркомы государственной ткани
Белоусов и попытка ревизии Путинизма на фоне СВО и саркомы государственной ткани
Мир в полнолуние...?
Мир в полнолуние...?
Если вы купили ненужную вам козу ...
Если вы купили ненужную вам козу ...
Игорь Сечин как призрак бродит... Или вопросы деприватизации по Сечину.
Игорь Сечин как призрак бродит... Или вопросы деприватизации по Сечину.
Хоть чучелом, хоть тушкой... Или не более двух сроков подряд...
Хоть чучелом, хоть тушкой... Или не более двух сроков подряд...
Ослольвы как новые украинские Наполеоны.Или когда лев уехал на сафари
Ослольвы как новые украинские Наполеоны.Или когда лев уехал на сафари
Оппенгеймер: отравленное яблоко, ядерная бомба и НКВД
Оппенгеймер: отравленное яблоко, ядерная бомба и НКВД
Тимур и его команда. Увидит ли Шойгу небо в клеточку?
Тимур и его команда. Увидит ли Шойгу небо в клеточку?
РУССКОЕ БАРСТВО – МОРАЛЬНЫЙ СИФИЛИС XXI ВЕКА.Или кто и как захватил Россию!
РУССКОЕ БАРСТВО – МОРАЛЬНЫЙ СИФИЛИС XXI ВЕКА.Или кто и как захватил Россию!
"Спаситель мира" в 1958 г., когда его продали на аукционе Sotheby’s стоил смешные £45
"Спаситель мира" в 1958 г., когда его продали на аукционе Sotheby’s стоил смешные £45
Microsoft представила VASA-1, которая быстро превращает обычные изображения в видео с говорящими лиц
Microsoft представила VASA-1, которая быстро превращает обычные изображения в видео с говорящими лиц
Украина для Европы становится чемоданом без ручки. Или евреи Израиля показали свое истинное звериное
Украина для Европы становится чемоданом без ручки. Или евреи Израиля показали свое истинное звериное
Звездные войны: может ли ракета-носитель «Ангара» стать конкурентом Falcon 9
Звездные войны: может ли ракета-носитель «Ангара» стать конкурентом Falcon 9
Новая реальность коммуникаций. Фиджитал рядом с нами
Новая реальность коммуникаций. Фиджитал рядом с нами
Стратег Диванного Легиона. Или возможно другая концепция ведения СВО
Стратег Диванного Легиона. Или возможно другая концепция ведения СВО
Золотое ралли с обычными откатами.Физические лица стали раскупать через банки золото, и у нас практи
Золотое ралли с обычными откатами.Физические лица стали раскупать через банки золото, и у нас практи
Ждем доллар по 130? А этот вопрос решается просто тремя телефонными звонками из ЦБ.
Ждем доллар по 130? А этот вопрос решается просто тремя телефонными звонками из ЦБ.
Стоит ли русским бояться таджиков?
Стоит ли русским бояться таджиков?
Большой куш. Или макароны вне закона. Или Михаил Юревич в роли Шуры Балаганова.
Большой куш. Или макароны вне закона. Или Михаил Юревич в роли Шуры Балаганова.
Теракт в Крокус Сити Холле – кто заказчик? Или Теракт в Крокус Сити Холле – это еще цветочки!
Теракт в Крокус Сити Холле – кто заказчик? Или Теракт в Крокус Сити Холле – это еще цветочки!
Крокус. Грандиозный скандал который пытаются замять!
Крокус. Грандиозный скандал который пытаются замять!
Увидеть Тимбукту и умереть. Или Диснейленд для больших мальчиков.
Увидеть Тимбукту и умереть. Или Диснейленд для больших мальчиков.
Алан Уотс "Книга о табу на знание о том, кто ты есть"
Алан Уотс "Книга о табу на знание о том, кто ты есть"
«Чем больше охраны тем более причудливыми должны быть ваши методы побега». Или побег как стиль жизни
«Чем больше охраны тем более причудливыми должны быть ваши методы побега». Или побег как стиль жизни
Спаситель мира
Спаситель мира
"Спаситель мира" в 1958 году, когда его продали на аукционе Sotheby’s стоил смешные £45.
Фотоннный отражатель
Фотоннный отражатель
Во всем мире политическая сатира - это инструмент общества, который нивелирует ошибки политических персоналий и их деструктивных действий. И кстати хорошо оплачивается! Но, не у нас!
Альтернативная история мира
Альтернативная история мира
ТОЧКА ВХОДА…Или ЭПОХА СУРКА…Или Кто Мы? Зачем Мы? Откуда Мы?
Поющий волк
Проект - поющий волк
Мы просто балуемся)
Мир в полнолуние
Мир в полнолуние...?
Парjход с которого нет возможности сойти.
"Книга о табу на знание о том, кто ты есть"
Познай себя
"Книга о табу на знание о том, кто ты есть"
Побег как стиль жизни
Люди и события
Побег как стиль жизни
WSJ узнала о планах Samsung вложить в производство чипов в Техасе $44 млрд.
Новости экономки
WSJ узнала о планах Samsung вложить в производство чипов в Техасе $44 млрд.
Создание своих танкерного и контейнерного флотов потребует двух триллионов рублей
Новости экономки
Создание своих танкерного и контейнерного флотов потребует двух триллионов рублей
Такси за четыре таблетки до продцедурной комнаты ...
Мир сошел с ума
Такси за четыре таблетки до продцедурной комнаты ...
 

Фото дня 02

 

Олимпийский огонь.

В Парижской мэрии приняли носительницу олимпийского огня

Первый помощник мэра Парижа Эммануэль Грегуа. 


Всё что связано с интеллектом )

Мышь на приеме у психиатра:
- Я влюбилась в слона.
- В слона или слониху?
- За кого вы меня принимаете?

 

 

 

 

 

 

 

Новая информация за последний период
Белоусов и попытка ревизии Путинизма на фоне СВО и саркомы государственной ткани

Мир в полнолуние...?


Хоть чучелом, хоть тушкой... Или не более двух сроков подряд...


Ослольвы как новые украинские Наполеоны.Или когда лев уехал на сафари


Оппенгеймер: отравленное яблоко, ядерная бомба и НКВД


Тимур и его команда. Увидит ли Шойгу небо в клеточку?


РУССКОЕ БАРСТВО – МОРАЛЬНЫЙ СИФИЛИС XXI ВЕКА.Или кто и как захватил Россию!


Вагнер. Существование компании и проблемы бойцов

 

паситель мира" в 1958 году, когда его продали на аукционе Sotheby’s стоил смешные £45.
 

Как хорошо мы плохо жили...И про ежика с дырочкой в правом боку ребенку больше петь нельзя.

 

 

 

 

 

 


 


 

Телефон ; E-mail: