Мы все в итоге идем в никуда, но каждый сам выбирает свою дорогу.
 
Адрес:
https://t.me/TheTangaraNews
___________________________________________
2026 год  Февраль (February;Febrero;二月;فبراير)
Уважаемый читатель, приношу Вам свои извинения - к сожалению youtube полностью отрубили, поэтому часть материла стала просто  недоступна!  В разхделах свяхзанных с культурой 70% материала пришлось пока убрать до лучших времен! С.Б.(TN)
Главная \ Наука, технологии, бизнес \ Microsoft представила VASA-1, которая быстро превращает обычные изображения в видео с говорящими лицами

Microsoft представила VASA-1, которая быстро превращает обычные изображения в видео с говорящими лицами

Microsoft представила VASA-1, которая быстро превращает обычные изображения в видео с говорящими лицами
Шесть месяцев назад на Филиппинах появились первые в истории спортивные телеведущие, созданные искусственным интеллектом, - Майя и Марко. Некоторые были впечатлены, но многие чувствовали себя некомфортно, наблюдая за ними из-за отсутствия у них мимики и непривычных движений губ.
Однако последние достижения в области технологий ИИ позволяют устранить эти недостатки.
Компания Microsoft представила новый ИИ-инструмент Vasa-1, который преобразует двухмерное портретное изображение в гораздо более красивое говорящее или поющее видео на основе аудиоклипа.
И, надо сказать, результаты весьма впечатляют.!
VASA1-01
 
Что такое VASA-1?
 
VASA (что расшифровывается как Visual Affective Skills Animation) - это основа для создания реалистичных аудиороликов с разговаривающими людьми на основе одного изображения.
Вот ключевые особенности:
 - Она способна генерировать движения губ, точно синхронизированные со звуком.
- Она захватывает широкий спектр реалистичных выражений лица и нюансов, которые способствуют восприятию подлинности и живости говорящего лица.
-  Он может генерировать естественные движения головы, согласованные с речью.
- Визуальное качество создаваемых видеороликов высокое, с разрешением 512x512 пикселей.
- Генерация видео происходит в режиме реального времени со скоростью до 40 кадров в секунду.
- Цель - создать реалистичные аватары для взаимодействия человека и ИИ в реальном времени.
VASA 01-2
Как она работает?
 
Вместо того чтобы генерировать видеокадры напрямую, VASA генерирует целостную динамику лица и движения головы в скрытом пространстве, обусловленном аудио- и другими сигналами
 
Целостная динамика лица и генерация положения головы
 
Получив аудиоролик, VASA генерирует связные последовательности поз головы и целостную динамику лица (включая движение губ, выражение лица, взгляд, моргание и т. д.) в изученном латентном пространстве лица. Модель диффузионного преобразования обучается на основе аудиофункций, а также других дополнительных управляющих сигналов, таких как направление взгляда, расстояние до головы и эмоциональное смещение.
Модель диффузии обучается на последовательностях движений, извлеченных из массивных видеороликов с говорящими людьми.
 
Генерация видео с говорящим лицом
 
В момент вывода, когда на вход поступает изображение лица и аудиоролик, VASA сначала извлекает латентные коды внешности и идентичности с помощью кодировщика лица. Затем с помощью обученной диффузионной модели генерируются латентные последовательности движения, обусловленные аудиозаписью. Наконец, эти латентные переменные декодируются в видео с говорящим лицом с помощью декодера лица.
В таблицах 1 и 2 ниже представлены результаты бенчмарков VoxCeleb2 и OneMin-32. В обоих бенчмарках VASA-1 достигает лучших результатов среди всех методов по всем оцениваемым метрикам.
 

По показателям синхронизации звука и губ (SC и SD) VASA-1 превосходит все остальные с большим отрывом. Интересно, что она даже показывает лучшие результаты, чем реальные видео, вероятно, благодаря эффекту аудио CFG (руководство без классификатора).

Сгенерированные позы также лучше согласованы со звуком по сравнению с другими методами, особенно в бенчмарке OneMin-32, что отражается в оценках CAPP. Движения головы демонстрируют самую высокую интенсивность согласно ∆P, хотя по сравнению с интенсивностью реальных видео все еще наблюдается отставание.
Наконец, оценка FVD (показатель качества и реалистичности видео) у VASA-1 значительно ниже, чем у других методов, демонстрируя превосходное качество сгенерированного видео.
Если вы хотите узнать больше подробностей о том, как это работает, ознакомьтесь с техническим описанием здесь.
 

Примеры

 
Их метод способен не только обеспечить синхронизацию губ и звука, но и захватить большой спектр эмоций, выразительных нюансов лица и естественных движений головы, которые способствуют восприятию реалистичности и живости.
Результаты также можно менять в зависимости от различных эмоций и направления взгляда. Хотите, чтобы ваш аватар выглядел счастливым, грустным или совершенно растерянным? Нет проблем.
Приведенные примеры представлены в формате GIF, поэтому вы не услышите звук. Посмотрите примеры видео со звуком в официальном блоге Microsoft.
 
Давайте поговорим о качестве.
 
Без сомнения, результаты получились очень реалистичными. Плавность выражения и реалистичное качество действительно впечатляют. Это жутковато, насколько реальными они выглядят.
Однако при внимательном рассмотрении сгенерированных говорящих лиц все же остается ощущение неестественности. Да, в них все еще чувствуется что-то "не совсем человеческое".
Но дело в том, что в наши дни ИИ развивается с молниеносной скоростью. Кажется, что каждый раз, когда вы оборачиваетесь, происходит какой-то новый прорыв или разработка, расширяющая границы возможного. Несмотря на то, что VASA-1 может показаться немного странной, не совсем человечной, мне не терпится увидеть, что получится в версии 2.0.
Работает в режиме реального времени
Преобразование портретного изображения в говорящее видео - не новость. Несколько недель назад Google анонсировал VLOGGER, который превращает изображение в говорящий аватар. Однако значительные вычислительные требования существующих методов ограничивают их возможности для работы в реальном времени.
Чтобы решить эту проблему, VASA-1 представляет эффективную и мощную генеративную модель, обусловленную звуком, которая работает в латентном пространстве движений головы и лица. Работая с компактными латентными представлениями вместо прямого генерирования необработанных пикселей, VASA-1 значительно снижает вычислительные нагрузки, сохраняя при этом богатую детализацию и динамику лица.
Проще говоря, это умный короткий путь, позволяющий ускорить процесс.В приведенном выше примере видео сгенерировано на настольном ПК с одним графическим процессором NVIDIA RTX 4090. Видео генерируется размером 512x512 со скоростью 45 кадров в секунду в автономном режиме пакетной обработки и может поддерживать до 40 кадров в секунду в режиме онлайн-потока с предшествующей задержкой всего 170 мс.
 
Практическое применение
 
Возможности VASA-1 в режиме реального времени открывают широкий спектр практических применений и случаев использования, где важна низкая задержка и интерактивность. Вот несколько примеров, которые я могу привести:
Подобно тому, как работает Vision Pro от Apple, VASA-1 можно использовать для видеоконференций и телеприсутствия.
Генерация говорящих лиц в реальном времени может использоваться в виртуальных средах обучения и симуляции, например, в медицинской или военной подготовке. Представьте, что вы предварительно записываете сценарий, а затем подаете его на свою фотографию, чтобы сгенерировать говорящее лицо в реальном времени.
Например, в сценариях поддержки клиентов виртуальный агент с реалистичным говорящим лицом может обеспечить более персонализированный и эмпатичный разговор, повышая удовлетворенность и доверие клиентов.
В целом, я впечатлен как качеством, так и скоростью работы VASA-1. Качество есть куда улучшать, но, учитывая, как быстро развиваются технологии ИИ, я ожидаю, что реалистичность и естественность значительно улучшатся в следующей версии.
Кто знает? Возможно, через год или два мы вообще не сможем отличить сгенерированные лица от реальных.Несмотря на возможность злоупотребления, Microsoft хочет подчеркнуть существенные преимущества этой технологии.
Признавая возможность злоупотребления, необходимо признать значительный положительный потенциал нашей технологии. Все эти преимущества - от повышения образовательного уровня, улучшения доступности для людей с проблемами в общении до предоставления компаньонов или терапевтической поддержки нуждающимся - подчеркивают важность нашего исследования и других подобных изысканий.
Кроме того, компания заявила, что не намерена выпускать модель ИИ в открытый доступ. Но я не могу не задаться вопросом, какие безумные приложения придумают люди, если получат к ней доступ
Теги VASA-1
Россия будущего -тефлоновый рай сереньких мышек.Или - «Сделайте нам Москву везде!»
Россия будущего -тефлоновый рай сереньких мышек.Или - «Сделайте нам Москву везде!»
УЛИМ ХАК Или четырнадцать писем к Богу
УЛИМ ХАК Или четырнадцать писем к Богу
Эпоха великих людей - великих событий.
Эпоха великих людей - великих событий.
Неоклассическое решение для Китая
Неоклассическое решение для Китая
Минное поле США
Минное поле США
Магический кристалл. Если Йеллоустоун проснется...Или когда у американцев сдохнет корова.
Магический кристалл. Если Йеллоустоун проснется...Или когда у американцев сдохнет корова.
Ослольвы как новые украинские Наполеоны.Или когда лев уехал на сафари
Ослольвы как новые украинские Наполеоны.Или когда лев уехал на сафари
Белоусов - как новый русский Савонарола -это странный микст «ручного Навального» с Пригожиным
Белоусов - как новый русский Савонарола -это странный микст «ручного Навального» с Пригожиным
Эдем… Или бег по кругу
Эдем… Или бег по кругу
Мир в полнолуние...?
Мир в полнолуние...?
"Спаситель мира" в 1958 г., когда его продали на аукционе Sotheby’s стоил смешные £45
"Спаситель мира" в 1958 г., когда его продали на аукционе Sotheby’s стоил смешные £45
Если вы купили ненужную вам козу ...
Если вы купили ненужную вам козу ...
Алгоритмы Путина – не бином Ньютона. В самой общей форме, ему очень хочется пройти между струй.
Алгоритмы Путина – не бином Ньютона. В самой общей форме, ему очень хочется пройти между струй.
Белоусов и попытка ревизии Путинизма на фоне СВО и саркомы государственной ткани
Белоусов и попытка ревизии Путинизма на фоне СВО и саркомы государственной ткани
Игорь Сечин как призрак бродит... Или вопросы деприватизации по Сечину.
Игорь Сечин как призрак бродит... Или вопросы деприватизации по Сечину.
Оппенгеймер: отравленное яблоко, ядерная бомба и НКВД
Оппенгеймер: отравленное яблоко, ядерная бомба и НКВД
Элита, контрэлита, антиэлита современной России
Элита, контрэлита, антиэлита современной России
РУССКОЕ БАРСТВО – МОРАЛЬНЫЙ СИФИЛИС XXI ВЕКА.Или кто и как захватил Россию!
РУССКОЕ БАРСТВО – МОРАЛЬНЫЙ СИФИЛИС XXI ВЕКА.Или кто и как захватил Россию!
Microsoft представила VASA-1, которая быстро превращает обычные изображения в видео с говорящими лиц
Microsoft представила VASA-1, которая быстро превращает обычные изображения в видео с говорящими лиц
Звездные войны: может ли ракета-носитель «Ангара» стать конкурентом Falcon 9
Звездные войны: может ли ракета-носитель «Ангара» стать конкурентом Falcon 9
Русский особый путь… к фашизму?
Русский особый путь… к фашизму?
Новая реальность коммуникаций. Фиджитал рядом с нами
Новая реальность коммуникаций. Фиджитал рядом с нами
Увидеть Тимбукту и умереть. Или Диснейленд для больших мальчиков.
Увидеть Тимбукту и умереть. Или Диснейленд для больших мальчиков.
Алан Уотс "Книга о табу на знание о том, кто ты есть"
Алан Уотс "Книга о табу на знание о том, кто ты есть"
«Чем больше охраны тем более причудливыми должны быть ваши методы побега». Или побег как стиль жизни
«Чем больше охраны тем более причудливыми должны быть ваши методы побега». Или побег как стиль жизни
Спаситель мира
Спаситель мира
"Спаситель мира" в 1958 году, когда его продали на аукционе Sotheby’s стоил смешные £45.
Фотоннный отражатель
Фотоннный отражатель
Во всем мире политическая сатира - это инструмент общества, который нивелирует ошибки политических персоналий и их деструктивных действий. И кстати хорошо оплачивается! Но, не у нас!
Альтернативная история мира
Альтернативная история мира
ТОЧКА ВХОДА…Или ЭПОХА СУРКА…Или Кто Мы? Зачем Мы? Откуда Мы?
Поющий волк
Проект - поющий волк
Мы просто балуемся)
Мир в полнолуние
Мир в полнолуние...?
Парjход с которого нет возможности сойти.
"Книга о табу на знание о том, кто ты есть"
Познай себя
"Книга о табу на знание о том, кто ты есть"
Побег как стиль жизни
Люди и события
Побег как стиль жизни
WSJ узнала о планах Samsung вложить в производство чипов в Техасе $44 млрд.
Новости экономки
WSJ узнала о планах Samsung вложить в производство чипов в Техасе $44 млрд.
Создание своих танкерного и контейнерного флотов потребует двух триллионов рублей
Новости экономки
Создание своих танкерного и контейнерного флотов потребует двух триллионов рублей
Такси за четыре таблетки до продцедурной комнаты ...
Мир сошел с ума
Такси за четыре таблетки до продцедурной комнаты ...
Новая информация за последний период

 

Магический кристалл. Если Йеллоустоун проснется...Или когда у американцев сдохнет корова.



Элита, контрэлита, антиэлита современной России


Новый железный поток.Или алгоритмы Путина – не бином Ньютона.Или сплошные именины сердца. Или не одним Остером единым …

Белоусов и попытка ревизии саркомы государственной ткани на фоне СВО

Мир в полнолуние...?

Ослольвы как новые украинские Наполеоны.Или когда лев уехал на сафари

Оппенгеймер: отравленное яблоко, ядерная бомба и НКВД

 
 

 

Телефон ; E-mail: