В новой превью-версии Wan 2.5 появилась важная функция — native audio-driven video generation. Теперь при создании роликов можно загружать не только текст или изображение, но и аудиофайл: голос, музыку или звуковые эффекты.
Модель учитывает аудио как ключ к построению сюжета и синхронизации — можно генерировать ролики до 10 секунд, а качество картинки заметно улучшено.
Читайте также: Кто такие AI-креаторы и чем они занимаются
Как генерировать видео по аудио в Wan 2.5
Раньше видео в Wan строилось в основном по текстовым описаниям или по статичному референс-кадру. В интерфейсе появился отдельный инпут для аудиофайлов или ссылок. Их можно комбинировать с текстовыми подсказками и референс-изображениями, управляя сразу несколькими параметрами ролика.

Как это работает:
- можно загрузить дикторский текст — модель подстроит движения губ и мимику под речь;
- можно задать музыку — сцены будут смонтированы в ритм;
- можно использовать звуковые эффекты (шаги, взрыв, аплодисменты) — и в кадре появятся соответствующие действия.
Фактически, это объединяет этапы производства: звук и картинка генерируются одновременно, без отдельной пост-обработки. Ограничение по длительности — до 10 секунд. Качество зависит от выбранной площадки.
Wan активно расширяет функции синхронизации аудио и видео. В ранних обновлениях разработчики уже внедряли генерацию с озвучкой и лип-синком, теперь же звук стал полноценным входом для модели. Это выделяет Wan на фоне конкурентов вроде Veo, которые фокусируются в основном на визуальной стороне.
Ранее Suno AI представила Suno Studio, которая позволяет записовать и редактировать музыку с ИИ.