Уже успели протестировать новый Wan 2.5? Если нет — самое время. Эта версия научилась не только лучше понимать промпты и выдавать плавное видео, но и генерировать звук: от фоновой атмосферы до реплик персонажей. Теперь ролики выглядят живее, а работать с ними проще — главное правильно составить промпт.
В этой статье я подробно разобрал, как составлять промпты для Wan 2.5: в чём разница между Text-to-Video и Image-to-Video, какие есть нюансы, чего стоит избегать.
А в конце вас ждёт подборка готовых шаблонов на английском языке — их можно копировать, подставлять свои образы, сцены или продукты и сразу использовать в генерации.
Читайте также: 10 лучших курсов по работе с нейросетями
Что такое Wan 2.5 и в чём его фишки
Если вдруг вы не знали, Wan 2.5 — это новая версия генератора видео от Alibaba Cloud, где заметно подняли качество картинки, движения и работу со звуком. По ощущениям, модель стала на порядок ближе к «продакшн-уровню». Подробный гайд по работе с нейросетью Wan 2.5 я уже делал (по ссылке) — там показано, как делать видео пошагово и как получать кредиты для бесплатных генераций.
У Wan 2.5 есть два основных режима работы:
- Text-to-Video — генерация ролика «с нуля» по текстовому описанию. Этот режим подходит для создания новых сцен: рекламные скетчи, трейлеры, абстрактные визуализации. Здесь важно правильно задать структуру промпта: сцена → герой → действие/камера → звук/реплики → длительность/формат.
- Image-to-Video — анимация по исходной картинке или фотографии (оживляем фото). Тут нужен другой подход: цель не придумать сцену, а сохранить стиль и идентичность исходника, добавив к нему динамику — движения/действия, анимацию, поворот головы, смену фона, короткую реплику.
Плюс, фишка Wan 2.5 в том, что в обоих режимах можно сразу добавлять звук и эффекты: шум города, грозу, фоновую музыку или даже живую речь персонажей. Это экономит время и позволяет получать готовый продукт без использования сторонних нейросетей и сервисов для озвучки.
Дальше в статье я подробно разберу оба режима: как правильно писать промпты для каждого и какие нюансы стоит учитывать, чтобы результат выглядел максимально живым. Предварительно, рекомендую почитать 2 других гайда: как делать универсальные промты для генерации видео, а также как устроен промт-инжиниринг. Это поможет лучше погрузиться в тему.
Как правильно написать промпт для Wan 2.5: пошаговый разбор
Важно: если хотите максимальной управляемости и сами работать с промптами:
— Не используйте «волшебную палочку» (Prompt Extend) — модель перепишет ваш текст под себя.

— Отключите Inspiration Mode — тогда модель не будет сама «доделывать» креатив, если ей мало данных.

Переходим к работе над промптами.
Промт для Text-to-Video (T2V)
Чтобы получить предсказуемый и качественный результат, промпт лучше писать не художественным текстом, а структурно. Модель «читает» инструкцию по блокам, и чем яснее они заданы, тем чище итоговое видео и точнее синхрон звука. Схема простая: сцена → герой → действие и камера → звук/реплики → длительность и формат.
1. Сцена. Сначала задаётся общая обстановка: место, время суток, атмосфера. В нашем примере это вечерний город после дождя, с неоновыми отражениями и людьми на заднем плане. Это сразу формирует фон и настроение ролика.
2. Герой. Далее описывается персонаж: внешний вид, одежда, стиль. Здесь мы выбрали молодую девушку в уличной одежде с банкой энергетика. Такие детали помогают модели правильно «собрать» образ.
3. Действие и камера. В этом блоке важно сочетать то, что делает герой, и то, как это должно быть снято. Мы указали: сначала профильный план, затем плавный поворот головы и движение камеры «долли-ин». Wan понимает команды типа medium shot, profile, dolly-in, что делает видео кинематографичнее.
Движение камеры также можно задать в настройках — там есть из чего выбрать. Выберите, как будете это делать и задавайте либо в промте, либо вручную, чтобы промт и настройки не конфликтовали.

4. Звук и реплики. Ключевое отличие Wan 2.5 — встроенная генерация звука. Поэтому мы прямо в промпт вписали шумы города (трафик, разговоры, музыка) и реплику модели: «Хочешь, я угадаю, как тебя зовут». Это позволяет не просто анимировать губы, а добиться липсинка и реалистичной сцены.
5. Длительность и формат. Если вы работаете в веб-версии, то эти настройки можно задать в окне генерации: длительность (10 секунд), разрешение (1080×1920).
Важно: формат видео в T2V задаётся в настройках — вертикальное, квадратное или горизонтальное.

Если вы используете API, то прописывайте эти данные прямо в промте.
Итоговый промт:
Scene: Evening city street with neon reflections on wet asphalt after light rain. Passing cars, glowing billboards, and pedestrians in the background create a modern urban vibe. Character: Fashionable young woman, streetwear style (oversized jacket, jeans, sneakers). She holds a can of energy drink with a bold logo. Her posture is relaxed but confident. Action + Camera: Medium profile shot at first. She takes a sip from the can, then slowly turns her head toward the camera. Camera performs a smooth dolly-in during the head turn. She faces the camera directly and pauses. Audio + Dialogue: Background audio includes muffled city traffic, occasional car horn, and distant chatter. Subtle electronic beat plays softly. As she turns to the camera, her lips sync to the line: "Хочешь, я угадаю, как тебя зовут?"
Вот результат генерации — не идеально, но очень хорошо:
Промпт для Image-to-Video (I2V)
В I2V вы оживляете готовое изображение (фото, рендер, арт). Цель — сохранить стиль и идентичность исходника и добавить контролируемую динамику: движения, лёгкая мимика, смена фона, короткая реплика. Если загрузить фото и попросить сложную сцену, модель будет «достраивать» то, чего нет, и начнёт дрейфовать.
1. Сохранение стиля и идентичности. Самое важное — задать в промпте, что нужно максимально сохранить лицо, пропорции, одежду и атмосферу картинки.
Пример: «Preserve character identity, facial features, clothing, and overall style from the input image».
2. Минимальные движения. В I2V лучше не усложнять задачу. Достаточно лёгких и естественных движений: поворот головы, моргание, небольшой жест рукой, плавный параллакс камеры.
Если описать длинный сюжет, модель «сломает» лицо или начнёт менять детали одежды.
3. Камера. Камеру нужно задавать очень аккуратно: «locked medium shot» (фиксированный план), «slight parallax movement» (минимальный параллакс), избегать «резких панорам» или «множества смен планов».
Так мы даём модели простую задачу: оживить, а не пересоздать сцену. Движение камеры также можно задать в настройках.

4. Звук и реплики. Аудио тоже работает, но лучше ограничиваться спокойными эффектами:
- атмосферный фон (город, ветер, комната),
- простая реплика (одно предложение),
- лёгкая музыка.
Если текст длинный или движение сложное, синхронизация губ ухудшается.
5. Длительность и формат. Длительность задаём в настройках генерации. Оптимально — 5–8 секунд. Чем длиннее ролик, тем выше риск «дрейфа».
Формат адаптируется по размеру исходной картинки — хотите вертикальное видео, загружайте вертикальную картинку исходник.
При работе через API: «Duration: 5s, Resolution: 1080×1920, Aspect ratio 9:16».
Итоговый промт — оживляем фото с уличного фотосета, добавляем звук и закадровый голос:
Scene: Keep the original model exactly as in the reference photo. Preserve her face, clothing, and overall style without changes. Background remains the same urban setup, with consistent neon city lights and wet asphalt atmosphere. Action + Camera: The model changes poses between shots (crosses arms, adjusts jacket, turns head slightly, shifts weight to one leg). Each new pose is marked by a bright flash of a camera. Camera stays locked in a medium shot, no movement. Audio: Clear camera shutter clicks with flashes. Ambient city noise in the background (distant traffic, muffled chatter). Confident male voice-over in Russian says: "Всегда на стиле." Subtle electronic beat supports the rhythm.
Готовые шаблоны промтов для Wan 2.5
Эти шаблоны закрывают реальные задачи: от рекламных роликов и соцсетей до мемов и трейлеров. Промпты — на английском, чтобы их можно было вставлять напрямую в Wan 2.5. В квадратных скобках отмечено то, что можно менять под свои нужды. Кстати, больше шаблонов промтов ты можешь найти в нашем ТГ-канале: «Промты — и точка».
1. Цифровой аватар / спикер
Задача: оживить фото руководителя или спикера.
Промт (i2v):
Scene: Keep the uploaded photo exactly — preserve identity, clothing, and style. Background stays neutral. Action + Camera: Medium close-up, locked shot. The person looks directly at the camera and speaks naturally. Audio + Dialogue: Clear speech in [LANGUAGE]. Dialogue: "[Вставьте нужный текст речи, например: миссию компании]".
2. Промо товара
Задача: эффектно показать продукт (банка, бутылка, гаджет) с лёгкой анимацией. Работает идеально для FMCG, косметики, техники.
Промт (i2v):
Scene: Preserve the uploaded product photo exactly — keep logo, label, colors, and material finish unchanged. Action + Camera: Locked close-up shot with minimal parallax. The product rotates slightly (no more than a few degrees), light reflection sweeps across the surface, small condensation droplets shimmer. Audio: [Укажите эффект: subtle fizz / metallic click / low electronic bass].
3. Fashion-сцена в городе
Задача: уличное промо для бренда одежды или аксессуаров.
Промт (t2v):
Scene: [Опишите локацию: night city street with neon lights / daytime modern plaza]. Character: [Опишите модель: young woman / young man] in [Стиль одежды: oversized jacket, sneakers]. Action + Camera: Walks in profile, then turns to face camera with a confident pose. Smooth dolly-in. Audio + Dialogue: [Фоновый звук: traffic / music]. Dialogue: "[Вставьте короткий слоган]".
4. Оживляем мем
Задача: взять картинку-мем и сделать короткую анимацию.
Промт (i2v):
Scene: Preserve the original meme image exactly. Action + Camera: Character blinks and raises eyebrows. Audio + Dialogue: Comedic voice line: "[Вставьте смешную фразу]" with [Эффект: pop / boing].
5. Рекламный слоган с эффектами
Задача: клип только с текстом и графикой.
Промт (t2v):
Scene: Dark background with glowing [Выберите цвет: neon lines / sparks]. Action + Camera: Text "[Вставьте рекламный слоган]" appears in bold glowing letters, surrounded by [Эффект: sparks / electric waves]. Audio: [Укажите звук: zap / energetic beat].
6. Биролл / перебивка (TikTok, Reels)
Задача: креативный переход для монтажа.
Промт (t2v):
Scene: Office desk with a laptop. Character: [Опишите героя: young professional / student] typing quickly. Action + Camera: Close-up on laptop screen. The person clicks "Send" and [Эффект: papers / emails / glowing particles] burst out of the screen toward the camera. Audio: [Эффект: paper rustle / whoosh] + faint background ambience.
7. Виртуальная съёмка интерьера
Задача: оживить фото комнаты для риелторов или дизайнеров.
Промт (i2v):
Scene: Preserve the uploaded photo of [Комната: living room / kitchen / office]. Action + Camera: Fade-in animation: lights glow, curtains move slightly, [Добавьте деталь: cat / kids / plants] appear naturally. Camera is static. Audio: [Укажите атмосферу: soft music / family sounds / cozy background noise].
8. Анимация логотипа
Задача: сделать динамичную заставку из логотипа.
Промт (i2v):
Scene: Dark gradient background. Action + Camera: The uploaded logo slowly emerges in the center. Glowing lines trace the edges, then a quick flash reveals the full design. Audio: [Звук: cinematic boom / electric spark].
9. Тизер фильма / сериала
Задача: концепт-трейлер для презентации идей.
Промт (t2v):
Scene: [Локация: Mars desert / futuristic city / dystopian ruins]. Action + Camera: Sequence of shots — (1) Wide shot of [Герои: astronauts / rebels]. (2) Interior shot of [Место: control room / lab]. (3) Close-up of [Главный персонаж: commander / scientist]. (4) [Финал: spaceship takes off / city explodes]. Audio: Cinematic orchestral score, rising tension. Voice-over: "[Вставьте эпичный слоган]".
10. Визуализация абстрактной идеи
Задача: показать метафору, например, рост бизнеса.
Промт (t2v):
Scene: A [Устройство: laptop / smartphone] on a desk in a minimal office. Action + Camera: From the [Устройство], [Метафора: glowing tree / network of lights / skyscrapers] grow upward, transforming into a global cityscape. Smooth zoom-out to show full transformation. Audio: [Музыка: inspiring ambient / cinematic rise] + [Эффект: leaves rustling / city ambience].
Как адаптировать шаблоны под себя
Логика простая, возьмите шаблон, замените переменные в скобках на свои данные, задайте длительность и формат — и у вас готов кастомный ролик под любую задачу.
— Замените переменные в квадратных скобках. Всё, что отмечено [так], можно менять: героя, продукт, фон, реплику, звук или цвет. Чем конкретнее описание — тем стабильнее результат.
— Используйте свои исходники. В режиме I2V загружайте фото продукта, логотип или портрет — тогда модель сохранит стиль и детали. В T2V исходников нет, поэтому описание должно быть максимально детализированным.
— Короткие реплики работают лучше. Если нужен липсинк, пишите реплику 1–2 предложениями. Длинные тексты часто дают рассинхрон.
— Сохраняйте простоту движения. В I2V задавайте минимальную анимацию: моргание, лёгкий поворот, вспышку. В T2V можно добавлять сложные сцены, но тоже лучше не перегружать промпт.
— Тестируйте разные форматы. Вертикальное видео (1080×1920) лучше для TikTok/Reels, горизонтальное (1920×1080) — для YouTube/презентаций, квадратное (1080×1080) — для мемов.
Коротко о главном
Wan 2.5 стал качественным шагом вперёд: теперь модель не только лучше понимает структуру промпта, но и умеет сразу генерировать звук — от фоновых шумов до живой речи. Это позволяет собирать полноценные ролики без сторонних сервисов.
Главный принцип работы остаётся простым: чем структурнее промпт, тем чище результат. Для Text-to-Video важно детально задать сцену, героя, действие камеры и звук. Для Image-to-Video — сохранить стиль исходника и добавить минимальную динамику, чтобы избежать искажений.
Больше полезных гайдов с промтами: