Стартап ElevenLabs представил новую модель генерации речи — Eleven V3 (alpha). Это самая выразительная и реалистичная TTS-модель на сегодня: она умеет передавать эмоции, интонации, паузы и даже такие детали, как шёпот, смех или кашель.

Теперь ИИ-голоса звучат по-настоящему естественно — настолько, что их сложно отличить от человеческих.

Реклама. Erid 2VtzqwMXQT6. ООО «Клик.ру», ИНН 7743771327. Промопульт
Реклама. Erid 2Vtzqx3YjaU. ООО «Клик.ру», ИНН 7743771327. Промопульт

Читайте также: 6 нейросетей для озвучки текста голосом

Что умеет Eleven V3

ИИ-озвучка наконец перестала звучать, как робот из навигатора. С Eleven V3 можно делать аудиокниги, озвучку роликов, диалоги для игр — и всё это с нужным настроением и живыми эмоциями.

Детали:

  • В тексте теперь можно задавать тон и эмоции через специальные теги: [sad], [excited], [angry], [whispers], [coughs] и т.д.
  • Модель генерирует сразу два варианта фразы, чтобы выбрать наиболее удачный.
  • Появился полноценный диалоговый режим: можно создавать сцену с несколькими голосами, без ограничений по количеству спикеров.
  • Поддерживается более 70 языков, включая русский.
  • Новая модель доступна даже бесплатным пользователям. Весь июнь генерации на V3 расходуют всего 20% кредитов — это десятки минут звука без доплат.

Как использовать: Eleven V3 — самая выразительная модель генерации речи. Но чтобы она звучала как надо, нужно уметь правильно ей «подсказывать». Вот что важно.

Выбирайте подходящий голос: если вы хотите шепот — не берите голос, обученный на крике.

Как выбрать голос

Нажав на голос, можно посмотреть его подробное описание:

Описание голоса

Настройте стабильность — переведите ползунок в нужное положение:

  • Creative — больше эмоций, но могут быть ошибки.
  • Natural — баланс между выразительностью и точностью.
  • Reliable — стабильнее, но хуже реагирует на теги.

Стабильность голоса

Используйте аудиотеги: [laughs], [whispers], [angry], [sigh], [sarcastic], [gunshot], [applause], [strong French accent] и др. Не забывайте про пунктуацию — точки, паузы и заглавные буквы влияют на ритм и интонацию.

Аудиотеги ElevenLabs

Пример: [whispers] I never knew it could be this way… [sigh] But I’m glad we’re here.

Попробовать можно уже сейчас — модель доступна в интерфейсе ElevenLabs.

Ранее ChatGPT научился читать документы из Google Диска.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: ElevenLabs выпустила Eleven V3 — теперь ИИ говорит как живой человек
⚡ В тренде
Rostic’s запустил совместную акцию со «Смешариками». В детском комбо появятся коллекционные игрушки по мотивам мультсериала — с персонажами вроде Кроша, Нюши, Ёжика, Бараша, Лосяша, Совуньи и Пина. Акция начнёт действовать 2 декабря. Комбо будет продаваться по фиксированной цене 299 ₽ в ресторанах сети. При доставке набор будет стоить 409 ₽. Запуск охватывает всю сеть по […]
Когда мы говорим о стилях в нейросетях, в голове обычно всплывают Pixar, студия Ghibli, киберпанк и всё в этом духе. Но в реальной фотографии существует не меньше узнаваемых визуальных кодов, которые позволяют делать атмосферные нейрофотосессии в Nano Banana Pro. Я собрал 10 самых узнаваемых фотостилей, которые легко переносить в генерацию. Для каждого — сделал рабочие […]
RuTube — крупная видеоплатформа с обзорным, новостным, развлекательным и экспертным контентом. И нередко ролик нужно не просто посмотреть, а сохранить: чтобы разобрать материал офлайн, использовать фрагменты в монтаже, показать коллегам или пересмотреть позже без интернета. В этом гайде — простая пошаговая инструкция, как скачать видео из RuTube на телефон и компьютер, какие способы работают стабильно […]
Если вам нужно быстро получить красивые фото товара — для соцсетей, маркетплейсов, сайта или презентации — теперь необязательно организовывать студийную съёмку, арендовать оборудование или искать фотографа. Нейросети легко закрывают эти задачи. Мы собрали лучшие инструменты и готовые промты, которые позволяют за несколько минут получать полноценные фото товаров — реалистичные, стилизованные или рекламные. Далее разбираем, чем […]
Kling представила «IMAGE O1» — это обновлённая модель для генерации и редактирования изображений. Она работает и с текстом, и с референсами, обещает высокую консистентность, точные правки и гибкую стилизацию. Модель уже выпущена и доступна пользователям на сайте Kling, а также через сторонние платформы fal.ai, WaveSpeedAI и другие. Подробнее на сайте Postium. Читайте также: 9 нейросетей […]
Блоги компаний
Новости
Свежие статьи