Американский стартап Cartesia запустил Sonic-3 — новую нейросеть генерации речи из текста, способную говорить с эмоциями и реагировать в реальном времени. Модель генерирует речь всего за 0,19 секунды, поддерживает 42 языка, умеет смеяться и менять интонацию.

Одновременно Cartesia сообщила о привлечении $100 млн инвестиций от фондов Kleiner Perkins, Index Ventures, Lightspeed и NVIDIA. Компания планирует использовать средства для масштабирования Sonic-3 и развития своей архитектуры. Подробности в материале Postium.

Реклама. Erid 2VtzquyAJcf. ООО «Клик.ру». Клик.ру
Реклама. Erid 2VtzqvfByDy. ООО «Клик.ру». Клик.ру

Читайте также: 6 нейросетей для озвучки текста голосом

Нейросеть Sonic-3 — что это и что умеет

Главное отличие Sonic-3 от других ИИ-генераторов речи (text-to-speech) — в том, как она думает. Вместо привычных трансформеров, которые перед каждым словом пересчитывают весь предыдущий контекст, Sonic-3 построена на архитектуре State Space Models (SSM).

Эта технология позволяет модели помнить состояние разговора, а не «пересматривать» всё с начала. Благодаря этому Sonic-3 отвечает мгновенно, а речь звучит естественно и плавно, без механических пауз и «роботизированных» интонаций.

Ключевые особенности:

  • Естественность речи. Модель добавляет смех, паузы, эмоции и даже «реакции» на интонацию собеседника.
  • Скорость. Средняя латентность — 90 мс для модели и 190 мс end-to-end, что быстрее, чем у конкурентов.
  • Мультиязычность. Поддержка 42 языков, включая 9 индийских — от английского и французского до хинди и бенгали.
  • Контекстное восприятие. Sonic корректно читает акронимы и названия вроде NASA или UNESCO, «понимает» эмоциональный контекст и ритм диалога.

Sonic-3 также умеет клонировать голоса — создавать индивидуальные варианты звучания под бренд, диктора или персонажа. Это позволяет компаниям использовать единый «тон голоса» в поддержке, рекламе или интерфейсах.

Кроме естественности и скорости, Sonic-3 отличается масштабируемостью — она поддерживает потоковую генерацию, выдерживает миллионы одновременных запросов и может работать в продуктивных системах без потери качества.

Доступность: Sonic-3 уже доступен всем пользователям, включая Россию. Бесплатно дают 20 000 кредитов — хватит, чтобы протестировать модель и использовать её для личных проектов.

Минимальный платный план — от $5 в месяц, он открывает коммерческое использование и доступ к API. Нейросеть работает прямо в браузере и не требует установки.

Статья в тему: Как купить подписку на Suno AI в России

Как пользоваться нейросетью Sonic-3 и генерировать озвучку текста голосом

Проверить, как работает Sonic-3, можно прямо на сайте cartesia.ai/sonic — без установки и регистрации. Редакция Postium протестировала нейросеть и показывает, как всё выглядит изнутри.

Шаг 1. Зайдите на сайте и выберите пункт «Try for free» или нажмите любую кнопку входа в правом верхнем углу. Войти можно с помощью Google-аккаунта или аккаунта в GitHub.

Как пользоваться нейросетью Sonic-3

Шаг 2. Откроется интерфейс, где можно протестировать модель. Введите текст, который нужно озвучить. В текстовом поле напишите любую фразу — от короткого приветствия до сложного диалога. Модель понимает 42 языка, поэтому можно использовать русский, английский, испанский и другие.

Как озвучить текст голосом с помощью нейросети

Шаг 3. Выберите голос. Sonic-3 предлагает несколько вариантов — мужские и женские, с разными тембрами и стилем речи.

Выбор голоса для озвучки

При выборе голоса, для удобства используйте фильтр. Например, можно найти голоса для озвучки текста на русском языке и сразу же их прослушать. Также есть голоса, подходящие для ассистентов, дикторов, персонажей или эмоциональных сценариев.

Русские голоса для озвучки текста голосом

Шаг 4. Настройте дополнительные параметры генерации речи. Ниже, под выбором голоса можно выбрать скорость и громкость голоса, а также задать настроение: радость, грусть, удивление, смех. Это отличает Sonic-3 от обычных TTS — эмоции синтезируются естественно, без искажений.

Настройки ИИ-синтеза речи

Шаг 5. Нажмите «Speak». Модель мгновенно сгенерирует звук и начнёт говорить. Задержка минимальная — около 0,2 секунды, речь звучит плавно, без механических пауз и «роботизированных» интонаций. Здесь же можно скачать аудиодорожку — кнопка «Download».

Генерация речи по тексту

Вот, что получилось у нас (звучит очень круто и профессионально):

Также на сайте также доступен раздел Playground — «песочница» для разработчиков. Там можно протестировать потоковую генерацию речи (streaming TTS), подключить API и экспортировать результат в код.

  • через Playground — онлайн-интерфейс с настройками и примерами;
  • с функцией Voice Cloning — для создания собственного фирменного голоса;
  • в Enterprise-режиме — для корпоративных клиентов с повышенными требованиями к безопасности (SOC 2, HIPAA, PCI).

Почему это важно?

Классические системы синтеза речи — например, у ElevenLabs или OpenAI Voice Engine — основаны на трансформерах. Они анализируют всю историю разговора перед каждым новым словом, из-за чего генерация получается тяжёлой и относительно медленной.

Sonic-3 использует другую архитектуру — State Space Models (SSM). Она не пересчитывает контекст заново, а «запоминает» состояние диалога и обновляет его по мере разговора, как это делает человек. Поэтому речь звучит плавно и естественно, а ответы приходят почти мгновенно — с задержкой около 0,19 секунды, что быстрее, чем у ElevenLabs.

Такой подход особенно полезен в голосовых ассистентах, колл-центрах, медицине и сервисах бронирования, где даже небольшая пауза портит впечатление от общения.

По данным Cartesia, Sonic-3 уже используется в компаниях ServiceNow, Cresta и Decagon, где система ежемесячно обрабатывает миллионы разговоров.

Итог: По сути, Sonic-3 — это новая модель синтеза речи, которая говорит быстрее и естественнее обычных TTS-систем. Она умеет передавать эмоции и подходит для практического применения — в голосовых ассистентах, колл-центрах, сервисах поддержки или озвучке контента.

⭐ Наш Telegram-канал, где мы показываем, как применять ИИ в работе: промты, кейсы, гайды и рабочие схемы. Подписывайтесь → «Промты — и точка».

⭐ Наш Telegram-канал, где мы показываем, как применять ИИ в работе: промты, кейсы, гайды и рабочие схемы. Подписывайтесь → «Промты — и точка».

Комментарии: Cartesia представила Sonic-3 — новую нейросеть для синтеза речи с эмоциями и живым интонационным звучанием
⚡ В тренде
Twitch — это не просто стримы и чат. Это возможность превратить своё увлечение играми в настоящую профессию. Представь: ты не просто играешь в любимые игры, а зарабатываешь на этом, строишь собственное комьюнити и становишься узнаваемым стримером. Звучит как мечта? На Twitch она вполне реальна. В этой статье расскажем, как быстро раскрутить канал, выйти на первую […]
Сайты с прокси – это сервисы, предоставляющие услуги прокси: использование специальных серверов, выступающих посредниками между пользователем и интернетом. Прокси-серверы позволяют сохранять анонимность в сети, увеличивают скорость доступа к некоторым ресурсам, повышают уровень защиты данных от возможных угроз. В этой статье мы разберем, какие прокси бывают и для чего используются. Рассмотрим 10 популярных сайтов с прокси. […]
История Pixar — это не просто рассказ о создании мультфильмов. Это история о том, как маленькая команда энтузиастов смогла изменить индустрию развлечений, ввести новые стандарты и доказать: даже самые амбициозные мечты достижимы. Успех Pixar — это синтез технологий, креатива и бизнес-рисков. Эта история может вдохновить не только тех, кто связан с кино или анимацией, но […]
Ищете промты для открыток ко Дню России? Нейросети могут сделать семейное поздравление по фото, портрет в праздничном образе, открытку для детей или вариант в советском стиле с достопримечательностями нужного города. В этой статье собрали готовые промты для разных форматов, а также покажем, как ими пользоваться и где лучше генерировать такие открытки. Читайте также: 25 нейросетей […]
Google добавила в Gemini Live создание и редактирование изображений во время разговора. Можно показать комнату через камеру и попросить Gemini изменить интерьер, разобрать задачу по математике или сделать мем. Функция работает в приложении Gemini через Live. Google не уточнила, у всех ли уже появился новый режим и есть ли ограничения по странам, устройствам или типам […]
Блоги компаний
Новости
Свежие статьи