Американский стартап Cartesia запустил Sonic-3 — новую нейросеть генерации речи из текста, способную говорить с эмоциями и реагировать в реальном времени. Модель генерирует речь всего за 0,19 секунды, поддерживает 42 языка, умеет смеяться и менять интонацию.

Одновременно Cartesia сообщила о привлечении $100 млн инвестиций от фондов Kleiner Perkins, Index Ventures, Lightspeed и NVIDIA. Компания планирует использовать средства для масштабирования Sonic-3 и развития своей архитектуры. Подробности в материале Postium.

Реклама. Erid 2VtzquyAJcf. ООО «Клик.ру». Клик.ру
Реклама. Erid 2VtzqvfByDy. ООО «Клик.ру». Клик.ру

Читайте также: 6 нейросетей для озвучки текста голосом

Нейросеть Sonic-3 — что это и что умеет

Главное отличие Sonic-3 от других ИИ-генераторов речи (text-to-speech) — в том, как она думает. Вместо привычных трансформеров, которые перед каждым словом пересчитывают весь предыдущий контекст, Sonic-3 построена на архитектуре State Space Models (SSM).

Эта технология позволяет модели помнить состояние разговора, а не «пересматривать» всё с начала. Благодаря этому Sonic-3 отвечает мгновенно, а речь звучит естественно и плавно, без механических пауз и «роботизированных» интонаций.

Ключевые особенности:

  • Естественность речи. Модель добавляет смех, паузы, эмоции и даже «реакции» на интонацию собеседника.
  • Скорость. Средняя латентность — 90 мс для модели и 190 мс end-to-end, что быстрее, чем у конкурентов.
  • Мультиязычность. Поддержка 42 языков, включая 9 индийских — от английского и французского до хинди и бенгали.
  • Контекстное восприятие. Sonic корректно читает акронимы и названия вроде NASA или UNESCO, «понимает» эмоциональный контекст и ритм диалога.

Sonic-3 также умеет клонировать голоса — создавать индивидуальные варианты звучания под бренд, диктора или персонажа. Это позволяет компаниям использовать единый «тон голоса» в поддержке, рекламе или интерфейсах.

Кроме естественности и скорости, Sonic-3 отличается масштабируемостью — она поддерживает потоковую генерацию, выдерживает миллионы одновременных запросов и может работать в продуктивных системах без потери качества.

Доступность: Sonic-3 уже доступен всем пользователям, включая Россию. Бесплатно дают 20 000 кредитов — хватит, чтобы протестировать модель и использовать её для личных проектов.

Минимальный платный план — от $5 в месяц, он открывает коммерческое использование и доступ к API. Нейросеть работает прямо в браузере и не требует установки.

Статья в тему: Как купить подписку на Suno AI в России

Как пользоваться нейросетью Sonic-3 и генерировать озвучку текста голосом

Проверить, как работает Sonic-3, можно прямо на сайте cartesia.ai/sonic — без установки и регистрации. Редакция Postium протестировала нейросеть и показывает, как всё выглядит изнутри.

Шаг 1. Зайдите на сайте и выберите пункт «Try for free» или нажмите любую кнопку входа в правом верхнем углу. Войти можно с помощью Google-аккаунта или аккаунта в GitHub.

Как пользоваться нейросетью Sonic-3

Шаг 2. Откроется интерфейс, где можно протестировать модель. Введите текст, который нужно озвучить. В текстовом поле напишите любую фразу — от короткого приветствия до сложного диалога. Модель понимает 42 языка, поэтому можно использовать русский, английский, испанский и другие.

Как озвучить текст голосом с помощью нейросети

Шаг 3. Выберите голос. Sonic-3 предлагает несколько вариантов — мужские и женские, с разными тембрами и стилем речи.

Выбор голоса для озвучки

При выборе голоса, для удобства используйте фильтр. Например, можно найти голоса для озвучки текста на русском языке и сразу же их прослушать. Также есть голоса, подходящие для ассистентов, дикторов, персонажей или эмоциональных сценариев.

Русские голоса для озвучки текста голосом

Шаг 4. Настройте дополнительные параметры генерации речи. Ниже, под выбором голоса можно выбрать скорость и громкость голоса, а также задать настроение: радость, грусть, удивление, смех. Это отличает Sonic-3 от обычных TTS — эмоции синтезируются естественно, без искажений.

Настройки ИИ-синтеза речи

Шаг 5. Нажмите «Speak». Модель мгновенно сгенерирует звук и начнёт говорить. Задержка минимальная — около 0,2 секунды, речь звучит плавно, без механических пауз и «роботизированных» интонаций. Здесь же можно скачать аудиодорожку — кнопка «Download».

Генерация речи по тексту

Вот, что получилось у нас (звучит очень круто и профессионально):

Также на сайте также доступен раздел Playground — «песочница» для разработчиков. Там можно протестировать потоковую генерацию речи (streaming TTS), подключить API и экспортировать результат в код.

  • через Playground — онлайн-интерфейс с настройками и примерами;
  • с функцией Voice Cloning — для создания собственного фирменного голоса;
  • в Enterprise-режиме — для корпоративных клиентов с повышенными требованиями к безопасности (SOC 2, HIPAA, PCI).

Почему это важно?

Классические системы синтеза речи — например, у ElevenLabs или OpenAI Voice Engine — основаны на трансформерах. Они анализируют всю историю разговора перед каждым новым словом, из-за чего генерация получается тяжёлой и относительно медленной.

Sonic-3 использует другую архитектуру — State Space Models (SSM). Она не пересчитывает контекст заново, а «запоминает» состояние диалога и обновляет его по мере разговора, как это делает человек. Поэтому речь звучит плавно и естественно, а ответы приходят почти мгновенно — с задержкой около 0,19 секунды, что быстрее, чем у ElevenLabs.

Такой подход особенно полезен в голосовых ассистентах, колл-центрах, медицине и сервисах бронирования, где даже небольшая пауза портит впечатление от общения.

По данным Cartesia, Sonic-3 уже используется в компаниях ServiceNow, Cresta и Decagon, где система ежемесячно обрабатывает миллионы разговоров.

Итог: По сути, Sonic-3 — это новая модель синтеза речи, которая говорит быстрее и естественнее обычных TTS-систем. Она умеет передавать эмоции и подходит для практического применения — в голосовых ассистентах, колл-центрах, сервисах поддержки или озвучке контента.

⭐ Наш Telegram-канал, где мы показываем, как применять ИИ в работе: промты, кейсы, гайды и рабочие схемы. Подписывайтесь → «Промты — и точка».

⭐ Наш Telegram-канал, где мы показываем, как применять ИИ в работе: промты, кейсы, гайды и рабочие схемы. Подписывайтесь → «Промты — и точка».

Комментарии: Cartesia представила Sonic-3 — новую нейросеть для синтеза речи с эмоциями и живым интонационным звучанием
⚡ В тренде
В Instagram* есть настройка, которая позволяет скрыть количество просмотров Reels во вкладке профиля. Она убирает цифру с карточек коротких видео, которые видят посетители аккаунта. При этом, опция не отключает статистику для самого автора. Просмотры по-прежнему доступны во внутренней аналитике, а ограничение касается публичного счётчика в профиле. Читайте также: Как набирать больше просмотров в Reels Как […]
Сайты с прокси – это сервисы, предоставляющие услуги прокси: использование специальных серверов, выступающих посредниками между пользователем и интернетом. Прокси-серверы позволяют сохранять анонимность в сети, увеличивают скорость доступа к некоторым ресурсам, повышают уровень защиты данных от возможных угроз. В этой статье мы разберем, какие прокси бывают и для чего используются. Рассмотрим 10 популярных сайтов с прокси. […]
OpenAI начала запускать сброс лимитов в Codex. Теперь пользователь сможет восстановить лимит вручную и продолжить работу, если упёрся в ограничение. На старте OpenAI выдаёт по одному бесплатному сбросу пользователям тарифов Go, Plus, Pro и Business. Функция разворачивается постепенно, поэтому у части аккаунтов она может появиться позже. Детали в материале Postium. Читайте также: 20 ии-агентов для […]
Мы уже рассказывали, что такое Codex и зачем он нужен. Если кратко, это ИИ-агент OpenAI для работы с кодом, файлами и контентом. С его помощью можно писать и редактировать код, создавать документы, работать с текстами и медиа. В отличие от обычного чата, Codex лучше удерживает контекст и может работать с файлами на компьютере. У Codex […]
Codex от OpenAI — ИИ-агент для локальной и облачной работы с кодом на базе моделей семейства GPT-5. Также в последнее время OpenAI позиционирует его как универсального агента для работы с креативом, документами и автоматизации рутинных задач. В обычном ChatGPT вы пишете запрос и получаете ответ. Codex работает иначе: ему ставят задачу, а способ решения он […]
Блоги компаний
Новости
Свежие статьи