Американский стартап Cartesia запустил Sonic-3 — новую нейросеть генерации речи из текста, способную говорить с эмоциями и реагировать в реальном времени. Модель генерирует речь всего за 0,19 секунды, поддерживает 42 языка, умеет смеяться и менять интонацию.

Одновременно Cartesia сообщила о привлечении $100 млн инвестиций от фондов Kleiner Perkins, Index Ventures, Lightspeed и NVIDIA. Компания планирует использовать средства для масштабирования Sonic-3 и развития своей архитектуры. Подробности в материале Postium.

Реклама. Erid 2VtzqwMXQT6. ООО «Клик.ру», ИНН 7743771327. Промопульт
Реклама. Erid 2Vtzqx3YjaU. ООО «Клик.ру», ИНН 7743771327. Промопульт

Читайте также: 6 нейросетей для озвучки текста голосом

Нейросеть Sonic-3 — что это и что умеет

Главное отличие Sonic-3 от других ИИ-генераторов речи (text-to-speech) — в том, как она думает. Вместо привычных трансформеров, которые перед каждым словом пересчитывают весь предыдущий контекст, Sonic-3 построена на архитектуре State Space Models (SSM).

Эта технология позволяет модели помнить состояние разговора, а не «пересматривать» всё с начала. Благодаря этому Sonic-3 отвечает мгновенно, а речь звучит естественно и плавно, без механических пауз и «роботизированных» интонаций.

Ключевые особенности:

  • Естественность речи. Модель добавляет смех, паузы, эмоции и даже «реакции» на интонацию собеседника.
  • Скорость. Средняя латентность — 90 мс для модели и 190 мс end-to-end, что быстрее, чем у конкурентов.
  • Мультиязычность. Поддержка 42 языков, включая 9 индийских — от английского и французского до хинди и бенгали.
  • Контекстное восприятие. Sonic корректно читает акронимы и названия вроде NASA или UNESCO, «понимает» эмоциональный контекст и ритм диалога.

Sonic-3 также умеет клонировать голоса — создавать индивидуальные варианты звучания под бренд, диктора или персонажа. Это позволяет компаниям использовать единый «тон голоса» в поддержке, рекламе или интерфейсах.

Кроме естественности и скорости, Sonic-3 отличается масштабируемостью — она поддерживает потоковую генерацию, выдерживает миллионы одновременных запросов и может работать в продуктивных системах без потери качества.

Доступность: Sonic-3 уже доступен всем пользователям, включая Россию. Бесплатно дают 20 000 кредитов — хватит, чтобы протестировать модель и использовать её для личных проектов.

Минимальный платный план — от $5 в месяц, он открывает коммерческое использование и доступ к API. Нейросеть работает прямо в браузере и не требует установки.

Статья в тему: Как купить подписку на Suno AI в России

Как пользоваться нейросетью Sonic-3 и генерировать озвучку текста голосом

Проверить, как работает Sonic-3, можно прямо на сайте cartesia.ai/sonic — без установки и регистрации. Редакция Postium протестировала нейросеть и показывает, как всё выглядит изнутри.

Шаг 1. Зайдите на сайте и выберите пункт «Try for free» или нажмите любую кнопку входа в правом верхнем углу. Войти можно с помощью Google-аккаунта или аккаунта в GitHub.

Как пользоваться нейросетью Sonic-3

Шаг 2. Откроется интерфейс, где можно протестировать модель. Введите текст, который нужно озвучить. В текстовом поле напишите любую фразу — от короткого приветствия до сложного диалога. Модель понимает 42 языка, поэтому можно использовать русский, английский, испанский и другие.

Как озвучить текст голосом с помощью нейросети

Шаг 3. Выберите голос. Sonic-3 предлагает несколько вариантов — мужские и женские, с разными тембрами и стилем речи.

Выбор голоса для озвучки

При выборе голоса, для удобства используйте фильтр. Например, можно найти голоса для озвучки текста на русском языке и сразу же их прослушать. Также есть голоса, подходящие для ассистентов, дикторов, персонажей или эмоциональных сценариев.

Русские голоса для озвучки текста голосом

Шаг 4. Настройте дополнительные параметры генерации речи. Ниже, под выбором голоса можно выбрать скорость и громкость голоса, а также задать настроение: радость, грусть, удивление, смех. Это отличает Sonic-3 от обычных TTS — эмоции синтезируются естественно, без искажений.

Настройки ИИ-синтеза речи

Шаг 5. Нажмите «Speak». Модель мгновенно сгенерирует звук и начнёт говорить. Задержка минимальная — около 0,2 секунды, речь звучит плавно, без механических пауз и «роботизированных» интонаций. Здесь же можно скачать аудиодорожку — кнопка «Download».

Генерация речи по тексту

Вот, что получилось у нас (звучит очень круто и профессионально):

Также на сайте также доступен раздел Playground — «песочница» для разработчиков. Там можно протестировать потоковую генерацию речи (streaming TTS), подключить API и экспортировать результат в код.

  • через Playground — онлайн-интерфейс с настройками и примерами;
  • с функцией Voice Cloning — для создания собственного фирменного голоса;
  • в Enterprise-режиме — для корпоративных клиентов с повышенными требованиями к безопасности (SOC 2, HIPAA, PCI).

Почему это важно?

Классические системы синтеза речи — например, у ElevenLabs или OpenAI Voice Engine — основаны на трансформерах. Они анализируют всю историю разговора перед каждым новым словом, из-за чего генерация получается тяжёлой и относительно медленной.

Sonic-3 использует другую архитектуру — State Space Models (SSM). Она не пересчитывает контекст заново, а «запоминает» состояние диалога и обновляет его по мере разговора, как это делает человек. Поэтому речь звучит плавно и естественно, а ответы приходят почти мгновенно — с задержкой около 0,19 секунды, что быстрее, чем у ElevenLabs.

Такой подход особенно полезен в голосовых ассистентах, колл-центрах, медицине и сервисах бронирования, где даже небольшая пауза портит впечатление от общения.

По данным Cartesia, Sonic-3 уже используется в компаниях ServiceNow, Cresta и Decagon, где система ежемесячно обрабатывает миллионы разговоров.

Итог: По сути, Sonic-3 — это новая модель синтеза речи, которая говорит быстрее и естественнее обычных TTS-систем. Она умеет передавать эмоции и подходит для практического применения — в голосовых ассистентах, колл-центрах, сервисах поддержки или озвучке контента.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: Cartesia представила Sonic-3 — новую нейросеть для синтеза речи с эмоциями и живым интонационным звучанием
⚡ В тренде
В соцсетях резко выросло число роликов и картинок, где обычные города превращены в мягкие мини-макеты из пряжи. Дома выглядят как игрушечные, деревья — как пушистые комочки, дороги — как аккуратно вышитые полосы. Всё это напоминает диораму, которую долго и терпеливо собирали вручную. Но на самом деле такие сцены делают нейросети — достаточно одного удачного промта. […]
«Сбер» выпустил iOS-приложение чат-бота GigaChat. Оно доступно в App Store под названием G8AI, сообщили в пресс-службе компании. В приложении уже работают голосовой режим (два голоса — мужской и женский), генерация изображений и музыки, а также функция «Глубокое исследование», которая анализирует данные из нескольких источников. Читайте также: Как установить приложение ChatGPT на Айфон Что умеет iOS-версия […]
OpenAI представила новую версию своей модели — GPT-5.1, доступную в двух режимах работы: Instant и Thinking. Обновление делает ChatGPT не только умнее, но и более человечным: теперь можно выбрать стиль общения — от строгого и делового до дружелюбного или даже слегка «чудаковатого». Подробности в материале Postium. Читайте также: 10 лучших курсов по работе с ChatGPT […]
Чат-бот Grok от компании xAI теперь умеет создавать короткие видео по текстовым подсказкам. Функция работает через инструмент Imagine: пользователю достаточно описать сцену, а нейросеть сама сгенерирует ролик с движением, звуком и озвучкой. Ранее Grok Imagine умел превращать в видео только изображения — можно было «оживить» фото, добавив движение или эмоцию. Postium показывает, как работает обновление. […]
Первый сезон «Fallout» стал для Prime Video редким случаем, когда экранизация игры не просто «сработала», а задала планку. Постапокалиптика с фирменным чёрным юмором, узнаваемые детали вселенной, три равноправные линии героев — и ни грамма боязни выглядеть странно. Финал аккуратно подвёл нас к расширению карты: из компактных, но разрушенных районов пустоши — в легендарный Нью-Вегас. В […]
Блоги компаний
Новости
Свежие статьи