Клик.ру

Клик.ру

Американский стартап Cartesia запустил Sonic-3 — новую нейросеть генерации речи из текста, способную говорить с эмоциями и реагировать в реальном времени. Модель генерирует речь всего за 0,19 секунды, поддерживает 42 языка, умеет смеяться и менять интонацию.

Одновременно Cartesia сообщила о привлечении $100 млн инвестиций от фондов Kleiner Perkins, Index Ventures, Lightspeed и NVIDIA. Компания планирует использовать средства для масштабирования Sonic-3 и развития своей архитектуры. Подробности в материале Postium.

Реклама. Erid 2VtzqwMXQT6. ООО «Клик.ру», ИНН 7743771327. Промопульт
Реклама. Erid 2Vtzqx3YjaU. ООО «Клик.ру», ИНН 7743771327.

Читайте также: 6 нейросетей для озвучки текста голосом

Нейросеть Sonic-3 — что это и что умеет

Главное отличие Sonic-3 от других ИИ-генераторов речи (text-to-speech) — в том, как она думает. Вместо привычных трансформеров, которые перед каждым словом пересчитывают весь предыдущий контекст, Sonic-3 построена на архитектуре State Space Models (SSM).

Эта технология позволяет модели помнить состояние разговора, а не «пересматривать» всё с начала. Благодаря этому Sonic-3 отвечает мгновенно, а речь звучит естественно и плавно, без механических пауз и «роботизированных» интонаций.

Ключевые особенности:

  • Естественность речи. Модель добавляет смех, паузы, эмоции и даже «реакции» на интонацию собеседника.
  • Скорость. Средняя латентность — 90 мс для модели и 190 мс end-to-end, что быстрее, чем у конкурентов.
  • Мультиязычность. Поддержка 42 языков, включая 9 индийских — от английского и французского до хинди и бенгали.
  • Контекстное восприятие. Sonic корректно читает акронимы и названия вроде NASA или UNESCO, «понимает» эмоциональный контекст и ритм диалога.

Sonic-3 также умеет клонировать голоса — создавать индивидуальные варианты звучания под бренд, диктора или персонажа. Это позволяет компаниям использовать единый «тон голоса» в поддержке, рекламе или интерфейсах.

Кроме естественности и скорости, Sonic-3 отличается масштабируемостью — она поддерживает потоковую генерацию, выдерживает миллионы одновременных запросов и может работать в продуктивных системах без потери качества.

Доступность: Sonic-3 уже доступен всем пользователям, включая Россию. Бесплатно дают 20 000 кредитов — хватит, чтобы протестировать модель и использовать её для личных проектов.

Минимальный платный план — от $5 в месяц, он открывает коммерческое использование и доступ к API. Нейросеть работает прямо в браузере и не требует установки.

Статья в тему: Как купить подписку на Suno AI в России

Как пользоваться нейросетью Sonic-3 и генерировать озвучку текста голосом

Проверить, как работает Sonic-3, можно прямо на сайте cartesia.ai/sonic — без установки и регистрации. Редакция Postium протестировала нейросеть и показывает, как всё выглядит изнутри.

Шаг 1. Зайдите на сайте и выберите пункт «Try for free» или нажмите любую кнопку входа в правом верхнем углу. Войти можно с помощью Google-аккаунта или аккаунта в GitHub.

Как пользоваться нейросетью Sonic-3

Шаг 2. Откроется интерфейс, где можно протестировать модель. Введите текст, который нужно озвучить. В текстовом поле напишите любую фразу — от короткого приветствия до сложного диалога. Модель понимает 42 языка, поэтому можно использовать русский, английский, испанский и другие.

Как озвучить текст голосом с помощью нейросети

Шаг 3. Выберите голос. Sonic-3 предлагает несколько вариантов — мужские и женские, с разными тембрами и стилем речи.

Выбор голоса для озвучки

При выборе голоса, для удобства используйте фильтр. Например, можно найти голоса для озвучки текста на русском языке и сразу же их прослушать. Также есть голоса, подходящие для ассистентов, дикторов, персонажей или эмоциональных сценариев.

Русские голоса для озвучки текста голосом

Шаг 4. Настройте дополнительные параметры генерации речи. Ниже, под выбором голоса можно выбрать скорость и громкость голоса, а также задать настроение: радость, грусть, удивление, смех. Это отличает Sonic-3 от обычных TTS — эмоции синтезируются естественно, без искажений.

Настройки ИИ-синтеза речи

Шаг 5. Нажмите «Speak». Модель мгновенно сгенерирует звук и начнёт говорить. Задержка минимальная — около 0,2 секунды, речь звучит плавно, без механических пауз и «роботизированных» интонаций. Здесь же можно скачать аудиодорожку — кнопка «Download».

Генерация речи по тексту

Вот, что получилось у нас (звучит очень круто и профессионально):

Также на сайте также доступен раздел Playground — «песочница» для разработчиков. Там можно протестировать потоковую генерацию речи (streaming TTS), подключить API и экспортировать результат в код.

  • через Playground — онлайн-интерфейс с настройками и примерами;
  • с функцией Voice Cloning — для создания собственного фирменного голоса;
  • в Enterprise-режиме — для корпоративных клиентов с повышенными требованиями к безопасности (SOC 2, HIPAA, PCI).

Почему это важно?

Классические системы синтеза речи — например, у ElevenLabs или OpenAI Voice Engine — основаны на трансформерах. Они анализируют всю историю разговора перед каждым новым словом, из-за чего генерация получается тяжёлой и относительно медленной.

Sonic-3 использует другую архитектуру — State Space Models (SSM). Она не пересчитывает контекст заново, а «запоминает» состояние диалога и обновляет его по мере разговора, как это делает человек. Поэтому речь звучит плавно и естественно, а ответы приходят почти мгновенно — с задержкой около 0,19 секунды, что быстрее, чем у ElevenLabs.

Такой подход особенно полезен в голосовых ассистентах, колл-центрах, медицине и сервисах бронирования, где даже небольшая пауза портит впечатление от общения.

По данным Cartesia, Sonic-3 уже используется в компаниях ServiceNow, Cresta и Decagon, где система ежемесячно обрабатывает миллионы разговоров.

Итог: По сути, Sonic-3 — это новая модель синтеза речи, которая говорит быстрее и естественнее обычных TTS-систем. Она умеет передавать эмоции и подходит для практического применения — в голосовых ассистентах, колл-центрах, сервисах поддержки или озвучке контента.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: Cartesia представила Sonic-3 — новую нейросеть для синтеза речи с эмоциями и живым интонационным звучанием
⚡ В тренде
Просмотры Reels – один из самых важных показателей в Инстаграм*. Позволяет понять, насколько вы интересны широкой аудитории и можете следовать трендам. Рассказываем, от чего зависит количество просмотров и как можно повысить просмотры Reels. Какой контент снимать, как мотивировать зрителей смотреть ваши ролики. В завершении разберём, почему ролики могут не залетать и набирать мало просмотров, и […]
За последние годы в российском сегменте интернета изменился доступ к ряду зарубежных онлайн-сервисов. Некоторые платформы работают с ограничениями, часть сайтов и приложений заблокирована в России, а отдельные компании добровольно покинули рынок. Ниже — актуальный список изменений и блокировок, материал будет обновляться. Читайте также: Аналоги Телеграм и WhatsApp для звонков Что заблокировано в России? Полная блокировка […]
Какой рекламный оффер – такие и продажи. Порой нужно лишь немного изменить оффер, чтобы продажи выросли в несколько раз. Проверьте, соответствуют ли ваши офферы этим принципам. Продающий оффер — это не просто описание продукта, а чёткий ответ на вопрос, почему клиенту стоит купить именно сейчас и именно у вас. Сильный оффер всегда сочетает выгоду, конкретику […]
Роскомнадзор официально подтвердил замедление работы Telegram в России. Заявление ведомства опубликовано 10 февраля: ограничения вводятся «по решению уполномоченных органов» и носят последовательный характер. Замедление затрагивает весь входящий и исходящий трафик сервиса на территории России. Ограничения действуют на сетях всех мобильных операторов и провайдеров проводного интернета. Читайте также: Что заблокировано в России? Почему Telegram замедляют и […]
Компания ByteDance выпустила Seedance 2.0 — обновлённую модель для генерации видео. Это уже не просто text-to-video: нейросеть умеет собирать ролик из нескольких сцен, делать осмысленные склейки, добавлять звук и сохранять визуальную консистентность от кадра к кадру. Модель уже доступна на китайской платформе Jimeng AI (Dreamina) и в видеоредакторе Jianying (аналог CapCut). Доступ открыт для платных […]
Блоги компаний
Новости
Свежие статьи