MiniMax выпустила Speech 2.6 — быструю нейросеть для озвучки текста голосом

Компания Hailuo AI (MiniMax) представила новую версию своей ИИ-модели синтеза речи — MiniMax Speech 2.6.

Разработчики называют её «ультрабыстрой, естественной и умной»: задержка отклика составляет менее 250 миллисекунд, речь звучит максимально естественно, а система умеет корректно произносить адреса, даты и числа. Postium подготовил обзор обновления.

Реклама. Erid 2VtzquyAJcf. ООО «Клик.ру».

Реклама. Erid 2VtzqvfByDy. ООО «Клик.ру».

Что умеет нейросеть MiniMax Speech 2.6

Speech 2.6 работает через Text-to-Audio API (T2A) — интерфейс, который преобразует текст в речь в реальном времени.

Ключевые возможности:

до 10 000 символов в одном запросе;
поддержка потокового синтеза (streaming) — речь генерируется «на лету», без ожидания конца запроса;
300+ готовых голосов и возможность клонировать собственный;
гибкие настройки громкости, тембра, скорости и высоты тона;
поддержка популярных аудиоформатов — mp3, pcm, flac, wav (последний доступен вне стриминга);
пропорциональное аудиомикширование — можно совмещать несколько дорожек или озвучек в одном потоке.

Система полностью статична и безопасна: модель не хранит пользовательские данные и не использует контекст прошлых запросов.

Новые модели. MiniMax представила несколько версий движка:

speech-2.6-hd — улучшенное качество озвучки и точность при клонировании;
speech-2.6-turbo — оптимизированная скорость и поддержка 40 языков.

Мультиязычность. Speech 2.6 поддерживает 40 языков, включая русский, английский, китайский, французский, арабский, испанский, японский и корейский. Модель может говорить на нескольких языках в одном предложении.

Доступность. Speech 2.6 уже доступна через официальный сайт MiniMax и в разделе API-документации компании. Разработчики могут протестировать сервис прямо сейчас — через HTTP или WebSocket-запросы, либо подключить готовый MCP-сервер на Python или JavaScript.

Интерфейс и документация доступны на английском и китайском языках, мультиязычный синтез речи работает во всех регионах, включая Россию.

Как пользоваться MiniMax Speech 2.6

На сайте MiniMax доступен простой и понятный интерфейс для генерации озвучки, без кода и настройки API. Всё работает прямо в браузере — на сайте.

1. Введите текст. В центральном поле «Speech Synthesis» напишите текст, который хотите озвучить. Система автоматически определяет язык (например, русский, английский или китайский).

Поддерживаются тексты до 5 000 символов — можно включить режим Long Text для длинных записей.

2. Выберите модель. В верхней панели задаётся модель синтеза — по умолчанию speech-2.6-hd. Она обеспечивает максимальную реалистичность и естественную интонацию.

3. Настройте голос. Справа в блоке Settings выберите голос (например, Radiant Girl или Man With Deep Voice).

Можно задать:

Emotion — эмоциональный стиль (нейтральный, радостный, драматичный и т. д.);
Speed — скорость речи;
Pitch — высоту тона;
Volume — громкость.

Некоторые параметры, отмеченные как Limited-time Free, доступны бесплатно в тестовом режиме.

4. Генерация и прослушивание. Нажмите Generate, и через несколько секунд MiniMax создаст готовый аудиофайл.

5. Внизу появится проигрыватель, где можно: прослушать результат, скачать его, оценить (лайк/дизлайк) и добавить в закладки.

Дополнительно: В боковом меню доступны инструменты Voice Clone (создание клона голоса), Voice Design (настройка тембра и интонации) и Voice Isolator (очистка записей).

Таким образом, MiniMax Speech 2.6 подходит как для быстрого озвучивания текста, так и для профессиональной работы с голосами, рекламой и интерактивными проектами.

Почему это важно? MiniMax активно расширяет экосистему ИИ-сервисов. В октябре компания представила MiniMax-M2 — открытую модель на 230 млрд параметров для умных агентов, а также Hailuo 2.3 — обновлённый генератор видео с реалистичными эмоциями и движением.

Релиз Speech 2.6 дополняет эту линейку, превращая MiniMax в платформу полного цикла — текст, голос и видео в одном ИИ-стеке.

Итог: MiniMax Speech 2.6 позволяет за несколько минут получить реалистичную озвучку — будь то диктор для видео, голос чат-бота или аудиоурок. Всё настраивается прямо в веб-интерфейсе, без сложной интеграции.

Это одно из самых продвинутых решений в сфере синтеза речи: быстрая реакция, естественная интонация, клон-голоса и поддержка 40 языков делают её конкурентом ElevenLabs, OpenAI Voice, Microsoft TTS и новой Sonic-3.

⭐ Наш Telegram-канал, где мы показываем, как применять ИИ в работе: промты, кейсы, гайды и рабочие схемы. Подписывайтесь → «Промты — и точка».

Тэги MiniMax Нейросети