Компания Hailuo AI (MiniMax) представила новую версию своей ИИ-модели синтеза речи — MiniMax Speech 2.6.
Разработчики называют её «ультрабыстрой, естественной и умной»: задержка отклика составляет менее 250 миллисекунд, речь звучит максимально естественно, а система умеет корректно произносить адреса, даты и числа. Postium подготовил обзор обновления.
Читайте также: 5 нейросетей для озвучки текста голосом
Что умеет нейросеть MiniMax Speech 2.6
Speech 2.6 работает через Text-to-Audio API (T2A) — интерфейс, который преобразует текст в речь в реальном времени.
Ключевые возможности:
- до 10 000 символов в одном запросе;
- поддержка потокового синтеза (streaming) — речь генерируется «на лету», без ожидания конца запроса;
- 300+ готовых голосов и возможность клонировать собственный;
- гибкие настройки громкости, тембра, скорости и высоты тона;
- поддержка популярных аудиоформатов — mp3, pcm, flac, wav (последний доступен вне стриминга);
- пропорциональное аудиомикширование — можно совмещать несколько дорожек или озвучек в одном потоке.
Система полностью статична и безопасна: модель не хранит пользовательские данные и не использует контекст прошлых запросов.
Новые модели. MiniMax представила несколько версий движка:
- speech-2.6-hd — улучшенное качество озвучки и точность при клонировании;
- speech-2.6-turbo — оптимизированная скорость и поддержка 40 языков.
Мультиязычность. Speech 2.6 поддерживает 40 языков, включая русский, английский, китайский, французский, арабский, испанский, японский и корейский. Модель может говорить на нескольких языках в одном предложении.
Доступность. Speech 2.6 уже доступна через официальный сайт MiniMax и в разделе API-документации компании. Разработчики могут протестировать сервис прямо сейчас — через HTTP или WebSocket-запросы, либо подключить готовый MCP-сервер на Python или JavaScript.
Интерфейс и документация доступны на английском и китайском языках, мультиязычный синтез речи работает во всех регионах, включая Россию.
Как пользоваться MiniMax Speech 2.6
На сайте MiniMax доступен простой и понятный интерфейс для генерации озвучки, без кода и настройки API. Всё работает прямо в браузере — на сайте.
1. Введите текст. В центральном поле «Speech Synthesis» напишите текст, который хотите озвучить. Система автоматически определяет язык (например, русский, английский или китайский).

Поддерживаются тексты до 5 000 символов — можно включить режим Long Text для длинных записей.
2. Выберите модель. В верхней панели задаётся модель синтеза — по умолчанию speech-2.6-hd. Она обеспечивает максимальную реалистичность и естественную интонацию.
3. Настройте голос. Справа в блоке Settings выберите голос (например, Radiant Girl или Man With Deep Voice).
Можно задать:
- Emotion — эмоциональный стиль (нейтральный, радостный, драматичный и т. д.);
- Speed — скорость речи;
- Pitch — высоту тона;
- Volume — громкость.
Некоторые параметры, отмеченные как Limited-time Free, доступны бесплатно в тестовом режиме.
4. Генерация и прослушивание. Нажмите Generate, и через несколько секунд MiniMax создаст готовый аудиофайл.
5. Внизу появится проигрыватель, где можно: прослушать результат, скачать его, оценить (лайк/дизлайк) и добавить в закладки.
Дополнительно: В боковом меню доступны инструменты Voice Clone (создание клона голоса), Voice Design (настройка тембра и интонации) и Voice Isolator (очистка записей).
Таким образом, MiniMax Speech 2.6 подходит как для быстрого озвучивания текста, так и для профессиональной работы с голосами, рекламой и интерактивными проектами.
Почему это важно? MiniMax активно расширяет экосистему ИИ-сервисов. В октябре компания представила MiniMax-M2 — открытую модель на 230 млрд параметров для умных агентов, а также Hailuo 2.3 — обновлённый генератор видео с реалистичными эмоциями и движением.
Релиз Speech 2.6 дополняет эту линейку, превращая MiniMax в платформу полного цикла — текст, голос и видео в одном ИИ-стеке.
Итог: MiniMax Speech 2.6 позволяет за несколько минут получить реалистичную озвучку — будь то диктор для видео, голос чат-бота или аудиоурок. Всё настраивается прямо в веб-интерфейсе, без сложной интеграции.
Это одно из самых продвинутых решений в сфере синтеза речи: быстрая реакция, естественная интонация, клон-голоса и поддержка 40 языков делают её конкурентом ElevenLabs, OpenAI Voice, Microsoft TTS и новой Sonic-3.