Кыргызстанская технология синтеза речи вошла в мировой топ
Кыргызстанская команда разработчиков NineNineSix выпустила обновлённую версию модели синтеза речи — Kani TTS 2, которая вошла в топ-3 TTS-моделей на платформе Hugging Face, крупнейшем мировом каталоге решений в сфере искусственного интеллекта.
Как передает Caliber.Az со ссылкой на местные СМИ, новая версия стала продолжением первой модели и показала значительный технологический прогресс. Kani TTS 2 способна генерировать до 40 секунд живой речи за один проход — более чем в два раза больше по сравнению с предыдущей версией.
Ключевые улучшения Kani TTS 2:
- до 40 секунд стабильной генерации речи;
- поддержка zero-shot voice cloning (клонирование голоса по короткому аудиофрагменту);
- полностью открытая архитектура и код обучения;
- попадание в топ-3 TTS-моделей на Hugging Face.
Модель содержит около 400 млн параметров, предобучена на около 10 тыс. часов речевых данных и может работать на GPU с 3 ГБ видеопамяти, что делает её доступной для локального и серверного использования.
«Мы сделали генерацию речи стабильнее и научили модель выдавать длинные фрагменты. Для нас важно показать, что технологии мирового уровня можно создавать в Кыргызстане, поэтому мы открыли не только веса модели, но и весь код для pretrain, чтобы любая команда могла обучить TTS с нуля под свой язык», отметил сооснователь NineNineSix Нурсултан Бакашов.
Kani TTS 2 поддерживает английский, испанский и кыргызский языки, а архитектура позволяет обучать её для других языков и диалектов.
В Парке высоких технологий Кыргызстана подчеркнули, что проект демонстрирует способность местных специалистов создавать конкурентные AI-решения мирового уровня.







