Ученые Назарбаев Университета разработали технологию распознавания речи для тюркских языков

30 января 2023 #Наука

Ученые Назарбаев Университета разработали технологию распознавания речи для тюркских языков

30 января 2023

Поделиться этой статьей

Новая технология распознает речь на казахском и 9 других тюркских языках.

Автоматическое распознавание речи - это технология преобразования человеческой речи в текст по примеру голосовых помощников Siri и Alexa, виртуальных ассистентов и систем диктовки. Ученые Института умных систем и искусственного интеллекта Назарбаев Университета (NU ISSAI) разработали новую модель, которая распознает речь десяти тюркских языков — казахский, азербайджанский, башкирский, киргизский, саха, татарский, турецкий, уйгурский, узбекский и чувашский. В дополнение к ним технология распознает английскую и русскую речь.

«Нашей целью было разработать модель распознавания речи для тюркских языков, для большинства из которых существует очень мало речевых данных в открытом доступе в интернете. Используя общие черты тюркских языков с точки зрения лексики, фонологии и морфологии, мы хотели разработать первую общую и надежную многоязычную модель, в которой бы десять тюркских языков взаимно дополняли друг друга», - сообщила аналитик данных NU ISSAI Саида Мусаходжаева.

В процессе распознавания речи технология совершает минимум ошибок. «Для башкирского, казахского, татарского, турецкого, уйгурского и узбекского языков процент ошибок в символах составляет менее 5%. Модель использует преимущества сходства тюркских языков. Этих результатов было бы невозможно достичь, если бы мы создали отдельные модели для каждого языка», - пояснил студент 4 курса NU Кайсар Даулетбек.

Многоязычная модель распознавания речи NU ISSAI может быть свободно протестирована на сайте Института. В свободном доступе можно также найти все разработанные модели, базы данных и коды, использованные в проекте.

«Мы считаем, что наиболее важным результатом этих проектов является подготовка высококвалифицированных технических экспертов, которые будут не только стимулировать технологическое развитие Казахстана, но и охотно делиться и применять свои профессиональные знания и опыт для продвижения технологий в других странах, создавая возможности для будущих поколений», - отметил профессор NU Хусейн Атакан Варол, директор-основатель ISSAI.

Ученые Института уже добились успеха в создании первых корпусов казахской речи с открытым исходным кодом (KSC и KSC2), крупномасштабных корпусов преобразования текста в речь на казахском языке с открытым исходным кодом (KazakhTTS и KazakhTTS2), а также крупнейшего открытого набора данных для распознавания именованных объектов на казахском языке (KazNERD).

«Институт прилагает значительные усилия для продвижения казахского языка в цифровом мире. Однако интерес нашего Института к языку и речевым технологиям распространяется и на другие тюркские языки. Наш Институт станет одним из ведущих научных центров искусственного интеллекта и науки о данных в тюркском мире и Евразии», - считает профессор Варол.