В сентябре прошлого года  Назарбаев Университет отметил свой первый юбилей 10 лет. К этой дате Институт умных систем и искусственного интеллекта (ISSAI) приурочил запуск проекта по распознаванию казахской речи.

Мы поговорили с создателями проекта о проделанной работе и том, какую пользу обществу принесет разработанная ими технология.

Известно, что проект уже заинтересовал крупные компании, исследовательские центры и университеты, которые скачали базу данных. В их числе — Google Inc., Yandex, Kaspi.kz, Beeline, BTS Digital, Satpayev University, Suleyman Demirel University, Фонд поддержки исследований и разработок в сфере искусственного интеллекта Назарбаев Университета, КБТУ, Московский физико-технический институт, Swarthmore College, University of Taiwan, Politecnico di Torino, Beijing Language and Culture University, Xinjiang University, University of Edinburgh и другие.

По словам команды разработчиков, с помощью проекта казахский язык внедрится в глобальное цифровое пространство. Ученые собрали самую большую базу голосовых данных на казахском языке — Корпус казахской речи. Он состоит из 330 часов записанной речи более двух тысяч человек. 

«Данные собирались около четырех месяцев в 2020 году с помощью краудсорсинга. Желающие записать свой голос заходили на специальную страницу нашего сайта и при нажатии кнопки «старт» должны были произносить вслух предложения на казахском языке, которые появлялись на экране. Произнесенные предложения автоматически записывались и сохранялись в нашу базу данных — Корпус казахской речи. Далее специально нанятые специалисты вручную обрабатывали и «чистили» собранные записи на предмет ошибок, неправильно или нечетко произнесенных слов. В общем было собрано более 150 тыс. произнесенных фраз от более чем двух тысяч людей из разных регионов РК и разных возрастных групп», — рассказали создатели технологии. 

Благодаря проекту ученых ISSAI виртуальные помощники, например, Siri или Алиса в будущем смогут распознавать казахскую речь. Это касается и технологий «умного дома». Разработчики добавили, что их проект может помочь людям с ограниченными возможностями, которые используют голосовые и текстовые программы. 

«Прежде отсутствие достаточно большой базы голосовых данных на казахском языке было препятствием для его применения в цифровом мире, поэтому мы и инициировали этот проект. Сейчас мы готовы поделиться собранной базой данных казахской речи со всеми исследователями и цифровыми предпринимателями, чтобы максимизировать его положительное влияние на экономику и общество страны», — рассказали ученые.

По их словам, много времени и сил ушло на правильное распределение участников проекта. Для него требовалось привлечь как можно больше людей из всех регионов страны с разными диалектами, чтобы система идеально адаптировалась под разные акценты и варианты речи. Не менее важным было гендерное и возрастное распределение участников.

«Другая сложность заключалась в практике переключения между казахским и русским языками, распространенной в повседневном общении, поскольку большинство казахов являются двуязычными. В основном практикуется переключение языка между предложениями или словами, но также возможно переключение языка внутри слова. Например, можно сказать "Мен магазинге бардым" — "Я пошел в магазин", где русское слово "магазин" дополнено казахским словоизменением "-ге", представляющим предлог "в"», — объяснили эксперты из ISSAI. 

База голосовых данных на казахском языке находится  в открытом доступе для компаний или исследователей, которые планируют использовать ее для разработок программ распознавания и синтеза речи. Кроме того, на сайте доступна демо-версия программы. В ней любой желающий может произнести казахскую речь и увидеть, как на экране отобразятся произнесенные слова.

Кто работал над проектом?

Ерболат Хасанов — постдокторант Института умных систем и искусственного интеллекта Назарбаев Университета. Окончил Наньянский технологический университет в Сингапуре по специальности «компьютерная инженерия», а также получил степень доктора наук в том же университете по специальности «компьютерные науки». 

Научные интересы: распознавание речи, моделирование речи/языка, обработка естественного языка (NLP).

Фото: пресс-служба Назарбаев Университета

Саида Мусаходжаева — аналитик данных Института умных систем и искусственного интеллекта Назарбаев Университета. Получила степень магистра в ведущем корейском научно-технологическом институте. 

Научные интересы: глубокое обучение и его применение в обработке естественного языка (NLP); распознавание речи.

Фото: пресс-служба Назарбаев Университета

Алмас Мырзахметов — компьютерный инженер Института умных систем и искусственного интеллекта Назарбаев Университета. Окончил РУДН по специальности «Прикладная математика и информатика». 

Научные интересы: машинное обучение, веб-разработка.

Фото: пресс-служба Назарбаев Университета

Ален Адиев — студент кафедры математики в Назарбаев Университете, научный сотрудник Института умных систем и искусственного интеллекта Назарбаев Университета.

Научные интересы: машинное обучение, распознавание речи, глубокие нейронные сети.

Фото: пресс-служба Назарбаев Университета

Мухамет Нурпеисов — аналитик данных Института умных систем и искусственного интеллекта Назарбаев Университета. Получил степень магистра и бакалавра по специальности «Робототехника и мехатроника» в Назарбаев Университете.

Научные интересы: машинное обучение.

Фото: пресс-служба Назарбаев Университета

Доктор Атакан Варол — директор  и основатель Института умных систем и искусственного интеллекта Назарбаев Университета; профессор и заведующий кафедрой робототехники и мехатроники Назарбаев Университета. 

Научные интересы: биомехатроника, мягкая робототехника, машинное обучение, интеллектуальные системы и тенсегрити.

Источник: yvision.kz

 


Читайте также: 

Как ситуация с Alibaba отразилась на технологических компаниях Китая?

Малоподвижный образ жизни повышает риск смерти от Covid-19

Microsoft приобретает программу по распознаванию речи за 16 млрд долларов