Siri и Алиса могут заговорить на казахском: как ученые НУ создали проект по распознаванию речи

4 минуты Наиля Галеева
Siri и Алиса могут заговорить на казахском: как ученые НУ создали проект по распознаванию речи

В сентябре прошлого года  Назарбаев Университет отметил свой первый юбилей 10 лет. К этой дате Институт умных систем и искусственного интеллекта (ISSAI) приурочил запуск проекта по распознаванию казахской речи.

Мы поговорили с создателями проекта о проделанной работе и том, какую пользу обществу принесет разработанная ими технология.

Известно, что проект уже заинтересовал крупные компании, исследовательские центры и университеты, которые скачали базу данных. В их числе — Google Inc., Yandex, Kaspi.kz, Beeline, BTS Digital, Satpayev University, Suleyman Demirel University, Фонд поддержки исследований и разработок в сфере искусственного интеллекта Назарбаев Университета, КБТУ, Московский физико-технический институт, Swarthmore College, University of Taiwan, Politecnico di Torino, Beijing Language and Culture University, Xinjiang University, University of Edinburgh и другие.

По словам команды разработчиков, с помощью проекта казахский язык внедрится в глобальное цифровое пространство. Ученые собрали самую большую базу голосовых данных на казахском языке — Корпус казахской речи. Он состоит из 330 часов записанной речи более двух тысяч человек. 

«Данные собирались около четырех месяцев в 2020 году с помощью краудсорсинга. Желающие записать свой голос заходили на специальную страницу нашего сайта и при нажатии кнопки «старт» должны были произносить вслух предложения на казахском языке, которые появлялись на экране. Произнесенные предложения автоматически записывались и сохранялись в нашу базу данных — Корпус казахской речи. Далее специально нанятые специалисты вручную обрабатывали и «чистили» собранные записи на предмет ошибок, неправильно или нечетко произнесенных слов. В общем было собрано более 150 тыс. произнесенных фраз от более чем двух тысяч людей из разных регионов РК и разных возрастных групп», — рассказали создатели технологии. 

Благодаря проекту ученых ISSAI виртуальные помощники, например, Siri или Алиса в будущем смогут распознавать казахскую речь. Это касается и технологий «умного дома». Разработчики добавили, что их проект может помочь людям с ограниченными возможностями, которые используют голосовые и текстовые программы. 

«Прежде отсутствие достаточно большой базы голосовых данных на казахском языке было препятствием для его применения в цифровом мире, поэтому мы и инициировали этот проект. Сейчас мы готовы поделиться собранной базой данных казахской речи со всеми исследователями и цифровыми предпринимателями, чтобы максимизировать его положительное влияние на экономику и общество страны», — рассказали ученые.

По их словам, много времени и сил ушло на правильное распределение участников проекта. Для него требовалось привлечь как можно больше людей из всех регионов страны с разными диалектами, чтобы система идеально адаптировалась под разные акценты и варианты речи. Не менее важным было гендерное и возрастное распределение участников.

«Другая сложность заключалась в практике переключения между казахским и русским языками, распространенной в повседневном общении, поскольку большинство казахов являются двуязычными. В основном практикуется переключение языка между предложениями или словами, но также возможно переключение языка внутри слова. Например, можно сказать «Мен магазинге бардым» — «Я пошел в магазин», где русское слово «магазин» дополнено казахским словоизменением «-ге», представляющим предлог «в»», — объяснили эксперты из ISSAI. 

База голосовых данных на казахском языке находится  в открытом доступе для компаний или исследователей, которые планируют использовать ее для разработок программ распознавания и синтеза речи. Кроме того, на сайте доступна демо-версия программы. В ней любой желающий может произнести казахскую речь и увидеть, как на экране отобразятся произнесенные слова.

Кто работал над проектом?

Ерболат Хасанов — постдокторант Института умных систем и искусственного интеллекта Назарбаев Университета. Окончил Наньянский технологический университет в Сингапуре по специальности «компьютерная инженерия», а также получил степень доктора наук в том же университете по специальности «компьютерные науки». 

Научные интересы: распознавание речи, моделирование речи/языка, обработка естественного языка (NLP).

Фото: пресс-служба Назарбаев Университета

Саида Мусаходжаева — аналитик данных Института умных систем и искусственного интеллекта Назарбаев Университета. Получила степень магистра в ведущем корейском научно-технологическом институте. 

Научные интересы: глубокое обучение и его применение в обработке естественного языка (NLP); распознавание речи.

Фото: пресс-служба Назарбаев Университета

Алмас Мырзахметов — компьютерный инженер Института умных систем и искусственного интеллекта Назарбаев Университета. Окончил РУДН по специальности «Прикладная математика и информатика». 

Научные интересы: машинное обучение, веб-разработка.

Фото: пресс-служба Назарбаев Университета

Ален Адиев — студент кафедры математики в Назарбаев Университете, научный сотрудник Института умных систем и искусственного интеллекта Назарбаев Университета.

Научные интересы: машинное обучение, распознавание речи, глубокие нейронные сети.

Фото: пресс-служба Назарбаев Университета

Мухамет Нурпеисов — аналитик данных Института умных систем и искусственного интеллекта Назарбаев Университета. Получил степень магистра и бакалавра по специальности «Робототехника и мехатроника» в Назарбаев Университете.

Научные интересы: машинное обучение.

Фото: пресс-служба Назарбаев Университета

Доктор Атакан Варол — директор  и основатель Института умных систем и искусственного интеллекта Назарбаев Университета; профессор и заведующий кафедрой робототехники и мехатроники Назарбаев Университета. 

Научные интересы: биомехатроника, мягкая робототехника, машинное обучение, интеллектуальные системы и тенсегрити.

Источник: yvision.kz

 

Статьи STEPPE

Казахстанки запустили первую в мире дебатную платформу с ИИ-тренером Debatelink

Казахстанки запустили первую в мире дебатную платформу с ИИ-тренером Debatelink

Программа дает персонализированную обратную связь для улучшения речи и аргументации пользователя на основе искусственного...

3 минуты
3 минуты
Работайте эффективнее с Алисой: 5 лайфхаков для удаленщиков

Работайте эффективнее с Алисой: 5 лайфхаков для удаленщиков

Тренд на удаленную работу продолжается. Все больше людей переходят на удаленную работу, но при этом поначалу сталкиваются с...

2 минуты
2 минуты
Canon представил новые беззеркальные камеры EOS R1 и EOS R5 Mark II
Партнерский

Canon представил новые беззеркальные камеры EOS R1 и EOS R5 Mark II

Canon Europe представила флагманские камеры EOS R1 и EOS R5 Mark II для системы EOS R, предназначенные для профессиональной...

1 минута
1 минута
Почему стоит посмотреть фильм «Бауырына салу»

Почему стоит посмотреть фильм «Бауырына салу»

18 июля на широкие экраны выходит дебютный фильм Асхата Кучинчирекова «Бауырына Салу», затрагивающий казахский обычай передачи...

1 минута
1 минута