«По мелям Каспия — Зов тюленей»: Фильм об исследованиях каспийских тюленей
30 октября Институт гидробиологии и экологии анонсировал выход фильма «По мелям Каспия - Зов тюленей», который рассказывает о...
В сентябре прошлого года Назарбаев Университет отметил свой первый юбилей — 10 лет. К этой дате Институт умных систем и искусственного интеллекта (ISSAI) приурочил запуск проекта по распознаванию казахской речи.
Мы поговорили с создателями проекта о проделанной работе и том, какую пользу обществу принесет разработанная ими технология.
Известно, что проект уже заинтересовал крупные компании, исследовательские центры и университеты, которые скачали базу данных. В их числе — Google Inc., Yandex, Kaspi.kz, Beeline, BTS Digital, Satpayev University, Suleyman Demirel University, Фонд поддержки исследований и разработок в сфере искусственного интеллекта Назарбаев Университета, КБТУ, Московский физико-технический институт, Swarthmore College, University of Taiwan, Politecnico di Torino, Beijing Language and Culture University, Xinjiang University, University of Edinburgh и другие.
По словам команды разработчиков, с помощью проекта казахский язык внедрится в глобальное цифровое пространство. Ученые собрали самую большую базу голосовых данных на казахском языке — Корпус казахской речи. Он состоит из 330 часов записанной речи более двух тысяч человек.
«Данные собирались около четырех месяцев в 2020 году с помощью краудсорсинга. Желающие записать свой голос заходили на специальную страницу нашего сайта и при нажатии кнопки «старт» должны были произносить вслух предложения на казахском языке, которые появлялись на экране. Произнесенные предложения автоматически записывались и сохранялись в нашу базу данных — Корпус казахской речи. Далее специально нанятые специалисты вручную обрабатывали и «чистили» собранные записи на предмет ошибок, неправильно или нечетко произнесенных слов. В общем было собрано более 150 тыс. произнесенных фраз от более чем двух тысяч людей из разных регионов РК и разных возрастных групп», — рассказали создатели технологии.
Благодаря проекту ученых ISSAI виртуальные помощники, например, Siri или Алиса в будущем смогут распознавать казахскую речь. Это касается и технологий «умного дома». Разработчики добавили, что их проект может помочь людям с ограниченными возможностями, которые используют голосовые и текстовые программы.
«Прежде отсутствие достаточно большой базы голосовых данных на казахском языке было препятствием для его применения в цифровом мире, поэтому мы и инициировали этот проект. Сейчас мы готовы поделиться собранной базой данных казахской речи со всеми исследователями и цифровыми предпринимателями, чтобы максимизировать его положительное влияние на экономику и общество страны», — рассказали ученые.
По их словам, много времени и сил ушло на правильное распределение участников проекта. Для него требовалось привлечь как можно больше людей из всех регионов страны с разными диалектами, чтобы система идеально адаптировалась под разные акценты и варианты речи. Не менее важным было гендерное и возрастное распределение участников.
«Другая сложность заключалась в практике переключения между казахским и русским языками, распространенной в повседневном общении, поскольку большинство казахов являются двуязычными. В основном практикуется переключение языка между предложениями или словами, но также возможно переключение языка внутри слова. Например, можно сказать «Мен магазинге бардым» — «Я пошел в магазин», где русское слово «магазин» дополнено казахским словоизменением «-ге», представляющим предлог «в»», — объяснили эксперты из ISSAI.
База голосовых данных на казахском языке находится в открытом доступе для компаний или исследователей, которые планируют использовать ее для разработок программ распознавания и синтеза речи. Кроме того, на сайте доступна демо-версия программы. В ней любой желающий может произнести казахскую речь и увидеть, как на экране отобразятся произнесенные слова.
Ерболат Хасанов — постдокторант Института умных систем и искусственного интеллекта Назарбаев Университета. Окончил Наньянский технологический университет в Сингапуре по специальности «компьютерная инженерия», а также получил степень доктора наук в том же университете по специальности «компьютерные науки».
Научные интересы: распознавание речи, моделирование речи/языка, обработка естественного языка (NLP).
Фото: пресс-служба Назарбаев Университета
Саида Мусаходжаева — аналитик данных Института умных систем и искусственного интеллекта Назарбаев Университета. Получила степень магистра в ведущем корейском научно-технологическом институте.
Научные интересы: глубокое обучение и его применение в обработке естественного языка (NLP); распознавание речи.
Фото: пресс-служба Назарбаев Университета
Алмас Мырзахметов — компьютерный инженер Института умных систем и искусственного интеллекта Назарбаев Университета. Окончил РУДН по специальности «Прикладная математика и информатика».
Научные интересы: машинное обучение, веб-разработка.
Фото: пресс-служба Назарбаев Университета
Ален Адиев — студент кафедры математики в Назарбаев Университете, научный сотрудник Института умных систем и искусственного интеллекта Назарбаев Университета.
Научные интересы: машинное обучение, распознавание речи, глубокие нейронные сети.
Фото: пресс-служба Назарбаев Университета
Мухамет Нурпеисов — аналитик данных Института умных систем и искусственного интеллекта Назарбаев Университета. Получил степень магистра и бакалавра по специальности «Робототехника и мехатроника» в Назарбаев Университете.
Научные интересы: машинное обучение.
Фото: пресс-служба Назарбаев Университета
Доктор Атакан Варол — директор и основатель Института умных систем и искусственного интеллекта Назарбаев Университета; профессор и заведующий кафедрой робототехники и мехатроники Назарбаев Университета.
Научные интересы: биомехатроника, мягкая робототехника, машинное обучение, интеллектуальные системы и тенсегрити.
Источник: yvision.kz
Получай актуальные подборки новостей, узнавай о самом интересном в Steppe (без спама, обещаем 😉)
(без спама, обещаем 😉)