Канадский стартап может воссоздать любой человеческий голос

2 минуты Дария Усенова
Канадский стартап может воссоздать любой человеческий голос

Канадский стартап Lyrebird представил свой первый продукт: набор алгоритмов, который, по утверждению компании, может клонировать чей-то голос, прослушав всего одну минуту аудиообразца.

Несколько лет назад это было бы невозможно, но аналитическое мастерство машинного обучения оказалось идеальным подходом к особенностям человеческой речи. Используя искусственный интеллект, такие компании, как Google, смогли создать синтезированные голоса похожие на настоящие, в то время как Adobe представила собственный прототип программного обеспечения под названием Project VoCo, которое может редактировать человеческую речь, как Photoshop редактирует фотографии.

В то время как Project VoCo требует 20 минут тестового аудио, прежде чем он сможет воссоздать голос, Lyrebird нужно всего 60 секунд. Результат все же можно отличить от человеческой речи, но стартап будет работать над усовершенствованием.

Вы уже можете услышать синтезированные голоса Дональда Трампа, Барака Обамы и Хиллари Клинтон, обсуждающих стартап:

Согласно Lyrebird, их алгоритмы могут также наполнять речь эмоциями, позволяя клиентам создавать озлобленные, сочувственные или напряженные голоса.

Финальную речь можно применить для озвучивания аудиокниг известными голосами, синтеза речи для людей с ограниченными возможностями, а также для анимационных фильмов или видеоигр.

Lyrebird можно использовать и в других целях. Синтетические генераторы голоса уже могут обмануть биометрическое программное обеспечение, используемое для определения личности. И, учитывая достаточное количество информации, программы искусственного интеллекта могут генерировать убедительные поддельные фотографии и видео любого человека. 

Например, это исследование 2016 года использует видеомаппинг, чтобы манипулировать видео с такими известными политиками, как Джордж Буш и Владимир Путин. Осталось только добавить реалистичную речь, и в Facebook может появиться видеозаявление Дональда Трампа о бомбардировке Северной Кореи. 

Lyrebird знает об этих проблемах. В разделе «Этика» на веб-сайте компании основатели стартапа (три студента из Монреальского Университета) признают, что их технология «поднимет важные социальные проблемы», ставя под угрозу достоверность аудиозаписей, используемых в суде.

«Это потенциально может иметь такие опасные последствия, как мошенничество и любые другие проблемы, связанные с кражей личности другого человека», — пишут они.

Их решение заключается в том, чтобы сделать технологию «доступной для всех». Таким образом, считают стартаперы, ущерб будет незначителен, так как «каждый будет знать, что такая технология существует».

«Ситуация сравнима с Photoshop. Люди знают, что фотографии могут быть фальшивыми. Я думаю, что в будущем аудиозапись также станет менее надежной [как доказательство]», — утверждает основатель компании Александр де Бребиссон. 

Однако, де Бребиссон признает, что, хотя Photoshop хорошо известен, люди все еще склонны верить поддельным фотографиям в правильном контексте. Это может случиться и с аудиозаписями стартапа.

На данный момент технология Lyrebird все еще находится в разработке, и компания не хочет обсуждать цены. Lyrebird уже работает над улучшением своих алгоритмов, включая добавление разных языков.

«Эта технология будет существовать, — говорит де Бребиссон. «Если не мы, то это сделает кто-то другой».

 

Статьи STEPPE

Мода будущего: что покажут на Visa Fashion Week Almaty 2025?

Мода будущего: что покажут на Visa Fashion Week Almaty 2025?

С 3 по 5 мая в Алматы состоятся показы нового сезона Международной недели моды в Казахстане и Центральной Азии Visa Fashion...

31 минута
31 минута
Казахстанский стартап SHAI выходит на рынок Великобритании

Казахстанский стартап SHAI выходит на рынок Великобритании

Отечественный стартап SHAI разработал инновационную платформу, с помощью которой компании могут создавать собственных...

1 минута
1 минута
AirAsia X отмечает год с запуска первого рейса Алматы — Куала-Лумпур
Партнерский

AirAsia X отмечает год с запуска первого рейса Алматы — Куала-Лумпур

AirAsia X (AAX) отмечает первую годовщину запуска маршрута Алматы — Куала-Лумпур. Пользуясь популярностью направления,...

1 минута
1 минута
«Антология Технологий»: как Яндекс Go формирует цены на такси?
Партнерский

«Антология Технологий»: как Яндекс Go формирует цены на такси?

Почему повышенный спрос появляется в самый неподходящий момент? Ответ — в новом фильме Yandex Qazaqstan «Антология...

1 минута
1 минута