Канадский стартап Lyrebird представил свой первый продукт: набор алгоритмов, который, по утверждению компании, может клонировать чей-то голос, прослушав всего одну минуту аудиообразца.

Несколько лет назад это было бы невозможно, но аналитическое мастерство машинного обучения оказалось идеальным подходом к особенностям человеческой речи. Используя искусственный интеллект, такие компании, как Google, смогли создать синтезированные голоса похожие на настоящие, в то время как Adobe представила собственный прототип программного обеспечения под названием Project VoCo, которое может редактировать человеческую речь, как Photoshop редактирует фотографии.

В то время как Project VoCo требует 20 минут тестового аудио, прежде чем он сможет воссоздать голос, Lyrebird нужно всего 60 секунд. Результат все же можно отличить от человеческой речи, но стартап будет работать над усовершенствованием.

Вы уже можете услышать синтезированные голоса Дональда Трампа, Барака Обамы и Хиллари Клинтон, обсуждающих стартап:

Согласно Lyrebird, их алгоритмы могут также наполнять речь эмоциями, позволяя клиентам создавать озлобленные, сочувственные или напряженные голоса.

Финальную речь можно применить для озвучивания аудиокниг известными голосами, синтеза речи для людей с ограниченными возможностями, а также для анимационных фильмов или видеоигр.

Lyrebird можно использовать и в других целях. Синтетические генераторы голоса уже могут обмануть биометрическое программное обеспечение, используемое для определения личности. И, учитывая достаточное количество информации, программы искусственного интеллекта могут генерировать убедительные поддельные фотографии и видео любого человека. 

Например, это исследование 2016 года использует видеомаппинг, чтобы манипулировать видео с такими известными политиками, как Джордж Буш и Владимир Путин. Осталось только добавить реалистичную речь, и в Facebook может появиться видеозаявление Дональда Трампа о бомбардировке Северной Кореи. 

Lyrebird знает об этих проблемах. В разделе «Этика» на веб-сайте компании основатели стартапа (три студента из Монреальского Университета) признают, что их технология «поднимет важные социальные проблемы», ставя под угрозу достоверность аудиозаписей, используемых в суде.

«Это потенциально может иметь такие опасные последствия, как мошенничество и любые другие проблемы, связанные с кражей личности другого человека», - пишут они.

Их решение заключается в том, чтобы сделать технологию «доступной для всех». Таким образом, считают стартаперы, ущерб будет незначителен, так как «каждый будет знать, что такая технология существует».

«Ситуация сравнима с Photoshop. Люди знают, что фотографии могут быть фальшивыми. Я думаю, что в будущем аудиозапись также станет менее надежной [как доказательство]», - утверждает основатель компании Александр де Бребиссон. 

Однако, де Бребиссон признает, что, хотя Photoshop хорошо известен, люди все еще склонны верить поддельным фотографиям в правильном контексте. Это может случиться и с аудиозаписями стартапа.

На данный момент технология Lyrebird все еще находится в разработке, и компания не хочет обсуждать цены. Lyrebird уже работает над улучшением своих алгоритмов, включая добавление разных языков.

«Эта технология будет существовать, - говорит де Бребиссон. «Если не мы, то это сделает кто-то другой».