Китайские ученые обучили искусственный интеллект имитации человеческого голоса

Китайским ученым из пекинской компании Baidu удалось создать искусственный интеллект, который с большой точностью способен имитировать человеческий голос. Возможности его не ограничиваются только голосовым подражанием, посколькуинтонация и тембр также транслируются в их первозданности. Уникальная по своей сути технология получила название Deep Voice.

Принцип работы технологии

Для проведения исследования была создана 800-часовая звуковая запись, содержащая 2400 самых разных реально существующих голосов. Подготовка ее длилась около месяца. Роботизированная система прослушивала аудиофайл и на основе его «училась» голосовой имитации. В результате искусственный интеллект теперь способен клонировать любой человеческий голос всего за 4 секунды ознакомления с оригиналом. В прошлом же году для этого ему требовалось порядка получаса.

По словам разработчиков технологии, для того, чтобы она эффективно работала, необходимо около 100 звуковых сигналов, каждый из которых длится 5 секунд. Ей под силу также обман любой системы распознавания голоса за счет использования 10 коротких семплов. Искусственный интеллект способен различать мужской и женский голоса, менять их друг на друга, а также придавать речи иностранный акцент. Для него не проблема отличить, к примеру, британский английский язык от американского английского.

Возможные сферы применения технологии

Специалисты китайской компании считают, что нейросеть Deep Voice принесет ощутимую пользу обществу и будет активно задействована во множестве сфер, в частности в быту, медицине и культуре. Они с уверенностью заявляют, что осуществили огромный прорыв в науке, сумев синтезировать живую речь с абсолютно всеми присущими ей особенностями. Перечень основных направлений внедрения технологии в практическую реальность можно представить следующим образом:
• Запись голосов для аудиокниг и компьютерных игр;
• Осуществление синхронного перевода;
• Использование при разработке цифровых помощников;
• Облегчение жизни людей, потерявших возможность говорить.

Ученые не отрицают, что технология способна принести и вред, если ее применят злоумышленники. Они могут воспользоваться программами, работающими на распознавании человеческой речи, и в своих корыстных целях ввести людей в заблуждение. Опасения высказывают и юристы, считая, что со временем при судебных разбирательствах аудиозаписи обретут меньшую значимость в качестве доказательства.

Необходимо подчеркнуть, что Deep Voice – это не первая разработка в сфере воспроизведения голосов. Общественности уже известны канадская и американская технологии. Голосовой сервис, представленный исследователями из Канады, получил название Lyrebird. Он способен преобразовывать индивидуальные характеристики речи в очень короткую запись. Всего лишь за половину секунды система воспроизводит до 1000 предложений. Ей под силу копирование множества звуков, вплоть до пения птиц. Американская сторона в лице компании Google разработала систему, именуемую Tacotron 2. Она может преобразовывать текстовые сообщения в голосовые. При этом получаемый голос крайне трудно отличить от человеческого.

Анекдот

Американцы придумали новый суперкомпьютер с искусственным интеллектом. Однако компьютер завис, задымился, а потом и вовсе окончательно сломался при попытке перевести диалог на русском языке: — Ты будешь отмечать Старый Новый Год? — Да нет наверное...

Источник http://anekdoty.ru/

Не забываем подписаться ;) @glory