Искусственный интеллект обучили копировать чужой голос за 5 секунд входных данных

Пять секунд входных данных хватило искусственному интеллекту, чтобы научиться копировать чужой голос. Комплексную систему синтеза речи разработали в Google.

Свой вклад в развитие генератора речи «Такотрон» внесли более 10 специалистов. Система способна подражать голосам различных людей. Состоит она из трех компонентов, существующих независимо друг от друга.

Одна нейросеть верифицирует речь за несколько секунд даже в потоке фонового шума, вторая синтезирует последовательности на основе Tacotron 2, третья отвечает за результат на выходе.

Специалисты уверены, что при помощи модели смогут синтезировать «естественную речь», даже если голос человека не был задействован во время обучения нейросети.

нейросети интеллект видео апвот50-50 апвот100 мегагальян дизайн жизнь голоса