В Google создали переводчик, который имитирует голос пользователя

Новости. » » В Google создали переводчик, который имитирует голос пользователя

Google представила технологию, которая предлагает новый подход к переводу. Создатели Translatotron решили использовать в качестве входных данных для перевода спектрограммы (изображения, показывающие зависимость спектральной плотности мощности сигнала от времени) речи источника и генерировать на их основе новые спектрограммы на языке перевода.

Сейчас приложение может напрямую переводить речь с одного языка на другой, сохраняя при всем этом голос и темп речи говорящего. Нейросеть будет анализировать голосовой ввод и составлять его спектрограмму, потом генерировать на данной основе новейшую спектрограмму на подходящем языке. Команда рассчитывает, что их разработка послужит отправной точкой для будущих исследований сквозных систем перевода речи в речь.

Компания Google создала алгоритм, который способен переводить устную речь, предварительно не превращая ее в текст. Об этом говорится в блоге компании. Благодаря продукту Translatotron человек сумеет услышать собственный голос, говорящий на другом языке.

Новая программа, получившая название Translatotron, исключает перевод речи в текст и после этого текста обратно в речь.

Создатели Translatotron признаются, что по части точности перевода система еще не обогнала обычные каскадные системы, но, как и любая модель машинного обучения, с течением времени она может улучшиться. В дальнейшем работа над Translatotron будет продолжена, так как ученые хотят сделать синхронный перевод речи не менее отменным. Но при сохранении исходного голоса перевод немного отличается, так как эта версия нейросети обучена на меньшем количестве данных. При этом Translatotron эти промежуточные шаги пропускает. В теории, включение данных параметров должно содействовать значительно улучшенному переводу, имеющему естественный фон. Кроме того, метод может сохранять характеристики голоса человека на переведенной записи. Отсутствие разделения на этапы увеличивает скорость генерирования «умозаключений» (inference), дает возможность избежать скопления промежуточных ошибок распознавания и перевода, улучшает обработку слов, которые не нуждаются в переводе, например, имён собственных.

Авторы намереваются, что их работа послужит отправной точкой для для последующих исследований машинных технологий прямого устного перевода.

Переводчик Google научился имитировать речь пользователя