Вчера появилась информация, что Google Translate научится переводить текст с камеры в реальном времени. Теперь появились новые сведения, уже касающиеся аудиопереводов — в Google разработали алгоритм, переводящий речь с одного языка на другой с сохранением голоса пользователя.
Инсайд появился в блоге корпорации. Согласно ему, разработчики учат нейросеть анализировать голос, составлять спектрограмму и на ее основе генерировать аудиоперевод на нужном языке.
Сейчас переводчик не умеет переводить речь в реальном времени — сперва он конвертирует сказанное в текст, и только потом озвучивает на языке перевода. К тому же, синтезированный голос звучит неестественно и плохо работает с интонированием.
После обновления программа сможет переводить речь на другой язык сразу, без текстовой записи. При этом будут сохраняться исходные интонация и паузы. Также алгоритм лучше воспринимает имена собственные.
Нововведение станет очередным шагом к «бесшовному переводу», однако вряд ли мы сможем воспользоваться им в ближайшее время. По отзывам журналистов, которые смогли ближе познакомиться с работой алгоритма, выдаваемый им результат все еще звучит неестественно.