Tacotron 2 - новый синтезатор речи от Google

Компания Google выпустила новый синтезатор речи, который может имитировать человеческую речь на высоком уровне.

Новая версия программы Tacotron 2 стала ещё более качественно распознавать и синтезировать речь человека. Одной из причин успеха является взаимодействие нейросети в работе программы. Сначала нейросеть создаёт спектрограммы на взаимосвязи частоты и времени. Потом нейросеть, используя алгоритм WaveNet, синтезирует по составленным спектрограммам речь.

Благодаря наличию в работе программы нейросети, Tacotron 2 способна распознавать знаки препинания, начало и конец предложения, определять слова как глаголы и различать их форму и время. Таким образом программа воспроизводит интонацию речи человека, в зависимости от знаков препинания и речевых оборотов, при синтезе речи.

Разработчики уже протестировали Tacotron 2 на контрольной группе из 8 человек. Перед тестерами была поставлена задача оценить прослушанную речь по 5 бальной шкале, где 5 - это речь человека. Речь разумеется ставили не только программную, но и человеческую. В итоге программная речь набрала 4.53 средний балл, а человеческая 4.58 баллов.

Возможно уже в скором времени программа выйдет на рынок и будет отлично подходить для создания аудиокниг и спец программа для людей со слабым зрением. Возможно так же что новые версии голосовых помощников будут разрабатываться уже с заложенными в них Tacotron 2.

Ознакомиться с примерами синтеза речи можно по этой ссылке.