Сейчас все больше пользователей выбирают аудиоформат для знакомства с литературой, но создание аудиокниг требует от издательств времени и денег. На помощь тут приходят технологии синтеза речи. Благодаря ним читатель может послушать книги, для которых еще нет готовой аудиоверсии, а издательство — понять, есть ли интерес к тому или иному произведению. Как работает эта технология, рассказывает Владимир Платонов, руководитель службы синтеза речи в Яндексе. Как устроен синтез речи в аудиокнигах Синтез речи, или TTS (text-to-speech) — технология преобразования текста в аудио. Это направление развивается еще с прошлого века, но долгое время качество озвучки оставляло желать лучшего: например, простые компиляционные системы составляли фразы из предварительно записанных фрагментов. Внедрение нейросетей сильно изменило ситуацию. Сейчас синтез речи используется в виртуальных ассистентах, навигационных системах, инструментах для изучения языка, чат-ботах и так далее. И во многих случаях синтезированный голос уже мало отличим от естественного. Автоматическое чтение книг устроено сложнее. Например, Букмейт внедрил такую функцию в июне этого года. Она позволяет прослушивать электронные книги, для которых нет предзаписанных аудиоверсий — звук генерируется непосредственно в процессе слушания и никуда не записывается. Похожие сервисы предлагают и крупные компании: Apple, Google и Amazon, которые развивают свои инструменты для автоматического озвучивания книг. Существуют также универсальные сер...