Распозновать речь мы научились хоть и, пока, только английскую, не будем стоять на месте, едем дальше, точнее в противоположную сторону — займемся преобразованием текста в голосовую речь.

Наиболее популярные и свободные синтезаторы речи, которые мне известны и с которыми я имел практический опыт: Festival , eSpeak , OpenMary .
Рассмотрим все 3 по порядку.

Festival

ОС: Linux
Русский язык:
да (мужской голос)
Сайт: http://www.cstr.ed.ac.uk/projects/festival/

Довольно продвинутый синтезатор, поставляется со следующими языковыми пакетами: английский (в английском и американском произношении), валлийский и испанский. Также существуют и другие пакеты, такие, как кастильский испанский, чешский, финский, хинди, итальянский, маратхи, польский, русский и телугу. Festival входит в поставку нескольких дистрибутивов Linux-а. Синтезатор довольно хорошо понимает русский язык, если поиграться с написанием слов, знаками препинания можно добиться вполне вменяемой речи.

Установка

В сети уже много материалов про установку фетиваля и прикрутке русского языка, поэтому особо расписывать не буду скажу лишь, что потребуется установить сам фестиваль (ставится из репозитория — festival) и русский языковой пакет, который также устанавливается из репозитория (festvox-ru), затем следует немного подправить конфиг. Хорошая статья по этому поводу есть .

Использование

В консоли:

Echo "Привет" | festival --tts --language russian

eSpeak

ОС: Linux, Windows, Mac OS X, RISC OS
Русский язык:
да (мужской голос)
Сайт:

Простой, компактный, программный синтезатор речи. Если верить информации, eSpeak используется в мобильных операционных системах Android, начиная с версии 1.6, и Maemo. Версии под Windows и Linux регулярно обновляются вместе с исходным кодом, с остальными платформами дела обстоят хуже. Поддерживается множество языков, в том числе русский, английский, французский, испанский и т.д. Если брать в сравнение русскую речь — eSpeak уступает Festival, английский, франзузский, немецкий — на уровне.

Установка

В некоторых дистрибутивах линукс еСпик уже установлен, если нет — ставится он также просто из консоли (espeak), либо качаем нужную версию с , например, в случае с Windows.

Использование

В консоли:

Espeak "Привет мир!" -vru -s 100

Где:
-v язык (ru, en, de)
-s скорость (80-450)

OpenMary

ОС: Linux, Windows, Mac OS X
Русский язык:
да (мужской голос)
Сайт:
http://mary.opendfki.de

Молодой и, пока еще, не очень популярный синтезатор, но в то же время очень функциональный и продвинутый. Написан на Java, что позволяет ему быть платформонезависимым. Работает по принципу клиент-сервер. Обладает продвинутыми речевыми надстройками, с помощью которых можно указывать интонацию, тембр, скорость для каждого слова. Поставляется с клиентом, написанным на той же яве, с графическим интерфейсом.

Установка

Установка достаточно легкая и не требует определенных усилий, качаем ява-установщик (не забываем, что требуется Java). Запускаем установщик и следуем инструкциям. В определеный этап установки предложат выбрать языковые пакеты, которыми мы будем пользоваться, для себя я выбрал русский и английский.

Использование

Переходим в директорию установки, заходим в папку bin и запускаем сервер — maryserver. Как только сервер будет запущен, запускаем клиент — maryclient.

Если все было сделано правильно, после нажатия кнопки «Play» должно быть слышно произношения написанного текста. В папке example, директорией выше, есть примеры реализации клиентов под разные языки.

Вывод

Festival: для средних домашних и корпоративных проектов (информирование о погоде, чтение писем, «язык» для ботов и т.п.).
eSpeak: для реализации малых задач (сообщение текущего времени, информирование о пробках, количестве писем в почтовом ящике, свободном месте на жестком диске и т.п.).
OpenMary: для крупных проектов (системы «умного дома», озвучка программ, чтение большого текста).

Все чаще в повседневной жизни стали использовать синтезаторы речи. Синтезаторы речи, как становится видно уже по одному названию, осуществляют синтез речи, то есть форматируют письменный текст в устный.

Благодаря этому можно учить новые иностранные слова с правильным произношением, читать книги не отвлекаясь от своих дел или, например, находясь в транспорте. Изначально разработкой таких программ занимались организации, специализирующиеся на технике для людей с проблемами зрения.

Сейчас же, любой пользователь может скачать одну из программ, установить ее на свой компьютер или телефон и синтезировать речь, в том числе и русскую.

Для этого было разработано множество различных программ, приложенный и даже целых систем. К сожалению, не все из них предназначены для русскоязычной аудитории.

1. Acapela

Acapela — один из самых распространенных речевых синтезаторов во всем мире. Программа распознает и озвучивает тексты более, чем на тридцати языках. Русский язык поддерживается двумя голосами: мужской голос — Николай, женский — Алена.
Женский голос появился значительно позднее мужского и является более усовершенствованным.

Установка программы проходит без проблем. Разработаны версии для операционных систем Windows, Linux, Mac, а также для мобильных ОС Android u IOS.

Программа платная, скачать ее можно с официального сайта Acapela.

2. Vokalizer

Вторым в нашем списке, но не по популярности является движок Милена от разработчика программы Vocalizer компании Nuance.
Голос звучит очень естественно, речь чистая. Есть возможность установить различные словари, а также подкорректировать громкость, скорость и ударение, что не маловажно.
Как и в случае с Акапелой, программа имеет различные версии для мобильных, автомобильных и компьютерных приложений. Прекрасно подходит для чтения книг.

Скачать все версии Vokalizer и русскоязычный движок Милена можно на официальном сайте производителя программы.

3. RHVoice

Код синтезатора открыт для всех, программы же абсолютно бесплатны.
RHVoice выпущена в двух вариантах: как отдельная программа, так и как приложение к NVDA.
Все версии можно скачать с официального сайта разработчика.

4. ESpeak

Первая версия бесплатного синтезатора речи eSpeak была выпущена в 2006 году. С тех пор компания-разработчик постоянно выпускает все более усовершенствованные версии. Последняя версия была представлена в конце весны две тысячи тринадцатого года.

eSpeak можно установить под следующие операционные системы:

  • Microsoft Windows,
  • Mac OS X,
  • Linux,
  • RISC OS

Возможна также компиляция кода для Windows Mobile, но делать ее придется самостоятельно.
А вот с мобильной ОС Android программа работает без проблем, хотя русские словари еще не до конца разработаны. Русскоязычных голосов много, можно выбрать на свой вкус.

5. Festival

Festival — это целая система распознавания и синтеза речи, которая была разработана в эдинбургском университете.
Программы и все модули абсолютно бесплатно и распространяются по системе open source. Скачать их и ознакомиться с демо-версиями можно на официальном сайте университета Эдинбурга.

Внимание! Данный сайт использует технологию JavaScript, поддержка которой отключена в вашем браузере. Для полноценной работы с ресурсом рекомендуется включить эту функцию в настройках вашего Интернет-обозревателя. Однако всё информационное наполнение сайта доступно и в режиме работы с отключённым JavaScript, поэтому активация этой настройки не обязательна, хотя и рекомендована.


Синтезаторы речи

В данном разделе содержатся синтезаторы речи, которые могут понадобиться для использования программ, поддерживающих подключение сторонних речевых модулей. Также здесь представлены некоторые системные компоненты и утилиты, предназначенные для обеспечения работы некоторых синтезаторов и исправления возможных неполадок, которые могут возникнуть при их использовании. Все программы содержатся в архивах, поэтому для работы с ними может понадобиться архиватор .

Каталог синтезаторов речи

  1. Речевой синтезатор Капитан [версия для MS SAPI 5.x] (SAPI5, мужские+женские)

Каталог системных компонентов и утилит

Внимание! В отношении качества размещённых программ никаких гарантий администрацией сайта не предоставляется. Все риски (прямые, косвенные, явные и неявные), связанные с использованием этого программного обеспечения, пользователь принимает на себя. В частности, администрация проекта Мифотека не гарантирует отсутствие претензий к данному программному обеспечению со стороны третьих лиц. Допускается свободное использование и безвозмездное распространение размещённого здесь программного обеспечения, при условии сохранения его целостности, неприкосновенности авторских атрибутов и прав. Также категорически не допускается распространение этого программного обеспечения за плату. Скачав любой файл, вы берёте на себя всю ответственность за его дальнейшее использование и распространение. Начиная загрузку, вы подтверждаете своё полное согласие с данными условиями.

На сегодняшний день синтезаторы речи, которые используются в стационарных компьютерных системах или мобильных устройствах, уже не кажутся чем-то необычным. Технологии уже шагнули далеко вперед и дали возможность воспроизводить человеческий голос. Ниже мы рассмотрим, как это все работает, где используется речевой синтезатор, как выбирать подобное устройство, а также с какими потенциальными проблемами может столкнуться пользователь при приобретении такого устройства. Что же собой представляют речевые синтезаторы? Где они могут быть использованы? Синтезаторы речи представляют собой специальные программы, которые состоят из нескольких модулей. Данные программы позволяют переводить набранный на клавиатуре текст в обычную человеческую речь в виде звукового сопровождения. Наивно было бы полагать, что сопутствующие библиотеки содержат совершенно все слова или возможные фразы, которые записаны в студиях реальными людьми. Это невозможно просто на физическом уровне. Библиотеки фраз к тому же имели бы такой размер, что их просто нельзя было бы установить даже на современные жесткие диски большого объема, не говоря уже о мобильных устройствах. Кроме того была разработана технология, которая получила название Text-to-Speech,что в переводе означает «текст в речь». Синтезаторы речи получили наибольшее распространение в нескольких областях. К одной из таких областей можно отнести самостоятельное изучение иностранных языков, когда пользователю необходимо слышать правильное произношение слова. Также синтезаторы речи используются для прослушивания книг вместо чтения, создания локальных и речевых партий при записи музыки, для выдачи поисковых запросов в виде озвученных фраз или слов. Подобные устройства также могут использоваться людьми с ограниченными возможностями.

Синтезаторы речи: типы программ

Все синтезаторы речи в зависимости от области использования можно условно разделить на два основных типа: стандартные программы, которые используются для непосредственного преобразования речи в текст, и речевые или вокальные модули, которые применяются в музыкальных приложениях. Чтобы более подробно рассмотреть данный вопрос, мы рассмотрим оба класса программ, однако упор в большей степени все-таки будет сделан на синтезаторы речи в их непосредственном назначении.

Преимущества и недостатки простейших речевых приложений. Что касается преимуществ и недостатков программ данного типа, то для начала давайте рассмотрим недостатки. Прежде всего, стоит сказать, что компьютер это все-таки техническое устройство. На данном этапе развития он может весьма приблизительно синтезировать человеческую речь. Зачастую в простейших программах наблюдаются проблемы с постановкой ударений в словах, низкое качество звука. На мобильных устройствах обычно наблюдается повышенное энергопотребление. В некоторых случаях наблюдается также несанкционированная загрузка речевых модулей. Однако и преимуществ здесь также хватает. Многие лучше воспринимают звуковую информацию, а не визуальную. Так что, явным преимуществом является удобство восприятия. Как же правильно использовать синтезатор речи? Скажем еще немного об основных принципах использования такого типа программ. Во-первых, устанавливается синтезатор речи любого типа безо всяких проблем. В стационарных системах применяется стандартный инсталлятор, основной задачей которого будет выбор поддерживаемых языковых модулей. Для мобильных устройств можно скачать установочный файл из официального магазина или хранилища типа AppStore или Google Play.

После этого приложение будет установлено в автоматическом режиме. При первом запуске, как правило, никаких настроек, кроме выбора языка, используемого по умолчанию, выполнять не нужно. Однако в некоторых случаях программа может предложить выбрать качество звучания. Повсеместно применяется стандартный вариант с частотой дискретизации 4410 Гц, глубиной 16 бит и битрейтом 128 кбит/с. В мобильных устройствах аналогичные показатели немного ниже. За основу берется определенный голос. При использовании стандартного шаблона произношения путем использования эквалайзеров и фильтров можно достичь звучания именно такого тембра. При использовании можно выбрать несколько вариантов перевода текста: перевод текста в ручном режиме, озвучивание из файла уже имеющегося текста, интеграция в другие приложения с возможностью активации выдачи поисковых результатов или прочтения на страницах онлайн текстового содержимого. Здесь достаточно будет выбрать нужный вариант действий, голос и язык, на котором будет произноситься текст. У многих программ есть сразу несколько разновидностей голосов, как женских, так и мужских. Чтобы активировать процесс воспроизведения, можно использовать кнопку старта.

Если говорить о том, как отключить синтезатор речи, то здесь может быть несколько вариантов. В простейшем случае можно использовать в самой программе кнопку остановки воспроизведения. В том случае, если синтезатор интегрирован в браузер, деактивация осуществляется в настройках расширений путем полного удаления плагина. С мобильными устройствами, несмотря на непосредственное отключение, могут возникнуть некоторые проблемы, о которых речь пойдет далее. Так, например, ввод текста и настройки осуществляются более сложным путем. Рассмотрим приложение FLStudio. Тут имеется собственный речевой модуль, в котором можно выбрать несколько типов голосов, изменить скорость воспроизведения или настройки тональности. Чтобы поставить ударение, перед слогом необходимо использовать символ «_». Однако такой синтезатор подойдет только для создания роботизированных голосов. Пакет Vocaloid от компании Yamaha уже можно отнести к программам профессионального уровня. Здесь в наиболее полном объеме реализована технология Text-to-Speech.

Помимо стандартных параметров в настройках можно выставить глиссандо и артикуляцию. Также можно использовать библиотеки с вокалом профессиональных исполнителей, составлять отдельные слова и целые фразы, подгонять их под различные ноты, и еще много всего другого. Вовсе не удивительно, что с одним только вокалом данный программный пакет занимает более 4 Гб в установочном дистрибутиве. После его распаковки объем увеличивается еще в два-три раза.

В данном обзоре мы уделим внимание только простым приложениям. Рассмотрим самые популярные из них. По мнению большинства пользователей RH Voice является лучшим синтезатором речи. Эта российская разработка была создана Ольгой Яковлевой. В стандартном варианте программы доступно всего три голоса – Елена, Александр, Ирина. Настройка программы выполняется достаточно просто. Само по себе приложение может использоваться и как самостоятельная программа, совместимая с SAPi5,икак экранный модуль.

Еще одним интересным приложением является Acapеla. Его основной особенностью является практически идеальная озвучка текста более чем на 30 языках мира. В простой версии приложения доступен только один вариант голоса – Алена. Еще одно мощное приложение с женским голосом – Milena. Эта программа очень часто используется в call-центрах. Существует множество настроек постановки ударения, настройки громкости, скорости чтения, а также установки дополнительных словарей. Основное отличие данной программы состоит в том, что речевой движок должен встраиваться в программе наподобие Cool Reader, Full Screen Caller ID, Moon+ Reader Pro. Мощнейшей утилитой для синтеза и распознавания речи является программа Festival. Она предназначена для систем Mac OSX и Linux. Поставляется это приложение с открытым исходным кодом. Помимо стандартных языковых пакетов он обладает поддержкой финского языка и хинди. Еще одно речевое приложение – eSpeak. Оно поддерживает более 50 языков. Главный недостаток данной программы состоит в том, что файлы с синтезированной речью оно сохраняет исключительно в формате WAV. Данный формат, как известно, занимает очень много места. Данная программа является кроссплатформенной и может применяться даже в мобильных системах.

Google Android: проблемы с синтезатором речи

Пользователи при установке «родного» синтезатора речи от компании Google очень часто жалуются на то, что он самопроизвольно включает загрузку дополнительных языковых модулей. Это не только занимает длительный промежуток времени, но и серьезно расходует трафик. Избавиться от этой проблемы в системах Android очень просто. Для этого необходимо использовать меню настроек. Здесь переходим в раздел языка и голосового ввода. Тут нужно выбрать голосовой поиск на параметре распознавания речи в режиме оффлайн и нажать на крестик (отключение). Также рекомендуется дополнительно почистить кэш приложений и выполнить перезагрузку устройства. В некоторых случаях в самом приложении может потребоваться отключить показ уведомлений.

Что же получается в конечном итоге? Если подводить некий итог, то можно сказать, что рядовым пользователям подойдут самые простые программы. Лидером во многих рейтингах оказывается программа RHVoice.Однако для музыкантов, которым необходимо добиться естественного звучания голоса, чтобы не ощущалась разница между живым и компьютерным синтезом, лучше отдавать предпочтение программам типа Vocaloid.Для подобных программ сегодня выпускается множество дополнительных голосовых библиотек. Настройки данных приложений имеют столько возможностей, то примитивные приложения и рядом не стоят.

Синтезаторы речи, или преобразователи текста в голос, — специальные сервисы, позволяющие автоматически воспроизводить написанный текст на выбранном языке. Работать с такими сайтами просто, достаточно скопировать либо ввести вручную нужный текст в окно и выбрать язык – сервис автоматически преобразует написанное в звук.

Синтезаторы речи онлайн

Синтезаторы речи часто используются людьми, которые изучают иностранные языки. Довольно сложно найти в сети специальные материалы для аудирования, позволяющие научиться воспринимать устную иностранную речь на слух, куда проще вставить нужный отрывок текста на сайт и прослушать либо скачать преобразованный файл на компьютер.

Способ 1: Acapela

Довольно качественный сервис для синтеза речи с набором нескольких голосов мужского и женского типа. Поддерживает и воспроизводит русский язык. К достоинствам можно отнести отсутствие платы за использование. С сайтом вы легко сможете попрактиковаться в понимании нужного языка на слух. Готовый аудиофайл имеет довольно высокое качество.

Что касается недостатков, то один из них заключается в ограниченном объеме текста, который может быть прочитан синтезатором (всего 300 символов). Для доступа к дополнительным функциям и скачиванию файлов нужно пройти регистрацию на сайте.

Работать с сервисом довольно просто, даже в том случае, если вы не знаете английский язык.

Способ 2: Google Переводчик

Удобный сервис для воспроизведения написанного текста. Способен самостоятельно определять, на каком языке написан текст, кроме того, можно перевести нужный отрывок и воспроизвести его. Из достоинств — полная поддержка русского языка, а также понятный и минималистичный дизайн. Регистрации сервис не требует, синтез текста занимает считанные секунды. Синтезатор способен читать довольно длинные тексты, ограничение – 5000 символов.


В отличие от прошлого ресурса, в переводчике нельзя выбирать голос синтезатора. Воспроизведение ведется стандартным женским голосом.

Способ 3: Text to speech

Еще один ресурс, который позволит преобразовать написанный текст в устную речь. Сайт полностью на английском языке, однако разобраться в его функционале несложно. К достоинствам можно отнести возможность перевода текста, выбор нужного языка и настройку скорости чтения текста.

Недостатков при использовании обнаружено не было. Есть ограничения на размер текста в размере 100 символов.


Сайт работает быстро, без задержек и позволяет быстро преобразовать написанный текст в голос. Синтезатор иногда делает ошибки в словах и неправильно расставляет ударения. Логические паузы, как и на других подобных сайтах, отсутствуют.

Мы рассмотрели наиболее функциональные и удобные сервисы для преобразования текста в голосовые файлы. Если вы хотите порекомендовать какой-то другой сайт с синтезатором речи онлайн, обязательно напишите об этом в комментариях.


Close