Высококачественный, эмоциональный, плавный и переменный движок Text-to-Speech?

Посмотрев на некоторые сервисы/инструменты, я пришел к выводу. Большинство инструментов Text-to-Speech слишком техничны, роботизированы - другими словами, плохое качество c-голосов.

И да, кроме того, похоже, что они поставляются с "жестко закодированными" голосовыми шаблонами, поэтому сокращают разнообразие/настройку. Некоторые инструменты позволяют вам устанавливать скорость чтения и высоту тона, но этого недостаточно.

Мое предположение о проблеме эмоционального аспекта - трудно судить эмоции из обычного текста, даже если это просто предложение или два. Плюс, хороший ПК для ПК - это машины, у которых нет эмоций, но это другая история.

То, что беспокоит меня больше всего, есть качество. Например, есть такие инструменты, которые используют, чтобы обрезать вершину слов, приводя к этим темным голосам. Чувствуется проблема с конструкцией предложения или чем-то еще. И да, пока люди работают над такими инструментами, интересно, что мешает им немного работать, чтобы улучшить их... отрезая вершину, это не маленькая сделка! Плюс, имейте в виду, что хорошее, качественное программное обеспечение для преобразования текста в речь стоит, ну... МНОГО! Таким образом, получается довольно прибыльный продукт.

О, по бегству я скрываю вопросы, восклицания и так далее. (Возможно, что это не относится к беглости, но я не являюсь родным английским языком, пожалуйста, извините меня, если это произойдет.)

Список инструментов, которые я изучил:

Довольно впечатляет, но все еще есть место для улучшений (++)

^{- Loquendo: не хватает разнообразия голосов, возникают небольшие проблемы с вершиной/беглостью (зависит от предложения), слишком много кашель и оправдания в примерах!}
^{- Nuance Vocalizer: пока не хватает разнообразия, некоторые из предоставленных голосов достойны.}

Может также сотрудничать, чтобы получить больше ресурсов, а затем работать на разных, но почти равных продуктах (-)

^{- eSpeak: один из лучших роботов, поэтому логотип программы (?!)}
^{- Natural Reader (немой автовоспроизведение!!): ну, он получил некоторую беглость, но тем не менее это техническое чувство ударило.}
^{- iSpeech: хороший смех при настройке голоса на японский с английским текстом. Бьюсь об заклад, японские парни не очень рады этому.}
^{- Cepstral + Расширенные тембры... плюс расширенные голоса дают хороший "дерьмовый результат", поэтому, кроме ~ 5 голосов, ничего не улучшилось.}
^{- AT & T: приличная беглость, но проблемы с окончанием предложения и слишком много robo!}
^{- LumenVox TTS: похоже, исходящий из фона с множеством речевых инструментов, но все же приводит к появлению роботизированных голосов.}
^{- И еще...}

Если я пропустил что-то стоящее, пожалуйста, поделитесь. Может быть свободным, коммерческим, супер дорогим... пока это работает, мне интересно!

И вопрос (-s)..

Как вы думаете, главные проблемы качества, беглости и разнообразия этих голосов?. Поскольку эмоциональный аспект трудно судить, я не против, если вы его пропустите, но если у вас есть идея или две, я бы не прочь, если бы вы поделились своими мыслями.
Как текст преобразуется в речь? Как, какие алгоритмы используются за этими инструментами? Может быть, свежая теория или две могут пригодиться.
Есть ли на самом деле разные двигатели/драйверы или просто разные голосовые шаблоны для одного и того же драйвера/движка?
Является ли это просто мной или качеством между одним из в начале Инструменты Text2Speech не сильно изменились (или вообще ) на протяжении многих лет? И должны признать, что этот инструмент oldschool Apple обеспечивает лучшие результаты, чем некоторые из 2000-летних инструментов, по крайней мере, при сравнении видео с тем, что я изучил.)

Ответ 1

Я не знаю, ищете ли вы открытое решение, но если у вас есть Mac, вы должны проверить расширенную разметку OS X и инструмент Repeat After Me". Это действительно мощно. Голос Alex, встроенный в Mac OS X 10.5 и более поздний, более продвинут, чем другие голоса.

На Mac выделите следующий текст, нажмите "Control" и перейдите к "Речь" > "Начать разговор":

You talkin' to me
[[inpt PHON]] [[slnc 500]] [[rate -30]]
+yUW _1tAOl=kIHn ~AX [[pbas +3]]+mIY?

http://www.mattmontag.com/personal/mac-os-x-speech-synthesis-markup

Ответ 2

TTS, используемая Google Translate, хороша для коротких фраз, хотя, вероятно, создаст неестественный контур интонации для чего-то сложного. Тем не менее, на уровне слов это впечатляет. Ниже приведен пример кода

И там Ivona - они могут сделать несколько более артикуляционные ошибки, чем, например. Google Translate, но они немного улучшают ритм и интонацию. Посмотрите на их голос "Равеена", это еще одно из лучших.

Ответ 3

Я знаю, что это старый вопрос, но я только что видел демонстрацию " Watson от IBM, это довольно впечатляет!! Они поддерживают несколько языков, вы можете контролировать тон, паузы, интонацию и некоторые другие переменные.

Вы должны пойти и посмотреть, если вы все еще ищете это, или если любой другой человек ищет хорошую TTS.

Отказ от ответственности: я не работаю для IBM или всего, что связано с этим продуктом, я просто нашел его впечатляющим!