Посмотрев на некоторые сервисы/инструменты, я пришел к выводу. Большинство инструментов Text-to-Speech слишком техничны, роботизированы - другими словами, плохое качество c-голосов.
И да, кроме того, похоже, что они поставляются с "жестко закодированными" голосовыми шаблонами, поэтому сокращают разнообразие/настройку. Некоторые инструменты позволяют вам устанавливать скорость чтения и высоту тона, но этого недостаточно.
Мое предположение о проблеме эмоционального аспекта - трудно судить эмоции из обычного текста, даже если это просто предложение или два. Плюс, хороший ПК для ПК - это машины, у которых нет эмоций, но это другая история.
То, что беспокоит меня больше всего, есть качество. Например, есть такие инструменты, которые используют, чтобы обрезать вершину слов, приводя к этим темным голосам. Чувствуется проблема с конструкцией предложения или чем-то еще. И да, пока люди работают над такими инструментами, интересно, что мешает им немного работать, чтобы улучшить их... отрезая вершину, это не маленькая сделка! Плюс, имейте в виду, что хорошее, качественное программное обеспечение для преобразования текста в речь стоит, ну... МНОГО! Таким образом, получается довольно прибыльный продукт.
О, по бегству я скрываю вопросы, восклицания и так далее. (Возможно, что это не относится к беглости, но я не являюсь родным английским языком, пожалуйста, извините меня, если это произойдет.)
Список инструментов, которые я изучил:
Довольно впечатляет, но все еще есть место для улучшений (++)
- Loquendo: не хватает разнообразия голосов, возникают небольшие проблемы с вершиной/беглостью (зависит от предложения), слишком много кашель и оправдания в примерах!
- Nuance Vocalizer: пока не хватает разнообразия, некоторые из предоставленных голосов достойны.
Может также сотрудничать, чтобы получить больше ресурсов, а затем работать на разных, но почти равных продуктах (-)
- eSpeak: один из лучших роботов, поэтому логотип программы (?!)
- Natural Reader (немой автовоспроизведение!!): ну, он получил некоторую беглость, но тем не менее это техническое чувство ударило.
- iSpeech: хороший смех при настройке голоса на японский с английским текстом. Бьюсь об заклад, японские парни не очень рады этому.
- Cepstral + Расширенные тембры... плюс расширенные голоса дают хороший "дерьмовый результат", поэтому, кроме ~ 5 голосов, ничего не улучшилось.
- AT & T: приличная беглость, но проблемы с окончанием предложения и слишком много robo!
- LumenVox TTS: похоже, исходящий из фона с множеством речевых инструментов, но все же приводит к появлению роботизированных голосов.
- И еще...
Если я пропустил что-то стоящее, пожалуйста, поделитесь. Может быть свободным, коммерческим, супер дорогим... пока это работает, мне интересно!
И вопрос (-s)..
- Как вы думаете, главные проблемы качества, беглости и разнообразия этих голосов?. Поскольку эмоциональный аспект трудно судить, я не против, если вы его пропустите, но если у вас есть идея или две, я бы не прочь, если бы вы поделились своими мыслями.
- Как текст преобразуется в речь? Как, какие алгоритмы используются за этими инструментами? Может быть, свежая теория или две могут пригодиться.
- Есть ли на самом деле разные двигатели/драйверы или просто разные голосовые шаблоны для одного и того же драйвера/движка?
- Является ли это просто мной или качеством между одним из в начале Инструменты Text2Speech не сильно изменились (или вообще ) на протяжении многих лет? И должны признать, что этот инструмент oldschool Apple обеспечивает лучшие результаты, чем некоторые из 2000-летних инструментов, по крайней мере, при сравнении видео с тем, что я изучил.)