Нужны инструменты для речевого и речевого распознавания речи для Linux

Я планирую написать программу для Linux, которая использует распознавание текста и речи. Каковы лучшие инструменты/библиотеки для этого? Должен ли я использовать Windows вместо этого, чтобы иметь возможность использовать лучшие инструменты? Инструменты нужно легко вызывать из консоли или программы C.

Ответ 1

Для распознавания речи существуют различные Sphinxes. Различные варианты имеют разные плюсы и минусы, здесь есть сравнение Сравнение версий Sphinx. Sphinx 4 - это Java, но остальные C, я считаю.

Ответ 2

Это зависит от того, какую речь вы пытаетесь распознать.

Это статья 2005 года, в которой объясняются некоторые трудности при создании программы диктовки: http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html. Если вы этого хотите, Julius механизм распознавания речи кажется многообещающим, но вам нужно будет добавить свои собственные акустические и языковые модели. Возможно, вы сможете использовать акустическую модель voxforge.

Если вы не пытаетесь написать программу диктовки, у вас гораздо более простая задача. Командные программы имеют ограниченные словари, например: "Если вы хотите продолжить на английском языке, скажите" английский ".

Мне удалось получить довольно хорошие результаты, используя pocketsphinx и gstreamer, чтобы сделать программу, которая автоматически редактирует большинство вхождений слова " twitter" из TWiT подкаст. Это не сработало, пока я не использовал свою собственную языковую модель, основанную на транскриптах подкаста; машинные транскрипции из распознавателя речи бесполезны/веселы, но они хорошо подходят для поиска ключевого слова.

Ответ 3

Я использовал Loquendo и Festival под linux. Я бы назвал голоса фестиваля, которые я использовал довольно бедно, с очень роботизированным синтезом. Голоса Loquendo, с другой стороны, превосходны - очень высокого качества.

Ответ 4

Для распознавания речи для linux очень мало. Я знал только один, по-видимому, достойный вариант, что-то, выпущенное IBM несколько лет назад, но позже более недоступное (кто-нибудь знает, возможно ли получить этот SDK ViaVoice по-прежнему?). Есть более подробная информация о возможных вариантах в wikipedia.

Ответ 5

Для текста в речь Debian/Ubuntu есть также SVOX Pico:

sudo apt-get install libttspico-utils

Ответ 6

Я знаю espeak - очень хорошая программа для преобразования текста в речь для Linux (она может даже делать разные акценты!), но я не знаю никаких систем распознавания речи, предназначенных для UNIX.

Ответ 7

at & t fsm toolkit также является довольно устрашающим - коммерческое использование не разрешено, но

http://www.research.att.com/~fsmtools/fsm/

Ответ 8

Это немного устарело, но я видел, что несколько дней назад я нашел довольно полное руководство по распознаванию речи в Hackaday: http://hackaday.com/2010/07/09/get-started-with-speech-recognition/

Ответ 9

http://simon-listens.org/ - программа распознавания речи и голоса simon с открытым исходным кодом

Ответ 10

И затем есть mbrola для текста в речь.

Ответ 11

Вы проверили синтез речи на основе HMM для преобразования текста в речь. Вы можете найти бесплатную демонстрацию на веб-сайте http://hts.sp.nitech.ac.jp/. Установка будет немного утомительной.

Ответ 12

Первоначальный вопрос заключался в поиске подходящих библиотек, я знаю, но из-за того, что использование распознавания речи достаточно хорошо для реальной диктовки, для Linux, похоже, нет ничего (хотя я уверен, что со временем это изменится, я подозревают, что это займет некоторое время, поскольку я не уверен, что многие заинтересованы).

В настоящий момент я пытаюсь продвигать Dragon NaturallySpeaking в качестве поддерживаемого продукта CodeWeavers... поэтому, если вы заинтересованы в качестве пользователя, это поможет, если вы проголосуете...

http://www.codeweavers.com/compatibility/browse/name/?app_id=8427