Как использовать CMU Sphinx 4 для речи с текстом с английскими моделями voxforge

Я пытаюсь понять, как использовать sphinx4 или pocketsphinx с английской моделью voxforge, но я не могу заставить его работать. Я попытался прочитать страницы документа (например, http://cmusphinx.sourceforge.net/sphinx4/doc/UsingSphinxTrainModels.html), но это мне не помогает.

Что я хочу - это исполняемый файл, в котором я могу указать, какую модель использовать и какой аудиофайл использовать в качестве источника, и чтобы исполняемый файл распечатывал его, лучше всего догадываться о том, что говорит голос в записи.

Мне повезло: pocketsphinx_continuous -infile recording.wav 2 > /dev/null

Но он прерывается до того, как полный аудиофайл транскрибируется, а модель по умолчанию имеет несколько слов для создания читаемого текста из аудио.

Я скомпилировал и протестировал демонстрацию в исходном пакете sphinx4, но все примеры, похоже, имеют несколько слов и нуждаются в модели, чтобы использовать voxforge для меня.

Как я могу настроить это?

Ответ 1

Очень просто подключить акустическую модель Voxforge. Основным документом, охватывающим API, является учебник cmusphinx:

http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4

Рекомендуется прочитать его перед началом работы. Также обратите внимание, что рекомендуется использовать оригинальную акустическую модель En_US English, более точную, чем Voxforge.

Шаг за шагом вам нужно сделать следующее:

  • Загрузите модель voxforge из исходной папки и распакуйте ее в папку
  • Оформить покупку sphinx4 из github и создать его с помощью gradle
  • Запустить TranscriberDemo
  • Перейдите в папку sphinx4-samples/src/main/java/edu/cmu/sphinx/demo/transcriber, откройте Transcriber демо и отредактировать путь акустической модели, как показано ниже.
  • Отредактируйте расположение аудиофайла в источниках, если вам нужен другой аудиофайл
  • Запустите demo снова и наслаждайтесь

Это будет

   // Load model from the folder in your project
   configuration.setAcousticModelPath("file:voxforge-en-0.4/model_parameters/voxforge_en_sphinx.cd_cont_5000");