Документация по языковой модели ARPA

Где я могу найти документацию по формату модели языка ARPA?

Я разрабатываю приложение для простого распознавания речи с помощью механизма STT с карманным сфинксом. ARPA рекомендуется по соображениям производительности. Я хочу понять, сколько я могу сделать, чтобы настроить мою модель языка для моих собственных потребностей.

Все, что я нашел, - это очень краткое описание формата ARPA:

Я начинаю работать с STT, и мне сложно обернуть вокруг него (n-граммы и т.д.). Я ищу более подробные документы. Что-то вроде документации по грамматике JSGF здесь:

http://www.w3.org/TR/jsgf/

Ответ 1

На самом деле не так много говорить о формате, чем сказано в этих документах.

Кроме того, вы, вероятно, захотите подготовить текстовый файл с примерными предложениями и сгенерировать языковой файл на нем. Существует онлайн-версия, которая может сделать это для вас: lmtool

Ответ 3

Вы можете дополнить эти документы с помощью этого технического отчета, который дает полный обзор сглаживания для моделирования языков: http://www.ee.columbia.edu/~stanchen/papers/h015a-techreport.pdf Вы также найдете определения для моделей отсрочки и интерполированных моделей.