Вычисление недоумения языковой модели для классификации электронной почты

У меня есть набор функций из 500 наиболее часто встречающихся униграмм из состава электронных писем. Я использую это, чтобы классифицировать электронные письма, используя c5.0, исходя из наличия/отсутствия каждого из слов в тестовом письме.

Теперь мне нужно рассчитать недоумение терминов в наборе функций и использовать его для классификации электронных писем. Мне было интересно, есть ли у кого-нибудь опыт моделирования языка, и я знаю, как я собираюсь рассчитать недоумение модели, любая помощь будет замечательной!

Я должен добавить, что мне известно о инструментах, которые могут сделать это для меня автоматически, например, SRILM/CMU-LMtoolkit, но я предпочел бы сделать это сам с нуля в качестве своей части моего последнего проекта! Мне просто нужно напомнить о том, как начать... возможно, ссылку на "Руководство идиотов для расчета недоумений и классификации с недоумением"!!

Спасибо большое!

Ответ 1

Этот упражнение курса CMU, похоже, имеет то, что вы хотите. Да, они рекомендуют использовать SRILM, но см. Раздел "Модель языка" - он указывает на раздел книги, учебник от Microsoft Research и презентацию для этого учебника.

Надеюсь, это поможет!

Ответ 3

Я понял, что прошло некоторое время с тех пор, как вы задали этот вопрос, но в случае, если вас все еще интересует более широкий охват недоумения (я имею в виду обработку естественного языка, распознавание речи, часть речевых меток и распознавание имен и т.д.), затем Я рекомендую вам пройти этот курс, который в настоящее время работает на Coursera.

Вот URL https://www.coursera.org/course/nlangp