Какое хорошее объяснение статистического машинного перевода?

Я пытаюсь найти хорошее объяснение высокого уровня о том, как работает статистический перевод. То есть, предположим, что у меня есть свод неприсоединившихся английских, французских и немецких текстов, как я могу использовать это для перевода любого предложения с одного языка на другой? Это не то, что я ищу для создания Google Translate сам, но я хотел бы понять, как это работает более подробно.

Я искал Google, но не нашел ничего хорошего, он либо быстро нуждается в передовых знаниях математики, чтобы понять, либо слишком обобщен. Статья в Википедии о SMT, похоже, и то, и другое, поэтому на самом деле это мало помогает. Я скептически отношусь к тому, что это такая сложная область, которую просто невозможно понять без всякой математики.

Может ли кто-нибудь дать или узнать общее пошаговое объяснение того, как работает такая система, ориентированная на программистов (поэтому примеры кода прекрасны), но без необходимости понимать степень математики? Или книга, которая понравится, тоже будет замечательной.

Изменить. Прекрасным примером того, что я ищу, будет SMT, эквивалентный Питер Норвиг замечательная статья о коррекции правописания. Это дает хорошее представление о том, что это касалось написания проверки орфографии, не вдаваясь в детализированную математику по алгоритмам Левенштейна/звука/сглаживания и т.д.

Ответ 1

Вот хорошая видео-лекция (в 2 частях):

http://videolectures.net/aerfaiss08_koehn_pbfs/

Для подробных подробностей я настоятельно рекомендую эту книгу:

http://www.amazon.com/Statistical-Machine-Translation-Philipp-Koehn/dp/0521874157

Оба являются от парня, который создал самую широко используемую систему МТ в исследованиях. Он охватывает все основные вещи, очень хорошо объясняется и точным. Вероятно, это одна из стандартных книг, которые любой исследователь, начинающий в этой области, должен читать.

Ответ 2

В декабре 1998 года в Atlantic Online было очень простое нетехническое описание статистического машинного перевода:

Потерянный перевод Стивена Будянского

Я читал нетехнические материалы по статистическому MT прежде, но всегда задавался вопросом: "Да, но как статистические данные знают, какие слова отображают, к чему, когда порядок слов меняется, и, мол, ни словарный словарь, ни грамматика не используются?" Ну, эта статья действительно отвечает на это, и это просто и понятно, и я был очень удивлен.

Ответ 3

Питер Норвиг беседует с Google Developer Day 2007, "Теоретизация из данных: устранение ошибки в капитале" содержит некоторые доступные высокоуровневые объяснения принципы статистического машинного перевода (начиная с примерно 21:20).