Какова истинная разница между леммитацией и вытеканием?

Когда я использую каждый?

Также... является ли ЛИМКТ-зависимость ЛДПЛ зависимой от частей речи? Не было бы более точным, если бы это было?

Ответ 1

Короткие и плотные: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

Целью как истощения, так и лемматизации является уменьшение флективных форм, а иногда и дериватно связанных форм слова к общей базовой форме.

Однако эти слова различаются по своему вкусу. Исключение обычно относится к грубому эвристическому процессу, который отбивает концы слов в надежде на достижение этой цели правильно большую часть времени и часто включает удаление деривационных аффиксов. Лемматизация обычно относится к правильному использованию вещей с использованием словарного запаса и морфологического анализа слов, обычно направленных на удаление только флективных окончаний и возвращение базовой или словарной формы слова, которая известна как лемма.

Из документов NLTK:

Лемматизация и сужение являются частными случаями нормализации. Они идентифицируют канонического представителя для набора связанных форм слова.

Ответ 2

Лемматизация тесно связана с stem. Разница в том, что stemmer работает на одном слове без знания контекста, и поэтому не может различать слова, которые имеют разные значения в зависимости от части речи. Однако, как правило, проще реализовать и работать быстрее, а уменьшенная точность может не для некоторых приложений.

Например:

Слово "лучше" имеет "хорошую" в качестве своей леммы. Эта ссылка пропущена потому что для этого требуется поиск в словаре.

Слово "прогулка" - это базовая форма для слова "ходьба", и, следовательно, это сочетается как с выделением, так и с лемматизацией.

Слово "встреча" может быть либо базовой формой существительного, либо формой глагола ( "встречать" ) в зависимости от контекста, например "в нашем последнем встреча" или "Мы завтра встречаемся завтра". В отличие от последствий, лемматизация в принципе может выбрать соответствующую лемму в зависимости от контекста.

Источник: https://en.wikipedia.org/wiki/Lemmatisation

Ответ 3

Как указывал Майн, последствием является процесс удаления флективных и иногда деривационных аффиксов в базовую форму, с которой, вероятно, связаны все исходные слова. Лемматизация связана с получением единственного слова, которое позволяет группировать кучу измененных форм. Это сложнее, чем вытекать из-за того, что это требует учета контекста (и, следовательно, значения слова), в то же время игнорируя контекст.

Что касается того, когда вы будете использовать тот или иной, это зависит от того, насколько ваше приложение зависит от правильного значения значения слова в контексте. Если вы выполняете машинный перевод, вы, вероятно, хотите, чтобы lemmatization не допускал неправильного перевода слова. Если вы занимаетесь поиском информации более чем на миллиард документов, при этом 99% ваших запросов варьируются от 1-3 слов, вы можете рассчитывать на сокращение.

Что касается NLTK, WordNetLemmatizer использует часть речи, хотя вы должны ее предоставить (в противном случае она по умолчанию используется для существительных). Передача "голубя" и "v" дает "погружение", в то время как "голубь" и "n" дают "голубь".

Ответ 4

Целью как истощения, так и лемматизации является уменьшение морфологической вариации. Это контрастирует с более общими процедурами "слияния терминов", которые также могут учитывать лексико-семантические, синтаксические или орфографические вариации.

Реальная разница между стеблем и лемматизацией трижды:

Stemming уменьшает словоформы до (псевдо) стеблей, тогда как лемматизация сводит словоформы к лингвистически действующим леммам. Эта разница очевидна на языках с более сложной морфологией, но может быть неактуальной для многих приложений IR,
Лемматизация имеет дело только с флективной дисперсией, тогда как стеблирование также может иметь дело с деривационной дисперсией;
В плане реализации лемматизация обычно более сложна (особенно для морфологически сложных языков) и обычно требует своего рода лексики. С другой стороны, удовлетворительное выполнение может быть достигнуто с помощью довольно простых основанных на правилах подходов.

Лемматизация также может быть подкреплена теггером части речи, чтобы устранить унимогимы.

Ответ 5

Есть два аспекта, чтобы показать их отличия:

A stemmer вернет стержень слова, которое не обязательно должно совпадать с морфологическим корнем слова. Обычно достаточно, чтобы связанные слова отображались на одну и ту же основу, даже если стержень сам по себе не является допустимым корнем, а в lemmatisation он вернет словарную форму слова, которая должна быть действительной слово.
В lemmatisation следует сначала определить часть речи слова, а правила нормализации будут разными для разных частей речи, а stemmer действует на одном слове без знания контекста и поэтому не может различать слова, которые имеют разные значения в зависимости от части речи.

Ссылка http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization

Ответ 6

Примерное объяснение различий между лемматизацией и основанием:

Лемматизация обрабатывает сопоставление "автомобиль" с "автомобилями" вместе с сопоставлением "автомобиль" с "автомобилем".

Рукоятки управления соединением "автомобиль" с "автомобили".

Лемматизация подразумевает более широкую область нечеткого сопоставления слов, которая все еще обрабатывается теми же подсистемами. Это подразумевает определенные методы обработки низкого уровня в двигателе, а также может отражать технические предпочтения терминологии.

[...] Взяв в качестве примера FAST, их механизм лемматизации обрабатывает не только базовые варианты слов, такие как единственное и множественное число, но и операторы тезауруса, такие как "горячее" совпадение "теплое".

Это не означает, что другие движки не обрабатывают синонимы, конечно, они делают, но реализация низкого уровня может быть в другой подсистеме, чем те, которые обрабатывают базовое основание.

http://www.ideaeng.com/stemming-lemmatization-0601

Ответ 7

ianacl
но я думаю, что Stemming - это грубый взломанный человек, который использует все разные формы одного и того же слова до базовой формы, которая сама по себе не должна быть законным словом. Что-то вроде Porter Stemmer может использовать простые регулярные выражения для устранения общих суффиксов слов

Лемматизация приводит слово к его фактической базовой форме, которая в случае неправильных глаголов может выглядеть не так, как входное слово
Что-то вроде Morpha, которое использует FST для приведения существительных и глаголов в их базовую форму

Ответ 8

Что происходит

Stemming превращает слово в его основание (корневую форму).

Стемминг - это подход, основанный на правилах, он отбирает слова, основанные на общих префиксах и суффиксах.

Например: общий суффикс, такой как: "es", "ing", "pre" и т.д.

Что такое лемматизация:

Лемматизация превращает слово в его лемму (корневую форму).

Обычно речь идет о том, чтобы делать что-то правильно с использованием словарного запаса и морфологического анализа слов. Он наблюдает положение и части речи слова, прежде чем чередовать что-либо.