Когда я использую каждый?
Также... является ли ЛИМКТ-зависимость ЛДПЛ зависимой от частей речи? Не было бы более точным, если бы это было?
Когда я использую каждый?
Также... является ли ЛИМКТ-зависимость ЛДПЛ зависимой от частей речи? Не было бы более точным, если бы это было?
Короткие и плотные: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html
Целью как истощения, так и лемматизации является уменьшение флективных форм, а иногда и дериватно связанных форм слова к общей базовой форме.
Однако эти слова различаются по своему вкусу. Исключение обычно относится к грубому эвристическому процессу, который отбивает концы слов в надежде на достижение этой цели правильно большую часть времени и часто включает удаление деривационных аффиксов. Лемматизация обычно относится к правильному использованию вещей с использованием словарного запаса и морфологического анализа слов, обычно направленных на удаление только флективных окончаний и возвращение базовой или словарной формы слова, которая известна как лемма.
Из документов NLTK:
Лемматизация и сужение являются частными случаями нормализации. Они идентифицируют канонического представителя для набора связанных форм слова.
Лемматизация тесно связана с stem. Разница в том, что stemmer работает на одном слове без знания контекста, и поэтому не может различать слова, которые имеют разные значения в зависимости от части речи. Однако, как правило, проще реализовать и работать быстрее, а уменьшенная точность может не для некоторых приложений.
Например:
Слово "лучше" имеет "хорошую" в качестве своей леммы. Эта ссылка пропущена потому что для этого требуется поиск в словаре.
Слово "прогулка" - это базовая форма для слова "ходьба", и, следовательно, это сочетается как с выделением, так и с лемматизацией.
Слово "встреча" может быть либо базовой формой существительного, либо формой глагола ( "встречать" ) в зависимости от контекста, например "в нашем последнем встреча" или "Мы завтра встречаемся завтра". В отличие от последствий, лемматизация в принципе может выбрать соответствующую лемму в зависимости от контекста.
Как указывал Майн, последствием является процесс удаления флективных и иногда деривационных аффиксов в базовую форму, с которой, вероятно, связаны все исходные слова. Лемматизация связана с получением единственного слова, которое позволяет группировать кучу измененных форм. Это сложнее, чем вытекать из-за того, что это требует учета контекста (и, следовательно, значения слова), в то же время игнорируя контекст.
Что касается того, когда вы будете использовать тот или иной, это зависит от того, насколько ваше приложение зависит от правильного значения значения слова в контексте. Если вы выполняете машинный перевод, вы, вероятно, хотите, чтобы lemmatization не допускал неправильного перевода слова. Если вы занимаетесь поиском информации более чем на миллиард документов, при этом 99% ваших запросов варьируются от 1-3 слов, вы можете рассчитывать на сокращение.
Что касается NLTK, WordNetLemmatizer использует часть речи, хотя вы должны ее предоставить (в противном случае она по умолчанию используется для существительных). Передача "голубя" и "v" дает "погружение", в то время как "голубь" и "n" дают "голубь".
Целью как истощения, так и лемматизации является уменьшение морфологической вариации. Это контрастирует с более общими процедурами "слияния терминов", которые также могут учитывать лексико-семантические, синтаксические или орфографические вариации.
Реальная разница между стеблем и лемматизацией трижды:
Stemming уменьшает словоформы до (псевдо) стеблей, тогда как лемматизация сводит словоформы к лингвистически действующим леммам. Эта разница очевидна на языках с более сложной морфологией, но может быть неактуальной для многих приложений IR,
Лемматизация имеет дело только с флективной дисперсией, тогда как стеблирование также может иметь дело с деривационной дисперсией;
В плане реализации лемматизация обычно более сложна (особенно для морфологически сложных языков) и обычно требует своего рода лексики. С другой стороны, удовлетворительное выполнение может быть достигнуто с помощью довольно простых основанных на правилах подходов.
Лемматизация также может быть подкреплена теггером части речи, чтобы устранить унимогимы.
Есть два аспекта, чтобы показать их отличия:
A stemmer вернет стержень слова, которое не обязательно должно совпадать с морфологическим корнем слова. Обычно достаточно, чтобы связанные слова отображались на одну и ту же основу, даже если стержень сам по себе не является допустимым корнем, а в lemmatisation он вернет словарную форму слова, которая должна быть действительной слово.
В lemmatisation следует сначала определить часть речи слова, а правила нормализации будут разными для разных частей речи, а stemmer действует на одном слове без знания контекста и поэтому не может различать слова, которые имеют разные значения в зависимости от части речи.
Ссылка http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization
Примерное объяснение различий между лемматизацией и основанием:
Лемматизация обрабатывает сопоставление "автомобиль" с "автомобилями" вместе с сопоставлением "автомобиль" с "автомобилем".
Рукоятки управления соединением "автомобиль" с "автомобили".
Лемматизация подразумевает более широкую область нечеткого сопоставления слов, которая все еще обрабатывается теми же подсистемами. Это подразумевает определенные методы обработки низкого уровня в двигателе, а также может отражать технические предпочтения терминологии.
[...] Взяв в качестве примера FAST, их механизм лемматизации обрабатывает не только базовые варианты слов, такие как единственное и множественное число, но и операторы тезауруса, такие как "горячее" совпадение "теплое".
Это не означает, что другие движки не обрабатывают синонимы, конечно, они делают, но реализация низкого уровня может быть в другой подсистеме, чем те, которые обрабатывают базовое основание.
ianacl
но я думаю, что Stemming - это грубый взломанный человек, который использует все разные формы одного и того же слова до базовой формы, которая сама по себе не должна быть законным словом.
Что-то вроде Porter Stemmer может использовать простые регулярные выражения для устранения общих суффиксов слов
Лемматизация приводит слово к его фактической базовой форме, которая в случае неправильных глаголов может выглядеть не так, как входное слово
Что-то вроде Morpha, которое использует FST для приведения существительных и глаголов в их базовую форму
Stemming превращает слово в его основание (корневую форму).
Стемминг - это подход, основанный на правилах, он отбирает слова, основанные на общих префиксах и суффиксах.
Например: общий суффикс, такой как: "es", "ing", "pre" и т.д.
Лемматизация превращает слово в его лемму (корневую форму).
Обычно речь идет о том, чтобы делать что-то правильно с использованием словарного запаса и морфологического анализа слов. Он наблюдает положение и части речи слова, прежде чем чередовать что-либо.