Концепции скрытого семантического анализа

Я читал об использовании сингулярного декомпозиции значений (SVD) для выполнения скрытого семантического анализа (LSA) в тексте. Я понял, как это сделать, я также понимаю математические концепции SVD.

Но я не понимаю, почему он работает, применяя к текстам текстов (я считаю, что должно быть лингвистическое объяснение). Может ли кто-нибудь объяснить мне это с лингвистической точки зрения?

Спасибо

Ответ 1

Нет лингвистической интерпретации, нет синтаксиса, нет обработки классов эквивалентности, синонимов, омонимов, истоков и т.д. Ни одна из семантик не связана, это просто слова, происходящие вместе. Рассмотрим "документ" в качестве корзины покупок: он содержит комбинацию слов (покупок). И слова, как правило, встречаются вместе с "родственными" словами.

Например: слово "наркотик" может происходить одновременно с любовью, доктором, медициной, спортом, преступностью; каждый укажет вам в другом направлении. Но в сочетании со многими другими словами в документе ваш запрос, вероятно, найдет документы из аналогичного поля.

Ответ 2

Слова, встречающиеся вместе (т.е. рядом или в том же документе в корпусе), вносят свой вклад в контекст. Скрытый семантический анализ в основном группирует аналогичные документы в корпусе, исходя из того, насколько они похожи друг на друга с точки зрения контекста.

Я думаю, что пример и сюжет словесного документа на странице this помогут понять.

Ответ 3

Предположим, что у нас есть следующий набор из пяти документов

  • d1: Ромео и Джульетта.
  • d2: Джульетта: О счастливый кинжал!
  • d3: Ромео умер от кинжала.
  • d4: "Live free or die", т.е. девиз New-Hampshires.
  • d5: Знаете ли вы, Нью-Хэмпшир находится в Новой Англии.

и поисковый запрос: умирает, кинжал.

Очевидно, что d3 следует занять в верхней части списка, так как он содержит оба штампа, кинжал. Тогда d2 и d4 должен следовать, каждый из которых содержит слово запроса. Однако как насчет d1 и d5? Должны ли они быть как возможно интересные результаты этого запроса? Как люди, мы знаем, что d1 весьма взаимосвязано к запросу. С другой стороны, d5 не столько связано с запросом. Таким образом, мы хотели бы d1, но а не d5 или иначе говоря, мы хотим, чтобы d1 было ранжировано выше d5.

Вопрос: может ли машина вывести это? Ответ: да, LSI делает именно это. В этом Например, LSI сможет увидеть, что термин кинжал связан с d1, поскольку он встречается вместе с термины d1s Ромео и Джульетта, соответственно в d2 и d3. Кроме того, термические матрицы связаны с d1 и d5 потому что это происходит вместе с термином d1s Ромео и d5s термин New-Hampshire в d3 и d4, соответственно. LSI также будет правильно взвешивать обнаруженные соединения; d1 больше связано с запросом

чем d5, поскольку d1 "вдвойне" связано с кинжалом через Ромео и Джульетту, а также связано с умереть через Ромео, тогда как d5 имеет только одно соединение с запросом через Нью-Хэмпшир.

Ссылка: скрытый семантический анализ (Alex Thomo)