В чем разница между извлечением информации и текстом?

Это может выглядеть легко. Но я смущен.

В чем разница между Text Mining и Information Extraction?

Ответ 1

Извлечение информации

(IE) - задача автоматического извлечения структурированной информации из неструктурированных и/или полуструктурированных машиночитаемых документов. В большинстве случаев эта деятельность касается обработки текстов на языке человека посредством обработки естественного языка (НЛП). Недавние действия в обработке мультимедийных документов, таких как автоматическая аннотация и извлечение содержимого из изображений/аудио/видео, можно рассматривать как извлечение информации.

Text Mining

- это деятельность по получению информационных ресурсов, относящихся к информационной потребности из набора информационных ресурсов. Поиски могут основываться на метаданных или на полнотекстовом индексировании.

Текстовая обработка - обширная область по сравнению с поиском информации. Типичные задачи интеллектуального анализа текста включают классификацию документов, кластеризацию документов, построение онтологии, анализ настроений, обобщение документов, извлечение информации и т.д. Где, как поиск информации, как правило, имеет дело с обходом, анализом и индексированием документа, извлечением документов.

Источник

Ответ 2

Сначала давайте рассмотрим смысл этих двух важных слов.

Text Mining - это автоматическое обнаружение новой, ранее неизвестной информации, путем автоматического анализа различных текстовых ресурсов. Она начинается с извлечения фактов и событий из текстовых источников, а затем позволяет сформировать новую гипотезу, которая далее изучается традиционными методами интеллектуального анализа данных и анализа данных.

Извлечение информации больше связано с обработкой NLP (обработка естественного языка) и машинным обучением, где вы обучаете машину извлекать скрытую информацию из необработанного текста.

Таким образом, различие можно назвать следующим: - Text mining - это обширная область по сравнению с Information Extraction. Текстовый поиск касается шаблонов в неструктурированном тексте. Связанная задача Information Extraction (IE) заключается в поиске определенных элементов в документах на естественном языке