Это может выглядеть легко. Но я смущен.
В чем разница между Text Mining и Information Extraction?
Это может выглядеть легко. Но я смущен.
В чем разница между Text Mining и Information Extraction?
Извлечение информации
(IE) - задача автоматического извлечения структурированной информации из неструктурированных и/или полуструктурированных машиночитаемых документов. В большинстве случаев эта деятельность касается обработки текстов на языке человека посредством обработки естественного языка (НЛП). Недавние действия в обработке мультимедийных документов, таких как автоматическая аннотация и извлечение содержимого из изображений/аудио/видео, можно рассматривать как извлечение информации.
Text Mining
- это деятельность по получению информационных ресурсов, относящихся к информационной потребности из набора информационных ресурсов. Поиски могут основываться на метаданных или на полнотекстовом индексировании.
Текстовая обработка - обширная область по сравнению с поиском информации. Типичные задачи интеллектуального анализа текста включают классификацию документов, кластеризацию документов, построение онтологии, анализ настроений, обобщение документов, извлечение информации и т.д. Где, как поиск информации, как правило, имеет дело с обходом, анализом и индексированием документа, извлечением документов.
Сначала давайте рассмотрим смысл этих двух важных слов.
Text Mining - это автоматическое обнаружение новой, ранее неизвестной информации, путем автоматического анализа различных текстовых ресурсов. Она начинается с извлечения фактов и событий из текстовых источников, а затем позволяет сформировать новую гипотезу, которая далее изучается традиционными методами интеллектуального анализа данных и анализа данных.
Извлечение информации больше связано с обработкой NLP (обработка естественного языка) и машинным обучением, где вы обучаете машину извлекать скрытую информацию из необработанного текста.
Таким образом, различие можно назвать следующим: - Text mining - это обширная область по сравнению с Information Extraction. Текстовый поиск касается шаблонов в неструктурированном тексте. Связанная задача Information Extraction (IE) заключается в поиске определенных элементов в документах на естественном языке