В названии говорится все; У меня есть база данных SQL, разрывающаяся на швах с текстом онлайн-беседы. Я уже проделал большую часть этого проекта на Python, поэтому хотел бы сделать это, используя библиотеку Python NLTK (если не существует причины strong).
Данные организованы с помощью Тема, Имя пользователя и Опубликовать. Каждая нить более или менее сосредоточена на обсуждении одного "продукта" категории, который я заинтересован в анализе. В конечном счете, когда это будет завершено, я бы хотел, чтобы у каждого пользователя было оцененное мнение (например, нелюбимая сделка) для любого из продуктов, которые они обсуждали в какой-то момент.
Итак, что я хотел бы знать:
1) Как я могу определить, к какому продукту относится каждый поток? Я читал об извлечении ключевых слов... это правильный метод?
2) Как определить определенное настроение пользователей на основе их сообщений? Из моего ограниченного понимания я должен сначала "обучить" NLTK распознаванию определенных показателей мнения, а затем просто определить контекст этих слов, когда они появляются в тексте?
Как вы уже догадались, у меня нет опыта работы с НЛП. Из моего чтения до сих пор, я думаю, что я могу справиться с его изучением. Даже простая базовая и грубая рабочая модель на данный момент будет отличной, если кто-то может указать мне в правильном направлении. Google не очень помог мне.
P.S. У меня есть разрешение на анализ этих данных (в случае, если это имеет значение)