Черт возьми! Я использую пакет NLP для Stanford Core, и моя цель - провести анализ настроений в прямом эфире твитов.
Использование инструмента анализа настроений как результата очень плохого анализа текстового "отношения". Многие положительные стороны обозначены как нейтральные, многие отрицательные положительные. Я уже получил более миллиона твитов в текстовом файле, но я не знаю, как на самом деле обучить инструмент и создать свою собственную модель.
Ссылка на страницу анализа настроений Стэнфорда
"Модели могут быть переустановлены с использованием следующей команды с использованием набора данных формата PTB:"
java -mx8g edu.stanford.nlp.sentiment.SentimentTraining -numHid 25 -trainPath train.txt -devPath dev.txt -train -model model.ser.gz
Образец из dev.txt(Ведущий 4 представляет полярность из 5... 4/5 положительных)
(4 (4 (2 A) (4 (3 (3 warm) (2 ,)) (3 funny))) (3 (2 ,) (3 (4 (4 engaging) (2 film)) (2 .))))
Пример из test.txt
(3 (3 (2 If) (3 (2 you) (3 (2 sometimes) (2 (2 like) (3 (2 to) (3 (3 (2 go) (2 (2 to) (2 (2 the) (2 movies)))) (3 (2 to) (3 (2 have) (4 fun))))))))) (2 (2 ,) (2 (2 Wasabi) (3 (3 (2 is) (2 (2 a) (2 (3 good) (2 (2 place) (2 (2 to) (2 start)))))) (2 .)))))
Образец из train.txt
(3 (2 (2 The) (2 Rock)) (4 (3 (2 is) (4 (2 destined) (2 (2 (2 (2 (2 to) (2 (2 be) (2 (2 the) (2 (2 21st) (2 (2 (2 Century) (2 's)) (2 (3 new) (2 (2 ``) (2 Conan)))))))) (2 '')) (2 and)) (3 (2 that) (3 (2 he) (3 (2 's) (3 (2 going) (3 (2 to) (4 (3 (2 make) (3 (3 (2 a) (3 splash)) (2 (2 even) (3 greater)))) (2 (2 than) (2 (2 (2 (2 (1 (2 Arnold) (2 Schwarzenegger)) (2 ,)) (2 (2 Jean-Claud) (2 (2 Van) (2 Damme)))) (2 or)) (2 (2 Steven) (2 Segal))))))))))))) (2 .)))
У меня есть два вопроса в будущем.
Каково значение и различие между каждым файлом? Train.txt/Dev.txt/Test.txt?
Как бы я тренировал свою собственную модель с сырым, непроверенным текстовым файлом, полным твитов?
Я очень новичок в НЛП, поэтому, если мне не хватает какой-либо необходимой информации или чего-либо вообще, пожалуйста, критикуйте! Спасибо!