У меня есть Corpus в R, используя пакет tm
. Я применяю функцию removeWords
для удаления стоп-слов
tm_map(abs, removeWords, stopwords("english"))
Есть ли способ добавить мои собственные пользовательские слова остановки в этот список?
У меня есть Corpus в R, используя пакет tm
. Я применяю функцию removeWords
для удаления стоп-слов
tm_map(abs, removeWords, stopwords("english"))
Есть ли способ добавить мои собственные пользовательские слова остановки в этот список?
stopwords
просто предоставляет вам вектор слов, просто c
доверяйте свои собственные.
tm_map(abs, removeWords, c(stopwords("english"),"my","custom","words"))
Сохраните свой собственный stop words
в файле csv (например: word.csv
).
library(tm)
stopwords <- read.csv("word.csv", header = FALSE)
stopwords <- as.character(stopwords$V1)
stopwords <- c(stopwords, stopwords())
Затем вы можете применить custom words
к вашему текстовому файлу.
text <- VectorSource(text)
text <- VCorpus(text)
text <- tm_map(text, content_transformer(tolower))
text <- tm_map(text, removeWords, stopwords)
text <- tm_map(text, stripWhitespace)
text[[1]]$content
Вы можете создать вектор своих пользовательских стоп-слов и использовать оператор следующим образом:
tm_map(abs, removeWords, c(stopwords("english"), myStopWords))
Можно добавить собственные стоп-слова в список остановленных по умолчанию паролей, которые появились вместе с установкой tm. Пакет "tm" поставляется со многими файлами данных, включая стоп-слова, и обратите внимание, что файлы стоп-логов поступают на многие языки. Вы можете добавить, удалить или обновить файл english.dat в каталоге стоп-слов.
Самый простой способ найти каталог стоп-слов - это поиск каталога "стоп-слов" в вашей системе через браузер файлов. И вы должны найти english.dat вместе со многими другими языковыми файлами. Откройте файл english.dat из RStudio, который должен включить редактирование файла - вы можете добавить свои собственные слова или отбросить существующие слова по мере необходимости.
Это тот же процесс, если вы хотите редактировать стоп-слова на любом другом языке.