Добавление пользовательских стоп-слов в R tm

У меня есть Corpus в R, используя пакет tm. Я применяю функцию removeWords для удаления стоп-слов

tm_map(abs, removeWords, stopwords("english")) 

Есть ли способ добавить мои собственные пользовательские слова остановки в этот список?

Ответ 1

stopwords просто предоставляет вам вектор слов, просто c доверяйте свои собственные.

tm_map(abs, removeWords, c(stopwords("english"),"my","custom","words")) 

Ответ 2

Сохраните свой собственный stop words в файле csv (например: word.csv).

library(tm)
stopwords <- read.csv("word.csv", header = FALSE)
stopwords <- as.character(stopwords$V1)
stopwords <- c(stopwords, stopwords())

Затем вы можете применить custom words к вашему текстовому файлу.

text <- VectorSource(text)
text <- VCorpus(text)
text <- tm_map(text, content_transformer(tolower))
text <- tm_map(text, removeWords, stopwords)
text <- tm_map(text, stripWhitespace)

text[[1]]$content

Ответ 3

Вы можете создать вектор своих пользовательских стоп-слов и использовать оператор следующим образом:

tm_map(abs, removeWords, c(stopwords("english"), myStopWords)) 

Ответ 4

Можно добавить собственные стоп-слова в список остановленных по умолчанию паролей, которые появились вместе с установкой tm. Пакет "tm" поставляется со многими файлами данных, включая стоп-слова, и обратите внимание, что файлы стоп-логов поступают на многие языки. Вы можете добавить, удалить или обновить файл english.dat в каталоге стоп-слов.
Самый простой способ найти каталог стоп-слов - это поиск каталога "стоп-слов" в вашей системе через браузер файлов. И вы должны найти english.dat вместе со многими другими языковыми файлами. Откройте файл english.dat из RStudio, который должен включить редактирование файла - вы можете добавить свои собственные слова или отбросить существующие слова по мере необходимости. Это тот же процесс, если вы хотите редактировать стоп-слова на любом другом языке.