Я делаю много анализа с пакетом TM
. Одна из моих самых больших проблем связана с происходящими и происходящими в результате трансформациями.
Скажем, у меня есть несколько относящихся к бухгалтерскому учету терминов (я знаю проблемы с орфографией).
После завершения мы имеем:
accounts -> account
account -> account
accounting -> account
acounting -> acount
acount -> acount
acounts -> acount
accounnt -> accounnt
Результат: 3 Условия (учетная запись, учетная запись, учетная запись), где мне бы хотелось 1 (учетная запись), поскольку все это относится к одному и тому же термину.
1) Чтобы исправить орфографию, это возможно, но я никогда не пытался это сделать в R. Возможно ли это?
2) Другой вариант - создать список ссылок, например учетную запись = (учетные записи, учетную запись, учет, учет, учет, учетные записи, учетную запись), а затем заменить все вхождения на главный срок. Как мне это сделать в R?
Еще раз, любая помощь/предложения были бы с благодарностью.