Это ответный ответ. Ниже я описываю общую проблему в домене NLP и предлагаю несколько эффективных методов для ее решения.
Зачастую возникает необходимость удалить пунктуацию во время очистки текста и предварительной обработки. Пунктуация определяется как любой символ в string.punctuation
:
>>> import string
string.punctuation
'!"#$%&\'()*+,-./:;<=>[email protected][\\]^_'{|}~'
Это довольно распространенная проблема, и ее спросили до аномального тошноты. Самое идиоматическое решение использует pandas str.replace
. Однако для ситуаций, которые требуют большого количества текста, может потребоваться более эффективное решение.
Какие хорошие, эффективные альтернативы str.replace
при работе с сотнями тысяч записей?