У меня есть функция, которая удаляет пунктуацию из списка строк:
def strip_punctuation(input):
x = 0
for word in input:
input[x] = re.sub(r'[^A-Za-z0-9 ]', "", input[x])
x += 1
return input
Недавно я изменил свой script, чтобы использовать строки Unicode, чтобы я мог обрабатывать другие незападные символы. Эта функция прерывается, когда она встречает эти специальные символы и просто возвращает пустые строки Unicode. Как я могу надежно удалить пунктуацию из строк в формате Unicode?