У меня есть сервер сокетов, который должен получать действительные символы UTF-8 от клиентов.
Проблема заключается в том, что некоторые клиенты (в основном хакеры) отправляют через него все неправильные данные.
Я могу легко отличить подлинного клиента, но я регистрирую файлы всех отправленных данных, чтобы потом проанализировать их.
Иногда я получаю символы типа œ
, которые вызывают ошибку UnicodeDecodeError
.
Мне нужно сделать строку UTF-8 с этими символами или без них.
Update:
В моем конкретном случае служба сокетов была MTA, и поэтому я ожидаю получить команды ASCII, например:
EHLO example.com
MAIL FROM: <[email protected]>
...
Я записывал все это в JSON.
Тогда некоторые люди там без благих намерений решили продать все виды мусора.
Вот почему для моего конкретного случая вполне нормально снимать символы без ASCII.