Мой код создает некоторый контент с сайта UserVoice. Как вы знаете, UserVoice - это дерьмовое программное обеспечение, которое не может правильно обрабатывать данные; действительно, чтобы уменьшить количество текста на странице поиска, они разрезают текст, допустим, 300 символов, а затем добавляют "..." до конца. Thing, , они не заботятся обрезать середину многобайтового символа, что приводит к частичному байту utf-8 ": например. для è char я получил \xc3 вместо \xc3\xa8s.
Конечно, когда я даю этот ужасный суп json.loads, он терпит неудачу с UnicodeDecodeError. Поэтому мой вопрос прост: как я могу попросить json.loads игнорировать эти плохие байты, как я бы это сделал, используя .decode('utf-8', 'ignore'), если бы у меня был доступ к внутренним функциям функции?
Спасибо.