Я очищаю набор исходных файлов PDF, используя Python. Получив их текст, у меня возникли проблемы с окончанием линии. Я не мог понять, что такое разделитель строк. Беда в том, что я до сих пор не знаю.
Это не '\n'
, или, я не думаю, '\r\n'
. Однако мне удалось выделить один из этих специальных символов. Я буквально имею его в памяти, и, совершив вызов my_str.replace(eol, '')
, я могу удалить все эти символы из одного из моих файлов.
Итак, мой вопрос открыт. Я немного потерял, когда дело доходит до unicode и т.д. Как я могу идентифицировать этого персонажа в своих файлах, не прибегая к чему-то смешному, например, сериализуя его, а затем читая его? Может быть, я могу ссылаться на него как на код, возможно? Я не могу заставить Python давать то, что на самом деле есть. Все, что я когда-либо видел, если я его печатаю, или вызов unicode(special_eol)
является символом в его функциональном использовании в качестве новой строки.
Пожалуйста, помогите! Спасибо, и извините, если я пропущу что-то очевидное.