Как распознать специальный символ eol, когда я его вижу, используя Python?

Я очищаю набор исходных файлов PDF, используя Python. Получив их текст, у меня возникли проблемы с окончанием линии. Я не мог понять, что такое разделитель строк. Беда в том, что я до сих пор не знаю.

Это не '\n', или, я не думаю, '\r\n'. Однако мне удалось выделить один из этих специальных символов. Я буквально имею его в памяти, и, совершив вызов my_str.replace(eol, ''), я могу удалить все эти символы из одного из моих файлов.

Итак, мой вопрос открыт. Я немного потерял, когда дело доходит до unicode и т.д. Как я могу идентифицировать этого персонажа в своих файлах, не прибегая к чему-то смешному, например, сериализуя его, а затем читая его? Может быть, я могу ссылаться на него как на код, возможно? Я не могу заставить Python давать то, что на самом деле есть. Все, что я когда-либо видел, если я его печатаю, или вызов unicode(special_eol) является символом в его функциональном использовании в качестве новой строки.

Пожалуйста, помогите! Спасибо, и извините, если я пропущу что-то очевидное.

Ответ 1

Чтобы определить, какой именно характер, вы можете использовать str.encode('unicode_escape') или repr(), чтобы получить (в Python 2) ASCII- печатное представление символа:

>>> print u'☃'.encode('unicode_escape')
\u2603
>>> print repr(u'☃')
u'\u2603'