Для текстового файла (или строки юникода), что является хорошим способом обнаружения символов, которые выходят за рамки кодировки ascii? Я мог бы просто перебрать каждый символ на ord()
, но мне интересно, есть ли более эффективный, элегантный или идиоматический способ сделать это.
Конечной целью здесь является компиляция списка символов в данных, которые не могут кодироваться в ascii.
В случае, если это имеет значение, размер моего корпуса составляет около 500 МБ /1200 текстовых файлов. Запуск (предварительно скомпилированный ваниль) Python 3.3.1 на Win7 (64 бит).