Немного поразмыслив о том, как разные люди пугают заголовки, я заметил, что он часто пропускает, как иметь дело с неанглийскими названиями.
кодировка url очень ограничительна. См. http://www.blooberry.com/indexdot/html/topics/urlencoding.htm
Итак, например, как люди обращаются к заглавным пулям для таких вещей, как
"Una lágrima cayó en la arena"
Можно найти разумную таблицу для индоевропейских языков, т.е. вещи, которые могут быть закодированы через ISO-8859-1. Например, таблица преобразования будет переводить 'á' = > 'a', поэтому slug будет
"уна-Lagrima-Кайо-ан-ла-Арена"
Тем не менее, я использую unicode (в частности, используя кодировку UTF-8), поэтому никаких гарантий относительно того, какие коды кода я собираюсь получить (я должен подготовиться к вещам, которые не могут быть ISO-8859- 1.
Я nushell. Как с этим справиться? Должен ли я придумать таблицу преобразования для символов в диапазоне ISO_8859-1 (< 255) и удалить все остальное?
РЕДАКТИРОВАТЬ. Чтобы дать немного больше контекста, априори, я действительно не ожидаю распространения данных на неиндоязычных языках, но я хотел бы иметь план, если я столкнусь с такими данные. Таблица преобразования для расширенного ASCII будет приятной. Любые указатели?
Кроме того, поскольку люди спрашивают, я использую python, работающий в Google App Engine